JP2011242975A - 代表語抽出装置、代表語抽出方法および代表語抽出プログラム - Google Patents

代表語抽出装置、代表語抽出方法および代表語抽出プログラム Download PDF

Info

Publication number
JP2011242975A
JP2011242975A JP2010114051A JP2010114051A JP2011242975A JP 2011242975 A JP2011242975 A JP 2011242975A JP 2010114051 A JP2010114051 A JP 2010114051A JP 2010114051 A JP2010114051 A JP 2010114051A JP 2011242975 A JP2011242975 A JP 2011242975A
Authority
JP
Japan
Prior art keywords
word
group
document
index
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010114051A
Other languages
English (en)
Other versions
JP5411802B2 (ja
Inventor
Shoichi Nagano
翔一 長野
Yusuke Ichikawa
裕介 市川
Toru Kobayashi
透 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010114051A priority Critical patent/JP5411802B2/ja
Publication of JP2011242975A publication Critical patent/JP2011242975A/ja
Application granted granted Critical
Publication of JP5411802B2 publication Critical patent/JP5411802B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書群に含まれる文書の数に依存することなく文書群を代表する単語を抽出すること。
【解決手段】前処理部11は、代表語の抽出対象となる対象文書群を含む文書群を収集し、基準語取得部13は、代表語を抽出する基準となる基準語を取得する。そして、基準文書特定部14は、前処理部11から入力される文書群から基準語を含む基準文書を特定し、単語群抽出部15は、基準文書から基準語と基準語以外の単語とを単語群として抽出する。そして、指標算出部16は、抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する。そして、指標補正部17は、抽出された単語群の各単語に対して、全文書群における希少度と対象文書群における希少度とを算出し、算出した2つの希少度を用いて指標算出部16によって算出された指標を補正する。
【選択図】図3

Description

本発明は、代表語抽出装置、代表語抽出方法および代表語抽出プログラムに関する。
近年、インターネットの普及にともない、ウェブ上で提供される文書の情報量は、爆発的な増加傾向にある。このため、文書群を効率的に処理するために、文書群からキーワードとなる単語を抽出して、当該文書群に付与する手法の開発が求められている。かかる手法を用いることで、例えば、ユーザがウェブ上で閲覧した文書群に付与されたキーワードから、ユーザの行動目的を推定することが可能となる。
ここで、キーワードを抽出する手法は、出現頻度を利用した手法と共起頻度を利用した手法とに大別される。このうち、出現頻度を利用した手法は、複数の文書に対して出現する頻度の高い単語を優先して抽出するものであるが、この手法では、一般的で抽象度の高いキーワードを抽出する傾向がある。
一方、共起頻度を利用した手法は、文書群にて頻出する主要語と、当該文書群を構成する全単語との共起頻度を算出し、共起頻度が偏っている単語を当該文書群における特徴的なキーワードとして抽出するものである。この共起頻度を利用した手法によれば、具体性の高いキーワードを抽出することが可能である。
国際公開第2006/048998号
松尾 豊,石塚 満,語の共起の統計情報に基づく文書からのキーワード抽出アルゴリズム,人工知能学会論文誌,Vol.17,pp.217-223,2002.
しかしながら、上記した共起頻度を利用した手法では、文書群を代表する単語を抽出することができない場合があるという問題がある。具体的には、上記した手法では、文書群に含まれる文書の数が所定数よりも少ない場合に、共起頻度の算出精度が低下する。この場合、上記した手法では、共起頻度が偏っている単語を精度よく抽出することができず、文書群を代表する単語を抽出することができない。
開示の技術は、上記に鑑みてなされたものであって、文書群に含まれる文書の数に依存することなく文書群を代表する単語を抽出することができる代表語抽出装置、代表語抽出方法および代表語抽出プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本願の開示する代表語抽出装置は、一つの態様において、代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集手段と、前記代表語を抽出する基準となる単語である基準語を取得する基準語取得手段と、前記文書群収集手段によって収集された文書群から前記基準語取得手段によって取得された基準語を含む文書である基準文書を特定する基準文書特定手段と、前記基準文書特定手段によって特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出手段と、前記単語群抽出手段によって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出手段と、前記単語群抽出手段によって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した2つの希少度を用いて前記指標算出手段によって算出された指標を補正する指標補正手段とを備える。
また、本願の開示する代表語抽出方法は、一つの態様において、代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集ステップと、前記代表語を抽出する基準となる単語である基準語を取得する基準語取得ステップと、前記文書群収集ステップによって収集された文書群から前記基準語取得ステップによって取得された基準語を含む文書である基準文書を特定する基準文書特定ステップと、前記基準文書特定ステップによって前記文書群から特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出ステップと、前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出ステップと、前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した2つの希少度を用いて前記指標算出ステップによって算出された指標を補正する指標補正ステップとを含む。
また、本願の開示する代表語抽出プログラムは、一つの態様において、コンピュータを上記の代表語抽出装置として機能させる。
本願の開示する代表語抽出装置、代表語抽出方法および代表語抽出プログラムは、文書群に含まれる文書の数に依存することなく文書群を代表する単語を抽出することができるという効果を奏する。
図1は、実施例1における代表語抽出装置が組み込まれる代表語抽出システムの構成を説明するための図である。 図2は、閲覧履歴データを説明するための図である。 図3は、実施例1における代表語抽出装置の構成を説明するための図である。 図4は、前処理部を説明するための図である。 図5は、基準語DBの一例を示す図である。 図6は、基準文書特定部を説明するための図である。 図7は、単語群抽出部を説明するための図である。 図8は、指標算出部を説明するための図である。 図9は、指標補正部を説明するための図(その1)である。 図10は、指標補正部を説明するための図(その2)である。 図11は、実施例1における代表語抽出装置の処理手順を説明するためのフローチャートである。 図12は、実施例2の代表語抽出装置の処理対象となる文書群を説明するための図である。 図13は、実施例3における代表語抽出システムを説明するための図である。 図14は、代表語抽出プログラムを実行するコンピュータを示す図である。
以下に、本願の開示する代表語抽出装置、代表語抽出方法および代表語抽出プログラムの実施例を図面に基づいて詳細に説明する。
まず、実施例1における代表語抽出装置が組み込まれる代表語抽出システムについて、図1を参照して説明する。図1は、実施例1における代表語抽出装置が組み込まれる代表語抽出システムの構成を説明するための図である。
図1に示すように、実施例1における代表語抽出システムは、ユーザ端末1と、ウェブサーバ群2と、代表語抽出装置10とを有する。ユーザ端末1、ウェブサーバ群2および代表語抽出装置10は、例えば、インターネットなどの通信網3を介してそれぞれ接続されている。
ユーザ端末1は、特定のユーザが利用するPC(Personal Computer)であり、通信網3を介してウェブサーバ群2に対しウェブページの閲覧要求を送信したり、閲覧要求に応じてウェブサーバ群2が送信したデータに基づくウェブページをモニタに表示させたりするためのソフトウェア(ブラウザ)が組み込まれている。
また、ユーザ端末1は、閲覧履歴取得部1aと、内部情報処理部1bとを有する。閲覧履歴取得部1aは、ブラウザを起動させて閲覧要求を行った結果、ユーザが閲覧したウェブページの閲覧履歴データを時系列に沿って取得する。閲覧履歴取得部1aが取得する閲覧履歴データの具体例について、図2を用いて説明する。図2は、閲覧履歴データを説明するための図である。
例えば、閲覧履歴取得部1aにより取得される閲覧履歴データは、図2に示すように、処理番号、時間、URLおよびテキストを時系列で並べて構成されたデータである。ここで、閲覧履歴データとは、通信網を利用して、ユーザが閲覧したウェブページの閲覧行動の履歴を示す履歴データを指し、処理番号、時間、URLおよびテキストなどで構成されたデータを想定している。
処理番号は、ユーザ端末1を利用するユーザが行ったウェブページの閲覧順に割り振られる一意な自然数であり、例えば、図2に示すように、「1」から順番に割り振られる。時間は、ユーザがユーザ端末1を操作してウェブページを閲覧した瞬間の時刻情報であり、例えば、図2に示すように、西暦、月、日および時刻(時・分・秒)で構成される。例えば、図2の「時間:2009/11/10 12:26:53」は、「西暦2009年の11月10日の12時26分53秒」に「処理番号:1」の閲覧がユーザにより行われたことを示している。
また、URL(Uniform Resource Locator)は、通信網3と接続されるウェブサーバ群2にて、ユーザがアクセスしたウェブサーバ上の情報資源(ウェブページ)の場所を示す文字列であり、一般的に、ユーザ端末1で起動されたブラウザ上に表示されるアドレスのことである。例えば、図2に示す「http://aa」は、「処理番号1」にてユーザが閲覧したウェブページのURLを示している。また、テキストは、URLに対応するウェブページの含まれるテキスト(文書)のことであり、図2に示す閲覧履歴データにおいて、「テキスト」に格納されたデータの集合(文書群)が、後述する代表語抽出装置10による処理対象となる。
また、閲覧履歴取得部1aは、取得した閲覧履歴データを通信網3を介して代表語抽出装置10へ送信する。なお、閲覧履歴取得部1aが閲覧履歴データを代表語抽出装置10に送信するタイミングは、代表語抽出システムの管理者により任意に設定することができる。例えば、閲覧履歴取得部1aは、所定の周期(例えば、1日おき)ごとに、ユーザの複数の閲覧履歴データを代表語抽出装置10に送信する。
図1に戻って、内部情報処理部1bは、後述する代表語抽出装置10による処理結果を通信網3を介して取得し、取得した処理結果をモニタに表示する。また、内部情報処理部1bは、取得した処理結果に基づく所定の情報処理を行い、その情報処理結果をモニタに表示する。例えば、内部情報処理部1bは、代表語抽出装置10による処理結果に関連するキーワードがタグ付けされた広告や各種の記事等のコンテンツ情報を所定のDB(Database)から検索してその検索結果をモニタに表示する。また、例えば、内部情報処理部1bは、代表語抽出装置10による処理結果に対して閲覧傾向の分析等の分析処理を行い、その分析結果をモニタに表示する。
代表語抽出装置10は、ユーザ端末1から送信される閲覧履歴データに含まれる文書群に対する処理を実行する。具体的には、代表語抽出装置10は、閲覧履歴データに含まれる文書群を代表する単語を抽出する。
ここで、文書群を代表する単語(以下、「キーワード」という)を抽出する場合、共起頻度を利用する従来の手法では、文書群にて頻出する主要語と、当該文書群を構成する全単語との共起頻度を算出し、算出した共起頻度の偏りを基に単語をランク付けする。
ところが、従来の手法では、文書群に含まれる文書の数が過度に少ない場合には、共起頻度の算出精度が低下する。このため、従来の手法では、共起頻度そのものを指標とする限り、共起頻度が偏っている単語をキーワードとして精度良く抽出することが困難であった。
そこで、実施例1における代表語抽出装置10は、キーワードの抽出対象となる文書群を含む文書群から共起頻度等の指標を算出した後に、算出した指標を補正する処理を実行することにより、補正後の新たな指標を基に単語をランク付けすることを可能とする。
このような処理を実行するため、実施例1における代表語抽出装置10は、図3に示すように、前処理部11と、基準語DB12と、基準語取得部13と、基準文書特定部14と、単語群抽出部15と、指標算出部16と、指標補正部17とを有する。図3は、実施例1における代表語抽出装置10の構成を説明するための図である。
前処理部11は、代表語の抽出を行うための前処理を実行し、具体的には、代表語の抽出対象となる対象文書群を含む文書群を収集する。以下、前処理部11が実行する処理の具体的な一例について、図4を用いて説明する。図4は、前処理部を説明するための図である。
図4に示すように、前処理部11は、閲覧履歴取得部1aから入力される閲覧履歴データの文書群が日本語の場合ならば形態素解析により、または閲覧履歴データの文書群が英語の場合ならばTagger解析により各文書を単語に分割する。
さらに、前処理部11は、「形態素解析、またはTagger解析」の他に、図4に示すように、「スクレイピング」、「NGワード除去」、「特定素性の除去」および「複合語処理」を行う。
「スクレイピング」は、文書群全体において共通する部分を除去する処理であり、例えば、ウェブページにおいて本文部分以外に共通して混在するフレーム部分などを除去することで、テキストデータから本文部分を特定する。
「NGワード除去」は、例えば、ウェブページに混在する「ページ数」などのように、キーワードとして不適切な単語を除去するための処理である。なお、NGワードの種類は、代表語抽出装置10の管理者などにより適宜設定される。
「特定素性の除去」は、「形態素解析、またはTagger解析」により分割された単語から、名詞以外の単語など、代表語抽出装置10の管理者などにより設定された特定素性の単語を除去する。
「複合語処理」は、「形態素解析、またはTagger解析」により分割された単語に対して、例えば、代表語抽出装置10の管理者などにより設定されたルールに基づく処理や「n−gram」法などの処理を行うことで、連続的な複数の単語を結合して複合語を形成する。
さらに、前処理部11は、図4に示すように、文書群の各文書から分割した複数の単語(単語群)それぞれに対して、各単語が出現した文書における重要性を示す重要度を付与する「重要度付与」を行う。このようして、前処理部11に入力された文書群の各文書は、単語単位(図4の「word1、word2、word3、…)で分割され、さらに、複数の単語と重要度(図4の重要度「m」、「n」、「o」、…)とがセットで表現された状態となる。
なお、前処理部11による重要度の算出法は、代表語抽出装置10の管理者などにより設定された手法に基づいて実行される。例えば、前処理部11は、TF(Term Frequency)法、IDF(Inverse Document Frequency)法、連結コスト法、BM25法などの公知技術やその組み合わせにより算出した重要度を各単語に算出して付与する。
さらに、前処理部11は、図4に示すように、文書間の類似度を基に複数の文書をグループ(クラスタ)に分類する「クラスタリング」を実行する。具体的には、前処理部11は、「重要度付与」により複数の単語と重要度とがセットとなったセット情報にベクトル空間法を適用することにより、文書間の意味的類似度を算出する。なお、意味的類似度を算出する既存技術として、シソーラス階層やN−gram、編集距離を利用した手法を採用することもできる。そして、前処理部11は、算出した意味的類似度が所定の範囲に存在する文書の集合体をクラスタとして形成する。このようにして、前処理部11に入力された文書群は、クラスタ(図4の「クラスタ1」、「クラスタ2」、「クラスタ3」、…)に分類された状態となる。
さらに、前処理部11は、図4に示すように、「クラスタリング」により分類されたクラスタから代表語の抽出対象となる対象文書群を決定する。例えば、前処理部11は、「クラスタリング」により分類されたクラスタのうち、代表語抽出装置10の管理者などにより指定されたクラスタを対象文書群として決定する。このようにして、前処理部11に入力された文書群は、対象文書群(図4の「クラスタ1」)を含んだ状態となる。
上記した処理を行うことにより、前処理部11は、対象文書群(例えば、図4の「クラスタ1」)を含む文書群(例えば、図4の図4の「クラスタ1」、「クラスタ2」、「クラスタ3」、…から構成される文書群)を収集し、収集した文書群を基準文書特定部14に出力する。
図3に戻って、基準語DB12は、代表語を抽出する基準となる単語である基準語を記憶する。図5は、基準語DB12の一例を示す図である。図5に示すように、基準語DB12は、所定の分野に属する専門用語等を基準語として記憶する。図5に示す例では、服飾品分野に属するブランド名である「プラダ(登録商標)」、「シャネル(登録商標)」、「ヴィトン(登録商標)」、…が基準語として記憶されている。これら基準語は、代表語抽出装置10の管理者により予め設定されて記憶される。
基準語取得部13は、基準語を取得する。具体的には、基準語取得部13は、基準語DB12から基準語を取得して基準文書特定部14に出力する。基準文書特定部14は、前処理部11から入力される文書群から、基準語取得部13から入力される基準語を含む文書である基準文書を特定する。以下、基準文書特定部14が実行する処理の具体的な一例について、図6を用いて説明する。図6は、基準文書特定部14を説明するための図である。ここでは、基準語取得部13から入力される基準語は、図5に示した基準語DB12から取得された基準語であるものとする。
具体的には、基準文書特定部14は、前処理部11から対象文書群を含む文書群を受け付けると、受け付けた文書群の全文書に対して、基準語取得部13から入力される基準語が文書中に含まれるか否かを判定する。図6の例では、基準文書特定部14は、前処理部11から4つの文書からなる対象文書群を含む文書群を受け付けると、対象文書群の4つの文書及びその他の文書に対して、基準語「プラダ」、「シャネル」、「ヴィトン」、…が含まれるか否かを判定する。
そして、基準文書特定部14は、受け付けた文書群の全文書のうち、基準語取得部13から入力される基準語が文書中に含まれると判定された文書を基準文書として特定する。図6の例では、基準文書特定部14は、受け付けた文書群の全文書のうち、基準語「プラダ」、「シャネル」、「ヴィトン」、…を含むと判定された4つの文書を基準文書として特定する。
図3に戻って、単語群抽出部15は、基準文書特定部14によって特定された基準文書から基準語と基準語以外の単語とを単語群として抽出する。図7は、単語群抽出部15を説明するための図である。
例えば、単語群抽出部15は、図7に示すように、基準文書特定部14によって特定された基準語「プラダ」、「シャネル」、「ヴィトン」、…を含む4つの基準文書から基準語と基準語以外の単語とを単語群として抽出する。すなわち、単語群抽出部15は、図7の最も左側の基準文書から基準語「プラダ」と基準語以外の単語「セール品」とを抽出する。また、単語群抽出部15は、図7の左から2番目の基準文書から基準語「シャネル」および「ヴィトン」と基準語以外の単語「高級感」とを抽出する。また、単語群抽出部15は、図7の左から3番目の基準文書から基準語「プラダ」と基準語以外の単語「セール品」とを抽出する。また、単語群抽出部15は、図7の左から4番目の基準文書から基準語「ヴィトン」および「シャネル」と基準語以外の単語「高級感」および「セール品」とを抽出する。そして、単語群抽出部15は、抽出した基準語と基準語以外の単語とから重複する単語を除外して単語群(「セール品」、「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…)を生成する。
図3に戻って、指標算出部16は、単語群抽出部15によって抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する。図8は、指標算出部16を説明するための図である。
具体的には、指標算出部16は、「指標算出アルゴリズム」により、単語群抽出部15によって抽出された単語群の各単語「a」に対して、基準語「A」との共起回数の大小に応じて値が増減する指標を算出する。例えば、指標算出部16は、図8の(A)に示す「指標算出式」として設定された「指標(共起頻度)=m」または「指標(jaccard係数)=m/n」を用いて基準語「A」に対する単語「a」の指標を算出する。なお、「指標算出式」として「指標(共起頻度)=m」または「指標(jaccard係数)=m/n」のいずれを用いるかは、代表語抽出装置10の管理者により予め設定される。
ここで、図8の(A)に示す「指標算出式」において、「m」は、「基準語Aの出現する文書の中で単語aの出現する文書数」であり、図8の(A)のベン図の(2)に分類される文書の数である。また、「n」は、「基準語Aまたは単語aの出現する文書数」であり、図8の(A)のベン図の(1)と(2)と(3)とに分類される文書の数である。
かかる処理により、指標算出部16は、例えば、図8の(B)に示すように、単語群抽出部15によって抽出された単語群(「セール品」、「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…)の各単語に対して、指標「x1」、「x2」、「x3」、「x4」、「x5」、…をそれぞれ算出する。
図3に戻って、指標補正部17は、単語群抽出部15によって抽出された単語群の各単語に対して、文書群における希少度と文書群に含まれる対象文書群における希少度とを算出する。そして、指標補正部17は、算出した2つの希少度を用いて指標算出部16によって算出された指標を補正する。以下、指標補正部17が実行する処理の具体的な一例について、図9および図10を用いて説明する。図9および図10は、指標補正部17を説明するための図である。
図9に例示するように、指標補正部17は、単語群抽出部15によって抽出された単語群(「セール品」、「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…)の各単語に対して、全文書群における出現文書数と対象文書群における出現文書数とを算出する。すなわち、指標補正部17は、単語「セール品」に対して、全文書群における出現文書数「y1」と対象文書群における出現文書数「z1」とを算出する。同様に、指標補正部17は、単語「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…に対して、全文書群における出現文書数「y2」、「y3」、「y4」、「y5」、…と対象文書群における出現文書数「z2」、「z3」、「z4」、「z5」、…とをそれぞれ算出する。
そして、指標補正部17は、算出した2つの出現文書数の比を指標算出部16によって算出された指標に乗算することにより当該指標を補正する。すなわち、指標算出部16は、単語「セール品」について、算出した2つの出現文書数の比「z1/y1」を単語「セール品」の指標「x1」に乗算することにより、指標「x1」を補正した値である補正値「w1」を算出する。同様にして、指標算出部16は、単語「高級感」、「プラダ」、「シャネル」、「ヴィトン」、…について、指標「x2」、「x3」、「x4」、「x5」、…を補正した値である補正値「w2」、「w3」、「w4」、「w5」、…をそれぞれ算出する。
そして、指標補正部17は、単語群抽出部15によって抽出された単語群の各単語に対して、補正後の指標(補正値)を新たな指標として付与する。このようにして、指標補正部17に単語群抽出部15から入力された単語群は、複数の単語と指標とがセットで表現された状態となる。例えば、図10に示すように、指標補正部17は、「セール品」および指標「w1」と、「高級感」および指標「w2」と、「プラダ」および指標「w3」と、「シャネル」および指標「w4」と、「ヴィトン」および指標「w5」とがセットとなった情報を出力する。
なお、指標補正部17により算出される単語群の各単語に対する希少度は、図9で説明したように、単語群の各単語に対する出現文書数により算出される場合に限定されるものではない。例えば、指標補正部17により算出される単語群の各単語に対する希少度は、単語群の各単語に対してTF法やIDF法を適用することでそれぞれ算出される値として算出される場合であってもよい。
また、指標補正部17により指標に乗算される値は、図9で説明したように、全文書群における出現文書数と対象文書群における出現文書数との比に限定されるものではない。例えば、全文書群における出現文書数の対数値と対象文書群における出現文書数の対数値との比を指標に乗算する場合であってもよい。あるいは、全文書群における出現文書数の対数値に「1」を加算した値と対象文書群における出現文書数の対数値に「1」を加算した値との比を指標に乗算する場合であってもよい。
次に、図11を用いて、実施例1における代表語抽出装置10の処理手順について説明する。図11は、実施例1における代表語抽出装置10の処理手順を説明するためのフローチャートである。
図11に示すように、代表語抽出装置10は、ユーザ端末1のユーザや代表語抽出装置10の管理者から代表語抽出要求を受け付けると(ステップS101)、前処理部11は、形態素解析、対象文書群決定などの前処理を実行する(ステップS102)。すなわち、前処理部11は、代表語の抽出対象となる対象文書群を含む文書群を収集し、収集した文書群を基準文書特定部14に出力する。
そして、基準語取得部13は、基準語DB12から基準語を取得して基準文書特定部14に出力し(ステップS103)、基準文書特定部14は、前処理部11から入力される文書群から基準語を含む基準文書を特定する(ステップS104)。
続いて、単語群抽出部15は、基準文書から基準語と基準語以外の単語とを単語群として抽出し(ステップS105)、指標算出部16は、抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する(ステップS106)。例えば、指標算出部16は、図8の(A)に示す指標算出式「指標(共起頻度)=m」または「指標(jaccard係数)=m/n」を用いて各単語の指標を算出する。
続いて、指標補正部17は、抽出された単語群の各単語に対して、全文書群における希少度と対象文書群における希少度とを算出し(ステップS107)、算出した2つの希少度を用いて指標算出部16によって算出された指標を補正する(ステップS108)。例えば、指標補正部17は、抽出された単語群の各単語に対して、全文書群における出現文書数と対象文書群における出現文書数とを算出し、算出した2つの出現文書数の比を指標に乗算することにより当該指標を補正する。
そして、指標補正部17は、単語群の各単語に対して補正後の指標(補正値)を新たな指標として付与し、複数の単語と指標とがセットとなった情報を処理結果としてユーザ端末1に出力し(ステップS109)、処理を終了する。その後、ユーザ端末1の内部情報処理部1bは、代表語抽出装置10による処理結果を通信網3を介して取得し、取得した処理結果や当該処理結果に基づく情報処理結果をモニタに表示する。
上述してきたように、実施例1では、前処理部11は、代表語の抽出対象となる対象文書群を含む文書群を収集し、基準語取得部13は、代表語を抽出する基準となる基準語を取得する。そして、基準文書特定部14は、前処理部11から入力される文書群から基準語を含む基準文書を特定し、単語群抽出部15は、基準文書から基準語と基準語以外の単語とを単語群として抽出する。そして、指標算出部16は、抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する。そして、指標補正部17は、抽出された単語群の各単語に対して、全文書群における希少度と対象文書群における希少度とを算出し、算出した2つの希少度を用いて指標算出部16によって算出された指標を補正する。
したがって、実施例1によれば、代表語の抽出対象となる対象文書群を含む文書群から共起頻度等の指標を算出した後に、算出した指標を補正するので、共起頻度自体を指標とする従来の手法と異なり、補正後の指標を基に単語をランク付けすることが可能となる。その結果、実施例1によれば、文書群に含まれる文書の数に依存することなく文書群を代表するキーワードを抽出することが可能となる。
実施例2では、時系列の情報を有さない複数の文書が処理対象となる場合について、図12を用いて説明する。図12は、実施例2の代表語抽出装置の処理対象となる文書群を説明するための図である。
実施例2における代表語抽出装置10は、図1で説明したような代表語抽出システムに設置される。そして、代表語抽出装置10は、図12に示すように、代表語抽出装置10を利用するユーザが処理対象として指定した時系列の情報を有さない「xx学会要旨集」などの文書群に対して実施例1で説明したような複数の単語と指標とがセットとなった情報を処理結果として出力する。
ここで、指定した文書群がアナログデータである場合、図12に示すように、文字認識などの手法により文書群のデジタル化が行われたのち、指定された文書群は、代表語抽出装置10に入力される。
これにより、ユーザ端末1の内部情報処理部1bは、処理結果に基づいて、例えば、目次を生成することが可能となる。また、ユーザ端末1の内部情報処理部1bは、処理結果に基づいて、「xx学会」に所属する研究者の研究開発のトレンドを抽出することが可能となる。また、ユーザ端末1の内部情報処理部1bは、処理結果に基づいて、「xx学会」に所属する研究者の研究分野におけるシソーラスを構築することが可能となる。また、専門分野の書籍や、特定の著者の文書や、特定のユーザが好む文書群などを処理対象とすることで、該当する専門分野や特定の著者や特定のユーザの嗜好するシソーラスを構築することが可能となる。
ところで、本発明の代表語抽出装置10と従来方式の代表語抽出装置とを併用する代表語抽出システムを構築することもできる。そこで、以下の実施例3では、本発明の代表語抽出装置10と従来方式の代表語抽出装置とを併用する代表語抽出システムについて説明する。図13は、実施例3における代表語抽出システムを説明するための図である。
図13に示すように、実施例3における代表語抽出システムは、代表語抽出装置10と、従来方式の代表語抽出装置20とを含む。代表語抽出装置10は、実施例1や実施例2で既に説明した代表語抽出装置10と同様であるためその説明を省略する。
従来方式の代表語抽出装置20は、キーワードを抽出する手法として、出現頻度を利用する手法や共起頻度を利用する手法などの従来の手法を実行する。例えば、従来方式の代表語抽出装置20は、出現頻度を利用する手法としてTF/IDF法を実行したり、共起頻度を利用する手法として「非特許文献1」に掲載された手法を実行する。
このような構成の下で、実施例3における代表語抽出システムは、実施例1や実施例2で説明した文書群に対して例えばk−means法などのクラスタリングを実行し、当該文書群をクラスタに分類する。そして、代表語抽出システムは、分類したクラスタ内の文書数を閾値判定する。
クラスタ内の文書数が所定の閾値以下である場合には、代表語抽出システムは、代表語抽出装置10に代表語抽出処理を実行させる。一方、クラスタ内の文書数が所定の閾値を超過する場合には、代表語抽出システムは、従来方式の代表語抽出装置20に代表語抽出処理を実行させる。
これにより、実施例3では、本発明の代表語抽出装置10と従来方式の代表語抽出装置とを併用することができる。このため、実施例3によれば、大量の文書から所望の文書を探索するScatter/Gather法等において、文書群に含まれる文書の数に依存することなく文書群を代表するキーワードを抽出することができる。
ところで、上記の実施例で説明した代表語抽出装置10の各種の処理(例えば、図11等参照)は、あらかじめ用意されたプログラムをパーソナルコンピュータなどのコンピュータで実行することによって実現することができる。以下では、図14を用いて、上記の実施例と同様の機能を有する代表語抽出プログラムを実行するコンピュータの一例を説明する。図14は、代表語抽出プログラムを実行するコンピュータを示す図である。
同図に示すように、代表語抽出装置としてのコンピュータ100は、通信制御部110、HDD(Hard Disk Drive)120、RAM(Random Access Memory)130およびCPU(Central Processing Unit)140をバス200で接続して構成される。
このうち、通信制御部110は、ユーザ端末1との間でやりとりされる各種データに関する通信を制御する。HDD120は、CPU140による各種処理の実行に必要な情報を記憶する。RAM130は、各種情報を一時的に記憶する。CPU140は、各種演算処理を実行する。
そして、HDD120には、図14に示すように、上記の実施例に示した代表語抽出装置10が有する各機能部と同様の機能を発揮する代表語抽出プログラム121と、代表語抽出データ122とがあらかじめ記憶されている。なお、この代表語抽出プログラム121を適宜分散させて、ネットワークを介して通信可能に接続された他のコンピュータの記憶部に記憶させておくこともできる。
そして、CPU140が、この代表語抽出プログラム121をHDD120から読み出してRAM130に展開することにより、図14に示すように、代表語抽出プログラム121は代表語抽出プロセス131として機能するようになる。すなわち、代表語抽出プロセス131は、代表語抽出データ122等をHDD120から読み出して、RAM130において自身に割り当てられた領域に展開し、この展開したデータ等に基づいて各種処理を実行する。なお、代表語抽出プロセス131は、上記の実施例で説明した代表語抽出装置10の処理機能部(前処理部11、基準語取得部13、基準文書特定部14、単語群抽出部15、指標算出部16および指標補正部17等)において実行される処理にそれぞれ対応する。
なお、上記した代表語抽出プログラム121については、必ずしも最初からHDD120に記憶させておく必要はなく、例えば、コンピュータ100に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ100がこれらから各プログラムを読み出して実行するようにしてもよい。
1 ユーザ端末
1a 閲覧履歴取得部
1b 内部情報処理部
2 ウェブサーバ群
3 通信網
10 代表語抽出装置
11 前処理部
12 基準語DB
13 基準語取得部
14 基準文書特定部
15 単語群抽出部
16 指標算出部
17 指標補正部

Claims (7)

  1. 代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集手段と、
    前記代表語を抽出する基準となる単語である基準語を取得する基準語取得手段と、
    前記文書群収集手段によって収集された文書群から前記基準語取得手段によって取得された基準語を含む文書である基準文書を特定する基準文書特定手段と、
    前記基準文書特定手段によって特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出手段と、
    前記単語群抽出手段によって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出手段と、
    前記単語群抽出手段によって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した2つの希少度を用いて前記指標算出手段によって算出された指標を補正する指標補正手段と
    を備えたことを特徴とする代表語抽出装置。
  2. 前記指標補正手段は、前記単語群抽出手段によって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した2つの希少度の比を前記指標算出手段によって算出された指標に乗算することにより当該指標を補正することを特徴とする請求項1に記載の代表語抽出装置。
  3. 前記指標算出手段によって算出される指標は、共起頻度又はjaccard係数であることを特徴とする請求項1又は2に記載の代表語抽出装置。
  4. 前記文書群は、ユーザが所定の期間に渡って時系列に沿ってウェブ上で閲覧したウェブページに含まれる複数の文書であることを特徴とする請求項1〜3のいずれか一つに記載の代表語抽出装置。
  5. 前記文書群は、時系列の情報を有さない複数の文書であることを特徴とする請求項1〜3のいずれか一つに記載の代表語抽出装置。
  6. 代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集ステップと、
    前記代表語を抽出する基準となる単語である基準語を取得する基準語取得ステップと、
    前記文書群収集ステップによって収集された文書群から前記基準語取得ステップによって取得された基準語を含む文書である基準文書を特定する基準文書特定ステップと、
    前記基準文書特定ステップによって前記文書群から特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出ステップと、
    前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出ステップと、
    前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した2つの希少度を用いて前記指標算出ステップによって算出された指標を補正する指標補正ステップと
    を含んだことを特徴とする代表語抽出方法。
  7. コンピュータを請求項1〜5のいずれか一つに記載の代表語抽出装置として機能させることを特徴とする代表語抽出プログラム。
JP2010114051A 2010-05-18 2010-05-18 代表語抽出装置、代表語抽出方法および代表語抽出プログラム Expired - Fee Related JP5411802B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010114051A JP5411802B2 (ja) 2010-05-18 2010-05-18 代表語抽出装置、代表語抽出方法および代表語抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010114051A JP5411802B2 (ja) 2010-05-18 2010-05-18 代表語抽出装置、代表語抽出方法および代表語抽出プログラム

Publications (2)

Publication Number Publication Date
JP2011242975A true JP2011242975A (ja) 2011-12-01
JP5411802B2 JP5411802B2 (ja) 2014-02-12

Family

ID=45409562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010114051A Expired - Fee Related JP5411802B2 (ja) 2010-05-18 2010-05-18 代表語抽出装置、代表語抽出方法および代表語抽出プログラム

Country Status (1)

Country Link
JP (1) JP5411802B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
US20220374950A1 (en) * 2019-10-15 2022-11-24 Nec Corporation Consideration calculation device, control method, and non-transitory storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006048998A1 (ja) * 2004-11-05 2006-05-11 Intellectual Property Bank Corp. キーワード抽出装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006048998A1 (ja) * 2004-11-05 2006-05-11 Intellectual Property Bank Corp. キーワード抽出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
US20220374950A1 (en) * 2019-10-15 2022-11-24 Nec Corporation Consideration calculation device, control method, and non-transitory storage medium

Also Published As

Publication number Publication date
JP5411802B2 (ja) 2014-02-12

Similar Documents

Publication Publication Date Title
Kotov et al. Modeling and analysis of cross-session search tasks
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
US8108405B2 (en) Refining a search space in response to user input
Ooi et al. A survey of query expansion, query suggestion and query refinement techniques
CN103455487B (zh) 一种搜索词的提取方法及装置
US8271502B2 (en) Presenting multiple document summarization with search results
US9785704B2 (en) Extracting query dimensions from search results
US20130024448A1 (en) Ranking search results using feature score distributions
WO2008106667A1 (en) Searching heterogeneous interrelated entities
JP2008542951A (ja) 関連性ネットワーク
Makvana et al. A novel approach to personalize web search through user profiling and query reformulation
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
JP2007241888A (ja) 情報処理装置および方法、並びにプログラム
Fejer et al. Automatic Arabic text summarization using clustering and keyphrase extraction
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Grahl et al. Conceptual Clustering of Social Bookmarking Sites.
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5411802B2 (ja) 代表語抽出装置、代表語抽出方法および代表語抽出プログラム
JP5474455B2 (ja) 文書群処理装置、文書群処理方法および文書群処理プログラム
JP6196200B2 (ja) ラベル抽出装置、ラベル抽出方法およびプログラム
JP4796527B2 (ja) ドキュメント絞り込み検索装置、方法及びプログラム
JP2006099753A (ja) 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JP2012104051A (ja) 文書インデックス作成装置
Moumtzidou et al. Discovery of environmental nodes in the web

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131108

R150 Certificate of patent or registration of utility model

Ref document number: 5411802

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees