JP2007172179A - 意見抽出装置、意見抽出方法、および意見抽出プログラム - Google Patents
意見抽出装置、意見抽出方法、および意見抽出プログラム Download PDFInfo
- Publication number
- JP2007172179A JP2007172179A JP2005367135A JP2005367135A JP2007172179A JP 2007172179 A JP2007172179 A JP 2007172179A JP 2005367135 A JP2005367135 A JP 2005367135A JP 2005367135 A JP2005367135 A JP 2005367135A JP 2007172179 A JP2007172179 A JP 2007172179A
- Authority
- JP
- Japan
- Prior art keywords
- expression
- evaluation
- opinion
- attribute expression
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】対象に固有の属性表現を含む意見を、人手による属性表現辞書の作成を必要とせずに抽出する。
【解決手段】対象物固有属性表現抽出手段25が、対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書が含む単語列の中で、特に少数の対象に強く関係する単語列を対象物固有属性表現として抽出する。意見抽出手段21が、対象物固有属性表現抽出手段25が抽出した対象物固有属性表現、属性表現記憶部23が記憶している属性表現、および評価表現記憶部24が記憶している評価表現にもとづいて、意見を抽出する。
【選択図】図1
【解決手段】対象物固有属性表現抽出手段25が、対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書が含む単語列の中で、特に少数の対象に強く関係する単語列を対象物固有属性表現として抽出する。意見抽出手段21が、対象物固有属性表現抽出手段25が抽出した対象物固有属性表現、属性表現記憶部23が記憶している属性表現、および評価表現記憶部24が記憶している評価表現にもとづいて、意見を抽出する。
【選択図】図1
Description
本発明は、文書から対象に関係する属性表現を含む意見の抽出を、人手による属性表現辞書の作成を必要とせずに行う意見抽出装置、意見抽出方法、および意見抽出プログラムに関する。
意見は、商品購入前の事前調査や、企業の市場調査等のマーケティングに重要な情報である。また、意見は、アンケートや、企業の問い合わせ窓口への問い合わせデータ、電子メール、報告書類、ワールドワイドウェブの掲示板データ等、さまざまな文書に含まれている。
ここで、意見とは、特定の対象に対する肯定または否定の評価を示す情報のほか、トラブルや問題を報告したクレーム、改善点等を指摘した要望を含む。
さまざまな情報が記述されている文書から、意見が記述されている箇所を抽出する技術(意見抽出技術)は重要である。ワールドワイドウェブの掲示板や、電子メール、報告書類等には多くの意見が記述されているが、それらは意見そのものを記述することを目的とした文書ではないため、意見とは無関係の情報も含まれているためである。
なお、本明細書では、意見抽出を、文書から属性表現と評価表現とのペア(組)を抽出することとして説明する。なお、属性表現とは、対象を評価する観点を示す表現であり、評価表現とは、対象の評価を示す肯定や否定等の表現である。ここで、下記に示す例では(a)の文および(b)の文から、「属性表現=デザイン, 評価表現=良い」のペア(組)を抽出する。
(a):デザインが良い。(b):デザインの方に関しては、良い出来といえるだろう。
意見抽出のためには、事前に用意した属性表現の辞書と評価表現の辞書とを用いることが一般的である。非特許文献1および非特許文献2には、事前に用意した属性表現の辞書と評価表現の辞書とを用いて意見抽出を行う方法について記載されている。
そのような方法を用いる場合には、上記の(a)の文および(b)の文から、「属性表現=デザイン, 評価表現=良い」のペア(組)を抽出するために、予め「デザイン」が属性表現の辞書に登録されている必要があり、「良い」が評価表現の辞書に登録されている必要がある。
属性表現や評価表現は、分野毎に異なる表現が用いられることが多いので、新しい分野で意見抽出を行う場合には、新しい辞書を改めて作成する必要がある。このような辞書を、人手で分野毎に作成するのは多大な労力が必要であり、自動的に作成されることが望ましい。
属性表現の辞書を自動的に作成する従来技術として、非特許文献3に記載されている方法がある。非特許文献3に記載されている方法は、属性表現に該当する表現を「feature term」と呼び、文書に付与された分野を示すラベルを利用して特徴語抽出することにより、属性表現辞書を自動作成する。
特徴語抽出では、対数尤度比の値が閾値以上の値を持つ語を特徴語であると判定している。対数尤度比は、着目する一方の分野では出現頻度が高いが、他方の分野では出現頻度が低い語の値が大きくなる。
非特許文献3には、デジタルカメラ分野の意見抽出を行う場合を例として、デジタルカメラ分野のレビュー記事群と、時事問題に関するニュース記事群とを比較して、デジタルカメラ分野のレビュー記事には多く出現するが、時事問題に関するニュース記事には少なく出現する語を特徴語(すなわち属性表現)として抽出していることが記載されている。
例えば、下記の例1に示す場合には、レビュー記事に偏って出現する語の対数尤度比は大きくなり、属性表現になりやすい(すなわち、抽出されやすい。)。しかし、例2のように両者が均等に近い状態で出現する語の対数尤度比は小さくなり、属性表現になりにくい(すなわち、抽出されにくい。)。
例1)
(a)レビュー記事におけるある語が出現する文書数:100文書
(b)ニュース記事におけるある語が出現する文書数:0文書
(c)レビュー記事における総文書数:2000文書
(d)ニュース記事における総文書数:2000文書
例2)
(a)レビュー記事におけるある語が出現する文書数:100文書
(b)ニュース記事におけるある語が出現する文書数:60文書
(c)レビュー記事における総文書数:2000文書
(d)ニュース記事における総文書数:2000文書
(a)レビュー記事におけるある語が出現する文書数:100文書
(b)ニュース記事におけるある語が出現する文書数:0文書
(c)レビュー記事における総文書数:2000文書
(d)ニュース記事における総文書数:2000文書
例2)
(a)レビュー記事におけるある語が出現する文書数:100文書
(b)ニュース記事におけるある語が出現する文書数:60文書
(c)レビュー記事における総文書数:2000文書
(d)ニュース記事における総文書数:2000文書
非特許文献3には、このような特徴語抽出を行った結果として、デジタルカメラに関して、「camera,picture,flash,lens,battery」という語が属性表現として抽出されたことが記載されている。
属性表現の辞書を自動的に作成する別の従来技術として、固有表現抽出技術を応用する方法がある。この方法は、新聞記事等の文書から「組織名」、「人名」、「地名」等の固有表現を抽出する方法としてよく用いられる。固有表現抽出技術の最も基本的な方法は、辞書と固有表現を特徴づける表現内部や周囲の文字列とを手がかりとして抽出する方法である。非特許文献4には、そのような方法が記載されている。
具体的には、非特許文献4には、予め人手で作成した固有表現抽出用の辞書とパターンマッチングルールとを用いて日本語固有表現を抽出する方法について記載されている。この方法では、予め固有表現抽出用の辞書を用意しておき、人名では「佐藤」、「山田」といった頻出する固有表現を、この辞書を用いて抽出することができる。
また、辞書に登録されていない人名であっても、{未知語+人名共起語}といったパターンを用意しておき、パターンに当てはまる語を、人名である判定できる。ここで、人名共起語とは、「さん」、「氏」というような人名の後につきやすく、人名を判定するためのキーワードとなる語である。
非特許文献5には、固有表現抽出の難易度を示す定義と、その定義にもとづく固有表現抽出方法の評価結果が記載されている。
非特許文献6には、文書に対する語の偏りを用い、カイ二乗値が大きいほど関連度が高いとして特徴語を抽出する方法について記載されている。
非特許文献7には、単語列(用語)が関連するカテゴリ数が少ないほど関連度が高いとする方法を用いて、単語列(用語)を抽出する方法と、その評価結果とが記載されている。
特許文献1には、文書に対する語の偏りを用いて、特徴語を抽出する方法について記載されている。
立石健二,福島俊一,小林のぞみ,高橋哲朗,藤田篤,乾健太郎,松本裕治,「Web文書集合からの意見情報抽出と着眼点に基づく要約作成」,第163回 自然言語処理研究会 情報処理学会研究報告,社団法人情報処理学会、2004年9月,p.1−8
飯田龍,小林のぞみ,松本裕治,立石健二,福島俊一,「機械学習を用いた属性と評価値の対の抽出」,第165回 自然言語処理研究会 情報処理学会研究報告,社団法人情報処理学会、2005年1月,p.21−28
ヨンヒ イ(Jeonghee Yi),ウェイン ニブラック(Wayne Niblack),「センティメントマイニングインウェブファウンテン(Sentiment Mining in WebFountain)」,第21回インターナショナルカンファレンスオンデータエンジニアリング(21st International conference on Data Engineering(ICDE’05))、アイトリプルイーコンピュータソサイエティ(IEEE Computer Society),2005年,p.1073−1083
竹元義美,福島俊一,山田洋志,「辞書およびパターンマッチングルールの増強と品質強化に基づく日本語固有表現抽出」,情報処理学会論文誌,社団法人情報処理学会,2001年,第42巻,第6号別冊,p.1580−1591
野畑周,関根聡,辻井潤一,「日本語固有表現抽出の難易度を示す指標の提案と評価」,言語処理学会誌 自然言語処理,言語処理学会,2003年,Vol.10,No.1,p.3−26
長尾真,水谷幹男,池田浩之,「日本語文献における重要語の自動抽出」,情報処理,社団法人情報処理学会,1976年,Vol.17,No.2,p.110−117
内元清貴,関根聡,村田真樹,小作浩美,井佐原均,「異分野コーパスを用いた用語抽出」,プロシーディングスオブザファーストエンティサイルワークショップオンリサーチインジャパニーズテキストリトリーバルアンドタームリコグニション(Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition),国立情報学研究所,1999年,p.444−450
特開2003−141134号公報(段落0025〜0091、図1)
非特許文献1および非特許文献2に記載されている方法は、人手による属性表現辞書の作成を必要とするため、手間がかかる。
非特許文献3に記載されている方法や、特許文献1に記載されている方法は、着目する分野全体では多く使われないが、ある特定の対象でのみ多く使われる属性表現を抽出することができない。ここで、対象とは、商品名や、製品名、サービス名、企業名、人名等である。
例えば、テレビ番組の分野ではテレビ番組毎にその番組の登場人物名や、俳優名、地名、テーマ曲名等を属性表現として抽出すべきであるが、これらはその番組以外で使われることは少なく、テレビ番組の分野全体としては出現頻度が少ないため、非特許文献3や、特許文献1に記載されている方法では抽出できない可能性が高い。
例えば、非特許文献3に記載されている方法で、下記の例3に示す分布であった場合に、対数尤度比は、上述した例2で示した場合よりも低い値になるため、閾値未満であるとして、属性表現として抽出されにくい。
例3)
(a)テレビ番組記事におけるある語が出現する文書数:5文書
(b)ニュース記事におけるある語が出現する文書数:0文書
(c)テレビ番組記事における総文書数:2000文書
(d)ニュース記事における総文書数:2000文書
(a)テレビ番組記事におけるある語が出現する文書数:5文書
(b)ニュース記事におけるある語が出現する文書数:0文書
(c)テレビ番組記事における総文書数:2000文書
(d)ニュース記事における総文書数:2000文書
また、非特許文献5には、例えば、非特許文献4に記載されているような固有表現抽出を利用する方法は、予め辞書で用意することが困難である頻出でない固有表現や、人名の「さん」、「氏」といった手がかりが少ない製品名等の固有物に対しては抽出が難しいことが記載されている。
すなわち、非特許文献4に記載されている方法では、すべての属性表現を抽出することはできない。例えば、テレビ番組の分野では、あるテレビ番組の登場人物名や、架空の地名、テーマ曲名を抽出することが難しいことが予想される。
そこで、本発明は、文書から対象に関係する属性表現を含む意見の抽出を、人手による属性表現辞書の作成を必要とせずに行う意見抽出装置、意見抽出方法、および意見抽出プログラムを提供することを目的とする。
本発明による意見抽出装置は、文書から対象の評価を示す意見を抽出する意見抽出装置であって、文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出手段と、評価を示す評価表現を記憶する評価表現記憶手段と、対象の評価の観点を示す属性表現を記憶または生成する属性表現提供手段と、対象物固有属性表現抽出手段が抽出した対象物固有属性表現と、属性表現提供手段が提供した属性表現と、評価表現記憶手段が記憶している評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出手段とを備えたことを特徴とする。
対象物固有属性表現抽出手段は、対象毎に単語列の出現頻度を計算する単語列出現頻度計算手段と、単語列出現頻度計算手段の計算結果にもとづいて、対象に対する単語列の関連度を計算し、関連度が所定の閾値以上である場合に、単語列を対象物固有属性表現として抽出するスコア計算手段とを含んでもよい。
スコア計算手段は、単語列の対象に対する出現頻度の偏りをエントロピー関数を用いて計算し、計算結果が所定の閾値以下である場合に、関連度が所定の閾値以上であると判定し、関連度が所定の閾値以上である単語列を対象物固有属性表現として抽出してもよい。
意見抽出手段は、文書が含む1つの文に、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組が含まれている場合に、その組を意見候補として抽出し、抽出した意見候補うち、予め用意された抽出パタンを満たす対象物固有属性表現と評価表現との組、または属性表現と評価表現との組を、意見として抽出してもよい。
対象物固有属性表現抽出手段が抽出した対象物固有属性表現を記憶する対象物固有属性表現記憶手段を含んでもよい。
本発明による意見抽出方法は、文書から対象の評価を示す意見を抽出する意見抽出方法であって、文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出し、抽出した対象物固有属性表現と、予め記憶手段に記憶され、対象の評価の観点を示す属性表現と、予め記憶手段に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出することを特徴とする。
本発明による意見抽出プログラムは、文書から対象の評価を示す意見を抽出する意見抽出プログラムであって、コンピュータに、文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出処理と、対象物固有属性表現抽出処理で抽出した対象物固有属性表現と、予め記憶手段に記憶され、対象の評価の観点を示す属性表現と、予め記憶手段に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出処理とを実行させることを特徴とする。
本発明によれば、対象に固有の属性表現を含む意見を、人手による属性表現辞書の作成を必要とせずに抽出することができる。その理由は、文書に含まれる単語列の中で、対象に関係する単語列を対象物固有属性表現として抽出する対象物固有属性表現抽出手段を有するからである。
すなわち、非特許文献3に記載されている方法のように、文書に付与された分野というラベルに着目した特徴語抽出では、分野全体での出現頻度が低いために抽出漏れになってしまう恐れが強い対象に固有の属性表現を、対象という観点で付与されたラベルに着目して特徴語抽出を行うことができる。
対象物固有属性表現抽出手段は、対象に対する単語列の関連度が所定の閾値以上である場合に、単語列を対象物固有属性表現として抽出するように構成されている場合には、文書に含まれる単語列のうち、特に少数の対象に強く関係する単語列を対象物固有属性表現として抽出することができる。なお、このとき、エントロピー関数を用いて関連度を計算してもよい。
文書が含む1つの文に含まれ、予め用意された抽出パタンを満たす対象物固有属性表現と評価表現との組、または属性表現と評価表現との組を、意見として抽出するように構成されている場合には、意見性を考慮して意見を抽出することができる。
対象物固有属性表現抽出手段が抽出した対象物固有属性表現を記憶する対象物固有属性表現記憶手段を含むように構成されている場合には、属性表現辞書を自動的に生成して、対象物固有属性表現記憶手段に記憶させることができる。
本発明の実施の形態について、図面を参照して説明する。図1は、本発明による意見抽出装置の実施の形態の一構成例を示すブロック図である。
本発明による意見抽出装置の実施の形態は、対象物ラベル付文書記憶部1と、プログラム制御により動作するデータ処理装置(意見抽出装置)2と、意見記憶部3とを含む。
データ処理装置2は、例えば、サーバ等のコンピュータによって実現される。対象物ラベル付文書記憶部1は、例えば、データ処理装置2に接続されたハードディスクドライブや、ハードディスクドライブ等の記憶手段を備えたコンピュータによって実現される。意見記憶部3は、例えば、データ処理装置2に接続されたハードディスクドライブや、ハードディスクドライブ等の記憶手段を備えたコンピュータによって実現される。
データ処理装置2は、属性表現記憶部(属性表現提供手段、記憶手段)23と、評価表現記憶部(評価表現記憶手段、記憶手段)24と、意見抽出手段21と、対象物固有属性表現抽出手段25と、対象物固有属性表現記憶部(対象物固有属性表現記憶手段)22とを含む。
対象物固有属性表現抽出手段25は、単語列出現頻度計算手段251と、単語列出現頻度記憶部253と、スコア計算手段252とを含む。
対象物ラベル付文書記憶部1は、その文書がどの対象に対する情報を記述しているのかを示すラベルが付与された文書集合を記憶している。
図2は、対象物ラベル付文書記憶部1が記憶している文書集合の例を示す説明図である。図2に示す例では、文書集合は、文書IDと対象(ラベル)と文書との3列で構成されている。そして、対象の列は、各文書がどの対象に関する情報を記述しているのかを示している。すなわち、対象物ラベル付文書記憶部1は、対象と文書とを対応づけた文書集合を記憶している。対象は、例えば、テレビ番組名や、商品名、人名、企業名等である。
なお、図1に示す構成では、対象物固有属性表現抽出手段25と意見抽出手段21とに、対象物ラベル付文書記憶部1が記憶している情報(文書集合)が入力されているが、本発明はこれに限定されるものではなく、対象物固有属性表現抽出手段25に入力される情報と、意見抽出手段21に入力される情報とは、別の情報でもよい。具体的には、例えば、対象物固有属性表現抽出手段25にテレビ番組の感想が記述された文書が入力され、意見抽出手段21にテレビ番組紹介文や、製品説明書等が入力されてもよい。
図3は、図2に示す文書集合に対して、意見抽出部21が出力した意見を示す説明図である。意見記憶部3は、意見抽出手段21が出力した意見を記憶する。
意見抽出手段21は、意見の抽出元の文書の文書ID、その文書IDの文書からペア(組)として抽出した対象物固有属性表現または属性表現、および評価表現の列の3列で構成されている意見を意見記憶部3に出力する。そして、意見記憶部3は、意見抽出手段21が出力した意見を記憶する。例えば、図3に示す例の1行目は、意見抽出手段21が、文書ID=1の文書から「吉良上野介, 良い」という意見を抽出したことを示している。
属性表現記憶部23は、属性表現を記憶している。図4は、属性表現記憶部23が記憶している属性表現の例を示す説明図である。なお、属性表現記憶部23は、予め用意された属性表現を記憶していてもよいし、非特許文献1に記載されている方法を用いて自動的に抽出された属性表現を、意見抽出手段21に提供してもよい。ここで、属性表現とは、対象を評価する観点を示す表現である。
なお、意見抽出手段21に提供する属性表現を自動的に抽出する非特許文献1に記載されている方法とは、小規模の初期の属性表現辞書と、評価表現辞書と、共起パタンとを用いて、文書から属性表現の候補を抽出してユーザに提示し、ユーザの指示に応じて、提示した属性表現の候補を属性表現として抽出する方法である。
評価表現記憶部24は、評価表現を記憶している。図5は、評価表現記憶部24が記憶している評価表現の例を示す説明図である。なお、評価表現記憶部24は、例えば、予め用意された評価表現を記憶する。ここで、評価表現とは、評価を示す肯定や否定等の表現である。
対象物固有属性表現抽出手段25は、対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書が含む単語列の中で、特に少数の対象に強く関係する単語列を対象物固有属性表現として抽出し、対象物固有属性表現記憶部22に記憶させる。
図6は、図2に示す文書集合が入力された場合に、対象物固有属性表現抽出手段25が出力した対象物固有属性表現を示す説明図である。対象物固有属性表現記憶部22は、対象物固有属性表現抽出手段25が出力した対象物固有属性表現を記憶する。
単語列出現頻度計算手段251は、対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書から単語列を抽出し、対象毎に単語列の出現頻度を計算する。
図7は、図2に示す文書集合が入力された場合に、単語列出現頻度計算手段251が出力した単語列の出現頻度を示す説明図である。単語列出現頻度記憶部253は、単語列出現頻度計算手段251が出力した対象毎の単語列の出現頻度を記憶する。
意見抽出手段21は、属性表現記憶部23が記憶している属性表現と、評価表現記憶部24が記憶している評価表現と、対象物固有属性表現記憶部22が記憶している対象物固有属性表現とを参照して、対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書から意見を抽出し、抽出した意見を意見記憶部3に記憶させる。意見抽出手段21は、例えば、非特許文献1に記載されている方法を用いて、文書集合を構成する文書から意見を抽出する。文書から意見を抽出する方法については後述する。
スコア計算手段252は、単語列出現頻度記憶部253が記憶している対象毎の単語列の出現頻度を参照して、単語列の少数の対象に対する関連度を計算し、その関連度が閾値以上の場合には、その単語列を対象物固有属性表現として抽出し、対象物固有属性表現記憶部22に記憶させる。
データ処理装置2は、コンピュータに、文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出処理と、対象物固有属性表現抽出処理で抽出した対象物固有属性表現と、予め属性表現記憶部23に記憶され、対象の評価の観点を示す属性表現と、予め評価表現記憶部24に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出処理とを実行させるための意見抽出プログラムを搭載している。
次に、本発明の実施の形態の動作について、図面を参照して説明する。図8は、意見を抽出する際の動作を説明するフローチャートである。
以下、対象物ラベル付文書記憶部1が、図2に示す文書集合を記憶している場合を例に説明する。なお、日本語の文書を例に説明するが、本発明はそれに限定するものではなく、英語等の他の言語にも適用可能である。
対象物固有属性表現抽出手段25は、対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書が含む単語列の中で、特に少数の対象に強く関係する単語列を対象物固有属性表現として抽出し(ステップS101)、対象物固有属性表現記憶部22に記憶させる。
ここで、単語列を対象物固有属性表現として抽出する際の動作について、図面を参照して説明する。図9は、単語列を対象物固有属性表現として抽出する際の動作を説明するフローチャートである。
まず、単語列出現頻度計算手段251は、対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書から単語列を抽出し、対象毎に単語列の出現頻度を計算する(ステップS201)。
ここで、単語列とは、文書を形態素解析して切り出した特定の品詞を持つ形態素又は形態素列である。また、形態素解析とは、文を形態素の単位に分割し、それぞれの形態素に品詞情報を付与する手段である。例えば、「情報検索を開始」という文を形態素解析の入力にした場合、「情報」=名詞、「検索」=形容動詞語幹、「を」=助詞、「開始」=名詞という結果が出力される。
特定の品詞とは、名詞、形容動詞、サ変名詞、未知語である。例えば、「情報検索を開始」という文では、「情報+検索」(+は単語の区切りを意味する)と「開始」とが単語列となる。
従って、単語列出現頻度計算手段251は、対象物ラベル付文書記憶部1が、図2に示す文書集合を記憶している場合に、「今回」、「吉良+上野+介」、「音楽」、「主役」、「立石+健二」、および「感動」を単語列として抽出する。
また、対象毎に単語列の出現頻度を計算するとは、1つの文書に出現した単語列が、その文書の対象について出現したとして出現頻度を計算することをいう。図2に示す文書集合の例において、各対象に対する単語列の出現頻度は、図7に示すようになる。
次に、スコア計算手段252は、単語列出現頻度記憶部253が記憶している単語列出現頻度を参照して、単語列の少数の対象に対する関連度を計算し(ステップS202)、その関連度が閾値以上の場合には、その単語列を対象物固有属性表現として対象物固有属性表現記憶部22に記憶させる。
少数の対象に対する単語列の関連度を計算する方法として、例えば、エントロピーを利用する方法がある。この方法によれば、単語列の対象に対する出現頻度の偏りをエントロピー関数を用いて計算する。そして、偏りが大きい単語列を対象物固有属性表現とする。すなわち、単語列の少数の対象に対する関連度をエントロピーの値によって定義し、エントロピーの値が閾値以下である場合に、関連度が閾値以上であるとしてその単語列を対象物固有属性表現であると判定する。
ここで、単語列のエントロピーの値の計算方法について説明する。エントロピーは、下記の数式1および数式2で定義され、この値が大きいほど対象に対する単語列の偏りが小さく、逆に小さいほど少ない対象に単語列が偏って出現していることになる。
ここで、NPは単語列を意味し、p(Cj|NP)はNPの対象Cjにおける出現確率であり、f(Cj|NP)はNPの対象Cjにおける出現頻度である。
図10は、単語列出現頻度記憶部253が記憶している単語列出現頻度の例を示す説明図である。以下、スコア計算手段252の動作をより明確に説明するために、図10に示す単語列出現頻度を例に説明する。
スコア計算手段252は、8種類の対象に対する単語列「吉良上野介」、「立石健二」、および「今回」のエントロピーの値を計算する。図11は、スコア計算手段252が、図10に示す単語列出現頻度記憶部253が記憶している単語列出現頻度からエントロピーの値を計算した結果を示す説明図である。
エントロピーの値の計算について、「吉良上野介」のエントロピーの値の計算を例に説明する。図10に示す例を参照すると、対象は「忠臣蔵」から「徳川家康」までの8つである。これを順にC1〜C8とすると、f(C1|NP)=8、f(C2|NP)=8、f(C3|NP)=0、・・・、f(C8|NP)=0になる。
また、数式2の右辺の分母は、数式3のようになる。
この結果から、p(C1|NP)=8/(8+8)=8/16、p(C2|NP)=8/(8+8)=8/16、p(C3|NP)=0/(8+8)=0/16、・・・、p(C8|NP)=0/(8+8)=0/16になる。
エントロピーの値の計算では、p(Cj|NP)=0の項は無視するので、「吉良上野介」のエントロピーの値は以下のように求められる。
Entropy(NP)=−(8/16)log2(8/16)−(8/16)log2(8/16)=−2×(8/16)log2(8/16)=1
ここで、NPは「吉良上野介」である。
ここで、NPは「吉良上野介」である。
すなわち、「吉良上野介」は全16回出現し、2つの対象でそれぞれ8回ずつ出現しているので、エントロピーの値は図11に示すように1になる。
スコア計算手段252は、「立石健二」および「今回」についても同様の計算を行い、エントロピーの値を算出する。図11に示すように、「立石健二」のエントロピーの値は2であり、「今回」のエントロピーの値は3である。
単語列の少数の対象に対する関連度のはかり方については、上記で紹介したエントロピーの値が小さいほど関連度が高いとする方法に限定されるものではなく、例えば、tf/idfを用いる手法や、非特許文献6のように、カイ二乗値が大きいほど関連度が高いとする方法や、非特許文献7のように、単語列が関連するカテゴリ(ここでは、対象)数が少ないほど関連度が高いとする方法を用いてもよい。
なお、単語列出現頻度計算手段251が、毎回全文書に対して単語列出現頻度計算を実行するのではなく、既に処理済のデータを単語列出現頻度記憶部253に蓄積しておき、新規追加文書に対してのみ単語列出現頻度計算手段251が単語列出現頻度計算を実行して、単語列出現頻度記憶部253が記憶している出現頻度を更新してもよい。
スコア計算手段252は、エントロピーの値が所定の閾値以下の単語列を、関連度が所定の閾値以上であると判定して抽出し、対象物固有属性表現記憶部22に記憶させる。
例えば、エントロピーの値の閾値が1.5である場合に、図11に示す例では「吉良上野介」のエントロピーの値が閾値以下なので、対象物固有属性表現記憶部22は、「吉良上野介」を記憶する(すなわち、図6に示す対象物固有属性表現を記憶する)。
ここで、対象物固有属性表現記憶部22は、属性表現の辞書としての機能を有することになる。すなわち、属性表現の辞書を自動的に作成している。
意見抽出手段21は、属性表現記憶部23が記憶している属性表現と、評価表現記憶部24が記憶している評価表現と、対象物固有属性表現記憶部22が記憶している対象物固有属性表現とを参照して、対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書から意見を抽出し、意見記憶部3に記憶させる(ステップS102)。
意見の抽出方法については、非特許文献1や非特許文献2に記載されている方法を利用することができる。ここでは、意見の抽出方法として、非特許文献1に記載されている方法を例に説明する。
非特許文献1に記載されている方法は、主に3段階の処理によって意見を抽出する。
(1)属性表現記憶部23が記憶している属性表現と、対象物固有属性表現記憶部22が記憶している対象物固有属性表現と、評価表現記憶部24が記憶している評価表現とを用いて、対象物ラベル付文書記憶部1が記憶している文書集合が含む単語列の属性表現と評価表現との位置を特定する。
以下、属性表現と対象物固有属性表現とを区別せずにどちらも属性表現として説明する。意見抽出手段21は、図2に示す文書集合(すなわち、対象物ラベル付文書記憶部1が記憶している文書集合)を構成する文書から、図4および図6に示す属性表現と、図5に示す評価表現とを参照して、「吉良上野介」、「音楽」、および「演技」を属性表現として特定し、「良い」、「かっこいい」、「いまいち」、および「感動」を評価表現として特定する。
(2)次に、意見抽出手段21は、(1)で特定した属性表現と評価表現との組から、一定の範囲内にある属性表現と評価表現との組を意見候補として抽出する。一定の範囲内にあるとは、例えば、1つの文に、属性表現と評価表現とが存在することを意味する。従って、意見抽出手段21は、図2に示す文書集合を参照して、「吉良上野介, 良い」、「吉良上野介、かっこいい」、「音楽、いまいち」、および「演技、良い」を意見候補として抽出する。
(3)最後に、(2)で意見抽出手段21が抽出した意見候補の意見性を判定し、意見を抽出する。意見性の判定方法として、非特許文献2に記載されている方法では抽出ルールを用いており、非特許文献1に記載されている方法では機械学習を用いている。ここでは、非特許文献2の方法を例に説明する。非特許文献2では、下記のような抽出パタンを予め用意して、抽出パタンのいずれかを意見候補が満足する場合は意見として判定する。
図12は、意見性を判定する抽出パタンの一例を示す説明図である。図12に示す矢印は係り受け関係である。図12に示すルール(抽出パタン)の意味は、属性表現の後に、「が」、「は」、「も」、「の」、「に」、「を」、または「で」といった助詞が続き、属性表現を含む文節の係り先の文節に、評価表現が含まれていることを意味する。
例えば、(2)で抽出された意見候補からは、「吉良上野介、良い」、「吉良上野介、かっこいい」、「音楽、いまいち」、「演技、良い」が意見として抽出される。
意見記憶部3は、意見抽出手段21が出力した結果(意見)を記憶する。図3は、図2に示す対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書に対して、図4に示す属性表現記憶部23が記憶している属性表現と、図6に示す対象物固有属性表現記憶部22が記憶している対象物固有属性表現と、図5に示す評価表現記憶部24が記憶している評価表現とを参照して、意見抽出部3が出力した意見を示している。
意見記憶部3が記憶する意見は、意見の抽出元の文書の文書IDと、その文書IDの文書から組として抽出した属性表現と、評価表現との列の3列で構成されている。例えば、図3に示す例の1行目は、意見抽出手段21が、文書ID=1の文書から「吉良上野介, 良い」という意見を抽出したことを示している。
以上に述べたように、この実施の形態によれば、人手による属性表現辞書の作成を必要とせずに、対象に固有の属性表現を含む意見を抽出することができる。その理由は、対象物固有属性表現抽出手段25が、対象物ラベル付文書記憶部1が記憶している文書集合を構成する文書に含まれる単語列の中で、特に少数の対象に強く関係する単語列を、対象物固有属性表現として抽出するからである。
そして、図2に示す文書集合の例では、図6に示すように、対象物固有属性表現抽出手段25が、「吉良上野介」を対象物固有属性表現として抽出し、図3に示すように、意見記憶部3がこの属性表現を含む意見を記憶している。
本発明は、テレビ番組や書籍、映画といった対象に固有の属性を多く含む分野で特に効果が大きいと期待できる。新しい対象が追加されるたびに人手で辞書を追加していくのはきわめて困難だからである。
本発明によれば、ワールドワイドウェブの掲示板や、電子メール、報告書類のような意見そのものを記述することを目的としていない文書から意見を自動的に抽出できるので、商品購入前の事前調査や、企業の市場調査等のマーケティング活動の効率化を図ることができる。
1 対象物ラベル付文書記憶部
2 データ処理装置
3 意見記憶部
21 意見抽出手段
22 対象物固有属性表現記憶部
23 属性表現記憶部
24 評価表現記憶部
25 対象物固有属性表現抽出手段
251 単語列出現頻度計算手段
252 スコア計算手段
253 単語列出現頻度記憶部
2 データ処理装置
3 意見記憶部
21 意見抽出手段
22 対象物固有属性表現記憶部
23 属性表現記憶部
24 評価表現記憶部
25 対象物固有属性表現抽出手段
251 単語列出現頻度計算手段
252 スコア計算手段
253 単語列出現頻度記憶部
Claims (7)
- 文書から対象の評価を示す意見を抽出する意見抽出装置において、
文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出手段と、
評価を示す評価表現を記憶する評価表現記憶手段と、
対象の評価の観点を示す属性表現を記憶または生成する属性表現提供手段と、
前記対象物固有属性表現抽出手段が抽出した対象物固有属性表現と、前記属性表現提供手段が提供した属性表現と、前記評価表現記憶手段が記憶している評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出手段とを備えた
ことを特徴とする意見抽出装置。 - 対象物固有属性表現抽出手段は、対象毎に単語列の出現頻度を計算する単語列出現頻度計算手段と、
前記単語列出現頻度計算手段の計算結果にもとづいて、前記対象に対する単語列の関連度を計算し、前記関連度が所定の閾値以上である場合に、前記単語列を対象物固有属性表現として抽出するスコア計算手段とを含む
請求項1記載の意見抽出装置。 - スコア計算手段は、単語列の対象に対する出現頻度の偏りをエントロピー関数を用いて計算し、計算結果が所定の閾値以下である場合に、関連度が所定の閾値以上であると判定し、前記関連度が所定の閾値以上である単語列を対象物固有属性表現として抽出する
請求項2記載の意見抽出装置。 - 意見抽出手段は、文書が含む1つの文に、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組が含まれている場合に、その組を意見候補として抽出し、抽出した前記意見候補うち、予め用意された抽出パタンを満たす対象物固有属性表現と評価表現との組、または属性表現と評価表現との組を、意見として抽出する
請求項1から請求項3のうちいずれか1項記載の意見抽出装置。 - 対象物固有属性表現抽出手段が抽出した対象物固有属性表現を記憶する対象物固有属性表現記憶手段を含む
請求項1から請求項4のうちいずれか1項記載の意見抽出装置。 - 文書から対象の評価を示す意見を抽出する意見抽出方法において、
文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出し、
抽出した対象物固有属性表現と、予め記憶手段に記憶され、対象の評価の観点を示す属性表現と、予め記憶手段に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する
ことを特徴とする意見抽出方法。 - 文書から対象の評価を示す意見を抽出する意見抽出プログラムにおいて、
コンピュータに、
文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出処理と、
前記対象物固有属性表現抽出処理で抽出した対象物固有属性表現と、予め記憶手段に記憶され、対象の評価の観点を示す属性表現と、予め記憶手段に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出処理とを実行させる
ための意見抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005367135A JP2007172179A (ja) | 2005-12-20 | 2005-12-20 | 意見抽出装置、意見抽出方法、および意見抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005367135A JP2007172179A (ja) | 2005-12-20 | 2005-12-20 | 意見抽出装置、意見抽出方法、および意見抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007172179A true JP2007172179A (ja) | 2007-07-05 |
Family
ID=38298675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005367135A Pending JP2007172179A (ja) | 2005-12-20 | 2005-12-20 | 意見抽出装置、意見抽出方法、および意見抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007172179A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010036013A2 (ko) * | 2008-09-29 | 2010-04-01 | 주식회사 버즈니 | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 |
JP2011070541A (ja) * | 2009-09-28 | 2011-04-07 | Shimizu Corp | ネットマーケティング支援方法及びネットマーケティング支援装置 |
JP2011076264A (ja) * | 2009-09-29 | 2011-04-14 | Ntt Communications Kk | 検索制御装置、検索制御方法、及びプログラム |
US8325189B2 (en) | 2008-09-26 | 2012-12-04 | Nec Biglobe, Ltd. | Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000163437A (ja) * | 1998-11-27 | 2000-06-16 | Seiko Epson Corp | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 |
JP2003248681A (ja) * | 2001-11-20 | 2003-09-05 | Just Syst Corp | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP2004021445A (ja) * | 2002-06-14 | 2004-01-22 | Nri & Ncc Co Ltd | テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム |
-
2005
- 2005-12-20 JP JP2005367135A patent/JP2007172179A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000163437A (ja) * | 1998-11-27 | 2000-06-16 | Seiko Epson Corp | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 |
JP2003248681A (ja) * | 2001-11-20 | 2003-09-05 | Just Syst Corp | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP2004021445A (ja) * | 2002-06-14 | 2004-01-22 | Nri & Ncc Co Ltd | テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8325189B2 (en) | 2008-09-26 | 2012-12-04 | Nec Biglobe, Ltd. | Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products |
WO2010036013A2 (ko) * | 2008-09-29 | 2010-04-01 | 주식회사 버즈니 | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 |
WO2010036013A3 (ko) * | 2008-09-29 | 2010-07-22 | 주식회사 버즈니 | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 |
KR101005337B1 (ko) | 2008-09-29 | 2011-01-04 | 주식회사 버즈니 | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 |
US8731904B2 (en) | 2008-09-29 | 2014-05-20 | Buzzni | Apparatus and method for extracting and analyzing opinion in web document |
JP2011070541A (ja) * | 2009-09-28 | 2011-04-07 | Shimizu Corp | ネットマーケティング支援方法及びネットマーケティング支援装置 |
JP2011076264A (ja) * | 2009-09-29 | 2011-04-14 | Ntt Communications Kk | 検索制御装置、検索制御方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
Bagheri et al. | Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
Jin et al. | OpinionMiner: a novel machine learning system for web opinion mining and extraction | |
Jin et al. | A novel lexicalized HMM-based learning framework for web opinion mining | |
CN111104794A (zh) | 一种基于主题词的文本相似度匹配方法 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US11625537B2 (en) | Analysis of theme coverage of documents | |
JPWO2003012679A1 (ja) | データ処理方法、データ処理システムおよびプログラム | |
US20090112845A1 (en) | System and method for language sensitive contextual searching | |
JP2011118689A (ja) | 検索方法及びシステム | |
Gunawan et al. | Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia | |
Singh et al. | Sentiment analysis using lexicon based approach | |
Jabbar et al. | An Analytical Analysis of Text Stemming Methodologies in Information Retrieval and Natural Language Processing Systems | |
Shi et al. | A supervised fine-grained sentiment analysis system for online reviews | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム | |
Gupta et al. | Text analysis and information retrieval of text data | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Bahloul et al. | ArA* summarizer: An Arabic text summarization system based on subtopic segmentation and using an A* algorithm for reduction | |
Teich et al. | Scientific registers and disciplinary diversification: a comparable corpus approach | |
Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification | |
Somprasertsri et al. | A maximum entropy model for product feature extraction in online customer reviews | |
Harada et al. | The estimate method of the omission of Japanese inquiry texts using an LDA algorithm | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100831 |