JP2007172179A

JP2007172179A - 意見抽出装置、意見抽出方法、および意見抽出プログラム

Info

Publication number: JP2007172179A
Application number: JP2005367135A
Authority: JP
Inventors: Kenji Tateishi; 健二立石; Masaru Kusui; 大久寿居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-12-20
Filing date: 2005-12-20
Publication date: 2007-07-05

Abstract

【課題】対象に固有の属性表現を含む意見を、人手による属性表現辞書の作成を必要とせずに抽出する。
【解決手段】対象物固有属性表現抽出手段２５が、対象物ラベル付文書記憶部１が記憶している文書集合を構成する文書が含む単語列の中で、特に少数の対象に強く関係する単語列を対象物固有属性表現として抽出する。意見抽出手段２１が、対象物固有属性表現抽出手段２５が抽出した対象物固有属性表現、属性表現記憶部２３が記憶している属性表現、および評価表現記憶部２４が記憶している評価表現にもとづいて、意見を抽出する。
【選択図】図１

Description

本発明は、文書から対象に関係する属性表現を含む意見の抽出を、人手による属性表現辞書の作成を必要とせずに行う意見抽出装置、意見抽出方法、および意見抽出プログラムに関する。

意見は、商品購入前の事前調査や、企業の市場調査等のマーケティングに重要な情報である。また、意見は、アンケートや、企業の問い合わせ窓口への問い合わせデータ、電子メール、報告書類、ワールドワイドウェブの掲示板データ等、さまざまな文書に含まれている。

ここで、意見とは、特定の対象に対する肯定または否定の評価を示す情報のほか、トラブルや問題を報告したクレーム、改善点等を指摘した要望を含む。

さまざまな情報が記述されている文書から、意見が記述されている箇所を抽出する技術（意見抽出技術）は重要である。ワールドワイドウェブの掲示板や、電子メール、報告書類等には多くの意見が記述されているが、それらは意見そのものを記述することを目的とした文書ではないため、意見とは無関係の情報も含まれているためである。

なお、本明細書では、意見抽出を、文書から属性表現と評価表現とのペア（組）を抽出することとして説明する。なお、属性表現とは、対象を評価する観点を示す表現であり、評価表現とは、対象の評価を示す肯定や否定等の表現である。ここで、下記に示す例では（ａ）の文および（ｂ）の文から、「属性表現＝デザイン, 評価表現＝良い」のペア（組）を抽出する。

（ａ）：デザインが良い。（ｂ）：デザインの方に関しては、良い出来といえるだろう。

意見抽出のためには、事前に用意した属性表現の辞書と評価表現の辞書とを用いることが一般的である。非特許文献１および非特許文献２には、事前に用意した属性表現の辞書と評価表現の辞書とを用いて意見抽出を行う方法について記載されている。

そのような方法を用いる場合には、上記の（ａ）の文および（ｂ）の文から、「属性表現＝デザイン, 評価表現＝良い」のペア（組）を抽出するために、予め「デザイン」が属性表現の辞書に登録されている必要があり、「良い」が評価表現の辞書に登録されている必要がある。

属性表現や評価表現は、分野毎に異なる表現が用いられることが多いので、新しい分野で意見抽出を行う場合には、新しい辞書を改めて作成する必要がある。このような辞書を、人手で分野毎に作成するのは多大な労力が必要であり、自動的に作成されることが望ましい。

属性表現の辞書を自動的に作成する従来技術として、非特許文献３に記載されている方法がある。非特許文献３に記載されている方法は、属性表現に該当する表現を「ｆｅａｔｕｒｅｔｅｒｍ」と呼び、文書に付与された分野を示すラベルを利用して特徴語抽出することにより、属性表現辞書を自動作成する。

特徴語抽出では、対数尤度比の値が閾値以上の値を持つ語を特徴語であると判定している。対数尤度比は、着目する一方の分野では出現頻度が高いが、他方の分野では出現頻度が低い語の値が大きくなる。

非特許文献３には、デジタルカメラ分野の意見抽出を行う場合を例として、デジタルカメラ分野のレビュー記事群と、時事問題に関するニュース記事群とを比較して、デジタルカメラ分野のレビュー記事には多く出現するが、時事問題に関するニュース記事には少なく出現する語を特徴語（すなわち属性表現）として抽出していることが記載されている。

例えば、下記の例１に示す場合には、レビュー記事に偏って出現する語の対数尤度比は大きくなり、属性表現になりやすい（すなわち、抽出されやすい。）。しかし、例２のように両者が均等に近い状態で出現する語の対数尤度比は小さくなり、属性表現になりにくい（すなわち、抽出されにくい。）。

例１）
（ａ）レビュー記事におけるある語が出現する文書数：１００文書
（ｂ）ニュース記事におけるある語が出現する文書数：０文書
（ｃ）レビュー記事における総文書数：２０００文書
（ｄ）ニュース記事における総文書数：２０００文書
例２）
（ａ）レビュー記事におけるある語が出現する文書数：１００文書
（ｂ）ニュース記事におけるある語が出現する文書数：６０文書
（ｃ）レビュー記事における総文書数：２０００文書
（ｄ）ニュース記事における総文書数：２０００文書

非特許文献３には、このような特徴語抽出を行った結果として、デジタルカメラに関して、「ｃａｍｅｒａ，ｐｉｃｔｕｒｅ，ｆｌａｓｈ，ｌｅｎｓ，ｂａｔｔｅｒｙ」という語が属性表現として抽出されたことが記載されている。

属性表現の辞書を自動的に作成する別の従来技術として、固有表現抽出技術を応用する方法がある。この方法は、新聞記事等の文書から「組織名」、「人名」、「地名」等の固有表現を抽出する方法としてよく用いられる。固有表現抽出技術の最も基本的な方法は、辞書と固有表現を特徴づける表現内部や周囲の文字列とを手がかりとして抽出する方法である。非特許文献４には、そのような方法が記載されている。

具体的には、非特許文献４には、予め人手で作成した固有表現抽出用の辞書とパターンマッチングルールとを用いて日本語固有表現を抽出する方法について記載されている。この方法では、予め固有表現抽出用の辞書を用意しておき、人名では「佐藤」、「山田」といった頻出する固有表現を、この辞書を用いて抽出することができる。

また、辞書に登録されていない人名であっても、｛未知語＋人名共起語｝といったパターンを用意しておき、パターンに当てはまる語を、人名である判定できる。ここで、人名共起語とは、「さん」、「氏」というような人名の後につきやすく、人名を判定するためのキーワードとなる語である。

非特許文献５には、固有表現抽出の難易度を示す定義と、その定義にもとづく固有表現抽出方法の評価結果が記載されている。

非特許文献６には、文書に対する語の偏りを用い、カイ二乗値が大きいほど関連度が高いとして特徴語を抽出する方法について記載されている。

非特許文献７には、単語列（用語）が関連するカテゴリ数が少ないほど関連度が高いとする方法を用いて、単語列（用語）を抽出する方法と、その評価結果とが記載されている。

特許文献１には、文書に対する語の偏りを用いて、特徴語を抽出する方法について記載されている。

立石健二，福島俊一，小林のぞみ，高橋哲朗，藤田篤，乾健太郎，松本裕治，「Ｗｅｂ文書集合からの意見情報抽出と着眼点に基づく要約作成」，第１６３回自然言語処理研究会情報処理学会研究報告，社団法人情報処理学会、２００４年９月，ｐ．１−８飯田龍，小林のぞみ，松本裕治，立石健二，福島俊一，「機械学習を用いた属性と評価値の対の抽出」，第１６５回自然言語処理研究会情報処理学会研究報告，社団法人情報処理学会、２００５年１月，ｐ．２１−２８ヨンヒイ（ＪｅｏｎｇｈｅｅＹｉ），ウェインニブラック（ＷａｙｎｅＮｉｂｌａｃｋ），「センティメントマイニングインウェブファウンテン（ＳｅｎｔｉｍｅｎｔＭｉｎｉｎｇｉｎＷｅｂＦｏｕｎｔａｉｎ）」，第２１回インターナショナルカンファレンスオンデータエンジニアリング（２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＤａｔａＥｎｇｉｎｅｅｒｉｎｇ（ＩＣＤＥ’０５））、アイトリプルイーコンピュータソサイエティ（ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ），２００５年，ｐ．１０７３−１０８３竹元義美，福島俊一，山田洋志，「辞書およびパターンマッチングルールの増強と品質強化に基づく日本語固有表現抽出」，情報処理学会論文誌，社団法人情報処理学会，２００１年，第４２巻，第６号別冊，ｐ．１５８０−１５９１野畑周，関根聡，辻井潤一，「日本語固有表現抽出の難易度を示す指標の提案と評価」，言語処理学会誌自然言語処理，言語処理学会，２００３年，Ｖｏｌ．１０，Ｎｏ．１，ｐ．３−２６長尾真，水谷幹男，池田浩之，「日本語文献における重要語の自動抽出」，情報処理，社団法人情報処理学会，１９７６年，Ｖｏｌ．１７，Ｎｏ．２，ｐ．１１０−１１７内元清貴，関根聡，村田真樹，小作浩美，井佐原均，「異分野コーパスを用いた用語抽出」，プロシーディングスオブザファーストエンティサイルワークショップオンリサーチインジャパニーズテキストリトリーバルアンドタームリコグニション（ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｉｒｓｔＮＴＣＩＲＷｏｒｋｓｈｏｐｏｎＲｅｓｅａｒｃｈｉｎＪａｐａｎｅｓｅＴｅｘｔＲｅｔｒｉｅｖａｌａｎｄＴｅｒｍＲｅｃｏｇｎｉｔｉｏｎ），国立情報学研究所，１９９９年，ｐ．４４４−４５０特開２００３−１４１１３４号公報（段落００２５〜００９１、図１）

非特許文献１および非特許文献２に記載されている方法は、人手による属性表現辞書の作成を必要とするため、手間がかかる。

非特許文献３に記載されている方法や、特許文献１に記載されている方法は、着目する分野全体では多く使われないが、ある特定の対象でのみ多く使われる属性表現を抽出することができない。ここで、対象とは、商品名や、製品名、サービス名、企業名、人名等である。

例えば、テレビ番組の分野ではテレビ番組毎にその番組の登場人物名や、俳優名、地名、テーマ曲名等を属性表現として抽出すべきであるが、これらはその番組以外で使われることは少なく、テレビ番組の分野全体としては出現頻度が少ないため、非特許文献３や、特許文献１に記載されている方法では抽出できない可能性が高い。

例えば、非特許文献３に記載されている方法で、下記の例３に示す分布であった場合に、対数尤度比は、上述した例２で示した場合よりも低い値になるため、閾値未満であるとして、属性表現として抽出されにくい。

例３）
（ａ）テレビ番組記事におけるある語が出現する文書数：５文書
（ｂ）ニュース記事におけるある語が出現する文書数：０文書
（ｃ）テレビ番組記事における総文書数：２０００文書
（ｄ）ニュース記事における総文書数：２０００文書

また、非特許文献５には、例えば、非特許文献４に記載されているような固有表現抽出を利用する方法は、予め辞書で用意することが困難である頻出でない固有表現や、人名の「さん」、「氏」といった手がかりが少ない製品名等の固有物に対しては抽出が難しいことが記載されている。

すなわち、非特許文献４に記載されている方法では、すべての属性表現を抽出することはできない。例えば、テレビ番組の分野では、あるテレビ番組の登場人物名や、架空の地名、テーマ曲名を抽出することが難しいことが予想される。

そこで、本発明は、文書から対象に関係する属性表現を含む意見の抽出を、人手による属性表現辞書の作成を必要とせずに行う意見抽出装置、意見抽出方法、および意見抽出プログラムを提供することを目的とする。

本発明による意見抽出装置は、文書から対象の評価を示す意見を抽出する意見抽出装置であって、文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出手段と、評価を示す評価表現を記憶する評価表現記憶手段と、対象の評価の観点を示す属性表現を記憶または生成する属性表現提供手段と、対象物固有属性表現抽出手段が抽出した対象物固有属性表現と、属性表現提供手段が提供した属性表現と、評価表現記憶手段が記憶している評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出手段とを備えたことを特徴とする。

対象物固有属性表現抽出手段は、対象毎に単語列の出現頻度を計算する単語列出現頻度計算手段と、単語列出現頻度計算手段の計算結果にもとづいて、対象に対する単語列の関連度を計算し、関連度が所定の閾値以上である場合に、単語列を対象物固有属性表現として抽出するスコア計算手段とを含んでもよい。

スコア計算手段は、単語列の対象に対する出現頻度の偏りをエントロピー関数を用いて計算し、計算結果が所定の閾値以下である場合に、関連度が所定の閾値以上であると判定し、関連度が所定の閾値以上である単語列を対象物固有属性表現として抽出してもよい。

意見抽出手段は、文書が含む１つの文に、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組が含まれている場合に、その組を意見候補として抽出し、抽出した意見候補うち、予め用意された抽出パタンを満たす対象物固有属性表現と評価表現との組、または属性表現と評価表現との組を、意見として抽出してもよい。

対象物固有属性表現抽出手段が抽出した対象物固有属性表現を記憶する対象物固有属性表現記憶手段を含んでもよい。

本発明による意見抽出方法は、文書から対象の評価を示す意見を抽出する意見抽出方法であって、文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出し、抽出した対象物固有属性表現と、予め記憶手段に記憶され、対象の評価の観点を示す属性表現と、予め記憶手段に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出することを特徴とする。

本発明による意見抽出プログラムは、文書から対象の評価を示す意見を抽出する意見抽出プログラムであって、コンピュータに、文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出処理と、対象物固有属性表現抽出処理で抽出した対象物固有属性表現と、予め記憶手段に記憶され、対象の評価の観点を示す属性表現と、予め記憶手段に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出処理とを実行させることを特徴とする。

本発明によれば、対象に固有の属性表現を含む意見を、人手による属性表現辞書の作成を必要とせずに抽出することができる。その理由は、文書に含まれる単語列の中で、対象に関係する単語列を対象物固有属性表現として抽出する対象物固有属性表現抽出手段を有するからである。

すなわち、非特許文献３に記載されている方法のように、文書に付与された分野というラベルに着目した特徴語抽出では、分野全体での出現頻度が低いために抽出漏れになってしまう恐れが強い対象に固有の属性表現を、対象という観点で付与されたラベルに着目して特徴語抽出を行うことができる。

対象物固有属性表現抽出手段は、対象に対する単語列の関連度が所定の閾値以上である場合に、単語列を対象物固有属性表現として抽出するように構成されている場合には、文書に含まれる単語列のうち、特に少数の対象に強く関係する単語列を対象物固有属性表現として抽出することができる。なお、このとき、エントロピー関数を用いて関連度を計算してもよい。

文書が含む１つの文に含まれ、予め用意された抽出パタンを満たす対象物固有属性表現と評価表現との組、または属性表現と評価表現との組を、意見として抽出するように構成されている場合には、意見性を考慮して意見を抽出することができる。

対象物固有属性表現抽出手段が抽出した対象物固有属性表現を記憶する対象物固有属性表現記憶手段を含むように構成されている場合には、属性表現辞書を自動的に生成して、対象物固有属性表現記憶手段に記憶させることができる。

本発明の実施の形態について、図面を参照して説明する。図１は、本発明による意見抽出装置の実施の形態の一構成例を示すブロック図である。

本発明による意見抽出装置の実施の形態は、対象物ラベル付文書記憶部１と、プログラム制御により動作するデータ処理装置（意見抽出装置）２と、意見記憶部３とを含む。

データ処理装置２は、例えば、サーバ等のコンピュータによって実現される。対象物ラベル付文書記憶部１は、例えば、データ処理装置２に接続されたハードディスクドライブや、ハードディスクドライブ等の記憶手段を備えたコンピュータによって実現される。意見記憶部３は、例えば、データ処理装置２に接続されたハードディスクドライブや、ハードディスクドライブ等の記憶手段を備えたコンピュータによって実現される。

データ処理装置２は、属性表現記憶部（属性表現提供手段、記憶手段）２３と、評価表現記憶部（評価表現記憶手段、記憶手段）２４と、意見抽出手段２１と、対象物固有属性表現抽出手段２５と、対象物固有属性表現記憶部（対象物固有属性表現記憶手段）２２とを含む。

対象物固有属性表現抽出手段２５は、単語列出現頻度計算手段２５１と、単語列出現頻度記憶部２５３と、スコア計算手段２５２とを含む。

対象物ラベル付文書記憶部１は、その文書がどの対象に対する情報を記述しているのかを示すラベルが付与された文書集合を記憶している。

図２は、対象物ラベル付文書記憶部１が記憶している文書集合の例を示す説明図である。図２に示す例では、文書集合は、文書ＩＤと対象（ラベル）と文書との３列で構成されている。そして、対象の列は、各文書がどの対象に関する情報を記述しているのかを示している。すなわち、対象物ラベル付文書記憶部１は、対象と文書とを対応づけた文書集合を記憶している。対象は、例えば、テレビ番組名や、商品名、人名、企業名等である。

なお、図１に示す構成では、対象物固有属性表現抽出手段２５と意見抽出手段２１とに、対象物ラベル付文書記憶部１が記憶している情報（文書集合）が入力されているが、本発明はこれに限定されるものではなく、対象物固有属性表現抽出手段２５に入力される情報と、意見抽出手段２１に入力される情報とは、別の情報でもよい。具体的には、例えば、対象物固有属性表現抽出手段２５にテレビ番組の感想が記述された文書が入力され、意見抽出手段２１にテレビ番組紹介文や、製品説明書等が入力されてもよい。

図３は、図２に示す文書集合に対して、意見抽出部２１が出力した意見を示す説明図である。意見記憶部３は、意見抽出手段２１が出力した意見を記憶する。

意見抽出手段２１は、意見の抽出元の文書の文書ＩＤ、その文書ＩＤの文書からペア（組）として抽出した対象物固有属性表現または属性表現、および評価表現の列の３列で構成されている意見を意見記憶部３に出力する。そして、意見記憶部３は、意見抽出手段２１が出力した意見を記憶する。例えば、図３に示す例の１行目は、意見抽出手段２１が、文書ＩＤ＝１の文書から「吉良上野介, 良い」という意見を抽出したことを示している。

属性表現記憶部２３は、属性表現を記憶している。図４は、属性表現記憶部２３が記憶している属性表現の例を示す説明図である。なお、属性表現記憶部２３は、予め用意された属性表現を記憶していてもよいし、非特許文献１に記載されている方法を用いて自動的に抽出された属性表現を、意見抽出手段２１に提供してもよい。ここで、属性表現とは、対象を評価する観点を示す表現である。

なお、意見抽出手段２１に提供する属性表現を自動的に抽出する非特許文献１に記載されている方法とは、小規模の初期の属性表現辞書と、評価表現辞書と、共起パタンとを用いて、文書から属性表現の候補を抽出してユーザに提示し、ユーザの指示に応じて、提示した属性表現の候補を属性表現として抽出する方法である。

評価表現記憶部２４は、評価表現を記憶している。図５は、評価表現記憶部２４が記憶している評価表現の例を示す説明図である。なお、評価表現記憶部２４は、例えば、予め用意された評価表現を記憶する。ここで、評価表現とは、評価を示す肯定や否定等の表現である。

対象物固有属性表現抽出手段２５は、対象物ラベル付文書記憶部１が記憶している文書集合を構成する文書が含む単語列の中で、特に少数の対象に強く関係する単語列を対象物固有属性表現として抽出し、対象物固有属性表現記憶部２２に記憶させる。

図６は、図２に示す文書集合が入力された場合に、対象物固有属性表現抽出手段２５が出力した対象物固有属性表現を示す説明図である。対象物固有属性表現記憶部２２は、対象物固有属性表現抽出手段２５が出力した対象物固有属性表現を記憶する。

単語列出現頻度計算手段２５１は、対象物ラベル付文書記憶部１が記憶している文書集合を構成する文書から単語列を抽出し、対象毎に単語列の出現頻度を計算する。

図７は、図２に示す文書集合が入力された場合に、単語列出現頻度計算手段２５１が出力した単語列の出現頻度を示す説明図である。単語列出現頻度記憶部２５３は、単語列出現頻度計算手段２５１が出力した対象毎の単語列の出現頻度を記憶する。

意見抽出手段２１は、属性表現記憶部２３が記憶している属性表現と、評価表現記憶部２４が記憶している評価表現と、対象物固有属性表現記憶部２２が記憶している対象物固有属性表現とを参照して、対象物ラベル付文書記憶部１が記憶している文書集合を構成する文書から意見を抽出し、抽出した意見を意見記憶部３に記憶させる。意見抽出手段２１は、例えば、非特許文献１に記載されている方法を用いて、文書集合を構成する文書から意見を抽出する。文書から意見を抽出する方法については後述する。

スコア計算手段２５２は、単語列出現頻度記憶部２５３が記憶している対象毎の単語列の出現頻度を参照して、単語列の少数の対象に対する関連度を計算し、その関連度が閾値以上の場合には、その単語列を対象物固有属性表現として抽出し、対象物固有属性表現記憶部２２に記憶させる。

データ処理装置２は、コンピュータに、文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出処理と、対象物固有属性表現抽出処理で抽出した対象物固有属性表現と、予め属性表現記憶部２３に記憶され、対象の評価の観点を示す属性表現と、予め評価表現記憶部２４に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出処理とを実行させるための意見抽出プログラムを搭載している。

次に、本発明の実施の形態の動作について、図面を参照して説明する。図８は、意見を抽出する際の動作を説明するフローチャートである。

以下、対象物ラベル付文書記憶部１が、図２に示す文書集合を記憶している場合を例に説明する。なお、日本語の文書を例に説明するが、本発明はそれに限定するものではなく、英語等の他の言語にも適用可能である。

対象物固有属性表現抽出手段２５は、対象物ラベル付文書記憶部１が記憶している文書集合を構成する文書が含む単語列の中で、特に少数の対象に強く関係する単語列を対象物固有属性表現として抽出し（ステップＳ１０１）、対象物固有属性表現記憶部２２に記憶させる。

ここで、単語列を対象物固有属性表現として抽出する際の動作について、図面を参照して説明する。図９は、単語列を対象物固有属性表現として抽出する際の動作を説明するフローチャートである。

まず、単語列出現頻度計算手段２５１は、対象物ラベル付文書記憶部１が記憶している文書集合を構成する文書から単語列を抽出し、対象毎に単語列の出現頻度を計算する（ステップＳ２０１）。

ここで、単語列とは、文書を形態素解析して切り出した特定の品詞を持つ形態素又は形態素列である。また、形態素解析とは、文を形態素の単位に分割し、それぞれの形態素に品詞情報を付与する手段である。例えば、「情報検索を開始」という文を形態素解析の入力にした場合、「情報」＝名詞、「検索」＝形容動詞語幹、「を」＝助詞、「開始」＝名詞という結果が出力される。

特定の品詞とは、名詞、形容動詞、サ変名詞、未知語である。例えば、「情報検索を開始」という文では、「情報＋検索」（＋は単語の区切りを意味する）と「開始」とが単語列となる。

従って、単語列出現頻度計算手段２５１は、対象物ラベル付文書記憶部１が、図２に示す文書集合を記憶している場合に、「今回」、「吉良＋上野＋介」、「音楽」、「主役」、「立石＋健二」、および「感動」を単語列として抽出する。

また、対象毎に単語列の出現頻度を計算するとは、１つの文書に出現した単語列が、その文書の対象について出現したとして出現頻度を計算することをいう。図２に示す文書集合の例において、各対象に対する単語列の出現頻度は、図７に示すようになる。

次に、スコア計算手段２５２は、単語列出現頻度記憶部２５３が記憶している単語列出現頻度を参照して、単語列の少数の対象に対する関連度を計算し（ステップＳ２０２）、その関連度が閾値以上の場合には、その単語列を対象物固有属性表現として対象物固有属性表現記憶部２２に記憶させる。

少数の対象に対する単語列の関連度を計算する方法として、例えば、エントロピーを利用する方法がある。この方法によれば、単語列の対象に対する出現頻度の偏りをエントロピー関数を用いて計算する。そして、偏りが大きい単語列を対象物固有属性表現とする。すなわち、単語列の少数の対象に対する関連度をエントロピーの値によって定義し、エントロピーの値が閾値以下である場合に、関連度が閾値以上であるとしてその単語列を対象物固有属性表現であると判定する。

ここで、単語列のエントロピーの値の計算方法について説明する。エントロピーは、下記の数式１および数式２で定義され、この値が大きいほど対象に対する単語列の偏りが小さく、逆に小さいほど少ない対象に単語列が偏って出現していることになる。

ここで、ＮＰは単語列を意味し、ｐ（Ｃ_ｊ｜ＮＰ）はＮＰの対象Ｃ_ｊにおける出現確率であり、ｆ（Ｃ_ｊ｜ＮＰ）はＮＰの対象Ｃ_ｊにおける出現頻度である。

図１０は、単語列出現頻度記憶部２５３が記憶している単語列出現頻度の例を示す説明図である。以下、スコア計算手段２５２の動作をより明確に説明するために、図１０に示す単語列出現頻度を例に説明する。

スコア計算手段２５２は、８種類の対象に対する単語列「吉良上野介」、「立石健二」、および「今回」のエントロピーの値を計算する。図１１は、スコア計算手段２５２が、図１０に示す単語列出現頻度記憶部２５３が記憶している単語列出現頻度からエントロピーの値を計算した結果を示す説明図である。

エントロピーの値の計算について、「吉良上野介」のエントロピーの値の計算を例に説明する。図１０に示す例を参照すると、対象は「忠臣蔵」から「徳川家康」までの８つである。これを順にＣ_１〜Ｃ_８とすると、ｆ（Ｃ_１｜ＮＰ）＝８、ｆ（Ｃ_２｜ＮＰ）＝８、ｆ（Ｃ_３｜ＮＰ）＝０、・・・、ｆ（Ｃ_８｜ＮＰ）＝０になる。

また、数式２の右辺の分母は、数式３のようになる。

この結果から、ｐ（Ｃ_１｜ＮＰ）＝８／（８＋８）＝８／１６、ｐ（Ｃ_２｜ＮＰ）＝８／（８＋８）＝８／１６、ｐ（Ｃ_３｜ＮＰ）＝０／（８＋８）＝０／１６、・・・、ｐ（Ｃ_８｜ＮＰ）＝０／（８＋８）＝０／１６になる。

エントロピーの値の計算では、ｐ（Ｃ_ｊ｜ＮＰ）＝０の項は無視するので、「吉良上野介」のエントロピーの値は以下のように求められる。

Ｅｎｔｒｏｐｙ（ＮＰ）＝−（８／１６）ｌｏｇ_２（８／１６）−（８／１６）ｌｏｇ_２（８／１６）＝−２×（８／１６）ｌｏｇ_２（８／１６）＝１
ここで、ＮＰは「吉良上野介」である。

すなわち、「吉良上野介」は全１６回出現し、２つの対象でそれぞれ８回ずつ出現しているので、エントロピーの値は図１１に示すように１になる。

スコア計算手段２５２は、「立石健二」および「今回」についても同様の計算を行い、エントロピーの値を算出する。図１１に示すように、「立石健二」のエントロピーの値は２であり、「今回」のエントロピーの値は３である。

単語列の少数の対象に対する関連度のはかり方については、上記で紹介したエントロピーの値が小さいほど関連度が高いとする方法に限定されるものではなく、例えば、ｔｆ／ｉｄｆを用いる手法や、非特許文献６のように、カイ二乗値が大きいほど関連度が高いとする方法や、非特許文献７のように、単語列が関連するカテゴリ（ここでは、対象）数が少ないほど関連度が高いとする方法を用いてもよい。

なお、単語列出現頻度計算手段２５１が、毎回全文書に対して単語列出現頻度計算を実行するのではなく、既に処理済のデータを単語列出現頻度記憶部２５３に蓄積しておき、新規追加文書に対してのみ単語列出現頻度計算手段２５１が単語列出現頻度計算を実行して、単語列出現頻度記憶部２５３が記憶している出現頻度を更新してもよい。

スコア計算手段２５２は、エントロピーの値が所定の閾値以下の単語列を、関連度が所定の閾値以上であると判定して抽出し、対象物固有属性表現記憶部２２に記憶させる。

例えば、エントロピーの値の閾値が１．５である場合に、図１１に示す例では「吉良上野介」のエントロピーの値が閾値以下なので、対象物固有属性表現記憶部２２は、「吉良上野介」を記憶する（すなわち、図６に示す対象物固有属性表現を記憶する）。

ここで、対象物固有属性表現記憶部２２は、属性表現の辞書としての機能を有することになる。すなわち、属性表現の辞書を自動的に作成している。

意見抽出手段２１は、属性表現記憶部２３が記憶している属性表現と、評価表現記憶部２４が記憶している評価表現と、対象物固有属性表現記憶部２２が記憶している対象物固有属性表現とを参照して、対象物ラベル付文書記憶部１が記憶している文書集合を構成する文書から意見を抽出し、意見記憶部３に記憶させる（ステップＳ１０２）。

意見の抽出方法については、非特許文献１や非特許文献２に記載されている方法を利用することができる。ここでは、意見の抽出方法として、非特許文献１に記載されている方法を例に説明する。

非特許文献１に記載されている方法は、主に３段階の処理によって意見を抽出する。

（１）属性表現記憶部２３が記憶している属性表現と、対象物固有属性表現記憶部２２が記憶している対象物固有属性表現と、評価表現記憶部２４が記憶している評価表現とを用いて、対象物ラベル付文書記憶部１が記憶している文書集合が含む単語列の属性表現と評価表現との位置を特定する。

以下、属性表現と対象物固有属性表現とを区別せずにどちらも属性表現として説明する。意見抽出手段２１は、図２に示す文書集合（すなわち、対象物ラベル付文書記憶部１が記憶している文書集合）を構成する文書から、図４および図６に示す属性表現と、図５に示す評価表現とを参照して、「吉良上野介」、「音楽」、および「演技」を属性表現として特定し、「良い」、「かっこいい」、「いまいち」、および「感動」を評価表現として特定する。

（２）次に、意見抽出手段２１は、（１）で特定した属性表現と評価表現との組から、一定の範囲内にある属性表現と評価表現との組を意見候補として抽出する。一定の範囲内にあるとは、例えば、１つの文に、属性表現と評価表現とが存在することを意味する。従って、意見抽出手段２１は、図２に示す文書集合を参照して、「吉良上野介, 良い」、「吉良上野介、かっこいい」、「音楽、いまいち」、および「演技、良い」を意見候補として抽出する。

（３）最後に、（２）で意見抽出手段２１が抽出した意見候補の意見性を判定し、意見を抽出する。意見性の判定方法として、非特許文献２に記載されている方法では抽出ルールを用いており、非特許文献１に記載されている方法では機械学習を用いている。ここでは、非特許文献２の方法を例に説明する。非特許文献２では、下記のような抽出パタンを予め用意して、抽出パタンのいずれかを意見候補が満足する場合は意見として判定する。

図１２は、意見性を判定する抽出パタンの一例を示す説明図である。図１２に示す矢印は係り受け関係である。図１２に示すルール（抽出パタン）の意味は、属性表現の後に、「が」、「は」、「も」、「の」、「に」、「を」、または「で」といった助詞が続き、属性表現を含む文節の係り先の文節に、評価表現が含まれていることを意味する。

例えば、（２）で抽出された意見候補からは、「吉良上野介、良い」、「吉良上野介、かっこいい」、「音楽、いまいち」、「演技、良い」が意見として抽出される。

意見記憶部３は、意見抽出手段２１が出力した結果（意見）を記憶する。図３は、図２に示す対象物ラベル付文書記憶部１が記憶している文書集合を構成する文書に対して、図４に示す属性表現記憶部２３が記憶している属性表現と、図６に示す対象物固有属性表現記憶部２２が記憶している対象物固有属性表現と、図５に示す評価表現記憶部２４が記憶している評価表現とを参照して、意見抽出部３が出力した意見を示している。

意見記憶部３が記憶する意見は、意見の抽出元の文書の文書ＩＤと、その文書ＩＤの文書から組として抽出した属性表現と、評価表現との列の３列で構成されている。例えば、図３に示す例の１行目は、意見抽出手段２１が、文書ＩＤ＝１の文書から「吉良上野介, 良い」という意見を抽出したことを示している。

以上に述べたように、この実施の形態によれば、人手による属性表現辞書の作成を必要とせずに、対象に固有の属性表現を含む意見を抽出することができる。その理由は、対象物固有属性表現抽出手段２５が、対象物ラベル付文書記憶部１が記憶している文書集合を構成する文書に含まれる単語列の中で、特に少数の対象に強く関係する単語列を、対象物固有属性表現として抽出するからである。

そして、図２に示す文書集合の例では、図６に示すように、対象物固有属性表現抽出手段２５が、「吉良上野介」を対象物固有属性表現として抽出し、図３に示すように、意見記憶部３がこの属性表現を含む意見を記憶している。

本発明は、テレビ番組や書籍、映画といった対象に固有の属性を多く含む分野で特に効果が大きいと期待できる。新しい対象が追加されるたびに人手で辞書を追加していくのはきわめて困難だからである。

本発明によれば、ワールドワイドウェブの掲示板や、電子メール、報告書類のような意見そのものを記述することを目的としていない文書から意見を自動的に抽出できるので、商品購入前の事前調査や、企業の市場調査等のマーケティング活動の効率化を図ることができる。

本発明による意見抽出装置の実施の形態の一構成例を示すブロック図である。対象物ラベル付文書記憶部が記憶している文書集合の例を示す説明図である。意見抽出部が出力した意見を示す説明図である。属性表現記憶部が記憶している属性表現の例を示す説明図である。評価表現記憶部が記憶している評価表現の例を示す説明図である。対象物固有属性表現抽出手段が出力した対象物固有属性表現を示す説明図である。単語列出現頻度計算手段が出力した単語列の出現頻度を示す説明図である。意見を抽出する際の動作を説明するフローチャートである。単語列を対象物固有属性表現として抽出する際の動作を説明するフローチャートである。単語列出現頻度記憶部が記憶している単語列出現頻度の例を示す説明図である。スコア計算手段がエントロピーの値を計算した結果を示す説明図である。意見性を判定する抽出パタンの一例を示す説明図である。

符号の説明

１対象物ラベル付文書記憶部
２データ処理装置
３意見記憶部
２１意見抽出手段
２２対象物固有属性表現記憶部
２３属性表現記憶部
２４評価表現記憶部
２５対象物固有属性表現抽出手段
２５１単語列出現頻度計算手段
２５２スコア計算手段
２５３単語列出現頻度記憶部

Claims

文書から対象の評価を示す意見を抽出する意見抽出装置において、
文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出手段と、
評価を示す評価表現を記憶する評価表現記憶手段と、
対象の評価の観点を示す属性表現を記憶または生成する属性表現提供手段と、
前記対象物固有属性表現抽出手段が抽出した対象物固有属性表現と、前記属性表現提供手段が提供した属性表現と、前記評価表現記憶手段が記憶している評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出手段とを備えた
ことを特徴とする意見抽出装置。
対象物固有属性表現抽出手段は、対象毎に単語列の出現頻度を計算する単語列出現頻度計算手段と、
前記単語列出現頻度計算手段の計算結果にもとづいて、前記対象に対する単語列の関連度を計算し、前記関連度が所定の閾値以上である場合に、前記単語列を対象物固有属性表現として抽出するスコア計算手段とを含む
請求項１記載の意見抽出装置。
スコア計算手段は、単語列の対象に対する出現頻度の偏りをエントロピー関数を用いて計算し、計算結果が所定の閾値以下である場合に、関連度が所定の閾値以上であると判定し、前記関連度が所定の閾値以上である単語列を対象物固有属性表現として抽出する
請求項２記載の意見抽出装置。
意見抽出手段は、文書が含む１つの文に、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組が含まれている場合に、その組を意見候補として抽出し、抽出した前記意見候補うち、予め用意された抽出パタンを満たす対象物固有属性表現と評価表現との組、または属性表現と評価表現との組を、意見として抽出する
請求項１から請求項３のうちいずれか１項記載の意見抽出装置。
対象物固有属性表現抽出手段が抽出した対象物固有属性表現を記憶する対象物固有属性表現記憶手段を含む
請求項１から請求項４のうちいずれか１項記載の意見抽出装置。
文書から対象の評価を示す意見を抽出する意見抽出方法において、
文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出し、
抽出した対象物固有属性表現と、予め記憶手段に記憶され、対象の評価の観点を示す属性表現と、予め記憶手段に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する
ことを特徴とする意見抽出方法。
文書から対象の評価を示す意見を抽出する意見抽出プログラムにおいて、
コンピュータに、
文書に含まれる単語列のうち、対象に関係する単語列である対象物固有属性表現を抽出する対象物固有属性表現抽出処理と、
前記対象物固有属性表現抽出処理で抽出した対象物固有属性表現と、予め記憶手段に記憶され、対象の評価の観点を示す属性表現と、予め記憶手段に記憶され、評価を示す評価表現とにもとづいて、対象物固有属性表現と評価表現との組、または属性表現と評価表現との組である意見を抽出する意見抽出処理とを実行させる
ための意見抽出プログラム。