JP3988622B2 - 意見抽出装置、意見抽出プログラム - Google Patents

意見抽出装置、意見抽出プログラム Download PDF

Info

Publication number
JP3988622B2
JP3988622B2 JP2002323900A JP2002323900A JP3988622B2 JP 3988622 B2 JP3988622 B2 JP 3988622B2 JP 2002323900 A JP2002323900 A JP 2002323900A JP 2002323900 A JP2002323900 A JP 2002323900A JP 3988622 B2 JP3988622 B2 JP 3988622B2
Authority
JP
Japan
Prior art keywords
opinion
evaluation
notations
notation
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002323900A
Other languages
English (en)
Other versions
JP2004157841A (ja
Inventor
俊一 福島
健二 立石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002323900A priority Critical patent/JP3988622B2/ja
Publication of JP2004157841A publication Critical patent/JP2004157841A/ja
Application granted granted Critical
Publication of JP3988622B2 publication Critical patent/JP3988622B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、入力テキスト中から意見表明箇所を検出する意見抽出装置、意見抽出方法、意見抽出プログラムに関する。
【0002】
【従来の技術】
マーケット分析のために、設問ごとに用意された選択肢から選ぶタイプのアンケート調査は、集計が容易で、傾向の把握や設問間の関係をクロス分析することも可能である。しかし、あらかじめ用意した視点からの分析にとどまり、深く掘り下げていくのには限界がある。これを補うのには自由記述テキストの形で意見を集めることが有効である。自由記述テキスト形式の意見は、選択肢タイプのアンケートに併設することで集めることが可能であるが、昨今、それ以外にも、インターネット上の電子掲示板、個人のホームページ、レビューサイト、あるいは、メーリングリストでやり取りされる電子メールなど、様々な情報源から集めることが可能になってきている。
【0003】
しかし、このような多様な情報源から意見を集める場合、必ずしも何らかの対象物に関する意見のみが書かれているわけではない。すなわち、意見を表明した文とそうでない文とか混在している、という問題がある。そこで、テキスト中から意見表明箇所のみを自動検出する技術が必要になる。さらに、抽出した箇所が肯定意見を示しているのか、否定意見を示しているのか、といった評価の判定までも自動的に行なえる技術が望まれる。
【0004】
そこで、そのような意見表明箇所の自動抽出法に関わる従来技術として、対象物を示す表記と、「良い」「悪い」などの評価を示す表記のペアの形で意見を抽出する技術がある(例えば、特許文献1、特許文献2、特許文献3、非特許文献1、非特許文献2、非特許文献3、非特許文献4及び非特許文献5)。
【0005】
例えば「モバイルギアが大好きだ」という意見表明文の例において、「モバイルギア」は対象物を示す表記で、「大好き」は評価を示す表記である。
【0006】
従来技術においては、上記例では、対象物を示す表記は、ユーザによりシステムに入力され、評価を示す表記はシステムの側にあらかじめ辞書としてもっている。辞書に登録しておく評価を示す表記の各々には、肯定または否定または中立という評価の種別を付与しておき、それを用いて意見表明文が、肯定または否定または中立のいずれの評価を示しているかを判別している。
【0007】
【特許文献1】
特開2002−091981号公報
【特許文献2】
特開2002−092004号公報
【特許文献3】
特開2002−175330号公報
【非特許文献1】
立石健二・石黒義英・福島俊一、「インターネットからの評判情報検索」、情報処理学会第62回全国大会論文集、4W−5、2001年
【非特許文献2】
立石健二・石黒義英・福島俊一、「評判情報検索システムの試作と評価」、情報処理学会第63回全国大会論文集、2V−1、2001年
【非特許文献3】
立石健二・森永聡・山西健司・福島俊一、「Web上の意見分析−情報抽出とテキストマイニングの融合−」、情報処理学会第64回全国大会論文集、2X−4、2002年
【非特許文献4】
立石健二・福島俊一、「意見分析システムにおける意見抽出方式の検討と評価」、第1回情報科学技術フォーラム論文集、D−1、2002年
【非特許文献5】
立石健二・石黒義英・福島俊一、「インターネットからの評判情報検索」、情報処理学会研究報告、自然言語処理144−11、2001年
【非特許文献6】
森永聡・山西健司・立石健二・福島俊一、「Mining Product Reputations on the Web」、The Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、2002年
【0008】
【発明が解決しようとする課題】
上で述べた従来技術の第1の問題点は、肯定または否定または中立という評価の判定精度に限界があることである。
【0009】
従来技術では、評価を示す表記にあらかじめ肯定または否定または中立という評価の種別を付与しておく。図14は、従来の意見抽出装置で用いられる辞書の一例である。この辞書には、評価を示す表記100が登録され、評価を示す表記100の各々に肯定または否定または中立という評価の種別200が付与されている。
【0010】
このとき、図14に登録されている評価を示す表記の例でいえば、「良い」が肯定、「悪い」が否定というのは、ほぼ常に成立する評価だと思われるが、「高い」が肯定、「低い」が否定というのは、必ずしもいつも成立するとはいえない。例えば、「高い」について考えると、「性能が高い」ならば肯定だが、「価格が高い」ならば否定の評価であると考えられる。つまり、単純に評価を表す表記そのものだけから評価が肯定であるか、否定であるか、中立であるかが決定できないケースがしばしば起こる。
【0011】
従来技術では、このようなケースにおいても、単純に評価を表す表記そのものだけから肯定であるか、否定であるか、中立であるかの評価を決定しているために、誤りを生むことになり、その判定精度に限界が生じていた。
【0012】
従来技術の第2の問題点は、意見の評価(肯定/否定/中立)を判定したとしても、その根拠までを正確に捉えることができないことである。例えば「モバイルギアが大好き」という肯定意見が得られたときに、モバイルギアの何がどのような性質をもつことが肯定意見の根拠になっているのかを把握できない。「価格が安い」ことが肯定意見の根拠になったのか、「性能が高い」とか、「キーボードが打ちやすい」とかが肯定意見の根拠になったのか、という点まで自動抽出することができない。マーケット分析を行うためには、このような根拠までを把握することが非常に重要になる。
【0013】
例えば、特許文献2に記載の技術のように、意見を評価の着眼点(例えば、対象物の性能や価格など)で分類することを行なっているものもある。しかし、その着眼点で対象物がどういう性質をもつのかという根拠まで抽出することはできなかった。
【0014】
以上のような従来の課題を解決するためには、意見というものを、単純に対象物を示す表記と評価を示す表記とのペアでとらえるのではなく、意見の構造をより精密にモデル化して扱うことが必要であった。
【0015】
そこで、本発明の目的は、意見の構造の精密なモデルに基づき、肯定または否定または中立という意見の評価の判定に高い精度が得られ、かつ、意見の評価の根拠となる対象物の性質までを抽出可能にする意見抽出装置、意見抽出方法、意見抽出プログラムを提供することである。
【0016】
【課題を解決するための手段】
上記目的を達成する第1の発明は、入力テキスト中から意見表明箇所を検出する意見抽出装置であって、対象物を示し得る第1の表記の集合と、前記対象物に関する評価の着眼点を示し得る第2の表記の集合と、前記着眼点に関する前記対象物の性質を示し得る第3の表記の集合と、前記対象物に関する肯定または否定または中立の評価を示し得る第4の表記の集合と、対象物、対象物に関する評価の着眼点、着眼点に関する対象物の性質及び対象物に関する肯定又は否定又は中立の評価の組合せである意見の構成パタンとが登録された意見要素記憶手段と、
前記入力テキストから、前記意見要素記憶手段に登録された前記第1から第4の表記に対応する文字列を照合する意見要素照合手段と、
前記意見要素照合手段の結果に基づいて、前記入力テキスト中から意見を表明した部分テキストを、前記文字列と照合された前記第1から第4の表記の組合せが、前記意見の構成パタンのいずれかに該当するか否かを判断し、該当する場合には、前記文字列に、照合された第1から第4の表記に対応する、対象物、対象物に関する評価の着眼点、着眼点に関する対象物の性質又は対象物に関する肯定若しくは否定若しくは中立の評価の種別を付与することにより、前記第1から第4の表記を区別した状態で検出する意見表明箇所検出手段とを備えることを特徴とする。
【0017】
上記目的を達成する第2の発明は、情報処理装置に入力テキスト中から意見表明箇所
を検出させる処理を行なわせる意見抽出プログラムであって、
前記意見抽出プログラムは前記情報処理装置に、
メモリに登録された、対象物を示し得る第1の表記の集合、前記対象物に関する評価の着眼点を示し得る第2の表記の集合、前記着眼点に関する前記対象物の性質を示し得る第3の表記の集合、及び前記対象物に関する肯定または否定または中立の評価を示し得る第4の表記の集合、対象物、対象物に関する評価の着眼点、着眼点に関する対象物の性質及び対象物に関する肯定又は否定又は中立の評価の組合せである前記意見の構成パタンに基づいて、前記入力テキストから前記第1から第4の表記に対応する文字列を照合する意見要素照合処理と、
前記意見要素照合処理の結果に基づいて、前記入力テキスト中から意見を表明した部分テキストを、前記文字列と照合された前記第1から第4の表記の組合せが前記意見の構成パタンのいずれかに該当するか否かを判断し、該当する場合には、前記文字列に、照合された第1から第4の表記に対応する、対象物、対象物に関する評価の着眼点、着眼点に関する対象物の性質又は対象物に関する肯定若しくは否定若しくは中立の評価の種別を付与することにより、前記第1から第4の表記を区別した状態で検出する意見表明箇所検出処理とを実行させることを特徴とする。

【0060】
【発明の実施の形態】
本発明の第1の実施の形態について、図面を参照して説明する。
【0061】
図1は第1の実施の形態の構成を示すブロック図である。
【0062】
図1中、1はテキスト入力手段である。このテキスト入力手段1は、意見抽出処理の対象となるテキストを入力する為の手段であり、例えば、キーボード、OCR、ペン入力、音声認識装置や、ネットワーク上に置かれたテキストファイルを読み込み手段等であり、テキストを入力することができるものであれば良い。
【0063】
2はテキストバッファであり、テキスト入力手段1によって入力されたテキストが記録される。
【0064】
3は意見要素記憶手段である。この意見要素記憶手段3は、対象物を示し得る第1の表記の集合と、対象物に関する評価の着眼点を示し得る第2の表記の集合と、着眼点に関する前記対象物の性質を示し得る第3の表記の集合と、対象物に関する肯定または否定または中立の評価を示し得る第4の表記の集合とが記憶されている。
【0065】
図2は、意見要素記憶手段3に記憶されている内容の一例を示す図である。この意見要素記憶手段3は、図2に示される如く、第1の表記の記憶部30、第2の表記の記憶部31、第3の表記の記憶部32、第4の表記の記憶部33という4つのパートを備えている。従来の意見抽出装置では、第1の表記の記憶部30と第4の表記の記憶部33としか備えていないのに対して、本発明の意見要素記憶手段3は、第2の表記の記憶部31と第3の表記の記憶部32とも備え、4つのパートから成ることが特徴である。
【0066】
また、第2の表記の記憶部31、第3の表記の記憶部32、第4の表記の記憶部33の3つは、辞書的な意味合いであらかじめ作成して登録しておくものであるのに対し、第1の表記の記憶部30は、ユーザが選んだ対象物をその都度セットするような形になる。
【0067】
更に、第2の表記の記憶部31及び第3の表記の記憶部32は、情報処理、食品といった分野毎に、その分野に適切な表記を記憶しておき、ユーザが選んだ対象物(第1の表記)が属する分野を選ぶようにすることで、意見要素を判別する際の精度を向上させることができる。ただし、第2の表記の記憶部31及び第3の表記の記憶部32は、上記のように分野別に分けて構成することは必須ではない。
【0068】
図2では各記録部の一例として、情報処理分野において、第2の表記の記憶部31には液晶、キーボード、性能、価格、デザイン‥が登録されており、第3の表記の記憶部32ではきれい、高い、低い…が登録されている。また、食品分野において、第2の表記の記憶部31には味、香り、安全性‥が登録されており、第3の表記の記憶部32ではきれい、美味しい、不味い…が登録されている。
【0069】
4は意見要素照合手段である。この意見要素照合手段4は、入力テキストと意見要素記憶手段3に登録された表記の集合とを照合する。そして、テキストバッファ2から出力される入力テキスト中のどこに上記の4種類の表記が出現したかを、照合結果バッファ5に記録する。
【0070】
6は意見表明箇所検出手段である。この意見表明箇所検出手段6は、照合結果バッファ5から出力される意見要素照合手段4の結果に基づいて、入力テキスト中から意見を表明した部分テキストを検出する。ここで部分テキストとは、例えば、文の単位を意味し、句や段落などを単位とするようなバリエーションも含む。意見表明箇所検出手段6で検出された部分テキストは、検出結果バッファ7に出力され、検出結果バッファ7で記録される。
【0071】
意見表明箇所検出手段6の検出方法であるが、前述のように、本発明では、意見を、(a)対象物、(b)対象物に関する評価の着眼点、(c)着眼点に関する対象物の性質、(d)対象物に関する肯定または否定または中立の評価、という4要素で構成されるものとして扱う。そこで、意見要素記憶手段3は、これら4つの要素が取り得る構成パタンが登録されている。
【0072】
図3は、これら4種類の要素に基づく意見の構成パタンを記述したものである。意見の構成パタンは、図3に示す[A][B][C][D][E][F]の6通りがある。
【0073】
構成パタン[A]は、例えば、「このスパゲティの味が美味しいので大好きだ。」のように、(a対象物)+(b対象物に関する評価の着眼点)+(c着眼点に関する対象物の性質)+(d対象物に関する肯定または否定または中立の評価)の構成である。尚、図3では略記で、(a)+(b)+(c)+(d)としてある。
【0074】
構成パタン[B]は、例えば、「このスパゲティの味は美味しい。」のように、(a対象物)+(b対象物に関する評価の着眼点)+(c着眼点に関する対象物の性質)の構成である。尚、図3では略記で、(a)+(b)+(c)としてある。
【0075】
構成パタン[C]は、例えば、「このスパゲティの味が大好きだ。」のように、(a対象物)+(b対象物に関する評価の着眼点)+(d対象物に関する肯定または否定または中立の評価)の構成である。尚、図3では略記で、(a)+(b)+(d)としてある。
【0076】
構成パタン[D]は、例えば、「このスパゲティは美味しいので大好きだ。」のように、(a対象物)+(c着眼点に関する対象物の性質)+(d対象物に関する肯定または否定または中立の評価)の構成である。尚、図3では略記で、(a)+(c)+(d)としてある。
【0077】
構成パタン[E]は、例えば、「このスパゲティは美味しい。」のように、(a対象物)+(c着眼点に関する対象物の性質)の構成である。尚、図3では略記で、(a)+(c)としてある。
【0078】
構成パタン[F]は、例えば、「このスパゲティが大好きだ。」のように、(a対象物)+(d対象物に関する肯定または否定または中立の評価)の構成である。尚、図3では略記で、(a)+(d)としてある。
【0079】
意見表明箇所検出手段6は、この6通りの構成パタンにしたがって、意見表明箇所を抽出する。
【0080】
次に、意見表明箇所の抽出の動作について説明する。
【0081】
図4は、意見表明箇所検出手段6のフローチャートの例である。図4に示したフローチャートでは、次の手順で意見表明箇所を抽出する。
【0082】
まず、ステップ101では、意見構成パタン[A]に該当する部分テキスト(文)を検出する。すなわち、第1の表記(a)、第2の表記(b)、第3の表記(c)、第4の表記(d)の4要素のすべてを含む部分テキストを検出する。
【0083】
次にステップ102では、ステップ601で検出されなかった範囲のテキストから、意見構成パタン[B][C][D]に該当する部分テキスト(文)を検出する。すなわち、4要素のうち、第2の表記(b)、第3の表記(c)、第4の表記(d)のいずれかが欠けた3要素を含む部分テキストを検出する。
【0084】
最後にステップ103では、ステップ601と602で検出されなかった範囲のテキストから、意見構成パタン[E][F]に該当する部分テキスト(文)を検出する。すなわち、4要素のうち、第3の表記(c)又は第4の表記(d)のいずれかと第2の表記(b)が欠けた2要素を含む部分テキストを検出する。
【0085】
次に、入力テキストの具体例を用いて、この第1の実施の形態に対応する実施例の動作を説明する。
【0086】
図5にテキストバッファ2に書き込まれた入力テキストの例を示す。意見要素記憶手段3の内容は、図2に例示されたものを用い、第1の表記の記憶部30に書き込まれている対象物は「スパゲッティ」とし、第2の表記の記憶部31及び第3の表記の記憶部32については、食品の分野を選択したものとする。
【0087】
このとき、意見要素抽出手段4を実行すると、照合結果バッファ5には、図6のような結果が得られる。図6では、第1の表記(a)、第2の表記(b)、第3の表記(c)、第4の表記(d)が、入力テキストのどの部分にマッチしたかが示されている。尚、図6では、入力テキスト中にマッチした箇所をマークする形式で示しているが、マッチした表記の一覧に該当する位置情報を付与する形式で表現するなど、照合結果バッファ5のデータ形式は、複数のバリエーションが考えられる。
【0088】
この結果を用いて、意見表明箇所検出手段6が図4のようなフローチャートにしたがって意見表明箇所を検出する。
【0089】
その結果は、図7のようになる。例とした入力テキストからは4件の意見表明箇所が検出された。図7の#1は意見構成パタン[E]、#2は意見構成パタン[A]、#3は意見構成パタン[C]、#4は意見構成パタン[D]に該当する。
【0090】
このように、意見を構成する4つの要素を区別して意見を抽出することによって、意見の内容をより正確に捉えることが可能になる。従来の意見抽出方式では、対象物の性質である要素(c)と、対象物に対する評価を示す要素(d)を区別せずに扱っていたが、これらを区別して把握することが可能になる。また、着眼点(b)と性質(c)も同時に抽出するため、評価の根拠も把握することが可能になる。
【0091】
次に、本発明の第2の実施の形態について、図面を参照して説明する。
【0092】
図8は、第2の実施の形態の構成を示すブロック図である。
【0093】
テキスト入力手段1、テキストバッファ2、意見要素記憶手段3、意見要素照合手段4、照合結果バッファ5、意見表明箇所検出手段6、検出結果バッファ7という7つの構成要素は、第1の実施の形態と共通である。
【0094】
第2の実施の形態では、新たに、着眼点推定手段8、性質推定手段9、評価推定手段10、意見要素出力手段11という4つの構成要素が追加されている。以下、これら4つの構成要素について説明する。
【0095】
着眼点推定手段8は、意見表明箇所検出手段6によって検出された部分テキストに第2の表記が欠落していた場合に、第3の表記の示す性質(c)から評価の着眼点(b)を推定するルール[(c)→(b)]、または、第1の表記の示す対象物(a)と第3の表記の示す性質(c)との組み合わせから評価の着眼点(b)を推定するルール[(a)+(c)→(b)]、または、第1の表記の示す対象物(a)と第4の表記の示す肯定または否定または中立の評価(d)から評価の着眼点(b)を推定するルール[(a)+(d)→(b)]に基づいて、意見表明箇所検出手段6によって検出された部分テキストに対応する評価の着眼点を推定する。
【0096】
図9は着眼点推定手段8で用いる着眼点推定ルールの一例である。尚、推定したものには、四角で囲っている。
【0097】
上に述べたように、評価推定ルールは、次のような3通りが考えられる。
(c)→(b)型
(a)+(c)→(b)型
(a)+(d)→(b)型
例えば、(c)→(b)型のルールである「美味しい」→「味」は、「美味しい」という性質から着眼点が「味」であると推定する。性質が「薄い」のときは、多くの場合は着眼点が「厚さ」だと推定できるが、それだけでなく、着眼点が「味」の場合も考えられる。そこで、(a)+(c)→(b)型のルールを用いて、対象物が何かに応じて、「本」+「薄い」→「厚さ」、あるいは、「ビール」+「薄い」→「味」というように推定する。一方、対象物によっては、多くの場合に着眼点が絞り込まれるものもあり、(a)+(d)→(b)型のルールでは、対象物と評価から着眼点を推定する。尚、複数件のルールにマッチするケースでは、ルールの間の優先順を決めておく必要があるが、例えば、(a)+(c)→(b)型、(c)→(b)型、(a)+(d)→(b)型の順に優先して適用することが考えられる。
【0098】
性質推定手段9は、意見表明箇所検出手段6によって検出された部分テキストに第3の表記が欠落していた場合に、第4の表記の示す肯定または否定または中立の評価(d)から対象物の性質(c)を推定するルール[(d)→(c)]、または、第2の表記の示す着眼点(b)と第4の表記の示す肯定または否定または中立の評価(d)との組み合わせから対象物の性質(c)を推定するルール[(b)+(d)→(c)]、または、第1の表記の示す対象物(a)と第2の表記の示す着眼点(b)と第4の表記の示す肯定または否定または中立の評価(d)との組み合わせから対象物の性質(c)を推定するルール[(a)+(b)+(d)→(c)]に基づいて、意見表明箇所検出手段6によって検出された部分テキストに対応する対象物の性質を推定する。
【0099】
図10は性質推定手段9で用いる性質推定ルールの一例である。尚、推定したものには、四角で囲っている。
【0100】
上に述べたように、評価推定ルールは、次のような3通りが考えられる。
(d)→(c)型
(b)+(d)→(c)型
(a)+(b)+(d)→(c)型
例えば、(d)→(c)型のルールである「肯定」→「おもしろい」は、「肯定」の意見の場合に対象物の性質を「おもしろい」だと推定する。「肯定」の意見だということに加えて、評価の着眼点が「価格」であるとわかっている場合には、「価格」+「肯定」→「安い」という(b)+(d)→(c)型のルールを用いる。
【0101】
「肯定」の意見で、着眼点が「性能」の場合には、「性能」+「肯定」→「高い」というルールが適用できる。さらに、評価と着眼点に加えて、対象物が何かということもわかっていれば、(a)+(b)+(d)→(c)型のルールを適用する。このように、より多くの要素数がマッチするルールを優先して適用する。
【0102】
評価推定手段10は、意見表明箇所検出手段6によって検出された部分テキストに第4の表記が欠落していた場合に、第3の表記の示す性質(c)から肯定または否定または中立の評価(d)を推定するルール[(c)→(d)]、または、第2の表記の示す着眼点(b)と第3の表記の示す性質(c)との組み合わせから肯定または否定または中立の評価(d)を推定するルール[(b)+(c)→(d)]、または、第1の表記の示す対象物(a)と第2の表記の示す着眼点(b)と第3の表記の示す性質(c)との組み合わせから肯定または否定または中立の評価を推定するルール[(a)+(b)+(c)→(d)]に基づいて、意見表明箇所検出手段6によって検出された部分テキストに対応する肯定または否定または中立の評価を推定する。
【0103】
図11は評価推定手段10で用いる評価推定ルールの一例である。尚、推定したものには、四角で囲っている。
【0104】
上に述べたように、評価推定ルールは、次のような3通りが考えられる。
(c)→(d)型
(b)+(c)→(d)型
(a)+(b)+(c)→(d)型
例えば、(c)→(d)型のルールである「きれい」→「肯定」は、「きれい」という対象物の性質から「肯定」の評価を推定する。対象物の性質が「高い」の場合には、それだけでは「肯定」なのか「否定」なのかを判定できず、「価格」+「高い」→「否定」、「性能」+「高い」→「肯定」のように、着眼点とセットにして判定することが必要になり、(b)+(c)→(d)型のルールを用いる。また、(a)+(b)+(c)→(d)型のルールは、さらに、着眼点と性質とだけでは評価が決まらず対象物が何かという点も考慮して、評価を決定するケースである。尚、もし複数件のルールにマッチするケースでは、より要素数の多いルールを優先して適用すればよい。
【0105】
着眼点推定手段8、性質推定手段9、及び評価推定手段10による推定結果は、検出結果バッファ7に追加記録される。
【0106】
意見要素出力手段11は、各意見表明箇所に対応する(a)対象物、(b)対象物に関する評価の着眼点、(c)着眼点に関する対象物の性質、(d)対象物に関する肯定または否定または中立の評価、という4項目を出力する。各意見表明箇所に応じて、これらの4要素のすべてが表記されていた場合もあれば、どれかが欠けている場合もある。要素が欠けていた場合については、評価推定手段10、性質推定手段9、着眼点推定手段8によって推定ができるものは、その推定結果を出力する。尚、もともと文中に表記されていた要素か、それとも、推定されたものかを区別して表示・出力してもよい。それは、例えば、推定した要素については、推定したという意味を示すマークを付与するなどが考えられる。あるいは、推定の信頼度を示すスコアを併記するという方法もある。
【0107】
次に、入力テキストの具体例を用いて、この第2の実施の形態に対応する実施例の動作を説明する。
【0108】
本実施例は、意見表明箇所を検出するところまでは、第1の実施の形態に関する実施例と同様である。そこで、検出結果バッファ7に、図7の結果が得られたところからの続きを説明する。
【0109】
図7の結果では、4件の意見表明文が検出されている。この時点で、その各意見表明文における4つの意見要素の充足状態は次の通りである。
【0110】
#1:要素(b)と要素(d)とが欠けている。
【0111】
#2:4要素ともそろっており、欠けている要素はない。
【0112】
#3:要素(c)が欠けている。
【0113】
#4:要素(b)が欠けている。
【0114】
上記の欠けている要素が、評価推定手段10、性質推定手段9、着眼点推定手段8によって推定される。この推定処理の手順は、意見表明文単位に欠落要素の推定を行い、それを各意見表明文に対して順に繰り返す方法と、欠落要素の種類ごとにすべての意見表明文に対する推定を行い、それを要素の種類だけ繰り返す方法が考えられるが、ここでは前者の手順で説明する。
【0115】
図7の意見表明文#1「あのとき食べたスパゲッティは美味しかった。」については、着眼点(b)と評価(d)の要素が表記されていない。そこで、着眼点推定手段8は、「美味しい」という性質(c)をもとに、(c)→(b)型の着眼点推定ルールを用いて、着眼点(b)が「味」であると推定する。また、評価推定手段10は、「美味しい」という性質(c)をもとに、(c)→(d)型の評価推定ルールを用いて、評価(d)が「肯定」であると推定する。
【0116】
意見表明文#2は4要素とも備えているので、次に意見表明文#3「あの店のスパゲッティの味は大嫌いだ。」については、性質(c)の要素が表記されていない。そこで、性質推定手段9は、「味」という着眼点(b)と「否定」(=「大嫌い」)という評価(d)をもとに、(b)+(d)→(c)型の性質推定ルールを用いて、性質(c)が「不味い」であると推定する。
【0117】
意見表明文#4「あのスパゲッティも美味しいので大好きだ。」については、着眼点(b)の要素が表記されていない。そこで、#1の場合と同様に、着眼点推定手段8は、「美味しい」という性質(c)をもとに、(c)→(b)型の着眼点推定ルールを用いて、着眼点(b)が「味」であると推定する。
【0118】
このような推定処理の結果として、検出結果バッファ7の内容は、図12のようになる。最後に、意見要素出力手段11が、図12の内容を出力する。
【0119】
以上で説明したように、本実施例では、意見を構成する4つの要素のいずれかが欠けていた場合に、それを他の要素から推定することを可能にしている。これによって、意見の根拠の正確な推定が可能になる。また、肯定、否定、中立という評価を、複数の要素の組み合わせから判定する仕組みを用いているので、従来の方法に比べて、その判定精度を高めることが可能になる。
【0120】
尚、第1の実施の形態に対して、第2の実施の形態では、着眼点推定手段8、性質推定手段9、評価推定手段10、意見要素出力手段11という4つの構成要素を追加したが、これら4つの構成要素をすべて追加する形だけでなく、4つの構成要素の一部のみを追加する形もあり得る。その場合、一部の意見要素の推定ができなくなるが、それでも、従来に比べて意見の内容を正確に把握できるという効果は生じる。
【0121】
本発明の第3の実施の形態について、図面を参照して説明する。
【0122】
図13は、第3の実施の形態の構成を示すブロック図である。
【0123】
本第3の実施の形態は、入力装置20、データ処理装置21、記憶装置22、出力装置25を備え、さらに、上述した第1および第2の実施の形態の意見抽出装置を実現するためのプログラムを記録した記録媒体26を備える。この記録媒体26は、磁気ディスク、半導体メモリ、CD−ROM、その他の記録媒体であってよい。
【0124】
入力装置20は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置25は、表示画面、プリンタなど、データ処理装置21による処理結果を出力する装置である。
【0125】
意見抽出装置を実現するためのプログラムは、記録媒体26からデータ処理装置21に読み込まれ、データ処理装置21の動作を制御し、記憶装置22に入力メモリ23とワークメモリ24を生成する。
【0126】
データ処理装置21は、意見抽出装置を実現するためのプログラムの制御により第1および第2の実施の形態におけるテキスト入力手段1、意見要素照合手段4、意見表明箇所検出手段6、また、第2の実施形態における着眼点推定手段8、性質推定手段9、評価推定手段10などの処理と同一の処理を実行する。
【0127】
【発明の効果】
以上、本発明では、意見を、(a)対象物、(b)対象物に関する評価の着眼点、(c)着眼点に関する対象物の性質、(d)対象物に関する肯定または否定または中立の評価、という4要素で構成されるものとして扱い、これら4要素に対応する表記を検出するように構成している。さらに、もし欠けているものがあれば他の要素から推定するように構成している。
【0128】
これによって、肯定または否定または中立という意見の評価の判定に、高い精度が得られるという優れた効果を有する。また、意見の評価の根拠となる対象物の性質までを抽出することが可能になる。
【図面の簡単な説明】
【図1】図1は本発明の意見抽出装置の第1の実施の形態の構成を示すブロック図である。
【図2】図2は意見要素記憶手段の内容の例を示す図である。
【図3】図3は意見構成パタンとその例を示す図である。
【図4】図4は意見表明箇所検出手段のフローチャートである。
【図5】図5はテキストバッファの内容の例を示す図である。
【図6】図6は照合結果バッファの内容の例を示す図である。
【図7】図7は検出結果バッファの内容の例を示す図である。
【図8】図8は本発明の意見抽出装置の第2の実施の形態の構成を示すブロック図である。
【図9】図9は着眼点推定ルールの例を示す図である。
【図10】図10は性質推定ルールの例を示す図である。
【図11】図11は評価推定ルールの例を示す図である。
【図12】図12は欠落要素の推定を行った後の検出結果バッファの内容の例を示す図である。
【図13】図13は本発明の意見抽出装置の第3の実施の形態の構成を示すブロック図である。
【図14】図14は従来の意見抽出装置で用いられる評価を示す表現の辞書の例を示す図である。
【符号の説明】
1 テキスト入力手段
2 テキストバッファ
3 意見要素記憶手段
4 意見要素照合手段
5 照合結果バッファ
6 意見表明箇所検出手段
7 検出結果バッファ
20 入力装置
21 データ処理装置
22 記憶装置
23 入力メモリ
24 ワークメモリ
25 出力装置 26 記録媒体 30 第1の表記の記憶部
31 第2の表記の記憶部
32 第3の表記の記憶部
33 第4の表記の記憶部

Claims (2)

  1. 入力テキスト中から意見表明箇所を検出する意見抽出装置であって、
    対象物を示し得る第1の表記の集合と、前記対象物に関する評価の着眼点を示し得る第2の表記の集合と、前記着眼点に関する前記対象物の性質を示し得る第3の表記の集合と、前記対象物に関する肯定または否定または中立の評価を示し得る第4の表記の集合と、対象物、対象物に関する評価の着眼点、着眼点に関する対象物の性質及び対象物に関する肯定又は否定又は中立の評価の組合せである意見の構成パタンとが登録された意見要素記憶手段と、
    前記入力テキストから、前記意見要素記憶手段に登録された前記第1から第4の表記に対応する文字列を照合する意見要素照合手段と、
    前記意見要素照合手段の結果に基づいて、前記入力テキスト中から意見を表明した部分テキストを、前記文字列と照合された前記第1から第4の表記の組合せが、前記意見の構成パタンのいずれかに該当するか否かを判断し、該当する場合には、前記文字列に、照合された第1から第4の表記に対応する、対象物、対象物に関する評価の着眼点、着眼点に関する対象物の性質又は対象物に関する肯定若しくは否定若しくは中立の評価の種別を付与することにより、前記第1から第4の表記を区別した状態で検出する意見表明箇所検出手段とを備えることを特徴とした意見抽出装置。
  2. 情報処理装置に入力テキスト中から意見表明箇所を検出させる処理を行なわせる意見抽出プログラムであって、
    前記意見抽出プログラムは前記情報処理装置に、
    メモリに登録された、対象物を示し得る第1の表記の集合、前記対象物に関する評価の着眼点を示し得る第2の表記の集合、前記着眼点に関する前記対象物の性質を示し得る第3の表記の集合、及び前記対象物に関する肯定または否定または中立の評価を示し得る第4の表記の集合、対象物、対象物に関する評価の着眼点、着眼点に関する対象物の性質及び対象物に関する肯定又は否定又は中立の評価の組合せである前記意見の構成パタンに基づいて、前記入力テキストから前記第1から第4の表記に対応する文字列を照合する意見要素照合処理と、
    前記意見要素照合処理の結果に基づいて、前記入力テキスト中から意見を表明した部分テキストを、前記文字列と照合された前記第1から第4の表記の組合せが前記意見の構成パタンのいずれかに該当するか否かを判断し、該当する場合には、前記文字列に、照合された第1から第4の表記に対応する、対象物、対象物に関する評価の着眼点、着眼点に関する対象物の性質又は対象物に関する肯定若しくは否定若しくは中立の評価の種別を付与することにより、前記第1から第4の表記を区別した状態で検出する意見表明箇所検出処理とを実行させる為の意見抽出プログラム。
JP2002323900A 2002-11-07 2002-11-07 意見抽出装置、意見抽出プログラム Expired - Lifetime JP3988622B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002323900A JP3988622B2 (ja) 2002-11-07 2002-11-07 意見抽出装置、意見抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002323900A JP3988622B2 (ja) 2002-11-07 2002-11-07 意見抽出装置、意見抽出プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007009356A Division JP4501940B2 (ja) 2007-01-18 2007-01-18 意見抽出装置、意見抽出方法、意見抽出プログラム

Publications (2)

Publication Number Publication Date
JP2004157841A JP2004157841A (ja) 2004-06-03
JP3988622B2 true JP3988622B2 (ja) 2007-10-10

Family

ID=32803651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002323900A Expired - Lifetime JP3988622B2 (ja) 2002-11-07 2002-11-07 意見抽出装置、意見抽出プログラム

Country Status (1)

Country Link
JP (1) JP3988622B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219880A (ja) 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP5137397B2 (ja) * 2006-12-28 2013-02-06 キヤノン株式会社 データ管理装置、データ処理方法、及びコンピュータプログラム
JP5442401B2 (ja) * 2009-11-13 2014-03-12 株式会社インテック 行動情報抽出システム及び抽出方法
CN111191428B (zh) * 2019-12-27 2022-02-25 北京百度网讯科技有限公司 评论信息处理方法、装置、计算机设备和介质
CN117573814A (zh) * 2024-01-17 2024-02-20 中电科大数据研究院有限公司 一种舆论态势评估方法、装置、系统以及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3574551B2 (ja) * 1997-09-22 2004-10-06 日本電信電話株式会社 情報抽出方法、情報抽出装置及び情報抽出プログラムを記録した記録媒体
JP4510263B2 (ja) * 2000-10-20 2010-07-21 キヤノン株式会社 番組情報処理装置、番組情報処理方法及び記録媒体

Also Published As

Publication number Publication date
JP2004157841A (ja) 2004-06-03

Similar Documents

Publication Publication Date Title
Afifi et al. Computer-aided multivariate analysis
US9477750B2 (en) System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
KR102218468B1 (ko) 텍스트의 내용 및 감정 분석에 기반한 답변 추천 시스템 및 방법
JP2007157058A (ja) 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム
JP4501940B2 (ja) 意見抽出装置、意見抽出方法、意見抽出プログラム
JP4293145B2 (ja) クチコミ情報判定方法及び装置及びプログラム
JP3988622B2 (ja) 意見抽出装置、意見抽出プログラム
Fuller et al. Applying contextual memory cues for retrieval from personal information archives
JP2009064339A (ja) 仕様書内容検査方法および仕様書内容検査システム
Muralikumar et al. A Human-Centered Evaluation of a Toxicity Detection API: Testing Transferability and Unpacking Latent Attributes
Kimbrough et al. On developing indicators with text analytics: exploring concept vectors applied to English and Chinese texts
Ladd Imaginative networks: Tracing connections among early modern book dedications
Gulliksen et al. Analysis of information utilization (AIU)
CN108319586A (zh) 一种信息提取规则的生成和语义解析方法及装置
Cameron et al. Using computers in history
Satterfield et al. Identifying and describing information seeking tasks
Ashe et al. e-tourism and culture through virtual art galleries: A pilot study of the usability of an interface
Hoque et al. An interactive system for exploring community question answering forums
JPWO2016063403A1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
CN110399604A (zh) 电子书试读部分的生成方法、装置及计算机可读存储介质
JP4098764B2 (ja) 文書処理装置及びプログラム
JP2012003403A (ja) 意見分析装置、意見分析方法、および意見分析用プログラム
Kumar et al. Sentiment Analysis of Developers’ Comments on GitHub Repository: A Study
JP5221751B2 (ja) 著者行動推定装置、著者行動推定モデル学習装置、著者行動推定方法、著者行動推定モデル学習方法、及びプログラム
Nord Sentiment analysis of arbitrary search resultsIdentified obstacles, mitigations strategies and effects on sentiment measurement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070118

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070118

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070709

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 3988622

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110727

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110727

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120727

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120727

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130727

Year of fee payment: 6

EXPY Cancellation because of completion of term