JP4854019B2 - 意見収集システム、意見収集方法および意見収集プログラム - Google Patents
意見収集システム、意見収集方法および意見収集プログラム Download PDFInfo
- Publication number
- JP4854019B2 JP4854019B2 JP2006321497A JP2006321497A JP4854019B2 JP 4854019 B2 JP4854019 B2 JP 4854019B2 JP 2006321497 A JP2006321497 A JP 2006321497A JP 2006321497 A JP2006321497 A JP 2006321497A JP 4854019 B2 JP4854019 B2 JP 4854019B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- written
- writing
- opinion
- location
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 154
- 238000011156 evaluation Methods 0.000 claims description 70
- 238000010801 machine learning Methods 0.000 claims description 62
- 230000014509 gene expression Effects 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 20
- 238000012854 evaluation process Methods 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 description 42
- 239000000284 extract Substances 0.000 description 19
- 238000012545 processing Methods 0.000 description 19
- 238000012706 support-vector machine Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 241000008357 Okapia johnstoni Species 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 241001122315 Polites Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- TUBQDCKAWGHZPF-UHFFFAOYSA-N 1,3-benzothiazol-2-ylsulfanylmethyl thiocyanate Chemical compound C1=CC=C2SC(SCSC#N)=NC2=C1 TUBQDCKAWGHZPF-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001074085 Scophthalmus aquosus Species 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001343 mnemonic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
立石健二,石黒義英,福島俊一,インターネットからの評判情報検索,情報処理学会研究報告,2001−NL−144−11,pp75−82,2001.
(a) :意見収集システムであって、電子的にデータを書き込む場所に対する書き込み文を、入力された聞きたい内容の知識表現に基づき、機械学習の手法を用いて生成する書き込み文生成手段と、前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する際、入力された聞きたい内容を含む文を前記電子的にデータを書き込む場所から抽出し、抽出した文の下を前記書き込み箇所として特定する書き込み箇所特定手段と、前記書き込み文を前記書き込み箇所に書き込む書き込み手段と、前記書き込まれた書き込み文に対してフォローする文またはその他の返事をする文を収集することによって、前記書き込み文に対する意見を収集する意見収集手段と、前記収集された意見を評価する意見評価手段を備えると共に、前記書き込み文生成手段は、前記抽出した文に対してフォローする文またはその他の返事をする文を書き込み文として生成する機能と、前記入力された聞きたい内容の知識表現に基づいて生成される書き込み文を翻訳して、前記書き込み箇所に書き込まれる文を生成する機能と、前記書き込み文が良い書き込みか悪い書き込みかを機械学習の手法を用いて判定する機能とを備え、前記意見評価手段は、前記収集したフォローする文またはその他の返事をする文に対して反応の良い場合、悪い場合の判定を機械学習の手法を用いて行う機能、及び前記収集したフォローする文またはその他の返事をする文に対して意見性を含む文と意見性を含まない文とその他の文とに分けるための判定を機械学習の手法を用いて行う機能とを備えている。
(第1の実施の形態)
本発明の第1の実施の形態においては、意見収集システム1が、新たな質問を電子掲示板に書き込んで意見を収集する。例えば、電子掲示板に対して「Aってどうですか?」という質問文を書き込み文として書き込み、当該質問文に対する意見を収集する。なお、Aは、例えば製品名である。
(1)人手で作成したパターンに基づく方法
まず、聞きたい内容の知識表現を定義する。知識表現の例は、例えば、聞きたい内容のテーマ(A、場合によってはBも利用)と聞く項目の種類である。以下の説明では、聞きたい内容のテーマ(A、場合によってはBも利用)と聞く項目の種類を、聞きたい内容のテーマ(A、場合によってはBも利用)+聞く項目の種類と記述する。聞きたい内容のテーマとは、聞きたい内容(意見の収集対象となる内容)を示すキーワード又は文である。
聞く項目の種類:テーマ自体を聞く
Aってどう?
Aってどうですか?
Aについてどう思われますか?
聞く項目の種類:テーマの最もよいものを聞く
Aってどれが一番いいですか?
最適なAってどれですか?
最強のAは?
聞く項目の種類:比較をきく
AとBはどちらがいいですか?
聞く項目の種類:使いごこちを聞く
Aの使いごごちはどうですか?
聞く項目の種類:壊れる程度を聞く
Aはどの程度で壊れるのですか?
具体的には、書き込み文生成部10が、ユーザの指定入力に従い、聞きたい内容の知識表現として、聞きたい内容のテーマ(A、場合によってはBも利用)+聞く項目の種類をまず入力する。なお、本発明の一実施例によれば、ユーザが、聞きたい内容のテーマを示す文を指定入力し、書き込み文生成部10が、後述する公知の形態素解析技術を用いて、当該指定入力された文から名詞をキーワードとして抽出し、抽出されたキーワードを聞きたい内容のテーマとして入力するようにしてもよい。
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く
の場合、
最強のカメラは?
といった書き込み文を生成する。
聞く項目の種類:ABCの確認
製品Aの属性Bは評価Cですか?
聞く項目の種類:評価を聞く
製品Aの属性Bはどうですか?
聞く項目の種類:属性を聞く
製品Aで評価がCの属性は何ですか?
聞く項目の種類:製品を聞く
属性Bが評価Cである製品にはどのようなものがありますか?
聞く項目の種類:よく売れている理由を聞く
製品Aがよく売れている理由は?
聞く項目の種類:買った動機を聞く
製品Aを買った動機は?
聞く項目の種類:購買意欲を聞く
製品Aを買いたいですか?
聞く項目の種類:用途を聞く
製品Aの用途は?
具体的には、書き込み文生成部10が、ユーザの指定入力に従い、聞きたい内容の知識表現として、聞きたい製品A+聞きたい属性B+聞きたい評価C+聞く項目の種類をまず入力する。書き込み文生成部10は、記憶手段から、入力した知識表現にあったパターンを選択する。複数のパターンが使える場合は、例えばランダムにパターンを選択する。書き込み文生成部10は、選択したパターンに基づいて、書き込み文を生成する。
例えば、
聞きたい製品A=X社のパソコン
聞きたい属性B=性能
聞く項目の種類=評価
の場合、
X社のパソコンの性能はどうですか?
という書き込み文を生成する。
(2)機械学習による手法
まず、予め聞きたい内容の知識表現を定義する。次に、書き込み文生成部10が、入力した聞きたい内容の知識表現に応じて、書き込み文の候補を生成する。書き込み文の候補の生成には、上述した(1)の人手で作成したパターンに基づく方法を用いて生成してもよいし、ランダムに単語を選択し、その単語群をランダムな順序に結合させて候補の文を作成する方法(あらゆる単語からランダムに選択し、あらゆる順序で単語を結合する方法である。かなり多数の候補文が作成される)でもよいし、これらの方法の組み合わせでもよい。そして、書き込み文生成部10が、候補の中で最もよいものを教師あり機械学習により選択する。
参考文献(2):サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
参考文献(3):SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
ただし、fmax は以下の式によって与えられる。
参考文献(5):Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998) )
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
sgn(x)=1(x≧0)
−1(otherwise )
であり、また、各αi は式(10)と式(11)の制約のもと式(9)を最大にする場合のものである。
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi >0となるxi は、サポートベクトルと呼ばれ、通常、式(8)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
参考文献(7):Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
例えば、入力された聞きたい内容のテーマと聞く項目の種類が、
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く
の場合、
まず、書き込み文生成部10は、例えば、入力された聞きたい内容のテーマと聞く項目の種類の情報に基づいて、所定の記憶手段に記憶された書き込み文のパターンを用いて、
カメラってどれが一番いいですか?
最適なカメラってどれですか?
最強のカメラは?
という書き込み文の候補を生成する。
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く
と
カメラではどれが一番いいですか?
の組
よい書き込み
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く
と
カメラはどれがいいですか?
の組
悪い書き込み
が予め記憶手段に記憶されているとする。
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類 =テーマの最もよいものを聞く
と
カメラではどれが一番いいですか?
の組
の素性は、
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:カメラ
書き込み文の単語:どれ
書き込み文の単語:一番
となる。
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く
と
カメラはどれがいいですか?
の組
悪い書き込み
の素性は、
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:カメラ
書き込み文の単語:どれ
となる。
聞く項目の種類:テーマの最もよいものを聞く
の場合は、「一番」という単語を含んでいると、よい書き込みになりやすい、といったことを学習する。
カメラってどれが一番いいですか?
最適なカメラってどれですか?
最強のカメラは?
のそれぞれについて、以下の素性を取り出す。
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:カメラ
書き込み文の単語:どれ
書き込み文の単語:一番
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:最適
書き込み文の単語:カメラ
書き込み文の単語:どれ
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:最強
書き込み文の単語:カメラ
記憶手段に記憶された、聞く項目の種類がテーマの最もよいものを聞く、の場合は、「一番」という単語を含んでいると、よい書き込みになりやすい、という学習結果に基づいて、素性が、
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:カメラ
書き込み文の単語:どれ
書き込み文の単語:一番
である以下の書き込み文の候補
カメラってどれが一番いいですか?
が、最も確信度高く、よい書き込みと判定される。
カメラってどれが一番いいですか?
を書き込み文として選択し、出力する。
ChaSen は、日本語文を分割し、さらに、各単語の品詞も推定してくれる。
へ ヘ へ 助詞- 格助詞− 一般
行く イク 行く 動詞- 自立 五段・カ行促音便 基本形
EOS
このように、各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
上述した本発明の第1の実施の形態においては、例えば、書き込み文生成部10が、人手で作成してユーザの指定によって書き込み文生成部10に入力された書き込み文自体を出力するようにしてもよい。
(辞書に基づく方法)
書き込み部12によって電子掲示板に書き込まれた書き込み文に対する反応の良い場合と反応の悪い場合の表現を、予め辞書として意見収集システム1内の所定の記憶手段に記憶しておく。意見評価部14は、当該辞書に基づいて、収集された上記返事の文を評価する。
反応の良い場合
...さん、お答えします。
反応の悪い場合
自分で考えては
工作員どのご苦労
回答なし
汚れる
を用意し、
収集された返事の文が上記辞書中の表現にマッチした場合、マッチした表現に対応する反応(反応の良い場合又は悪い場合)と解釈する。
「Aカメラメーカー工作員どのご苦労」
であれば、辞書における「工作員どのご苦労」という表現に一致するため、反応が悪いと判定される。
(機械学習を使用した方法)
例えば、予めフォロー文(例えば、ある書き込みをフォローする文)を大量に収集し、それぞれの文に対して、反応が良いか、反応が悪いか、それ以外かの情報を付与する。そして、上述した機械学習法を用いて、自動で反応が良いか、反応が悪いか、それ以外かを判定する。
(パターンに基づく方法)
例えば、
と思う
と思います
でしょう
が良いです
というパターンを用意し、これらのパターンと合致した返事の文を、意見性を含む文と判断する。
(機械学習を用いる方法)
文と当該文が意見性を含むか否かの情報との対を大量に予め用意する。また、文から単語文末文字列などを素性として取り出し、機械学習を行う。当該機械学習の方法は、前述した他の機械学習の方法と同様である。当該機械学習を行うことによって、返事の文が意見性を含むか否かが判定できるようになる。収集された返事の文が肯定的な意見を示すか、否定的な意見を示すかについても、上記と同様に機械学習を用いて判断することができる。
(パターンによる方法)
例えば、電子掲示板に書き込まれた質問(書き込み文)が、「製品Aの属性Bは評価Cですか?」である場合のように、聞く項目の種類が、書き込み文の生成処理の説明において前述した、ABCの確認であるとき、「はい」、「いいえ」に類するものが解答になる。
「はい」→「はい」
「そう思います。」→「はい」
「いいえ」→「いいえ」
「違います」→「いいえ」
「そんなことはないでしょう」→「いいえ」
意見評価部14は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、質問に対する解答は、矢印の右に示す解答であると判断する。
「良いです」→「良い」
「使えます」→「良い」
「役に立ちません」→「悪い」
「ダメです」→「悪い」
意見評価部14は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、質問に対する解答は、矢印の右に示す解答であると判断する。
例えば、書き込み文としての質問が、
製品Aで評価がCの属性は何ですか?
とする。
製品Aで評価がCの属性はXです→X
属性はXだ→X
というパターンを用意する。
理由は...
...だから。
(機械学習による方法)
例えば、聞く項目の種類が、上述したABCの確認だと、「はい」、「いいえ」に類するものが解答になる。
「はい」→「はい」
「そう思います。」→「はい」
「いいえ」→「いいえ」
「違うと思います」→「いいえ」
となる。矢印の左の記述は、電子掲示板の参加者の返事の文を示し、矢印の右の記述は、当該返事の文の分類先を示す。
「はい」→「はい」
の場合の素性は、「はい」
「そう思います。」→「はい」
の場合の素性は、
「そう」「思います」
「いいえ」→「いいえ」
の場合の素性は、
「いいえ」
「違うと思います」→「いいえ」
の場合の素性は、
「違います」、「と」、「思います。」
である。
書き込み文
製品Aで評価がCの属性は何ですか?
返事の文
製品Aで評価がCの属性はXです
解答の属性の候補
製品A
分類先:
解答の属性の候補が、解答の属性として正しくない
書き込み文
製品Aで評価がCの属性は何ですか?
返事の文
製品Aで評価がCの属性はXです
解答の属性の候補
X
分類先:
解答の属性の候補が、解答の属性として正しい
書き込み文
製品Aで評価がCの属性は何ですか?
返事の文
製品Bが好きです
解答の属性の候補
好き
分類先:
解答の属性の候補が、解答の属性として正しくない
意見評価部14は、上記学習データから素性を取り出す。以下の学習データ、
書き込み文
製品Aで評価がCの属性は何ですか?
解答の文
製品Aで評価がCの属性はXです
解答の属性の候補
製品A
の素性である、書き込み文に含まれる単語、文字列は、以下の通りである。
製品A
で
評価
が
C
の
属性
は
何
ですか
また、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
で評価
また、以下の学習データ、
書き込み文
製品Aで評価がCの属性は何ですか?
解答の文
製品Aで評価がCの属性はXです
解答の属性の候補
X
の素性である、書き込み文に含まれる単語、文字列は、以下の通りである。
製品A
で
評価
が
C
の
属性
は
何
ですか
また、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
属性は
です
また、以下の学習データ、
書き込み文
製品Aで評価がCの属性は何ですか?
解答の文
製品Bが好きです
解答の属性の候補
好き
の素性である、書き込み文に含まれる単語、文字列は、以下の通りである。
製品A
で
評価
が
C
の
属性
は
何
ですか
また、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
製品Bが
です
上記三つの事例では、2番目の事例だけが正しく、他は正しくないので、意見評価部14は、素性「書き込み文に含まれる単語、文字列」に「属性」があって、素性「電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語」に「属性は」があると正しく、そうでない場合は正しくないことを学習し、学習結果を所定の記憶手段に記憶する。
書き込み文
製品Bで評価がFの属性は何ですか?
解答の文
その属性はZです
解答の属性の候補
属性
素性としての、書き込み文に含まれる単語、文字列は、以下の通りである。
製品B
で
評価
が
F
の
属性
は
何
ですか
また、素性としての、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
その
はZ
素性「書き込み文に含まれる単語、文字列」に「属性」があって、素性「電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語」に「属性は」がないため、意見評価部14は、上記記憶手段に記憶された学習結果に基づき、正しくないと判断する。
書き込み文
製品Bで評価がFの属性は何ですか?
解答の文
その属性はZです
解答の属性の候補
Z
素性としての、書き込み文に含まれる単語、文字列は、以下の通りである。
製品B
で
評価
が
F
の
属性
は
何
ですか
また、素性としての、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
属性は
です
素性「書き込み文に含まれる単語、文字列」に「属性」があって、素性「電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語」に「属性は」があるため、意見評価部14は、上記記憶手段に記憶された学習結果に基づき、正しいと判断する。そこで、意見評価部14は、Zを解答の属性として出力する。
(階層クラスタリング)
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士も(クラスターと成員同士も)、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の距離の中で最も大きいものをその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員とクラスターBの成員の距離の平均をその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員の位置の平均をそのクラスターの位置とし、すべてのクラスターBの成員の位置の平均をそのクラスターの位置とし、その位置同士の距離の平均をその距離とする方法
・ウォード法と呼ばれる方法もある。以下、ウォード法の説明をする。
^は指数を意味する。
二つ目のΣは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave _x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Wの値が増加するが、ウォード法では、Wの値がなるべく大きくならないようにクラスター同士をくっつけていく。
以下、トップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラスター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの良さをAIC情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各成員は、最も近いクラスター中心の成員となる。
あらかじめ定めた個数k個にクラスタリングすることを考える。k個成員をランダムに選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返しをやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター中心の成員となる。
(第2の実施の形態)
本発明の第2の実施の形態においては、意見収集システム1が、電子掲示板で既に議論となっている話題(テーマ)に関連する文を自動で書き込み、当該書き込んだ文に対する意見を収集する。例えば、電子掲示板に既に書き込まれている文のうち、「A」という単語が書かれた文を選択し、選択した文に対してフォローする/返事をするように、選択した文の下に書き込み文を書き込む。そして、意見収集システム1は、当該書き込んだ文に対する意見を収集して、評価する。
例えば、
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く
とする。
書き込む文(書き込み文)は、
最強のカメラは?
とする。
カメラは便利ですね。
カメラはきらいです。
カメラを落しました。
書き込み先:「ビデオは便利ですね。」
書き込み文:「ビデオはどうですか」
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先としてよい
書き込み先:「ビデオはきらいです。」
書き込み文:「ビデオはどうですか」
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先としてよくない
書き込み先:「ビデオを落としました。」
書き込み文:「ビデオはどうですか」
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先としてよくない
が所定の記憶手段に記憶されていたとする。
書き込み先の箇所の候補の文に含まれる名詞:便利
書き込み先の箇所の候補の文に含まれる名詞:ビデオ
書き込みの文に含まれる名詞:ビデオ
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み箇所の候補の文と書き込みの文において共通して出現する単語の一致する単語数:1語
書き込み先の箇所の候補の文に含まれる名詞:ビデオ
書き込みの文に含まれる名詞:ビデオ
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先の箇所の候補の文と書き込みの文に
おいて共通して出現する単語の一致する単語数:1語
書き込み先の箇所の候補の文に含まれる名詞:ビデオ
書き込みの文に含まれる名詞:ビデオ
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先の箇所の候補の文と書き込みの文に
おいて共通して出現する単語の一致する単語数:1語
書き込み箇所特定部11が、上記取り出された素性と、当該素性の場合に書き込み先としてよいか悪いかの情報に基づいて機械学習すると、
書き込み箇所の候補の文に含まれる名詞:便利
のときに書き込み先としてよいといった情報を学習する。書き込み箇所特定部11は、当該学習結果を所定の記憶手段に記憶する。
カメラは便利ですね。
カメラはきらいです。
カメラを落しました。
について、同様にそれぞれ素性を取り出すと、
書き込み箇所の候補の文に含まれる名詞:便利
書き込み箇所の候補の文に含まれる名詞:ビデオ
書き込み文に含まれる名詞:カメラ
聞きたい内容のテーマ:カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数:1語
書き込み箇所の候補の文に含まれる名詞:ビデオ
書き込み文に含まれる名詞:カメラ
聞きたい内容のテーマ:カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数:1語
書き込み箇所の候補の文に含まれる名詞:ビデオ
書き込み文に含まれる名詞:カメラ
聞きたい内容のテーマ:カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数:1語
となる。このうち、
書き込み箇所の候補の文に含まれる名詞:便利
という素性を持つのは、
カメラは便利ですね。
だけであるので、書き込み箇所特定部11は、所定の記憶手段に記憶された、
書き込み箇所の候補の文に含まれる名詞:便利
のときに書き込み先としてよい、という学習結果に基づいて、上記3つの候補の中で、
カメラは便利ですね。
という文が最も高い確信度をもって、書き込み先としてよいと判断し、当該文を書き込み箇所の文と判定する。
最強のカメラは?
を書き込み文として生成し、書き込み部12が、当該書き込み箇所の文の下に上記書き込み文を書き込む。
(1)辞書、パターンを利用する方法
よく使っています→プラスイメージ
を使うのをやめました→マイナスイメージ
と判定するパターンを使った規則を予め用意しておき、当該規則を用いてプラスイメージかマイナスイメージかを判定する。上記矢印は、当該矢印の左側の表現が当該矢印の右側のイメージであることを示す。
(2)教師あり機械学習に基づく手法
予め大量の文を収集しておき、それぞれの文に、プラスイメージか、マイナスイメージか、それら以外かの情報を付与する。上記文から素性を取り出し、上述した機械学習の手法を用いて、どういう素性のときに、プラスイメージか、マイナスイメージか、それら以外かになりやすいかを学習し、その結果を学習結果として、所定の記憶手段に記憶する。
事例1:カメラをよく使っています→プラスイメージ
事例2:カメラを使うのをやめました→マイナスイメージ
という学習データを用意する。
事例1の素性は、
す
ます
います
ています
っています
使っています
く使っています
よく使っています
をよく使っています
となり、事例2の素性は、
た
した
ました
めました
やめました
をやめました
のをやめました
うのをやめました
使うのをやめました
となる。
よく使っています
という文末があればプラスイメージ、
使うのをやめました
という文末があればマイナスイメージになりやすいと学習する。
す
ます
います
ています
っています
使っています
く使っています
よく使っています
をよく使っています
といった素性を取り出す。
よく使っています
という文末があればプラスイメージ、
使うのをやめました
という文末があればマイナスイメージになりやすい
という学習結果から、
上記「ビデオをよく使っています」という文は、プラスイメージと判断される。
(第3の実施の形態)
本発明の第3の実施の形態においては、意見収集システム1が、複数の電子掲示板(例えば図1に示す電子掲示板サーバ2が管理する電子掲示板と電子掲示板サーバ3が管理する電子掲示板)に同様の質問を書き込む。複数の電子掲示板に質問を書き込む場合、全く同じ書き込み文を書き込むと、発信元が同じであると思われて、返事が得られない可能性がある。異なる発信元からの書き込みであるように装うために、意見収集システム1は、例えば、言い換えの技術を利用して、書き込み文の書き方を少し変えて複数の電子掲示板に書き込む。
(1)辞書を利用する手法
予め、同義語、同義フレーズの辞書を用意して、意見収集システム1内の所定の記憶手段に記憶しておく。書き込み文生成部10は、上記第1の書き込み文を、上記記憶手段内の辞書を用いて、例えばランダムに言い換える。
同義語
一番 <−−> 最も
同義フレーズ
Aってどれが一番いいですか? <−−> 最適なAってどれですか?<−−>最強のAは?
を予め用意する。 <−−> は同義語または同義フレーズであることを示す表示である。
Aってどれが一番いいですか?
であるとすると、
用意された同義語
一番 <−−> 最も
に従って、
Aってどれが最もいいですか?
という文が第1の書き込み文を言い換えた第2の書き込み文として生成される。
Xってどれが一番いいですか?
であるとすると、
用意された同義フレーズ
Aってどれが一番いいですか? <−−> 最適なAってどれですか?
に従って、
最適なXってどれですか?
という文が第1の書き込み文を言い換えた第2の書き込み文として生成される。
(2)本発明の第3の実施の形態においては、下記の参考文献(10)に記載された言い換え技術を用いて、上記第1の書き込み文を言い換えて第2の書き込み文を生成するようにしてもよい。
書き込み文生成部10は、上記参考文献(10)に記載された言い換え技術を用いて、言い換えたい文(上記第1の書き込み文)を第1の書き込み文と同義の第2の書き込み文に言い換える。例えば、書き込み文生成部10は、第1の書き込み文に基づいて、変形の候補を作成する。書き込み文生成部10は、変形の候補の変形の妥当性をチェックし、最も妥当であると判断されたものを第2の書き込み文として出力する。例えば、上記変形の妥当性のチェックにおいて、書き込み文生成部10は、書き込み先(書き込み箇所)の文または当該文の周辺の文との類似度が最も大きな変形の候補を第2の書き込み文として決定する。
(3)本発明の一実施例によれば、書き込み文生成部10が第1の書き込み文に基づいて、文パターン等の所定の規則を用いて生成した第2の書き込み文の候補から、機械学習を用いて、第2の書き込み文を生成するようにしてもよい。
なお、上記言い換えの技術は、第3の実施の形態に限らず、前述した第1の実施の形態や第2の実施の形態においても用いることができる。
score= Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
である。ここで、Wは単語の集合、tf(w,D) は文書Dでの単語wの出現回数、df(w) は全文書でWが出現した文書の数、Nは文書の総数である。
参考文献(11):村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均“位置情報と分野情報を用いた情報検索”自然言語処理(言語処理学会誌) 2000年 4月,7 巻,2 号, p.141 〜 p.160
例えば、Okapiの式に従うスコア( score)は、
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w ∈W で加算
である。ここで、lengthは記事Dの長さ、delta は記事の長さの平均、記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。
2、3 電子掲示板サーバ
10 書き込み文生成部
11 書き込み箇所特定部
12 書き込み部
13 意見収集部
14 意見評価部
Claims (6)
- 意見収集システムであって、
電子的にデータを書き込む場所に対する書き込み文を、入力された聞きたい内容の知識表現に基づき、機械学習の手法を用いて生成する書き込み文生成手段と、
前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する際、入力された聞きたい内容を含む文を前記電子的にデータを書き込む場所から抽出し、抽出した文の下を前記書き込み箇所として特定する書き込み箇所特定手段と、
前記書き込み文を前記書き込み箇所に書き込む書き込み手段と、
前記書き込まれた書き込み文に対してフォローする文またはその他の返事をする文を収集することによって、前記書き込み文に対する意見を収集する意見収集手段と、
前記収集された意見を評価する意見評価手段を備えると共に、
前記書き込み文生成手段は、前記抽出した文に対してフォローする文またはその他の返事をする文を書き込み文として生成する機能と、前記入力された聞きたい内容の知識表現に基づいて生成される書き込み文を翻訳して、前記書き込み箇所に書き込まれる文を生成する機能と、前記書き込み文が良い書き込みか悪い書き込みかを機械学習の手法を用いて判定する機能とを備え、
前記意見評価手段は、前記収集したフォローする文またはその他の返事をする文に対して反応の良い場合、悪い場合の判定を機械学習の手法を用いて行う機能、及び前記収集したフォローする文またはその他の返事をする文に対して意見性を含む文と意見性を含まない文とその他の文とに分けるための判定を機械学習の手法を用いて行う機能とを備えている
ことを特徴とする意見収集システム。 - 請求項1に記載の意見収集システムにおいて、
前記書き込み箇所特定手段が、前記電子的にデータを書き込む場所におけるプラスイメージ又はマイナスイメージの箇所を前記書き込み箇所として特定する
ことを特徴とする意見収集システム。 - 請求項1に記載の意見収集システムにおいて、
前記書き込み文生成手段が、電子的にデータを書き込む場所に書き込んだ書き込み文を同義文に言い換えて、当該同義文を他の書き込み文とし、
前記書き込み手段が、前記他の書き込み文を前記電子的にデータを書き込む場所とは異なる他の電子的にデータを書き込む場所に書き込む
ことを特徴とする意見収集システム。 - 請求項1乃至3のいずれか1項に記載の意見収集システムにおいて、
前記書き込み手段が、生成された書き込み文の同義文が、書き込み対象となる前記電子的にデータを書き込む場所に既に書き込まれているかを確認し、当該確認結果に基づいて、前記書き込み文を前記電子的にデータを書き込む場所における前記書き込み箇所に書き込む
ことを特徴とする意見収集システム。 - 意見収集方法であって、
電子的にデータを書き込む場所に対する書き込み文を、入力された聞きたい内容の知識表現に基づき、機械学習の手法を用いて生成する書き込み文生成ステップと、
前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する際、入力された聞きたい内容を含む文を前記電子的にデータを書き込む場所から抽出し、抽出した文の下を前記書き込み箇所として特定する書き込み箇所特定ステップと、
前記書き込み文を前記書き込み箇所に書き込む書き込みステップと、
前記書き込まれた書き込み文に対してフォローする文またはその他の返事をする文を収集することによって、前記書き込み文に対する意見を収集する意見収集ステップと、
前記収集された意見を評価する意見評価ステップを有すると共に、
前記書き込み文生成ステップは、前記抽出した文に対してフォローする文またはその他の返事をする文を書き込み文として生成するステップと、前記入力された聞きたい内容の知識表現に基づいて生成される書き込み文を翻訳して、前記書き込み箇所に書き込まれる文を生成するステップと、前記書き込み文が良い書き込みか悪い書き込みかを機械学習の手法を用いて判定するステップとを含み、
前記意見評価ステップは、前記収集したフォローする文またはその他の返事をする文に対して反応の良い場合、悪い場合の判定を機械学習の手法を用いて行うステップ、及び前記収集したフォローする文またはその他の返事をする文に対して意見性を含む文と意見性を含まない文とその他の文とに分けるための判定を機械学習の手法を用いて行うステップとを含む
ことを特徴とする意見収集方法。 - 意見収集プログラムであって、
コンピュータに、
電子的にデータを書き込む場所に対する書き込み文を、入力された聞きたい内容の知識表現に基づき、機械学習の手法を用いて生成する書き込み文生成処理と、
前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する際、入力された聞きたい内容を含む文を前記電子的にデータを書き込む場所から抽出し、抽出した文の下を前記書き込み箇所として特定する書き込み箇所特定処理と、
前記書き込み文を前記書き込み箇所に書き込む書き込み処理と、
前記書き込まれた書き込み文に対してフォローする文またはその他の返事をする文を収集することによって、前記書き込み文に対する意見を収集する意見収集処理と、
前記収集された意見を評価する意見評価処理を有すると共に、
前記書き込み文生成処理は、前記抽出した文に対してフォローする文またはその他の返事をする文を書き込み文として生成する処理と、前記入力された聞きたい内容の知識表現に基づいて生成される書き込み文を翻訳して、前記書き込み箇所に書き込まれる文を生成する処理と、前記書き込み文が良い書き込みか悪い書き込みかを機械学習の手法を用いて判定する処理とを含み、
前記意見評価処理は、前記収集したフォローする文またはその他の返事をする文に対して反応の良い場合、悪い場合の判定を機械学習の手法を用いて行う処理、及び前記収集したフォローする文またはその他の返事をする文に対して意見性を含む文と意見性を含まない文とその他の文とに分けるための判定を機械学習の手法を用いて行う処理とを含み、前記各処理を実行させる
ことを特徴とする意見収集プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006321497A JP4854019B2 (ja) | 2006-11-29 | 2006-11-29 | 意見収集システム、意見収集方法および意見収集プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006321497A JP4854019B2 (ja) | 2006-11-29 | 2006-11-29 | 意見収集システム、意見収集方法および意見収集プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008134889A JP2008134889A (ja) | 2008-06-12 |
JP4854019B2 true JP4854019B2 (ja) | 2012-01-11 |
Family
ID=39559697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006321497A Expired - Fee Related JP4854019B2 (ja) | 2006-11-29 | 2006-11-29 | 意見収集システム、意見収集方法および意見収集プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4854019B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5169978B2 (ja) | 2009-04-24 | 2013-03-27 | ソニー株式会社 | 画像処理装置および方法 |
US9600825B2 (en) | 2013-01-04 | 2017-03-21 | International Business Machines Corporation | Estimating probability of spreading information by users on micro-weblogs |
US10671654B2 (en) | 2013-01-04 | 2020-06-02 | International Business Machines Corporation | Estimating probability of spreading information by users on micro-weblogs |
US20160283678A1 (en) * | 2015-03-25 | 2016-09-29 | Palo Alto Research Center Incorporated | System and method for providing individualized health and wellness coaching |
JP6522561B2 (ja) * | 2016-08-01 | 2019-05-29 | 日本電信電話株式会社 | 予測装置、予測方法及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123467A (ja) * | 2000-10-16 | 2002-04-26 | Oki Electric Ind Co Ltd | 電子掲示板システム |
JP3943824B2 (ja) * | 2000-10-31 | 2007-07-11 | 株式会社東芝 | 情報管理方法および情報管理装置 |
JP2003122674A (ja) * | 2001-10-11 | 2003-04-25 | I-Face Inc | 情報伝達装置、及び情報伝達方法 |
JP4330299B2 (ja) * | 2001-10-30 | 2009-09-16 | 本田技研工業株式会社 | 製品開発支援装置及び製品開発支援方法 |
JP3738011B2 (ja) * | 2001-11-20 | 2006-01-25 | 株式会社ジャストシステム | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP4008313B2 (ja) * | 2002-08-30 | 2007-11-14 | 日本電信電話株式会社 | 質問タイプ学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習サンプルが記録されている記録媒体、質問タイプ同定装置、質問タイプ同定プログラム、同プログラムを記録した記録媒体 |
-
2006
- 2006-11-29 JP JP2006321497A patent/JP4854019B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008134889A (ja) | 2008-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Satapathy et al. | Phonetic-based microtext normalization for twitter sentiment analysis | |
Montejo-Ráez et al. | Ranked wordnet graph for sentiment polarity classification in twitter | |
CN113704451B (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
US20140067370A1 (en) | Learning opinion-related patterns for contextual and domain-dependent opinion detection | |
Kaushik et al. | A study on sentiment analysis: methods and tools | |
Ahmed | Detecting opinion spam and fake news using n-gram analysis and semantic similarity | |
Itani et al. | Classifying sentiment in arabic social networks: Naive search versus naive bayes | |
JP4911599B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
JP2008165598A (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
Kamath et al. | Sentiment analysis based approaches for understanding user context in web content | |
Simm et al. | Classification of short text comments by sentiment and actionability for voiceyourview | |
JP4854019B2 (ja) | 意見収集システム、意見収集方法および意見収集プログラム | |
Neshan et al. | A combination of machine learning and lexicon based techniques for sentiment analysis | |
Lazhar et al. | Mining explicit and implicit opinions from reviews | |
Rahman et al. | Sentiment analysis on Twitter data: comparative study on different approaches | |
Vīksna et al. | Sentiment analysis in Latvian and Russian: A survey | |
Pla et al. | Spanish sentiment analysis in Twitter at the TASS workshop | |
Yafoz et al. | Sentiment analysis in Arabic social media using deep learning models | |
Le | A hybrid method for text-based sentiment analysis | |
Sun et al. | Stylometric and Neural Features Combined Deep Bayesian Classifier for Authorship Verification. | |
Sánchez et al. | Identifying the polarity of a text given the emotion of its author | |
Tobius et al. | A comparison of topic modeling and classification machine learning algorithms on Luganda data | |
Li et al. | Advances in Sentiment Analysis: Techniques, Applications, and Challenges | |
Akkineni et al. | Hybrid Method for Framing Abstractive Summaries of Tweets. | |
Musso et al. | Opinion mining of online product reviews using a lexicon-based algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090601 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090601 |
|
A072 | Dismissal of procedure [no reply to invitation to correct request for examination] |
Free format text: JAPANESE INTERMEDIATE CODE: A073 Effective date: 20091020 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091130 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20091130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110922 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111018 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111021 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141104 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |