JP2008134889A - 意見収集システム、意見収集方法および意見収集プログラム - Google Patents

意見収集システム、意見収集方法および意見収集プログラム Download PDF

Info

Publication number
JP2008134889A
JP2008134889A JP2006321497A JP2006321497A JP2008134889A JP 2008134889 A JP2008134889 A JP 2008134889A JP 2006321497 A JP2006321497 A JP 2006321497A JP 2006321497 A JP2006321497 A JP 2006321497A JP 2008134889 A JP2008134889 A JP 2008134889A
Authority
JP
Japan
Prior art keywords
sentence
written
writing
location
opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006321497A
Other languages
English (en)
Other versions
JP4854019B2 (ja
Inventor
Maki Murata
真樹 村田
Koichi Doi
晃一 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PHARMA SECURITY CONSULTING KK
National Institute of Information and Communications Technology
Original Assignee
PHARMA SECURITY CONSULTING KK
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PHARMA SECURITY CONSULTING KK, National Institute of Information and Communications Technology filed Critical PHARMA SECURITY CONSULTING KK
Priority to JP2006321497A priority Critical patent/JP4854019B2/ja
Publication of JP2008134889A publication Critical patent/JP2008134889A/ja
Application granted granted Critical
Publication of JP4854019B2 publication Critical patent/JP4854019B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】電子掲示板等の電子的にデータを書き込む場所に能動的に書き込みを行って、当該書き込みに対する意見を収集する意見収集システム、意見収集方法および意見収集プログラムを提供する。
【解決手段】意見収集システム1の書き込み文生成部10が、書き込み文を生成し、書き込み箇所特定部11が、電子掲示板サーバ2が管理する電子掲示板における書き込み箇所を特定し、書き込み部12が、当該生成された書き込み文を当該書き込み箇所に書き込む。また、意見収集部13が、電子掲示板サーバ2から、上記書き込み文に対する意見を収集し、意見評価部14が、収集された意見を評価する。
【選択図】図1

Description

本発明は、意見収集システム、意見収集方法および意見収集プログラムに関し、特に、電子掲示板等の電子的にデータを書き込む場所に対して書き込みを行って意見を収集する意見収集システム、意見収集方法および意見収集プログラムに関する。
従来、電子掲示板に既に書き込まれた書き込み文を収集して、収集した書き込み文を分析することによって、当該書き込み文に対する各種の意見を収集する技術はあった。
従来の具体的な意見収集技術として、例えば、下記の非特許文献1に、インターネットに分散して存在する人の意見を一括して検索する評判情報検索技術について記載されている。
立石健二,石黒義英,福島俊一,インターネットからの評判情報検索,情報処理学会研究報告,2001−NL−144−11,pp75−82,2001.
しかし、上記従来技術では、電子掲示板に能動的に書き込みを行って、当該書き込みに対する意見を収集することは行っていない。また、上記従来技術は、電子掲示板で既に議論となっている話題に対してフォロー又は返事をする文を自動で書き込み、当該書き込んだ文に対する意見を収集することは行っていない。
本発明は、電子掲示板等の電子的にデータを書き込む場所に能動的に書き込みを行って、当該書き込みに対する意見を収集する意見収集システム、意見収集方法および意見収集プログラムの提供を目的とする。
上記課題を解決するため、本発明は、意見収集システムであって、電子的にデータを書き込む場所に対する書き込み文を入力または生成する書き込み文生成手段と、前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する書き込み箇所特定手段と、前記書き込み文を前記書き込み箇所に書き込む書き込み手段とを備える。
好ましくは、本発明の意見収集システムにおいて、前記書き込み文生成手段が、入力された聞きたい内容の知識表現に基づいて、前記書き込み文を生成する。
好ましくは、本発明の意見収集システムにおいて、前記書き込み文生成手段が、さらに、機械学習の手法を用いて、前記書き込み文を生成する。
好ましくは、本発明の意見収集システムにおいて、前記書き込み文生成手段が、さらに、前記入力された聞きたい内容の知識表現に基づいて生成される書き込み文を翻訳して、前記書き込み箇所に書き込まれる書き込み文を生成する。
好ましくは、本発明の意見収集システムにおいて、前記書き込み箇所特定手段が、入力された聞きたい内容を含む文を前記電子的にデータを書き込む場所から抽出し、抽出した文から選択した文の下を前記書き込み箇所として特定し、前記書き込み文生成手段が、前記選択された文に対してフォローまたは返事をする文を書き込み文として生成する。
好ましくは、本発明の意見収集システムにおいて、前記書き込み箇所特定手段が、前記電子的にデータを書き込む場所におけるプラスイメージ又はマイナスイメージの箇所を前記書き込み箇所として特定する。
好ましくは、本発明の意見収集システムにおいて、前記書き込み文生成手段が、電子的にデータを書き込む場所に書き込んだ書き込み文を同義文に言い換えて、当該同義文を他の書き込み文とし、前記書き込み手段が、前記他の書き込み文を前記電子的にデータを書き込む場所とは異なる他の電子的にデータを書き込む場所に書き込む。
好ましくは、本発明の意見収集システムにおいて、前記書き込み手段が、生成された書き込み文の同義文が、書き込み対象となる前記電子的にデータを書き込む場所に既に書き込まれているかを確認し、当該確認結果に基づいて、前記書き込み文を前記電子的にデータを書き込む場所における前記書き込み箇所に書き込む。
好ましくは、本発明の意見収集システムが、さらに、前記書き込まれた書き込み文に対する返事の文を収集することによって、前記書き込み文に対する意見を収集する意見収集手段を備える。
好ましくは、本発明の意見収集システムが、さらに、前記収集された意見を評価する意見評価手段を備える。
好ましくは、本発明の意見収集システムにおいて、前記意見評価手段が、前記収集された返事の文から前記書き込み文に対する意見を抽出する。
また、本発明は、意見収集方法であって、電子的にデータを書き込む場所に対する書き込み文を入力または生成するステップと、前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定するステップと、前記書き込み文を前記書き込み箇所に書き込むステップとを有する。
また、本発明は、意見収集プログラムであって、コンピュータに、電子的にデータを書き込む場所に対する書き込み文を入力または生成する処理と、前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する処理と、前記書き込み文を前記書き込み箇所に書き込む処理とを実行させる。
本発明によれば、電子掲示板等の電子的にデータを書き込む場所に対して能動的に書き込みを行って、当該書き込みに対する意見を収集することが可能となる。すなわち、従来技術では、既に書き込まれた意見しか収集することができないのに対し、本発明では、例えば電子掲示板に能動的に新たな書き込みを行い、当該書き込みに対する意見を収集することができる。
また、本発明によれば、電子掲示板で既に議論となっている話題に対してフォロー又は返事をする文を自動で書き込み、当該書き込んだ文に対する意見を収集することが可能となる。従って、本発明によれば、電子掲示板における議論の方向性を誘導しながら意見を収集することが可能となる。
また、本発明によれば、ある電子掲示板において書き込んだ書き込み文と同内容の他の書き込み文(同義文)を自動で他の電子掲示板に書き込むことが可能となる。従って、本発明によれば、電子掲示板の利用者に不信感を持たれることなく、複数の電子掲示板に同内容の書き込みを行うことが可能となる。
以下に、図を用いて、本発明の実施の形態について説明する。図1は、本発明の意見収集システムの構成の一例を示す図である。この例では、電子的にデータを書き込む場所として、電子掲示板を例にとって説明する。なお、電子的にデータを書き込む場所の例としては、電子掲示板以外に、例えば、ブログのコメント欄、チャットによるリアルタイムの意見を書き込む場所や、webのコメントフォームの書き込み場所等があるが、本発明の意見収集システムは、これらの電子的にデータを書き込む場所についても適用可能である。
意見収集システム1は、電子掲示板サーバ2、3が管理する電子掲示板に書き込みを行って、当該書き込みに対する意見を収集する処理装置である。電子掲示板サーバ2、3は、電子掲示板(図示を省略)を管理する処理装置である。
意見収集システム1は、書き込み文生成部10、書き込み箇所特定部11、書き込み部12、意見収集部13、意見評価部14を備える。
書き込み文生成部10は、電子掲示板に書き込む文である書き込み文を生成する。書き込み文生成部10は、例えば、予め図示を省略する記憶手段内に記憶された書き込み文のパターンと、ユーザの指定入力に従って書き込み文生成部10が入力した聞きたい内容(意見の収集対象となる内容)のテーマと聞く項目(意見の収集対象となる項目)の種類の情報とに基づいて、書き込み文を生成する。書き込み文生成部10が、ユーザの指定入力に従って入力した書き込み文をそのまま書き込み文として出力するようにしてもよい。すなわち、書き込み文生成部10は、電子掲示板に書き込む文である書き込み文を入力または生成する手段である。
書き込み箇所特定部11は、電子掲示板における書き込み文を書き込む箇所である書き込み箇所を特定する。書き込み部12は、書き込み文を書き込み箇所に書き込む。意見収集部13は、書き込んだ書き込み文に対する返事の文を自動で収集することによって、当該書き込みに対する意見を収集する。意見評価部14は、収集された意見を評価する。
なお、本発明の一実施例によれば、意見収集システム1が、意見収集部13を備えない構成を採るようにしてもよい。
以下に、本発明の第1の実施の形態について説明する。
(第1の実施の形態)
本発明の第1の実施の形態においては、意見収集システム1が、新たな質問を電子掲示板に書き込んで意見を収集する。例えば、電子掲示板に対して「Aってどうですか?」という質問文を書き込み文として書き込み、当該質問文に対する意見を収集する。なお、Aは、例えば製品名である。
具体的には、書き込み文生成部10が、書き込み文を生成し、書き込み箇所特定部11が、例えば電子掲示板サーバ2が管理する電子掲示板において新規に書き込みが可能な箇所を書き込み箇所として選択し、書き込み部12が、当該生成された書き込み文を例えば電子掲示板サーバ2に送信することによって、当該電子掲示板サーバ2が管理している電子掲示板における当該選択された書き込み箇所に当該書き込み文を書き込む。また、意見収集部13が、電子掲示板サーバ2から、当該電子掲示板に書き込んだ書き込み文に対する意見を収集して、意見評価部14が、当該収集された意見を評価する。
以下に、書き込み文生成部10による書き込み文の生成手法について説明する。
(1)人手で作成したパターンに基づく方法
まず、聞きたい内容の知識表現を定義する。知識表現の例は、例えば、聞きたい内容のテーマ(A、場合によってはBも利用)と聞く項目の種類である。以下の説明では、聞きたい内容のテーマ(A、場合によってはBも利用)と聞く項目の種類を、聞きたい内容のテーマ(A、場合によってはBも利用)+聞く項目の種類と記述する。聞きたい内容のテーマとは、聞きたい内容(意見の収集対象となる内容)を示すキーワード又は文である。
次に、例えば、聞く項目の種類に応じた以下の書き込み文のパターンを用意する。当該パターンは、意見収集システム1内の所定の記憶手段(図示を省略)に記憶される。
聞く項目の種類:テーマ自体を聞く
Aってどう?
Aってどうですか?
Aについてどう思われますか?
聞く項目の種類:テーマの最もよいものを聞く
Aってどれが一番いいですか?
最適なAってどれですか?
最強のAは?
聞く項目の種類:比較をきく
AとBはどちらがいいですか?
聞く項目の種類:使いごこちを聞く
Aの使いごごちはどうですか?
聞く項目の種類:壊れる程度を聞く
Aはどの程度で壊れるのですか?
具体的には、書き込み文生成部10が、ユーザの指定入力に従い、聞きたい内容の知識表現として、聞きたい内容のテーマ(A、場合によってはBも利用)+聞く項目の種類をまず入力する。なお、本発明の一実施例によれば、ユーザが、聞きたい内容のテーマを示す文を指定入力し、書き込み文生成部10が、後述する公知の形態素解析技術を用いて、当該指定入力された文から名詞をキーワードとして抽出し、抽出されたキーワードを聞きたい内容のテーマとして入力するようにしてもよい。
書き込み文生成部10は、記憶手段から、入力した知識表現にあったパターンを選択する。複数のパターンが使える場合は、例えばランダムにパターンを選択する。書き込み文生成部10は、選択したパターンに基づいて、書き込み文を生成する。
例えば、
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く
の場合、
最強のカメラは?
といった書き込み文を生成する。
本発明の一実施例によれば、書き込み文生成部10が聞きたい内容のテーマを入力し、入力した聞きたい内容のテーマと予め定められた聞く項目の種類とに基づいて、書き込み文を生成するようにしてもよい。例えば、聞く項目の種類がテーマ自体を聞くものであることが予め定められている場合、書き込み文生成部10が、聞きたい内容のテーマを入力し、入力された聞きたい内容のテーマと、当該予め定められた聞く項目の種類に応じた書き込み文のパターンとに基づいて、書き込み文を生成するようにしてもよい。
また、例えば、上述した知識表現と異なる知識表現の例として、聞きたい製品A+聞きたい属性B+聞きたい評価C+聞く項目の種類を予め定義しておく。
例えば、聞く項目の種類に応じた以下の書き込み文のパターンを用意する。
聞く項目の種類:ABCの確認
製品Aの属性Bは評価Cですか?
聞く項目の種類:評価を聞く
製品Aの属性Bはどうですか?
聞く項目の種類:属性を聞く
製品Aで評価がCの属性は何ですか?
聞く項目の種類:製品を聞く
属性Bが評価Cである製品にはどのようなものがありますか?
聞く項目の種類:よく売れている理由を聞く
製品Aがよく売れている理由は?
聞く項目の種類:買った動機を聞く
製品Aを買った動機は?
聞く項目の種類:購買意欲を聞く
製品Aを買いたいですか?
聞く項目の種類:用途を聞く
製品Aの用途は?
具体的には、書き込み文生成部10が、ユーザの指定入力に従い、聞きたい内容の知識表現として、聞きたい製品A+聞きたい属性B+聞きたい評価C+聞く項目の種類をまず入力する。書き込み文生成部10は、記憶手段から、入力した知識表現にあったパターンを選択する。複数のパターンが使える場合は、例えばランダムにパターンを選択する。書き込み文生成部10は、選択したパターンに基づいて、書き込み文を生成する。
例えば、
聞きたい製品A=X社のパソコン
聞きたい属性B=性能
聞く項目の種類=評価
の場合、
X社のパソコンの性能はどうですか?
という書き込み文を生成する。
本発明における聞きたい内容の知識表現は、上述した構成(例えば、聞きたい内容のテーマ+聞く項目の種類、聞きたい製品A+聞きたい属性B+聞きたい評価C+聞く項目の種類)に限定されず、他の様々な構成を採ることができる。
(2)機械学習による手法
まず、予め聞きたい内容の知識表現を定義する。次に、書き込み文生成部10が、入力した聞きたい内容の知識表現に応じて、書き込み文の候補を生成する。書き込み文の候補の生成には、上述した(1)の人手で作成したパターンに基づく方法を用いて生成してもよいし、ランダムに単語を選択し、その単語群をランダムな順序に結合させて候補の文を作成する方法(あらゆる単語からランダムに選択し、あらゆる順序で単語を結合する方法である。かなり多数の候補文が作成される)でもよいし、これらの方法の組み合わせでもよい。そして、書き込み文生成部10が、候補の中で最もよいものを教師あり機械学習により選択する。
ここで、機械学習の一般的な手法について説明する。機械学習は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の参考文献(1)〜参考文献(3)参照)。
参考文献(1):村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講演.2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
参考文献(2):サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
参考文献(3):SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。
機械学習の手法としては、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法がある。
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の式(1)で与えられる。
Figure 2008134889
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi |a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fi を持つ確率を意味する。P(fi |a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式(2)の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、以下の式(3)を用いてスムージングを行ったものを用いる。
Figure 2008134889
ただし、freq(fi ,a)は、素性fi を持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
決定リスト方法では、あらかじめ設定しておいた素性fj ( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の式によって与えられる。
p(a|b)=p(a|fmax ) 式(4)
ただし、fmax は以下の式によって与えられる。
Figure 2008134889
また、P(ai |fj )(ここでPはpの上部にチルダ)は、素性fj を文脈に持つ場合の分類ai の出現の割合である。
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、以下所定の条件式(式(6))を満足しながらエントロピーを意味する式(7)を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。
Figure 2008134889
ただし、A、Bは分類と文脈の集合を意味し、gj (a,b)は文脈bに素性fj があって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai |fj )(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。
式(6)は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化( 確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の参考文献(4)および参考文献(5)に記載されている。
参考文献(4):Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997
参考文献(5):Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998) )
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
図2にサポートベクトルマシン法のマージン最大化の概念を示す。図2において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図2(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図2(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図2(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線形にする拡張(カーネル関数の導入) がなされたものが用いられる。
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
Figure 2008134889
ただし、xは識別したい事例の文脈(素性の集合) を、xi とyj (i=1,…,l,yj ∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise )
であり、また、各αi は式(10)と式(11)の制約のもと式(9)を最大にする場合のものである。
Figure 2008134889
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。
K(x,y)=(x・y+1)d 式(12)
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi >0となるxi は、サポートベクトルと呼ばれ、通常、式(8)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献(6)および参考文献(7)に記載されている。
参考文献(6):Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
参考文献(7):Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、a と推定する。
ここで、どのような解(分類先)になりやすいかの度合いを、例えば確信度という。確信度の求め方は、機械学習の手法として用いる様々な方法によって異なる。
例えば、機械学習の手法としてk近傍法を用いる場合、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として所定の記憶手段に記憶しておく。
そして、新しい問題(例えば、本発明の実施の形態においては、後述する書き込み文の候補)が入力されたときに、上記所定の記憶手段において定義された類似度と事例を参照して、当該書き込み文の候補について、その候補の類似度が高い順にk個の事例を上記所定の記憶手段内の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、当該書き込み文の候補の分類先(解)として推定する。すなわち、各書き込み文の候補についての、確信度を、選択したk個の事例での多数決の票数とする。
また、機械学習手法として、シンプルベイズ法を用いる場合には、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として所定の記憶手段に記憶する。そして、例えば新しい問題(例えば、本発明の実施の形態においては、後述する書き込み文の候補)が入力されたときに、上記所定の記憶手段内の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて取得される、書き込み文の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その書き込み文の候補の素性の分類(解)と推定する。すなわち、書き込み文の候補の素性の集合の場合にある解となりやすさの度合い(確信度)を、各分類になる確率とする。
また、機械学習手法として決定リスト法を用いる場合には、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを所定の記憶手段に記憶する。そして、新しい問題(例えば、本発明の実施の形態においては、後述する書き込み文の候補)が入力されたときに、上記所定の記憶手段に記憶されたリストの優先順位の高い順に、入力された書き込み文の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。すなわち、書き込み文の候補の素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度とする。
また、機械学習手法として最大エントロピー法を使用する場合には、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて所定の記憶手段に記憶する。そして、新しい問題(例えば、本発明の実施の形態においては、後述する書き込み文の候補)が入力されたときに、上記所定の記憶手段内の確率分布を利用して、書き込み文の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、書き込み文の候補の素性の集合の場合にある解となりやすさの度合い(確信度)を、各分類になる確率とする。
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて所定の記憶手段に記憶する。そして、新しい問題(例えば、本発明の実施の形態においては、後述する書き込み文の候補)が入力されたときに、上記所定の記憶手段に記憶された超平面を利用して、書き込み文の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果に基づいて定まる分類を、その候補の解と推定する。すなわち、書き込み文の候補の素性の集合の場合にある解となりやすさの度合い(確信度)を、分離平面からの正例の空間への距離の大きさとする。
上述した教師あり機械学習の手法を用いて、本発明の第1の実施の形態を実現する場合、予め、聞きたい内容の知識表現と書き込み文の候補の組を大量に用意し、それぞれの組に対して、いい書き込みか悪い書き込みかの情報をあらかじめ付与しておく。それを学習データとして利用する。
次に、書き込み文生成部10は、聞きたい内容の知識表現と書き込み文の候補の組から、素性を取り出す。
そして、書き込み文生成部10は、学習データを利用して、どういう素性のときに、いい書き込みになりやすいか、悪い書き込みかを学習し、学習結果を所定の記憶手段に記憶する。
次に、書き込み文生成部10が、いい書き込みか悪い書き込みかを判定すべき書き込み文の候補と、聞きたい内容の知識表現を入力し、それらから素性を取り出し、記憶手段に記憶された学習結果に基づいて、取り出されたその素性のときに、いい書き込みの分類の確信度(いい書き込みが分類先となる確信度)を求める。書き込み文生成部10は、いい書き込みの分類の確信度が最も高い候補を実際に電子掲示板に書き込む書き込み文として選択する。
素性は、例えば、聞きたい内容の知識表現の各項目、書き込み文に含まれる各単語、またそれらの品詞、また、文字列、単語列とする。
例えば、入力された聞きたい内容のテーマと聞く項目の種類が、
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く
の場合、
まず、書き込み文生成部10は、例えば、入力された聞きたい内容のテーマと聞く項目の種類の情報に基づいて、所定の記憶手段に記憶された書き込み文のパターンを用いて、
カメラってどれが一番いいですか?
最適なカメラってどれですか?
最強のカメラは?
という書き込み文の候補を生成する。
学習データとして、
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く

カメラではどれが一番いいですか?
の組
よい書き込み

聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く

カメラはどれがいいですか?
の組
悪い書き込み
が予め記憶手段に記憶されているとする。
まず、書き込み文生成部10は、上記記憶手段に記憶された学習データから、素性を取り出す。ここでは、例えば、聞きたい内容の知識表現の各項目、書き込み文に含まれる各名詞の単語を素性とする。
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類 =テーマの最もよいものを聞く

カメラではどれが一番いいですか?
の組
の素性は、
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:カメラ
書き込み文の単語:どれ
書き込み文の単語:一番
となる。
また、
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く

カメラはどれがいいですか?
の組
悪い書き込み
の素性は、
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:カメラ
書き込み文の単語:どれ
となる。
上記取り出された素性と、その素性の場合に良い書き込みか否かの情報を利用して、機械学習する。
例えば、
聞く項目の種類:テーマの最もよいものを聞く
の場合は、「一番」という単語を含んでいると、よい書き込みになりやすい、といったことを学習する。
書き込み文生成部10は、例えば、上述した書き込み文の候補
カメラってどれが一番いいですか?
最適なカメラってどれですか?
最強のカメラは?
のそれぞれについて、以下の素性を取り出す。
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:カメラ
書き込み文の単語:どれ
書き込み文の単語:一番

聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:最適
書き込み文の単語:カメラ
書き込み文の単語:どれ

聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:最強
書き込み文の単語:カメラ
記憶手段に記憶された、聞く項目の種類がテーマの最もよいものを聞く、の場合は、「一番」という単語を含んでいると、よい書き込みになりやすい、という学習結果に基づいて、素性が、
聞きたい内容のテーマ(A):カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み文の単語:カメラ
書き込み文の単語:どれ
書き込み文の単語:一番
である以下の書き込み文の候補
カメラってどれが一番いいですか?
が、最も確信度高く、よい書き込みと判定される。
従って、書き込み文生成部10は、
カメラってどれが一番いいですか?
を書き込み文として選択し、出力する。
なお、上記書き込み文に含まれる単語は、公知の形態素解析技術を用いて認識することができる。形態素解析には、例えば、奈良先端大で開発されている形態素解析システムである ChaSen (下記の参考文献(8)参照)を用いる。
参考文献(8):形態素解析システム茶筌(http://chasen.aist-nara.ac.jp/index.html.ja )
ChaSen は、日本語文を分割し、さらに、各単語の品詞も推定してくれる。
例えば、「学校へ行く」を入力すると、以下の結果を得る。
学校 ガッコウ 学校 名詞− 一般
へ ヘ へ 助詞- 格助詞− 一般
行く イク 行く 動詞- 自立 五段・カ行促音便 基本形
EOS
このように、各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
また、英語の品詞タグつけシステムとしては、 Brill(下記の参考文献(9)参照)のものが有名である。このシステムを用いれば、英語文の各単語の品詞を推定することができる。
参考文献(9): Eric Brill, Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging,Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
上述した本発明の第1の実施の形態においては、例えば、書き込み文生成部10が、人手で作成してユーザの指定によって書き込み文生成部10に入力された書き込み文自体を出力するようにしてもよい。
また、本発明の一実施例によれば、例えば、書き込み文生成部10が、英語の知識表現を入力し、入力された英語の知識表現に基づいて英語の書き込み文を生成し、生成された英語の書き込み文を翻訳して日本語の書き込み文を生成してもよい。また、例えば、書き込み文生成部10が、日本語の知識表現を入力し、入力された日本語の知識表現に基づいて日本語の書き込み文を生成し、生成された日本語の書き込み文を翻訳して英語の書き込み文を生成してもよい。上記翻訳には、訳語辞書を用いた翻訳によってもよいし、既存の翻訳システムで翻訳する手法を用いてもよい。
図3は、本発明の第1の実施の形態における意見収集処理フローの例を示す図である。まず、書き込み文生成部10が、書き込み文を生成する(ステップS1)。次に、書き込み箇所特定部11が、電子掲示板において新規に書き込みが可能な箇所を書き込み箇所として選択する(ステップS2)。そして、書き込み部12が、当該生成された書き込み文を上記選択された書き込み箇所に書き込む(ステップS3)。そして、意見収集部13が、当該書き込まれた書き込み文に対する意見を電子掲示板サーバ2から収集して(ステップS4)、意見評価部14が、収集された意見を評価して(ステップS5)、処理を終了する。上記ステップS4においては、意見収集部13は、例えば電子掲示板サーバ2が管理する電子掲示板における、上記書き込み文に対して書き込まれた回答(返事の文)を自動で収集する。
上記ステップS5における意見の評価処理は、例えば以下のようにして行う。
(辞書に基づく方法)
書き込み部12によって電子掲示板に書き込まれた書き込み文に対する反応の良い場合と反応の悪い場合の表現を、予め辞書として意見収集システム1内の所定の記憶手段に記憶しておく。意見評価部14は、当該辞書に基づいて、収集された上記返事の文を評価する。
例えば、辞書として、
反応の良い場合
...さん、お答えします。
私は...と思います。
お答えします。
反応の悪い場合
自分で考えては
工作員どのご苦労
回答なし
汚れる
を用意し、
収集された返事の文が上記辞書中の表現にマッチした場合、マッチした表現に対応する反応(反応の良い場合又は悪い場合)と解釈する。
例えば、収集された返事の文が、
「Aカメラメーカー工作員どのご苦労」
であれば、辞書における「工作員どのご苦労」という表現に一致するため、反応が悪いと判定される。
(機械学習を使用した方法)
例えば、予めフォロー文(例えば、ある書き込みをフォローする文)を大量に収集し、それぞれの文に対して、反応が良いか、反応が悪いか、それ以外かの情報を付与する。そして、上述した機械学習法を用いて、自動で反応が良いか、反応が悪いか、それ以外かを判定する。
上記ステップS5における意見の評価処理のより詳細な例を以下に説明する。前記意見評価部14は、例えば、意見収集部13によって収集された返事の文から書き込み文に対する意見を抽出する。具体的には、意見評価部14は、以下のようにして、収集された返事の文を、意見性を含む文と意見性を含まない文とに分類する。
(パターンに基づく方法)
例えば、
と思う
と思います
でしょう
が良いです
というパターンを用意し、これらのパターンと合致した返事の文を、意見性を含む文と判断する。
(機械学習を用いる方法)
文と当該文が意見性を含むか否かの情報との対を大量に予め用意する。また、文から単語文末文字列などを素性として取り出し、機械学習を行う。当該機械学習の方法は、前述した他の機械学習の方法と同様である。当該機械学習を行うことによって、返事の文が意見性を含むか否かが判定できるようになる。収集された返事の文が肯定的な意見を示すか、否定的な意見を示すかについても、上記と同様に機械学習を用いて判断することができる。
本発明の一実施例によれば、意見評価部14は、以下のようにして、収集された返事の文から、当該返事の文に対応する、電子掲示板に書き込まれた質問の解答を抽出する。
(パターンによる方法)
例えば、電子掲示板に書き込まれた質問(書き込み文)が、「製品Aの属性Bは評価Cですか?」である場合のように、聞く項目の種類が、書き込み文の生成処理の説明において前述した、ABCの確認であるとき、「はい」、「いいえ」に類するものが解答になる。
例えば、以下の規則を用意する。
「はい」→「はい」
「そう思います。」→「はい」
「いいえ」→「いいえ」
「違います」→「いいえ」
「そんなことはないでしょう」→「いいえ」
意見評価部14は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、質問に対する解答は、矢印の右に示す解答であると判断する。
また、「製品Aの属性Bはどうですか?」という質問のように、聞く項目の種類が、評価を聞く場合だと、「良い」、「悪い」に類するものが解答になる。
例えば、以下の規則を用意する。
「良いです」→「良い」
「使えます」→「良い」
「役に立ちません」→「悪い」
「ダメです」→「悪い」
意見評価部14は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、質問に対する解答は、矢印の右に示す解答であると判断する。
聞く項目が属性を聞く場合だと、属性が解答になる。
例えば、書き込み文としての質問が、
製品Aで評価がCの属性は何ですか?
とする。
製品Aで評価がCの属性はXです→X
属性はXだ→X
というパターンを用意する。
意見評価部14は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、質問に対する解答は、矢印の右に示す解答であると判断する。意見評価部14は、上記パターンを質問から自動作成するようにしてもよい。例えば、製品Aで評価がCの属性は何ですか?という質問の疑問詞何をXに変換して、文の一部を削除(「ですか?」を「です」に修正)して、上記パターンを生成する。
聞く項目の種類が、理由を聞く場合だと、理由が解答になる。
例えば、以下の規則を用意する。
理由は...
...だから。
意見評価部14は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、当該マッチした文を、理由すなわち解答を記述している文として取り出す。
(機械学習による方法)
例えば、聞く項目の種類が、上述したABCの確認だと、「はい」、「いいえ」に類するものが解答になる。
入力データを、書き込み文と電子掲示板の参加者の返事の文(書き込み文+電子掲示板の参加者の返事の文)とし、素性を、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文に含まれる単語、文字列とし、分類先を、電子掲示板の参加者の返事の文の、文の意味が、「はい」か「いいえ」かとして、意見評価部14が、前述した他の機械学習と同様の機械学習処理を行う。
入力データと分類先の学習データを予め用意する。そして、素性を取り出し、どういう素性のときに、どの分類になりやすいかを学習し、学習結果を所定の記憶手段に記憶する。意見評価部14は、新たな入力データを入力すると、当該入力データから素性を取り出し、学習結果を用いて、その素性の場合にどの分類になりやすいかを特定する。このような機械学習の手法を用いて、書き込み文+電子掲示板の参加者の返事の文という入力データに対して、電子掲示板の参加者の返事の文の文の意味が、「はい」か「いいえ」かが特定できる。
例えば、素性として、電子掲示板の参加者の返事の文の単語のみを利用すると、学習データは、例えば、
「はい」→「はい」
「そう思います。」→「はい」
「いいえ」→「いいえ」
「違うと思います」→「いいえ」
となる。矢印の左の記述は、電子掲示板の参加者の返事の文を示し、矢印の右の記述は、当該返事の文の分類先を示す。
「はい」→「はい」
の場合の素性は、「はい」
「そう思います。」→「はい」
の場合の素性は、
「そう」「思います」
「いいえ」→「いいえ」
の場合の素性は、
「いいえ」
「違うと思います」→「いいえ」
の場合の素性は、
「違います」、「と」、「思います。」
である。
そこで、意見評価部14は、素性に「はい」、「そう」があると「はい」に、そうでないときに「いいえ」になりやすいと学習し、学習結果を所定の記憶手段に記憶する。
意見評価部14が、新たな返事の文「そうです」を入力する。素性は、「そう」、「です」であり、素性「そう」があるため、意見評価部14は、分類先が「はい」であると判断する。
例えば、聞く項目の種類が、評価を聞く場合だと、「良い」、「悪い」に類するものが解答になる。
例えば、入力データを、書き込み文と電子掲示板の参加者の返事の文(書き込み文+電子掲示板の参加者の返事の文)とし、素性を、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文に含まれる単語、文字列とし、分類先を、電子掲示板の参加者の返事の文の文の意味が、「良い」か「悪い」かとして、意見評価部14が、前述した他の機械学習と同様の機械学習処理を行う。
例えば、聞く項目の種類が、属性を聞く場合だと、属性が解答になる。電子掲示板の参加者の返事の文に含まれる各単語を解答の属性の候補とする。
入力データを、書き込み文と電子掲示板の参加者の返事の文と解答の属性の候補(書き込み文+電子掲示板の参加者の返事の文+解答の属性の候補)とし、素性を、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文に含まれる単語、文字列、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語や文字列、書き込み文に、解答の属性の候補の単語が含まれるか否かとし、分類先を、解答の属性の候補が解答の属性として正しい場合、解答の属性の候補が解答の属性として正しくない場合として、他の機械学習と同様の機械学習処理を行う。
意見評価部14は、解答の属性の候補が解答の属性として正しい場合の確信度を算出し、算出した確信度が最も大きい解答の属性の候補を解答の属性とする。
例えば、素性として、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの前後の二単語連続を利用する。
以下の学習データを用意する。
書き込み文
製品Aで評価がCの属性は何ですか?
返事の文
製品Aで評価がCの属性はXです
解答の属性の候補
製品A
分類先:
解答の属性の候補が、解答の属性として正しくない

書き込み文
製品Aで評価がCの属性は何ですか?
返事の文
製品Aで評価がCの属性はXです
解答の属性の候補

分類先:
解答の属性の候補が、解答の属性として正しい

書き込み文
製品Aで評価がCの属性は何ですか?
返事の文
製品Bが好きです
解答の属性の候補
好き
分類先:
解答の属性の候補が、解答の属性として正しくない
意見評価部14は、上記学習データから素性を取り出す。以下の学習データ、
書き込み文
製品Aで評価がCの属性は何ですか?
解答の文
製品Aで評価がCの属性はXです
解答の属性の候補
製品A
の素性である、書き込み文に含まれる単語、文字列は、以下の通りである。
製品A

評価



属性


ですか
また、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
で評価
また、以下の学習データ、
書き込み文
製品Aで評価がCの属性は何ですか?
解答の文
製品Aで評価がCの属性はXです
解答の属性の候補

の素性である、書き込み文に含まれる単語、文字列は、以下の通りである。
製品A

評価



属性


ですか
また、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
属性は
です
また、以下の学習データ、
書き込み文
製品Aで評価がCの属性は何ですか?
解答の文
製品Bが好きです
解答の属性の候補
好き
の素性である、書き込み文に含まれる単語、文字列は、以下の通りである。
製品A

評価



属性


ですか
また、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
製品Bが
です
上記三つの事例では、2番目の事例だけが正しく、他は正しくないので、意見評価部14は、素性「書き込み文に含まれる単語、文字列」に「属性」があって、素性「電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語」に「属性は」があると正しく、そうでない場合は正しくないことを学習し、学習結果を所定の記憶手段に記憶する。
ここで、意見評価部14が、以下の入力データを入力する。
書き込み文
製品Bで評価がFの属性は何ですか?
解答の文
その属性はZです
解答の属性の候補
属性
素性としての、書き込み文に含まれる単語、文字列は、以下の通りである。
製品B

評価



属性


ですか
また、素性としての、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
その
はZ
素性「書き込み文に含まれる単語、文字列」に「属性」があって、素性「電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語」に「属性は」がないため、意見評価部14は、上記記憶手段に記憶された学習結果に基づき、正しくないと判断する。
また、例えば、意見評価部14が、以下の入力データを入力する。
書き込み文
製品Bで評価がFの属性は何ですか?
解答の文
その属性はZです
解答の属性の候補

素性としての、書き込み文に含まれる単語、文字列は、以下の通りである。
製品B

評価



属性


ですか
また、素性としての、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
属性は
です
素性「書き込み文に含まれる単語、文字列」に「属性」があって、素性「電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語」に「属性は」があるため、意見評価部14は、上記記憶手段に記憶された学習結果に基づき、正しいと判断する。そこで、意見評価部14は、Zを解答の属性として出力する。
例えば、聞く項目の種類が、理由を聞く場合だと、理由が解答になる。
入力データを書き込み文+電子掲示板の参加者の返事の文とし、素性を、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文に含まれる単語、文字列とし、分類先を電子掲示板の参加者の返事の文が理由か、それ以外かとして、意見評価部14が機械学習を行って、書き込み文の解答を抽出する。
本発明の一実施例によれば、意見評価部14が、書き込み文に対する返事の文を自動クラスタリング技術を用いて整理して、表示するようにしてもよい。
自動クラスタリングには下記の方法を用いる。なお、以下のクラスタリング技術の記述における「記事」という語は、本発明に適用する場合には、「返事の文」という語に読み替える。返事の文を自動クラスタリング処理することにより、よく似た返事の文を同じクラスにして表示することができる。
クラスタリングには様々な方法がある。一般的なものを以下に記述する。
(階層クラスタリング)
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士も(クラスターと成員同士も)、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の距離の中で最も小さいものをその距離とする方法
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の距離の中で最も大きいものをその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員とクラスターBの成員の距離の平均をその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員の位置の平均をそのクラスターの位置とし、すべてのクラスターBの成員の位置の平均をそのクラスターの位置とし、その位置同士の距離の平均をその距離とする方法
・ウォード法と呼ばれる方法もある。以下、ウォード法の説明をする。
W = Σ Σ (x(i,j) - ave _x(i)) ^ 2
^は指数を意味する。
一つ目のΣは i=1からi=g までの加算
二つ目のΣは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave _x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Wの値が増加するが、ウォード法では、Wの値がなるべく大きくならないようにクラスター同士をくっつけていく。
成員の位置は、記事から単語を取り出し、その単語の種類をベクトルの次元とし、各単語のベクトルの要素の値を、単語の頻度やその単語のtf・idf (すなわち、tf(w,D) * log(N/df(w))) 、その単語のOkapi の式 (すなわち、 tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))) としたベクトルを作成し、それをその成員の位置とする。
(トップダウンクラスタリング(非階層クラスタリング)の説明)
以下、トップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
(最大距離アルゴリズムの説明)
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラスター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの良さをAIC情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各成員は、最も近いクラスター中心の成員となる。
(K平均法の説明)
あらかじめ定めた個数k個にクラスタリングすることを考える。k個成員をランダムに選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返しをやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター中心の成員となる。
このようにして、クラスタリングをする。クラスタリングの方法は、これら以外にもたくさんあるので、それらを利用してもよい。
本発明の一実施例によれば、意見評価部14は、意見収集部13によって収集された、書き込み文に対する返事の文の量を評価して、例えば当該返事の文の量が所定の値より多いことを画面表示またはユーザに通知するようにしてもよい。
本発明の一実施例によれば、書き込み文生成部10が、意見評価部14による意見の評価処理結果に応じた書き込み文を生成し、書き込み部12が、生成された当該書き込み文を当該意見の収集元の電子掲示板に対して書き込むようにしてもよい。例えば、意見評価部14が、収集された意見について、反応がよいと判断した場合、書き込み文生成部10が、「ありがとうございました。」といった書き込み文を生成し、書き込み部12が、当該書き込み文を電子掲示板に書き込む。また、例えば、意見評価部14が、収集された意見について、反応が悪いと判断した場合、書き込み文生成部10が、「申し訳ございません。」といった書き込み文を生成し、書き込み部12が、当該書き込み文を電子掲示板に書き込む。
次に、本発明の第2の実施の形態について説明する。
(第2の実施の形態)
本発明の第2の実施の形態においては、意見収集システム1が、電子掲示板で既に議論となっている話題(テーマ)に関連する文を自動で書き込み、当該書き込んだ文に対する意見を収集する。例えば、電子掲示板に既に書き込まれている文のうち、「A」という単語が書かれた文を選択し、選択した文に対してフォローする/返事をするように、選択した文の下に書き込み文を書き込む。そして、意見収集システム1は、当該書き込んだ文に対する意見を収集して、評価する。
以下に本発明の第2の実施の形態における書き込み文の書き込み手法について説明する。例えば、予め、聞きたい内容の知識表現を定義しておく。定義される知識表現は、例えば、聞きたい内容のテーマ(A、場合によってはBも利用)+聞く項目の種類とする。
まず、書き込み箇所特定部11が、聞きたい内容のテーマAの単語を含む文を、例えば電子掲示板サーバ2が管理する電子掲示板から抽出する。書き込み箇所特定部11は、当該抽出した文から一つの文を選択する。例えば、書き込み箇所特定部11が、ユーザの指定入力に従って、一つの文を選択して、当該選択した文の下を書き込み箇所として特定する。書き込み文生成部10は、前述した本発明の第1の実施の形態における書き込み文の生成手法と同様の手法によって、選択された文に対してフォローする/返事をする文を書き込み文として生成し、書き込み部12が、選択された文の下に書き込み文を書き込む。書き込み部12は、例えば、選択された文番号が30なら、先頭に”>>30”をつけて書き込む等、選択された文の番号を引用して書き込むようにしてもよい。また、書き込み部12は、選択された文が返信が可能な形式なら、返信の形式で書き込むようにしてもよい。上記書き込み文の生成手法については、上述した本発明の第1の実施の形態における書き込み文の生成手法と同様であり、書き込み文生成部10は、例えば人手で作成したパターンを用いて、選択された文に対してフォローする/返事をする文を書き込み文として生成する。
例えば、テーマがカメラの場合、書き込み箇所特定部11が、カメラの単語を含む文を探して選択し、書き込み文生成部10が、当該文に対してフォローする文を書き込み文として生成し、書き込み部12が当該書き込み文を上記選択された文の下に書き込む。
なお、本発明の一実施例によれば、書き込み文生成部10が、上記選択された文に対してフォロー等する文とは異なる新たな文を生成し、書き込み部12が、当該生成された新たな文を新規スレッドとして上記書き込み箇所(選択された文の下)に書き込むようにしてもよい。また、本発明の一実施例によれば、書き込み箇所特定部11が、ユーザの指定入力に従って、書き込み箇所を特定するようにしてもよい。
違う知識表現の例として、聞きたい製品A+聞きたい属性B+聞きたい評価C+聞く項目の種類がユーザの指定入力に従って書き込み文生成部10によって入力されると、書き込み箇所特定部11が、聞きたい製品A 聞きたい属性B 聞きたい評価Cをより多く含む文を書き込み箇所の候補として電子掲示板から探す。例えば、書き込み箇所特定部11は、電子掲示板に既に書き込まれた文のうち、聞きたい製品A 聞きたい属性B 聞きたい評価Cをある値以上含む文を書き込み箇所の候補としてもよいし、電子掲示板に既に書き込まれた文から、当該聞きたい製品A 聞きたい属性B 聞きたい評価Cを多く含む文の順に所定の数の文を書き込み箇所の候補として抽出するようにしてもよい。
そして、書き込み箇所特定部11が、例えば上記聞きたい製品A 聞きたい属性B 聞きたい評価Cを最も多く含む書き込み箇所の候補を選択する。書き込み文生成部10は、例えば人手で作成したパターンを用いて、選択された文に対してフォローする/返事をする文を書き込み文として生成する。書き込み箇所特定部11は、上記聞きたい製品A 聞きたい属性B 聞きたい評価Cを最も多く含む書き込み箇所の候補が複数である場合、当該複数の書き込み箇所の候補からランダムに一つの書き込み箇所の候補を選択するようにしてもよい。
本発明の第2の実施の形態においては、以下に説明する手法を用いて書き込みを行うようにしてもよい。
まず、書き込み文生成部10が、書き込み文を生成する。次に、書き込み箇所特定部11が、書き込み文に現れた単語をより多く含む文を電子掲示板から探す。そして、書き込み箇所特定部11が、見つかった文からランダムに一つの文を選択する。なお、書き込み箇所特定部11は、書き込み文に現れた単語をある頻度以上含む文を選択してもよいし、当該単語を多く含む文の順に所定の数の文を選択してもよい。また、書き込み箇所特定部11は、当該単語を最も多く含む一つの文を選択してもよいし、当該単語を最も多く含む文が複数である場合に、当該複数の文からランダムに一つの文を選択するようにしてもよい。
書き込み文生成部10は、選択された文に対して、フォローする/返事をする文を書き込み文として生成し、書き込み部12が、選択した文の下に書き込み文を書き込む。 また、本発明の第2の実施の形態においては、以下に説明する機械学習の手法を用いて書き込み箇所を特定するようにしてもよい。
まず、書き込み箇所特定部11が、上述した手法を用いて、書き込み箇所の候補を生成する。例えば、書き込み箇所特定部11は、電子掲示板から、聞きたい内容のテーマAの単語を含む文を抽出して、当該抽出された文を書き込み箇所の候補とする。書き込み箇所特定部11は、電子掲示板に書き込まれているあらゆる文を書き込み箇所の候補としてもよい。
また、予め、書き込み箇所の候補と書き込み文と聞きたい内容の知識表現の多くの組を用意して、所定の記憶手段に記憶しておく。それぞれの組に対して、よい書き込み先であるか悪い書き込み先であるかの情報を付与しておき、当該よい書き込み先であるか悪い書き込み先であるかの情報が付与されたそれぞれの組のデータを学習データとする。
次に、書き込み箇所特定11が、書き込み箇所の候補と書き込み文と聞きたい内容の知識表現の組から素性を取り出す。
書き込み箇所特定部11は、学習データを利用して、どういう素性のときに、よい書き込み先になりやすいか、悪い書き込み先になりやすいかを学習する。その結果を学習結果として所定の記憶手段に記憶する。
次に、書き込み箇所特定部11は、上記生成した書き込み箇所の候補それぞれに対して、素性を取り出す。書き込み箇所特定部11は、取り出した素性と、上記記憶手段に記憶された学習結果を用いて、それぞれの書き込み箇所の候補の、よい書き込み先になりやすい場合の確信度を求める。そして、書き込み箇所特定部11は、確信度が最も大きい候補を書き込み先(書き込み箇所)として決定する。
素性としては、例えば、書き込み箇所の候補の文に含まれる単語、書き込み文に含まれる単語、聞きたい内容の知識表現の各項目、書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致具合いとする。
例えば、
聞きたい内容のテーマ(A)=カメラ
聞く項目の種類=テーマの最もよいものを聞く
とする。
書き込む文(書き込み文)は、
最強のカメラは?
とする。
テーマであるカメラを含む文として、書き込み箇所の候補の文として、以下の三つの文が得られたとする。
カメラは便利ですね。
カメラはきらいです。
カメラを落しました。
予め、学習データとして、
書き込み先:「ビデオは便利ですね。」
書き込み文:「ビデオはどうですか」
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先としてよい

書き込み先:「ビデオはきらいです。」
書き込み文:「ビデオはどうですか」
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先としてよくない

書き込み先:「ビデオを落としました。」
書き込み文:「ビデオはどうですか」
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先としてよくない
が所定の記憶手段に記憶されていたとする。
書き込み箇所特定部11は、上記学習データから、素性を取り出す。例えば、素性として、書き込み箇所の候補の文に含まれる名詞、書き込み文に含まれる名詞、聞きたい内容の知識表現の各項目、書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数を取り出す。
上記それぞれの学習データから取り出された素性を、以下に示す。
書き込み先の箇所の候補の文に含まれる名詞:便利
書き込み先の箇所の候補の文に含まれる名詞:ビデオ
書き込みの文に含まれる名詞:ビデオ
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み箇所の候補の文と書き込みの文において共通して出現する単語の一致する単語数:1語

書き込み先の箇所の候補の文に含まれる名詞:ビデオ
書き込みの文に含まれる名詞:ビデオ
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先の箇所の候補の文と書き込みの文に
おいて共通して出現する単語の一致する単語数:1語

書き込み先の箇所の候補の文に含まれる名詞:ビデオ
書き込みの文に含まれる名詞:ビデオ
聞きたい内容のテーマ:ビデオ
聞く項目の種類:テーマ自体を聞く
書き込み先の箇所の候補の文と書き込みの文に
おいて共通して出現する単語の一致する単語数:1語
書き込み箇所特定部11が、上記取り出された素性と、当該素性の場合に書き込み先としてよいか悪いかの情報に基づいて機械学習すると、
書き込み箇所の候補の文に含まれる名詞:便利
のときに書き込み先としてよいといった情報を学習する。書き込み箇所特定部11は、当該学習結果を所定の記憶手段に記憶する。
前述した3つの書き込み箇所の候補の文
カメラは便利ですね。
カメラはきらいです。
カメラを落しました。
について、同様にそれぞれ素性を取り出すと、
書き込み箇所の候補の文に含まれる名詞:便利
書き込み箇所の候補の文に含まれる名詞:ビデオ
書き込み文に含まれる名詞:カメラ
聞きたい内容のテーマ:カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数:1語

書き込み箇所の候補の文に含まれる名詞:ビデオ
書き込み文に含まれる名詞:カメラ
聞きたい内容のテーマ:カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数:1語

書き込み箇所の候補の文に含まれる名詞:ビデオ
書き込み文に含まれる名詞:カメラ
聞きたい内容のテーマ:カメラ
聞く項目の種類:テーマの最もよいものを聞く
書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数:1語
となる。このうち、
書き込み箇所の候補の文に含まれる名詞:便利
という素性を持つのは、
カメラは便利ですね。
だけであるので、書き込み箇所特定部11は、所定の記憶手段に記憶された、
書き込み箇所の候補の文に含まれる名詞:便利
のときに書き込み先としてよい、という学習結果に基づいて、上記3つの候補の中で、
カメラは便利ですね。
という文が最も高い確信度をもって、書き込み先としてよいと判断し、当該文を書き込み箇所の文と判定する。
書き込み文生成部10は、上記書き込み箇所の文「カメラは便利ですね。」という文に対してフォローする、例えば以下の文
最強のカメラは?
を書き込み文として生成し、書き込み部12が、当該書き込み箇所の文の下に上記書き込み文を書き込む。
本発明の第2の実施の形態においては、書き込み箇所特定部11が、以下の手法を用いて、電子掲示板におけるプラスイメージ、マイナスイメージの箇所を書き込み箇所として特定して、書き込み部12が当該箇所に書き込みをするようにしてもよい。
例えば、製品Aの利点を聞く質問の場合、電子掲示板におけるプラスイメージの箇所を特定して、そこに書き込み文を書き込む。より具体的には、「製品Aの利点はどこにありますか」という質問文を書き込み文として書き込む場合、製品Aをよく使っています、といったプラスイメージの箇所を見つけて、当該箇所に書き込み文を書き込む。
また、例えば、製品Aの欠点を聞く質問の場合、マイナスイメージの箇所を特定して、そこに書き込み文を書き込む。より具体的には、「製品Aの欠点はどこにありますか」という質問文を書き込み文として書き込む場合、製品Aを使うのをやめました、といったプラスイメージの箇所を見つけて、当該箇所に書き込み文を書き込む。
以下に、書き込み箇所特定部11による、プラスイメージ、マイナスイメージの箇所の特定の仕方について説明する。
(1)辞書、パターンを利用する方法
よく使っています→プラスイメージ
を使うのをやめました→マイナスイメージ
と判定するパターンを使った規則を予め用意しておき、当該規則を用いてプラスイメージかマイナスイメージかを判定する。上記矢印は、当該矢印の左側の表現が当該矢印の右側のイメージであることを示す。
(2)教師あり機械学習に基づく手法
予め大量の文を収集しておき、それぞれの文に、プラスイメージか、マイナスイメージか、それら以外かの情報を付与する。上記文から素性を取り出し、上述した機械学習の手法を用いて、どういう素性のときに、プラスイメージか、マイナスイメージか、それら以外かになりやすいかを学習し、その結果を学習結果として、所定の記憶手段に記憶する。
書き込み箇所特定部11は、電子掲示板サーバ2が管理する電子掲示板に書き込まれた文を電子掲示板サーバ2から収集し、収集された文から、例えばユーザの指定入力に従って、プラスイメージか、マイナスイメージか、それら以外かを判断したい文を選択入力して、選択入力した文から素性を取り出す。
そして、書き込み箇所特定部11は、記憶手段に記憶された学習結果を利用して、上記取り出された素性の場合に、プラスイメージ、マイナスイメージ、それら以外のうちのどれになりやすいかを求めて、プラスイメージ、マイナスイメージ、それら以外のどれであるかを特定する。
素性には、文に含まれる単語、文字列、それらの品詞、分類語彙表の分類番号(意味情報、意味クラス)などを用いる。
以下に意味クラスの簡単な説明を記述する。各単語がどういう意味クラスを持つかを記述した表のようなものがある。それを使えば単語の意味クラスを求めることができる。例えば分類語彙表がある。分類語彙表では単語は分類番号と呼ばれる10桁の数字で表現され、この数字の良く似ている単語ほど良く似た単語となる。この数字の最初の3桁や5桁を単語の意味クラスと利用することが多い。
例えば、「村人」の分類番号は1230102050 であり、これは123(人種、国民、社会階層などの意味クラス)、12301(国民、住民などの意味クラス)に属する単語であることが示される。
以下にプラスイメージ、マイナスイメージ、それら以外のどれであるかの特定処理の具体例について説明する。
事例1:カメラをよく使っています→プラスイメージ
事例2:カメラを使うのをやめました→マイナスイメージ
という学習データを用意する。
ここで、文末文字列を素性とすると、
事例1の素性は、

ます
います
ています
っています
使っています
く使っています
よく使っています
をよく使っています
となり、事例2の素性は、

した
ました
めました
やめました
をやめました
のをやめました
うのをやめました
使うのをやめました
となる。
機械学習を使って、どういう素性のときに、プラスイメージか、マイナスイメージか、それら以外かになりやすいかを学習する。具体的には、
よく使っています
という文末があればプラスイメージ、
使うのをやめました
という文末があればマイナスイメージになりやすいと学習する。
ここで、プラスイメージかマイナスイメージかを特定したい文として、「ビデオをよく使っています」という文が入力されたとする。
書き込み箇所特定部11は、当該文から、

ます
います
ています
っています
使っています
く使っています
よく使っています
をよく使っています
といった素性を取り出す。
上述した、
よく使っています
という文末があればプラスイメージ、
使うのをやめました
という文末があればマイナスイメージになりやすい
という学習結果から、
上記「ビデオをよく使っています」という文は、プラスイメージと判断される。
そこで、書き込み箇所特定部11は、当該プラスイメージの文を書き込み先(書き込み箇所の文)として特定し、書き込み文生成部10が、当該プラスイメージの文を例えばフォローする文を書き込み文として生成する。そして、書き込み部12が、当該生成された書き込み文を上記書き込み先として特定された文の下(書き込み箇所)に書き込む。もちろん、書き込み箇所特定部11は、例えばマイナスイメージであると判断された文を書き込み先として特定してもよい。
例えば、電子掲示板に書き込まれた「製品Aをよく使っています。」という文の下に、「製品Aはなぜいいですか?」、「製品Aの利点はどこにありますか?」といった書き込み文が書き込まれる。また、例えば、電子掲示板に書き込まれた「製品Aを使うのをやめました。」という文の下に、「製品Aはなぜよくないですか?」、「製品Aの欠点はどこにありますか?」といった書き込み文が書き込まれる。
図4は、本発明の第2の実施の形態における意見収集処理フローの例を示す図である。まず、書き込み箇所特定部11が、電子掲示板において書き込み箇所を特定する(ステップS11)。例えば、書き込み箇所特定部11が、聞きたい内容のテーマAの単語を含む文を、例えば電子掲示板サーバ2が管理する電子掲示板から抽出し、抽出された文の中から、ユーザの指定入力に従って、一つの文を選択して、当該選択した文の下を書き込み箇所として特定する。次に、書き込み文生成部10が、書き込み文を生成する(ステップS12)。例えば、書き込み文生成部10は、所定のパターンを用いて、選択された文に対してフォローをする文/返事をする文を書き込み文として生成する。
そして、書き込み部12が、書き込み箇所(選択された文の下)に書き込み文を書き込む(ステップS13)。例えば、「カメラを使っています。」という選択された文の下に、例えば、「どこの製品のカメラを使っていますか?」という、当該選択された文をフォローする文が書き込み文として書き込まれる。意見収集部13が、当該書き込まれた書き込み文に対する意見を電子掲示板サーバ2から収集し(ステップS14)、意見評価部14が、収集された意見を評価して(ステップS15)、処理を終了する。
以下に、本発明の第3の実施の形態について説明する。
(第3の実施の形態)
本発明の第3の実施の形態においては、意見収集システム1が、複数の電子掲示板(例えば図1に示す電子掲示板サーバ2が管理する電子掲示板と電子掲示板サーバ3が管理する電子掲示板)に同様の質問を書き込む。複数の電子掲示板に質問を書き込む場合、全く同じ書き込み文を書き込むと、発信元が同じであると思われて、返事が得られない可能性がある。異なる発信元からの書き込みであるように装うために、意見収集システム1は、例えば、言い換えの技術を利用して、書き込み文の書き方を少し変えて複数の電子掲示板に書き込む。
具体的には、書き込み文生成部10が、電子掲示板サーバ2が管理する電子掲示板に書き込んだ第1の書き込み文を同内容の文に言い換えて、第2の書き込み文とする。そして、書き込み部12が、当該第2の書き込み文を電子掲示板サーバ3が管理する電子掲示板に書き込む。また、意見収集部13が、電子掲示板サーバ2および3から、当該電子掲示板に書き込んだ第1の書き込み文および第2の書き込み文に対する意見を収集して、意見評価部14が、当該収集された意見を評価する。
以下に、書き込み文生成部10による書き込み文の言い換え手法について説明する。
(1)辞書を利用する手法
予め、同義語、同義フレーズの辞書を用意して、意見収集システム1内の所定の記憶手段に記憶しておく。書き込み文生成部10は、上記第1の書き込み文を、上記記憶手段内の辞書を用いて、例えばランダムに言い換える。
例えば、
同義語
一番 <−−> 最も
同義フレーズ
Aってどれが一番いいですか? <−−> 最適なAってどれですか?<−−>最強のAは?
を予め用意する。 <−−> は同義語または同義フレーズであることを示す表示である。
第1の書き込み文が、
Aってどれが一番いいですか?
であるとすると、
用意された同義語
一番 <−−> 最も
に従って、
Aってどれが最もいいですか?
という文が第1の書き込み文を言い換えた第2の書き込み文として生成される。
また、例えば、第1の書き込み文が、
Xってどれが一番いいですか?
であるとすると、
用意された同義フレーズ
Aってどれが一番いいですか? <−−> 最適なAってどれですか?
に従って、
最適なXってどれですか?
という文が第1の書き込み文を言い換えた第2の書き込み文として生成される。
(2)本発明の第3の実施の形態においては、下記の参考文献(10)に記載された言い換え技術を用いて、上記第1の書き込み文を言い換えて第2の書き込み文を生成するようにしてもよい。
参考文献(10):言い換えの統一的モデル,尺度に基づく変形の利用,村田真樹,井佐原均,自然言語処理(言語処理学会誌)11巻,5号,p.113−133,2004年10月.
書き込み文生成部10は、上記参考文献(10)に記載された言い換え技術を用いて、言い換えたい文(上記第1の書き込み文)を第1の書き込み文と同義の第2の書き込み文に言い換える。例えば、書き込み文生成部10は、第1の書き込み文に基づいて、変形の候補を作成する。書き込み文生成部10は、変形の候補の変形の妥当性をチェックし、最も妥当であると判断されたものを第2の書き込み文として出力する。例えば、上記変形の妥当性のチェックにおいて、書き込み文生成部10は、書き込み先(書き込み箇所)の文または当該文の周辺の文との類似度が最も大きな変形の候補を第2の書き込み文として決定する。
上記類似度とは、所定の規則に基づいて決まる、文同士の類似の度合いである。書き込み文生成部10は、例えば、それぞれの文に含まれる単語について、所定のスコアを求め(例えば、後述するTF・IDF法やokapiの式などを用いて当該スコアを求め)、それぞれの文について、各単語のスコアを要素とするベクトルを生成し、生成されたそれぞれの文についてのベクトル同士の余弦を、上記文同士の類似度としてもよい。なお、本発明の一実施例によれば、書き込み文生成部10は、類似度を求めたい文同士で一致する文字列や単語の数に基づいて、当該文同士の類似度を算出するようにしてもよい。
本発明の一実施例によれば、書き込み文生成部10が、第1の書き込み文との類似度が所定の値より小さい変形の候補を特定し、当該特定された変形の候補で用いられる各表現を、書き込み対象となる電子掲示板の文の集合において、所定の数より多く使われる表現に変更することによって、第2の書き込み文を生成するようにしてもよい。
また、本発明の一実施例によれば、書き込み文生成部10が、上記第2の書き込み文で用いられる各表現が、予め記憶手段に記憶された大規模な文の集合において使われたことのある表現であることを条件として、第1の書き込み文との類似度が所定の値より小さい変形の候補を第2の書き込み文とするようにしてもよい。
また、本発明の一実施例によれば、書き込み文生成部10が、第1の書き込み文と同義の書き込み文を2つ(第2の書き込み文及び第3の書き込み文)を生成するようにしてもよい。書き込み文生成部10は、例えば、上記第3の書き込み文で使われる各表現が、大規模な文の集合において使われたことのある表現であることを条件として、第1の書き込み文との類似度と第2の書き込み文との類似度との積が所定の値より小さい変形の候補を、第3の書き込み文とするようにしてもよい。なお、書き込み文生成部10が、上記と同様の手法を用いて、第1の書き込み文と同義の書き込み文を3つ以上生成するようにしてもよい。
本発明の一実施例によれば、書き込み文生成部10が、所定の規則に基づいて、書き言葉から話し言葉への変換を行うようにしてもよい。
本発明の一実施例によれば、書き込み文生成部10が、第1の書き込み文を例えば男性言葉ぽい第2の書き込み文に言い換えたり、女性言葉ぽい第2の書き込み文に言い換えるようにしてもよい。例えば、男性言葉ぽい第2の書き込み文に言い換える場合、書き込み文生成部10が所定の規則(例えば文パターン等)を用いて第1の書き込み文を言い換えた第2の書き込み文の候補を生成し、生成した第2の書き込み文の候補のうち、予め記憶手段に記憶された男性の文書を集めた文書データ中の頻度が最も大きいものを、第2の書き込み文として決定するようにしてもよい。
また、本発明の一実施例によれば、第1の書き込み文をどういう文に言い換えるかを人手で指定できるようにしてもよい。例えば、ユーザが、第1の書き込み文を男性ぽい第2の書き込み文に言い換えることを指定すると、当該指定に従って、書き込み文生成部10が、男性ぽい第2の書き込み文を生成するようにしてもよい。また、例えば、ユーザが、第1の書き込み文をあらっぽい表現の第2の書き込み文に言い換えることを指定すると、当該指定に従って、書き込み文生成部10が、あらっぽい表現の第2の書き込み文を生成するようにしてもよい。
なお、書き込み文生成部10は、上記頻度が所定の閾値以上のものを第2の書き込み文として決定してもよく、頻度が所定の閾値以上のものを所定の個数だけ頻度の高い順に取り出して第2の書き込み文として決定してもよい。また、書き込み文生成部10は、頻度の最大値に対して所定の割合を乗じて得られる値以上の頻度の値をもつものを第2の書き込み文として決定するようにしてもよい。また、本発明の一実施例によれば、上記所定の閾値、頻度の最大値に対して乗じる所定の割合を、予め定めるようにしてもよいし、適宜ユーザが値を変更、設定するようにしてもよい。
(3)本発明の一実施例によれば、書き込み文生成部10が第1の書き込み文に基づいて、文パターン等の所定の規則を用いて生成した第2の書き込み文の候補から、機械学習を用いて、第2の書き込み文を生成するようにしてもよい。
例えば、書き込み文生成部10は、以下の手法を用いて、男性言葉ぽい第2の書き込み文を決定する。
まず、予め大量の文を所定の記憶手段に記憶しておく。それぞれの文ごとに、男性言葉ぽいか、女性言葉ぽいか、それ以外かの情報を予め付与しておく。
書き込み文生成部10は、上記記憶手段内の文から素性を取り出し、機械学習を使って、どういう素性のときに、男性言葉ぽいか、女性言葉ぽいか、それら以外かになりやすいかを学習し、その結果を学習結果として所定の記憶手段に記憶する。
ここで、書き込み文生成部10が、上記第2の書き込み文の候補から、素性を取り出す。学習結果を利用して、その素性の場合に、男性言葉ぽい、女性言葉ぽい、それら以外のうちのどれになりやすいかを求めて、男性言葉ぽい、女性言葉ぽい、それら以外のどれであるかを特定する。
素性としては、例えば、文に含まれる単語、文字列、それらの品詞、分類語彙表の分類番号(意味情報、意味クラス)などを用いる。
書き込み文生成部10は、以上の方法により、それぞれの第2の書き込み文の候補が、男性言葉ぽいか、女性言葉ぽいか、それ以外かを確信度付きで判定する。そして、書き込み文生成部10は、例えば、上記第2の書き込み文の候補のうち、男性言葉ぽいの確信度が最も大きい候補を第2の書き込み文として決定する。
ここでは、第1の書き込み文を男性言葉ぽい第2の書き込み文に言い換える方法を示したが、同様の手法により、それ以外の表現の第2の書き込み文に言い換えることもできる。
例えば、あらっぽい表現、または、丁寧な表現の第2の書き込み文を生成したい場合は、男性言葉ぽい、女性言葉ぽいを、あらっぽい表現、丁寧な表現に読み替えて、上述した手法を用いる。
本発明の一実施例によれば、以下に示す言い換えの技術を用いて第1の書き込み文を第2の書き込み文に言い換えることもできる。
例えば、書き込み文生成部10は、第1の書き込み文と第2の書き込み文の候補を入力データとして入力する。以下の説明において、第1の書き込み文と第2の書き込み文の候補を第1の書き込み文+第2の書き込み文の候補と記述する。判定すべき内容を、言い換えとしてよいかそれ以外かとし、素性を、第1の書き込み文に含まれる単語、文字列、第2の書き込み文の候補に含まれる単語、文字列、第1の書き込み文と第2の書き込み文で重複している単語の数又は文字の数として、予め入力データと、入力データに対して言い換えとしてよいかそれ以外かの情報を付与した大量の学習データを用意しておく。そして、上記素性を利用して機械学習する。前述した他の機械学習の手法と同様に、どういう素性のときに第2の書き込み文+第2の書き込み文の候補という入力データが言い換えとしてよいかそれ以外かになりやすいかを学習し、学習結果を所定の記憶手段に記憶する。
そして、書き込み文生成部10は、新たな入力データとして、第1の書き込み文+第2の書き込み文の候補を入力し、入力した新たな入力データから素性を取り出し、上記学習結果を利用して、その素性のときの言い換えとしてよいの分類である確信度を求める。確信度が最も大きい第2の書き込み文の候補が第2の書き込み文とされる。
なお、上記言い換えの技術は、第3の実施の形態に限らず、前述した第1の実施の形態や第2の実施の形態においても用いることができる。
図5は、本発明の第3の実施の形態における意見収集処理フローの例を示す図である。この例では、意見収集システム1が、既に電子掲示板サーバ2が管理する電子掲示板に第1の書き込み文を書き込んだ後に、当該第1の書き込み文を言い換えた第2の書き込み文を電子掲示板サーバ3が管理する電子掲示板に書き込む処理について説明する。まず、書き込み文生成部10が、第1の書き込み文を言い換えて、第2の書き込み文を生成する(ステップS21)。次に、書き込み箇所特定部11が、電子掲示板サーバ3が管理する電子掲示板において新規に書き込みが可能な箇所を書き込み箇所として選択する(ステップS22)。そして、書き込み部12が、書き込み箇所に書き込み文を書き込む(ステップS23)。意見収集部13が、当該書き込まれた書き込み文に対する意見を電子掲示板サーバ3から収集し(ステップS24)、意見評価部14が、収集された意見を評価して(ステップS25)、処理を終了する。
本発明の一実施例によれば、書き込み部12が、生成された書き込み文と同じ内容の文(同義文)が、書き込み対象となる電子掲示板において既に書き込まれているかを確認し、同じ内容の文が書き込まれていなかった場合には、当該書き込み文を電子掲示板に書き込み、同じ内容の文が既に書き込まれていた場合には、当該書き込み文を電子掲示板に書き込まないようにするようにしてもよい。例えば、書き込み部12が、生成された書き込み文に含まれる単語をキーワードとして、電子掲示板に既に書き込まれた文から当該キーワードを含む文を抽出し、抽出された文と書き込み文との類似度を所定の規則を用いて算出し、抽出された文を類似度が高い順に出力し、例えば所定の閾値以上の類似度を持つ文がある場合には、当該書き込み文を電子掲示板に書き込まないようにする。
書き込み部12は、上記類似度の算出において、例えば、書き込み文と上記抽出された文それぞれに含まれる単語についての所定のスコア(例えば、TF・IDF法やokapiの式などを用いて算出されるスコア)を求め、書き込み文と上記抽出された文それぞれについて、各単語のスコアを要素とするベクトルを生成する。そして、例えば、書き込み文についてのベクトル(ベクトルx)と上記抽出された文についてのベクトル(ベクトルy)との余弦(cos(ベクトルx,ベクトルy))を書き込み文と上記抽出された文との間の類似度とする。
なお、上記TF・IDF法に従う各単語のスコア(Score )は、例えば、
score= Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
である。ここで、Wは単語の集合、tf(w,D) は文書Dでの単語wの出現回数、df(w) は全文書でWが出現した文書の数、Nは文書の総数である。
また、Okapiの式については、以下の参考文献(11)に記載されている。
参考文献(11):村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均“位置情報と分野情報を用いた情報検索”自然言語処理(言語処理学会誌) 2000年 4月,7 巻,2 号, p.141 〜 p.160
例えば、Okapiの式に従うスコア( score)は、
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w ∈W で加算
である。ここで、lengthは記事Dの長さ、delta は記事の長さの平均、記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。
本発明の一実施例によれば、書き込み文生成部10が、同様な内容の書き込み文を複数生成し、書き込み部12が、生成された書き込み文同士の類似度pを所定の規則に基づいて求める。また、書き込み部12が、上記書き込み文のそれぞれと、既に電子掲示板に書き込まれた文との類似度qを求める。そして、書き込み部12は、書き込み文同士の類似度を例えばp倍(p<1)して得られる値よりも大きな類似度qを持つ文がある場合、当該同様な内容の書き込み文を当該電子掲示板へ書き込まないようにする。
本発明の一実施例によれば、書き込み部12が、上述した参考文献(10)に記載された技術を用いて、書き込み文と電子掲示板において既に書き込まれた文とを、それらの文の間の類似度が上昇するように書き換え、例えば、同じ文に書き換えることができた場合に、同一内容の文と判断し、当該書き込み文を当該電子掲示板へ書き込まないようにするようにしてもよい。
以上の、本発明に関する記述において、値が最も大きいXXを求める(抽出する)(XXは単語)といった手法は、例えば、値が閾値以上のXXを求める、値が所定の値以上のXXを値が大きい順に求める、値の最大値に対して所定の割合を乗じた値を求め、当該求めた値以上の値を持つXXを求めるという手法に置き換えることが可能である。また、上記閾値や所定の割合を、予め定めることも、適宜ユーザが変更、設定することも可能である。
また、本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。
本発明の意見収集システムの構成の一例を示す図である。 サポートベクトルマシン法のマージン最大化の概念を示す図である。 本発明の第1の実施の形態における意見収集処理フローの例を示す図である。 本発明の第2の実施の形態における意見収集処理フローの例を示す図である。 本発明の第3の実施の形態における意見収集処理フローの例を示す図である。
符号の説明
1 意見収集システム
2、3 電子掲示板サーバ
10 書き込み文生成部
11 書き込み箇所特定部
12 書き込み部
13 意見収集部
14 意見評価部

Claims (13)

  1. 意見収集システムであって、
    電子的にデータを書き込む場所に対する書き込み文を入力または生成する書き込み文生成手段と、
    前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する書き込み箇所特定手段と、
    前記書き込み文を前記書き込み箇所に書き込む書き込み手段とを備える
    ことを特徴とする意見収集システム。
  2. 請求項1に記載の意見収集システムにおいて、
    前記書き込み文生成手段が、入力された聞きたい内容の知識表現に基づいて、前記書き込み文を生成する
    ことを特徴とする意見収集システム。
  3. 請求項2に記載の意見収集システムにおいて、
    前記書き込み文生成手段が、さらに、機械学習の手法を用いて、前記書き込み文を生成する
    ことを特徴とする意見収集システム。
  4. 請求項2に記載の意見収集システムにおいて、
    前記書き込み文生成手段が、さらに、前記入力された聞きたい内容の知識表現に基づいて生成される書き込み文を翻訳して、前記書き込み箇所に書き込まれる書き込み文を生成する
    ことを特徴とする意見収集システム。
  5. 請求項1に記載の意見収集システムにおいて、
    前記書き込み箇所特定手段が、入力された聞きたい内容を含む文を前記電子的にデータを書き込む場所から抽出し、抽出した文から選択した文の下を前記書き込み箇所として特定し、
    前記書き込み文生成手段が、前記選択された文に対してフォローまたは返事をする文を書き込み文として生成する
    ことを特徴とする意見収集システム。
  6. 請求項5に記載の意見収集システムにおいて、
    前記書き込み箇所特定手段が、前記電子的にデータを書き込む場所におけるプラスイメージ又はマイナスイメージの箇所を前記書き込み箇所として特定する
    ことを特徴とする意見収集システム。
  7. 請求項1に記載の意見収集システムにおいて、
    前記書き込み文生成手段が、電子的にデータを書き込む場所に書き込んだ書き込み文を同義文に言い換えて、当該同義文を他の書き込み文とし、
    前記書き込み手段が、前記他の書き込み文を前記電子的にデータを書き込む場所とは異なる他の電子的にデータを書き込む場所に書き込む
    ことを特徴とする意見収集システム。
  8. 請求項1乃至7のいずれか1項に記載の意見収集システムにおいて、
    前記書き込み手段が、生成された書き込み文の同義文が、書き込み対象となる前記電子的にデータを書き込む場所に既に書き込まれているかを確認し、当該確認結果に基づいて、前記書き込み文を前記電子的にデータを書き込む場所における前記書き込み箇所に書き込む
    ことを特徴とする意見収集システム。
  9. 請求項1乃至8のいずれか1項に記載の意見収集システムが、さらに、
    前記書き込まれた書き込み文に対する返事の文を収集することによって、前記書き込み文に対する意見を収集する意見収集手段を備える
    ことを特徴とする意見収集システム。
  10. 請求項1乃至9のいずれか1項に記載の意見収集システムが、さらに、
    前記収集された意見を評価する意見評価手段を備える
    ことを特徴とする意見収集システム。
  11. 請求項10に記載の意見収集システムにおいて、
    前記意見評価手段が、前記収集された返事の文から前記書き込み文に対する意見を抽出する
    ことを特徴とする意見収集システム。
  12. 意見収集方法であって、
    電子的にデータを書き込む場所に対する書き込み文を入力または生成するステップと、
    前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定するステップと、
    前記書き込み文を前記書き込み箇所に書き込むステップとを有する
    ことを特徴とする意見収集方法。
  13. 意見収集プログラムであって、
    コンピュータに、
    電子的にデータを書き込む場所に対する書き込み文を入力または生成する処理と、
    前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する処理と、
    前記書き込み文を前記書き込み箇所に書き込む処理とを実行させる
    ことを特徴とする意見収集プログラム。
JP2006321497A 2006-11-29 2006-11-29 意見収集システム、意見収集方法および意見収集プログラム Expired - Fee Related JP4854019B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006321497A JP4854019B2 (ja) 2006-11-29 2006-11-29 意見収集システム、意見収集方法および意見収集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006321497A JP4854019B2 (ja) 2006-11-29 2006-11-29 意見収集システム、意見収集方法および意見収集プログラム

Publications (2)

Publication Number Publication Date
JP2008134889A true JP2008134889A (ja) 2008-06-12
JP4854019B2 JP4854019B2 (ja) 2012-01-11

Family

ID=39559697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006321497A Expired - Fee Related JP4854019B2 (ja) 2006-11-29 2006-11-29 意見収集システム、意見収集方法および意見収集プログラム

Country Status (1)

Country Link
JP (1) JP4854019B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123109B2 (en) 2009-04-24 2015-09-01 Sony Corporation Image processing device and method
JP2016184403A (ja) * 2015-03-25 2016-10-20 パロ アルト リサーチ センター インコーポレイテッド 個別の健康およびウェルネス指導を提供するためのシステムおよび方法
US9600825B2 (en) 2013-01-04 2017-03-21 International Business Machines Corporation Estimating probability of spreading information by users on micro-weblogs
JP2018022237A (ja) * 2016-08-01 2018-02-08 日本電信電話株式会社 予測装置、予測方法及びプログラム
US10671654B2 (en) 2013-01-04 2020-06-02 International Business Machines Corporation Estimating probability of spreading information by users on micro-weblogs

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123467A (ja) * 2000-10-16 2002-04-26 Oki Electric Ind Co Ltd 電子掲示板システム
JP2002140323A (ja) * 2000-10-31 2002-05-17 Toshiba Corp 情報管理方法および情報管理装置
JP2003122674A (ja) * 2001-10-11 2003-04-25 I-Face Inc 情報伝達装置、及び情報伝達方法
JP2003141326A (ja) * 2001-10-30 2003-05-16 Honda Motor Co Ltd 製品開発支援装置及び製品開発支援方法
JP2003248681A (ja) * 2001-11-20 2003-09-05 Just Syst Corp 情報処理装置、情報処理方法、及び情報処理プログラム
JP2004094521A (ja) * 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123467A (ja) * 2000-10-16 2002-04-26 Oki Electric Ind Co Ltd 電子掲示板システム
JP2002140323A (ja) * 2000-10-31 2002-05-17 Toshiba Corp 情報管理方法および情報管理装置
JP2003122674A (ja) * 2001-10-11 2003-04-25 I-Face Inc 情報伝達装置、及び情報伝達方法
JP2003141326A (ja) * 2001-10-30 2003-05-16 Honda Motor Co Ltd 製品開発支援装置及び製品開発支援方法
JP2003248681A (ja) * 2001-11-20 2003-09-05 Just Syst Corp 情報処理装置、情報処理方法、及び情報処理プログラム
JP2004094521A (ja) * 2002-08-30 2004-03-25 Nippon Telegr & Teleph Corp <Ntt> 質問タイプ学習方法、学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習データを記録した記録媒体、学習データを用いた質問タイプ同定方法、装置、プログラム、および該プログラムを記録した記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123109B2 (en) 2009-04-24 2015-09-01 Sony Corporation Image processing device and method
US10755445B2 (en) 2009-04-24 2020-08-25 Sony Corporation Image processing device and method
US10755444B2 (en) 2009-04-24 2020-08-25 Sony Corporation Image processing device and method
US11107251B2 (en) 2009-04-24 2021-08-31 Sony Corporation Image processing device and method
US9600825B2 (en) 2013-01-04 2017-03-21 International Business Machines Corporation Estimating probability of spreading information by users on micro-weblogs
US10671654B2 (en) 2013-01-04 2020-06-02 International Business Machines Corporation Estimating probability of spreading information by users on micro-weblogs
JP2016184403A (ja) * 2015-03-25 2016-10-20 パロ アルト リサーチ センター インコーポレイテッド 個別の健康およびウェルネス指導を提供するためのシステムおよび方法
JP2018022237A (ja) * 2016-08-01 2018-02-08 日本電信電話株式会社 予測装置、予測方法及びプログラム

Also Published As

Publication number Publication date
JP4854019B2 (ja) 2012-01-11

Similar Documents

Publication Publication Date Title
Montejo-Ráez et al. Ranked wordnet graph for sentiment polarity classification in twitter
Satapathy et al. Phonetic-based microtext normalization for twitter sentiment analysis
Argamon et al. Stylistic text classification using functional lexical features
JP5008024B2 (ja) 風評情報抽出装置及び風評情報抽出方法
EP2711849A2 (en) Learning opinion-related patterns for contextual and domain-dependent opinion detection
Kaushik et al. A study on sentiment analysis: methods and tools
Ahmed Detecting opinion spam and fake news using n-gram analysis and semantic similarity
CN113704451A (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
Itani et al. Classifying sentiment in arabic social networks: Naive search versus naive bayes
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Simm et al. Classification of short text comments by sentiment and actionability for voiceyourview
Lazhar et al. Mining explicit and implicit opinions from reviews
JP4854019B2 (ja) 意見収集システム、意見収集方法および意見収集プログラム
Chua et al. Community-based classification of noun phrases in twitter
Vīksna et al. Sentiment analysis in Latvian and Russian: A survey
Pla et al. Spanish sentiment analysis in Twitter at the TASS workshop
Yafoz et al. Sentiment analysis in Arabic social media using deep learning models
Ahmad et al. Rule based system for enhancing recall for feature mining from short sentences in customer review documents
Le A hybrid method for text-based sentiment analysis
Sun et al. Stylometric and Neural Features Combined Deep Bayesian Classifier for Authorship Verification.
Sánchez et al. Identifying the polarity of a text given the emotion of its author
Tobius et al. A comparison of topic modeling and classification machine learning algorithms on Luganda data
Li et al. Advances in Sentiment Analysis: Techniques, Applications, and Challenges
Akkineni et al. Hybrid Method for Framing Abstractive Summaries of Tweets.
Nandan et al. Sentiment Analysis of Twitter Classification by Applying Hybrid-Based Techniques

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090601

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090601

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20091020

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091130

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20091130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110922

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111021

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees