JP2008134889A

JP2008134889A - 意見収集システム、意見収集方法および意見収集プログラム

Info

Publication number: JP2008134889A
Application number: JP2006321497A
Authority: JP
Inventors: Maki Murata; 真樹村田; Koichi Doi; 晃一土井
Original assignee: PHARMA SECURITY CONSULTING KK; National Institute of Information and Communications Technology
Current assignee: PHARMA SECURITY CONSULTING KK; National Institute of Information and Communications Technology
Priority date: 2006-11-29
Filing date: 2006-11-29
Publication date: 2008-06-12
Anticipated expiration: 2026-11-29
Also published as: JP4854019B2

Abstract

【課題】電子掲示板等の電子的にデータを書き込む場所に能動的に書き込みを行って、当該書き込みに対する意見を収集する意見収集システム、意見収集方法および意見収集プログラムを提供する。
【解決手段】意見収集システム１の書き込み文生成部１０が、書き込み文を生成し、書き込み箇所特定部１１が、電子掲示板サーバ２が管理する電子掲示板における書き込み箇所を特定し、書き込み部１２が、当該生成された書き込み文を当該書き込み箇所に書き込む。また、意見収集部１３が、電子掲示板サーバ２から、上記書き込み文に対する意見を収集し、意見評価部１４が、収集された意見を評価する。
【選択図】図１

Description

本発明は、意見収集システム、意見収集方法および意見収集プログラムに関し、特に、電子掲示板等の電子的にデータを書き込む場所に対して書き込みを行って意見を収集する意見収集システム、意見収集方法および意見収集プログラムに関する。

従来、電子掲示板に既に書き込まれた書き込み文を収集して、収集した書き込み文を分析することによって、当該書き込み文に対する各種の意見を収集する技術はあった。

従来の具体的な意見収集技術として、例えば、下記の非特許文献１に、インターネットに分散して存在する人の意見を一括して検索する評判情報検索技術について記載されている。
立石健二，石黒義英，福島俊一，インターネットからの評判情報検索，情報処理学会研究報告，２００１−ＮＬ−１４４−１１，ｐｐ７５−８２，２００１．

しかし、上記従来技術では、電子掲示板に能動的に書き込みを行って、当該書き込みに対する意見を収集することは行っていない。また、上記従来技術は、電子掲示板で既に議論となっている話題に対してフォロー又は返事をする文を自動で書き込み、当該書き込んだ文に対する意見を収集することは行っていない。

本発明は、電子掲示板等の電子的にデータを書き込む場所に能動的に書き込みを行って、当該書き込みに対する意見を収集する意見収集システム、意見収集方法および意見収集プログラムの提供を目的とする。

上記課題を解決するため、本発明は、意見収集システムであって、電子的にデータを書き込む場所に対する書き込み文を入力または生成する書き込み文生成手段と、前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する書き込み箇所特定手段と、前記書き込み文を前記書き込み箇所に書き込む書き込み手段とを備える。

好ましくは、本発明の意見収集システムにおいて、前記書き込み文生成手段が、入力された聞きたい内容の知識表現に基づいて、前記書き込み文を生成する。

好ましくは、本発明の意見収集システムにおいて、前記書き込み文生成手段が、さらに、機械学習の手法を用いて、前記書き込み文を生成する。

好ましくは、本発明の意見収集システムにおいて、前記書き込み文生成手段が、さらに、前記入力された聞きたい内容の知識表現に基づいて生成される書き込み文を翻訳して、前記書き込み箇所に書き込まれる書き込み文を生成する。

好ましくは、本発明の意見収集システムにおいて、前記書き込み箇所特定手段が、入力された聞きたい内容を含む文を前記電子的にデータを書き込む場所から抽出し、抽出した文から選択した文の下を前記書き込み箇所として特定し、前記書き込み文生成手段が、前記選択された文に対してフォローまたは返事をする文を書き込み文として生成する。

好ましくは、本発明の意見収集システムにおいて、前記書き込み箇所特定手段が、前記電子的にデータを書き込む場所におけるプラスイメージ又はマイナスイメージの箇所を前記書き込み箇所として特定する。

好ましくは、本発明の意見収集システムにおいて、前記書き込み文生成手段が、電子的にデータを書き込む場所に書き込んだ書き込み文を同義文に言い換えて、当該同義文を他の書き込み文とし、前記書き込み手段が、前記他の書き込み文を前記電子的にデータを書き込む場所とは異なる他の電子的にデータを書き込む場所に書き込む。

好ましくは、本発明の意見収集システムにおいて、前記書き込み手段が、生成された書き込み文の同義文が、書き込み対象となる前記電子的にデータを書き込む場所に既に書き込まれているかを確認し、当該確認結果に基づいて、前記書き込み文を前記電子的にデータを書き込む場所における前記書き込み箇所に書き込む。

好ましくは、本発明の意見収集システムが、さらに、前記書き込まれた書き込み文に対する返事の文を収集することによって、前記書き込み文に対する意見を収集する意見収集手段を備える。

好ましくは、本発明の意見収集システムが、さらに、前記収集された意見を評価する意見評価手段を備える。

好ましくは、本発明の意見収集システムにおいて、前記意見評価手段が、前記収集された返事の文から前記書き込み文に対する意見を抽出する。

また、本発明は、意見収集方法であって、電子的にデータを書き込む場所に対する書き込み文を入力または生成するステップと、前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定するステップと、前記書き込み文を前記書き込み箇所に書き込むステップとを有する。

また、本発明は、意見収集プログラムであって、コンピュータに、電子的にデータを書き込む場所に対する書き込み文を入力または生成する処理と、前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する処理と、前記書き込み文を前記書き込み箇所に書き込む処理とを実行させる。

本発明によれば、電子掲示板等の電子的にデータを書き込む場所に対して能動的に書き込みを行って、当該書き込みに対する意見を収集することが可能となる。すなわち、従来技術では、既に書き込まれた意見しか収集することができないのに対し、本発明では、例えば電子掲示板に能動的に新たな書き込みを行い、当該書き込みに対する意見を収集することができる。

また、本発明によれば、電子掲示板で既に議論となっている話題に対してフォロー又は返事をする文を自動で書き込み、当該書き込んだ文に対する意見を収集することが可能となる。従って、本発明によれば、電子掲示板における議論の方向性を誘導しながら意見を収集することが可能となる。

また、本発明によれば、ある電子掲示板において書き込んだ書き込み文と同内容の他の書き込み文（同義文）を自動で他の電子掲示板に書き込むことが可能となる。従って、本発明によれば、電子掲示板の利用者に不信感を持たれることなく、複数の電子掲示板に同内容の書き込みを行うことが可能となる。

以下に、図を用いて、本発明の実施の形態について説明する。図１は、本発明の意見収集システムの構成の一例を示す図である。この例では、電子的にデータを書き込む場所として、電子掲示板を例にとって説明する。なお、電子的にデータを書き込む場所の例としては、電子掲示板以外に、例えば、ブログのコメント欄、チャットによるリアルタイムの意見を書き込む場所や、ｗｅｂのコメントフォームの書き込み場所等があるが、本発明の意見収集システムは、これらの電子的にデータを書き込む場所についても適用可能である。

意見収集システム１は、電子掲示板サーバ２、３が管理する電子掲示板に書き込みを行って、当該書き込みに対する意見を収集する処理装置である。電子掲示板サーバ２、３は、電子掲示板（図示を省略）を管理する処理装置である。

意見収集システム１は、書き込み文生成部１０、書き込み箇所特定部１１、書き込み部１２、意見収集部１３、意見評価部１４を備える。

書き込み文生成部１０は、電子掲示板に書き込む文である書き込み文を生成する。書き込み文生成部１０は、例えば、予め図示を省略する記憶手段内に記憶された書き込み文のパターンと、ユーザの指定入力に従って書き込み文生成部１０が入力した聞きたい内容（意見の収集対象となる内容）のテーマと聞く項目（意見の収集対象となる項目）の種類の情報とに基づいて、書き込み文を生成する。書き込み文生成部１０が、ユーザの指定入力に従って入力した書き込み文をそのまま書き込み文として出力するようにしてもよい。すなわち、書き込み文生成部１０は、電子掲示板に書き込む文である書き込み文を入力または生成する手段である。

書き込み箇所特定部１１は、電子掲示板における書き込み文を書き込む箇所である書き込み箇所を特定する。書き込み部１２は、書き込み文を書き込み箇所に書き込む。意見収集部１３は、書き込んだ書き込み文に対する返事の文を自動で収集することによって、当該書き込みに対する意見を収集する。意見評価部１４は、収集された意見を評価する。

なお、本発明の一実施例によれば、意見収集システム１が、意見収集部１３を備えない構成を採るようにしてもよい。

以下に、本発明の第１の実施の形態について説明する。
（第１の実施の形態）
本発明の第１の実施の形態においては、意見収集システム１が、新たな質問を電子掲示板に書き込んで意見を収集する。例えば、電子掲示板に対して「Ａってどうですか？」という質問文を書き込み文として書き込み、当該質問文に対する意見を収集する。なお、Ａは、例えば製品名である。

具体的には、書き込み文生成部１０が、書き込み文を生成し、書き込み箇所特定部１１が、例えば電子掲示板サーバ２が管理する電子掲示板において新規に書き込みが可能な箇所を書き込み箇所として選択し、書き込み部１２が、当該生成された書き込み文を例えば電子掲示板サーバ２に送信することによって、当該電子掲示板サーバ２が管理している電子掲示板における当該選択された書き込み箇所に当該書き込み文を書き込む。また、意見収集部１３が、電子掲示板サーバ２から、当該電子掲示板に書き込んだ書き込み文に対する意見を収集して、意見評価部１４が、当該収集された意見を評価する。

以下に、書き込み文生成部１０による書き込み文の生成手法について説明する。
（１）人手で作成したパターンに基づく方法
まず、聞きたい内容の知識表現を定義する。知識表現の例は、例えば、聞きたい内容のテーマ（Ａ、場合によってはＢも利用）と聞く項目の種類である。以下の説明では、聞きたい内容のテーマ（Ａ、場合によってはＢも利用）と聞く項目の種類を、聞きたい内容のテーマ（Ａ、場合によってはＢも利用）＋聞く項目の種類と記述する。聞きたい内容のテーマとは、聞きたい内容（意見の収集対象となる内容）を示すキーワード又は文である。

次に、例えば、聞く項目の種類に応じた以下の書き込み文のパターンを用意する。当該パターンは、意見収集システム１内の所定の記憶手段（図示を省略）に記憶される。
聞く項目の種類：テーマ自体を聞く
Ａってどう？
Ａってどうですか？
Ａについてどう思われますか？
聞く項目の種類：テーマの最もよいものを聞く
Ａってどれが一番いいですか？
最適なＡってどれですか？
最強のＡは？
聞く項目の種類：比較をきく
ＡとＢはどちらがいいですか？
聞く項目の種類：使いごこちを聞く
Ａの使いごごちはどうですか？
聞く項目の種類：壊れる程度を聞く
Ａはどの程度で壊れるのですか？
具体的には、書き込み文生成部１０が、ユーザの指定入力に従い、聞きたい内容の知識表現として、聞きたい内容のテーマ（Ａ、場合によってはＢも利用）＋聞く項目の種類をまず入力する。なお、本発明の一実施例によれば、ユーザが、聞きたい内容のテーマを示す文を指定入力し、書き込み文生成部１０が、後述する公知の形態素解析技術を用いて、当該指定入力された文から名詞をキーワードとして抽出し、抽出されたキーワードを聞きたい内容のテーマとして入力するようにしてもよい。

書き込み文生成部１０は、記憶手段から、入力した知識表現にあったパターンを選択する。複数のパターンが使える場合は、例えばランダムにパターンを選択する。書き込み文生成部１０は、選択したパターンに基づいて、書き込み文を生成する。

例えば、
聞きたい内容のテーマ（Ａ）＝カメラ
聞く項目の種類＝テーマの最もよいものを聞く
の場合、
最強のカメラは？
といった書き込み文を生成する。

本発明の一実施例によれば、書き込み文生成部１０が聞きたい内容のテーマを入力し、入力した聞きたい内容のテーマと予め定められた聞く項目の種類とに基づいて、書き込み文を生成するようにしてもよい。例えば、聞く項目の種類がテーマ自体を聞くものであることが予め定められている場合、書き込み文生成部１０が、聞きたい内容のテーマを入力し、入力された聞きたい内容のテーマと、当該予め定められた聞く項目の種類に応じた書き込み文のパターンとに基づいて、書き込み文を生成するようにしてもよい。

また、例えば、上述した知識表現と異なる知識表現の例として、聞きたい製品Ａ＋聞きたい属性Ｂ＋聞きたい評価Ｃ＋聞く項目の種類を予め定義しておく。

例えば、聞く項目の種類に応じた以下の書き込み文のパターンを用意する。
聞く項目の種類：ＡＢＣの確認
製品Ａの属性Ｂは評価Ｃですか？
聞く項目の種類：評価を聞く
製品Ａの属性Ｂはどうですか？
聞く項目の種類：属性を聞く
製品Ａで評価がＣの属性は何ですか？
聞く項目の種類：製品を聞く
属性Ｂが評価Ｃである製品にはどのようなものがありますか？
聞く項目の種類：よく売れている理由を聞く
製品Ａがよく売れている理由は？
聞く項目の種類：買った動機を聞く
製品Ａを買った動機は？
聞く項目の種類：購買意欲を聞く
製品Ａを買いたいですか？
聞く項目の種類：用途を聞く
製品Ａの用途は？
具体的には、書き込み文生成部１０が、ユーザの指定入力に従い、聞きたい内容の知識表現として、聞きたい製品Ａ＋聞きたい属性Ｂ＋聞きたい評価Ｃ＋聞く項目の種類をまず入力する。書き込み文生成部１０は、記憶手段から、入力した知識表現にあったパターンを選択する。複数のパターンが使える場合は、例えばランダムにパターンを選択する。書き込み文生成部１０は、選択したパターンに基づいて、書き込み文を生成する。
例えば、
聞きたい製品Ａ＝Ｘ社のパソコン
聞きたい属性Ｂ＝性能
聞く項目の種類＝評価
の場合、
Ｘ社のパソコンの性能はどうですか？
という書き込み文を生成する。

本発明における聞きたい内容の知識表現は、上述した構成（例えば、聞きたい内容のテーマ＋聞く項目の種類、聞きたい製品Ａ＋聞きたい属性Ｂ＋聞きたい評価Ｃ＋聞く項目の種類）に限定されず、他の様々な構成を採ることができる。
（２）機械学習による手法
まず、予め聞きたい内容の知識表現を定義する。次に、書き込み文生成部１０が、入力した聞きたい内容の知識表現に応じて、書き込み文の候補を生成する。書き込み文の候補の生成には、上述した（１）の人手で作成したパターンに基づく方法を用いて生成してもよいし、ランダムに単語を選択し、その単語群をランダムな順序に結合させて候補の文を作成する方法（あらゆる単語からランダムに選択し、あらゆる順序で単語を結合する方法である。かなり多数の候補文が作成される）でもよいし、これらの方法の組み合わせでもよい。そして、書き込み文生成部１０が、候補の中で最もよいものを教師あり機械学習により選択する。

ここで、機械学習の一般的な手法について説明する。機械学習は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である（例えば、下記の参考文献（１）〜参考文献（３）参照）。

参考文献（１）：村田真樹，機械学習に基づく言語処理，龍谷大学理工学部．招待講演．2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
参考文献（２）：サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳，村田真樹，馬青，内元清貴，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ，2001年．
参考文献（３）：SENSEVAL2J辞書タスクでのＣＲＬの取り組み，村田真樹，内山将夫，内元清貴，馬青，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ，2001年．
問題の状況を機械に伝える際に、素性（解析に用いる情報で問題を構成する各要素）というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題：「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。

すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。

機械学習の手法としては、例えば、ｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法がある。

ｋ近傍法は、最も類似する一つの事例のかわりに、最も類似するｋ個の事例を用いて、このｋ個の事例での多数決によって分類先（解）を求める手法である。ｋは、あらかじめ定める整数の数字であって、一般的に、１から９の間の奇数を用いる。

シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。

シンプルベイズ法において、文脈ｂで分類ａを出力する確率は、以下の式（１）で与えられる。

ただし、ここで文脈ｂは、あらかじめ設定しておいた素性ｆ_j（∈Ｆ，１≦ｊ≦ｋ）の集合である。ｐ（ｂ）は、文脈ｂの出現確率である。ここで、分類ａに非依存であって定数のために計算しない。Ｐ（ａ）（ここでＰはｐの上部にチルダ）とＰ（ｆ_i｜ａ）は、それぞれ教師データから推定された確率であって、分類ａの出現確率、分類ａのときに素性ｆ_iを持つ確率を意味する。Ｐ（ｆ_i｜ａ）として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式（２）の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、以下の式（３）を用いてスムージングを行ったものを用いる。

ただし、ｆｒｅｑ（ｆ_i，ａ）は、素性ｆ_iを持ちかつ分類がａである事例の個数、ｆｒｅｑ（ａ）は、分類がａである事例の個数を意味する。

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。

決定リスト方法では、あらかじめ設定しておいた素性ｆ_j( ∈Ｆ，１≦ｊ≦ｋ）のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈ｂで分類ａを出力する確率は以下の式によって与えられる。

ｐ（ａ｜ｂ）＝ｐ（ａ｜ｆmax ）式（４）
ただし、ｆmax は以下の式によって与えられる。

また、Ｐ（ａ_i｜ｆ_j）（ここでＰはｐの上部にチルダ）は、素性ｆ_jを文脈に持つ場合の分類ａ_iの出現の割合である。

最大エントロピー法は、あらかじめ設定しておいた素性ｆ_j（１≦ｊ≦ｋ）の集合をＦとするとき、以下所定の条件式（式（６））を満足しながらエントロピーを意味する式（７）を最大にするときの確率分布ｐ（ａ，ｂ）を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。

ただし、Ａ、Ｂは分類と文脈の集合を意味し、ｇ_j（ａ，ｂ）は文脈ｂに素性ｆ_jがあって、なおかつ分類がａの場合１となり、それ以外で０となる関数を意味する。また、Ｐ（ａ_i｜ｆ_j）（ここでＰはｐの上部にチルダ）は、既知データでの（ａ，ｂ）の出現の割合を意味する。

式（６）は、確率ｐと出力と素性の組の出現を意味する関数ｇをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化( 確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の参考文献（４）および参考文献（５）に記載されている。

参考文献（４）：Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997
参考文献（５）：Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998) ）
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。

図２にサポートベクトルマシン法のマージン最大化の概念を示す。図２において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図２（Ａ）は、正例と負例の間隔が狭い場合（スモールマージン）の概念図、図２（Ｂ）は、正例と負例の間隔が広い場合（ラージマージン）の概念図である。

このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔（マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図２（Ｂ）に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。

基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線形にする拡張（カーネル関数の導入) がなされたものが用いられる。

この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。

ただし、ｘは識別したい事例の文脈（素性の集合) を、ｘ_iとｙ_j（ｉ＝１，…，ｌ，ｙ_j∈｛１，−１｝）は学習データの文脈と分類先を意味し、関数ｓｇｎは、
ｓｇｎ（ｘ）＝１（ｘ≧０）
−１（otherwise ）
であり、また、各α_iは式（１０）と式（１１）の制約のもと式（９）を最大にする場合のものである。

また、関数Ｋはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。

Ｋ（ｘ，ｙ）＝（ｘ・ｙ＋１）ｄ式（１２）
Ｃ、ｄは実験的に設定される定数である。例えば、Ｃはすべての処理を通して１に固定した。また、ｄは、１と２の二種類を試している。ここで、α_i＞０となるｘ_iは、サポートベクトルと呼ばれ、通常、式（８）の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。

なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献（６）および参考文献（７）に記載されている。

参考文献（６）：Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
参考文献（７）：Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が２個のデータを扱うものである。したがって、分類の数が３個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンＶＳレスト法などの手法を組み合わせて用いることになる。

ペアワイズ法は、ｎ個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア（ｎ（ｎ−１）／２個）を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、ｎ（ｎ−１）／２個の二値分類による分類先の多数決によって、分類先を求める方法である。

ワンＶＳレスト法は、例えば、ａ、ｂ、ｃという三つの分類先があるときは、分類先ａとその他、分類先ｂとその他、分類先ｃとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先ａとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、a と推定する。

ここで、どのような解（分類先）になりやすいかの度合いを、例えば確信度という。確信度の求め方は、機械学習の手法として用いる様々な方法によって異なる。

例えば、機械学習の手法としてｋ近傍法を用いる場合、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合（同じ素性をいくつ持っているかの割合）にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として所定の記憶手段に記憶しておく。

そして、新しい問題（例えば、本発明の実施の形態においては、後述する書き込み文の候補）が入力されたときに、上記所定の記憶手段において定義された類似度と事例を参照して、当該書き込み文の候補について、その候補の類似度が高い順にｋ個の事例を上記所定の記憶手段内の事例から選択し、選択したｋ個の事例での多数決によって決まった分類先を、当該書き込み文の候補の分類先（解）として推定する。すなわち、各書き込み文の候補についての、確信度を、選択したｋ個の事例での多数決の票数とする。

また、機械学習手法として、シンプルベイズ法を用いる場合には、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として所定の記憶手段に記憶する。そして、例えば新しい問題（例えば、本発明の実施の形態においては、後述する書き込み文の候補）が入力されたときに、上記所定の記憶手段内の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて取得される、書き込み文の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その書き込み文の候補の素性の分類（解）と推定する。すなわち、書き込み文の候補の素性の集合の場合にある解となりやすさの度合い（確信度）を、各分類になる確率とする。

また、機械学習手法として決定リスト法を用いる場合には、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを所定の記憶手段に記憶する。そして、新しい問題（例えば、本発明の実施の形態においては、後述する書き込み文の候補）が入力されたときに、上記所定の記憶手段に記憶されたリストの優先順位の高い順に、入力された書き込み文の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先（解）として推定する。すなわち、書き込み文の候補の素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度とする。

また、機械学習手法として最大エントロピー法を使用する場合には、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて所定の記憶手段に記憶する。そして、新しい問題（例えば、本発明の実施の形態においては、後述する書き込み文の候補）が入力されたときに、上記所定の記憶手段内の確率分布を利用して、書き込み文の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、書き込み文の候補の素性の集合の場合にある解となりやすさの度合い（確信度）を、各分類になる確率とする。

また、機械学習手法としてサポートベクトルマシン法を使用する場合には、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて所定の記憶手段に記憶する。そして、新しい問題（例えば、本発明の実施の形態においては、後述する書き込み文の候補）が入力されたときに、上記所定の記憶手段に記憶された超平面を利用して、書き込み文の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果に基づいて定まる分類を、その候補の解と推定する。すなわち、書き込み文の候補の素性の集合の場合にある解となりやすさの度合い（確信度）を、分離平面からの正例の空間への距離の大きさとする。

上述した教師あり機械学習の手法を用いて、本発明の第１の実施の形態を実現する場合、予め、聞きたい内容の知識表現と書き込み文の候補の組を大量に用意し、それぞれの組に対して、いい書き込みか悪い書き込みかの情報をあらかじめ付与しておく。それを学習データとして利用する。

次に、書き込み文生成部１０は、聞きたい内容の知識表現と書き込み文の候補の組から、素性を取り出す。

そして、書き込み文生成部１０は、学習データを利用して、どういう素性のときに、いい書き込みになりやすいか、悪い書き込みかを学習し、学習結果を所定の記憶手段に記憶する。

次に、書き込み文生成部１０が、いい書き込みか悪い書き込みかを判定すべき書き込み文の候補と、聞きたい内容の知識表現を入力し、それらから素性を取り出し、記憶手段に記憶された学習結果に基づいて、取り出されたその素性のときに、いい書き込みの分類の確信度（いい書き込みが分類先となる確信度）を求める。書き込み文生成部１０は、いい書き込みの分類の確信度が最も高い候補を実際に電子掲示板に書き込む書き込み文として選択する。

素性は、例えば、聞きたい内容の知識表現の各項目、書き込み文に含まれる各単語、またそれらの品詞、また、文字列、単語列とする。
例えば、入力された聞きたい内容のテーマと聞く項目の種類が、
聞きたい内容のテーマ（Ａ）＝カメラ
聞く項目の種類＝テーマの最もよいものを聞く
の場合、
まず、書き込み文生成部１０は、例えば、入力された聞きたい内容のテーマと聞く項目の種類の情報に基づいて、所定の記憶手段に記憶された書き込み文のパターンを用いて、
カメラってどれが一番いいですか？
最適なカメラってどれですか？
最強のカメラは？
という書き込み文の候補を生成する。

学習データとして、
聞きたい内容のテーマ（Ａ）＝カメラ
聞く項目の種類＝テーマの最もよいものを聞く
と
カメラではどれが一番いいですか？
の組
よい書き込み

聞きたい内容のテーマ（Ａ）＝カメラ
聞く項目の種類＝テーマの最もよいものを聞く
と
カメラはどれがいいですか？
の組
悪い書き込み
が予め記憶手段に記憶されているとする。

まず、書き込み文生成部１０は、上記記憶手段に記憶された学習データから、素性を取り出す。ここでは、例えば、聞きたい内容の知識表現の各項目、書き込み文に含まれる各名詞の単語を素性とする。
聞きたい内容のテーマ（Ａ）＝カメラ
聞く項目の種類＝テーマの最もよいものを聞く
と
カメラではどれが一番いいですか？
の組
の素性は、
聞きたい内容のテーマ（Ａ）：カメラ
聞く項目の種類：テーマの最もよいものを聞く
書き込み文の単語：カメラ
書き込み文の単語：どれ
書き込み文の単語：一番
となる。

また、
聞きたい内容のテーマ（Ａ）＝カメラ
聞く項目の種類＝テーマの最もよいものを聞く
と
カメラはどれがいいですか？
の組
悪い書き込み
の素性は、
聞きたい内容のテーマ（Ａ）：カメラ
聞く項目の種類：テーマの最もよいものを聞く
書き込み文の単語：カメラ
書き込み文の単語：どれ
となる。

上記取り出された素性と、その素性の場合に良い書き込みか否かの情報を利用して、機械学習する。

例えば、
聞く項目の種類：テーマの最もよいものを聞く
の場合は、「一番」という単語を含んでいると、よい書き込みになりやすい、といったことを学習する。

書き込み文生成部１０は、例えば、上述した書き込み文の候補
カメラってどれが一番いいですか？
最適なカメラってどれですか？
最強のカメラは？
のそれぞれについて、以下の素性を取り出す。
聞きたい内容のテーマ（Ａ）：カメラ
聞く項目の種類：テーマの最もよいものを聞く
書き込み文の単語：カメラ
書き込み文の単語：どれ
書き込み文の単語：一番

聞きたい内容のテーマ（Ａ）：カメラ
聞く項目の種類：テーマの最もよいものを聞く
書き込み文の単語：最適
書き込み文の単語：カメラ
書き込み文の単語：どれ

聞きたい内容のテーマ（Ａ）：カメラ
聞く項目の種類：テーマの最もよいものを聞く
書き込み文の単語：最強
書き込み文の単語：カメラ
記憶手段に記憶された、聞く項目の種類がテーマの最もよいものを聞く、の場合は、「一番」という単語を含んでいると、よい書き込みになりやすい、という学習結果に基づいて、素性が、
聞きたい内容のテーマ（Ａ）：カメラ
聞く項目の種類：テーマの最もよいものを聞く
書き込み文の単語：カメラ
書き込み文の単語：どれ
書き込み文の単語：一番
である以下の書き込み文の候補
カメラってどれが一番いいですか？
が、最も確信度高く、よい書き込みと判定される。

従って、書き込み文生成部１０は、
カメラってどれが一番いいですか？
を書き込み文として選択し、出力する。

なお、上記書き込み文に含まれる単語は、公知の形態素解析技術を用いて認識することができる。形態素解析には、例えば、奈良先端大で開発されている形態素解析システムである ChaSen （下記の参考文献（８）参照）を用いる。

参考文献（８）：形態素解析システム茶筌（http://chasen.aist-nara.ac.jp/index.html.ja ）
ChaSen は、日本語文を分割し、さらに、各単語の品詞も推定してくれる。

例えば、「学校へ行く」を入力すると、以下の結果を得る。

学校ガッコウ学校名詞− 一般
へヘへ助詞- 格助詞− 一般
行くイク行く動詞- 自立五段・カ行促音便基本形
EOS
このように、各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。

また、英語の品詞タグつけシステムとしては、 Brill（下記の参考文献（９）参照）のものが有名である。このシステムを用いれば、英語文の各単語の品詞を推定することができる。

参考文献（９）： Eric Brill, Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging,Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
上述した本発明の第１の実施の形態においては、例えば、書き込み文生成部１０が、人手で作成してユーザの指定によって書き込み文生成部１０に入力された書き込み文自体を出力するようにしてもよい。

また、本発明の一実施例によれば、例えば、書き込み文生成部１０が、英語の知識表現を入力し、入力された英語の知識表現に基づいて英語の書き込み文を生成し、生成された英語の書き込み文を翻訳して日本語の書き込み文を生成してもよい。また、例えば、書き込み文生成部１０が、日本語の知識表現を入力し、入力された日本語の知識表現に基づいて日本語の書き込み文を生成し、生成された日本語の書き込み文を翻訳して英語の書き込み文を生成してもよい。上記翻訳には、訳語辞書を用いた翻訳によってもよいし、既存の翻訳システムで翻訳する手法を用いてもよい。

図３は、本発明の第１の実施の形態における意見収集処理フローの例を示す図である。まず、書き込み文生成部１０が、書き込み文を生成する（ステップＳ１）。次に、書き込み箇所特定部１１が、電子掲示板において新規に書き込みが可能な箇所を書き込み箇所として選択する（ステップＳ２）。そして、書き込み部１２が、当該生成された書き込み文を上記選択された書き込み箇所に書き込む（ステップＳ３）。そして、意見収集部１３が、当該書き込まれた書き込み文に対する意見を電子掲示板サーバ２から収集して（ステップＳ４）、意見評価部１４が、収集された意見を評価して（ステップＳ５）、処理を終了する。上記ステップＳ４においては、意見収集部１３は、例えば電子掲示板サーバ２が管理する電子掲示板における、上記書き込み文に対して書き込まれた回答（返事の文）を自動で収集する。

上記ステップＳ５における意見の評価処理は、例えば以下のようにして行う。
（辞書に基づく方法）
書き込み部１２によって電子掲示板に書き込まれた書き込み文に対する反応の良い場合と反応の悪い場合の表現を、予め辞書として意見収集システム１内の所定の記憶手段に記憶しておく。意見評価部１４は、当該辞書に基づいて、収集された上記返事の文を評価する。

例えば、辞書として、
反応の良い場合
．．．さん、お答えします。

私は．．．と思います。

お答えします。
反応の悪い場合
自分で考えては
工作員どのご苦労
回答なし
汚れる
を用意し、
収集された返事の文が上記辞書中の表現にマッチした場合、マッチした表現に対応する反応（反応の良い場合又は悪い場合）と解釈する。

例えば、収集された返事の文が、
「Ａカメラメーカー工作員どのご苦労」
であれば、辞書における「工作員どのご苦労」という表現に一致するため、反応が悪いと判定される。
（機械学習を使用した方法）
例えば、予めフォロー文（例えば、ある書き込みをフォローする文）を大量に収集し、それぞれの文に対して、反応が良いか、反応が悪いか、それ以外かの情報を付与する。そして、上述した機械学習法を用いて、自動で反応が良いか、反応が悪いか、それ以外かを判定する。

上記ステップＳ５における意見の評価処理のより詳細な例を以下に説明する。前記意見評価部１４は、例えば、意見収集部１３によって収集された返事の文から書き込み文に対する意見を抽出する。具体的には、意見評価部１４は、以下のようにして、収集された返事の文を、意見性を含む文と意見性を含まない文とに分類する。
（パターンに基づく方法）
例えば、
と思う
と思います
でしょう
が良いです
というパターンを用意し、これらのパターンと合致した返事の文を、意見性を含む文と判断する。
（機械学習を用いる方法）
文と当該文が意見性を含むか否かの情報との対を大量に予め用意する。また、文から単語文末文字列などを素性として取り出し、機械学習を行う。当該機械学習の方法は、前述した他の機械学習の方法と同様である。当該機械学習を行うことによって、返事の文が意見性を含むか否かが判定できるようになる。収集された返事の文が肯定的な意見を示すか、否定的な意見を示すかについても、上記と同様に機械学習を用いて判断することができる。

本発明の一実施例によれば、意見評価部１４は、以下のようにして、収集された返事の文から、当該返事の文に対応する、電子掲示板に書き込まれた質問の解答を抽出する。
（パターンによる方法）
例えば、電子掲示板に書き込まれた質問（書き込み文）が、「製品Ａの属性Ｂは評価Ｃですか？」である場合のように、聞く項目の種類が、書き込み文の生成処理の説明において前述した、ＡＢＣの確認であるとき、「はい」、「いいえ」に類するものが解答になる。

例えば、以下の規則を用意する。
「はい」→「はい」
「そう思います。」→「はい」
「いいえ」→「いいえ」
「違います」→「いいえ」
「そんなことはないでしょう」→「いいえ」
意見評価部１４は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、質問に対する解答は、矢印の右に示す解答であると判断する。

また、「製品Ａの属性Ｂはどうですか？」という質問のように、聞く項目の種類が、評価を聞く場合だと、「良い」、「悪い」に類するものが解答になる。

例えば、以下の規則を用意する。
「良いです」→「良い」
「使えます」→「良い」
「役に立ちません」→「悪い」
「ダメです」→「悪い」
意見評価部１４は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、質問に対する解答は、矢印の右に示す解答であると判断する。

聞く項目が属性を聞く場合だと、属性が解答になる。
例えば、書き込み文としての質問が、
製品Ａで評価がＣの属性は何ですか？
とする。
製品Ａで評価がＣの属性はＸです→Ｘ
属性はＸだ→Ｘ
というパターンを用意する。

意見評価部１４は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、質問に対する解答は、矢印の右に示す解答であると判断する。意見評価部１４は、上記パターンを質問から自動作成するようにしてもよい。例えば、製品Ａで評価がＣの属性は何ですか？という質問の疑問詞何をＸに変換して、文の一部を削除（「ですか？」を「です」に修正）して、上記パターンを生成する。

聞く項目の種類が、理由を聞く場合だと、理由が解答になる。

例えば、以下の規則を用意する。
理由は．．．
．．．だから。

意見評価部１４は、返事の文が上記規則の矢印の左側のパターンにマッチすれば、当該マッチした文を、理由すなわち解答を記述している文として取り出す。
（機械学習による方法）
例えば、聞く項目の種類が、上述したＡＢＣの確認だと、「はい」、「いいえ」に類するものが解答になる。

入力データを、書き込み文と電子掲示板の参加者の返事の文（書き込み文＋電子掲示板の参加者の返事の文）とし、素性を、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文に含まれる単語、文字列とし、分類先を、電子掲示板の参加者の返事の文の、文の意味が、「はい」か「いいえ」かとして、意見評価部１４が、前述した他の機械学習と同様の機械学習処理を行う。

入力データと分類先の学習データを予め用意する。そして、素性を取り出し、どういう素性のときに、どの分類になりやすいかを学習し、学習結果を所定の記憶手段に記憶する。意見評価部１４は、新たな入力データを入力すると、当該入力データから素性を取り出し、学習結果を用いて、その素性の場合にどの分類になりやすいかを特定する。このような機械学習の手法を用いて、書き込み文＋電子掲示板の参加者の返事の文という入力データに対して、電子掲示板の参加者の返事の文の文の意味が、「はい」か「いいえ」かが特定できる。

例えば、素性として、電子掲示板の参加者の返事の文の単語のみを利用すると、学習データは、例えば、
「はい」→「はい」
「そう思います。」→「はい」
「いいえ」→「いいえ」
「違うと思います」→「いいえ」
となる。矢印の左の記述は、電子掲示板の参加者の返事の文を示し、矢印の右の記述は、当該返事の文の分類先を示す。
「はい」→「はい」
の場合の素性は、「はい」
「そう思います。」→「はい」
の場合の素性は、
「そう」「思います」
「いいえ」→「いいえ」
の場合の素性は、
「いいえ」
「違うと思います」→「いいえ」
の場合の素性は、
「違います」、「と」、「思います。」
である。

そこで、意見評価部１４は、素性に「はい」、「そう」があると「はい」に、そうでないときに「いいえ」になりやすいと学習し、学習結果を所定の記憶手段に記憶する。

意見評価部１４が、新たな返事の文「そうです」を入力する。素性は、「そう」、「です」であり、素性「そう」があるため、意見評価部１４は、分類先が「はい」であると判断する。

例えば、聞く項目の種類が、評価を聞く場合だと、「良い」、「悪い」に類するものが解答になる。

例えば、入力データを、書き込み文と電子掲示板の参加者の返事の文（書き込み文＋電子掲示板の参加者の返事の文）とし、素性を、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文に含まれる単語、文字列とし、分類先を、電子掲示板の参加者の返事の文の文の意味が、「良い」か「悪い」かとして、意見評価部１４が、前述した他の機械学習と同様の機械学習処理を行う。

例えば、聞く項目の種類が、属性を聞く場合だと、属性が解答になる。電子掲示板の参加者の返事の文に含まれる各単語を解答の属性の候補とする。

入力データを、書き込み文と電子掲示板の参加者の返事の文と解答の属性の候補（書き込み文＋電子掲示板の参加者の返事の文＋解答の属性の候補）とし、素性を、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文に含まれる単語、文字列、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語や文字列、書き込み文に、解答の属性の候補の単語が含まれるか否かとし、分類先を、解答の属性の候補が解答の属性として正しい場合、解答の属性の候補が解答の属性として正しくない場合として、他の機械学習と同様の機械学習処理を行う。

意見評価部１４は、解答の属性の候補が解答の属性として正しい場合の確信度を算出し、算出した確信度が最も大きい解答の属性の候補を解答の属性とする。

例えば、素性として、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの前後の二単語連続を利用する。

以下の学習データを用意する。
書き込み文
製品Ａで評価がＣの属性は何ですか？
返事の文
製品Ａで評価がＣの属性はＸです
解答の属性の候補
製品Ａ
分類先：
解答の属性の候補が、解答の属性として正しくない

書き込み文
製品Ａで評価がＣの属性は何ですか？
返事の文
製品Ａで評価がＣの属性はＸです
解答の属性の候補
Ｘ
分類先：
解答の属性の候補が、解答の属性として正しい

書き込み文
製品Ａで評価がＣの属性は何ですか？
返事の文
製品Ｂが好きです
解答の属性の候補
好き
分類先：
解答の属性の候補が、解答の属性として正しくない
意見評価部１４は、上記学習データから素性を取り出す。以下の学習データ、
書き込み文
製品Ａで評価がＣの属性は何ですか？
解答の文
製品Ａで評価がＣの属性はＸです
解答の属性の候補
製品Ａ
の素性である、書き込み文に含まれる単語、文字列は、以下の通りである。
製品Ａ
で
評価
が
Ｃ
の
属性
は
何
ですか
また、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
で評価
また、以下の学習データ、
書き込み文
製品Ａで評価がＣの属性は何ですか？
解答の文
製品Ａで評価がＣの属性はＸです
解答の属性の候補
Ｘ
の素性である、書き込み文に含まれる単語、文字列は、以下の通りである。
製品Ａ
で
評価
が
Ｃ
の
属性
は
何
ですか
また、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
属性は
です
また、以下の学習データ、
書き込み文
製品Ａで評価がＣの属性は何ですか？
解答の文
製品Ｂが好きです
解答の属性の候補
好き
の素性である、書き込み文に含まれる単語、文字列は、以下の通りである。
製品Ａ
で
評価
が
Ｃ
の
属性
は
何
ですか
また、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
製品Ｂが
です
上記三つの事例では、２番目の事例だけが正しく、他は正しくないので、意見評価部１４は、素性「書き込み文に含まれる単語、文字列」に「属性」があって、素性「電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語」に「属性は」があると正しく、そうでない場合は正しくないことを学習し、学習結果を所定の記憶手段に記憶する。

ここで、意見評価部１４が、以下の入力データを入力する。
書き込み文
製品Ｂで評価がＦの属性は何ですか？
解答の文
その属性はＺです
解答の属性の候補
属性
素性としての、書き込み文に含まれる単語、文字列は、以下の通りである。
製品Ｂ
で
評価
が
Ｆ
の
属性
は
何
ですか
また、素性としての、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
その
はＺ
素性「書き込み文に含まれる単語、文字列」に「属性」があって、素性「電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語」に「属性は」がないため、意見評価部１４は、上記記憶手段に記憶された学習結果に基づき、正しくないと判断する。

また、例えば、意見評価部１４が、以下の入力データを入力する。
書き込み文
製品Ｂで評価がＦの属性は何ですか？
解答の文
その属性はＺです
解答の属性の候補
Ｚ
素性としての、書き込み文に含まれる単語、文字列は、以下の通りである。
製品Ｂ
で
評価
が
Ｆ
の
属性
は
何
ですか
また、素性としての、電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語は、以下の通りである。
属性は
です
素性「書き込み文に含まれる単語、文字列」に「属性」があって、素性「電子掲示板の参加者の返事の文における、解答の属性の候補の単語のまわりの単語」に「属性は」があるため、意見評価部１４は、上記記憶手段に記憶された学習結果に基づき、正しいと判断する。そこで、意見評価部１４は、Ｚを解答の属性として出力する。

例えば、聞く項目の種類が、理由を聞く場合だと、理由が解答になる。

入力データを書き込み文＋電子掲示板の参加者の返事の文とし、素性を、書き込み文に含まれる単語、文字列、電子掲示板の参加者の返事の文に含まれる単語、文字列とし、分類先を電子掲示板の参加者の返事の文が理由か、それ以外かとして、意見評価部１４が機械学習を行って、書き込み文の解答を抽出する。

本発明の一実施例によれば、意見評価部１４が、書き込み文に対する返事の文を自動クラスタリング技術を用いて整理して、表示するようにしてもよい。

自動クラスタリングには下記の方法を用いる。なお、以下のクラスタリング技術の記述における「記事」という語は、本発明に適用する場合には、「返事の文」という語に読み替える。返事の文を自動クラスタリング処理することにより、よく似た返事の文を同じクラスにして表示することができる。

クラスタリングには様々な方法がある。一般的なものを以下に記述する。
（階層クラスタリング）
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士も（クラスターと成員同士も）、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。

・クラスターＡとクラスターＢの距離を、クラスターＡの成員とクラスターＢの成員の距離の中で最も小さいものをその距離とする方法
・クラスターＡとクラスターＢの距離を、クラスターＡの成員とクラスターＢの成員の距離の中で最も大きいものをその距離とする方法
・クラスターＡとクラスターＢの距離を、すべてのクラスターＡの成員とクラスターＢの成員の距離の平均をその距離とする方法
・クラスターＡとクラスターＢの距離を、すべてのクラスターＡの成員の位置の平均をそのクラスターの位置とし、すべてのクラスターＢの成員の位置の平均をそのクラスターの位置とし、その位置同士の距離の平均をその距離とする方法
・ウォード法と呼ばれる方法もある。以下、ウォード法の説明をする。

W = Σ Σ (x(i,j) - ave ＿x(i)) ＾ 2
＾は指数を意味する。

一つ目のΣは i=1からi=g までの加算
二つ目のΣは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave ＿x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Ｗの値が増加するが、ウォード法では、Ｗの値がなるべく大きくならないようにクラスター同士をくっつけていく。

成員の位置は、記事から単語を取り出し、その単語の種類をベクトルの次元とし、各単語のベクトルの要素の値を、単語の頻度やその単語のtf・idf （すなわち、tf(w,D) * log(N/df(w))) 、その単語のOkapi の式 (すなわち、 tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))) としたベクトルを作成し、それをその成員の位置とする。

（トップダウンクラスタリング（非階層クラスタリング）の説明）
以下、トップダウンのクラスタリング（非階層クラスタリング）の方法を説明する。

（最大距離アルゴリズムの説明）
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラスター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの良さをＡＩＣ情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各成員は、最も近いクラスター中心の成員となる。

（Ｋ平均法の説明）
あらかじめ定めた個数ｋ個にクラスタリングすることを考える。ｋ個成員をランダムに選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返しをやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター中心の成員となる。

このようにして、クラスタリングをする。クラスタリングの方法は、これら以外にもたくさんあるので、それらを利用してもよい。

本発明の一実施例によれば、意見評価部１４は、意見収集部１３によって収集された、書き込み文に対する返事の文の量を評価して、例えば当該返事の文の量が所定の値より多いことを画面表示またはユーザに通知するようにしてもよい。

本発明の一実施例によれば、書き込み文生成部１０が、意見評価部１４による意見の評価処理結果に応じた書き込み文を生成し、書き込み部１２が、生成された当該書き込み文を当該意見の収集元の電子掲示板に対して書き込むようにしてもよい。例えば、意見評価部１４が、収集された意見について、反応がよいと判断した場合、書き込み文生成部１０が、「ありがとうございました。」といった書き込み文を生成し、書き込み部１２が、当該書き込み文を電子掲示板に書き込む。また、例えば、意見評価部１４が、収集された意見について、反応が悪いと判断した場合、書き込み文生成部１０が、「申し訳ございません。」といった書き込み文を生成し、書き込み部１２が、当該書き込み文を電子掲示板に書き込む。

次に、本発明の第２の実施の形態について説明する。
（第２の実施の形態）
本発明の第２の実施の形態においては、意見収集システム１が、電子掲示板で既に議論となっている話題（テーマ）に関連する文を自動で書き込み、当該書き込んだ文に対する意見を収集する。例えば、電子掲示板に既に書き込まれている文のうち、「Ａ」という単語が書かれた文を選択し、選択した文に対してフォローする／返事をするように、選択した文の下に書き込み文を書き込む。そして、意見収集システム１は、当該書き込んだ文に対する意見を収集して、評価する。

以下に本発明の第２の実施の形態における書き込み文の書き込み手法について説明する。例えば、予め、聞きたい内容の知識表現を定義しておく。定義される知識表現は、例えば、聞きたい内容のテーマ（Ａ、場合によってはＢも利用）＋聞く項目の種類とする。

まず、書き込み箇所特定部１１が、聞きたい内容のテーマＡの単語を含む文を、例えば電子掲示板サーバ２が管理する電子掲示板から抽出する。書き込み箇所特定部１１は、当該抽出した文から一つの文を選択する。例えば、書き込み箇所特定部１１が、ユーザの指定入力に従って、一つの文を選択して、当該選択した文の下を書き込み箇所として特定する。書き込み文生成部１０は、前述した本発明の第１の実施の形態における書き込み文の生成手法と同様の手法によって、選択された文に対してフォローする／返事をする文を書き込み文として生成し、書き込み部１２が、選択された文の下に書き込み文を書き込む。書き込み部１２は、例えば、選択された文番号が３０なら、先頭に”＞＞３０”をつけて書き込む等、選択された文の番号を引用して書き込むようにしてもよい。また、書き込み部１２は、選択された文が返信が可能な形式なら、返信の形式で書き込むようにしてもよい。上記書き込み文の生成手法については、上述した本発明の第１の実施の形態における書き込み文の生成手法と同様であり、書き込み文生成部１０は、例えば人手で作成したパターンを用いて、選択された文に対してフォローする／返事をする文を書き込み文として生成する。

例えば、テーマがカメラの場合、書き込み箇所特定部１１が、カメラの単語を含む文を探して選択し、書き込み文生成部１０が、当該文に対してフォローする文を書き込み文として生成し、書き込み部１２が当該書き込み文を上記選択された文の下に書き込む。

なお、本発明の一実施例によれば、書き込み文生成部１０が、上記選択された文に対してフォロー等する文とは異なる新たな文を生成し、書き込み部１２が、当該生成された新たな文を新規スレッドとして上記書き込み箇所（選択された文の下）に書き込むようにしてもよい。また、本発明の一実施例によれば、書き込み箇所特定部１１が、ユーザの指定入力に従って、書き込み箇所を特定するようにしてもよい。

違う知識表現の例として、聞きたい製品Ａ＋聞きたい属性Ｂ＋聞きたい評価Ｃ＋聞く項目の種類がユーザの指定入力に従って書き込み文生成部１０によって入力されると、書き込み箇所特定部１１が、聞きたい製品Ａ聞きたい属性Ｂ聞きたい評価Ｃをより多く含む文を書き込み箇所の候補として電子掲示板から探す。例えば、書き込み箇所特定部１１は、電子掲示板に既に書き込まれた文のうち、聞きたい製品Ａ聞きたい属性Ｂ聞きたい評価Ｃをある値以上含む文を書き込み箇所の候補としてもよいし、電子掲示板に既に書き込まれた文から、当該聞きたい製品Ａ聞きたい属性Ｂ聞きたい評価Ｃを多く含む文の順に所定の数の文を書き込み箇所の候補として抽出するようにしてもよい。

そして、書き込み箇所特定部１１が、例えば上記聞きたい製品Ａ聞きたい属性Ｂ聞きたい評価Ｃを最も多く含む書き込み箇所の候補を選択する。書き込み文生成部１０は、例えば人手で作成したパターンを用いて、選択された文に対してフォローする／返事をする文を書き込み文として生成する。書き込み箇所特定部１１は、上記聞きたい製品Ａ聞きたい属性Ｂ聞きたい評価Ｃを最も多く含む書き込み箇所の候補が複数である場合、当該複数の書き込み箇所の候補からランダムに一つの書き込み箇所の候補を選択するようにしてもよい。

本発明の第２の実施の形態においては、以下に説明する手法を用いて書き込みを行うようにしてもよい。

まず、書き込み文生成部１０が、書き込み文を生成する。次に、書き込み箇所特定部１１が、書き込み文に現れた単語をより多く含む文を電子掲示板から探す。そして、書き込み箇所特定部１１が、見つかった文からランダムに一つの文を選択する。なお、書き込み箇所特定部１１は、書き込み文に現れた単語をある頻度以上含む文を選択してもよいし、当該単語を多く含む文の順に所定の数の文を選択してもよい。また、書き込み箇所特定部１１は、当該単語を最も多く含む一つの文を選択してもよいし、当該単語を最も多く含む文が複数である場合に、当該複数の文からランダムに一つの文を選択するようにしてもよい。

書き込み文生成部１０は、選択された文に対して、フォローする／返事をする文を書き込み文として生成し、書き込み部１２が、選択した文の下に書き込み文を書き込む。また、本発明の第２の実施の形態においては、以下に説明する機械学習の手法を用いて書き込み箇所を特定するようにしてもよい。

まず、書き込み箇所特定部１１が、上述した手法を用いて、書き込み箇所の候補を生成する。例えば、書き込み箇所特定部１１は、電子掲示板から、聞きたい内容のテーマＡの単語を含む文を抽出して、当該抽出された文を書き込み箇所の候補とする。書き込み箇所特定部１１は、電子掲示板に書き込まれているあらゆる文を書き込み箇所の候補としてもよい。

また、予め、書き込み箇所の候補と書き込み文と聞きたい内容の知識表現の多くの組を用意して、所定の記憶手段に記憶しておく。それぞれの組に対して、よい書き込み先であるか悪い書き込み先であるかの情報を付与しておき、当該よい書き込み先であるか悪い書き込み先であるかの情報が付与されたそれぞれの組のデータを学習データとする。

次に、書き込み箇所特定１１が、書き込み箇所の候補と書き込み文と聞きたい内容の知識表現の組から素性を取り出す。

書き込み箇所特定部１１は、学習データを利用して、どういう素性のときに、よい書き込み先になりやすいか、悪い書き込み先になりやすいかを学習する。その結果を学習結果として所定の記憶手段に記憶する。

次に、書き込み箇所特定部１１は、上記生成した書き込み箇所の候補それぞれに対して、素性を取り出す。書き込み箇所特定部１１は、取り出した素性と、上記記憶手段に記憶された学習結果を用いて、それぞれの書き込み箇所の候補の、よい書き込み先になりやすい場合の確信度を求める。そして、書き込み箇所特定部１１は、確信度が最も大きい候補を書き込み先（書き込み箇所）として決定する。

素性としては、例えば、書き込み箇所の候補の文に含まれる単語、書き込み文に含まれる単語、聞きたい内容の知識表現の各項目、書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致具合いとする。
例えば、
聞きたい内容のテーマ（Ａ）＝カメラ
聞く項目の種類＝テーマの最もよいものを聞く
とする。
書き込む文（書き込み文）は、
最強のカメラは？
とする。

テーマであるカメラを含む文として、書き込み箇所の候補の文として、以下の三つの文が得られたとする。
カメラは便利ですね。
カメラはきらいです。
カメラを落しました。

予め、学習データとして、
書き込み先：「ビデオは便利ですね。」
書き込み文：「ビデオはどうですか」
聞きたい内容のテーマ：ビデオ
聞く項目の種類：テーマ自体を聞く
書き込み先としてよい

書き込み先：「ビデオはきらいです。」
書き込み文：「ビデオはどうですか」
聞きたい内容のテーマ：ビデオ
聞く項目の種類：テーマ自体を聞く
書き込み先としてよくない

書き込み先：「ビデオを落としました。」
書き込み文：「ビデオはどうですか」
聞きたい内容のテーマ：ビデオ
聞く項目の種類：テーマ自体を聞く
書き込み先としてよくない
が所定の記憶手段に記憶されていたとする。

書き込み箇所特定部１１は、上記学習データから、素性を取り出す。例えば、素性として、書き込み箇所の候補の文に含まれる名詞、書き込み文に含まれる名詞、聞きたい内容の知識表現の各項目、書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数を取り出す。

上記それぞれの学習データから取り出された素性を、以下に示す。
書き込み先の箇所の候補の文に含まれる名詞：便利
書き込み先の箇所の候補の文に含まれる名詞：ビデオ
書き込みの文に含まれる名詞：ビデオ
聞きたい内容のテーマ：ビデオ
聞く項目の種類：テーマ自体を聞く
書き込み箇所の候補の文と書き込みの文において共通して出現する単語の一致する単語数：１語

書き込み先の箇所の候補の文に含まれる名詞：ビデオ
書き込みの文に含まれる名詞：ビデオ
聞きたい内容のテーマ：ビデオ
聞く項目の種類：テーマ自体を聞く
書き込み先の箇所の候補の文と書き込みの文に
おいて共通して出現する単語の一致する単語数：１語

書き込み先の箇所の候補の文に含まれる名詞：ビデオ
書き込みの文に含まれる名詞：ビデオ
聞きたい内容のテーマ：ビデオ
聞く項目の種類：テーマ自体を聞く
書き込み先の箇所の候補の文と書き込みの文に
おいて共通して出現する単語の一致する単語数：１語
書き込み箇所特定部１１が、上記取り出された素性と、当該素性の場合に書き込み先としてよいか悪いかの情報に基づいて機械学習すると、
書き込み箇所の候補の文に含まれる名詞：便利
のときに書き込み先としてよいといった情報を学習する。書き込み箇所特定部１１は、当該学習結果を所定の記憶手段に記憶する。

前述した３つの書き込み箇所の候補の文
カメラは便利ですね。
カメラはきらいです。
カメラを落しました。
について、同様にそれぞれ素性を取り出すと、
書き込み箇所の候補の文に含まれる名詞：便利
書き込み箇所の候補の文に含まれる名詞：ビデオ
書き込み文に含まれる名詞：カメラ
聞きたい内容のテーマ：カメラ
聞く項目の種類：テーマの最もよいものを聞く
書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数：１語

書き込み箇所の候補の文に含まれる名詞：ビデオ
書き込み文に含まれる名詞：カメラ
聞きたい内容のテーマ：カメラ
聞く項目の種類：テーマの最もよいものを聞く
書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数：１語

書き込み箇所の候補の文に含まれる名詞：ビデオ
書き込み文に含まれる名詞：カメラ
聞きたい内容のテーマ：カメラ
聞く項目の種類：テーマの最もよいものを聞く
書き込み箇所の候補の文と書き込み文において共通して出現する単語の一致する単語数：１語
となる。このうち、
書き込み箇所の候補の文に含まれる名詞：便利
という素性を持つのは、
カメラは便利ですね。
だけであるので、書き込み箇所特定部１１は、所定の記憶手段に記憶された、
書き込み箇所の候補の文に含まれる名詞：便利
のときに書き込み先としてよい、という学習結果に基づいて、上記３つの候補の中で、
カメラは便利ですね。
という文が最も高い確信度をもって、書き込み先としてよいと判断し、当該文を書き込み箇所の文と判定する。

書き込み文生成部１０は、上記書き込み箇所の文「カメラは便利ですね。」という文に対してフォローする、例えば以下の文
最強のカメラは？
を書き込み文として生成し、書き込み部１２が、当該書き込み箇所の文の下に上記書き込み文を書き込む。

本発明の第２の実施の形態においては、書き込み箇所特定部１１が、以下の手法を用いて、電子掲示板におけるプラスイメージ、マイナスイメージの箇所を書き込み箇所として特定して、書き込み部１２が当該箇所に書き込みをするようにしてもよい。

例えば、製品Ａの利点を聞く質問の場合、電子掲示板におけるプラスイメージの箇所を特定して、そこに書き込み文を書き込む。より具体的には、「製品Ａの利点はどこにありますか」という質問文を書き込み文として書き込む場合、製品Ａをよく使っています、といったプラスイメージの箇所を見つけて、当該箇所に書き込み文を書き込む。

また、例えば、製品Ａの欠点を聞く質問の場合、マイナスイメージの箇所を特定して、そこに書き込み文を書き込む。より具体的には、「製品Ａの欠点はどこにありますか」という質問文を書き込み文として書き込む場合、製品Ａを使うのをやめました、といったプラスイメージの箇所を見つけて、当該箇所に書き込み文を書き込む。

以下に、書き込み箇所特定部１１による、プラスイメージ、マイナスイメージの箇所の特定の仕方について説明する。
（１）辞書、パターンを利用する方法
よく使っています→プラスイメージ
を使うのをやめました→マイナスイメージ
と判定するパターンを使った規則を予め用意しておき、当該規則を用いてプラスイメージかマイナスイメージかを判定する。上記矢印は、当該矢印の左側の表現が当該矢印の右側のイメージであることを示す。
（２）教師あり機械学習に基づく手法
予め大量の文を収集しておき、それぞれの文に、プラスイメージか、マイナスイメージか、それら以外かの情報を付与する。上記文から素性を取り出し、上述した機械学習の手法を用いて、どういう素性のときに、プラスイメージか、マイナスイメージか、それら以外かになりやすいかを学習し、その結果を学習結果として、所定の記憶手段に記憶する。

書き込み箇所特定部１１は、電子掲示板サーバ２が管理する電子掲示板に書き込まれた文を電子掲示板サーバ２から収集し、収集された文から、例えばユーザの指定入力に従って、プラスイメージか、マイナスイメージか、それら以外かを判断したい文を選択入力して、選択入力した文から素性を取り出す。

そして、書き込み箇所特定部１１は、記憶手段に記憶された学習結果を利用して、上記取り出された素性の場合に、プラスイメージ、マイナスイメージ、それら以外のうちのどれになりやすいかを求めて、プラスイメージ、マイナスイメージ、それら以外のどれであるかを特定する。

素性には、文に含まれる単語、文字列、それらの品詞、分類語彙表の分類番号（意味情報、意味クラス）などを用いる。

以下に意味クラスの簡単な説明を記述する。各単語がどういう意味クラスを持つかを記述した表のようなものがある。それを使えば単語の意味クラスを求めることができる。例えば分類語彙表がある。分類語彙表では単語は分類番号と呼ばれる１０桁の数字で表現され、この数字の良く似ている単語ほど良く似た単語となる。この数字の最初の３桁や５桁を単語の意味クラスと利用することが多い。

例えば、「村人」の分類番号は１２３０１０２０５０であり、これは１２３（人種、国民、社会階層などの意味クラス）、１２３０１（国民、住民などの意味クラス）に属する単語であることが示される。

以下にプラスイメージ、マイナスイメージ、それら以外のどれであるかの特定処理の具体例について説明する。
事例１：カメラをよく使っています→プラスイメージ
事例２：カメラを使うのをやめました→マイナスイメージ
という学習データを用意する。

ここで、文末文字列を素性とすると、
事例１の素性は、
す
ます
います
ています
っています
使っています
く使っています
よく使っています
をよく使っています
となり、事例２の素性は、
た
した
ました
めました
やめました
をやめました
のをやめました
うのをやめました
使うのをやめました
となる。

機械学習を使って、どういう素性のときに、プラスイメージか、マイナスイメージか、それら以外かになりやすいかを学習する。具体的には、
よく使っています
という文末があればプラスイメージ、
使うのをやめました
という文末があればマイナスイメージになりやすいと学習する。

ここで、プラスイメージかマイナスイメージかを特定したい文として、「ビデオをよく使っています」という文が入力されたとする。

書き込み箇所特定部１１は、当該文から、
す
ます
います
ています
っています
使っています
く使っています
よく使っています
をよく使っています
といった素性を取り出す。

上述した、
よく使っています
という文末があればプラスイメージ、
使うのをやめました
という文末があればマイナスイメージになりやすい
という学習結果から、
上記「ビデオをよく使っています」という文は、プラスイメージと判断される。

そこで、書き込み箇所特定部１１は、当該プラスイメージの文を書き込み先（書き込み箇所の文）として特定し、書き込み文生成部１０が、当該プラスイメージの文を例えばフォローする文を書き込み文として生成する。そして、書き込み部１２が、当該生成された書き込み文を上記書き込み先として特定された文の下（書き込み箇所）に書き込む。もちろん、書き込み箇所特定部１１は、例えばマイナスイメージであると判断された文を書き込み先として特定してもよい。

例えば、電子掲示板に書き込まれた「製品Ａをよく使っています。」という文の下に、「製品Ａはなぜいいですか？」、「製品Ａの利点はどこにありますか？」といった書き込み文が書き込まれる。また、例えば、電子掲示板に書き込まれた「製品Ａを使うのをやめました。」という文の下に、「製品Ａはなぜよくないですか？」、「製品Ａの欠点はどこにありますか？」といった書き込み文が書き込まれる。

図４は、本発明の第２の実施の形態における意見収集処理フローの例を示す図である。まず、書き込み箇所特定部１１が、電子掲示板において書き込み箇所を特定する（ステップＳ１１）。例えば、書き込み箇所特定部１１が、聞きたい内容のテーマＡの単語を含む文を、例えば電子掲示板サーバ２が管理する電子掲示板から抽出し、抽出された文の中から、ユーザの指定入力に従って、一つの文を選択して、当該選択した文の下を書き込み箇所として特定する。次に、書き込み文生成部１０が、書き込み文を生成する（ステップＳ１２）。例えば、書き込み文生成部１０は、所定のパターンを用いて、選択された文に対してフォローをする文／返事をする文を書き込み文として生成する。

そして、書き込み部１２が、書き込み箇所（選択された文の下）に書き込み文を書き込む（ステップＳ１３）。例えば、「カメラを使っています。」という選択された文の下に、例えば、「どこの製品のカメラを使っていますか？」という、当該選択された文をフォローする文が書き込み文として書き込まれる。意見収集部１３が、当該書き込まれた書き込み文に対する意見を電子掲示板サーバ２から収集し（ステップＳ１４）、意見評価部１４が、収集された意見を評価して（ステップＳ１５）、処理を終了する。

以下に、本発明の第３の実施の形態について説明する。
（第３の実施の形態）
本発明の第３の実施の形態においては、意見収集システム１が、複数の電子掲示板（例えば図１に示す電子掲示板サーバ２が管理する電子掲示板と電子掲示板サーバ３が管理する電子掲示板）に同様の質問を書き込む。複数の電子掲示板に質問を書き込む場合、全く同じ書き込み文を書き込むと、発信元が同じであると思われて、返事が得られない可能性がある。異なる発信元からの書き込みであるように装うために、意見収集システム１は、例えば、言い換えの技術を利用して、書き込み文の書き方を少し変えて複数の電子掲示板に書き込む。

具体的には、書き込み文生成部１０が、電子掲示板サーバ２が管理する電子掲示板に書き込んだ第１の書き込み文を同内容の文に言い換えて、第２の書き込み文とする。そして、書き込み部１２が、当該第２の書き込み文を電子掲示板サーバ３が管理する電子掲示板に書き込む。また、意見収集部１３が、電子掲示板サーバ２および３から、当該電子掲示板に書き込んだ第１の書き込み文および第２の書き込み文に対する意見を収集して、意見評価部１４が、当該収集された意見を評価する。

以下に、書き込み文生成部１０による書き込み文の言い換え手法について説明する。
（１）辞書を利用する手法
予め、同義語、同義フレーズの辞書を用意して、意見収集システム１内の所定の記憶手段に記憶しておく。書き込み文生成部１０は、上記第１の書き込み文を、上記記憶手段内の辞書を用いて、例えばランダムに言い換える。

例えば、
同義語
一番＜−−＞最も
同義フレーズ
Ａってどれが一番いいですか？＜−−＞最適なＡってどれですか？＜−−＞最強のＡは？
を予め用意する。＜−−＞は同義語または同義フレーズであることを示す表示である。

第１の書き込み文が、
Ａってどれが一番いいですか？
であるとすると、
用意された同義語
一番＜−−＞最も
に従って、
Ａってどれが最もいいですか？
という文が第１の書き込み文を言い換えた第２の書き込み文として生成される。

また、例えば、第１の書き込み文が、
Ｘってどれが一番いいですか？
であるとすると、
用意された同義フレーズ
Ａってどれが一番いいですか？＜−−＞最適なＡってどれですか？
に従って、
最適なＸってどれですか？
という文が第１の書き込み文を言い換えた第２の書き込み文として生成される。
（２）本発明の第３の実施の形態においては、下記の参考文献（１０）に記載された言い換え技術を用いて、上記第１の書き込み文を言い換えて第２の書き込み文を生成するようにしてもよい。

参考文献（１０）：言い換えの統一的モデル，尺度に基づく変形の利用，村田真樹，井佐原均，自然言語処理（言語処理学会誌）１１巻，５号，ｐ．１１３−１３３，２００４年１０月．
書き込み文生成部１０は、上記参考文献（１０）に記載された言い換え技術を用いて、言い換えたい文（上記第１の書き込み文）を第１の書き込み文と同義の第２の書き込み文に言い換える。例えば、書き込み文生成部１０は、第１の書き込み文に基づいて、変形の候補を作成する。書き込み文生成部１０は、変形の候補の変形の妥当性をチェックし、最も妥当であると判断されたものを第２の書き込み文として出力する。例えば、上記変形の妥当性のチェックにおいて、書き込み文生成部１０は、書き込み先（書き込み箇所）の文または当該文の周辺の文との類似度が最も大きな変形の候補を第２の書き込み文として決定する。

上記類似度とは、所定の規則に基づいて決まる、文同士の類似の度合いである。書き込み文生成部１０は、例えば、それぞれの文に含まれる単語について、所定のスコアを求め（例えば、後述するＴＦ・ＩＤＦ法やｏｋａｐｉの式などを用いて当該スコアを求め）、それぞれの文について、各単語のスコアを要素とするベクトルを生成し、生成されたそれぞれの文についてのベクトル同士の余弦を、上記文同士の類似度としてもよい。なお、本発明の一実施例によれば、書き込み文生成部１０は、類似度を求めたい文同士で一致する文字列や単語の数に基づいて、当該文同士の類似度を算出するようにしてもよい。

本発明の一実施例によれば、書き込み文生成部１０が、第１の書き込み文との類似度が所定の値より小さい変形の候補を特定し、当該特定された変形の候補で用いられる各表現を、書き込み対象となる電子掲示板の文の集合において、所定の数より多く使われる表現に変更することによって、第２の書き込み文を生成するようにしてもよい。

また、本発明の一実施例によれば、書き込み文生成部１０が、上記第２の書き込み文で用いられる各表現が、予め記憶手段に記憶された大規模な文の集合において使われたことのある表現であることを条件として、第１の書き込み文との類似度が所定の値より小さい変形の候補を第２の書き込み文とするようにしてもよい。

また、本発明の一実施例によれば、書き込み文生成部１０が、第１の書き込み文と同義の書き込み文を２つ（第２の書き込み文及び第３の書き込み文）を生成するようにしてもよい。書き込み文生成部１０は、例えば、上記第３の書き込み文で使われる各表現が、大規模な文の集合において使われたことのある表現であることを条件として、第１の書き込み文との類似度と第２の書き込み文との類似度との積が所定の値より小さい変形の候補を、第３の書き込み文とするようにしてもよい。なお、書き込み文生成部１０が、上記と同様の手法を用いて、第１の書き込み文と同義の書き込み文を３つ以上生成するようにしてもよい。

本発明の一実施例によれば、書き込み文生成部１０が、所定の規則に基づいて、書き言葉から話し言葉への変換を行うようにしてもよい。

本発明の一実施例によれば、書き込み文生成部１０が、第１の書き込み文を例えば男性言葉ぽい第２の書き込み文に言い換えたり、女性言葉ぽい第２の書き込み文に言い換えるようにしてもよい。例えば、男性言葉ぽい第２の書き込み文に言い換える場合、書き込み文生成部１０が所定の規則（例えば文パターン等）を用いて第１の書き込み文を言い換えた第２の書き込み文の候補を生成し、生成した第２の書き込み文の候補のうち、予め記憶手段に記憶された男性の文書を集めた文書データ中の頻度が最も大きいものを、第２の書き込み文として決定するようにしてもよい。

また、本発明の一実施例によれば、第１の書き込み文をどういう文に言い換えるかを人手で指定できるようにしてもよい。例えば、ユーザが、第１の書き込み文を男性ぽい第２の書き込み文に言い換えることを指定すると、当該指定に従って、書き込み文生成部１０が、男性ぽい第２の書き込み文を生成するようにしてもよい。また、例えば、ユーザが、第１の書き込み文をあらっぽい表現の第２の書き込み文に言い換えることを指定すると、当該指定に従って、書き込み文生成部１０が、あらっぽい表現の第２の書き込み文を生成するようにしてもよい。

なお、書き込み文生成部１０は、上記頻度が所定の閾値以上のものを第２の書き込み文として決定してもよく、頻度が所定の閾値以上のものを所定の個数だけ頻度の高い順に取り出して第２の書き込み文として決定してもよい。また、書き込み文生成部１０は、頻度の最大値に対して所定の割合を乗じて得られる値以上の頻度の値をもつものを第２の書き込み文として決定するようにしてもよい。また、本発明の一実施例によれば、上記所定の閾値、頻度の最大値に対して乗じる所定の割合を、予め定めるようにしてもよいし、適宜ユーザが値を変更、設定するようにしてもよい。
（３）本発明の一実施例によれば、書き込み文生成部１０が第１の書き込み文に基づいて、文パターン等の所定の規則を用いて生成した第２の書き込み文の候補から、機械学習を用いて、第２の書き込み文を生成するようにしてもよい。

例えば、書き込み文生成部１０は、以下の手法を用いて、男性言葉ぽい第２の書き込み文を決定する。

まず、予め大量の文を所定の記憶手段に記憶しておく。それぞれの文ごとに、男性言葉ぽいか、女性言葉ぽいか、それ以外かの情報を予め付与しておく。

書き込み文生成部１０は、上記記憶手段内の文から素性を取り出し、機械学習を使って、どういう素性のときに、男性言葉ぽいか、女性言葉ぽいか、それら以外かになりやすいかを学習し、その結果を学習結果として所定の記憶手段に記憶する。

ここで、書き込み文生成部１０が、上記第２の書き込み文の候補から、素性を取り出す。学習結果を利用して、その素性の場合に、男性言葉ぽい、女性言葉ぽい、それら以外のうちのどれになりやすいかを求めて、男性言葉ぽい、女性言葉ぽい、それら以外のどれであるかを特定する。

素性としては、例えば、文に含まれる単語、文字列、それらの品詞、分類語彙表の分類番号（意味情報、意味クラス）などを用いる。

書き込み文生成部１０は、以上の方法により、それぞれの第２の書き込み文の候補が、男性言葉ぽいか、女性言葉ぽいか、それ以外かを確信度付きで判定する。そして、書き込み文生成部１０は、例えば、上記第２の書き込み文の候補のうち、男性言葉ぽいの確信度が最も大きい候補を第２の書き込み文として決定する。

ここでは、第１の書き込み文を男性言葉ぽい第２の書き込み文に言い換える方法を示したが、同様の手法により、それ以外の表現の第２の書き込み文に言い換えることもできる。

例えば、あらっぽい表現、または、丁寧な表現の第２の書き込み文を生成したい場合は、男性言葉ぽい、女性言葉ぽいを、あらっぽい表現、丁寧な表現に読み替えて、上述した手法を用いる。

本発明の一実施例によれば、以下に示す言い換えの技術を用いて第１の書き込み文を第２の書き込み文に言い換えることもできる。

例えば、書き込み文生成部１０は、第１の書き込み文と第２の書き込み文の候補を入力データとして入力する。以下の説明において、第１の書き込み文と第２の書き込み文の候補を第１の書き込み文＋第２の書き込み文の候補と記述する。判定すべき内容を、言い換えとしてよいかそれ以外かとし、素性を、第１の書き込み文に含まれる単語、文字列、第２の書き込み文の候補に含まれる単語、文字列、第１の書き込み文と第２の書き込み文で重複している単語の数又は文字の数として、予め入力データと、入力データに対して言い換えとしてよいかそれ以外かの情報を付与した大量の学習データを用意しておく。そして、上記素性を利用して機械学習する。前述した他の機械学習の手法と同様に、どういう素性のときに第２の書き込み文＋第２の書き込み文の候補という入力データが言い換えとしてよいかそれ以外かになりやすいかを学習し、学習結果を所定の記憶手段に記憶する。

そして、書き込み文生成部１０は、新たな入力データとして、第１の書き込み文＋第２の書き込み文の候補を入力し、入力した新たな入力データから素性を取り出し、上記学習結果を利用して、その素性のときの言い換えとしてよいの分類である確信度を求める。確信度が最も大きい第２の書き込み文の候補が第２の書き込み文とされる。
なお、上記言い換えの技術は、第３の実施の形態に限らず、前述した第１の実施の形態や第２の実施の形態においても用いることができる。

図５は、本発明の第３の実施の形態における意見収集処理フローの例を示す図である。この例では、意見収集システム１が、既に電子掲示板サーバ２が管理する電子掲示板に第１の書き込み文を書き込んだ後に、当該第１の書き込み文を言い換えた第２の書き込み文を電子掲示板サーバ３が管理する電子掲示板に書き込む処理について説明する。まず、書き込み文生成部１０が、第１の書き込み文を言い換えて、第２の書き込み文を生成する（ステップＳ２１）。次に、書き込み箇所特定部１１が、電子掲示板サーバ３が管理する電子掲示板において新規に書き込みが可能な箇所を書き込み箇所として選択する（ステップＳ２２）。そして、書き込み部１２が、書き込み箇所に書き込み文を書き込む（ステップＳ２３）。意見収集部１３が、当該書き込まれた書き込み文に対する意見を電子掲示板サーバ３から収集し（ステップＳ２４）、意見評価部１４が、収集された意見を評価して（ステップＳ２５）、処理を終了する。

本発明の一実施例によれば、書き込み部１２が、生成された書き込み文と同じ内容の文（同義文）が、書き込み対象となる電子掲示板において既に書き込まれているかを確認し、同じ内容の文が書き込まれていなかった場合には、当該書き込み文を電子掲示板に書き込み、同じ内容の文が既に書き込まれていた場合には、当該書き込み文を電子掲示板に書き込まないようにするようにしてもよい。例えば、書き込み部１２が、生成された書き込み文に含まれる単語をキーワードとして、電子掲示板に既に書き込まれた文から当該キーワードを含む文を抽出し、抽出された文と書き込み文との類似度を所定の規則を用いて算出し、抽出された文を類似度が高い順に出力し、例えば所定の閾値以上の類似度を持つ文がある場合には、当該書き込み文を電子掲示板に書き込まないようにする。

書き込み部１２は、上記類似度の算出において、例えば、書き込み文と上記抽出された文それぞれに含まれる単語についての所定のスコア（例えば、ＴＦ・ＩＤＦ法やｏｋａｐｉの式などを用いて算出されるスコア）を求め、書き込み文と上記抽出された文それぞれについて、各単語のスコアを要素とするベクトルを生成する。そして、例えば、書き込み文についてのベクトル（ベクトルｘ）と上記抽出された文についてのベクトル（ベクトルｙ）との余弦（ｃｏｓ（ベクトルｘ，ベクトルｙ））を書き込み文と上記抽出された文との間の類似度とする。

なお、上記ＴＦ・ＩＤＦ法に従う各単語のスコア（Score ）は、例えば、
score= Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
である。ここで、Ｗは単語の集合、tf(w,D) は文書Ｄでの単語ｗの出現回数、df(w) は全文書でＷが出現した文書の数、Ｎは文書の総数である。

また、Ｏｋａｐｉの式については、以下の参考文献（１１）に記載されている。
参考文献（１１）：村田真樹，馬青，内元清貴，小作浩美，内山将夫，井佐原均“位置情報と分野情報を用いた情報検索”自然言語処理（言語処理学会誌) 2000年 4月，7 巻，2 号, p.141 〜 p.160
例えば、Ｏｋａｐｉの式に従うスコア（ score）は、
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w ∈W で加算
である。ここで、lengthは記事Ｄの長さ、delta は記事の長さの平均、記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。

本発明の一実施例によれば、書き込み文生成部１０が、同様な内容の書き込み文を複数生成し、書き込み部１２が、生成された書き込み文同士の類似度ｐを所定の規則に基づいて求める。また、書き込み部１２が、上記書き込み文のそれぞれと、既に電子掲示板に書き込まれた文との類似度ｑを求める。そして、書き込み部１２は、書き込み文同士の類似度を例えばｐ倍（ｐ＜１）して得られる値よりも大きな類似度ｑを持つ文がある場合、当該同様な内容の書き込み文を当該電子掲示板へ書き込まないようにする。

本発明の一実施例によれば、書き込み部１２が、上述した参考文献（１０）に記載された技術を用いて、書き込み文と電子掲示板において既に書き込まれた文とを、それらの文の間の類似度が上昇するように書き換え、例えば、同じ文に書き換えることができた場合に、同一内容の文と判断し、当該書き込み文を当該電子掲示板へ書き込まないようにするようにしてもよい。

以上の、本発明に関する記述において、値が最も大きいＸＸを求める（抽出する）（ＸＸは単語）といった手法は、例えば、値が閾値以上のＸＸを求める、値が所定の値以上のＸＸを値が大きい順に求める、値の最大値に対して所定の割合を乗じた値を求め、当該求めた値以上の値を持つＸＸを求めるという手法に置き換えることが可能である。また、上記閾値や所定の割合を、予め定めることも、適宜ユーザが変更、設定することも可能である。

また、本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。

本発明の意見収集システムの構成の一例を示す図である。サポートベクトルマシン法のマージン最大化の概念を示す図である。本発明の第１の実施の形態における意見収集処理フローの例を示す図である。本発明の第２の実施の形態における意見収集処理フローの例を示す図である。本発明の第３の実施の形態における意見収集処理フローの例を示す図である。

符号の説明

１意見収集システム
２、３電子掲示板サーバ
１０書き込み文生成部
１１書き込み箇所特定部
１２書き込み部
１３意見収集部
１４意見評価部

Claims

意見収集システムであって、
電子的にデータを書き込む場所に対する書き込み文を入力または生成する書き込み文生成手段と、
前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する書き込み箇所特定手段と、
前記書き込み文を前記書き込み箇所に書き込む書き込み手段とを備える
ことを特徴とする意見収集システム。
請求項１に記載の意見収集システムにおいて、
前記書き込み文生成手段が、入力された聞きたい内容の知識表現に基づいて、前記書き込み文を生成する
ことを特徴とする意見収集システム。
請求項２に記載の意見収集システムにおいて、
前記書き込み文生成手段が、さらに、機械学習の手法を用いて、前記書き込み文を生成する
ことを特徴とする意見収集システム。
請求項２に記載の意見収集システムにおいて、
前記書き込み文生成手段が、さらに、前記入力された聞きたい内容の知識表現に基づいて生成される書き込み文を翻訳して、前記書き込み箇所に書き込まれる書き込み文を生成する
ことを特徴とする意見収集システム。
請求項１に記載の意見収集システムにおいて、
前記書き込み箇所特定手段が、入力された聞きたい内容を含む文を前記電子的にデータを書き込む場所から抽出し、抽出した文から選択した文の下を前記書き込み箇所として特定し、
前記書き込み文生成手段が、前記選択された文に対してフォローまたは返事をする文を書き込み文として生成する
ことを特徴とする意見収集システム。
請求項５に記載の意見収集システムにおいて、
前記書き込み箇所特定手段が、前記電子的にデータを書き込む場所におけるプラスイメージ又はマイナスイメージの箇所を前記書き込み箇所として特定する
ことを特徴とする意見収集システム。
請求項１に記載の意見収集システムにおいて、
前記書き込み文生成手段が、電子的にデータを書き込む場所に書き込んだ書き込み文を同義文に言い換えて、当該同義文を他の書き込み文とし、
前記書き込み手段が、前記他の書き込み文を前記電子的にデータを書き込む場所とは異なる他の電子的にデータを書き込む場所に書き込む
ことを特徴とする意見収集システム。
請求項１乃至７のいずれか１項に記載の意見収集システムにおいて、
前記書き込み手段が、生成された書き込み文の同義文が、書き込み対象となる前記電子的にデータを書き込む場所に既に書き込まれているかを確認し、当該確認結果に基づいて、前記書き込み文を前記電子的にデータを書き込む場所における前記書き込み箇所に書き込む
ことを特徴とする意見収集システム。
請求項１乃至８のいずれか１項に記載の意見収集システムが、さらに、
前記書き込まれた書き込み文に対する返事の文を収集することによって、前記書き込み文に対する意見を収集する意見収集手段を備える
ことを特徴とする意見収集システム。
請求項１乃至９のいずれか１項に記載の意見収集システムが、さらに、
前記収集された意見を評価する意見評価手段を備える
ことを特徴とする意見収集システム。
請求項１０に記載の意見収集システムにおいて、
前記意見評価手段が、前記収集された返事の文から前記書き込み文に対する意見を抽出する
ことを特徴とする意見収集システム。
意見収集方法であって、
電子的にデータを書き込む場所に対する書き込み文を入力または生成するステップと、
前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定するステップと、
前記書き込み文を前記書き込み箇所に書き込むステップとを有する
ことを特徴とする意見収集方法。
意見収集プログラムであって、
コンピュータに、
電子的にデータを書き込む場所に対する書き込み文を入力または生成する処理と、
前記電子的にデータを書き込む場所における前記書き込み文を書き込む箇所である書き込み箇所を特定する処理と、
前記書き込み文を前記書き込み箇所に書き込む処理とを実行させる
ことを特徴とする意見収集プログラム。