JP6007088B2 - 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 - Google Patents
大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 Download PDFInfo
- Publication number
- JP6007088B2 JP6007088B2 JP2012266589A JP2012266589A JP6007088B2 JP 6007088 B2 JP6007088 B2 JP 6007088B2 JP 2012266589 A JP2012266589 A JP 2012266589A JP 2012266589 A JP2012266589 A JP 2012266589A JP 6007088 B2 JP6007088 B2 JP 6007088B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- predicate term
- question
- answer
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、質問文の入力に対して最適な回答文を出力する質問回答プログラムの技術に関する。
近年、FAQ(Frequently Asked Questions)に基づく質問回答システムが構築されている。「FAQ」とは、多数の人が共通して頻繁に尋ねる質問に対する回答をまとめた問答集をいう。質問回答システムは、特定種類の情報に関する質問文をユーザから自然言語で入力し、その回答文を出力するソフトウェアをいう。一般に、質問回答システムは、仮想質問文とそれに紐づけられた回答候補文とを予めデータベースに記憶する。その上で、質問回答システムは、以下のようなステップで処理を実行する。
(1)ユーザから入力された質問文から、特徴的な単語をクエリとして抽出する。
(2)検索エンジンを用いて、複数のクエリの出現頻度が高い仮想質問文を選択する。
(3)選択された仮想選択文に対する回答文を選択する。
(4)選択された回答文をユーザに提示する。
(1)ユーザから入力された質問文から、特徴的な単語をクエリとして抽出する。
(2)検索エンジンを用いて、複数のクエリの出現頻度が高い仮想質問文を選択する。
(3)選択された仮想選択文に対する回答文を選択する。
(4)選択された回答文をユーザに提示する。
このような質問回答システムは、ユーザに対して単体装置として存在するものもあれば、インターネット上に質問回答サーバとして接続されたものものある。この質問回答サーバは、ユーザ操作の端末からネットワークを介して質問文を受信し、回答文をその端末へ送信する(例えば非特許文献1参照)。
また、他の技術として、インターネット上に、ブログ(Web log)サーバやミニブログ(mini Web log)(例えばtwitter(登録商標))サーバが接続されている。このようなブログサーバは、不特定多数の第三者からのコメント文章を受信し、他の第三者へ公開する。このようなコメント文章は、様々な話題について公開されており、勿論、前述した質問回答システムに入出力される質問文及び回答文に関連するコメント文章も多く議論されている。
KDDI、「au one NETコンシェルジュ」、[online]、[平成24年10月7日検索]、インターネット<URL: http://concierge.auone-net.jp/inagoNetPeople/BrowserClient/GUI/kddi_missConcie3/help/help.html>
坪坂正志、「Latent Dirichlet Allocation入門」、[online]、[平成24年10月7日検索]、インターネット<URL:http://www.slideshare.net/tsubosaka/tokyotextmining>
榊博史、松本一則、黒岩眞吾、橋本和夫、「再起演算を用いた自然言語変換方式」、電子情報通信学会論文誌(D-II), Vol.J72-D-II, No.12, pp.2080-2093, Dec. 1989、[online]、[平成24年10月7日検索]、インターネット<URL:http://jglobal.jst.go.jp/public/20090422/200902065122383276>
しかしながら、同じ質問文であっても、そのユーザの質問の意図が複数あり得る場合がある。このような場合、ユーザに対して、適切な回答文が返答されない場合が多い。
ユーザの質問文の例
Q「携帯電話機の紛失」
この質問文に対して、質問回答システムは、以下の2つキーワードを抽出する。
「携帯電話機」「紛失」
これらキーワードをクエリとして回答文を検索すると、複数の回答の選択肢がある。
A「携帯探せて安心サービスの申込方法」に関する回答文
A「携帯探せて安心サービスの利用方法」に関する回答文
この場合、ユーザとしては、紛失した携帯電話機を遠隔からロックする「利用方法」を問い合わせたつもりであるにも拘わらず、質問回答システムは、「申込方法」について回答してしまう場合もある。
Q「携帯電話機の紛失」
この質問文に対して、質問回答システムは、以下の2つキーワードを抽出する。
「携帯電話機」「紛失」
これらキーワードをクエリとして回答文を検索すると、複数の回答の選択肢がある。
A「携帯探せて安心サービスの申込方法」に関する回答文
A「携帯探せて安心サービスの利用方法」に関する回答文
この場合、ユーザとしては、紛失した携帯電話機を遠隔からロックする「利用方法」を問い合わせたつもりであるにも拘わらず、質問回答システムは、「申込方法」について回答してしまう場合もある。
そこで、本発明は、ユーザの質問文に対して複数の回答文の候補が存在する場合、ユーザの意図を反映した回答文を明示する(に絞り込む)ことができる質問回答プログラム、サーバ及び方法を提供することを目的とする。
本発明によれば、多数のコメント文章を蓄積したコメント文章蓄積部と、多数の回答文を蓄積した回答文蓄積部とを有し、ユーザからの質問文に対する回答文を抽出するようにコンピュータを機能させる質問回答プログラムであって、
質問文を入力する質問文入力手段と、
質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
コメント文章蓄積部を用いて、質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類するトピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文に含まれる文章との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
回答文検出手段によって検出された回答文を、対応する1つ以上の差分述語項構造に基づく文章と共に明示する回答文出力手段と
してコンピュータを機能させることを特徴とする。
質問文を入力する質問文入力手段と、
質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
コメント文章蓄積部を用いて、質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類するトピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文に含まれる文章との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
回答文検出手段によって検出された回答文を、対応する1つ以上の差分述語項構造に基づく文章と共に明示する回答文出力手段と
してコンピュータを機能させることを特徴とする。
本発明の質問回答プログラムにおける他の実施形態によれば、
複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示する
ようにコンピュータを機能させることも好ましい。
複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示する
ようにコンピュータを機能させることも好ましい。
本発明の質問回答プログラムにおける他の実施形態によれば、トピック分類手段は、当該コメント文章を、分類された各トピックグループに属する確からしさ(トピック比率)を算出するLDA(Latent Dirichlet Allocation)アルゴリズムを用いて、いずれか1つのトピックグループに分類するようにコンピュータを機能させることも好ましい。
本発明の質問回答プログラムにおける他の実施形態によれば、
回答文検出手段は、
各トピックグループに含まれるコメント文章群から、述語項構造解析によって述語項構造を抽出すると共に、トピックグループにおける第1の特徴ベクトルを算出し、
回答文蓄積部に蓄積された各回答文から、述語項構造解析によって述語項構造を抽出すると共に当該回答文における第2の特徴ベクトルとを算出し、
トピックグループの第1のベクトルと、回答文の第2のベクトルとの間のコサイン距離に基づいて類似度を算出する
ようにコンピュータを機能させることも好ましい。
回答文検出手段は、
各トピックグループに含まれるコメント文章群から、述語項構造解析によって述語項構造を抽出すると共に、トピックグループにおける第1の特徴ベクトルを算出し、
回答文蓄積部に蓄積された各回答文から、述語項構造解析によって述語項構造を抽出すると共に当該回答文における第2の特徴ベクトルとを算出し、
トピックグループの第1のベクトルと、回答文の第2のベクトルとの間のコサイン距離に基づいて類似度を算出する
ようにコンピュータを機能させることも好ましい。
本発明の質問回答プログラムにおける他の実施形態によれば、代表述語項構造抽出手段は、各トピックグループの代表述語項構造を、赤池情報量基準に応じて優先順に並べるようにコンピュータを機能させることも好ましい。
本発明の質問回答プログラムにおける他の実施形態によれば、
コメント文章は、不特定多数の第三者によって投稿されたものであって、
コメント文章蓄積部は、ミニブログ(mini Web log)サーバに投稿されたコメント文章を収集し蓄積したものであるようにコンピュータを機能させることも好ましい。
コメント文章は、不特定多数の第三者によって投稿されたものであって、
コメント文章蓄積部は、ミニブログ(mini Web log)サーバに投稿されたコメント文章を収集し蓄積したものであるようにコンピュータを機能させることも好ましい。
本発明によれば、多数のコメント文章を蓄積したコメント文章蓄積部と、多数の回答文を蓄積した回答文蓄積部とを有し、ユーザからの質問文に対する回答文を抽出する質問回答サーバであって、
端末から、質問文を入力する質問文入力手段と、
質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
コメント文章蓄積部を用いて、質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類するトピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
回答文検出手段によって検出された回答文を、対応する1つ以上の差分述語項構造に基づく文章と共に明示する回答文出力手段と
を有することを特徴とする。
端末から、質問文を入力する質問文入力手段と、
質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
コメント文章蓄積部を用いて、質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類するトピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
回答文検出手段によって検出された回答文を、対応する1つ以上の差分述語項構造に基づく文章と共に明示する回答文出力手段と
を有することを特徴とする。
本発明の質問回答サーバにおける他の実施形態によれば、
複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示することも好ましい。
複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示することも好ましい。
本発明によれば、多数のコメント文章を蓄積したコメント文章蓄積部と、多数の回答文を蓄積した回答文蓄積部とを有し、ユーザからの質問文に対する回答文を抽出する装置における質問回答方法であって、
質問文を入力する第1のステップと、
質問文に含まれる複数の質問キーワードを抽出する第2のステップと、
コメント文章蓄積部を用いて、質問キーワードを含むコメント文章を検索する第3のステップと、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する第4のステップと、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける第5のステップと、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する第6のステップと、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する第7のステップと、
第5のステップによって検出された回答文を、対応する1つ以上の差分述語項構造に基づく文章と共に明示する第8のステップと
を有することを特徴とする。
質問文を入力する第1のステップと、
質問文に含まれる複数の質問キーワードを抽出する第2のステップと、
コメント文章蓄積部を用いて、質問キーワードを含むコメント文章を検索する第3のステップと、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する第4のステップと、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける第5のステップと、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する第6のステップと、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する第7のステップと、
第5のステップによって検出された回答文を、対応する1つ以上の差分述語項構造に基づく文章と共に明示する第8のステップと
を有することを特徴とする。
本発明の質問回答方法における他の実施形態によれば、
第8のステップについて、
複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させ、
選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示することも好ましい。
第8のステップについて、
複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させ、
選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示することも好ましい。
本発明の質問回答プログラム、サーバ及び方法によれば、ユーザの質問文に対して複数の回答文の候補が存在する場合、ユーザの意図を反映した回答文を明示する(に絞り込む)ことができる。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるシステム構成図である。
図1によれば、インターネット上に、本発明における質問回答サーバ1が接続されている。質問回答サーバ1は、回答文を予め蓄積しているものであってもよいし、他の回答文蓄積サーバ2から回答文を受信するものであってもよい。尚、本発明によれば、FAQのような質問文候補と回答文候補とを予め紐付けて記憶しておく必要はない。あくまで、回答文候補のみを予め蓄積している。
質問者が操作する端末4は、アクセスネットワーク及びインターネットを介して、質問回答サーバ1へアクセスする。そして、端末4は、質問文を質問回答サーバ1へ送信し、これに対し、質問回答サーバ1から回答文を受信する。以下の実施形態の中では、質問者が自然言語のテキストで端末4へ入力することを想定しているが、質問者が音声で入力しテキストに変換されたものであってもよい。
また、図1によれば、不特定多数の第三者から投稿されたコメント文章を公開するブログサーバ3が、インターネットに更に接続されている。ブログサーバ3は、例えばtwitter(登録商標)サーバのようなミニブログサーバである。不特定多数の第三者は、自ら所持する端末5を用いて、ミニブログサーバ3へコメント文章を自由に投稿することができる。
本発明における質問回答サーバ1は、ミニブログサーバ3から大量のコメント文章を収集する。そして、質問回答サーバ1は、ユーザの質問文に対して複数の回答文の候補が存在する場合、収集したコメント文章を用いて、ユーザの意図を反映した回答文を明示する(に絞り込む)。
図2は、本発明における質問回答サーバの機能構成図である。
図2によれば、質問回答サーバ1は、通信インタフェース部10と、回答文蓄積部101と、回答文取得部111と、コメント文章蓄積部102と、コメント文章収集部112とを有する。
回答文蓄積部101は、多数の回答文を蓄積する。回答文取得部111が、これら回答文を、ネットワークを介して回答文蓄積サーバ2から受信し、回答文蓄積部101へ蓄積するものであってもよい。
コメント文章蓄積部102は、不特定多数の第三者によって投稿された多数のコメント文章を蓄積する。コメント文章収集部112が、これらコメント文章を、ネットワークを介してブログサーバ3から受信し、コメント文章蓄積部102へ蓄積するものであってもよい。
「コメント文章」とは、例えばtwitter(登録商標)で発信された、日本語の「つぶやき」(最大文字数:140文字)のようなものである。コメント文章は、例えば、ユーザid(from_user_id)、つぶやきID(id_str)、発信時間(created_at)、つぶやき(texts)を含む。ここで、コメント文章収集部112は、予め指定した複数のキーワードを含むコメント文章のみを収集することもできる。
また、図2によれば、質問回答サーバ1は、質問文入力部121と、質問キーワード抽出部122と、コメント文章検索部123と、トピック分類部124と、回答文検出部125と、代表述語項構造抽出部126と、差分述語項構造抽出部127と、差分述語項構造選択部128と、回答文出力部129とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
[質問文入力部121]
質問文入力部121は、質問者の端末4から、ネットワークを介して質問文を受信する。例えばユーザの質問文は、以下のようなものである。
Q「携帯電話機の紛失」
その質問文は、質問キーワード抽出部122へ出力される。
質問文入力部121は、質問者の端末4から、ネットワークを介して質問文を受信する。例えばユーザの質問文は、以下のようなものである。
Q「携帯電話機の紛失」
その質問文は、質問キーワード抽出部122へ出力される。
図3は、質問キーワード抽出部及びコメント文章検索部の処理を表す説明図である。
[質問キーワード抽出部122]
質問キーワード抽出部122は、質問文に含まれる複数の質問キーワードを抽出する。ここで、質問キーワード抽出部122は、質問文から形態素解析によってキーワードを抽出すると共に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的な単語を、質問キーワードとして抽出する。
質問キーワード抽出部122は、質問文に含まれる複数の質問キーワードを抽出する。ここで、質問キーワード抽出部122は、質問文から形態素解析によってキーワードを抽出すると共に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的な単語を、質問キーワードとして抽出する。
質問キーワード抽出部122は、最初に、質問文から形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。形態素解析のように単語単位で検索することなく、文字単位で分解し、後続の N-1文字を含めた状態で出現頻度を求める「N-gram」によって解析するものであってもよい。
次に、TF−IDFによって特徴的なキーワードを、質問キーワードとして抽出する。TF−IDFとは、各単語に重みを付けて、クエリから文章をベクトル空間で表し、文章とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。
図3の例によれば、以下のように抽出される。
質問文 「携帯電話機の紛失」
質問キーワード「携帯電話機」「紛失」
質問文 「携帯電話機の紛失」
質問キーワード「携帯電話機」「紛失」
[コメント文章検索部123]
コメント文章検索部123は、コメント文章蓄積部102を用いて、質問キーワードを含むコメント文章を検索する。具体的には、質問キーワードをクエリとして、各コメント文章からTF(Term Frequency)値やDF(Document Frequency)値を抽出し、これら値が所定閾値以上となる複数のコメント文章を検索する。TF値は、文章における検索語の出現頻度をいい、DF値は、索引語が現れる相対文章頻度をいう。コメント文章検索部123は、ソーシャルメディア検索機能であって、投稿された大量のつぶやきの中から、質問キーワードに関するつぶやきのみを検索するようなものである。
コメント文章検索部123は、コメント文章蓄積部102を用いて、質問キーワードを含むコメント文章を検索する。具体的には、質問キーワードをクエリとして、各コメント文章からTF(Term Frequency)値やDF(Document Frequency)値を抽出し、これら値が所定閾値以上となる複数のコメント文章を検索する。TF値は、文章における検索語の出現頻度をいい、DF値は、索引語が現れる相対文章頻度をいう。コメント文章検索部123は、ソーシャルメディア検索機能であって、投稿された大量のつぶやきの中から、質問キーワードに関するつぶやきのみを検索するようなものである。
図3によれば、例えば4つのコメント文章が検索されている。これらコメント文章には、少なくとも「携帯電話機」又は「紛失」が含まれている。
図4は、トピック分類部の処理を表す説明図である。
[トピック分類部124]
トピック分類部124は、検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する。トピック分類部124は、当該コメント文章を、分類された各トピックグループに属する確からしさ(トピック比率)を算出するLDA(Latent Dirichlet Allocation)アルゴリズムを用いて、いずれか1つのトピックグループに分類する。特に、トピック分類部124のLDAは、キーワードによる分類でなく、述語項構造による分類である。
トピック分類部124は、検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する。トピック分類部124は、当該コメント文章を、分類された各トピックグループに属する確からしさ(トピック比率)を算出するLDA(Latent Dirichlet Allocation)アルゴリズムを用いて、いずれか1つのトピックグループに分類する。特に、トピック分類部124のLDAは、キーワードによる分類でなく、述語項構造による分類である。
LDAは、単語文書行列を次元圧縮する技術(LSI(latent Semantic Indexin))に対して、単語の特徴ベクトルに揺らぎに基づく確率的な枠組みを導入したものである(例えば非特許文献2参照)。その圧縮した次元の集合をトピックという。
また、「述語項構造」とは、文章中の述語に対して「項」となる名詞句等を当てたものである。述語項構造を用いることによって、文章の意味の骨格を把握することができる。述語項構造解析として、例えばフリーソフトであるSyncha等の述語項構造解析器を用いることができる。
述語項構造は、「述語」に対する「目的語」とその格とから構成される。図4によれば、例えば「携帯を探す」の述語項構造は、述語「探す」に対して目的語「携帯」及び格「ヲ」からなる。また、例えば「サービスに申し込む」の述語項構造は、述語「申し込む」に対して目的語「サービス」及び格「ニ」からなる。
トピック分類部124は、以下のステップで処理を実行する。
(S41)質問キーワードに関する多数のコメント文章から、述語項構造毎の出現頻度(出現回数)をLDA処理へ入力する。そして、コメント文章毎に、各述語項構造の出現頻度を計数する。
(S42)次に、本件でのLDA処理では、トピック毎の述語項構造分布や、コメント文章(ネット側意見)毎のトピック比率を取得する。このトピック比率によって、コメント文章が属するトピックグループに分類する。そして、トピックグループ毎に、全てのコメント文章に含まれる各述語項構造の出現頻度を計数する。
(S43)次に、コメント文章毎に、各トピックグループに属する述語項構造を計数する。そして、コメント文章を計数値の高いトピックグループに分類する。
(S41)質問キーワードに関する多数のコメント文章から、述語項構造毎の出現頻度(出現回数)をLDA処理へ入力する。そして、コメント文章毎に、各述語項構造の出現頻度を計数する。
(S42)次に、本件でのLDA処理では、トピック毎の述語項構造分布や、コメント文章(ネット側意見)毎のトピック比率を取得する。このトピック比率によって、コメント文章が属するトピックグループに分類する。そして、トピックグループ毎に、全てのコメント文章に含まれる各述語項構造の出現頻度を計数する。
(S43)次に、コメント文章毎に、各トピックグループに属する述語項構造を計数する。そして、コメント文章を計数値の高いトピックグループに分類する。
図5は、回答文検出部の処理を表す説明図である。
[回答文検出部125]
回答文検出部125は、各トピックグループに含まれるコメント文章群と、各回答文に含まれる文章との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける。
回答文検出部125は、各トピックグループに含まれるコメント文章群と、各回答文に含まれる文章との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける。
類似度の算出方法は、例えば以下のようにする。
(S51)回答文検出部125は、各トピックグループに含まれるコメント文章群から述語項構造解析によって述語項構造を抽出すると共に、トピックグループにおける第1の特徴ベクトルを算出する。
各トピックグループ:Ci(i=1,2,・・・)
トピックグループiに含まれるコメント文章:Tij(j=1,2,・・・)
(S52)回答文蓄積部101に蓄積された各回答文から述語項構造解析によって述語項構造を抽出すると共に、当該回答文における第2の特徴ベクトルとを算出する。
回答文:Ak(k=1,2,・・・)
(S53)トピックグループの第1のベクトルと、回答文の第2のベクトルとの間のコサイン距離に基づいて類似度を算出する。具体的には、各コメント文章Ti1, Ti2,・・・を含むトピックグループCiと、回答文Ajとの類似度Dist(Ci,Aj)を算出する。
Dist(Ci,Aj)=cosin距離D(Ti1,Aj),D(Ti2, Aj),・・・の平均値
=argi max(Dist(Ci,Aj))
(S51)回答文検出部125は、各トピックグループに含まれるコメント文章群から述語項構造解析によって述語項構造を抽出すると共に、トピックグループにおける第1の特徴ベクトルを算出する。
各トピックグループ:Ci(i=1,2,・・・)
トピックグループiに含まれるコメント文章:Tij(j=1,2,・・・)
(S52)回答文蓄積部101に蓄積された各回答文から述語項構造解析によって述語項構造を抽出すると共に、当該回答文における第2の特徴ベクトルとを算出する。
回答文:Ak(k=1,2,・・・)
(S53)トピックグループの第1のベクトルと、回答文の第2のベクトルとの間のコサイン距離に基づいて類似度を算出する。具体的には、各コメント文章Ti1, Ti2,・・・を含むトピックグループCiと、回答文Ajとの類似度Dist(Ci,Aj)を算出する。
Dist(Ci,Aj)=cosin距離D(Ti1,Aj),D(Ti2, Aj),・・・の平均値
=argi max(Dist(Ci,Aj))
図5によれば、回答文蓄積部101には、多数の回答文が蓄積されている。
回答文1「・・・」
回答文2「携帯探せて安心サービスの申込方法」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「申し込む」、目的語「サービス」、ニ格
回答文3「・・・」
回答文4「・・・」
回答文5「携帯探せて安心サービスの利用方法」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「利用する」、目的語「サービス」、ヲ格
回答文6「・・・」
回答文1「・・・」
回答文2「携帯探せて安心サービスの申込方法」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「申し込む」、目的語「サービス」、ニ格
回答文3「・・・」
回答文4「・・・」
回答文5「携帯探せて安心サービスの利用方法」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「利用する」、目的語「サービス」、ヲ格
回答文6「・・・」
図5によれば、トピックグループ1と回答文2との類似度が、所定閾値δよりも高い場合、両者は類似していると判定されている。また、トピックグループ2と回答文5との類似度が、所定閾値δよりも高い場合、両者は類似していると判定されている。これによって、トピックグループC1,C2,・・・毎に、0個以上の回答文が割り当てられる。
図6は、代表述語項構造抽出部、差分述語項構造抽出部、差分述語項構造選択部及び回答文出力部の処理を表す説明図である。
[代表述語項構造抽出部126]
代表述語項構造抽出部126は、各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する。
代表述語項構造抽出部126は、各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する。
図6によれば、トピックグループ1に対応する回答文2からは、以下の表のような述語項構造が抽出される。
回答文2「携帯探せて安心サービスの申し込み方法は以下のようになります・・・」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「申し込む」、目的語「サービス」、ニ格
回答文5「携帯探せて安心サービスの利用方法は以下のようになります・・・」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「利用する」、目的語「サービス」、ヲ格
回答文2「携帯探せて安心サービスの申し込み方法は以下のようになります・・・」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「申し込む」、目的語「サービス」、ニ格
回答文5「携帯探せて安心サービスの利用方法は以下のようになります・・・」
述語項構造=述語「探す」、目的語「携帯」、ヲ格
述語項構造=述語「利用する」、目的語「サービス」、ヲ格
ここで、述語項構造抽出部126は、各トピックグループの代表述語項構造を、赤池情報量基準に応じて優先順に並べることも好ましい。トピックグループC1,C2,・・・に割り当てられた回答文のいずれかに出現する述語項構造を、s1,s2,・・・とする。ここでは、述語項構造E(i)が、トピックグループCjの判別に役立つかどうかの指標を与える。
以下では、述語項構造sが、トピックグループCの判別に役立つかどうかの指標E(s,C)の算出方法を表す。
(S1)トピックグループ含まれるコメント文章(つぶやき)の集合Uから、以下の4種類の頻度を得る。
n11=トピックグループCに類似し、述語項構造sが出現するコメント文章の数
n12=トピックグループC以外に類似し、述語項構造sが出現するコメント文章の数
n21=トピックグループCに類似し、述語項構造sが出現しないコメント文章の数
n22=トピックグループC以外に類似し、述語項構造sが出現しないコメント文章の数
n11=トピックグループCに類似し、述語項構造sが出現するコメント文章の数
n12=トピックグループC以外に類似し、述語項構造sが出現するコメント文章の数
n21=トピックグループCに類似し、述語項構造sが出現しないコメント文章の数
n22=トピックグループC以外に類似し、述語項構造sが出現しないコメント文章の数
(S2)次に、n11,n12,n21,n22に対して、赤池情報量規準(AIC:Akaike's Information Criterion)を用いて、独立モデルに対する値MLL_IM(s,C)及び従属モデルに対する値MLL_DM(s,C)を算出する。これは、述語項構造とトピックグループとの組毎の不当割合を算出する。
MLL_IM(s,C)=(n11+n12) log(n11+n12)
+(n11+n21) log(n11+n21)
+(n21+n22) log(n21+n22)
+(n12+n22) log(n12+n22)−2N log N
MLL_DM(s,C)=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
但し、N=n11+n12+n21+n22
MLL_IM(s,C)=(n11+n12) log(n11+n12)
+(n11+n21) log(n11+n21)
+(n21+n22) log(n21+n22)
+(n12+n22) log(n12+n22)−2N log N
MLL_DM(s,C)=n11 log n11+n12 log n12+n21 log n21+n22 log n22−N log N
但し、N=n11+n12+n21+n22
(S3)前述のMLL_IM(s,C)及びMLL_DM(s,C)から、以下のE(s,C)を算出する。
AIC_IM(s,C)=-2 × MLL_IM(s,C) + 2×2
AIC_DM(s,C)=-2 × MLL_DM(s,C) + 2×3
E(s,C)=AIC_IM(s, C) − AIC_DM(s,C)
AIC_IM(s,C)=-2 × MLL_IM(s,C) + 2×2
AIC_DM(s,C)=-2 × MLL_DM(s,C) + 2×3
E(s,C)=AIC_IM(s, C) − AIC_DM(s,C)
前述で算出されたE(s,C)は、述語項構造sがトピックグループCに偏って出現する不当割合を表す。E(s,C)は、赤池情報量基準に従って、トピックグループCの判別に役立つ述語項構造ほど、E(s,C)の値が高くなる。本発明によれば、各トピックグループCiに対し、E(s,C)の値が大きい順に、m個の述語項構造 Ci,1、Ci,2、Ci,3、・・・Ci,m を抽出し、トピックグループCiの代表述語項構造とする。
[差分述語項構造抽出部127]
差分述語項構造抽出部127は、各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する。回答文2及び5について、[述語項構造=述語「探す」、目的語「携帯」、ヲ格]は共通する。そこで、図6によれば、以下の差分述語項構造が抽出される。
回答文2「携帯探せて安心サービスの申し込み方法は以下のようになります・・・」
述語項構造=述語「申し込む」、目的語「サービス」、ニ格
回答文5「携帯探せて安心サービスの利用方法は以下のようになります・・・」
述語項構造=述語「利用する」、目的語「サービス」、ヲ格
差分述語項構造抽出部127は、各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する。回答文2及び5について、[述語項構造=述語「探す」、目的語「携帯」、ヲ格]は共通する。そこで、図6によれば、以下の差分述語項構造が抽出される。
回答文2「携帯探せて安心サービスの申し込み方法は以下のようになります・・・」
述語項構造=述語「申し込む」、目的語「サービス」、ニ格
回答文5「携帯探せて安心サービスの利用方法は以下のようになります・・・」
述語項構造=述語「利用する」、目的語「サービス」、ヲ格
[差分述語項構造選択部128]
差分述語項構造選択部128は、複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示する。
差分述語項構造選択部128は、複数の差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示する。
差分述語項構造からの日本語文章を生成するために、例えば以下のようなルールが設定される。
(ルール1)ヲ格のみからなる述語項構造Sの場合
->W(S,ヲ格)+「を」+W(S,述語)
(ルール2)ヲ格とデ格からなる述語項構造Sの場合
->W(S,デ格)+「で」+W(S,ヲ格)+「を」+S(述語)
(ルール3)差分述語項構造S1のヲ格と、共通述語項構造Bのデ格とが一致する場合、
->Aから生成した日本語のヲ格の前方修飾語として、Bの日本語を埋め込む
W(S,ヲ格)は、述語項構造Sのヲ格の単語を表す。
W(S,デ格)は、述語項構造Sのデ格の単語を表す。
尚、このようなルール基づく日本語の生成については、機械翻訳システムの技術が適用できる(例えば非特許文献3参照)。
(ルール1)ヲ格のみからなる述語項構造Sの場合
->W(S,ヲ格)+「を」+W(S,述語)
(ルール2)ヲ格とデ格からなる述語項構造Sの場合
->W(S,デ格)+「で」+W(S,ヲ格)+「を」+S(述語)
(ルール3)差分述語項構造S1のヲ格と、共通述語項構造Bのデ格とが一致する場合、
->Aから生成した日本語のヲ格の前方修飾語として、Bの日本語を埋め込む
W(S,ヲ格)は、述語項構造Sのヲ格の単語を表す。
W(S,デ格)は、述語項構造Sのデ格の単語を表す。
尚、このようなルール基づく日本語の生成については、機械翻訳システムの技術が適用できる(例えば非特許文献3参照)。
例えば、ルール1〜3を用いて、図6によれば、トピックグループ毎に、以下の2つの日本語文章が生成される。
「携帯を探すサービスを申し込む」
「携帯を探すサービスを利用する」
「携帯を探すサービスを申し込む」
「携帯を探すサービスを利用する」
これに対し、端末4は、ユーザ操作に応じていずれか1つの差分述語項構造の文章を選択させる。ユーザから見ると、例えば、質問文をキーボードで入力した後、トピックグループ毎の差分述語項構造に基づいた自然な日本語文章がディスプレイに表示される。そして、ユーザは、いずれかの文章を選択することができる。ここで、図6によれば、ユーザは、「携帯を探すサービスを利用する」を選択している。ユーザに選択された文章の差分述語項構造は、回答文出力部129へ出力される。
[回答文出力部129]
回答文出力部129は、回答文検出部125によって検出された回答文を、対応する1つ以上の差分述語項構造の文章と共に明示する。本発明によれば、ユーザの質問に曖昧性があり、コメント文章群が複数のトピックグループに分類され、各トピックグループに対応付けられた回答文を得ることができる。ここで、この得られた回答文の数が少ない場合、差分述語項構造に基づく文章は、提示される回答文の傾向をユーザが認識するために有益な情報となる。
回答文出力部129は、回答文検出部125によって検出された回答文を、対応する1つ以上の差分述語項構造の文章と共に明示する。本発明によれば、ユーザの質問に曖昧性があり、コメント文章群が複数のトピックグループに分類され、各トピックグループに対応付けられた回答文を得ることができる。ここで、この得られた回答文の数が少ない場合、差分述語項構造に基づく文章は、提示される回答文の傾向をユーザが認識するために有益な情報となる。
また、回答文の数が多い場合、ユーザとインタラクション(やりとり)をすることによって、回答文を絞り込むことが好ましい。そこで、回答文出力部129は、選択された差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示する。例えば、その回答文を、ユーザが視認するディスプレイに表示する。図6によれば、「携帯探せて安心サービスの利用方法」の回答文が、ユーザへ表示される。これによって、ユーザは、質問文に対する回答文を認識することができる。
図7は、本発明におけるシーケンス図である。
(S71)質問者が操作する端末4から、質問回答サーバ1へ、ユーザの質問文が送信される(図2の質問文入力部121参照)。
(S72)質問回答サーバ1は、質問文に含まれる複数の質問キーワードを抽出する(図2の質問キーワード抽出部122参照)。
(S73)質問回答サーバ1は、コメント文章蓄積部102を用いて、質問キーワードを含むコメント文章を検索する(図2のコメント文章検索部123参照)。
(S74)質問回答サーバ1は、検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する(図2のトピック分類部124参照)。
(S75)質問回答サーバ1は、各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける(図2の回答文検出部125参照)。
(S76)質問回答サーバ1は、各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する(図2の代表述語項構造抽出部126参照)。
(S77)質問回答サーバ1は、各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する(図2の差分述語項構造抽出部127参照)。
(S78)質問回答サーバ1は、複数の差分述語項構造に基づく文章を、ユーザ操作の端末4へ送信する(図2の差分述語項構造選択部128参照)。そして、端末4では、ユーザ操作に応じていずれか1つの文章が選択させる。選択された文章の差分述語項構造は、端末4から質問回答サーバ1へ送信される。
(S79)質問回答サーバ1は、選択された差分述語項構造に対応する回答文を、ユーザの端末4へ送信する(図2の回答文出力部129参照)。
(S72)質問回答サーバ1は、質問文に含まれる複数の質問キーワードを抽出する(図2の質問キーワード抽出部122参照)。
(S73)質問回答サーバ1は、コメント文章蓄積部102を用いて、質問キーワードを含むコメント文章を検索する(図2のコメント文章検索部123参照)。
(S74)質問回答サーバ1は、検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する(図2のトピック分類部124参照)。
(S75)質問回答サーバ1は、各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに類似度が所定閾値以上となる回答文を対応付ける(図2の回答文検出部125参照)。
(S76)質問回答サーバ1は、各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する(図2の代表述語項構造抽出部126参照)。
(S77)質問回答サーバ1は、各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する(図2の差分述語項構造抽出部127参照)。
(S78)質問回答サーバ1は、複数の差分述語項構造に基づく文章を、ユーザ操作の端末4へ送信する(図2の差分述語項構造選択部128参照)。そして、端末4では、ユーザ操作に応じていずれか1つの文章が選択させる。選択された文章の差分述語項構造は、端末4から質問回答サーバ1へ送信される。
(S79)質問回答サーバ1は、選択された差分述語項構造に対応する回答文を、ユーザの端末4へ送信する(図2の回答文出力部129参照)。
前述したように本発明の質問回答サーバによれば、例えばtwitterのような大量のコメント文章から、質問文の意図を表す代表的な述語項構造を抽出し、質問文を補完することによって、回答文を高精度に検索することができる。具体的には、最初に、質問文に含まれるキーワードを抽出してソーシャルメディアを検索し、大量の検索結果を複数のトピックグループ(トピック毎に1つの検索意図に対応)に高速に分類し、各トピックに類似する回答文を回答文蓄積部から検索する。次に、各トピックグループに特有の単語(差分述語項構造)を自動的に抽出してユーザに提示し、ユーザの選択結果に従った回答文に絞り込んで、ユーザとの対話形式を繰り返し実行することができる。
以上、詳細に説明したように、本発明の質問回答プログラム、サーバ及び方法によれば、ユーザの質問文に対して複数の回答文の候補が存在する場合、ユーザの意図を反映した回答文を明示する(に絞り込む)ことができる。
最後に、本発明が、キーワード検索ではなく、述語項構造検索を用いた効果について詳述する。
一般に、例えば、「携帯電話が紛失したらどうしよう」というユーザからの短い質問の場合、「携帯電話紛失に備えたサービス申し込みの要望」なのか、又は、「端末の紛失への対応法に関する問い合わせ」なのかといった曖昧性が存在する。これに対し、コンテキストに依存した曖昧性を検出し、対話形式で回答候補を絞り込みながらTIPS等を返答する技術が提案されている(本願と同一出願人及び同一発明者によって出願された平成24年1月12日付け特許出願、以下「先の出願に係る発明」と称す)。この技術によれば、コンテキストの曖昧性を高速かつ適切に検出し、「安心、申し込み」や「端末、発見」といったキーワードを対話の選択肢として提示することができる。
しかしながら、先の出願に係る発明によれば、第1の課題として、コンテキストを絞り込む際に「携帯紛失、サービス、申し込み」又は「携帯紛失、サービス、利用」といったキーワードが提示されるだけであって、、ユーザにとっては、コンテキストの差異を理解しづらい。
また、第2の課題として、コンテキストの絞り込みが終了しても、非特許文献3に記載された技術のようなキーワードによる検索によれば、検索条件としての情報が不足することがある。例えば、「携帯+発見」といったキーワードで検索する場合、宝探しゲームのように携帯電話機で何かを発見するサービスや、携帯電話を発見するサービスを発見するサービスの情報の両方がキーワード検索結果に現れる。このため、回答精度を現状以上に向上させることが難しい。
第1の課題に対して、本発明によれば、差分キーワードの単純な提示ではなく、動詞を中心に主語や目的語等の関係をリンクで表す「述語項構造」と呼ばれるデータから自然な応対の文章を生成し、それを利用者に提示する手法を用いることで理解度が深まることが期待できる。例えば、「携帯+紛失」のユーザクエリに対して従来システムが「安心+申し込み」もしくは、「発見」といったキーワードを提示していたのに対し、「端末を紛失した際に安心できる申し込みに関する情報」もしくは「携帯電話を紛失した際に端末を発見すること」といった自然な文章をユーザに提示することでユーザの利便性を向上させる手段を提供する。
第2の課題に対して、本発明によれば、述語項構造を検索パラメータとして知識源のテキストを検索することにより、コンテキスト絞り込み後の検索精度を大きく向上させる。例えば、「端末を発見する」と「端末で発見する」の意味を区別できる述語項構造を用いるので、従来型のキーワード検索で行われていた過剰検出が減る。
また、述語項構造を使用して文書の類似性を判定する場合、抽出した述語項構造の一致度合いを判定する必要があり、従来のキーワードを利用した場合より多くの計算時間が必要となることも問題となる。この問題に対しては、述語項構造の中で格と呼ばれるデータスロットに注目し、使用頻度が高いスロットの組み合わせを事例から事前に学習しておき、使用頻度の高い組み合わせに対してはハッシュ関数を使って高速に検索できるようにする。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 質問回答サーバ
10 通信インタフェース部
101 回答文蓄積部
102 コメント文章蓄積部
111 回答文取得部
112 コメント文章収集部
121 質問文入力部
122 質問キーワード抽出部
123 コメント文章検索部
124 トピック分類部
125 回答文検出部
126 代表述語項構造抽出部
127 差分述語項構造抽出部
128 差分述語項構造選択部
129 回答文出力部
2 回答文蓄積サーバ
3 ブログサーバ
4 端末
5 コメント投稿者用の汎用端末
10 通信インタフェース部
101 回答文蓄積部
102 コメント文章蓄積部
111 回答文取得部
112 コメント文章収集部
121 質問文入力部
122 質問キーワード抽出部
123 コメント文章検索部
124 トピック分類部
125 回答文検出部
126 代表述語項構造抽出部
127 差分述語項構造抽出部
128 差分述語項構造選択部
129 回答文出力部
2 回答文蓄積サーバ
3 ブログサーバ
4 端末
5 コメント投稿者用の汎用端末
Claims (10)
- 多数のコメント文章を蓄積したコメント文章蓄積部と、多数の回答文を蓄積した回答文蓄積部とを有し、ユーザからの質問文に対する回答文を抽出するようにコンピュータを機能させる質問回答プログラムであって、
質問文を入力する質問文入力手段と、
前記質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
前記コメント文章蓄積部を用いて、前記質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類するトピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文に含まれる文章との間の類似度を算出し、各トピックグループに前記類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
前記回答文検出手段によって検出された前記回答文を、対応する1つ以上の前記差分述語項構造に基づく文章と共に明示する回答文出力手段と
してコンピュータを機能させることを特徴とする質問回答プログラム。 - 複数の前記差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
前記回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示する
ようにコンピュータを機能させることを特徴とする請求項1に記載の質問回答プログラム。 - 前記トピック分類手段は、当該コメント文章を、分類された各トピックグループに属する確からしさ(トピック比率)を算出するLDA(Latent Dirichlet Allocation)アルゴリズムを用いて、いずれか1つのトピックグループに分類するようにコンピュータを機能させることを特徴とする請求項1又は2に記載の質問回答プログラム。
- 前記回答文検出手段は、
各トピックグループに含まれるコメント文章群から、述語項構造解析によって述語項構造を抽出すると共に、前記トピックグループにおける第1の特徴ベクトルを算出し、
前記回答文蓄積部に蓄積された各回答文から、述語項構造解析によって述語項構造を抽出すると共に当該回答文における第2の特徴ベクトルとを算出し、
前記トピックグループの第1のベクトルと、前記回答文の第2のベクトルとの間のコサイン距離に基づいて類似度を算出する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の質問回答プログラム。 - 前記代表述語項構造抽出手段は、各トピックグループの代表述語項構造を、赤池情報量基準に応じて優先順に並べるようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載の質問回答プログラム。
- 前記コメント文章は、不特定多数の第三者によって投稿されたものであって、
前記コメント文章蓄積部は、ミニブログ(mini Web log)サーバに投稿されたコメント文章を収集し蓄積したものであるようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載の質問回答プログラム。 - 多数のコメント文章を蓄積したコメント文章蓄積部と、多数の回答文を蓄積した回答文蓄積部とを有し、ユーザからの質問文に対する回答文を抽出する質問回答サーバであって、
端末から、質問文を入力する質問文入力手段と、
前記質問文に含まれる複数の質問キーワードを抽出する質問キーワード抽出手段と、
前記コメント文章蓄積部を用いて、前記質問キーワードを含むコメント文章を検索するコメント文章検索手段と、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類するトピック分類手段と、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに前記類似度が所定閾値以上となる回答文を対応付ける回答文検出手段と、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する代表述語項構造抽出手段と、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する差分述語項構造抽出手段と、
前記回答文検出手段によって検出された前記回答文を、対応する1つ以上の前記差分述語項構造に基づく文章と共に明示する回答文出力手段と
を有することを特徴とする質問回答サーバ。 - 複数の前記差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させる差分述語項構造選択手段を更に有し、
前記回答文出力手段は、選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示する
ことを特徴とする請求項7に記載の質問回答サーバ。 - 多数のコメント文章を蓄積したコメント文章蓄積部と、多数の回答文を蓄積した回答文蓄積部とを有し、ユーザからの質問文に対する回答文を抽出する装置における質問回答方法であって、
質問文を入力する第1のステップと、
前記質問文に含まれる複数の質問キーワードを抽出する第2のステップと、
前記コメント文章蓄積部を用いて、前記質問キーワードを含むコメント文章を検索する第3のステップと、
検索された複数のコメント文章を、述語項構造解析によって、述語項構造の分布から複数個のトピックグループに分類する第4のステップと、
各トピックグループに含まれるコメント文章群と、各回答文との間の類似度を算出し、各トピックグループに前記類似度が所定閾値以上となる回答文を対応付ける第5のステップと、
各トピックグループについて、対応付けられた回答文に含まれる述語項構造の中で、当該トピックグループを特徴付ける代表述語項構造を抽出する第6のステップと、
各トピックグループについて、当該トピックグループのみに出現する代表述語項構造を、差分述語項構造として抽出する第7のステップと、
第5のステップによって検出された前記回答文を、対応する1つ以上の前記差分述語項構造に基づく文章と共に明示する第8のステップと
を有することを特徴とする質問回答方法。 - 第8のステップについて、
複数の前記差分述語項構造に基づく文章を、ユーザインタフェースを介してユーザに明示すると共に、ユーザ操作に応じていずれか1つの差分述語項構造を選択させ、
選択された文章の差分述語項構造に対応する回答文を、ユーザインタフェースを介して明示することを特徴とする請求項9に記載の質問回答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012266589A JP6007088B2 (ja) | 2012-12-05 | 2012-12-05 | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012266589A JP6007088B2 (ja) | 2012-12-05 | 2012-12-05 | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014112316A JP2014112316A (ja) | 2014-06-19 |
JP6007088B2 true JP6007088B2 (ja) | 2016-10-12 |
Family
ID=51169410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012266589A Active JP6007088B2 (ja) | 2012-12-05 | 2012-12-05 | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6007088B2 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914548B (zh) | 2014-04-10 | 2018-01-09 | 北京百度网讯科技有限公司 | 信息搜索方法和装置 |
TWI790965B (zh) | 2014-05-30 | 2023-01-21 | 日商半導體能源研究所股份有限公司 | 觸控面板 |
JP6051366B2 (ja) * | 2014-12-18 | 2016-12-27 | バイドゥ ネットコム サイエンス アンド テクノロジー(ペキン) カンパニー リミテッド | 情報検索方法及びデバイス |
US10475043B2 (en) | 2015-01-28 | 2019-11-12 | Intuit Inc. | Method and system for pro-active detection and correction of low quality questions in a question and answer based customer support system |
JP6368264B2 (ja) * | 2015-03-23 | 2018-08-01 | Kddi株式会社 | 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法 |
US10755294B1 (en) | 2015-04-28 | 2020-08-25 | Intuit Inc. | Method and system for increasing use of mobile devices to provide answer content in a question and answer based customer support system |
US10447777B1 (en) | 2015-06-30 | 2019-10-15 | Intuit Inc. | Method and system for providing a dynamically updated expertise and context based peer-to-peer customer support system within a software application |
US10475044B1 (en) | 2015-07-29 | 2019-11-12 | Intuit Inc. | Method and system for question prioritization based on analysis of the question content and predicted asker engagement before answer content is generated |
US10268956B2 (en) * | 2015-07-31 | 2019-04-23 | Intuit Inc. | Method and system for applying probabilistic topic models to content in a tax environment to improve user satisfaction with a question and answer customer support system |
US10394804B1 (en) | 2015-10-08 | 2019-08-27 | Intuit Inc. | Method and system for increasing internet traffic to a question and answer customer support system |
US10599699B1 (en) | 2016-04-08 | 2020-03-24 | Intuit, Inc. | Processing unstructured voice of customer feedback for improving content rankings in customer support systems |
US10467541B2 (en) | 2016-07-27 | 2019-11-05 | Intuit Inc. | Method and system for improving content searching in a question and answer customer support system by using a crowd-machine learning hybrid predictive model |
US10460398B1 (en) | 2016-07-27 | 2019-10-29 | Intuit Inc. | Method and system for crowdsourcing the detection of usability issues in a tax return preparation system |
US10445332B2 (en) | 2016-09-28 | 2019-10-15 | Intuit Inc. | Method and system for providing domain-specific incremental search results with a customer self-service system for a financial management system |
US10572954B2 (en) | 2016-10-14 | 2020-02-25 | Intuit Inc. | Method and system for searching for and navigating to user content and other user experience pages in a financial management system with a customer self-service system for the financial management system |
US10733677B2 (en) | 2016-10-18 | 2020-08-04 | Intuit Inc. | Method and system for providing domain-specific and dynamic type ahead suggestions for search query terms with a customer self-service system for a tax return preparation system |
US10552843B1 (en) | 2016-12-05 | 2020-02-04 | Intuit Inc. | Method and system for improving search results by recency boosting customer support content for a customer self-help system associated with one or more financial management systems |
US10748157B1 (en) | 2017-01-12 | 2020-08-18 | Intuit Inc. | Method and system for determining levels of search sophistication for users of a customer self-help system to personalize a content search user experience provided to the users and to increase a likelihood of user satisfaction with the search experience |
JP6998680B2 (ja) * | 2017-06-13 | 2022-01-18 | 株式会社野村総合研究所 | 対話型業務支援システムおよび対話型業務支援プログラム |
JP6769405B2 (ja) * | 2017-07-11 | 2020-10-14 | トヨタ自動車株式会社 | 対話システムおよび対話方法 |
US10922367B2 (en) | 2017-07-14 | 2021-02-16 | Intuit Inc. | Method and system for providing real time search preview personalization in data management systems |
US11093951B1 (en) | 2017-09-25 | 2021-08-17 | Intuit Inc. | System and method for responding to search queries using customer self-help systems associated with a plurality of data management systems |
US11436642B1 (en) | 2018-01-29 | 2022-09-06 | Intuit Inc. | Method and system for generating real-time personalized advertisements in data management self-help systems |
US11269665B1 (en) | 2018-03-28 | 2022-03-08 | Intuit Inc. | Method and system for user experience personalization in data management systems using machine learning |
US20210097236A1 (en) * | 2018-04-03 | 2021-04-01 | Ntt Docomo, Inc. | Interaction server |
JP7126865B2 (ja) * | 2018-05-30 | 2022-08-29 | 株式会社野村総合研究所 | 対話型業務支援システム |
WO2019235103A1 (ja) | 2018-06-07 | 2019-12-12 | 日本電信電話株式会社 | 質問生成装置、質問生成方法及びプログラム |
CN111448561B (zh) * | 2019-03-28 | 2022-07-05 | 北京京东尚科信息技术有限公司 | 用于基于聚类和句子相似度来生成答案的系统和方法 |
JP7234010B2 (ja) * | 2019-03-29 | 2023-03-07 | シャープ株式会社 | 情報処理装置、および、情報処理方法 |
CN110413851A (zh) * | 2019-07-11 | 2019-11-05 | 安徽皖新研学教育有限公司 | 一种研学旅行的旅行问答系统及方法 |
CN110543553A (zh) * | 2019-07-31 | 2019-12-06 | 平安科技(深圳)有限公司 | 问题生成方法、装置、计算机设备及存储介质 |
CN111177350A (zh) * | 2019-12-20 | 2020-05-19 | 北京淇瑀信息科技有限公司 | 智能语音机器人的话术形成方法、装置和系统 |
JP7272293B2 (ja) * | 2020-01-29 | 2023-05-12 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム及びプログラム |
JP6770283B1 (ja) * | 2020-03-11 | 2020-10-14 | 北日本コンピューターサービス 株式会社 | 質問回答システム及びプログラム |
KR102365538B1 (ko) * | 2021-05-25 | 2022-02-23 | 주식회사 메이코더스 | 크로스보딩 이커머스 시스템에서의 자동 질의 대응 및 전자 서류 생성이 가능한 채팅 인터페이스 제공 장치 |
CN114430490A (zh) * | 2022-01-20 | 2022-05-03 | 阿里巴巴(中国)有限公司 | 直播问答及界面展示方法及计算机存储介质 |
CN114840658B (zh) * | 2022-07-06 | 2023-03-31 | 浙江口碑网络技术有限公司 | 评价回复方法、电子设备及计算机存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007141090A (ja) * | 2005-11-21 | 2007-06-07 | Fuji Xerox Co Ltd | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
US8832064B2 (en) * | 2005-11-30 | 2014-09-09 | At&T Intellectual Property Ii, L.P. | Answer determination for natural language questioning |
JP4857448B2 (ja) * | 2006-03-10 | 2012-01-18 | 独立行政法人情報通信研究機構 | 多義語による情報検索装置及びプログラム |
KR100898459B1 (ko) * | 2007-08-10 | 2009-05-21 | 엔에이치엔(주) | 질의 분류 방법 및 그 시스템 |
-
2012
- 2012-12-05 JP JP2012266589A patent/JP6007088B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014112316A (ja) | 2014-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6007088B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
JP5711674B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
CN109101479B (zh) | 一种用于中文语句的聚类方法及装置 | |
Shen et al. | Linden: linking named entities with knowledge base via semantic knowledge | |
KR100544514B1 (ko) | 검색 쿼리 연관성 판단 방법 및 시스템 | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
KR101723862B1 (ko) | 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치 | |
RU2704531C1 (ru) | Способ и устройство для анализа семантической информации | |
CN110704743A (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
KR20120108095A (ko) | 소셜 데이터 분석 시스템 | |
KR101541306B1 (ko) | 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP2017134787A (ja) | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
CN113076735A (zh) | 目标信息的获取方法、装置和服务器 | |
Singh et al. | Analytics of similar-sounding names from the web with phonetic based clustering | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
Chen et al. | Research on clustering analysis of Internet public opinion | |
US9507834B2 (en) | Search suggestions using fuzzy-score matching and entity co-occurrence | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
JP6173958B2 (ja) | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 | |
Juan | An effective similarity measurement for FAQ question answering system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160819 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160912 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6007088 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |