JP2013254420A - 質問応答装置、モデル学習装置、方法、及びプログラム - Google Patents

質問応答装置、モデル学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013254420A
JP2013254420A JP2012130645A JP2012130645A JP2013254420A JP 2013254420 A JP2013254420 A JP 2013254420A JP 2012130645 A JP2012130645 A JP 2012130645A JP 2012130645 A JP2012130645 A JP 2012130645A JP 2013254420 A JP2013254420 A JP 2013254420A
Authority
JP
Japan
Prior art keywords
answer
sentence
question
feature
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012130645A
Other languages
English (en)
Other versions
JP5431532B2 (ja
Inventor
Ryuichiro Higashinaka
竜一郎 東中
Toshiaki Makino
俊朗 牧野
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012130645A priority Critical patent/JP5431532B2/ja
Publication of JP2013254420A publication Critical patent/JP2013254420A/ja
Application granted granted Critical
Publication of JP5431532B2 publication Critical patent/JP5431532B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】質問文に対する回答候補を精度よくランキングすることができるようにする。
【解決手段】文集合抽出部74によって、入力された質問文に対する1つ以上のからなる回答候補文の集合を抽出し、特徴量生成部76によって、回答候補文の各々について、質問文と回答候補文との組み合わせに対する、質問文と回答候補文との内容の関連性に関する特徴量と、回答候補文における文長、文字種、文の妥当性、及び疑問詞の存在の有無の各々に関する特徴量とを含む特徴ベクトルを生成する。ランキング部77によって、質問文と回答候補文との組み合わせの各々について、予め学習されたランキングモデルと、当該組み合わせに対する特徴ベクトルとに基づいて、スコアを算出し、算出されたスコアに従って、回答候補文の集合をランキングする。
【選択図】図5

Description

本発明は、質問応答装置、モデル学習装置、方法、及びプログラムに係り、特に、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置、モデル学習装置、方法、及びプログラムに関する。
自然言語の質問について、回答を出力するシステムを質問応答システムと呼ぶ。質問応答システムは、「世界一高い山は」のように、主に単語が回答となる質問に答える「ファクトイド型」のものと、「黒澤明ってどんな人」や「なぜホタルは光るのか」のように単語での回答が難しく、文章で回答する「ノンファクトイド型」に分類される。
一般に、ノンファクトイド型の質問応答システムは、質問について回答候補文を、正解と思われる順に並び替えることで回答する。上位に正解が含まれていれば、よいシステムである。このような並び替えには、経験則によるルールと、質問文及び回答候補文の類似性とを組み合わせる手法や、学習データに基づいて並び替える手法が提案されている。
例えば、非特許文献1は、ノンファクトイド型の、特に、理由を尋ねる質問について答える手法についてのものである。この手法は、まず、理由に関する手掛かり語(「理由」や「原因」など)が含まれているかによって回答候補文を絞り、その後、質問文に含まれている単語が多い候補文から上位にランキングしている。ここで、回答候補文は新聞記事から得ている。
非特許文献2は、質問について、正解と不正解文のデータから、正解を不正解文よりも上位にランキングするランキング関数を、機械学習の手法により学習し、その関数を用いて、回答候補文をランキングする手法についてのものである。
機械学習では、質問と回答候補文のペアそれぞれについて特徴量を抽出し、その特徴量の重みをデータから学習する。上記の非特許文献2では、特徴量として、質問文に含まれている単語のカバレッジ、質問と回答候補文の相互の言い換えられやすさ、回答候補文における質問単語の連続性、質問と回答候補文の共起の度合い、などが用いられており、インターネット上に存在する大量のQ&Aサイトのデータを用いた実験により、その有効性が報告されている。
上記の非特許文献1、2のどちらについても、質問文と意味内容の関連性が高い回答候補文がいい回答であるという仮定に則った手法である。
諸岡心、福本淳一、"Why型質問応答のための回答選択手法"、電子情報通信学会技術研究報告Vol.105 No.594言語理解とコミュニケーション、電子情報通信学会、pp.7-12、2006. Mihai Surdeanu, Massimiliano Ciaramita, Hugo Zaragoza, "Learning to Rank Answers to Non-Factoid Questions from Web Collections", Computational Linguistics, vol. 37(2011), pp. 351-383.
雑多な情報源(たとえばウェブ)から回答候補文を抽出する場合、多様な内容が存在するため、質の異なる回答候補文が得られることが多い。たとえば、新聞記事やQ&Aサイトのみを対象としていれば、回答候補文の質や文長は大きく変わらない可能性が高いが、ウェブでは、極端に短いものや、長いものなどが混在し、また、文の断片や、絵文字、顔文字、アスキーアートなどのように、自然言語としては不適切なデータも多く含まれている。このような雑多な回答候補文をランキングするためには、内容の関連性のみに着目していたのではランキングが不十分となる可能性がある。
本発明は、上記の事情を鑑みてなされたもので、質問文に対する回答候補を精度よくランキングすることができる質問応答装置、モデル学習装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る質問応答装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補における文長、文字種、文の妥当性、及び疑問詞の存在の有無の少なくとも一つに関する特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段とを含んで構成されている。
本発明に係る質問応答方法は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補における文長、文字種、文の妥当性、及び疑問詞の存在の有無の少なくとも一つに関する特徴量とを含む特徴ベクトルを生成し、スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする。
本発明のモデル学習装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文における文長、文字種、文の妥当性、及び疑問詞の存在の有無の少なくとも一つに関する特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、を含んで構成されている。
本発明に係るプログラムは、コンピュータを、上記の質問応答装置または上記のモデル学習装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の質問応答装置、モデル学習装置、方法、及びプログラムによれば、質問文に対する回答候補の集合の各々について、回答候補における文長、文字種、文の妥当性、及び疑問詞の存在の有無の少なくとも一つに関する特徴量を含む特徴ベクトルを生成して、スコアを算出し、スコアに従って、回答候補の集合をランキングすることにより、質問文に対する回答候補を精度よくランキングすることができる、という効果が得られる。
本発明の実施の形態に係るモデル学習装置の構成を示す概略図である。 形態素解析結果の一例を示す図である。 各特徴量の素性値の一例を示す図である。 各特徴量の素性名と素性値の一例を示す図である。 本発明の実施の形態に係る質問応答装置の構成を示す概略図である。 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る質問応答装置における質問応答生成処理ルーチンの内容を示すフローチャートである。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の概要>
雑多な回答候補文を正確にランキングするため、内容以外の特徴にも着目する。具体的には、文長、文字種、文の妥当性、疑問詞の存在の有無、に関する特徴量を用い、ランキング関数を機械学習の手法により学習する。これらの特徴は、長すぎる文や短すぎる文を排除したり、Webページの断片のような自然文ではない文を排除したり、正しく句点で終わっているような文を選好したり、質問に質問で答えてしまわないようにするためのものである。疑問詞の存在の有無に関する特徴量は、たとえば、ウェブには、質問文が大量に存在するため、従来の質問の内容のみに基づいて文をランキングしていては、ユーザの質問文と全く同じか似通った質問文を回答として、上位にランキングしてしまうことがあり、この特徴量はそれを避けるために導入する。
<システム構成>
以下では、ノンファクトイド型の、特に、理由に答える質問応答システムに本発明を適用した場合を例に説明する。
ここで、理由を答える質問応答システムは、理由を尋ねる質問文の入力に応じて、ウェブまたはテキストデータベースを検索し、その結果得られる文書の集合から、文の集合を抽出し、これらを適切な順番でランキングすることによって回答とするものとする。本システムでは、できるだけ短く簡潔な応答を返したいという目的から、一文を単位として抽出しているが、より回答に内容を持たせたい場合などは、複数の文からなるフレーズや、段落単位を回答としてもよい。その場合、後述する、学習データの単位も、この単位に合わせる必要がある。
図1に示すように、本発明の実施の形態に係る質問応答システムのモデル学習装置100は、正解質問応答データが入力され、ランキングモデルを学習して出力する。このモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、モデル学習装置100は、入力部10と、演算部20と、出力部30とを備えている。
入力部10は、質問文とそれに対する回答となる一つ以上の正解文、および、一つ以上の不正解文を1セットとして、このようなセットが一つ以上含まれたデータを、入力された正解質問応答データとして受け付ける。例えば、複数の質問文の各々について、当該質問文と、当該質問文に対する回答文である複数の正解文と、当該質問文に対する回答文でない複数の不正解文とからなるデータセットを受け付ける。
本実施の形態では、正解質問応答データとして、質問文を150問準備した。たとえば、以下はその一部である。
・脳こうそくはどうして怖い病気だといわれるの?
・どうしてワインの飲み過ぎは身体に悪いの?
・鴎外訳の「ファウスト」があるのに、別の訳が出版される理由
・なぜ60年代に東映仁侠映画ブームだったのか
・とんねるずの木梨憲武が評価されているのはなぜ?
そして、それぞれの質問文から、内容語のみを取り出し、検索クエリを生成した。たとえば、「脳こうそくはどうして怖い病気だといわれるの?」であれば、まず、形態素解析がなされ、図2に示すような出力(形態素解析結果)が得られる。ここでは、形態素解析エンジンとして、出願人が開発している、JTAGを用いている。
上記図2で、一行が一単語に相当し、各行において、単語(表層)、品詞、標準形、終止形(あれば)、および日本語語彙大系に基づく意味属性の情報が出力されている。日本語語彙大系に基づく意味属性の情報は、当該形態素解析エンジンに含まれる単語辞書に基づいて、単語毎に出力される。
形態素解析結果で得られる単語の集合から、標準形のフィールドで、以下の疑問詞のリストに合致する単語があれば、まずそれを取り除く。
何故、どうして、誰、どこ、いつ、どのくらい、どう、どの、どのくらい、どのように、いくら、どうやって、どういう、幾等、何、何と、何て、なんて、何か、何で
ここでは、「どうして」が一致するので、まずこの行が削除される。続いて、名詞、動詞語幹、形容詞語幹に対応する行から、標準形(もし終止形があれば終止形)の部分を取り出し、これらを検索単語とする。たとえば、上記の例の質問だと、「脳こうそく、病気、怖い、いう、れる」が、検索単語となる。
これらの単語を、空白区切りにして、検索クエリを生成し、ウェブ検索を行い、上位100件の検索結果を取得した。ここでは、一般的に広く利用されているウェブ検索エンジンを用いた。これらの検索結果にはURLの他、スニペットと呼ばれる概要文が付与されている。これらは大体100〜150文字程度からなる、URLの内容の抜粋である。本実施の形態では、このスニペットを、句点や「・・・」などの区切り文字で区切り、文に分割する。各検索結果から数文ずつ得られ、100件の検索結果から、数百文程度得られる。
たとえば、以下は、「脳こうそく病気怖いいうれる」をクエリとして得られた検索結果を元にして、抽出した文の集合の一部である。一行一文である。当該検索結果からは、全部で421文得られた。
脳梗塞の多くは高齢な方が発病するとっても怖い病気です。
この脳梗塞と言う病気で命を落としてしまう方も多くまた娘のように麻痺と言う後遺症と戦ってる方々も大勢います。
片麻痺と言う後遺症を少しでも多くの方に知ってもらいたい、また、後遺症で悩んでる方々の交流の場に成れば良いと思いこのサイトを開設致しました。
どうぞ、ご覧に2008 年9 月5 日
其れが脳梗塞、とか心筋梗塞と言う怖い病気なのです。
又血管が膨らむとは、血圧が高すぎたりしますと風船の様に膨らんで最後は破裂してしまいます。
此れを動脈瘤、静脈瘤と言います。
これらの文について、人手で正解文をタグ付けした。具体的には、上記の文を人手で読み、質問の回答になっているかを判定し、正解文を選択した。ここで選ばれない文は不正解文となる。ここでは、下記の文を含む22文が、421文から正解文として選択された。最初の番号は421文中の行番号である。
1 脳梗塞の多くは高齢な方が発病するとっても怖い病気です。
2 この脳梗塞と言う病気で命を落としてしまう方も多くまた娘のように麻痺と言う後遺症と戦ってる方々も大勢います。
36 脳梗塞の病気は所かまわず突然襲ってくる怖い病気です。
49 脳梗塞は、一瞬で身体の自由をうばい、最悪の場合は命にかかわる大変怖い病気です。
60 脳卒中は、救急治療によって生命はとりとめても、マヒなどが残ったり寝たきりになったりすることが多く、非常に怖い病気です。
本実施の形態では、このような正解文および不正解文からなるデータを、150問すべてについて作成し、正解質問応答データとした。
演算部20は、正解質問応答データ記憶部21、特徴量生成部22、及びモデル学習部23を備えている。
正解質問応答データ記憶部21は、入力部10により受け付けた正解質問応答データを記憶する。
特徴量生成部22は、正解質問応答データから得られる、質問文Qと、正解文及び不正解文を含む文集合における各文Cとの組み合わせの各々について、特徴ベクトルを生成する。
ここでは、本実施の形態では、「文順位の逆数(rank)」、「単語数(len)」、「理由についての意味属性(ncat-意味属性)」、「疑問詞を含むか(question)」、「一文字目が日本語か(sentence-begin)」、「最後の文字が句点か(sentence-end)」、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、「記号の割合(symbol)」、「内容語のカバレッジ(cw-count)」、「単語(表層系)のカバレッジ(count)」、「単語(標準形)のカバレッジ(base-count)」、「意味属性のカバレッジ(cats-count)」、及び「原因表現パターンを含むか(synpat-パターン)」を含む各特徴量を要素とする特徴量ベクトル生成する。質問文Qと文Cについては、それぞれ形態素解析を行い、上記図2と同様の形態素解析結果を得ているものとする。括弧内は素性名である。なお、「一文字目が日本語か(sentence-begin)」及び「最後の文字が句点か(sentence-end)」が、回答候補の文の妥当性に関する特徴量の一例であり、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、及び「記号の割合(symbol)」が、回答候補の文字種に関する特徴量の一例である。また、「文順位の逆数(rank)」、「内容語のカバレッジ(cw-count)」、「単語(表層系)のカバレッジ(count)」、「単語(標準形)のカバレッジ(base-count)」、及び「意味属性のカバレッジ(cats-count)」が、質問文と回答候補との内容の関連性に関する特徴量の一例である。上記の特徴量のうち、「単語数(len)」、及び「疑問詞を含むか」から「記号の割合」までが、本発明で提案した特徴量の一例である。その他は、従来既知のものであり、有効性が確認されているものである。
「文順位の逆数(rank)」は、質問文Qに対して得られた文集合を、スニペットにおける検索順位に従って並べた時の、文Cの相対順位の逆数である。たとえば、421文あり、Cが最初の文であれば、1/421となる。
「単語数(len)」は、文Cの含む単語数であり、文長の一例である。
日本語語彙大系を参照すると、「理由」に関する単語の意味属性は2448、および、2450〜2456の7つである。よって、「理由についての意味属性(ncat-意味属性)」は、7つの意味属性の単語が文Cに含まれるかどうかを表す7つのバイナリ特徴量であり、Cに含まれる意味属性についてのみ、値を1にする。ここでは、理由についての質問を扱っているため、これらの意味属性の存在を特徴量としているが、「方法」に答える場合は、方法に対応する意味属性を用いればよい。
「疑問詞を含むか(question)」では、上記疑問詞のリストに含まれる単語が文Cに入っていれば1となる。
「一文字目が日本語か(sentence-begin)」では、文Cの一文字目が日本語の文字(漢字、ひらがな、カタカナ)のいずれかであれば1となる。
「最後の文字が句点か(sentence-end)」では、文Cの最後の文字が句点であれば、1となる。
「日本語の割合(ja)」は、文Cの文字中で、日本語の文字(漢字、ひらがな、カタカナ)の割合である。たとえば、10文字中5文字が漢字、ひらがな、カタカナのいずれかであれば、0.5となる。
「スペース及び句読点の割合(common)」は、文Cの文字中で、スペース及び句読点の割合である。
「英字の割合(latin)」は、文Cの文字中の、英字の文字の割合である。
「それ以外の文字の割合(other)」は、文Cの文字中で、日本語、スペースや句読点、英字のいずれにも合致しない文字の割合である。
「括弧の割合(paren)」は、文Cにおける、品詞が括弧である単語の割合である。
「記号の割合(symbol)」は、文Cにおける、品詞がSymbolである単語の割合である。品詞がSymbolである単語とは、たとえば、コロンやピリオドなどである。
「内容語のカバレッジ(cw-count)」は、質問文Qに含まれる内容語の内、文Cに含まれるものの個数(cwcount)である。また、特徴量として、文Cに含まれる内容語の内、質問文Qに含まれる内容語の個数(cw-count-rev)を用いてもよい。また、特徴量として、質問文Qに含まれる内容語の内、文Cに含まれるものの割合(cw-cov)を用いてもよい。また、特徴量として、文Cに含まれる内容語の内、質問文Qに含まれる内容語の割合(cw-cov-rev)を用いてもよい。ここで、内容語は品詞が、名詞、動詞語幹、形容詞語幹、および、未知語のものを用いる。
「単語(表層系)のカバレッジ(count)」は、質問文Qに含まれる単語(表層系)の内、文Cに含まれるものの個数(count)である。また、特徴量として、文Cに含まれる単語(表層系)の内、質問文Qに含まれるものの個数(count-rev)を用いてもよい。また、特徴量として、質問文Qに含まれる単語(表層系)の内、文Cに含まれるものの割合(cov)を用いてもよく、また、文Cに含まれる単語(表敬)の内、質問文Qに含まれるものの割合(cov-rev)を用いてもよい。同様に、単語(ユニグラム)に加えて、バイグラム(単語連続)についても、同様に、個数、割合(bi-count、bi-cov、bi-count-rev、bi-cov-rev)を求めて、特徴量として用いてもよい。
「単語(標準形)のカバレッジ(base-count)」は、単語(表層系)のカバレッジに類似した特徴量であり、単語の標準形についての値である。また、割合に関する値(base-cov)を用いてもよい。
「意味属性のカバレッジ(cats-count)」は、内容語のカバレッジに類似した特徴量であり、内容語ではなく、含まれる名詞意味属性について個数である。また、割合に関する値(cats-cov)を用いてもよい。
「原因表現パターンを含むか(synpat-パターン)」は、予め準備された原因を表すパターンの集合があるとし、これらのパターンに文Cが合致するかどうかを、各パターンについてバイナリの特徴量としたものである。これらのパターンは、理由が書かれていると予め分かっているフレーズなどから、機能語(助詞、助動詞)以外を取り除くことで作成できる。たとえば、本実施の形態では、「いから」、「の*を*する」、「が*いから」、「が*い」、「を*する*との」、「が*を*する」をパターンとして用いた。アスタリスクは機能語以外の何とでもマッチする記号である。文Cが、それぞれのパターンにマッチするかどうかが特徴量となる。全部で490のパターンを用いたため、490のバイナリ特徴量が生成される。ここでのパターンの作り方は、非特許文献3(Ryuichiro Higashinaka, Hideki Isozaki, ”Corpus-based Question Answering for why-Questions”, IJCNLP, vol.1, pp.418-425, 2008.)に書かれている方法と同様である。
次に、特徴ベクトルの生成の実例を示す。Q「脳こうそくはどうして怖い病気だといわれるの?」とC「脳梗塞の多くは高齢な方が発病するとっても怖い病気です。」から得られる各特徴量は図3に示す通りである。最初の+1は、文Cが正解文であることを示し、qidは、この質問文Qに割り振られた質問IDである。以降、特徴量(素性)番号、コロン、素性値が空白区切りで続く。
この特徴量を素性名とともに表にすると、図4に示すようになる。
モデル学習部23は、質問文Qと文Cのペアの各々について得られる特徴量を元に、機械学習により、ランキングモデルを学習する。ある質問文Qについて、文Cが正解文であり、文C’が不正解文であるとし、質問文Q及び文Cから得られる特徴量ベクトルをF、質問文Qと文C’から得られる特徴量ベクトルをF’とする。ここで、ある重みベクトルWがあったとし、それぞれのスコア(内積により得られる)を比べ、FWがF’Wよりも大きくなるようなWを、最適化の手法などにより見つけることで、正解文を不正解文よりも上位にランキングする重みベクトル(ランキングモデル)が得られる。このような重みベクトルは、ランキング学習に一般的に用いられる手法である、ランキングSVMを用いることで、得ることが可能である。本実施の形態では、150問の質問と、それぞれについて得られた正解文、不正解文から特徴ベクトルを生成し、各質問について、正解文が不正解文よりも上位にランキングされるように、Wを、ランキングSVMによって求める。ランキングSVMは、線形のカーネルを用いた。
モデル学習部23によって学習されたランキングモデルが、出力部30により出力される。
図5に示すように、本発明の実施の形態に係る質問応答システムの質問応答装置150は、質問文が入力され、質問文に対する回答候補文をランキングして出力する。この質問応答装置150は、CPUと、RAMと、後述する質問応答生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図5に示すように、質問応答装置150は、入力部60と、演算部70と、出力部80とを備えている。
入力部60は、入力された質問文を受け付ける。
演算部70は、形態素解析部71、検索クエリ生成部72、検索部73、文集合抽出部74、形態素解析部75、特徴量生成部76、ランキング部77、及びモデル記憶部78を備えている。なお、文集合抽出部74は、回答候補抽出手段の一例である。ランキング部77は、スコア算出手段及びランキング手段の一例である。
形態素解析部71は、入力部10により受け付けた質問文に対して形態素解析を行うことにより、上記図2と同様の形態素解析結果を得る。
検索クエリ生成部72は、質問文の形態素解析結果に基づいて、上記のランキングモデルの学習時と同様に、質問文に含まれる単語を用いた検索クエリを生成する。
検索部73は、生成された検索クエリを用いて、ウェブ検索エンジンにて、インターネットを介してWebに対する検索処理を行い、検索結果を得る。
文集合抽出部74は、上記のランキングモデルの学習時と同様に、検索結果に含まれる各スニペットを抽出すると共に、各スニペットを文に分割し、得られた文集合を、回答候補文の文集合とする。
形態素解析部75は、回答候補文の文集合の各々に対して、形態素解析を行い、上記図2と同様の形態素解析結果を得る。
特徴量生成部76は、回答候補文の文集合の各々について、入力部10により受け付けた質問文と当該回答候補文との組み合わせについて、それぞれの形態素解析結果に基づいて、上記の特徴量生成部22と同様に、「文順位の逆数(rank)」、「単語数(len)」、「理由についての意味属性(ncat-意味属性)」、「疑問詞を含むか(question)」、「一文字目が日本語か(sentence-begin)」、「最後の文字が句点か(sentence-end)」、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、「記号の割合(symbol)」、「内容語のカバレッジ(cw-count)」、「単語(表層系)のカバレッジ(count)」、「単語(標準形)のカバレッジ(base-count)」、「意味属性のカバレッジ(cats-count)」、及び「原因表現パターンを含むか(synpat-パターン)」を含む各特徴量を要素とする特徴ベクトルを生成する。
モデル記憶部78には、モデル学習装置100によって出力されたランキングモデル(各特徴量に対する重みベクトル)を記憶する。
ランキング部77は、入力部10により受け付けた質問文と回答候補文との組み合わせの各々について、モデル記憶部78に記憶された重みベクトル(ランキングモデル)と、当該組み合わせに対して生成された特徴ベクトルとを掛け合わすことで、スコアを算出し、算出されたスコアに従って、回答候補文をランキングする。これらの回答候補文をすべて、または、上位N件を出力部80により出力することで、システム回答とする。
<質問応答システムの作用>
次に、本実施の形態に係る質問応答システムの作用について説明する。まず、予め用意された正解質問応答データがモデル学習装置100に入力されると、モデル学習装置100によって、入力された正解質問応答データが、正解質問応答データ記憶部21へ格納される。そして、モデル学習装置100によって、図6に示すモデル学習処理ルーチンが実行される。
まず、ステップS101において、正解質問応答データ記憶部21から、正解質問応答データに含まれる全ての質問文、正解文、不正解文を取得する。ステップS102において、上記ステップS101で取得したデータから、質問文と、正解文または不正解文との組み合わせを選択する。
そして、ステップS103において、上記ステップS102で選択された質問文と、正解文または不正解文との組み合わせについて、質問文の形態素解析結果、及び正解文または不正解文の形態素解析結果に基づいて、特徴ベクトルを生成する。
次のステップS104では、正解質問応答データの全ての組み合わせについて、上記ステップS102、S103の処理を実行したか否かを判定する。上記ステップS102、S103の処理を実行していない組み合わせが存在する場合には、上記ステップS102へ戻り、当該組み合わせを選択する。一方、正解質問応答データの全ての組み合わせについて、上記ステップS102、S103の処理を実行したと判定された場合には、ステップS105へ移行する。
ステップS105では、上記ステップS103で生成された全ての組み合わせの特徴ベクトルに基づいて、正解文を不正解文よりも上位にランキングするように、特徴ベクトルの各特徴量の重みである重みベクトル(ランキングモデル)を、機械学習により学習する。
そして、ステップS106において、上記ステップS105で学習されたランキングモデルを出力部30により出力し、モデル学習処理ルーチンを終了する。
そして、出力部30により出力されたランキングモデルが、質問応答装置150のモデル記憶部78に記憶される。また、質問文が質問応答装置150に入力されると、質問応答装置150によって、図7に示す質問応答生成処理ルーチンが実行される。
ステップS111において、入力された質問文を受け付ける。ステップS112では、上記ステップS111で受け付けた質問文に対して、形態素解析を行う。
そして、ステップS113において、上記ステップS112で得られた質問文の形態素解析結果に基づいて、検索クエリを生成する。ステップS114で、上記ステップS113で生成された検索クエリを用いて、Webに対して検索処理を行う。
次のステップS115では、上記ステップS114で得られた検索結果から、回答候補文の集合を抽出する。ステップS116では、上記ステップS115で抽出された回答候補文の集合に含まれる各回答候補文に対して形態素解析を行う。
そして、ステップS117において、入力された質問文と各回答候補文との組み合わせの各々について、特徴ベクトルを生成する。ステップS118において、ランキングモデルと上記ステップS117で生成した特徴ベクトルとを用いて、入力された質問文と各回答候補文との組み合わせの各々について、スコアを算出する。
次のステップS119では、上記ステップS118で算出されたスコアに従って、回答候補文の集合をランキングして、出力部80により出力し、応答生成処理ルーチンを終了する。
<実施例>
以下に、実施例を示す。150問を5分割し、交差検定を行った。評価尺度には、top-N Mean Reciprocal Rank(MRR)、および、N位内正解率を用いた。Top-N MRRとは、ある質問について、上位N件の回答出力をしたとき、一番上位の回答の順位の逆数を、その質問についての得点とし、所与の質問セットについての得点の平均値を求めたものである。N位内正解率は、N位までの出力を見たとき、その中に正解が含まれていた質問の割合である。たとえば、質問が10問あり、システム出力において、5位までに回答が含まれている場合が5問あれば、5/10=0.5が5位内正解率となる。本発明で提案した特徴量(「疑問詞を含むか(question)」、「一文字目が日本語か(sentence-begin)」、「最後の文字が句点か(sentence-end)」、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、「記号の割合(symbol)」)以外の特徴量を要素とした特徴ベクトルを用いた場合を比較例とした。交差検定の結果を、図8に示す。
本発明で提案した特徴量(「疑問詞を含むか(question)」、「一文字目が日本語か(sentence-begin)」、「最後の文字が句点か(sentence-end)」、「日本語の割合(ja)」、「スペース及び句読点の割合(common)」、「英字の割合(latin)」、「括弧の割合(paren)」、「記号の割合(symbol)」)を特徴ベクトルの要素として追加することによって、top-N MRR及びN位内正解率の双方で改善が見られており、本発明で提案した特徴量の有効性が確認できた。
以上説明したように、本実施の形態に係る質問応答装置によれば、質問文に対する回答候補文の集合の各々について、回答候補文における文長、文字種、文の妥当性、及び疑問詞の存在の有無の各々に関する特徴量を含む特徴ベクトルを生成して、スコアを算出し、スコアに従って、回答候補文の集合をランキングすることにより、質問文に対する回答候補を精度よくランキングすることができる。
また、質問に対して、回答候補文が適切にランキングされるようになるため、ユーザの質問に対し的確に答えを出力するシステムが実現でき、ユーザの知的活動の効率を高めることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、モデル学習装置と質問応答装置とを一つの装置で実現するようにしてもよい。この場合には、モデル学習部によって学習されたランキングモデルを、モデル記憶部に格納するようにすればよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
21 正解質問応答データ記憶部
22 特徴量生成部
23 モデル学習部
60 入力部
70 演算部
71 形態素解析部
72 検索クエリ生成部
73 検索部
74 文集合抽出部
75 形態素解析部
76 特徴量生成部
77 ランキング部
78 モデル記憶部
100 モデル学習装置
150 質問応答装置
上記の目的を達成するために第1の発明に係る質問応答装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補中の括弧の割合を示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段とを含んで構成されている。
第2の発明に係る質問応答装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の一文字目が日本語であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段と、を含んで構成されている。
第3の発明に係る質問応答装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の最後の文字が句点であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段と、を含んで構成されている。
第4の発明に係る質問応答方法は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補中の括弧の割合を示す特徴量とを含む特徴ベクトルを生成し、スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする。
第5の発明に係る質問応答方法は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の一文字目が日本語であるか否かを示す特徴量とを含む特徴ベクトルを生成し、スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする。
第6の発明に係る質問応答方法は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補の最後の文字が句点であるか否かを示す特徴量とを含む特徴ベクトルを生成し、スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする。
第7の発明のモデル学習装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文中の括弧の割合を示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、を含んで構成されている。
第8の発明のモデル学習装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文の一文字目が日本語であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、を含んで構成されている。
第9の発明のモデル学習装置は、入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文の最後の文字が句点であるか否かを示す特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、を含んで構成されている。
第10の発明に係るプログラムは、コンピュータを、上記の質問応答装置または上記のモデル学習装置の各手段として機能させるためのプログラムである。

Claims (7)

  1. 入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置であって、
    前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出する回答候補抽出手段と、
    前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補における文長、文字種、文の妥当性、及び疑問詞の存在の有無の少なくとも一つに関する特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、
    前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出するスコア算出手段と、
    前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングするランキング手段と、
    を含む質問応答装置。
  2. 前記文字種に関する特徴量を、前記回答候補中の日本語の文字の割合を示す特徴量、前記回答候補中のスペース及び句読点の割合を示す特徴量、前記回答候補中の英字の割合を示す特徴量、前記回答候補中の括弧の割合を示す特徴量、及び前記回答候補中の記号の割合を示す特徴量の少なくとも一つとした請求項1記載の質問応答装置。
  3. 前記文の妥当性に関する特徴量を、前記回答候補の一文字目が日本語であるか否かを示す特徴量、及び前記回答候補の最後の文字が句点であるか否かを示す特徴量の少なくとも一方とした請求項1又は2記載の質問応答装置。
  4. 前記入力された質問文に基づいて、検索クエリを生成する検索クエリ生成手段と、
    前記検索クエリ生成手段によって生成された検索クエリを用いて、Webに対して検索処理を行う検索手段とを更に含み、
    前記回答候補抽出手段は、前記検索手段による検索処理によって得られた検索結果から、前記回答候補の集合を抽出し、
    前記特徴量生成手段は、前記質問文の形態素解析結果と、前記回答候補の集合に含まれる前記回答候補の各々の形態素解析結果とに基づいて、前記組み合わせの各々の特徴ベクトルを生成する請求項1〜請求項3の何れか1項記載の質問応答装置。
  5. 入力された質問文に対してノンファクトイド型の質問応答を行うための回答文の回答候補をランキングするためのランキングモデルを学習するモデル学習装置であって、
    前記質問文に対する、1つ以上の文からなる正解の回答文及び正解でない回答文を記憶した質問応答データ記憶手段と、
    前記質問応答データ記憶手段に記憶された前記回答文の各々について、前記質問文と前記回答文との組み合わせに対する、前記質問文と前記回答文との内容の関連性に関する特徴量と、前記回答文における文長、文字種、文の妥当性、及び疑問詞の存在の有無の少なくとも一つに関する特徴量とを含む特徴ベクトルを生成する特徴量生成手段と、
    前記特徴量生成手段によって生成された前記回答文の各々に対する前記特徴ベクトルと、前記回答文の各々が正解であるか否かとに基づいて、前記特徴ベクトルに含まれる各特徴量に対する重みを前記ランキングモデルとして学習する学習手段と、
    を含むモデル学習装置。
  6. 入力された質問文に対してノンファクトイド型の質問応答を行うための回答文を生成する質問応答装置における質問応答方法であって、
    回答候補抽出手段によって、前記入力された質問文に対する1つ以上の文からなる回答候補の集合を抽出し、
    特徴量生成手段によって、前記回答候補抽出手段によって抽出された前記回答候補の集合に含まれる前記回答候補の各々について、前記質問文と前記回答候補との組み合わせに対する、前記質問文と前記回答候補との内容の関連性に関する特徴量と、前記回答候補における文長、文字種、文の妥当性、及び疑問詞の存在の有無の少なくとも一つに関する特徴量とを含む特徴ベクトルを生成し、
    スコア算出手段によって、前記質問文と前記回答候補との組み合わせの各々について、予め学習された前記特徴ベクトルに含まれる各特徴量に対する重みと、前記特徴量生成手段によって生成された前記組み合わせに対する前記特徴ベクトルとに基づいて、スコアを算出し、
    ランキング手段によって、前記スコア算出手段によって算出されたスコアに従って、前記回答候補の集合をランキングする
    質問応答方法
  7. コンピュータを、請求項1〜請求項4の何れか1項記載の質問応答装置、又は請求項5記載のモデル学習装置を構成する各手段として機能させるためのプログラム。
JP2012130645A 2012-06-08 2012-06-08 質問応答装置、モデル学習装置、方法、及びプログラム Active JP5431532B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012130645A JP5431532B2 (ja) 2012-06-08 2012-06-08 質問応答装置、モデル学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012130645A JP5431532B2 (ja) 2012-06-08 2012-06-08 質問応答装置、モデル学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013254420A true JP2013254420A (ja) 2013-12-19
JP5431532B2 JP5431532B2 (ja) 2014-03-05

Family

ID=49951850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012130645A Active JP5431532B2 (ja) 2012-06-08 2012-06-08 質問応答装置、モデル学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5431532B2 (ja)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016027714A1 (ja) * 2014-08-21 2016-02-25 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
JP2016085685A (ja) * 2014-10-28 2016-05-19 日本電信電話株式会社 次発話候補スコアリング装置、方法、及びプログラム
JP2016212741A (ja) * 2015-05-12 2016-12-15 日本電信電話株式会社 要約長推定装置、方法、及びプログラム
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
JP2018025949A (ja) * 2016-08-09 2018-02-15 日本電信電話株式会社 学習装置、映像検索装置、方法、及びプログラム
CN107870974A (zh) * 2016-09-23 2018-04-03 谷歌公司 使用设备上模型的智能回复
JP2018060273A (ja) * 2016-10-03 2018-04-12 エヌ・ティ・ティ レゾナント株式会社 情報処理装置、情報処理方法、及びプログラム
JP2019003270A (ja) * 2017-06-12 2019-01-10 日本電信電話株式会社 学習装置、映像検索装置、方法、及びプログラム
US10216802B2 (en) 2015-09-28 2019-02-26 International Business Machines Corporation Presenting answers from concept-based representation of a topic oriented pipeline
CN109492086A (zh) * 2018-11-26 2019-03-19 北京羽扇智信息科技有限公司 一种答案输出方法、装置、电子设备及存储介质
US10380257B2 (en) 2015-09-28 2019-08-13 International Business Machines Corporation Generating answers from concept-based representation of a topic oriented pipeline
JP2019164500A (ja) * 2018-03-19 2019-09-26 ヤフー株式会社 データ収集装置、データ収集方法、およびプログラム
JP2019197498A (ja) * 2018-05-11 2019-11-14 国立研究開発法人情報通信研究機構 対話システム及びそのコンピュータプログラム
US10503786B2 (en) 2015-06-16 2019-12-10 International Business Machines Corporation Defining dynamic topic structures for topic oriented question answer systems
WO2020004401A1 (ja) * 2018-06-29 2020-01-02 日本電信電話株式会社 回答文選択装置、方法、およびプログラム
JP2020071678A (ja) * 2018-10-31 2020-05-07 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
WO2020174826A1 (ja) * 2019-02-25 2020-09-03 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
US10896296B2 (en) 2017-08-31 2021-01-19 Fujitsu Limited Non-transitory computer readable recording medium, specifying method, and information processing apparatus
KR20210088725A (ko) * 2019-01-08 2021-07-14 미쓰비시덴키 가부시키가이샤 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
WO2021199727A1 (ja) * 2020-04-02 2021-10-07 Necソリューションイノベータ株式会社 投稿の表示制御装置、投稿の表示制御方法、およびプログラム
JP2022500808A (ja) * 2019-01-24 2022-01-04 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 文生成方法と装置、電子機器及びプログラム
CN114970563A (zh) * 2022-07-28 2022-08-30 山东大学 融合内容和形式多样性的中文问题生成方法和系统
US11593436B2 (en) 2018-02-13 2023-02-28 Nippon Telegraph And Telephone Corporation Information provision device, information provision method, and program
US11669752B2 (en) 2014-04-22 2023-06-06 Google Llc Automatic actions based on contextual replies

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116662A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology 質問応答装置、質問応答方法、及びプログラム
JP2010033142A (ja) * 2008-07-25 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 未来表現判別装置、未来表現判別方法およびプログラム
JP2010237916A (ja) * 2009-03-31 2010-10-21 Denso It Laboratory Inc コンテンツ検索装置、方法及びプログラム
JP2011070529A (ja) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116662A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology 質問応答装置、質問応答方法、及びプログラム
JP2010033142A (ja) * 2008-07-25 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 未来表現判別装置、未来表現判別方法およびプログラム
JP2010237916A (ja) * 2009-03-31 2010-10-21 Denso It Laboratory Inc コンテンツ検索装置、方法及びプログラム
JP2011070529A (ja) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11669752B2 (en) 2014-04-22 2023-06-06 Google Llc Automatic actions based on contextual replies
WO2016027714A1 (ja) * 2014-08-21 2016-02-25 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
JP2016045652A (ja) * 2014-08-21 2016-04-04 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
US10380149B2 (en) 2014-08-21 2019-08-13 National Institute Of Information And Communications Technology Question sentence generating device and computer program
JP2016085685A (ja) * 2014-10-28 2016-05-19 日本電信電話株式会社 次発話候補スコアリング装置、方法、及びプログラム
JP2016212741A (ja) * 2015-05-12 2016-12-15 日本電信電話株式会社 要約長推定装置、方法、及びプログラム
US10558711B2 (en) 2015-06-16 2020-02-11 International Business Machines Corporation Defining dynamic topic structures for topic oriented question answer systems
US10503786B2 (en) 2015-06-16 2019-12-10 International Business Machines Corporation Defining dynamic topic structures for topic oriented question answer systems
US10380257B2 (en) 2015-09-28 2019-08-13 International Business Machines Corporation Generating answers from concept-based representation of a topic oriented pipeline
US10216802B2 (en) 2015-09-28 2019-02-26 International Business Machines Corporation Presenting answers from concept-based representation of a topic oriented pipeline
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
US11640515B2 (en) 2015-12-03 2023-05-02 Huawei Technologies Co., Ltd. Method and neural network system for human-computer interaction, and user equipment
CN106844368B (zh) * 2015-12-03 2020-06-16 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
JP2018025949A (ja) * 2016-08-09 2018-02-15 日本電信電話株式会社 学習装置、映像検索装置、方法、及びプログラム
CN107870974B (zh) * 2016-09-23 2021-08-06 谷歌有限责任公司 使用设备上模型的智能回复
US10846618B2 (en) 2016-09-23 2020-11-24 Google Llc Smart replies using an on-device model
CN107870974A (zh) * 2016-09-23 2018-04-03 谷歌公司 使用设备上模型的智能回复
JP2019535073A (ja) * 2016-09-23 2019-12-05 グーグル エルエルシー オンデバイスモデルを使用するスマートリプライ
JP2018060273A (ja) * 2016-10-03 2018-04-12 エヌ・ティ・ティ レゾナント株式会社 情報処理装置、情報処理方法、及びプログラム
JP2019003270A (ja) * 2017-06-12 2019-01-10 日本電信電話株式会社 学習装置、映像検索装置、方法、及びプログラム
US10896296B2 (en) 2017-08-31 2021-01-19 Fujitsu Limited Non-transitory computer readable recording medium, specifying method, and information processing apparatus
US11593436B2 (en) 2018-02-13 2023-02-28 Nippon Telegraph And Telephone Corporation Information provision device, information provision method, and program
JP2019164500A (ja) * 2018-03-19 2019-09-26 ヤフー株式会社 データ収集装置、データ収集方法、およびプログラム
JP2019197498A (ja) * 2018-05-11 2019-11-14 国立研究開発法人情報通信研究機構 対話システム及びそのコンピュータプログラム
JP7126682B2 (ja) 2018-05-11 2022-08-29 国立研究開発法人情報通信研究機構 対話システム及びそのコンピュータプログラム
JP2020004224A (ja) * 2018-06-29 2020-01-09 日本電信電話株式会社 回答文選択装置、方法、およびプログラム
WO2020004401A1 (ja) * 2018-06-29 2020-01-02 日本電信電話株式会社 回答文選択装置、方法、およびプログラム
JP2020071678A (ja) * 2018-10-31 2020-05-07 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP7256357B2 (ja) 2018-10-31 2023-04-12 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
CN109492086A (zh) * 2018-11-26 2019-03-19 北京羽扇智信息科技有限公司 一种答案输出方法、装置、电子设备及存储介质
CN109492086B (zh) * 2018-11-26 2022-01-21 出门问问创新科技有限公司 一种答案输出方法、装置、电子设备及存储介质
KR102400689B1 (ko) 2019-01-08 2022-05-20 미쓰비시덴키 가부시키가이샤 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
KR20210088725A (ko) * 2019-01-08 2021-07-14 미쓰비시덴키 가부시키가이샤 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
JP2022500808A (ja) * 2019-01-24 2022-01-04 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 文生成方法と装置、電子機器及びプログラム
JP7290730B2 (ja) 2019-01-24 2023-06-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 文生成方法と装置、電子機器及びプログラム
JP7120433B2 (ja) 2019-02-25 2022-08-17 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
JPWO2020174826A1 (ja) * 2019-02-25 2021-11-25 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
WO2020174826A1 (ja) * 2019-02-25 2020-09-03 日本電信電話株式会社 回答生成装置、回答学習装置、回答生成方法、及び回答生成プログラム
JPWO2021199727A1 (ja) * 2020-04-02 2021-10-07
WO2021199727A1 (ja) * 2020-04-02 2021-10-07 Necソリューションイノベータ株式会社 投稿の表示制御装置、投稿の表示制御方法、およびプログラム
JP7376185B2 (ja) 2020-04-02 2023-11-08 Necソリューションイノベータ株式会社 投稿の表示制御装置、投稿の表示制御方法、およびプログラム
CN114970563A (zh) * 2022-07-28 2022-08-30 山东大学 融合内容和形式多样性的中文问题生成方法和系统

Also Published As

Publication number Publication date
JP5431532B2 (ja) 2014-03-05

Similar Documents

Publication Publication Date Title
JP5431532B2 (ja) 質問応答装置、モデル学習装置、方法、及びプログラム
Suhaimin et al. Natural language processing based features for sarcasm detection: An investigation using bilingual social media texts
Vilares et al. A syntactic approach for opinion mining on Spanish reviews
Kiritchenko et al. Sentiment analysis of short informal texts
JP6150282B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
JP6466952B2 (ja) 文章生成システム
KR102235990B1 (ko) 모순 표현 수집장치 및 그를 위한 컴퓨터 프로그램
Hadni et al. Word sense disambiguation for Arabic text categorization.
Syed et al. Associating targets with SentiUnits: a step forward in sentiment analysis of Urdu text
Pravalika et al. Domain-specific sentiment analysis approaches for code-mixed social network data
Xu et al. Ranking definitions with supervised learning methods
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JP5591871B2 (ja) 回答タイプ推定装置、方法、及びプログラム
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Xu et al. Using SVM to extract acronyms from text
Kawahara et al. Single Classifier Approach for Verb Sense Disambiguation based on Generalized Features.
Otegi et al. Qtleap wsd/ned corpora: Semantic annotation of parallel corpora in six languages
Alsayadi et al. Integrating semantic features for enhancing arabic named entity recognition
Davarpanah et al. Farsi lexical analysis and stop word list
Ouda QuranAnalysis: a semantic search and intelligence system for the Quran
Naemi et al. Informal-to-formal word conversion for persian language using natural language processing techniques
JP5882241B2 (ja) 質問応答用検索キーワード生成方法、装置、及びプログラム
Okumura et al. Automatic labelling of documents based on ontology
Taslioglu et al. Irony detection on microposts with limited set of features
Tang et al. Mining language variation using word using and collocation characteristics

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131204

R150 Certificate of patent or registration of utility model

Ref document number: 5431532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350