JP6929539B2 - ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム - Google Patents
ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP6929539B2 JP6929539B2 JP2017131291A JP2017131291A JP6929539B2 JP 6929539 B2 JP6929539 B2 JP 6929539B2 JP 2017131291 A JP2017131291 A JP 2017131291A JP 2017131291 A JP2017131291 A JP 2017131291A JP 6929539 B2 JP6929539 B2 JP 6929539B2
- Authority
- JP
- Japan
- Prior art keywords
- question
- answer
- expression
- word
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000004590 computer program Methods 0.000 title claims description 9
- 230000014509 gene expression Effects 0.000 claims description 287
- 230000001364 causal effect Effects 0.000 claims description 255
- 239000011159 matrix material Substances 0.000 claims description 171
- 238000000605 extraction Methods 0.000 claims description 59
- 238000013528 artificial neural network Methods 0.000 claims description 49
- 230000004044 response Effects 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 38
- 238000011156 evaluation Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000010801 machine learning Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 49
- 238000012545 processing Methods 0.000 description 19
- 238000011176 pooling Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 206010022000 influenza Diseases 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 229960005486 vaccine Drugs 0.000 description 3
- 241000209149 Zea Species 0.000 description 2
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 2
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000002551 biofuel Substances 0.000 description 2
- 235000005822 corn Nutrition 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000029553 photosynthesis Effects 0.000 description 2
- 238000010672 photosynthesis Methods 0.000 description 2
- 230000003449 preventive effect Effects 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000013535 sea water Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B7/00—Electrically-operated teaching apparatus or devices working with questions and answers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
上記したCE1のような因果関係表現は、手掛かり語を用いて「地震により海底が上下し、その周辺の海水も上下に動くため、津波が発生する。」(CE2)のように言い換えて表現できる(「ため」が手掛かり語)。このような文章は2011年の東日本大震災と関係のない文脈でも生じ得ることと、この表現だけでは上記した質問に対する答えとしては不十分であることに注意が必要である。しかし、このような因果関係表現を明示的な手掛かり語等を用いて自動的に認識でき、なんらかの手段によってこのような明示的な手掛かり語等がない因果関係表現を補完することができれば、なぜ型質問応答タスクの回答の精度を高めることができる。
〔構成〕
<ノン・ファクトイド型質問応答システム30>
図1を参照して、本願の1実施の形態に係るノン・ファクトイド型質問応答システム30は、質問32を受ける質問受付部50と、質問受付部50が受け付けた質問を既存の質問応答システム34に与えることにより、質問応答システム34から何らかの形で質問32に対する回答パッセージを所定個数だけ受信する応答受信部52と、大量の文書からなるウェブアーカイブを記憶したウェブアーカイブ記憶部56と、ウェブアーカイブ記憶部56に記憶されたウェブアーカイブ、質問受付部50が受付けた質問130、及び応答受信部52が質問応答システム34から受信した回答パッセージを用いて、後述する因果関係アテンションマトリクスを算出するための因果関係アテンション処理部40とを含む。
分類部54は、応答受信部52が受信した回答パッセージを記憶するための回答パッセージ記憶部80と、回答パッセージ記憶部80に記憶された回答パッセージに含まれる因果関係表現を抽出する因果関係表現抽出部82と、因果関係表現抽出部82により回答パッセージから抽出された関係表現を記憶する回答内因果関係表現記憶部84とを含む。このように回答パッセージから抽出された因果関係表現を回答内因果関係表現と呼ぶ。
関連因果関係表現抽出部86は、質問受付部50が受け付けた質問130から内容語を抽出し、アーカイブ因果関係表現記憶部60に記憶されているアーカイブ因果関係表現のうち、質問130から抽出した単語を結果部に持つものを選択する質問関連アーカイブ因果関係表現選択部110と、質問関連アーカイブ因果関係表現選択部110が選択したアーカイブ因果関係表現を記憶する質問関連因果関係表現記憶部112と、回答パッセージ記憶部80に記憶された回答パッセージの各々について、回答パッセージと共通する単語をどの程度含むかを示す所定の計算式に基づいて、質問関連因果関係表現記憶部112に記憶された質問関連因果関係表現をランキングし、最上位の質問関連因果関係表現を、質問及び回答パッセージの組に関連する因果関係表現として選択し出力するランキング部114とを含む。ランキング部114がランキングに使用する所定の式は以下の式で表される重み付け単語出現数wgt-wc(x,y)である。なお以下では、重み付け単語出現数wgt-wc(x,y)以外にも3つの評価値wc(x,y)、ratio(x,y)、及びwgt-ratio(x,y)を定義してある。これらはいずれもニューラルネットワーク92への入力となる。
関連因果関係表現抽出部86内の質問関連アーカイブ因果関係表現選択部110の概略構成を図2に示す。図2を参照して、質問関連アーカイブ因果関係表現選択部110は、質問130を質問受付部50から受け、質問130に含まれる名詞を抽出する名詞抽出部150と、質問130に含まれる動詞及び形容詞を抽出する動詞・形容詞抽出部152と、アーカイブ因果関係表現記憶部60を検索し、名詞抽出部150により抽出された名詞を全て結果部に含むアーカイブ因果関係表現を取り出し、質問関連因果関係表現記憶部112に格納するための第1検索部154と、アーカイブ因果関係表現記憶部60を検索し、名詞抽出部150が抽出した名詞の全てと、動詞・形容詞抽出部152が抽出した動詞及び形容詞の少なくとも一つとを結果部に含むアーカイブ因果関係表現を抽出し、質問関連因果関係表現記憶部112に格納するための第2検索部156とを含む。
本実施の形態では、因果関係アテンションという概念により、ニューラルネットワーク92による回答パッセージのスコアリング時に、質問及び回答パッセージに含まれるCA単語に他より大きな重み付けを与える。そのために用いるのが相互情報量マトリクスである。ここでの重み付けは、質問に含まれるCA単語と回答パッセージに含まれるCA単語が、どの程度の因果関係的な関連性を持つかを表すものであり、本実施の形態ではその値として単語間の相互情報量を用いる。
図4を参照して、図1に示すニューラルネットワーク92は、後述するように、質問、回答パッセージ、回答内因果関係表現(回答CE)、及び関連因果関係表現(関連CE)を受けて、因果関係アテンションによる重み付けを行った単語ベクトルを生成する入力層200と、入力層200の出力を受けて特徴量ベクトルを出力する畳み込み/プーリング層202と、畳み込み/プーリング層202の出力を受けて、入力された質問に対し、入力された回答が正しい回答である確率を出力する出力層204とを含む。このニューラルネットワーク92は、4つのカラムC1〜C4を持つ。
入力層200は、質問が入力される第1カラムC1と、回答パッセージが入力される第2カラムC2と、回答内因果関係表現(回答CE)が入力される第3カラムC3と、関連因果関係表現(関連CE)が入力される第4カラムC4とを含む。
畳み込み/プーリング層202は、4つのカラムC1〜C4に対応して設けられた4つの畳み込みニューラルネットワークと、それらの出力をそれぞれ受けてマックスプーリングによる結果を出力する4つのプーリング層とを含む。
出力層204では、これら特徴ベクトルの類似度を類似度算出部212が算出し、Softmax層216に与える。また、4つのカラムC1〜C4に与えられる単語列の間で単語マッチング208が行われ、共通する単語数の指標である、式(1)に示す4つの値を共通単語数の計数部214が算出しSoftmax層216に与える。Softmax層216は入力に対して線形ソフトマックス関数を適用し、回答パッセージが質問に対して正しい回答である確率を出力する。
ノン・ファクトイド型質問応答システム30の動作には、学習フェーズと実際の質問に対する応答を出力する稼働フェーズとがある。
図1を参照して、質問32が与えられるに先立ち、因果関係表現抽出部58によりウェブアーカイブ記憶部56からアーカイブ因果関係表現が抽出され、相互情報量算出部62により相互情報量マトリクスが計算されて相互情報量マトリクス記憶部64に記憶されている。
稼働フェーズのノン・ファクトイド型質問応答システム30の動作の概略について図6を参照して説明する。まず、大量のウェブテキストアーカイブから因果関係表現を自動認識する処理460を行い、大量のアーカイブ因果関係表現462を集める。この中から、共起頻度に基づいて因果関係関連性が高い単語対を選択することで、因果関係の関連単語466を抽出する処理464を行う。この関連単語466から、因果関係アテンション468を表現する情報が得られる。この因果関係アテンション468により、質問と回答パッセージの中で因果関係を表すとして特に着目すべき単語に、他より大きな重みが与えられる。
以下、本実施の形態の構成を用いて行った実験結果の例を示す。この実験では、850文の質問と、それら各質問に対する上位20個ずつの回答パッセージ(合計で17,000個の質問‐回答パッセージのペア)とを用いた。このデータのうち、15,000ペアは学習データとし、1,000ペアを開発データ、残りの1,000ペアをテストデータとした。開発データは、ニューラルネットワーク92のハイパーパラメータの一部(フィルタのウィンドウサイズ、フィルタ数、及びミニバッチ数)を決定するのに用いた。
本発明の実施の形態に係るノン・ファクトイド型質問応答システム30は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図10はこのコンピュータシステム630の外観を示し、図11はコンピュータシステム630の内部構成を示す。
〔構成〕
上記第1の実施の形態では、アテンションとして因果関係アテンションのみを用いた。これだけでも実験で確認したように従来のものと比較してノン・ファクトイド型質問応答システムにおける回答の質を高められることが分かった。しかし本発明はそのような実施の形態には限定されない。他の関係についてのアテンションを用いることもできる。ただし、なぜ型質問に対する正しい回答としての条件を満たすような回答候補を導く出すことができるようなアテンションを用いる必要がある。
2)質問が求める理由又は原因の提示
3)質問が求める理由又は原因と、質問のトピックとの間の因果関係
これらが全て現れる回答候補であれば、なぜ型質問に対する正しい回答を与えると考えることができる。
この第2の実施の形態に係るノン・ファクトイド型質問応答システム730は以下のように動作する。
第1の実施の形態について図8に示したものと異なる条件ではあるが、ベースライン、第1の実施の形態のシステム、及び第2の実施の形態のシステムによって得られた回答の精度を図16に表形式で示す。
−必要関係(例:<AはBに必須だ>、(日光、光合成)等)
−使用関係(例:<AをBに使う>、(iPS細胞、再生医療)、等)
−予防関係(例:<AでBを防ぐ>、(ワクチン、インフルエンザ)、等)
このような意味的関係を用いることで、例えば、「なぜインフルエンザにワクチンが使えるのか?」、「なぜiPS細胞が注目されるのか?」、「なぜ植物に日光が必要なのか?」等の質問(それぞれ、予防関係、使用関係、必要関係に対応)により高い精度で回答が可能となる。
〔参考文献1〕 J.-H. Oh, K. Torisawa, C. Hashimoto, R. Iida, M. Tanaka, and J. Kloetzer. A semi-supervised learning approach to why-question answering. In Proceedings of AAAI ’16, pages 3022-3029, 2016.
32、130 質問
34 質問応答システム
36 回答
40 因果関係アテンション処理部
50 質問受付部
52 応答受信部
54、754 分類部
56 ウェブアーカイブ記憶部
58、82 因果関係表現抽出部
60 アーカイブ因果関係表現記憶部
62 相互情報量算出部
64 相互情報量マトリクス記憶部
66 回答候補記憶部
68 回答候補ランキング部
80 回答パッセージ記憶部
84 回答内因果関係表現記憶部
86 関連因果関係表現抽出部
88 関連因果関係表現記憶部
90 因果関係アテンションマトリクス生成部
92、792 ニューラルネットワーク
110 質問関連アーカイブ因果関係表現選択部
112 質問関連因果関係表現記憶部
114 ランキング部
120、820 単語抽出部
122 第1のマトリクス算出部
124 第2のマトリクス算出部
150 名詞抽出部
152 動詞・形容詞抽出部
154 第1検索部
156 第2検索部
170 相互情報量マトリクスA
180、182 マトリクス
200、900 入力層
202、902 畳み込み/プーリング層
204、904 出力層
208 単語マッチング
216、916 Softmax層
740 類似度アテンション処理部
758 意味ベクトル算出部
762 類似度算出部
764 類似度マトリクス記憶部
790 類似度アテンションマトリクス生成部
822 第3のマトリクス算出部
824 第4のマトリクス算出部
Claims (12)
- 文章内に出現する第1の意味的関係を表す表現に着目して、ノン・ファクトイド型の質問に対する応答を生成するノン・ファクトイド型質問応答システムであって、
前記第1の意味的関係を表す複数個の表現を記憶する第1の表現記憶手段と、
質問と、当該質問に対する回答候補を含む複数個の回答パッセージとを受信する質問・回答受信手段と、
前記複数個の回答パッセージの各々から、前記第1の意味的関係を表す意味的関係表現を抽出する第1の表現抽出手段と、
前記質問と、前記複数個の回答パッセージとの組み合わせの各々に対し、前記第1の表現記憶手段が記憶している前記複数個の表現から、当該組み合わせに最も関連する表現である関連表現を選択する関連表現選択手段と、
前記質問と、前記複数個の回答パッセージと、当該回答パッセージに対する前記意味的関係表現と、当該質問と当該回答パッセージとの組み合わせに対する前記関連表現の1つとからなる組み合わせの各々を入力として受け、前記質問に対する回答を前記複数個の回答パッセージ中から選択するように予め機械学習により学習した回答選択手段とを含む、ノン・ファクトイド型質問応答システム。 - さらに、前記質問と、前記複数個の回答パッセージとの組み合わせの各々に対し、前記第1の表現記憶手段が記憶した前記複数個の表現内における、前記質問に出現する各単語と当該回答パッセージに出現する各単語との第1の意味的相関関係量を算出する第1の意味的相関関係量算出手段を含み、
前記回答選択手段は、前記質問と、前記複数個の回答パッセージと、当該回答パッセージに対する前記意味的関係表現と、前記質問と当該回答パッセージとの組み合わせに対する前記関連表現との組み合わせを入力として受け、入力中の各単語に対する重みとして前記第1の意味的相関関係量を用いて、当該回答パッセージが前記質問に対する回答である尺度を表す評価値を算出し出力するように予め機械学習により学習した評価手段と、
前記複数個の回答パッセージの各々に対して前記評価手段が出力する前記評価値を用いて前記複数個の回答パッセージのいずれかを前記質問に対する回答として選択する選択手段とを含む、請求項1に記載のノン・ファクトイド型質問応答システム。 - 文書アーカイブから、前記第1の意味的関係を表す表現を抽出して前記第1の表現記憶手段に格納する第1の意味的関係表現抽出手段をさらに含む、請求項1又は請求項2に記載のノン・ファクトイド型質問応答システム。
- 前記第1の意味的相関関係量算出手段は、
前記第1の表現記憶手段が記憶した、前記第1の意味的関係を表す複数個の表現に含まれる単語対の前記第1の意味的相関関係量を、各単語対に対して算出し記憶する第1の意味的相関関係量記憶手段と、
前記質問と、前記複数個の回答パッセージとの組み合わせの各々について、当該質問内の単語と、当該回答パッセージ内の単語との対ごとに、前記第1の意味的相関関係量を前記第1の意味的相関関係量記憶手段から読出し、一方の軸に前記質問内の単語が配列され、他方の軸に当該回答パッセージ内の単語が配列されたマトリクスであって、前記一方の軸と前記他方の軸との交差する位置のセルに、当該位置に対応する単語同士の前記第1の意味的相関関係量がそれぞれ配置された第1のマトリクスを生成する第1のマトリクス生成手段と、
前記第1のマトリクスの前記一方の軸に配置された各単語に対して、前記他方の軸方向に配置された前記第1の意味的相関関係量の最大値を記憶する第1の単語−文マトリクス、及び前記第1のマトリクスの前記他方の軸に配置された各単語に対して、前記一方の軸方向に配置された前記第1の意味的相関関係量の最大値を記憶する第2の単語−文マトリクスからなる2つの第2のマトリクスを生成する第2のマトリクス生成手段とを含み、
さらに、前記回答選択手段に与えられる、前記質問内に出現する単語の各々に対しては、前記第1の単語−文マトリクスの前記第1の意味的相関関係量を、前記回答パッセージ内に出現する単語の各々に対しては前記第2の単語−文マトリクスの前記第1の意味的相関関係量をそれぞれ用いて重み付けをするための手段を含む、請求項2に記載のノン・ファクトイド型質問応答システム。 - 前記2つの第2のマトリクスに記憶される前記第1の意味的相関関係量の各々は所定の区間で正規化されている、請求項4に記載のノン・ファクトイド型質問応答システム。
- 前記第1の意味的関係は因果関係である、請求項1〜請求項5の何れかに記載のノン・ファクトイド型質問応答システム。
- 前記因果関係を表す表現の各々は、原因部と結果部とを含み、
前記関連表現選択手段は、
前記質問から名詞、動詞及び形容詞を抽出する第1の単語抽出手段と、
前記第1の表現記憶手段が記憶している表現から、前記第1の単語抽出手段が抽出した名詞を前記結果部に全て含むものを所定個数だけ選択する第1の表現選択手段と、
前記第1の表現記憶手段が記憶している表現から、前記第1の単語抽出手段が抽出した名詞を全て含み、かつ、前記第1の単語抽出手段が抽出した動詞又は形容詞を少なくとも1つだけ前記結果部に含むものを所定個数だけ選択する第2の表現選択手段と、
前記複数個の回答パッセージの各々について、前記第1の表現選択手段及び前記第2の表現選択手段が選択した表現のうちで、当該回答パッセージと共通する単語を前記結果部に持ち、かつ当該共通する単語に対する重み付けにより算出されるスコアによって当該回答パッセージと最も関連が高いと判定されるものを選択する関連因果関係表現選択手段とを含む、請求項6に記載のノン・ファクトイド型質問応答システム。 - 前記ノン・ファクトイド型質問応答システムは、文章内に出現する前記第1の意味的関係を表す表現と、第2の意味的関係を表す表現とに着目することで、ノン・ファクトイド型の質問に対する応答を生成するノン・ファクトイド型質問応答システムであって、さらに、
前記第2の意味的関係を表す複数個の表現を記憶する第2の表現記憶手段と、
前記質問と、前記複数個の回答パッセージの各々との組み合わせに対し、前記第2の表現記憶手段が記憶した前記複数個の表現内における、前記質問に出現する各単語と当該回答パッセージに出現する各単語との相関関係を表す第2の意味的相関関係量を算出する第2の意味的相関関係量算出手段を含み、
前記評価手段は、前記質問と、前記複数個の回答パッセージと、当該回答パッセージに対する前記第1の表現抽出手段が抽出した前記意味関係表現と、前記質問と当該回答パッセージとに対する前記関連表現との組み合わせを入力として受け、入力中の各単語に対する重みとして前記第1の意味的相関関係量と前記第2の意味的相関関係量を用いることにより、前記評価値を出力するように予め機械学習により学習したニューラルネットワークを含む、請求項2に記載のノン・ファクトイド型質問応答システム。 - 前記第2の意味的関係は、特定の意味的関係に限定されない、通常の意味的関係であって、
前記第2の表現記憶手段は、無作為に収集された表現を記憶する、請求項8に記載のノン・ファクトイド型質問応答システム。 - コンピュータを、請求項1〜請求項9のいずれかに記載の各手段として機能させる、コンピュータプログラム。
- 文章内に出現する所定の第1の意味的関係を表す表現に着目することで、ノン・ファクトイド型の質問に対する応答を生成する、コンピュータにより実現される、ノン・ファクトイド型質問に対する応答方法であって、
前記コンピュータが、前記第1の意味的関係を表す複数個の表現を記憶した第1の記憶装置と通信可能に接続するステップと、
前記コンピュータが、質問と、当該質問に対する回答候補を含む複数個の回答パッセージとを入力装置を介して受信するステップと、
前記コンピュータが、前記複数個の回答パッセージの各々から、前記第1の意味的関係を表す表現を抽出するステップと、
前記コンピュータが、前記質問と、前記複数個の回答パッセージとの組み合わせの各々に対し、前記第1の表現記憶手段が記憶した前記複数個の表現から、当該組み合わせに最も関連する表現を選択するステップと、
前記コンピュータが、前記質問と、前記複数個の回答パッセージと、前記抽出するステップにおいて抽出された複数個の表現と、前記選択するステップにおいて選択された表現の1つとからなる組み合わせの各々を、前記質問に対する回答を前記複数個の回答パッセージ中から選択するように予め機械学習により学習した回答選択手段に入力してその出力を得ることにより、前記質問に対する応答を生成するステップとを含む、ノン・ファクトイド型質問に対する応答方法。 - さらに、前記コンピュータが、前記質問と、前記複数個の回答パッセージとの組み合わせの各々に対し、前記第1の表現記憶手段が記憶した前記複数個の表現内における、前記質問に出現する各単語と当該回答パッセージに出現する各単語との相関関係を表す第1の意味的相関関係量を算出するステップを含み、
前記選択するステップは、前記コンピュータが、前記質問と、前記複数個の回答パッセージと、当該回答パッセージから前記抽出するステップにおいて抽出された前記表現と、前記質問と当該回答パッセージとに対して前記選択ステップにおいて選択された前記表現との組み合わせの各々を、当該回答パッセージが前記質問に対する回答である尺度を表す評価値を算出し出力するように予め機械学習により学習した評価手段に入力として与えるステップを含み、
前記評価手段は、前記評価値の算出において、前記入力中の各単語に対する重みとして、前記第1の意味的相関関係量を用い、
前記方法はさらに、前記コンピュータが、前記複数個の回答パッセージの各々に対して前記評価手段が出力する前記評価値を用いて前記複数個の回答パッセージのいずれかを前記質問に対する回答として選択するステップを含む、請求項11に記載のノン・ファクトイド型質問に対する応答方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/338,465 US20200034722A1 (en) | 2016-10-07 | 2017-10-02 | Non-factoid question-answering system and method and computer program therefor |
CN201780061910.2A CN109863487B (zh) | 2016-10-07 | 2017-10-02 | 非事实型问答系统和方法及存储介质 |
PCT/JP2017/035765 WO2018066489A1 (ja) | 2016-10-07 | 2017-10-02 | ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム |
KR1020197008669A KR102408083B1 (ko) | 2016-10-07 | 2017-10-02 | 논팩토이드형 질의응답 시스템 및 방법 그리고 그것을 위한 컴퓨터 프로그램 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016198929 | 2016-10-07 | ||
JP2016198929 | 2016-10-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018063696A JP2018063696A (ja) | 2018-04-19 |
JP6929539B2 true JP6929539B2 (ja) | 2021-09-01 |
Family
ID=61966808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017131291A Active JP6929539B2 (ja) | 2016-10-07 | 2017-07-04 | ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200034722A1 (ja) |
JP (1) | JP6929539B2 (ja) |
KR (1) | KR102408083B1 (ja) |
CN (1) | CN109863487B (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087199B2 (en) * | 2016-11-03 | 2021-08-10 | Nec Corporation | Context-aware attention-based neural network for interactive question answering |
JP2019020893A (ja) | 2017-07-13 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
US20190050724A1 (en) * | 2017-08-14 | 2019-02-14 | Sisense Ltd. | System and method for generating training sets for neural networks |
US10915560B2 (en) * | 2017-11-30 | 2021-02-09 | International Business Machines Corporation | Ranking passages by merging features from factoid answers |
JP2019220142A (ja) * | 2018-06-18 | 2019-12-26 | 日本電信電話株式会社 | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム |
US10678822B2 (en) * | 2018-06-29 | 2020-06-09 | International Business Machines Corporation | Query expansion using a graph of question and answer vocabulary |
JP7081671B2 (ja) * | 2018-08-06 | 2022-06-07 | 富士通株式会社 | 評価プログラム、評価方法および情報処理装置 |
JP7081455B2 (ja) * | 2018-11-15 | 2022-06-07 | 日本電信電話株式会社 | 学習装置、学習方法、及び学習プログラム |
CN109492086B (zh) * | 2018-11-26 | 2022-01-21 | 出门问问创新科技有限公司 | 一种答案输出方法、装置、电子设备及存储介质 |
JP7103264B2 (ja) * | 2019-02-20 | 2022-07-20 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
CN110674280B (zh) * | 2019-06-21 | 2023-12-15 | 北京中科微末生物科技有限公司 | 一种基于增强问题重要性表示的答案选择算法 |
US20210157855A1 (en) * | 2019-11-21 | 2021-05-27 | International Business Machines Corporation | Passage verification using a factoid question answer system |
CN111414456A (zh) * | 2020-03-20 | 2020-07-14 | 北京师范大学 | 一种开放式简答题自动评分的方法和系统 |
CN111488740B (zh) * | 2020-03-27 | 2023-12-22 | 北京百度网讯科技有限公司 | 一种因果关系的判别方法、装置、电子设备及存储介质 |
US20210383075A1 (en) * | 2020-06-05 | 2021-12-09 | International Business Machines Corporation | Intelligent leading multi-round interactive automated information system |
CN111737441B (zh) * | 2020-08-07 | 2020-11-24 | 北京百度网讯科技有限公司 | 基于神经网络的人机交互方法、装置和介质 |
KR102529431B1 (ko) * | 2020-11-10 | 2023-05-08 | 주식회사 포티투마루 | 문맥 기반 질의응답 생성 아키텍처 |
CN113553410B (zh) * | 2021-06-30 | 2023-09-22 | 北京百度网讯科技有限公司 | 长文档处理方法、处理装置、电子设备和存储介质 |
CN113836283B (zh) * | 2021-09-24 | 2024-04-12 | 上海金仕达软件科技股份有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
US12099534B1 (en) * | 2023-05-23 | 2024-09-24 | Truist Bank | Optimization using interactive content equivalence |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080104065A1 (en) * | 2006-10-26 | 2008-05-01 | Microsoft Corporation | Automatic generator and updater of faqs |
JP4778474B2 (ja) * | 2007-05-14 | 2011-09-21 | 日本電信電話株式会社 | 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体 |
JP5086799B2 (ja) * | 2007-12-27 | 2012-11-28 | 日本電信電話株式会社 | 質問応答方法、装置、プログラム並びにそのプログラムを記録した記録媒体 |
US8275803B2 (en) * | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
CN103221952B (zh) * | 2010-09-24 | 2016-01-20 | 国际商业机器公司 | 词法答案类型置信度估计和应用的方法和系统 |
WO2012047530A1 (en) * | 2010-09-28 | 2012-04-12 | International Business Machines Corporation | Providing answers to questions using logical synthesis of candidate answers |
JP5825676B2 (ja) * | 2012-02-23 | 2015-12-02 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
JP5924666B2 (ja) * | 2012-02-27 | 2016-05-25 | 国立研究開発法人情報通信研究機構 | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム |
US9558454B2 (en) * | 2013-03-14 | 2017-01-31 | Futurewei Technologies, Inc. | System and method for model-based inventory management of a communications system |
JP6150282B2 (ja) * | 2013-06-27 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
JP6150291B2 (ja) * | 2013-10-08 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 矛盾表現収集装置及びそのためのコンピュータプログラム |
JP5907393B2 (ja) * | 2013-12-20 | 2016-04-26 | 国立研究開発法人情報通信研究機構 | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム |
JP6414956B2 (ja) * | 2014-08-21 | 2018-10-31 | 国立研究開発法人情報通信研究機構 | 質問文生成装置及びコンピュータプログラム |
US10558719B2 (en) * | 2014-10-30 | 2020-02-11 | Quantifind, Inc. | Apparatuses, methods and systems for insight discovery and presentation from structured and unstructured data |
KR102094934B1 (ko) * | 2014-11-19 | 2020-03-31 | 한국전자통신연구원 | 자연어 질의 응답 시스템 및 방법 |
CN104834747B (zh) * | 2015-05-25 | 2018-04-27 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
CN105512228B (zh) * | 2015-11-30 | 2018-12-25 | 北京光年无限科技有限公司 | 一种基于智能机器人的双向问答数据处理方法和系统 |
US10002124B2 (en) * | 2016-07-15 | 2018-06-19 | International Business Machines Corporation | Class-narrowing for type-restricted answer lookups |
-
2017
- 2017-07-04 JP JP2017131291A patent/JP6929539B2/ja active Active
- 2017-10-02 US US16/338,465 patent/US20200034722A1/en not_active Abandoned
- 2017-10-02 KR KR1020197008669A patent/KR102408083B1/ko active IP Right Grant
- 2017-10-02 CN CN201780061910.2A patent/CN109863487B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
KR102408083B1 (ko) | 2022-06-13 |
CN109863487B (zh) | 2023-07-28 |
CN109863487A (zh) | 2019-06-07 |
JP2018063696A (ja) | 2018-04-19 |
US20200034722A1 (en) | 2020-01-30 |
KR20190060995A (ko) | 2019-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6929539B2 (ja) | ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム | |
US11176328B2 (en) | Non-factoid question-answering device | |
WO2020192401A1 (en) | System and method for generating answer based on clustering and sentence similarity | |
CN105989040B (zh) | 智能问答的方法、装置及系统 | |
Celikyilmaz et al. | LDA based similarity modeling for question answering | |
CN110390052B (zh) | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN111581545A (zh) | 一种召回文档的排序方法及相关设备 | |
Lalata et al. | A sentiment analysis model for faculty comment evaluation using ensemble machine learning algorithms | |
WO2018066489A1 (ja) | ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム | |
CN113342958B (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
CN117951274A (zh) | 一种基于融合向量和关键词检索的rag知识问答方法和装置 | |
CN117236410B (zh) | 一种可信的电子文件大语言模型训练、推理方法和装置 | |
Tohidi et al. | Optimizing Persian Multi-objective Question Answering System | |
Santhanavijayan et al. | Automatic generation of multiple choice questions for e-assessment | |
AU2022269916A1 (en) | Systems and methods for active curriculum learning | |
CN115309910B (zh) | 语篇要素和要素关系联合抽取方法、知识图谱构建方法 | |
Collarana et al. | A question answering system on regulatory documents | |
Tohidi et al. | Optimizing the performance of Persian multi-objective question answering system | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN115269797A (zh) | 面向知识社区模糊问题的答案推荐方法及系统 | |
Sinhababu et al. | Medical information retrieval and interpretation: a question-answer based interaction Model | |
Pourbahman et al. | Deep neural ranking model using distributed smoothing | |
Rojas-Simon et al. | Fundamentals of the ETS | |
Moore | Building an Automated QA System Using Online Forums as Knowledge Bases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170705 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210803 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6929539 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |