JP7290861B2

JP7290861B2 - 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム

Info

Publication number: JP7290861B2
Application number: JP2019133710A
Authority: JP
Inventors: 鍾勲呉; 一真門脇; ジュリアンクロエツェー; 龍飯田; 健太郎鳥澤
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2023-06-14
Anticipated expiration: 2039-07-19
Also published as: US20220253599A1; WO2021014951A1; JP2021018588A

Description

この発明は質問応答システムに関し、特に、自然言語で入力された質問に対し、回答を含む可能性があるパッセージをテキストアーカイブから抽出する質問応答システムに用いられ、パッセージを正しい回答を含むものとそうでないものとに分類する回答分類器、その回答分類器で使用される表現ジェネレータ、並びにその表現ジェネレータを訓練するためのコンピュータプログラムに関する。

自然言語処理を用いたなぜ型質問応答システムとして、後掲の特許文献１に開示されたものがある。図１にそのなぜ型質問応答システム３０の概略構成を示す。なぜ型質問応答システムの場合、なに型質問応答システムと異なり、回答となる可能性が高い文の集合からなる複数のパッセージ（以下「パッセージ群」という。各パッセージに含まれる文は５から７個である。）をテキストアーカイブから抽出し、その中から質問に対する回答として最もふさわしいものを選択するものが多い。ここでパッセージとは、テキスト中の連続する複数の文からなるものをいう。このなぜ型質問応答システム３０もそのようなシステムだが、その前提として、質問が与えられるとその質問に対する正しい回答を含む可能性が高い複数のパッセージをテキストアーカイブから抽出して出力する回答候補検索システム３４を利用する。

図１を参照して、特許文献１に開示されたなぜ型質問応答システム３０は、自然言語の音声からなる質問３２を受付け、質問をテキスト化して出力する質問受付部５０と、質問受付部５０が出力する質問のテキストを既存の回答候補検索システム３４に与え、その回答候補として複数のパッセージ（回答パッセージ）群を受信する応答受信部５２と、応答受信部５２が受信した回答パッセージを記憶する回答パッセージ記憶部５４とを含む。

なぜ型質問応答システム３０はさらに、ウェブ上に存在する大量のテキストを予め収集し記憶するウェブアーカイブ記憶部５６と、ウェブアーカイブ記憶部５６に記憶されているウェブアーカイブから、因果関係を表していると考えられる表現を抽出する因果関係表現抽出部５８とを含む。因果関係表現抽出部５８としては色々なものが考えられる。なぜ型質問の場合、因果関係を表す表現がその回答を抽出する上で重要である。特許文献１に開示されたシステムでは、「なぜなら」のような手掛かり語又は「Ａが原因でＢが起こる」のような特定の因果関係パターンを用いて回答パッセージ中の因果関係を認識するものが挙げられている。

なぜ型質問応答システム３０はさらに、回答パッセージ記憶部５４に記憶された回答パッセージの各々と、因果関係表現抽出部５８により抽出された因果関係に関する知識と、質問受付部５０から受けたテキスト化された質問６６とから、そのパッセージが質問６６に対する回答としてふさわしいか否かを判定するための特徴量を抽出する特徴量抽出部６０と、処理対象である回答パッセージと、特徴量抽出部６０により抽出された特徴量とを入力として、その回答パッセージが質問６６に対する回答としてふさわしいか否かを示す尤度（その質問が、その回答パッセージに対する質問である確率）をスコアとして算出するように予め訓練されたコンボリューショナル・ニューラル・ネットワーク（以下「ＣＮＮ」という。）６２と、ＣＮＮ６２により各回答パッセージに対して算出されたスコアに基づいて回答パッセージをランキングし、最上位のスコアを持つ回答パッセージを質問３２に対する回答３６として出力する回答候補ランキング部６４とを含む。

このなぜ型質問応答システム３０は、質問受付部５０により質問３２をテキストに変換し応答受信部５２と特徴量抽出部６０とに与える。応答受信部５２はこのテキストを回答候補検索システム３４に与える。回答候補検索システム３４はこの質問に対する回答を含む可能性の高いパッセージ群を、図示しないテキストアーカイブから検索し応答受信部５２に与える。これらパッセージ群は回答パッセージ記憶部５４に記憶される。

一方、因果関係表現抽出部５８はウェブアーカイブ記憶部５６に記憶されたウェブ上のテキストから因果関係表現を抽出し特徴量抽出部６０に与える。

特徴量抽出部６０は、回答パッセージ記憶部５４に記憶された複数のパッセージの各々について、そのパッセージと、テキスト化された質問６６と、因果関係表現抽出部５８に記憶された因果関係表現とから、そのパッセージが質問３２の回答としてふさわしいか否かを判定するための予め定められた特徴量を抽出する。この特徴量はＣＮＮ６２に与えられる。ＣＮＮ６２は、特徴量抽出部６０から与えられた特徴量と、回答パッセージ記憶部５４に記憶された、処理対象のパッセージとを受けて、そのパッセージが質問３２の回答としてふさわしいか否かを示すスコアを算出しそのパッセージと組合せて出力する。

回答候補ランキング部６４は、回答パッセージ記憶部５４に記憶された各パッセージについてＣＮＮ６２が算出したスコアに基づいてパッセージをランキングし、最もスコアの高いパッセージを回答３６として出力する。

特開2017-49681号公報

なぜ型質問の場合、その回答としては、その質問を結果部分に持つような因果関係表現の原因部分がふさわしい。特許文献１では、応答受信部５２により抽出された回答候補であるパッセージ群の中から、因果関係表現に基づいて回答として最も適切なパッセージを抽出できる。したがって特許文献１によれば、従来と比較してなぜ型質問に対する回答としてよりふさわしいものを選択できるとされている。

しかし、特許文献１に開示された発明に限らず、多くの場合、依然として各パッセージにノイズが含まれるという問題がある。この問題のため、各パッセージを正しくスコアリングすることがむずかしい。その結果、パッセージ群から回答となるパッセージを正しく選択する方法にはまだ改善の余地があると考えられる。

例えば図２を参照して、「Why does honey last a long time?」という質問９０を考える。この質問９０に対しては例えば回答パッセージ９２が得られる。この回答パッセージ９２は回答として正しい例（正例）と考えられる。

図３に、図２の回答パッセージ９２の中で着目すべき部分を示す。図３を参照して、この回答パッセージ９２は、「Honey can last a long time」という表現９４を含む。この表現９４は、この回答パッセージ９２が質問９０と関連していることを示す部分である。回答候補検索システム３４は、このような部分に着目し、その部分を含むパッセージを回答候補として出力する。一方、回答パッセージ９２の中で下線を引いた部分９６は質問に対する回答に関連する部分と考えられる。また、表現９４以外でかつ下線が引かれていない部分は、質問９０とは直接の関連がない部分である。これらがノイズに相当する。

これに対し、図４に示す回答パッセージ１００は、質問９０に関連する部分１０２を持つが、それ以外の部分、特に下線を引いた部分１０４は質問にも回答にも関係がない。これらは正例のノイズと似たような部分と考えられる。このように質問に対する回答と関連する部分がないパッセージは捨てる必要がある。

なぜ型質問応答システムでは、パッセージ群から回答に関連する部分の割合が大きなパッセージを選択する必要がある。そのためには、パッセージが、回答に関連する部分を多く含むか否かを高い確率で正しく判定する必要がある。

したがってこの発明は、質問に対する回答候補であるパッセージが、質問に対する回答に関連するか否かによりパッセージを高精度で分類する回答分類器、その回答分類器で用いられ、回答分類器に入力するための、パッセージの表現を生成するための表現ジェネレータを訓練するコンピュータプログラム、及びその表現ジェネレータを提供することを目的とする。

この発明の第１の局面に係るコンピュータプログラムは、コンピュータによる自然言語処理において、コンピュータを、自然言語からなる質問とその質問と組になる入力とが与えられると、当該入力を表現する第１の表現ベクトルを出力する第１の表現ジェネレータと、質問と当該質問に対する回答とが与えられると、第１の表現ベクトルと同一形式で、回答を表現する第２の表現ベクトルを出力する第２の表現ジェネレータと、第１の表現ベクトル又は第２の表現ベクトルの入力を受け、当該入力された表現ベクトルが第１の表現ベクトルか第２の表現ベクトルかを判定するための分別器と、第１の表現ベクトルに対する誤判定ができるだけ大きくなるように、かつ、第２の表現ベクトルに対する誤判定ができるだけ小さくなるように、分別器及び第１の表現ジェネレータを敵対的学習により訓練する敵対的学習部として動作させる。

好ましくは、第１の表現ジェネレータは、質問と、当該質問に対する回答を含む可能性がある１又は複数の文を含むパッセージとが与えられると、当該パッセージから、質問に対する回答を表現する第１の表現ベクトルを出力するベクトル出力手段を含む。

より好ましくは、第１の表現ジェネレータは、質問と、ランダムに選択された１又は複数の文を含むパッセージとが与えられると、当該パッセージ及び質問から、質問に対する回答を表現する第１の表現ベクトルを出力するベクトル出力手段を含む。

さらに好ましくは、第１の表現ジェネレータは、質問と、ランダムな要素からなるランダムベクトルとが与えられると、当該ランダムベクトル及び質問から、質問に対する回答を表現する第１の表現ベクトルを出力するベクトル出力手段を含む。

この発明の第２の局面に係る表現ジェネレータは、上記したいずれかのコンピュータプログラムにより訓練された、パッセージから第１の表現を生成するものである。

この発明の第３の局面に係る回答分類器は、質問と、当該質問に対する回答を含む可能性があるパッセージとの入力を受け、当該パッセージから得られる、質問に対する回答の表現である第１の表現ベクトルを出力する、上記した表現ジェネレータと、パッセージと、第１の表現ベクトルと、質問とを受け、第１の表現ベクトルと質問とによるアテンションが加えられた、パッセージをエンコードする表現ベクトルを出力するパッセージエンコーダと、質問と、パッセージとを受け、パッセージによるアテンションが加えられた、質問の表現ベクトルを出力する質問エンコーダと、第１の表現ベクトル、パッセージの表現ベクトル、及び質問の表現ベクトルを受け、パッセージを質問に対する正しい回答と誤った回答とに分類するように予め訓練された判定部とを含む。

この出願に係る発明の目的、構成及び効果は、以下の図面とともに発明を実施するための形態の説明を参照することにより、より明確になるであろう。

図１は、特許文献１に開示のなぜ型質問応答システムの概略構成を示すブロック図である。図２は、質問とその質問に対する回答パッセージの正例とを示す図である。図３は、質問とその質問に対する回答パッセージの正例とを示す図である。図４は、質問とその質問に対する回答パッセージの負例とを示す図である。図５は、質問とその質問に対する回答パッセージの正例と、正例から作成したコア回答とを示す図である。図６は、一般的な敵対的学習の仕組みを説明するための模式図である。図７は、敵対的学習を使用してパッセージから人手により作成したコア回答と同様のコア回答を作成する偽物ジェネレータの訓練をする仮想的なシステムの仕組みを説明するための模式図である。図８は、この発明の第１の実施の形態に係る、パッセージに基づき人手により作成したコア回答から得られる表現と同様の表現を作成する偽物表現ジェネレータの訓練をするシステムの仕組みを説明するための模式図である。図９は、図８に示すシステムによる敵対的学習を実現するプログラムのメインルーチンの制御構造を示すフローチャートである。図１０は、図９に示すプログラムの中で、偽物表現ジェネレータのパラメータ学習を行うためのルーチンの制御構造を示すフローチャートである。図１１は、図８に仕組みを示したシステムにより訓練された偽物表現ジェネレータを用いて、あるパッセージが質問に対する回答として正しいか否かを判定する回答分類器の構造を示すブロック図である。図１２は、図８に示す偽物表現ジェネレータを構成するエンコーダの基本的構成を示すブロック図である。図１３は、この発明の第１の実施の形態に係る偽物表現ジェネレータを用いた、図１１に示す回答分類器による分類精度を、従来の回答分類器による精度と対比して表形式で示す図である。図１４は図１３と同じ表で、この発明の第１の実施の形態に係る偽物表現ジェネレータを用いた回答分類器による分類性能が、コア回答表現を採用することにより向上したことを示す図である。図１５は図１３と同じ表で、この発明の第１の実施の形態で用いたコア回答表現による偽物表現ジェネレータを採用した回答分類器による分類性能の向上が、他のコア回答の表現を用いたものより大きなことを示す図である。図１６は、この発明の第２の実施の形態に係る偽物表現ジェネレータを訓練するシステムの仕組みを説明するための模式図である。図１７は、この発明の第３の実施の形態に係る偽物表現ジェネレータを訓練するシステムの仕組みを説明するための模式図である。図１８は、この発明の第１、第２、及び第３の実施の形態に係る偽物表現ジェネレータをそれぞれ採用した回答分類器の精度を基準値と対比して表形式で示す図である。図１９は、従来のＯｐｅｎＱＡシステムの処理過程を示す模式図である。図２０は、図１９に示すＯｐｅｎＱＡシステムの構成を示すブロック図である。図２１は、この発明の実施の形態に係る偽物表現ジェネレータを採用したＯｐｅｎＱＡシステムの処理過程を示す模式図である。図２２は、この発明の実施の形態に係る偽物表現ジェネレータを採用したＯｐｅｎＱＡシステムの構成を示すブロック図である。この発明の各実施の形態に係る偽物表現ジェネレータの訓練システム、偽物表現ジェネレータ、及び回答分類器を実現するコンピュータシステムの外観を示す図である。図２３に外観を示すコンピュータシステムのハードウェア構成を示すブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［第１の実施の形態］
〔敵対的学習（ＧＡＮ）〕
上記した特許文献１に開示されたなぜ型質問応答システムは、既存のテキストから質問に対する回答候補のパッセージ群を抽出し、その中で回答として最も適切なパッセージを選択している。これに対して、回答候補のパッセージの中で、回答に関連する部分から「質問が求める原因」のみを要約することが考えられる。そのような要約を以下では「コア回答」と呼ぶ。

図５を参照して、例えば質問９０に対して回答パッセージ９２が得られたものとする。この回答パッセージ９２に基づいて人手で作成したコア回答の例が図５に示すコア回答１１０である。このコア回答１１０と回答パッセージ９２とを比較すると分かるように、コア回答１１０は回答パッセージ９２に含まれるパッセージの中で、質問９０に対する回答としてふさわしい部分のみから作成された、質問９０に対する的確な回答となっている。

人間の場合、正例のパッセージを要約してそのようなコア回答を作成することはそれほど難しくない。しかしこのようなコア回答をコンピュータによる自動処理で高精度に作成することは極めてむずかしい。

コンピュータによる自動処理で回答パッセージからコア回答を作成できる可能性がある技術として、敵対的学習（Generative Adversarial Network）という機械学習技術がある。ＧＡＮは特に画像の生成に適用されることが多く、例えば写真とほとんど区別できないような偽の画像（偽物）を生成したりできる。自然言語処理においても、コア回答の生成に威力を発揮する可能性がある。

図６に、ＧＡＮを用いて基本的構成を示す。図６を参照して、このＧＡＮは、偽物ジェネレータ１４４の学習を行うためのものである。偽物ジェネレータ１４４としては、例えば偽画像を生成するものが考えられる。

このＧＡＮ１３０は、ノイズ１４２をサンプリングし、サンプリングしたノイズから偽物のデータ（たとえば画像）１４６を生成する偽物ジェネレータ１４４と、本物のデータ１４０又は偽物のデータ１４６の入力を受けて、それらが本物か偽物かを分別し分別結果１５０を出力するための分別器１４８とを含む。分別器１４８は、本物のデータ１４０は本物、偽物のデータ１４６は偽物と正しく分類するように訓練される。偽物ジェネレータ１４４は、分別器１４８が偽物のデータ１４６を本物と誤って分類する確率が最大となるように自己のパラメータの学習を行う。分別器１４８と偽物ジェネレータ１４４とは交互に訓練を行い、最終的に分別器１４８の判定が５０％となった時点、又は、指定の繰返し回数の学習が終了した時点で訓練を終了する。この訓練が終了したときには、偽物ジェネレータ１４４は分別器１４８が本物か偽物かを正しく判定することが難しいほど、本物のデータ１４０に近い偽物データを生成することが可能になっている。

〔コア回答生成へのＧＡＮの適用〕
上記したコア回答をパッセージから自動的に偽物ジェネレータ１４４が生成できるようにすることを当面の目標として、それを実現するためのシステムとして考えられる仮想的なＧＡＮの構成を図７に示す。図７を参照して、このＧＡＮ１８０は、パッセージ１９０及び質問１９１から偽物コア回答１９８を生成するよう訓練される偽物ジェネレータ１９６と、パッセージ１９０及び質問１９１に基づいて人手によるコア回答作成１９２により作成されたコア回答１９４及び偽物ジェネレータ１９６が生成した偽物コア回答１９８とを用い、人手により作成したコア回答１９４は本物と、偽物ジェネレータ１９６により作成された偽物コア回答１９８は偽物と、それぞれ正しく分別して分別結果２０２を出力するよう訓練される分別器２００とを含む。偽物ジェネレータ１９６及び分別器２００はいずれもニューラルネットワークである。

ＧＡＮ１８０は、コア回答１９４については本物、偽物コア回答１９８については偽物とは分別するように（分別の誤りを最小化するように）分別器２００の訓練を行う。一方、パッセージ１９０から偽物ジェネレータ１９６が生成した偽物コア回答１９８について分別器２００が本物と判別する確率（分別の誤りの確率）が最大となるように偽物ジェネレータ１９６の訓練を行う。これはゲーム理論に基づくものであって、最終的にはナッシュ均衡に達し、分別器２００が分別を正しく行う確率は５０％となる。こうして訓練された偽物ジェネレータ１９６を用いてパッセージ１９０からコア回答を生成すれば、そのコア回答は人手により作成したコア回答１９４と区別ができないようなものとなる可能性もある。

しかし、以下に述べる実施の形態に係るＧＡＮは、パッセージ１９０から偽物コア回答を生成するように偽物ジェネレータを訓練するのではなく、偽物コア回答１９８の何らかの表現（偽物表現）が得られるように偽物ジェネレータを敵対的学習により訓練する、というものである。後述するようにこのような工夫をして得た偽物ジェネレータ（以下「偽物表現ジェネレータ」という。）を用いて回答パッセージが質問に対する正しい回答を与えるものか否かを判定したところ、驚くべきことに、従来と比較して明らかに高い精度が得られることがわかった。

〔構成〕
図８を参照して、第１の実施の形態に係る偽物表現ジェネレータ２４４を訓練するためのＧＡＮ２２０は、パッセージ１９０と、パッセージ１９０から人手によるコア回答作成１９２により作成されたコア回答１９４と、パッセージ１９０を得る元になった質問１９１とからなる三組を多数用いて偽物表現ジェネレータ２４４の訓練を行うためのものである。偽物表現ジェネレータ２４４は、パッセージ１９０と質問１９１とから偽物表現２４６を生成する。この実施の形態では、本物表現２４２及び偽物表現２４６は同じ要素数のベクトルである。すなわち、図７に示すものと異なり、この図８に示す偽物表現ジェネレータ２４４は、最終的な目的物を生成するのではなくそのベクトル表現（以下、これを「表現ベクトル」という。）を生成する。この表現ベクトルの要素数は、訓練データから得られるこれらベクトルの要素数の最大数となるように予め選択する。

ＧＡＮ２２０は、偽物表現ジェネレータ２４４に加えて、コア回答１９４と質問１９１とから、偽物表現２４６と同形式の表現である本物表現２４２を生成するための本物表現ジェネレータ２４０と、本物表現２４２については本物表現であると判定し、偽物表現ジェネレータ２４４により生成された偽物表現２４６については偽物表現であると分別して分別結果２５０を出力するよう（分別の誤りを最小化するよう）訓練される分別器２４８とを含む。

後述するように、ＧＡＮ２２０による訓練は、コンピュータハードウェアとそのコンピュータハードウェアにより実行されるコンピュータプログラム（以下「プログラム」という。）とにより実現される。図９は、ＧＡＮ２２０による訓練を実現するプログラムの制御構造を示すフローチャートである。

図９を参照して、このプログラムは、コンピュータを質問、コア回答、及び回答候補のパッセージのための各記憶部と通信可能に接続するステップ３００、偽物表現ジェネレータ２４４、本物表現ジェネレータ２４０、及び分別器２４８の学習を、本物表現ジェネレータ２４０及び分別器２４８と、偽物表現ジェネレータ２４４との間の敵対的学習により行うステップ３０４、ステップ３０４の結果、訓練の終了条件が充足されたか否かを判定し、判定結果に応じて制御の流れを分岐させるステップ３０６、及びステップ３０６において終了条件が成立していると判定されたことに応答して、そのときの偽物表現ジェネレータ２４４のパラメータを所定の記憶装置に保存するステップ３０８を含む。ステップ３０６の判定が否定のときには制御はステップ３０４に戻る。したがって、終了条件が充足されるまでステップ３０４が繰返される。

図１０を参照して、図９のステップ３０４における敵対的学習を実現するプログラムは、質問と、その質問に対応するパッセージとの組合せからなる複数のサンプルを訓練データからサンプリングするステップ３５０、偽物表現ジェネレータ２４４のパラメータを固定するステップ３５１、ステップ３５０でサンプリングされたサンプルのコア回答及び質問を用いて、本物表現ジェネレータ２４０により本物表現２４２を生成し、分別器２４８がこれらを偽物と誤って分別する確率を最小化するように分別器２４８の訓練を行うステップ３５２、ステップ３５２に続き、分別器２４８及び本物表現ジェネレータ２４０のパラメータを固定するステップ３５４、及び、パッセージ１９０及び質問１９１から偽物表現ジェネレータ２４４により偽物表現２４６を生成し、これら偽物表現２４６を分別器２４８が誤って本物表現と判定する確率を最大化するよう偽物表現ジェネレータ２４４のパラメータの学習を行うステップ３５６を含む。

図１１を参照して、上のようにして訓練された偽物表現ジェネレータ２４４を用い、質問４４２に対して回答候補のパッセージ４４０が適切な回答を与えるものか否かを判定するための回答特定の分類器４２０は、図９及び図１０に示す手順により敵対的学習によって事前学習した偽物表現ジェネレータ２４４と、同様に事前に訓練データを用いて訓練されたパッセージエンコーダ４４８及び質問エンコーダ４５４とを含む。ただし、パッセージエンコーダ４４８及び質問エンコーダ４５４は、なぜ型質問応答システムの訓練データを用いて、敵対的学習ではない通常の教師あり学習によって訓練される。

分類器４２０はさらに、コア回答の表現４４６と、パッセージの表現４５２と、質問の表現４５８とを入力として受け、パッセージ４４０が質問４４２に対する正しい回答を与えるパッセージか否かを示す分類結果４６２を出力するためのロジスティック回帰層４６０を含む。

図８に示す偽物表現ジェネレータ２４４及び本物表現ジェネレータ２４０はいずれもエンコーダと呼ばれる同様の構造を持つ。図１２を参照して、例えば偽物表現ジェネレータ２４４は、パッセージ１９０を受け、パッセージ１９０を構成する各単語を単語埋込みベクトル（以下「単語ベクトル」という。）に変換し、単語ベクトル列５０６を出力する単語埋込み層５０４と、質問１９１を受け、質問１９１を構成する各単語を単語ベクトルに変換して単語ベクトル列５０２を出力する単語埋込み層５００とを含む。

偽物表現ジェネレータ２４４はさらに、単語ベクトル列５０６の各ベクトルに対して、単語ベクトル列５０２をアテンションとして加算しアテンションにより修飾された単語ベクトル列５１０を出力するアテンション加算部５０８と、単語ベクトル列５１０を受ける入力を持ち、パッセージ１９０の表現である偽物表現２４６（図１１におけるコア回答表現ベクトル４４４）を出力するよう、予め訓練されたＣＮＮ５１２とを含む。

図８に示す本物表現ジェネレータ２４０も、ＣＮＮ５１２を含めて偽物表現ジェネレータ２４４と同様の構成を持つ。エンコードの対象となるものがパッセージ１９０ではなくコア回答１９４であるという点で本物表現ジェネレータ２４０は偽物表現ジェネレータ２４４と異なっている。なお、図１１に示すパッセージエンコーダ４４８及び質問エンコーダ４５４もそれぞれ上記したエンコーダと同様の構成を持っている。

〔動作〕
最初に図８に示す偽物表現ジェネレータ２４４の学習について説明する。偽物表現ジェネレータ２４４は、図８に示す本物表現ジェネレータ２４０及び分別器２４８と併せて敵対的学習により訓練される。この訓練に先立ち、既存の質問応答システムにより、種々の質問１９１に対してその回答として適切なパッセージ１９０が収集され、質問１９１と対応付けて記憶装置に記憶される。それらパッセージ１９０から、人手によるコア回答作成１９２により、質問１９１の回答として適切でかつ短いコア回答１９４が生成され、記憶装置に記憶される。

図９を参照して、この学習では、パッセージ１９０、質問１９１及びコア回答１９４を記憶した記憶部にコンピュータを接続する。具体的には、コンピュータが、パッセージ１９０、質問１９１及びコア回答１９４を記憶した記憶装置内のこれらを含むファイルをオープンし、それらの内容を読出してメモリに格納する。又はこれらを記憶したデータベースからパッセージ１９０、質問１９１、及びコア回答１９４を読出し、メモリに格納する（ステップ３００）。

続いて、本物表現ジェネレータ２４０及び分別器２４８と、偽物表現ジェネレータ２４４との間で敵対的学習を行う（ステップ３０４）。

図１０を参照して、この敵対的学習では、質問１９１と、その質問に対するパッセージとの複数の組を学習データからサンプリングする（ステップ３５０）。続いて偽物表現ジェネレータ２４４のパラメータを固定する（ステップ３５１）。サンプリングした質問１９１と、その質問１９１に対するコア回答１９４を用いて本物表現ジェネレータ２４０が本物表現２４２を生成し分別器２４８に与える。分別器２４８はこの本物表現２４２が本物か否かを判定する。サンプリングされた学習データの全体に対するこの判定結果を用い、偽物表現ジェネレータ２４４のパラメータを固定した状態で、誤判定が０となるように分別器２４８及び本物表現ジェネレータ２４０のパラメータの訓練を行う。

続いて、分別器２４８及び本物表現ジェネレータ２４０のパラメータを固定する（ステップ３５４）。分別器２４８のパラメータを固定したまま、質問１９１とそれに対するパッセージ１９０とを用い、偽物表現ジェネレータ２４４の学習を行う（ステップ３５６）。具体的には、偽物表現ジェネレータ２４４が偽物表現２４６を生成する。分別器２４８はこの偽物表現２４６が本物表現か否かを判定する。この判定を複数の質問１９１に対して行い、偽物表現ジェネレータ２４４のパラメータを分別器２４８による誤判定が最大化するように、すなわち分別器２４８が偽物表現２４６を本物表現と判定する確率が大きくなるように、分別器２４８及び本物表現ジェネレータ２４０のパラメータを固定して偽物表現ジェネレータ２４４のパラメータを調整する。

こうした処理を繰返すことにより、本物表現ジェネレータ２４０及び分別器２４８と偽物表現ジェネレータ２４４とによる本物表現・偽物表現はゲーム理論におけるナッシュ均衡に達し、分別器２４８による判定結果は、正解が５０％、誤判定が５０％という状態に達する。図９を参照してステップ３０６では分別器２４８の判定の精度がこのナッシュ均衡の状態、又はナッシュ均衡に近い一定の状態に達したか否かを判定する。判定結果が否定であれば制御はステップ３０４に戻り、偽物表現ジェネレータ２４４の敵対的学習を続行する。ステップ３０６の判定結果が肯定であればステップ３０８で偽物表現ジェネレータ２４４のパラメータを記憶装置に保存し、処理を終了する。

図１１を参照して、分類器４２０の偽物表現ジェネレータ２４４は、上記した敵対的学習により訓練されたものである。したがって、偽物表現ジェネレータ２４４が生成したコア回答表現は、図８に示す分別器２４８が本物表現か偽物表現かについて正しく分類できないようなものとなっている。

一方、パッセージエンコーダ４４８及び質問エンコーダ４５４は、偽物表現ジェネレータ２４４と同様、図１２に示すような構成を持つ。ただしパッセージエンコーダ４４８及び質問エンコーダ４５４は、偽物表現ジェネレータ２４４と異なり、敵対的学習での事前学習は受けていない。

図１１を参照して、質問４４２とパッセージ４４０として、質問とそれに対する正しい回答を含むパッセージという組合せと、質問とそれに対する正しい回答を含まないパッセージという組合せの学習データを予め準備する。これらの組合せについては、パッセージが質問に対する正しい回答を含むか否かにしたがって、正しい回答又は誤答であることを示すラベルが付されている。

分類器４２０において、パッセージ４４０と質問４４２とを偽物表現ジェネレータ２４４に与える。偽物表現ジェネレータ２４４は、パッセージ４４０に対して質問４４２によるアテンションが加えられたコア回答表現ベクトル４４４を出力する。コア回答表現ベクトル４４４はコア回答の表現４４６としてロジスティック回帰層４６０に与えられる。

パッセージエンコーダ４４８に、パッセージ４４０と、そのパッセージ４４０に対して偽物表現ジェネレータ２４４により得られたコア回答表現ベクトル４４４及び質問４４２を与える。パッセージエンコーダ４４８はパッセージ４４０に対してコア回答表現ベクトル４４４及び質問４４２によるアテンションを加えてパッセージ表現ベクトル４５０を出力する。パッセージ表現ベクトル４５０はパッセージの表現４５２としてロジスティック回帰層４６０に与えられる。

一方、質問エンコーダ４５４には、質問４４２とパッセージ４４０とが与えられる。質問エンコーダ４５４は、質問４４２にパッセージ４４０によるアテンションを加えて質問表現ベクトル４５６を出力する。質問表現ベクトル４５６は質問の表現４５８としてロジスティック回帰層４６０に与えられる。

ロジスティック回帰層４６０は、コア回答の表現４４６、パッセージの表現４５２及び質問の表現４５８を入力として受け、ロジスティック回帰層のパラメータと、ソフトマックス関数とにより、パッセージ４４０が質問４４２として正しい回答を含むか否かを表す確率からなる分類結果４６２を出力する。

分類器４２０の中で、偽物表現ジェネレータ２４４を除く全体のパラメータは、このようにして得られた分類結果４６２と、予め準備されたパッセージ４４０のラベルとの誤差に基づいて誤差逆伝搬法により誤差が小さくなるように調整される。こうした処理を訓練データの全体を使用して行うことにより分類器４２０の訓練が終了する。

分類器４２０によるパッセージ４４０の判定動作時には、分類器４２０の各部は訓練時と同様に動作する。ただし、判定動作のときには、分類器４２０から最終的に得られた分類結果４６２にしたがって、パッセージ４４０が質問４４２に対する正しい回答を含むか否かが判定される。

〔実験結果〕
上記した分類器４２０により、日本語の質問に対して与えられたパッセージが正しい回答を示すものか否かを分別する実験（回答特定実験）を行った。質問はなぜ型質問である。敵対的学習用の学習データとしては、DIRECT（後掲の参考文献Ａ１）の回答要約データセット（参考文献Ａ２）の中で、学習データセットのみを取り出して利用した。この学習データセットは、１５，１３０件の三つ組（質問、パッセージ、コア回答）を含んでいた。

回答特定用のデータとしては、上記したDIRECTのデータセットに、敵対的学習用の学習データの１５，１３０件の三つ組から自動作成した１０，４０１件の質問・パッセージ対を追加した。この追加したデータを以下「AddTr」と呼ぶ。このように追加のデータを用いるのは、以下に述べるBaselineの手法等について、上記実施の形態のＧＡＮと同量の学習データで学習した場合との性能比較を行うためである。

図１３に結果を示す。図１３において、「OH17」で示される１行目の結果５５０は後掲の参考文献Ａ３に記載されたシステムで得られた結果である。なお、図１３の「Ｐ＠１」は、ランキングのトップの回答の適合率を示す。「ＭＡＰ」はmean average precisionを意味する。

図１３の２行目及び３行目を含む結果５５２において、「BASE」はコア回答の表現を使わず回答特定を行った場合の結果である。「＋AddTr」は上記したAddTrを追加学習データとして利用したときの回答特定の結果である。

図１３の４行目、５行目、及び６行目を含む結果５５４において、「＋CAns」は、上記参考文献Ａ２による手法で自動生成したコア回答からコア回答表現を生成した場合の結果を示す。「＋CEnc」は、参考文献Ａ２による手法のパッセージエンコーダの出力を偽物表現ジェネレータ２４４（図１１参照）の出力に代えて使用したものである。「＋Enc」は、敵対的学習ではなく、回答特定の分類器学習で同時に偽物表現ジェネレータ２４４を訓練し、その表現を利用したものである。この場合、偽物表現ジェネレータ２４４の事前学習はしていない。

図１３の７行目、８行目及び９行目を含む結果５５６において、「BERT」は、質問とパッセージとの解析に、ＣＮＮではなく後掲の参考文献Ａ４に記載されたBERTモデルを利用したものである。このとき、BASEと同様にコア回答の表現は使用していない。「＋AddTr」はBASEの場合と同様、AddTrを追加学習データとして利用した場合の結果である。「＋AGR」は、上記実施の形態で示した偽物表現ジェネレータ２４４（図１１）をBERTに追加してコア回答表現を利用した場合の結果である。

最後の行にある結果５５８が、上記実施の形態による結果である。

図１４を参照して、結果５５２と結果５５４からなる結果６００は、いずれもBaselineを基本とした手法による回答特定の精度を示す。上記実施の形態による結果５５８は、これらのいずれよりも高い精度を示した。また、結果６０２と結果６０４とを比較すると、上記実施の形態に係るコア回答表現を利用した場合、回答特定の性能が向上していることが分かる。

図１５を参照して、結果５５４と結果５５８とを比較すると、コア回答の表現としてCAns、CEnc、Encを使用したものと比較して、上記実施の形態に示したコア回答表現が性能向上に大きく貢献していることが分かる。

［第２の実施の形態］
〔構成〕
上記第１の実施の形態では、図８に示すように、本物表現２４２及び偽物表現２４６は、いずれも同じパッセージ１９０から得られたものを使用している。図１６を参照して、この第２の実施の形態に係るＧＡＮ６５０は、図８に示すものと同様の本物表現ジェネレータ２４０と、質問１９１及びランダムに選択した要素からなるランダムベクトル６６０を入力として受け、図８の偽物表現ジェネレータ２４４と同様の処理で偽物表現６６４を出力するための偽物表現ジェネレータ６６２と、本物表現２４２又は偽物表現６６４を入力として受けて、入力されたものが本物表現か偽物表現かを分別して分別結果６６８を出力するよう訓練された分別器６６６とを含む。ランダムベクトル６６０の要素数は、最大の大きさのパッセージに合わせて予め定めておくものとする。

ＧＡＮ６５０の訓練は、図８のパッセージ１９０ではなくランダムベクトル６６０を使用することを除き、第１の実施の形態に係るＧＡＮ２２０と同じである。

偽物表現ジェネレータ６６２及び分別器６６６は、それぞれ図８に示す偽物表現ジェネレータ２４４及び分別器２４８と同じ構成である。しかしこれらは、図８に示すパッセージ１９０と異なるデータ（ランダムベクトル６６０）を訓練データとして訓練されるため、それらのパラメータが図８に示すものと異なり、したがって異なる振る舞いを示すことになる。

〔動作〕
ＧＡＮ６５０の訓練及び回答特定時の動作は、第１の実施の形態に係るＧＡＮ２２０と同じである。ただし、訓練及び回答特定時に、偽物表現ジェネレータ６６２に与えられるのがパッセージではなくランダムベクトル６６０である点のみが第１の実施の形態と異なる。

この第２の実施の形態に係るＧＡＮ６５０によれば、第１の実施の形態には及ばないものの、従来技術と比較して明らかに優れた効果が得られた。その効果については、第３の形態に係るものの効果と併せて後述する。

［第３の実施の形態］
〔構成〕
図１７に、第３の実施の形態に係るＧＡＮ７００の構成を示す。図１７を参照して、ＧＡＮ７００は、コア回答１９４を受けて本物表現２４２を出力する本物表現ジェネレータ２４０と、回答を含む可能性があるとして集められたパッセージの中からランダムに選択されたランダムパッセージ７１０と、質問１９１とを入力として受け、ランダムパッセージ７１０の偽物表現７１４を出力する、図８に示す偽物表現ジェネレータ２４４と同じ構成の偽物表現ジェネレータ７１２と、本物表現２４２又は偽物表現７１４を受け、本物表現２４２と偽物表現７１４とを分別して分別結果７１８を出力するよう予め訓練された分別器７１６を含む。質問１９１はランダムパッセージ７１０とは無関係である。

ＧＡＮ７００の訓練は、図８のパッセージ１９０ではなくランダムパッセージ７１０を使用することを除き、第１の実施の形態に係るＧＡＮ２２０と同じである。

〔動作〕
ＧＡＮ７００の訓練及び回答特定時の動作は、第１の実施の形態に係るＧＡＮ２２０と同じである。ただし、訓練及び回答特定時に、偽物表現ジェネレータ７１２に与えられるのがパッセージではなくランダムパッセージ７１０である点のみが第１の実施の形態と異なる。

この第３の実施の形態に係るＧＡＮ７００でも、第１の実施の形態には及ばないものの、従来技術と比較して明らかに優れた効果が得られた。

〔第２及び第３の実施の形態に関する実験結果〕
図１８に、第２及び第３の実施の形態に関する実験結果を表形式で示す。図１８において「BASE」は図１５の２行目の「BASE」と同じものである。「提案法（ＲＶ）」は第２の実施の形態に係るものの結果を示す。「ＲＶ」は「Random Vector」を表す。「提案法（ＲＰ）」は第３の実施の形態に係るものの結果を示す。「ＲＰ」は「Random Passage」を表す。「提案法」は第１の実施の形態によるものの結果を示し、図１５の最終行の結果５５８と同じものである。

図１８と図１５とを比較すると、提案法（ＲＶ）及び提案法（ＲＰ）のいずれも、第１の実施の形態による結果には及ばないが、図１８に示すBASEと比較して明確に高い精度を示し、さらに図１５に示す他のどの手法と比較しても同等以上の結果を得ることができたことが分かる。

［第４の実施の形態］
〔構成〕
英語に関する質問応答システムに、後掲の参考文献Ａ５に記載されたDistantly supervised open-domain QA (DS-QA)と呼ばれるタスクがある。図１９を参照して、このタスク７５０は、質問７６０を受け、複数のパッセージ７６４を検索７６２し、そのパッセージ７６４から回答７７４を抽出する、というタスクである。主な質問タイプはなに型質問である。したがって回答は単語又は名詞句からなることが多く、なぜ型質問に対する回答より短い傾向がある。より具体的には、このタスク７５０では、パッセージから回答を含む確率が高いパラグラフの集合７６８を選択するパラグラフ選択器７６６と、パラグラフ選択器７６６が選択したパラグラフの集合７６８と質問７６０とが与えられたとき、質問７６０に対する回答となる確率が最も高い単語列からなる回答候補の集合７７２を算出するパラグラフリーダ７７０とを含む。この回答候補の集合７７２から回答７７４が抽出される。

図２０を参照して、参考文献Ａ５に記載されたタスク７５０を実行する例示的な質問応答システム８００は、テキストアーカイブ８１０と、質問８１２を受けて、テキストアーカイブ８１０から回答候補を含むパラグラフの集合８１６を検索し取出すパラグラフ検索部８１４を含む。パラグラフの集合８１６をＰで表すと、Ｐ＝｛ｐ_１，…，ｐ_Ｎ｝、ただしｐ_１，…，ｐ_Ｎはいずれもパラグラフを表す（Ｎ＝正の整数）。質問応答システム８００はさらに、パラグラフの集合８１６に含まれるパラグラフｐ_１，…，ｐ_Ｎの各々から、正しい回答である可能性が高い部分（回答候補）を選択し、回答候補の集合８２０を生成するためのパラグラフ選択部８１８を含む。回答候補の集合８２０をＳで表すと、Ｓ＝｛ｓ_１，…，ｓ_Ｎ｝、ただしｓ_１，…，ｓ_Ｎはそれぞれパラグラフｐ_１，…，ｐ_Ｎから選択された回答候補である。

この質問応答システム８００はさらに、回答候補の集合８２０から質問８１２に対する正しい回答である確率が最も高い回答候補を抽出し回答８２４として出力する回答抽出部８２２を含む。

上記実施の形態に係る偽物表現ジェネレータがなぜ型質問だけでなくなに型質問にも有効か否かに関する汎化性能を調べるため、このDS-QAタスクに偽物表現ジェネレータを適用したものが第４の実施の形態である。その概念図を図２１に示す。

図２１を参照して、偽物表現ジェネレータを用いて上記タスク７５０と同様の処理を行うためのタスク８５０は、質問７６０を受けてパッセージ７６４を検索７６２し、併せて、パッセージ７６４から偽物表現８６２を生成するための、上記実施の形態のいずれかに係る偽物表現ジェネレータ８６０を含む。

このタスク８５０は、図１９のタスク７５０のパラグラフ選択器７６６及びパラグラフリーダ７７０に代えて、いずれも偽物表現８６２を用いてパラグラフ選択器７６６及びパラグラフリーダ７７０と同様の機能を実現するパラグラフ選択器８６４及びパラグラフリーダ８６８を含む。ここでは、パラグラフ選択器８６４により選択されたパラグラフがパラグラフの集合８６６を形成し、パラグラフリーダ８６８により選択された回答候補が回答候補の集合８７０を形成するものとする。

このタスク８５０を実行する、この実施の形態に係る質問応答システム９００の概略構成を図２２に示す。図２２を参照して、質問応答システム９００は、テキストアーカイブ８１０と、質問８１２を受けて、テキストアーカイブ８１０から回答候補を含むパラグラフの集合８１６を検索し取出すパラグラフ検索部８１４を含む。パラグラフの集合８１６はＰ＝｛ｐ_１，…，ｐ_Ｎ｝である。ただしｐ_１，…，ｐ_Ｎはいずれもパラグラフを表す（Ｎ＝正の整数）。

質問応答システム９００はさらに、パラグラフの集合８１６に含まれる各パラグラフと、質問８１２とを入力として受け、コア回答表現の集合９１２を生成するコア回答表現ジェネレータ９１０を含む。これらコア回答表現はパラグラフｐ_１，…，ｐ_Ｎの各々に対して１つずつ得られる。これらコア回答表現をそれぞれｃ_１，…，ｃ_Ｎで表す。すなわち、コア回答表現の集合９１２はＣ＝｛ｃ_１，…，ｃ_Ｎ｝である。コア回答表現ジェネレータ９１０としては、上記した実施の形態又は同様の手法によって訓練されたものであればいずれでもよい。

質問応答システム９００はさらに、パラグラフの集合８１６内の各パラグラフｐ_１，…，ｐ_Ｎと、それらパラグラフから得られたコア回答表現ｃ_１，…，ｃ_Ｎとをペアリングし（パラグラフ１個とそれから得られたコア回答表現１個とを組合せ）、パラグラフとコア回答表現対の集合９１６を生成するためのペアリング部９１４を含む。パラグラフとコア回答表現対の集合９１６はＰ_ｐｃ＝｛（ｐ_１，ｃ_１），…，（ｐ_Ｎ，ｃ_Ｎ）｝と表せる。

質問応答システム９００はさらに、パラグラフとコア回答表現対の集合９１６から各パラグラフについて、そのパラグラフの中で質問８１２に対する回答となる確率が最も高い部分を回答候補として選択し各パラグラフの回答候補の集合９２０を生成するためのパラグラフ選択部９１８を含む。各パラグラフの回答候補の集合９２０を再びＳで表せばＳ＝｛ｓ_１，…，ｓ_Ｎ｝である。

質問応答システム９００はさらに、各パラグラフの回答候補の集合９２０の各要素ｓ_１，…，ｓ_Ｎと、コア回答表現の集合９１２の、各要素ｓ_１，…，ｓ_Ｎに対応するコア回答表現ｃ_１，…，ｃ_Ｎとをペアリングし、各パラグラフの回答候補とコア回答表現対の集合９２４を生成するためのペアリング部９２２を含む。各パラグラフの回答候補とコア回答表現対の集合９２４をＳ_ｐｃ＝｛（ｓ_１，ｃ_１），…，（ｓ_Ｎ，ｃ_Ｎ）｝と表す。

質問応答システム９００はさらに、回答候補とコア回答表現対の集合９２４から質問８１２に対する回答である確率が最も高い回答候補を含むペアを選択し、そのペアに含まれる回答候補を質問８１２に対する回答９２８として出力するための回答抽出部９２６を含む。

この実施の形態では、コア回答表現ジェネレータ９１０として上記したとおり、第１から第３の実施の形態の手法で訓練されたものであればどのようなものを用いてもよい。またパラグラフ検索部８１４としては、従来におけるパラグラフ検索と同様、テキスト中の手掛かり語を用いるものを利用すればよい。パラグラフ選択部９１８及び回答抽出部９２６としては機械学習により各候補のスコアを算出するように予め訓練した統計的モデルを用いれば良い。

パラグラフ選択部９１８の訓練には、質問、パラグラフ、及びその質問とそのパラグラフとから生成したコア回答表現とからなる質問・パラグラフ・コア回答表現の三つ組を入力とし、そのパラグラフがその質問に対する回答を含むか否かを示すラベルを教師データとする訓練データを用いる。

回答抽出部９２６の訓練も同様で、質問、回答候補、及び質問とその回答候補とから生成したコア回答表現とからなる質問・回答候補・コア回答表現の三つ組を入力とし、その回答候補がその質問に対する正しい回答か否かを示すラベルを教師データとする訓練データを用いる。

なお、参考文献Ａ５に開示された質問応答システムでは、最終的に回答候補が正しい回答である確率は、以下の式により算出する。質問ｑに対する回答ａを所与のパラグラフの集合Ｐ＝｛ｐ_ｉ｝から求める場合、図２０のパラグラフ選択部８１８及び回答抽出部８２２はそれぞれ、条件付き確率Ｐｒ（ｐ_ｉ｜ｑ、Ｐ）と条件付き確率Ｐｒ（ａ｜ｑ，ｐ_ｉ）をそれぞれ算出する。そして、最終的な出力Ｐｒ（ａ｜ｑ，Ｐ）がこれらの確率を組合せることで算出される。

この実施の形態では、上の枠組みに、以下の式にしたがって、パラグラフｐ_ｉから生成されたコア回答表現ｃ_ｉを組合せる。

参考文献Ａ５では、パラグラフ選択部８１８及び回答抽出部８２２では、パラグラフをエンコードする際に双方向多層ＲＮＮ（Bidirectional Stacked RNN）を用いている。入力としてはパラグラフの単語ベクトル列ｐ_ｉを用いる。それに対してこの実施の形態ではさらに、コア回答表現ｃ_ｉを用いて、アテンションで重み付けした単語ベクトル￣ｐ_ｉをパラグラフから算出する。パラグラフｐ_ｉのｊ番目の単語の単語ベクトルｐ_ｉ ^ｊに対して、後掲の参考文献Ａ６に記載されたアテンション重み付けと、参考文献Ａ７に記載されたバイリニア関数とを用いてアテンションにより修飾された単語ベクトル￣ｐ_ｉ ^ｊを計算した。この計算は、行列Ｍ∈Ｒ^ｄ×ｄ、ｄ＝３００として以下の式で表される。

ここで行列Ｍの各要素が学習の対象となる。softmax_jはsoftmax関数を適用した後のベクトルｘのｊ番目の要素を表す。この単語ベクトルｐ_ｉ ^ｊ及び￣ｐ_ｉ ^ｊを連結したものを、パラグラフｐ_ｉのj番目の単語ベクトルとして双方向多層ＲＮＮへの入力とした。

〔動作〕
質問応答システム９００は以下のように動作する。質問応答システム９００には、大きく分けて訓練フェーズとテストフェーズとがある。テキストアーカイブ８１０には大量のテキストが予め集積されている。

訓練フェーズでは、コア回答表現ジェネレータ９１０、パラグラフ選択部９１８、及び回答抽出部９２６を、それぞれ予め準備した訓練データを用いて訓練しておく。コア回答表現ジェネレータ９１０の訓練には、上記した敵対的学習を用いる。

テストフェーズでは、質問８１２が与えられると、パラグラフ検索部８１４がテキストアーカイブ８１０から手掛かり語等を用いて質問８１２に対する回答を含む可能性があるパラグラフを抽出しパラグラフの集合８１６を生成する。一方、コア回答表現ジェネレータ９１０はパラグラフの集合８１６内の各パラグラフと、質問８１２とを組合せてそれぞれコア回答表現の集合９１２を生成する。ペアリング部９１４がパラグラフとそのコア回答表現とをペアリングし、パラグラフとコア回答表現対の集合９１６を生成する。

パラグラフ選択部９１８は、パラグラフとコア回答表現対の集合９１６の中で質問８１２に対する回答を含む確率の高いパラグラフ（回答候補）を選択し回答候補の集合９２０を生成する。ペアリング部９２２が、回答候補の集合９２０内の各回答候補と、その回答候補に対応するコア回答表現とをペアリングし回答候補とコア回答表現対の集合９２４を生成する。

回答抽出部９２６が、回答候補とコア回答表現対の集合９２４内の回答候補の中から質問８１２に対する回答である確率が最も高い回答候補を抽出し、回答９２８として出力する。

〔効果〕
上記実施の形態に係る質問応答システムの性能を調べるために、他の４つの手法との比較を行った。４つの手法についてこの実験で用いたデータセットの統計を以下の表１に示す。ただしこれらのデータセットの中で、「＊」が付されたデータは今回の実験では用いなかった。

これらの中で、最初の３行のデータセットは、後掲の参考文献Ａ８で紹介されたものであり、DS-QA法の訓練及び評価に用いられた。４行目のデータセットは後掲の参考文献Ａ９に記載されたものであり、コア回答表現ジェネレータ９１０の訓練に用いた。このデータセット（ＳＱｕＡＤｖ１．１）は、質問、回答、及びその回答を含むパラグラフからなる三つ組からなっている。実験では、これらを全て用いてコア回答表現ジェネレータ９１０を訓練した。

実験では、比較のために公知の３つのデータセット (Quasar-T (参考文献Ａ１０)、SearchQA (参考文献Ａ１１)、及びTriviaQA (参考文献Ａ１２))を用い、公知の２つの手法であるＲ^３（参考文献Ａ１３）、OpenQA（参考文献Ａ８）、及び上記実施の形態による提案法（ＰＡＩＲ）を比較した。実験の結果を次の表２に示す。

評価には全てＥＭスコア及びＦ１スコアを用いた。ＥＭは真の回答（ground truth）のいずれかと正確に一致した予測結果の率を示す。Ｆ１は予測結果と真の回答との間の平均的な重なりを大まかに示す。この表において、TriviaQAの結果は、その開発データに対するものである。§及び†はそれぞれ提案法（ＰＡＩＲ）とOpenQAとの結果の性能差について、それぞれｐ＜０．０５及びｐ＜０．０１という条件でのMcNemar検定による統計的有意性を示す。

この結果から、上記実施の形態に係るコア回答表現ジェネレータ９１０を用いた場合、OpenQAとTriviaQAの組合せにおけるＦ１を除き、この出願による提案法が他の手法をいずれも上回る性能を示すことが分かる。結果の一部は、その性能差が統計的に有意な差であることを示している。

以上から、この発明に係るコア回答表現は、なぜ型質問応答システムだけではなく、他の質問応答システム、例えばなに型質問応答システムにも有効に利用できることが分かる。

［コンピュータによる実現］
図２３は、上記各実施の形態を実現するコンピュータシステムの外観図である。図２４は、図２３に示すコンピュータシステムのハードウェアブロック図である。

図２３を参照して、このコンピュータシステム９５０は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ１００２を有するコンピュータ９７０と、いずれもコンピュータ９７０に接続された、ユーザと対話するためのキーボード９７４、マウス９７６、及びモニタ９７２とを含む。もちろんこれはユーザ対話のための構成の一例であって、ユーザ対話に利用できる一般のハードウェア及びソフトウェア（例えばタッチパネル、音声入力、ポインティングデバイス一般）であればどのようなものも利用できる。

図２４を参照して、コンピュータ９７０は、ＤＶＤドライブ１００２に加えて、ＣＰＵ９９０と、ＧＰＵ（Ｇｒａｐｈｉｃs ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９９２と、ＣＰＵ９９０、ＧＰＵ９９２、ＤＶＤドライブ１００２に接続されたバス１０１０と、バス１０１０に接続され、コンピュータ９７０のブートアッププログラム等を記憶するＲＯＭ９９６と、バス１０１０に接続され、プログラムを構成する命令、システムプログラム、及び作業データ等を記憶するＲＡＭ９９８と、バス１０１０に接続された不揮発性メモリであるハードディスクドライブ（ＨＤＤ）１０００とを含む。ハードディスク１０００は、ＣＰＵ９９０及びＧＰＵ９９２が実行するプログラム、ＣＰＵ９９０及びＧＰＵ９９２が実行するプログラムが使用するデータ等を記憶するためのものである。コンピュータ９７０はさらに、他端末との通信を可能とするネットワーク９８６への接続を提供するネットワークＩ／Ｆ１００８と、ＵＳＢメモリ９８４が着脱可能で、ＵＳＢメモリ９８４とコンピュータ９７０内の各部との通信を提供するＵＳＢポート１００６とを含む。

コンピュータ９７０はさらに、マイク９８２及びスピーカ９８０とバス１０１０とに接続され、ＣＰＵ９９０により生成されＲＡＭ９９８又はＨＤＤ１０００に保存された音声信号をＣＰＵ９９０の指示にしたがって読出し、アナログ変換及び増幅処理をしてスピーカ９８０を駆動したり、マイク９８２からのアナログの音声信号をデジタル化し、ＲＡＭ９９８又はＨＤＤ１０００の、ＣＰＵ９９０により指定される任意のアドレスに保存したりするための音声Ｉ／Ｆ１００４を含む。

上記実施の形態では、図６～図８、図１１、図１２、図１６、図１７、図２２に示す偽物ジェネレータ１４４、１９６、２４４、６６２及び７１２、分別器１４８、２００、２４８、６６６及び７１６、テキストアーカイブ８１０、コア回答表現ジェネレータ９１０、パラグラフ選択部９１８、並びに回答抽出部９２６等のデータ及びパラメータ等は、いずれも例えば図２４に示すＨＤＤ１０００、ＲＡＭ９９８、ＤＶＤ９７８、又はＵＳＢメモリ９８４、若しくはネットワークＩ／Ｆ１００８及びネットワーク９８６を介して接続された図示しない外部装置の記憶媒体等に格納される。典型的には、これらのデータ及びパラメータ等は、例えば外部からＨＤＤ１０００に書込まれコンピュータ９７０の実行時にはＲＡＭ９９８にロードされる。

このコンピュータシステムを図８に示すＧＡＮ２２０、そのための敵対的学習による訓練装置、及びその各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、ＤＶＤドライブ１００２に装着されるＤＶＤ９７８に記憶され、ＤＶＤドライブ１００２からＨＤＤ１０００に転送される。又は、このプログラムはＵＳＢメモリ９８４に記憶され、ＵＳＢメモリ９８４をＵＳＢポート１００６に装着し、プログラムをハードディスク１０００に転送する。又は、このプログラムはネットワーク９８６を通じてコンピュータ９７０に送信されＨＤＤ１０００に記憶されてもよい。プログラムは実行のときにＲＡＭ９９８にロードされる。もちろん、キーボード９７４、モニタ９７２及びマウス９７６を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをＨＤＤ１０００に格納してもよい。スクリプト言語の場合には、キーボード９７４等を用いて入力したスクリプトをＨＤＤ１０００に格納してもよい。仮想マシン上で動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ９７０にインストールしておく必要がある。

ＣＰＵ９９０は、その内部のプログラムカウンタと呼ばれるレジスタ（図示せず）により示されるアドレスにしたがってＲＡＭ９９８からプログラムを読出して命令を解釈し、命令の実行に必要なデータを命令により指定されるアドレスにしたがってＲＡＭ９９８、ハードディスク１０００又はそれ以外の機器から読出して命令により指定される処理を実行する。ＣＰＵ９９０は、実行結果のデータを、ＲＡＭ９９８、ハードディスク１０００、ＣＰＵ９９０内のレジスタ等、プログラムにより指定されるアドレスに格納する。このとき、プログラムカウンタの値もプログラムによって更新される。コンピュータプログラムは、ＤＶＤ９７８から、ＵＳＢメモリ９８４から、又はネットワークを介して、ＲＡＭ９９８に直接にロードしてもよい。なお、ＣＰＵ９９０が実行するプログラムの中で、一部のタスク（主として数値計算）については、プログラムに含まれる命令により、又はＣＰＵ９９０による命令実行時の解析結果にしたがって、ＧＰＵ９９２にディスパッチされる。

コンピュータ９７０により上記した各実施の形態に係る各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ９７０を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ９７０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又はコンピュータ９７０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」の機能を呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ９７０の動作方法は周知であるので、ここでは繰返さない。なお、ＧＰＵ９９２は並列処理を行うことが可能であり、機械学習に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中で発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、ＣＰＵ９９０からＧＰＵ９９２にディスパッチされ、実行され、その結果が直接に、又はＲＡＭ９９８の所定アドレスを介してＣＰＵ９９０に返され、プログラム中の所定の変数に代入される。

〔参考文献Ａ１〕
Jong-Hoon Oh, Kentaro Torisawa, Chikara Hashimoto, Takuya Kawada, Stijn De Saeger, Jun’ichi Kazama, and Yiou Wang. 2012. Why question answering using sentiment analysis and word classes. In Proceedings of EMNLP-CoNLL, pages 368-378.
〔参考文献Ａ２〕
Ryu Iida, Canasai Kruengkrai, Ryo Ishida, Kentaro Torisawa, Jong-Hoon Oh, and Julien Kloetzer. 2019. Exploiting background knowledge in compact answer generation for why-questions. In Proceedings of Thirty-Third AAAI Conference on Artificial Intelligence 2019 (AAAI-19).
〔参考文献Ａ３〕
Jong-Hoon Oh, Kentaro Torisawa, Canasai Kruengkrai, Ryu Iida, and Julien Kloetzer. 2017. Multi-column convolutional neural networks with causality-attention for why-question answering. In Proceedings of WSDM.
〔参考文献Ａ４〕
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805.
〔参考文献Ａ５〕
Danqi Chen, Adam Fisch, Jason Weston, and Antoine Bordes. 2017. Reading Wikipedia to answer opendomain questions. In Association for Computational Linguistics (ACL).
〔参考文献Ａ６〕
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In Proceedings of ICLR.
〔参考文献Ａ７〕
Ilya Sutskever, Joshua B. Tenenbaum, and Ruslan R Salakhutdinov. 2009. Modelling relational data using bayesian clustered tensor factorization. In Proceedings of NIPS.
〔参考文献Ａ８〕
Yankai Lin, Haozhe Ji, Zhiyuan Liu, and Maosong Sun. 864 2018. Denoising distantly supervised open-domain question answering. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL 2018, pages 1736-1745.
〔参考文献Ａ９〕
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. 2016. Squad: 100,000+ questions for machine comprehension of text. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2383-2392.
〔参考文献Ａ１０〕
Bhuwan Dhingra, Kathryn Mazaitis, and William W Cohen. 2017. Quasar: Datasets for question answering by search and reading. arXiv preprint arXiv:1707.03904.
〔参考文献Ａ１１〕
Matthew Dunn, Levent Sagun, Mike Higgins, V. Ugur Gueney, Volkan Cirik, and Kyunghyun Cho. 2017. Searchqa: A new q&a dataset augmented with context from a search engine. CoRR, abs/1704.05179.
〔参考文献Ａ１２〕
Mandar Joshi, Eunsol Choi, Daniel Weld, and Luke Zettlemoyer. 2017. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. In Proceedings of the 55th Annual Meeting 851 of the Association for Computational Linguistics, 852 pages 1601-1611.
〔参考文献Ａ１３〕
Shuohang Wang, Mo Yu, Xiaoxiao Guo, Zhiguo Wang, Tim Klinger, Wei Zhang, Shiyu Chang, Gerry Tesauro, Bowen Zhou, and Jing Jiang. 2018. R3: Reinforced ranker-reader for open-domain question answering. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), pages 5981-5988.

今回開示された実施の形態は単に例示であって、この発明が上記した実施の形態のみに制限されるわけではない。この発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０なぜ型質問応答システム
３２、６６、９０、１９１、４４２、７６０、８１２質問
３４回答候補検索システム
８００、９００質問応答システム
３６、７７４、８２４、８７２、９２８回答
５０質問受付部
５２応答受信部
５４回答パッセージ記憶部
５６ウェブアーカイブ記憶部
５８因果関係表現抽出部
６０特徴量抽出部
６２、５１２ＣＮＮ
６４回答候補ランキング部
９２、１００回答パッセージ
９４表現
１１０、１９４コア回答
１３０、１８０、２２０、６５０、７００ＧＡＮ
１４０本物のデータ
１４２ノイズ
１４４、１９６偽物ジェネレータ
１４６偽物のデータ
１４８、２００、２４８、６６６、７１６分別器
１５０、２０２、２５０、６６８、７１８分別結果
１９０、４４０、７６４パッセージ
１９２コア回答作成
１９８偽物コア回答
２４０本物表現ジェネレータ
２４２本物表現
２４４、６１２、６６２、７１２、８６０偽物表現ジェネレータ
２４６、６６４、７１４、８６２偽物表現
３００、３０４、３０６、３０８、３５０、３５１、３５２、３５４、３５６ステップ
４２０分類器
４４４コア回答表現ベクトル
４４６コア回答の表現
４４８パッセージエンコーダ
４５０パッセージ表現ベクトル
４５２パッセージの表現
４５４質問エンコーダ
４５６質問表現ベクトル
４５８質問の表現
４６０ロジスティック回帰層
４６２分類結果
５００、５０４単語埋込み層
５０２、５０６、５１０単語ベクトル列
５０８アテンション加算部
５５０、５５２、５５４、５５８、６００、６０２、６０４結果
６６０ランダムベクトル
７１０ランダムパッセージ
７５０、８５０タスク
７６２検索
７６６、８６４パラグラフ選択器
７６８、８１６、８６６パラグラフの集合
７７０、８６８パラグラフリーダ
７７２、８２０、８７０、９２０回答候補の集合
８１０テキストアーカイブ
８１４パラグラフ検索部
８１８、９１８パラグラフ選択部
８２２、９２６回答抽出部
９１０コア回答表現ジェネレータ
９１２コア回答表現の集合
９１４、９２２ペアリング部
９１６パラグラフとコア回答表現対の集合
９２４回答候補とコア回答表現対の集合

Claims

コンピュータによる自然言語処理において、コンピュータを、
自然言語からなる質問とその質問と組になる入力とが与えられると、当該入力を表現する第１の表現ベクトルを出力する第１の表現ジェネレータと、
前記質問と当該質問に対する回答とが与えられると、前記第１の表現ベクトルと同一形式で、前記回答を表現する第２の表現ベクトルを出力する第２の表現ジェネレータと、
前記第１の表現ベクトル又は前記第２の表現ベクトルの入力を受け、当該入力された表現ベクトルが前記第１の表現ベクトルか前記第２の表現ベクトルかを判定するための分別器と、
前記第１の表現ベクトルに対する誤判定ができるだけ大きくなるように、かつ、前記第２の表現ベクトルに対する誤判定ができるだけ小さくなるように、前記分別器及び前記第１の表現ジェネレータを敵対的学習により訓練する敵対的学習部として動作させる、コンピュータプログラム。
前記第１の表現ジェネレータは、前記質問と、当該質問に対する回答を含む可能性がある１又は複数の文を含むパッセージとが与えられると、当該パッセージから、前記質問に対する前記回答を表現する前記第１の表現ベクトルを出力するベクトル出力手段を含む、請求項１に記載のコンピュータプログラム。
前記第１の表現ジェネレータは、前記質問と、ランダムに選択された１又は複数の文を含むパッセージとが与えられると、当該パッセージ及び前記質問から、前記質問に対する前記回答を表現する前記第１の表現ベクトルを出力するベクトル出力手段を含む、請求項１に記載のコンピュータプログラム。
前記第１の表現ジェネレータは、前記質問と、ランダムな要素からなるランダムベクトルとが与えられると、当該ランダムベクトル及び前記質問から、前記質問に対する前記回答を表現する前記第１の表現ベクトルを出力するベクトル出力手段を含む、請求項１に記載のコンピュータプログラム。
請求項１から請求項４のいずれか１項に記載されたコンピュータプログラムにより訓練された、表現ジェネレータ。
質問と、当該質問に対する回答を含む可能性があるパッセージとの入力を受け、当該パッセージから得られる、前記質問に対する回答の表現である第１の表現ベクトルを出力する、請求項５に記載された表現ジェネレータと、
前記パッセージと、前記第１の表現ベクトルと、前記質問とを受け、前記パッセージをエンコードする、前記第１の表現ベクトルと前記質問とによるアテンションが加えられたベクトル表現を出力するパッセージエンコーダと、
前記質問と、前記パッセージとを受け、前記パッセージによるアテンションが加えられた、前記質問の表現ベクトルを出力する質問エンコーダと、
前記第１の表現ベクトル、前記パッセージの表現ベクトル、及び前記質問の表現ベクトルを受け、前記パッセージを前記質問に対する正しい回答と誤った回答とに分類するように予め訓練された判定部とを含む、回答分類器。