JP2021128637A

JP2021128637A - 受話文に対する応答文を推論するプログラム、装置及び方法

Info

Publication number: JP2021128637A
Application number: JP2020023845A
Authority: JP
Inventors: 彰夫石川; Akio Ishikawa; 広海石先; Hiromi Ishisaki
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2021-09-02
Anticipated expiration: 2040-02-14
Also published as: JP7200154B2

Abstract

【課題】受話文に対した破綻の無い応答文を推論するプログラム、装置及び方法を提供する。【解決手段】受話文に対する応答文を推論する装置において、訓練段階として、第１の言語の第１のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第２の言語の第２のコーパステキストを出力する対訳デコーダとを学習し、学習用受話文から対訳エンコーダによって生成されたコンテキストベクトルを入力した際に、学習用応答文から対訳エンコーダによって生成されたコンテキストベクトルを出力するように当該ニューラルネットワークを学習する。運用段階として、対象の受話文から対訳エンコーダによって第１のコンテキストベクトルを生成し、第１のコンテキストベクトルからニューラルネットワークによって第２のコンテキストベクトルを生成し、第２のコンテキストベクトルから対訳デコーダによって応答文を推論する。【選択図】図２

Description

本発明は、受話文に対する応答文を推論する対話生成システムの技術に関する。

従来、深層学習を用いた対話生成システムの技術がある（例えば非特許文献１参照）。この技術によれば、学習モデル自体がブラックボックスとなっており、シーケンスからシーケンスへ(sequence-to-sequence)の系列変換モデルとして学習する。用途として、マイクロブログや映画の字幕、トラブルシューティングデスクの問答集など多様な発話状況を含む対話コーパスを用いて、雑談のように特定の目的を伴わない対話（非タスク指向型対話）を実現する。

図１は、従来技術における推論装置の機能構成図である。

図１によれば、訓練段階及び運用段階からなり、各段階はそれぞれ、エンコーダ−デコーダモデルとして構成されている。エンコーダ及びデコーダはそれぞれ、次の単語の出現確率を出力するＬＳＴＭ(Long short-term memory)に基づくものである。ＬＳＴＭは、ＲＮＮ(Recurrent Neural Network)の拡張として、時系列データ(sequential data)に対して長期記憶(Long term memory)及び短期記憶(Short term memory)によって構成された学習モデルである。

＜訓練段階＞
学習データベースは、単語列のセットからなる学習用受話文及び学習用応答文を対応付けて記憶している。
エンコーダは、学習用受話文からコンテキストベクトルを生成し、デコーダは、当該コンテキストベクトルから学習用応答文を生成する、ように学習する。
図１によれば、例えば以下のように、学習用受話文及び学習用応答文を対応付けて学習している。
（１）学習用受話文「最近、英会話を習い始めました」
学習用応答文「英会話が出来ないのですか？」
（２）学習用受話文「山登りが趣味です」
学習用応答文「どの山に登りましたか？」
＜運用段階＞
エンコーダは、対象受話文からコンテキストベクトルを生成し、デコーダは、当該コンテキストベクトルから応答文を生成する。

Oriol Vinyals, Quoc V. Le, "A Neural Conversational Model", Proceedings of the 31st International Conference on Machine Learning, vol.37, 2017. 東中竜一郎，船越孝太郎，荒木雅弘，塚原裕史，小林優佳，水上雅博，"テキストチャットを用いた雑談対話コーパスの構築と対話破綻の分析"，自然言語処理，Ｖｏｌ．２３，Ｎｏ．１，２０１６．星の本棚、「自然言語処理（ＮＬＰ）」、[online]、［令和１年１２月２９日検索］、インターネット＜URL:http://yagami12.hatenablog.com/entry/2017/12/30/175113#ID_10-5-1＞

前述した非特許文献１に記載の技術によれば、系列変換モデルのみを用いるために、対話文の文脈までは学習していない。そのために、対話が破綻する場合があった。

対話の破綻は、例えば以下の４つの事例に分類されている（例えば非特許文献２参照）。
（事例１）発話の破綻
発話そのものが破綻している場合がある。例えば、構文が崩れていて、そもそも日本語として成立していない場合がある。
（事例２）応答の破綻
日本語としては正しいが、相手の発言に対する応答が破綻している場合がある。例えば、受話文「それでは、趣味はなんですか？」に対して、応答文「最後に旅行されたのはいつですか？」を返答する場合がある。
（事例３）文脈の破綻
１回のやりとりとしては成立しているものの、既に話した内容とかみ合わない場合がある。例えば、１０秒前には応答文「お菓子が好き」と返答したにも拘わらず、直ぐに応答文「お菓子が嫌い」と返答する場合がある。
（事例４）環境の破綻
社会的（常識的）に不適切な発言をしてしまう場合がある。例えば、米国のMicrosoft社が公開した人工知能bot「Ｔａｙ」（登録商標）のように、急に人種差別的な発言をする場合がある。
一般的に、事例２の破綻が約５割、事例３の破綻が約３割、事例１の破綻が１割強で、事例４の破綻が少数程度、発生すると認識されている。

ここで、事例２の応答の破綻について、その原因としては、エンコーダの注意機構が重要視した単語が不適切であることが考えられる。
また、事例１の発話の破綻について、その原因としては、デコーダの精度不足が考えられる。

近年のニューラルネットワークを用いた自然言語処理では、文として自然であることを過度に優先することのないよう、エンコーダが「注意機構(Attention)」を備えている。
注意機構とは、新たに「デコーダで生成しようとしているi番目のtargetの単語翻訳時の内部状態」と、「エンコーダでの各単語の隠れ層」とを用いて計算されるコンテキストベクトルを、デコーダの推論時に用いるものである。そのために、注意機構を含むモデルでは、i番目の単語を出力するときに、入力として（１）１つ前の翻訳単語結果と、（２）デコーダの内部状態と、（３）注意機構によって算出されたコンテキストベクトルとが与えられ、それを用いてi番目の単語を推論する。
このように、注意機構によって重要視すべき単語や語句が指定されるために、適切な自然言語処理が可能となる。

しかしながら、ＬＳＴＭを用いたデコーダの場合、注意機構が学習用受話文及び学習用応答文に過学習を起こす場合があるために、受話文の文脈に対してではなく、注意機構が不適切な単語を重要視してしまうという課題がある。

図１によれば、運用段階で、例えば以下のように、対象受話文がエンコーダに入力され、その応答文がデコーダから出力されている。
対象受話文「最近、山登りを始めました」
応答文「山登りが出来ないのですか？」
ここで、応答文は日本語として問題は無いが、一般的に「山登りが出来ない」場合は限られており、受話文に対する応答文の文脈に不自然さや違和感を生じる。
これは、例えば訓練段階について、エンコーダが、例えば「〜を始めました」を重要視したことによって、応答文「〜が出来ないのですか？」の優先度が高まったものと考えられる。
このように、図１の例によれば、エンコーダの注意機構が重要視した単語が不適切であること（事例２の応答の破綻）や、デコーダの精度不足（事例１の発話の破綻）が考えられる。

そこで、本発明は、応答の破綻や発話の破綻に陥らないように、受話文に対する応答文を推論するプログラム、装置及び方法を提供することを目的とする。

本発明によれば、受話文に対する応答文を推論する装置に搭載されたコンピュータを機能させるプログラムにおいて、
訓練段階として、
エンコーダ−デコーダモデルとして、第１の言語の第１のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第１のコーパステキストの対訳となる第２の言語の第２のコーパステキストを出力する対訳デコーダとを学習し、
エンコーダ−デコーダモデルとして、学習用受話文から対訳エンコーダによって生成されたコンテキストベクトルを入力した際に、当該学習用受話文の対話となる学習用応答文から対訳エンコーダによって生成されたコンテキストベクトルを出力するようにニューラルネットワークを学習し、
運用段階として、
対象の受話文から対訳エンコーダによって第１のコンテキストベクトルを生成し、
第１のコンテキストベクトルからニューラルネットワークによって第２のコンテキストベクトルを生成し、
第２のコンテキストベクトルから対訳デコーダによって応答文を推論する
ようにコンピュータを機能させることを特徴とする。

本発明のプログラムにおける他の実施形態によれば、
対訳エンコーダは、注意(attention)機構を有しており、
対訳エンコーダから生成される第１のコンテキストベクトルと、ニューラルネットワークから生成される第２のコンテキストベクトルとは、潜在的に注意機構を含む
ようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
対訳エンコーダ及び対訳デコーダはそれぞれ、異なる言語数に応じて複数有し、
対訳エンコーダは、異なる言語の複数のコーパステキストをそれぞれ入力し、１つのコンテキストベクトルを生成し、及び／又は、
対訳デコーダは、１つのコンテキストベクトルを入力し、異なる言語の複数のコーパステキストをそれぞれ出力する
べく学習したものとなるようにコンピュータを機能させることも好ましい。

本発明のプログラムにおける他の実施形態によれば、
対訳エンコーダ及び対訳デコーダは、系列変換モデル(sequence-to-sequence)のニューラルネットワークに基づくものであり、
対訳エンコーダは、埋め込み層及び再帰層から構成され、
対訳デコーダは、埋め込み層、再帰層及び出力層から構成される
ようにコンピュータを機能させることも好ましい。

本発明によれば、受話文に対する応答文を推論する推論装置において、
訓練段階として、
エンコーダ−デコーダモデルとして、第１の言語の第１のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第１のコーパステキストの対訳となる第２の言語の第２のコーパステキストを出力する対訳デコーダとを学習し、
エンコーダ−デコーダモデルとして、学習用受話文から対訳エンコーダによって生成されたコンテキストベクトルを入力した際に、当該学習用受話文の対話となる学習用応答文から対訳エンコーダによって生成されたコンテキストベクトルを出力するようにニューラルネットワークを学習し、
運用段階として、
対象の受話文から対訳エンコーダによって第１のコンテキストベクトルを生成し、
第１のコンテキストベクトルからニューラルネットワークによって第２のコンテキストベクトルを生成し、
第２のコンテキストベクトルから対訳デコーダによって応答文を推論する
ことを特徴とする。

本発明によれば、受話文に対する応答文を推論する装置の推論方法において、
装置は、
訓練段階として、
エンコーダ−デコーダモデルとして、第１の言語の第１のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第１のコーパステキストの対訳となる第２の言語の第２のコーパステキストを出力する対訳デコーダとを学習し、
エンコーダ−デコーダモデルとして、学習用受話文から対訳エンコーダによって生成されたコンテキストベクトルを入力した際に、当該学習用受話文の対話となる学習用応答文から対訳エンコーダによって生成されたコンテキストベクトルを出力するようにニューラルネットワークを学習し、
運用段階として、
対象の受話文から対訳エンコーダによって第１のコンテキストベクトルを生成し、
第１のコンテキストベクトルからニューラルネットワークによって第２のコンテキストベクトルを生成し、
第２のコンテキストベクトルから対訳デコーダによって応答文を推論する
ように実行することを特徴とする。

本発明のプログラム、装置及び方法によれば、応答の破綻や発話の破綻に陥らないように、受話文に対する応答文を推論することができる。

従来技術における推論装置の機能構成図である。本発明における推論装置の訓練段階の機能構成図である。対訳デコーダ及び対訳エンコーダの訓練を表す第１の実施形態の説明図である。対訳デコーダ及び対訳エンコーダの訓練を表す第２の実施形態の説明図である。本発明における推論装置の運用段階の機能構成図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図２は、本発明における推論装置の訓練段階の機能構成図である。

図２によれば、推論装置１は、訓練段階として、対訳コーパスデータベース１０１と、学習データベース１０２と、対訳エンコーダ１１１と、対訳デコーダ１１２と、ニューラルネットワーク１２とを有する。これら機能構成図は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の推論方法における訓練段階としても理解できる。
ここで、訓練は、第１の訓練段階と第２の訓練段階とに区分される。各訓練段階とも、エンコーダ−デコーダモデルとして、コンテキストベクトルを介して構成される。

＜＜第１の訓練段階＞＞
第１の訓練段階では、対訳コーパスデータベース１０１に基づいて、対訳エンコーダ１１１及び対訳デコーダ１１２が訓練される。

［対訳コーパスデータベース１０１］
対訳コーパスデータベース１０１は、異なる言語間で対訳となるコーパステキスト(corpus text)を蓄積したものである。これは、対訳エンコーダ１１１に入力すべき第１の言語のコーパステキストと、対訳デコーダ１１２で出力されるべき第２の言語のコーパステキストとを対応付けたものである。
コーパステキストは、例えばニューラル機械翻訳における多言語の対訳コーパスであってもよい。即ち、同じ意味を表す異なる言語を、対訳として用意する。
日本語：「私はあなたを愛している。」
英語：「I love you.」
独語：「Ich liebe dich.」
中国語：「我愛弥」

［対訳エンコーダ１１１・対訳デコーダ１１２］
対訳エンコーダ１１１及び対訳デコーダ１１２は、対訳となる第１の言語のコーパステキスト及び第２の言語のコーパステキストを対応付けて入力し、エンコーダ−デコーダモデルとして学習する。
対訳エンコーダ１１１は、対訳コーパスデータベース１０１から入力した第１の言語のコーパステキストからコンテキストベクトルを生成する、ように学習する。ここで、対訳エンコーダは、注意(attention)機構を有する。
対訳デコーダ１１２は、当該コンテキストベクトルから、第２の言語のコーパステキストを出力する、ように学習する。

対訳エンコーダ１１１及び対訳デコーダ１１２は、エンコーダ−デコーダモデルとして、一方の系列(sequence)から他方の系列へ変換する確率をモデル化した、ニューラルネットワークに基づく「系列変換モデル(sequence-to-sequence / seq2seq)」として構成されたものである（例えば非特許文献３参照）。即ち、系列Ｘが入力されたときの、ある系列Ｙが出力される条件付き確率Ｐ（Ｙ｜Ｘ）を、モデル化したものである。
系列変換モデルは、系列Ｘを入力し、固定長の「コンテキストベクトル」を生成する対訳エンコーダ１１１と、その固定長のコンテキストベクトルから系列Ｙを出力する対訳デコーダ１１２とから構成される。

ここで、本発明によれば、最も注目すべき点として、受話文と応答文とは同一言語であるにも拘わらず、異なる言語間の対訳コーパスを用いることにある。
一般的に、受話文及び応答文が同一言語であれば、訓練段階及び運用段階も同一言語を用いる。当然、受話文及び応答文が日本語であれば、その他の言語間の対訳コーパスなど必要としない。もし、エンコーダ−デコーダのモデルで、日本語同士の対話のコーパスを用いたとしても、単なる恒等変換にしかならない。そのために、受話文及び応答文が同一言語であれば、対訳コーパステキストを用いることは全く想定されない。
これに対し、本発明によれば、あえて、受話文及び応答文が異なる言語となる「対訳コーパス」を用いて学習している。これによって、対訳エンコーダが生成するコンテキストベクトルに内在する注意機構の過学習を防ぐことができる。特に、対訳の言語種別が多いほど、個々の言語モデルの影響を受けないコンテキストベクトルの生成が可能となる。最終的に生成される応答文は、既存の言語モデルの影響をできる限り受けないものとなることが期待される。

図３は、対訳デコーダ及び対訳エンコーダの訓練を表す第１の実施形態の説明図である。

図３によれば、対訳エンコーダ１１１には、第１の言語のコーパステキストに基づく形態素系列が入力される。
日本語：「あなた／を／愛し／て／いる／<EOS>」
対訳デコーダ１１２には、第２の言語のコーパステキストに基づく形態素系列が入力される。
英語：「<BOS>／I／love／you／<EOS>」
第１の言語のコーパステキスト、第２の言語のコーパステキストとは、異なる言語であるが、同義文である。

また、図３によれば、対訳エンコーダ１１１には、例えば以下の日本語文が入力されている。
「幕府は、1639年、ポルトガル人を追放し、大名には沿岸の警備を命じた。」
これに対し、対訳デコーダ１１２は、コンテキストベクトルから、以下のような英語文を出力するように、対訳エンコーダ１１１及び対訳デコーダ１１２を学習する。
「The shogunate banished Portuguese in 1639, ordered Daimyo to guard
the coast.」
同様に、図３によれば、対訳エンコーダ１１１には、例えば以下の日本語文が入力されている。
「1639年、ポルトガル人は追放され、幕府は大名から沿岸の警備を命じられた。」
これに対し、対訳デコーダ１１２は、コンテキストベクトルから、以下のような英語文を出力するように、対訳エンコーダ１１１及び対訳デコーダ１１２を学習する。
「In 1639, the Portuguese were expelled, and the shogunate was ordered
to protect the coast from Daimyo.」

図３によれば、対訳エンコーダ１１１は、埋め込み層及び再帰層から構成され、第１の言語のコーパステキストからコンテキストベクトルを出力するように学習する。
埋め込み層は、入力テキストＸの各単語ｘを、埋め込みベクトル(embedding vector)の分散表現(distribute representation)に変換する。
次に、再帰層は、埋め込みベクトルを入力し、コンテキストベクトルを出力するように、再帰型ニューラルネットワークとして機能する。

これに対し、デコーダ１２は、埋め込み層、再帰層及び出力層から構成され、コンテキストベクトルを入力し、第２の言語のコーパステキストを出力するように学習する。
埋め込み層は、出力テキストＹの各単語ｙを、埋め込みベクトルの分散表現に変換する。
次に、再帰層は、埋め込みベクトルとコンテキストベクトルとを入力し、再帰型ニューラルネットワークとして機能する。
出力層は、再帰層から出力された出力系列Ｙの単語ｙに対応する隠れ層状態ベクトルを入力し、テキストを出力する。

図４は、対訳デコーダ及び対訳エンコーダの訓練を表す第２の実施形態の説明図である。

図４によれば、４つの異なる言語のコーパステキストを対応付けると共に、２つの対訳エンコーダ１１１と、２つの対訳デコーダ１１２とから、コンテキストベクトルが生成されている。即ち、２つの対訳エンコーダ１１１と２つの対訳デコーダ１１２とによって構成している。
図４によれば、日本語に対応する対訳エンコーダ１１１と、中国語に対応する対訳エンコーダ１１１とからの出力となるコンテキストベクトルを、英語に対応する対訳デコーダ１１２と、独語に対応する対訳デコーダ１１２とに入力して学習している。これによって、４つの異なる言語について、同義文となる対訳コーパスに共通するコンテキストベクトルが生成されることとなる。

勿論、更なる実施形態として、対訳エンコーダ１１１及び対訳デコーダ１１２を、１対２、２対１と異なるように構成してもよい。
例えば、日本語に対応する対訳エンコーダ１１１とからの出力となるコンテキストベクトルを、英語に対応する対訳デコーダ１１２と、独語に対応する対訳デコーダ１１２とに入力して学習するものであってもよい。
また、例えば、日本語に対応する対訳エンコーダ１１１と、中国語に対応する対訳エンコーダ１１１とからの出力となるコンテキストベクトルを、英語に対応する対訳デコーダ１１２に入力して学習するものであってもよい。

＜＜第２の訓練段階＞＞
図２に戻って、第２の訓練段階では、学習データベース１０２と、２つの対訳エンコーダ１１１と、ニューラルネットワーク１２とによって訓練される。

［学習データベース１０２］
学習データベース１０２は、学習用受話文及び学習用応答文を対応付けて蓄積したものである。これは、従来技術としての図１における学習データベースと同様のものである。

［２つの対訳エンコーダ１１１］
２つの対訳エンコーダ１１１は、第１の訓練段階で学習された対訳エンコーダ１１１をそのまま用いている。一方の対訳エンコーダ１１１は、対話となる学習用受話文を入力して、その学習用受話文からコンテキストベクトルを生成し、そのコンテキストベクトルをニューラルネットワーク１２へ入力する。他方の対訳エンコーダ１１１は、対話となる学習用応答文を入力し、その学習用応答文からコンテキストベクトルを生成し、そのコンテキストベクトルをニューラルネットワーク１２の出力側へ入力する。

例えば前述した図１と同様に、以下のように、学習用受話文及び学習用応答文を対応付けて学習している。
（１）学習用受話文「最近、英会話を習い始めました」
学習用応答文「英会話が出来ないのですか？」
（２）学習用受話文「山登りが趣味です」
学習用応答文「どの山に登りましたか？」

［ニューラルネットワーク１２］
ニューラルネットワーク１２は、エンコーダ−デコーダモデルとして、学習用受話文から対訳エンコーダによって生成されたコンテキストベクトルを入力した際に、当該学習用受話文の対話となる学習用応答文から対訳エンコーダによって生成されたコンテキストベクトルを出力する、ように学習する。
ニューラルネットワーク１２は、例えば畳み込みニューラルネットワークであるのが好ましい。

注目すべき点は、対訳エンコーダ１１１及び対訳デコーダ１１２を学習させるものではない、ことにある。
また、２つの対訳エンコーダ１１１によって生成されたそれぞれのコンテキストベクトルは、潜在的に注意機構を含むこととなる。
本発明によれば、対訳コーパスデータベース１０１を用いることによって、対訳エンコーダ１１１の注意機構は、言語の種別に影響されず、意味的に重要な単語を重要視するようになるため、応答文の破綻を抑制することができる。ここで、複数の異なる言語の対訳コーパスを用いて対訳デコーダ１１２を訓練することによって、性能が改善し、応答文の破綻を更に抑制することができる。

＜＜運用段階＞＞
図５は、本発明における推論装置の運用段階の機能構成図である。

推論装置１は、対象受話文に対する応答文を推論する。
図５によれば、運用段階では、対訳エンコーダ１１１と、ニューラルネットワーク１２と、対訳デコーダ１１２とからなるエンコーダ−デコーダモデルによって推論される。対訳エンコーダ１１１及び対訳デコーダ１１２は、第１の訓練段階で訓練されたものであり、ニューラルネットワーク１２は、第２の訓練段階で訓練されたものである。

対訳エンコーダ１１１は、対象の受話文から第１のコンテキストベクトルを生成する。
次に、ニューラルネットワーク１２は、第１のコンテキストベクトルから第２のコンテキストベクトルを生成する。
そして、対訳デコーダ１１２は、第２のコンテキストベクトルから応答文を生成する。
ここで、第１のコンテキストベクトル及び第２のコンテキストベクトルは、潜在的に注意機構を含むこととなる。

図５によれば、運用段階で、例えば以下のように、対象受話文が対訳エンコーダ１１１に入力され、その応答文が対訳デコーダ１１２から出力されている。
対象受話文「最近、山登りを始めました」
応答文「どの山に登りましたか？」
ここで、応答文は、日本語として問題は無いだけでなく、文脈に不自然さや違和感も生じない。これは、エンコーダ−デコーダモデルのコンテキストベクトルに内在する注意機構が過学習を起こしていないことに基づくものである。この点で、従来技術における前述した図１と異なっている。

本発明によれば、対訳コーパスデータベース１０１を用いて対訳エンコーダ１１１を訓練しているために、「（英会話を）習い始めました」と「（山登りを）始めました」とを明確に区別して学習している。そのために、対訳エンコーダ１１１の注意機構は、「始めました」以外（例えば「山登り」）を重要視し、最終的には、正しい応答文を推論することとなる。
特に、深層学習が不得手とする「対話文生成」が可能となり、そのニューラルネットワークの適用範囲を広げることができる。

以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、応答の破綻や発話の破綻に陥らないように、受話文に対する応答文を推論することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１推論装置
１０１対訳コーパスデータベース
１０２学習データベース
１１１対訳エンコーダ
１１２対訳デコーダ
１２ニューラルネットワーク

Claims

受話文に対する応答文を推論する装置に搭載されたコンピュータを機能させるプログラムにおいて、
訓練段階として、
エンコーダ−デコーダモデルとして、第１の言語の第１のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第１のコーパステキストの対訳となる第２の言語の第２のコーパステキストを出力する対訳デコーダとを学習し、
エンコーダ−デコーダモデルとして、学習用受話文から対訳エンコーダによって生成されたコンテキストベクトルを入力した際に、当該学習用受話文の対話となる学習用応答文から対訳エンコーダによって生成されたコンテキストベクトルを出力するようにニューラルネットワークを学習し、
運用段階として、
対象の受話文から対訳エンコーダによって第１のコンテキストベクトルを生成し、
第１のコンテキストベクトルからニューラルネットワークによって第２のコンテキストベクトルを生成し、
第２のコンテキストベクトルから対訳デコーダによって応答文を推論する
ようにコンピュータを機能させることを特徴とするプログラム。
対訳エンコーダは、注意(attention)機構を有しており、
対訳エンコーダから生成される第１のコンテキストベクトルと、ニューラルネットワークから生成される第２のコンテキストベクトルとは、潜在的に注意機構を含む
ようにコンピュータを機能させることを特徴とする請求項１に記載のプログラム。
対訳エンコーダ及び対訳デコーダはそれぞれ、異なる言語数に応じて複数有し、
対訳エンコーダは、異なる言語の複数のコーパステキストをそれぞれ入力し、１つのコンテキストベクトルを生成し、及び／又は、
対訳デコーダは、１つのコンテキストベクトルを入力し、異なる言語の複数のコーパステキストをそれぞれ出力する
べく学習したものとなるようにコンピュータを機能させることを特徴とする請求項１又は２に記載のプログラム。
対訳エンコーダ及び対訳デコーダは、系列変換モデル(sequence-to-sequence)のニューラルネットワークに基づくものであり、
対訳エンコーダは、埋め込み層及び再帰層から構成され、
対訳デコーダは、埋め込み層、再帰層及び出力層から構成される
ようにコンピュータを機能させることを特徴とする請求項１から３のいずれか１項に記載のプログラム。
受話文に対する応答文を推論する推論装置において、
訓練段階として、
エンコーダ−デコーダモデルとして、第１の言語の第１のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第１のコーパステキストの対訳となる第２の言語の第２のコーパステキストを出力する対訳デコーダとを学習し、
エンコーダ−デコーダモデルとして、学習用受話文から対訳エンコーダによって生成されたコンテキストベクトルを入力した際に、当該学習用受話文の対話となる学習用応答文から対訳エンコーダによって生成されたコンテキストベクトルを出力するようにニューラルネットワークを学習し、
運用段階として、
対象の受話文から対訳エンコーダによって第１のコンテキストベクトルを生成し、
第１のコンテキストベクトルからニューラルネットワークによって第２のコンテキストベクトルを生成し、
第２のコンテキストベクトルから対訳デコーダによって応答文を推論する
ことを特徴とする推論装置。
受話文に対する応答文を推論する装置の推論方法において、
装置は、
訓練段階として、
エンコーダ−デコーダモデルとして、第１の言語の第１のコーパステキストからコンテキストベクトルを生成する対訳エンコーダと、当該コンテキストベクトルから第１のコーパステキストの対訳となる第２の言語の第２のコーパステキストを出力する対訳デコーダとを学習し、
エンコーダ−デコーダモデルとして、学習用受話文から対訳エンコーダによって生成されたコンテキストベクトルを入力した際に、当該学習用受話文の対話となる学習用応答文から対訳エンコーダによって生成されたコンテキストベクトルを出力するようにニューラルネットワークを学習し、
運用段階として、
対象の受話文から対訳エンコーダによって第１のコンテキストベクトルを生成し、
第１のコンテキストベクトルからニューラルネットワークによって第２のコンテキストベクトルを生成し、
第２のコンテキストベクトルから対訳デコーダによって応答文を推論する
ように実行することを特徴とする推論方法。