JP7175474B2

JP7175474B2 - 文生成学習方法、文生成学習装置及びプログラム

Info

Publication number: JP7175474B2
Application number: JP2019136419A
Authority: JP
Inventors: 昌明永田; 豪安井; 慶雅鶴岡
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2022-11-21
Anticipated expiration: 2039-07-24
Also published as: JP2021022007A

Description

特許法第３０条第２項適用一般社団法人言語処理学会第２５回年次大会（ＮＬＰ２０１９）、ＵＲＬ：ｈｔｔｐｓ：／／ｗｗｗ．ａｎｌｐ．ｊｐ／ｐｒｏｃｅｅｄｉｎｇｓ／ａｎｎｕａｌ＿ｍｅｅｔｉｎｇ／２０１９／ｉｎｄｅｘ．ｈｔｍｌ、ＵＲＬ：ｈｔｔｐｓ：／／ｗｗｗ．ａｎｌｐ．ｊｐ／ｐｒｏｃｅｅｄｉｎｇｓ／ａｎｎｕａｌ＿ｍｅｅｔｉｎｇ／２０１９／ｐｄｆ＿ｄｉｒ／Ｐ５－１２．ｐｄｆにて公開

本発明は、文生成学習方法、文生成学習装置及びプログラムに関する。

機械翻訳、対話文生成、要約などまず現在のニューラルネットに基づく文生成の主流である、アテンション付きエンコーダデコーダモデル(attention-based encoder-decoder model, 注意機構付き符号化復号化モデル)について説明する。

エンコーダデコーダモデルにおいて、入力系列Ｘ＝ｘ_１・・・ｘ_ｎに対する正解の出力系列Ｙ＝ｙ_１・・・ｙ_ｍとすれば、この出力系列に対するクロスエントロピー損失Ｌ_ＣＥは以下のように定義される。

ここで、ｐ_θ（ｙ_ｊ｜ｙ_ｊ－１，ｓ_ｊ）はモデルがｊ番目の単語を生成する確率、θはモデルのパラメタ、ｓ_ｊはステップｊにおけるデコーダの内部状態である。

エンコーダ（ｅｎｃｏｄｅｒ，符号化器）は、非線形変換により入力系列Ｘを内部状態系列（hidden states，隠れ層の状態）Ｈ＝ｈ_１・・・ｈ_ｎに写像するリカレントニューラルネットワーク（recurrent neural network）である。デコーダ（ｄｅｃｏｄｅｒ，復号器）は、出力系列Ｙを先頭から一つずつ生成するリカレントニューラルネットワークである。

エンコーダデコーダモデルのパラメタθは、確率的勾配降下法（stochastic gradient descent，ＳＧＤ）を使って対訳データＣ＝｛（Ｘ，Ｙ）｝に対するクロスエントロピー損失Ｌ_ＣＥを最小化するように学習される。

アテンション付きエンコーダデコーダモデルは、アテンション層（attention layer）と呼ばれるフィードフォワードニューラルネットワーク（feed-forward neural network）を持つエンコーダデコーダモデルである。

アテンション（attention）ａ_ｉ，ｊは、入力文の各単語ｘ_ｉに対応するエンコーダの内部状態ｈ_ｉと出力文の次の単語ｙ_ｊを予測する際に使用するデコーダの内部状態の類似度を正規化することにより求められる。アテンションは、デコーダにおいて次の単語を予測する際に使用する、原言語の各単語に対応するエンコーダの内部状態に対する重みであり、確率付きの単語対応（word alignment）と考えることができる。

一方、意味的テキスト類似度（Semantic Textual Similarity，ＳＴＳ）（非特許文献１）は、文間の類似度を決定するタスクである。二つの文に対して６段階のラベルを付与し、０は全く類似していない、５は完全に同じ内容であることを示す。評価用データはクラウドソーシングにより作成し、複数のアノテータが付与した数値の平均をとっているので文対データに実際に付与されている数値は整数とは限らない。意味的テキスト類似度を計算するシステムの性能は、システムが計算した類似度と人手により付与した類似度とのピアソン相関係数により評価する。

なお、意味的テキスト類似度は英語を中心に研究されているが、英語以外の言語や異なる言語の間でも同様の枠組みで意味的テキスト類似度を定義できる。

意味的テキスト類似度タスクは、２つの文の関係を決定するという意味では、言い換え検出（paraphrase detection）やテキスト含意認識（recognizing textual entailment）に似ている。意味的テキスト類似度は対称性が成り立つという点でテキスト含意認識より言い換え検出に近い。また、言い換え検出やテキスト含意認識は、「成立する」又は「成立しない」の二値であるが、意味的テキスト類似度は二値より粒度が細かい。

意味的テキスト類似度タスクは、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）のような事前学習（pre-training）済みの言語モデルを、意味的テキスト類似度の学習データを用いてfine tuningすることにより最高精度を実現できると報告されている（非特許文献２）。

ＢＥＲＴは、機械翻訳において最高性能を達成しているTransformerに基づくエンコーダを用いて言語表現を学習するモデルである。ＢＥＲＴは、入力系列中の単語を前方及び後方の双方向から予測するニューラル言語モデル（neural language model）を、単語列の中でマスクされた単語を予想するタスクと与えられた二つの文が隣接文であるかを予測するタスクで事前学習することにより、単語単位だけでなく文単位の特徴量を捉えることができる。また、事前学習された言語モデルを対象とするタスクの学習データでfine tuningすると、意味的テキスト類似度、テキスト含意認識、質問応答、固有表現抽出など様々なタスクで最高精度を達成できることが報告されている。

また、強化学習（reinforcement learning）は、現在の状態（state）を観測して取るべき行動（action）を選択するエージェント（agent）とそれに報酬（reward）を返す環境（environment）の間の相互作用を通じて、価値（value）又は累積報酬値を最大化することを目的としてエージェントが行動を選択する方策（policy）を学習する。

強化学習は、エージェントの行動を評価する報酬関数が微分可能でなくとも損失関数を計算できるので、ニューラルネットワークのパラメタに対して微分不可能な（勾配を計算できない）評価尺度を最適化するモデルを学習する目的で使用される。文生成に強化学習を用いる場合、その目的は次式のモデルの出力系列Ｙ＾＝ｙ＾_１・・・ｙ＾_ｍに対する報酬の期待値を最大化することである。なお、本文中におけるＹ＾は、以下の数式においてＹの上に＾が付与された記号に対応する。ｙ＾についても同様である。

ここでｒは、単語列を入力とする報酬関数でありモデルのパラメタθには依存しないと仮定する。

例えば、機械翻訳において入力文Ｘ、翻訳モデルによる出力文（翻訳結果）Ｙ＾、参照訳（正解）Ｙとし、報酬ｒ（Ｙ＾，Ｙ）を翻訳精度の自動評価尺度ＢＬＥＵとすれば、強化学習により評価尺度ＢＬＥＵを最大化するニューラル機械翻訳モデルを学習できる（非特許文献３）。

シンプルな強化学習の実現方法としてＲＥＩＮＦＯＲＣＥが知られている。ＲＥＩＮＦＯＲＣＥの損失関数は、モデルｐ_θ（Ｙ＾｜Ｘ）から文をサンプリングすることによって次式のように近似される。

ただし、ｒ_ｂはサンプリングすることで生じる損失の分散を緩和するための期待報酬の推定量で、ベースライン報酬（baseline reward）と呼ばれる。

文生成におけるベースライン報酬ｒ_ｂのモデルとしては、デコーダの各出力ステップにおいて隠れ状態ｓ_ｔを入力とし、以下のような線形変換とシグモイド関数から構成されるニューラルネットワークを用いて推定する方法が知られている（非特許文献３）。

ただし、ここで報酬は区間［０，１］に正規化されていると仮定する。

ベースライン報酬モデルは以下の式のような２乗誤差を損失関数として用いる。

ここでｒｂ（ｓｔ）は文生成モデルｐ_θ（Ｙ｜Ｘ）とは異なるパラメタを持ち、ベースライン報酬モデルの誤差は文生成モデルの誤差には伝播しない。

一般にＲＥＩＮＦＯＲＣＥによる強化学習は、報酬値の分散が大きいために特に学習初期において損失の減少が遅いことが知られている。そこで、はじめにクロスエントロピー損失を用いてモデルを学習し、途中から評価指標に基づく強化学習に移行する方法（非特許文献３）や、次式のように損失関数としてクロスエントロピー損失と強化学習による損失の線形和を用いる方法などが知られている（非特許文献４）。

ここでλはクロスエントロピーによる損失と強化学習による損失の比率を決める値で、一般に非常に小さい値が選ばれる。

Daniel Cer, Mona Diab, Eneko Agirre, Inigo Lopez-Gazpio, and Lucia Specia. Semeval-2017 task1: Semantic textual similarity multilingual and cross-lingual focused evaluation. In Proceedings of the SemEval-2017, pp. 1-14, 2017. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In aiXiv:1810.04805, 2018. Marc'Aurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. Sequence level training with recurrent neural networks. In Proceedings of the ICLR-2016, 2016. Lijun Wu, Fei Tian, Tao Qin, Jianhuang Lai, and Tie-Yan Liu. A study of reinforcement learning for neural machine translation. In Proceedings of the EMNLP-2018, 2018.

しかしながら、機械翻訳や対話文生成(チャットボット)のような、文を入力としてニューラルネットに基づく文生成を行うシステムは、「言い換え(paraphrase)」に対して寛容ではない。言い換えとは、例えば、「窮地」と「苦境」あるいは「脚光を浴びる」と「注目される」のような語彙的又は構文的に同じ意味を持つ異なる言語表現のことである。

これは、ニューラルネットワークに基づく文生成システムがモデルを学習する際に目的関数として「クロスエントロピー損失（cross entropy loss）」を使用することが一つの原因である。クロスエントロピー損失では、正解文とモデル生成した出力文を比較し、同じ単語でも文内の単語の位置がずれていると誤りとして扱われる。

もう一つの原因は、機械翻訳におけるＢＬＥＵのような文生成の自動評価尺度が単語の一致に基づいていることである。クロスエントロピー損失では、正解文と出力文を比較し、同じ単語ではなく同義語や類義語が使用されている場合には誤りとして扱われる。

本発明は、上記の点に鑑みてなされたものであって、文生成の精度を向上させることを目的とする。

そこで上記課題を解決するため、文生成モデルを用いて、入力文に対する出力文を文頭の単語から一つずつ生成する文生成手順と、前記単語が生成されるたびに、当該単語と当該単語の位置、及び正解文からクロスエントロピー損失を計算するクロスエントロピー計算手順と、前記単語が生成されるたびに、前記入力文に対してこれまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を計算する類似度計算手順と、前記単語が生成されるたびに、前記文生成モデルのデコーダの内部状態から、学習済みのベースライン報酬モデルに基づいてベースライン報酬を推定する報酬推定手順と、前記単語が生成されるたびに、前記クロスエントロピー損失と、前記意味的テキスト類似度と、前記ベースライン報酬の推定値とに基づいて、強化学習の損失を計算する強化学習損失計算手順と、一つの前記出力文の生成が終わると、前記強化学習の損失に応じて前記文生成モデルの学習パラメタを更新する文生成モデルパラメタ更新手順と、をコンピュータが実行する。

文生成の精度を向上させることができる。

本発明の実施の形態における文生成装置１０のハードウェア構成例を示す図である。本発明の実施の形態における文生成装置１０の機能構成例を示す図である。文生成処理の処理手順の一例を説明するためのフローチャートである。文生成装置１０が実行する学習処理の処理手順の一例を説明するためのフローチャートである。意味的テキスト類似度モデルの学習に関して文生成装置１０が有する機能構成例を示す図である。意味的テキスト類似度モデルの学習処理の処理手順の一例を説明するためのフローチャートである。文生成モデルの学習に関して文生成装置１０が有する機能構成例を示す図である。文生成モデルの学習処理の処理手順の一例を説明するためのフローチャートである。ベースライン報酬モデルの学習処理の処理手順の一例を説明するためのフローチャートである。

以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態における文生成装置１０のハードウェア構成例を示す図である。図１の文生成装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

文生成装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って文生成装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

図２は、本発明の実施の形態における文生成装置１０の機能構成例を示す図である。図２において、文生成装置１０は、文生成部１１、文生成モデル学習部１２及び意味的テキスト類似度モデル学習部１３等を有する。これら各部は、文生成装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。

文生成部１１は、入力文に対して出力文を生成するアテンション付きエンコーダデコーダである。文生成部１１は、アテンション付きエンコーダデコーダに限らず、Transformer（「Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.」）などのニューラルネットワークに基づき系列を生成するモデルであれば何でもよい。

文生成モデル学習部１２は、文生成部１１が利用する文生成モデルを学習する。意味的テキスト類似度モデル学習部１３は、文生成モデル学習部１２が利用する意味的テキスト類似度モデルを学習する。

図３は、文生成処理の処理手順の一例を説明するためのフローチャートである。文生成部１１は、入力文を入力とし（Ｓ１０１）、文生成モデル学習部１２によって学習済みの文生成モデルを用いて出力文を生成する（Ｓ１０３）。文生成部１１は、当該出力文を出力する（Ｓ１０３）。

図４は、文生成装置１０が実行する学習処理の処理手順の一例を説明するためのフローチャートである。本実施の形態では、ＢＥＲＴのような大量の言語データから汎用言語モデル学習部２１によって事前に学習された汎用言語モデルが存在することを前提とする。文生成タスクが機械翻訳の場合には、汎用言語モデルの言語は翻訳における翻訳先（目的）言語と一致している必要がある。

ステップＳ２０１において、意味的テキスト類似度モデル学習部１３は、意味的テキスト類似度データと汎用言語モデルから意味的テキスト類似度モデルを学習する。続いて、文生成モデル学習部１２は、文生成タスクの入力文と正解となる出力文の対から構成される学習データと意味的テキスト類似度モデルから文生成モデルを学習する（Ｓ２０２）。

［事前学習済み汎用言語モデルを用いた意味的テキスト類似度モデルの学習］
図４のステップＳ２０１の詳細について説明する。図５は、意味的テキスト類似度モデルの学習に関して文生成装置１０が有する機能構成例を示す図である。

意味的テキスト類似度モデルは、汎用言語モデルＢＥＲＴ及び回帰分析部１４を含み、二つの文を入力として、０から５までの意味的テキスト類似度を出力するモデルである。

図５において、意味的テキスト類似度モデル学習部１３は、損失計算部１３１及び意味的テキスト類似度モデルパラメタ更新部１３２を含む。意味的テキスト類似度モデル学習部１３は、意味的テキスト類似度タスクの学習データを用いて事前学習済み汎用言語モデルＢＥＲＴをｆｉｎｅｔｕｎｉｎｇすることにより意味的テキスト類似度モデルを生成する（非特許文献２）。

図６は、意味的テキスト類似度モデルの学習処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ３０１において、汎用言語モデル（ＢＥＲＴ）は、意味的テキスト類似度データの二つの文Ｙ_１とＹ_２の間に文区切り記号を挿入した一つの系列を入力とし、中間表現を出力する。

続いて、回帰分析部１４は、次式のようにＢＥＲＴの最上位層にプーリング層及びＲｅＬＵを活性化関数とする線形層を加えたもので、ＢＥＲＴが出力する中間表現から意味的テキスト類似度の推定値として一つの実数値を出力する（Ｓ３０２）。

続いて、損失計算部１３１は、学習データにある２つの入力文に対する意味的テキスト類似度の推定値と学習データにある正解ｖの意味的テキスト類似度から損失関数として平均二乗誤差（mean squared error）を求める（Ｓ３０３）。

意味的テキスト類似度モデルパラメタ更新部１３２は、損失の減少が収束するまで意味的テキスト類似度モデルの学習パラメタの更新を繰り返し（Ｓ３０４、Ｓ３０５）、損失の減少が収束すると（Ｓ３０５でＹｅｓ）、その際の学習パラメタを保存する（Ｓ３０６）。なお、学習パラメタの更新は、文単位で行われてもよいし、ミニバッチと呼ばれる複数の文のまとまりを単位として行われてもよい。

［意味的テキスト類似度を報酬とする強化学習による文生成モデルの学習］
図４のステップＳ２０２の詳細について説明する。文生成モデル学習部１２は、意味的テキスト類似度を報酬とする強化学習により文生成モデルを学習する。但し、意味的テキスト類似度は区間［０，５］に分布するので区間［０，１］に正規化するために１／５を掛ける。

また、本実施の形態において、強化学習アルゴリズムにはＲＥＩＮＦＯＲＣＥ（「Ronald J. Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, Vol. 8, No. 3-4, pp. 229-256, 1992.」）を使用する。さらにＲＥＩＮＦＯＲＣＥによる強化学習の際に損失関数の分散を安定させるためのベースライン報酬として、デコーダの内部状態からニューラルネットを用いて推定する式（５）を用いる。

図７は、文生成モデルの学習に関して文生成装置１０が有する機能構成例を示す図である。図７において、文生成モデル学習部１２は、文生成部１１、クロスエントロピー損失計算部１２１、意味的テキスト類似度推定部１２２、ベースライン報酬推定部１２３、強化学習損失計算部１２４、文生成モデルパラメタ更新部１２５、ベースライン報酬モデル損失計算部１２６及びベースライン報酬モデルパラメタ更新部１２７等を含む。なお、本実施の形態の文生成部１１は、アテンション付きエンコーダデコーダモデルを使用する。アテンション付きエンコーダデコーダモデルは、エンコーダ、デコーダ及びアテンション計算部から構成される。図７においてアテンション計算部は、便宜上、省略されている。

図８は、文生成モデルの学習処理の処理手順の一例を説明するためのフローチャートである。

文生成部１１は、学習データの中の入力文を一つずつ受け取り（Ｓ４０１）、入力文に対応する出力文を、文頭の単語から一つずつ生成する（Ｓ４０２）。

文生成部１１が単語を一つ生成すると、クロスエントロピー損失計算部１２１は、当該単語と当該単語の位置、及び学習データの正解文からクロスエントロピー損失を計算する（Ｓ４０３）。

続いて、意味的テキスト類似度推定部１２２は、これまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を推定（計算）する（Ｓ４０４）。

続いて、ベースライン報酬推定部１２３は、文生成部１１のデコーダの内部状態から、学習済みのベースライン報酬モデルに基づいて、ベースライン報酬を推定する（Ｓ４０５）。

続いて、強化学習損失計算部１２４は、クロスエントロピー損失と、意味的テキスト類似度と、ベースライン報酬の推定値から、式（４）に基づいて強化学習（ＲＥＩＮＦＯＲＣＥ）の損失を計算する（Ｓ４０６）。

ステップＳ４０２～Ｓ４０６は、一つの出力文が生成されるまで繰り返される。一つの出力文の生成が終わると（Ｓ４０７でＹｅｓ）、文生成モデルパラメタ更新部１２５は、文を単位として集計した強化学習の損失の減少が収束したか否かを判定する（Ｓ４０８）。当該損失の減少が収束していない場合（Ｓ４０８でＮｏ）、文生成モデルパラメタ更新部１２５が文生成モデルの学習パラメタを更新し（Ｓ４０９）、ステップＳ４０１以降が繰り返される。当該損失の減少が収束すると（Ｓ４０８でＹｅｓ）、文生成モデルパラメタ更新部１２５は、文生成モデルの学習パラメタを保存する（Ｓ４１０）。なお、学習パラメタの更新はミニバッチとよばれる複数の文のまとまりを単位として行われてもよい。

本実施の形態では、ＲＥＩＮＦＯＲＣＥによる強化学習は報酬の分散が大きいために特に学習の初期に損失の減少が遅いので、初めにある程度クロスエントロピー損失に基づく教師あり学習をしてからＲＥＩＮＦＯＲＣＥを用いた強化学習を行う。また強化学習の際に、報酬に基づく損失だけでは学習が不安定になることがあるので、式（７）のようにクロスエントロピーによる損失と強化学習による損失の線形和を用いる。

続いて、ベースライン報酬モデルの学習について説明する。ベースライン報酬モデルは、クロスエントロピー損失に基づく教師あり学習により作成された文生成モデルを用いて、強化学習に基づく文生成モデルの学習（図８）より前に予め行っておく。

図９は、ベースライン報酬モデルの学習処理の処理手順の一例を説明するためのフローチャートである。

文生成部１１は、学習データの中の入力文を一つずつ受け取り（Ｓ５０１）、入力文に対応する出力文を、文頭の単語から一つずつ生成する（Ｓ５０２）。

文生成部１１が単語を一つ生成すると、意味的テキスト類似度推定部１２２は、これまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を推定（計算）する（Ｓ５０３）。

続いて、ベースライン報酬推定部１２３は、文生成部１１のデコーダの内部状態からベースライン報酬を推定する（Ｓ５０４）。

続いて、ベースライン報酬モデル損失計算部１２６は、意味的テキスト類似度とベースライン報酬の推定値から、式（６）に基づいてベースライン報酬モデルの損失を計算する（Ｓ５０５）。

ステップＳ５０２～Ｓ５０５は、一つの出力文が生成されるまで繰り返される。一つの出力文の生成が終わると（Ｓ５０６でＹｅｓ）、ベースライン報酬モデルパラメタ更新部１２７は、文を単位として集計したベースライン報酬モデルの損失の減少が収束したか否かを判定する（Ｓ５０７）。当該損失の減少が収束していない場合（Ｓ５０７でＮｏ）、ベースライン報酬モデルパラメタ更新部１２７がベースライン報酬モデルの学習パラメタを更新し（Ｓ５０８）、ステップＳ５０１以降が繰り返される。当該損失の減少が収束すると（Ｓ５０７でＹｅｓ）、ベースライン報酬モデルパラメタ更新部１２７は、ベースライン報酬モデルの学習パラメタを保存する（Ｓ４１０）。なお、学習パラメタの更新はミニバッチとよばれる複数の文のまとまりを単位として行われてもよい。

以下、本実施の形態に関して行った実験について説明する。

事前学習済みのＢＥＲＴモデルはＢＥＲＴ－ｂａｓｅ－ｕｎｃａｓｅｄ（https://github.com/google-research/bert）を用いた。また、意味的テキスト類似度の学習データにはＳＴＳ－Ｂｅｎｃｈｍａｒｋ（ＳＴＳ－Ｂ）（http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark）を用いた。ＳＴＳ－Ｂは英語のニュース・画像のキャプション・チャット文からなるデータセットであり、学習、検証、評価用にそれぞれ約５７００、１５００、１４００文対と人手による文対の意味的テキスト類似度の評価値が含まれている。

翻訳の学習には、ＷＭＴ（Ｃonference on Machine Translation）の複数メディア翻訳タスクで使われる画像と多言語キャプションのデータセットｍｕｌｔｉ３０ｋ－ｄａｔａｓｅｔ（https://github.com/multi30k/dataset）を用いた。この中からｔａｓｋ１の英語とドイツ語のキャプション文のデータのみを利用した独英翻訳に関する実験を行った。このデータセットには学習用２９０００文と検証用の約１０００文に加えて、１０００文程度の評価用セットが複数含まれている。今回は評価用セットとしてｆｌｉｃｋｒ２０１７とｍｓｃｏｃｏ２０１７を用いた。

クロスエントロピー損失のみで学習させて翻訳モデル（ＭＬ）と、そこから更に意味的テキスト類似度を報酬とする強化学習を行った翻訳モデル（ＲＬ）の翻訳精度（ＢＬＥＵ（「Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the ACL-2002, pp. 311-318, 2002.」））及び意味的テキスト類似度（ＳＴＳ）を表１に示す。本実施の形態では、意味的テキスト類似度を最大化するようにモデルを学習しているので、意味的テキスト類似度（ＳＴＳ）が向上するのは当然であるが、両方の評価データで、ＭＬに比べてＲＬの翻訳精度（ＢＬＥＵ）が向上している。

上述したように、本実施の形態によれば、ニューラルネットに基づく文生成において、意味的テキスト類似度を報酬とする強化学習により機械翻訳モデルを学習することにより、クロスエントロピー損失によりモデルを学習した場合に比べて翻訳精度（文生成の精度）を向上させることができる。

具体的には、本実施の形態によれば、文の意味的類似性（意味的テキスト類似度）を報酬とした強化学習を用いることにより、構文構造の違いや単語の揺れや文構造の変化などを許容し、同じ意味を持つ多様な言語表現を生成することが可能となる。

なお、本実施の形態は、機械翻訳、対話文生成、要約、質問応答、画像キャプション生成など、ニューラルネットに基づく文生成を行うタスクに対して広く適用することができる。

また、本実施の形態において、事前学習済みの汎用言語モデルＢＥＲＴを用いて意味的テキスト類似度を計算する方法は、言い換え、含意関係など二つの入力文に対して人手により評価値を付与した正解データからその評価値を求める回帰問題に対して広く適用できる。

従って、本実施の形態は、このように文対に対して人手により定義された評価値を最大化／最小化するモデルを学習する問題に対して広く適用することができる。

なお、本実施の形態において、文生成装置１０は、文生成学習装置の一例である。意味的テキスト類似度推定部１２２は、計算部の一例である。

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０文生成装置
１１文生成部
１２文生成モデル学習部
１３意味的テキスト類似度モデル学習部
１４回帰分析部
２１汎用言語モデル学習部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１２１クロスエントロピー損失計算部
１２２意味的テキスト類似度推定部
１２３ベースライン報酬推定部
１２４強化学習損失計算部
１２５文生成モデルパラメタ更新部
１２６ベースライン報酬モデル損失計算部
１２７ベースライン報酬モデルパラメタ更新部
１３１損失計算部
１３２意味的テキスト類似度モデルパラメタ更新部
Ｂバス

Claims

文生成モデルを用いて、入力文に対する出力文を文頭の単語から一つずつ生成する文生成手順と、
前記単語が生成されるたびに、当該単語と当該単語の位置、及び正解文からクロスエントロピー損失を計算するクロスエントロピー計算手順と、
前記単語が生成されるたびに、前記入力文に対してこれまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を計算する類似度計算手順と、
前記単語が生成されるたびに、前記文生成モデルのデコーダの内部状態から、学習済みのベースライン報酬モデルに基づいてベースライン報酬を推定する報酬推定手順と、
前記単語が生成されるたびに、前記クロスエントロピー損失と、前記意味的テキスト類似度と、前記ベースライン報酬の推定値とに基づいて、強化学習の損失を計算する強化学習損失計算手順と、
一つの前記出力文の生成が終わると、前記強化学習の損失に応じて前記文生成モデルの学習パラメタを更新する文生成モデルパラメタ更新手順と、
をコンピュータが実行することを特徴とする文生成学習方法。
汎用言語モデルＢＥＲＴを用いて前記意味的テキスト類似度モデルを学習する意味的テキスト類似度モデル学習手順を前記コンピュータが実行する、
ことを特徴とする請求項１記載の文生成学習方法。
文生成モデルを用いて、入力文に対する出力文を文頭の単語から一つずつ生成する文生成部と、
前記単語が生成されるたびに、当該単語と当該単語の位置、及び正解文からクロスエントロピー損失を計算するクロスエントロピー計算部と、
前記単語が生成されるたびに、前記入力文に対してこれまでに生成された単語列と正解文から、学習済みの意味的テキスト類似度モデルに基づいて意味的テキスト類似度を計算する類似度計算部と、
前記単語が生成されるたびに、前記文生成モデルのデコーダの内部状態から、学習済みのベースライン報酬モデルに基づいてベースライン報酬を推定する報酬推定部と、
前記単語が生成されるたびに、前記クロスエントロピー損失と、前記意味的テキスト類似度と、前記ベースライン報酬の推定値とに基づいて、強化学習の損失を計算する強化学習損失計算部と、
一つの前記出力文の生成が終わると、前記強化学習の損失に応じて前記文生成モデルの学習パラメタを更新する文生成モデルパラメタ更新部と、
を有することを特徴とする文生成学習装置。
汎用言語モデルＢＥＲＴを用いて前記意味的テキスト類似度モデルを学習する意味的テキスト類似度モデル学習部を有する、
ことを特徴とする請求項３記載の文生成学習装置。
請求項１又は２記載の文生成学習方法をコンピュータに実行させることを特徴とするプログラム。