JP7130233B2

JP7130233B2 - 要約生成装置、および学習方法

Info

Publication number: JP7130233B2
Application number: JP2018147458A
Authority: JP
Inventors: 龍飯田; 健太郎鳥澤; カナサイクルンカライ; 鍾勲呉; 仁彦淺尾; 諒石田; ジュリアンクロエツェー
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2022-09-05
Anticipated expiration: 2038-08-06
Also published as: JP2020024488A

Description

本発明は、要約生成装置、および学習方法に関する。

テキストを自動要約する伝統的な技術では、テキスト内の単語等の重要度を何らかの尺度に基づいて推定し、重要な単語が指定された単語数内におさまるようにテキスト内の文を「抜粋」する手法が主流であった。これに対し、近年のニューラルネットワークを用いた生成技術の発展にともない、自動要約の手法も伝統的な「抜粋」型の手法から、自然な文を「生成」する技術が開発されている。「生成」型の自動要約の既存技術では、エンコーダ・デコーダモデルと呼ばれる、入力テキストを再帰的ニューラルネットワークで読み込み、その読み込み結果を利用して別の再帰的ニューラルネットワークで最終的な要約結果を生成するモデルを基礎とした要約手法が知られている（たとえば、非特許文献１を参照）。非特許文献１には、特に注視(アテンション)と呼ばれる入力テキストとの対応関係を生成時に考慮することで、自動翻訳の場合と同様に生成結果の品質が向上することが記載されている。

Ramesh Nallapati, Bowen Zhou, Cicero dos Santos, Caglar Gulcehre, and Bing Xiang. "Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond", In Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning, pages 280-290

従来型の自動要約の技術では、要約結果を最終的に一度だけ生成するが、その生成された要約結果に誤りが含まれる場合であっても、出力結果に変更が加えられることはない。特に、非特許文献１に記載されているようなエンコーダとデコータに基づく自動要約手法では、出力結果はある方向(例えば、文頭)から順に漸次的に単語が決定され、その決定された単語が次への入力となるため、一度誤った出力が混入すると、その誤りに依存してその後の単語選択が行われるという問題がある。

それゆえに、本発明の目的は、誤りの少ない要約を生成することができる要約生成装置、および要約生成装置のパラメータを学習する学習装置の学習方法を提供することである。

本発明のある局面の要約生成装置は、原文が入力される原文エンコーダと、原文エンコーダと接続される草稿デコーダとを含む草稿生成部と、草稿生成部と接続され、１段または複数段の推敲部を含む草稿改善部とを備える。推敲部は、草稿エンコーダと、草稿エンコーダと接続される推敲デコーダと、アテンション層とを含む。１段目の推敲部の草稿エンコーダは、草稿生成部の草稿デコーダの出力を受ける。２段目以降の推敲部の草稿エンコーダは、前段の推敲部の推敲デコーダの出力を受ける。最後段以外の推敲部の推敲デコーダの出力は、後段の推敲部の草稿エンコーダの入力と接続される。最後段の推敲部の推敲デコーダは、要約を出力する。草稿生成部の原文エンコーダおよび草稿デコーダのパラメータと、１段または複数段の推敲部の草稿エンコーダ、推敲デコーダ、およびアテンション層のパラメータとは、学習によって、草稿生成部の原文エンコーダに原文が入力されて、最後段の推敲部の推敲デコーダが要約を出力するように調整されている。

好ましくは、第ｘ段の推敲部のアテンション層は、草稿生成部の出力である原文エンコーダの出力と、第ｘ段の推敲部の草稿エンコーダの出力と、第ｘ段の推敲部の推敲デコーダの出力とを用いて、アテンションの重みベクトルを算出して、第ｘ段の推敲部の推敲デコーダへ出力されてなる。

好ましくは、草稿生成部は、さらに、原文の単語が草稿デコーダの出力に含まれるか否かを表わす一致情報を生成するマッチ部と、原文と一致情報とが入力される第２の原文エンコーダとを備える。第２の原文エンコーダの出力が草稿生成部の出力となる。

好ましくは、第ｘ段の推敲部は、さらに、草稿生成部の出力と、第ｘ段の推敲部の草稿エンコーダの出力とに基づいて、草稿生成部の出力をフィルタリングして、第ｘ段の推敲部のアテンション層に送るゲートを含む。

好ましくは、第ｘ段の推敲部は、さらに、草稿生成部の出力と、第ｘ段の推敲部の草稿エンコーダの出力とに基づいて、第ｘ段の推敲部の推敲デコータの初期状態を計算する演算部を含む。

本発明のある局面の学習方法は、原文が入力される原文エンコーダと、原文エンコーダと接続される草稿デコーダとを含む草稿生成部と、草稿生成部と接続され、１段または複数段の推敲部を含む草稿改善部とを備えた要約生成装置のパラメータを学習する学習装置における学習方法であって、推敲部は、草稿エンコーダと、草稿エンコーダと接続される推敲デコーダと、アテンション層とを含む、学習方法は、第１の学習において、Ｍ個のセットの原文と要約とからなる学習データを用いて、草稿生成部の原文エンコーダに原文が入力されて、草稿生成部の草稿デコーダが要約を出力するように、草稿生成部の原文エンコーダおよび草稿デコーダのパラメータを学習するステップと、学習されたパラメータを第２の学習における草稿生成部の原文エンコーダおよび草稿デコーダのパラメータの初期値に設定するステップと、第２の学習において、Ｎ個のセットの原文と要約とからなる学習データを用いて、草稿生成部の原文エンコーダに原文が入力されて、最後段の推敲部の推敲デコーダが要約を出力するように、草稿生成部の原文エンコーダおよび草稿デコーダ、１段または複数段の推敲部の草稿エンコーダ、推敲デコーダ、およびアテンション層のパラメータを学習するステップとを備える。

本発明によれば、誤りの少ない要約を生成することができる。

第１の実施形態の要約生成装置２０の構成を表わす図である。第１の実施形態の学習装置１０の構成を表わす図である。第１の実施形態の要約生成装置２０の動作手順を表わすフローチャートである。第１の実施形態の学習装置１０の動作手順を表わすフローチャートである。第２の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。第３の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。第４の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。第５の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。第６の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。学習装置１０および要約生成装置２０の内部構成を表わす図である。原文からコンパクトな回答を生成する実験の結果を表わす図である。原文から解決策の要約を生成する実験の結果を表わす図である。

以下、実施の形態について、図面を参照して説明する。
非特許文献１に記載されているようなエンコーダとデコータに基づく自動要約手法では、原文の読み込みと要約の生成はそれぞれ一度行われるため、生成される要約に誤りが多く含まれる。本願の発明者は、以下に示す段階的に要約を生成する方法を考案した。

［第１の実施形態］
図１は、第１の実施形態の要約生成装置２０の構成を表わす図である。

要約生成装置２０は、草稿生成部ＡＳＴＳと、草稿生成部ＡＳＴＳと接続される草稿改善部ＣＳとを備える。草稿改善部ＣＳは、Ｘ段の推敲部ＢＳＴＳ－１～ＢＳＴＳ－Ｘを備える。Ｘ＝１以上の自然数である。

草稿生成部ＡＳＴＳは、原文エンコーダＡＥと、草稿デコーダＡＤと、アテンション層ＡＡとを備える。原文エンコーダＡＥと、草稿デコーダＡＤとは、シーケンス・トウ・シーケンスモデルを構成する。以下の説明において、エンコーダまたはデコーダの隠れ層の状態とは、エンコーダまたはデコーダの出力を意味する。

原文エンコーダＡＥは、原文のシーケンスをエンコードする。
アテンション層ＡＡは、原文エンコーダＡＥと、草稿デコーダＡＤの隠れ層の状態とを用いて、アテンションの重みベクトルを計算する。

草稿デコーダＡＤは、原文エンコーダＡＥと接続され、原文エンコーダＡＥの出力と、アテンション層ＡＡからのアテンションの重みベクトルとを用いて、隠れ層の状態を計算して、草稿を表わすシーケンスを出力する。

第ｘ段の推敲部ＢＳＴＳ－ｘは、ゲートＧｘと、草稿エンコーダＢＥｘと、推敲デコーダＢＤｘと、アテンション層ＢＡｘとを備える。草稿エンコーダＢＥｘと、推敲デコーダＢＤｘとは、シーケンス・トウ・シーケンスモデルを構成する。

第１段の推敲部ＢＳＴＳ－１の草稿エンコーダＢＥ１は、草稿生成部ＡＳＴＳの草稿デコーダＡＤの出力を受けて、エンコードする。第ｘ段の推敲部ＢＳＴＳ－ｘ（ｘ＝２～Ｘ）の草稿エンコーダＢＥｘは、第（ｘ－１）段の推敲部ＢＳＴＳ－（ｘ－１）の推敲デコーダＢＤ（ｘ－１）の出力を受けて、エンコードする。

第ｘ段のゲートＧｘは、草稿生成部ＡＳＴＳの原文エンコーダＡＥの隠れ層の最終出力と、第ｘ段の推敲部ＢＳＴＳ－ｘの草稿エンコーダＢＥｘの隠れ層の最終出力とに基づいて、草稿生成部ＡＳＴＳの原文エンコーダＡＥの各単語インデックスの隠れ層の状態をフィルタリングして、第ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡｘに送る。

第ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡｘは、ゲートＧｘでフィルタリングされた草稿生成部ＡＳＴＳの原文エンコーダＡＥの隠れ層の状態と、第ｘ段の推敲部ＢＳＴＳ－ｘの草稿エンコーダＢＥｘの隠れ層の状態と、推敲デコーダＢＤｘの隠れ層の状態とを用いて、アテンションの重みベクトルを算出して、第ｘ段の推敲部ＢＳＴＳ－ｘの推敲デコーダＢＤｘへ出力する。推敲デコーダの初期状態は、例えば、ランダムデータが設定されていてよい。

最後段である第Ｘ段の推敲部ＢＳＴＳ－Ｘの推敲デコーダＢＤＸは、草稿エンコーダＢＥＸの出力と、第Ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡＸからの重みベクトルとに基づいて、隠れ層の状態を計算して、要約を表わすシーケンスを出力する。

最後段である第Ｘ段以外の推敲部ＢＳＴＳ－ｘ（ｘ＝１～Ｘ－１）の推敲デコーダＢＤｘは、草稿エンコーダＢＥｘの出力と、第ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡｘからの重みベクトルとに基づいて、隠れ層の状態を計算して、推敲後の草稿のシーケンスを後段である第（ｘ＋１）段の推敲部ＢＳＴＳ－（ｘ＋１）の草稿エンコーダＢＥ（ｘ＋１）の入力へ送る。

草稿生成部ＡＳＴＳの原文エンコーダＡＥおよび草稿デコーダＡＤのパラメータと、推敲部ＢＳＴＳ－ｘ（ｘ＝１～Ｘ）の草稿エンコーダＢＥｘ、推敲デコーダＢＤｘ、およびアテンション層ＢＡｘのパラメータとは、学習によって、草稿生成部ＡＳＴＳの原文エンコーダＡＥに原文が入力されて、最後段の推敲部ＢＳＴＳ－Ｘの推敲デコーダＢＤＸが要約を出力するように調整されている。

以上のようにして、草稿生成部ＡＳＴＳから出力される草稿を改善した要約が草稿改善部ＣＳから出力される。

図２は、第１の実施形態の学習装置１０の構成を表わす図である。
学習装置１０は、草稿生成部ＡＳＴＳと、草稿改善部ＣＳとを備える。草稿改善部ＣＳは、Ｘ段の推敲部ＢＳＴＳ－１～ＢＳＴＳ－Ｘと、学習データ記憶部１３と、学習結果記憶部１５とを備える。

草稿生成部ＡＳＴＳは、原文エンコーダＡＥと、草稿デコーダＡＤと、アテンション層ＡＡとを備える。原文エンコーダＡＥと、草稿デコーダＡＤとは、シーケンス・トウ・シーケンスモデルを構成する。

学習データ記憶部１３は、原文と要約とからなる複数個の学習データセットを記憶する。

原文エンコーダＡＥは、学習データ記憶部１３に記憶されている学習データセットの原文のシーケンスを受けて、エンコードする。

アテンション層ＡＡは、原文エンコーダＡＥの隠れ層の状態と、草稿デコーダＡＤの隠れ層の状態とを用いて、アテンションの重みベクトルを計算する。

草稿デコーダＡＤは、原文エンコーダＡＥと接続され、原文エンコーダＡＥの出力と、学習データ記憶部１３に記憶されている学習データセットの要約と、アテンション層ＡＡからのアテンションの重みベクトルとを用いて、隠れ層の状態を計算して、草稿を表わすシーケンスを出力する。

第ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡｘは、ゲートＧｘにてフィルタリングされた草稿生成部ＡＳＴＳの原文エンコーダＡＥの隠れ層の状態と、第ｘ段の推敲部ＢＳＴＳ－ｘの草稿エンコーダＢＥｘの隠れ層の状態と、推敲デコーダＢＤｘの隠れ層の状態とを用いて、アテンションの重みベクトルを算出して、第ｘ段の推敲部ＢＳＴＳ－ｘの推敲デコーダＢＤｘへ出力する。

最後段である第Ｘ段の推敲部ＢＳＴＳ－Ｘの推敲デコーダＢＤＸは、学習データ記憶部１３に記憶されている学習データセットの要約と、草稿エンコーダＢＥＸの出力と、第Ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡＸからの重みベクトルとに基づいて、隠れ層の状態を計算して、要約を表わすシーケンスを出力する。

最後段である第Ｘ段以外の推敲部ＢＳＴＳ－ｘ（ｘ＝２～Ｘ－１）の推敲デコーダＢＤｘは、草稿エンコーダＢＥｘの出力と、第ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡｘからのアテンションの重みベクトルとに基づいて、隠れ層の状態を計算して、推敲後の草稿のシーケンスを後段である第（ｘ＋１）段の推敲部ＢＳＴＳ－（ｘ＋１）の草稿エンコーダＢＥ（ｘ＋１）の入力へ送る。

第１回目の学習によって、草稿生成部ＡＳＴＳの原文エンコーダＡＥ、アテンション層ＡＡおよび草稿デコーダＡＤのパラメータとは、草稿生成部ＡＳＴＳの原文エンコーダＡＥに原文が入力されて、草稿デコーダＡＤが要約を出力するように調整される。第２回目の学習によって、草稿生成部ＡＳＴＳの原文エンコーダＡＥおよび草稿デコーダＡＤのパラメータと、推敲部ＢＳＴＳ－ｘ（ｘ＝１～Ｘ）の草稿エンコーダＢＥｘ、推敲デコーダＢＤｘ、およびアテンション層ＢＡｘのパラメータとは、草稿生成部ＡＳＴＳの原文エンコーダＡＥに原文が入力されて、最後段の推敲部ＢＳＴＳ－Ｘの推敲デコーダＢＤＸが要約を出力するように調整される。

学習結果記憶部１５は、学習によって調整されたパラメータを記憶する。
図３は、第１の実施形態の要約生成装置２０の動作手順を表わすフローチャートである。

図３を参照して、ステップＳ１０１において、草稿生成部ＡＳＴＳにおいて以下が実行される。原文エンコーダＡＥが原文のシーケンスをエンコードする。アテンション層ＡＡが、原文エンコーダＡＥの隠れ層の状態と草稿デコーダＡＤの隠れ層の状態とを用いて、アテンションの重みベクトルを計算する。草稿デコーダＡＤが、原文エンコーダＡＥの出力と、アテンション層ＡＡからのアテンションの重みベクトルとを用いて、隠れ層の状態を計算して、草稿を表わすシーケンスを出力する。

ステップＳ１０２において、第１段の推敲部ＢＳＴＳ－１において以下が実行される。
草稿エンコーダＢＥ１が、草稿生成部ＡＳＴＳの草稿デコーダＡＤの出力をエンコードする。

ゲートＧ１が、草稿生成部ＡＳＴＳの原文エンコーダＡＥの隠れ層の最終出力と、第１段の推敲部ＢＳＴＳ－１の草稿エンコーダＢＥ１の隠れ層の最終出力とに基づいて、草稿生成部ＡＳＴＳの原文エンコーダＡＥの各単語インデックスの隠れ層の状態をフィルタリングして、第１段の推敲部ＢＳＴＳ－１のアテンション層ＢＡ１に送る。

第１段の推敲部ＢＳＴＳ－１のアテンション層ＢＡ１は、草稿生成部ＡＳＴＳの原文エンコーダＡＥの隠れ層の状態と、第１段の推敲部ＢＳＴＳ－１の草稿エンコーダＢＥ１の隠れ層の状態と、推敲デコーダＢＤ１の隠れ層の状態とを用いて、アテンションの重みベクトルを算出して、第１段の推敲部ＢＳＴＳ－１の推敲デコーダＢＤ１へ出力する。

第１段の推敲部ＢＳＴＳ－１の推敲デコーダＢＤ１は、草稿エンコーダＢＥ１の出力と、第１段の推敲部ＢＳＴＳ－１のアテンション層ＢＡ１からのアテンションの重みベクトルとに基づいて、隠れ層の状態を計算して、草稿を表わすシーケンスを出力する。

ステップＳ１０３において、ｘ＝２に設定される。
ステップＳ１０４において、第ｘ段の推敲部ＢＳＴＳ－ｘにおいて以下が実行される。

草稿エンコーダＢＥｘは、第（ｘ－１）段の推敲部ＢＳＴＳ－（ｘ－１）の推敲デコーダＢＤ（ｘ－１）の出力をエンコードする。

ゲートＧｘが、草稿生成部ＡＳＴＳの原文エンコーダＡＥの隠れ層の最終出力と、第ｘ段の推敲部ＢＳＴＳ－ｘの草稿エンコーダＢＥｘの隠れ層の最終出力とに基づいて、草稿生成部ＡＳＴＳの原文エンコーダＡＥの各単語インデックスの隠れ層の状態をフィルタリングして、第ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡｘに送る。

第ｘ段の推敲部ＢＳＴＳ－ｘの推敲デコーダＢＤｘは、草稿エンコーダＢＥｘの出力と、第ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡｘからのアテンションの重みベクトルとに基づいて、隠れ層の状態を計算して、推敲後の草稿のシーケンスを出力する。ｘ＝Ｘ以外では、推敲後の草稿のシーケンスが、後段である第（ｘ＋１）段の推敲部ＢＳＴＳ－（ｘ＋１）の草稿エンコーダＢＥ（ｘ＋１）の入力へ送られる。ｘ＝Ｘでは、推敲後の草稿のシーケンスが、要約を表わすシーケンスとして草稿改善部ＣＳから出力される。

ステップＳ１０５において、ｘ＝Ｘの場合に、処理が終了する。ｘ＝Ｘでない場合に、処理がステップＳ１０６に進む。ｘ＝Ｘの場合は、最終の要約文が出力される。

ステップＳ１０６において、ｘがインクリメントされて、処理がステップＳ１０４に戻る。

図４は、第１の実施形態の学習装置１０の動作手順を表わすフローチャートである。
ステップＳ２０１～Ｓ２０７において、第１の学習が実行され、ステップＳ２０９～Ｓ２１９において、第２の学習が実行される。ここで、第１の学習においては、全学習データセットのうちの半分を用いて実行され、第２の学習においては、全学習データセットを用いて実行する方法が採用されている。例えば、第１の学習において、Ｊ個のデータを用い、第２の学習においてＫ個のデータを用いる方法を利用することもできる。この時、Ｊ＋Ｋが全学習データの数となる。

さらに、ここでの説明は、説明の都合上、学習データを１回だけ学習処理する方法での説明を行っているが、深層学習の通常の方法で、採用される方法（学習データセットをトレーニングデータとバリデーションデータに分けて、トレーニングデータにより学習処理を行い、その後、バリデーションデータによる確認を行って、誤差が所定範囲になるように、トレーニングデータによる学習と、バリデーションデータによる評価処理を繰り返す方法）を用いることもできる。

以下、図４に従い、学習処理の概要を説明する。
ステップＳ２０１において、ｓ＝１に設定される。

ステップＳ２０２において、学習データ記憶部１３に記憶されている第ｓ番目の学習データセットの原文が草稿生成部ＡＳＴＳへ送られる。

ステップＳ２０３において、草稿生成部ＡＳＴＳにおいて以下が実行される。原文エンコーダＡＥが、学習データ記憶部１３に記憶されている学習データセットの原文のシーケンスをエンコードする。アテンション層ＡＡが、原文エンコーダＡＥの隠れ層の状態と草稿デコーダＡＤの隠れ層の状態とを用いて、アテンションの重みベクトルを計算する。草稿デコーダＡＤが、学習データ記憶部１３に記憶されている学習データセットの要約と、原文エンコーダＡＥの出力と、アテンション層ＡＡからのアテンションの重みベクトルとを用いて、草稿を表わすシーケンスを出力する。

ステップＳ２０５において、第ｓ番目の学習データセットの要約と、草稿生成部ＡＳＴＳの草稿デコーダＡＤの出力との誤差が最小となるように誤差逆伝搬法によって、原文エンコーダＡＥ、草稿デコーダＡＤ、およびアテンション層ＡＡのパラメータを学習する。

ステップＳ２０６において、ｓ≧Ｍ／２の場合に、処理がステップＳ２０８に進む。ｓ≧Ｍ／２でない場合に、処理がステップＳ２０７に進む（Ｍは学習データの個数）。

ステップＳ２０７において、ｓがインクリメントされて、処理がステップＳ２０２に戻る。

ステップＳ２０８において、草稿生成部ＡＳＴＳの原文エンコーダＡＥ、草稿デコーダＡＤ、およびアテンション層ＡＡのパラメータをステップＳ２０５において学習されたパラメータに初期設定する。

ステップＳ２０９において、ｓ＝１に設定される。
ステップＳ２１０において、学習データ記憶部１３に記憶されている第ｓ番目の学習データセットの原文を草稿生成部ＡＳＴＳへ送られる。

ステップＳ２１１において、草稿生成部ＡＳＴＳにおいて以下が実行される。原文エンコーダＡＥが学習データ記憶部１３に記憶されている学習データセットの原文のシーケンスをエンコードする。アテンション層ＡＡが、原文エンコーダＡＥの隠れ層の状態と草稿デコーダＡＤの隠れ層の状態とを用いて、アテンションの重みベクトルを計算する。草稿デコーダＡＤが、原文エンコーダＡＥの出力と、アテンション層ＡＡからのアテンションの重みベクトルとを用いて、隠れ層の状態を計算して、草稿を表わすシーケンスを出力する。

ステップＳ２１２において、第１段の推敲部ＢＳＴＳ－１において以下が実行される。
草稿エンコーダＢＥ１が、草稿生成部ＡＳＴＳの草稿デコーダＡＤの出力をエンコードする。

第１段の推敲部ＢＳＴＳ－１のアテンション層ＢＡ１は、ゲートＧ１にてフィルタリングされた草稿生成部ＡＳＴＳの原文エンコーダＡＥの隠れ層の状態と、第１段の推敲部ＢＳＴＳ－１の草稿エンコーダＢＥ１の隠れ層の状態と、推敲デコーダＢＤ１の隠れ層の状態とを用いて、アテンションの重みベクトルを算出して、第１段の推敲部ＢＳＴＳ－１の推敲デコーダＢＤ１へ出力する。

ステップＳ２１３において、ｘ＝２に設定される。
ステップＳ２１４において、第ｘ段の推敲部ＢＳＴＳ－ｘにおいて以下が実行される。

ｘ＝Ｘ以外の場合に、第ｘ段の推敲部ＢＳＴＳ－ｘの推敲デコーダＢＤｘは、草稿エンコーダＢＥｘの出力と、第ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡｘからのアテンションの重みベクトルとに基づいて、隠れ層の状態を計算して、推敲後の草稿のシーケンスを後段である第（ｘ＋１）段の推敲部ＢＳＴＳ－（ｘ＋１）の草稿エンコーダＢＥ（ｘ＋１）の入力へ送る。

ｘ＝Ｘの場合には、推敲部ＢＳＴＳ－Ｘの推敲デコーダＢＤＸは、学習データ記憶部１３に記憶されている学習データセットの要約と、草稿エンコーダＢＥＸの出力と、第Ｘ段の推敲部ＢＳＴＳ－ｘのアテンション層ＢＡＸからのアテンションの重みベクトルとに基づいて、隠れ層の状態を計算して、要約を表わすシーケンスを出力する。

ステップＳ２１５において、ｘ＝Ｘの場合に、処理がステップＳ２１７に進む。ｘ＝Ｘでない場合に、処理がステップＳ２１６に進む。

ステップＳ２１６において、ｘがインクリメントされて、処理がステップＳ２１４に戻る。

ステップＳ２１７において、第ｓ番目の学習データセットの要約と、推敲部ＢＳＴＳ－Ｘの推敲デコーダＢＤＸの出力との誤差が最小となるように誤差逆伝搬法によって、草稿生成部ＡＳＴＳの原文エンコーダＡＥ、およびアテンション層ＡＡと、推敲部ＢＳＴＳ－ｘ（ｘ＝１～Ｘ）の草稿エンコーダＢＥｘ、推敲デコーダＢＤｘ、およびアテンション層ＢＡｘのパラメータを学習する。

ステップＳ２１８において、ｓ＞＝Ｍの場合に、処理が終了する。ｓ＞＝Ｍでない場合に、処理がステップＳ２１９に進む。

ステップＳ２１０において、ｓがインクリメントされて、処理がステップＳ２１０に戻る。

学習終了後の草稿生成部ＡＳＴＳの原文エンコーダＡＥおよびアテンション層ＡＡと、推敲部ＢＳＴＳ－ｘ（ｘ＝１～Ｘ）の草稿エンコーダＢＥｘ、推敲デコーダＢＤｘ、およびアテンション層ＢＡｘのパラメータが学習結果記憶部１５に記憶される。

本実施の形態では、草稿生成部から出力される草稿を１段または複数段の推敲部を含む草稿改善部によって改善することができる。

［第２の実施形態］
以下では、草稿改善部ＣＳが１段の推敲部ＢＳＴＳ－１を含むものとして説明する。すなわち、Ｘ＝１として説明する。

図５は、第２の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。草稿改善部ＣＳは、第１段の推敲部ＢＳＴＳ－１を含む。図から明らかなように、エンコーダには、エンベディング層及び隠れ層が含まれ、デコーダには、エンベディング層、隠れ層、出力層が含まれている（図６から図９においても同様）。

なお、第２の実施形態におけるデコーダＡＤ、ＢＤ１などの学習処理の詳細については周知の処理であるので、説明は省略する（図６から図９においても同様）。

草稿生成部ＡＳＴＳは、原文が入力される原文エンコーダＡＥと、草稿が出力される草稿デコーダＡＤと、アテンション層ＡＡとを含む。原文エンコーダＡＥと、草稿デコーダＡＤとは、シーケンス・トウ・シーケンスモデルを構成する。

原文エンコーダＡＥは、単語の並び（ｋ＝１～ｎ）に沿って展開されたエンベディング層と、双方向のＧＲＵ（Gated Recurrent Unit）を有するリカレントニューラルネットワークとを備える。

エンベディング層は、単語のインデックスｉにおいて、原文の単語ｗ_iを受けて、固定長の実数値ベクトルで表されるｅ（ｗ_i）を出力する。

単語のインデックスｉにおいて、双方向のＧＲＵを有するリカレントニューラルネットワークの隠れ層の状態ｈ_i ^srcは、式（Ａ１）～（Ａ１３）によって表される。

草稿デコーダＡＤは、単語の並び（ｋ＝１～ｍ）に沿って展開されたエンベディング層と、一方向のＧＲＵを有するリカレントニューラルネットワークとを備える。

エンベディング層は、単語のインデックスｔにおいて、要約生成時には、単語のインデックス（ｔ－１）においてリカレントニューラルネットワークから出力される草稿の単語ｙ′_t-1を受けて、固定長の実数値ベクトルで表されるｅ（ｙ′_t-1）を出力する。

要約生成時には、単語のインデックスｔにおいて、一方向のＧＲＵを有するリカレントニューラルネットワークの隠れ層の状態（以下、草稿デコーダＡＤの隠れ層の状態ともいう）ｓ_t ^srcは、式（Ｂ１）～（Ｂ６）によって表される。

アテンション層ＡＡは、草稿デコーダＡＤの隠れ層の状態ｓ_t ^srcと、原文エンコーダＡＥの隠れ層の状態ｈ_i ^src（i=1～n）とを用いてアテンションの重みベクトルｄ_t ^srcを算出する。草稿デコーダＡＤは、原文エンコーダＡＥの出力と、アテンション層ＡＡからのアテンションの重みベクトルｄ_t-1 ^srcとを用いて、隠れ層の状態ｓ_t ^srcを計算して、草稿を表わすシーケンスを出力する。

アテンション層ＡＡは、式（Ｂ７）～（Ｂ１０）によって式（Ｂ１）における文脈ベクトルｄ_t ^srcを重みベクトルとして算出する。式（Ｂ８）におけるα_t,i ^srcは、アテンション分布を表わし、アライメント重みベクトルとも呼ばれる。アテンション分布α_t,i ^srcは、草稿デコーダＡＤが、単語のインデックスｔにおいて入力される単語ｗ_iを注視するスコアを表わす。アテンション分布α_t,i ^srcは、草稿デコーダＡＤの隠れ層の状態ｓ_t ^srcと、原文エンコーダＡＥの隠れ層の状態ｈ_i ^srcとを用いて算出される。重みベクトルｄ_t ^srcは、原文エンコーダＡＥのリカレントニューラルネットワークの隠れ層の状態ｈ_i ^src（i=1～n）の単語のインデックスｔにおけるアテンション分布α_t,i ^srcを重みとした重み付き線形和である。

リカレントニューラルネットワークの出力層は、単語のインデックスｔにおいて、隠れ層の状態ｓ_t ^srcと、アテンションの重みベクトルｄ_t ^srcから、式（Ｂ１１）に示す草稿の単語を表わす出力ｙ′_tを出力する。

推敲部ＢＳＴＳ－１は、草稿エンコーダＢＥ１と、推敲デコーダＢＤ１と、アテンション層ＢＡ１とを含む。草稿エンコーダＢＥ１と、推敲デコーダＢＤ１とは、シーケンス・トウ・シーケンスモデルを構成する。

草稿エンコーダＢＥ１は、単語の並び（ｋ＝１～ｎ）に沿って展開されたエンベディング層と、双方向のＧＲＵを有するリカレントニューラルネットワークとを備える。

エンベディング層は、単語のインデックスｊにおいて、草稿デコーダＡＤから出力される草稿の単語ｙj′を受けて、固定長の実数値ベクトルで表されるｅ（ｙ_j′）を出力する。

単語のインデックスｊにおいて、リカレントニューラルネットワークの隠れ層の状態ｈ_j ^dftは、式（Ｃ１）～（Ｃ３）によって表される。

推敲デコーダＢＤ１は、単語の並び（ｋ＝１～ｍ）に沿って展開されたエンベディング層と、一方向のＧＲＵを有するリカレントニューラルネットワークとを備える。

エンベディング層は、単語のインデックスｔにおいて、要約生成時には、単語のインデックス（ｔ－１）においてリカレントニューラルネットワークから出力される草稿の単語ｙ_t-1を受けて、固定長の実数値ベクトルで表されるｅ（ｙ_t-1）を出力する。

要約生成時には、単語のインデックスｔにおいて、リカレントニューラルネットワークの隠れ層の状態ｓ_t ^revは、式（Ｄ１）によって表される。

アテンション層ＢＡ１は、推敲デコーダＢＤ１の隠れ層の状態ｓ_t ^revと、原文エンコーダＡＥの隠れ層の状態ｈ_i ^src（i=1～n）と、草稿エンコーダＢＥ１の隠れ層の状態ｈ_i ^dft（j=1～m）とを用いてアテンションの重みベクトルｄ_t ^srcを算出する。推敲デコーダＢＤ１は、推敲デコーダＢＤ１の出力と、アテンション層ＢＡ１からのアテンションの重みベクトルｄ_t-1 ^revに基づいて、隠れ層の状態ｓ_t ^revを計算して、要約を表わすシーケンスを出力する。

アテンション層ＢＡ１は、式（Ｄ２）～（Ｄ７）によって、式（Ｄ１）における第１の文脈ベクトルｄ_t ^revを重みベクトルとして算出する。式（Ｄ７）におけるα_t,i ^revは、アテンション分布を表わし、アライメント重みベクトルとも呼ばれる。アテンション分布α_t,i ^revは、推敲デコーダＢＤ１が、単語のインデックスｔにおいて入力される単語ｗ_iを注視するスコアを表わす。アテンション分布α_t,i ^revは、推敲デコーダＢＤ１の隠れ層の状態ｓ_t ^revと、原文エンコーダＡＥの隠れ層の状態ｈ_i ^srcと、第２の文脈ベクトルｄ_t ^dftと用いて算出される。

第１の文脈ベクトルｄ_t ^revは、原文エンコーダＡＥのリカレントニューラルネットワークの隠れ層の状態ｈ_i ^src（i=1～n）の単語のインデックスｔにおけるアテンション分布α_t,i ^revを重みとした重み付き線形和である。

式（Ｄ２）におけるα_t,j ^dftは、アテンション分布を表わし、アライメント重みベクトルとも呼ばれる。アテンション分布α_t,j ^dftは、推敲デコーダＢＤ１が、単語のインデックスｔにおいて入力される単語ｙ′_jを注視するスコアを表わす。アテンション分布α_t,j ^dftは、推敲デコーダＢＤ１の隠れ層の状態ｓ_t ^revと、草稿エンコーダＢＥ１の隠れ層の状態ｈ_i ^dftと用いて算出される。

第２の文脈ベクトルｄ_t ^dftは、草稿エンコーダＢＥ１のリカレントニューラルネットワークの隠れ層の状態ｈ_j ^dft（j=1～m）の単語のインデックスｔにおけるアテンション分布α_t,j ^dftを重みとした重み付き線形和である。

リカレントニューラルネットワークの出力層は、単語のインデックスｔにおいて、隠れ層の状態ｓ_t ^srcから、式（Ｄ８）に示す要約の単語を表わす出力ｙ_tを出力する。

以上のように、本実施の形態では、原文エンコーダＡＥの隠れ層の状態ｈ_i ^srcと、草稿エンコーダＢＥｘの隠れ層の状態ｈ_i ^dftとを用いて、アテンションの重みベクトルが算出される。これによって、草稿生成部から出力される草稿を改善することができる。

［第３の実施形態］
図６は、第３の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。草稿改善部ＣＳは、第１段の推敲部ＢＳＴＳ－１を含む。

第３の実施形態の草稿生成部ＡＳＴＳは、第２の実施形態の草稿生成部ＡＳＴＳと同様である。

第３の実施形態の推敲部ＢＳＴＳ－１は、第２の実施形態の推敲部ＢＳＴＳ－１の構成にゲートＧ１を備えるとともに、アテンション層ＢＡ１が第２の実施形態と異なる。

ゲートＧ１は、原文エンコーダＡＥの隠れ層の最終出力と、草稿エンコーダＢＥ１の隠れ層の最終出力とに基づいて、原文エンコーダＡＥの各単語インデックスの隠れ層の状態ｈ_i ^srcをフィルタリングして、アテンション層ＢＡ１に送る。

ゲートＧ１は、単語の並び（ｋ＝１～ｍ）に沿って展開されたゲート層およびゲートベクトル演算層と、演算部ＣＯＭ１とを備える。

演算部ＣＯＭ１は、原文エンコーダＡＥの隠れ層の最終出力と、草稿エンコーダＢＥ１の隠れ層の最終出力とを用いて、式（Ｅ１）および（Ｅ２）によって、ｒ^src、ｒ^dftを算出する。原文エンコーダＡＥの隠れ層の最終出力は、原文エンコーダＡＥの単語のインデックス（ｋ＝１）の隠れ層の逆方向の状態^←ｈ₁ ^srcと、原文エンコーダＡＥの単語インデックス（ｋ＝ｎ）の隠れ層の順方向の状態^→ｈ_n ^srcである。草稿エンコーダＢＥ１の隠れ層の最終出力は、草稿エンコーダＢＥ１の単語のインデックス（ｋ＝１）の隠れ層の逆方向の状態^←ｈ₁ ^dftと、草稿エンコーダＢＥ１の単語のインデックス（ｋ＝ｍ）の隠れ層の順方向の状態^→ｈ_m ^dftである。

ゲートベクトル演算層は、単語インデックスｉにおいて、原文エンコーダＡＥの単語のインデックスｉの隠れ層の状態ｈ_i ^srcと、ｒ^src、ｒ^dftを用いて、式（Ｅ３）に従って、ゲートベクトルｇ_iを算出する。

ゲート層は、単語のインデックスｉにおいて、式（Ｅ４）に従って、隠れ層の状態ｈ_i ^srcを置換する状態ｈ_i ^gateを算出する。

アテンション層ＢＡ１は、推敲デコーダＢＤ１の隠れ層の状態ｓ_t ^revと、ゲートＧ１の出力ｈ_i ^gate（i=1～n）とを用いてアテンションの重みベクトルｄ_t ^srcを算出する。

アテンション層ＢＡ１は、式（Ｈ１）～（Ｈ３）によって、式（Ｄ１）における文脈ベクトルｄ_t-1 ^revを重みベクトルとして算出する。式（Ｈ２）におけるα_t,i ^revは、アテンション分布を表わし、アライメント重みベクトルとも呼ばれる。アテンション分布α_t,i ^revは、推敲デコーダＢＤ１が、単語のインデックスｔにおいて入力される単語ｗ_iを注視するスコアを表わす。アテンション分布α_t,i ^revは、推敲デコーダＢＤ１の隠れ層の状態ｓ_t ^revと、原文エンコーダＡＥの隠れ層の状態ｈ_i ^srcと用いて算出される。

重みベクトルｄ_t ^revは、ゲートＧ１の出力ｈ_i ^gate（i=1～n）の単語のインデックスｔにおけるアテンション分布α_t,i ^revを重みとした重み付き線形和である。

以上のように、第３の実施形態では、推敲部が、ゲートＧ１を備えることによって、草稿生成部から出力される草稿を改善することができる。

［第４の実施形態］
図７は、第４の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。草稿改善部ＣＳは、第１段の推敲部ＢＳＴＳ－１を含む。

第４の実施形態の草稿生成部ＡＳＴＳは、第２および第３の実施形態の草稿生成部ＡＳＴＳと同様である。

第４の実施形態の推敲部ＢＳＴＳ－１は、第３の実施形態の推敲部ＢＳＴＳ－１と同様に、ゲートＧ１を備える。

演算部ＣＯＭ１は、原文エンコーダＡＥの隠れ層の最終出力と、草稿エンコーダＢＥ１の隠れ層の最終出力とを用いて、式（Ｅ１）および（Ｅ２）によって、ｒ^src、ｒ^dftを算出する。原文エンコーダＡＥの隠れ層の最終出力は、原文エンコーダＡＥの単語のインデックス（ｋ＝１）の隠れ層の逆方向の状態^←ｈ₁ ^srcと、原文エンコーダＡＥの単語インデックス（ｋ＝ｎ）の隠れ層の順方向の状態^→ｈ_n ^srcである。草稿エンコーダＢＥ１の隠れ層の最終出力は、草稿エンコーダＢＥ１の単語のインデックス（ｋ＝１）の隠れ層の逆方向の状態^←ｈ₁ ^dftと、草稿エンコーダＢＥ１の単語のインデックス（ｋ＝ｍ）の隠れ層の順方向の状態^→ｈ_m ^dftである。なお明細書では、上付き矢印が表記できないため、以後も、^→ｈ_m ^dft等と表記する。

ゲートベクトル演算層は、単語のインデックスｉにおいて、原文エンコーダＡＥの単語インデックスｉの隠れ層の状態ｈ_i ^srcと、ｒ^src、ｒ^dftを用いて、式（Ｅ３）に従って、ゲートベクトルｇ_iを算出する。

ゲート層は、単語インデックスｉにおいて、式（Ｅ４）に従って、隠れ層の状態ｈ_i ^srcを置換する状態ｈ_i ^gateを算出する。第３の実施形態では、推敲デコーダＢＤ１およびアテンション層ＢＡ１は、式（Ｂ７）、（Ｂ８）において、ｈ_i ^srcに代えて、ｈ_i ^gateを用いる。

以上のように、第４の実施形態では、推敲部が、ゲートＧ１を備えることによって、草稿生成部から出力される草稿を改善することができる。

［第５の実施形態］
図８は、第５の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。草稿改善部ＣＳは、第１段の推敲部ＢＳＴＳ－１を含む。

第５の実施形態の草稿生成部ＡＳＴＳは、第２～第４の実施形態の草稿生成部ＡＳＴＳと同様である。

第５の実施形態の推敲部ＢＳＴＳ－１は、第４の実施形態の推敲部ＢＳＴＳ－１の演算部ＣＯＭ１に代えて、演算部ＣＯＭ２を備える。

演算部ＣＯＭ２は、演算部ＣＯＭ１と同様に、原文エンコーダＡＥの隠れ層の最終出力と、草稿エンコーダＢＥ１の隠れ層の最終出力とを用いて、式（Ｅ１）および（Ｅ２）によって、ｒ^src、ｒ^dftを算出する。

演算部ＣＯＭ２は、さらに、原文エンコーダＡＥの隠れ層の最終出力と、草稿エンコーダＢＥ１の隠れ層の最終出力とに基づいて、推敲デコーダＢＤ１のリカレントニューラルネットワークの隠れ層の初期状態ｓ′₀ ^revを算出する。なお、本実施の形態以外の場合には、ｓ₀ ^revは、以下の計算式に基づき作成される。

より具体的には、演算部ＣＯＭ２は、原文エンコーダＡＥの隠れ層の最終出力と、草稿エンコーダＢＥ１の隠れ層の最終出力とを用いて、式（Ｆ１）に従って、推敲デコーダＢＤ１のリカレントニューラルネットワークの隠れ層の初期状態ｓ′₀ ^revを算出する。

原文エンコーダＡＥの隠れ層の最終出力は、原文エンコーダＡＥの単語のインデックス（ｋ＝１）の隠れ層の逆方向の状態^←ｈ₁ ^srcと、原文エンコーダＡＥの単語のインデックス（ｋ＝ｎ）の隠れ層の順方向の状態^→ｈ_n ^srcである。草稿エンコーダＢＥ１の隠れ層の最終出力は、草稿エンコーダＢＥ１の単語のインデックス（ｋ＝１）の隠れ層の逆方向の状態^←ｈ₁ ^dftと、草稿エンコーダＢＥ１の単語インデックス（ｋ＝ｍ）の隠れ層の順方向の状態^→ｈ_m ^dftである。

以上のように、第５の実施形態では、原文エンコーダＡＥの隠れ層の最終出力と、草稿エンコーダＢＥ１の隠れ層の最終出力とに基づいて、推敲デコーダＢＤ１のリカレントニューラルネットワークの隠れ層の初期状態ｓ^‘ ₀ ^revを算出するので、草稿生成部から出力される草稿を改善することができる。

なお、第５の実施形態では、上述の推敲デコーダＢＤ１のリカレントニューラルネットワークの隠れ層の初期状態ｓ′₀ ^revを算出する機能を第４の実施形態に対して追加したが、第２または第３の実施形態に対して追加するものとしてもよい。

［第６の実施形態］
図９は、第６の実施形態の草稿生成部ＡＳＴＳおよび草稿改善部ＣＳの詳細を表わす図である。草稿改善部ＣＳは、第１段の推敲部ＢＳＴＳ－１を含む。

第６の実施形態の草稿生成部ＡＳＴＳは、第２の実施形態の草稿生成部ＡＳＴＳの構成要素に加えて、一致判定部ＭＡと、第２の原文エンコーダＡＥ２とを備える。

一致判定部ＭＡは、式（Ｇ１）～（Ｇ３）に示すように、単語ｗ_iが草稿デコーダＡＤが出力する草稿の単語ｙ′₁～ｙ′_mに含まれるか否かを表わす一致情報ｌ_iを生成する。Ｙ′は、草稿の単語の集合を表わす。ｄは、単語ｗ_iが草稿の集合Ｙ′に含まれることを示すシンボルである。ｎｄは、単語ｗ_iが草稿の集合Ｙ′に含まれないことを示すシンボルである。

第２の原文エンコーダＡＥ２は、単語の並び（ｋ＝１～ｎ）に沿って展開されたエンベディング層と、双方向のＧＲＵを有するリカレントニューラルネットワークとを備える。

エンベディング層は、式（Ｇ１４）に示すように、単語のインデックスｉにおいて、原文の単語ｗ_iと一致情報ｌ_iとを含む固定長の実数値ベクトルで表されるｅ′（ｗ_i）を出力する。ｖ（ｌ_i）は、ｌ_iに対応するランダムに初期化されたベクトルである。Ｗは、一定の行列である。

単語インデックスｉにおいて、原文エンコーダＡＥ２のリカレントニューラルネットワークの隠れ層の状態ｈ′_i ^srcは、式（Ｇ５）～（Ｇ７）によって表される。

第６の実施形態では、推敲デコーダＢＤ１およびアテンション層ＢＡ１は、ｈ_i ^srcに代えてｈ′_i ^srcを用いる。

以上のように、第６の実施形態によれば、単語ｗ_iとともに、単語ｗ_iが草稿デコーダＡＤが出力する草稿の単語ｙ′₁～ｙ′_mに含まれるか否かを表わす一致情報ｌ_iを含めてエンコードした結果を推敲部ＢＳＴＳ－１のアテンション層ＢＡ１に送るので、草稿生成部から出力される草稿を改善することができる。

なお、第６の実施形態では、上述の一致情報を含めてエンコードする機能を第２の実施形態に対して追加したが、第３～第５の実施形態に対して追加するものとしてもよい。第３～第５の実施形態に対して追加する場合は、第２の原文エンコーダＡＥ２の出力が、図６～図８におけるゲートＧ１におけるゲート層およびゲートベクトル演算層に入力される。また、草稿生成部ＡＳＴＳが、原文エンコーダＡＥを含むときには、草稿生成部ＡＳＴＳの出力とは、原文エンコーダＡＥの出力を意味する。草稿生成部ＡＳＴＳが、原文エンコーダＡＥに加えて、第２の原文エンコーダＡＥ２を含むときには、草稿生成部ＡＳＴＳの出力とは、第２の原文エンコーダＡＥ２の出力を意味する。

［第７の実施形態］
上述の実施形態に係る学習装置１０および要約生成装置２０は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。

図１０は、学習装置１０および要約生成装置２０の内部構成を表わす図である。
図１０を参照して、学習装置１０および要約生成装置２０は、バス１３００と、ＣＰＵ（Central Processing Unit）１３０１と、ＲＯＭ（Read Only Memory）１３０２と、ＲＡＭ（Random Access Memory）１３０３と、ＨＤＤ（Hard Disk Drive)１３０４と、ＤＶＤ（Digital Versatile Disk）１３０７が接続されたＤＶＤドライブ１３０６と、ネットワークＩ／Ｆ１３０９と、キーボード１３１０と、マウス１３１１と、リムーバブルメモリ１３１３が接続されるメモリポート１３１２と、ディスプレイ１３０８とを備える。

キーボード１３１０およびマウス１３１１は、開発側の人員またはユーザからの入力を受け付ける。上述の実施形態で説明した機能をコンピュータで実現するための要約学習プログラムまたは要約生成プログラムは、ＤＶＤ１３０７、リムーバブルメモリ１３１３、ネットワークＩ／Ｆ１３０９からＨＤＤ１３０４に転送される。ＲＯＭ１３０２は、たとえば起動プログラム等を記憶する。ＲＡＭ１３０３は、実行中のプログラムの作業データなどを記憶する。ネットワークＩ／Ｆ１３０９は、インターネット１４００に接続され、Ｗｅｂ１０００上のデータを取得することができる。

［実験結果］
以下に、上記の実施形態の効果について説明する。

図１１は、原文からコンパクトな回答を生成する実験の結果を表わす図である。図１２は、原文から解決策の要約を生成する実験の結果を表わす図である。図１１および図１２において、Ｎは、単語の生成に使用するベクトルの大きさを表わす。

ＰＧは、論文Ａ"Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pages 1073-1083"に記載されている方法である。

Ｂａｓｅは、論文Ｂ"Ryo Ishida, Kentaro Torisawa, Jong-Hoon Oh, Ryu Iida, Canasai Kruengkrai, and Julien Kloetzer. 2018. Semi-distantly supervised neural model for generating compact answers to open-domain why questions. In Proceedings of the 32nd AAAI Conference on Artificial Intelligence."に記載されている方法である。

Ｂａｓｅ＋ｇａｔｅｄは、論文Ｃ"Qingyu Zhou, Nan Yang, Furu Wei, and Ming Zhou. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pages 1095-1104."に記載されているゲートエンコード方法と、論文Ｂに記載されている方法を組み合わせた方法である。

Ｐｒｏｐｏｓｅｄ（Ａ）は、原文エンコーダの隠れ層の状態と、草稿エンコーダの隠れ層の状態の両方を用いて、推敲部のアテンション層のアテンションの重みベクトルを求める手法である。この手法は、第２の実施形態に記載されている。

Ｐｒｏｐｏｓｅｄ（Ｂ）は、ゲートを用いる手法である。この手法は、第３の実施形態で記載されている。

Ｐｒｏｐｏｓｅｄ（Ｃ）は、推敲デコーダのリカレントニューラルネットワークの隠れ層の初期状態を算出する方法である。この手法は、第５の実施形態において、推敲部のアテンション層のアテンションの重みベクトルを、原文エンコーダの隠れ層の状態と、草稿エンコーダの隠れ層の状態の両方を用いて計算するのではなく、原文エンコーダの隠れ層の状態を用いて計算する方法に置き換えたものである。

Ｐｒｏｐｏｓｅｄ（Ａ＋Ｂ）は、上記Ｐｒｏｐｏｓｅｄ（Ａ）とＰｒｏｐｏｓｅｄ（Ｂ）とを組み合わせた方法である。この方法は、第４の実施形態に記載されている。Ｐｒｏｐｏｓｅｄ（Ａ＋Ｃ）は、上記Ｐｒｏｐｏｓｅｄ（Ａ）とＰｒｏｐｏｓｅｄ（Ｃ）とを組み合わせた方法である。Ｐｒｏｐｏｓｅｄ（Ｂ＋Ｃ）は、上記Ｐｒｏｐｏｓｅｄ（Ｂ）とＰｒｏｐｏｓｅｄ（Ｃ）とを組み合わせた方法である。Ｐｒｏｐｏｓｅｄ（Ａ＋Ｂ＋Ｃ）は、上記Ｐｒｏｐｏｓｅｄ（Ａ）とＰｒｏｐｏｓｅｄ（Ｂ）とＰｒｏｐｏｓｅｄ（Ｃ）とを組み合わせた方法である。この方法は、第５の実施形態に記載されている。

Ｒ－１、Ｒ－２．Ｒ－Ｌは、生成された要約の品質を評価する手法である。Ｒ－１、Ｒ－２、Ｒ－Ｌは、論文Ｄ"Chin-Yew Lin. 2004. ROUGE: A package for automatic evaluation of summaries. In Proceedings of the ACL-04 Workshop on Text Summarization Branches Out, pages 74-81"に記載されているＲＯＵＧＥ－１、ＲＯＵＧＥ－２、ＲＯＵＧＥ－ＬのＦスコアを表わす。Ａｖｇ.Ｌは、出力した要約文の平均単語数を表す。

図１１および図１２に示すように、全体として、本実施の形態の方法は、従来の方法よりも品質の高い要約が生成されるといえる。

［変形例］
本発明は、上記の実施形態に限定されるものではない。本発明は、以下のような変形例も含まれる。

（１）上記の実施形態のエンコーダＡＥ、ＢＥ１～ＢＥＸ、ＡＥ２、デコーダＡＤ、ＢＤ１～ＢＤＸは、ＧＲＵを有するリカレントニューラルネットワークによって構成されるものとしたが、これに限定されるものではない。たとえば、エンコーダＡＥ、ＢＥ１～ＢＥＸ、ＡＥ２、デコーダＡＤ、ＢＤ１～ＢＤＸは、ＬＳＴＭ（Long Short-Term Memory）を有するリカレントニューラルネットワークによって構成されるものとしてもよい。

（２）推敲デコーダＢＤＸから出力される要約の単語ｙtを論文Ａに記載された式によって、求めることとしてもよい。

（３）上記の実施形態では、草稿エンコーダＢＥｘ（ｘ＝２～Ｘ）には、推敲デコーダＢＤ（ｘ－１）の出力結果が入力されるものとしたが、これに限定されるものではない。草稿エンコーダＢＥｘ（ｘ＝２～Ｘ）には、推敲デコーダＢＤ１～ＢＤ（ｘ－１）の出力のうちのいずれか１つが独立に入力される、あるいはすべてが重み付き線形和で入力されるものとしてもよい。

（４）学習
上記の実施形態では、第１の学習と第２の学習の２段階の学習を実行したが、これに限定されるものではない。第２の学習のみを実行するものとしてもよい。

また、推敲デコーダＢＤ１～ＢＤＸの出力と、徐々に品質が増加する学習用の草稿との誤差が最小となるように学習することによって、推敲デコーダＢＤ１～ＢＤＸから出力される草稿の品質が徐々に増加するようにしてもよい。

（５）パラメータを学習する機能と、学習されたパラメータを用いて原文から草稿を生成する機能とが１台の装置で実行されるものとしてもよい。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１０学習装置、１３学習データ記憶部、１５学習結果記憶部、２０要約生成装置、ＡＳＴＳ草稿生成部、ＣＳ草稿改善部、ＢＳＴＳ－１～ＢＳＴＳ－Ｘ推敲部、ＡＥ，ＡＥ２原文エンコーダ、ＡＤ草稿デコーダ、ＢＥ１～ＢＥＸ草稿エンコーダ、ＢＤ１～ＢＤＸ推敲デコーダ、Ｇ１～ＧＸゲート、ＡＡ，ＢＡ１～ＢＡＸアテンション層、ＣＯＭ１，ＣＯＭ２演算部、ＭＡ一致判定部、１３００バス、１３０１ＣＰＵ、１３０２ＲＯＭ、１３０３ＲＡＭ、１３０４ＨＤＤ、１３０６ＤＶＤドライブ、１３０７ＤＶＤ、１３０８ディスプレイ、１３０９ネットワークＩ／Ｆ、１３１０キーボード、１３１１マウス、１３１２メモリポート、１３１３リムーバブルメモリ、１４００インターネット。

Claims

原文が入力される原文エンコーダと、前記原文エンコーダと接続される草稿デコーダとを含む草稿生成部と、
前記草稿生成部と接続され、複数段の推敲部を含む草稿改善部とを備え、
前記推敲部は、草稿エンコーダと、前記草稿エンコーダと接続される推敲デコーダと、アテンション層とを含み、１段目の前記推敲部の前記草稿エンコーダは、前記草稿生成部の前記草稿デコーダの出力を受け、２段目以降の前記推敲部の前記草稿エンコーダは、前段の前記推敲部の前記推敲デコーダの出力を受け、最後段以外の前記推敲部の前記推敲デコーダの出力は、後段の前記推敲部の前記草稿エンコーダの入力と接続され、最後段の前記推敲部の前記推敲デコーダは、要約を出力し、
前記草稿生成部の前記原文エンコーダおよび前記草稿デコーダのパラメータと、前記複数段の前記推敲部の前記草稿エンコーダ、前記推敲デコーダ、および前記アテンション層のパラメータとは、学習によって、前記草稿生成部の前記原文エンコーダに前記原文が入力されて、最後段の前記推敲部の前記推敲デコーダが前記要約を出力するように調整されている、要約生成装置。
原文が入力される原文エンコーダと、前記原文エンコーダと接続される草稿デコーダとを含む草稿生成部と、
前記草稿生成部と接続された推敲部とを備え、
前記推敲部は、草稿エンコーダと、前記草稿エンコーダと接続される推敲デコーダと、アテンション層とを含み、前記推敲部の前記草稿エンコーダは、前記草稿生成部の前記草稿デコーダの出力を受け、前記推敲部の前記推敲デコーダは、要約を出力し、
前記草稿生成部の前記原文エンコーダおよび前記草稿デコーダのパラメータと、前記推敲部の前記草稿エンコーダ、前記推敲デコーダ、および前記アテンション層のパラメータとは、学習によって、前記草稿生成部の前記原文エンコーダに前記原文が入力されて、前記推敲部の前記推敲デコーダが前記要約を出力するように調整されている、要約生成装置。
前記推敲部の前記アテンション層は、前記草稿生成部の出力である前記原文エンコーダの出力と、前記推敲部の前記草稿エンコーダの出力と、前記推敲部の前記推敲デコーダの隠れ層の状態とを用いて、アテンションの重みベクトルを算出して、前記推敲部の前記推敲デコーダへ出力されてなる、請求項１または２記載の要約生成装置。
前記草稿生成部は、さらに、前記原文の単語が前記草稿デコーダの出力に含まれるか否かを表わす一致情報を生成するマッチ部と、前記原文と前記一致情報とが入力される第２の原文エンコーダとを備え、
前記推敲部の前記アテンション層は、前記第２の原文エンコーダの出力と、前記推敲部の前記草稿エンコーダの出力と、前記推敲部の前記推敲デコーダの隠れ層の状態とを用いて、アテンションの重みベクトルを算出して、前記推敲部の前記推敲デコーダへ出力されてなる、請求項１または２記載の要約生成装置。
前記推敲部は、さらに、前記草稿生成部の前記原文エンコーダの隠れ層の最終出力と、前記推敲部の前記草稿エンコーダの出力とに基づいて、前記草稿生成部の前記原文エンコーダの各単語インデックスの隠れ層の状態をフィルタリングして、前記推敲部の前記アテンション層に送るゲートを含む、請求項１～４のいずれか１項に記載の要約生成装置。
前記推敲部は、さらに、前記草稿生成部の前記原文エンコーダの隠れ層の最終出力と、前記推敲部の前記草稿エンコーダの出力とに基づいて、前記推敲部の前記推敲デコーダの初期状態を計算する演算部を含む、請求項１～５のいずれか１項に記載の要約生成装置。
原文が入力される原文エンコーダと、前記原文エンコーダと接続される草稿デコーダとを含む草稿生成部と、前記草稿生成部と接続され、複数段の推敲部を含む草稿改善部とを備えた要約生成装置のパラメータを学習する学習装置における学習方法であって、前記推敲部は、草稿エンコーダと、前記草稿エンコーダと接続される推敲デコーダと、アテンション層とを含み、１段目の前記推敲部の前記草稿エンコーダは、前記草稿生成部の前記草稿デコーダの出力を受け、２段目以降の前記推敲部の前記草稿エンコーダは、前段の前記推敲部の前記推敲デコーダの出力を受け、最後段以外の前記推敲部の前記推敲デコーダの出力は、後段の前記推敲部の前記草稿エンコーダの入力と接続され、最後段の前記推敲部の前記推敲デコーダは、要約を出力し、
前記学習方法は、
第１の学習において、Ｍ個のセットの原文と要約とからなる学習データを用いて、前記草稿生成部の前記原文エンコーダに前記原文が入力されて、前記草稿生成部の前記草稿デコーダが前記要約を出力するように、前記草稿生成部の前記原文エンコーダおよび前記草稿デコーダのパラメータを学習するステップと、
前記学習されたパラメータを第２の学習における前記草稿生成部の前記原文エンコーダおよび前記草稿デコーダのパラメータの初期値に設定するステップと、
前記第２の学習において、Ｎ個のセットの原文と要約とからなる学習データを用いて、前記草稿生成部の前記原文エンコーダに前記原文が入力されて、最後段の前記推敲部の前記推敲デコーダが前記要約を出力するように、前記草稿生成部の前記原文エンコーダおよび前記草稿デコーダ、前記複数段の前記推敲部の前記草稿エンコーダ、前記推敲デコーダ、および前記アテンション層のパラメータを学習するステップとを備えた、学習方法。
原文が入力される原文エンコーダと、前記原文エンコーダと接続される草稿デコーダとを含む草稿生成部と、前記草稿生成部と接続された推敲部とを備えた要約生成装置のパラメータを学習する学習装置における学習方法であって、前記推敲部は、草稿エンコーダと、前記草稿エンコーダと接続される推敲デコーダと、アテンション層とを含み、前記推敲部の前記草稿エンコーダは、前記草稿生成部の前記草稿デコーダの出力を受け、前記推敲部の前記推敲デコーダは、要約を出力し、
前記学習方法は、
第１の学習において、Ｍ個のセットの原文と要約とからなる学習データを用いて、前記草稿生成部の前記原文エンコーダに前記原文が入力されて、前記草稿生成部の前記草稿デコーダが前記要約を出力するように、前記草稿生成部の前記原文エンコーダおよび前記草稿デコーダのパラメータを学習するステップと、
前記学習されたパラメータを第２の学習における前記草稿生成部の前記原文エンコーダおよび前記草稿デコーダのパラメータの初期値に設定するステップと、
前記第２の学習において、Ｎ個のセットの原文と要約とからなる学習データを用いて、前記草稿生成部の前記原文エンコーダに前記原文が入力されて、前記推敲部の前記推敲デコーダが前記要約を出力するように、前記草稿生成部の前記原文エンコーダおよび前記草稿デコーダ、前記推敲部の前記草稿エンコーダ、前記推敲デコーダ、および前記アテンション層のパラメータを学習するステップとを備えた、学習方法。