JP7337770B2

JP7337770B2 - 文書レベルの自然言語処理モデルを訓練させる方法およびシステム

Info

Publication number: JP7337770B2
Application number: JP2020183754A
Authority: JP
Inventors: カラポデスクイオン; ベラールアレクサンドレ; サレファヒメ; ベサシエロラン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-08-13
Filing date: 2020-11-02
Publication date: 2023-09-04
Anticipated expiration: 2040-11-02
Also published as: JP2022032910A; KR20220021360A; US20220050973A1; US11625544B2

Description

特許法第３０条第２項適用ＵＲＬ：ｈｔｔｐｓ：／／ｅｕｒｏｐｅ．ｎａｖｅｒｌａｂｓ．ｃｏｍ／ｒｅｓｅａｒｃｈ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｎａｖｅｒ－ｌａｂｓ－ｅｕｒｏｐｅｓ－ｓｙｓｔｅｍｓ－ｆｏｒ－ｔｈｅ－ｄｏｃｕｍｅｎｔ－ｌｅｖｅｌ－ｇｅｎｅｒａｔｉｏｎ－ａｎｄ－ｔｒａｎｓｌａｔｉｏｎ－ｔａｓｋ－ａｔ－ｗｎｇｔ－２０１９／、掲載日２０１９年１１月４日

本出願は、その内容全体が参照として統合される、２０２０年８月１３日に出願された米国仮出願第６３／０６５，１３８号の優先権を主張する。

本開示は、プロセッサによる自然言語処理方法と、神経モデルを使用するマシンベースの自然言語生成のためのシステムに関し、より詳細には、機械翻訳（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：ＭＴ）モデルを使用した自然言語生成（ＮａｔｕｒａｌＬａｎｇｕａｇｅＧｅｎｅｒａｔｉｏｎ：ＮＬＧ）モデルを訓練させるための方法およびシステムに関する。

プロセッサによる自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ：ＮＬＰ）における近年の進歩として、機械翻訳（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：ＭＴ）および自然言語生成（ＮａｔｕｒａｌＬａｎｇｕａｇｅＧｅｎｅｒａｔｉｏｎ：ＮＬＧ）のための神経モデルが挙げられる。このような神経モデルは、ＭＴおよびＮＬＧ作業の改善において重要な役割を担ってきた。しかし、従来のＮＬＧおよびＭＴのための神経モデルは、特定のＮＬＰ作業の実行には不十分であったり、最適以下（ｓｕｂ－ｏｐｔｉｍａｌ）であると見なされてきた。

ＮＬＧモデルの場合は、例えば、構造化されたデータ（または、データツーテキスト）として条件化された技術的な要約（ｄｅｓｃｒｉｐｔｉｖｅｓｕｍｍａｒｉｅｓ）のようなテキストの生成が、周知の課題として残っている。従来のＮＬＧモデルは、ソース素材に対する正確性、一貫性（ｃｏｈｅｒｅｃｅ）、および／または適切性に欠けている。

データツーテキスト生成技法において扱われる２つの重要な側面として、１）入力データから最も重要な情報を識別すること、２）一貫性のある文書としてデータを言語化すること（ｖｅｒｂａｌｉｚｉｎｇ）が挙げられる。このような２つの課題は、パイプラインシステムにおいて異なるモジュールとして個別に扱われてきたし、神経生成モデルとエンドツーエンド方式によって扱われてきた。

周知のエンドツーエンドＮＬＧ生成モデルは、優れたテキストを生成することは可能であるが、このようなモデルは、最善のコンテンツ選択の側面においては高い性能を発揮することができない。近年、Ｐｕｄｕｐｐｕｌｌｙ他（２０１９）は、ロットワイヤデータセットに対してエンドツーエンドデータツーテキスト生成モデルを訓練させる方法を公開した（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｈａｒｖａｒｄｎｌｐ／ｂｏｘｓｃｏｒｅ－ｄａｔａ：構造化された情報をもつバスケットボールゲームの英文要約）。このような方法は、その設計思想においてコンテンツの選択と計画をしっかりとモデリングすることにより、エンドツーエンド神経ＮＬＧモデルの短所を克服することを目的としている。

さらに、従来のＭＴモデルのほとんどは、例えば、同じ文書の異なる文章または構造化された情報から提供されるより大きな文脈（ｃｏｎｔｅｘｔ）に接近せずに、文章を独立的に（すなわち、文章レベルで）翻訳する。従来のＭＴシステムは、多数の言語に対しては印象的な性能を示したが、特に、テキストが文章レベルを超える要素（ｆａｃｔｏｒ）として考慮されるときには、当該技術分野では依然として多くの問題が存在している。

本実施形態に係るシステムおよび方法は、ＭＴおよびＮＬＧ作業からのデータを活用してよい。特に、本実施形態に係るシステムおよび方法は、ＭＴおよびＮＬＧ間の移転学習（ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ）を利用してよい。

本実施形態の一側面によると、プロセッサによって自然言語生成（ＮａｔｕｒａｌＬａｎｇｕａｇｅＧｅｎｅｒａｔｉｏｎ：ＮＬＧ）モデルを訓練させる方法が提供される。文書レベルの機械翻訳（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：ＭＴ）モデルが、第１言語のトークンシーケンスを入力として受信して第２言語のトークンシーケンスを出力として生成するようにＭＴモデルを訓練させることによって提供される。拡張された文書レベルのＭＴモデルは、対をなす言語独立構造化されたデータ、および第１言語のトークンシーケンスを入力として受信して第２言語のトークンシーケンスを出力として生成するように文書レベルのＭＴモデルを訓練させることによって提供される。言語独立構造化されたデータは、第１言語および第２言語として理解される。ＮＬＧモデルは、言語独立構造化されたデータを入力として受信し、（例えば、第１言語の対をなすトークンシーケンスなく）第２言語のトークンシーケンスを出力として生成するように拡張された文書レベルのＭＴモデルを訓練させることによって提供される。また、本実施形態に係る方法は、訓練されたＮＬＧモデルを使用して構造化された新たなデータから出力データを生成するためにも提供される。

補完的な側面によると、本開示は、上述したような方法を実行するためのコード命令を含むコンピュータプログラム製品を提供し、上述したような方法を実行するためのコード命令を含むコンピュータプログラム製品が記録されたコンピュータ読み取り可能な媒体を提供する。

本発明の他の特徴および利点は、添付の図面を参照しながら記述する詳細な説明によって明らかになるであろう。

本開示は、詳細な説明と、これに付随する図面によって完全に理解されるであろう。なお、図面に付与した参照番号は、類似および／または同一する要素を識別するために重複使用されてよい。
本開示に係る方法を実行するシステムの基本設計の例を示した図である。図１に示すプロセッサの基本設定の例を示した図である。本開示における、自然言語生成（ＮＬＧ）モデルを訓練させる方法の例を示した図である。訓練された文書レベルの機械翻訳モデルを提供する方法の例を示した図である。文書レベルの機械翻訳モデルを拡張する方法の例を示した図である。構造化されたデータを前処理する方法の例を示した図である。自然言語生成モデル（ＮＧＬモデル）を提供する、拡張された文書レベルの機械翻訳モデルを訓練させる方法の例を示した図である。図３に示す方法によって訓練されたＮＧＬモデルのためのランタイム（ｒｕｎｔｉｍｅ）（推論）方法の例を示した図である。図９ａ～図９ｃは、実験的なＮＬＧ訓練方法からのデータ（図９ａに示したＮＬＧ訓練方法で使用されるメタデータ符号化（メタデータ）、図９ｂに示した訓練セットからのストーリ（参照ストーリ）、および図９ｃに示した訓練された英語ＮＬＧモデルの出力（生成されたストーリ））を示した図である。図９ａ～図９ｃは、実験的なＮＬＧ訓練方法からのデータ（図９ａに示したＮＬＧ訓練方法で使用されるメタデータ符号化（メタデータ）、図９ｂに示した訓練セットからのストーリ（参照ストーリ）、および図９ｃに示した訓練された英語ＮＬＧモデルの出力（生成されたストーリ））を示した図である。図９ａ～図９ｃは、実験的なＮＬＧ訓練方法からのデータ（図９ａに示したＮＬＧ訓練方法で使用されるメタデータ符号化（メタデータ）、図９ｂに示した訓練セットからのストーリ（参照ストーリ）、および図９ｃに示した訓練された英語ＮＬＧモデルの出力（生成されたストーリ））を示した図である。図１０は、実験的な英語ＮＬＧ追跡（ｔｒａｃｋ）のために選択された選手の最大数に依存する（ベストチェックポイント（ｂｅｓｔｃｈｅｃｋｐｏｉｎｔ）による）ＤＧＴ有効ＢＬＥＵを示した図である。提供されたメタデータ（＋）または幻影（ｈａｌｌｕｃｉｎａｔｉｏｎｓ）（－）に明らかに存在しなかった実験的なＮＬＧモデルから正しく予測される情報を示した図であり、「ＲＥＦ」は「参照」テキストを、「ＮＬＧ」は「自然言語生成」テキストを示す。

導入
本実施形態は、何よりも、異なるタイプの神経ＮＬＰモデル、すなわち、機械翻訳（ＭＴ）モデルを訓練させることによって文書レベルの自然言語生成（ＮＬＧ）モデルを訓練させる方法、システム、およびプログラム製品を提供する。文書レベルであるＭＴモデルは、ＮＬＧモデルと出力（選択された言語の文書レベルのテキスト）を共有する。これは、ＮＬＧモデルを訓練させるためにＭＴモデルとＮＬＧモデル間の移転学習を可能とし、これにより、ＮＬＧを訓練させるために可用あるいは不適合な訓練データの使用を可能にする。これは、特に、可用であるＮＬＧモデルの訓練データが、ＭＴモデル訓練データに比べて制限されている通常的な場合に有効となる。

本開示に係る方法は、ＭＴおよびＮＬＧモデルの両方からのデータセットを使用するために、ＭＴおよびＮＬＧモデルの多様な特徴を活用する。ＭＴモデルを訓練させる方法と（例えば、推論のために）、このように訓練されたモデルを使用する方法も提供される。

ここで、「モデル」とは、１つ以上のニューラルネットワークレイヤおよびモデルパラメータ（例えば、加重値）の対応するセットに基づき、プロセッサおよびメモリによって実行可能なアルゴリズムによって定義されてよい。自然言語生成（ＮＬＧ）モデルと機械翻訳（ＭＴ）モデルを含む自然言語処理（ＮＬＰ）モデルは、入力シーケンスのような１つ以上の入力を処理し、出力シーケンスのような１つ以上の出力を生成するために構成されてよい。モデルは、ソースデータ（例えば、第１言語のソースシーケンス）およびターゲットデータ（例えば、第２言語のターゲットシーケンス）を有する訓練データセットを使用してパラメータを決定することによって訓練されてよい。可用なデータセットは、特定のタイプのモデルを訓練させるために知られている。しかし、ここで開示する方法において、特定のタイプのＮＬＰモデルを訓練させるために通常的に使用されるデータセットは、他のタイプのＮＬＰモデルを訓練させるために適応（ａｄａｐｔｅｄ）されてもよい。

ここで、「機械翻訳モデル」または「ＭＴモデル」とは、プロセッサ、および第１言語の入力トークンを受信するように構成されるメモリによって実行されてよく、モデルによる処理後（または、直接的あるいは追加的な処理後に）第２言語の出力トークンを生成するニューラルネットワークベースの自然言語処理（ＮＬＰ）モデルである。トークンは、例えば、単語、文字（例えば、文字、数字、句読点、（文章終了（ｅｎｄ－ｏｆ－ｓｅｎｔｅｎｃｅ）文字のような）特殊文字、または当業者によって理解される他のものを含んでよい。入力トークンおよび出力トークンの両方は、トークンのシーケンス（すなわち、トークンシーケンス）として提供されてよい。第１言語および第２言語と関連する「言語」は、適切な自然言語として一般的に解釈されるものを意味する。第１言語および第２言語は、ある側面において互いに異なる限り、（同じものの２つの変形、より一般的な言語を含む）任意の２つの選択された自然言語であってよい。

一部のＭＴモデルは一般的に「文章レベル」と見なされるが、そこでは、入力トークンのシーケンスはＭＴモデルによって処理され、出力トークンは１つ以上の入力文章を提供するように文章基準（ｐｅｒ－ｓｅｎｔｅｎｃｅｂａｓｉｓ）（文章の終了は、例えば、特殊な文章終了トークンによって表示される）で生成され、したがって、出力トークンのシーケンスは、１つ以上の対応する出力文章として提供される。他のＭＴモデルは一般的に「文書レベル」と見なされるが、そこでは、入力トークンのシーケンスは処理され、出力トークンは最大限完全な文書となり、完全な文書（例えば、トークンの完全なセット、または個別の文章よりも大きいシーケンスを示すトークンセット）を含み、その個別の文章よりも大きい基準で生成される。

「自然言語生成モデル」または「ＮＬＧモデル」は、プロセッサ、および構造化されたデータを入力として受信し、出力として選択された言語の出力トークンのシーケンスを生成するように構成されるメモリによって実行されるニューラルネットワークをベースにしたＮＬＰモデルである。言語独立的な構造化されたデータは、例えば、メタデータ、テーブル形式のデータ、ツリー形式のデータ、グラフ形式のデータ、フォーマット化されたデータなどを含んでよい。トークンの出力シーケンス（すなわち、トークンシーケンス）は、例えば、生成されたテキストの１つ以上のシーケンスであってよく、文書レベルであってよく、例えば、トークンの出力シーケンスは、入力された構造化されたデータに基づく文書レベルのテキストシーケンスであってよい。

本開示に記載した実施形態によると、第１言語の入力トークンシーケンスを受信して第２言語の出力トークンシーケンスを生成するために訓練される、文書レベルの機械翻訳（ＭＴ）モデルが提供、例えば、生成される。文書レベルのＭＴモデルが最初に取得されるようになるが、これらは、例えば、第１言語および第２言語の並列文書レベルのコーパスデータを使用して文章レベルのＭＴモデルを取得し、後に訓練させることによって提供されてよい。文書レベルの機械翻訳モデルを提供する方法の例については、以下でさらに詳しく説明する。

追加的な方法として、第１言語の入力トークンを受信して第２言語の出力トークンを生成するための文書レベルのＭＴモデルを訓練させる。ＭＴモデルは、文章レベルの並列コーパスからランダムに選択された文章の連結された（ｃｏｎｃａｔｅｎａｔｅｄ）グループである第１言語および第２言語のトークンシーケンスを含むデータセットによって訓練されてよい。文書レベルのＭＴモデルは、代案的にまたは追加的に、第１言語の文書レベルのソースデータおよび第２言語の文書レベルのトークンデータを含む１つ以上のデータセットによって訓練されてよい。データセット（複数可）を提供する方法の例がここで提供される。文章の連結されたグループによって文書レベルのＭＴモデルを訓練させることは、可用な訓練データの量を増加させ、並列文書レベルのコーパスデータが少ないか存在しないときに、文章レベル情報を超える情報を利用できるようにする。

文書レベルのＭＴモデルを生成した後、拡張された文書レベルのＭＴモデルが文書レベルのＭＴモデルを入力として第１言語のトークンシーケンスと対をなす言語独立構造化されたデータを受信し、第２言語のターゲットトークンシーケンスを出力として生成するように訓練（例えば、ＭＴ訓練）させることによって提供されてよい。このようなデータは、少なくとも部分的に、例えば、ＮＬＧモデルのために古典的に（ｃｏｎｖｅｎｔｉｏｎａｌｌｙ）使用される１つ以上の訓練データセットによって提供されてよい。言語独立構造化されたデータは、例えば、ここで提供される方法により、訓練の間に（または、新たに構造化されたデータに対し、ランタイムの間に）拡張された文書レベルのＭＴモデルによって消費される１つ以上のテキストシーケンスを生成するように前処理されてよい。前処理方法の例としては、言語従属的に構造化されたデータから言語非依存的に構造化されたデータ（一例として、記入日時（ｗｒｉｔｔｅｎｄａｔｅｓ））を生成することを含んでよい。

ＮＬＧモデルは、拡張された文書レベルのＭＴモデルを、言語独立構造化されたデータを入力として受信し、第２言語のトークンシーケンスを出力として生成するように訓練させることによって提供されてよい。これは、例えば、（例えば、入力として第１言語の対をなすトークンシーケンスを含まずに）言語独立構造化されたデータから生成されたテキストシーケンスを使用する拡張された文書レベルのＭＴモデルのＮＬＧ訓練によって実行されてよい。

（例えば、ランタイムまたは推論の間に）構造化されたデータから出力を生成する方法において、構造化されたデータは、訓練されたＮＬＧモデルに入力される。構造化されたデータは、１つ以上のテキストシーケンスを生成するように前処理されてよい。このような入力によって訓練されたＮＬＧモデルは、第２言語の（例えば、文書レベルの）出力テキストを生成する。

本発明は多様な形態の実施形態を許容することができるが、本開示は発明の原理の一例に過ぎず、説明される実施形態によって発明の広い側面が限定されることを意図するものではないという理解とともに、図面に示されている、発明の好ましい実施形態の詳細がここで説明されるであろう。

レファレンス
以下の文献のいずれも従来技術を構成するものと認められてはいないが、参照としてそのすべてがここに統合される。

－ＡｌｅｘａｎｄｒｅＢｅｒａｒｄ，ＣａｌａｐｏｄｅｓｃｕＩｏｎａ，ａｎｄＣｌａｕｄｅＲｏｕｘ，２０１９．ＮＡＶＥＲＬＡＢＳＥｕｒｏｐｅＳｙｓｔｅｍｓｆｏｒｔｈｅＷＭＴ１９ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＲｏｂｕｓｔｎｅｓｓＴａｓｋ．ＩｎＷＭＴ－ＳｈａｒｅｄＴａｓｋＰａｐｅｒ．
－ＳｅｒｇｅｙＥｄｕｎｏｖ，ＭｙｌｅＯｔｔ，ＭｉｃｈａｅｌＡｕｌｉ，ａｎｄＤａｖｉｄＧｒａｎｇｉｅｒ，２０１８．ＵｎｄｅｒｓｔａｎｄｉｎｇＢａｃｋ－ＴｒａｎｓｌａｔｉｏｎａｔＳｃａｌｅ．ＩｎＥＭＮＬＰ．
－ＭａｒｃｉｎＪｕｎｃｚｙｓ－Ｄｏｗｍｕｎｔ．２０１９．ＭｉｃｒｏｓｏｆｔＴｒａｎｓｌａｔｏｒａｔＷＭＴ２０１９：ＴｏｗａｒｄｓＬａｒｇｅ－ＳｃａｌｅＤｏｃｕｍｅｎｔ－ＬｅｖｅｌＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ．ＩｎＷＭＴ－ＳｈａｒｅｄＴａｓｋＰａｐｅｒ．
－ＴａｋｕＫｕｄｏａｎｄＪｏｈｎＲｉｃｈａｒｄｓｏｎ，２０１８．ＳｅｎｔｅｎｃｅＰｉｅｃｅ：ＡｓｉｍｐｌｅａｎｄｌａｎｇｕａｇｅｉｎｄｅｐｅｎｄｅｎｔｓｕｂｗｏｒｄｔｏｋｅｎｉｚｅｒａｎｄｄｅｔｏｋｅｎｉｚｅｒｆｏｒＮｅｕｒａｌＴｅｘｔＰｒｏｃｅｓｓｉｎｇ．ＩｎＥＭＮＬＰ．
－ＲｅｍｉＬｅｂｒｅｔ，ＤａｖｉｄＧｒａｎｇｉｅｒ，ａｎｄＭｉｃｈａｅｌＡｕｌｉ，２０１６．ＮｅｕｒａｌＴｅｘｔＧｅｎｅｒａｔｉｏｎｆｒｏｍＳｔｒｕｃｔｕｒｅｄＤａｔａｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｔｏｔｈｅＢｉｏｇｒａｐｈｙＤｏｍａｉｎ．ＩｎＥＭＮＬＰ．
－ＭａｒｃｏＬｕｉａｎｄＴｉｍｏｔｈｙＢａｌｄｗｉｎ，２０１２．Ｌａｎｇｉｄ．ｐｙ：Ａｎｏｆｆ－ｔｈｅ－ｓｈｅｌｆｌａｎｇｕａｇｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｔｏｏｌ．ＩｎｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＬ２０１２ＳｙｓｔｅｍＤｅｍｏｎｓｔｒａｔｉｏｎｓ，ＡＣＬ．
－ＫａｔｈｌｅｅｎＲ．ＭｃＫｅｏｗｎ，１９８５．ＴｅｘｔＧｅｎｅｒａｔｉｏｎ：ＵｓｉｎｇＤｉｓｃｏｕｒｓｅＳｔｒａｔｅｇｉｅｓａｎｄＦｏｃｕｓＣｏｎｓｔｒａｉｎｔｓｔｏＧｅｎｅｒａｔｅＮａｔｕｒａｌＬａｎｇｕａｇｅＴｅｘｔ．ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ．
－ＨｏｎｇｙｕａｎＭｅｉ，ＭｏｈｉｔＢａｎｓａｌ，ａｎｄＭａｔｔｈｅｗＲＷａｌｔｅｒ，２０１６．Ｗｈａｔｔｏｔａｌｋａｂｏｕｔａｎｄｈｏｗ？ＳｅｌｅｃｔｉｖｅｇｅｎｅｒａｔｉｏｎｕｓｉｎｇＬＳＴＭｓｗｉｔｈＣｏａｒｓｅ－ｔｏ－ＦｉｎｅＡｌｉｇｎｍｅｎｔ．ＩｎＮＡＡＣＬ－ＨＬＴ．
－ＭｙｌｅＯｔｔ，ＳｅｒｇｅｙＥｄｕｎｏｖ，ＤａｖｉｄＧｒａｎｇｉｅｒ，ａｎｄＭｉｃｈａｅｌＡｕｌｉ，２０１８．ＳｃａｌｉｎｇＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ．ＩｎＷＭＴ．
ＲａｔｉｓｈＰｕｄｕｐｐｕｌｌｙ，ＬｉＤｏｎｇ，ａｎｄＭｉｒｅｌｌａＬａｐａｔａ，２０１９．Ｄａｔａ－ｔｏ－ＴｅｘｔＧｅｎｅｒａｔｉｏｎｗｉｔｈＣｏｎｔｅｎｔＳｅｌｅｃｔｉｏｎａｎｄＰｌａｎｎｉｎｇ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．
－ＥｈｕｄＲｅｉｔｅｒａｎｄＲｏｂｅｒｔＤａｌｅ，２０００．ＢｕｉｌｄｉｎｇＮａｔｕｒａｌＬａｎｇｕａｇｅＧｅｎｅｒａｔｉｏｎＳｙｓｔｅｍｓ．ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ．
－ＲｉｃｏＳｅｎｎｒｉｃｈ，ＢａｒｒｙＨａｄｄｏｗ，ａｎｄＡｌｅｘａｎｄｒａＢｉｒｃｈ，２０１６．ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｏｆＲａｒｅＷｏｒｄｓｗｉｔｈＳｕｂｗｏｒｄＵｎｉｔｓ．ＩｎＡＣＬ．
－ＡｓｈｉｓｈＶａｓｗａｎｉ，ＮｏａｍＳｈａｚｅｅｒ，ＮｉｋｉＰａｒｍａｒ，ＪａｋｏｂＵｓｚｋｏｒｅｉｔ，ＬｌｉｏｎＪｏｎｅｓ，ＡｉｄａｎＮ．Ｇｏｍｅｚ，ｕｋａｓｚＫａｉｓｅｒ，ａｎｄＩｌｌｉａＰｏｌｏｓｕｋｈｉｎ，２０１７．ＡｔｔｅｎｔｉｏｎｉｓＡｌｌＹｏｕＮｅｅｄ．ＩｎＮＩＰＳ．
－ＳａｍＷｉｓｅｍａｎ，ＳｔｕａｒｔＳｈｉｅｂｅｒ，ａｎｄＡｌｅｘａｎｄｅｒＲｕｓｈ，２０１７．ＣｈａｌｌｅｎｇｅｓｉｎＤａｔａ－ｔｏ－ＤｏｃｕｍｅｎｔＧｅｎｅｒａｔｉｏｎ．ＩｎＥＭＮＬＰ．

システムの基本設計
本実施形態に係る方法は、図１に示した基本設計のシステム１００内で実現されてよい。システム１００は、１つ以上のニューラルネットワークを使用して自然言語処理（ＮＬＰ）およびＮＬＰモデルの訓練作業を実行するように構成されるプロセッサ１０２、例えば、コンピューティングデバイスを含む。プロセッサ１０２は、モデルを訓練させるために使用されるデータセットを記録する１つ以上のデータベース１０４と通信してよい。プロセッサ１０２は、単一プロセッサあるいは直列または並列で動作する複数のプロセッサを含んでよく、データベース１０４は、１つ以上のデータベースを含んでよい。

機械翻訳（ＭＴ）または自然言語生成（ＮＬＧ）モデルの訓練、検証、試験、および／または推論のようなＮＬＰ作業の動作の間に、プロセッサ１０２は、連結される他のプロセッサ（図示せず）から、データベース１０４から、または／追加的にネットワーク１０８を介して連結する１つ以上のユーザ端末１０６から、あるいはこのいずれかの組み合わせから、入力データを受信してよい。プロセッサ１０２は、モデルを使用して入力データを処理してよく、追加のプロセッサ（複数可）、データベース１０４、および／または１つ以上のユーザ端末１０６ａ、１０６ｂでこのような処理の結果を出力してよい。他の例として、プロセッサ１０２は、サーバ（または、クラウドコンピューティングデバイス）として構成されてよく、追加されるプロセッサのうちの１つ以上または１つ以上のユーザ端末１０６は、クライアントとして構成されてよい。データベース１０４は、プロセッサにローカルとして存在するか、または、例えば、ネットワーク１０８を介して遠隔接続してよい。

ユーザ端末１０６ａ、１０６ｂは、個人用コンピュータ１０６ａ、クライアントコンピュータ、クライアント端末、モバイル通信デバイス１０６ｂなど、または、プロセッサ１０２に対してデータを送受信するために構成されることのできる他のコンピュータデバイスを含んでよいが、これに限定されることはない。ユーザ端末１０６は、プロセッサ１０２が処理した結果を表示するためのディスプレイを含んでよい。

図２は、プロセッサ１０２で実現されることのできる、プロセッサ２００のコンポーネントを示した図である。プロセッサ２００は、プロセッシング部２０２およびメモリ２０４を含み、これは、ランダムアクセスメモリ、不揮発性メモリ、および記録媒体のいずれかの組み合わせを含んでよい。データベース１０４に対応するデータベース２０６は、プロセッシング部２０２と通信するように設けられてよい。ＮＬＰモデル構成データ（例えば、モデル、パラメータ）、（例えば、訓練、試験、および／または検証のための）データセット、生成された入力データ、生成された出力データ、または他のデータは、必要によっては、メモリ２０４およびデータベース２０６のいずれかの組み合わせに記録さるか、そこから検索されてよい。

メモリ２０４に記録されたコードを実行するプロセッシング部２０２には、本開示に係る方法の段階を実行するためのモジュールが設けられる。このようなモジュールの動作については、本発明に係る方法を参照しながら以下でより詳しく説明する。

自然言語処理（ＮＬＰ）モジュール２０８は、使用される特定の方法にしたがい、文章レベルの機械翻訳（ＭＴ）モデル、文書レベルのＭＴモデル、拡張された文書レベルのＭＴモデル、または自然言語生成（ＮＬＧ）モデルのような、ＮＬＰモデルに基づくニューラルネットワークを実行する。ＮＬＰモジュール２０８は、１つ以上のデータセット２１０から生成された（例えば、メモリ２０４に記録された）入力データを受信して出力データを生成するように、ＮＬＰモデルを使用して入力データを処理する。

入力データ処理モジュール２１４は、データセット２１０から入力データを受信、処理、および／または生成し、訓練、試験、検証、および／または推論に使用するためにＮＬＰモジュール２０８に提供する。入力データ処理モジュール２１４は、トークンシーケンス生成モジュール２１６、構造化されたデータ前処理モジュール２１８、および連結／集合モジュール２２０のような１つ以上のデータ処理モジュールを含んでよい。

トークンシーケンス生成モジュール２１６は、データセット２１０または他のソースから、例えば、テキストシーケンスのような１つ以上のソースおよび／またはターゲットトークンシーケンスを提供する。並列コーパスから提供されるデータセットに対し、例えば、トークンシーケンス生成モジュール２１６は、文章レベルのテキストシーケンスまたは文書レベルのテキストシーケンスを訓練するために（当該技術分野の技術者であれば理解できるはずであるが、このようなテキストシーケンスに対して求められるすべての前処理を含む）、必要によって提供してよい。トークンシーケンス生成モジュール２１６は、例えば、文書レベルのテキストを提供するために連結／集合モジュール２２０によって追って連結される、例えば、文章レベルのテキストシーケンスのようなテキストシーケンスのセットをランダムに選択するか、または他の方法で選択して提供してよい。ランタイムの間に、トークンシーケンス生成モジュールは、ＭＴ作業のような、ＮＬＰモデルに対する入力のために新たに受信されたトークン（例えば、テキスト）シーケンスのすべての所期の前処理を実行してよい。

構造化されたデータ前処理モジュール２１８は、データセット２１０または他のソースから受信された構造化されたデータに対する１つ以上の前処理段階を実行し、例えば、テキストまたはトークンシーケンスのような言語非依存型のデータを提供する。前処理は、言語従属的に構造化されたデータから言語非依存型のデータを生成すること、構造化されたデータをフィルタリングすること、入力構造化されたデータから推論される追加の構造化されたデータによって構造化されたデータを補うこと、および／または構造化されたデータを順に配置することを含んでよいが、これに限定されてはならない。

連結／集合モジュール２２０は、トークンシーケンス生成モジュール２１６および／または構造化されたデータ前処理モジュール２１８から、文書レベル、文章レベル、またはその他のテキストシーケンスを連結、集合化（ａｇｇｒｅｇａｔｅ）、または結合（ｃｏｍｂｉｎｅｄ）、そうでなければ組み立てる（ａｓｓｅｍｂｌｅ）（ペアリングする（ｐａｉｒ））ことにより、ＮＬＰモジュール２０８によって実行されるＮＬＰモデルに対する入力および／または出力テキストシーケンスを提供する。連結または集合方法の例が、ここで説明される。

ＮＬＰ訓練モジュール２２２は、ここで提供される１つ以上の訓練方法により、（例えば、入力データ処理モジュール２１４によって処理されたもののような）受信された入力データを使用してＮＬＰモジュール２０８が実行するＮＬＰモデルを訓練させる。ＮＬＰ訓練モジュール２２２は、文章レベルのＭＴ訓練、文書レベルのＭＴ訓練、拡張された文書レベルのＭＴ訓練、またはＮＬＧ訓練を含み、複数の訓練方法を実行してよい。これらの例が、ここで説明される。ＮＬＰ訓練モジュール２２２は、追加される入力データを使用してＮＬＰモデルの試験および／または検証のために構成されてもよい。

ＮＬＰ推論モジュール２２４は、受信されたデータセット２１０または他のデータソースからＮＬＰモジュール２０８に新たな入力データ（このような入力データは、選択的に、入力データ処理モジュール２１４によって処理されてよい）をランタイムの間に推論を実行するために提供する。プロセッサ２００は、例えば、記録のために、ディスプレイ上に表示を提供するために、その他のことのために、推論の間にＮＬＰモデルによって生成された出力データを追加で処理してよい。

ＮＬＧモデルの訓練
図３は、プロセッサ１０２、２００によって文書レベルのＮＬＧモデル（例えば、ＮＬＰモデル）を訓練させるための方法３００の例を示した図である。

段階３１０で、文書レベルのＭＴモデルは、例えば、ＮＬＰ訓練モジュール２２２を使用し、第１言語（ソース）の入力トークンシーケンスを受信し、第２言語（ターゲット）の出力トークンシーケンスを生成するためにＭＴモデルを訓練させることによって提供される。ＭＴモデルを訓練させることは、例えば、並列コーパスからの、並列ソースおよびターゲットトークンシーケンスを使用してよい。

文書レベルのＭＴモデルは、最初は、いずれかの適切な（例えば、プロセッサ２００内で（一例として、ＮＬＰモジュール２０８内で）以前に生成されて記録されたもの、プロセッサの外部で以前に生成されて記録されて後にプロセッサ２００によって受信または取得されたものなどのような）方式によって提供されてよい。一実施形態によると、文書レベルのＭＴモデルは、例えば、ＮＬＰ訓練モジュール２２２によって文章レベルＭＴモデルを訓練させることによって提供されてよい。代案的に、従来の文書レベルのＭＴモデルが文書レベルのＭＴモデルを提供するように訓練されてもよい。

他の例として、文書レベルのＭＲモデルは、第１言語（Ｌ１）（例えば、英語）のテキストのシーケンス（例えば、単語）のような入力トークンを翻訳し、第２言語（Ｌ２）（例えば、フランス語）のテキストのシーケンス（例えば、単語）のような出力トークンを生成するために構成（例えば、生成、受信、および訓練）されてよいが、これに限定されてはならない。入力および／または出力トークンは、当該分野の技術者であれば理解できるように、文章の終了を示すもののような特殊なトークンをさらに含んでよい。このように、段階３１０で提供されるＭＴモデルは文書レベルであるため、ＭＴモデルは、ＮＬＰ訓練モジュール２２２によって訓練されて文章レベルよりも高いレベルのシーケンスを集合的に示す入力トークンを受信し、同じように、文章レベルよりも高いレベルのシーケンスを示す出力トークンを生成する。

段階３１２で、例えば、入力データ処理モジュール２１４と組み合わせてＮＬＰ訓練モジュール２０８を使用することで、プロセッサ１０２は、例えば、ソーストークンシーケンスのような、ソーストークンデータと対をなす構造化されたデータを使用して文書レベルのＭＴモデル（一例として、段階３１０で訓練されたもの）を訓練させることにより、拡張された文書レベルのＭＴモデルを提供する。段階３１２の訓練は、対をなす構造化されたデータとソーストークンシーケンスを入力として受信してターゲットトークンシーケンスを出力として生成するように拡張された文書レベルのＭＴモデルを訓練させることと関連する。拡張された文書レベルのＭＴモデルを提供するための段階３１２の訓練は、ＭＴ訓練方法によって実行されてよい

例えば、プロセッサ２００、例えば、入力データ処理モジュール２１４は、他の１つと対をなす構造化されたデータおよびソーストークンデータを有する１つ以上のデータセットを提供してよく、これによって１つ以上の対が提供され、各対は、言語独立形態の構造化されたデータおよび第１言語（Ｌ１）のソーストークンデータを有するようになる。言語独立形態とは、構造化されたデータが、ソース言語（Ｌ１）およびターゲット言語（Ｌ２）の両方を理解することのできる形態を意味する。対はこのような段階３１２の訓練のためのソースを提供し、ターゲット言語（Ｌ２）のテキストはターゲットを提供する。

一実施形態によると、構造化されたデータは、文書と関連するデータであるか、該当のデータを含む。例えば、構造化されたデータは、文書に関する概念的（ｃｏｎｃｅｐｔｕａｌ）あるいは意味的（ｓｅｍａｎｔｉｃ）情報を示すデータであってよい。構造化されたデータは、テーブルレコードデータ、ツリーデータ、グラフデータ、メタデータ、フォーマット化されたデータ、またはこれらのいずれかの組み合わせであってよいが、これに限定されてはならない。

構造化されたデータのソースは、自然言語生成（ＮＬＧ）モデルを訓練させるために通常的に使用される訓練セットであり、その例がここで提供される。しかし、データの他のソースが使用されてもよい。同じソースまたは複数のソースからの複数のデータセットが対をなす構造化されたデータおよび／またはソーストークンデータを提供するように結合、例えば、連結されてよい。

構造化されたデータは、ソーストークンシーケンスと対をなす前に前処理されてよい。前処理方法の例がここで提供される。

ソーストークンデータは、例えば、第１言語（Ｌ１）の、構造化されたデータと関連する文書を要約するテキストであるか、該当のデータを含んでよい。例えば、構造化されたデータは、イベントに対する事実（ｆａｃｔ）を示してよく、イベントは、テキストによって要約される。トークンターゲットデータは、プロセッサ２００によってトークンデータとして受信されてよく、または、例えば、訓練データセットから、例えば、非トークン化された（ｎｏｎ－ｔｏｋｅｎｉｚｅｄ）ターゲットテキストを受信して非トークン化されたデータをトークン化するプロセッサによって提供されてよい。データをトークン化する方法の例がここで提供されるが、その他の内容は、当該技術分野において通常の知識を有する者であれば理解できるであろう。

ターゲットトークンデータは、例えば、第２言語（Ｌ２）の、すなわち、訓練された文書レベルのＭＴモデルによって生成されたトークンの出力シーケンスの言語の、構造化されたデータと関連する文書を要約するテキストであるか、該当のテキストを含んでよい。言い換えれば、ソーストークンデータおよびターゲットトークンデータは、言語（Ｌ１およびＬ２）それぞれの文書を要約する文書であってよく、ソーストークンデータと対をなす構造化されたデータは、このような文書と関連するデータであってよい。

ターゲットトークンデータは、文書レベルのデータとして見なされてよい。当該技術分野の発明者であれば認識できるはずであるが、これは、拡張された文書レベルのＭＴモデルの出力の整列を容易にし、ＮＬＧモデルのそれは第２言語（Ｌ２）のテキスト要約の提供を容易にし、言語（Ｌ１およびＬ２）間のテキスト翻訳のための入力テキストを処理する第１タイプのＮＬＰモデル（文書レベルのＭＴモデルのようなもの）と構造化されたデータを処理する第２タイプのＮＬＰモデル（ＮＬＧモデルのようなもの）との移転学習を可能にし、第２言語のテキストを生成する。

段階３１４で、ＮＬＧモデルは、ターゲットトークンシーケンスを出力として提供する反面、対をなすソーストークンシーケンスがなくても入力として構造化されたデータを受信するように、段階３１２で訓練された拡張された文書レベルのＭＴモデルを訓練させることによって提供される。拡張された文書レベルのＭＴモデル、すなわち、ＮＬＧモデルを訓練させることは、このような訓練段階３１４において、神経ＮＬＧモデルを訓練するための既知（ｋｎｏｗｎ）の方法を使用してＮＬＰ訓練モジュール２２２によって実行されてよい。（例：ハイパーパラメータを含む）訓練方法がここで提供される。

図４は、段階３１０に示した文書レベルのＭＴモデルを訓練させる方法４００の例を示した図である。段階４０２で、ＮＬＰモジュール２０８によって実現されるＭＴモデルは、いずれかの適切な方法によって提供される。段階４０２で提供される、提供されたＭＴモデルは、（文章単位（ｓｅｎｔｅｎｃｅ－ｂｙ－ｓｅｎｔｅｎｃｅｂａｓｉｓ）で入力テキストを処理する）文章レベルのＭＴモデル、または（文書単位で入力テキストを処理する）文書レベルのＭＴモデルであってよい。

このように提供されたＭＴモデルは、当該技術分野において通常の知識を有する者にとって明らかであるＭＴ訓練方法により、ＮＬＰ訓練モジュール２２２によって最初に訓練されてよい。方法の例がここで提供される。例えば、ＭＴモデルが文章レベルのＭＴモデルであれば、最初に文章レベルデータを使用して訓練される反面、文書レベルＭＴモデルは、文書レベルのデータを使用して最初に訓練される。最初の訓練が文章に基づくものであれば、テキスト文章は、所望するものにしたがい、文章レベルのテキストとして提供されるか、または／追加で文書レベルのテキストをセグメント化することによって提供されてよい。当該技術分野において通常の知識を有する者であれば理解できるように、訓練データは、ＭＴモデルを訓練するためのデータセットを受信することによって提供されてよい。文章レベルのトークンデータから抽出（例えば、セグメント化）するための文書レベルのトークンデータは、文書レベルのＭＴモデル訓練セットによって提供されてよい。最初の訓練のための文章レベルまたは文書レベルのソーストークンデータは第１言語（Ｌ１）であってよく、最初の訓練のための文章レベルのターゲットトークンデータは第２言語（Ｌ２）であってよい。

段階４０４で、文書レベルの訓練データ（例えば、既存の文書レベルの訓練データ）が、文書レベルのＭＴモデルを訓練させるために使用されなければならないかが判定される。文書レベルの訓練データが使用されなければならない場合（通常はより高いレベルの訓練）、段階６０４で、文書レベルのトークンシーケンス（例えば、当業者であれば理解できるような所期の前処理とともに、テキストシーケンス）がそれぞれ、例えば、並列コーパスから選択されてソースおよびターゲットデータを（すなわち、Ｌ１のトークンシーケンスがソースとして、Ｌ２のトークンシーケンスがターゲットとして）提供する。このようなデータセットに対するソースの例は、既存の文書レベルのＭＴ訓練データセットまたは文章レベルのＭＴ訓練データセットからの集合化された（ａｇｇｒｅｇａｔｅｄ）文章データを含む。文書レベルのトークンデータに追加されるソースは、ＮＬＧ訓練セットからアップサンプリングされた、および／または逆翻訳された（ｂａｃｋ－ｔｒａｎｓｌａｔｅｄ）ターゲットデータを含む。訓練データの選択および／または前処理は、入力データ処理モジュール２１４によって提供されてよい。

段階４０４で、既存の文書レベルの訓練データが使用されてはならないと判定されれば、その次に、文書レベルのデータがシミュレーションされてよい。段階４０８で、第１および第２言語（Ｌ１、Ｌ２）のランダム文章レベルのトークンシーケンス（例えば、当業者であれば理解できるような所期の前処理とともに、テキストシーケンス）は、例えば、並列コーパスから選択される。例えば、第１言語（Ｌ１）のランダム選択された文章レベルのトークンシーケンスと、第２言語（Ｌ２）のこれらに関連する文章レベルのトークンシーケンスのセットが選択されてよい。代案的にまたは追加的に、第２言語（Ｌ２）のランダム選択された文章レベルのトークンシーケンスと、第１言語（Ｌ１）のこれらの関連する文章レベルのトークンシーケンスが選択されてよい。

段階４０８の次に、段階４１０で、Ｌ１およびＬ２の選択された文章レベルのトークンシーケンスはそれぞれ、例えば、入力データ処理モジュール２１４により、シミュレーションされた文書レベルのソースおよびターゲットデータを提供するように連結される。例えば、ソースシーケンスは、Ｌ１の連結されたランダム選択された文章を含んでよく、ターゲット文章は、Ｌ１の連結された文章と関連する（すなわち、その翻訳である）それぞれのＬ２の連結された文章を含んでよい。

段階４１２で、段階４０２で提供されたＭＴモデルは、ＭＴ訓練方法により、段階４０６、４０８、４１０で選択されたデータに対して訓練される。文書レベルおよびシミュレーションされた訓練レベルデータの組み合わせが、訓練段階４１２でＭＴモデルを訓練させるために使用されてよい。訓練段階４１２の結果は、第１言語（Ｌ１）のテキストの入力シーケンスを受信して第２言語（Ｌ２）のテキストのシーケンスを出力する文書レベルのＭＴモデルとなる。

図５は、段階３１２に示した文書レベルの機械翻訳モデルを拡張するための方法５００の例を示した図である。段階５０２で、構造化されたデータは、プロセッサ２００、例えば、構造化されたデータ前処理モジュール２１８によってテキストシーケンス（または、より一般的には、他のトークンシーケンス）を提供するように前処理される。前処理５０２から始まるテキストシーケンスは、上述したように言語非依存型であってよい。

段階５０４で、プロセッサ２００、例えば、連結／集合モジュール２２０は、前処理５０２からのテキストシーケンスを第１言語（Ｌ１）のソーストークンデータ（例えば、文書レベル）とペアリングして訓練データセットのためのソースデータを提供してよい。ペアリング５０４は、例えば、テキストシーケンスを、当該技術分野において通常の知識を有する者であれば理解可能な連結方法により、ソーストークンデータと連結することを含んでよい。連結方法の例がここで提供される。

段階５０６で、文書レベルのＭＴモデルは、例えば、段階３１０で訓練された文書レベルのＭＴモデルは、ソースデータとして、段階５０４における対をなすソースデータと、入力データ処理モジュール２１４によって処理されたものとして、第２言語（Ｌ２）のターゲットトークンデータをターゲットデータとして使用してＮＬＰ訓練モジュール２２２によって訓練される。ターゲットトークンデータは、段階５０４で、（言語非依存型の）構造化されたデータベースのテキストシーケンスと対をなす言語（Ｌ１）のソーストークンデータに対応する（例えば、その翻訳である）第２言語（Ｌ２）のトークンシーケンス（例えば、テキストシーケンス）であってよい。例えば、ソーストークンデータは、ＮＬＧ訓練セットから第２言語（Ｌ２）である逆翻訳ターゲットテキストによって提供されてよい。他の例として、一部のＮＬＧ訓練セットは、１よりも多い言語のターゲットテキストを含み、このようなターゲットテキストは、通常は文書レベルのデータである。他の例として、ソーストークンデータは、言語（Ｌ１およびＬ２）のテキストを有するＭＴ訓練セットから第１言語（Ｌ１）のテキストを受信または生成することによって提供されてよい。ソーストークンデータおよびターゲットトークンデータは、互いに連結する、ＭＴ訓練データおよびＮＬＧ訓練データの両方によって提供されてもよい。

ソースおよび／またはターゲットトークンシーケンスの提供は、当該技術分野の技術者であれば理解可能なように、例えば、トークンシーケンス生成モジュール２１６、および／または連結／集合モジュール２２０によるトークンデータの前処理を含んでよい。

段階５０６の間に、（ソーストークンシーケンスとは対照的に）構造化されたデータの考慮を向上させるために、段階５０４のペアリングは、選択的に（ｏｐｔｉｏｎａｌｌｙ）、ソーストークンシーケンス内の複数のトークンをランダムにマスキング（ｍａｓｋｉｎｇ）することと、（ランダムにマスキングされたトークンを有する）このようなソーストークンシーケンスを前処理されたテキストシーケンスと連結することを含んでよい。マスキングは、既知の方法によって実行されてよい。

訓練方法の一例として、段階５０６で、訓練は、複数のエポック（ｅｐｏｃｈ）に対して実行されてよい。各エポックに対してソースデータが段階５０４で提供されるとき、互いに異なる（例えば、ランダムに選択された）複数のトークンが選択的にマスキングされてよい。これは、拡張された文書レベルのＭＴモデルが構造化されたデータを考慮して訓練されることを保障する。

訓練されたときに拡張されたＭＴモデルは、第１言語に翻訳される入力トークン（例えば、テキスト、特殊文字など）と言語独立的に構造化されたデータの両方を含む入力シーケンスを受信し、第２言語の文書レベルの出力トークン（例えば、テキスト、特殊文字など）を含む出力シーケンスを生成するように構成される。

図６は、構造化されたデータ前処理モジュール２１８によってテキストシーケンスを提供するように構造化されたデータを前処理する方法６００の例を示した図である。通常、構造化されたデータは、古典的な機械学習モデルでは簡単に処理することが難しい、テーブル形式、グラフ形式、ツリー形式、または他のフォーマットで提供される。これにより、前処理方法６００は、構造化されたデータをテキストシーケンス形式に変換し（一例として、グラフデータを変換するためのタプル（ｔｕｐｌｅ）を使用するが、これに限定されてはならない）、したがって、ＮＬＰモデルによって出力テキストシーケンスを生成するように消費されてよい。追加的に、（記入日時（ｗｒｉｔｔｅｎｄａｔｅｓ）に限定されないような）言語従属的に構造化されたデータは、言語非依存的に生成されてよい。

構造化されたデータは、段階６０２で受信される。例えば、構造化されたデータは、上述したように、１つ以上の受信されたＮＬＧ訓練セットの一部であるデータセットの構造化されたデータとして受信されてもよいし、他の外部ソースからのデータセットから受信されてもよいし、あるいはプロセッサ１０２内またはプロセッサ１０２にアクセス可能なストレージ内に含まれたデータセットから受信されてもよい。複数のＮＬＧ訓練セットから構造化されたデータは連結されてよい。

受信された構造化されたデータは、段階６０４で、例えば、１つ以上のタイプのデータを選択および／または除去することによってフィルタリングされてよい。一例として、特定のタイプの情報が所期の出力テキストを効率的に生成するために、より関連のあるものとして（文書に対する要約テキストのように）以前に判断されることがある。このようなタイプの情報を示すデータがフィルタリング対象として選択されてよく、異なるタイプの情報を示すデータは除去されるように選択（ｄｅ－ｓｅｌｅｃｔｅｄ）されてよく（あるいは、選択されないこともある）、後の処理に対して排除されてよい。代案的にまたは追加的に、追加で構造化されたデータは直接的に存在しないこともあるが、受信された構造化されたデータに基づいて推論されてよく、段階６０２で受信された構造化されたデータを補うように生成されてよい。

言語従属的な構造化されたデータは、言語非依存型または言語独立形式としてのいずれかのフィルタリングまたは補充の前または後に、段階６０６で変換または正規化（例えば、翻訳）されてよい。変換の例はここで提供されるが（例えば、言語従属形式「Ａｕｇｕｓｔ１，２０２０」から言語独立形式「２０２０－０８－０１」へのデータ変換）、他の言語非依存形式および／または変換も可能であることが理解できるであろう。

（フィルタリング、補充、または変換がなされるか、あるいはなされなかった）構造化されたデータは、段階６０８で、トークンを提供するように符号化されてよい。例えば、プロセッサ１０２は、構造化されたデータを、より一貫的に、明確に、あるいは／追加で効率的に、文書に対する特定の概念または情報を表現するように決定または選択された構造またはフォーマットに基づいて符号化されてよい。構造化されたデータの一部は、符号化段階６０８の前に予めトークン化されてよい。一実施形態において、段階６０６の（選択的な）翻訳と段階６０８の符号化が、１つの段階として結合されてもよい（一例として、翻訳が符号化に統合されてよいが、これに限定されてはならない）。段階６０４のフィルタリングまたは補充、および／または段階６０６の翻訳と選択的に結合された段階６０８の符号化は、構造化されたデータのよりコンパクトな表現を提供する。

トークンシーケンス、例えば、テキストシーケンスは、構造化されたデータ、例えば、段階６０６のトークンから段階６１０で生成されてよい。例えば、テキストシーケンスは、当該技術分野において通常の技術者であれば理解可能なトークンセグメント化方法によってセグメント化されてよい。セグメント化方法の例としてバイト対符号化（Ｂｙｔｅ－ＰａｉｒＥｎｃｏｄｉｎｇ：ＢＰＥ）が使用されてよいが、これに限定されてはならない。

図７は、段階３１４のＮＬＧモデルを提供するように拡張された文書レベルＭＴモデルを訓練させる方法８００の例を示した図である。段階７０２で、例えば、ＮＬＧ訓練セットまたは他のソースからの構造化されたデータは、図６を参照しながら説明した方法のように、（言語非依存型の）テキストシーケンスを提供するように構造化されたデータ前処理モジュール２１８によって前処理される。段階７０４で、例えば、段階３１２で提供されたもののような拡張された文書レベルＭＴモデルは、段階７０４で提供されたテキストシーケンスをソースデータ（テキスト）として使用し、例えば、ＮＬＧ訓練セットまたは他のソースからの第２言語（Ｌ２）ターゲットトークンデータをターゲットデータとして使用してＮＬＰ訓練モジュール２２２によってＮＬＧのために訓練されてよい。

段階７０４で、ＮＬＧ訓練は、拡張された文書レベルのＭＴモデルを提供するときに（段階５０４で、言語独立的に構造化されたデータと対をなす言語（Ｌ１）のソーストークンデータを排除する（除去あるいは使用しない）、ＮＬＧモデル訓練データはＮＬＧ訓練段階７０４で使用されてよいが、これに限定されてはならない。

本発明者は、例えば、ここで提供されるもののように、構造化されたデータによって拡張された、以前に訓練された文書レベルのＭＴモデルを訓練されたＮＬＧモデルを提供するようにＮＬＧモデル訓練データによって訓練させることは、ＮＬＧ訓練データだけを利用してＮＬＧモデルを訓練させることに比肩する結果をもたらすということを発見した。ＭＴ訓練データはＮＬＧ訓練データよりも広範囲で利用可能であり、これは、ＮＬＧモデルを訓練させるために可用であるＮＬＧ訓練データのよりも効率的な使用を可能にした。

ＮＬＧ訓練段階３１４から始まる訓練されたＮＬＧモデルは、例えば、微調整のために、既知のＮＬＧ訓練方法により、構造化されたデータおよびターゲットトークンデータを含む１つ以上の追加のデータセットに対してさらに訓練されてよい。このようなデータセットは、例えば、ＮＬＧモデルを訓練させるための古典的なデータセットを含んでよい。追加的にまたは代案的に、追加の訓練は、ここで提供されるもののように、ソースまたはターゲットトークンシーケンスを利用するために１つ以上の方法によって少なくとも部分的に生成されたデータセットを利用してよい。

ランタイムで訓練されたＮＬＧモデルの使用
図３に示すように、訓練されたＮＬＧモデルは、図８の方法８００によって推論のためにランタイムで使用されてよい。訓練されたＮＬＧモデルを実行するプロセッサ１０２は、段階８０２で、新たな構造化されたデータを、当該技術分野において通常の知識を有する者であれば理解できるように、例えば、他のプロセッサ（図示せず）から、または適切なインタフェースを経て、１つ以上のユーザ端末１０６あるいはすべての他のソースから受信する。

段階８０４で、プロセッサ２００は、例えば、構造化されたデータ前処理モジュール２１８は、言語独立テキストシーケンスを提供するように構造化されたデータを前処理する。段階８０４の処理は、図６を参照しながら説明したものと、本開示の他の場所で開示されたもののように提供されてよい。（言語独立）構造化されたデータは追加で処理されてよく、例えば、符号化やベクトル化などが実行されてよい。

プロセッサ２００、例えば、ＮＬＰ推論モジュール２２４は、段階８０６で前処理された構造化されたデータを、ＮＬＰモジュール２０８によって実現可能なもののような、段階３１４で提供されたＮＬＧモデルのような訓練されたＮＬＧモデルに入力する。入力にしたがい、訓練されたＮＬＧモデルは、出力としてターゲットトークンシーケンス、例えば、段階８０８で、第２言語の出力テキストを生成する。このように生成された出力テキストは、段階８１０で、プロセッサ２００によって追加で処理されてよく、例えば、他のプロセッサ（複数可）または１つ以上のユーザ端末１０６上におけるディスプレイ表示のために提供されるか、プロセッサ２００によって表示、記録、追加処理、または適用されてよい。生成された出力テキストに基づくフィードバックが、ＮＬＧモデルを訓練させるために追加で使用されてよい。

例示
文書レベルのＮＬＧモデルを訓練させる方法としては、メタデータから完全な文書を生成することができるエンドツーエンドピュアー（ｐｕｒｅ）ＮＬＧシステムを提供するように文書ベースのＭＴシステムを訓練させてよく、すなわち、メタデータを完全な文書に翻訳する。訓練されたエンドツーエンドＮＬＧシステムは、データを選択および計画（ｐｌａｎｎｉｎｇ）せず、周知のＮＬＧデータセット（Ｒｏｔｏｗｉｒｅ）に対して実行される実験の古典的な方法と適切に比較されるように示されている。データは、移転学習を利用することにより、ＭＴおよびＮＬＧ作業の両方で活用された。

ＮＬＧと文書レベルのＭＴ作業の両方が同じターゲット（ロットワイヤデータセットを使用する例として英語言語ストーリが挙げられるが、これに限定されてはならない）を有するとき、これらは同一のデコーダを共有してよい。また、データセットからの構造化されたデータ（この例ではＮＬＧメタデータ）がトークンシーケンスとして、すなわち、テキストシーケンスとして符号化されれば、ＮＬＧとＭＴに対して同一のエンコーダが使用されてよい。

一実施形態によると、比較的多くの量の並列データに対してドメイン適応された文書レベルのニューラル機械翻訳（ＭＴ）モデルを訓練させる。文章レベルのＭＴモデルは、文書レベルのＭＴモデルを提供するいずれかの方法によって訓練されてよい。文書レベルのＭＴモデルは、比較的少ない量のＮＬＧデータに対して微調整されてよく、ＭＴ（例えば、（入力）テキストツー（出力）テキスト）からＮＬＧ（例えば、（入力）データツー（出力）テキスト）にモデルを移転（ｔｒａｎｓｉｔｉｏｎｉｎｇ）してよい。このような移転の一部として、文書レベルのＭＴモデルは、構造化されたデータとテキスト（例えば、（入力）データ＋テキストツー（出力）テキスト）の入力の組み合わせ（ｃｏｍｂｉｎａｔｉｏｎ）からテキストを生成するように訓練されてよい。このように拡張された文書レベルＭＴモデルは、以下の組み合わせ例において、ＭＴ＋ＮＬＧモデルまたはシンプルな（ｓｉｍｐｌｙ）ＭＴ＋ＮＬＧモデルとして参照される。このようなモデルによって実行される作業を、ここでは、文書レベルの生成および翻訳（Ｄｏｃｕｍｅｎｔ－ｌｅｖｅｌＧｅｎｅｒａｔｉｏｎａｎｄＴｒａｎｓｌａｔｉｏｎ：ＤＧＴ）作業と呼ぶ。

前処理方法の例は、本来のデータベースで可用である構造化されたデータに変換、正規化、符号化などを実行するためのコンパクトな方式を提供する。一実施形態において、このように前処理されたデータは、作業の最小限の知識によって簡単に推論可能な、いくつかの追加の事実（ｆａｃｔ）（例えば、現在のゲームの勝者、または次のゲームに関する情報）によって強化される。

ＮＬＧモデルが文書レベルによって訓練されて十分な情報が提供されれば、個別のデータ選択および序列（ｏｒｄｅｒｉｎｇ）段階は必要なくなる。実験では、データによって訓練されたＮＬＧモデルが文書レベルの構造をキャプチャし、自らが情報の序列（ｏｒｄｅｒ）情報をキャプチャすることができることを立証した。

例示作業
実施形態に係る文書レベルの生成および翻訳（ＤＧＴ）作業は、バスケットボールゲームの要約を、２つの言語（例えば、英語（ＥＮ）とドイツ語（ＤＥ））によって、ゲームに関する構造化されたデータ、他の言語のゲーム要約、またはこの両方の組み合わせとして生成することにある。このような作業は、２つのターゲット言語（英語とドイツ語）それぞれを、ＮＬＧ（データツーテキスト）、ＭＴ（テキストツーテキスト）、およびＭＴ＋ＮＬＧ（テキスト＋データツーテキスト）のような３つのトラックに分割してよい。所期の出力テキストは、文書レベル（例えば、文章ベースの出力ではなく、完全な文書生成）となる。

以下の表１は、実験で使用された並列および単一言語コーパスについて説明したものである。表１において、英語側のＤＧＴ訓練（ｔｒａｉｎ）、有効（ｖａｌｉｄ）、およびテストはそれぞれ、ロットワイヤ訓練（ｔｒａｉｎ）、有効（ｖａｌｉｄ）、および試験（ｔｅｓｔ）のサブセットである。さらに多くの単一言語データが可用とはなるが、実験ではロットワイヤおよびニュースクロールだけを使用した。ＷＭＴ１９－ｓｅｎｔおよびＷＭＴ－ｄｏｃはそれぞれ、英語ドイツ語ＭＴマシンモデルを訓練させるための文章レベルおよび文書レベルのデータセットである。

すべてのニューラルＮＬＰモデル（ＭＴ、ＮＬＧ、ＭＴ＋ＮＬＧ）は、Ｖａｓｗａｎｉｅｔａｌ．，２０１７に開示されるように、トランスフォーマビッグ（ＴｒａｎｓｆｏｒｍｅｒＢｉｇ）に基づいて構成された。各モデルを提供するための方法例が論議されるであろう。

文章レベルのＭＴモデルからの文書レベルのＭＴ訓練
文章レベルのＭＴモデルから訓練された文書レベルのＭＴモデルを提供する方法として、次の段階が含まれてよい。

１）すべてのＷＭＴ１９並列データ（文書および文章）とＤＧＴ訓練に対して文章レベルのＭＴモデルを訓練させる。

２）（例えば、Ｅｄｕｎｏｖｅｔａｌ．２０１８に開示されるように）サンプリングによってドイツ語および英語のニュースクロールを逆翻訳（ＢＴ）する。

３）ＷＭＴ１９並列データ、ＤＧＴ訓練、および逆翻訳されたデータ（ＢＴ）の連結に対して文章レベルのＭＴモデルを再訓練させる。後者は、各訓練エポックを１つの部分とし、２０部分に区分された。これは、非ＢＴデータを２０だけオーバサンプリングして１つのエポックを訓練することとほぼ等しい。

４）文書レベルのデータに対する（有効混雑度（ｐｅｒｐｌｅｘｉｔｙ）による）最善の文章レベルのチェックポイントの訓練を微調整する。このような段階において、ＷＭＴ文書は、例えば、Ｊｕｎｃｚｙｓ－Ｄｏｗｍｕｎｔ（２０１９）に開示されるように、最大１０００個の（ＢＰＥ）トークンのシーケンスとして切り取られた。ランダム文章がＷＭＴ－ｓｅｎｔから文書として集合化され、ＤＧＴ訓練データはアップサンプリングされた。しかし、Ｊｕｎｃｚｙｓ－Ｄｏｗｍｕｎｔ（２０１９）に開示される方法とは異なり、文章区分子（ｓｅｐａｒａｔｏｒ）および文書境界タグ（ｂｏｕｎｄａｒｙｔａｇ）は、本実施形態の方法では使用しなかった。

５）ＤＧＴ訓練と逆翻訳されたロットワイヤ訓練、およびロットワイヤ有効に対する最善の文書レベルのチェックポイントの訓練を微調整する。

例示前処理および実験に対するハイパーパラメータについては、以下でより詳しく説明する。上述した１）および３）段階において、２０個のエポックに対し、ｎｅｗｔｅｓｔ２０１４複雑度に基づく早期中断（ｅａｒｌｙｓｔｏｐｐｉｎｇ）によって訓練される。段階４）において、５つの追加のエポックに対し、ＤＧＴ有効複雑度（文書レベル）による早期中断によって訓練される。段階５）において、１００個のエポックに対し、１０個のエポックごとにＤＧＴ有効に対するＢＬＥＵ評価とともに訓練される。最善のチェックポイントのＢＬＥＵ点数はＤＧＴ有効複雑度によって計算され、最高ＢＬＥＵ点数のチェックポイントが維持された。

実験的な訓練動作において、段階５）におけるＭＴモデルは、極めて迅速に過適合され、１つまたは２つのエポック後にその最善の有効複雑度に到達する。ＤＥ－ＥＮに対し、最善のＤＧＴ有効ＢＬＥＵは、１０～１００個のエポックの間のどこででも達成された（稀に高い有効複雑度を有する）。ＤＥ－ＥＮに対し、複雑度およびＢＬＥＵはさらに適切に相関したし、２つの点数による最善のチェックポイントはほぼ等しかった。以下で説明するように、ＮＬＧまたはＭＴ＋ＮＬＧデータに対して微調整を施すときにも、同じ観察が適用された。

すべてのＭＴモデルは、Ｂｅｒａｒｄｅｔａｌ．（２０１９）に開示されるものと類似するコーパスタグを使用した。特に、各ソース文章は、それが由来した（例えば、パラクロール（Ｐａｒａｃｒａｗｌ）、ロットワイヤ、ニュースクロール）コーパスを識別する特殊なトークンによって始まった。

実験において、文書レベルの復号化は、文章レベルの復号化よりも遥かに遅かった。例えば、単一Ｖ１００に対し、文章レベルのＤＧＴ有効では翻訳に１分かかったが、文書レベルのＤＧＴ有効では６分がかかった。しかし、訓練された文書レベルのＭＴモデルを提供することは、ＭＴおよびＮＬＧのために同じモデルを使用することをより容易にする。

文書レベルＭＴモデルからＮＬＧモデル訓練
原本構造化されたデータ（ここでは、メタデータ）は、ゲームあたり１つのＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）文書として提供された。このような文書は、バスケットボールチームおよびチームの選手に関する情報を含む。

訓練されたＮＬＧモデルを提供するために、次の段階が実行された。

１）テキストシーケンスとしてメタデータのコンパクトな表現を生成する（前処理）。

２）ソース側に対する上述した段階１）のコンパクトな表現と、ターゲット側に対する完全なストーリを使用してＮＬＧ作業に対する（例えば、以前の文書レベルのＭＴ訓練方法の段階４）の）文書レベルのＭＴモデルの訓練を微調整する。

段階２）によるＮＬＧ訓練は、ＤＧＴ訓練、ロットワイヤ訓練、およびロットワイヤ有効の連結で実行され、後者はＤＧＴ有効でも存在するゲームを除去するようにフィルタリングされた。

段階１）で使用されたメタデータは、次のような構造を有する。

ａ．テキストとしてゲームの日時。

ｂ．ホームチーム情報（勝者／敗者タグ、チーム名および都市、ゲームの得点（ｐｏｉｎｔ）、シーズンの勝ち数および負け数、チームレベルの点数）、およびチームの次のゲームに関する情報（日時、ホーム／遠征タグ、次のチーム名）。

ｃ．遠征チーム情報、および遠征チームの次のゲームに関する情報。

ｄ．ホームチームのＮ名のベスト選手（選手名、固定次数（ｆｉｘｅｄｏｒｄｅｒ）において０ではない該当の選手の点数、および該当の選手のスタートポジション）。選手は、得点、リバウンド、およびアシスト別に（該当の順に）分類される。

ｅ．遠征チームのＮ名のベスト選手

モデルが有用な情報を容易に識別できるように、特殊なトークンおよび位置情報の組み合わせが使用された。例えば、ホームチームが常に先（ｆｉｒｓｔ）であるが、＜ＷＩＮＮＥＲ＞タグが勝利チームおよびその選手に先行した。すべての非ゼロ統計は無視されたが、同じ位置が（例えば、得点、その次のリバウンド、その次のアシストのような）各タイプの点数に対して使用され、特殊なトークンがこれらを識別するために使用された（例えば、＜ＰＴＳ＞、その次の＜ＲＥＢ＞、その次の＜ＡＳＴ＞）。タグの数は、シーケンスを可能な限り短く維持するように制限された（例えば、フリースローの成功および試みと確率：ＦＴ＞３５６０）。

メタデータの表現の例を図９ａ～図９ｃに示した。図９ａは、ＮＬＧ訓練方法で使用されたメタデータ符号化の例を示しており、図９ｂは、訓練セットとして使用された参照ストーリを示しており、図９ｃは、訓練された英語ＮＬＧモデルを使用して生成されたストーリを示している。図９ｂおよび図９ｃにおいて、下線で表示されたテキストの部分は、図９ａのメタデータ内の事実に基づくテキスト部分を識別し、二重下線で表示されたテキストの部分は、図９ａのメタデータでは明らかでない正確な事実であるテキスト部分を識別する。図９ｃにおいて、点線で表示されたテキスト部分は、虚構（ｈａｌｌｕｃｉｎａｔｉｏｎｓ）または不正確な事実を識別し、イタリック体で表示されたテキスト部分は、繰り返されるテキストを識別する。

文書レベルのＭＴモデルから組み合わされたＭＴ＋ＮＬＧモデルの訓練
組み合わされたＭＴ＋ＮＬＧモデルを訓練させるための方法の例として、ＭＴソースをＮＬＧデータと連結した。メタデータ符号化方法は、上述したＮＬＧモデル訓練方法と同じように使用され、（上述した段階４）の）訓練された文書レベルＭＴモデルが連結されたデータによって微調整された。

また、一実施形態によると、ＭＴソース内のトークンを（これらを＜ＭＡＳＫ＞トークンと交換することにより）ランダムに、２０％または５０％の確率で（エポックあたり１つの異なるサンプリングによって）マスキングした。これは、訓練中のモデルがソースで足りない情報のためにメタデータを使用するときに役立った。しかし、試験時にはトークンがマスキングされなかった。

データ前処理
実験例において、ＷＭＴ１９－ｓｅｎｔ並列コーパスは（例えば、ＬｕｉおよびＢａｌｄｗｉｎ，２０１２で開示されたもののような）、ｌａｎｇｉｄ．ｐｙによってフィルタリングされた。１７５個のトークンを超える文章、または１．５よりも大きい長さ比（ｌｅｎｇｔｈｒａｔｉｏ）をもつ文章は除去された。その次に、（自然言語ツールキットの（ＮａｔｕｒａｌＬａｎｇｕａｇｅｔｏｏｌｋｉｔ’ｓ：ＮＬＴＫ’ｓ）単語トークン化（ｗｏｒｄ＿ｔｏｋｅｎｉｚｅ）方法に基づく）公式的なＤＧＴトークン化器（ｔｏｋｅｎｉｚｅｒ）が、非トークン化されたテキスト（ここでは、ＤＧＴおよびロットワイヤではないすべてのもの）に適用された。

（例えば、Ｓｅｎｎｒｉｃｈｅｔａｌ．，２０１６で開示されたもののような）バイト対符号化（ＢＰＥ）セグメント化が、ＷＭＴ＋ＤＧＴ訓練（英語＋ドイツ語）に対して取得された３２ｋ併合演算（ｏｐｅｒａｔｉｏｎｓ）を使用し、ジョイント文章ピース類似モデル（ＫｕｄｏおよびＲｉｃｈａｒｄｓｏｎ，２０１８）とともに適用された。語彙閾値は１００に設定され、インラインケーシング（ｉｎｌｉｎｅｃａｓｉｎｇ）が適用された（Ｂｅｒａｒｄｅｔａｌ．，２０１９）。同じようにジョインされたＢＰＥモデルとＦａｉｒｓｅｑ辞書がすべてのモデルに適用された。

メタデータは（このような実験データの場合、翻訳が必要な平日、月、選手ポジションだけが）、初期化のために使用されるＭＴモデルのソース言語に翻訳され、ＭＴとＮＬＧの移転が可能となるようにＢＰＥ（特殊トークンは除外）によってセグメント化された。その次に、コーパスタグが各ソースシーケンスに追加され、これはその出処（ロットワイヤ、ニュースクロールなど）を明示した。

Ｊｕｎｃｙｓ－Ｄｏｗｍｕｎｔ，２０１９に開示されるように、極めて長いＷＭＴ１９文書は、短い文書に分割された（最大１１００ＢＰＥトークン）。また、文章レベルのＷＭＴ１９データは、コーパスをシャッフルし、連続する文章をランダムの長さの文書にグルーピングすることによって文書レベルのデータに変換された。最終的に、文書レベルデータ（ＷＭＴ１９およびＤＧＴ）は、（文章数の観点において）その本来の大きさの８倍にアップサンプリングされた。これは、初期の大きさに到達するまで、連続する文章のランダムスパン（ｓｐａｎ）をサンプリングすることによって行われた。

ＤＧＴおよびロットワイヤデータは既にトークン化され、フィルタリングまたは切り詰め処理（ｔｒｕｎｃａｔｉｎｇ）が必要なかった。このようなデータは、ＢＰＥユニットによってセグメント化され、コーパスタグが付加された。

モデルの設定
すべての実験的なモデルは、Ｆａｉｒｓｅｑモデリングツールキットによって実現された、トランスフォーマビッグ（ＴｒａｎｓｆｏｒｍｅｒＢｉｇ）（Ｖａｓｗａｎｉｅｔａｌ．，２０１７）であった。Ｏｔｔｅｔａｌ．，２０１８に開示されるものと等しいハイパーパラメータが、アダムオプティマイザ（Ａｄａｍｏｐｔｉｍｉｚｅｒ）およびウォームアップを有するインバーススクエアルートスケジュール（ｉｎｖｅｒｓｅｓｑｕａｒｅｒｏｏｔｓｃｈｅｄｕｌｅｗｉｔｈｗａｒｍｕｐ）（最大学習率（ＬＲ）０．０００５）とともに使用された。ドロップアウトおよびラベルスムーディングに０．１のレートが適用された。ソースおよびターゲット埋め込みは共有され、最後のレイヤと連結された。訓練は、８つのＶ１００ＧＰＵ上で半精度浮動小数点数（ｈａｌｆ－ｐｒｅｃｉｓｉｏｎｆｌｏａｔｓ）により、配置あたり最大３５００個のトークンと１０個の配置のディレイされたアップデートを使用して実行された。実験的な文書レベルのＭＴモデルのＤＧＴ訓練またはロットワイヤ＋ＤＧＴ訓練（段階（５））に対する微調整時または訓練されたＮＬＧまたはＭＴ＋ＮＬＧモデルの微調整時に、実験的な方法は、固定された学習率スケジュール（０．００５ＬＲを使用するアダム（Ａｄａｍ））と遥かに小さい配置サイズ（ディレイされたアップデートのない単一ＧＰＵ上の１５００個のトークン）を使用した。このような方法は１００個のエポックに対して訓練され、各エポックでＤＧＴ有効混雑度を計算し、１０個のエポックごとにＤＧＴ有効ＢＬＥＵを計算する。

ＢＬＥＵ評価
各タイプの訓練されたモデルに対し、最善のモデルがＤＧＴ有効に対するＢＬＥＵ点数によって選択された。実験における点数を表２に示し、これらの代表モデルの説明を表３に示した。

表２：ＤＧＴ有効およびすべてのタイプ（トラック）で提出された例示的な試験セットに対する文書レベルのＤＬＥＵ点数

モデル出力および参照は、ＮＬＴＫによって既にトークン化されたため、ＢＬＥＵ点数は、そのトークン化がｎｏｎｅに設定されたＳａｃｒｅＢＬＥＵを使用して計算された。

このような実験において選択されたＮＬＧモデルは、前処理で使用されたＷＭＴ１９並列データが許容されなかったため「未制約（ｕｎｃｏｎｓｔｒａｉｎｅｄ）」であった。同じように、２つの評価に対する結果がＤＥ－ＥＮＭＴに対して考慮された。１つは制限されたもの（ｃｏｎｓｔｒａｉｎｅｄ）、ただし、ＤＧＴ訓練に対して文書レベルのＭＴモデルを微調整するものであり、もう１つは未制約であるもの（ｃｏｎｓｔｒａｉｎｅｄ）、逆翻訳されたロットワイヤ訓練および有効が使用される。すべての選択されたＭＴおよびＭＴ＋ＮＬＧモデルは、５回の微調整実行（ｒｕｎ）のアンサンブルであった。

英語ＮＬＧモデルとＥＮ－ＤＮＭＴモデルのアンサンブルを連結する（ｃａｓｃａｄｉｎｇ）ことは、エンドツーエンドＮＬＧモデル（１６．１）よりもさらに低い、ＤＧＴテキストに対する１４．９のＢＬＥＵ点数を付与した。同じデータ条件（未制約モード）において、ＭＴ＋ＮＬＧモデルは、ピュアＭＴモデルよりも優れないものと示された。また、実験的なＭＴ＋ＮＬＧモデルは、ＭＴオンリー（ｏｎｌｙ）ソースを使用して評価され、約０．３という低さのＢＬＥＵ減少が発見されただけだった。これにより、ＮＬＧ情報のほとんどが無視されたことが確認された。

表４は、（文章レベル、文書レベル、微調整された）訓練の異なる段階におけるＭＴモデルのＢＬＥＵ点数を示しており、これをＷＭＴ１９ニュース翻訳作業のトップ参加者の１人と比較した。ＤＧＴ有効およびＤＧＴ試験に対する点数は文書レベルであり、ニュース２０１９（Ｎｅｗｓ２０１９）は文章レベルであった（このようにデコードされた）。後者に対しては、ＤＧＰコーパスタグがＤＥ－ＥＮに対して使用され、パラクロール（Ｐａｒａｃｒａｗｌ）タグがＥＮ－ＤＥに対して使用された（タグは、ニューステスト２０１４に対する最善のＢＬＥＵとともに選択された）。「微調整された」モデルごとの点数は、５回の実行に対して平均化された。

表５は、ロットワイヤ試験に対する選択された実験ＮＬＧ（ＥＮ）モデルの３回の施行にわたるＢＬＥＵと古典的なモデルとの比較を示している。ロットワイヤトークン化が多少異なるため、固定値（ｆｉｘｅｓ）のセットがモデル出力に対して適用された（例えば、１－ｏｆ－３から１－ｏｆ－３に）。古典的なモデルに比べ、英語ＮＬＧモデルによるロットワイヤテストに対して５のＢＬＥＵ改善を示すという結果が得られた。

図１０は、メタデータから選択された選手の数が変化するときの英語ＮＬＧモデルのＤＧＴ有効ＢＬＥＵ点数を示している。４で最高点（ｓｗｅｅｔｓｐｏｔ）が存在することが示されているが、驚くことに、８まで選手の数を増やしてもＢＬＥＵが極端に低下しなかった。選手は最高（ｂｅｓｔ）から最悪（ｗｏｒｓｔ）に分類されるため、実験モデルは、過去の（ｌａｓｔ）選手を無視することを学習した可能性がある。

表６は、３回の施行にわたるＢＬＥＵ平均とともに、３人のベスト選手のベースライン（実験用ＮＬＧモデルは、４人の選手を含む）から始まるＮＬＧモデルの研究結果を示している。標準偏差は０．１～０．４の範囲とする。表６において、選手の分類は役に立つことが分かったが、それほど高い影響はないことが明らかになった。チームレベル情報だけを使用して選手に関する情報がないのは良くないが、依然として許容可能なＢＬＥＵ点数を提供した。

平日、選手ポジションまたはチームレベルで集計された点数はＢＬＥＵを損傷させず、実験モデルから除去されたことが分かった。しかし、次のゲームに対する情報は有用であるという結果が現れた。また、ポジションだけに依存することとほとんどのタグ（例えば、＜ＰＴＳ＞、＜ＦＴ＞）を除去することは許容可能であると現れた。このような場合に、選手とゲームにわたって一致するポジションに対し、すべてのゼロスタッドもプリントされた。

追加的な評価結果は、ロットワイヤ訓練および試験中に相当に重なるもの（ｓｉｇｎｉｆｉｃａｎｔｏｖｅｒｌａｐ）として現れた。７２８個のロットワイヤ試験ゲームのうちの２２２個が、ロットワイヤ訓練にまた存在した（ＤＧＴ訓練に対して６８／２４１）。対応するストーリはいつも異なるものであったが、多くの類似点があった（いくつかの文章は完全に同一）。ロットワイヤ訓練は、ロットワイヤ試験（２２２個のストーリのサブセット）に対して評価されたときに２４．２のＢＬＥＵを受けた。これは、このような作業に対して人間レベルの性能の推定を提供した。実験的なＮＬＧモデルは、等しいサブセットに対して２１．８を受けた。これは、全般的にＢＬＥＵの人工的な増加を引き起こすことができ、これは、不当に過適合なモデルを好むようになるであろう。事実、ＤＧＴ試験にまた存在するゲームを除去するようにロットワイヤ訓練をフィルタリングするときに、ＢＬＥＵにおいて多少の減少が現れた（２０．４の代りに１９．８）。

定量評価
ＭＴモデルからブートストラップされた（ｂｏｏｔ－ｓｔｒａｐｐｅｄ）、実験的なＮＬＧモデルが流暢かつ一貫性のあるテキスト生成を実行するために示された。例えば、図９ａ～図９ｃに示すように、実験的なＮＬＧモデル（３選手）は、一貫性のある文書レベルの生成およびメタデータを「コピー」する能力の他に、いくつかの優れた特性があった。実験用ＮＬＧモデルは、チームと選手に対する一般的な情報を学習したものと示された。このように、図１１に示すように、メタデータにはない関連情報を生成することができた。

例えば、実験用ＮＬＧモデルは、競技が開かれるスタジアムの名称を正確に予測した。これは、モデルが、どのチームがホストであるかを理解しており（このような情報は、データ内にチームの位置によって暗示的に符号化されている）、該当のチームの都市のスタジアムが何であるかを理解していること（これは、メタデータに存在しない）を暗示する。メタデータには存在しないが、正確に予測される他の事実には、チーム名（ｔｅａｍａｌｉａｓｅｓ）（例えば、「シクサーズ」（Ｓｉｘｅｒｓ））と、選手のニックネーム（例えば、「グリークフレーク」（ＧｒｅｅｋＦｒｅａｋ））が含まれていた。また、実験的なモデルは、チーム名に対して他の表面形式（例えば、「他のキャバリア」）を生成することができた。

実験的なＮＬＧモデルは、構造化されたデータから、二桁の点数、「ダブルダブル（例えば、選手が１０得点および１０回のアシストを超える）」および「トリプルダブル」のような、一部の情報を推論することができた。一方、いくつかの数値的な事実は不正確であった（例えば、点数差または比較）。足りない事実を構造的なデータに追加することが（例えば、負傷選手、現在のチーム順位、連勝数など）、結果を追加で改善するために使用された（例えば、虚構または重複を減少させた）。

このような実験の結果は、ＮＬＧモデルとしてのＭＴモデルの特殊性を説明することであるが、マルチタスク移転学習（ｔｒａｎｓｆｅｒ）によって訓練された単一なモデルが、可能であれば２つの言語の、ＭＴおよびＮＬＧ作業を一度に解決するように使用可能であるということがさらに考慮されてよい。

一般
上述した説明は、本質的な説明に過ぎず、本開示、その適用、または使用を限定するように意図するものではない。本開示の広範囲の教示は、多様な形態によって実現可能である。したがって、本開示は特定の実施形態を含んでいるが、他の変更は図面、明細書、および添付の特許請求の範囲に基づいて明らかになるはずであるため、本開示の真正範囲がこのようなものに限定されてはならない。方法内の１つ以上の段階は、本開示の原理を変更しない範囲内であれば、異なる順序で（または、同時に）実行されてもよいことが理解されなければならない。また、実施形態のそれぞれには特定の特徴があると説明したが、本開示のいずれかの実施形態に関して説明したこのような特徴のうちの１つ以上は、他の実施形態のうちのいずれかの特徴内で、あるいは／追加で該当の特徴と組み合わせることで、このような組み合わせについての説明がなくても、実現可能である。言い換えれば、説明した実施形態は相互排他的なものではなく、１つ以上の実施形態の他の１つとの順列は本開示の範囲内にある。

各モジュールは、１つ以上のインタフェース回路を含んでよい。一実施形態において、インタフェース回路は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネット、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、またはこれらの組み合わせによって接続された有線または無線インタフェースを含んでよい。本開示の与えられたモジュールの機能は、インタフェース回路によって接続された複数のモジュールに分配されてよい。例えば、複数のモジュールは、ロードバランシングを許容してよい。他の実施形態において、サーバ（遠隔またはクラウドなど）モジュールが、クライアントモジュールの代わりに一部の機能を実行してよい。各モジュールはコードによって実現されてよい。ここで、コードは、ソフトウェア、ファームウェア、および／またはマイクロコードを含んでよく、プログラム、ルーチン、機能、クラス、データ構造、および／またはオブジェクトを参照してよい。

メモリ回路は、コンピュータ読み取り可能な媒体のサブセットであってよい。ここで、コンピュータ読み取り可能な媒体は、媒体を介した（例えば、搬送波など）一時的な電気または電磁気信号の電波を包括するものでなく、したがって、コンピュータ読み取り可能な媒体は、類型的かつ非一時的なものと見なされてよい。非一時的、類型的なコンピュータ読み取り可能な媒体の例としては、不揮発性メモリ回路（フラッシュメモリ回路、消去可能なプログラム可能な読み取り専用メモリ回路、またはマスク読み取り専用メモリ回路など）、揮発性メモリ回路（静的ランダムアクセスメモリ回路、または動的ランダムアクセスメモリ回路など）、磁気記録媒体（アナログまたはデジタル磁気テープ、またはハードディスクドライブなど）、および光学記録媒体（ＣＤ、ＤＶＤ、またはブルーレイディスクなど）が挙げられるが、これらに限定されてはならない。

本開示で説明したシステムおよび方法は、部分的または全体的に、一般目的コンピュータがコンピュータプログラムに内蔵された１つ以上の特別な機能を実行するように構成することによって生成された特定目的コンピュータによって実現されてよい。上述した機能ブロック、フローチャートコンポーネント、および他の構成要素は、ソフトウェアの明細としての役割を担い、本分野の技術者またはプログラマの一般的な作業によってコンピュータプログラムに翻訳されてよい。

コンピュータプログラムは、少なくとも１つの非一時的、類似型のコンピュータ読み取り可能な媒体に記録されたプロセッサ実行可能な命令を含んでよい。コンピュータプログラムは、記録されたデータを含むか、そこに依存してよい。コンピュータプログラムは、特定目的コンピュータのハードウェアと相互作用するＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）、特定目的コンピュータの特別なデバイスと相互作用するデバイスドライバ、１つ以上のオペレーティングシステム、ユーザアプリケーション、バックグラウンドサービス、バックグラウンドアプリケーションなどを包括してよい。

上述した実施形態とは異なる特徴および機能、またはその置換物の変形は、多くの他の異なるシステムまたはアプリケーションと好ましく結合可能であることが理解できるであろう。また、上述した説明および添付の特許請求の範囲に包括されるように意図される、現在は予想あるいは予見できない置換物、変更、変形、または改善が、当該技術分野において通常の知識を有する者であれば後続として理解できるであろう。

Claims

プロセッサによって自然言語生成（ＮＬＧ）モデルを訓練させる方法であって、
文書レベルの機械翻訳（ＭＴ）モデルを、第１言語のトークンシーケンスを入力として受信し、第２言語のトークンシーケンスを出力として生成するようにＭＴモデルを訓練させることによって提供する段階、
拡張された文書レベルのＭＴモデルを、文書に関連する対をなす言語独立構造化されたデータおよび前記第１言語のトークンシーケンスを入力として受信して前記第２言語のトークンシーケンスを出力として生成するように文書レベルのＭＴモデルを訓練させることによって提供する段階、および
前記ＮＬＧモデルを、前記言語独立構造化されたデータを入力として受信して前記第２言語のトークンシーケンスを出力として生成するように、前記拡張された文書レベルのＭＴモデルを訓練させることによって提供する段階
を含み、
前記言語独立構造化されたデータは、前記第１言語および前記第２言語により理解される、概念的あるいは意味的情報を示す構造化されたデータである、
ＮＬＧモデルを訓練させる方法。
前記文書レベルのＭＴモデルは、前記第１言語および前記第２言語の文章レベルの並列コーパスからランダムに選択された文章の連結されたグループである前記第１言語および前記第２言語のトークンシーケンスによって訓練される、
請求項１に記載のＮＬＧモデルを訓練させる方法。
前記文書レベルのＭＴモデルは、前記第１言語および前記第２言語の文書レベルの並列コーパスから選択された文書レベルのトークンシーケンスである前記第１言語および前記第２言語のトークンシーケンスによって訓練される、
請求項２に記載のＮＬＧモデルを訓練させる方法。
前記ＮＬＧモデルは、イベントを取り囲む事実と関連する前記概念的あるいは意味的情報を示す構造化されたデータであって、前記第１言語および前記第２言語により理解される言語独立構造化されたデータを入力として受信し、前記イベントを取り囲む事実を参照する前記第２言語のトークンシーケンスを有する前記イベントのマルチ文章要約を出力として生成する、
請求項１に記載のＮＬＧモデルを訓練させる方法。
前記イベントは、スポーツイベントを含む、
請求項４に記載のＮＬＧモデルを訓練させる方法。
前記言語独立構造化されたデータは、トークンシーケンス形式である、
請求項１に記載のＮＬＧモデルを訓練させる方法。
前記言語独立構造化されたデータは、テキストシーケンス形式である、
請求項１に記載のＮＬＧモデルを訓練させる方法。
１つ以上のテキストシーケンスとして、前記言語独立構造化されたデータを提供するように構造化されたデータを前処理する段階
をさらに含む、請求項１に記載のＮＬＧモデルを訓練させる方法。
前記前処理前の前記構造化されたデータは、テーブルレコードデータ、グラフデータ、メタデータ、フォーマット化されたデータのうちの１つ以上を含む、
請求項８に記載のＮＬＧモデルを訓練させる方法。
前記構造化されたデータを前処理する段階は、
１つ以上のＮＬＧ訓練セットから前記構造化されたデータを受信する段階、および
前記構造化されたデータから前記１つ以上のテキストシーケンスを生成する段階
を含む、請求項８に記載のＮＬＧモデルを訓練させる方法。
前記前処理する段階は、
前記受信された構造化されたデータをフィルタリングする段階
をさらに含む、請求項１０に記載のＮＬＧモデルを訓練させる方法。
前記前処理する段階は、
前記受信された構造化されたデータを、前記受信された構造化されたデータから推論される追加の構造化されたデータによって補う段階
をさらに含む、請求項１０に記載のＮＬＧモデルを訓練させる方法。
前記前処理する段階は、
前記受信された構造化されたデータをテキストに変換するか、正規化する段階
をさらに含む、請求項１０に記載のＮＬＧモデルを訓練させる方法。
前記前処理する段階は、
前記受信された構造化されたデータのうちの言語従属構造化されたデータを、前記第１言語および前記第２言語により理解され、前記概念的あるいは意味的情報を示す構造化されたデータである言語独立構造化されたデータに変換する段階
をさらに含む、請求項１０に記載のＮＬＧモデルを訓練させる方法。
前記言語独立構造化されたデータまたは前記第１言語のトークンシーケンスのうちの１つ以上をセグメント化する段階
をさらに含む、請求項１に記載のＮＬＧモデルを訓練させる方法。
前記セグメント化する段階は、バイト対符号化（ＢＰＥ）を使用する、
請求項１５に記載のＮＬＧモデルを訓練させる方法。
前記文書レベルのＭＴモデルは、文章レベルのＭＴモデルとして最初に訓練される、
請求項１に記載のＮＬＧモデルを訓練させる方法。
前記文書レベルの機械翻訳モデルは、前記第２言語のトークンシーケンスを逆翻訳することによって提供される前記第１言語のトークンシーケンスによって訓練される、
請求項１に記載のＮＬＧモデルを訓練させる方法。
前記拡張された文書レベルのＭＴモデルを訓練させることは、前記第１言語の対をなすトークンシーケンスをペアリングせず、前記言語独立構造化されたデータをソースとして使用して前記第２言語のトークンシーケンスをターゲットとして使用する、
請求項１に記載のＮＬＧモデルを訓練させる方法。
出力テキストを生成する方法であって、
第１言語および第２言語により理解される、文書に関する概念的あるいは意味的情報を示す構造化されたデータである新しい言語独立構造化されたデータを請求項１に記載の方法によって訓練された前記ＮＬＧモデルに入力する段階、および
前記入力にしたがい、前記訓練されたＮＬＧモデルが前記第２言語の出力テキストを生成する段階
を含む、出力テキストを生成する方法。
新しい構造化されたデータを受信する段階、および
前記新しい言語独立構造化されたデータを提供するように、前記受信された新しい構造化されたデータを前処理する段階
をさらに含む、請求項２０に記載の出力テキストを生成する方法。
前記生成された出力テキストを記録する段階または表示する段階うちの１つ以上をさらに含む、
請求項２０に記載の出力テキストを生成する方法。
第１言語のトークンシーケンスを入力として受信して第２言語のトークンシーケンスを出力として生成するように自然言語生成（ＮＬＧ）モデルを訓練させる装置であって、
１つ以上のプロセッサ、および
前記プロセッサによって実行された機能を実行するコードを含むメモリ
を含み、
前記機能は、
文書レベルの機械翻訳（ＭＴ）モデルを、第１言語のトークンシーケンスを入力として受信して第２言語のトークンシーケンスを出力として生成するようにＭＴモデルを訓練させることによって提供すること、
拡張された文書レベルのＭＴモデルを、文書に関連する対をなす言語独立構造化されたデータおよび前記第１言語のトークンシーケンスを入力として受信して前記第２言語のトークンシーケンスを出力として生成するように文書レベルのＭＴモデルを訓練させることによって提供すること、および
前記ＮＬＧモデルを、前記言語独立構造化されたデータを入力として受信して前記第２言語のトークンシーケンスを出力として生成するように、前記拡張された文書レベルＭＴモデルを訓練させることによって提供すること
を含み、
前記言語独立構造化されたデータは、前記第１言語および前記第２言語により理解される、概念的あるいは意味的情報を示す構造化されたデータである、
ＮＬＧモデルを訓練させる装置。
出力テキストを生成する方法であって、
言語独立構造化されたデータを自然言語生成（ＮＬＧ）モデルに入力する段階、および
前記入力にしたがい、訓練された前記ＮＬＧモデルが第２言語の出力テキストを生成する段階
を含み、
前記ＮＬＧモデルは、前記言語独立構造化されたデータを入力として受信して前記第２言語のトークンシーケンスを出力として生成するように拡張された文書レベルのＭＴモデルによって訓練され、
前記拡張された文書レベルのＭＴモデルは、文書に関連する対をなす前記言語独立構造化されたデータおよび第１言語のトークンシーケンスを入力として受信して前記第２言語のトークンシーケンスを出力として生成するように文書レベルＭＴモデルによって訓練され、
前記文書レベルのＭＴモデルは、前記第１言語のトークンシーケンスを入力として受信して前記第２言語のトークンシーケンスを出力として生成するようにＭＴモデルによって訓練され、
前記言語独立構造化されたデータは、前記第１言語および前記第２言語により理解される、概念的あるいは意味的情報を示す構造化されたデータである、
出力テキストを生成する方法。