JP7337770B2 - 文書レベルの自然言語処理モデルを訓練させる方法およびシステム - Google Patents

文書レベルの自然言語処理モデルを訓練させる方法およびシステム Download PDF

Info

Publication number
JP7337770B2
JP7337770B2 JP2020183754A JP2020183754A JP7337770B2 JP 7337770 B2 JP7337770 B2 JP 7337770B2 JP 2020183754 A JP2020183754 A JP 2020183754A JP 2020183754 A JP2020183754 A JP 2020183754A JP 7337770 B2 JP7337770 B2 JP 7337770B2
Authority
JP
Japan
Prior art keywords
language
model
training
nlg
structured data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020183754A
Other languages
English (en)
Other versions
JP2022032910A (ja
Inventor
カラポデスク イオン
ベラール アレクサンドレ
サレ ファヒメ
ベサシエ ロラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022032910A publication Critical patent/JP2022032910A/ja
Application granted granted Critical
Publication of JP7337770B2 publication Critical patent/JP7337770B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

特許法第30条第2項適用 URL:https://europe.naverlabs.com/research/publications/naver-labs-europes-systems-for-the-document-level-generation-and-translation-task-at-wngt-2019/、掲載日2019年11月4日
本出願は、その内容全体が参照として統合される、2020年8月13日に出願された米国仮出願第63/065,138号の優先権を主張する。
本開示は、プロセッサによる自然言語処理方法と、神経モデルを使用するマシンベースの自然言語生成のためのシステムに関し、より詳細には、機械翻訳(Machine Translation:MT)モデルを使用した自然言語生成(Natural Language Generation:NLG)モデルを訓練させるための方法およびシステムに関する。
プロセッサによる自然言語処理(Natural Language Processing:NLP)における近年の進歩として、機械翻訳(Machine Translation:MT)および自然言語生成(Natural Language Generation:NLG)のための神経モデルが挙げられる。このような神経モデルは、MTおよびNLG作業の改善において重要な役割を担ってきた。しかし、従来のNLGおよびMTのための神経モデルは、特定のNLP作業の実行には不十分であったり、最適以下(sub-optimal)であると見なされてきた。
NLGモデルの場合は、例えば、構造化されたデータ(または、データツーテキスト)として条件化された技術的な要約(descriptive summaries)のようなテキストの生成が、周知の課題として残っている。従来のNLGモデルは、ソース素材に対する正確性、一貫性(coherece)、および/または適切性に欠けている。
データツーテキスト生成技法において扱われる2つの重要な側面として、1)入力データから最も重要な情報を識別すること、2)一貫性のある文書としてデータを言語化すること(verbalizing)が挙げられる。このような2つの課題は、パイプラインシステムにおいて異なるモジュールとして個別に扱われてきたし、神経生成モデルとエンドツーエンド方式によって扱われてきた。
周知のエンドツーエンドNLG生成モデルは、優れたテキストを生成することは可能であるが、このようなモデルは、最善のコンテンツ選択の側面においては高い性能を発揮することができない。近年、Puduppully他(2019)は、ロットワイヤデータセットに対してエンドツーエンドデータツーテキスト生成モデルを訓練させる方法を公開した(https://github.com/harvardnlp/boxscore-data:構造化された情報をもつバスケットボールゲームの英文要約)。このような方法は、その設計思想においてコンテンツの選択と計画をしっかりとモデリングすることにより、エンドツーエンド神経NLGモデルの短所を克服することを目的としている。
さらに、従来のMTモデルのほとんどは、例えば、同じ文書の異なる文章または構造化された情報から提供されるより大きな文脈(context)に接近せずに、文章を独立的に(すなわち、文章レベルで)翻訳する。従来のMTシステムは、多数の言語に対しては印象的な性能を示したが、特に、テキストが文章レベルを超える要素(factor)として考慮されるときには、当該技術分野では依然として多くの問題が存在している。
本実施形態に係るシステムおよび方法は、MTおよびNLG作業からのデータを活用してよい。特に、本実施形態に係るシステムおよび方法は、MTおよびNLG間の移転学習(transfer learning)を利用してよい。
本実施形態の一側面によると、プロセッサによって自然言語生成(Natural Language Generation:NLG)モデルを訓練させる方法が提供される。文書レベルの機械翻訳(Machine Translation:MT)モデルが、第1言語のトークンシーケンスを入力として受信して第2言語のトークンシーケンスを出力として生成するようにMTモデルを訓練させることによって提供される。拡張された文書レベルのMTモデルは、対をなす言語独立構造化されたデータ、および第1言語のトークンシーケンスを入力として受信して第2言語のトークンシーケンスを出力として生成するように文書レベルのMTモデルを訓練させることによって提供される。言語独立構造化されたデータは、第1言語および第2言語として理解される。NLGモデルは、言語独立構造化されたデータを入力として受信し、(例えば、第1言語の対をなすトークンシーケンスなく)第2言語のトークンシーケンスを出力として生成するように拡張された文書レベルのMTモデルを訓練させることによって提供される。また、本実施形態に係る方法は、訓練されたNLGモデルを使用して構造化された新たなデータから出力データを生成するためにも提供される。
補完的な側面によると、本開示は、上述したような方法を実行するためのコード命令を含むコンピュータプログラム製品を提供し、上述したような方法を実行するためのコード命令を含むコンピュータプログラム製品が記録されたコンピュータ読み取り可能な媒体を提供する。
本発明の他の特徴および利点は、添付の図面を参照しながら記述する詳細な説明によって明らかになるであろう。
本開示は、詳細な説明と、これに付随する図面によって完全に理解されるであろう。なお、図面に付与した参照番号は、類似および/または同一する要素を識別するために重複使用されてよい。
本開示に係る方法を実行するシステムの基本設計の例を示した図である。 図1に示すプロセッサの基本設定の例を示した図である。 本開示における、自然言語生成(NLG)モデルを訓練させる方法の例を示した図である。 訓練された文書レベルの機械翻訳モデルを提供する方法の例を示した図である。 文書レベルの機械翻訳モデルを拡張する方法の例を示した図である。 構造化されたデータを前処理する方法の例を示した図である。 自然言語生成モデル(NGLモデル)を提供する、拡張された文書レベルの機械翻訳モデルを訓練させる方法の例を示した図である。 図3に示す方法によって訓練されたNGLモデルのためのランタイム(runtime)(推論)方法の例を示した図である。 図9a~図9cは、実験的なNLG訓練方法からのデータ(図9aに示したNLG訓練方法で使用されるメタデータ符号化(メタデータ)、図9bに示した訓練セットからのストーリ(参照ストーリ)、および図9cに示した訓練された英語NLGモデルの出力(生成されたストーリ))を示した図である。 図9a~図9cは、実験的なNLG訓練方法からのデータ(図9aに示したNLG訓練方法で使用されるメタデータ符号化(メタデータ)、図9bに示した訓練セットからのストーリ(参照ストーリ)、および図9cに示した訓練された英語NLGモデルの出力(生成されたストーリ))を示した図である。 図9a~図9cは、実験的なNLG訓練方法からのデータ(図9aに示したNLG訓練方法で使用されるメタデータ符号化(メタデータ)、図9bに示した訓練セットからのストーリ(参照ストーリ)、および図9cに示した訓練された英語NLGモデルの出力(生成されたストーリ))を示した図である。 図10は、実験的な英語NLG追跡(track)のために選択された選手の最大数に依存する(ベストチェックポイント(best checkpoint)による)DGT有効BLEUを示した図である。 提供されたメタデータ(+)または幻影(hallucinations)(-)に明らかに存在しなかった実験的なNLGモデルから正しく予測される情報を示した図であり、「REF」は「参照」テキストを、「NLG」は「自然言語生成」テキストを示す。
導入
本実施形態は、何よりも、異なるタイプの神経NLPモデル、すなわち、機械翻訳(MT)モデルを訓練させることによって文書レベルの自然言語生成(NLG)モデルを訓練させる方法、システム、およびプログラム製品を提供する。文書レベルであるMTモデルは、NLGモデルと出力(選択された言語の文書レベルのテキスト)を共有する。これは、NLGモデルを訓練させるためにMTモデルとNLGモデル間の移転学習を可能とし、これにより、NLGを訓練させるために可用あるいは不適合な訓練データの使用を可能にする。これは、特に、可用であるNLGモデルの訓練データが、MTモデル訓練データに比べて制限されている通常的な場合に有効となる。
本開示に係る方法は、MTおよびNLGモデルの両方からのデータセットを使用するために、MTおよびNLGモデルの多様な特徴を活用する。MTモデルを訓練させる方法と(例えば、推論のために)、このように訓練されたモデルを使用する方法も提供される。
ここで、「モデル」とは、1つ以上のニューラルネットワークレイヤおよびモデルパラメータ(例えば、加重値)の対応するセットに基づき、プロセッサおよびメモリによって実行可能なアルゴリズムによって定義されてよい。自然言語生成(NLG)モデルと機械翻訳(MT)モデルを含む自然言語処理(NLP)モデルは、入力シーケンスのような1つ以上の入力を処理し、出力シーケンスのような1つ以上の出力を生成するために構成されてよい。モデルは、ソースデータ(例えば、第1言語のソースシーケンス)およびターゲットデータ(例えば、第2言語のターゲットシーケンス)を有する訓練データセットを使用してパラメータを決定することによって訓練されてよい。可用なデータセットは、特定のタイプのモデルを訓練させるために知られている。しかし、ここで開示する方法において、特定のタイプのNLPモデルを訓練させるために通常的に使用されるデータセットは、他のタイプのNLPモデルを訓練させるために適応(adapted)されてもよい。
ここで、「機械翻訳モデル」または「MTモデル」とは、プロセッサ、および第1言語の入力トークンを受信するように構成されるメモリによって実行されてよく、モデルによる処理後(または、直接的あるいは追加的な処理後に)第2言語の出力トークンを生成するニューラルネットワークベースの自然言語処理(NLP)モデルである。トークンは、例えば、単語、文字(例えば、文字、数字、句読点、(文章終了(end-of-sentence)文字のような)特殊文字、または当業者によって理解される他のものを含んでよい。入力トークンおよび出力トークンの両方は、トークンのシーケンス(すなわち、トークンシーケンス)として提供されてよい。第1言語および第2言語と関連する「言語」は、適切な自然言語として一般的に解釈されるものを意味する。第1言語および第2言語は、ある側面において互いに異なる限り、(同じものの2つの変形、より一般的な言語を含む)任意の2つの選択された自然言語であってよい。
一部のMTモデルは一般的に「文章レベル」と見なされるが、そこでは、入力トークンのシーケンスはMTモデルによって処理され、出力トークンは1つ以上の入力文章を提供するように文章基準(per-sentence basis)(文章の終了は、例えば、特殊な文章終了トークンによって表示される)で生成され、したがって、出力トークンのシーケンスは、1つ以上の対応する出力文章として提供される。他のMTモデルは一般的に「文書レベル」と見なされるが、そこでは、入力トークンのシーケンスは処理され、出力トークンは最大限完全な文書となり、完全な文書(例えば、トークンの完全なセット、または個別の文章よりも大きいシーケンスを示すトークンセット)を含み、その個別の文章よりも大きい基準で生成される。
「自然言語生成モデル」または「NLGモデル」は、プロセッサ、および構造化されたデータを入力として受信し、出力として選択された言語の出力トークンのシーケンスを生成するように構成されるメモリによって実行されるニューラルネットワークをベースにしたNLPモデルである。言語独立的な構造化されたデータは、例えば、メタデータ、テーブル形式のデータ、ツリー形式のデータ、グラフ形式のデータ、フォーマット化されたデータなどを含んでよい。トークンの出力シーケンス(すなわち、トークンシーケンス)は、例えば、生成されたテキストの1つ以上のシーケンスであってよく、文書レベルであってよく、例えば、トークンの出力シーケンスは、入力された構造化されたデータに基づく文書レベルのテキストシーケンスであってよい。
本開示に記載した実施形態によると、第1言語の入力トークンシーケンスを受信して第2言語の出力トークンシーケンスを生成するために訓練される、文書レベルの機械翻訳(MT)モデルが提供、例えば、生成される。文書レベルのMTモデルが最初に取得されるようになるが、これらは、例えば、第1言語および第2言語の並列文書レベルのコーパスデータを使用して文章レベルのMTモデルを取得し、後に訓練させることによって提供されてよい。文書レベルの機械翻訳モデルを提供する方法の例については、以下でさらに詳しく説明する。
追加的な方法として、第1言語の入力トークンを受信して第2言語の出力トークンを生成するための文書レベルのMTモデルを訓練させる。MTモデルは、文章レベルの並列コーパスからランダムに選択された文章の連結された(concatenated)グループである第1言語および第2言語のトークンシーケンスを含むデータセットによって訓練されてよい。文書レベルのMTモデルは、代案的にまたは追加的に、第1言語の文書レベルのソースデータおよび第2言語の文書レベルのトークンデータを含む1つ以上のデータセットによって訓練されてよい。データセット(複数可)を提供する方法の例がここで提供される。文章の連結されたグループによって文書レベルのMTモデルを訓練させることは、可用な訓練データの量を増加させ、並列文書レベルのコーパスデータが少ないか存在しないときに、文章レベル情報を超える情報を利用できるようにする。
文書レベルのMTモデルを生成した後、拡張された文書レベルのMTモデルが文書レベルのMTモデルを入力として第1言語のトークンシーケンスと対をなす言語独立構造化されたデータを受信し、第2言語のターゲットトークンシーケンスを出力として生成するように訓練(例えば、MT訓練)させることによって提供されてよい。このようなデータは、少なくとも部分的に、例えば、NLGモデルのために古典的に(conventionally)使用される1つ以上の訓練データセットによって提供されてよい。言語独立構造化されたデータは、例えば、ここで提供される方法により、訓練の間に(または、新たに構造化されたデータに対し、ランタイムの間に)拡張された文書レベルのMTモデルによって消費される1つ以上のテキストシーケンスを生成するように前処理されてよい。前処理方法の例としては、言語従属的に構造化されたデータから言語非依存的に構造化されたデータ(一例として、記入日時(written dates))を生成することを含んでよい。
NLGモデルは、拡張された文書レベルのMTモデルを、言語独立構造化されたデータを入力として受信し、第2言語のトークンシーケンスを出力として生成するように訓練させることによって提供されてよい。これは、例えば、(例えば、入力として第1言語の対をなすトークンシーケンスを含まずに)言語独立構造化されたデータから生成されたテキストシーケンスを使用する拡張された文書レベルのMTモデルのNLG訓練によって実行されてよい。
(例えば、ランタイムまたは推論の間に)構造化されたデータから出力を生成する方法において、構造化されたデータは、訓練されたNLGモデルに入力される。構造化されたデータは、1つ以上のテキストシーケンスを生成するように前処理されてよい。このような入力によって訓練されたNLGモデルは、第2言語の(例えば、文書レベルの)出力テキストを生成する。
本発明は多様な形態の実施形態を許容することができるが、本開示は発明の原理の一例に過ぎず、説明される実施形態によって発明の広い側面が限定されることを意図するものではないという理解とともに、図面に示されている、発明の好ましい実施形態の詳細がここで説明されるであろう。
レファレンス
以下の文献のいずれも従来技術を構成するものと認められてはいないが、参照としてそのすべてがここに統合される。
-Alexandre Berard,Calapodescu Iona,and Claude Roux,2019.NAVER LABS Europe Systems for the WMT19 Machine Translation Robustness Task.In WMT-Shared TaskPaper.
-Sergey Edunov,Myle Ott,Michael Auli,and David Grangier,2018.Understanding Back-Translation at Scale.In EMNLP.
-Marcin Junczys-Dowmunt.2019.Microsoft Translator at WMT 2019:Towards Large-Scale Document-Level Neural Machine Translation.In WMT-Shared Task Paper.
-Taku Kudo and John Richardson,2018.Sentence Piece:A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.In EMNLP.
-Remi Lebret,David Grangier,and Michael Auli,2016.Neural Text Generation from Structured Data with Application to the Biography Domain.In EMNLP.
-Marco Lui and Timothy Baldwin,2012.Langid.py:An off-the-shelf language identification tool.In proceedings of the ACL 2012 System Demonstrations,ACL.
-Kathleen R.McKeown,1985.Text Generation:Using Discourse Strategies and Focus Constraints to Generate Natural Language Text.Cambridge University Press,New York,NY,USA.
-Hongyuan Mei,Mohit Bansal,and Matthew R Walter,2016.What to talk about and how?Selective generation using LSTMs with Coarse-to-Fine Alignment.In NAACL-HLT.
-Myle Ott,Sergey Edunov,David Grangier,and Michael Auli,2018.Scaling Neural Machine Translation.In WMT.
Ratish Puduppully,Li Dong,and Mirella Lapata,2019.Data-to-Text Generation with Content Selection and Planning.In Proceedings of the AAAI Conference on Artificial Intelligence.
-Ehud Reiter and Robert Dale,2000.Building Natural Language Generation Systems.Cambridge University Press.
-Rico Sennrich,Barry Haddow,and Alexandra Birch,2016.Neural Machine Translation of Rare Words with Subword Units.In ACL.
-Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.Gomez,ukasz Kaiser,and Illia Polosukhin,2017.Attention is All You Need.In NIPS.
-Sam Wiseman,Stuart Shieber,and Alexander Rush,2017.Challenges in Data-to-Document Generation.In EMNLP.
システムの基本設計
本実施形態に係る方法は、図1に示した基本設計のシステム100内で実現されてよい。システム100は、1つ以上のニューラルネットワークを使用して自然言語処理(NLP)およびNLPモデルの訓練作業を実行するように構成されるプロセッサ102、例えば、コンピューティングデバイスを含む。プロセッサ102は、モデルを訓練させるために使用されるデータセットを記録する1つ以上のデータベース104と通信してよい。プロセッサ102は、単一プロセッサあるいは直列または並列で動作する複数のプロセッサを含んでよく、データベース104は、1つ以上のデータベースを含んでよい。
機械翻訳(MT)または自然言語生成(NLG)モデルの訓練、検証、試験、および/または推論のようなNLP作業の動作の間に、プロセッサ102は、連結される他のプロセッサ(図示せず)から、データベース104から、または/追加的にネットワーク108を介して連結する1つ以上のユーザ端末106から、あるいはこのいずれかの組み合わせから、入力データを受信してよい。プロセッサ102は、モデルを使用して入力データを処理してよく、追加のプロセッサ(複数可)、データベース104、および/または1つ以上のユーザ端末106a、106bでこのような処理の結果を出力してよい。他の例として、プロセッサ102は、サーバ(または、クラウドコンピューティングデバイス)として構成されてよく、追加されるプロセッサのうちの1つ以上または1つ以上のユーザ端末106は、クライアントとして構成されてよい。データベース104は、プロセッサにローカルとして存在するか、または、例えば、ネットワーク108を介して遠隔接続してよい。
ユーザ端末106a、106bは、個人用コンピュータ106a、クライアントコンピュータ、クライアント端末、モバイル通信デバイス106bなど、または、プロセッサ102に対してデータを送受信するために構成されることのできる他のコンピュータデバイスを含んでよいが、これに限定されることはない。ユーザ端末106は、プロセッサ102が処理した結果を表示するためのディスプレイを含んでよい。
図2は、プロセッサ102で実現されることのできる、プロセッサ200のコンポーネントを示した図である。プロセッサ200は、プロセッシング部202およびメモリ204を含み、これは、ランダムアクセスメモリ、不揮発性メモリ、および記録媒体のいずれかの組み合わせを含んでよい。データベース104に対応するデータベース206は、プロセッシング部202と通信するように設けられてよい。NLPモデル構成データ(例えば、モデル、パラメータ)、(例えば、訓練、試験、および/または検証のための)データセット、生成された入力データ、生成された出力データ、または他のデータは、必要によっては、メモリ204およびデータベース206のいずれかの組み合わせに記録さるか、そこから検索されてよい。
メモリ204に記録されたコードを実行するプロセッシング部202には、本開示に係る方法の段階を実行するためのモジュールが設けられる。このようなモジュールの動作については、本発明に係る方法を参照しながら以下でより詳しく説明する。
自然言語処理(NLP)モジュール208は、使用される特定の方法にしたがい、文章レベルの機械翻訳(MT)モデル、文書レベルのMTモデル、拡張された文書レベルのMTモデル、または自然言語生成(NLG)モデルのような、NLPモデルに基づくニューラルネットワークを実行する。NLPモジュール208は、1つ以上のデータセット210から生成された(例えば、メモリ204に記録された)入力データを受信して出力データを生成するように、NLPモデルを使用して入力データを処理する。
入力データ処理モジュール214は、データセット210から入力データを受信、処理、および/または生成し、訓練、試験、検証、および/または推論に使用するためにNLPモジュール208に提供する。入力データ処理モジュール214は、トークンシーケンス生成モジュール216、構造化されたデータ前処理モジュール218、および連結/集合モジュール220のような1つ以上のデータ処理モジュールを含んでよい。
トークンシーケンス生成モジュール216は、データセット210または他のソースから、例えば、テキストシーケンスのような1つ以上のソースおよび/またはターゲットトークンシーケンスを提供する。並列コーパスから提供されるデータセットに対し、例えば、トークンシーケンス生成モジュール216は、文章レベルのテキストシーケンスまたは文書レベルのテキストシーケンスを訓練するために(当該技術分野の技術者であれば理解できるはずであるが、このようなテキストシーケンスに対して求められるすべての前処理を含む)、必要によって提供してよい。トークンシーケンス生成モジュール216は、例えば、文書レベルのテキストを提供するために連結/集合モジュール220によって追って連結される、例えば、文章レベルのテキストシーケンスのようなテキストシーケンスのセットをランダムに選択するか、または他の方法で選択して提供してよい。ランタイムの間に、トークンシーケンス生成モジュールは、MT作業のような、NLPモデルに対する入力のために新たに受信されたトークン(例えば、テキスト)シーケンスのすべての所期の前処理を実行してよい。
構造化されたデータ前処理モジュール218は、データセット210または他のソースから受信された構造化されたデータに対する1つ以上の前処理段階を実行し、例えば、テキストまたはトークンシーケンスのような言語非依存型のデータを提供する。前処理は、言語従属的に構造化されたデータから言語非依存型のデータを生成すること、構造化されたデータをフィルタリングすること、入力構造化されたデータから推論される追加の構造化されたデータによって構造化されたデータを補うこと、および/または構造化されたデータを順に配置することを含んでよいが、これに限定されてはならない。
連結/集合モジュール220は、トークンシーケンス生成モジュール216および/または構造化されたデータ前処理モジュール218から、文書レベル、文章レベル、またはその他のテキストシーケンスを連結、集合化(aggregate)、または結合(combined)、そうでなければ組み立てる(assemble)(ペアリングする(pair))ことにより、NLPモジュール208によって実行されるNLPモデルに対する入力および/または出力テキストシーケンスを提供する。連結または集合方法の例が、ここで説明される。
NLP訓練モジュール222は、ここで提供される1つ以上の訓練方法により、(例えば、入力データ処理モジュール214によって処理されたもののような)受信された入力データを使用してNLPモジュール208が実行するNLPモデルを訓練させる。NLP訓練モジュール222は、文章レベルのMT訓練、文書レベルのMT訓練、拡張された文書レベルのMT訓練、またはNLG訓練を含み、複数の訓練方法を実行してよい。これらの例が、ここで説明される。NLP訓練モジュール222は、追加される入力データを使用してNLPモデルの試験および/または検証のために構成されてもよい。
NLP推論モジュール224は、受信されたデータセット210または他のデータソースからNLPモジュール208に新たな入力データ(このような入力データは、選択的に、入力データ処理モジュール214によって処理されてよい)をランタイムの間に推論を実行するために提供する。プロセッサ200は、例えば、記録のために、ディスプレイ上に表示を提供するために、その他のことのために、推論の間にNLPモデルによって生成された出力データを追加で処理してよい。
NLGモデルの訓練
図3は、プロセッサ102、200によって文書レベルのNLGモデル(例えば、NLPモデル)を訓練させるための方法300の例を示した図である。
段階310で、文書レベルのMTモデルは、例えば、NLP訓練モジュール222を使用し、第1言語(ソース)の入力トークンシーケンスを受信し、第2言語(ターゲット)の出力トークンシーケンスを生成するためにMTモデルを訓練させることによって提供される。MTモデルを訓練させることは、例えば、並列コーパスからの、並列ソースおよびターゲットトークンシーケンスを使用してよい。
文書レベルのMTモデルは、最初は、いずれかの適切な(例えば、プロセッサ200内で(一例として、NLPモジュール208内で)以前に生成されて記録されたもの、プロセッサの外部で以前に生成されて記録されて後にプロセッサ200によって受信または取得されたものなどのような)方式によって提供されてよい。一実施形態によると、文書レベルのMTモデルは、例えば、NLP訓練モジュール222によって文章レベルMTモデルを訓練させることによって提供されてよい。代案的に、従来の文書レベルのMTモデルが文書レベルのMTモデルを提供するように訓練されてもよい。
他の例として、文書レベルのMRモデルは、第1言語(L1)(例えば、英語)のテキストのシーケンス(例えば、単語)のような入力トークンを翻訳し、第2言語(L2)(例えば、フランス語)のテキストのシーケンス(例えば、単語)のような出力トークンを生成するために構成(例えば、生成、受信、および訓練)されてよいが、これに限定されてはならない。入力および/または出力トークンは、当該分野の技術者であれば理解できるように、文章の終了を示すもののような特殊なトークンをさらに含んでよい。このように、段階310で提供されるMTモデルは文書レベルであるため、MTモデルは、NLP訓練モジュール222によって訓練されて文章レベルよりも高いレベルのシーケンスを集合的に示す入力トークンを受信し、同じように、文章レベルよりも高いレベルのシーケンスを示す出力トークンを生成する。
段階312で、例えば、入力データ処理モジュール214と組み合わせてNLP訓練モジュール208を使用することで、プロセッサ102は、例えば、ソーストークンシーケンスのような、ソーストークンデータと対をなす構造化されたデータを使用して文書レベルのMTモデル(一例として、段階310で訓練されたもの)を訓練させることにより、拡張された文書レベルのMTモデルを提供する。段階312の訓練は、対をなす構造化されたデータとソーストークンシーケンスを入力として受信してターゲットトークンシーケンスを出力として生成するように拡張された文書レベルのMTモデルを訓練させることと関連する。拡張された文書レベルのMTモデルを提供するための段階312の訓練は、MT訓練方法によって実行されてよい
例えば、プロセッサ200、例えば、入力データ処理モジュール214は、他の1つと対をなす構造化されたデータおよびソーストークンデータを有する1つ以上のデータセットを提供してよく、これによって1つ以上の対が提供され、各対は、言語独立形態の構造化されたデータおよび第1言語(L1)のソーストークンデータを有するようになる。言語独立形態とは、構造化されたデータが、ソース言語(L1)およびターゲット言語(L2)の両方を理解することのできる形態を意味する。対はこのような段階312の訓練のためのソースを提供し、ターゲット言語(L2)のテキストはターゲットを提供する。
一実施形態によると、構造化されたデータは、文書と関連するデータであるか、該当のデータを含む。例えば、構造化されたデータは、文書に関する概念的(conceptual)あるいは意味的(semantic)情報を示すデータであってよい。構造化されたデータは、テーブルレコードデータ、ツリーデータ、グラフデータ、メタデータ、フォーマット化されたデータ、またはこれらのいずれかの組み合わせであってよいが、これに限定されてはならない。
構造化されたデータのソースは、自然言語生成(NLG)モデルを訓練させるために通常的に使用される訓練セットであり、その例がここで提供される。しかし、データの他のソースが使用されてもよい。同じソースまたは複数のソースからの複数のデータセットが対をなす構造化されたデータおよび/またはソーストークンデータを提供するように結合、例えば、連結されてよい。
構造化されたデータは、ソーストークンシーケンスと対をなす前に前処理されてよい。前処理方法の例がここで提供される。
ソーストークンデータは、例えば、第1言語(L1)の、構造化されたデータと関連する文書を要約するテキストであるか、該当のデータを含んでよい。例えば、構造化されたデータは、イベントに対する事実(fact)を示してよく、イベントは、テキストによって要約される。トークンターゲットデータは、プロセッサ200によってトークンデータとして受信されてよく、または、例えば、訓練データセットから、例えば、非トークン化された(non-tokenized)ターゲットテキストを受信して非トークン化されたデータをトークン化するプロセッサによって提供されてよい。データをトークン化する方法の例がここで提供されるが、その他の内容は、当該技術分野において通常の知識を有する者であれば理解できるであろう。
ターゲットトークンデータは、例えば、第2言語(L2)の、すなわち、訓練された文書レベルのMTモデルによって生成されたトークンの出力シーケンスの言語の、構造化されたデータと関連する文書を要約するテキストであるか、該当のテキストを含んでよい。言い換えれば、ソーストークンデータおよびターゲットトークンデータは、言語(L1およびL2)それぞれの文書を要約する文書であってよく、ソーストークンデータと対をなす構造化されたデータは、このような文書と関連するデータであってよい。
ターゲットトークンデータは、文書レベルのデータとして見なされてよい。当該技術分野の発明者であれば認識できるはずであるが、これは、拡張された文書レベルのMTモデルの出力の整列を容易にし、NLGモデルのそれは第2言語(L2)のテキスト要約の提供を容易にし、言語(L1およびL2)間のテキスト翻訳のための入力テキストを処理する第1タイプのNLPモデル(文書レベルのMTモデルのようなもの)と構造化されたデータを処理する第2タイプのNLPモデル(NLGモデルのようなもの)との移転学習を可能にし、第2言語のテキストを生成する。
段階314で、NLGモデルは、ターゲットトークンシーケンスを出力として提供する反面、対をなすソーストークンシーケンスがなくても入力として構造化されたデータを受信するように、段階312で訓練された拡張された文書レベルのMTモデルを訓練させることによって提供される。拡張された文書レベルのMTモデル、すなわち、NLGモデルを訓練させることは、このような訓練段階314において、神経NLGモデルを訓練するための既知(known)の方法を使用してNLP訓練モジュール222によって実行されてよい。(例:ハイパーパラメータを含む)訓練方法がここで提供される。
図4は、段階310に示した文書レベルのMTモデルを訓練させる方法400の例を示した図である。段階402で、NLPモジュール208によって実現されるMTモデルは、いずれかの適切な方法によって提供される。段階402で提供される、提供されたMTモデルは、(文章単位(sentence-by-sentence basis)で入力テキストを処理する)文章レベルのMTモデル、または(文書単位で入力テキストを処理する)文書レベルのMTモデルであってよい。
このように提供されたMTモデルは、当該技術分野において通常の知識を有する者にとって明らかであるMT訓練方法により、NLP訓練モジュール222によって最初に訓練されてよい。方法の例がここで提供される。例えば、MTモデルが文章レベルのMTモデルであれば、最初に文章レベルデータを使用して訓練される反面、文書レベルMTモデルは、文書レベルのデータを使用して最初に訓練される。最初の訓練が文章に基づくものであれば、テキスト文章は、所望するものにしたがい、文章レベルのテキストとして提供されるか、または/追加で文書レベルのテキストをセグメント化することによって提供されてよい。当該技術分野において通常の知識を有する者であれば理解できるように、訓練データは、MTモデルを訓練するためのデータセットを受信することによって提供されてよい。文章レベルのトークンデータから抽出(例えば、セグメント化)するための文書レベルのトークンデータは、文書レベルのMTモデル訓練セットによって提供されてよい。最初の訓練のための文章レベルまたは文書レベルのソーストークンデータは第1言語(L1)であってよく、最初の訓練のための文章レベルのターゲットトークンデータは第2言語(L2)であってよい。
段階404で、文書レベルの訓練データ(例えば、既存の文書レベルの訓練データ)が、文書レベルのMTモデルを訓練させるために使用されなければならないかが判定される。文書レベルの訓練データが使用されなければならない場合(通常はより高いレベルの訓練)、段階604で、文書レベルのトークンシーケンス(例えば、当業者であれば理解できるような所期の前処理とともに、テキストシーケンス)がそれぞれ、例えば、並列コーパスから選択されてソースおよびターゲットデータを(すなわち、L1のトークンシーケンスがソースとして、L2のトークンシーケンスがターゲットとして)提供する。このようなデータセットに対するソースの例は、既存の文書レベルのMT訓練データセットまたは文章レベルのMT訓練データセットからの集合化された(aggregated)文章データを含む。文書レベルのトークンデータに追加されるソースは、NLG訓練セットからアップサンプリングされた、および/または逆翻訳された(back-translated)ターゲットデータを含む。訓練データの選択および/または前処理は、入力データ処理モジュール214によって提供されてよい。
段階404で、既存の文書レベルの訓練データが使用されてはならないと判定されれば、その次に、文書レベルのデータがシミュレーションされてよい。段階408で、第1および第2言語(L1、L2)のランダム文章レベルのトークンシーケンス(例えば、当業者であれば理解できるような所期の前処理とともに、テキストシーケンス)は、例えば、並列コーパスから選択される。例えば、第1言語(L1)のランダム選択された文章レベルのトークンシーケンスと、第2言語(L2)のこれらに関連する文章レベルのトークンシーケンスのセットが選択されてよい。代案的にまたは追加的に、第2言語(L2)のランダム選択された文章レベルのトークンシーケンスと、第1言語(L1)のこれらの関連する文章レベルのトークンシーケンスが選択されてよい。
段階408の次に、段階410で、L1およびL2の選択された文章レベルのトークンシーケンスはそれぞれ、例えば、入力データ処理モジュール214により、シミュレーションされた文書レベルのソースおよびターゲットデータを提供するように連結される。例えば、ソースシーケンスは、L1の連結されたランダム選択された文章を含んでよく、ターゲット文章は、L1の連結された文章と関連する(すなわち、その翻訳である)それぞれのL2の連結された文章を含んでよい。
段階412で、段階402で提供されたMTモデルは、MT訓練方法により、段階406、408、410で選択されたデータに対して訓練される。文書レベルおよびシミュレーションされた訓練レベルデータの組み合わせが、訓練段階412でMTモデルを訓練させるために使用されてよい。訓練段階412の結果は、第1言語(L1)のテキストの入力シーケンスを受信して第2言語(L2)のテキストのシーケンスを出力する文書レベルのMTモデルとなる。
図5は、段階312に示した文書レベルの機械翻訳モデルを拡張するための方法500の例を示した図である。段階502で、構造化されたデータは、プロセッサ200、例えば、構造化されたデータ前処理モジュール218によってテキストシーケンス(または、より一般的には、他のトークンシーケンス)を提供するように前処理される。前処理502から始まるテキストシーケンスは、上述したように言語非依存型であってよい。
段階504で、プロセッサ200、例えば、連結/集合モジュール220は、前処理502からのテキストシーケンスを第1言語(L1)のソーストークンデータ(例えば、文書レベル)とペアリングして訓練データセットのためのソースデータを提供してよい。ペアリング504は、例えば、テキストシーケンスを、当該技術分野において通常の知識を有する者であれば理解可能な連結方法により、ソーストークンデータと連結することを含んでよい。連結方法の例がここで提供される。
段階506で、文書レベルのMTモデルは、例えば、段階310で訓練された文書レベルのMTモデルは、ソースデータとして、段階504における対をなすソースデータと、入力データ処理モジュール214によって処理されたものとして、第2言語(L2)のターゲットトークンデータをターゲットデータとして使用してNLP訓練モジュール222によって訓練される。ターゲットトークンデータは、段階504で、(言語非依存型の)構造化されたデータベースのテキストシーケンスと対をなす言語(L1)のソーストークンデータに対応する(例えば、その翻訳である)第2言語(L2)のトークンシーケンス(例えば、テキストシーケンス)であってよい。例えば、ソーストークンデータは、NLG訓練セットから第2言語(L2)である逆翻訳ターゲットテキストによって提供されてよい。他の例として、一部のNLG訓練セットは、1よりも多い言語のターゲットテキストを含み、このようなターゲットテキストは、通常は文書レベルのデータである。他の例として、ソーストークンデータは、言語(L1およびL2)のテキストを有するMT訓練セットから第1言語(L1)のテキストを受信または生成することによって提供されてよい。ソーストークンデータおよびターゲットトークンデータは、互いに連結する、MT訓練データおよびNLG訓練データの両方によって提供されてもよい。
ソースおよび/またはターゲットトークンシーケンスの提供は、当該技術分野の技術者であれば理解可能なように、例えば、トークンシーケンス生成モジュール216、および/または連結/集合モジュール220によるトークンデータの前処理を含んでよい。
段階506の間に、(ソーストークンシーケンスとは対照的に)構造化されたデータの考慮を向上させるために、段階504のペアリングは、選択的に(optionally)、ソーストークンシーケンス内の複数のトークンをランダムにマスキング(masking)することと、(ランダムにマスキングされたトークンを有する)このようなソーストークンシーケンスを前処理されたテキストシーケンスと連結することを含んでよい。マスキングは、既知の方法によって実行されてよい。
訓練方法の一例として、段階506で、訓練は、複数のエポック(epoch)に対して実行されてよい。各エポックに対してソースデータが段階504で提供されるとき、互いに異なる(例えば、ランダムに選択された)複数のトークンが選択的にマスキングされてよい。これは、拡張された文書レベルのMTモデルが構造化されたデータを考慮して訓練されることを保障する。
訓練されたときに拡張されたMTモデルは、第1言語に翻訳される入力トークン(例えば、テキスト、特殊文字など)と言語独立的に構造化されたデータの両方を含む入力シーケンスを受信し、第2言語の文書レベルの出力トークン(例えば、テキスト、特殊文字など)を含む出力シーケンスを生成するように構成される。
図6は、構造化されたデータ前処理モジュール218によってテキストシーケンスを提供するように構造化されたデータを前処理する方法600の例を示した図である。通常、構造化されたデータは、古典的な機械学習モデルでは簡単に処理することが難しい、テーブル形式、グラフ形式、ツリー形式、または他のフォーマットで提供される。これにより、前処理方法600は、構造化されたデータをテキストシーケンス形式に変換し(一例として、グラフデータを変換するためのタプル(tuple)を使用するが、これに限定されてはならない)、したがって、NLPモデルによって出力テキストシーケンスを生成するように消費されてよい。追加的に、(記入日時(written dates)に限定されないような)言語従属的に構造化されたデータは、言語非依存的に生成されてよい。
構造化されたデータは、段階602で受信される。例えば、構造化されたデータは、上述したように、1つ以上の受信されたNLG訓練セットの一部であるデータセットの構造化されたデータとして受信されてもよいし、他の外部ソースからのデータセットから受信されてもよいし、あるいはプロセッサ102内またはプロセッサ102にアクセス可能なストレージ内に含まれたデータセットから受信されてもよい。複数のNLG訓練セットから構造化されたデータは連結されてよい。
受信された構造化されたデータは、段階604で、例えば、1つ以上のタイプのデータを選択および/または除去することによってフィルタリングされてよい。一例として、特定のタイプの情報が所期の出力テキストを効率的に生成するために、より関連のあるものとして(文書に対する要約テキストのように)以前に判断されることがある。このようなタイプの情報を示すデータがフィルタリング対象として選択されてよく、異なるタイプの情報を示すデータは除去されるように選択(de-selected)されてよく(あるいは、選択されないこともある)、後の処理に対して排除されてよい。代案的にまたは追加的に、追加で構造化されたデータは直接的に存在しないこともあるが、受信された構造化されたデータに基づいて推論されてよく、段階602で受信された構造化されたデータを補うように生成されてよい。
言語従属的な構造化されたデータは、言語非依存型または言語独立形式としてのいずれかのフィルタリングまたは補充の前または後に、段階606で変換または正規化(例えば、翻訳)されてよい。変換の例はここで提供されるが(例えば、言語従属形式「August 1,2020」から言語独立形式「2020-08-01」へのデータ変換)、他の言語非依存形式および/または変換も可能であることが理解できるであろう。
(フィルタリング、補充、または変換がなされるか、あるいはなされなかった)構造化されたデータは、段階608で、トークンを提供するように符号化されてよい。例えば、プロセッサ102は、構造化されたデータを、より一貫的に、明確に、あるいは/追加で効率的に、文書に対する特定の概念または情報を表現するように決定または選択された構造またはフォーマットに基づいて符号化されてよい。構造化されたデータの一部は、符号化段階608の前に予めトークン化されてよい。一実施形態において、段階606の(選択的な)翻訳と段階608の符号化が、1つの段階として結合されてもよい(一例として、翻訳が符号化に統合されてよいが、これに限定されてはならない)。段階604のフィルタリングまたは補充、および/または段階606の翻訳と選択的に結合された段階608の符号化は、構造化されたデータのよりコンパクトな表現を提供する。
トークンシーケンス、例えば、テキストシーケンスは、構造化されたデータ、例えば、段階606のトークンから段階610で生成されてよい。例えば、テキストシーケンスは、当該技術分野において通常の技術者であれば理解可能なトークンセグメント化方法によってセグメント化されてよい。セグメント化方法の例としてバイト対符号化(Byte-Pair Encoding:BPE)が使用されてよいが、これに限定されてはならない。
図7は、段階314のNLGモデルを提供するように拡張された文書レベルMTモデルを訓練させる方法800の例を示した図である。段階702で、例えば、NLG訓練セットまたは他のソースからの構造化されたデータは、図6を参照しながら説明した方法のように、(言語非依存型の)テキストシーケンスを提供するように構造化されたデータ前処理モジュール218によって前処理される。段階704で、例えば、段階312で提供されたもののような拡張された文書レベルMTモデルは、段階704で提供されたテキストシーケンスをソースデータ(テキスト)として使用し、例えば、NLG訓練セットまたは他のソースからの第2言語(L2)ターゲットトークンデータをターゲットデータとして使用してNLP訓練モジュール222によってNLGのために訓練されてよい。
段階704で、NLG訓練は、拡張された文書レベルのMTモデルを提供するときに(段階504で、言語独立的に構造化されたデータと対をなす言語(L1)のソーストークンデータを排除する(除去あるいは使用しない)、NLGモデル訓練データはNLG訓練段階704で使用されてよいが、これに限定されてはならない。
本発明者は、例えば、ここで提供されるもののように、構造化されたデータによって拡張された、以前に訓練された文書レベルのMTモデルを訓練されたNLGモデルを提供するようにNLGモデル訓練データによって訓練させることは、NLG訓練データだけを利用してNLGモデルを訓練させることに比肩する結果をもたらすということを発見した。MT訓練データはNLG訓練データよりも広範囲で利用可能であり、これは、NLGモデルを訓練させるために可用であるNLG訓練データのよりも効率的な使用を可能にした。
NLG訓練段階314から始まる訓練されたNLGモデルは、例えば、微調整のために、既知のNLG訓練方法により、構造化されたデータおよびターゲットトークンデータを含む1つ以上の追加のデータセットに対してさらに訓練されてよい。このようなデータセットは、例えば、NLGモデルを訓練させるための古典的なデータセットを含んでよい。追加的にまたは代案的に、追加の訓練は、ここで提供されるもののように、ソースまたはターゲットトークンシーケンスを利用するために1つ以上の方法によって少なくとも部分的に生成されたデータセットを利用してよい。
ランタイムで訓練されたNLGモデルの使用
図3に示すように、訓練されたNLGモデルは、図8の方法800によって推論のためにランタイムで使用されてよい。訓練されたNLGモデルを実行するプロセッサ102は、段階802で、新たな構造化されたデータを、当該技術分野において通常の知識を有する者であれば理解できるように、例えば、他のプロセッサ(図示せず)から、または適切なインタフェースを経て、1つ以上のユーザ端末106あるいはすべての他のソースから受信する。
段階804で、プロセッサ200は、例えば、構造化されたデータ前処理モジュール218は、言語独立テキストシーケンスを提供するように構造化されたデータを前処理する。段階804の処理は、図6を参照しながら説明したものと、本開示の他の場所で開示されたもののように提供されてよい。(言語独立)構造化されたデータは追加で処理されてよく、例えば、符号化やベクトル化などが実行されてよい。
プロセッサ200、例えば、NLP推論モジュール224は、段階806で前処理された構造化されたデータを、NLPモジュール208によって実現可能なもののような、段階314で提供されたNLGモデルのような訓練されたNLGモデルに入力する。入力にしたがい、訓練されたNLGモデルは、出力としてターゲットトークンシーケンス、例えば、段階808で、第2言語の出力テキストを生成する。このように生成された出力テキストは、段階810で、プロセッサ200によって追加で処理されてよく、例えば、他のプロセッサ(複数可)または1つ以上のユーザ端末106上におけるディスプレイ表示のために提供されるか、プロセッサ200によって表示、記録、追加処理、または適用されてよい。生成された出力テキストに基づくフィードバックが、NLGモデルを訓練させるために追加で使用されてよい。
例示
文書レベルのNLGモデルを訓練させる方法としては、メタデータから完全な文書を生成することができるエンドツーエンドピュアー(pure)NLGシステムを提供するように文書ベースのMTシステムを訓練させてよく、すなわち、メタデータを完全な文書に翻訳する。訓練されたエンドツーエンドNLGシステムは、データを選択および計画(planning)せず、周知のNLGデータセット(Rotowire)に対して実行される実験の古典的な方法と適切に比較されるように示されている。データは、移転学習を利用することにより、MTおよびNLG作業の両方で活用された。
NLGと文書レベルのMT作業の両方が同じターゲット(ロットワイヤデータセットを使用する例として英語言語ストーリが挙げられるが、これに限定されてはならない)を有するとき、これらは同一のデコーダを共有してよい。また、データセットからの構造化されたデータ(この例ではNLGメタデータ)がトークンシーケンスとして、すなわち、テキストシーケンスとして符号化されれば、NLGとMTに対して同一のエンコーダが使用されてよい。
一実施形態によると、比較的多くの量の並列データに対してドメイン適応された文書レベルのニューラル機械翻訳(MT)モデルを訓練させる。文章レベルのMTモデルは、文書レベルのMTモデルを提供するいずれかの方法によって訓練されてよい。文書レベルのMTモデルは、比較的少ない量のNLGデータに対して微調整されてよく、MT(例えば、(入力)テキストツー(出力)テキスト)からNLG(例えば、(入力)データツー(出力)テキスト)にモデルを移転(transitioning)してよい。このような移転の一部として、文書レベルのMTモデルは、構造化されたデータとテキスト(例えば、(入力)データ+テキストツー(出力)テキスト)の入力の組み合わせ(combination)からテキストを生成するように訓練されてよい。このように拡張された文書レベルMTモデルは、以下の組み合わせ例において、MT+NLGモデルまたはシンプルな(simply)MT+NLGモデルとして参照される。このようなモデルによって実行される作業を、ここでは、文書レベルの生成および翻訳(Document-level Generation and Translation:DGT)作業と呼ぶ。
前処理方法の例は、本来のデータベースで可用である構造化されたデータに変換、正規化、符号化などを実行するためのコンパクトな方式を提供する。一実施形態において、このように前処理されたデータは、作業の最小限の知識によって簡単に推論可能な、いくつかの追加の事実(fact)(例えば、現在のゲームの勝者、または次のゲームに関する情報)によって強化される。
NLGモデルが文書レベルによって訓練されて十分な情報が提供されれば、個別のデータ選択および序列(ordering)段階は必要なくなる。実験では、データによって訓練されたNLGモデルが文書レベルの構造をキャプチャし、自らが情報の序列(order)情報をキャプチャすることができることを立証した。
例示作業
実施形態に係る文書レベルの生成および翻訳(DGT)作業は、バスケットボールゲームの要約を、2つの言語(例えば、英語(EN)とドイツ語(DE))によって、ゲームに関する構造化されたデータ、他の言語のゲーム要約、またはこの両方の組み合わせとして生成することにある。このような作業は、2つのターゲット言語(英語とドイツ語)それぞれを、NLG(データツーテキスト)、MT(テキストツーテキスト)、およびMT+NLG(テキスト+データツーテキスト)のような3つのトラックに分割してよい。所期の出力テキストは、文書レベル(例えば、文章ベースの出力ではなく、完全な文書生成)となる。
以下の表1は、実験で使用された並列および単一言語コーパスについて説明したものである。表1において、英語側のDGT訓練(train)、有効(valid)、およびテストはそれぞれ、ロットワイヤ訓練(train)、有効(valid)、および試験(test)のサブセットである。さらに多くの単一言語データが可用とはなるが、実験ではロットワイヤおよびニュースクロールだけを使用した。WMT19-sentおよびWMT-docはそれぞれ、英語ドイツ語MTマシンモデルを訓練させるための文章レベルおよび文書レベルのデータセットである。
Figure 0007337770000001
すべてのニューラルNLPモデル(MT、NLG、MT+NLG)は、Vaswani et al.,2017に開示されるように、トランスフォーマビッグ(Transformer Big)に基づいて構成された。各モデルを提供するための方法例が論議されるであろう。
文章レベルのMTモデルからの文書レベルのMT訓練
文章レベルのMTモデルから訓練された文書レベルのMTモデルを提供する方法として、次の段階が含まれてよい。
1)すべてのWMT19並列データ(文書および文章)とDGT訓練に対して文章レベルのMTモデルを訓練させる。
2)(例えば、Edunov et al.2018に開示されるように)サンプリングによってドイツ語および英語のニュースクロールを逆翻訳(BT)する。
3)WMT19並列データ、DGT訓練、および逆翻訳されたデータ(BT)の連結に対して文章レベルのMTモデルを再訓練させる。後者は、各訓練エポックを1つの部分とし、20部分に区分された。これは、非BTデータを20だけオーバサンプリングして1つのエポックを訓練することとほぼ等しい。
4)文書レベルのデータに対する(有効混雑度(perplexity)による)最善の文章レベルのチェックポイントの訓練を微調整する。このような段階において、WMT文書は、例えば、Junczys-Dowmunt(2019)に開示されるように、最大1000個の(BPE)トークンのシーケンスとして切り取られた。ランダム文章がWMT-sentから文書として集合化され、DGT訓練データはアップサンプリングされた。しかし、Junczys-Dowmunt(2019)に開示される方法とは異なり、文章区分子(separator)および文書境界タグ(boundary tag)は、本実施形態の方法では使用しなかった。
5)DGT訓練と逆翻訳されたロットワイヤ訓練、およびロットワイヤ有効に対する最善の文書レベルのチェックポイントの訓練を微調整する。
例示前処理および実験に対するハイパーパラメータについては、以下でより詳しく説明する。上述した1)および3)段階において、20個のエポックに対し、newtest2014複雑度に基づく早期中断(early stopping)によって訓練される。段階4)において、5つの追加のエポックに対し、DGT有効複雑度(文書レベル)による早期中断によって訓練される。段階5)において、100個のエポックに対し、10個のエポックごとにDGT有効に対するBLEU評価とともに訓練される。最善のチェックポイントのBLEU点数はDGT有効複雑度によって計算され、最高BLEU点数のチェックポイントが維持された。
実験的な訓練動作において、段階5)におけるMTモデルは、極めて迅速に過適合され、1つまたは2つのエポック後にその最善の有効複雑度に到達する。DE-ENに対し、最善のDGT有効BLEUは、10~100個のエポックの間のどこででも達成された(稀に高い有効複雑度を有する)。DE-ENに対し、複雑度およびBLEUはさらに適切に相関したし、2つの点数による最善のチェックポイントはほぼ等しかった。以下で説明するように、NLGまたはMT+NLGデータに対して微調整を施すときにも、同じ観察が適用された。
すべてのMTモデルは、Berard et al.(2019)に開示されるものと類似するコーパスタグを使用した。特に、各ソース文章は、それが由来した(例えば、パラクロール(Paracrawl)、ロットワイヤ、ニュースクロール)コーパスを識別する特殊なトークンによって始まった。
実験において、文書レベルの復号化は、文章レベルの復号化よりも遥かに遅かった。例えば、単一V100に対し、文章レベルのDGT有効では翻訳に1分かかったが、文書レベルのDGT有効では6分がかかった。しかし、訓練された文書レベルのMTモデルを提供することは、MTおよびNLGのために同じモデルを使用することをより容易にする。
文書レベルMTモデルからNLGモデル訓練
原本構造化されたデータ(ここでは、メタデータ)は、ゲームあたり1つのJSON(Java Script Object Notation)文書として提供された。このような文書は、バスケットボールチームおよびチームの選手に関する情報を含む。
訓練されたNLGモデルを提供するために、次の段階が実行された。
1)テキストシーケンスとしてメタデータのコンパクトな表現を生成する(前処理)。
2)ソース側に対する上述した段階1)のコンパクトな表現と、ターゲット側に対する完全なストーリを使用してNLG作業に対する(例えば、以前の文書レベルのMT訓練方法の段階4)の)文書レベルのMTモデルの訓練を微調整する。
段階2)によるNLG訓練は、DGT訓練、ロットワイヤ訓練、およびロットワイヤ有効の連結で実行され、後者はDGT有効でも存在するゲームを除去するようにフィルタリングされた。
段階1)で使用されたメタデータは、次のような構造を有する。
a.テキストとしてゲームの日時。
b.ホームチーム情報(勝者/敗者タグ、チーム名および都市、ゲームの得点(point)、シーズンの勝ち数および負け数、チームレベルの点数)、およびチームの次のゲームに関する情報(日時、ホーム/遠征タグ、次のチーム名)。
c.遠征チーム情報、および遠征チームの次のゲームに関する情報。
d.ホームチームのN名のベスト選手(選手名、固定次数(fixed order)において0ではない該当の選手の点数、および該当の選手のスタートポジション)。選手は、得点、リバウンド、およびアシスト別に(該当の順に)分類される。
e.遠征チームのN名のベスト選手
モデルが有用な情報を容易に識別できるように、特殊なトークンおよび位置情報の組み合わせが使用された。例えば、ホームチームが常に先(first)であるが、<WINNER>タグが勝利チームおよびその選手に先行した。すべての非ゼロ統計は無視されたが、同じ位置が(例えば、得点、その次のリバウンド、その次のアシストのような)各タイプの点数に対して使用され、特殊なトークンがこれらを識別するために使用された(例えば、<PTS>、その次の<REB>、その次の<AST>)。タグの数は、シーケンスを可能な限り短く維持するように制限された(例えば、フリースローの成功および試みと確率:FT>3 5 60)。
メタデータの表現の例を図9a~図9cに示した。図9aは、NLG訓練方法で使用されたメタデータ符号化の例を示しており、図9bは、訓練セットとして使用された参照ストーリを示しており、図9cは、訓練された英語NLGモデルを使用して生成されたストーリを示している。図9bおよび図9cにおいて、下線で表示されたテキストの部分は、図9aのメタデータ内の事実に基づくテキスト部分を識別し、二重下線で表示されたテキストの部分は、図9aのメタデータでは明らかでない正確な事実であるテキスト部分を識別する。図9cにおいて、点線で表示されたテキスト部分は、虚構(hallucinations)または不正確な事実を識別し、イタリック体で表示されたテキスト部分は、繰り返されるテキストを識別する。
文書レベルのMTモデルから組み合わされたMT+NLGモデルの訓練
組み合わされたMT+NLGモデルを訓練させるための方法の例として、MTソースをNLGデータと連結した。メタデータ符号化方法は、上述したNLGモデル訓練方法と同じように使用され、(上述した段階4)の)訓練された文書レベルMTモデルが連結されたデータによって微調整された。
また、一実施形態によると、MTソース内のトークンを(これらを<MASK>トークンと交換することにより)ランダムに、20%または50%の確率で(エポックあたり1つの異なるサンプリングによって)マスキングした。これは、訓練中のモデルがソースで足りない情報のためにメタデータを使用するときに役立った。しかし、試験時にはトークンがマスキングされなかった。
データ前処理
実験例において、WMT19-sent並列コーパスは(例えば、LuiおよびBaldwin,2012で開示されたもののような)、langid.pyによってフィルタリングされた。175個のトークンを超える文章、または1.5よりも大きい長さ比(length ratio)をもつ文章は除去された。その次に、(自然言語ツールキットの(Natural Language toolkit’s:NLTK’s)単語トークン化(word_tokenize)方法に基づく)公式的なDGTトークン化器(tokenizer)が、非トークン化されたテキスト(ここでは、DGTおよびロットワイヤではないすべてのもの)に適用された。
(例えば、Sennrich et al.,2016で開示されたもののような)バイト対符号化(BPE)セグメント化が、WMT+DGT訓練(英語+ドイツ語)に対して取得された32k併合演算(operations)を使用し、ジョイント文章ピース類似モデル(KudoおよびRichardson,2018)とともに適用された。語彙閾値は100に設定され、インラインケーシング(inline casing)が適用された(Berard et al.,2019)。同じようにジョインされたBPEモデルとFairseq辞書がすべてのモデルに適用された。
メタデータは(このような実験データの場合、翻訳が必要な平日、月、選手ポジションだけが)、初期化のために使用されるMTモデルのソース言語に翻訳され、MTとNLGの移転が可能となるようにBPE(特殊トークンは除外)によってセグメント化された。その次に、コーパスタグが各ソースシーケンスに追加され、これはその出処(ロットワイヤ、ニュースクロールなど)を明示した。
Juncys-Dowmunt,2019に開示されるように、極めて長いWMT19文書は、短い文書に分割された(最大1100BPEトークン)。また、文章レベルのWMT19データは、コーパスをシャッフルし、連続する文章をランダムの長さの文書にグルーピングすることによって文書レベルのデータに変換された。最終的に、文書レベルデータ(WMT19およびDGT)は、(文章数の観点において)その本来の大きさの8倍にアップサンプリングされた。これは、初期の大きさに到達するまで、連続する文章のランダムスパン(span)をサンプリングすることによって行われた。
DGTおよびロットワイヤデータは既にトークン化され、フィルタリングまたは切り詰め処理(truncating)が必要なかった。このようなデータは、BPEユニットによってセグメント化され、コーパスタグが付加された。
モデルの設定
すべての実験的なモデルは、Fairseqモデリングツールキットによって実現された、トランスフォーマビッグ(Transformer Big)(Vaswani et al.,2017)であった。Ott et al.,2018に開示されるものと等しいハイパーパラメータが、アダムオプティマイザ(Adam optimizer)およびウォームアップを有するインバーススクエアルートスケジュール(inverse square root schedule with warmup)(最大学習率(LR)0.0005)とともに使用された。ドロップアウトおよびラベルスムーディングに0.1のレートが適用された。ソースおよびターゲット埋め込みは共有され、最後のレイヤと連結された。訓練は、8つのV100 GPU上で半精度浮動小数点数(half-precision floats)により、配置あたり最大3500個のトークンと10個の配置のディレイされたアップデートを使用して実行された。実験的な文書レベルのMTモデルのDGT訓練またはロットワイヤ+DGT訓練(段階(5))に対する微調整時または訓練されたNLGまたはMT+NLGモデルの微調整時に、実験的な方法は、固定された学習率スケジュール(0.005LRを使用するアダム(Adam))と遥かに小さい配置サイズ(ディレイされたアップデートのない単一GPU上の1500個のトークン)を使用した。このような方法は100個のエポックに対して訓練され、各エポックでDGT有効混雑度を計算し、10個のエポックごとにDGT有効BLEUを計算する。
BLEU評価
各タイプの訓練されたモデルに対し、最善のモデルがDGT有効に対するBLEU点数によって選択された。実験における点数を表2に示し、これらの代表モデルの説明を表3に示した。
Figure 0007337770000002
表2:DGT有効およびすべてのタイプ(トラック)で提出された例示的な試験セットに対する文書レベルのDLEU点数
Figure 0007337770000003
モデル出力および参照は、NLTKによって既にトークン化されたため、BLEU点数は、そのトークン化がnoneに設定されたSacreBLEUを使用して計算された。
このような実験において選択されたNLGモデルは、前処理で使用されたWMT19並列データが許容されなかったため「未制約(unconstrained)」であった。同じように、2つの評価に対する結果がDE-EN MTに対して考慮された。1つは制限されたもの(constrained)、ただし、DGT訓練に対して文書レベルのMTモデルを微調整するものであり、もう1つは未制約であるもの(constrained)、逆翻訳されたロットワイヤ訓練および有効が使用される。すべての選択されたMTおよびMT+NLGモデルは、5回の微調整実行(run)のアンサンブルであった。
英語NLGモデルとEN-DN MTモデルのアンサンブルを連結する(cascading)ことは、エンドツーエンドNLGモデル(16.1)よりもさらに低い、DGTテキストに対する14.9のBLEU点数を付与した。同じデータ条件(未制約モード)において、MT+NLGモデルは、ピュアMTモデルよりも優れないものと示された。また、実験的なMT+NLGモデルは、MTオンリー(only)ソースを使用して評価され、約0.3という低さのBLEU減少が発見されただけだった。これにより、NLG情報のほとんどが無視されたことが確認された。
表4は、(文章レベル、文書レベル、微調整された)訓練の異なる段階におけるMTモデルのBLEU点数を示しており、これをWMT19ニュース翻訳作業のトップ参加者の1人と比較した。DGT有効およびDGT試験に対する点数は文書レベルであり、ニュース2019(News2019)は文章レベルであった(このようにデコードされた)。後者に対しては、DGPコーパスタグがDE-ENに対して使用され、パラクロール(Paracrawl)タグがEN-DEに対して使用された(タグは、ニューステスト2014に対する最善のBLEUとともに選択された)。「微調整された」モデルごとの点数は、5回の実行に対して平均化された。
Figure 0007337770000004
表5は、ロットワイヤ試験に対する選択された実験NLG(EN)モデルの3回の施行にわたるBLEUと古典的なモデルとの比較を示している。ロットワイヤトークン化が多少異なるため、固定値(fixes)のセットがモデル出力に対して適用された(例えば、1-of-3から1-of-3に)。古典的なモデルに比べ、英語NLGモデルによるロットワイヤテストに対して5のBLEU改善を示すという結果が得られた。
Figure 0007337770000005
図10は、メタデータから選択された選手の数が変化するときの英語NLGモデルのDGT有効BLEU点数を示している。4で最高点(sweet spot)が存在することが示されているが、驚くことに、8まで選手の数を増やしてもBLEUが極端に低下しなかった。選手は最高(best)から最悪(worst)に分類されるため、実験モデルは、過去の(last)選手を無視することを学習した可能性がある。
表6は、3回の施行にわたるBLEU平均とともに、3人のベスト選手のベースライン(実験用NLGモデルは、4人の選手を含む)から始まるNLGモデルの研究結果を示している。標準偏差は0.1~0.4の範囲とする。表6において、選手の分類は役に立つことが分かったが、それほど高い影響はないことが明らかになった。チームレベル情報だけを使用して選手に関する情報がないのは良くないが、依然として許容可能なBLEU点数を提供した。
Figure 0007337770000006
平日、選手ポジションまたはチームレベルで集計された点数はBLEUを損傷させず、実験モデルから除去されたことが分かった。しかし、次のゲームに対する情報は有用であるという結果が現れた。また、ポジションだけに依存することとほとんどのタグ(例えば、<PTS>、<FT>)を除去することは許容可能であると現れた。このような場合に、選手とゲームにわたって一致するポジションに対し、すべてのゼロスタッドもプリントされた。
追加的な評価結果は、ロットワイヤ訓練および試験中に相当に重なるもの(significant overlap)として現れた。728個のロットワイヤ試験ゲームのうちの222個が、ロットワイヤ訓練にまた存在した(DGT訓練に対して68/241)。対応するストーリはいつも異なるものであったが、多くの類似点があった(いくつかの文章は完全に同一)。ロットワイヤ訓練は、ロットワイヤ試験(222個のストーリのサブセット)に対して評価されたときに24.2のBLEUを受けた。これは、このような作業に対して人間レベルの性能の推定を提供した。実験的なNLGモデルは、等しいサブセットに対して21.8を受けた。これは、全般的にBLEUの人工的な増加を引き起こすことができ、これは、不当に過適合なモデルを好むようになるであろう。事実、DGT試験にまた存在するゲームを除去するようにロットワイヤ訓練をフィルタリングするときに、BLEUにおいて多少の減少が現れた(20.4の代りに19.8)。
定量評価
MTモデルからブートストラップされた(boot-strapped)、実験的なNLGモデルが流暢かつ一貫性のあるテキスト生成を実行するために示された。例えば、図9a~図9cに示すように、実験的なNLGモデル(3選手)は、一貫性のある文書レベルの生成およびメタデータを「コピー」する能力の他に、いくつかの優れた特性があった。実験用NLGモデルは、チームと選手に対する一般的な情報を学習したものと示された。このように、図11に示すように、メタデータにはない関連情報を生成することができた。
例えば、実験用NLGモデルは、競技が開かれるスタジアムの名称を正確に予測した。これは、モデルが、どのチームがホストであるかを理解しており(このような情報は、データ内にチームの位置によって暗示的に符号化されている)、該当のチームの都市のスタジアムが何であるかを理解していること(これは、メタデータに存在しない)を暗示する。メタデータには存在しないが、正確に予測される他の事実には、チーム名(team aliases)(例えば、「シクサーズ」(Sixers))と、選手のニックネーム(例えば、「グリークフレーク」(Greek Freak))が含まれていた。また、実験的なモデルは、チーム名に対して他の表面形式(例えば、「他のキャバリア」)を生成することができた。
実験的なNLGモデルは、構造化されたデータから、二桁の点数、「ダブルダブル(例えば、選手が10得点および10回のアシストを超える)」および「トリプルダブル」のような、一部の情報を推論することができた。一方、いくつかの数値的な事実は不正確であった(例えば、点数差または比較)。足りない事実を構造的なデータに追加することが(例えば、負傷選手、現在のチーム順位、連勝数など)、結果を追加で改善するために使用された(例えば、虚構または重複を減少させた)。
このような実験の結果は、NLGモデルとしてのMTモデルの特殊性を説明することであるが、マルチタスク移転学習(transfer)によって訓練された単一なモデルが、可能であれば2つの言語の、MTおよびNLG作業を一度に解決するように使用可能であるということがさらに考慮されてよい。
一般
上述した説明は、本質的な説明に過ぎず、本開示、その適用、または使用を限定するように意図するものではない。本開示の広範囲の教示は、多様な形態によって実現可能である。したがって、本開示は特定の実施形態を含んでいるが、他の変更は図面、明細書、および添付の特許請求の範囲に基づいて明らかになるはずであるため、本開示の真正範囲がこのようなものに限定されてはならない。方法内の1つ以上の段階は、本開示の原理を変更しない範囲内であれば、異なる順序で(または、同時に)実行されてもよいことが理解されなければならない。また、実施形態のそれぞれには特定の特徴があると説明したが、本開示のいずれかの実施形態に関して説明したこのような特徴のうちの1つ以上は、他の実施形態のうちのいずれかの特徴内で、あるいは/追加で該当の特徴と組み合わせることで、このような組み合わせについての説明がなくても、実現可能である。言い換えれば、説明した実施形態は相互排他的なものではなく、1つ以上の実施形態の他の1つとの順列は本開示の範囲内にある。
各モジュールは、1つ以上のインタフェース回路を含んでよい。一実施形態において、インタフェース回路は、LAN(Local Area Network)、インターネット、WAN(Wide Area Network)、またはこれらの組み合わせによって接続された有線または無線インタフェースを含んでよい。本開示の与えられたモジュールの機能は、インタフェース回路によって接続された複数のモジュールに分配されてよい。例えば、複数のモジュールは、ロードバランシングを許容してよい。他の実施形態において、サーバ(遠隔またはクラウドなど)モジュールが、クライアントモジュールの代わりに一部の機能を実行してよい。各モジュールはコードによって実現されてよい。ここで、コードは、ソフトウェア、ファームウェア、および/またはマイクロコードを含んでよく、プログラム、ルーチン、機能、クラス、データ構造、および/またはオブジェクトを参照してよい。
メモリ回路は、コンピュータ読み取り可能な媒体のサブセットであってよい。ここで、コンピュータ読み取り可能な媒体は、媒体を介した(例えば、搬送波など)一時的な電気または電磁気信号の電波を包括するものでなく、したがって、コンピュータ読み取り可能な媒体は、類型的かつ非一時的なものと見なされてよい。非一時的、類型的なコンピュータ読み取り可能な媒体の例としては、不揮発性メモリ回路(フラッシュメモリ回路、消去可能なプログラム可能な読み取り専用メモリ回路、またはマスク読み取り専用メモリ回路など)、揮発性メモリ回路(静的ランダムアクセスメモリ回路、または動的ランダムアクセスメモリ回路など)、磁気記録媒体(アナログまたはデジタル磁気テープ、またはハードディスクドライブなど)、および光学記録媒体(CD、DVD、またはブルーレイディスクなど)が挙げられるが、これらに限定されてはならない。
本開示で説明したシステムおよび方法は、部分的または全体的に、一般目的コンピュータがコンピュータプログラムに内蔵された1つ以上の特別な機能を実行するように構成することによって生成された特定目的コンピュータによって実現されてよい。上述した機能ブロック、フローチャートコンポーネント、および他の構成要素は、ソフトウェアの明細としての役割を担い、本分野の技術者またはプログラマの一般的な作業によってコンピュータプログラムに翻訳されてよい。
コンピュータプログラムは、少なくとも1つの非一時的、類似型のコンピュータ読み取り可能な媒体に記録されたプロセッサ実行可能な命令を含んでよい。コンピュータプログラムは、記録されたデータを含むか、そこに依存してよい。コンピュータプログラムは、特定目的コンピュータのハードウェアと相互作用するBIOS(Basic Input/Output System)、特定目的コンピュータの特別なデバイスと相互作用するデバイスドライバ、1つ以上のオペレーティングシステム、ユーザアプリケーション、バックグラウンドサービス、バックグラウンドアプリケーションなどを包括してよい。
上述した実施形態とは異なる特徴および機能、またはその置換物の変形は、多くの他の異なるシステムまたはアプリケーションと好ましく結合可能であることが理解できるであろう。また、上述した説明および添付の特許請求の範囲に包括されるように意図される、現在は予想あるいは予見できない置換物、変更、変形、または改善が、当該技術分野において通常の知識を有する者であれば後続として理解できるであろう。

Claims (24)

  1. プロセッサによって自然言語生成(NLG)モデルを訓練させる方法であって、
    文書レベルの機械翻訳(MT)モデルを、第1言語のトークンシーケンスを入力として受信し、第2言語のトークンシーケンスを出力として生成するようにMTモデルを訓練させることによって提供する段階、
    拡張された文書レベルのMTモデルを、文書に関連する対をなす言語独立構造化されたデータおよび前記第1言語のトークンシーケンスを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように文書レベルのMTモデルを訓練させることによって提供する段階、および
    前記NLGモデルを、前記言語独立構造化されたデータを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように、前記拡張された文書レベルのMTモデルを訓練させることによって提供する段階
    を含み、
    前記言語独立構造化されたデータは、前記第1言語および前記第2言語により理解される、概念的あるいは意味的情報を示す構造化されたデータである、
    NLGモデルを訓練させる方法。
  2. 前記文書レベルのMTモデルは、前記第1言語および前記第2言語の文章レベルの並列コーパスからランダムに選択された文章の連結されたグループである前記第1言語および前記第2言語のトークンシーケンスによって訓練される、
    請求項1に記載のNLGモデルを訓練させる方法。
  3. 前記文書レベルのMTモデルは、前記第1言語および前記第2言語の文書レベルの並列コーパスから選択された文書レベルのトークンシーケンスである前記第1言語および前記第2言語のトークンシーケンスによって訓練される、
    請求項2に記載のNLGモデルを訓練させる方法。
  4. 前記NLGモデルは、イベントを取り囲む事実と関連する前記概念的あるいは意味的情報を示す構造化されたデータであって、前記第1言語および前記第2言語により理解される言語独立構造化されたデータを入力として受信し、前記イベントを取り囲む事実を参照する前記第2言語のトークンシーケンスを有する前記イベントのマルチ文章要約を出力として生成する、
    請求項1に記載のNLGモデルを訓練させる方法。
  5. 前記イベントは、スポーツイベントを含む、
    請求項4に記載のNLGモデルを訓練させる方法。
  6. 前記言語独立構造化されたデータは、トークンシーケンス形式である、
    請求項1に記載のNLGモデルを訓練させる方法。
  7. 前記言語独立構造化されたデータは、テキストシーケンス形式である、
    請求項1に記載のNLGモデルを訓練させる方法。
  8. 1つ以上のテキストシーケンスとして、前記言語独立構造化されたデータを提供するように構造化されたデータを前処理する段階
    をさらに含む、請求項1に記載のNLGモデルを訓練させる方法。
  9. 前記前処理前の前記構造化されたデータは、テーブルレコードデータ、グラフデータ、メタデータ、フォーマット化されたデータのうちの1つ以上を含む、
    請求項8に記載のNLGモデルを訓練させる方法。
  10. 前記構造化されたデータを前処理する段階は、
    1つ以上のNLG訓練セットから前記構造化されたデータを受信する段階、および
    前記構造化されたデータから前記1つ以上のテキストシーケンスを生成する段階
    を含む、請求項8に記載のNLGモデルを訓練させる方法。
  11. 前記前処理する段階は、
    前記受信された構造化されたデータをフィルタリングする段階
    をさらに含む、請求項10に記載のNLGモデルを訓練させる方法。
  12. 前記前処理する段階は、
    前記受信された構造化されたデータを、前記受信された構造化されたデータから推論される追加の構造化されたデータによって補う段階
    をさらに含む、請求項10に記載のNLGモデルを訓練させる方法。
  13. 前記前処理する段階は、
    前記受信された構造化されたデータをテキストに変換するか、正規化する段階
    をさらに含む、請求項10に記載のNLGモデルを訓練させる方法。
  14. 前記前処理する段階は、
    前記受信された構造化されたデータのうちの言語従属構造化されたデータを、前記第1言語および前記第2言語により理解され、前記概念的あるいは意味的情報を示す構造化されたデータである言語独立構造化されたデータに変換する段階
    をさらに含む、請求項10に記載のNLGモデルを訓練させる方法。
  15. 前記言語独立構造化されたデータまたは前記第1言語のトークンシーケンスのうちの1つ以上をセグメント化する段階
    をさらに含む、請求項1に記載のNLGモデルを訓練させる方法。
  16. 前記セグメント化する段階は、バイト対符号化(BPE)を使用する、
    請求項15に記載のNLGモデルを訓練させる方法。
  17. 前記文書レベルのMTモデルは、文章レベルのMTモデルとして最初に訓練される、
    請求項1に記載のNLGモデルを訓練させる方法。
  18. 前記文書レベルの機械翻訳モデルは、前記第2言語のトークンシーケンスを逆翻訳することによって提供される前記第1言語のトークンシーケンスによって訓練される、
    請求項1に記載のNLGモデルを訓練させる方法。
  19. 前記拡張された文書レベルのMTモデルを訓練させることは、前記第1言語の対をなすトークンシーケンスをペアリングせず、前記言語独立構造化されたデータをソースとして使用して前記第2言語のトークンシーケンスをターゲットとして使用する、
    請求項1に記載のNLGモデルを訓練させる方法。
  20. 出力テキストを生成する方法であって、
    第1言語および第2言語により理解される、文書に関する概念的あるいは意味的情報を示す構造化されたデータである新しい言語独立構造化されたデータを請求項1に記載の方法によって訓練された前記NLGモデルに入力する段階、および
    前記入力にしたがい、前記訓練されたNLGモデルが前記第2言語の出力テキストを生成する段階
    を含む、出力テキストを生成する方法。
  21. 新しい構造化されたデータを受信する段階、および
    前記新しい言語独立構造化されたデータを提供するように、前記受信された新しい構造化されたデータを前処理する段階
    をさらに含む、請求項20に記載の出力テキストを生成する方法。
  22. 前記生成された出力テキストを記録する段階または表示する段階うちの1つ以上をさらに含む、
    請求項20に記載の出力テキストを生成する方法。
  23. 第1言語のトークンシーケンスを入力として受信して第2言語のトークンシーケンスを出力として生成するように自然言語生成(NLG)モデルを訓練させる装置であって、
    1つ以上のプロセッサ、および
    前記プロセッサによって実行された機能を実行するコードを含むメモリ
    を含み、
    前記機能は、
    文書レベルの機械翻訳(MT)モデルを、第1言語のトークンシーケンスを入力として受信して第2言語のトークンシーケンスを出力として生成するようにMTモデルを訓練させることによって提供すること、
    拡張された文書レベルのMTモデルを、文書に関連する対をなす言語独立構造化されたデータおよび前記第1言語のトークンシーケンスを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように文書レベルのMTモデルを訓練させることによって提供すること、および
    前記NLGモデルを、前記言語独立構造化されたデータを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように、前記拡張された文書レベルMTモデルを訓練させることによって提供すること
    を含み、
    前記言語独立構造化されたデータは、前記第1言語および前記第2言語により理解される、概念的あるいは意味的情報を示す構造化されたデータである、
    NLGモデルを訓練させる装置。
  24. 出力テキストを生成する方法であって、
    語独立構造化されたデータを自然言語生成(NLG)モデルに入力する段階、および
    前記入力にしたがい、訓練された前記NLGモデルが第2言語の出力テキストを生成する段階
    を含み、
    前記NLGモデルは、前記言語独立構造化されたデータを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように拡張された文書レベルのMTモデルによって訓練され、
    前記拡張された文書レベルのMTモデルは、文書に関連する対をなす前記言語独立構造化されたデータおよび第1言語のトークンシーケンスを入力として受信して前記第2言語のトークンシーケンスを出力として生成するように文書レベルMTモデルによって訓練され、
    前記文書レベルのMTモデルは、前記第1言語のトークンシーケンスを入力として受信して前記第2言語のトークンシーケンスを出力として生成するようにMTモデルによって訓練され
    前記言語独立構造化されたデータは、前記第1言語および前記第2言語により理解される、概念的あるいは意味的情報を示す構造化されたデータである、
    出力テキストを生成する方法。
JP2020183754A 2020-08-13 2020-11-02 文書レベルの自然言語処理モデルを訓練させる方法およびシステム Active JP7337770B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202063065138P 2020-08-13 2020-08-13
US63/065,138 2020-08-13
US17/023,660 2020-09-17
US17/023,660 US11625544B2 (en) 2020-08-13 2020-09-17 Method and system for training document-level natural language processing models

Publications (2)

Publication Number Publication Date
JP2022032910A JP2022032910A (ja) 2022-02-25
JP7337770B2 true JP7337770B2 (ja) 2023-09-04

Family

ID=80224338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020183754A Active JP7337770B2 (ja) 2020-08-13 2020-11-02 文書レベルの自然言語処理モデルを訓練させる方法およびシステム

Country Status (3)

Country Link
US (1) US11625544B2 (ja)
JP (1) JP7337770B2 (ja)
KR (1) KR20220021360A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11734517B1 (en) * 2021-03-09 2023-08-22 Yseop Sa Systems and methods for measuring automatability of report generation using a natural language generation system
KR102615164B1 (ko) * 2023-02-15 2023-12-15 주식회사 티빙 콘텐츠 스트리밍 시스템에서 유사 콘텐츠를 제공하기 위한 방법 및 장치
KR102615165B1 (ko) * 2023-02-24 2023-12-15 주식회사 티빙 콘텐츠 스트리밍 시스템에서 유사 콘텐츠를 제공하기 위한 방법 및 장치
KR102640452B1 (ko) * 2023-08-02 2024-02-27 (주)유알피 할루시네이션이 제거된 인공지능을 활용한 생성형 문서 요약 방법
KR102640449B1 (ko) * 2023-08-02 2024-02-27 (주)유알피 딥러닝 기반 생성형 문서 요약의 할루시네이션 제거장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170372221A1 (en) 2016-06-23 2017-12-28 International Business Machines Corporation Cognitive machine learning classifier generation
JP2020520505A (ja) 2017-05-19 2020-07-09 セールスフォース ドット コム インコーポレイティッド 文脈固有の単語ベクトルを用いた自然言語処理

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430504A (zh) * 2015-04-08 2017-12-01 利斯托株式会社 数据变换系统及方法
US11222184B1 (en) * 2015-11-02 2022-01-11 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts
US10997374B2 (en) * 2019-03-22 2021-05-04 Fortia Financial Solutions Generation of natural language text from structured data using a fusion model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170372221A1 (en) 2016-06-23 2017-12-28 International Business Machines Corporation Cognitive machine learning classifier generation
JP2020520505A (ja) 2017-05-19 2020-07-09 セールスフォース ドット コム インコーポレイティッド 文脈固有の単語ベクトルを用いた自然言語処理

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田川裕輝 他1名、スポーツ要約生成におけるテンプレート型手法とニューラル型手法の提案と比較、自然言語処理、日本、一般社団法人言語処理学会、2018年9月15日、Vol.25 No.4,357-391頁

Also Published As

Publication number Publication date
JP2022032910A (ja) 2022-02-25
KR20220021360A (ko) 2022-02-22
US20220050973A1 (en) 2022-02-17
US11625544B2 (en) 2023-04-11

Similar Documents

Publication Publication Date Title
JP7337770B2 (ja) 文書レベルの自然言語処理モデルを訓練させる方法およびシステム
Malmi et al. Encode, tag, realize: High-precision text editing
Clark et al. Canine: Pre-training an efficient tokenization-free encoder for language representation
Zhou et al. Flipda: Effective and robust data augmentation for few-shot learning
JP2022111261A (ja) 質問生成装置、質問生成方法及びプログラム
Jia et al. Gender prediction based on Chinese name
Ezeani et al. Leveraging pre-trained embeddings for Welsh taggers
CN103914447B (zh) 信息处理设备和信息处理方法
Mrinalini et al. Pause-based phrase extraction and effective OOV handling for low-resource machine translation systems
Tran et al. Webnlg 2020 challenge: Semantic template mining for generating references from rdf
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Pathak et al. Part-of-speech tagger for assamese using ensembling approach
Hailu et al. Semantic role labeling for Amharic text using multiple embeddings and deep neural network
Rademaker et al. Completing the Princeton annotated gloss corpus project
WO2022079845A1 (ja) 単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム
Tufiş et al. Tiered tagging revisited
CN111090720B (zh) 一种热词的添加方法和装置
Das et al. Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models
Laukaitis et al. Sentence level alignment of digitized books parallel corpora
Rana et al. Example based machine translation using fuzzy logic from English to Hindi
Stankevičius et al. Towards Lithuanian grammatical error correction
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
Cross et al. Glossy bytes: Neural glossing using subword encoding
Hwang et al. Linear‐time Korean morphological analysis using an action‐based local monotonic attention mechanism
JP5085975B2 (ja) 日本語固有表現抽出装置、日本語固有表現抽出方法、およびその方法をコンピュータに実行させるプログラム

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20201104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220526

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221206

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221206

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221215

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221220

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230113

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20230117

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230823

R150 Certificate of patent or registration of utility model

Ref document number: 7337770

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150