JP2022128441A

JP2022128441A - 弱教師ありマルチ報酬強化学習を使用した文章分類のためのテキストデータの増強

Info

Publication number: JP2022128441A
Application number: JP2022024509A
Authority: JP
Inventors: 淳荒木; Atsushi Araki
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-02-22
Filing date: 2022-02-21
Publication date: 2022-09-01
Also published as: US11875120B2; CN115034201A; US20220269863A1

Abstract

【課題】深層学習モデルのためのドメイン固有のテキスト訓練用データの迅速かつコスト効果的な人間参加型の合成を可能にするシステム及び方法が開示される。【解決手段】データ増強プロセスは、文章生成器と、文章分類器と、「参加」しているドメイン専門家による弱監視とを組み込む。一般的に、文章生成器及び文章分類器の両方が、機械学習モデルとして実装される。文章生成器は、手動でラベル付けされた文章に基づいて新たな文章を生成し、文章分類器は、新たに生成された文章のためのラベルを生成する。新たな文章は、ドメイン専門家によって修正又は検証され、次いで、文章生成器及び文章分類器のうちの一方又は両方を再訓練するために使用される。【選択図】図１

Description

本明細書において開示されるシステム及び方法は、文章分類に関し、より詳細には、文章分類のためのテキスト訓練用データを増強することに関する。

背景
本明細書において別段の指示がない限り、本セクションにおいて説明される題材が、本セクションに含められることによって従来技術であると認められるものではない。

情報抽出（ＩＥ）とは、構造化されていないテキストから構造化された情報を抽出及び編成することによって知識を獲得するプロセス又はタスクである。情報抽出により、質問応答用途のような下流の用途によって、予め構造化されていないテキストから情報を効率的かつ効果的に利用することが可能になる。いくつかの情報抽出タスクにおいて、特定の種類の知識を伝達するための最も適当な情報ユニットは、単一の文章である。例えば、“The engine of this car is very noisy.（この自動車のエンジンは非常に騒々しい。）”という文章は、自動車に関連する問題を記述している。本例においては、文章全体が、自動車に関連する問題を記述するための理想的なユニットである。なぜなら、文章の一部である語句（例えば、“the engine（エンジン）”又は“very noisy（非常に騒々しい）”）は、問題を部分的にしか伝達することができないからである。従って、文章全体の意味を分類することを、ターゲットとなる意味又は分類（例えば、自動車問題）を有する文章の構造化された知識の基礎を形成するために使用可能な情報抽出タスクとみなすことができる。

文章分類は、自然言語処理（ＮＬＰ）の分野において広く研究されている。他の自然言語処理タスクと同様に、文章分類のための従来技術は、一般的に深層学習モデルを採用している。深層学習モデルは、いくつかのベンチマークデータセットにおいて、ルールに基づくアルゴリズム又は従来の機能豊富な機械学習モデルのような従来のモデルと比較して高い性能を達成することが示されている。ベンチマークデータセットは、一般的に、文章レベルのラベルを用いて注釈付けされた文章のセットを含み、いくつかのドメイン固有のベンチマークデータセットは、特定のドメインに関するドメイン固有のラベルを用いて作成されている。しかしながら、これらの既存のドメイン固有のベンチマークデータセットは、関心ドメインに必ずしも対応するとは限らないので、これらのデータセットに対して訓練された深層学習モデルを、他の特定のドメイン固有の関心タスクに直接的に適用することはできない。従って、多くのドメイン固有のタスクにおいては、タスクに対して深層学習に基づく文章分類モデルを訓練するために、新たなドメイン固有のデータセットを生成する必要がある。

従って、文章分類を必要とするドメイン固有のタスクの課題は、あらゆる教師あり深層学習モデルの課題と同様である。教師あり深層学習モデルは、教師のために手動でラベル付けされた大量の訓練用データに依存している。このモデルは、少量の訓練用データに過剰適合しがちであり、良好に汎化を行わないので、少量の訓練用データでは不十分である。しかしながら、ドメイン専門家による人の手を介した文章の注釈付けは、実際には非常に高コストであることが多いので、人の手を介した十分に大量の訓練用データを作成することは困難である。従って、文章分類モデルのための十分に大きいドメイン固有のデータセットをより簡単かつコスト効果的に作成するための技術を提供することが有利である。

概要
ラベル付けされたテキスト訓練用データを生成するための方法が開示される。本方法は、プロセッサによって、テキストデータの第１のユニットを受信することを含む。本方法は、プロセッサによって、第１の機械学習モデルを使用して、テキストデータの第１のユニットに基づいてテキストデータの第２のユニットを生成することをさらに含む。本方法は、プロセッサによって、第２の機械学習モデルを使用して、テキストデータの第２のユニットの特徴を記述するラベルを決定することをさらに含む。本方法は、出力装置によって、テキストデータの第２のユニットとラベルとをユーザに出力することをさらに含む。本方法は、ユーザインタフェースを介して、（ｉ）テキストデータの第２のユニットに対する修正及びテキストデータの第２のユニットの検証のうちの一方と、（ｉｉ）ラベルの修正及びラベルの検証のうちの一方とを受信することをさらに含む。本方法は、プロセッサによって、（ｉ）修正されたテキストデータの第２のユニット及び検証されたテキストデータの第２のユニットのうちの一方と、（ｉｉ）修正されたラベル及び検証されたラベルのうちの一方とを使用して、第２の機械学習モデルを再訓練することをさらに含む。

ラベル付けされたテキスト訓練用データを生成するためのシステムが開示される。本システムは、出力装置を含む。本システムは、ユーザインタフェースをさらに含む。本システムは、テキストデータの複数のユニットを格納するように構成されたメモリであって、テキストデータの複数のユニットにおけるテキストデータのそれぞれのユニットは、当該テキストデータのそれぞれのユニットの特徴を記述するそれぞれのラベルを有する、メモリをさらに含む。本システムは、出力装置、ユーザインタフェース及びメモリに動作可能に接続されているプロセッサをさらに含む。プロセッサは、メモリに格納されているテキストデータの複数のユニットからテキストデータの第１のユニットを読み出すように構成されている。プロセッサは、第１の機械学習モデルを使用して、テキストデータの第１のユニットに基づいてテキストデータの第２のユニットを生成するようにさらに構成されている。プロセッサは、第２の機械学習モデルを使用して、テキストデータの第２のユニットの特徴を記述するラベルを決定するようにさらに構成されている。プロセッサは、テキストデータの第２のユニットとラベルとをユーザに出力するために出力装置を動作させるようにさらに構成されている。プロセッサは、（ｉ）テキストデータの第２のユニットに対する修正及びテキストデータの第２のユニットの検証のうちの一方と、（ｉｉ）ラベルの修正及びラベルの検証のうちの一方とを受信するためにユーザインタフェースを動作させるようにさらに構成されている。プロセッサは、（ｉ）修正されたテキストデータの第２のユニット及び検証されたテキストデータの第２のユニットのうちの一方と、（ｉｉ）修正されたラベル及び検証されたラベルのうちの一方とを使用して、第２の機械学習モデルを再訓練するようにさらに構成されている。

ラベル付けされたテキスト訓練用データを生成するための非一時的なコンピュータ可読媒体が開示される。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサに、テキストデータの第１のユニットを受信させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、第１の機械学習モデルを使用して、テキストデータの第１のユニットに基づいてテキストデータの第２のユニットを生成させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、第２の機械学習モデルを使用して、テキストデータの第２のユニットの特徴を記述するラベルを決定させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、テキストデータの第２のユニットとラベルとをユーザに出力するために出力装置を動作させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、（ｉ）テキストデータの第２のユニットに対する修正及びテキストデータの第２のユニットの検証のうちの一方と、（ｉｉ）ラベルの修正及びラベルの検証のうちの一方とを受信するためにユーザインタフェースを動作させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、（ｉ）修正されたテキストデータの第２のユニット及び検証されたテキストデータの第２のユニットのうちの一方と、（ｉｉ）修正されたラベル及び検証されたラベルのうちの一方とを使用して、第２の機械学習モデルを再訓練させるプログラム命令を格納している。

本システム及び本方法の上述した態様及び他の特徴を、添付の図面に関連して、以下の記載において説明する。

深層学習モデルのためのドメイン固有の訓練用データを合成するためのシステム及び方法を示す図である。不確実で多様かつ代表的な高品質の新たな文章を生成するための文章生成器の例示的な実施形態を示す図である。新たなラベル付けされたテキストデータを合成するためのデータ増強システムの例示的な実施形態のブロック図である。新たなラベル付けされたテキストデータを合成するようにデータ増強システムを動作させるための方法に関するフローチャートである。

詳細な説明
以下、本開示の原理の理解を促進する目的で、図面に例示され、以下の明細書において説明される実施形態が参照される。これらの実施形態によって本開示の範囲を限定することが意図されるものではないことを理解されたい。さらに、本開示が、例示された実施形態に対するあらゆる変更及び修正を含み、本開示に関係する当業者にとって通常であるような本開示の原理のさらなる適用を含むことを理解されたい。

データ増強のためのシステム及び方法の概要
図１は、深層学習モデルのためのドメイン固有の訓練用データの迅速かつコスト効果的な人間参加型（human-in-the-loop）の合成を可能にするシステム及び方法を示している。本システム及び本方法は、本明細書においては、ドメイン固有の文章分類モデルのためのドメイン固有の訓練用データを生成することに関して説明される。特に、本明細書において説明される例示的なドメイン固有の文章分類モデルは、文章全体を（１）自動車問題を記述している文章又は（２）自動車問題を記述していない文章のいずれかとして分類するように構成されたモデルである。この文章分類モデルは、例えば、自動車の修理に関する特定の問題及び解決策を記述している文章をユーザが効果的かつ効率的に特定することを援助する、インテリジェントな自動車アフターマーケット支援サービスにおける重要なコンポーネントであり得る。

しかしながら、本明細書において説明されるデータ増強のためのシステム及び方法は、任意のドメインにおけるラベル付けされたテキストデータを合成するためにも、ドメイン固有ではないラベル付けされたテキストデータを合成するためにも適用可能であることが理解されるべきである。同様に、本明細書において説明されるデータ増強のためのシステム及び方法は、文章分類モデルのためのラベル付けされたテキストデータだけではなく、任意の深層学習モデルのためのラベル付けされたテキストデータを合成するためにも適用可能であることも理解されるべきである。最後に、本システム及び本方法は、英語のテキストデータを増強するためのシステムとして例示されているが、原則として言語に依存しておらず、あらゆる自然言語に適用可能であることが理解されるべきである。

図１を参照すると、データ増強プロセスは、ドメイン専門家２０によって手動でラベル付けされた訓練用データ１０の小さいセットから始まる。次いで、この訓練用データ１０の小さいセットを使用して、人間参加型の学習－増強フレームワークを使用して、大量の追加的な訓練用データ３０が合成される。本例においては、訓練用データ１０の小さいセットは、自動車関連の自然言語文章を含み、これらの自動車関連の自然言語文章には、これらの文章が（１）問題を記述しているか又は（２）非問題を記述しているかを示す対応する分類ラベルを用いて、ドメイン専門家２０により手動でラベル付けされている（例えば、“This engine is very noisy（このエンジンは非常に騒々しい）”は、“problem（問題）”というラベルを有する）。しかしながら、さらなる実施形態においては、文章全体の単純な二値分類を超えて、訓練用データ１０の小さいセットに追加的な意味論的なラベルを付するものとしてもよい。

データ増強プロセスは、以下の３つのコア機能、即ち、文章生成器４０と、文章分類器５０と、「参加（in the loop）」しているドメイン専門家２０による弱教師とを有する。一般的に、文章生成器４０及び文章分類器５０の両方が、機械学習モデルとして実装される。本明細書において使用される場合、「機械学習モデル」という用語は、所与の入力に基づいて所望の出力を予測又は提供するアルゴリズム、プロセス又は数学的モデル（例えば、ニューラルネットワーク）を実施するように構成された、システム、又は、プログラム命令及び／又はデータのセットを指す。一般的に、機械学習モデルの多くの又はほとんどのパラメータは、明示的にプログラミングされているわけではなく、機械学習モデルは、従来的な意味において、所与の入力に対する所望の出力を提供するために特定のルールに従うように明示的に設計されているわけではないことが理解されるであろう。その代わりに、機械学習モデルには訓練用データのコーパスが提供され、このコーパスから機械学習モデルは、データにおけるパターン及び統計的関係性を識別又は「学習」し、このパターン及び統計的関係性が汎化されて、新たなデータ入力に関する予測が実施され又は出力が提供される。訓練プロセスの結果は、複数の学習されたパラメータ、カーネル重み及び／又はフィルタ値の形態で具現化され、これらは、種々の演算又は機能を実行するために機械学習モデルの種々のコンポーネントにおいて使用される。

文章生成器４０は、手動でラベル付けされた文章１０（例えば、“This engine is very loud.（このエンジンは非常に音が大きい）”、“The noise level of this engine is very high.（このエンジンの騒音レベルは非常に高い）”、“This brake is very noisy.（このブレーキは非常に騒々しい）”、及び、“This horn is very noisy.（このホーンは非常に騒々しい）”）に基づいて、新たな文章３０を生成する。文章生成器４０は、初期時に、文章分類器５０のさらなる訓練に対して冗長的な教師ではなく有用な教師を提供するように新たな文章３０の生成を弱教師する種々の報酬関数を利用した強化学習を使用して、文章１０の小さいセットを使用して訓練される。このようにして、報酬機能は、人間参加型（即ち、ドメイン専門家２０）の効用を最大化し、人の手を介した無駄なラベル付けの労力を最小化する。

文章分類器５０は、新たに生成された文章３０のためのラベルを生成する。特に、生成された新たな文章３０の各々は、文章分類器５０を通過して、提案された分類ラベル又は他の提案された意味論的なラベルを生成する。文章分類器５０も、初期時に、教師あり学習プロセスを使用して、手動でラベル付けされた文章１０の小さいセットを使用して訓練される。文章分類器５０は、少数の例に基づいて訓練されるので、一般的に、データ増強プロセスの早期の反復時には性能が悪く、十分に汎化を行わない。

提案されたラベルを有する新たな文章３０は、ドメイン専門家２０によるレビューのために表示又は提供され、ドメイン専門家２０は、その新たな文章３０を検証して任意の誤りを修正するためにシステムと対話する。特に、ドメイン専門家２０は、新たな文章３０のために提案されたラベルを修正することができ、又は、新たな文章３０のテキストにおける文法上又は同様の問題点を修正することができる。検証された新たな文章３０を使用して、文章生成器４０及び文章分類器５０の一方又は両方が再訓練される。このようにして、データ増強の性能が継続的に改善され、それぞれの新たに生成された文章３０をドメイン専門家２０が検証するために必要とされる時間が短縮される。

データ増強プロセスの目標は、文章分類器５０のための学習プロセスを、ドメイン専門家による最小限の教師によって効率的にすることである。特に、データ増強プロセスは、訓練用データの従来通りの収集及び手動でのラベル付けよりも格段にコスト効果的である反復的な人間参加型の訓練プロセスにおいて、データ増強のための種々の規則性を学習する。以下においては、関連する４つの研究分野、即ち、（１）データ増強、（２）言い換え生成、（３）テキストでの敵対的攻撃、及び、（４）能動学習からの主な相違点を明らかにすることによって、データ増強プロセスの種々の利点について論じる。

データ増強（Data augmentation：ＤＡ）は、既存のラベル付けされたデータをより大量の合成されたラベル付けされたデータに拡張するための技術のファミリーである。本明細書において説明されるデータ増強プロセスは、進歩したデータ増強方法とみなすことができる。画像データの場合には、回転及び反転のような単純な技術が効果的であることが判明している。なぜなら、そのような動作は、変更されたデータのクラスラベル（意味論的概念）を保証することができるからである。しかしながら、そのような単純な技術をテキストに適用することはできない。なぜなら、テキストは、離散したデータであり、図１の４つ目に生成された文章（即ち、“This horn is very noisy.”）によって示されるように、ほんの少しの変化（例えば、１つの単語の修正）でも、文章の意味を完全に変化させる可能性があるからである。テキストのための多くの既存のデータ増強技術は、発見的手法、例えば、同義語置換及び逆翻訳に依存している。これらのアプローチのためには、同義語辞書及び高性能の機械翻訳モデルのような外部リソースが利用可能であることが必要である。しかしながら、そのようなリソースは、特定のドメインにおいては、利用不可能であることが多い。従って、リソースに基づく従来のデータ増強技術を、関心ドメインにスケーリングすることはできない。これに対して、本明細書において説明されるデータ増強プロセスは、ドメイン専門家による教師からどのようにして直接的にデータを増強すべきかを学習する。従って、本明細書において説明されるデータ増強プロセスは、従来のデータ増強技術と比較して２つの主な利点を有する。１つ目に、本明細書において説明されるデータ増強プロセスは、外部リソースの必要性を排除する。２つ目に、本明細書において説明されるデータ増強プロセスは、学習プロセスを通して種々の言語的及び知識レベルの規則性を探索することによって、関心ドメインと共にデータ増強の性能を改善することができる。

言い換え生成は、入力テキスト（例えば、文章）と意味論的に同一であるが語彙、構文又はその両方の変化形を含む出力テキスト（例えば、文章）を生成するタスクである。本明細書において説明されるデータ増強プロセスは、文章変更における変化形という点において、言い換え生成と同様である。特に、本明細書において説明されるデータ増強プロセスは、図１の２つ目に生成された文章（即ち、“The noise level of this engine is very high.”）によって示されているように、入力文章を単語レベルだけでなく語句レベル又は文章レベルでも変更することもできる。しかしながら、タスクの観点から、本明細書において説明されるデータ増強プロセスは、言い換え生成の目標とは異なる目標を有する。言い換え生成は、図１の１つ目に生成された文章（即ち、“This engine is very loud.”）のように、所与の文章を、生成された文章の意味論が変化しないままとなるように種々に言い換えることを目的としている。これに対して、本明細書において説明されるデータ増強プロセスは、図１の３つ目及び４つ目に生成された文章（即ち、“This brake is very noisy.”及び““This horn is very noisy.”）によって示されているように、種々の有意義な教師を探索するために入力文章の意味を顕著に変更することができる。さらに、方法論的な観点からさらなる相違が存在する。言い換え生成に関する最近の研究は、ニューラルモデル、特にニューラルエンコーダ・デコーダ・アーキテクチャも活用している。これに対して、本明細書において説明されるデータ増強プロセスは、従来のエンコーダ・デコーダ・アーキテクチャを顕著に拡張している。なぜなら、本明細書において説明されるデータ増強プロセスは、文章分類モデルからのフィードバックも追加的な入力として受け取るからである。このフィードバックは、理想的なデータ増強のために生成器のコンポーネントを最適化するための追加的な信号として機能し、これによって、文章分類モデルの汎化能力が改善される。

テキストでの敵対的攻撃は、入力された例に対する小さい摂動を用いて深層学習モデルを欺くことによって深層学習モデルのロバスト性を評価するために使用される。このテキストでの敵対的攻撃は、モデルの脆性を明らかにするために、入力された例の元々のラベルを保存しながら最小限に変更された例によってモデルを欺くことに主な重点が置かれているという点において、他の異なる思想を有する。これに対して、本明細書において説明されるデータ増強プロセスは、そのような敵対的意図を有するわけではない。その代わりに、本明細書において説明されるデータ増強プロセスは、モデルの汎化能力を向上させるために例を生成する。汎化能力を向上させるという目標のために、本明細書において説明されるデータ増強プロセスは、入力された例の元々のラベルを保持している例を生成することに限定されているわけではない。むしろ、このフレームワークは、図１の４つ目に生成された文章（即ち、非問題としてラベル付けされている“This horn is very loud.”）に示されているように、完全に異なる種類の教師を有するようにラベルを変更するような例を意図的に生成することができる。本明細書において説明されるデータ増強プロセスは、ターゲットの文章分類モデルの詳細に関して寛容であり、モデルの入力及び出力を採用するに過ぎないので、方法論的な観点から、本明細書において説明されるデータ増強プロセスは、テキストでの敵対的攻撃のためのブラックボックスモデルと同様に見えるかもしれない。しかしながら、本明細書において説明されるデータ増強プロセスは、不確実なだけでなく多様かつ代表的でもある文章を生成するように生成器のコンポーネントが最適化されるという点において、テキストでの敵対的攻撃のための従来のブラックボックスモデルとは異なっており、このことは、モデルの汎化を改善するために有用である。

最後に、能動学習（active learning：ＡＬ）は、効率的な学習を支援するために人間参加型の訓練が使用される学習プロセスを指す。しかしながら、本明細書において説明されるデータ増強プロセスは、人の手を介した教師がデータのラベル付けにおいてどのように活用されるかという点において、従来の能動学習とは異なっている。文章分類の場合、従来の能動学習プロセスは、まず始めに、ラベル付けされた文章の初期のセット（シード例）に対して文章分類モデルを訓練し、ラベル付けされていないデータの大きいプールから、ラベル付けされていない文章の小さいセットをサンプリングして、ドメイン専門家（人間）によってラベル付けされた文章を得ることとなる。新たにラベル付けされた文章が初期の訓練用データに追加され、この新たに拡張された訓練用データに基づいて、モデルが再訓練される。訓練用データの量を漸進的に増加させるために、このプロセスが繰り返されることとなる。これに対して、本明細書において説明されるデータ増強プロセスは、従来の能動学習との少なくとも１つの明らかな相違を有する。特に、本明細書において説明されるデータ増強プロセスは、ラベル付けされていないデータからサンプリングするのではなく、既存の（ラベル付けされた）文章に対して訓練されたモデルを使用して、新たな文章を生成し、これらの新たな文章のラベルを自動的に提案する。この合成されたデータは、誤り（例えば、語順が文法的に正しくない、又は、ラベルが誤っている）を含むことがあり、特に初期段階においては、ドメインの専門家による修正を必要とするが、合成されたデータの品質は、学習の過程において改善される。新たなデータが生成されてラベルが提案されることにより、本明細書において説明されるデータ増強プロセスは、学習プロセス全体を効率的なものにする。能動学習とは異なり、本明細書において説明されるデータ増強プロセスは、原則として、任意の追加的なデータ（例えば、ラベル付けされていないデータの大きいプール）に頼ることなく、シード例から訓練用データを反復的に拡張することができる。しかも、本明細書において説明されるデータ増強プロセスは、ラベル付けされた追加的な文章を学習プロセス中に受け入れることもできるという点において柔軟性がある。その意味では、本明細書において説明されるデータ増強プロセスは、能動学習とは別問題であり、能動学習の性能を向上させるために使用可能である。

文章生成モデル
本明細書において説明されるデータ増強プロセスの最終目標は、ドメイン固有の訓練用文章の非常に大きいセットを手動でラベル付けする労力を費やすことなく、文章分類器５０の汎化力を改善することである。従って、プロセスの中心には文章生成器４０があり、この文章生成器４０は、弱教師だけを使用して元々の文章から新たな高品質の文章を合成することが可能である。文章生成器４０は、主に文章を生成するものとして説明されているが、テキストデータの語句又は段落のような任意の他のユニットを生成するように構成されるものとしてもよいことが理解されるべきである。従って、本明細書における「文章」への参照は、テキストデータの、厳密に言えば文章を含んでいてもいなくてもよい代替的なユニットも含むことが理解されるべきである。

この文脈における「高品質」の新たな文章（又は他のテキストデータ）とは、文章分類器５０をさらに訓練するための有用な教師を提供し、かつ、文章分類器５０の汎化性能を改善するような合成された文章のことである。文章生成器４０は、特に、不確実で多様かつ代表的な新たな文章を生成するように構成されている。不確実性、多様性及び代表性という品質の各々は、文章分類器５０の有用な教師及び改善された汎化能力を提供するために有利である。

文章生成器４０による新たな文章の生成に関して本明細書において使用される場合、「不確実性」とは、新たな文章のための提案された分類ラベルを出力する際の文章分類器５０の信頼度を指す。「不確実」である新たな文章とは、文章分類器５０の決定境界に近接していて、かつ、初期時に提案された分類ラベルが低い信頼値を有している文章のことである。より高い不確実性を有する新たな文章をドメイン専門家２０によって修正又は検証することは、文章分類器５０のさらなる訓練に対するより有用な教師を提供するであろう。逆に、文章分類器５０が、新たな文章の正しい分類ラベルに関して既に高い信頼度を有している場合には、ドメイン専門家２０による検証は、有用な教師を提供しない。

文章生成器４０による新たな文章の生成に関して本明細書において使用される場合、「多様性」とは、新たな文章が元々の入力文章（例えば、手動でラベル付けされた文章）と比較して形態又は意味に関してどの程度異なっているかを指す。「多様」である新たな文章とは、元々の入力文章から非常に異なっている文章のことである。より高い多様性を有する新たな文章をドメイン専門家２０によって修正又は検証することは、文章分類器５０のさらなる訓練に対するより有用な教師を提供するであろう。逆に、新たな文章が元々の入力文章と非常に類似している場合には、ドメイン専門家２０による検証は、有用な教師を提供しない。

文章生成器４０による新たな文章の生成に関して本明細書において使用される場合、「代表性」とは、新たな文章が文章分類器５０への頻繁又は一般的な入力（例えば、一般的かつ現実的な自動車問題）を記述している程度、又は、逆に、新たな文章が外れ値若しくは稀有な入力（例えば、非現実的若しくは無意味な自動車問題）を記述している程度を指す。現実的な事象を記述している新たな文章（例えば、“The engine needs an oil change.（このエンジンはオイル交換を必要としている）”）をドメイン専門家２０によって修正又は検証することは、文章分類器５０のさらなる訓練に対するより有用な教師を提供するであろう。逆に、新たな文章が非現実的な事象（例えば、“The headlights need an oil change.（このヘッドライトはオイル交換を必要としている）”）を記述している場合には、ドメイン専門家２０による検証又は修正は、有用な教師を提供しない。

求められている不確実性、多様性及び代表性という品質の各々は、有用な教師をもたらす上で有利であるが、それぞれの品質は、残余の品質のうちの一方又は両方によって補完される各自の独自の弱点も有する。例えば、不確実性は、一般的に外れ値（即ち、稀有な現象を記述している文章）をより好むが、このことは、一般的に代表性によって緩和される。同様に、代表性は、一般的に類似する文章をより好み、カバレッジが減少する結果となるが、このことは、一般的に多様性によって緩和される。従って、これらの品質に共に報酬を付与することは、文章分類器５０のさらなる訓練のためにバランスのとれた高品質の新たな文章のセットを合成するために非常に重要である。

図２は、不確実で多様かつ代表的な高品質の新たな文章を生成するように構成された文章生成器４０の例示的な実施形態を示している。図示の実施形態においては、文章生成器４０は、エンコーダ４４及びデコーダ４６を有するエンコーダ・デコーダモデル４２の形態を取る。エンコーダ・デコーダモデル４２は、文章生成をシーケンス・ツー・シーケンス（sequence-to-sequence）問題として定式化する。特に、エンコーダ・デコーダモデル４２は、入力文章ｘを出力文章ｙにマッピングするように構成されており、ここで、ｘは、可変長ｍのトークン又は同様のシンボル表現（即ち、個々の単語、文字、句読点等）のシーケンスｘ＝ｘ_１，ｘ_２，・・・，ｘ_ｍであり、同様に、ｙは、可変長ｎのトークン又は同様のシンボル表現のシーケンスｙ＝ｙ_１，ｙ_２，・・・，ｙ_ｎである。本明細書において使用される場合、「トークン」とは、テキストデータからの個々の単語、部分語、文字又は句読点の表現を指す。従って、テキストデータの「トークン化」とは、テキストデータを対応するトークンのシーケンスに変換することを指す。

エンコーダ４４は、入力文章ｘを受信し、入力文章ｘを一連の隠れ状態ｈ＝ｈ_１，ｈ_２，・・・，ｈ_ｍに符号化するように構成されている。隠れ状態ｈのシーケンスが与えられると、デコーダ４６は、可能性のある出力文章ｙの条件付き確率分布を出力するように構成されている。換言すれば、デコーダ４６は、以下の確率：

で、可能性のある出力文章ｙを生成する。

少なくともいくつかの実施形態においては、文章生成器４０は、トランスフォーマに基づくニューラルネットワーク・エンコーダ・デコーダモデル４２であり、ここでは、エンコーダ４４及びデコーダ４６は、両方とも残差注意層のスタックである。１つの実施形態においては、エンコーダ・デコーダモデル４２は、ＢＡＲＴ（Lewisら著の“BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension”，2020年）のような、予め訓練可能なトランスフォーマに基づくエンコーダ・デコーダであり、これは、ドメイン固有の規則性が捉えられるようにドメイン内データに関して予め訓練されている。しかしながら、いくつかの実施形態においては、リカレント・ニューラルネットワーク（ＲＮＮ）に基づくエンコーダ・デコーダモデル又は任意の他のシーケンス・ツー・シーケンスモデルを同様に使用するものとしてもよいことが理解されるであろう。

上述したように、デコーダ４６は、特定の入力シーケンスｘが与えられると、可能性のある出力文章ｙの条件付き確率分布を出力する。デコーダ４６の最終的な出力は、可能性のある出力文章ｙの条件付き確率分布に基づいて、探索アルゴリズムのような推論アルゴリズムを使用して選択される。例えば、少なくとも１つの実施形態においては、ビームサーチを使用して、特定のシーケンスｘに対する所定数ｋの最尤の出力文章ｙ（例えば、図１の例に示されているようなｋ＝４個の可能性のある出力文章）が特定される。少なくとも１つの実施形態においては、デコーダ４６は、トークンごとに（例えば、ワードごとに）確率分布を出力する。ビームサーチにおけるビーム幅を、Ｂ≧ｋとして示すこととする。この場合、出力シーケンスｙにおける最初のトークンに対して、探索アルゴリズムは、その最初のトークンに対するＢ個の最尤の出力を選択する。次に、探索アルゴリズムは、２番目のトークンに対して、最初のトークンに関して選択された可能性のある出力が必要条件とされた状態で、この２番目のトークンに対する最尤のＢ個の出力を選択する。このプロセスは、ｋ個の最尤の完全な出力シーケンスｙ（例えば、完全な文章）が特定されるまで、出力シーケンスｙ内のｎ個総てのトークンに対して繰り返される。ｋ個の出力シーケンスのセットが特定されると、これらのｋ個の出力シーケンスのセットを、提案されるラベルを決定するために文章分類器５０に供給することができ、次いで、上述したように検証又は修正のためにドメイン専門家２０に提供することができる。

上述したように、少なくともいくつかの実施形態においては、文章生成器４０は、少なくとも初期時には、訓練用データＤの小さいセット（例えば、手動でラベル付けされた文章１０の小さいセット）のみに基づいて、強化学習を使用して訓練される。訓練用データＤは、手動で作成された文章ラベルのペア

からなり、ここで、ｘ^（ｉ）は、入力文章であり、ｚ^（ｉ）は、予め定義されたラベルＺのセットからの対応する分類ラベル（例えば、「自動車問題」又は「非自動車問題」）である。しかしながら、入力文章ｘ^（ｉ）は、分類ラベルｚ^（ｉ）とはペアにされているが、文章生成器４０を訓練するための例示的な出力文章ｙとはペアにされていないことが理解されるべきである。従って、文章生成器４０を訓練するために使用されるこの強化学習プロセスは、完全な単語レベルの教師を提供するものではない。その代わりに、この強化学習プロセスは、生成された出力文章に対するシーケンスレベルの弱いフィードバックを提供するものである。

少なくともいくつかの実施形態においては、文章生成器４０は、ポリシーに基づく強化学習アルゴリズムを使用して訓練され、このポリシーに基づく強化学習アルゴリズムにおいては、モデルパラメータθによってパラメータ化されたポリシーｐ_θが学習される。１つの実施形態においては、文章生成器４０は、ＲＥＩＮＦＯＲＣＥアルゴリズム（Williams著の“Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning”，1992年）を使用して訓練される。ポリシーｐ_θは、不確実性、多様性及び代表性のシーケンスレベルの測定基準を満たす出力シーケンスの生成を強化するように学習される。

強化学習プロセスは、生成された文章ｙとその元々の文章ｘとに基づいて計算されるそれぞれの報酬関数ｒ（）として、それぞれの測定基準を定式化する。強化学習プロセスは、予期される負の報酬を損失関数：

として最小化し、ここで、ｙ^ｓは、ポリシーｐ_θの下でｘに基づいてサンプリングされた単語のシーケンスである。

強化学習プロセスは、以下の方程式：
∇_θＬ（θ）≒－（ｒ（ｘ，ｙ^ｓ）－ｂ）∇_θｌｏｇｐ（ｙ^ｓ｜ｘ）
に従って、単一のサンプルｙ^ｓ～ｐ_θによって予期される勾配を近似し、ここで、ｂは、ベースライン推定関数である。少なくとも１つの実施形態においては、ベースライン推定関数は、ｂ＝ｒ（ｘ，ｙ^ａ）として定義され、ここで、ｒ（ｘ，ｙ^ａ）は、テスト時に、所与のｘにおいて推論アルゴリズムに従って現在のモデルを用いて最良の出力ｙ^ａから得られる報酬である（例えば、ｙ^ａは、ビームサーチによる最尤の出力である）。

いくつかの実施形態においては、強化学習プロセスは、マルチ報酬最適化アプローチ、又は、換言すれば、複数の別個の報酬関数ｒ（ｘ，ｙ^ｓ）を利用する。上述したように、出力文章ｙが不確実性、多様性及び代表性の総てを同時に提示することが重要である。この目的で、少なくともいくつかの実施形態においては、強化学習プロセスは、それぞれ不確実性、多様性及び代表性のための３つの報酬関数ｒ_Ｕ（ｘ，ｙ）、ｒ_Ｄ（ｘ，ｙ）及びｒ_Ｒ（ｘ，ｙ）を利用する。特に、不確実な文章を生成すること、多様な文章を生成すること、又は、代表的な文章を生成することは、それぞれ異なる別個のタスクとみなすことができ、同一のパラメータθを共有する単一のモデルが、それぞれ異なる報酬関数：
∇_θＬ_Ｕ（θ）≒－（ｒ_Ｕ（ｘ，ｙ^ｓ）－ｒ_Ｕ（ｘ，ｙ^ａ））∇_θｌｏｇｐ（ｙ^ｓ｜ｘ），
∇_θＬ_Ｄ（θ）≒－（ｒ_Ｄ（ｘ，ｙ^ｓ）－ｒ_Ｄ（ｘ，ｙ^ａ））∇_θｌｏｇｐ（ｙ^ｓ｜ｘ），
∇_θＬ_Ｒ（θ）≒－（ｒ_Ｒ（ｘ，ｙ^ｓ）－ｒ_Ｒ（ｘ，ｙ^ａ））∇_θｌｏｇｐ（ｙ^ｓ｜ｘ）
によって最適化される。

不確実性の報酬関数ｒ_Ｕ（ｘ，ｙ）は、新たに生成された文章ｙのための提案された分類ラベルを出力する際の文章分類器５０の信頼度を評価するように設計されている。特に、Ｓは、文章分類器５０の確率的文章分類モデルを指すものとする。確率的文章分類モデルＳは、手動で作成された文章ラベルのペア

からなる訓練用データＤの（初期時には小さい）セットに対して訓練されたものである。訓練後、確率的文章分類モデルＳは、確率Ｐ_Ｓ（ｚ｜ｙ）で分類ラベルｚ∈Ｚを予測する。

不確実性の報酬関数ｒ_Ｕは、以下の方程式：
ｒ_Ｕ（ｘ，ｙ）＝Ｈ（ｙ）＝－Σ_ｚ∈ＺＰ_Ｓ（ｚ｜ｙ）ｌｏｇＰ_Ｓ（ｚ｜ｙ）
に従って評価可能であり、ここで、Ｈ（ｙ）は、能動学習に関する先行研究において広く使用されている不確実性測定値として使用される周知のエントロピーである。不確実性の報酬関数ｒ_Ｕは、それぞれの分類ラベルｚを割り当てる際の文章分類器５０のエントロピーが相対的に高くなっている、文章生成器４０によって生成されたそれぞれの出力文章ｙに対して報酬を付与すると理解されるべきである。

多様性の報酬関数ｒ_Ｄ（ｘ，ｙ）は、新たに生成された文章ｙと、それぞれの入力文章ｘとの間の差を評価するように設計されている。少なくとも１つの実施形態においては、多様性の報酬関数は、以下の方程式：
ｒ_Ｄ（ｘ，ｙ）＝ＳｔｒＤｉｆｆ（ｘ，ｙ）
に従って決定され、ここで、ＳｔｒＤｉｆｆ（）は、ハミング距離又はレーベンシュタイン編集距離のような距離アルゴリズムである。少なくとも１つの実施形態においては、距離アルゴリズムは、トークンレベル（単語レベル）で差を決定するが、文字レベルの距離アルゴリズム又は任意の他の距離アルゴリズムを利用することも可能である。従って、多様性の報酬関数ｒ_Ｄは、それぞれの入力文章ｘに対して相対的に異なっている、文章生成器４０によって生成されたそれぞれの出力文章ｙに対して報酬を付与する。

最後に、代表性の報酬関数ｒ_Ｒ（ｘ，ｙ）は、新たな文章が頻繁若しくは一般的な意味を記述している程度、又は、逆に、新たな文章が外れ値若しくは稀有な意味を記述している程度を評価するように設計されている。１つの実施形態においては、代表性の報酬関数は、ニューラル言語モデルＬＭを活用する。言語モデルが単語及び文章に確率を割り当てる統計的モデルであることは、当業者には理解されるであろう。一般的に、言語モデルは、現実の単語を含む文章であってかつ構文的に正しい文章に、より高い確率を割り当てる。少なくとも１つの実施形態においては、言語モデルＬＭは、ドメイン内テキストデータの大きいコーパスを使用して訓練される。例示する目的で本明細書において説明される「自動車問題」ドメインの場合には、ドメイン内テキストデータは、例えば、車両メンテナンス、修理又はトラブルシューティングマニュアル、及び、他の車両関連のテキストドキュメントを含むものとしてよい。このようにして、言語モデルＬＭは、それぞれの関心ドメインにおける現実的又は一般的な文章に対してより高い確率を割り当てる。

少なくとも１つの実施形態においては、代表性の報酬関数は、新たに生成された文章ｙに対する言語モデルＬＭのパープレキシティに基づいて、以下の方程式：
ｒ_Ｒ（ｘ，ｙ）＝－Ｐｅｒｐｌｅｘｉｔｙ_ＬＭ（ｙ）
に従って計算される。

従って、代表性の報酬関数ｒ_Ｒは、言語モデルＬＭに提供される際に相対的に低いパープレキシティを有する、文章生成器４０によって生成されたそれぞれの出力文章ｙに対して報酬を付与する。パープレキシティ（perplexity）とは、言語モデルＬＭの本質的な性能を評価するために典型的に使用される測定基準であって、言語モデルＬＭが入力に対して高い確率を割り当てた場合には低い値を有し、逆に、言語モデルＬＭが入力に対して低い確率を割り当てた場合には高い値を有することは、当業者には理解されるであろう。従って、言語モデルＬＭは、文章の予測に優れているので、負のパープレキシティが高い場合（即ち、元々のパープレキシティが低い場合）には、新たに生成された文章ｙは、代表的である。パープレキシティ関数Ｐｅｒｐｌｅｘｉｔｙ_ＬＭ（ｙ）の特定の定式化は、ＬＭが新たに生成された文章ｙに割り当てる確率Ｐ_ＬＭ（ｙ）に一般的に関連する種々の形式を取ることができる。１つの例示的な実施形態においては、パープレキシティ関数は、Ｐｅｒｐｌｅｘｉｔｙ_ＬＭ（ｙ）＝－ｌｏｇ（Ｐ_ＬＭ（ｙ））又は同様のものとして定義される。他の例示的な実施形態においては、パープレキシティ関数は、

又は同様のものとして定義される。

文章分類モデル
上述したように、本明細書において説明されるデータ増強プロセスの最終目標は、文章分類器５０をさらに訓練するために使用することができる新たな高品質のドメイン固有の訓練用文章の大きいセットを合成することである。合成された訓練用文章のより大きいセットを使用して文章分類器５０を訓練することにより、文章分類器５０の汎化力を大幅に改善することができる。しかしながら、文章分類器５０の特定の実装は、データ増強プロセス自体にとってさほど重要ではなく、従って、文章分類器５０は、多種多様な確率的モデル・アーキテクチャを使用して、特に、多種多様な機械学習モデルを使用して実装可能である。多くの実施形態においては、文章分類器５０は、深層学習モデル（例えば、畳み込みニューラルネットワーク、リカレント・ニューラルネットワーク、トランスフォーマに基づくニューラルネットワークなど）を使用して実装される。

上述したように、文章分類器５０は、確率的文章分類モデルＳを実施する。確率的文章分類モデルＳは、手動で作成された文章ラベルのペア

からなる訓練用データＤの（初期時には小さい）セットに対して訓練される。訓練後、確率的文章分類モデルＳは、新たに生成された文章ｙに対する最尤の分類ラベル

を、以下の方程式：

に従って予測し、ここで、Ｓ（ｚ｜ｙ）は、新たに生成された文章ｙがＳによってｚ∈Ｚに分類される確率を指す。換言すれば、文章分類器５０の推論モデルは、単純に、最尤の分類ラベル

を出力として選択する。

データ増強システム
図３は、データ増強システム１００の例示的な実施形態のブロック図を示している。データ増強システム１００は、有利には、深層学習モデルのためのドメイン固有の訓練用データの迅速かつコスト効果的な人間参加型の合成を可能にするために、上述した方法を利用する。特に、少なくとも１つの実施形態においては、システム１００は、少数の手動でラベル付けされた文章に基づいて、ドメイン固有の分類ラベルを有する多数のドメイン固有の文章を合成するように構成されている。この合成されたデータを使用して、例えば、いくつかの用途のために文章のさらなる下流の処理を可能にすることができるロバストな文章分類モデルが訓練される。下流の用途は、例えば、自動車の修理に関する特定の問題及び解決策を記述している文章をユーザが効果的かつ効率的に特定することを援助する、インテリジェントな自動車アフターマーケット支援サービスを含むものとしてよい。

図示の例示的な実施形態においては、データ増強システム１００は、少なくとも１つのプロセッサ１０２と、少なくとも１つのメモリ１０４と、通信モジュール１０６と、ディスプレイスクリーン１０８と、ユーザインタフェース１１０とを含む。しかしながら、図示及び説明されたデータ増強システム１００のコンポーネントは、単なる例示的なものであり、データ増強システム１００は、任意の代替的な構成を含むものとしてよいことが理解されるであろう。特に、データ増強システム１００は、デスクトップコンピュータ、ラップトップ、スマートフォン、タブレット、又は、他のパーソナル電子装置のような任意のコンピューティング装置を含むものとしてよい。従って、データ増強システム１００は、このようなコンピューティング装置に慣用的に含まれている任意のハードウェアコンポーネントを含むものとしてよい。

メモリ１０４は、少なくとも１つのプロセッサ１０２によって実行された場合にデータ増強システム１００が本明細書において説明される種々の動作を実行することを可能にするデータ及びプログラム命令を格納するように構成されている。メモリ１０４は、当業者によって認識されるように、メモリカード、ＲＯＭ、ＲＡＭ、ハードドライブ、ディスク、フラッシュメモリ、又は、データ記憶装置として機能する任意の種々の他のコンピュータ可読媒体のような、少なくとも１つのプロセッサ１０２によってアクセス可能であって情報を格納可能である任意の種類の装置であるものとしてよい。さらに、「プロセッサ」には、データ、信号若しくは他の情報を処理する任意のハードウェアシステム、ハードウェアメカニズム又はハードウェアコンポーネントが含まれることが当業者によって認識されるであろう。従って、少なくとも１つのプロセッサ１０２は、中央処理ユニット、グラフィックス処理ユニット、複数の処理ユニット、機能を実現するための専用回路、プログラマブルロジック、又は、他の処理システムを含むものとしてよい。さらに、データ増強システム１００は、単一のシステムとして図示されているが、本明細書において説明される機能を実現するために協働するいくつかの別個のシステムを含むものとしてよいことが理解されるであろう。

通信モジュール１０６は、種々の他の装置との通信を可能にするために通信モジュールに慣用的に含まれている１つ又は複数のトランシーバ、モデム、プロセッサ、メモリ、発振器、アンテナ又は他のハードウェアを含むものとしてよい。少なくともいくつかの実施形態においては、通信モジュール１０６は、Ｗｉ－Ｆｉネットワーク及び／又はＷｉ－Ｆｉルータ（図示せず）との通信を可能にするように構成されたＷｉ－Ｆｉモジュールを含む。さらなる実施形態においては、通信モジュール４６は、Ｂｌｕｅｔｏｏｔｈ（登録商標）モジュール、イーサネットアダプタ、及び、無線電信ネットワークと通信するように構成された通信装置をさらに含むものとしてよい。

ディスプレイスクリーン１０８は、ＬＣＤ又はＯＬＥＤスクリーンのような任意の種々の公知の種類のディスプレイを含むものとしてよい。いくつかの実施形態においては、ディスプレイスクリーン１０８は、ユーザからのタッチ入力を受信するように構成されたタッチスクリーンを含むものとしてよい。ユーザインタフェース１１０は、当業者によって認識されるように、マウス、トラックパッド又は他のポインティング装置、キーボード又は他のキーパッド、スピーカ及びマイクロフォンのような、ユーザによるデータ増強システム１００のローカル操作を可能にするように構成された種々の装置を適当に含むものとしてよい。選択的に、いくつかの実施形態においては、ユーザは、通信モジュール１０６を介してデータ増強システム１００と通信し、かつ、同様のユーザインタフェースを有している他のコンピューティング装置から、データ増強システム１００をリモート操作することができる。

メモリ１０４に格納されているプログラム命令は、データ増強プログラム１１２を含み、データ増強プログラム１１２は、テキストデータ生成モデル１１４と、テキストデータラベル付けモデル１１６とを含む。特に、プロセッサ１０２は、データ増強プログラム１１２のテキストデータ生成モデル１１４を実行して、手動でラベル付けされたテキストデータの小さいセットに基づいて、新たなテキストデータを生成する。同様に、プロセッサ１０２は、データ増強プログラム１１２のテキストデータラベル付けモデル１１６を実行して、新たに生成されたテキストデータのための提案されるラベルを生成する。文章分類の文脈においては、テキストデータ生成モデル１１４及びテキストデータラベル付けモデル１１６は、例えば、それぞれ文章生成器４０及び文章分類器５０を実装する。

データ増強システムの動作方法
図４は、データ増強システムを動作させるための方法２００に関するフローチャートを示している。これらの方法の説明において、何らかのタスク、計算又は機能が実行されるとの記載は、プロセッサ（例えば、データ増強システム１００のプロセッサ１０２）が、プログラミングされた命令（例えば、データ増強プログラム１１２、テキストデータ生成モデル１１４、又は、テキストデータラベル付けモデル１１６）を実行することを指し、これらの命令は、タスク又は機能が実行されるようにデータを操作するために、又は、データ増強システム１００の１つ又は複数のコンポーネントを動作させるためにプロセッサに動作可能に接続される非一時的なコンピュータ可読記憶媒体（例えば、データ増強システム１００のメモリ１０４）に格納されている。さらに、方法のステップは、図面に示されている順序又はステップが説明される順序にかかわらず、任意の実現可能な時間的順序で実施可能である。

方法２００は、テキストデータのユニットを受信することから始まる（ブロック２１０）。特に、プロセッサ１０２は、テキストデータを受信し、このテキストデータは、テキストデータの特徴を記述する対応するラベルに関連付けられているものとしてよい。テキストデータは、特に、テキストデータの個々のユニットｘであり、例えば、文章を含むものとしてよいが、同様に、テキストデータの語句又は段落のような任意の他のユニットを含むものとしてもよい。少なくとも１つの実施形態においては、プロセッサ１０２は、メモリ１０４からテキストデータのユニットｘを読み出し、メモリ１０４は、手動で作成された文章ラベルのペア

からなる訓練用データＤを格納しており、ここで、ｘ^（ｉ）は、予め定義されたラベルＺ（例えば、「自動車問題」又は「非自動車問題」）のセットからの対応する分類ラベルである。

少なくとも１つの実施形態においては、テキストデータの複数のユニットｘ^（ｉ）は、上述したように、情報又は知識の特定のドメイン（例えば、自動車問題）に関連する。少なくとも１つの実施形態においては、テキストデータのそれぞれのユニットｘ^（ｉ）のための対応するラベルｚ^（ｉ）は、テキストデータのユニットｘ^（ｉ）の分類（例えば、文章が自動車問題を記述しているかどうか、又は、自動車問題を記述していないかどうか）を識別する分類ラベルであり、テキストデータの対応するユニットの多種多様な意味論的概念及び属性を識別することもできる。いくつかの実施形態においては、テキストデータのそれぞれのユニットｘ^（ｉ）は、２つ以上のラベルｚ^（ｉ）を有するものとしてよい。

方法２００は、テキスト生成モデルを使用して、受信したテキストデータのユニットに基づいてテキストデータの新たなユニットを生成することを続けて行う（ブロック２３０）。特に、プロセッサ１０２は、テキストデータ生成モデル１１４のプログラム命令を実行して、受信したテキストデータのユニットｘに基づいてテキストデータの新たなユニットｙを生成するように構成されている。いくつかの実施形態においては、プロセッサ１０２は、受信したテキストデータのそれぞれのユニットｘに基づいてテキストデータの複数の新たなユニットｙを生成する。上述したように、文章分類の文脈においては、テキストデータ生成モデル１１４は、例えば、文章生成器４０を実装し、より具体的には、エンコーダ・デコーダモデル４２を実装する。しかしながら、テキストデータ生成モデル１１４が、これとは異なるバリエーション及び種類の機械学習モデルを実装するものとしてよいことが理解されるべきである。

いくつかの実施形態においては、プロセッサ１０２は、受信したテキストデータのユニットｘを、テキストに対応するトークンの入力シーケンスｘに変換（又は「トークン化」）し、次いで、テキストデータ生成モデル１１４のエンコーダ（例えば、エンコーダ・デコーダモデル４２のエンコーダ４４）を使用して、トークンの入力シーケンスｘを符号化する。次に、プロセッサ１０２は、テキストデータ生成モデル１１４のデコーダ（例えば、エンコーダ・デコーダモデル４２のデコーダ４６）を使用して、トークンの出力シーケンスｙに関する確率分布を決定する。最後に、プロセッサ１０２は、テキストデータ生成モデル１１４の推論モデルを使用して、テキストデータの新たなユニットｙを決定する。

少なくともいくつかの実施形態においては、テキストデータ生成モデル１１４の推論モデルは、トークンの出力シーケンスｙに関する確率分布に基づいて「最良の」又は最尤の出力シーケンスを決定するビームサーチのような探索アルゴリズムである。従って、テキストデータの１つの新たなユニットｙが決定されるべき場合には、プロセッサ１０２は、ビームサーチを使用してトークンの出力シーケンスに関する確率分布に基づいて、トークンの最尤の出力シーケンスとしてテキストデータの新たなユニットｙを決定する。テキストデータの複数の新たなユニットｙが決定されるべき場合には、プロセッサ１０２は、ビームサーチを使用してトークンの出力シーケンスに関する確率分布に基づいて、トークンのｋ個の最尤の出力シーケンスとしてテキストデータの複数の新たなユニットｙを決定する。

図２のエンコーダ・デコーダモデル４２に関して上述したように、テキストデータ生成モデル１１４は、初期時に、メモリ１０４に格納されている訓練用データＤのテキストデータの複数のユニットｘ^（ｉ）に基づいて、強化学習プロセスを使用して訓練される。特に、プロセッサ１０２は、複数の報酬関数ｒ_Ｕ（ｘ，ｙ）、ｒ_Ｄ（ｘ，ｙ）及びｒ_Ｒ（ｘ，ｙ）を強化するマルチ報酬最適化を使用して、テキストデータ生成モデル１１４のパラメータを最適化する。

方法２００は、テキストラベル付けモデルを使用して、テキストデータの新たなユニットのための提案されるラベルを決定することを続けて行う（ブロック２５０）。特に、プロセッサ１０２は、テキストデータの新たなユニットｙに基づいて、予め定義されたラベルＺのセットから提案されるラベル

を決定するために、テキストデータラベル付けモデル１１６のプログラム命令を実行するように構成されている。テキストデータの複数の新たなユニットｙが生成された場合、プロセッサ１０２は、テキストデータの複数の新たなユニットｙにおけるテキストデータのそれぞれの新たなユニットｙのためのそれぞれの提案されるラベル

を決定する。上述のように、文章分類の文脈においては、テキストデータラベル付けモデル１１６は、例えば、多種多様な深層学習モデルを含み得る文章分類器５０を実装する。同様に、文章分類の文脈においては、ラベル

は、分類ラベル（例えば、「自動車問題」又は「非自動車問題」）である。

文章分類器５０に関して以上において詳細に説明したように、テキストデータラベル付けモデル１１６は、初期時に、メモリ１０４に格納されている手動で作成された文章ラベルのペア

からなる訓練用データＤの（初期時には小さい）セットに対して訓練される。

方法２００は、テキストデータの新たなユニット又は提案されたラベルの検証又は修正をユーザから受信することを続けて行う（ブロック２７０）。特に、テキストデータの新たなユニットｙと、提案されたラベル

とからなるそれぞれのペアが生成されると、プロセッサ１０２は、テキストデータの新たなユニットｙと、提案されたラベル

とをユーザに、特にドメイン専門家２０に出力するように出力装置を動作させる。少なくとも１つの実施形態においては、プロセッサ１０２は、テキストデータの新たなユニットｙと、提案されたラベル

とを含むグラフィカルユーザインタフェースを表示するようにディスプレイスクリーン１０８を動作させる。

プロセッサ１０２は、ユーザインタフェース１１０を介して入力を受信し、この入力は、（ｉ）テキストデータの新たなユニットｙに対する修正を含む、テキストデータの修正された新たなユニットｙ’と、
（ｉｉ）提案されたラベル

の修正である修正されたラベル

と、のうちの少なくとも１つを定義する。選択的に、プロセッサ１０２は、如何なる修正も行うことなくテキストデータの新たなユニットｙと、提案されたラベル

との検証を示す入力を受信する。この目的で、ドメイン専門家２０は、ディスプレイスクリーン１０８及びユーザインタフェース１１０を介してデータ増強システム１００と対話して、テキストデータの新たなユニットｙと、提案されたラベル

との正確さを検証し、必要に応じてテキストデータの新たなユニットｙ、又は、提案されたラベル

に対する修正を提供する。このような修正は、テキストデータの新たなユニットｙにおける文法上、スペル上又は他の構文上の誤りを修正するための、テキストデータに対する編集を含むものとしてよい。同様に、修正は、提案されたラベル

を、予め定義されたラベルＺのセットとは異なるラベルに変更することを含むものとしてよい。

方法２００は、テキストデータの新たなユニットと、提案されたラベルとの検証又は修正に基づいて、テキスト生成モデル及びテキストラベル付けモデルを再訓練することを続けて行う（ブロック２９０）。特に、テキストデータの新たなユニットｙと、提案されたラベル

とがドメイン専門家２０によって修正又は検証されると、プロセッサ１０２は、テキストデータの修正／検証された新たなユニットｙ’と、修正／検証されたラベル

とを、元々の訓練用データＤと共にメモリ１０４に格納する。換言すれば、新たに生成されて検証／修正された文章ラベルのペアが、訓練用データＤのセットに追加される。

訓練用データＤに新たな訓練用例を追加することにより、漸進的な性能改善を提供するために、テキストデータ生成モデル１１４及びテキストデータラベル付けモデル１１６を再訓練することができる。特に、プロセッサ１０２は、テキストデータの修正／検証された新たなユニットｙ’を含む、訓練用データＤの更新されたセットを使用して、上述した強化学習プロセスを使用してテキストデータ生成モデル１１４を再訓練する。同様に、プロセッサ１０２は、テキストデータの修正／検証された新たなユニットｙ’と、修正／検証されたラベル

とをペアとして含む、訓練用データＤの更新されたセットを使用して、上述したようにテキストデータラベル付けモデル１１６を再訓練する。

いくつかの実施形態においては、弱教師下での強化学習に加えて、テキストデータの入力ユニットｘと、ドメイン専門家２０によって検証又は修正された、テキストデータの新たなユニットｙとのペアを使用して、テキストデータ生成モデル１１４をさらに訓練することができる。このようにして、テキストデータのますますより多くの新たなユニットｙが生成及び検証されるので、教師下でのより慣用的な訓練プロセスにおけるペアワイズの訓練用例を使用して、テキストデータ生成モデル１１４をさらに訓練することができる。

本開示の範囲内の各実施形態は、コンピュータ実行可能命令（プログラム命令とも称される）又は内部に格納されたデータ構造を担持又は保持するための非一時的なコンピュータ可読記憶媒体又は機械可読媒体を含むものとしてもよい。そのような非一時的なコンピュータ可読記憶媒体又は機械可読媒体は、汎用又は専用のコンピュータによってアクセス可能な任意の利用可能な媒体であるものとしてよい。限定ではなく例として、このような非一時的なコンピュータ可読記憶媒体又は機械可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭ若しくは他の光学的なディスク記憶装置、磁気的なディスク記憶装置若しくは他の磁気的な記憶装置、又は、所望のプログラムコード手段をコンピュータ実行可能命令若しくはデータ構造の形態で担持若しくは格納するために使用可能な任意の他の媒体を含み得る。上記のものの組合せもまた、非一時的なコンピュータ可読記憶媒体又は機械可読媒体の範囲内に含まれるべきである。

コンピュータ実行可能命令は、例えば、汎用のコンピュータ、専用のコンピュータ、又は、専用の処理装置に特定の機能若しくは機能群を実行させる命令及びデータを含む。コンピュータ実行可能命令は、スタンドアロン又はネットワーク環境にあるコンピュータによって実行されるプログラムモジュールも含む。一般的に、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント及びデータ構造等を含む。コンピュータ実行可能命令、関連するデータ構造及びプログラムモジュールは、本明細書において開示される方法のステップを実行するためのプログラムコード手段の例を表している。そのような実行可能命令又は関連するデータ構造の特定のシーケンスは、そのようなステップにおいて説明された機能を実施するための対応する動作の例を表している。

図面及び前述の明細書において本開示が詳細に例示及び説明されてきたが、これらの図面及び前述の明細書は、例示として考えられるべきであり、その性質を限定するものと考えられるべきではない。好ましい実施形態が提示されているに過ぎず、本開示の思想内に含まれる総ての変更、修正及びさらなる用途が保護されることが求められていることを理解されたい。

Claims

ラベル付けされたテキスト訓練用データを生成するための方法であって、
プロセッサによって、テキストデータの第１のユニットを受信することと、
前記プロセッサによって、第１の機械学習モデルを使用して、前記テキストデータの前記第１のユニットに基づいて前記テキストデータの第２のユニットを生成することと、
前記プロセッサによって、第２の機械学習モデルを使用して、前記テキストデータの前記第２のユニットの特徴を記述するラベルを決定することと、
出力装置によって、前記テキストデータの前記第２のユニットと前記ラベルとをユーザに出力することと、
ユーザインタフェースを介して、（ｉ）前記テキストデータの前記第２のユニットに対する修正及び前記テキストデータの前記第２のユニットの検証のうちの一方と、（ｉｉ）前記ラベルの修正及び前記ラベルの検証のうちの一方とを受信することと、
前記プロセッサによって、（ｉ）修正された前記テキストデータの前記第２のユニット及び検証された前記テキストデータの前記第２のユニットのうちの一方と、（ｉｉ）修正された前記ラベル及び検証された前記ラベルのうちの一方とを使用して、前記第２の機械学習モデルを再訓練することと、
を含む方法。
前記プロセッサによって、修正された前記テキストデータの前記第２のユニット及び検証された前記テキストデータの前記第２のユニットのうちの一方を使用して、前記第１の機械学習モデルを再訓練すること
をさらに含む、請求項１に記載の方法。
前記第１の機械学習モデルは、シーケンス・ツー・シーケンスモデルである、
請求項１に記載の方法。
前記テキストデータの前記第２のユニットを生成することは、
前記プロセッサによって、前記第１の機械学習モデルのエンコーダを使用して、前記テキストデータの前記第１のユニットをトークン化したものであるトークンの入力シーケンスを符号化することと、
前記プロセッサによって、前記第１の機械学習モデルのデコーダを使用して、前記トークンの出力シーケンスに関する確率分布を決定することと、
前記プロセッサによって、前記トークンの出力シーケンスに関する前記確率分布に基づいて、前記テキストデータの前記第２のユニットを決定することと、
をさらに含む、請求項３に記載の方法。
前記テキストデータの前記第２のユニットを生成することは、
前記プロセッサによって、前記トークンの出力シーケンスに関する前記確率分布に基づいて、前記テキストデータの前記第２のユニットをトークンの最尤の出力シーケンスとして決定すること
をさらに含む、請求項４に記載の方法。
前記テキストデータの前記第２のユニットを生成することは、
前記プロセッサによって、ビームサーチを使用して、前記トークンの出力シーケンスに関する前記確率分布に基づいて、前記トークンの最尤の出力シーケンスを決定すること
をさらに含む、請求項５に記載の方法。
前記テキストデータの前記第２のユニットを生成することは、
前記プロセッサを用いて、テキストデータの複数の第２のユニットを生成することをさらに含み、
前記テキストデータの前記複数の第２のユニットは、前記トークンの出力シーケンスに関する前記確率分布に基づいて、トークンの所定数の最尤の出力シーケンスとして決定される、
請求項４に記載の方法。
前記第１の機械学習モデルの前記エンコーダ及び前記デコーダのうちの少なくとも一方は、トランスフォーマに基づくニューラルネットワーク・アーキテクチャを有する、
請求項４に記載の方法。
前記テキストデータの前記第２のユニットを生成することの前に、前記プロセッサによって、強化学習プロセスを使用して、テキストデータの複数のユニットに基づいて前記第１の機械学習モデルを訓練すること
をさらに含む、請求項１に記載の方法。
前記第１の機械学習モデルを訓練することは、
前記プロセッサによって、複数の報酬関数を強化するマルチ報酬最適化を使用して、前記第１の機械学習モデルのパラメータを最適化すること
をさらに含む、請求項９に記載の方法。
前記複数の報酬関数は、第１の報酬関数を含み、
前記第１の報酬関数は、前記第１の機械学習モデルにトークンのそれぞれの入力シーケンスが与えられると、トークンのそれぞれの出力シーケンスの特徴を記述するそれぞれのラベルを決定する際に、前記第２の機械学習モデルの（ｉ）不確実性及び（ｉｉ）エントロピーのうちの少なくとも一方が相対的に高くなっている、前記第１の機械学習モデルによって生成されるトークンのそれぞれの出力シーケンスに対して報酬を付与する、
請求項１０に記載の方法。
前記複数の報酬関数は、第２の報酬関数を含み、
前記第２の報酬関数は、前記第１の機械学習モデルにトークンのそれぞれの入力シーケンスが与えられると、前記トークンのそれぞれの入力シーケンスとは相対的に異なっている、前記第１の機械学習モデルによって生成されるトークンのそれぞれの出力シーケンスに対して報酬を付与する、
請求項１０に記載の方法。
前記複数の報酬関数は、第３の報酬関数を含み、
前記第３の報酬関数は、前記第１の機械学習モデルにトークンのそれぞれの入力シーケンスが与えられると、言語モデルに提供される際に相対的に低いパープレキシティを有する、前記第１の機械学習モデルによって生成されるトークンのそれぞれの出力シーケンスに対して報酬を付与する、
請求項１０に記載の方法。
前記第２の機械学習モデルは、深層ニューラルネットワーク・モデルである、
請求項１に記載の方法。
前記ラベルを決定することの前に、前記プロセッサによって、テキストデータの複数のユニットに基づいて前記第２の機械学習モデルを訓練すること
をさらに含み、
前記テキストデータの前記複数のユニットにおけるテキストデータのそれぞれのユニットは、当該テキストデータのそれぞれのユニットの特徴を記述するそれぞれのラベルを有する、
請求項１に記載の方法。
前記テキストデータの前記第２のユニットと前記ラベルとを出力することは、
ディスプレイスクリーンによって、前記テキストデータの前記第２のユニットと前記ラベルとを含むグラフィカルユーザインタフェースをユーザに表示すること
をさらに含む、請求項１に記載の方法。
前記ラベルは、前記テキストデータの前記第２のユニットの分類である、
請求項１に記載の方法。
前記テキストデータの前記第１のユニットは、少なくとも１つの自然言語文章を含み、
前記テキストデータの前記第２のユニットは、少なくとも１つの自然言語文章を含む、
請求項１に記載の方法。
ラベル付けされたテキスト訓練用データを生成するためのシステムであって、
当該システムは、
出力装置と、
ユーザインタフェースと、
テキストデータの複数のユニットを格納するように構成されたメモリであって、前記テキストデータの前記複数のユニットにおけるテキストデータのそれぞれのユニットは、当該テキストデータのそれぞれのユニットの特徴を記述するそれぞれのラベルを有する、メモリと、
前記出力装置、前記ユーザインタフェース及び前記メモリに動作可能に接続されているプロセッサと、
を含み、
前記プロセッサは、
前記メモリに格納されている前記テキストデータの前記複数のユニットからテキストデータの第１のユニットを読み出し、
第１の機械学習モデルを使用して、前記テキストデータの前記第１のユニットに基づいてテキストデータの第２のユニットを生成し、
第２の機械学習モデルを使用して、前記テキストデータの前記第２のユニットの特徴を記述するラベルを決定し、
前記テキストデータの前記第２のユニットと前記ラベルとをユーザに出力するために前記出力装置を動作させ、
（ｉ）前記テキストデータの前記第２のユニットに対する修正及び前記テキストデータの前記第２のユニットの検証のうちの一方と、（ｉｉ）前記ラベルの修正及び前記ラベルの検証のうちの一方とを受信するために前記ユーザインタフェースを動作させ、
（ｉ）修正された前記テキストデータの前記第２のユニット及び検証された前記テキストデータの前記第２のユニットのうちの一方と、（ｉｉ）修正された前記ラベル及び検証された前記ラベルのうちの一方とを使用して、前記第２の機械学習モデルを再訓練する
ように構成されている、システム。
ラベル付けされたテキスト訓練用データを生成するための非一時的なコンピュータ可読媒体であって、当該コンピュータ可読媒体は、プログラム命令を格納しており、
前記プログラム命令は、プロセッサによって実行された場合に前記プロセッサに、
テキストデータの第１のユニットを受信させ、
第１の機械学習モデルを使用して、前記テキストデータの前記第１のユニットに基づいてテキストデータの第２のユニットを生成させ、
第２の機械学習モデルを使用して、前記テキストデータの前記第２のユニットの特徴を記述するラベルを決定させ、
前記テキストデータの前記第２のユニットと前記ラベルとをユーザに出力するために出力装置を動作させ、
（ｉ）前記テキストデータの前記第２のユニットに対する修正及び前記テキストデータの前記第２のユニットの検証のうちの一方と、（ｉｉ）前記ラベルの修正及び前記ラベルの検証のうちの一方とを受信するためにユーザインタフェースを動作させ、
（ｉ）修正された前記テキストデータの前記第２のユニット及び検証された前記テキストデータの前記第２のユニットのうちの一方と、（ｉｉ）修正された前記ラベル及び検証された前記ラベルのうちの一方とを使用して、前記第２の機械学習モデルを再訓練させる、
非一時的なコンピュータ可読媒体。