JP2022128441A - 弱教師ありマルチ報酬強化学習を使用した文章分類のためのテキストデータの増強 - Google Patents
弱教師ありマルチ報酬強化学習を使用した文章分類のためのテキストデータの増強 Download PDFInfo
- Publication number
- JP2022128441A JP2022128441A JP2022024509A JP2022024509A JP2022128441A JP 2022128441 A JP2022128441 A JP 2022128441A JP 2022024509 A JP2022024509 A JP 2022024509A JP 2022024509 A JP2022024509 A JP 2022024509A JP 2022128441 A JP2022128441 A JP 2022128441A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- unit
- label
- machine learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
【課題】深層学習モデルのためのドメイン固有のテキスト訓練用データの迅速かつコスト効果的な人間参加型の合成を可能にするシステム及び方法が開示される。【解決手段】データ増強プロセスは、文章生成器と、文章分類器と、「参加」しているドメイン専門家による弱監視とを組み込む。一般的に、文章生成器及び文章分類器の両方が、機械学習モデルとして実装される。文章生成器は、手動でラベル付けされた文章に基づいて新たな文章を生成し、文章分類器は、新たに生成された文章のためのラベルを生成する。新たな文章は、ドメイン専門家によって修正又は検証され、次いで、文章生成器及び文章分類器のうちの一方又は両方を再訓練するために使用される。【選択図】図1
Description
本明細書において開示されるシステム及び方法は、文章分類に関し、より詳細には、文章分類のためのテキスト訓練用データを増強することに関する。
背景
本明細書において別段の指示がない限り、本セクションにおいて説明される題材が、本セクションに含められることによって従来技術であると認められるものではない。
本明細書において別段の指示がない限り、本セクションにおいて説明される題材が、本セクションに含められることによって従来技術であると認められるものではない。
情報抽出(IE)とは、構造化されていないテキストから構造化された情報を抽出及び編成することによって知識を獲得するプロセス又はタスクである。情報抽出により、質問応答用途のような下流の用途によって、予め構造化されていないテキストから情報を効率的かつ効果的に利用することが可能になる。いくつかの情報抽出タスクにおいて、特定の種類の知識を伝達するための最も適当な情報ユニットは、単一の文章である。例えば、“The engine of this car is very noisy.(この自動車のエンジンは非常に騒々しい。)”という文章は、自動車に関連する問題を記述している。本例においては、文章全体が、自動車に関連する問題を記述するための理想的なユニットである。なぜなら、文章の一部である語句(例えば、“the engine(エンジン)”又は“very noisy(非常に騒々しい)”)は、問題を部分的にしか伝達することができないからである。従って、文章全体の意味を分類することを、ターゲットとなる意味又は分類(例えば、自動車問題)を有する文章の構造化された知識の基礎を形成するために使用可能な情報抽出タスクとみなすことができる。
文章分類は、自然言語処理(NLP)の分野において広く研究されている。他の自然言語処理タスクと同様に、文章分類のための従来技術は、一般的に深層学習モデルを採用している。深層学習モデルは、いくつかのベンチマークデータセットにおいて、ルールに基づくアルゴリズム又は従来の機能豊富な機械学習モデルのような従来のモデルと比較して高い性能を達成することが示されている。ベンチマークデータセットは、一般的に、文章レベルのラベルを用いて注釈付けされた文章のセットを含み、いくつかのドメイン固有のベンチマークデータセットは、特定のドメインに関するドメイン固有のラベルを用いて作成されている。しかしながら、これらの既存のドメイン固有のベンチマークデータセットは、関心ドメインに必ずしも対応するとは限らないので、これらのデータセットに対して訓練された深層学習モデルを、他の特定のドメイン固有の関心タスクに直接的に適用することはできない。従って、多くのドメイン固有のタスクにおいては、タスクに対して深層学習に基づく文章分類モデルを訓練するために、新たなドメイン固有のデータセットを生成する必要がある。
従って、文章分類を必要とするドメイン固有のタスクの課題は、あらゆる教師あり深層学習モデルの課題と同様である。教師あり深層学習モデルは、教師のために手動でラベル付けされた大量の訓練用データに依存している。このモデルは、少量の訓練用データに過剰適合しがちであり、良好に汎化を行わないので、少量の訓練用データでは不十分である。しかしながら、ドメイン専門家による人の手を介した文章の注釈付けは、実際には非常に高コストであることが多いので、人の手を介した十分に大量の訓練用データを作成することは困難である。従って、文章分類モデルのための十分に大きいドメイン固有のデータセットをより簡単かつコスト効果的に作成するための技術を提供することが有利である。
概要
ラベル付けされたテキスト訓練用データを生成するための方法が開示される。本方法は、プロセッサによって、テキストデータの第1のユニットを受信することを含む。本方法は、プロセッサによって、第1の機械学習モデルを使用して、テキストデータの第1のユニットに基づいてテキストデータの第2のユニットを生成することをさらに含む。本方法は、プロセッサによって、第2の機械学習モデルを使用して、テキストデータの第2のユニットの特徴を記述するラベルを決定することをさらに含む。本方法は、出力装置によって、テキストデータの第2のユニットとラベルとをユーザに出力することをさらに含む。本方法は、ユーザインタフェースを介して、(i)テキストデータの第2のユニットに対する修正及びテキストデータの第2のユニットの検証のうちの一方と、(ii)ラベルの修正及びラベルの検証のうちの一方とを受信することをさらに含む。本方法は、プロセッサによって、(i)修正されたテキストデータの第2のユニット及び検証されたテキストデータの第2のユニットのうちの一方と、(ii)修正されたラベル及び検証されたラベルのうちの一方とを使用して、第2の機械学習モデルを再訓練することをさらに含む。
ラベル付けされたテキスト訓練用データを生成するための方法が開示される。本方法は、プロセッサによって、テキストデータの第1のユニットを受信することを含む。本方法は、プロセッサによって、第1の機械学習モデルを使用して、テキストデータの第1のユニットに基づいてテキストデータの第2のユニットを生成することをさらに含む。本方法は、プロセッサによって、第2の機械学習モデルを使用して、テキストデータの第2のユニットの特徴を記述するラベルを決定することをさらに含む。本方法は、出力装置によって、テキストデータの第2のユニットとラベルとをユーザに出力することをさらに含む。本方法は、ユーザインタフェースを介して、(i)テキストデータの第2のユニットに対する修正及びテキストデータの第2のユニットの検証のうちの一方と、(ii)ラベルの修正及びラベルの検証のうちの一方とを受信することをさらに含む。本方法は、プロセッサによって、(i)修正されたテキストデータの第2のユニット及び検証されたテキストデータの第2のユニットのうちの一方と、(ii)修正されたラベル及び検証されたラベルのうちの一方とを使用して、第2の機械学習モデルを再訓練することをさらに含む。
ラベル付けされたテキスト訓練用データを生成するためのシステムが開示される。本システムは、出力装置を含む。本システムは、ユーザインタフェースをさらに含む。本システムは、テキストデータの複数のユニットを格納するように構成されたメモリであって、テキストデータの複数のユニットにおけるテキストデータのそれぞれのユニットは、当該テキストデータのそれぞれのユニットの特徴を記述するそれぞれのラベルを有する、メモリをさらに含む。本システムは、出力装置、ユーザインタフェース及びメモリに動作可能に接続されているプロセッサをさらに含む。プロセッサは、メモリに格納されているテキストデータの複数のユニットからテキストデータの第1のユニットを読み出すように構成されている。プロセッサは、第1の機械学習モデルを使用して、テキストデータの第1のユニットに基づいてテキストデータの第2のユニットを生成するようにさらに構成されている。プロセッサは、第2の機械学習モデルを使用して、テキストデータの第2のユニットの特徴を記述するラベルを決定するようにさらに構成されている。プロセッサは、テキストデータの第2のユニットとラベルとをユーザに出力するために出力装置を動作させるようにさらに構成されている。プロセッサは、(i)テキストデータの第2のユニットに対する修正及びテキストデータの第2のユニットの検証のうちの一方と、(ii)ラベルの修正及びラベルの検証のうちの一方とを受信するためにユーザインタフェースを動作させるようにさらに構成されている。プロセッサは、(i)修正されたテキストデータの第2のユニット及び検証されたテキストデータの第2のユニットのうちの一方と、(ii)修正されたラベル及び検証されたラベルのうちの一方とを使用して、第2の機械学習モデルを再訓練するようにさらに構成されている。
ラベル付けされたテキスト訓練用データを生成するための非一時的なコンピュータ可読媒体が開示される。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサに、テキストデータの第1のユニットを受信させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、第1の機械学習モデルを使用して、テキストデータの第1のユニットに基づいてテキストデータの第2のユニットを生成させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、第2の機械学習モデルを使用して、テキストデータの第2のユニットの特徴を記述するラベルを決定させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、テキストデータの第2のユニットとラベルとをユーザに出力するために出力装置を動作させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、(i)テキストデータの第2のユニットに対する修正及びテキストデータの第2のユニットの検証のうちの一方と、(ii)ラベルの修正及びラベルの検証のうちの一方とを受信するためにユーザインタフェースを動作させるプログラム命令を格納している。本コンピュータ可読媒体は、プロセッサによって実行された場合にプロセッサにさらに、(i)修正されたテキストデータの第2のユニット及び検証されたテキストデータの第2のユニットのうちの一方と、(ii)修正されたラベル及び検証されたラベルのうちの一方とを使用して、第2の機械学習モデルを再訓練させるプログラム命令を格納している。
本システム及び本方法の上述した態様及び他の特徴を、添付の図面に関連して、以下の記載において説明する。
詳細な説明
以下、本開示の原理の理解を促進する目的で、図面に例示され、以下の明細書において説明される実施形態が参照される。これらの実施形態によって本開示の範囲を限定することが意図されるものではないことを理解されたい。さらに、本開示が、例示された実施形態に対するあらゆる変更及び修正を含み、本開示に関係する当業者にとって通常であるような本開示の原理のさらなる適用を含むことを理解されたい。
以下、本開示の原理の理解を促進する目的で、図面に例示され、以下の明細書において説明される実施形態が参照される。これらの実施形態によって本開示の範囲を限定することが意図されるものではないことを理解されたい。さらに、本開示が、例示された実施形態に対するあらゆる変更及び修正を含み、本開示に関係する当業者にとって通常であるような本開示の原理のさらなる適用を含むことを理解されたい。
データ増強のためのシステム及び方法の概要
図1は、深層学習モデルのためのドメイン固有の訓練用データの迅速かつコスト効果的な人間参加型(human-in-the-loop)の合成を可能にするシステム及び方法を示している。本システム及び本方法は、本明細書においては、ドメイン固有の文章分類モデルのためのドメイン固有の訓練用データを生成することに関して説明される。特に、本明細書において説明される例示的なドメイン固有の文章分類モデルは、文章全体を(1)自動車問題を記述している文章又は(2)自動車問題を記述していない文章のいずれかとして分類するように構成されたモデルである。この文章分類モデルは、例えば、自動車の修理に関する特定の問題及び解決策を記述している文章をユーザが効果的かつ効率的に特定することを援助する、インテリジェントな自動車アフターマーケット支援サービスにおける重要なコンポーネントであり得る。
図1は、深層学習モデルのためのドメイン固有の訓練用データの迅速かつコスト効果的な人間参加型(human-in-the-loop)の合成を可能にするシステム及び方法を示している。本システム及び本方法は、本明細書においては、ドメイン固有の文章分類モデルのためのドメイン固有の訓練用データを生成することに関して説明される。特に、本明細書において説明される例示的なドメイン固有の文章分類モデルは、文章全体を(1)自動車問題を記述している文章又は(2)自動車問題を記述していない文章のいずれかとして分類するように構成されたモデルである。この文章分類モデルは、例えば、自動車の修理に関する特定の問題及び解決策を記述している文章をユーザが効果的かつ効率的に特定することを援助する、インテリジェントな自動車アフターマーケット支援サービスにおける重要なコンポーネントであり得る。
しかしながら、本明細書において説明されるデータ増強のためのシステム及び方法は、任意のドメインにおけるラベル付けされたテキストデータを合成するためにも、ドメイン固有ではないラベル付けされたテキストデータを合成するためにも適用可能であることが理解されるべきである。同様に、本明細書において説明されるデータ増強のためのシステム及び方法は、文章分類モデルのためのラベル付けされたテキストデータだけではなく、任意の深層学習モデルのためのラベル付けされたテキストデータを合成するためにも適用可能であることも理解されるべきである。最後に、本システム及び本方法は、英語のテキストデータを増強するためのシステムとして例示されているが、原則として言語に依存しておらず、あらゆる自然言語に適用可能であることが理解されるべきである。
図1を参照すると、データ増強プロセスは、ドメイン専門家20によって手動でラベル付けされた訓練用データ10の小さいセットから始まる。次いで、この訓練用データ10の小さいセットを使用して、人間参加型の学習-増強フレームワークを使用して、大量の追加的な訓練用データ30が合成される。本例においては、訓練用データ10の小さいセットは、自動車関連の自然言語文章を含み、これらの自動車関連の自然言語文章には、これらの文章が(1)問題を記述しているか又は(2)非問題を記述しているかを示す対応する分類ラベルを用いて、ドメイン専門家20により手動でラベル付けされている(例えば、“This engine is very noisy(このエンジンは非常に騒々しい)”は、“problem(問題)”というラベルを有する)。しかしながら、さらなる実施形態においては、文章全体の単純な二値分類を超えて、訓練用データ10の小さいセットに追加的な意味論的なラベルを付するものとしてもよい。
データ増強プロセスは、以下の3つのコア機能、即ち、文章生成器40と、文章分類器50と、「参加(in the loop)」しているドメイン専門家20による弱教師とを有する。一般的に、文章生成器40及び文章分類器50の両方が、機械学習モデルとして実装される。本明細書において使用される場合、「機械学習モデル」という用語は、所与の入力に基づいて所望の出力を予測又は提供するアルゴリズム、プロセス又は数学的モデル(例えば、ニューラルネットワーク)を実施するように構成された、システム、又は、プログラム命令及び/又はデータのセットを指す。一般的に、機械学習モデルの多くの又はほとんどのパラメータは、明示的にプログラミングされているわけではなく、機械学習モデルは、従来的な意味において、所与の入力に対する所望の出力を提供するために特定のルールに従うように明示的に設計されているわけではないことが理解されるであろう。その代わりに、機械学習モデルには訓練用データのコーパスが提供され、このコーパスから機械学習モデルは、データにおけるパターン及び統計的関係性を識別又は「学習」し、このパターン及び統計的関係性が汎化されて、新たなデータ入力に関する予測が実施され又は出力が提供される。訓練プロセスの結果は、複数の学習されたパラメータ、カーネル重み及び/又はフィルタ値の形態で具現化され、これらは、種々の演算又は機能を実行するために機械学習モデルの種々のコンポーネントにおいて使用される。
文章生成器40は、手動でラベル付けされた文章10(例えば、“This engine is very loud.(このエンジンは非常に音が大きい)”、“The noise level of this engine is very high.(このエンジンの騒音レベルは非常に高い)”、“This brake is very noisy.(このブレーキは非常に騒々しい)”、及び、“This horn is very noisy.(このホーンは非常に騒々しい)”)に基づいて、新たな文章30を生成する。文章生成器40は、初期時に、文章分類器50のさらなる訓練に対して冗長的な教師ではなく有用な教師を提供するように新たな文章30の生成を弱教師する種々の報酬関数を利用した強化学習を使用して、文章10の小さいセットを使用して訓練される。このようにして、報酬機能は、人間参加型(即ち、ドメイン専門家20)の効用を最大化し、人の手を介した無駄なラベル付けの労力を最小化する。
文章分類器50は、新たに生成された文章30のためのラベルを生成する。特に、生成された新たな文章30の各々は、文章分類器50を通過して、提案された分類ラベル又は他の提案された意味論的なラベルを生成する。文章分類器50も、初期時に、教師あり学習プロセスを使用して、手動でラベル付けされた文章10の小さいセットを使用して訓練される。文章分類器50は、少数の例に基づいて訓練されるので、一般的に、データ増強プロセスの早期の反復時には性能が悪く、十分に汎化を行わない。
提案されたラベルを有する新たな文章30は、ドメイン専門家20によるレビューのために表示又は提供され、ドメイン専門家20は、その新たな文章30を検証して任意の誤りを修正するためにシステムと対話する。特に、ドメイン専門家20は、新たな文章30のために提案されたラベルを修正することができ、又は、新たな文章30のテキストにおける文法上又は同様の問題点を修正することができる。検証された新たな文章30を使用して、文章生成器40及び文章分類器50の一方又は両方が再訓練される。このようにして、データ増強の性能が継続的に改善され、それぞれの新たに生成された文章30をドメイン専門家20が検証するために必要とされる時間が短縮される。
データ増強プロセスの目標は、文章分類器50のための学習プロセスを、ドメイン専門家による最小限の教師によって効率的にすることである。特に、データ増強プロセスは、訓練用データの従来通りの収集及び手動でのラベル付けよりも格段にコスト効果的である反復的な人間参加型の訓練プロセスにおいて、データ増強のための種々の規則性を学習する。以下においては、関連する4つの研究分野、即ち、(1)データ増強、(2)言い換え生成、(3)テキストでの敵対的攻撃、及び、(4)能動学習からの主な相違点を明らかにすることによって、データ増強プロセスの種々の利点について論じる。
データ増強(Data augmentation:DA)は、既存のラベル付けされたデータをより大量の合成されたラベル付けされたデータに拡張するための技術のファミリーである。本明細書において説明されるデータ増強プロセスは、進歩したデータ増強方法とみなすことができる。画像データの場合には、回転及び反転のような単純な技術が効果的であることが判明している。なぜなら、そのような動作は、変更されたデータのクラスラベル(意味論的概念)を保証することができるからである。しかしながら、そのような単純な技術をテキストに適用することはできない。なぜなら、テキストは、離散したデータであり、図1の4つ目に生成された文章(即ち、“This horn is very noisy.”)によって示されるように、ほんの少しの変化(例えば、1つの単語の修正)でも、文章の意味を完全に変化させる可能性があるからである。テキストのための多くの既存のデータ増強技術は、発見的手法、例えば、同義語置換及び逆翻訳に依存している。これらのアプローチのためには、同義語辞書及び高性能の機械翻訳モデルのような外部リソースが利用可能であることが必要である。しかしながら、そのようなリソースは、特定のドメインにおいては、利用不可能であることが多い。従って、リソースに基づく従来のデータ増強技術を、関心ドメインにスケーリングすることはできない。これに対して、本明細書において説明されるデータ増強プロセスは、ドメイン専門家による教師からどのようにして直接的にデータを増強すべきかを学習する。従って、本明細書において説明されるデータ増強プロセスは、従来のデータ増強技術と比較して2つの主な利点を有する。1つ目に、本明細書において説明されるデータ増強プロセスは、外部リソースの必要性を排除する。2つ目に、本明細書において説明されるデータ増強プロセスは、学習プロセスを通して種々の言語的及び知識レベルの規則性を探索することによって、関心ドメインと共にデータ増強の性能を改善することができる。
言い換え生成は、入力テキスト(例えば、文章)と意味論的に同一であるが語彙、構文又はその両方の変化形を含む出力テキスト(例えば、文章)を生成するタスクである。本明細書において説明されるデータ増強プロセスは、文章変更における変化形という点において、言い換え生成と同様である。特に、本明細書において説明されるデータ増強プロセスは、図1の2つ目に生成された文章(即ち、“The noise level of this engine is very high.”)によって示されているように、入力文章を単語レベルだけでなく語句レベル又は文章レベルでも変更することもできる。しかしながら、タスクの観点から、本明細書において説明されるデータ増強プロセスは、言い換え生成の目標とは異なる目標を有する。言い換え生成は、図1の1つ目に生成された文章(即ち、“This engine is very loud.”)のように、所与の文章を、生成された文章の意味論が変化しないままとなるように種々に言い換えることを目的としている。これに対して、本明細書において説明されるデータ増強プロセスは、図1の3つ目及び4つ目に生成された文章(即ち、“This brake is very noisy.”及び““This horn is very noisy.”)によって示されているように、種々の有意義な教師を探索するために入力文章の意味を顕著に変更することができる。さらに、方法論的な観点からさらなる相違が存在する。言い換え生成に関する最近の研究は、ニューラルモデル、特にニューラルエンコーダ・デコーダ・アーキテクチャも活用している。これに対して、本明細書において説明されるデータ増強プロセスは、従来のエンコーダ・デコーダ・アーキテクチャを顕著に拡張している。なぜなら、本明細書において説明されるデータ増強プロセスは、文章分類モデルからのフィードバックも追加的な入力として受け取るからである。このフィードバックは、理想的なデータ増強のために生成器のコンポーネントを最適化するための追加的な信号として機能し、これによって、文章分類モデルの汎化能力が改善される。
テキストでの敵対的攻撃は、入力された例に対する小さい摂動を用いて深層学習モデルを欺くことによって深層学習モデルのロバスト性を評価するために使用される。このテキストでの敵対的攻撃は、モデルの脆性を明らかにするために、入力された例の元々のラベルを保存しながら最小限に変更された例によってモデルを欺くことに主な重点が置かれているという点において、他の異なる思想を有する。これに対して、本明細書において説明されるデータ増強プロセスは、そのような敵対的意図を有するわけではない。その代わりに、本明細書において説明されるデータ増強プロセスは、モデルの汎化能力を向上させるために例を生成する。汎化能力を向上させるという目標のために、本明細書において説明されるデータ増強プロセスは、入力された例の元々のラベルを保持している例を生成することに限定されているわけではない。むしろ、このフレームワークは、図1の4つ目に生成された文章(即ち、非問題としてラベル付けされている“This horn is very loud.”)に示されているように、完全に異なる種類の教師を有するようにラベルを変更するような例を意図的に生成することができる。本明細書において説明されるデータ増強プロセスは、ターゲットの文章分類モデルの詳細に関して寛容であり、モデルの入力及び出力を採用するに過ぎないので、方法論的な観点から、本明細書において説明されるデータ増強プロセスは、テキストでの敵対的攻撃のためのブラックボックスモデルと同様に見えるかもしれない。しかしながら、本明細書において説明されるデータ増強プロセスは、不確実なだけでなく多様かつ代表的でもある文章を生成するように生成器のコンポーネントが最適化されるという点において、テキストでの敵対的攻撃のための従来のブラックボックスモデルとは異なっており、このことは、モデルの汎化を改善するために有用である。
最後に、能動学習(active learning:AL)は、効率的な学習を支援するために人間参加型の訓練が使用される学習プロセスを指す。しかしながら、本明細書において説明されるデータ増強プロセスは、人の手を介した教師がデータのラベル付けにおいてどのように活用されるかという点において、従来の能動学習とは異なっている。文章分類の場合、従来の能動学習プロセスは、まず始めに、ラベル付けされた文章の初期のセット(シード例)に対して文章分類モデルを訓練し、ラベル付けされていないデータの大きいプールから、ラベル付けされていない文章の小さいセットをサンプリングして、ドメイン専門家(人間)によってラベル付けされた文章を得ることとなる。新たにラベル付けされた文章が初期の訓練用データに追加され、この新たに拡張された訓練用データに基づいて、モデルが再訓練される。訓練用データの量を漸進的に増加させるために、このプロセスが繰り返されることとなる。これに対して、本明細書において説明されるデータ増強プロセスは、従来の能動学習との少なくとも1つの明らかな相違を有する。特に、本明細書において説明されるデータ増強プロセスは、ラベル付けされていないデータからサンプリングするのではなく、既存の(ラベル付けされた)文章に対して訓練されたモデルを使用して、新たな文章を生成し、これらの新たな文章のラベルを自動的に提案する。この合成されたデータは、誤り(例えば、語順が文法的に正しくない、又は、ラベルが誤っている)を含むことがあり、特に初期段階においては、ドメインの専門家による修正を必要とするが、合成されたデータの品質は、学習の過程において改善される。新たなデータが生成されてラベルが提案されることにより、本明細書において説明されるデータ増強プロセスは、学習プロセス全体を効率的なものにする。能動学習とは異なり、本明細書において説明されるデータ増強プロセスは、原則として、任意の追加的なデータ(例えば、ラベル付けされていないデータの大きいプール)に頼ることなく、シード例から訓練用データを反復的に拡張することができる。しかも、本明細書において説明されるデータ増強プロセスは、ラベル付けされた追加的な文章を学習プロセス中に受け入れることもできるという点において柔軟性がある。その意味では、本明細書において説明されるデータ増強プロセスは、能動学習とは別問題であり、能動学習の性能を向上させるために使用可能である。
文章生成モデル
本明細書において説明されるデータ増強プロセスの最終目標は、ドメイン固有の訓練用文章の非常に大きいセットを手動でラベル付けする労力を費やすことなく、文章分類器50の汎化力を改善することである。従って、プロセスの中心には文章生成器40があり、この文章生成器40は、弱教師だけを使用して元々の文章から新たな高品質の文章を合成することが可能である。文章生成器40は、主に文章を生成するものとして説明されているが、テキストデータの語句又は段落のような任意の他のユニットを生成するように構成されるものとしてもよいことが理解されるべきである。従って、本明細書における「文章」への参照は、テキストデータの、厳密に言えば文章を含んでいてもいなくてもよい代替的なユニットも含むことが理解されるべきである。
本明細書において説明されるデータ増強プロセスの最終目標は、ドメイン固有の訓練用文章の非常に大きいセットを手動でラベル付けする労力を費やすことなく、文章分類器50の汎化力を改善することである。従って、プロセスの中心には文章生成器40があり、この文章生成器40は、弱教師だけを使用して元々の文章から新たな高品質の文章を合成することが可能である。文章生成器40は、主に文章を生成するものとして説明されているが、テキストデータの語句又は段落のような任意の他のユニットを生成するように構成されるものとしてもよいことが理解されるべきである。従って、本明細書における「文章」への参照は、テキストデータの、厳密に言えば文章を含んでいてもいなくてもよい代替的なユニットも含むことが理解されるべきである。
この文脈における「高品質」の新たな文章(又は他のテキストデータ)とは、文章分類器50をさらに訓練するための有用な教師を提供し、かつ、文章分類器50の汎化性能を改善するような合成された文章のことである。文章生成器40は、特に、不確実で多様かつ代表的な新たな文章を生成するように構成されている。不確実性、多様性及び代表性という品質の各々は、文章分類器50の有用な教師及び改善された汎化能力を提供するために有利である。
文章生成器40による新たな文章の生成に関して本明細書において使用される場合、「不確実性」とは、新たな文章のための提案された分類ラベルを出力する際の文章分類器50の信頼度を指す。「不確実」である新たな文章とは、文章分類器50の決定境界に近接していて、かつ、初期時に提案された分類ラベルが低い信頼値を有している文章のことである。より高い不確実性を有する新たな文章をドメイン専門家20によって修正又は検証することは、文章分類器50のさらなる訓練に対するより有用な教師を提供するであろう。逆に、文章分類器50が、新たな文章の正しい分類ラベルに関して既に高い信頼度を有している場合には、ドメイン専門家20による検証は、有用な教師を提供しない。
文章生成器40による新たな文章の生成に関して本明細書において使用される場合、「多様性」とは、新たな文章が元々の入力文章(例えば、手動でラベル付けされた文章)と比較して形態又は意味に関してどの程度異なっているかを指す。「多様」である新たな文章とは、元々の入力文章から非常に異なっている文章のことである。より高い多様性を有する新たな文章をドメイン専門家20によって修正又は検証することは、文章分類器50のさらなる訓練に対するより有用な教師を提供するであろう。逆に、新たな文章が元々の入力文章と非常に類似している場合には、ドメイン専門家20による検証は、有用な教師を提供しない。
文章生成器40による新たな文章の生成に関して本明細書において使用される場合、「代表性」とは、新たな文章が文章分類器50への頻繁又は一般的な入力(例えば、一般的かつ現実的な自動車問題)を記述している程度、又は、逆に、新たな文章が外れ値若しくは稀有な入力(例えば、非現実的若しくは無意味な自動車問題)を記述している程度を指す。現実的な事象を記述している新たな文章(例えば、“The engine needs an oil change.(このエンジンはオイル交換を必要としている)”)をドメイン専門家20によって修正又は検証することは、文章分類器50のさらなる訓練に対するより有用な教師を提供するであろう。逆に、新たな文章が非現実的な事象(例えば、“The headlights need an oil change.(このヘッドライトはオイル交換を必要としている)”)を記述している場合には、ドメイン専門家20による検証又は修正は、有用な教師を提供しない。
求められている不確実性、多様性及び代表性という品質の各々は、有用な教師をもたらす上で有利であるが、それぞれの品質は、残余の品質のうちの一方又は両方によって補完される各自の独自の弱点も有する。例えば、不確実性は、一般的に外れ値(即ち、稀有な現象を記述している文章)をより好むが、このことは、一般的に代表性によって緩和される。同様に、代表性は、一般的に類似する文章をより好み、カバレッジが減少する結果となるが、このことは、一般的に多様性によって緩和される。従って、これらの品質に共に報酬を付与することは、文章分類器50のさらなる訓練のためにバランスのとれた高品質の新たな文章のセットを合成するために非常に重要である。
図2は、不確実で多様かつ代表的な高品質の新たな文章を生成するように構成された文章生成器40の例示的な実施形態を示している。図示の実施形態においては、文章生成器40は、エンコーダ44及びデコーダ46を有するエンコーダ・デコーダモデル42の形態を取る。エンコーダ・デコーダモデル42は、文章生成をシーケンス・ツー・シーケンス(sequence-to-sequence)問題として定式化する。特に、エンコーダ・デコーダモデル42は、入力文章xを出力文章yにマッピングするように構成されており、ここで、xは、可変長mのトークン又は同様のシンボル表現(即ち、個々の単語、文字、句読点等)のシーケンスx=x1,x2,・・・,xmであり、同様に、yは、可変長nのトークン又は同様のシンボル表現のシーケンスy=y1,y2,・・・,ynである。本明細書において使用される場合、「トークン」とは、テキストデータからの個々の単語、部分語、文字又は句読点の表現を指す。従って、テキストデータの「トークン化」とは、テキストデータを対応するトークンのシーケンスに変換することを指す。
エンコーダ44は、入力文章xを受信し、入力文章xを一連の隠れ状態h=h1,h2,・・・,hmに符号化するように構成されている。隠れ状態hのシーケンスが与えられると、デコーダ46は、可能性のある出力文章yの条件付き確率分布を出力するように構成されている。換言すれば、デコーダ46は、以下の確率:
で、可能性のある出力文章yを生成する。
少なくともいくつかの実施形態においては、文章生成器40は、トランスフォーマに基づくニューラルネットワーク・エンコーダ・デコーダモデル42であり、ここでは、エンコーダ44及びデコーダ46は、両方とも残差注意層のスタックである。1つの実施形態においては、エンコーダ・デコーダモデル42は、BART(Lewisら著の“BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension”,2020年)のような、予め訓練可能なトランスフォーマに基づくエンコーダ・デコーダであり、これは、ドメイン固有の規則性が捉えられるようにドメイン内データに関して予め訓練されている。しかしながら、いくつかの実施形態においては、リカレント・ニューラルネットワーク(RNN)に基づくエンコーダ・デコーダモデル又は任意の他のシーケンス・ツー・シーケンスモデルを同様に使用するものとしてもよいことが理解されるであろう。
上述したように、デコーダ46は、特定の入力シーケンスxが与えられると、可能性のある出力文章yの条件付き確率分布を出力する。デコーダ46の最終的な出力は、可能性のある出力文章yの条件付き確率分布に基づいて、探索アルゴリズムのような推論アルゴリズムを使用して選択される。例えば、少なくとも1つの実施形態においては、ビームサーチを使用して、特定のシーケンスxに対する所定数kの最尤の出力文章y(例えば、図1の例に示されているようなk=4個の可能性のある出力文章)が特定される。少なくとも1つの実施形態においては、デコーダ46は、トークンごとに(例えば、ワードごとに)確率分布を出力する。ビームサーチにおけるビーム幅を、B≧kとして示すこととする。この場合、出力シーケンスyにおける最初のトークンに対して、探索アルゴリズムは、その最初のトークンに対するB個の最尤の出力を選択する。次に、探索アルゴリズムは、2番目のトークンに対して、最初のトークンに関して選択された可能性のある出力が必要条件とされた状態で、この2番目のトークンに対する最尤のB個の出力を選択する。このプロセスは、k個の最尤の完全な出力シーケンスy(例えば、完全な文章)が特定されるまで、出力シーケンスy内のn個総てのトークンに対して繰り返される。k個の出力シーケンスのセットが特定されると、これらのk個の出力シーケンスのセットを、提案されるラベルを決定するために文章分類器50に供給することができ、次いで、上述したように検証又は修正のためにドメイン専門家20に提供することができる。
上述したように、少なくともいくつかの実施形態においては、文章生成器40は、少なくとも初期時には、訓練用データDの小さいセット(例えば、手動でラベル付けされた文章10の小さいセット)のみに基づいて、強化学習を使用して訓練される。訓練用データDは、手動で作成された文章ラベルのペア
からなり、ここで、x(i)は、入力文章であり、z(i)は、予め定義されたラベルZのセットからの対応する分類ラベル(例えば、「自動車問題」又は「非自動車問題」)である。しかしながら、入力文章x(i)は、分類ラベルz(i)とはペアにされているが、文章生成器40を訓練するための例示的な出力文章yとはペアにされていないことが理解されるべきである。従って、文章生成器40を訓練するために使用されるこの強化学習プロセスは、完全な単語レベルの教師を提供するものではない。その代わりに、この強化学習プロセスは、生成された出力文章に対するシーケンスレベルの弱いフィードバックを提供するものである。
少なくともいくつかの実施形態においては、文章生成器40は、ポリシーに基づく強化学習アルゴリズムを使用して訓練され、このポリシーに基づく強化学習アルゴリズムにおいては、モデルパラメータθによってパラメータ化されたポリシーpθが学習される。1つの実施形態においては、文章生成器40は、REINFORCEアルゴリズム(Williams著の“Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning”,1992年)を使用して訓練される。ポリシーpθは、不確実性、多様性及び代表性のシーケンスレベルの測定基準を満たす出力シーケンスの生成を強化するように学習される。
強化学習プロセスは、生成された文章yとその元々の文章xとに基づいて計算されるそれぞれの報酬関数r()として、それぞれの測定基準を定式化する。強化学習プロセスは、予期される負の報酬を損失関数:
として最小化し、ここで、ysは、ポリシーpθの下でxに基づいてサンプリングされた単語のシーケンスである。
強化学習プロセスは、以下の方程式:
∇θL(θ)≒-(r(x,ys)-b)∇θlogp(ys|x)
に従って、単一のサンプルys~pθによって予期される勾配を近似し、ここで、bは、ベースライン推定関数である。少なくとも1つの実施形態においては、ベースライン推定関数は、b=r(x,ya)として定義され、ここで、r(x,ya)は、テスト時に、所与のxにおいて推論アルゴリズムに従って現在のモデルを用いて最良の出力yaから得られる報酬である(例えば、yaは、ビームサーチによる最尤の出力である)。
∇θL(θ)≒-(r(x,ys)-b)∇θlogp(ys|x)
に従って、単一のサンプルys~pθによって予期される勾配を近似し、ここで、bは、ベースライン推定関数である。少なくとも1つの実施形態においては、ベースライン推定関数は、b=r(x,ya)として定義され、ここで、r(x,ya)は、テスト時に、所与のxにおいて推論アルゴリズムに従って現在のモデルを用いて最良の出力yaから得られる報酬である(例えば、yaは、ビームサーチによる最尤の出力である)。
いくつかの実施形態においては、強化学習プロセスは、マルチ報酬最適化アプローチ、又は、換言すれば、複数の別個の報酬関数r(x,ys)を利用する。上述したように、出力文章yが不確実性、多様性及び代表性の総てを同時に提示することが重要である。この目的で、少なくともいくつかの実施形態においては、強化学習プロセスは、それぞれ不確実性、多様性及び代表性のための3つの報酬関数rU(x,y)、rD(x,y)及びrR(x,y)を利用する。特に、不確実な文章を生成すること、多様な文章を生成すること、又は、代表的な文章を生成することは、それぞれ異なる別個のタスクとみなすことができ、同一のパラメータθを共有する単一のモデルが、それぞれ異なる報酬関数:
∇θLU(θ)≒-(rU(x,ys)-rU(x,ya))∇θlogp(ys|x),
∇θLD(θ)≒-(rD(x,ys)-rD(x,ya))∇θlogp(ys|x),
∇θLR(θ)≒-(rR(x,ys)-rR(x,ya))∇θlogp(ys|x)
によって最適化される。
∇θLU(θ)≒-(rU(x,ys)-rU(x,ya))∇θlogp(ys|x),
∇θLD(θ)≒-(rD(x,ys)-rD(x,ya))∇θlogp(ys|x),
∇θLR(θ)≒-(rR(x,ys)-rR(x,ya))∇θlogp(ys|x)
によって最適化される。
不確実性の報酬関数rU(x,y)は、新たに生成された文章yのための提案された分類ラベルを出力する際の文章分類器50の信頼度を評価するように設計されている。特に、Sは、文章分類器50の確率的文章分類モデルを指すものとする。確率的文章分類モデルSは、手動で作成された文章ラベルのペア
からなる訓練用データDの(初期時には小さい)セットに対して訓練されたものである。訓練後、確率的文章分類モデルSは、確率PS(z|y)で分類ラベルz∈Zを予測する。
不確実性の報酬関数rUは、以下の方程式:
rU(x,y)=H(y)=-Σz∈ZPS(z|y)logPS(z|y)
に従って評価可能であり、ここで、H(y)は、能動学習に関する先行研究において広く使用されている不確実性測定値として使用される周知のエントロピーである。不確実性の報酬関数rUは、それぞれの分類ラベルzを割り当てる際の文章分類器50のエントロピーが相対的に高くなっている、文章生成器40によって生成されたそれぞれの出力文章yに対して報酬を付与すると理解されるべきである。
rU(x,y)=H(y)=-Σz∈ZPS(z|y)logPS(z|y)
に従って評価可能であり、ここで、H(y)は、能動学習に関する先行研究において広く使用されている不確実性測定値として使用される周知のエントロピーである。不確実性の報酬関数rUは、それぞれの分類ラベルzを割り当てる際の文章分類器50のエントロピーが相対的に高くなっている、文章生成器40によって生成されたそれぞれの出力文章yに対して報酬を付与すると理解されるべきである。
多様性の報酬関数rD(x,y)は、新たに生成された文章yと、それぞれの入力文章xとの間の差を評価するように設計されている。少なくとも1つの実施形態においては、多様性の報酬関数は、以下の方程式:
rD(x,y)=StrDiff(x,y)
に従って決定され、ここで、StrDiff()は、ハミング距離又はレーベンシュタイン編集距離のような距離アルゴリズムである。少なくとも1つの実施形態においては、距離アルゴリズムは、トークンレベル(単語レベル)で差を決定するが、文字レベルの距離アルゴリズム又は任意の他の距離アルゴリズムを利用することも可能である。従って、多様性の報酬関数rDは、それぞれの入力文章xに対して相対的に異なっている、文章生成器40によって生成されたそれぞれの出力文章yに対して報酬を付与する。
rD(x,y)=StrDiff(x,y)
に従って決定され、ここで、StrDiff()は、ハミング距離又はレーベンシュタイン編集距離のような距離アルゴリズムである。少なくとも1つの実施形態においては、距離アルゴリズムは、トークンレベル(単語レベル)で差を決定するが、文字レベルの距離アルゴリズム又は任意の他の距離アルゴリズムを利用することも可能である。従って、多様性の報酬関数rDは、それぞれの入力文章xに対して相対的に異なっている、文章生成器40によって生成されたそれぞれの出力文章yに対して報酬を付与する。
最後に、代表性の報酬関数rR(x,y)は、新たな文章が頻繁若しくは一般的な意味を記述している程度、又は、逆に、新たな文章が外れ値若しくは稀有な意味を記述している程度を評価するように設計されている。1つの実施形態においては、代表性の報酬関数は、ニューラル言語モデルLMを活用する。言語モデルが単語及び文章に確率を割り当てる統計的モデルであることは、当業者には理解されるであろう。一般的に、言語モデルは、現実の単語を含む文章であってかつ構文的に正しい文章に、より高い確率を割り当てる。少なくとも1つの実施形態においては、言語モデルLMは、ドメイン内テキストデータの大きいコーパスを使用して訓練される。例示する目的で本明細書において説明される「自動車問題」ドメインの場合には、ドメイン内テキストデータは、例えば、車両メンテナンス、修理又はトラブルシューティングマニュアル、及び、他の車両関連のテキストドキュメントを含むものとしてよい。このようにして、言語モデルLMは、それぞれの関心ドメインにおける現実的又は一般的な文章に対してより高い確率を割り当てる。
少なくとも1つの実施形態においては、代表性の報酬関数は、新たに生成された文章yに対する言語モデルLMのパープレキシティに基づいて、以下の方程式:
rR(x,y)=-PerplexityLM(y)
に従って計算される。
rR(x,y)=-PerplexityLM(y)
に従って計算される。
従って、代表性の報酬関数rRは、言語モデルLMに提供される際に相対的に低いパープレキシティを有する、文章生成器40によって生成されたそれぞれの出力文章yに対して報酬を付与する。パープレキシティ(perplexity)とは、言語モデルLMの本質的な性能を評価するために典型的に使用される測定基準であって、言語モデルLMが入力に対して高い確率を割り当てた場合には低い値を有し、逆に、言語モデルLMが入力に対して低い確率を割り当てた場合には高い値を有することは、当業者には理解されるであろう。従って、言語モデルLMは、文章の予測に優れているので、負のパープレキシティが高い場合(即ち、元々のパープレキシティが低い場合)には、新たに生成された文章yは、代表的である。パープレキシティ関数PerplexityLM(y)の特定の定式化は、LMが新たに生成された文章yに割り当てる確率PLM(y)に一般的に関連する種々の形式を取ることができる。1つの例示的な実施形態においては、パープレキシティ関数は、PerplexityLM(y)=-log(PLM(y))又は同様のものとして定義される。他の例示的な実施形態においては、パープレキシティ関数は、
又は同様のものとして定義される。
文章分類モデル
上述したように、本明細書において説明されるデータ増強プロセスの最終目標は、文章分類器50をさらに訓練するために使用することができる新たな高品質のドメイン固有の訓練用文章の大きいセットを合成することである。合成された訓練用文章のより大きいセットを使用して文章分類器50を訓練することにより、文章分類器50の汎化力を大幅に改善することができる。しかしながら、文章分類器50の特定の実装は、データ増強プロセス自体にとってさほど重要ではなく、従って、文章分類器50は、多種多様な確率的モデル・アーキテクチャを使用して、特に、多種多様な機械学習モデルを使用して実装可能である。多くの実施形態においては、文章分類器50は、深層学習モデル(例えば、畳み込みニューラルネットワーク、リカレント・ニューラルネットワーク、トランスフォーマに基づくニューラルネットワークなど)を使用して実装される。
上述したように、本明細書において説明されるデータ増強プロセスの最終目標は、文章分類器50をさらに訓練するために使用することができる新たな高品質のドメイン固有の訓練用文章の大きいセットを合成することである。合成された訓練用文章のより大きいセットを使用して文章分類器50を訓練することにより、文章分類器50の汎化力を大幅に改善することができる。しかしながら、文章分類器50の特定の実装は、データ増強プロセス自体にとってさほど重要ではなく、従って、文章分類器50は、多種多様な確率的モデル・アーキテクチャを使用して、特に、多種多様な機械学習モデルを使用して実装可能である。多くの実施形態においては、文章分類器50は、深層学習モデル(例えば、畳み込みニューラルネットワーク、リカレント・ニューラルネットワーク、トランスフォーマに基づくニューラルネットワークなど)を使用して実装される。
上述したように、文章分類器50は、確率的文章分類モデルSを実施する。確率的文章分類モデルSは、手動で作成された文章ラベルのペア
からなる訓練用データDの(初期時には小さい)セットに対して訓練される。訓練後、確率的文章分類モデルSは、新たに生成された文章yに対する最尤の分類ラベル
を、以下の方程式:
に従って予測し、ここで、S(z|y)は、新たに生成された文章yがSによってz∈Zに分類される確率を指す。換言すれば、文章分類器50の推論モデルは、単純に、最尤の分類ラベル
を出力として選択する。
データ増強システム
図3は、データ増強システム100の例示的な実施形態のブロック図を示している。データ増強システム100は、有利には、深層学習モデルのためのドメイン固有の訓練用データの迅速かつコスト効果的な人間参加型の合成を可能にするために、上述した方法を利用する。特に、少なくとも1つの実施形態においては、システム100は、少数の手動でラベル付けされた文章に基づいて、ドメイン固有の分類ラベルを有する多数のドメイン固有の文章を合成するように構成されている。この合成されたデータを使用して、例えば、いくつかの用途のために文章のさらなる下流の処理を可能にすることができるロバストな文章分類モデルが訓練される。下流の用途は、例えば、自動車の修理に関する特定の問題及び解決策を記述している文章をユーザが効果的かつ効率的に特定することを援助する、インテリジェントな自動車アフターマーケット支援サービスを含むものとしてよい。
図3は、データ増強システム100の例示的な実施形態のブロック図を示している。データ増強システム100は、有利には、深層学習モデルのためのドメイン固有の訓練用データの迅速かつコスト効果的な人間参加型の合成を可能にするために、上述した方法を利用する。特に、少なくとも1つの実施形態においては、システム100は、少数の手動でラベル付けされた文章に基づいて、ドメイン固有の分類ラベルを有する多数のドメイン固有の文章を合成するように構成されている。この合成されたデータを使用して、例えば、いくつかの用途のために文章のさらなる下流の処理を可能にすることができるロバストな文章分類モデルが訓練される。下流の用途は、例えば、自動車の修理に関する特定の問題及び解決策を記述している文章をユーザが効果的かつ効率的に特定することを援助する、インテリジェントな自動車アフターマーケット支援サービスを含むものとしてよい。
図示の例示的な実施形態においては、データ増強システム100は、少なくとも1つのプロセッサ102と、少なくとも1つのメモリ104と、通信モジュール106と、ディスプレイスクリーン108と、ユーザインタフェース110とを含む。しかしながら、図示及び説明されたデータ増強システム100のコンポーネントは、単なる例示的なものであり、データ増強システム100は、任意の代替的な構成を含むものとしてよいことが理解されるであろう。特に、データ増強システム100は、デスクトップコンピュータ、ラップトップ、スマートフォン、タブレット、又は、他のパーソナル電子装置のような任意のコンピューティング装置を含むものとしてよい。従って、データ増強システム100は、このようなコンピューティング装置に慣用的に含まれている任意のハードウェアコンポーネントを含むものとしてよい。
メモリ104は、少なくとも1つのプロセッサ102によって実行された場合にデータ増強システム100が本明細書において説明される種々の動作を実行することを可能にするデータ及びプログラム命令を格納するように構成されている。メモリ104は、当業者によって認識されるように、メモリカード、ROM、RAM、ハードドライブ、ディスク、フラッシュメモリ、又は、データ記憶装置として機能する任意の種々の他のコンピュータ可読媒体のような、少なくとも1つのプロセッサ102によってアクセス可能であって情報を格納可能である任意の種類の装置であるものとしてよい。さらに、「プロセッサ」には、データ、信号若しくは他の情報を処理する任意のハードウェアシステム、ハードウェアメカニズム又はハードウェアコンポーネントが含まれることが当業者によって認識されるであろう。従って、少なくとも1つのプロセッサ102は、中央処理ユニット、グラフィックス処理ユニット、複数の処理ユニット、機能を実現するための専用回路、プログラマブルロジック、又は、他の処理システムを含むものとしてよい。さらに、データ増強システム100は、単一のシステムとして図示されているが、本明細書において説明される機能を実現するために協働するいくつかの別個のシステムを含むものとしてよいことが理解されるであろう。
通信モジュール106は、種々の他の装置との通信を可能にするために通信モジュールに慣用的に含まれている1つ又は複数のトランシーバ、モデム、プロセッサ、メモリ、発振器、アンテナ又は他のハードウェアを含むものとしてよい。少なくともいくつかの実施形態においては、通信モジュール106は、Wi-Fiネットワーク及び/又はWi-Fiルータ(図示せず)との通信を可能にするように構成されたWi-Fiモジュールを含む。さらなる実施形態においては、通信モジュール46は、Bluetooth(登録商標)モジュール、イーサネットアダプタ、及び、無線電信ネットワークと通信するように構成された通信装置をさらに含むものとしてよい。
ディスプレイスクリーン108は、LCD又はOLEDスクリーンのような任意の種々の公知の種類のディスプレイを含むものとしてよい。いくつかの実施形態においては、ディスプレイスクリーン108は、ユーザからのタッチ入力を受信するように構成されたタッチスクリーンを含むものとしてよい。ユーザインタフェース110は、当業者によって認識されるように、マウス、トラックパッド又は他のポインティング装置、キーボード又は他のキーパッド、スピーカ及びマイクロフォンのような、ユーザによるデータ増強システム100のローカル操作を可能にするように構成された種々の装置を適当に含むものとしてよい。選択的に、いくつかの実施形態においては、ユーザは、通信モジュール106を介してデータ増強システム100と通信し、かつ、同様のユーザインタフェースを有している他のコンピューティング装置から、データ増強システム100をリモート操作することができる。
メモリ104に格納されているプログラム命令は、データ増強プログラム112を含み、データ増強プログラム112は、テキストデータ生成モデル114と、テキストデータラベル付けモデル116とを含む。特に、プロセッサ102は、データ増強プログラム112のテキストデータ生成モデル114を実行して、手動でラベル付けされたテキストデータの小さいセットに基づいて、新たなテキストデータを生成する。同様に、プロセッサ102は、データ増強プログラム112のテキストデータラベル付けモデル116を実行して、新たに生成されたテキストデータのための提案されるラベルを生成する。文章分類の文脈においては、テキストデータ生成モデル114及びテキストデータラベル付けモデル116は、例えば、それぞれ文章生成器40及び文章分類器50を実装する。
データ増強システムの動作方法
図4は、データ増強システムを動作させるための方法200に関するフローチャートを示している。これらの方法の説明において、何らかのタスク、計算又は機能が実行されるとの記載は、プロセッサ(例えば、データ増強システム100のプロセッサ102)が、プログラミングされた命令(例えば、データ増強プログラム112、テキストデータ生成モデル114、又は、テキストデータラベル付けモデル116)を実行することを指し、これらの命令は、タスク又は機能が実行されるようにデータを操作するために、又は、データ増強システム100の1つ又は複数のコンポーネントを動作させるためにプロセッサに動作可能に接続される非一時的なコンピュータ可読記憶媒体(例えば、データ増強システム100のメモリ104)に格納されている。さらに、方法のステップは、図面に示されている順序又はステップが説明される順序にかかわらず、任意の実現可能な時間的順序で実施可能である。
図4は、データ増強システムを動作させるための方法200に関するフローチャートを示している。これらの方法の説明において、何らかのタスク、計算又は機能が実行されるとの記載は、プロセッサ(例えば、データ増強システム100のプロセッサ102)が、プログラミングされた命令(例えば、データ増強プログラム112、テキストデータ生成モデル114、又は、テキストデータラベル付けモデル116)を実行することを指し、これらの命令は、タスク又は機能が実行されるようにデータを操作するために、又は、データ増強システム100の1つ又は複数のコンポーネントを動作させるためにプロセッサに動作可能に接続される非一時的なコンピュータ可読記憶媒体(例えば、データ増強システム100のメモリ104)に格納されている。さらに、方法のステップは、図面に示されている順序又はステップが説明される順序にかかわらず、任意の実現可能な時間的順序で実施可能である。
方法200は、テキストデータのユニットを受信することから始まる(ブロック210)。特に、プロセッサ102は、テキストデータを受信し、このテキストデータは、テキストデータの特徴を記述する対応するラベルに関連付けられているものとしてよい。テキストデータは、特に、テキストデータの個々のユニットxであり、例えば、文章を含むものとしてよいが、同様に、テキストデータの語句又は段落のような任意の他のユニットを含むものとしてもよい。少なくとも1つの実施形態においては、プロセッサ102は、メモリ104からテキストデータのユニットxを読み出し、メモリ104は、手動で作成された文章ラベルのペア
からなる訓練用データDを格納しており、ここで、x(i)は、予め定義されたラベルZ(例えば、「自動車問題」又は「非自動車問題」)のセットからの対応する分類ラベルである。
少なくとも1つの実施形態においては、テキストデータの複数のユニットx(i)は、上述したように、情報又は知識の特定のドメイン(例えば、自動車問題)に関連する。少なくとも1つの実施形態においては、テキストデータのそれぞれのユニットx(i)のための対応するラベルz(i)は、テキストデータのユニットx(i)の分類(例えば、文章が自動車問題を記述しているかどうか、又は、自動車問題を記述していないかどうか)を識別する分類ラベルであり、テキストデータの対応するユニットの多種多様な意味論的概念及び属性を識別することもできる。いくつかの実施形態においては、テキストデータのそれぞれのユニットx(i)は、2つ以上のラベルz(i)を有するものとしてよい。
方法200は、テキスト生成モデルを使用して、受信したテキストデータのユニットに基づいてテキストデータの新たなユニットを生成することを続けて行う(ブロック230)。特に、プロセッサ102は、テキストデータ生成モデル114のプログラム命令を実行して、受信したテキストデータのユニットxに基づいてテキストデータの新たなユニットyを生成するように構成されている。いくつかの実施形態においては、プロセッサ102は、受信したテキストデータのそれぞれのユニットxに基づいてテキストデータの複数の新たなユニットyを生成する。上述したように、文章分類の文脈においては、テキストデータ生成モデル114は、例えば、文章生成器40を実装し、より具体的には、エンコーダ・デコーダモデル42を実装する。しかしながら、テキストデータ生成モデル114が、これとは異なるバリエーション及び種類の機械学習モデルを実装するものとしてよいことが理解されるべきである。
いくつかの実施形態においては、プロセッサ102は、受信したテキストデータのユニットxを、テキストに対応するトークンの入力シーケンスxに変換(又は「トークン化」)し、次いで、テキストデータ生成モデル114のエンコーダ(例えば、エンコーダ・デコーダモデル42のエンコーダ44)を使用して、トークンの入力シーケンスxを符号化する。次に、プロセッサ102は、テキストデータ生成モデル114のデコーダ(例えば、エンコーダ・デコーダモデル42のデコーダ46)を使用して、トークンの出力シーケンスyに関する確率分布を決定する。最後に、プロセッサ102は、テキストデータ生成モデル114の推論モデルを使用して、テキストデータの新たなユニットyを決定する。
少なくともいくつかの実施形態においては、テキストデータ生成モデル114の推論モデルは、トークンの出力シーケンスyに関する確率分布に基づいて「最良の」又は最尤の出力シーケンスを決定するビームサーチのような探索アルゴリズムである。従って、テキストデータの1つの新たなユニットyが決定されるべき場合には、プロセッサ102は、ビームサーチを使用してトークンの出力シーケンスに関する確率分布に基づいて、トークンの最尤の出力シーケンスとしてテキストデータの新たなユニットyを決定する。テキストデータの複数の新たなユニットyが決定されるべき場合には、プロセッサ102は、ビームサーチを使用してトークンの出力シーケンスに関する確率分布に基づいて、トークンのk個の最尤の出力シーケンスとしてテキストデータの複数の新たなユニットyを決定する。
図2のエンコーダ・デコーダモデル42に関して上述したように、テキストデータ生成モデル114は、初期時に、メモリ104に格納されている訓練用データDのテキストデータの複数のユニットx(i)に基づいて、強化学習プロセスを使用して訓練される。特に、プロセッサ102は、複数の報酬関数rU(x,y)、rD(x,y)及びrR(x,y)を強化するマルチ報酬最適化を使用して、テキストデータ生成モデル114のパラメータを最適化する。
方法200は、テキストラベル付けモデルを使用して、テキストデータの新たなユニットのための提案されるラベルを決定することを続けて行う(ブロック250)。特に、プロセッサ102は、テキストデータの新たなユニットyに基づいて、予め定義されたラベルZのセットから提案されるラベル
を決定するために、テキストデータラベル付けモデル116のプログラム命令を実行するように構成されている。テキストデータの複数の新たなユニットyが生成された場合、プロセッサ102は、テキストデータの複数の新たなユニットyにおけるテキストデータのそれぞれの新たなユニットyのためのそれぞれの提案されるラベル
を決定する。上述のように、文章分類の文脈においては、テキストデータラベル付けモデル116は、例えば、多種多様な深層学習モデルを含み得る文章分類器50を実装する。同様に、文章分類の文脈においては、ラベル
は、分類ラベル(例えば、「自動車問題」又は「非自動車問題」)である。
文章分類器50に関して以上において詳細に説明したように、テキストデータラベル付けモデル116は、初期時に、メモリ104に格納されている手動で作成された文章ラベルのペア
からなる訓練用データDの(初期時には小さい)セットに対して訓練される。
方法200は、テキストデータの新たなユニット又は提案されたラベルの検証又は修正をユーザから受信することを続けて行う(ブロック270)。特に、テキストデータの新たなユニットyと、提案されたラベル
とからなるそれぞれのペアが生成されると、プロセッサ102は、テキストデータの新たなユニットyと、提案されたラベル
とをユーザに、特にドメイン専門家20に出力するように出力装置を動作させる。少なくとも1つの実施形態においては、プロセッサ102は、テキストデータの新たなユニットyと、提案されたラベル
とを含むグラフィカルユーザインタフェースを表示するようにディスプレイスクリーン108を動作させる。
プロセッサ102は、ユーザインタフェース110を介して入力を受信し、この入力は、(i)テキストデータの新たなユニットyに対する修正を含む、テキストデータの修正された新たなユニットy’と、
(ii)提案されたラベル
の修正である修正されたラベル
と、のうちの少なくとも1つを定義する。選択的に、プロセッサ102は、如何なる修正も行うことなくテキストデータの新たなユニットyと、提案されたラベル
との検証を示す入力を受信する。この目的で、ドメイン専門家20は、ディスプレイスクリーン108及びユーザインタフェース110を介してデータ増強システム100と対話して、テキストデータの新たなユニットyと、提案されたラベル
との正確さを検証し、必要に応じてテキストデータの新たなユニットy、又は、提案されたラベル
に対する修正を提供する。このような修正は、テキストデータの新たなユニットyにおける文法上、スペル上又は他の構文上の誤りを修正するための、テキストデータに対する編集を含むものとしてよい。同様に、修正は、提案されたラベル
を、予め定義されたラベルZのセットとは異なるラベルに変更することを含むものとしてよい。
(ii)提案されたラベル
方法200は、テキストデータの新たなユニットと、提案されたラベルとの検証又は修正に基づいて、テキスト生成モデル及びテキストラベル付けモデルを再訓練することを続けて行う(ブロック290)。特に、テキストデータの新たなユニットyと、提案されたラベル
とがドメイン専門家20によって修正又は検証されると、プロセッサ102は、テキストデータの修正/検証された新たなユニットy’と、修正/検証されたラベル
とを、元々の訓練用データDと共にメモリ104に格納する。換言すれば、新たに生成されて検証/修正された文章ラベルのペアが、訓練用データDのセットに追加される。
訓練用データDに新たな訓練用例を追加することにより、漸進的な性能改善を提供するために、テキストデータ生成モデル114及びテキストデータラベル付けモデル116を再訓練することができる。特に、プロセッサ102は、テキストデータの修正/検証された新たなユニットy’を含む、訓練用データDの更新されたセットを使用して、上述した強化学習プロセスを使用してテキストデータ生成モデル114を再訓練する。同様に、プロセッサ102は、テキストデータの修正/検証された新たなユニットy’と、修正/検証されたラベル
とをペアとして含む、訓練用データDの更新されたセットを使用して、上述したようにテキストデータラベル付けモデル116を再訓練する。
いくつかの実施形態においては、弱教師下での強化学習に加えて、テキストデータの入力ユニットxと、ドメイン専門家20によって検証又は修正された、テキストデータの新たなユニットyとのペアを使用して、テキストデータ生成モデル114をさらに訓練することができる。このようにして、テキストデータのますますより多くの新たなユニットyが生成及び検証されるので、教師下でのより慣用的な訓練プロセスにおけるペアワイズの訓練用例を使用して、テキストデータ生成モデル114をさらに訓練することができる。
本開示の範囲内の各実施形態は、コンピュータ実行可能命令(プログラム命令とも称される)又は内部に格納されたデータ構造を担持又は保持するための非一時的なコンピュータ可読記憶媒体又は機械可読媒体を含むものとしてもよい。そのような非一時的なコンピュータ可読記憶媒体又は機械可読媒体は、汎用又は専用のコンピュータによってアクセス可能な任意の利用可能な媒体であるものとしてよい。限定ではなく例として、このような非一時的なコンピュータ可読記憶媒体又は機械可読媒体は、RAM、ROM、EEPROM、CD-ROM若しくは他の光学的なディスク記憶装置、磁気的なディスク記憶装置若しくは他の磁気的な記憶装置、又は、所望のプログラムコード手段をコンピュータ実行可能命令若しくはデータ構造の形態で担持若しくは格納するために使用可能な任意の他の媒体を含み得る。上記のものの組合せもまた、非一時的なコンピュータ可読記憶媒体又は機械可読媒体の範囲内に含まれるべきである。
コンピュータ実行可能命令は、例えば、汎用のコンピュータ、専用のコンピュータ、又は、専用の処理装置に特定の機能若しくは機能群を実行させる命令及びデータを含む。コンピュータ実行可能命令は、スタンドアロン又はネットワーク環境にあるコンピュータによって実行されるプログラムモジュールも含む。一般的に、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント及びデータ構造等を含む。コンピュータ実行可能命令、関連するデータ構造及びプログラムモジュールは、本明細書において開示される方法のステップを実行するためのプログラムコード手段の例を表している。そのような実行可能命令又は関連するデータ構造の特定のシーケンスは、そのようなステップにおいて説明された機能を実施するための対応する動作の例を表している。
図面及び前述の明細書において本開示が詳細に例示及び説明されてきたが、これらの図面及び前述の明細書は、例示として考えられるべきであり、その性質を限定するものと考えられるべきではない。好ましい実施形態が提示されているに過ぎず、本開示の思想内に含まれる総ての変更、修正及びさらなる用途が保護されることが求められていることを理解されたい。
Claims (20)
- ラベル付けされたテキスト訓練用データを生成するための方法であって、
プロセッサによって、テキストデータの第1のユニットを受信することと、
前記プロセッサによって、第1の機械学習モデルを使用して、前記テキストデータの前記第1のユニットに基づいて前記テキストデータの第2のユニットを生成することと、
前記プロセッサによって、第2の機械学習モデルを使用して、前記テキストデータの前記第2のユニットの特徴を記述するラベルを決定することと、
出力装置によって、前記テキストデータの前記第2のユニットと前記ラベルとをユーザに出力することと、
ユーザインタフェースを介して、(i)前記テキストデータの前記第2のユニットに対する修正及び前記テキストデータの前記第2のユニットの検証のうちの一方と、(ii)前記ラベルの修正及び前記ラベルの検証のうちの一方とを受信することと、
前記プロセッサによって、(i)修正された前記テキストデータの前記第2のユニット及び検証された前記テキストデータの前記第2のユニットのうちの一方と、(ii)修正された前記ラベル及び検証された前記ラベルのうちの一方とを使用して、前記第2の機械学習モデルを再訓練することと、
を含む方法。 - 前記プロセッサによって、修正された前記テキストデータの前記第2のユニット及び検証された前記テキストデータの前記第2のユニットのうちの一方を使用して、前記第1の機械学習モデルを再訓練すること
をさらに含む、請求項1に記載の方法。 - 前記第1の機械学習モデルは、シーケンス・ツー・シーケンスモデルである、
請求項1に記載の方法。 - 前記テキストデータの前記第2のユニットを生成することは、
前記プロセッサによって、前記第1の機械学習モデルのエンコーダを使用して、前記テキストデータの前記第1のユニットをトークン化したものであるトークンの入力シーケンスを符号化することと、
前記プロセッサによって、前記第1の機械学習モデルのデコーダを使用して、前記トークンの出力シーケンスに関する確率分布を決定することと、
前記プロセッサによって、前記トークンの出力シーケンスに関する前記確率分布に基づいて、前記テキストデータの前記第2のユニットを決定することと、
をさらに含む、請求項3に記載の方法。 - 前記テキストデータの前記第2のユニットを生成することは、
前記プロセッサによって、前記トークンの出力シーケンスに関する前記確率分布に基づいて、前記テキストデータの前記第2のユニットをトークンの最尤の出力シーケンスとして決定すること
をさらに含む、請求項4に記載の方法。 - 前記テキストデータの前記第2のユニットを生成することは、
前記プロセッサによって、ビームサーチを使用して、前記トークンの出力シーケンスに関する前記確率分布に基づいて、前記トークンの最尤の出力シーケンスを決定すること
をさらに含む、請求項5に記載の方法。 - 前記テキストデータの前記第2のユニットを生成することは、
前記プロセッサを用いて、テキストデータの複数の第2のユニットを生成することをさらに含み、
前記テキストデータの前記複数の第2のユニットは、前記トークンの出力シーケンスに関する前記確率分布に基づいて、トークンの所定数の最尤の出力シーケンスとして決定される、
請求項4に記載の方法。 - 前記第1の機械学習モデルの前記エンコーダ及び前記デコーダのうちの少なくとも一方は、トランスフォーマに基づくニューラルネットワーク・アーキテクチャを有する、
請求項4に記載の方法。 - 前記テキストデータの前記第2のユニットを生成することの前に、前記プロセッサによって、強化学習プロセスを使用して、テキストデータの複数のユニットに基づいて前記第1の機械学習モデルを訓練すること
をさらに含む、請求項1に記載の方法。 - 前記第1の機械学習モデルを訓練することは、
前記プロセッサによって、複数の報酬関数を強化するマルチ報酬最適化を使用して、前記第1の機械学習モデルのパラメータを最適化すること
をさらに含む、請求項9に記載の方法。 - 前記複数の報酬関数は、第1の報酬関数を含み、
前記第1の報酬関数は、前記第1の機械学習モデルにトークンのそれぞれの入力シーケンスが与えられると、トークンのそれぞれの出力シーケンスの特徴を記述するそれぞれのラベルを決定する際に、前記第2の機械学習モデルの(i)不確実性及び(ii)エントロピーのうちの少なくとも一方が相対的に高くなっている、前記第1の機械学習モデルによって生成されるトークンのそれぞれの出力シーケンスに対して報酬を付与する、
請求項10に記載の方法。 - 前記複数の報酬関数は、第2の報酬関数を含み、
前記第2の報酬関数は、前記第1の機械学習モデルにトークンのそれぞれの入力シーケンスが与えられると、前記トークンのそれぞれの入力シーケンスとは相対的に異なっている、前記第1の機械学習モデルによって生成されるトークンのそれぞれの出力シーケンスに対して報酬を付与する、
請求項10に記載の方法。 - 前記複数の報酬関数は、第3の報酬関数を含み、
前記第3の報酬関数は、前記第1の機械学習モデルにトークンのそれぞれの入力シーケンスが与えられると、言語モデルに提供される際に相対的に低いパープレキシティを有する、前記第1の機械学習モデルによって生成されるトークンのそれぞれの出力シーケンスに対して報酬を付与する、
請求項10に記載の方法。 - 前記第2の機械学習モデルは、深層ニューラルネットワーク・モデルである、
請求項1に記載の方法。 - 前記ラベルを決定することの前に、前記プロセッサによって、テキストデータの複数のユニットに基づいて前記第2の機械学習モデルを訓練すること
をさらに含み、
前記テキストデータの前記複数のユニットにおけるテキストデータのそれぞれのユニットは、当該テキストデータのそれぞれのユニットの特徴を記述するそれぞれのラベルを有する、
請求項1に記載の方法。 - 前記テキストデータの前記第2のユニットと前記ラベルとを出力することは、
ディスプレイスクリーンによって、前記テキストデータの前記第2のユニットと前記ラベルとを含むグラフィカルユーザインタフェースをユーザに表示すること
をさらに含む、請求項1に記載の方法。 - 前記ラベルは、前記テキストデータの前記第2のユニットの分類である、
請求項1に記載の方法。 - 前記テキストデータの前記第1のユニットは、少なくとも1つの自然言語文章を含み、
前記テキストデータの前記第2のユニットは、少なくとも1つの自然言語文章を含む、
請求項1に記載の方法。 - ラベル付けされたテキスト訓練用データを生成するためのシステムであって、
当該システムは、
出力装置と、
ユーザインタフェースと、
テキストデータの複数のユニットを格納するように構成されたメモリであって、前記テキストデータの前記複数のユニットにおけるテキストデータのそれぞれのユニットは、当該テキストデータのそれぞれのユニットの特徴を記述するそれぞれのラベルを有する、メモリと、
前記出力装置、前記ユーザインタフェース及び前記メモリに動作可能に接続されているプロセッサと、
を含み、
前記プロセッサは、
前記メモリに格納されている前記テキストデータの前記複数のユニットからテキストデータの第1のユニットを読み出し、
第1の機械学習モデルを使用して、前記テキストデータの前記第1のユニットに基づいてテキストデータの第2のユニットを生成し、
第2の機械学習モデルを使用して、前記テキストデータの前記第2のユニットの特徴を記述するラベルを決定し、
前記テキストデータの前記第2のユニットと前記ラベルとをユーザに出力するために前記出力装置を動作させ、
(i)前記テキストデータの前記第2のユニットに対する修正及び前記テキストデータの前記第2のユニットの検証のうちの一方と、(ii)前記ラベルの修正及び前記ラベルの検証のうちの一方とを受信するために前記ユーザインタフェースを動作させ、
(i)修正された前記テキストデータの前記第2のユニット及び検証された前記テキストデータの前記第2のユニットのうちの一方と、(ii)修正された前記ラベル及び検証された前記ラベルのうちの一方とを使用して、前記第2の機械学習モデルを再訓練する
ように構成されている、システム。 - ラベル付けされたテキスト訓練用データを生成するための非一時的なコンピュータ可読媒体であって、当該コンピュータ可読媒体は、プログラム命令を格納しており、
前記プログラム命令は、プロセッサによって実行された場合に前記プロセッサに、
テキストデータの第1のユニットを受信させ、
第1の機械学習モデルを使用して、前記テキストデータの前記第1のユニットに基づいてテキストデータの第2のユニットを生成させ、
第2の機械学習モデルを使用して、前記テキストデータの前記第2のユニットの特徴を記述するラベルを決定させ、
前記テキストデータの前記第2のユニットと前記ラベルとをユーザに出力するために出力装置を動作させ、
(i)前記テキストデータの前記第2のユニットに対する修正及び前記テキストデータの前記第2のユニットの検証のうちの一方と、(ii)前記ラベルの修正及び前記ラベルの検証のうちの一方とを受信するためにユーザインタフェースを動作させ、
(i)修正された前記テキストデータの前記第2のユニット及び検証された前記テキストデータの前記第2のユニットのうちの一方と、(ii)修正された前記ラベル及び検証された前記ラベルのうちの一方とを使用して、前記第2の機械学習モデルを再訓練させる、
非一時的なコンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/181,288 | 2021-02-22 | ||
US17/181,288 US11875120B2 (en) | 2021-02-22 | 2021-02-22 | Augmenting textual data for sentence classification using weakly-supervised multi-reward reinforcement learning |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022128441A true JP2022128441A (ja) | 2022-09-01 |
Family
ID=82899649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022024509A Pending JP2022128441A (ja) | 2021-02-22 | 2022-02-21 | 弱教師ありマルチ報酬強化学習を使用した文章分類のためのテキストデータの増強 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11875120B2 (ja) |
JP (1) | JP2022128441A (ja) |
CN (1) | CN115034201A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230069285A1 (en) * | 2021-08-19 | 2023-03-02 | Bank Of America Corporation | Cognitive scrum master assistance interface for developers |
US11972424B1 (en) * | 2021-08-31 | 2024-04-30 | Amazon Technologies, Inc. | Detection of evasive item listings |
US20230274093A1 (en) * | 2022-02-28 | 2023-08-31 | Infosys Limited | Method and system for performance evaluation using an ai model |
CN117237720B (zh) * | 2023-09-18 | 2024-04-12 | 大连理工大学 | 基于强化学习的标签噪声矫正图像分类方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190287012A1 (en) * | 2018-03-16 | 2019-09-19 | Microsoft Technology Licensing, Llc | Encoder-decoder network with intercommunicating encoder agents |
US20210319363A1 (en) * | 2018-08-20 | 2021-10-14 | Yield Systems Oy | Method and system for generating annotated training data |
US11093707B2 (en) * | 2019-01-15 | 2021-08-17 | International Business Machines Corporation | Adversarial training data augmentation data for text classifiers |
JP7251214B2 (ja) * | 2019-03-01 | 2023-04-04 | 日本電信電話株式会社 | 文生成装置、文生成方法、文生成学習装置、文生成学習方法及びプログラム |
US11568307B2 (en) * | 2019-05-20 | 2023-01-31 | International Business Machines Corporation | Data augmentation for text-based AI applications |
US10853580B1 (en) * | 2019-10-30 | 2020-12-01 | SparkCognition, Inc. | Generation of text classifier training data |
US11741371B2 (en) * | 2020-03-20 | 2023-08-29 | International Business Machines Corporation | Automatically generating diverse text |
US11526667B2 (en) * | 2020-05-09 | 2022-12-13 | International Business Machines Corporation | Language-model-based data augmentation method for textual classification tasks with little data |
US11545145B2 (en) * | 2020-05-29 | 2023-01-03 | Samsung Electronics Co., Ltd. | Machine action based on language-independent graph rewriting of an utterance |
US11508360B2 (en) * | 2020-09-15 | 2022-11-22 | Microsoft Technology Licensing, Llc | Synthetic data generation for training of natural language understanding models |
US20220198157A1 (en) * | 2020-12-22 | 2022-06-23 | Microsoft Technology Licensing, Llc | Multilingual Model Training Using Parallel Corpora, Crowdsourcing, and Accurate Monolingual Models |
-
2021
- 2021-02-22 US US17/181,288 patent/US11875120B2/en active Active
-
2022
- 2022-02-21 JP JP2022024509A patent/JP2022128441A/ja active Pending
- 2022-02-21 CN CN202210156138.5A patent/CN115034201A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220269863A1 (en) | 2022-08-25 |
US11875120B2 (en) | 2024-01-16 |
CN115034201A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220050967A1 (en) | Extracting definitions from documents utilizing definition-labeling-dependent machine learning background | |
US11562147B2 (en) | Unified vision and dialogue transformer with BERT | |
Logeswaran et al. | Sentence ordering and coherence modeling using recurrent neural networks | |
JP2022128441A (ja) | 弱教師ありマルチ報酬強化学習を使用した文章分類のためのテキストデータの増強 | |
Daume et al. | Practical structured learning techniques for natural language processing | |
Geiger et al. | Posing fair generalization tasks for natural language inference | |
US20240104301A1 (en) | Proficiency and native language-adapted grammatical error correction | |
US20210216887A1 (en) | Knowledge graph alignment with entity expansion policy network | |
US11016740B2 (en) | Systems and methods for virtual programming by artificial intelligence | |
Pramanik et al. | Text normalization using memory augmented neural networks | |
JP2021125217A (ja) | マルチホップ機械読み取りのための潜在質問再定式化および情報蓄積 | |
Lin | Reinforcement learning and bandits for speech and language processing: Tutorial, review and outlook | |
Alsmadi et al. | Adversarial machine learning in text processing: a literature survey | |
EP3627403A1 (en) | Training of a one-shot learning classifier | |
US11941360B2 (en) | Acronym definition network | |
Göker et al. | Neural text normalization for turkish social media | |
Heymann et al. | Improving ctc using stimulated learning for sequence modeling | |
CN115906854A (zh) | 一种基于多级对抗的跨语言命名实体识别模型训练方法 | |
KR20220073644A (ko) | 제약 조건을 이용하는 질의 응답 시스템 및 정보 제공 방법 | |
Afrae et al. | A Question answering System with a sequence to sequence grammatical correction | |
Kreyssig | Deep learning for user simulation in a dialogue system | |
Bowden | A Review of Textual and Voice Processing Algorithms in the Field of Natural Language Processing | |
US20230376789A1 (en) | Automatic rule induction for semi-supervised text classification | |
KR102280792B1 (ko) | 대화 재구성 기반의 질의 응답 시스템 | |
KR102673273B1 (ko) | 텍스트 교정 방법 및 장치 |