JP7483751B2

JP7483751B2 - 教師なしデータ拡張を使用した機械学習モデルのトレーニング

Info

Publication number: JP7483751B2
Application number: JP2021563340A
Authority: JP
Inventors: タン・ミン・ルオン; クォク・ヴィー・レ; チジェ・シエ; ジハン・ダイ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-04-25
Filing date: 2020-04-24
Publication date: 2024-05-15
Anticipated expiration: 2040-04-24
Also published as: US12118064B2; US20220215209A1; EP3942479A1; JP2022530127A; WO2020219971A1; CN113826125A

Description

関連出願の相互参照
本出願は、その全体が参照により本明細書に組み込まれている、2019年4月25日に出願した米国特許出願第62/838,932号の優先権を主張するものである。

本明細書は、機械学習モデルのトレーニングに関する。詳細には、限定されないが、本明細書は、知覚タスク(例えば視覚または音声に関係するタスク)のための機械学習モデルのトレーニングに関する。

機械学習モデルは、入力を受領し、受領した入力とモデルのパラメータの値とに基づいて、出力、例えば予測された出力を生成する。

ニューラルネットワークは、非線形ユニットの1つまたは複数の層を用いて、受領した入力についての出力を予測する、機械学習モデルである。一部のニューラルネットワークは、出力層に加えて、1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワーク内の次の層、すなわち次の隠れ層または出力層への入力として使用される。ネットワークの各層は、受領した入力から、それぞれに対応するパラメータ集合の現在値に従って出力を生成する。

一部のニューラルネットワークは、再帰型ニューラルネットワークである。再帰型ニューラルネットワークは、入力系列を受領し、その入力系列から出力系列を生成する、ニューラルネットワークである。具体的には、再帰型ニューラルネットワークは、以前の時間ステップからのネットワークの内部状態の一部または全てを、現在の時間ステップにおける出力を計算する際に使用することができる。再帰型ニューラルネットワークの一例が、長短期(LSTM)ニューラルネットワークであり、これは、1つまたは複数のLSTMメモリブロックを含む。各LSTMメモリブロックは、1つまたは複数のセルを含むことができ、セルはそれぞれ、入力ゲート、忘却ゲート、および出力ゲートを含み、これらのゲートにより、セルは、例えば現在の活性化を生じさせる際に使用するかまたはLSTMニューラルネットワークの他のコンポーネントに提供される、そのセルの以前の状態を記憶することが可能になっている。

Ekin D Cubuk、Barret Zoph、Dandelion Mane、Vijay Vasudevan、およびQuoc V Le. Autoaugment: Learning augmentation policies from data. arXivプレプリント arXiv:1805.09501、2018年 Ekin D Cubuk、Barret Zoph、Jonathon Shlens、およびQuoc V Le. Randaugment: Practical data augmentation with no separate search. arXivプレプリント、2019年 Virtual adversarial training (VAT) (Miyatoら、2018年) MixMatch ((Berthelotら、2019年))

本明細書では、機械学習モデルを、半教師あり学習を通じて、すなわちラベルなしトレーニング入力およびラベルありトレーニング入力を含むトレーニングデータに対して機械学習モデルをトレーニングすることによって、ある機械学習タスクを実行するようにトレーニングする、1つまたは複数の位置にある1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されるシステムについて説明する。ラベルありトレーニング入力は、それについてグラウンドトゥルース出力、すなわち機械学習モデルがラベルありトレーニング入力に対して特定の機械学習タスクを実行することにより生成すべき出力が利用可能な、入力である。ラベルなしトレーニング入力は、それについてグラウンドトゥルース出力が利用不可能なトレーニング入力である。

システムは、トレーニングデータから拡張トレーニングデータを生成し、次いで、拡張トレーニングデータに対して機械学習をトレーニングすることによって、機械学習モデルをトレーニングする。拡張トレーニングデータを生成することは、複数のラベルなしトレーニング入力のそれぞれについて、ラベルなしトレーニング入力にデータ拡張技法を適用することによって、それぞれに対応する拡張トレーニング入力を生成することを含む。

本明細書において説明する本主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するように実装することができる。本明細書において説明するように機械学習モデルをトレーニングすることによって、機械学習モデルを、正確なモデル出力を生成するようにトレーニングすることが可能である。具体的には、本明細書において説明するように機械学習モデルをトレーニングすることによって、ラベルなしトレーニングデータをトレーニングに効果的に組み込むことができ、それによって、機械学習モデルの性能が向上する。すなわち、追加のラベルありトレーニングデータを必要とせずに、トレーニング済みモデルの性能を向上させることができる。ラベルなしトレーニングデータは一般に、ラベルありトレーニングデータよりも容易に入手できるので、追加のトレーニングデータを取得または生成する時間および計算コストを大幅に増大させずに、トレーニングの効果を向上させることができる。より具体的には、拡張技法、例えばラベルありトレーニングデータに従来適用されてきた技法を、ラベルなしデータに効果的に適用して、ラベルありまたはラベルなしの追加のトレーニングデータを必要とせずに、機械学習モデルのトレーニングを向上させることができる。加えて、ラベルありトレーニングデータを比較的少量しか入手できないとしても、容易に入手できるラベルなしトレーニングデータを、本明細書において説明するようにトレーニングに効果的に組み込むことによって、機械学習モデルを効果的にトレーニングすることができる。したがって、正確なモデル出力を生成するためのモデルのトレーニングは、正確なラベルありトレーニングデータの入手可能性にそれほど依存しないようになる。結果として、モデルを効果的に、かつ完全な教師あり集合に対してトレーニングされたモデルと比べてはるかに少ないラベルあり例を用いて、トレーニングすることが可能である。

本明細書において説明する本主題の1つまたは複数の実施形態の詳細は、添付の図面および下の説明中に記載されている。本主題の他の特徴、態様、および利点が、説明、図面、および特許請求の範囲から明らかとなろう。

例示的な機械学習モデルトレーニングシステムを示す図である。機械学習モデルをトレーニングするための例示的なプロセスのフロー図である。ラベルなしトレーニング入力のバッチおよびラベルありトレーニング入力のバッチに対して機械学習モデルをトレーニングするための例示的なプロセスのフロー図である。説明した技法の性能を、他の半教師あり学習技法と比べた様子を示す図である。

さまざまな図面中の同様の参照番号および名称は、同様の要素を示す。

図1は、例示的な機械学習モデルトレーニングシステム100を示す。機械学習モデルトレーニングシステム100は、1つまたは複数の位置にある1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されるシステムの一例であり、下で説明するシステム、コンポーネント、および技法はこのシステム内に実装することができる。

機械学習モデルトレーニングシステム100は、本明細書ではモデルパラメータと呼ばれる機械学習モデル110のパラメータのトレーニング済みの値を、モデルパラメータの初期値から決定するように、ラベルありトレーニングデータ140およびラベルなしトレーニングデータ150を含むトレーニングデータに対して機械学習モデル110をトレーニングする、システムである。

機械学習モデル110は、モデル入力102を受領するように構成され、またモデルパラメータに従って特定の機械学習タスクを実行するためにモデル入力102をモデル出力112にマッピングするように、モデル入力を処理するように構成された、機械学習モデルである。

機械学習モデル110は、多様な機械学習タスクのいずれかを実行するように、すなわち、入力として任意の種類のデジタルデータ入力を受領し、その入力からモデル出力を生成するように、構成することができる。一般に、モデル出力は、可能なクラスの集合に関する確率分布である。

例えば、タスクがコンピュータビジョンタスク、例えば画像分類である場合、モデル110への入力は画像であり、所与の画像についてのモデル出力は、物体カテゴリの集合のそれぞれについての確率とすることができ、各確率は、画像がそのカテゴリに属する物体の画像を含む推定尤度を表す。

別の例として、機械学習タスクがドキュメント分類である場合、機械学習モデル110への入力は、インターネットリソース(例えばウェブページ)またはドキュメントからのテキストであり、所与のインターネットリソース、ドキュメント、またはドキュメントの一部分についてのモデル出力は、トピックの集合のそれぞれについてのスコアとすることができ、各スコアは、インターネットリソース、ドキュメント、またはドキュメントの一部分がそのトピックについてのものである推定尤度を表す。

別の例として、タスクが自然言語理解タスクである場合、機械学習モデル110への入力は、テキスト系列であり、所与のテキスト系列についてのモデル出力は、自然言語理解タスクに適した確率分布、例えば言語容認性カテゴリ、言語感情(language sentiment)カテゴリ、言語言い換え(language paraphrasing)カテゴリ、文章類似性カテゴリ、テキスト含意(textual entailment)カテゴリ、質問応答カテゴリなどにわたる分布とすることができる。

別の例として、タスクが健康予測タスクである場合、機械学習モデル110への入力は、患者の電子健康記録データであり、所与の系列についてのモデル出力は、患者の健康関連カテゴリ、例えば患者にとってあり得る診断、患者に関連する起こり得る将来的な健康現象などに関する確率分布とすることができる。

別の例として、タスクが音声処理タスクである場合、機械学習モデル110への入力は、口頭による発話(spoken utterance)を表すオーディオデータ、例えば生のオーディオ特徴または音響特徴とすることができ、モデル出力は、音声分類カテゴリの集合に関する確率分布、例えば可能な言語に関する確率分布、可能なホットワードの集合に関する確率分布などとすることができる。

機械学習モデル110は、機械学習モデル110によって処理されるモデル入力のタイプに適した任意のアーキテクチャを有することができる。例えば、モデル入力が画像であるとき、機械学習モデル110は、畳み込みニューラルネットワークとすることができる。モデル入力がテキスト系列、または他の特徴、例えば電子健康記録特徴の系列であるとき、機械学習モデル110は、セルフアテンションベースのニューラルネットワーク、例えばTransformer、または再帰型ニューラルネットワーク、例えば長短期メモリ(LSTM)ニューラルネットワークとすることができる。モデル入力が、複数のモダリティ、例えば画像とテキストの両方、からなる入力を含むとき、モデル110は、異なるタイプのニューラルネットワーク、例えば畳み込み層とセルフアテンション層または再帰層の両方を含むことができる。

システム100によって機械学習モデル110をトレーニングするために使用されるラベルありトレーニングデータ140は、ラベルありトレーニング入力の複数のバッチを含む。このトレーニング入力が「ラベルあり」トレーニング入力と呼ばれるのは、ラベルありトレーニングデータ140が、各ラベルありトレーニング入力についてグラウンドトゥルース出力、すなわち機械学習モデルがラベルありトレーニング入力に対して特定の機械学習タスクを実行することにより生成すべき出力も含むためである。換言すれば、グラウンドトゥルース出力は、機械学習タスクの、対応するラベルありトレーニング入力に対して実行されるときの実際の出力である。

システム100によって機械学習モデル110をトレーニングするために使用されるラベルなしトレーニングデータ150は、ラベルなしトレーニング入力の複数のバッチを含む。このトレーニング入力が「ラベルなし」トレーニング入力と呼ばれるのは、ラベルなしトレーニング入力についてのグラウンドトゥルース出力が利用不可能なためであり、すなわちシステム100が、モデル110のトレーニングのために、ラベルなしトレーニング入力のいずれかについてのいかなるグラウンドトゥルース出力にもアクセスすることができないか、または他の何らかの理由でラベルなしトレーニング入力のいずれかについてのグラウンドトゥルース出力を使用することができないためである。

一般に、ラベルなしトレーニング入力のバッチは、ラベルありトレーニング入力のバッチと同じ数のトレーニング入力を含むこともあり、ラベルありトレーニング入力のバッチとは異なる数のトレーニング入力を含むこともある。例えば、ラベルありトレーニングアイテムよりもさらに多くのラベルなしトレーニングアイテムが利用可能な、よくあるケースでは、ラベルなしトレーニングアイテムのバッチは、ラベルありトレーニングアイテムのバッチよりも多くのトレーニングアイテムを含むことがある。

一般に、システム100は、トレーニングデータから拡張トレーニングデータを生成し、次いで、拡張トレーニングデータに対して機械学習モデル110をトレーニングすることによって、機械学習モデル110をトレーニングする。拡張トレーニングデータを生成するために、システム100は、複数のラベルなしトレーニング入力のそれぞれについて、ラベルなしトレーニング入力にデータ拡張技法を適用することによって、それぞれに対応する拡張トレーニング入力を生成する。

拡張トレーニングデータを生成し、拡張トレーニングデータに対して機械学習モデル110をトレーニングすることについては、下で図2および図3を参照してより詳細に説明する。

モデル110がトレーニングされた後、システム100は、新たなネットワーク入力を処理する際に使用するトレーニング済みモデルを指定したデータを提供することができる。すなわち、システム100は、モデルパラメータのトレーニング済みの値を、後にそのトレーニング済みモデルを使用して入力を処理する際に使用できるように、例えばユーザデバイスに出力することによって、またはシステム100にとってアクセス可能なメモリ内に記憶することによって、出力することができる。

トレーニング済み機械学習モデルデータを出力する代わりにまたはそれに加えて、システム100は、モデルパラメータのトレーニング済みの値を有する機械学習モデルのインスタンスをインスタンス化し、処理すべき入力を、例えばシステムによって提供されるアプリケーションプログラミングインターフェース(API)を通じて受領し、受領した入力を、トレーニング済みモデルを使用して処理して、モデル出力を生成し、次いで、受領した入力に応答して、生成されたモデル出力、分類出力、または両方を提供することもできる。

図2は、ラベルなしトレーニング入力およびラベルありトレーニング入力を含むトレーニングデータに対して機械学習モデルをトレーニングするための例示的なプロセス200のフロー図である。便宜上、プロセス200については、1つまたは複数の位置にある1つまたは複数のコンピュータからなるシステムによって実行されるものとして説明する。例えば、適切にプログラムされた、機械学習モデルトレーニングシステム、例えば図1の機械学習モデルトレーニングシステム100が、プロセス200を実行することができる。

システムは、特定の機械学習タスクを実行するためにモデル入力をモデル出力にマッピングするように機械学習モデルをトレーニングするための、トレーニングデータを受領する(ステップ202)。上述したように、トレーニングデータは、ラベルなしトレーニング入力とラベルありトレーニング入力の両方を含む。各ラベルありトレーニング入力について、トレーニングデータは、機械学習モデルがラベルありトレーニング入力に対して特定の機械学習タスクを実行することにより生成すべきグラウンドトゥルース出力も含む。

システムは、トレーニングデータから拡張トレーニングデータを生成する(ステップ204)。具体的には、システムは、複数のラベルなしトレーニング入力のそれぞれについて、ラベルなしトレーニング入力にデータ拡張技法を適用することによって、それぞれに対応する拡張ラベルなしトレーニング入力を生成する。

用いられるデータ拡張技法は、機械学習モデルがどのようなタイプの入力に作用するかに応じて決まる。

例えば、モデル入力が画像であるとき、データ拡張技法は、学習された、データ依存の技法、例えばAutoAugment手法を使用して学習された技法とすることができる。換言すれば、システムは、データ依存のAutoAugment手法を使用して、ラベルあり入力にわたって、画像処理変換の集合からラベルなし入力のための拡張技法として使用すべき画像処理変換の学習された組合せを探索することができる。AutoAugmentについては、Ekin D Cubuk、Barret Zoph、Dandelion Mane、Vijay Vasudevan、およびQuoc V Le. Autoaugment: Learning augmentation policies from data. arXivプレプリント arXiv:1805.09501、2018年に、より詳細に記載されている。

別の例として、モデル入力が画像であるとき、データ拡張技法は、ハイパーパラメータ探索を通じて、すなわちモデルのトレーニング前に、決定される技法とすることができる。例えば、データ拡張技法はRandAugment技法とすることができ、これは、グリッドサーチまたは他のハイパーパラメータ最適化技法を利用して、拡張方策を定めるハイパーパラメータ、例えば各画像に適用される変換の回数を定めるハイパーパラメータ、および適用される各変換の強度(magnitude)を定めるハイパーパラメータの値を特定するものである。RandAugmentについては、Ekin D Cubuk、Barret Zoph、Jonathon Shlens、およびQuoc V Le. Randaugment: Practical data augmentation with no separate search. arXivプレプリント、2019年に、より詳細に記載されている。

別の例として、モデル入力が自然言語テキストであるとき、データ拡張技法は逆翻訳技法とすることができる。逆翻訳は、言語Aの既存の例を別の言語Bに翻訳し、次いでそれをAに翻訳し戻して拡張例を取得する手順を指す。例えば、システムは、モデル入力内の1つまたは複数の語をランダムに選択し、そのランダムに選択された語を逆翻訳して、拡張ラベルなし入力を生成することができる。

さらに別の例として、モデル入力が自然言語テキストであるとき、データ拡張技法はTF-IDFベースの語置換技法とすることができる。TF-IDFベースの語置換技法は、高いTF-IDF値をもつ非情報的語を維持しながら低いTF-IDFスコアをもつ非情報的語を置換するという技法である。例えば、システムは、入力内の各語にその語のTF-IDF値に基づく確率を割り当てることができ、高いTF-IDF値をもつ語のほうが高い確率を有する。次いで、システムは、設定された個数の語を、割り当てられた確率に従ってサンプリングし、サンプリングされた各語を、例えば入力語の可能な語彙からサンプリングされた語と置換することができる。

したがって、拡張トレーニングデータは、(i)ラベルありトレーニング入力、(ii)ラベルなしトレーニング入力、および(iii)拡張ラベルなしトレーニング入力を含み、各ラベルなしトレーニング入力は、ラベルなしトレーニング入力のうちの1つに対応する。

(i)および(ii)については、本明細書では、拡張されていないトレーニング入力として説明しているが、場合によっては、システムは、入力が画像であるときに(i)および(ii)内のトレーニング例に単純な拡張、例えばクロッピングや反転を適用して、トレーニングプロセスのロバスト性を向上させることができる。これらの単純な拡張は一般に、(ii)から(iii)を生成するために使用される拡張方策とは異なり、すなわち、この拡張方策は一般に、単純な拡張よりもはるかに複雑である。換言すれば、場合によっては、拡張トレーニングデータ内のラベルありトレーニング入力およびラベルなしトレーニング入力には、別の拡張方策を使用する単純な拡張が適用されている。

次いで、システムは、拡張トレーニングデータに対して機械学習モデルをトレーニングする(ステップ206)。具体的には、システムは、教師なし目的(unsupervised objective)と教師あり目的(supervised objective)との組合せ、例えば和、平均、または加重和である目的を最適化するように、例えば損失を最小限に抑えるように、モデルをトレーニングする。

教師なし目的は、所与のラベルなしトレーニング入力について、(i)その所与のラベルなしトレーニング入力について機械学習モデルによって生成されたモデル出力と、(ii)対応する拡張教師なしトレーニング入力、すなわちそのラベルなしトレーニング入力から生成された拡張トレーニング入力について機械学習モデルによって生成されたモデル出力との間の差異の尺度となる。

一具体例として、教師なし目的は、(i)所与のラベルなしトレーニング入力について機械学習モデルによって生成されたモデル出力と、(ii)対応する拡張教師なしトレーニング入力について機械学習モデルによって生成されたモデル出力との間の、カルバック-ライブラー(K-L)ダイバージェンスに基づくことができる。この例では、教師なし目的は、

を満足させることができ、上式で、λは正の定数値、例えば1.5、1、または.5であり、Eは期待値演算子であり、xは、ラベルなしトレーニングデータUからのラベルなしトレーニング入力であり、

は、拡張方策qを適用することによってxから生成された、対応する拡張ラベルなしトレーニング入力であり、

は、(i)ラベルなしトレーニング入力xについて機械学習モデルpによって生成されたモデル出力と、(ii)拡張トレーニング入力

について機械学習モデルによって生成されたモデル出力との間のK-Lダイバージェンスであり、

はモデルパラメータを表し、

は現在のモデルパラメータθの固定のコピーを表し、したがって、モデルパラメータ更新データを計算するときに

を通じて勾配が伝搬しないことを意味する。

教師あり目的は、所与のラベルありトレーニング入力について、(i)その所与のラベルありトレーニング入力について機械学習モデルによって生成されたモデル出力と、(ii)その所与のラベルありトレーニング入力についてのグラウンドトゥルース出力との間の差異の尺度となる。一具体例として、教師あり目的は、所与のラベルありトレーニング入力について生成された確率分布による所与のグラウンドトゥルース出力の負の対数尤度に基づくことができる。換言すれば、教師あり目的は、

を満足させることができ、上式で、xは、ラベルありトレーニングデータLからのラベルありトレーニング入力であり、y^*は、xについてのグラウンドトゥルース出力である。

いくつかの実装形態では、機械学習モデルのトレーニングに利用可能なラベルなしデータ量とラベルありデータ量との間に大きな差異がある場合があり、すなわち、利用可能なトレーニングデータ内に、ラベルありデータよりもはるかに大量のラベルなしデータがある場合がある。これにより、モデルが、ラベルなしデータに対して未学習でありながら、限られた量のラベルありデータに対して早急に過学習する結果となることがある。この困難を軽減するために、いくつかの実装形態では、システムは、トレーニングが進行するにつれてラベルあり例の「トレーニング信号」を徐々にリリースする技法を使用する。

大まかに言うと、システムはこの技法を用いて、ラベルあり例に対するモデルの確信度が、トレーニングの間にスケジュールに従って増大する予め定められたしきい値未満である場合にのみ、その例を利用する。

より具体的には、システムは、上述したように教師あり目的として負の対数尤度を使用する代わりに、修正された教師あり目的を使用する。

上述した目的と同様に、修正された教師あり目的は、所与のラベルありトレーニング入力について生成された確率分布による所与のグラウンドトゥルース出力の負の対数尤度に、ただし確率分布によって所与のグラウンドトゥルース出力に割り当てられた確率が確信度しきい値未満であるときにのみ、基づく。

確率分布によって所与のグラウンドトゥルース出力に割り当てられた確率が確信度しきい値以上であるとき、システムは、その所与のトレーニング入力を損失関数から除去する。この除去は、確率分布によって所与のグラウンドトゥルース出力に割り当てられた確率が確信度しきい値以上であるときに、教師あり目的をゼロに等しくなるように設定することによって、達成することが可能である。

一般に、システムは、トレーニングが進行するにつれてこの確信度しきい値を増大させる。例えば、確率分布がそれにわたって生成されるカテゴリ数がKに等しい場合、システムは、トレーニングが進行するにつれて確信度しきい値を1/Kから1まで徐々に増大させることができる。一具体例として、システムは、各トレーニングステップ後に、すなわち下で説明する、実行されるプロセス300を反復するたびにその後で、確信度しきい値を増大させることができる。

システムは、多様なスケジュールのいずれかに従って確信度しきい値を増大させることができる。

例えば、システムは、対数関数的スケジュール(logarithmic schedule)に従ってスケジュールを増大させることができる。この例では、トレーニングステップtにおけるしきい値の値は、

を満足させ、上式で、

であり、Tはトレーニングステップの合計数である。

別の例として、システムは、線形スケジュール(linear schedule)に従ってスケジュールを増大させることができる。この例では、

である。

別の例として、システムは、指数関数的スケジュール(exponential schedule)に従ってスケジュールを増大させることができる。この例では、

である。

直観的に、モデルが過学習する傾向のあるとき、例えば、タスクが比較的容易であるか、またはラベルあり例の数が非常に限られているときは、指数関数的スケジュールが最も適しており、というのも、トレーニングの終わりに教師あり信号が大部分リリースされるためである。対照的に、モデルがそれほど過学習しない可能性があるとき(例えばラベルあり例が豊富にあるとき、またはモデルが効果的な正則化を用いているとき)は、対数関数的スケジュールを使用することができる。

具体的には、トレーニングの間、システムは機械学習モデルを、機械学習トレーニング手順の複数回の反復を実行することによってトレーニングし、手順の各反復は、ラベルありトレーニング入力のバッチとラベルなしトレーニング入力のバッチの両方に対して実行される。各反復の間、システムは、教師あり目的および教師なし目的に基づいて、その反復時点でのモデルパラメータの現在値に対する更新データを決定し、その更新データを現在値に適用して、モデルパラメータの更新値を生成する。

図3は、ラベルなしトレーニング入力のバッチおよびラベルありトレーニング入力のバッチに対して機械学習モデルをトレーニングするための例示的なプロセス300のフロー図である。便宜上、プロセス300については、1つまたは複数の位置にある1つまたは複数のコンピュータからなるシステムによって実行されるものとして説明する。例えば、適切にプログラムされた、機械学習モデルトレーニングシステム、例えば図1の機械学習モデルトレーニングシステム100が、プロセス300を実行することができる。

システムは、モデルパラメータのトレーニング済みの値をモデルパラメータの初期値から決定するために、ラベルありバッチ-ラベルなしバッチの複数の異なる組合せについて、プロセス300を複数回実行することができる。例えば、システムは、指定の反復回数にわたって、指定の時間量にわたって、またはパラメータの値の変化がしきい値を下回るまで、プロセス300の実行を継続することができる。

システムは、ラベルありトレーニング入力のバッチを取得する(ステップ302)。

システムは、各ラベルありトレーニング入力を、機械学習モデルを使用して、モデルパラメータの現在値に従って処理して、ラベルありトレーニング入力のそれぞれについて、それぞれに対応するモデル出力を生成する(ステップ304)。

システムは、ラベルなしトレーニング入力のラベルなしバッチ、およびラベルなしバッチ内の各ラベルなしトレーニング入力についての拡張ラベルなしトレーニング入力を取得する(ステップ306)。

システムは、各ラベルなしトレーニング入力、および各拡張ラベルなしトレーニング入力を、機械学習モデルを使用して、モデルパラメータの現在値に従って処理して、ラベルなしトレーニング入力のそれぞれについて、それぞれに対応するモデル出力を生成する(ステップ308)。

システムは、ラベルありトレーニング入力、ラベルなしトレーニング入力、およびラベルなしトレーニング入力についてのモデル出力に基づいて、モデルパラメータの現在値を更新する(ステップ310)。

具体的には、システムは、ラベルありトレーニング入力のそれぞれについて、教師あり目的のモデルパラメータに関するそれぞれに対応する勾配を決定し、ラベルなしトレーニング入力のそれぞれについて、教師なし目的のモデルパラメータに関するそれぞれに対応する勾配を決定する。

次いで、システムは、例えばそれぞれに対応する勾配を平均または加算することによって、それぞれに対応する勾配を複合して複合勾配を生成し、次いで、複合勾配を使用して、例えば複合勾配に更新ルール、例えば学習率、Adamオプティマイザ更新ルール、またはrmsProp更新ルールを適用して更新データを生成し、次いで更新データを現在値に適用、すなわち減算または加算することによって、モデルパラメータの現在値を更新する。

図4は、説明した技法の性能を、他の半教師あり学習技法と比べた様子を示す。

具体的には、図4は、説明した技法(「RandAugment」拡張方策を用いた「UDA」)を、大いに競争力のある2つのベースライン(1)入力に対して敵対的ガウス雑音を生成するアルゴリズムであるVirtual adversarial training (VAT) (Miyatoら、2018年)、および(2)半教師あり学習におけるこれまでの進展を融合させた技法であるMixMatch ((Berthelotら、2019年))と比較した様子を示す。

図4から分かるように、説明した技法を使用してトレーニングされたトレーニング済みモデルの誤り率は、さまざまなサイズのラベルありデータにおいて、2つのベースラインよりも一貫して低く、すなわち良好であり、すなわち、説明した技法は、さまざまなサイズのラベルありデータが与えられたとき、明確なマージンを伴って2つのベースラインよりも一貫して性能が優れている。

したがって、他の半教師あり学習技法、すなわちラベルありデータとラベルなしデータの両方を使用する他の技法と比べても、説明した技法は、より効果的なモデルトレーニングをもたらす。

本明細書では、システムおよびコンピュータプログラムコンポーネントに関連して、「構成される」という用語を使用している。1つまたは複数のコンピュータからなるシステムが、特定の動作またはアクションを実行するように構成されるとは、システムが、動作の際にそのシステムにその動作またはアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せを、システム上にインストールされる、ということを意味する。1つまたは複数のコンピュータプログラムが、特定の動作またはアクションを実行するように構成されるとは、データ処理装置によって実行されるとその装置にその動作またはアクションを実行させる命令を、その1つまたは複数のプログラムが含む、ということを意味する。

本明細書において説明した本主題および機能的動作の実施形態は、デジタル電子回路として、有形に具現化されたコンピュータソフトウェアもしくはコンピュータファームウェアとして、本明細書において開示した構造およびそれらの構造的等価物を含むコンピュータハードウェアとして、またはそれらのうちの1つもしくは複数のものの組合せとして、実装することができる。本明細書において説明した本主題の実施形態は、1つまたは複数のコンピュータプログラムとして、すなわちデータ処理装置によって実行できるように、またはデータ処理装置の動作を制御するために、有形の非一時的記憶媒体上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして、実装することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムアクセスもしくはシリアルアクセスのメモリデバイス、またはそれらのうちの1つもしくは複数のものの組合せとすることができる。その代わりにまたはそれに加えて、プログラム命令は、情報をデータ処理装置によって実行する目的で適切なレシーバ装置に送信できるように符号化するために生成される、人工的に生成された伝搬信号、例えば機械により生成された電気信号、光信号、または電磁信号上に、符号化することもできる。

「データ処理装置」という用語は、データ処理ハードウェアを指し、例として1つのプログラマブルプロセッサ、1つのコンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのあらゆる種類の装置、デバイス、および機械を包含するものである。装置は、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)とすることもでき、あるいはそれをさらに含むこともできる。装置はオプションで、ハードウェアに加えて、コンピュータプログラムのための実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つもしくは複数のものの組合せを構成するコードを含むこともできる。

プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも呼ばれるかまたは記載されることのあるコンピュータプログラムは、コンパイル型言語もしくはインタープリタ型言語、または宣言型言語もしくは手続き型言語を含む、任意の形態のプログラミング言語で記述することができ、またコンピュータプログラムは、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境において使用するのに適した他のユニットとして、を含む、任意の形態でデプロイすることができる。プログラムは、その必要はないが、ファイルシステム内のファイルに対応してよい。プログラムは、他のプログラムもしくはデータを保持するファイルの一部分、例えばマークアップ言語ドキュメント内に格納された1つもしくは複数のスクリプト内に、当該のプログラムに専用の単一のファイル内に、または複数の連係されたファイル、例えばコードの1つもしくは複数のモジュール、サブプログラム、もしくは一部分を格納したファイル内に、格納することができる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに位置するかもしくは複数のサイトにわたって分散され、データ通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように、デプロイすることができる。

本明細書では、「データベース」という用語は、データの任意の集まりを指すために広義に使用され、データは、任意の特定の様式で構造化されている必要も、全く構造化されている必要もなく、1つまたは複数の位置にある記憶デバイス上に記憶させることができる。したがって、例えば、インデックスデータベースは、そのそれぞれが別様に編成およびアクセスされることの可能な、データの複数の集まりを含むことができる。

同様に、本明細書では、「エンジン」という用語は、1つまたは複数の特定の機能を実施するようにプログラムされる、ソフトウェアベースのシステム、サブシステム、またはプロセスを指すために広義に使用される。一般に、エンジンは、1つまたは複数の位置にある1つまたは複数のコンピュータ上にインストールされた、1つまたは複数のソフトウェアモジュールまたはソフトウェアコンポーネントとして実装される。いくつかの場合には、1つまたは複数のコンピュータが、特定のエンジンに専用であり、他の場合には、複数のエンジンが、同じ1つまたは複数のコンピュータ上にインストールされ、その上で実行されることが可能である。

本明細書において説明したプロセスおよび論理フローは、入力データに作用し出力を生成することによって機能を実施するための1つまたは複数のコンピュータプログラムを実行する、1つまたは複数のプログラマブルコンピュータによって実施されることが可能である。プロセスおよび論理フローは、専用論理回路、例えばFPGAもしくはASICによって、または専用論理回路とプログラムされた1つもしくは複数のコンピュータとの組合せによって、実施されることも可能である。

コンピュータプログラムの実行に適したコンピュータは、汎用マイクロプロセッサもしくは専用マイクロプロセッサもしくはその両方、または他の任意の種類の中央処理装置に基づくことができる。一般に、中央処理装置は、読出し専用メモリまたはランダムアクセスメモリまたはその両方から、命令およびデータを受領する。コンピュータの不可欠な要素が、命令を実施または実行するための中央処理装置、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。中央処理装置およびメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込むことが可能である。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば磁気ディスク、光磁気ディスク、または光ディスクを含むか、またはそこからデータを受領するように、もしくはそこにデータを転送するように動作可能に結合されるか、またはその両方である。しかし、コンピュータはそのようなデバイスを有している必要はない。さらに、コンピュータは別のデバイスに、例えばほんの数例を挙げると、モバイル電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオプレーヤもしくはモバイルビデオプレーヤ、ゲーム機、グローバルポジショニングシステム(GPS)レシーバ、またはポータブル記憶デバイス、例えばユニバーサルシリアルバス(USB)フラッシュドライブに、埋め込むことができる。

コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体としては、例として半導体メモリデバイス、例えばEPROM、EEPROM、およびフラッシュメモリデバイス;磁気ディスク、例えば内蔵ハードディスクまたはリムーバブルディスク;光磁気ディスク;ならびにCD ROMディスクおよびDVD-ROMディスクを含む、あらゆる形態の不揮発性のメモリ、媒体、およびメモリデバイスがある。

ユーザとの対話を可能にするために、本明細書において説明した本主題の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、例えばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタと、ユーザがそれによってコンピュータに入力することのできるキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールとを有するコンピュータ上に実装することができる。他の種類のデバイスを使用して、ユーザとの対話を可能にすることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む、任意の形態で受領されることが可能である。加えて、コンピュータはユーザと、ユーザによって使用されているデバイスにドキュメントを送り、そこからドキュメントを受信することによって、例えば、ユーザのデバイス上のウェブブラウザに、そのウェブブラウザから受信した要求に応答してウェブページを送ることによって、対話することができる。また、コンピュータはユーザと、パーソナルデバイス、例えばメッセージングアプリケーションを実行しているスマートフォンに、テキストメッセージまたは他の形態のメッセージを送り、ユーザから返信として応答メッセージを受信することによって、対話することができる。

機械学習モデルを実装するためのデータ処理装置は、例えば、機械学習のトレーニングまたはプロダクションの共通の計算集約的部分、すなわち推論、作業負荷を処理するための、専用ハードウェアアクセラレータユニットを含むこともできる。

機械学習モデルは、機械学習フレームワーク、例えばTensorFlowフレームワーク、Microsoft Cognitive Toolkitフレームワーク、Apache Singaフレームワーク、またはApache MXNetフレームワークを使用して実装し、デプロイすることができる。

本明細書において説明した本主題の実施形態は、例えばデータサーバとしてのバックエンドコンポーネントを含むコンピューティングシステム内、またはミドルウェアコンポーネント、例えばアプリケーションサーバを含むコンピューティングシステム内、またはフロントエンドコンポーネント、例えば本明細書において説明した本主題の一実装形態とユーザがそれを通じて対話することのできるグラフィカルユーザインターフェース、ウェブブラウザ、もしくはアプリを有するクライアントコンピュータを含むコンピューティングシステム内、または1つもしくは複数のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステム内に、実装することができる。システムのこれらのコンポーネント同士は、任意の形態または媒体のデジタルデータ通信、例えば通信ネットワークによって、相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、および広域ネットワーク(WAN)、例えばインターネットがある。

コンピューティングシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に互いに遠隔にあり、典型的には通信ネットワークを通じて対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有する、コンピュータプログラムによって生じる。いくつかの実施形態では、サーバはデータ、例えばHTMLページをユーザデバイスに、例えばクライアントとしての役割を果たすデバイスと対話しているユーザにデータを表示し、そのユーザからユーザ入力を受領する目的で送信する。ユーザデバイスにおいて生成されたデータ、例えばユーザ対話の結果は、デバイスからサーバにおいて受信されることが可能である。

本明細書は、実装形態の多くの具体的詳細を含んでいるが、これらは、任意の発明の範囲に対する、または特許請求され得るものの範囲に対する限定と解釈するのではなく、特定の発明の特定の実施形態に特有であり得る特徴についての説明と解釈されたい。本明細書において別々の実施形態の文脈の中で説明されるいくつかの特徴は、単一の実施形態において組み合わせて実装することもできる。反対に、単一の実施形態の文脈の中で説明されるさまざまな特徴は、複数の実施形態において別々に、または任意の適切な部分組合せで、実装することもできる。さらに、特徴については上で、ある特定の組合せで作用するものと説明されていることがあり、さらにはそのようなものとして最初に特許請求されていることすらあるが、特許請求された組合せからの1つまたは複数の特徴を、場合によっては、その組合せから削除することができ、特許請求された組合せが、部分組合せまたは部分組合せの変形を対象としてよい。

同様に、動作については、特定の順序で図面に描かれ特許請求の範囲に記載されているが、これは、望ましい結果を得るために、そのような動作が図示の特定の順序で、もしくは順番に実施されること、または図示の全ての動作が実施されることを要求するものと理解すべきではない。ある特定の状況下では、マルチタスキングおよび並列処理が有利となることがある。さらに、上述した実施形態におけるさまざまなシステムモジュールおよびシステムコンポーネントの分離は、全ての実施形態においてそのような分離を要求するものと理解すべきではなく、説明したプログラムコンポーネントとシステムは一般に、単一のソフトウェア製品に一緒に統合するか、または複数のソフトウェア製品にパッケージ化できることを理解されたい。

以上、本主題の特定の実施形態について説明してきた。他の実施形態が、添付の特許請求の範囲に記載の範囲に含まれる。例えば、特許請求の範囲に記載されたアクションは、異なる順序で実施してもなお、望ましい結果を得ることができる。一例として、添付の図中に描かれたプロセスは、望ましい結果を得るために、図示の特定の順序、または順番を必ずしも必要とするとは限らない。場合によっては、マルチタスキングおよび並列処理が有利となることがある。

100 機械学習モデルトレーニングシステム
102 モデル入力
110 機械学習モデル
112 モデル出力
140 ラベルありトレーニングデータ
150 ラベルなしトレーニングデータ
200 プロセス
300 プロセス

Claims

特定の機械学習タスクを実行するためにモデル入力をモデル出力にマッピングするように機械学習モデルをトレーニングするための、トレーニングデータを受領するステップであって、前記トレーニングデータが、
複数のラベルなしトレーニング入力、ならびに
複数のラベルありトレーニング入力、および各ラベルありトレーニング入力について、前記機械学習モデルが前記ラベルありトレーニング入力に対して前記特定の機械学習タスクを実行することにより生成すべきグラウンドトゥルース出力
を含む、ステップと、
拡張トレーニングデータを生成するステップであって、前記複数のラベルなしトレーニング入力のそれぞれについて、前記ラベルなしトレーニング入力にデータ拡張技法を適用することによって、それぞれに対応する拡張トレーニング入力を生成するステップを含む、ステップと、
前記拡張トレーニングデータに対して前記機械学習モデルをトレーニングするステップであって、
前記ラベルなしトレーニング入力および前記拡張トレーニング入力に対して、(i)所与のラベルなしトレーニング入力について前記機械学習モデルによって生成されたモデル出力と、(ii)前記ラベルなしトレーニング入力から生成された前記拡張トレーニング入力について前記機械学習モデルによって生成されたモデル出力との間の差異の尺度となる教師なし目的を最適化するように、前記機械学習モデルをトレーニングするステップ、ならびに
前記ラベルありトレーニング入力に対して、(i)所与のラベルありトレーニング入力について前記機械学習モデルによって生成されたモデル出力と、(ii)前記所与のラベルありトレーニング入力についての前記グラウンドトゥルース出力との間の差異の尺度となる教師あり目的を最適化するように、前記機械学習モデルをトレーニングするステップ
を含む、ステップと
を含む、コンピュータ実装方法。
前記モデル出力が確率分布であり、
前記教師なし目的が、(i)前記所与のラベルなしトレーニング入力について前記機械学習モデルによって生成された前記モデル出力と、(ii)前記ラベルなしトレーニング入力から生成された前記拡張トレーニング入力について前記機械学習モデルによって生成された前記モデル出力との間のK-Lダイバージェンスに基づく、請求項1に記載の方法。
前記モデル出力が確率分布であり、
前記教師あり目的が、前記所与のラベルありトレーニング入力について生成された前記確率分布による前記所与のグラウンドトゥルース出力の負の対数尤度に基づく、請求項1から2のいずれか一項に記載の方法。
前記拡張トレーニングデータ内の前記ラベルありトレーニング入力および前記ラベルなしトレーニング入力が、拡張ラベルなしトレーニング入力を生成するために使用される前記データ拡張技法とは異なるデータ拡張技法を適用することによって拡張されている、請求項1から3のいずれか一項に記載の方法。
前記モデル出力が確率分布であり、
前記教師あり目的が、
前記確率分布によって前記所与のグラウンドトゥルース出力に割り当てられた確率が確信度しきい値未満であるときに、前記所与のラベルありトレーニング入力について生成された確率分布による前記所与のグラウンドトゥルース出力の負の対数尤度に基づき、
前記確率分布によって前記所与のグラウンドトゥルース出力に割り当てられた前記確率が前記確信度しきい値以上であるときに、ゼロに等しい、
請求項1から4のいずれか一項に記載の方法。
トレーニングする前記ステップが、
トレーニングが進行するにつれて前記確信度しきい値を増大させるステップ
を含む、請求項5に記載の方法。
前記確信度しきい値を増大させるステップが、各トレーニングステップ後に前記確信度しきい値を増大させるステップを含む、請求項6に記載の方法。
前記機械学習モデルが、視覚データを含むモデル入力をモデル出力にマッピングし、それにより、コンピュータビジョンタスクを実行するようにトレーニングされる、請求項1から7のいずれか一項に記載の方法。
前記機械学習タスクが画像分類であり、
前記モデル入力が画像であり、
所与の画像についての前記モデル出力が、物体カテゴリの集合のそれぞれについての確率であり、
各確率が、前記画像が前記物体カテゴリに属する物体を含む推定尤度を表す、請求項1から8のいずれか一項に記載の方法。
前記機械学習モデルが、音声分類タスクを実行するために口頭による発話を表すオーディオデータを含む入力を出力にマッピングするようにトレーニングされる、請求項1から7のいずれか一項に記載の方法。
モデル入力が、患者の電子健康記録データを含み、
前記対応するモデル出力が、前記患者にとってあり得る診断の確率分布を含む、請求項1から7のいずれか一項に記載の方法。
1つまたは複数のコンピュータと、命令を記憶した1つまたは複数の記憶デバイスとを備え、前記命令が、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに請求項1～11のいずれか一項に記載のそれぞれの方法の動作を実行させる、システム。
1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに請求項1～11のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を記憶した、1つまたは複数のコンピュータ記憶媒体。