JP2023134499A

JP2023134499A - ラベルノイズが存在する状態でのロバストな訓練

Info

Publication number: JP2023134499A
Application number: JP2023102500A
Authority: JP
Inventors: ヂャン，ズーヂャオ; Zizhao Zhang; アリク，セルジャン・オメール; Omer Arik Sercan; フィスター，トマス・ジョン; Jon Pfister Tomas; ヂャン，ハン; Han Zhang
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-09-20
Filing date: 2023-06-22
Publication date: 2023-09-27
Also published as: WO2021055904A1; JP2022548952A; US20210089964A1; KR20220062065A; EP4032026A1; CN114424210A; US20230351192A1; JP7303377B2

Abstract

【課題】ラベルノイズが存在する状態でのモデルのロバストな訓練のための方法を提供する。【解決手段】方法は、所与のラベルに各々関連付けられた１組のラベル付き訓練サンプルを取得し、各ラベル付き訓練サンプルについて、疑似ラベルを生成し、所与のラベルの精度を示すラベル付き訓練サンプルの重みを推定し、ラベル付き訓練サンプルの重みが重みしきい値を満たすかどうかを判定し、ラベル付き訓練サンプルの重みが重みしきい値を満たす場合、ラベル付き訓練サンプルを、１組のクリーンにラベル付けされた訓練サンプルに追加し、ラベル付き訓練サンプルを、１組の間違ってラベル付けされた訓練サンプルに追加し、対応する所与のラベルを使用する１組のクリーンにラベル付けされた訓練サンプルと、対応する疑似ラベルを使用する１組の間違ってラベル付けされた訓練サンプルとを用いて、機械学習モデルを訓練する。【選択図】図５

Description

本開示は、ラベルノイズが存在する状態でのモデルのロバストな訓練に関する。

背景
ディープニューラルネットを訓練することは通常、大規模なラベル付きデータを必要とする。しかしながら、大規模なデータセットのためにクリーンなラベルを取得することは実際には、特にヘルスケアなどのラベル付けコストが高いデータドメインでは、達成するのが非常に困難であり、かつ費用がかかる。ディープニューラルネットはまた、高容量の記憶を有する。多くの訓練技術はニューラルネットを正規化してノイズのあるラベルの侵入を防止するよう試みるが、ノイズのあるラベルが顕著になると、ニューラルネットは必然的にノイズのあるラベル付きデータに適合する。

典型的には、小さい信頼できる訓練データセットは通常、取得が実行可能である。実用上現実的な設定は、訓練データのサイズを、所与の小さい信頼できるセットに基づいて、安価で信頼できないやり方（たとえば、クラウドソーシング、ウェブ検索、安価なラベル付け作業など）で増加させることである。この設定が明らかな利点を実証できるならば、それは機械学習作業を著しく変更し得るであろう。しかしながら、訓練データのサイズを増加させるために、多くの方法は依然として、ニューラルネットをうまく一般化させるためにかなりの量の信頼できるデータを必要とする。このため、小さい信頼できるデータセットの単純な使用は迅速な過剰適合を引き起こす場合があり、最終的に悪影響をもたらす。

概要
この開示の一局面は、ラベルノイズが存在する状態でのモデルのロバストな訓練のための方法を提供する。方法は、データ処理ハードウェアで、１組のラベル付き訓練サンプルを取得するステップを含む。各ラベル付き訓練サンプルは所与のラベルに関連付けられる。方法はまた、複数の訓練反復の各訓練反復中、１組のラベル付き訓練サンプルにおける各ラベル付き訓練サンプルについて、データ処理ハードウェアが、ラベル付き訓練サンプルのための疑似ラベルを生成するステップを含む。方法はまた、データ処理ハードウェアが、所与のラベルの精度を示すラベル付き訓練サンプルの重みを推定するステップと、データ処理ハードウェアが、ラベル付き訓練サンプルの重みが重みしきい値を満たすかどうかを判定するステップとを含む。方法はまた、ラベル付き訓練サンプルの重みが重みしきい値を満たす場合、データ処理ハードウェアが、ラベル付き訓練サンプルを、１組のクリーンにラベル付けされた訓練サンプルに追加するステップを含む。方法はまた、ラベル付き訓練サンプルの重みが重みしきい値を満たさない場合、データ処理ハードウェアが、ラベル付き訓練サンプルを、１組の間違ってラベル付けされた訓練サンプルに追加するステップを含む。方法はまた、データ処理ハードウェアが、対応する所与のラベルを使用する１組のクリーンにラベル付けされた訓練サンプルと、対応する疑似ラベルを使用する１組の間違ってラベル付けされた訓練サンプルとを用いて、機械学習モデルを訓練するステップを含む。

この開示の実現化例は、以下のオプションの特徴のうちの１つ以上を含んでいてもよい。いくつかの実現化例では、ラベル付き訓練サンプルのための疑似ラベルを生成するステップは、ラベル付き訓練サンプルに基づいて複数の拡張された（augmented）訓練サンプ
ルを生成するステップと、各拡張された訓練サンプルについて、機械学習モデルを使用して、予測されるラベルを生成するステップとを含む。この実現化例はまた、対応するラベル付き訓練サンプルのための疑似ラベルを生成するために、複数の拡張された訓練サンプルの各拡張された訓練サンプルについて生成された各予測されるラベルを平均化するステップを含む。

いくつかの例では、ラベル付き訓練サンプルの重みを推定するステップは、ラベル付き訓練サンプルの最適な重みのオンライン近似を判定するステップを含む。ラベル付き訓練サンプルの最適な重みのオンライン近似を判定するステップは、確率的勾配降下最適化を使用するステップを含んでいてもよい。オプションで、最適な重みは、機械学習モデルの訓練損失を最小化する。

いくつかの実現化例では、機械学習モデルを訓練するステップは、１組の信頼できる訓練サンプルを取得するステップを含む。各信頼できる訓練サンプルは信頼できるラベルに関連付けられる。この実現化例はまた、１組の信頼できる訓練サンプルと１組のラベル付き訓練サンプルとを使用して凸結合を生成するステップを含む。凸結合を生成するステップは、１組の信頼できる訓練サンプルと１組のラベル付き訓練サンプルとにペアのＭｉｘＵｐを適用するステップを含んでいてもよい。機械学習モデルを訓練するステップはさらに、対応する所与のラベルを使用する１組のクリーンにラベル付けされた訓練サンプルに基づいて、第１の損失を判定するステップと、対応する疑似ラベルを使用する１組の間違ってラベル付けされた訓練サンプルに基づいて、第２の損失を判定するステップと、１組の信頼できる訓練サンプルの凸結合に基づいて、第３の損失を判定するステップと、１組のラベル付き訓練サンプルの凸結合に基づいて、第４の損失を判定するステップと、１組のラベル付き訓練サンプルの所与のラベルと１組のラベル付き訓練サンプルの疑似ラベルとの間のカルバック・ライブラー（Kullback-Leibler）発散に基づいて、第５の損失を判定するステップとを含んでいてもよい。機械学習モデルを訓練するステップはさらに、第１の損失、第２の損失、第３の損失、第４の損失、および第５の損失に基づいて、総損失を判定するステップも含んでいてもよい。いくつかの例では、第３の損失および第４の損失は、ｓｏｆｔｍａｘ交差エントロピー損失である。１組のラベル付き訓練サンプルの各ラベル付き訓練サンプルは画像であり、所与のラベルは画像のテキスト記述子である。

この開示の別の局面は、ラベルノイズが存在する状態でモデルを訓練するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信しているメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を行なわせる命令を格納する。動作は、１組のラベル付き訓練サンプルを取得することを含む。各ラベル付き訓練サンプルは所与のラベルに関連付けられる。動作はまた、複数の訓練反復の各訓練反復中、１組のラベル付き訓練サンプルにおける各ラベル付き訓練サンプルについて、ラベル付き訓練サンプルのための疑似ラベルを生成することを含む。動作はまた、所与のラベルの精度を示すラベル付き訓練サンプルの重みを推定することと、ラベル付き訓練サンプルの重みが重みしきい値を満たすかどうかを判定することとを含む。動作はまた、ラベル付き訓練サンプルの重みが重みしきい値を満たす場合、ラベル付き訓練サンプルを、１組のクリーンにラベル付けされた訓練サンプルに追加することを含む。動作はまた、ラベル付き訓練サンプルの重みが重みしきい値を満たさない場合、ラベル付き訓練サンプルを、１組の間違ってラベル付けされた訓練サンプルに追加することを含む。動作はまた、対応する所与のラベルを使用する１組のクリーンにラベル付けされた訓練サンプルと、対応する疑似ラベルを使用する１組の間違ってラベル付けされた訓練サンプルとを用いて、機械学習モデルを訓練することを含む。

この局面は、以下のオプションの特徴のうちの１つ以上を含んでいてもよい。いくつか
の実現化例では、ラベル付き訓練サンプルのための疑似ラベルを生成することは、ラベル付き訓練サンプルに基づいて複数の拡張された訓練サンプルを生成することと、各拡張された訓練サンプルについて、機械学習モデルを使用して、予測されるラベルを生成することとを含む。この実現化例はまた、対応するラベル付き訓練サンプルのための疑似ラベルを生成するために、複数の拡張された訓練サンプルの各拡張された訓練サンプルについて生成された各予測されるラベルを平均化することを含む。

いくつかの例では、ラベル付き訓練サンプルの重みを推定することは、ラベル付き訓練サンプルの最適な重みのオンライン近似を判定することを含む。ラベル付き訓練サンプルの最適な重みのオンライン近似を判定することは、確率的勾配降下最適化を使用することを含んでいてもよい。オプションで、最適な重みは、機械学習モデルの訓練損失を最小化する。

いくつかの実現化例では、機械学習モデルを訓練することは、１組の信頼できる訓練サンプルを取得することを含む。各信頼できる訓練サンプルは信頼できるラベルに関連付けられる。この実現化例はまた、１組の信頼できる訓練サンプルと１組のラベル付き訓練サンプルとを使用して凸結合を生成することを含む。凸結合を生成することは、１組の信頼できる訓練サンプルと１組のラベル付き訓練サンプルとにペアのＭｉｘＵｐを適用することを含んでいてもよい。機械学習モデルを訓練することはさらに、対応する所与のラベルを使用する１組のクリーンにラベル付けされた訓練サンプルに基づいて、第１の損失を判定することと、対応する疑似ラベルを使用する１組の間違ってラベル付けされた訓練サンプルに基づいて、第２の損失を判定することと、１組の信頼できる訓練サンプルの凸結合に基づいて、第３の損失を判定することと、１組のラベル付き訓練サンプルの凸結合に基づいて、第４の損失を判定することと、１組のラベル付き訓練サンプルの所与のラベルと１組のラベル付き訓練サンプルの疑似ラベルとの間のカルバック・ライブラー発散に基づいて、第５の損失を判定することとを含んでいてもよい。機械学習モデルを訓練することはさらに、第１の損失、第２の損失、第３の損失、第４の損失、および第５の損失に基づいて、総損失を判定することも含んでいてもよい。いくつかの例では、第３の損失および第４の損失は、ｓｏｆｔｍａｘ交差エントロピー損失である。１組のラベル付き訓練サンプルの各ラベル付き訓練サンプルは画像であり、所与のラベルは画像のテキスト記述子である。

この開示の１つ以上の実現化例の詳細が、添付図面および以下の説明において述べられる。他の局面、特徴、および利点は、説明および図面から、ならびに請求項から明らかになるであろう。

ノイズのある訓練サンプルを使用してモデルを訓練するための例示的なシステムの概略図である。図１のシステムの疑似ラベル生成器の例示的なコンポーネントの概略図である。図のシステムの追加の例示的なコンポーネントの概略図である。目標モデルを訓練するためのアルゴリズムの概略図である。ラベルノイズが存在する状態でのロバストな訓練の方法のための動作の例示的な構成のフローチャートである。ここに説明されるシステムおよび方法を実現するために使用され得る例示的なコンピューティングデバイスの概略図である。

さまざまな図面における同じ参照符号は、同じ要素を示す。

詳細な説明
最新のディープニューラルネットワークを高精度になるよう訓練することは通常、大量のラベル付き訓練データを必要とする。しかしながら、高品質のラベル付き訓練データを（たとえば人間の注釈を介して）取得するプロセスはしばしば困難であり、かつ費用がかかる。ノイズのある（すなわち不正確な）ラベルを用いる訓練データはしばしば、はるかに安価で取得されるため、ノイズのあるラベルを用いるデータセットからニューラルネットワークを訓練するための方法（たとえば、緩やかに制御された手順、クラウドソーシング、ウェブ検索、テキスト抽出など）は、研究の盛んな分野である。しかしながら、多くのディープニューラルネットワークは記憶のための大きな容量を有するため、ノイズのあるラベルが顕著になり、過剰適合を引き起こす場合がある。

従来の技術は主として、訓練データのセット全体が同じラベル付け技術を使用して取得される設定を考慮する。しかしながら、主要訓練セットを、信頼性の高いクリーンなラベルを含むより小さいデータセットで補うことが、しばしば有利である。より小さいデータセットは、主要訓練セットが極めてノイズのあるものであっても、モデルが高いロバスト性を実証するのを助け得る。

ここでの実現化例は、ノイズのあるラベルを用いたロバストなニューラルネットワーク訓練を提供するモデル訓練器に向けられる。モデル訓練器は、分離、拡大、および誘導（isolation, escalation, and guidance：ＩＥＧ）という３つの主要戦略を実現する。モ
デル訓練器はまず、間違ってラベル付けされたデータがニューラルネットワーク訓練を間違った方向に導くのを防止するように訓練サンプルを再重み付けすることにより、ノイズのあるラベル付き訓練データとクリーンなラベル付き訓練データとを分離する。モデル訓練器は次に、間違ってラベル付けされたデータ内の情報を利用するために、疑似ラベルを介して、間違ってラベル付けされたデータからの監視を拡大する。最後に、モデル訓練器は、過剰適合を防止するように、強い正規化を用いる小さい信頼できる訓練データセットを使用して訓練を誘導する。

このため、モデル訓練器は、データごとの重要性を重み付けすることと、所与のラベルへの置換として疑似ラベルを使用して訓練データの監視される損失を漸進的に拡大することとを同時に学習するために、メタ学習ベースの再重み付け目的および再ラベル付け目的を実現する。モデル訓練器は、メタ再ラベル付けの初期化として機能するように、および、間違ってラベル付けされたデータからの監視を拡大するように、ラベル推定目的を使用する。監視されない正規化目的は、ラベル推定を強化し、表現学習全体を改良する。

図１を参照して、いくつかの実現化例では、例示的なシステム１００は処理システム１０を含む。処理システム１０は、固定された、またはスケーラブル／柔軟なコンピューティングリソース１２（たとえばデータ処理ハードウェア）および／またはストレージリソース１４（たとえばメモリハードウェア）を有する、単一のコンピュータ、複数のコンピュータ、または分散システム（たとえばクラウド環境）であってもよい。処理システム１０は、モデル訓練器１１０を実行する。モデル訓練器１１０は、入力データに基づいて予測を立てるように目標モデル１５０（たとえばディープニューラルネットワーク（deep neural network ：ＤＮＮ））を訓練する。たとえば、モデル訓練器１１０は、畳み込みニューラルネットワーク（convolutional neural network：ＣＮＮ）を訓練する。モデル訓練器１１０は、１組のラベル付き訓練サンプル１１２、１１２Ｇについて目標モデル１５０を訓練する。ラベル付き訓練サンプルは、訓練データと、当該訓練データのためのラベルとの双方を含む。ラベルは、目標モデル１５０のための正しい結果の注釈または他の表示を含む。対照的に、ラベルなし訓練サンプルは、対応するラベルのない訓練データのみを含む。

たとえば、音声データを文字に起こすように訓練されるモデルのためのラベル付きデータは、当該音声データと、当該音声データの対応する文字起こしとを含む。同じ目標モデル１５０のためのラベルなしデータは、文字起こしのない当該音声データを含むであろう。ラベル付きデータを用いて、目標モデル１５０は、訓練サンプルに基づいて予測を立て、次に、当該予測をグラウンドトゥルースとして機能するラベルと比較して、当該予測がどれくらい正確だったかを判定してもよい。このため、各ラベル付き訓練サンプル１１２Ｇは、訓練データ１１４Ｇと、関連付けられた所与のラベル１１６Ｇとの双方を含む。

ラベル付き訓練サンプル１１２Ｇは、目標モデル１５０がその予測を立てるために必要とするあらゆるデータを表わしていてもよい。たとえば、訓練データ１１４Ｇは、（たとえば物体検出、分類などのための）画像データのフレーム、（たとえば文字起こし、音声認識などのための）音声データのフレーム、および／または（たとえば自然言語分類などのための）テキストを含んでいてもよい。いくつかの実現化例では、１組の訓練サンプル１１２Ｇの各訓練サンプル１１２Ｇは画像であり、所与のラベル１１６Ｇは当該画像のテキスト記述子である。ラベル付き訓練サンプル１１２Ｇは、処理システム１０上（たとえばメモリハードウェア１４内）に格納されてもよく、もしくは、別のエンティティからネットワークまたは他の通信チャネルを介して受信されてもよい。モデル訓練器１１０は、１組の訓練サンプル１１２Ｇからラベル付き訓練サンプル１１２Ｇをバッチ単位（すなわち、訓練の反復ごとに異なるバッチ）で選択してもよい。

モデル訓練器１１０は、疑似ラベル生成器２１０を含む。複数の訓練反復の各訓練反復中、および１組のラベル付き訓練サンプル１１２Ｇにおける各訓練サンプル１１２Ｇについて、疑似ラベル生成器２１０は、対応するラベル付き訓練サンプル１１２Ｇのための疑似ラベル１１６Ｐを生成する。疑似ラベル１１６Ｐは、疑似ラベル生成器２１０によって生成された疑似ラベル１１６Ｐを用いた訓練サンプル１１２Ｇの再ラベル付けを表わす。

ここで図２を参照して、いくつかの実現化例では、疑似ラベル生成器２１０は、サンプル拡張器２２０と、サンプル平均計算器２３０とを含む。サンプル拡張器２２０は、疑似ラベル生成器２１０が訓練サンプル１１２Ｇのための疑似ラベル１１６Ｐを生成すると、ラベル付き訓練サンプル１１２Ｇに基づいて複数の拡張された訓練サンプル１１２Ａ、１１２Ａａ～ｎを生成する。サンプル拡張器２２０は、拡張された訓練サンプル１１２Ａごとに異なる変更を入力された訓練サンプル１１２Ｇに導入することにより、拡張された訓練サンプル１１２Ａを生成する。たとえば、サンプル拡張器２２０は、ラベル付き訓練サンプル１１２Ｇから拡張された訓練サンプル１１２Ａを生成するために、予め定められた量またはランダムな量だけ、値を増加または減少させる。別の例として、ラベル付き訓練サンプル１１２Ｇが画像データのフレームを含む場合、サンプル拡張器２２０は、画像を回転させたり、画像をフリップしたり、画像をトリミングするなどしてもよい。サンプル拡張器２２０は、データを拡大するかまたはデータを攪乱させる他の従来の手段も使用してもよい。

拡張された訓練サンプル１１２Ａにラベルを追加するために、疑似ラベル生成器２１０は、いくつかの例では、目標モデル１５０（すなわち、機械学習モデル）を使用して、拡張された訓練サンプル１１２Ａの各々について、予測されるラベル２２２、２２０ａ～ｎを生成する。サンプル平均計算器２３０は、拡張された訓練サンプル１１２Ａの各々について目標モデル１５０によって生成された各予測されるラベル２２２を平均化して、入力されたラベル訓練サンプル１１２Ｇのための疑似ラベル１１６Ｐを生成してもよい。すなわち、いくつかの実現化例では、疑似ラベル生成器２１０は、所与のラベル付き訓練サンプル１１２Ｇのために、複数の拡張された訓練サンプル１１２Ａを生成し、拡張された訓練サンプル１１２Ａの各々について予測されるラベル２２２を生成し、生成された拡張さ
れた訓練サンプル１１２Ａの各々についての予測されるラベル２２２を平均化して、対応するラベル付き訓練サンプル１１２Ｇのための疑似ラベル１１６Ｐを生成する。

図１を再度参照して、モデル訓練器１１０は、重み推定器１３０も含む。重み推定器１３０は、各訓練反復中、１組の訓練サンプル１１２Ｇにおける各訓練サンプル１１２Ｇについて、訓練サンプル１１２Ｇの重み１３２を推定する。訓練サンプル１１２Ｇの重み１３２は、ラベル付き訓練サンプル１１２Ｇの所与のラベル１１６Ｇの精度を示す。たとえば、より高い重みは、所与のラベル１１６Ｇが正確である確率がより高いことを示す。このため、重み推定器１３０は、ラベル付き訓練サンプル１１２Ｇが間違ってラベル付けされる可能性を判定する。

いくつかの例では、重み推定器１３０は、ラベル付き訓練サンプル１１２Ｇから、および、１組の信頼できる訓練サンプル１１２Ｔからの信頼できる訓練サンプル１１２Ｔから目標モデル１５０によって立てられた予測に基づいて、重み１３２を判定する。モデル訓練器１１０は、信頼できるサンプル１１２Ｔの信頼できるラベル１１６Ｔは高品質であり、および／またはクリーンであると仮定する。すなわち、信頼できるラベル１１６Ｔは正確である。モデル訓練器１１０は、訓練された目標モデル１５０が１組の信頼できる訓練サンプル１１２Ｔに対する最高の性能を取得するように各ラベル付き訓練サンプル１１２Ｇについての最適な重み１３２を判定することにより、重み１３２を学習可能パラメータとして扱ってもよい。

重み１３２を判定することは（各更新ステップが収束まで目標モデル１５０を訓練することを必要とするため）計算上の費用（コスト）がかかるかもしれないため、オプションで、重み推定器１３０は、ラベル付き訓練サンプル１１２Ｇの最適な重み１３２のオンライン近似を判定することによって、重み１３２を推定する。オンライン近似は、確率的勾配降下最適化を使用することを含んでいてもよい。いくつかの実現化例では、最適な重み１３２は、目標モデル１５０の訓練損失を最小化する。すなわち、最適な重み１３２は、目標モデル１５０の最低の訓練損失をもたらす重みである。モデル訓練器１１０は、二次導関数を用いた逆伝搬に基づいて重み１３２を最適化してもよい。

サンプル区分器１４０は、各訓練サンプル１１２Ｇと、関連付けられた重み１３２と、関連付けられた疑似ラベル１１６Ｐとを受信する。サンプル区分器１４０は、重みしきい値１４２を含む。各ラベル付き訓練サンプル１１２Ｇについて、サンプル区分器１４０は、ラベル付き訓練サンプル１１２Ｇの重み１３２が重みしきい値１４２を満たすかどうかを判定する。たとえば、サンプル区分器１４０は、重み１３２が重みしきい値１４２を上回るかどうかを判定する。

ラベル付き訓練サンプル１１２Ｇの重み１３２が重みしきい値１４２を満たす場合、サンプル区分器１４０は、訓練サンプル１１２Ｇを、１組のクリーンにラベル付けされた訓練サンプル１１２Ｃに追加する。クリーンにラベル付けされた訓練サンプル１１２Ｃは、訓練データ１１４と、クリーンなラベル１１６Ｃ（すなわち、サンプル区分器１４０によってクリーンであると判定された所与のラベル１１６Ｇ）とを含む。ラベル付き訓練サンプル１１２Ｇの重み１３２が重みしきい値１４２を満たさない場合、サンプル区分器１４０は、ラベル付き訓練サンプル１１２Ｇを、１組の間違ってラベル付けされた訓練サンプル１１２Ｍに追加する。このため、間違ってラベル付けされたと思われる訓練サンプル１１２Ｇは、間違ってラベル付けされたデータからの監視を拡大するために、クリーンにラベル付けされたと思われる訓練サンプル１１２Ｇから分離される。

ノイズ比が高い（すなわち、ラベル付き訓練サンプルの１１２Ｇの多くがノイズを有する）場合、モデル訓練器によるメタ最適化ベースの再重み付けおよび再ラベル付けは、間
違った方向に導く最適化を効果的に防止する（すなわち、多くのラベル付き訓練サンプル１１２Ｇがゼロのまたはゼロに近い重み１３２を有するであろう）。しかしながら、間違ってラベル付けされた訓練サンプル１１２Ｍは依然として、貴重な訓練データを提供する場合がある。このため、かなりの量のデータを破棄する可能性を避けるために、間違ってラベル付けされた訓練サンプル１１２Ｍは、訓練データ１１４と、所与のラベル１１６Ｇの代わりに、関連付けられた疑似ラベル１１６Ｐとを含む。すなわち、間違ってラベル付けされた訓練サンプル１１２Ｍのために、疑似ラベル１１６Ｐが、所与のラベル１１６Ｇの代わりに用いられる。

いくつかの例では、モデル訓練器１１０は、対応する所与のラベル１１６Ｇを使用する１組のクリーンにラベル付けされた訓練サンプル１１２Ｃと、対応する疑似ラベル１１６Ｐを使用する１組の間違ってラベル付けされた訓練サンプル１１２Ｍとを用いて、目標モデル１５０を訓練する。目標モデル１５０は、上述のステップのうちのいくつかまたはすべてを繰り返す任意の数の訓練反復を使用して徐々に訓練されてもよい。

ここで図３を参照して、いくつかの実現化例では、モデル訓練器１１０は、凸結合生成器３１０を含む。凸結合生成器３１０は、訓練データ１１４と、関連付けられた信頼できるラベル１１６Ｔとを含む、１組の信頼できる訓練サンプル１１２Ｔを取得する。凸結合生成器３１０は、目標モデル１５０を訓練するための凸結合３１２を生成する。いくつかの例では、凸結合生成器３１０は、１組の信頼できる訓練サンプル１１２Ｔと１組のラベル付き訓練サンプル１１２ＧとにペアのＭｉｘＵｐを適用する。ＭｉｘＵｐ正規化は、モデル訓練器１１０が、過剰適合のおそれなく、信頼できる訓練サンプル１１２Ｔからの信頼できる情報を活用することを可能にする。ＭｉｘＵｐ正規化は、凸結合の形をした訓練サンプル１１２Ｇ、１１２ＴとＭｉｘＵｐ係数とを使用して、追加の監視損失を構成する。

いくつかの例では、モデル訓練器１１０は、損失計算器３２０を含む。損失計算器３２０は、対応する所与のラベル１１６Ｇを使用する１組のクリーンにラベル付けされた訓練サンプル１１２Ｃに基づいて、第１の損失３２２、３２２ａを判定する。損失計算器３２０は、対応する疑似ラベル１１６Ｐを使用する１組の間違ってラベル付けされた訓練サンプル１１２Ｍに基づいて、第２の損失３２２ｂを判定してもよい。損失計算器３２０は、１組の信頼できる訓練サンプル１１２Ｔの凸結合３１０ａに基づいて、第３の損失３２２ｃを判定してもよく、１組のラベル付き訓練サンプル１１２Ｇの凸結合３１０ｂに基づいて、第４の損失３２２ｄを判定してもよい。いくつかの実現化例では、損失計算器３２０は、１組のラベル付き訓練サンプル１１２Ｇの所与のラベル１１６Ｇと１組のラベル付き訓練サンプル１１２Ｇの疑似ラベル１１６Ｐとの間のカルバック・ライブラー（ＫＬ）発散に基づいて、第５の損失３２２ｅを判定する。ＫＬ発散損失３２２ｅは、拡張された訓練サンプル１１２Ａの矛盾を減少させることによって、疑似ラベル１１６Ｐの生成を鋭敏にする。これは、理想的な疑似ラベル１１６Ｐが正確なラベルにできるだけ近づくべきであるためである。拡張された訓練サンプル１１２Ａについての予測が互いに矛盾することになっている（たとえば、訓練データ１１４の小さい変化が予測の大きい変化をもたらす）場合、疑似ラベル１１６Ｐからの寄与は、目標モデル１５０を識別的になるよう促さない。このため、ＫＬ発散損失３２２ｅは、疑似ラベル１１６Ｐの整合性を実施するのを助ける。

損失計算器３２０は、第１の損失３２２ａ、第２の損失３２２ｂ、第３の損失３２２ｃ、第４の損失３２２ｄ、および第５の損失３２２ｅのうちの１つ以上に基づいて、総損失３３０を判定してもよい。いくつかの例では、損失３２２ａ～ｅのうちの１つ以上（すなわち、第３の損失３２２ｃおよび第４の損失３２２ｄ）は、ｓｏｆｔｍａｘ交差エントロピー損失である。総損失３３０に基づいて、損失計算器３２０は、目標モデル１５０のモ
デルパラメータ３４０を更新する。損失計算器は、更新されたモデルパラメータ３４０を判定するために、総損失３３０に基づいてワンステップの確率的勾配を適用してもよい。

ここで図４を参照して、いくつかの実現化例では、モデル訓練器１１０は、目標モデル１５０を訓練するためのアルゴリズム４００を実現する。ここで、モデル訓練器は、ラベル付き訓練サンプル１１２Ｇ（すなわちＤｕ）と、信頼できる訓練サンプル１１２Ｔ（すなわちＤｐ）とを、入力として受け入れる。モデル訓練器１１０は、各訓練反復（すなわち時間ステップｔ）について、目標モデル１５０のモデルパラメータ３４０を更新する。アルゴリズム４００を使用して、モデル訓練器１１０は、ステップ１で拡張された訓練サンプル１１２Ａを生成し、ステップ２で疑似ラベル１１６Ｐを推定または生成することによって、目標モデル１５０を訓練する。ステップ３で、モデル訓練器１１０は、最適な重み１３２を判定し、および／または、重み推定器１３０（すなわちλ）を更新する。ステップ４で、モデル訓練器１１０は、１組のラベル付き訓練サンプル１１２Ｇを、１組のクリーンにラベル付けされた訓練サンプル１１２Ｃと、１組の間違ってラベル付けされた訓練サンプル１１２Ｍとに分割する。ステップ５で、モデル訓練器はＭｉｘＵｐ凸結合３１２を計算する。ステップ６で、モデル訓練器１１０は総損失３３０を判定し、ステップ６で、ワンステップの確率的勾配を実行して、次の訓練反復のための更新されたモデルパラメータ３４０を取得する。いくつかの例では、モデル訓練器１１０は、ワンステップの確率的勾配最適化中に運動量値を使用して厳密な運動量更新を判定する。

図５は、ラベルノイズが存在する状態でのロバストな訓練のための方法５００のための動作の例示的な構成のフローチャートである。方法５００は、動作５０２で、データ処理ハードウェア１２で、１組のラベル付き訓練サンプル１１２Ｇを取得するステップを含む。各ラベル付き訓練サンプル１１２Ｇは、所与のラベル１１６Ｇに関連付けられる。動作５０４で、複数の訓練反復の各訓練反復中、方法５００は、１組のラベル付き訓練サンプル１１２Ｇにおける各ラベル付き訓練サンプル１１２Ｇについて、データ処理ハードウェア１２が、ラベル付き訓練サンプル１１２Ｇのための疑似ラベル１１６Ｐを生成することを含む。動作５０６で、方法５００は、データ処理ハードウェア１２が、所与のラベル１１６Ｇの精度を示すラベル付き訓練サンプル１１２Ｇの重み１３２を推定することを含む。

方法５００は、動作５０８で、データ処理ハードウェア１２が、ラベル付き訓練サンプル１１２Ｇの重み１３２が重みしきい値１４２を満たすかどうかを判定することを含む。ラベル付き訓練サンプル１１１Ｇの重み１３２が重みしきい値１４２を満たす場合、方法５００は、動作５１０で、データ処理ハードウェア１２が、ラベル付き訓練サンプル１１２Ｇを、１組のクリーンにラベル付けされた訓練サンプル１１２Ｃに追加することを含む。動作５１２で、方法５００は、ラベル付き訓練サンプル１１２Ｇの重み１３２が重みしきい値１４２を満たさない場合、データ処理ハードウェア１２が、ラベル付き訓練サンプル１１２Ｇを、１組の間違ってラベル付けされた訓練サンプル１１２Ｍに追加することを含む。動作５１４で、方法５００は、データ処理ハードウェア１２が、対応する所与のラベル１１６Ｇを使用する１組のクリーンにラベル付けされた訓練サンプル１１２Ｃと、対応する疑似ラベル１１６Ｐを使用する１組の間違ってラベル付けされた訓練サンプル１１２Ｍとを用いて、機械学習モデル１５０を訓練することを含む。

図６は、この文書で説明されるシステムおよび方法を実現するために使用され得る例示的なコンピューティングデバイス６００の概略図である。コンピューティングデバイス６００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータといった、さまざまな形態のデジタルコンピュータを表わすよう意図されている。ここに示すコンポーネント、それらの接続および関係、ならびにそれらの機能は単なる例示であることが意図されており
、この文書で説明される、および／または請求項に記載されるこの発明の実現化例を限定するよう意図されてはいない。

コンピューティングデバイス６００は、プロセッサ６１０と、メモリ６２０と、記憶装置６３０と、メモリ６２０および高速拡張ポート６５０に接続している高速インターフェイス／コントローラ６４０と、低速バス６７０および記憶装置６３０に接続している低速インターフェイス／コントローラ６６０とを含む。コンポーネント６１０、６２０、６３０、６４０、６５０、および６６０の各々は、さまざまなバスを使用して相互接続されており、共通のマザーボード上にまたは他の態様で適宜搭載されてもよい。プロセッサ６１０は、コンピューティングデバイス６００内で実行される命令を処理可能であり、これらの命令は、グラフィカルユーザインターフェイス（graphical user interface：ＧＵＩ）のためのグラフィック情報を、高速インターフェイス６４０に結合されたディスプレイ６８０などの外部入力／出力デバイス上に表示するために、メモリ６２０内または記憶装置６３０上に格納された命令を含む。他の実現化例では、複数のプロセッサおよび／または複数のバスが、複数のメモリおよび複数のタイプのメモリとともに適宜使用されてもよい。また、複数のコンピューティングデバイス６００が接続されてもよく、各デバイスは（たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の部分を提供する。

メモリ６２０は、情報をコンピューティングデバイス６００内に非一時的に格納する。メモリ６２０は、コンピュータ読取可能媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ６２０は、プログラム（たとえば命令のシーケンス）またはデータ（たとえばプログラム状態情報）を、コンピューティングデバイス６００による使用のために一時的または永続的に格納するために使用される物理デバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよび読出専用メモリ（read-only memory：ＲＯＭ）／プログラマブル読出専用メモリ（programmable read-only memory：ＰＲＯＭ）／消去可能プログラマブル読出専用メモリ（erasable programmable read-only memory：ＥＰＲＯＭ）／電子的消去可能プログラマブル読出専用メモリ（electronically erasable programmable read-only memory：ＥＥＰＲＯＭ）（たとえば、典型的にはブートプログラムなどのファームウェアのために使用される）を含むものの、それらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（random access memory：ＲＡＭ）、ダイナミックランダムアクセスメモリ（dynamic random access memory：ＤＲＡＭ）、スタティックランダムアクセスメモリ（static random access memory：Ｓ
ＲＡＭ）、相変化メモリ（phase change memory：ＰＣＭ）、およびディスクまたはテー
プを含むものの、それらに限定されない。

記憶装置６３０は、コンピューティングデバイス６００のための大容量記憶を提供可能である。いくつかの実現化例では、記憶装置６３０は、コンピュータ読取可能媒体である。さまざまな異なる実現化例では、記憶装置６３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、もしくは、ストレージエリアネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加の実現化例では、コンピュータプログラム製品が情報担体において有形に具現化される。コンピュータプログラム製品は、実行されると上述のような１つ以上の方法を行なう命令を含む。情報担体は、メモリ６２０、記憶装置６３０、またはプロセッサ６１０上のメモリといった、コンピュータ読取可能媒体または機械読取可能媒体である。

高速コントローラ６４０はコンピューティングデバイス６００のための帯域幅集約的な動作を管理し、一方、低速コントローラ６６０はより低い帯域幅集約的な動作を管理する。役目のそのような割当ては例示に過ぎない。いくつかの実現化例では、高速コントロー
ラ６４０は、メモリ６２０、ディスプレイ６８０に（たとえば、グラフィックスプロセッサまたはアクセラレータを介して）結合されるとともに、さまざまな拡張カード（図示せず）を受け付け得る高速拡張ポート６５０に結合される。いくつかの実現化例では、低速コントローラ６６０は、記憶装置６３０および低速拡張ポート６９０に結合される。さまざまな通信ポート（たとえば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポート６９０は、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入力／出力デバイスに、もしくは、スイッチまたはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを介して結合されてもよい。

コンピューティングデバイス６００は、図に示すように多くの異なる形態で実現されてもよい。たとえばそれは、標準サーバ６００ａとして、またはそのようなサーバ６００ａのグループで複数回実現されてもよく、ラップトップコンピュータ６００ｂとして、またはラックサーバシステム６００ｃの一部として実現されてもよい。

ここに説明されるシステムおよび技術のさまざまな実現化例は、デジタル電子および／または光学回路、集積回路、特別に設計されたＡＳＩＣ（application specific integrated circuit：特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、
ソフトウェア、および／またはそれらの組合せにおいて実現され得る。これらのさまざまな実現化例は、データおよび命令を記憶システムとの間で送受信するように結合された、専用または汎用であり得る少なくとも１つのプログラマブルプロセッサと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスとを含むプログラマブルシステム上で実行可能および／または解釈可能である１つ以上のコンピュータプログラムにおける実現を含み得る。

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）とは、コンピューティングデバイスにタスクを行なわせるコンピュータソフトウェアを指していてもよい。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれてもよい。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションを含むものの、それらに限定されない。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている）は、プログラマブルプロセッサのための機械命令を含み、高レベルの手続き型および／またはオブジェクト指向プログラミング言語で、および／またはアセンブリ／機械語で実現され得る。ここに使用されるように、「機械読取可能媒体」および「コンピュータ読取可能媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ読取可能媒体、機器および／またはデバイス（たとえば磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ））を指し、機械命令を機械読取可能信号として受信す
る機械読取可能媒体を含む。「機械読取可能信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

この明細書で説明されるプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれる１つ以上のプログラマブルプロセッサが、入力データに基づいて動作することおよび出力を生成することによって機能を行なうために１つ以上のコンピュータプログラムを実行することによって行なわれ得る。プロセスおよび論理フローはまた、たとえばＦＰＧ
Ａ（field programmable gate array：フィールドプログラマブルゲートアレイ）または
ＡＳＩＣ（特定用途向け集積回路）といった専用論理回路によって行なわれ得る。コンピュータプログラムの実行にとって好適であるプロセッサは、一例として、汎用および専用マイクロプロセッサと、任意の種類のデジタルコンピュータの任意の１つ以上のプロセッサとを含む。一般に、プロセッサは、命令およびデータを、読出専用メモリまたはランダムアクセスメモリまたはそれら双方から受信するであろう。コンピュータの本質的要素は、命令を行なうためのプロセッサと、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般に、コンピュータはまた、たとえば磁気ディスク、光磁気ディスク、または光ディスクといった、データを格納するための１つ以上の大容量記憶装置を含むであろう。もしくは、当該大容量記憶装置からデータを受信し、または当該大容量記憶装置にデータを転送し、またはそれら双方を行なうように動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに好適であるコンピュータ読取可能媒体は、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含み、一例として、半導体メモリ装置、たとえばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス；磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスク；光磁気ディスク；ならびに、ＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む。プロセッサおよびメモリは、専用論理回路によって補足され、または専用論理回路に組込まれ得る。

ユーザとの相互作用を提供するために、この開示の１つ以上の局面は、情報をユーザに表示するためのディスプレイデバイス、たとえばＣＲＴ（cathode ray tube：陰極線管）、ＬＣＤ（liquid crystal display：液晶ディスプレイ）モニター、またはタッチスクリーンと、オプションで、ユーザがコンピュータへの入力を提供できるようにするキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータ上で実現され得る。他の種類のデバイスも同様に、ユーザとの相互作用を提供するために使用され得る。たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであり得る。また、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信され得る。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、当該デバイスから文書を受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答してウェブページを当該ウェブブラウザに送信することによって、ユーザと相互作用することができる。

多くの実現化例が説明されてきた。にもかかわらず、この開示の精神および範囲から逸脱することなく、さまざまな変更を行なってもよいということが理解されるであろう。したがって、他の実現化例は、請求の範囲内にある。

いくつかの例では、モデル訓練器１１０は、損失計算器３２０を含む。損失計算器３２０は、対応する所与のラベル１１６Ｇを使用する１組のクリーンにラベル付けされた訓練サンプル１１２Ｃに基づいて、第１の損失３２２、３２２ａを判定する。損失計算器３２０は、対応する疑似ラベル１１６Ｐを使用する１組の間違ってラベル付けされた訓練サンプル１１２Ｍに基づいて、第２の損失３２２ｂを判定してもよい。損失計算器３２０は、１組の信頼できる訓練サンプル１１２Ｔの凸結合３１２ａに基づいて、第３の損失３２２ｃを判定してもよく、１組のラベル付き訓練サンプル１１２Ｇの凸結合３１２ｂに基づいて、第４の損失３２２ｄを判定してもよい。いくつかの実現化例では、損失計算器３２０は、１組のラベル付き訓練サンプル１１２Ｇの所与のラベル１１６Ｇと１組のラベル付き訓練サンプル１１２Ｇの疑似ラベル１１６Ｐとの間のカルバック・ライブラー（ＫＬ）発散に基づいて、第５の損失３２２ｅを判定する。ＫＬ発散損失３２２ｅは、拡張された訓練サンプル１１２Ａの矛盾を減少させることによって、疑似ラベル１１６Ｐの生成を鋭敏にする。これは、理想的な疑似ラベル１１６Ｐが正確なラベルにできるだけ近づくべきであるためである。拡張された訓練サンプル１１２Ａについての予測が互いに矛盾することになっている（たとえば、訓練データ１１４の小さい変化が予測の大きい変化をもたらす）場合、疑似ラベル１１６Ｐからの寄与は、目標モデル１５０を識別的になるよう促さない。このため、ＫＬ発散損失３２２ｅは、疑似ラベル１１６Ｐの整合性を実施するのを助ける。

ここで図４を参照して、いくつかの実現化例では、モデル訓練器１１０は、目標モデル１５０を訓練するためのアルゴリズム４００を実現する。ここで、モデル訓練器は、ラベル付き訓練サンプル１１２Ｇ（すなわちＤｕ）と、信頼できる訓練サンプル１１２Ｔ（すなわちＤｐ）とを、入力として受け入れる。モデル訓練器１１０は、各訓練反復（すなわち時間ステップｔ）について、目標モデル１５０のモデルパラメータ３４０を更新する。アルゴリズム４００を使用して、モデル訓練器１１０は、ステップ１で拡張された訓練サンプル１１２Ａを生成し、ステップ２で疑似ラベル１１６Ｐを推定または生成することによって、目標モデル１５０を訓練する。ステップ３で、モデル訓練器１１０は、最適な重み１３２を判定し、および／または、重み推定器１３０（すなわちλ）を更新する。ステップ４で、モデル訓練器１１０は、１組のラベル付き訓練サンプル１１２Ｇを、１組のクリーンにラベル付けされた訓練サンプル１１２Ｃと、１組の間違ってラベル付けされた訓練サンプル１１２Ｍとに分割する。ステップ５で、モデル訓練器はＭｉｘＵｐ凸結合３１２を計算する。ステップ６で、モデル訓練器１１０は総損失３３０を判定し、ステップ７で、ワンステップの確率的勾配を実行して、次の訓練反復のための更新されたモデルパラメータ３４０を取得する。いくつかの例では、モデル訓練器１１０は、ワンステップの確率的勾配最適化中に運動量値を使用して厳密な運動量更新を判定する。

Claims

機械学習モデル（１５０）を訓練するための方法（５００）であって、前記方法（５００）は、
データ処理ハードウェア（１２）で、１組のラベル付き訓練サンプル（１１２Ｇ）を取得するステップを含み、各ラベル付き訓練サンプル（１１２Ｇ）は所与のラベル（１１６Ｇ）に関連付けられており、前記方法（５００）はさらに、
複数の訓練反復の各訓練反復中、
前記１組のラベル付き訓練サンプル（１１２Ｇ）における各ラベル付き訓練サンプル（１１２Ｇ）について、
前記データ処理ハードウェア（１２）が、前記ラベル付き訓練サンプル（１１２Ｇ）のための疑似ラベル（１１６Ｐ）を生成するステップと、
前記データ処理ハードウェア（１２）が、前記所与のラベル（１１６Ｇ）の精度を示す前記ラベル付き訓練サンプル（１１２Ｇ）の重み（１３２）を推定するステップと、
前記データ処理ハードウェア（１２）が、前記ラベル付き訓練サンプル（１１２Ｇ）の前記重み（１３２）が重みしきい値（１４２）を満たすかどうかを判定するステップと、
前記ラベル付き訓練サンプル（１１２Ｇ）の前記重み（１３２）が前記重みしきい値（１４２）を満たす場合、前記データ処理ハードウェア（１２）が、前記ラベル付き訓練サンプル（１１２Ｇ）を、１組のクリーンにラベル付けされた訓練サンプル（１１２Ｃ）に追加するステップと、
前記ラベル付き訓練サンプル（１１２Ｇ）の前記重み（１３２）が前記重みしきい値（１４２）を満たさない場合、前記データ処理ハードウェア（１２）が、前記ラベル付き訓練サンプル（１１２Ｇ）を、１組の間違ってラベル付けされた訓練サンプル（１１２Ｍ）に追加するステップと、
前記データ処理ハードウェア（１２）が、対応する所与のラベル（１１６Ｇ）を使用する前記１組のクリーンにラベル付けされた訓練サンプル（１１２Ｃ）と、対応する疑似ラベル（１１６Ｐ）を使用する前記１組の間違ってラベル付けされた訓練サンプル（１１２Ｍ）とを用いて、前記機械学習モデル（１５０）を訓練するステップとを含む、方法。
前記ラベル付き訓練サンプル（１１２Ｇ）のための前記疑似ラベル（１１６Ｐ）を生成するステップは、
前記ラベル付き訓練サンプル（１１２Ｇ）に基づいて複数の拡張された訓練サンプル（１１２Ａ）を生成するステップと、
各拡張された訓練サンプル（１１２Ａ）について、前記機械学習モデル（１５０）を使用して、予測されるラベル（２２２）を生成するステップと、
対応する前記ラベル付き訓練サンプル（１１２Ｇ）のための前記疑似ラベル（１１６Ｐ）を生成するために、前記複数の拡張された訓練サンプル（１１２Ａ）の各拡張された訓練サンプル（１１２Ａ）について生成された各予測されるラベル（２２２）を平均化するステップとを含む、請求項１に記載の方法（５００）。
前記ラベル付き訓練サンプル（１１２Ｇ）の前記重み（１３２）を推定するステップは、前記ラベル付き訓練サンプル（１１２Ｇ）の最適な重み（１３２）のオンライン近似を判定するステップを含む、請求項１または２に記載の方法（５００）。
前記ラベル付き訓練サンプル（１１２Ｇ）の前記最適な重み（１３２）の前記オンライン近似を判定するステップは、確率的勾配降下最適化を使用するステップを含む、請求項３に記載の方法（５００）。
前記最適な重み（１３２）は、前記機械学習モデル（１５０）の訓練損失（３２２）を最小化する、請求項３または４に記載の方法（５００）。
前記機械学習モデル（１５０）を訓練するステップは、
１組の信頼できる訓練サンプル（１１２Ｔ）を取得するステップを含み、各信頼できる訓練サンプル（１１２Ｔ）は信頼できるラベル（１１６Ｔ）に関連付けられており、前記機械学習モデル（１５０）を訓練するステップはさらに、
前記１組の信頼できる訓練サンプル（１１２Ｔ）と前記１組のラベル付き訓練サンプル（１１２Ｇ）とを使用して凸結合（３１２）を生成するステップを含む、請求項１～５のいずれか１項に記載の方法（５００）。
前記凸結合（３１２）を生成するステップは、前記１組の信頼できる訓練サンプル（１１２Ｔ）と前記１組のラベル付き訓練サンプル（１１２Ｇ）とにペアのＭｉｘＵｐを適用するステップを含む、請求項６に記載の方法（５００）。
前記機械学習モデル（１５０）を訓練するステップはさらに、
対応する所与のラベル（１１６Ｇ）を使用する前記１組のクリーンにラベル付けされた訓練サンプル（１１２Ｃ）に基づいて、第１の損失（３２２ａ）を判定するステップと、
対応する疑似ラベル（１１６Ｐ）を使用する前記１組の間違ってラベル付けされた訓練サンプル（１１２Ｍ）に基づいて、第２の損失（３２２ｂ）を判定するステップと、
前記１組の信頼できる訓練サンプル（１１２Ｔ）の前記凸結合（３１２）に基づいて、第３の損失（３２２ｃ）を判定するステップと、
前記１組のラベル付き訓練サンプル（１１２Ｇ）の前記凸結合（３１２）に基づいて、第４の損失（３２２ｄ）を判定するステップと、
前記１組のラベル付き訓練サンプル（１１２Ｇ）の前記所与のラベル（１１６Ｇ）と前記１組のラベル付き訓練サンプル（１１２Ｇ）の前記疑似ラベル（１１６Ｐ）との間のカルバック・ライブラー発散に基づいて、第５の損失（３２２ｅ）を判定するステップと、
前記第１の損失（３２２ａ）、前記第２の損失（３２２ｂ）、前記第３の損失（３２２ｃ）、前記第４の損失（３２２ｄ）、および前記第５の損失（３２２ｅ）に基づいて、総損失（３３０）を判定するステップとを含む、請求項６または７に記載の方法（５００）。
前記第３の損失（３２２ｃ）および前記第４の損失（３２２ｄ）は、ｓｏｆｔｍａｘ交差エントロピー損失である、請求項８に記載の方法（５００）。
前記１組のラベル付き訓練サンプル（１１２Ｇ）の各ラベル付き訓練サンプル（１１２Ｇ）は画像であり、前記所与のラベル（１１６Ｇ）は前記画像のテキスト記述子である、請求項１～９のいずれか１項に記載の方法（５００）。
システム（１００）であって、
データ処理ハードウェア（１２）と、
前記データ処理ハードウェア（１２）と通信しているメモリハードウェア（１４）とを含み、前記メモリハードウェア（１４）は、前記データ処理ハードウェア（１２）上で実行されると前記データ処理ハードウェア（１２）に動作を行なわせる命令を格納しており、前記動作は、
１組のラベル付き訓練サンプル（１１２Ｇ）を取得することを含み、各ラベル付き訓練サンプル（１１２Ｇ）は所与のラベル（１１６Ｇ）に関連付けられており、前記動作はさらに、
複数の訓練反復の各訓練反復中、
前記１組のラベル付き訓練サンプル（１１２Ｇ）における各ラベル付き訓練サンプル
（１１２Ｇ）について、
前記ラベル付き訓練サンプル（１１２Ｇ）のための疑似ラベル（１１６Ｐ）を生成することと、
前記所与のラベル（１１６Ｇ）の精度を示す前記ラベル付き訓練サンプル（１１２Ｇ）の重み（１３２）を推定することと、
前記ラベル付き訓練サンプル（１１２Ｇ）の前記重み（１３２）が重みしきい値（１４２）を満たすかどうかを判定することと、
前記ラベル付き訓練サンプル（１１２Ｇ）の前記重み（１３２）が前記重みしきい値（１４２）を満たす場合、前記ラベル付き訓練サンプル（１１２Ｇ）を、１組のクリーンにラベル付けされた訓練サンプル（１１２Ｃ）に追加することと、
前記ラベル付き訓練サンプル（１１２Ｇ）の前記重み（１３２）が前記重みしきい値（１４２）を満たさない場合、前記ラベル付き訓練サンプル（１１２Ｇ）を、１組の間違ってラベル付けされた訓練サンプル（１１２Ｍ）に追加することと、
対応する所与のラベル（１１６Ｇ）を使用する前記１組のクリーンにラベル付けされた訓練サンプル（１１２Ｃ）と、対応する疑似ラベル（１１６Ｐ）を使用する前記１組の間違ってラベル付けされた訓練サンプル（１１２Ｍ）とを用いて、機械学習モデル（１５０）を訓練することとを含む、システム。
前記ラベル付き訓練サンプル（１１２Ｇ）のための前記疑似ラベル（１１６Ｐ）を生成することは、
前記ラベル付き訓練サンプル（１１２Ｇ）に基づいて複数の拡張された訓練サンプル（１１２Ａ）を生成することと、
各拡張された訓練サンプル（１１２Ａ）について、前記機械学習モデル（１５０）を使用して、予測されるラベル（２２２）を生成することと、
対応する前記ラベル付き訓練サンプル（１１２Ｇ）のための前記疑似ラベル（１１６Ｐ）を生成するために、前記複数の拡張された訓練サンプル（１１２Ａ）の各拡張された訓練サンプル（１１２Ａ）について生成された各予測されるラベル（２２２）を平均化することとを含む、請求項１１に記載のシステム（１００）。
前記ラベル付き訓練サンプル（１１２Ｇ）の前記重み（１３２）を推定することは、前記ラベル付き訓練サンプル（１１２Ｇ）の最適な重み（１３２）のオンライン近似を判定することを含む、請求項１１または１２に記載のシステム（１００）。
前記ラベル付き訓練サンプル（１１２Ｇ）の前記最適な重み（１３２）の前記オンライン近似を判定することは、確率的勾配降下最適化を使用することを含む、請求項１３に記載のシステム（１００）。
前記最適な重み（１３２）は、前記機械学習モデル（１５０）の訓練損失（３２２）を最小化する、請求項１３または１４に記載のシステム（１００）。
前記機械学習モデル（１５０）を訓練することは、
１組の信頼できる訓練サンプル（１１２Ｔ）を取得することを含み、各信頼できる訓練サンプル（１１２Ｔ）は信頼できるラベル（１１６Ｔ）に関連付けられており、前記機械学習モデル（１５０）を訓練することはさらに、
前記１組の信頼できる訓練サンプル（１１２Ｔ）と前記１組のラベル付き訓練サンプル（１１２Ｇ）とを使用して凸結合（３１２）を生成することを含む、請求項１１～１５のいずれか１項に記載のシステム（１００）。
前記凸結合（３１２）を生成することは、前記１組の信頼できる訓練サンプル（１１２Ｔ）と前記１組のラベル付き訓練サンプル（１１２Ｇ）とにペアのＭｉｘＵｐを適用する
ことを含む、請求項１６に記載のシステム（１００）。
前記機械学習モデル（１５０）を訓練することはさらに、
対応する所与のラベル（１１６Ｇ）を使用する前記１組のクリーンにラベル付けされた訓練サンプル（１１２Ｃ）に基づいて、第１の損失（３２２ａ）を判定することと、
対応する疑似ラベル（１１６Ｐ）を使用する前記１組の間違ってラベル付けされた訓練サンプル（１１２Ｍ）に基づいて、第２の損失（３２２ｂ）を判定することと、
前記１組の信頼できる訓練サンプル（１１２Ｔ）の前記凸結合（３１２）に基づいて、第３の損失（３２２ｃ）を判定することと、
前記１組のラベル付き訓練サンプル（１１２Ｇ）の前記凸結合（３１２）に基づいて、第４の損失（３２２ｄ）を判定することと、
前記１組のラベル付き訓練サンプル（１１２Ｇ）の前記所与のラベル（１１６Ｇ）と前記１組のラベル付き訓練サンプル（１１２Ｇ）の前記疑似ラベル（１１６Ｐ）との間のカルバック・ライブラー発散に基づいて、第５の損失（３２２ｅ）を判定することと、
前記第１の損失（３２２ａ）、前記第２の損失（３２２ｂ）、前記第３の損失（３２２ｃ）、前記第４の損失（３２２ｄ）、および前記第５の損失（３２２ｅ）に基づいて、総損失（３３０）を判定することとを含む、請求項１６または１７に記載のシステム（１００）。
前記第３の損失（３２２ｃ）および前記第４の損失（３２２ｄ）は、ｓｏｆｔｍａｘ交差エントロピー損失である、請求項１８に記載のシステム（１００）。
前記１組のラベル付き訓練サンプル（１１２Ｇ）の各ラベル付き訓練サンプル（１１２Ｇ）は画像であり、前記所与のラベル（１１６Ｇ）は前記画像のテキスト記述子である、請求項１１～１９のいずれか１項に記載のシステム（１００）。