JP2023523726A

JP2023523726A - 複数のポジティブ例を用いた教師あり対照学習

Info

Publication number: JP2023523726A
Application number: JP2022564040A
Authority: JP
Inventors: ディリップ・クリシュナン; プラネー・コースラ; ピョートル・テテルヴァク; アーロン・イェフダ・サルナ; アーロン・ジョセフ・マシノット; ツァ・リュウ; フィリップ・ジョン・イソラ; ヨンロン・ティエン; チェン・ワン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-04-21
Filing date: 2021-04-12
Publication date: 2023-06-07
Anticipated expiration: 2041-04-12
Also published as: EP4121907A1; AU2021259170B2; US20230153629A1; CN114830133A; US11347975B2; KR20220166355A; JP7505025B2; US20210326660A1; AU2021259170A1

Abstract

本開示は、複数のポジティブおよびネガティブのトレーニング例にわたって、教師あり対照学習を同時に実行することを可能にする、改善されたトレーニング方法を提供する。特に、本開示の例示的な態様は、自己教師あり設定において強力な表現を学習するのに非常に効果的であることが示されているバッチ対照損失の改善された教師ありバージョンを対象とする。したがって、提案された技法は、対照学習を完全教師あり設定に適応させ、また、複数のポジティブ例にわたって学習が同時に行われることを可能にする。

Description

関連出願
本出願は、2020年4月21日に出願された米国仮特許出願第63/013,153号の優先権および利益を主張する。米国仮特許出願第63/013,153号は、その全体が参照により本明細書に組み込まれる。

本開示は、一般に、視覚表現の対照学習のためのシステムおよび方法に関する。より詳細には、本開示は、複数のポジティブ例にわたって教師あり対照学習を実行するためのシステムおよび方法に関する。

クロスエントロピー損失は、教師あり学習のために最も広く使用されている損失関数である可能性が高い。これは、経験的ラベル分布(ワンホットベクトルの離散型分布)およびロジットの経験的分布の2つの離散型分布の間のKLダイバージェンスとして自然に定義される。

いくつかの研究では、ノイズの多いラベルに対するロバスト性の欠如、および一般化性能の低下につながる不十分なマージンの可能性など、この損失の欠点を探求してきた。しかしながら、実際には、最先端の結果を達成するためにクロスエントロピーを継続的に使用することによって証明されるように、提案されたほとんどの代替案は、ImageNetなどの大規模なデータセットではより良好に機能していないようである。

通常のクロスエントロピーに対する多くの提案された改良は、実際には、損失の定義の緩和、具体的には、参照分布が軸に沿っていることを伴う。これらの修正を用いてトレーニングされたモデルは、一般化、ロバスト性、および較正の改良を示す。しかしながら、提案された改良は、クロスエントロピー損失アプローチの欠点を完全に排除できるわけではない。

Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V Le. Autoaugment: Learning augmentation strategies from data. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 113-123, 2019. Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V Le. Randaugment: Practical data augmentation with no separate search. arXiv preprint arXiv:1909.13719, 2019 A variant of the strategy of Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020 to sequentially apply random color distortion and Gaussian blurring, where an additional sparse image warp is probabilistically added to the end of the sequence.

本開示の実施形態の態様および利点が、以下の記述において部分的に説明され、または記述から学ぶことができ、または実施形態の実践を通して知ることができる。

本開示の1つの例示的な態様は、視覚表現の教師あり対照学習を実行するためのコンピューティングシステムを対象とする。コンピューティングシステムは、1つまたは複数のプロセッサと、1つまたは複数の非一時的コンピュータ可読媒体であり、入力画像の埋込み表現を生成するために入力画像を処理するように構成されたベースエンコーダニューラルネットワークと、入力画像の投影表現を生成するために入力画像の埋込み表現を処理するように構成された投影ヘッドニューラルネットワークと、1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実行させる命令とをまとめて記憶する、1つまたは複数の非一時的コンピュータ可読媒体とを含む。動作は、複数のクラスのうちの第1のクラスに関連付けられたアンカー画像、第1のクラスに関連付けられた複数のポジティブ画像、および複数のクラスのうちの1つまたは複数の他のクラスに関連付けられた1つまたは複数のネガティブ画像を取得することであり、1つまたは複数の他のクラスが第1のクラスとは異なる、取得することを含む。動作は、ベースエンコーダニューラルネットワークにより、アンカー画像のアンカー埋込み表現を取得するために、アンカー画像と、複数のポジティブ埋込み表現をそれぞれ取得するために、複数のポジティブ画像と、1つまたは複数のネガティブ埋込み表現をそれぞれ取得するために、1つまたは複数のネガティブ画像とを処理することを含む。動作は、投影ヘッドニューラルネットワークにより、アンカー画像のアンカー投影表現を取得するために、アンカー埋込み表現と、複数のポジティブ投影表現をそれぞれ取得するために、複数のポジティブ埋込み表現と、1つまたは複数のネガティブ投影表現をそれぞれ取得するために、1つまたは複数のネガティブ埋込み表現とを処理することを含む。動作は、アンカー投影表現と、複数のポジティブ投影表現の各々と、1つまたは複数のネガティブ投影表現の各々との間の類似性メトリックを評価する損失関数を評価することを含む。動作は、損失関数に少なくとも部分的に基づいて、少なくともベースエンコーダニューラルネットワークの1つまたは複数のパラメータの1つまたは複数の値を修正することを含む。

本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。

本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照してより良く理解されよう。添付の図面は、本明細書に組み込まれるとともにその一部を成し、本開示の例示的実施形態を示し、記述とともに、関連原理を説明するのに役立つ。

当業者を対象とする、実施形態の詳細な考察が本明細書において説明され、本明細書は、添付の図面を参照する。

本開示の例示的な実施形態による、教師あり対自己教師ありの対照損失の間の差を示す図である。本開示の例示的な実施形態による、教師あり対自己教師ありの対照損失の間の差を示す図である。本開示の例示的な実施形態による、クロスエントロピー、自己教師あり対照損失、および教師あり対照損失の間の差を示す図である。本開示の例示的な実施形態による、例示的な対照学習フレームワークを示す図である。本開示の例示的な実施形態による、例示的な対照学習フレームワークに従って学習されたベースエンコーダを特徴とする例示的な微調整モデルを示す図である。本開示の例示的実施形態による例示的コンピューティングシステムのブロック図である。本開示の例示的実施形態による例示的コンピューティングデバイスのブロック図である。本開示の例示的実施形態による例示的コンピューティングデバイスのブロック図である。

複数の図面にわたって繰り返される参照番号は、様々な実装形態において同じ特徴を識別することを意図している。

概要
一般に、本開示は、複数のポジティブおよびネガティブのトレーニング例にわたって、教師あり対照学習を同時に実行することを可能にする、改善されたトレーニング方法を対象とする。特に、本開示の例示的な態様は、自己教師あり設定において強力な表現を学習するのに非常に効果的であることが示されているバッチ対照損失の改善された教師ありバージョンを対象とする。したがって、提案された技法は、対照学習を完全教師あり設定に適応させ、また、複数のポジティブ例にわたって学習が同時に行われることを可能にする。

同じクラスからの複数のポジティブトレーニング例と、他のクラスからの複数のネガティブトレーニング例との両方にわたって、対照学習を同時に行うことを可能にすることによって、同じクラスに属するポイントのクラスタ全体を、埋込み空間内で一緒に引き寄せることができ、一方、異なるクラスからのサンプルのクラスタは、同時に押し離される。したがって、提案された技法は、サンプルのポジティブ対の間の類似性を高め、ネガティブ対の間の類似性を低くするように動作する。類似性は、たとえば、低次元表現間の内積として定義することができる。結果として得られる表現は、様々なダウンストリーム転送タスクに使用することができる非常に良好な表現である。

したがって、提案されるシステムおよび方法は、クロスエントロピー損失を使用するシステムよりも効果的に、ラベルまたは他のクラス割当て情報を活用することができる。特に、クロスエントロピー損失において行われるように、各クラスの表現を特定の軸に沿ったクラス値に一致させるのではなく、対照学習アプローチの使用は、各クラスの表現が埋込み空間内の任意のポイントで学習されることを可能にし、よりロバストなクラス間表現が学習されることを可能にする。

提案された技法に従ってトレーニングされた例示的なモデルは、異なるアーキテクチャおよびデータ拡大にわたって、教師あり学習タスクにおいて、一貫してクロスエントロピーを上回る。具体的には、米国仮特許出願第63/013,153号に含まれる例示的な実験結果によって実証されるように、ResNet-50とResNet-200の両方について、提案された技法に従ってトレーニングされた例示的なモデルは、クロスエントロピーを1%を超えて上回り、AutoAugmentデータ拡大を使用する方法の中で、78:8%の新しい技術数値を設定している。

また、提案された損失は、較正と精度の両方に関する標準ベンチマークでの自然な破損に対するロバスト性についての明確な利点を示す。さらに、クロスエントロピーと比較して、提案された教師あり対照損失は、オプティマイザまたはデータ拡大などのハイパーパラメータ設定に対してより安定している。本開示の追加の態様は、大きいバッチサイズおよび正規化表現などの重要な要因を活用し、これらは、自己教師あり学習に有益であることが示されている。

より具体的には、本開示の例示的な態様は、参照分布を完全に排除する、教師ありトレーニングのための新しい損失を対象とし、代わりに、提案されたシステムの例示的な実装形態は、同じクラスからの正規化表現が、異なるクラスからの表現よりも互いに近いことを単に課す。提案された損失は、対照目的関数のファミリーに基づいて構築されており、これは、近年、画像およびビデオ領域において、自己教師あり学習において優れた性能を達成し、メトリック学習に関する多くの文献との関連性を有する。

名前が示唆するように、対照損失は、2つの「対向する力」からなり、所与のアンカーポイントについて、第1の力は、表現空間においてアンカーを他のポイントの近くに引き寄せ、第2の力は、アンカーを他のポイントから遠くへ押しやる。前者のセットはポジティブ、後者はネガティブとして知られる。

本開示の一態様は、(たとえば、単一のポジティブのみを使用する自己教師あり対照学習における慣例とは対照的に)多くのネガティブに加えて、アンカーごとに多くのポジティブを考慮することである。いくつかの実装形態では、提供されるラベルまたは他のクラスベースの指定を使用して、ポジティブおよびネガティブを選択することができる。図1A～図1Bおよび図2A～図2Cは、提案された損失の視覚的説明を提供する。

具体的には、図1Aおよび図1Bは、教師あり対自己教師ありの対照損失の間の差を示す。本明細書で提案される教師あり対照損失の例示的な実装形態(図1Aに一般的に示される)では、あるクラスからのポジティブが、(ラベルが提供されるので)他のクラスからのネガティブと対比される。これによって、同じクラスからの画像(しかし、必ずしもまったく同じシーンまたは対象を示すとは限らない)が、低次元超球内の近くのポイントにマッピングされることになる。対照的に、自己教師あり対照損失(図1Bに一般的に示される)では、ラベルは提供されない。したがって、ポジティブは、所与のサンプル(クロップ、フリップ、色変化など)のデータ拡大として生成され、ネガティブは、ミニバッチからランダムにサンプリングされる。これによって、偽陰性(右下に示される)が生じ、これは、正しくマッピングされない可能性があり、より悪い表現が得られる可能性がある。

図2A～図2Cは、クロスエントロピー、自己教師あり対照損失、および教師あり対照損失の間の差を示す。特に、クロスエントロピー損失(図2Aに一般的に示される)は、ラベルおよびソフトマックス損失を使用してモデルをトレーニングし、自己教師あり対照損失(図2Bに一般的に示される)は、対照損失およびデータ拡大を使用して、クラスについての表現を学習する。しかしながら、いくつかの実装形態では、提案された教師あり対照損失(図2Cに一般的に示される)は、2つの段階を有し、第1の段階では、複数のポジティブ例および1つまたは複数のネガティブ例を含む、対照損失のための画像を選択するためにラベルが使用される。第2の段階では、学習された表現が凍結され、次いで、ソフトマックスまたはクロスエントロピー損失を使用して、(たとえば、線形層上で)分類器または他のタスク固有ヘッドが学習され得る。この2段階アプローチは、ラベル、対照損失、およびソフトマックスまたはクロスエントロピー損失を使用することのすべての利点を組み合わせる。

結果として生じる損失は、米国仮特許出願第63/013,153号に含まれる例示的な経験的結果によって示されるように、トレーニングに対して安定している。一例として、提案された教師あり対照技法に従ってトレーニングされた例示的なモデルは、ResNet-50およびResNet-200アーキテクチャにおけるImageNetデータセットで非常に良好なトップ1精度を達成する。Auto-Augmentを使用するResNet-50では、例示的な実装形態は、78.8%のトップ1精度を達成し、これは、同じデータ拡大およびアーキテクチャを使用したクロスエントロピー損失に対して1.6%の改善である。また、ImageNet-Cデータセットで測定されると、トップ1の精度の増加は、ロバスト性の向上を伴う。

本開示のシステムおよび方法は、いくつかの技術的効果および利益を提供する。1つの例示的な技術的効果として、提案された損失は、クロスエントロピーと比較して最先端の表現をモデルが学習することを可能にし、トップ1の精度およびロバスト性において著しい向上をもたらす。したがって、提案された技法は、画像分類タスクなどの様々なタスクにおけるコンピューティングシステム自体の性能および機能性を改善する。

別の例示的な技術的効果として、提案された損失は、クロスエントロピーよりも、ハイパーパラメータの範囲に対する感度が低く、これは、重要な実用上の考慮事項である。この感度の低下は、クロスエントロピーで行われるように特定のターゲットに向けて強制的に引っ張るのではなく、同じクラスからのサンプルの表現を一緒に引き寄せる、損失のより自然な定式化に起因する。典型的なトレーニングシステムでは、許容可能なまたは最適な性能を見つけるために、ハイパーパラメータを「調整」するために、何回ものトレーニングが実行される必要があり得る。ハイパーパラメータに対する損失およびモデルの感度を下げることによって、ハイパーパラメータを調整するために実行する必要があるトレーニングラウンドの回数がより少なくなる可能性がある。実行されるトレーニングラウンドの数を減らすことは、プロセッサ使用量、メモリ使用量、ネットワーク帯域幅などのコンピューティングリソースの節約をもたらす。

また別の例示的な技術的効果として、本明細書で分析的に示されるように、提案される損失関数の勾配は、ハードポジティブおよびハードネガティブからの学習を促進する。いくつかの既存のシステムでは、特定のハードネガティブを識別するための明示的で計算量の多いアプローチが典型的に実行される。この性質の1つの例示的なアプローチは、「ハードネガティブマイニング」である。これらのアプローチは、性能を向上させるが、かなりの計算リソースの支出を必要とする。ハードポジティブおよびハードネガティブからの学習を自然に促進することによって、ハード例(たとえば、ハードネガティブ)を識別するそのような明示的な試みを回避することができ、プロセッサ使用量、メモリ使用量、ネットワーク帯域幅などのコンピューティングリソースを節約することが可能になる。

さらに別の例示的な技術的効果として、提案されたアプローチは、トレーニングされたモデルが生成する偽陰性の数を減少させることができる。たとえば、同じクラス内にあるが、異なる対象または場面を示すポジティブ例についての学習を可能にすることによって、そのようなポジティブ例がネガティブ例として扱われることを回避することができる。したがって、トレーニングされたモデルは、特定の対象またはシーンのみに対してではなく、すべてのクラスメンバに対して一貫した表現を提供するように学習する。偽陰性が低減されたトレーニングされたモデルは、コンピューティングシステム自体の機能の改善を表す。

したがって、本開示の態様は、分類精度およびロバスト性ベンチマークにおいてクロスエントロピーを上回る、改善された対照学習損失を提供する。さらに、例示的な実験では、この損失は、ハイパーパラメータの変更に対してあまり敏感ではないことを示し、これは、有用な実用上の考慮事項であり得る。損失関数は、一端での完全教師なしトレーニングと、他端での完全教師ありトレーニングとの間の自然な接続を提供する。これによって、ラベル付けされたデータの利用可能性に基づいて挙動をスムーズにシフトすることができる単一の損失の利益を活用することができる半教師あり学習における適用の可能性が開かれる。

教師あり対照学習のための例示的なシステムおよび方法
このセクションは、自己教師あり表現学習のための対照学習損失をレビューすることから始まる。次に、この損失を完全教師あり学習に適したものに修正し、同時に自己教師ありアプローチに重要な特性を維持する方法を示す。

例示的な表現学習フレームワーク
1つの例示的な表現学習フレームワークは、図3に示されており、自己教師あり対照学習に典型的に使用されるものと構造的に類似している。図3に示されるように、1つの例示的な表現学習フレームワークは、以下の構成要素からなる(教師ありシナリオと自己教師ありシナリオとの間の差の説明については、図1A～図1Bおよび図2A～図2Cも参照されたい)。

オプションのデータ拡大モジュール203、A(・)は、入力画像202、xをランダムに拡張された画像212、

に変換する。いくつかの実装形態では、各入力画像202について、システムは、各々がデータの異なるビューを表し、したがって、元の入力画像中の情報のいくつかのサブセットを含む、2つ以上のランダムに拡張された画像212を生成するように実装され得る。しかしながら、他の実装形態は、単一の拡張画像のみを生成するように構成することができる。クラスに含まれる画像の数の2倍を参照する本明細書に含まれる例示的な式(たとえば、例示的な損失関数)は、入力画像ごとに2つの拡張画像を生成する例示的な実施形態を考慮するように定形化される。しかしながら、そのような定形化は、入力画像ごとに生成される拡張画像の数が異なることを考慮するように修正することができる。

データ拡大モジュール203を参照すると、一例として、拡大の第1の段階は、画像にランダムクロップを適用し、次いで、それを画像のネイティブ解像度にサイズ変更することを含むことができる。別の例として、自己教師あり対照損失が、クロスエントロピー損失とは著しく異なるデータ拡大を必要とするという知見に照らして、第2の段階は、以下のいずれかに記載される異なる拡大の一部または全部を含むことができる。

AutoAugment: Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V Le. Autoaugment: Learning augmentation strategies from data. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 113-123, 2019.

RandAugment: Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V Le. Randaugment: Practical data augmentation with no separate search. arXiv preprint arXiv:1909.13719, 2019

SimAugment: A variant of the strategy of Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020 to sequentially apply random color distortion and Gaussian blurring, where an additional sparse image warp is probabilistically added to the end of the sequence.

より一般的には、データ拡大モジュール203は、1つまたは複数の拡大の任意の異なる組合せを実行することができる。さらに、本開示のいくつかの例示的な実装形態は、入力画像202の拡張を実行せず、代わりに、単純に、拡張なしに入力画像202を使用する。

再び図3を参照すると、フレームワークは、拡張画像212

を埋込み表現ベクトル214

にマッピングするベースエンコーダニューラルネットワーク204、E(・)を含むことができる。

入力画像ごとに2つの拡張画像を生成するフレームワークのいくつかの例示的な実装形態では、各入力画像の拡張画像の両方が、同じエンコーダに別々に入力され、一対の表現ベクトルが得られ得る。より一般的には、同じエンコーダネットワーク204は、典型的には、トレーニングバッチ内のすべての画像の表現を生成するために使用される。

エンコーダネットワーク204のために一般的に使用される2つのエンコーダアーキテクチャは、ResNet-50およびResNet-200を含み、たとえば、最終プーリング層(D_E=2048)のアクティブ化を表現ベクトル214として使用することができる。いくつかの例示的な実装形態では、この表現層は、

の単位超球に正規化され得る。この正規化は、メトリック損失を使用した他の論文と一致し、性能を向上させることができる。新しい教師あり損失は、特別なハイパーパラメータの調整なしに、これらのアーキテクチャの両方を高精度にトレーニングすることができる。実際、例示的な実験結果は、教師あり対照損失が、オプティマイザの選択またはデータ拡大など、ハイパーパラメータの小さい変化に対してあまり敏感でないことを実証する。

フレームワークはまた、正規化表現ベクトルr214を、対照損失の計算に適した投影表現216

にマッピングする投影ネットワーク206、P(・)を含むことができる。1つの例示的な投影ネットワーク216は、サイズ2048の単一の隠れ層およびサイズD_P=128の出力ベクトルを有する多層パーセプトロンであり得る。いくつかの例示的な実装形態では、このベクトルは、この場合も、単位超球上にあるように正規化することができ、これにより、内積を使用して投影空間内の距離を測定することが可能になる。正規化は、勾配の形態に数学的構造を追加し、これによって、正規化が実行されない場合よりも一般的にトレーニングが改善される。

入力画像202の損失関数は、投影表現216に基づいて(たとえば、他のポジティブおよびネガティブのトレーニング例など他の入力画像のために生成された他の投影表現との比較を介して)評価することができる。

いくつかの実装形態では、投影ネットワーク206は、教師あり対照損失をトレーニングするためにのみ使用される。トレーニングが完了した後、このネットワークは、廃棄され、タスク固有ヘッド(たとえば、単一線形層)と置き換えられ得る。エンコーダ204からの埋込み表現214は、投影ネットワーク206からの投影表現216よりも下流タスクにおいて改善された性能を与える。したがって、いくつかの実装形態では、提案される推論時間モデルは、それらのクロスエントロピー等価物とまったく同じ数のパラメータを含むことができる。

一例として、図4は、図3に示される例示的なフレームワークにおいてトレーニングされた後のベースエンコーダニューラルネットワーク204の例示的な使用のグラフ図を示す。特に、ベースエンコーダニューラルネットワーク204が抽出され、追加のタスク固有モデル250がベースエンコーダニューラルネットワーク204に付加されている。たとえば、タスク固有モデル250は、線形モデルまたはニューラルネットワークなどの非線形モデルを含む任意の種類のモデルとすることができる。

タスク固有モデル250および/またはベースエンコーダニューラルネットワーク204は、追加のトレーニングデータ(たとえば、タスク固有データであり得る)について追加的にトレーニング(たとえば「微調整」)され得る。追加のトレーニングは、たとえば、教師あり学習トレーニングとすることができる。

微調整後、埋込み表現254を生成することができるベースエンコーダニューラルネットワーク204に、追加の入力252を提供することができる。タスク固有モデル250は、埋込み表現254を受信し、処理して、タスク固有予測256を生成することができる。例として、タスク固有予測256は、分類予測、検出予測、認識予測、回帰予測、セグメンテーション予測、および/または他の予測タスクとすることができる。

さらに、いくつかの実装形態では、埋込み表現254は、さらなるトレーニング/微調整を必要とせずに(たとえば、追加のタスク固有モデル250を必要とせずに)、類似性検索または取出しなどのタスクに直接使用され得る。

本開示は、説明を容易にするために画像領域からのデータ例に焦点を当てているが、フレームワークは、テキストおよび/またはオーディオ領域を含む異なる領域のデータ例に拡張可能である。使用され得る画像の例示的なタイプは、ビデオフレーム、LiDAR点群、コンピュータ断層撮影スキャン、X線画像、ハイパースペクトル画像、および/または様々な他の形態の画像を含む。

例示的な対照損失:自己教師ありおよび教師あり
本開示の例示的な実装形態は、ラベル付きデータのインパクトのある組込みを可能にすると同時に、自己教師あり表現学習の成功に最も重要であった対照損失の有益な特性を維持する、対照損失関数を提供する。自己教師あり対照学習と同様に、本開示の例示的な実装形態は、データをランダムにサンプリングすることによってミニバッチを生成することができる。一例として、ランダムにサンプリングされた画像/ラベルN対のセット、{x_k, y_k}_k=1...Nについて、トレーニングに使用される対応するミニバッチは、2N対

を含むことができ、ここで、

および

は、x_k(k=1...N)および

の2つのランダムな拡張である。この場合も、何らかの他の数の拡張画像を各入力画像に対して生成することができ、一例として2つが提供される。

例示的な自己教師あり対照損失
ミニバッチ内で、任意の拡張画像のインデックスをi∈{1...2N}とし、同じソース画像に由来する他の拡張画像のインデックスをj(i)とする。自己教師あり対照学習では、損失は次のような形をとる。

ここで、

であり、1_B∈{0,1}は、Bが真と評価された場合に1を返すインジケータ関数であり、τ∈R⁺は温度パラメータである。式2の文脈では、インデックスiはアンカーと呼ばれ、インデックスjはポジティブと呼ばれ、他の2(N-1)インデックス

はネガティブと呼ばれる。z_i,・z_j(i)は、128次元空間における正規化ベクトルz_iとz_j(i)との間の内積(ドット)を計算する1つの例示的な類似性メトリックである。各アンカーiには、1つのポジティブ対と2N-2のネガティブ対があることに留意されたい。分母は、合計2N-1項(ポジティブおよびネガティブ)を有する。

式1を最小化することによるエンコーダへの影響を考慮することは、洞察に富んでいる。トレーニング中、任意のiについて、エンコーダは、式2中の対数引数の分子を最大化し、同時にその分母を最小化するように調整される。分子と分母の両方に項exp(z_i・z_j(i))が存在するという制約は、対数引数が、1より大きくならないことを確実にし、式1は、インデックス((i,j)および(j,i))のすべての対にわたって合計されるので、エンコーダは、他方も行うことなく、分母を最小化することまたは分子を最大化することを制限される。その結果、エンコーダは、類似するビューを隣接する表現にマッピングすることを学習する一方で、類似しないビューを非隣接の表現にマッピングするが、評価ごとに単一のポジティブ例のみに基づいて進行する。

例示的な教師あり対照損失
教師あり学習の場合、式2の対照損失は、2つ以上のサンプルが確実に同じクラスに属することが知られている場合を処理することができない。同じクラスに属する任意の数のポジティブを処理するために損失を一般化するために、以下の新しい損失関数が提案される。

ここで、

は、アンカーiと同じラベル

を有するミニバッチ内の画像の総数である。この場合も、トレーニング画像ごとに2つの拡張画像が生成される例示的な設定を考慮して2Nの定式化が提供されるが、他の数を使用することもできる。式(3)および式(4)で与えられる例示的な損失は、教師あり学習によく適した重要な特性を有する。

任意の数のポジティブへの一般化。式2に対する式4の主要な構造的変化の1つは、現在、任意のアンカーについて、ミニバッチにおけるすべてのポジティブ(すなわち、拡大ベースのもの、ならびに同じクラスからの残りの2(N-1)エントリのいずれか)が分子に寄与することである。クラスの数に関して大きいミニバッチサイズについては、複数の追加の項が存在する(平均で、

式中、Cはクラスの数である)。損失は、式4の各インスタンスにおける同じクラスからのすべてのエントリに密接に整列した表現を与えるようエンコーダを促し、式2から生成されるものよりも、表現空間のよりロバストなクラスタ化をもたらす。

対照パワーは、ポジティブおよび/またはネガティブが多いほど増加する。式4で与えられる自己教師あり対照損失の例示的な一般形は、ポジティブの例および/またはネガティブの例をより多く追加することによって、信号とノイズ(ネガティブ)とを区別する能力が向上するという原理を利用する。この特性は、自己教師あり対照学習を介した表現学習にとって重要であることが示されており、多くの研究は、ネガティブの数の増加に伴って性能が向上することを示している。

式4の例示的な教師あり対照損失は、この構造を維持し、分母に多数のネガティブを追加すると、ポジティブの対照が増加し、同様に、分子に多数のポジティブを追加すると、ネガティブの対照が増加する。ポジティブが多いと、モデルがクラス内変動をより良好に捕捉することを可能にする。ネガティブが多いと、モデルがクラス間変動を捕捉することが可能になる。

例示的な教師あり対照損失勾配特性の説明
ここで、本サブセクションでは、弱いもの(すなわち、アンカーを対比し続けることがエンコーダにわずかしか利益を与えないもの)ではなく、ハードポジティブおよびネガティブ(すなわち、アンカーを対比し続けることがエンコーダに大いに利益を与えるもの)に自然に学習を集中させるような構造を、その勾配が有することを示すことによって、式4の例示的な教師あり対照損失の形式について、さらなる動機付けを提供する。したがって、損失は、そのトレーニングにおいて効率的であることがわかる。トリプレット損失など他の対照損失は、トレーニングの有効性を高めるために、ハードネガティブマイニングの計算コストが高い技法を使用することが多い。この分析の副産物として、投影ネットワークの端部における正規化層の追加は、その存在によって勾配がこの構造を有することができるので有益であることが示される。

正規化直前の投影ネットワーク出力をWとする(すなわちz=w/||w||)と、wに関する式4の勾配は、以下の形式を有する。

ここで、

は、アンカーiに関する表現の内積の温度スケールのソフトマックス分布の第lの成分であり、したがって、確率として解釈可能である。式6は、一般に、ミニバッチにおけるポジティブからの寄与を含み、一方、式7はネガティブのものを含む。ここで、イージーポジティブおよびネガティブ(すなわち、アンカーを対比し続けることがエンコーダにわずかな利益しか与えないもの)は、小さい勾配寄与を有し、一方、ハードポジティブおよびネガティブ(すなわち、アンカーを対比し続けることがエンコーダに大いに利益を与えるもの)は、大きい勾配寄与を有することが示される。イージーポジティブでは、z_i・z_j≒1であり、したがってP_ijは大きい。したがって(式6を参照)、

しかしながら、ハードポジティブの場合、z_i・z_j≒0であり、P_ijは中程度であるため、以下の通りである。

したがって、さらなる対照努力がリターンを減少させる弱いポジティブの場合、

への寄与は小さく、一方、さらなる対照努力が依然として必要とされるハードポジティブの場合、その寄与は大きい。弱いネガティブ(z_i・z_k≒-1)およびハードネガティブ(z_i・z_k≒0)の場合、式7からの||(z_k-(z_i・z_k)・z_i)||・P_ikの類似の計算は、同様の結論を与え、勾配の寄与は、ハードネガティブでは大きく、弱いネガティブでは小さい。一般的な((z_i・z_l)・z_l-z_l)構造は、勾配がハードポジティブおよびネガティブに対して大きくなることを確実にする際に重要な役割を果たし、正規化層が投影ネットワークの端部に追加される場合にのみ現れる。

例示的デバイスおよびシステム
図5Aは、本開示の例示的実施形態による例示的コンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニング用コンピューティングシステム150を含む。

ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、ゲーム機もしくはコントローラ、装着可能コンピューティングデバイス、埋込み型コンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、どのタイプのコンピューティングデバイスであってもよい。

ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ114は、データ116と、ユーザコンピューティングデバイス102に動作を実施させるようにプロセッサ112によって実行される命令118とを記憶することができる。

いくつかの実装形態では、ユーザコンピューティングシステム102は、1つまたは複数の機械学習済みモデル120を記憶するか、または含むことができる。たとえば、機械学習済みモデル120は、ニューラルネットワーク(たとえば、ディープニューラルネットワーク)または非線形モデルおよび/もしくは線形モデルを含む他のタイプの機械学習済みモデルなど、様々な機械学習済みモデルであってよく、またはそうでなければ、それらの機械学習済みモデルを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、回帰型ニューラルネットワーク(たとえば、長短期メモリ回帰型ニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形のニューラルネットワークを含み得る。例示的機械学習済みモデル120については、図3および図4を参照して論じる。

いくつかの実装形態では、1つまたは複数の機械学習済みモデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、次いで、1つまたは複数のプロセッサ112によって使われ、またはそうでなければ実装され得る。いくつかの実装形態では、ユーザコンピューティングデバイス102は、(たとえば、入力の複数のインスタンスにわたって並列予測を実行するために)単一機械学習済みモデル120の複数の並列インスタンスを実装することができる。

追加または代替として、1つまたは複数の機械学習済みモデル140は、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含まれ、またはそうでなければ、サーバコンピューティングシステム130によって記憶され、実装され得る。たとえば、機械学習済みモデル140は、ウェブサービス(たとえば、予測サービス)の一部分として、サーバコンピューティングシステム130によって実装され得る。したがって、1つまたは複数のモデル120が、ユーザコンピューティングデバイス102において記憶され、実装されてよく、かつ/または1つもしくは複数のモデル140が、サーバコンピューティングシステム130において記憶され、実装されてよい。

ユーザコンピューティングデバイス102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122も含み得る。たとえば、ユーザ入力構成要素122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感な、タッチ感応構成要素(たとえば、タッチ感応表示画面またはタッチパッド)であってよい。タッチ感応構成要素は、仮想キーボードを実装するのに役立ち得る。他の例示的ユーザ入力構成要素は、マイクロフォン、従来のキーボード、またはユーザがユーザ入力を与えることができる他の手段を含む。

サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ134は、データ136と、サーバコンピューティングシステム130に動作を実施させるようにプロセッサ132によって実行される命令138とを記憶することができる。

いくつかの実装形態では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、1つまたは複数のサーバコンピューティングデバイスによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、順次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。

上述したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習済みモデル140を記憶するか、またはそうでなければ含むことができる。たとえば、モデル140は、様々な機械学習済みモデルであってよく、または、そうでなければそれらを含んでよい。例示的機械学習済みモデルは、ニューラルネットワークまたは他のマルチレイヤ非線形モデルを含む。例示的ニューラルネットワークは、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、回帰型ニューラルネットワーク、および畳み込みニューラルネットワークを含む。例示的モデル140については、図3および図4を参照して論じる。

ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されるトレーニング用コンピューティングシステム150との対話により、モデル120および/または140をトレーニングすることができる。トレーニング用コンピューティングシステム150は、サーバコンピューティングシステム130とは別個であってよく、またはサーバコンピューティングシステム130の一部分であってよい。

トレーニング用コンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ154は、データ156と、トレーニング用コンピューティングシステム150に動作を実施させるようにプロセッサ152によって実行される命令158とを記憶することができる。いくつかの実装形態では、トレーニング用コンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、1つまたは複数のサーバコンピューティングデバイスによって実装される。

トレーニング用コンピューティングシステム150は、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130において記憶された機械学習済みモデル120および/または140を、(たとえば、図3に示されるフレームワークに従って)たとえば、誤差逆伝播など、様々なトレーニングまたは学習技法を使ってトレーニングするモデル訓練器160を含み得る。たとえば、損失関数は、(たとえば、損失関数の勾配に基づいて)モデルの1つまたは複数のパラメータを更新するために、モデルを通して逆伝搬され得る。平均2乗誤差、尤度損失、交差エントロピー損失、ヒンジ損失、および/または式1～4で本明細書に記載されているような様々な他の損失関数など、様々な損失関数が使用され得る。勾配降下技法は、いくつかのトレーニング反復に対してパラメータを反復的に更新するために使用され得る。

いくつかの実装形態では、誤差逆伝播を実行することは、短縮された時通的誤差逆伝播を実行することを含み得る。モデル訓練器160は、トレーニングされるモデルの汎化能力を向上するために、いくつかの汎化技法(たとえば、重み減衰、ドロップアウトなど)を実施することができる。

特に、モデル訓練器160は、トレーニングデータのセット162に基づいて、機械学習済みモデル120および/または140をトレーニングすることができる。トレーニングデータ162は、たとえば、画像、オーディオサンプル、テキストなど異なるモダリティのデータを含むことができる。使用され得る画像の例示的なタイプは、ビデオフレーム、LiDAR点群、X線画像、コンピュータ断層撮影スキャン、ハイパースペクトル画像、および/または様々な他の形態の画像を含む。

いくつかの実装形態では、ユーザが承諾を与えた場合、トレーニング例は、ユーザコンピューティングデバイス102によって提供され得る。したがって、そのような実装形態では、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受信されるユーザ固有データに対してトレーニングコンピューティングシステム150によってトレーニングされ得る。場合によっては、このプロセスは、モデルの個人化と呼ばれることがある。

モデル訓練器160は、所望の機能性を提供するのに使用されるコンピュータ論理を含む。モデル訓練器160は、汎用プロセッサを制御するハードウェア、ファームウェア、および/またはソフトウェアで実装することができる。たとえば、いくつかの実装形態では、モデル訓練器160は、記憶デバイス上に記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデル訓練器160は、RAMハードディスクまたは光学もしくは磁気媒体などの有形コンピュータ可読記憶媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。

ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど、どのタイプの通信ネットワークであってもよく、任意の数のワイヤードまたはワイヤレスリンクを含み得る。概して、ネットワーク180を介した通信は、非常に様々な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使って、どのタイプのワイヤードおよび/またはワイヤレス接続を介しても搬送することができる。

図5Aは、本開示を実装するために使用され得る1つの例示的コンピューティングシステムを示す。他のコンピューティングシステムが同様に使用されてもよい。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイス102は、モデル訓練器160およびトレーニングデータセット162を含み得る。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102においてローカルにトレーニングされることと使われることの両方が可能である。そのような実装形態のいくつかでは、ユーザコンピューティングデバイス102は、ユーザ固有データに基づいて、モデル訓練器160を実装して、モデル120を個人化し得る。

図5Bは、本開示の例示的実施形態に従って実行する例示的コンピューティングデバイス10のブロック図を示す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。

コンピューティングデバイス10は、いくつかのアプリケーション(たとえば、アプリケーション1～N)を含む。各アプリケーションは、それ自体の機械学習ライブラリおよび機械学習済みモデルを含む。たとえば、各アプリケーションは、機械学習済みモデルを含み得る。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。

図5Bに示すように、各アプリケーションは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使って、各デバイス構成要素と通信することができる。いくつかの実装形態では、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。

図5Cは、本開示の例示的実施形態に従って実行する例示的コンピューティングデバイス50のブロック図を示す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。

コンピューティングデバイス50は、いくつかのアプリケーション(たとえば、アプリケーション1～N)を含む。各アプリケーションは、中央インテリジェンスレイヤと通信する。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通API)を使って、中央インテリジェンスレイヤ(およびその中に記憶されるモデル)と通信することができる。

中央インテリジェンスレイヤは、いくつかの機械学習済みモデルを含む。たとえば、図5Cに示すように、それぞれの機械学習済みモデル(たとえば、モデル)が、各アプリケーションに与えられ、中央インテリジェンスレイヤによって管理され得る。他の実装形態では、2つ以上のアプリケーションが、単一の機械学習済みモデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンスレイヤは、アプリケーションすべてに単一モデル(たとえば、単一モデル)を提供することができる。いくつかの実装形態では、中央インテリジェンスレイヤは、コンピューティングデバイス50のオペレーティングシステムに含まれるか、またはそうでなければ、オペレーティングシステムによって実装される。

中央インテリジェンスレイヤは、中央デバイスデータレイヤと通信することができる。中央デバイスデータレイヤは、コンピューティングデバイス50向けのデータの集中型リポジトリであってよい。図5Cに示すように、中央デバイスデータレイヤは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つまたは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、中央デバイスデータレイヤは、API(たとえば、プライベートAPI)を使用して、各デバイス構成要素と通信することができる。

追加開示
本明細書において論じた技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに行われるアクションおよびそのようなシステムとの間で送られる情報を参照する。コンピュータベースのシステムの固有柔軟性により、構成要素の間でのタスクおよび機能性の非常に様々な可能構成、組合せ、および分割ができるようになる。たとえば、本明細書において論じるプロセスは、組合せで動く、単一のデバイスもしくは構成要素または複数のデバイスもしくは構成要素を使って実装することができる。データベースおよびアプリケーションは、単一のシステム上で実装されるか、または複数のシステムに分散されてよい。分散構成要素は、順次、または並行して動作することができる。

本主題を、その様々な具体的な例示的実施形態に関して詳しく記載したが、各例は、本開示の限定ではなく、説明として与えられている。当業者は、上記内容を理解すると、そのような実施形態に対する改変、変形、および等価物を容易に生じることができる。したがって、本開示は、当業者には容易に明らかであろうように、本主題へのそのような修正、変形および/または追加を含めることを排除しない。たとえば、一実施形態の一部として示され、または記載される特徴は、またさらなる実施形態をもたらすために、別の実施形態とともに使われてよい。したがって、本開示は、そのような改変、変形、および等価物をカバーすることが意図される。

10 コンピューティングデバイス
100 コンピューティングシステム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ
116 データ
118 命令
120 機械学習済みモデル
122 ユーザ入力構成要素
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 機械学習済みモデル
150 トレーニング用コンピューティングシステム
152 プロセッサ
154 メモリ
156 データ
158 命令
160 モデル訓練器
162 トレーニングデータのセット
180 ネットワーク
202 入力画像
203 データ拡大モジュール
204 ベースエンコーダニューラルネットワーク
206 投影ネットワーク
212 ランダムに拡張された画像
214 埋込み表現ベクトル
216 投影ネットワーク
250 タスク固有モデル
252 追加の入力
254 埋込み表現
256 タスク固有予測

Claims

視覚表現の教師あり対照学習を実行するためのコンピューティングシステムであって、
1つまたは複数のプロセッサと、
1つまたは複数の非一時的コンピュータ可読媒体であり、
入力画像の埋込み表現を生成するために前記入力画像を処理するように構成されたベースエンコーダニューラルネットワークと、
前記入力画像の投影表現を生成するために前記入力画像の前記埋込み表現を処理するように構成された投影ヘッドニューラルネットワークと、
前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに複数の動作を実行させる命令であり、前記複数の動作が、
複数のクラスのうちの第1のクラスに関連付けられたアンカー画像、前記第1のクラスに関連付けられた複数のポジティブ画像、および前記複数のクラスのうちの1つまたは複数の他のクラスに関連付けられた1つまたは複数のネガティブ画像を取得する動作であって、前記1つまたは複数の他のクラスが前記第1のクラスとは異なる、動作と、
前記ベースエンコーダニューラルネットワークにより、アンカー画像のアンカー埋込み表現を取得するために前記アンカー画像を処理し、複数のポジティブ埋込み表現をそれぞれ取得するために前記複数のポジティブ画像を処理し、1つまたは複数のネガティブ埋込み表現をそれぞれ取得するために前記1つまたは複数のネガティブ画像を処理する動作と、
前記投影ヘッドニューラルネットワークにより、前記アンカー画像のアンカー投影表現を取得するために前記アンカー埋込み表現を処理し、複数のポジティブ投影表現をそれぞれ取得するために前記複数のポジティブ埋込み表現を処理し、1つまたは複数のネガティブ投影表現をそれぞれ取得するために前記1つまたは複数のネガティブ埋込み表現を処理する動作と、
前記アンカー投影表現と、前記複数のポジティブ投影表現の各々と、前記1つまたは複数のネガティブ投影表現の各々との間の類似性メトリックを評価する損失関数を評価する動作と、
前記損失関数に少なくとも部分的に基づいて、少なくとも前記ベースエンコーダニューラルネットワークの1つまたは複数のパラメータの1つまたは複数の値を修正する動作と
を含む、命令と
をまとめて記憶する、1つまたは複数の非一時的コンピュータ可読媒体と
を含む、コンピューティングシステム。
前記アンカー画像、および前記1つまたは複数のポジティブ画像のうちの少なくとも1が、前記複数のクラスのうちの同じ第1のクラスに属する異なる対象を示す、請求項1に記載のコンピューティングシステム。
前記複数のポジティブ画像が、前記第1のクラスに関連付けられたトレーニングバッチ内に含まれるすべての画像を含み、前記1つまたは複数のネガティブアンカー画像が、前記第1のクラス以外の前記複数のクラスのいずれにも関連付けられていない前記トレーニングバッチ内に含まれるすべての画像を含む、請求項1または2に記載のコンピューティングシステム。
前記複数の動作が、前記アンカー画像、前記複数のポジティブ画像、および前記1つまたは複数のネガティブ画像の各々を前記ベースエンコーダニューラルネットワークで処理する前に、前記アンカー画像、前記複数のポジティブ画像、および前記1つまたは複数のネガティブ画像の各々をそれぞれ拡張することをさらに含む、請求項1から3のいずれか一項に記載のコンピューティングシステム。
前記投影ヘッドニューラルネットワークが、前記入力画像の前記投影表現を正規化する正規化層を含む、請求項1から4のいずれか一項に記載のコンピューティングシステム。
前記類似性メトリックが内積を含む、請求項1から5のいずれか一項に記載のコンピューティングシステム。
前記損失関数が、正規化項と、前記トレーニングバッチ内のすべての画像にわたる対照損失項の和との積を含み、前記正規化項が、前記アンカー画像の前記第1のクラスに含まれる画像の数について正規化する、請求項1から6のいずれか一項に記載のコンピューティングシステム。
前記正規化項が、
マイナス1を、前記アンカー画像の前記第1のクラスに含まれる前記画像の数の2倍から1を引いたもので割ったもの
を含む、請求項7に記載のコンピューティングシステム。
前記和による評価中の前記画像が前記第1のクラスに含まれるとき、前記アンカー画像と評価中の前記画像との間の前記類似性メトリックの指数を、前記第1のクラスに含まれないすべての画像についての、前記アンカーとそのような画像との間の類似性の指数の和で割ったものの対数
を含む、請求項7または8に記載のコンピューティングシステム。
前記複数の動作が、前記損失関数に少なくとも部分的に基づいて、少なくとも前記ベースエンコーダニューラルネットワークの1つまたは複数のパラメータの1つまたは複数の値を修正した後に、
前記ベースエンコーダニューラルネットワークに分類ヘッドを追加する動作と、
教師ありトレーニングデータのセットに基づいて前記分類ヘッドを微調整する動作と
をさらに含む、請求項1から9のいずれか一項に記載のコンピューティングシステム。
前記複数の動作が、前記損失関数に少なくとも部分的に基づいて、少なくとも前記ベースエンコーダニューラルネットワークの1つまたは複数のパラメータの1つまたは複数の値を修正した後に、
前記ベースエンコーダニューラルネットワークに追加の入力を提供する動作と、
前記ベースエンコーダニューラルネットワークの出力として前記追加の入力についての追加の埋込み表現を受信する動作と、
前記追加の埋込み表現に少なくとも部分的に基づいて、前記追加の入力の予測を生成する動作と
をさらに含む、請求項1から10のいずれか一項に記載のコンピューティングシステム。
前記予測が、分類予測、検出予測、認識予測、回帰予測、セグメンテーション予測、または類似性検索予測を含む、請求項11に記載のコンピューティングシステム。
前記アンカー画像がX線画像を含む、請求項1から12のいずれか一項に記載のコンピューティングシステム。
前記アンカー画像がLiDARデータのセットを含む、請求項1から13のいずれか一項に記載のコンピューティングシステム。
前記アンカー画像がビデオを含む、請求項1から14のいずれか一項に記載のコンピューティングシステム。
1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって、請求項1から15のいずれか一項に記載の複数の動作の全部を実行することを含む、コンピュータ実装方法。
請求項1から15のいずれか一項に記載の複数の動作の全部の実行によってトレーニングされた少なくともベースエンコーダニューラルネットワークをまとめて記憶する、1つまたは複数の非一時的コンピュータ可読媒体。