JP2023527511A - 少数ショット類似性決定および分類のためのクロストランスフォーマニューラルネットワークシステム - Google Patents

少数ショット類似性決定および分類のためのクロストランスフォーマニューラルネットワークシステム Download PDF

Info

Publication number
JP2023527511A
JP2023527511A JP2022560956A JP2022560956A JP2023527511A JP 2023527511 A JP2023527511 A JP 2023527511A JP 2022560956 A JP2022560956 A JP 2022560956A JP 2022560956 A JP2022560956 A JP 2022560956A JP 2023527511 A JP2023527511 A JP 2023527511A
Authority
JP
Japan
Prior art keywords
neural network
query
support
embeddings
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022560956A
Other languages
English (en)
Inventor
カール・デルシュ
アンクシュ・グプタ
アンドリュー・ジサーマン
Original Assignee
ディープマインド テクノロジーズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディープマインド テクノロジーズ リミテッド filed Critical ディープマインド テクノロジーズ リミテッド
Publication of JP2023527511A publication Critical patent/JP2023527511A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するためのニューラルネットワークシステムについて説明されている。ニューラルネットワークシステムは、1つまたは複数のコンピュータと、1つまたは複数のコンピュータによって遂行されると、1つまたは複数のコンピュータに、クエリデータ項目を受信することと、サポートセット内のそれぞれのサポートデータ項目に対するサポートキー埋め込みおよびサポート値埋め込みを備える1つまたは複数のサポートデータ項目のサポートセットを取得することとを備える動作を実行させる命令を記憶する1つまたは複数のストレージデバイスとによって実装される。本動作は、キー埋め込みを生成するためにデータ項目を処理するように構成されたキー埋め込みニューラルネットワークサブシステムを使用して、前記クエリデータ項目のクエリキー埋め込みを生成することをさらに備える。本動作はまた、それぞれのサポートデータ項目に対するクエリキー埋め込みとサポートキー埋め込みとの間の類似性に基づいて、アテンションマップを生成することを備える。本動作は、値埋め込みを生成するためにデータ項目を処理するように構成された値埋め込みニューラルネットワークサブシステムを使用して、クエリデータ項目に対してクエリ値埋め込みを生成することと、アテンションマップ、それぞれのサポートデータ項目に対するサポート値埋め込み、およびクエリ値埋め込みに基づいて、クエリデータ項目とサポートセットとの間の類似性尺度の類似性測度を決定することとをさらに備える。

Description

関連出願の相互参照
本出願は、2020年6月5日に出願された米国仮出願第63/035,469号、および2020年6月16日に出願された第63/039,748号に対する優先権を主張する。先行出願の開示は、本出願の開示の一部と見なされ、参照により本出願の開示に組み込まれる。
本明細書は、少数ショット類似性決定および分類のためのニューラルネットワークシステムに関する。
ニューラルネットワークは、受信した入力の出力を予測するために、非線形ユニットの1つまたは複数の層を使用する機械学習モデルである。一部のニューラルネットワークは、出力層に加えて1つまたは複数の非表示層を含む。各非表示層の出力は、ネットワーク内の次の層、すなわち次の非表示層または出力層への入力として使用される。ネットワークの各層は、それぞれのパラメータセットの現在の値に従って、受信した入力から出力を生成する。
一部のニューラルネットワークは再帰型ニューラルネットワークである。再帰型ニューラルネットワークは、入力シーケンスを受信し、入力シーケンスから出力シーケンスを生成するニューラルネットワークである。特に、再帰型ニューラルネットワークは、現在のタイムステップにおける出力を計算する際に、前のタイムステップからのネットワークの内部状態の一部またはすべてを使用することができる。再帰型ニューラルネットワークの例は、1つまたは複数のLSTMメモリブロックを含む長短期記憶(LSTM)ニューラルネットワークである。各LSTMメモリブロックは、たとえば、現在のアクティブ化を生成する際に使用するために、またはLSTMニューラルネットワークの他のコンポーネントに提供されるために、セルが、セルの前の状態を記憶することを可能にする入力ゲート、忘却ゲート、および出力ゲートをそれぞれ含む1つまたは複数のセルを含むことができる。
https://arxiv.org/abs/1512.03385において入手可能な、Heらによる「Deep Residual Learning for Image Recognition」、arXiv:1512.03385 https://arxiv.org/abs/1903.03096において入手可能な、Triantafillouらによる「Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples」、arXiv:1903.03096
本明細書は、1つまたは複数のコンピュータと、1つまたは複数のコンピュータによって遂行されると、1つまたは複数のコンピュータに、クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するためのニューラルネットワークシステムを実装させる命令を記憶する1つまたは複数のストレージデバイスとを備えるシステムについて説明している。ニューラルネットワークシステムは、特定のカテゴリの限られた数の例しか利用できず、ニューラルネットワークシステムが限られた数の例のデータ項目に基づいてこれらのカテゴリからデータ項目を認識できなければならない「少数ショット」アプリケーションにおける使用に特に適している。例示的なデータ項目はサポートセットと呼ばれることがあり、認識されるデータ項目はクエリデータ項目と呼ばれることがある。本明細書で説明するニューラルネットワークシステムは、トレーニング中に見られなかったカテゴリにおけるクエリデータ項目を認識することができ、これらの新奇なカテゴリのクエリデータ項目を認識するために再トレーニングを必要としない。むしろ、ニューラルネットワークシステムは、クエリデータ項目とサポートデータ項目との間の類似性を決定するための改善されたメカニズムを提供する。さらに、ニューラルネットワークシステムは、すべてのデータ項目により一般的に適用できるデータ項目の表現を提供するようにトレーニングされており、新奇なカテゴリにより簡単に移行することができる。
実装形態において、次の動作は、ニューラルネットワークシステムを実装する1つまたは複数のコンピュータによって実行され得る。クエリデータ項目が受信され得る。サポートセット内のそれぞれのサポートデータ項目に対するサポートキー埋め込みおよびサポート値埋め込みを備える1つまたは複数のサポートデータ項目のサポートセットが取得され得る。クエリデータ項目のクエリキー埋め込みは、キー埋め込みを生成するためにデータ項目を処理するように構成されたキー埋め込みニューラルネットワークサブシステムを使用して生成され得る。アテンションマップは、それぞれのサポートデータ項目に対するクエリキー埋め込みとサポートキー埋め込みとの間の類似性に基づいて生成され得る。値埋め込みを生成するためにデータ項目を処理するように構成された値埋め込みニューラルネットワークサブシステムを使用して、クエリデータ項目に対してクエリ値埋め込みを生成し得る。クエリデータ項目とサポートセットとの間の類似性測度は、アテンションマップ、それぞれのサポートデータ項目に対するサポート値埋め込み、およびクエリ値埋め込みに基づいて決定され得る。
キーと値の埋め込みは、クエリデータ項目とサポートデータ項目の特徴の比較をより簡単に行うことを可能にするようにする、クエリデータ項目とサポートデータ項目の表現である場合がある。したがって、それぞれのサポートデータ項目に対するクエリキー埋め込みとサポートキー埋め込みとの間の類似性は、クエリデータ項目の特定の機能がサポートデータ項目に存在するかどうかを示す場合がある。
アテンションマップは、サポートデータ項目のどの部分がクエリデータ項目とサポートデータ項目との間の類似性を決定するために重要であり得るかについてシステムを導くために使用され得る。
サポートキー埋め込みは、キー埋め込みニューラルネットワークサブシステムを使用して生成され得る。サポート値埋め込みは、値埋め込みニューラルネットワークを使用して生成され得る。すなわち、同じキー埋め込みニューラルネットワークサブシステムは、クエリデータ項目とサポートデータ項目のキー埋め込みを生成するために使用され得、同様に、同じ値埋め込みニューラルネットワークは、値埋め込みを生成するために使用され得る。このようにして、クエリデータ項目とサポートデータ項目の両方が、比較のために同じ特徴空間において表現される。
効率を改善するために、後で新しいクエリデータ項目を処理するときにいつでも検索できるように、サポートキー埋め込みとサポート値埋め込みが一度生成されて、キャッシュまたは他のデータストアに記憶され得る。あるいは、サポートキー埋め込みおよびサポート値埋め込みは、システムの外部で生成されて、必要に応じてシステムに提供されてもよい。
サポートデータ項目は、1つまたは複数のカテゴリに関連付けられ得る。サポートセットは、複数のカテゴリのうちの対応する1つまたは複数に関連付けられるサポートデータ項目を備え得る。特に、データサポート項目の各々は、カテゴリのうちの対応するものに関連付けられ得る。各サポート項目は、カテゴリのうちのどれに関連付けられているかを示すラベルに関連付けられてよく、たとえば、特定のサポート項目に第1のカテゴリのラベルが付けられて、そのカテゴリに関連付けられていることを示してもよい。上述のように、複数のカテゴリは、ニューラルネットワークシステムをトレーニングするために使用されるトレーニングデータセットの一部ではなかったカテゴリであり得、サポートセット内の各カテゴリに関連付けられるサポートデータ項目の数は限られている可能性がある。クエリデータ項目は、それぞれのカテゴリごとに決定された類似性測度に基づいて分類され得る。
サポート値埋め込みは、アテンションマップに基づいて重み付けされ得る。サポートセットに関連付けられるカテゴリごとのプロトタイプを生成するために、同じカテゴリに関連付けられるサポートデータ項目の重み付けされたサポート値埋め込みが集計され得る。すなわち、第1のカテゴリのプロトタイプを形成するために、第1のカテゴリでラベル付けされたサポートデータ項目に対応する重み付けされたサポート値埋め込みが集計され得る。第2のカテゴリでラベル付けされたサポートデータ項目に対応する重み付けされたサポート値埋め込みは、第2のカテゴリのプロトタイプを形成するために集計され得、さらなるカテゴリについても同様である。
集計は、合計、平均、または他の適切な集計関数であり得る。集計は、プロトタイプの特定の位置が、クエリデータ項目またはクエリキー埋め込みの対応する位置にある特徴が、プロトタイプカテゴリに関連付けられるサポートデータ項目またはサポートキー埋め込みに存在するかどうかを示すようなものであり得る。
類似性測度を決定することは、クエリ値埋め込みとプロトタイプとの間の類似性測度を決定することを備え得る。類似性測度は、クエリ値埋め込みとプロトタイプとの間の距離に基づき得る。距離は、ユークリッド距離に基づき得る。あるいは、余弦距離などの他の距離が適切に使用され得る。距離は、クエリデータ項目がサポートセットの特定のカテゴリに属する可能性を示し得る。距離または他の類似性測度は、分類のためのソフトマックス関数のロジットとして使用され得る。あるいは、分類を実行するために、ニューラルネットワークベースの分類器などの分類器が使用され得る。分類器は、クエリ値埋め込み、および各カテゴリのプロトタイプ、あるいは入力の他の適切な組合せに基づいて分類を実行し得る。
それぞれのサポートデータ項目に対するクエリキー埋め込みとサポートキー埋め込みとの間の類似性は、内積に基づいている場合がある。たとえば、埋め込み内の対応する位置にある要素は一緒に乗算され得る。上述のように、それぞれのサポートデータ項目に対するクエリキー埋め込みとサポートキー埋め込みとの間の類似性は、クエリキー埋め込みの特徴とサポートキー埋め込みのそれぞれの特徴との間の類似性に基づいている場合がある。特徴は空間的特徴であってもよい。たとえば、画像の領域である。
それぞれのサポートデータ項目に対するクエリキー埋め込みとサポートキー埋め込みとの間の類似性は、類似性計算において正規化または正規化定数を必要としない場合があることを理解されたい。たとえば、類似性の計算は、クエリキー埋め込みとサポートキー埋め込みとの間の内積であってもよい。内積の結果は、クエリのL-2ノルムとサポートキー埋め込みに基づいて正規化され得る。L-2ノルムは、正規化定数(または、スケーリング定数)と見なされ得る。しかしながら、そのような正規化定数は必要ではない場合がある。生の(スケーリングされていない)類似性値を使用することによって、アテンションマップはより鋭いピークを示し得、類似性判定の精度を向上させるために役立つ。したがって、アテンションマップは、それぞれのサポートデータ項目に対するクエリキー埋め込みとサポートキー埋め込みとの間のスケーリングされていない類似性測度に基づいて生成され得る。
アテンションマップは、同じカテゴリのそれぞれのサポートデータ項目に対するクエリキー埋め込みとサポートキー埋め込みとの間の類似性を受信するソフトマックス関数に基づいて生成され得る。すなわち、第1のカテゴリにわたって類似性値を正規化するために、第1のカテゴリのサポートデータ項目の類似性がソフトマックス関数に入力され得る。ソフトマックス関数は、温度パラメータをさらに備え得る。
キー埋め込みニューラルネットワークサブシステムおよび/または値埋め込みサブシステムは、それぞれ線形出力層を備え得る。キー埋め込みニューラルネットワークサブシステムおよび/または値埋め込みサブシステムは、それぞれ畳み込み層を備え得る。キー埋め込みニューラルネットワークサブシステムと値埋め込みニューラルネットワークサブシステムは、同じニューラルネットワーク層の一部を共有し得る。たとえば、両方のニューラルネットワークサブシステムは、初期のResNetタイプのニューラルネットワーク構造を共有し、キー埋め込みと値埋め込みを生成するために、ResNet構造の上に個別の線形出力層を配置し得る。
クエリデータ項目およびサポートデータ項目は画像であってもよい。サポートデータ項目に関連付けられるカテゴリは、画像に存在するオブジェクトのカテゴリであってもよい。したがって、システムはオブジェクト認識のために使用され得る。このシステムは、オブジェクト検出およびセグメンテーションなどの他のタスクにも使用され得る。データ項目はビデオデータであってもよい。カテゴリは、ビデオデータにおいて実行されているアクションであってもよい。データ項目は音声の発話であってもよく、システムは音声認識のために使用され得る。
1つの例示的な実装形態では、データ項目は画像である。画像のサポートセットがシステムに提供される。サポートセットは、ニューラルネットワークシステムが分類するようにトレーニングされていないオブジェクトの画像を備える。分類されるクエリ画像がシステムによって受信される。クエリ画像とサポート画像の特徴マップを生成するために、ResNetタイプのニューラルネットワークが使用される。クエリ画像とサポート画像の特徴マップに基づいてキー埋め込みを生成するために、線形投影が使用される。特定のオブジェクトカテゴリのクエリ画像とサポート画像のキー埋め込みは、内積アテンションを使用して比較され、アテンションマップを作成するために、ソフトマックス関数を使用してすべての空間位置とサポート画像にわたって正規化される。第2の線形射影は、クエリ機能マップから値埋め込みを生成し、機能マップをサポートするために使用される。アテンションマップは、サポート値埋め込みを重み付けするために使用され、各オブジェクトカテゴリのプロトタイプを形成するために、重み付けされたサポート値埋め込みが集計される。クエリ値埋め込みとオブジェクトカテゴリプロトタイプの各々との間の距離が計算される。クエリ画像がサポートセットのオブジェクトカテゴリのうちの1つに属するオブジェクトを備える確率を取得するために、距離に対するソフトマックス関数が使用される。この実装形態は例示的で非限定的であり、上記の代替機能と組み合わせて他の実装形態が可能であることを理解されたい。
上述のようにニューラルネットワークシステムによって実装される動作を備える、クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定する方法も提供される。
クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するためのニューラルネットワークシステムをトレーニングする方法がさらに提供される。本方法は、複数のトレーニングエピソードにグループ化されたトレーニングデータ項目を備えるエピソードトレーニングデータセットを受信するステップを含むことができる。各トレーニングエピソードは、サポートトレーニングデータ項目のサポートセットとクエリセットに分割されたトレーニングデータ項目を備え得る。トレーニングエピソードが、修正のために選択され得る。選択されたトレーニングエピソードのサポートセット内の複数のサポートトレーニングデータ項目の各々について、サポートトレーニングデータ項目の第1および第2の変換されたバージョンが生成され得る。第1および第2の変換されたバージョンは、元のサポートトレーニングデータ項目を示すラベルでラベル付けされ得る。サポートトレーニングデータ項目の第2の変換されたバージョンに基づいて、トレーニングエピソードの新しいクエリセットが生成され得る。選択されたトレーニングエピソードのクエリセットを新しいクエリセットで置き換えることによって、修正されたエピソードトレーニングデータセットが生成され得る。ニューラルネットワークは、修正されたエピソードトレーニングデータセットを含むトレーニングセットを使用して生成され得る。
修正されたトレーニングエピソードにおいて、サポートトレーニングデータ項目を第1および第2の変換されたバージョンに変換し、元のトレーニングデータ項目を示すラベルでラベル付けすることによって、選択されたトレーニングエピソードのトレーニングタスクが、データ項目の変換されたバージョンからの個々のデータ項目の認識になるように修正される。この方法でトレーニングすることによって、ニューラルネットワークはより一般化可能な機能を学習し、これまでに見られなかったデータ項目のカテゴリを含むトレーニングデータセットの分布外にあるデータ項目、ニューラルネットワークにおいてしばしば困難となるものを区別するために使用することができるようになる。
修正されたトレーニングエピソードは外部ラベルを必要としないため、修正されたトレーニングエピソードは自己教師あり学習の形式である。
トレーニングエピソードの修正は、基礎となるトレーニングアルゴリズムを修正する必要なくニューラルネットワークトレーニングが実行され得るようにするためのものである。したがって、ニューラルネットワークのトレーニングは、元のトレーニングエピソードと修正されたトレーニングエピソードの混合を使用して実行され得る。たとえば、修正されたエピソードトレーニングデータセット(すなわち、ニューラルネットワークのトレーニングのために使用されるデータセット)の半分は、修正されたトレーニングエピソードと、元の修正されていないトレーニングエピソードの残りの半分とを備え得る。したがって、ニューラルネットワークは、修正されたトレーニングエピソードと修正されていないトレーニングエピソードの両方について、同じ損失関数に基づいて生成され得る。
元のトレーニングエピソードはそれぞれ、サポートセット内の提供されたトレーニングデータ項目に基づいてクエリセット内のデータ項目を分類することを目的とした教師あり分類タスクであり得る。したがって、損失関数は、分類損失関数であってもよく、交差エントロピ損失関数であってもよい。修正されたトレーニングエピソードと修正されていないトレーニングエピソードの混合に基づくトレーニングによって、「監視崩壊(supervision collapse)」の問題が軽減され得る。ニューラルネットワークの標準的な教師ありトレーニングにおいて、ニューラルネットワークは、トレーニングデータセットに表示されるカテゴリを区別するために必要な情報のみを保持し、トレーニングデータセットに表示されないカテゴリのデータ項目を区別するために役立つ可能性がある他の有用な情報を破棄する可能性がある。これは監視崩壊と呼ばれる。個々のデータ項目を変換されたバージョンから区別するための修正されたトレーニングエピソードに基づくトレーニングは、ニューラルネットワークが、カテゴリ間、さらには目に見えないカテゴリに転送可能なデータ項目の一般的な特徴を学習することを促進する。たとえば、オブジェクトはより単純なコンポーネントで構成されている場合があり、ニューラルネットワークはこれらのより単純なコンポーネントを認識することを学習し得、新奇なオブジェクトを表現および認識する際に使用され得る。
本方法は、第1の変換されたバージョンに基づいて、選択されたトレーニングエピソードのサポートセットを修正するステップをさらに備え得る。たとえば、元のサポートトレーニングデータ項目の第1の変換されたバージョンが生成される場合、元のサポートトレーニングデータ項目は、選択されたトレーニングエピソードのための修正されたサポートセットを形成するために、対応する第1の変換されたバージョンで置換されるか、または補足され得る。第1の変換されたバージョンが生成されていない元のサポートトレーニングデータ項目を削除することによって、サポートセットがさらに修正され得る。
別の例では、選択されたトレーニングエピソードのサポートセット内のそれぞれのサポートトレーニングデータ項目ごとに(または、選択されたトレーニングエピソードのサポートセット内のサポートトレーニングデータ項目のうちの少なくともいくつかについて)、複数の第1の変換されたバージョンが生成され得る。サポートトレーニングデータ項目の第2の変換されたバージョンは、選択されたトレーニングエピソードのサポートセット内のサポートトレーニングデータ項目のそれぞれのサブセットに対して生成され得る。第1の変換されたバージョンは置換サポートセットを形成し得、第2の変換されたバージョンは選択されたトレーニングエピソードの置換クエリセットを形成し得る。
トレーニングエピソードは、5から50のカテゴリの50から500のラベル付けされたデータ項目を有するサポートセットを備え得る。クエリセットは、カテゴリごとに2つのデータ項目を備え得る。修正されたトレーニングエピソードの新しいクエリセットは、元のクエリセットと同じ数のデータ項目を備え得、新しいクエリセットのサポートデータ項目は、元のクエリセットと同じカテゴリ分布に従ってランダムに選択され得る。
ニューラルネットワークパラメータの更新は、各トレーニングエピソードの終わりに実行され得る。しかしながら、当業者によって適切と考えられるように、サポートセットおよびクエリセット内のデータ項目の数はより少なくても多くてもよく、ニューラルネットワークパラメータへの更新が、当業者によって適切と考えられる適切な間隔で実行されてもよいことを理解されたい。ニューラルネットワークは、正規化された確率的勾配降下技法に基づいて生成され得る。すなわち、グローバル勾配は、更新を適用する前に単位ノルムを有するようにスケーリングされ得る。
修正のためのトレーニングエピソードの選択は、ランダムに実行され得る。トリミング動作、色歪み動作、またはガウスぼかし動作に基づく変換を適用することによって、サポートトレーニングデータ項目の変換されたバージョンを生成することができる。サポートトレーニングデータ項目の変換されたバージョンを生成することは、サポートデータ項目の変換されたバージョンを生成するために、ランダム変換関数(たとえば、変換関数のクラスからランダムに選択された変換関数)をサポートトレーニングデータ項目に適用することを備え得る。すなわち、変換動作はランダムに選択され得、変換動作の任意のパラメータもランダムに選択され得る。
第1の変換されたバージョンの各々を生成するために、異なる変換動作および/またはパラメータが使用され得る。同様に、第2の変換されたバージョンのそれぞれを生成するために、異なる変換動作および/またはパラメータが使用され得る。あるいは、この方法は、第1の変換および第2の変換を決定することをさらに備え得、第1の変換は、それぞれのサポートデータ項目に対する第1の変換されたバージョンを生成するために、それぞれのサポートデータ項目に適用され、第2の変換は、それぞれのサポートデータ項目に対する第2の変換されたバージョンを生成するために、それぞれのサポートデータ項目に適用される。すなわち、修正された各トレーニングエピソード内で、第1の変換されたバージョンはすべて同じ第1の変換を使用して生成され得、同様に、第2の変換されたバージョンはすべて同じ第2の変換を使用して生成され得る。
エピソードトレーニングの前に、教師あり事前トレーニング段階が実行され得る。すなわち、トレーニングデータ項目は、エピソードにグループ化され、サポートセットとクエリセットに分割されるのではなく、それ自体で個別に分類され得る。教師あり事前トレーニング段階は、検証セットで評価されたメトリックにそれ以上の改善が見られなくなるまで実行され得る。分類に代わる教師ありタスクは、必要に応じて事前トレーニングに使用され得る。
トレーニングエピソードを修正するための動作は、同じ効果を達成するために異なる順序で実行され得ることが理解されよう。たとえば、第1に新しいクエリセットのデータ項目を選択し、これらの新しいクエリデータ項目の変換されたバージョンを生成してから、第1および第2の変換をサポートセット内のサポートデータ項目に適用することが可能である。
トレーニング方法は、クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するためのニューラルネットワークシステムに関して上述した特徴を有するニューラルネットワークを生成し得ることがさらに理解されるであろう。したがって、トレーニング方法によって生成されたニューラルネットワークは、類似性測度を決定するために使用されるニューラルネットワークのうちの1つとして使用され得る。
クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するためにニューラルネットワークをトレーニングするための別の方法がさらに提供される。本方法は、複数のトレーニングエピソードにグループ化されたトレーニングデータ項目を備えるエピソードトレーニングデータセットを受信するステップを備え得る。各トレーニングエピソードは、サポートセットとクエリセットに分割されたトレーニングデータ項目を備え得る。トレーニングエピソードが、修正のために選択され得る。選択されたトレーニングエピソードのサポートセット内のサポートトレーニングデータ項目ごとに、サポートデータ項目の第1および第2の変換されたバージョンが生成され得る。第1および第2の変換されたバージョンは、元のトレーニングデータ項目を示すラベルでラベル付けされ得る。選択されたサポートデータ項目の第1および第2の変換されたバージョンに基づいてトレーニングエピソードの新しいクエリセットを生成するために、サポートデータ項目のうちの1つまたは複数が選択され得る。新しいクエリセットは、元のクエリセットをトレーニングエピソードに置換し得る。ニューラルネットワークは、修正されたエピソードトレーニングデータセットを含むトレーニングセットを使用して生成され得る。以前のトレーニング方法の文脈において上述した特徴は、このさらなるトレーニング方法の特徴と組み合わせることができることが理解されるであろう。
トレーニング方法は、1つまたは複数のコンピュータと、1つまたは複数のコンピュータによって遂行されると、1つまたは複数のコンピュータに、トレーニング方法の動作を実行させる命令を記憶する1つまたは複数のストレージデバイスとを備えるシステムによって実装され得る。
さらに、1つまたは複数のコンピュータによって遂行されると、1つまたは複数のコンピュータに上記のニューラルネットワークシステムを実装させ、および/または上記のトレーニング方法の動作を実行させる命令を記憶する1つまたは複数のコンピュータストレージ媒体が提供される。
ニューラルネットワークシステムは、コンピュータビジョンシステムの一部として使用され得る。たとえば、自動運転車またはロボットシステムのコンピュータビジョンシステムにおいて。実際のシーンにおいて発生するオブジェクトのいわゆる「ロングテール」により、なじみのないオブジェクトは、実世界のビジョンアプリケーションにおいて、ほとんどどこにでもある。別の例では、システムは、オンザフライで新しいカテゴリを作成する必要がある写真整理ソフトウェアの一部として使用され得る。オブジェクト認識に加えて、システムは、オブジェクト検出およびセグメンテーションなどの他のコンピュータビジョンタスクを実行し得る。ビデオおよび音声などの他のドメインにも、珍しい新奇なオブジェクトが存在する可能性があり、システムはそのような他のドメインと組み合わせて使用され得る。
たとえば、ニューラルネットワークシステムは、言語モデリングシステム、画像/ビデオ処理システム、またはアクション選択システムにおいて使用され得る。たとえば、タスクは、画像処理タスク、音声認識タスク、自然言語処理タスク、単語認識タスク、または光学式文字認識タスクなどの分類タスクを含み得る。さらに、タスクには、1つまたは複数の目標を達成するために、エージェントが1つまたは複数の現実の環境あるいはシミュレートされた環境と対話する、強化学習タスクを含み得る。
ニューラルネットワークを使用するソース言語からターゲット言語への言語モデリングタスクまたはテキストの翻訳の場合、システムは、ソース自然言語における単語のソースシーケンスを表すソース埋め込みの入力シーケンスを受信することと、ソースシーケンスのターゲット自然言語への翻訳である単語のターゲットシーケンスを表すターゲット埋め込みの出力シーケンスを生成することとを行うように構成され得る。より一般的には、システムは、ソースシーケンスがターゲットシーケンスにマッピングされる他のシーケンス変換アプリケーションに適用することができる。
入力データは、たとえば、画像データ、動画/ビデオデータ、動きデータ、音声データ、オーディオデータ、電子ドキュメント、環境の状態を表すデータ、および/またはアクションを表すデータのうちの1つまたは複数を備え得る。たとえば、画像データは、カラーまたはモノクロのピクセル値データを備え得る。そのような画像データは、カメラまたはLIDARセンサなどの画像センサから取得され得る。オーディオデータは、波形を定義する時間領域および/または周波数領域における一連の値など、オーディオ波形を定義するデータを備えてよく、波形は、自然言語における音声を表す場合がある。電子ドキュメントデータは、自然言語における単語を表すテキストデータを備え得る。環境の状態を表すデータは、たとえば、姿勢データおよび/または位置/速度/加速度データなどの、ロボットまたは車両の状態を特徴付けるデータ、あるいは、感知された電流および/または温度信号などの感知された電子信号などの、産業プラントまたはデータセンタの状態を特徴付けるデータを含む、任意の種類のセンサデータを備え得る。アクションを表すデータは、たとえば、位置、速度、加速度、および/あるいはトルク制御データ、あるいは産業プラントまたはデータセンタ内の装置の1つまたは複数の項目の動作を制御するためのデータを備え得る。これらのデータは、一般に、現実または仮想の環境、たとえばシミュレートされた環境に関連している可能性がある。
同様に、出力データは、任意の種類のデータを備え得る。たとえば、分類システムにおいて、出力データは入力データ項目のクラスラベルを備え得る。回帰タスクにおいて、出力データは、たとえば、ロボット、車両、データセンタ、またはプラントなどの電子または電気機械システムを制御するための制御変数などの連続変数の値を予測し得る。画像またはオーディオデータ上で動作する回帰タスクの別の例では、出力データは、データ内の1つまたは複数の位置、たとえばオブジェクトの位置、あるいはオブジェクトのバウンディングボックスの1つまたは複数のコーナーの位置、あるいはオーディオ波形におけるサウンド機能の時間位置を定義し得る。強化学習システムでは、出力データは、アクション、たとえば、上述のように、環境内で動作するエージェント、たとえばロボットまたは車両などの機械的エージェントによって実行されるアクションを表すデータを備え得る。
アクションを表すデータは、たとえば、アクションのアクション値(Q値)を定義するデータ、またはアクションを決定するために確率分布がサンプリングされる確率分布をパラメータ化するデータ、または、たとえば連続アクション空間においてアクションを直接定義するデータを備え得る。したがって、強化学習システムでは、ニューラルネットワークシステムは、アクション選択ポリシの確率分布を直接パラメータ化してもよく、アクション価値関数(Q値)の値を推定することを学習してもよい。後者の場合、利用可能なアクションごとにQ値を提供するために、複数のメモリとそれぞれの出力ネットワークが共通の埋め込みネットワークを共有し得る。
ニューラルネットワークは、入力に基づいてあらゆる種類のスコア、分類、または回帰出力を生成するために、あらゆる種類のデジタルデータ入力を受信するように構成することができる。
たとえば、ニューラルネットワークへの入力が画像または画像から抽出された特徴である場合、所与の画像に対してニューラルネットワークによって生成される出力は、オブジェクトカテゴリのセットの各々に対するスコアであり得、各スコアは、画像がカテゴリに属するオブジェクトの画像を含む推定尤度を表す。
別の例として、ニューラルネットワークへの入力が、インターネットリソース(たとえば、ウェブページ)、ドキュメント、またはドキュメントの一部、あるいはインターネットリソース、ドキュメント、またはドキュメントの一部から抽出された機能である場合、所与のインターネットリソース、ドキュメント、またはドキュメントの一部に対してニューラルネットワークによって生成される出力は、トピックのセットの各々のスコアであり得、各スコアは、インターネットリソース、ドキュメント、またはドキュメントの部分がトピックに関するものである推定尤度を表している。
別の例として、ニューラルネットワークへの入力が特定の広告のインプレッションコンテキストの特徴である場合、ニューラルネットワークによって生成される出力は、特定の広告がクリックされる推定尤度を表すスコアであり得る。
別の例として、ニューラルネットワークへの入力が、ユーザ向けの個人化された推奨事項の特徴、たとえば、推奨事項のコンテキストを特徴付ける特徴、たとえば、ユーザによって行われた以前のアクションを特徴付ける特徴である場合、ニューラルネットワークによって生成される出力は、コンテンツ項目のセットの各々のスコアであり得、各スコアは、コンテンツ項目が推奨されることにユーザが好意的に反応する推定尤度を表す。
別の例として、ニューラルネットワークへの入力が1つの言語のテキストのシーケンスである場合、ニューラルネットワークによって生成される出力は、別の言語のテキストのセットの各々のスコアであり得、各スコアは、他の言語のテキストが入力テキストを他の言語に適切に翻訳したものである推定尤度を表す。
別の例として、ニューラルネットワークへの入力が発話を表すシーケンスである場合、ニューラルネットワークによって生成された出力はテキストのセットの各々のスコアであり得、各スコアは、テキストが発話の正しいトランスクリプトである推定尤度を表す。
本明細書に記載された主題は、以下の利点のうちの1つまたは複数を実現するために、特定の実施形態において実装することができる。
上述のように、ニューラルネットワークシステムは、トレーニング中にニューラルネットワークシステムによって見られなかったカテゴリに属するデータ項目を認識することができる。これは、費用のかかる再トレーニングを必要とせずに行うことができ、他の従来技法と比較して、より少ないサポートデータ項目で、それ以上ではないにしても、正確に実行され得る。したがって、ニューラルネットワークシステムは、クエリデータ項目を処理するためのメモリとストレージの要件を減らし、プロセッサと電力の要件を減らすことができる。
ニューラルネットワークシステムは、従来技術の方法と比較して改善された比較メカニズムを提供し、またクエリデータ項目とサポートデータ項目の特徴の比較をより簡単に行うことを可能にするようにする、クエリデータ項目とサポートデータ項目の表現を提供する。
さらに、上述のトレーニング方法は、従来技術の方法よりも優れていない場合でも、より速い速度で同様のパフォーマンスを達成し得、したがって、トレーニング方法は全体のプロセッサおよび電力要件を低減する。トレーニング方法は、監視崩壊の問題を軽減し、ニューラルネットワークシステムがコンポーネントパーツなどの任意のデータ項目を認識するためにより一般的に適用可能な機能を学習することを可能にする。
本明細書を通して、たとえばニューラルネットワークを使用して画像を処理することは、ニューラルネットワークを使用して画像のピクセルに関連付けられる強度値を処理することを指す。
ニューラルネットワークシステムの一例のブロック図である。 ニューラルネットワークシステムの例示的な動作の概略図である。 クエリデータ項目とサポートデータ項目のセットとの間の類似性を決定するための例示的なプロセスの流れ図である。 ニューラルネットワークシステムをトレーニングするための例示的なプロセスの流れ図である。 例示的なクエリ画像とサポートセット画像との間の決定された対応を示す図である。
本明細書は、クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するためのニューラルネットワークシステムについて説明している。次いで、サポートセットに関連付けられるカテゴリに従ってクエリデータ項目を分類するために、類似性測度が使用され得る。
一般に、ニューラルネットワークシステムは、1つまたは複数のアテンションマップを生成するために、クエリデータ項目とサポートデータ項目のキー埋め込みを使用する。アテンションマップは、サポートデータ項目のどの部分(たとえば、機能、要素など)がクエリデータ項目とサポートデータ項目との間の類似性を決定するために重要であり得るかを示し得る。たとえば、アテンションマップは、クエリデータ項目およびサポートデータ項目の対応する可能性のある部分の位置および可能性を示し得る。クエリデータ項目とサポートデータ項目との間の類似性比較は、アテンションマップを考慮して値埋め込み空間において実行される。類似性測度は、ローカルな部分ベースの比較と見なされ得る。ニューラルネットワークシステムは、特にニューラルネットワークシステムのトレーニング中に見られなかった可能性のあるデータ項目のカテゴリ、およびカテゴリごとのデータが制限されている場合に、このローカルな部分ベースの比較を通じてデータ項目間の類似性を決定するための改善されたメカニズムを提供する。たとえば、カテゴリごとのサポートデータ項目が10個以下になる場合がある。
図1は、ニューラルネットワークシステム100の例を示している。ニューラルネットワークシステム100は、1つまたは複数の場所にある1つまたは複数のコンピュータ上にコンピュータプログラムとして実装されるシステムの一例であり、以下に説明するシステム、コンポーネント、および技法を実装することができる。
ニューラルネットワークシステム100は、クエリデータ項目101を受信し、クエリデータ項目101が比較され、類似性測度が決定される1つまたは複数のデータ項目のサポートセット102を取得するように構成される。サポートセット102は、サポートセット102内のそれぞれのサポートデータ項目に対するサポートキー埋め込み103およびサポート値埋め込み104を備える。サポートセット102は、メモリまたはデータストレージデバイスから取り出されてもよく、ニューラルネットワークシステム100の外部のデバイス、または内部デバイスと外部デバイスの組合せから受信されてもよい。たとえば、既存のサポートセットを補足する追加のデータ項目が受信され得る。サポートセット102のデータ項目は、1つまたは複数のカテゴリに関連付けられ得る。たとえば、データ項目が画像の場合、カテゴリは画像内に存在するオブジェクトのタイプであり得る。
ニューラルネットワークシステム100は、キー埋め込みを生成するためにデータ項目を処理するように構成されたキー埋め込みニューラルネットワークサブシステム105を備える。この場合、ニューラルネットワークシステム100は、キー埋め込みニューラルネットワークサブシステム105を使用して、クエリデータ項目101のクエリキー埋め込み106を生成するように構成されている。ニューラルネットワークシステム100はまた、キー埋め込みニューラルネットワークサブシステム105を使用してサポートキー埋め込み103を生成するように構成され得る。たとえば、サポートセットのデータ項目が、対応するサポートキー埋め込み103なしで提供された場合、またはサポートキー埋め込み103がニューラルネットワークシステム100のトレーニング中などに再生成を必要とした場合。キー埋め込みは、データ項目のより容易な比較を可能にする埋め込み空間へのクエリデータ項目101およびサポートデータ項目の変換であり得る。
ニューラルネットワークシステム100は、アテンションマップサブシステム107をさらに備える。ニューラルネットワークシステム100は、アテンションマップサブシステム107を使用して、それぞれのサポートデータ項目に対するクエリキー埋め込み106とサポートキー埋め込み103との間の類似性に基づいて、アテンションマップ108を生成するように構成されている。アテンションマップ108は、クエリデータ項目101とサポートセット102との間の類似性測度を決定するために特に重要であり得るクエリデータ項目およびサポートデータ項目の特定の特徴に焦点を当てる、または注意するために使用され得る。アテンションマップ108は、クエリデータ項目101およびサポートデータ項目の対応する可能性のある特徴の位置および可能性を示し得る。たとえば、データ項目が画像である場合、アテンションマップは、クエリ画像とサポート画像との間の対応する空間的特徴の位置を示し得る。特徴の例としては、車の車輪、飛行機の翼、花びらなどがある。これは、以下でさらに詳しく説明する図5に示されている。
アテンションマップ108は、それぞれのサポートデータ項目に対するクエリキー埋め込み106とサポートキー埋め込み103との間のスケーリングされていない類似性測度に基づいて生成され得る。すなわち、類似性測度は正規化を必要としない場合があり、計算された生の値は上述のように使用され得る。それぞれのサポートデータ項目に対するクエリキー埋め込み106とサポートキー埋め込み103との間の類似性は、内積に基づく場合がある。それぞれのデータ項目に対するクエリキー埋め込み106とサポートキー埋め込み103との間の類似性は、クエリキー埋め込み106の特徴とサポートキー埋め込み103のそれぞれの特徴との間の類似性に基づく場合がある。たとえば、クエリキー埋め込み106の特徴ごとに、クエリキー埋め込み106の特徴とサポートキー埋め込み103の特徴のそれぞれの特徴との間の類似性比較の結果として、アテンションマップ108が生成され得る。
アテンションマップ108は、同じカテゴリのそれぞれのサポートデータ項目に対するクエリキー埋め込み106とサポートキー埋め込み103との間の類似性測度を受信するソフトマックス関数に基づいてさらに生成され得る。このようにして、アテンションマップ108の値は、特定のカテゴリのサポートデータ項目にわたって正規化される。さらに、ソフトマックス関数はまた、クエリキー埋め込み106の各特徴とサポートキー埋め込み103の各特徴との間の類似性を受信することができる。したがって、アテンションマップ(または、適切な場合はマップ)の値は、特徴にわたって、および特定のカテゴリ内で正規化され得る。アテンションマップ108の生成に関するさらなる詳細は、以下で説明される。
引き続き図1を参照すると、ニューラルネットワークシステム100はまた、値埋め込みを生成するために、データ項目を処理するように構成された値埋め込みニューラルネットワークサブシステム109を備える。ニューラルネットワークシステム100は、値埋め込みニューラルネットワークサブシステム109を使用して、クエリデータ項目101のクエリ値埋め込み110を生成するように構成されている。ニューラルネットワークシステム100はまた、値埋め込みニューラルネットワークサブシステム109を使用してサポート値埋め込み104を生成するように構成され得る。たとえば、サポートセットのデータ項目が、対応するサポート値埋め込み104なしで提供された場合、またはニューラルネットワークシステム100のトレーニング中など、サポート値埋め込み104が再生成を必要とする場合。
ニューラルネットワークシステム100は、類似性測度112を決定するように構成された類似性サブシステム111をさらに備える。ニューラルネットワークシステム100は、アテンションマップ108、それぞれのサポートデータ項目に対するサポート値埋め込み104およびクエリ値埋め込み110に基づいて、クエリデータ項目101とサポートセット102の間の類似性測度112を決定するように構成されている。類似性測度112は、クエリデータ項目101と、サポートセット102のそれぞれのサポートデータ項目との間の類似性の測度であり得る。たとえば、サポート値埋め込み104は、対応するアテンションマップ108に基づいて重み付けされてよく、したがって、ソフトアテンションの形式を利用する。クエリ値埋め込み110と重み付けされたサポート値埋め込みとの間の類似性測度が決定され得る。
代替的に、類似性測度112は、クエリデータ項目101と、同じカテゴリに関連付けられるそれぞれのサポートデータ項目に基づいて生成された集計サポートデータ項目との間の類似性の測度であり得る。たとえば、プロトタイプとしても知られる集計サポートデータ項目は、同じカテゴリに関連付けられるサポートデータ項目の重み付けされたサポート値埋め込みを集計することによって、カテゴリごとに生成され得る。クエリ値埋め込み110とそれぞれのカテゴリごとのプロトタイプとの間の類似性測度が決定され得る。
決定された類似性測度112は、クエリデータ項目101がサポートデータ項目に関連付けられる特定のカテゴリに属する可能性を示し得る。類似性測度112は、距離に基づいている場合がある。たとえば、クエリ値埋め込みとそれぞれのプロトタイプの間の距離。距離が小さいほど、クエリデータ項目がそれぞれのプロトタイプに関連付けられるカテゴリに属する可能性が高いことを示し得る。この距離は、ユークリッド距離であってもよく、当業者によって適切と考えられる任意の他の距離であってもよい。
類似性測度112の決定に関するさらなる詳細は、以下でより詳細に説明される。ニューラルネットワークシステム100はまた、類似性測度112を出力するように構成され得る。
ニューラルネットワークシステム100はまた、分類子サブシステム113を備え得る。ニューラルネットワークシステム100は、決定された類似性測度112に基づいて、クエリデータ項目101を分類するように構成され得る。たとえば、分類は、クエリデータ項目101とそれぞれのサポートデータ項目との間の決定された類似性測度に基づいてもよく、分類は、それぞれのカテゴリごとのプロトタイプを使用して、決定された類似性測度に基づいてもよい。分類子サブシステム113は、任意の適切なタイプの分類子を実装し得る。たとえば、決定された類似性測度を、クエリデータ項目がそれぞれのカテゴリに属する可能性を示す確率分布に変換するために、ソフトマックス関数が使用され得る。別の例では、ロジスティック回帰またはニューラルネットワーク分類子が使用され得る。分類は、出力分類114を提供し得る分類子サブシステム113を使用して実行され得る。
キー埋め込みニューラルネットワークサブシステム105および値埋め込みニューラルネットワークサブシステム109は、線形出力層を有するニューラルネットワークを備え得る。それらはまた、畳み込み層を有するニューラルネットワークを備え得る。キー埋め込みニューラルネットワークサブシステム105および値埋め込みニューラルネットワークサブシステム109は、共有ニューラルネットワーク層の初期セットを備え得る。一例では、最終のそれぞれの出力層を除くすべてが共有される。これを図2により詳細に示す。
次に図2を参照すると、ニューラルネットワークシステム100を使用してそれぞれのカテゴリのプロトタイプを生成する概略図が示されている。次の例は、クエリデータ項目101およびサポートデータ項目のモダリティとしての画像データに基づいている。同様の処理が、オーディオ信号およびビデオなどの他のモダリティおよびタイプのデータ項目に適用できることを理解されたい。
図2において、クエリ画像xqが最初に関数φ(.)を使用して変換されている。関数φ(.)は、画像の特徴マップ表現を生成するために画像を処理するように構成されたニューラルネットワークを使用して実装され得る。たとえば、φ(.)は、ResNetアーキテクチャに基づいて実装され得、その詳細は、https://arxiv.org/abs/1512.03385において入手可能な、Heらによる「Deep Residual Learning for Image Recognition」、arXiv:1512.03385において見つけることができ、参照によりその全体が本明細書に組み込まれる。
高さ(H)、幅(W)、および3つのカラーチャネルを有する画像xが与えられると、φ(.)は、寸法H'×W'およびDチャネルを有する画像特徴を生成し得る。一例では、画像は224×224の開始解像度を有し、関数φ(.)(拡張された最終ブロックを有するResNet-34アーキテクチャを用いて実装される)の出力は、14×14グリッドの512チャネルを有する。関数φ(.)はまた、図2の上部に示されているように、サポートセット201の画像に適用され得る。カテゴリcのサポートセットはScとして示され、サポート画像
Figure 2023527511000002
を備え、jはSc内のサポート画像のインデックスである。
サポートセット画像特徴
Figure 2023527511000003
は、それぞれのサポートセット画像(図2に示されるように「キーkc」とも呼ばれる)ごとにサポートキー埋め込み202を生成するために、キーヘッドによってさらに処理され得る。キーヘッドは、
Figure 2023527511000004
をマッピングする線形関数であり得る関数Γを実装し得る。したがって、この場合、特定のサポート画像のサポートキー埋め込みは、寸法H'×W'×dkを有する。一例では、dk=128であるが、他の値が可能であることは理解されるであろう。
クエリ画像特徴φ(xq)は、クエリキー埋め込み203(図2に示されるように「クエリ(q)」とも呼ばれる)を生成するために、クエリヘッドによってさらに処理され得る。クエリヘッドは、関数Ωを実装する場合があり、線形関数マッピング
Figure 2023527511000005
の場合もある。したがって、クエリ画像のクエリキー埋め込みもまた、寸法H'×W'×dkを有する場合もある。クエリヘッドとキーヘッドは、同じ関数、すなわちΓ=Ωを実装し得る。クエリヘッドとキーヘッドは、キー埋め込みニューラルネットワークサブシステム105の一部と見なされ得る。関数φ(.)は、上述のように、キー埋め込みニューラルネットワークサブシステム105の共有された初期部分であり得る。あるいは、関数φ(.)を使用して計算された画像特徴表現は、外部で事前に計算され、ニューラルネットワークシステム100に提供されてもよい。
次いで、図2において、複数のアテンションマップ204は、それぞれのサポート画像について、クエリキー埋め込みの各空間的特徴とサポートキー埋め込みの各空間的特徴との間の類似性を決定することによって生成される。このプロセスは、図2におけるクエリキー埋め込みの特定の空間位置pについて示されている。図2において、クエリキー埋め込みの位置pにおけるベクトルは、それぞれのクエリキーベクトルとそれぞれのサポートキーベクトルの間の内積を取ることによって、サポートキー埋め込みの各々の各空間位置におけるベクトルと比較される。これにより、位置pにおけるクエリベクトルのサポート画像/キー埋め込みごとにアテンションマップ
Figure 2023527511000006
が生成され、すべての可能な空間位置における、位置pにおける画像の特徴とサポート画像の特徴との対応が示される。
より具体的には、以下の式は、サポートキー埋め込みの例示的な計算を提供する。
Figure 2023527511000007
上式で、
Figure 2023527511000008
は、カテゴリcに属するj番目のサポート画像のサポートキー埋め込みの空間位置mにおけるベクトルであり、
Figure 2023527511000009
は、カテゴリcに属するj番目のサポート画像である。次の式は、クエリキー埋め込みの例示的な計算を示している。
qp=Ω・φ(xq)p
上式で、qpはクエリキー埋め込みの空間位置pのベクトルである。次の式は、クエリキー埋め込みとサポートキー埋め込みjの空間位置ペアpおよびmに対応するアテンションマップ値の例示的な計算を示している。
Figure 2023527511000010
上式で、
Figure 2023527511000011
は、空間位置mにおけるクエリキー空間位置pおよびサポートキーjのアテンションマップ値である。
空間位置のすべてのペアおよびカテゴリ内の各サポートセット画像のアテンションマップ値の計算に続いて、アテンションマップの値は、次の例示的な式に示されるように、同じサポートカテゴリに属するすべての空間位置ペアとアテンションマップにソフトマックス関数を適用することによって正規化され得る。
Figure 2023527511000012
上式で、
Figure 2023527511000013
および
Figure 2023527511000014
は、正規化されたアテンションマップ値である。
アテンションマップを生成するための上記の処理は、アテンションマップサブシステム107によって実装され得ることが理解されるであろう。
上述のように、サポートセット内の特定のカテゴリcのプロトタイプは、アテンションマップ108およびサポート値埋め込み104に基づいて生成することができる。図2において、サポートセット画像特徴
Figure 2023527511000015
は、それぞれのサポートセット画像(図2に示されるように「値vc」とも呼ばれる)ごとにサポート値埋め込み205を生成するために、値ヘッドによってさらに処理され得る。値ヘッドは、線形関数マッピング
Figure 2023527511000016
であり得る関数Λを実装し得る。したがって、この場合、特定のサポート画像のサポート値埋め込みは、寸法H'×W'×dvを有する。一例では、dv=128であるが、他の値が可能であり得ることは理解されるであろう。値ヘッドは、値埋め込みニューラルネットワークサブシステム109の一部と見なされ得る。
図2に示されるように、それぞれのサポート画像に対する対応するサポート値埋め込みを重み付けするためにアテンションマップが使用され得、重み付けされた合計は、空間位置pにおいてプロトタイプ206のベクトルを生成するために実行される。このように、アテンションマップは、クエリ画像に基づいて、サポート画像のどの部分が最も関連性が高いかを示す。カテゴリcに関連付けられるサポート画像jの空間位置mに埋め込まれたサポート値を計算するために以下の例示的な式が使用され得る。
Figure 2023527511000017
上式で、
Figure 2023527511000018
は、カテゴリcのj番目のサポート画像のサポート値埋め込みの空間位置mにおけるベクトルである。プロトタイプは、次の例示的な式に示されるように計算され得る。
Figure 2023527511000019
上式で、
Figure 2023527511000020
は、カテゴリcのプロトタイプtの空間位置pにおけるベクトルである。プロトタイプの残りの空間位置におけるベクトルは、同様の方法で決定され得る。プロトタイプの特定の位置に対して生成されたデータがクエリ画像の同じ位置における特定の特徴に対応するという点で、プロトタイプは「クエリ整列」プロトタイプであると見なされ得る。一部の従来技法では、プロトタイプはクエリとは独立して生成され、サポートデータ項目自体のみに基づいて生成される。この場合、各プロトタイプはクエリを特に考慮して生成され、したがって、クエリと異なるカテゴリのプロトタイプとの間の類似性をより適切に決定することができる。
上述のように、クエリデータ項目101とデータ項目のサポートセットとの間の類似性測度112は、特定のカテゴリのプロトタイプに基づいて決定され得る。たとえば、類似性測度112は、クエリ値埋め込みとサポート値埋め込みとの間のユークリッド距離に基づいて決定され得る。クエリ値埋め込みは、以下に示されるように、値の頭Λを使用してクエリ画像の特徴φ(xq)を処理することによって、サポート値埋め込みと同様の方法で計算され得る。
wp=Λ・φ(xq)p
上式で、wpはクエリ値埋め込みの空間位置pにおけるベクトルである。類似性測度112は、以下の例示的な式に従ってユークリッド距離に基づいて計算され得る。
Figure 2023527511000021
上式で、d(xq,Sc)は、クエリ画像とカテゴリcのサポートセットとの間の類似性測度である。類似性測度を決定するための処理は、類似性サブシステム111によって実装されすることが理解されるであろう。
クエリ画像が特定のカテゴリに属する可能性を決定するために、類似性測度が使用され得る。たとえば、次の例の方程式に従って確率分布を生成するために、各カテゴリの類似性測度にソフトマックス関数が適用され得る。
Figure 2023527511000022
上式で、p(y=c|xq)は、クエリ画像xqがカテゴリcに属する確率である。代替として、各カテゴリのスコアのセットを決定するか、またはクエリ画像の分類を提供するために、類似性測度が分類子に提供され得る。分類スコア/可能性を生成するための処理は、分類子サブシステム113によって実装され得ることが理解されるであろう。
次に図3を参照すると、クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するための処理についてここで説明する。処理は、図1のニューラルネットワークシステム100によって実装され得ることが理解されるであろう。
ブロック305において、クエリデータ項目が受信される。ブロック310において、1つまたは複数のサポートデータ項目のサポートセットが受信される。サポートセットは、サポートセット内のそれぞれのサポートデータ項目に対するサポートキー埋め込みおよびサポート値埋め込みを備える。
ブロック315において、クエリデータ項目のクエリキー埋め込みが、キー埋め込みニューラルネットワークサブシステムを使用して生成される。キー埋め込みニューラルネットワークサブシステムは、上述のキー埋め込みを生成するために、データ項目を処理するように構成されている。
ブロック320において、アテンションマップは、それぞれのサポートデータ項目に対するクエリキー埋め込みとサポートキー埋め込みとの間の類似性に基づいて生成される。これは、上述のアテンションマップサブシステムを使用して実行され得る。
ブロック325において、クエリデータ項目のクエリ値埋め込みは、値埋め込みニューラルネットワークサブシステムを使用して生成される。埋め込みニューラルネットワークサブシステムは、上述のように埋め込み値を生成するために、データ項目を処理するように構成されている。
ブロック330において、アテンションマップ、それぞれのサポートデータ項目に対するサポート値埋め込み、およびクエリ値埋め込みに基づいて、クエリデータ項目とサポートセットとの間の類似性測度が決定される。これは、上述の類似性サブシステムを使用して実行され得る。
次に図4を参照すると、クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するためのニューラルネットワークシステムをトレーニングするための処理についてここで説明する。図1のニューラルネットワークシステム100は、説明された処理に従ってトレーニングされ得ることが理解されるであろう。
ブロック405において、複数のトレーニングエピソードにグループ化されたトレーニングデータ項目を備えるエピソードトレーニングデータセットが受信される。各トレーニングエピソードは、サポートトレーニングデータ項目のサポートセットとクエリセットに分割されたトレーニングデータ項目を備える。トレーニングエピソードは、クエリセット内のデータ項目がサポートセット内のデータ項目に関連付けられるカテゴリに従って分類される分類タスク用に設計され得る。サポートセット内のカテゴリごとのデータ項目の数は制限される場合がある。エピソードデータセットを生成するための適切な技法は、https://arxiv.org/abs/1903.03096において入手可能な、Triantafillouらによる「Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples」、arXiv:1903.03096において説明されており、参照によりその全体が本明細書に組み込まれる。
ブロック410において、トレーニングエピソードが修正のために選択される。トレーニングエピソードは、エピソードトレーニングデータセット内のトレーニングエピソードのセットからランダムに選択され得る。
ブロック415において、選択されたトレーニングエピソードのサポートセット内の複数のサポートトレーニングデータ項目の各々について、サポートトレーニングデータ項目の第1および第2の変換されたバージョンが生成され、第1および第2の変換されたバージョンが、元のサポートトレーニングデータ項目を示すラベルでラベル付けされる。変換は、トリミング動作、色歪み動作、またはガウスぼかし動作に基づき得る。他の例示的な変換は、回転、ポスタリゼーション、ソラリゼーション、カラーシフト、コントラスト、明るさ、シャープネス、せん断、翻訳、およびカットアウトに基づき得る。特定の変換動作および変換動作の任意のパラメータは、適切な値のセットからランダムに選択され得る。
ブロック420において、サポートトレーニングデータ項目の第2の変換されたバージョンに基づいて、トレーニングエピソードの新しいクエリセットが生成される。たとえば、新しいクエリセットを形成するために、第2の変換されたバージョンのサブセットが選択され得る。サブセットは、元のクエリセットと同じ数のデータ項目を有し得、元のクエリセットと同じカテゴリ分布に従って選択され得る。新しいクエリセットのサポートトレーニングデータ項目のサブセットを最初に選択し、サポートデータ項目ごとに第2の変換されたバージョンを生成するのではなく、サブセットの第2の変換されたバージョンのみを生成することが可能であることも理解されたい。
ブロック425において、選択されたトレーニングエピソードのクエリセットを新しいクエリセットで置き換えることによって、修正されたエピソードトレーニングデータセットが形成される。元のサポートセットは、最初に変換されたバージョンに基づいて修正され得る。たとえば、元のサポートセットを、修正されたトレーニングエピソードにおいて最初に変換されたバージョンに置き換えることによって。
修正のためのさらなるトレーニングエピソードを選択するために、ブロック410から425までの処理を繰り返すことができる。一例では、トレーニングデータセット内のトレーニングエピソードの半分が、上記の処理に従って修正される。
ブロック430において、ニューラルネットワークは、修正されたエピソードトレーニングデータセットを備えるトレーニングセットを使用して生成される。上記のトレーニングエピソードに対して実行された修正は、修正されたトレーニングエピソードと修正されていないトレーニングエピソードの両方に同じ損失関数を引き続き使用できることを意味する。すなわち、修正されたトレーニングエピソードにおいて、各サポートデータ項目が独自のクラスになる。修正されたトレーニングエピソードの目的は、各クエリデータ項目の派生元であるサポートデータ項目を認識することである。これは、同じ分類またはクロスエントロピ損失関数を使用して、元のトレーニングエピソードと同じエピソード学習フレームワークの下で分類問題として提示することができる。次いで、ニューラルネットワークは、確率的勾配降下、特に正規化された確率的勾配降下(正規化された勾配を使用する)などの教師あり学習の標準的な技法を使用してトレーニングすることができる。修正されたトレーニングエピソードの導入は、ニューラルネットワークがトレーニングセットに存在するクラス間を区別するために役立つ表現のみを学習し、他の情報を保持しないという監視崩壊の問題を防ぐために役立つ。データ項目の変換されたバージョンを認識する目的で修正されたトレーニングエピソードを使用すると、ニューラルネットワークがデータ項目に関する情報を保持するようになり、見えないクラスに一般化することができるより良い表現を生成する。たとえば、ニューラルネットワークは、目に見えないクラスのデータ項目を表すために役立つ場合があるローカルコンポーネントパーツに基づいてデータ項目を表すことを学習し得る。
上記の図4の処理では、サポートトレーニングデータ項目の第1および第2の変換されたバージョンを生成することが説明されているが、さらなる変換されたバージョンが生成され得ることが理解されよう。新しいクエリセットおよび/またはサポートセットは、当業者によって適切と考えられるこれらのさらに変換されたバージョンに基づいて生成され得る。
図5は、クエリ画像の一部と、例示的なニューラルネットワークシステムによって生成されたアテンションマップからのサポートセットの画像との間の対応を示す図である。大きいアテンション値によって示される対応部分が、画像において強調表示されている。図5からわかるように、クエリ画像とサポート画像の間で意味的に類似する部分は高い一致度を有する。たとえば、図5の飛行機の尾翼、翼/エンジン、塗装が強調表示されている。したがって、図5の例は、上記のクエリデータ項目とデータ項目のサポートセットとの間の類似性測度を決定するための技法の有効性を示している。
本明細書で説明するシステムが個人情報を含む可能性のあるデータを利用する状況では、データは、記憶または使用される前に、集計および匿名化などの1つまたは複数の方法で処理され得るため、記憶または使用されるデータからそのような個人情報を決定することはできない。さらに、そのような情報の使用は、そのような情報を使用するシステムの出力から個人を識別できる情報が決定されないようにすることができる。
特定の動作またはアクションを実行するように構成される1つまたは複数のコンピュータのシステムは、システムに、動作中にシステムに動作またはアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せがインストールされていることを意味する。特定の動作またはアクションを実行するように構成される1つまたは複数のコンピュータプログラムは、1つまたは複数のプログラムが、データ処理装置によって遂行されると、装置に動作またはアクションを実行させる命令を含むことを意味する。
本明細書で説明される主題および機能動作の実施形態は、デジタル電子回路、有形に具現化されたコンピュータソフトウェアまたはファームウェア、本明細書で開示される構造およびそれらの構造的等価物を含むコンピュータハードウェア、またはそれらの1つまたは複数の組合せにおいて実装することができる。本明細書に記載された主題の実施形態は、1つまたは複数のコンピュータプログラム、すなわち、データ処理装置による遂行のために、またはデータ処理装置の動作を制御するために、有形の非一時的プログラム担体上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装することができる。代替的または追加的に、プログラム命令は、データ処理装置による遂行のために適切な受信装置に送信するための情報を符号化するために生成される、人工的に生成された伝播信号、たとえば機械生成された電気信号、光信号、または電磁気信号上で符号化することができる。コンピュータストレージ媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、ランダムまたはシリアルアクセスメモリデバイス、あるいはそれらのうちの1つまたは複数の組合せとすることができる。しかしながら、コンピュータストレージ媒体は伝播信号ではない。
「データ処理装置」という用語は、例としてプログラマブルプロセッサ、コンピュータ、あるいは複数のプロセッサまたはコンピュータを含む、データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置は、専用論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含むことができる。装置はまた、ハードウェアに加えて、当該のコンピュータプログラムのための遂行環境を作成するコード、たとえばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、あるいはそれらのうちの1つまたは複数の組合せを構成するコードを含むことができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも呼ばれるまたは記述される場合もある)は、コンパイラ型言語またはインタープリタ型言語、あるいは宣言型言語または手続き型言語を含む、任意の形態のプログラミング言語で書くことができ、スタンドアロンプログラムとして、あるいはモジュール、構成要素、サブルーチン、またはコンピューティング環境において使用するのに適した他のユニットとして、を含む、任意の形態で展開することができる。コンピュータプログラムは、必要ではないが、ファイルシステム内のファイルに対応してもよい。プログラムは、他のプログラムまたはデータを保持するファイルの一部、たとえばマークアップ言語ドキュメント内に記憶された1つまたは複数のスクリプト内に、当該のプログラム専用の単一のファイル内に、あるいは複数の協調ファイル、たとえば1つまたは複数のモジュール、サブプログラム、またはコードの一部を記憶するファイル内に記憶することができる。コンピュータプログラムは、1台のコンピュータ、あるいは1つのサイトに配置され、または複数のサイトに分散され、通信ネットワークによって相互接続された複数のコンピュータ上で遂行されるように展開することができる。
本明細書で使用されるように、「エンジン」または「ソフトウェアエンジン」という用語は、入力とは異なる出力を提供する、ソフトウェアで実装された入力/出力システムを指す。エンジンは、ライブラリ、プラットフォーム、ソフトウェア開発キット(「SDK」)、またはオブジェクトなどの、符号化された機能のブロックであり得る。各エンジンは、サーバ、モバイル電話、タブレットコンピュータ、ノートブックコンピュータ、音楽プレーヤ、電子ブックリーダ、ラップトップまたはデスクトップコンピュータ、PDA、スマートフォン、あるいは1つまたは複数のプロセッサおよびコンピュータ可読媒体を含む、他の固定デバイスまたは携帯デバイスなどの、任意の適切なタイプのコンピューティングデバイスに実装することができる。さらに、2つ以上のエンジンが、同じコンピューティングデバイス上または異なるコンピューティングデバイス上に実装され得る。
本明細書で説明するプロセスおよび論理フローは、入力データを動作して出力を生成することによって機能を実行するために、1つまたは複数のコンピュータプログラムを遂行する1つまたは複数のプログラマブルコンピュータによって実行することができる。プロセスおよび論理フローは、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの専用論理回路によって実行することもでき、装置をそれとして実装することもできる。たとえば、プロセスおよび論理フローは、グラフィック処理ユニット(GPU)によって実行することができ、装置は、グラフィック処理ユニット(GPU)として実装することもできる。
コンピュータプログラムの遂行に適したコンピュータは、例として、汎用マイクロプロセッサまたは専用マイクロプロセッサあるいはその両方、あるいは他の種類の中央処理装置を含み、それに基づくことができる。一般に、中央処理装置は、読取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行または遂行するための中央処理装置と、命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータは、データを記憶するための1つまたは複数の大容量ストレージデバイス、たとえば、磁気、光磁気ディスク、または光ディスクを含むか、それらからデータを受信する、またはそれらにデータを転送する、あるいはその両方を行うように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを備えている必要はない。さらに、コンピュータは、ほんの数例を挙げると、たとえば、モバイル電話、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、あるいはポータブルストレージデバイス、たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブなどの別のデバイスに埋め込むことができる。
コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、例として、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、磁気ディスク、たとえば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補足することもでき、そこに組み込むこともできる。
ユーザとの対話を提供するために、本明細書で説明する主題の実施形態は、ディスプレイデバイス、たとえば、ユーザに情報を表示するためのCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、およびユーザがコンピュータに入力を提供できるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータ上で実装することができる。ユーザとの対話を提供するために、他の種類のデバイスを使用することもでき、たとえば、ユーザに提供されるフィードバックは、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックなど、任意の形態の感覚的フィードバックであり得、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって、たとえば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
本明細書に記載されている主題の実施形態は、たとえばデータサーバとしてバックエンドコンポーネントを含むか、たとえばアプリケーションサーバなどのミドルウェアコンポーネントを含むか、フロントエンドコンポーネント、たとえば、ユーザが本明細書に記載の主題の実装形態と対話できるグラフィカルユーザインターフェースまたはウェブブラウザを備えたクライアントコンピュータを含むコンピューティングシステム、あるいは、1つまたは複数のそのようなバックエンド、ミドルウェア、またはフロントエンドコンポーネントの任意の組合せに実装することができる。システムのコンポーネントは、通信ネットワークなどの任意の形式または媒体のデジタルデータ通信によって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)およびワイドエリアネットワーク(「WAN」)、たとえば、インターネットを含む。
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは通常、互いにリモートであり、通常は通信ネットワークを通じて対話する。クライアントおよびサーバの関係は、それぞれのコンピュータで実行され、クライアントおよびサーバの関係を相互に有するコンピュータプログラムによって発生する。
本明細書には多くの特定の実装形態の詳細が含まれているが、これらは発明の範囲または主張され得るもの制限として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有であり得る機能の説明として解釈されるべきである。別個の実施形態の文脈において本明細書に記載されている特定の機能はまた、単一の実施形態において組み合わせて実装することができる。逆に、単一の実施形態の文脈において説明される様々な機能は、複数の実施形態において別々に、または任意の適切なサブコンビネーションにおいて実装することもできる。さらに、特徴は、特定の組合せにおいて作用するものとして上記で説明されてよく、最初にそのように主張されているが、主張される組合せからの1つまたは複数の機能は、場合によっては組合せから切り出すことができ、主張される組合せは、サブコンビネーションまたはサブコンビネーションのバリエーションに向けられ得る。
同様に、動作は特定の順序で図面に示されているが、これは、望ましい結果を達成するために、そのような動作が示される特定の順序または連続した順序で実行されること、または図示されるすべての動作が実行されることを必要とすることとして理解されるべきではない。特定の状況では、マルチタスキングおよび並列処理が有利な場合がある。さらに、上記の実施形態における様々なシステムモジュールおよびコンポーネントの分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきではなく、説明されたプログラムコンポーネントおよびシステムは、一般に、単一のソフトウェア製品に一緒に統合されるか、または複数のソフトウェア製品にパッケージ化され得ることが理解されるべきである。
主題の特定の実施形態が説明された。他の実施形態は、以下の特許請求の範囲内にある。たとえば、特許請求の範囲に記載されているアクションは、異なる順序で実行されても、望ましい結果を達成することができる。一例として、添付の図面に示されているプロセスは、望ましい結果を達成するために、必ずしも示されている特定の順序または連続した順序を必要としない。特定の実装形態では、マルチタスキングおよび並列処理が有利な場合がある。
100 ニューラルネットワークシステム
101 クエリデータ項目
102 サポートセット
103 サポートキー埋め込み
104 サポート値埋め込み
105 キー埋め込みニューラルネットワークサブシステム
106 クエリキー埋め込み
107 アテンションマップサブシステム
108 アテンションマップ
109 値埋め込みニューラルネットワークサブシステム
110 クエリ値埋め込み
111 類似性サブシステム
112 類似性測度
113 分類子サブシステム
114 出力分類
201 サポートセット
202 サポートキー埋め込み
206 プロトタイプ

Claims (30)

  1. クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するためのニューラルネットワークシステムであって、前記ニューラルネットワークシステムが、1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって遂行されると、前記1つまたは複数のコンピュータに、
    前記クエリデータ項目を受信することと、
    サポートセットであって、前記サポートセット内のそれぞれのサポートデータ項目に対するサポートキー埋め込みおよびサポート値埋め込みを備える1つまたは複数のサポートデータ項目のサポートセットを取得することと、
    キー埋め込みを生成するためにデータ項目を処理するように構成されたキー埋め込みニューラルネットワークサブシステムを使用して、前記クエリデータ項目のクエリキー埋め込みを生成することと、
    それぞれのサポートデータ項目に対する前記クエリキー埋め込みと前記サポートキー埋め込みとの間の類似性に基づいて、アテンションマップを生成することと、
    値埋め込みを生成するためにデータ項目を処理するように構成された値埋め込みニューラルネットワークサブシステムを使用して、前記クエリデータ項目に対してクエリ値埋め込みを生成することと、
    前記アテンションマップ、それぞれのサポートデータ項目に対する前記サポート値埋め込み、および前記クエリ値埋め込みに基づいて、前記クエリデータ項目と前記サポートセットとの間の類似性尺度の類似性測度を決定することと
    を備える動作を実行させる命令を記憶する1つまたは複数のストレージデバイスとによって実装される、ニューラルネットワークシステム。
  2. 前記動作が、
    前記キー埋め込みニューラルネットワークサブシステムを使用して、前記サポートキー埋め込みを生成することをさらに備える、請求項1に記載のニューラルネットワークシステム。
  3. 前記動作が、
    前記値埋め込みニューラルネットワークサブシステムを使用して、前記サポート値埋め込みを生成することをさらに備える、請求項1または2に記載のニューラルネットワークシステム。
  4. 前記サポートデータ項目が1つまたは複数のカテゴリに関連付けられる、請求項1から3のいずれか一項に記載のニューラルネットワークシステム。
  5. 前記動作が、
    前記クエリデータ項目を、それぞれのカテゴリごとに決定された類似性測度に基づいて分類することをさらに備える、請求項4に記載のニューラルネットワークシステム。
  6. 前記動作が、
    前記サポート値埋め込みを、前記アテンションマップに基づいて重み付けすることと、
    前記サポートセットに関連付けられるカテゴリごとのプロトタイプを生成するために、同じカテゴリに関連付けられる前記サポートデータ項目の前記重み付けされたサポート値埋め込みが集計することと
    をさらに備える、請求項4または5に記載のニューラルネットワークシステム。
  7. 類似性測度を決定することが、それぞれのカテゴリごとに、前記クエリ値埋め込みと前記プロトタイプとの間の類似性測度を決定することを備える、請求項6に記載のニューラルネットワークシステム。
  8. 前記類似性測度が、前記クエリ値埋め込みと前記プロトタイプとの間の距離に基づく、請求項6または7に記載のニューラルネットワークシステム。
  9. 前記距離がユークリッド距離に基づく、請求項8に記載のニューラルネットワークシステム。
  10. 前記アテンションマップが、それぞれのサポートデータ項目に対する前記クエリキー埋め込みと前記サポートキー埋め込みとの間のスケーリングされていない類似性測度に基づいて生成される、請求項1から9のいずれか一項に記載のニューラルネットワークシステム。
  11. それぞれのサポートデータ項目に対する前記クエリキー埋め込みと前記サポートキー埋め込みとの間の前記類似性が、内積に基づいている、請求項1から10のいずれか一項に記載のニューラルネットワークシステム。
  12. それぞれのサポートデータ項目に対する前記クエリキー埋め込みと前記サポートキー埋め込みとの間の前記類似性が、前記クエリキー埋め込みの特徴と前記サポートキー埋め込みのそれぞれの特徴との間の類似性に基づいている、請求項1から11のいずれか一項に記載のニューラルネットワークシステム。
  13. 前記特徴が空間的特徴である、請求項12に記載のニューラルネットワークシステム。
  14. 前記アテンションマップが、同じカテゴリのそれぞれのサポートデータ項目に対する前記クエリキー埋め込みと前記サポートキー埋め込みとの間の前記類似性測度を受信するソフトマックス関数に基づいて生成される、請求項4から13のいずれか一項に記載のニューラルネットワークシステム。
  15. 前記キー埋め込みニューラルネットワークサブシステムおよび/または前記値埋め込みサブシステムが線形出力層を備える、請求項1から14のいずれか一項に記載のニューラルネットワークシステム。
  16. 前記キー埋め込みニューラルネットワークサブシステムおよび/または前記値埋め込みニューラルネットワークサブシステムが畳み込み層を備える、請求項1から15のいずれか一項に記載のニューラルネットワークシステム。
  17. 前記データ項目が画像である、請求項1から16のいずれか一項に記載のニューラルネットワークシステム。
  18. 請求項1から17のいずれか一項に記載のニューラルネットワークシステムによって実装される動作を備える、クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定する、コンピュータ実装方法。
  19. クエリデータ項目とサポートデータ項目のセットとの間の類似性測度を決定するためのニューラルネットワークシステムをトレーニングする方法であって、
    複数のトレーニングエピソードにグループ化されたトレーニングデータ項目を備えるエピソードトレーニングデータセットを受信するステップであって、各トレーニングエピソードが、サポートトレーニングデータ項目のサポートセットとクエリセットに分割されたトレーニングデータ項目を備える、ステップと、
    修正のためのトレーニングエピソードを選択するステップと、
    前記選択されたトレーニングエピソードの前記サポートセット内の複数のサポートトレーニングデータ項目の各々について、前記サポートトレーニングデータ項目の第1および第2の変換されたバージョンを生成して、前記第1および第2の変換されたバージョンを、元の前記サポートトレーニングデータ項目を示すラベルでラベル付けするステップと、
    前記サポートトレーニングデータ項目の前記第2の変換されたバージョンに基づいて、前記トレーニングエピソードの新しいクエリセットを生成するステップと、
    前記選択されたトレーニングエピソードの前記クエリセットを前記新しいクエリセットで置き換えることによって、修正されたエピソードトレーニングデータセットを形成するステップと、
    前記修正されたエピソードトレーニングデータセットを含むトレーニングセットを使用してニューラルネットワークを生成するステップと
    を備える、方法。
  20. 前記第1の変換されたバージョンに基づいて、前記選択されたトレーニングエピソードの前記サポートセットを修正するステップをさらに備える、請求項19に記載の方法。
  21. 前記選択されたトレーニングエピソードの前記サポートセット内の複数のサポートトレーニングデータ項目の各々について、前記サポートトレーニングデータ項目の第1および第2の変換されたバージョンを生成するステップが、
    前記選択されたトレーニングエピソードの前記サポートセット内のそれぞれのサポートトレーニングデータ項目ごとに、前記サポートトレーニングデータ項目の第1の変換されたバージョンを生成するステップと、
    前記選択されたトレーニングエピソードの前記サポートセット内の前記サポートトレーニングデータ項目のサブセットについて、前記サポートトレーニングデータ項目のそれぞれの第2の変換されたバージョンを生成するステップと
    を備える、請求項19または20に記載の方法。
  22. 前記ニューラルネットワークが、修正されたトレーニングエピソードと修正されていないトレーニングエピソードの両方について、同じ損失関数に基づいて生成される、請求項19から21のいずれか一項に記載の方法。
  23. 前記ニューラルネットワークが、分類損失関数に基づいて生成される、請求項19から22のいずれか一項に記載の方法。
  24. 前記ニューラルネットワークが、クロスエントロピ損失関数に基づいて生成される、請求項19から23のいずれか一項に記載の方法。
  25. 前記ニューラルネットワークが、正規化された確率的勾配降下技法に基づいて生成される、請求項19から24のいずれか一項に記載の方法。
  26. サポートトレーニングデータ項目の変換されたバージョンを生成するステップが、トリミング動作、色歪み動作、またはガウスぼかし動作に基づいて変換を適用するステップを備える、請求項19から25のいずれか一項に記載の方法。
  27. サポートトレーニングデータ項目の変換されたバージョンを生成するステップが、前記サポートデータ項目の変換されたバージョンを生成するために、前記サポートトレーニングデータ項目にランダムに選択された変換関数を適用するステップを備える、請求項19から26のいずれか一項に記載の方法。
  28. 前記生成されたニューラルネットワークが、請求項1から17のいずれか一項に記載のニューラルネットワークシステムである、請求項19から27のいずれか一項に記載の方法。
  29. 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって遂行されると、前記1つまたは複数のコンピュータに、請求項19から28のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を記憶する1つまたは複数のストレージデバイスとを備える、システム。
  30. 1つまたは複数のコンピュータによって遂行されると、前記1つまたは複数のコンピュータに、請求項1から17および29のいずれか一項に記載のシステムを実装させ、ならびに/または請求項18から28のいずれか一項に記載のそれぞれの方法の動作を実行させる命令を記憶する1つまたは複数のコンピュータストレージ媒体。
JP2022560956A 2020-06-05 2021-06-07 少数ショット類似性決定および分類のためのクロストランスフォーマニューラルネットワークシステム Pending JP2023527511A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063035469P 2020-06-05 2020-06-05
US63/035,469 2020-06-05
US202063039748P 2020-06-16 2020-06-16
US63/039,748 2020-06-16
PCT/EP2021/065125 WO2021245287A2 (en) 2020-06-05 2021-06-07 Cross-transformer neural network system for few-shot similarity determination and classification

Publications (1)

Publication Number Publication Date
JP2023527511A true JP2023527511A (ja) 2023-06-29

Family

ID=76392368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560956A Pending JP2023527511A (ja) 2020-06-05 2021-06-07 少数ショット類似性決定および分類のためのクロストランスフォーマニューラルネットワークシステム

Country Status (6)

Country Link
US (1) US20210383226A1 (ja)
EP (1) EP4115341A2 (ja)
JP (1) JP2023527511A (ja)
KR (1) KR20220154181A (ja)
CN (1) CN115362446A (ja)
WO (1) WO2021245287A2 (ja)

Also Published As

Publication number Publication date
EP4115341A2 (en) 2023-01-11
WO2021245287A3 (en) 2022-01-13
US20210383226A1 (en) 2021-12-09
KR20220154181A (ko) 2022-11-21
WO2021245287A2 (en) 2021-12-09
CN115362446A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
US10248664B1 (en) Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN110574049B (zh) 多任务多模态机器学习系统
US20210271968A1 (en) Generative neural network systems for generating instruction sequences to control an agent performing a task
US10997472B2 (en) Classifying input examples using a comparison set
CN111727441A (zh) 实现用于高效学习的条件神经过程的神经网络系统
CN113795851A (zh) 具有针对使用对抗训练的表示学习的推理的大规模生成神经网络模型
JP7494316B2 (ja) ブートストラッピングされた潜在表現を使用する自己教師付き表現学習
CN110770759A (zh) 神经网络系统
CN112789626A (zh) 可扩展和压缩的神经网络数据储存系统
EP3884426A1 (en) Action classification in video clips using attention-based neural networks
Huttunen Deep neural networks: A signal processing perspective
US20230351203A1 (en) Method for knowledge distillation and model genertation
US20240152749A1 (en) Continual learning neural network system training for classification type tasks
JP2023527511A (ja) 少数ショット類似性決定および分類のためのクロストランスフォーマニューラルネットワークシステム
WO2022167485A1 (en) Neural networks with adaptive gradient clipping
Ji [Retracted] Research on Recognition Effect of DSCN Network Structure in Hand‐Drawn Sketch
US11755883B2 (en) Systems and methods for machine-learned models having convolution and attention
US20220245428A1 (en) Machine-Learned Attention Models Featuring Omnidirectional Processing
WO2023169696A1 (en) Training object discovery neural networks and feature representation neural networks using self-supervised learning
Du et al. IGCE: A Compositional Energy Concept Based Deep Image Generation Neural Network
Mohit Sai Aravind et al. Military Hand Signal Classification Using Deep Learning
WO2023059737A1 (en) Self-attention based neural networks for processing network inputs from multiple modalities
WO2024138177A1 (en) Recurrent interface networks
CN115769236A (zh) 经由lambda函数以减少的特征物化进行长程交互的建模
CN114386562A (zh) 减少神经模型的资源需求的方法、系统和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240423

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240527