JP2024520023A - 視覚及び言語表現学習のためのシステム及び方法 - Google Patents

視覚及び言語表現学習のためのシステム及び方法 Download PDF

Info

Publication number
JP2024520023A
JP2024520023A JP2023572887A JP2023572887A JP2024520023A JP 2024520023 A JP2024520023 A JP 2024520023A JP 2023572887 A JP2023572887 A JP 2023572887A JP 2023572887 A JP2023572887 A JP 2023572887A JP 2024520023 A JP2024520023 A JP 2024520023A
Authority
JP
Japan
Prior art keywords
text
image
samples
encoder
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023572887A
Other languages
English (en)
Inventor
リー,ジュインナン
ホン ホイ,チュ
Original Assignee
セールスフォース インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セールスフォース インコーポレイテッド filed Critical セールスフォース インコーポレイテッド
Publication of JP2024520023A publication Critical patent/JP2024520023A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本明細書に記載される実施形態は、視覚及び言語表現を学習するための視覚及び言語(V+L)システム及び方法を提供する。具体的には、方法は、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットを受信することと、複数の画像サンプルを複数の符号化された画像サンプルに符号化し、複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化することと、複数の符号化された画像サンプル及び複数の符号化されたテキストサンプルに基づいて、第1の損失目標をコンピューティングすることと、複数の符号化された画像サンプルの第1のサブセット及び複数の符号化されたテキストサンプルの第2のサブセットを、複数の符号化された画像-テキストサンプルに符号化することと、複数の符号化された画像-テキストサンプルに基づいて、第2の損失目標をコンピューティングすることと、第1の損失目標及び第2の損失目標に少なくとも部分的に基づいてV+Lモデルを更新することと、を含んでもよい。

Description

この出願は、2021年7月8日に出願された米国非仮出願第17/370,524号及び2021年5月26日に出願された米国仮出願第63/193,286号に対する優先権を主張し、これらは、それらの全体が参照により本明細書に明示的に組み込まれる。
本開示は、一般に、機械学習モデル及びニューラルネットワークに関し、より具体的には、視覚及び言語表現学習に関する。
視覚と学習の事前訓練(VLP)は、画像-テキスト取り出し、画像-テキスト関係、視覚的な質問応答、又は視覚的な推論のための自然言語の予測など、下流の視覚と言語(V+L)タスクを改善できる大規模な画像-テキストのペアからマルチモーダル表現を学習することを目的としている。
VLPアプローチは、視覚及び言語タスクに関してある程度の進歩を遂げてきたが、従来のVLPフレームワークは、不十分なモデリング効率、高いアノテーション及び/又はコンピューティングオーバヘッド、及び/又はノイズへのオーバフィッティングを含むいくつかの制限に悩まされることがある。
したがって、従来のVLP法に関連付けられた欠点を回避する改良されたVLPシステム及び方法が必要である。
本明細書に記載するいくつかの実施形態による、視覚と言語事前訓練(VLP)法を実装するためのコンピューティングデバイスの簡略図である。
本明細書に記載するいくつかの実施形態による、VLPシステムを訓練するためのプロセスフローの簡略図である。
いくつかの実施形態による、図1のサブモジュールを実装する例示的な方法を例示する、簡略化された論理フロー図である。
本明細書に記載するいくつかの実施形態による、VLPシステムを使用するためのモデルアーキテクチャの簡略図である。 本明細書に記載するいくつかの実施形態による、VLPシステムを使用するためのモデルアーキテクチャの簡略図である。
図では、同一の呼称を有する要素は、同じ又は同様の機能を有する。
機械学習法は、視覚と言語(V+L)タスクに適用されてきた。このような機械学習法は、大規模な画像-テキストペアからマルチモーダル表現を学習することを目的とした、視覚と言語の事前学習(VLP)を使用することが多い。この従来のVLPフレームワークは、いくつかの制限に悩まされることがある。第1に、画像特徴と単語トークン埋め込みは非常に異なる空間に存在するため、マルチモーダルエンコーダが特徴と埋め込みの間の相互作用をモデル化することを学習することを困難にすることがある。第2に、従来のVLPフレームワークは、事前訓練及び/又は高解像度画像のためのバウンディングボックスアノテーションを必要とし、その結果、高いアノテーション及び/又はコンピューティングオーバヘッドをもたらす。第3に、従来のVLP法を訓練するために使用される画像-テキストデータセットはノイズが多いことがあり、その結果、ノイズにオーバフィッティングし、それに付随して性能が低下する。
従来のVLP方法に関連付けられた欠点を回避する改良されたVLPシステム及び方法の必要性を考慮して、本明細書に記載される実施形態は、中間画像-テキスト対照(ITC)損失を利用するV+Lモデルを事前訓練するための方法などのVLPシステム及び方法を提供する。例えば、訓練入力は、ユニモーダル画像及びテキストエンコーダに供給されてユニモーダル出力にトランスフォームされ、ITC損失は、画像-テキストペアからのユニモーダル出力の予測された類似度とグラウンドトゥルースの類似度との間の損失を計算することによってコンピューティングされる。ITC損失は、ユニモーダル画像及びテキストエンコーダによって出力された表現に少なくとも部分的に基づいてコンピューティングされ、これらのエンコーダは、ITC損失に少なくとも部分的に基づいて更新することができる。このようにして、画像特徴及びテキスト特徴は、ITC損失に基づく訓練プロセスを通じてアラインされ、マルチモーダルエンコーダがクロスモーダル学習を実行することを容易にする。追加的に、画像及びテキストのセマンティックな意味を理解するユニモーダルエンコーダの能力は、ITC損失に基づく訓練を通して改善されてもよい。画像及びテキストのための共通の埋め込み空間もまた、ITC損失に基づいて学習されてもよく、画像-テキストマッチングの目的がより有益なサンプルを見つけることを可能にする。
一実施形態では、本明細書に記載されるVLPシステム及び方法は、モーメンタム蒸留(MoD)を使用して、グラウンドトゥルースのテキストによって記載されないことがある視覚的な概念を捕捉するための擬似ターゲットを生成する。MoDは、モーメンタムモデルを利用して、訓練中の追加の教師として擬似ターゲットを生成し、画像エンコーダ、テキストエンコーダ、及びマルチモーダルエンコーダを訓練するためにこれらの擬似ターゲットを供給し、ノイズの多い教師(supervision)の下での学習の改善と、より大きな直っていない訓練データセットの使用を可能にする。
本明細書で使用される場合、「ネットワーク」という用語は、任意の人工知能ネットワーク又はシステム、ニューラルネットワーク又はシステム、及び/又はそこで実装されるか、又はそれと共に実装される任意の訓練又は学習モデルを含む任意のハードウェア又はソフトウェアベースのフレームワークを含んでもよい。
本明細書で使用される場合、「モジュール」という用語は、1つ以上の機能を実行するハードウェア又はソフトウェアベースのフレームワークを含んでもよい。いくつかの実施形態では、モジュールは、1つ以上のニューラルネットワーク上で実装されてもよい。VLPシステム及び方法
図1は、いくつかの実施形態による、視覚及び学習(V+L、 vision-and-learning)モデルを訓練するためのVLPシステムを実装するためのコンピューティングデバイスの簡略図である。図1に示すように、コンピューティングデバイス100は、メモリ110に結合されたプロセッサ110を含む。コンピューティングデバイス100の動作は、プロセッサ110によって制御される。また、コンピューティングデバイス100は、1つのプロセッサ110のみを有して示されているが、プロセッサ110は、コンピューティングデバイス100内の1つ以上の中央処理ユニット、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路、グラフィック処理ユニット(GPU)などを代表するものであってもよいことが理解される。コンピューティングデバイス100は、スタンドアロンのサブシステムとして、コンピューティングデバイスに追加されたボードとして、及び/又は仮想マシンとして実装されてもよい。
メモリ120は、コンピューティングデバイス100によって実行されるソフトウェア及び/又はコンピューティングデバイス100の動作中に使用される1つ以上のデータ構造を記憶するために使用されてもよい。メモリ120は、1つ以上のタイプの機械可読媒体を含んでもよい。機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップ又はカートリッジ、及び/又はプロセッサ又はコンピュータが読むように適応される任意の他の媒体を含んでもよい。
プロセッサ110及び/又はメモリ120は、任意の好適な物理的配置に配置されてもよい。いくつかの実施形態では、プロセッサ110及び/又はメモリ120は、同じボード、同じパッケージ(例えば、システムインパッケージ)、同じチップ(例えば、システムオンチップ)などに実装されてもよい。いくつかの実施形態では、プロセッサ110及び/又はメモリ120は、分散、仮想化、及び/又はコンテナ化されたコンピューティングリソースを含んでもよい。そのような実施形態とマッチングして、プロセッサ110及び/又はメモリ120は、1つ以上のデータセンター及び/又はクラウドコンピューティング施設に位置してもよい。
いくつかの例では、メモリ120は、1つ以上のプロセッサ(例えば、プロセッサ110)によって動作するときに、1つ以上のプロセッサに本明細書にさらに詳細に記載される方法を実行させ得る実行可能コードを含む非一時的な有形機械可読媒体を含んでもよい。例えば、図示のように、メモリ120は、システム及びモデルを実装及び/又はエミュレートするため、及び/又は本明細書にさらに記載される方法のうちのいずれかを実装するために使用され得るVLPモジュール130のための命令を含む。いくつかの例では、VLPモジュール130は、例えば、画像入力142及びテキスト入力144などのいくつかの入力を、データインターフェース115を介して、ユーザから受信してもよい。データインターフェース115は、ユーザからの画像入力及びテキスト入力を受信するユーザインターフェース、又はデータベースからの画像入力及びテキスト入力を受信するか、若しくは取り出す通信インターフェースのいずれかであってもよい。VLPモジュール130は、1つ以上の出力画像-テキストペアなどの出力150を生成してもよい。
いくつかの実施形態では、VLPモジュール130は、画像エンコーダモジュール131及びテキストエンコーダモジュール132を含む。具体的には、画像エンコーダモジュールは、画像入力142の符号化を形成するように構成されている。テキストエンコーダモジュールは、テキスト入力144の符号化を形成するように構成されている。いくつかの実施形態では、VLPモジュール130は、マルチモーダルエンコーダ133を含む。マルチモーダルエンコーダは、画像入力の符号化とテキスト入力の符号化を受信するように構成されている。マルチモーダルエンコーダは、画像入力の符号化とテキスト入力の符号化とを融合するように構成されている。いくつかの実施形態では、VLPモジュール130は、モーメンタムモジュール134を含む。訓練中、モーメンタムモジュールは、マルチモーダルエンコーダからの出力を受信し、出力の指数移動平均バージョンなどの出力の擬似ターゲットを生成するモーメンタム蒸留(MoD)を実行するように構成されている。
コンピューティングデバイス100などのコンピューティングデバイスのいくつかの例は、実行可能コードを含む非一時的な有形の機械読み取り可能媒体を含んでもよい。機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップ又はカートリッジ、及び/又はプロセッサ又はコンピュータが読むように適応される任意の他の媒体である。
図2は、いくつかの実施形態による、1つ以上の損失目標を使用してV+Lモデルを訓練するためのプロセスフローの簡略図である。図2に示すように、画像入力210は、埋め込み214を生成するためにフィードフォワード画像エンコーダ212に渡される。入力画像Iは、{vcls,v,…v}のような埋め込み214のシーケンスに符号化され、vclsは、[CLS]トークンの埋め込みである。テキスト入力220は、埋め込み224を生成するためにフィードフォワードテキストエンコーダ222に渡される。例えば、テキストエンコーダは、入力テキストTを、{wcls、w、…w}などの埋め込み224のシーケンスにトランスフォームする。
V+Lモデル200は、画像エンコーダ212、テキストエンコーダ222、及びマルチモーダルエンコーダ240を含むことができる。画像-テキスト対照損失230は、マルチモーダルエンコーダ240での融合の前に、画像-テキストペアのユニモーダル表現をアラインするために生成され得る。画像-テキストマッチング損失242(対照類似度によってマイニングされたハード陰性250を使用)及びマスクされた言語モデリング損失244は、画像及びテキストとの間のマルチモーダル相互作用を学習するために適用される。ノイズの多いデータを用いた学習を改善するために、V+Lモデル200の訓練中の追加の監視としてモーメンタムモデル260(例えば、ベースモデルの移動平均バージョン)を使用して、擬似ターゲットを生成することができる。
画像エンコーダ212及びテキストエンコーダ222は、1つ以上のフィードフォワード層及び1つ以上のセルフアテンション層を含むことができる。マルチモーダルエンコーダ240は、1つ以上のフィードフォワード層、1つ以上のクロスアテンション層、及び1つ以上のセルフアテンション層を含むことができる。例えば、12層のトランスフォーマを画像エンコーダ212に使用することができ、6層のトランスフォーマをテキストエンコーダ222とマルチモーダルエンコーダ240の両方に使用することができる。テキストエンコーダ222は、BERTモデルの最初の6つの層を使用して初期化され、マルチモーダルエンコーダは、BERTモデルの最後の6つの層を使用して初期化される。画像特徴は、マルチモーダルエンコーダ240の各層におけるクロスアテンションを通じてテキスト特徴と融合され得る。
画像エンコーダ212からの符号化214とテキストエンコーダ222からの符号化224は、画像-テキスト対照学習(ITC)損失関数230を含む第1の損失目標を生成するために使用され、画像エンコーダ212からの符号化214とテキストエンコーダ222からの符号化224をアライン及び比較することができる。画像-テキスト対照学習(ITC)は、画像エンコーダ212からの符号化214とテキストエンコーダ222からの符号化224との融合の前に、より良いユニモーダル表現を学習することを目的とする。
各画像及びテキストの画像-テキスト対照学習(ITC)損失を生成するために、複数の画像-テキストペアにおける各画像と各テキストとの間の類似度と、ペアになっていない画像及びテキストとの間の類似度とを生成することができる。例えば、類似度関数
Figure 2024520023000002
を使用して、各画像と各テキストの画像からテキストへの類似度、テキストから画像への類似度を計算することができ、そのため、ペアにされた画像-テキストがより高い類似度スコアを有する。g及びgは、画像エンコーダ212からの符号化214の[CLS]埋め込み、及びテキストエンコーダ222からの符号化224の[CLS]埋め込みを、正規化低次元(256-d)表現にマッピングする線形トランスフォームである。
画像-テキスト対照学習(ITC)損失は、さらに、モーメンタムユニモーダルエンコーダ260からの符号化された画像サンプル及び符号化されたテキストサンプルの最新のM個の画像-テキスト表現を2つのキューに組み込むことができる。モーメンタムユニモーダルエンコーダ260からの符号化214及び符号化224の正規化特徴は、
Figure 2024520023000003
及び
Figure 2024520023000004
として示される。画像-テキスト類似度は、
Figure 2024520023000005
を使用して、計算されてもよい。テキスト-画像類似度は、
Figure 2024520023000006
を使用して計算することができる。特定の態様では、画像からテキストへの類似度及びテキストから画像類似度は、ソフトマックスによって、
Figure 2024520023000007
と正規化することができ、式中、τは、ハイパーパラメータである。
グランドトゥルースの1ホット類似度は、
Figure 2024520023000008
及び
Figure 2024520023000009
として示すことができ、式中、陰性のペアは、0の確率を有し、陽性のペアは、1の確率を有する。
画像-テキスト対照学習(ITC)損失関数は、コンピューティングされソフトマックス正規化された画像からテキストへの類似度とラベル付きグラウンドトゥルースの画像からテキストへの類似度との間のクロスエントロピー、及びコンピューティングされソフトマックス正規化されたテキストから画像への類似度とラベル付きグラウンドトゥルースのテキストから画像への類似度との間のクロスエントロピーの平均期待和としてコンピューティングされる。
例えば、画像-テキスト対照(ITC)学習損失は、符号化された画像サンプルと符号化されたテキストサンプルとの間の予測された類似度pと、グラウンドトゥルースの1ホット類似度yとの間のクロスエントロピーHとして定義することができ、例えば、
Figure 2024520023000010
である。
一実施形態では、画像エンコーダ212及びテキストエンコーダ222からの符号化は、さらにフィードフォワードマルチモーダルエンコーダ240に渡され、符号化された画像-テキストサンプルを生成する。マルチモーダルエンコーダ240は、画像-テキストマッチング(ITM)損失242とマスクされた言語モデリング(MLM)損失244とを含む第2の損失目標を生成するように構成されている。ITM損失242は、符号化された画像-テキストサンプルの予測された画像-テキストマッチングと、符号化された画像-テキストサンプルの対応するグラウンドトゥルース画像-テキストマッチングとの間の期待されるクロスエントロピーに基づいてコンピューティングされる。ITM損失242は、符号化された画像-テキストサンプルの対照類似度を通じてマイニングされたハード陰性250を使用して生成することができる。
画像-テキストマッチング(ITM)242は、符号化された画像-テキストサンプルの2クラスの可能性、例えば、符号化された画像-テキストサンプル中の画像とテキストのペアが陽性(マッチングする)であるか陰性(マッチングしない)であるかを予測する。マルチモーダルエンコーダ240の[CLS]トークンの出力埋め込みは、符号化された画像-テキストサンプル内の画像とテキストのペアの結合表現として使用することができ、全結合(FC)層が付加され、その後にソフトマックス関数によって、画像-テキストペアの2クラスの可能性pitm(すなわち、画像-テキストペアが陽性か陰性か)を予測することができる。ITM損失は、画像-テキストペアの予測された2クラスの可能性と、グラウンドトゥルースの1ホット2クラスの可能性との間のクロスエントロピーHとすることができ、例えば、
Figure 2024520023000011
であり、式中、yitmは、グラウンドトゥルースラベルを表す2次元の1ホットベクトルである。
マルチモーダルエンコーダ240はまた、マスク言語モデリング(MLM)損失244を生成して、画像入力210とテキスト入力220との間のマルチモーダル相互作用を学習するように構成されている。MLM損失244は、符号化された画像-テキストサンプルにおける1つ以上のマスクされたトークンの予測された可能性と、符号化された画像-テキストサンプルの1つ以上のマスクされたトークンのグランドトゥルースアイデンティティとの間の損失関数として定義することができる。
マスク言語モデリング(MLM)は、符号化された画像-テキストサンプル中のマスクされた単語を予測するために、符号化された画像-テキストサンプルからの画像とコンテキスト・テキストの両方を利用する。入力トークンは、15%などの所定の確率でランダムにマスクされ、特別なトークン[MASK]で置換される。例えば、置換は、10%のランダムトークン、10%の変更なし、及び80%の[MASK]である。
MLM学習損失244は、符号化された画像-テキストサンプル内のマスクされたトークンに対する予測された確率と、グラウンドトゥルースの1ホット語彙分布との間のクロスエントロピーHとすることができ、例えば、
Figure 2024520023000012
であり、式中、
Figure 2024520023000013
は、マスクされたテキストを示すために使用することができ、
Figure 2024520023000014
は、マスクされたトークンに対するモデルの予測された確率を示すために使用することができ、ymskは、グラウンドトゥルーストークンが1の確率1を有する。
符号化された画像及びテキストサンプルのサブセットは、マルチモーダルエンコーダによって符号化された画像-テキストサンプルに符号化される前に、少なくとも部分的に陰性マイニングに基づいて選択することができる。ハード陰性(hard negatives)は、ゼロのコンピューティングオーバヘッドでITMタスクのためにサンプリングできる。陰性の画像-テキストペアは、それらが、類似したセマンティクスを共有し、細かい粒度の詳細が異なる場合、ハードである。 方程式(1)からの対照類似度は、ハード陰性を見つけるために使用することができる。ミニバッチ内の各画像に対して、対照類似度分布に従って、同じバッチから1つの陰性のテキストをサンプリングすることができ、画像により類似したテキストは、サンプリングされる可能性がより高い。同様に、各テキストに対して1つのハード陰性画像をサンプリングすることができる。
いくつかの実施形態では、視覚言語学習(V+L)モデルは、第1の損失目標及び第2の目標、例えば、ITC損失、MLM損失、及びITM損失の組み合わせなどの第1の損失目標及び第2の損失目標の組み合わせに基づいて更新される。例えば、
Figure 2024520023000015
と表される。
一実施形態では、最終的な損失目標は、ITC損失、MLM損失、及びITM損失の重み付け和であってもよく、重み付け係数は、経験的にか、又は予め定義される。
一実施形態では、モデルを訓練するためのノイズの多い入力データが存在する場合などに学習を改善するために、モデルを訓練するための元のノイズの多いデータの代替としてモーメンタム蒸留(MoD)を使用して擬似ターゲットが生成される。エンコーダ(例えば、画像エンコーダ212、テキストエンコーダ222、及びマルチモーダルエンコーダ240)の全てについて、擬似ターゲットがモーメンタムモデル260によって生成される。モーメンタムモデルは、連続的に進化する教師モデルであり、ユニモーダル及びマルチモードエンコーダを含む全てのエンコーダの指数移動平均バージョンを含む。
訓練中に、視覚及び言語ベースモデルは、その予測がモーメンタムモデルからの予測と一致するように訓練することができる。具体的には、ITCを修正するために、画像-テキスト類似度は、モーメンタムモデルによって生成された擬似ターゲットで調整することができ、例えば、
Figure 2024520023000016
であり、同様に、テキスト-画像類似度は、モーメンタムモデルによって生成された擬似ターゲットで調整することができ、例えば、
Figure 2024520023000017
である。ソフト擬似ターゲットqi2t及びqt2iは、式(1)においてsをs′で置換することによって生成することができる。ITCは、MoD擬似ターゲットによって修正され、ITC-MoD損失を生成することができ、例えば、
Figure 2024520023000018
と定義される。
同様に、MLMを修正するために、マスクされたトークンに対するモーメンタムモデルの予測確率は、例えば、
Figure 2024520023000019
によって生成され得る。MLMは、MoD擬似ターゲットによって修正され、MLM-MoD損失を生成することができ、例えば、
Figure 2024520023000020
いくつかの実施形態では、視覚及び言語学習(V+L)モデルは、第1の損失目標及び第2の目標、例えば、モーメンタムモデルによって生成された擬似ターゲットによって修正された第1の損失目標及び第2の損失目標の組み合わせで、少なくとも部分的に更新される。
図3は、いくつかの実施形態による、図1のサブモジュール131~134を実装する視覚及び言語表現学習のための方法300を例示する簡略化された論理フロー図である。方法300のプロセス310~360のうちの1つ以上は、少なくとも部分的に、1つ以上のプロセッサによって実行されるときに、1つ以上のプロセッサにプロセス310~360のうちの1つ以上を実行させ得る非一時的な有形機械可読媒体に記憶された実行可能コードの形態で実装されてもよい。いくつかの実施形態において、方法300は、モジュール130によって使用される方法に対応してもよい。
プロセス310では、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットが、例えば、図1のデータインターフェース115を介して受信されてもよい。いくつかの実施形態では、複数の画像サンプルのうちの少なくとも1つの画像サンプルは、複数のテキストサンプルのうちの少なくとも1つのテキストサンプルに対応する。
プロセス320では、画像エンコーダは、複数の画像サンプルを複数の符号化された画像サンプルに符号化してもよい。プロセス320では、テキストエンコーダは、複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化してもよい。画像エンコーダ又はテキストエンコーダの符号化は、同時に又は異なる時間に行われてもよい。例えば、画像エンコーダの符号化は、テキストエンコーダの符号化の前に行われてもよい。例えば、画像エンコーダの符号化は、テキストエンコーダの符号化の後に行われてもよい。いくつかの実施形態では、画像エンコーダは、トランスフォーマである。さらなる実施形態では、テキストエンコーダは、トランスフォーマである。
プロセス330では、第1の損失目標が、複数の符号化された画像サンプル及び複数の符号化されたテキストサンプルに基づいてコンピューティングされてもよい。第1の損失目標は、符号化された画像サンプルと符号化されたテキストサンプルとの間の予測された類似度と、対応するグランドトゥルース類似度との間の損失関数を参照する画像-テキスト対照損失(ITC)損失目標を含んでもよい。
追加的及び代替的な実施形態では、方法300又はプロセス330は、モーメンタム蒸留(MoD)を使用して、モーメンタムモデルを形成することと、モーメンタムモデルを使用して、複数のモデル化された画像サンプル及び複数のモデル化されたテキストサンプルを生成することと、複数のモデル化された画像サンプルを複数の画像サンプルに含めることと、複数のモデル化されたテキストサンプルを複数のテキストサンプルに含め、モデル化された画像サンプルとモデル化された画像サンプルとを使用して、ITC損失目標などの第1の目標を生成することと、をさらに含んでもよい。
プロセス340では、マルチモーダルエンコーダは、複数の符号化された画像サンプルの第1のサブセット及び複数の符号化されたテキストサンプルの第2のサブセットを、複数の符号化された画像-テキストサンプルに符号化してもよい。いくつかの実施形態では、マルチモーダルエンコーダは、トランスフォーマである。第1のサブセット及び第2のサブセットは、類似のセマンティクスを共有するが、細かい粒度の詳細において異なる陰性マイニング又は陰性の画像-テキストペアのマイニングに少なくとも部分的に基づいて選択されてもよい。陰性の画像-テキストペアは、少なくとも、式(1)からの対照類似度分布に基づいて選択することができる。
プロセス350では、第2の損失目標は、複数の符号化された画像-テキストサンプルに基づいてコンピューティングされ、画像-テキストマッチング(ITM)損失目標とマスク言語モデリング(MLM)損失目標とを含む。ITM損失は、符号化された画像-テキストサンプルの予測された画像-テキストマッチングと、符号化された画像-テキストサンプルの対応するグラウンドトゥルース画像-テキストマッチングとの間の損失関数とすることができる。MLM損失は、符号化された画像-テキストサンプルにおけるマスクされたトークンについて予測されたものと、符号化された画像-テキストサンプルのグラウンドトゥルース語彙分布との間の損失関数とすることができる。
追加の代替的な実施形態では、方法300又はプロセス350は、モーメンタムモデルからのモデル化画像サンプル及びモデル化画像サンプルを使用して、MLM損失目標などの第2の目標を生成することをさらに含んでもよい。
プロセス360では、V+Lモデルは、第1の損失目標及び第2の損失目標に少なくとも部分的に基づいて更新されてもよい。例えば、V+Lモデルを更新することは、第1の損失目標と第2の損失目標との組み合わせに基づいて、画像エンコーダ、テキストエンコーダ、及びマルチモーダルエンコーダを更新することを含む。別の例では、V+Lモデルを更新するステップは、第1の損失目標に少なくとも部分的に基づいて画像エンコーダ及びテキストエンコーダを更新することと、第2の損失目標に少なくとも部分的に基づいてマルチモーダルエンコーダを更新することと、を含む。
さらなる実施形態では、方法300は、画像-テキスト取り出しタスク、画像からテキストの取り出し(TR、image-to-text retrieval)タスク、テキストから画像の取り出し(IR、text-to-image retrieval)タスク、視覚的含意(VE、visual entailment)タスク、視覚的質問応答(VQA、visual question answering)タスク、及び現実のための視覚的推論のための自然言語(NLVR、natural language for visual reasoning for real)タスクからなる群から選択されるタスクに対してV+Lモデルを微調整することをさらに含んでもよい。
一実施形態では、画像-テキストペアの異なる「ビュー」間の相互情報(MI)の下限を最大化することができる。
形式的に言えば、2つの確率変数a及びbが与えられると、相互情報(MI)は、それらの依存性を測定し、
Figure 2024520023000021
として定義される。
相互情報の下限を最大化するために、InfoNCEとして知られる自己教師あり学習法が提案されている。すなわち、
Figure 2024520023000022
であり、式中、s(a,b)はスコアリング機能(例えば、2つの表現間の内積)であり、
Figure 2024520023000023
は、陽性のサンプルbと、提案分布から抽出された
Figure 2024520023000024
の陰性のサンプルを含む。ワンホットラベル(eqn(2)の変形)を用いたITC損失の代替的なバージョンは、
Figure 2024520023000025
とすることができる。
Figure 2024520023000026
を最小化することは、InfoNCEの対称バージョンを最大化することと見ることができる。したがって、ITCは、2つのモダリティ(すなわち、I及びT)を画像-テキストペアの異なるビューとみなし、各正のペアについて画像とテキストとの間のMIを最大化するようにユニモーダルエンコーダを訓練する。
MLMは、マスクされた単語トークンとそのマスクされたコンテキスト(すなわち、画像+マスクされたテキスト)との間のMIを最大化するものとして解釈することができる。具体的には、ワンホットラベル(eqn(3)の変形)を用いたMLM損失の代替的なバージョンは、
Figure 2024520023000027
とすることができる。
式中、
Figure 2024520023000028
は、単語トークンyをベクトルにマッピングするルックアップ関数であり、
Figure 2024520023000029
は、全語彙セットであり、
Figure 2024520023000030
は、マスクされたトークンに対応するマルチモーダルエンコーダの最終的な隠れ状態を返す関数である。したがって、MLMは、画像-テキストペアの2つのビューを、(1)ランダムに選択された単語トークン、(2)画像+その単語がマスクされたコンテキスト・テキスト、と考える。
ITCとMLMは両方とも、画像-テキストペアから部分的な情報を取ることによってビューを生成する。モーメンタム蒸留はITCとMLMを向上させ、提案した分布全体から異なるビューを生成する。ITCでは、画像-テキストペアの代替的なビューを、訓練データセット内でセマンティックに類似した画像とテキストを見つけることによって生成することができる。MLMでは、マスクされた単語の代替的なビューを、語彙セット全体から生成することができる。したがって、MoDは、元のビューに対してデータ拡張を実行するものと考えることができる。MoDは、元の画像-テキストのペアには存在しない多様なビューのセットを生成し、これは、モデルの汎化性能を向上させることができる。
例示的なシステムアーキテクチャ及び性能
例示的な実験を実施して、下流のタスクにおけるVLPシステム(例えば、事前訓練された視覚及び学習モデル又はV+Lモデル)の性能を評価した。いくつかの実施形態では、事前訓練されたV+Lモデルは、微調整され、画像-テキスト取り出し、視覚的含意、視覚的質問応答、及び現実の視覚的推論のための自然言語を含む1つ以上の下流タスクに適用することができる。
V+Lモデルは、123.7Mのパラメータを有するBERTと85.8MパラメータのViT-B/16からなる。このモデルは、8つのNVIDIA A100 GPUで512のバッチサイズを使用して、30エポックに対して事前訓練された。AdamWオプティマイザは、0.02の重み減衰で使用された。AdamWオプティマイザのさらなる詳細は、その全体が参照により明示的に組み込まれているoshchilov, Decoupled Weight Decay Regularization, arXiv preprint arXiv:1711.05101, 2017に提供されている。学習率は、最初の1,000回の反復で1e-4までウォームアップされ、コサインスケジュールに従って1e-5まで減衰する。
例えば、事前訓練データは、2つのウェブデータセット(Conceptual CaptionsとSBU Captions)と2つのドメイン内データセット(COCO and Visual Genome)を使用して生成された。ユニークな画像の総数は4.0Mであり、画像-テキストのペアの数は5.1Mである。V+Lモデルが大規模なウェブデータでスケーラブルであることを示すために、よりノイズの多いConceptual 12Mデータセットも含めることができ、画像の総数を14.1M2に増やすことができる。
事前訓練中に、解像度256×256のランダム画像クロップを入力として取り、RandAugmentも適用した。RandAugmentのさらなる詳細は、その全体が参照により本明細書に明示的に組み込まれるCubukらのRandAugment: Practical automated data augmentation with a reduced search space, CVPR Workshops, pages 702-03, 2020に提供される。テキストは色情報を含むことが多いため、色の変更はRandAugmentから除去された。
微調整中に、画像解像度を384×384に増やし、画像パッチの位置符号化が補間された。モーメンタムモデルを更新するためのモーメンタムパラメータは0.995にセットされ、画像-テキスト対照学習に使用されるキューのサイズは65536にセットされる。蒸留重みαは、最初のエポック内で直線的に強化された(ramp up)。
画像-テキスト取り出しは、2つのサブタスク、すなわち、画像からテキストの取り出し(TR)とテキストから画像の取り出し(IR)を含む。V+Lモデルは、Flickr30KとCOCOの各データセットからの訓練サンプルを使用して微調整した後、Flickr30KとCOCOのベンチマークで評価された。Flickr30Kでのゼロショット取り出しのために、COCOで微調整したV+Lモデルが評価された。
微調整中、ITC損失(式(2))とITM損失(式(4))が共に最適化された。ITCは、ユニモーダル特徴の類似度に基づいて画像-テキストスコアリング関数を学習するが、ITMは、画像とテキスト間の細かい粒度の相互作用をモデル化してマッチングスコアを予測する。下流データセットは各画像に対して複数のテキストを含むため、ITCのグランドトゥルースラベルは、キュー内の複数の陽性を考慮するように変更され、各陽性は、1/#陽性のグランドトゥルース確率を持つ。
推論中、特徴類似度スコアsitcが、最初に全ての画像-テキスト対に対してコンピューティングされた。次いで、上位k個の候補が選択され、ランキングのためのITMスコアsitmを計算するために使用された。V+Lモデルの推論速度は、全ての画像-テキストのペアに対してITMスコアをコンピューティングする必要がある方法よりもはるかに高速である。
視覚的含意(SNLI-VE)は、画像とテキストの間の関係が含意、中立、矛盾のいずれであるかを予測するための細かい粒度の視覚的推論タスクである。視覚的含意は、3方向の分類問題と考えることができる。クラス確率は、[CLS]トークンのマルチモーダルエンコーダ表現上の多層パーセプトロン(MLP)を使用して予測できる。
視覚的質問応答(「VQA」)は、画像と質問が与えられと、モデルが応答を予測することを必要とする。VQAを複数応答分類問題として定式化する既存の研究とは異なり、VQAは応答生成問題として組み立てることができる。具体的には、6層のトランスフォーマーデコーダを使用して応答を生成することができる。
図4A~図4Bは、本明細書に記載するいくつかの実施形態による、VLPシステムを使用するためのモデルアーキテクチャの簡略図である。図4Aに示すように、画像質問埋め込みが与えられると、応答を生成するために自己回帰デコーダ450が追加されることを除いて、図2と実質的に同じモデルが視覚的質問応答に使用される。画像エンコーダ420は、画像入力410を画像埋め込みに符号化し、テキストエンコーダ422は、質問入力412を質問埋め込みに符号化する。画像埋め込みは、クロスアテンション入力440を介してマルチモーダルエンコーダ430に渡されて、テキストエンコーダ422からの質問埋め込みを使用してマルチモーダル画像-質問埋め込みを生成する。自己回帰応答デコーダ450は、クロスアテンション入力440を介してマルチモーダル画像質問埋め込みを受信し、シーケンス開始トークン([CLS])460がデコーダの初期入力トークンとして使用される。同様に、シーケンス終了トークン([SEP])がデコーダ出力の最後に付加され、生成の完了を示す。応答デコーダ450は、マルチモーダルエンコーダ430からの事前訓練された重みを使用して初期化され、言語モデリング損失で微調整される。既存の方法との公正な比較のために、応答デコーダ450は、推論中に3,192の候補応答からのみ生成するように制約された。
図4Bに示すように、現実の視覚的推論のための自然言語は、テキストが画像のペアを正確に記載しているかどうかを予測するためにモデルを使用する。自然な拡張は、2つの画像490及び492に対する推論を可能にするマルチモーダルエンコーダ470に対して行うことができる。2つの画像490及び492は、全てのパラメータを共有する2つの画像エンコーダ494及び496に供給して、埋め込みを生成し、マルチモーダルエンコーダ470に供給することができる。テキスト入力475は、マルチモーダルエンコーダ470に入る埋め込みを生成するために、テキストエンコーダ485に供給することもできる。マルチモーダルエンコーダ470の各層は、2つの連続するトランスフォーマブロック480を有するように複製され、各ブロックは、セルフアテンション層、クロスアテンション層、及びフィードフォワード層を含む(図2を参照)。マルチモーダルブロック480は、クロスアテンション層を共有することもできる。各層内の2つのマルチモーダルブロック480は、同じ事前訓練された重みを使用して初期化され、2つのクロスアテンション層は、キー及び値に対して同じ線形投影重みを共有する。
訓練中、2つのマルチモーダルブロック480は、画像ペア490及び492に対する画像埋め込みの2つの異なるセットを受信する。MLP分類器は、「真」又は「偽」を予測するために、[CLS]トークンのマルチモーダルエンコーダ表現で学習することができる。
画像ペア入力のための新しいマルチモーダルエンコーダを準備するために、追加の事前訓練ステップを実行することができる。テキスト割り当て(TA)タスクは、画像とテキストのペアが与えられると、モデルが、テキストを第1の画像、第2の画像のいずれかに割り当てるか、又はいずれにも割り当てないようにする必要があるように設計され得る。これは3方向分類問題と考えることができ、FC層は、[CLS]表現上で割り当てクラスを予測するために使用され得る。このモデルは、4Mの画像を用いて1エポックのみテキストアラインメント(TA)で事前訓練された。
V+Lモデルは、下流のタスク(画像-テキスト対照学習、対照ハード陰性マイニング、及びモーメンタム蒸留を含む)において、表1に示すように評価された。表1は、V+Lモデルの様々なバリエーションを用いた下流タスクの性能を示している。ベースラインの事前訓練タスク(MLM+ITM)と比較して、ITCを追加すると、全てのタスクにわたって事前訓練されたモデルの性能が大幅に改善された。提案したハード陰性マイニングは、より有益な訓練サンプルを見つけることによりITMを改善した。さらに、モーメンタム蒸留を追加すると、ITC、MLM、及び全ての下流タスク(画像からテキストの取り出し(又はTR)、テキストから画像の取り出し(又はIR)、視覚的含意(又はVE)、視覚的質問応答(又はVQA)、及び現実のための視覚的推論のための自然言語(又はNLVR))の両方の学習が改善された。V+Lモデルは、よりノイズの多いウェブデータを効果的に活用して、14Mの事前訓練された画像などの事前訓練の性能を向上させることができる。
Figure 2024520023000031
表1では、R@1、R@5及びR@10の平均が、テキストの取り出し(TR)及び画像の取り出し(IR)について報告された。また、表1では、ITCは、画像-テキスト対照学習を指し、MLMは、マスクされた言語モデリングを指し、ITMhardは、対照ハード陰性マイニングを用いた画像-テキストマッチングを指す。
MoD:モーメンタム蒸留表2と表3は、それぞれ微調整とゼロショットの画像-テキスト取り出しの結果を報告している。V+Lモデルは、最先端の性能を達成し、桁違いに大きなデータセットで訓練された他の方法よりも優れている。訓練画像の数が4Mから14Mに増加したときのV+Lモデルのかなりの改善を考慮すると、V+Lモデルは、より大規模なウェブ画像-テキストペアで訓練することができる。
Figure 2024520023000032
Figure 2024520023000033
表4は、他のV+L理解タスクに関する既存の方法との比較を報告している。4Mの事前訓練画像により、V+Lモデルは最先端の性能を達成した。14Mの事前訓練画像では、V+Lモデルは、追加のオブジェクトタグや敵対的なデータ拡張を必要とする方法を含む既存の方法よりも大幅に優れていた。VILLAと比較して、V+Lモデルは、VQAテスト-stdで2.47%、NLVR2テスト-Pで3.84%、SNLI-VEテストで1.88%の絶対的な改善を達成した。V+Lモデルは検出器を必要とせず、低解像度の画像を必要とするため、既存の方法と比較してはるかに高速な推論速度(UNITER又はVILLAよりも10倍以上高速)も享受する。
Figure 2024520023000034
視覚的なグラウンディングは、特定のテキスト説明に対応する画像内の領域を特定することを目的とする。V+Lモデルは、その注意を探ることによって、バウンディングボックスのアノテーションについて訓練されることなく、視覚的なグラウンディングを達成することが示された。実験は、広く使用されているRefCOCO+データセットで実行された。事前訓練されたモデルは、画像-テキスト監視のみを用いて、RefCOCO+の訓練セットで微調整された。画像-テキスト取り出しに対して同様の微調整戦略に従った。表5が、この結果を報告する。
Figure 2024520023000035
表6では、画像-テキスト取り出しに対する様々なデザイン選択の影響が研究された。対照類似度スコアsitcは、推論中に上位k個の候補をフィルタリングするために使用されたため、kは、その効果を報告するために変化させることができる。一般に、sitmによって獲得される最終的なランキング結果は、kの変化に敏感ではない。その理由は、sitcだけを使用することで、すでに優れた再現率を達成できるため、上位k個の候補には正しいものが含まれている可能性が高いからである。また、提案したハード陰性マイニングが取り出し性能を向上させることができることが検証された。
Figure 2024520023000036
表7では、テキスト割り当て(TA)事前訓練とパラメータ共有の効果がNLVR2に関して研究された。3つの共有戦略が検討された。すなわち、(1)2つの連続したマルチモーダルブロックは全てのパラメータを共有すること、(2)クロスアテンション(CA)層のみが共有されること、(3)共有されないことである。TAなしでは、ブロック全体を共有することで性能が向上する。画像ペア入力に対してモデルを事前訓練するTAにより、クロスアテンション層を共有することで最高の性能がもたらされる。
Figure 2024520023000037
発明の態様、実施形態、実装、又は用途を例示するこの説明及び添付の図面は、限定的なものと解釈されるべきではない。様々な機械的、組成的、構造的、電気的、及び動作上の変更は、この説明及び特許請求の範囲の精神及び範囲から逸脱することなく行われてもよい。いくつかの例では、本開示の実施形態を不明瞭にしないために、周知の回路、構造、又は技法が詳細に示されていないか、又は記載されていない。2つ以上の図の類似の数字は、同じ又は同様の要素を表す。
この説明では、本開示と矛盾しないいくつかの実施形態を記載する特定の詳細が明記されている。実施形態の完全な理解を提供するために、多数の詳細が明記されている。いくつかの実施形態は、これらの特定の詳細の一部又は全部がなくても実施され得ると当業者に明らかであろう。本明細書に開示される特定の実施形態は、例示的であるが、限定的ではないことを意味する。当業者は、本明細書に具体的に記載されていないが、本開示の範囲及び精神内にある他の要素を認識してもよい。追加的に、不必要な繰り返しを回避するために、1つの実施形態に関連して示され、記載される1つ以上の特徴は、他の方法で具体的に記載されないか、又は1つ以上の特徴が一実施形態を非機能的にする場合を除いて、他の実施形態に組み込まれてもよい。
例示的な実施形態が示され記載されたが、広範囲の修正、変更及び置換が、前述の開示において企図され、いくつかの例では、実施形態のいくつかの特徴を、他の特徴の対応する使用なしに採用してもよい。当業者であれば、多くの変形、代替、及び修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、本明細書に開示された実施形態の範囲と一致する方式で広く解釈されることが適切である。

Claims (15)

  1. 画像エンコーダ、テキストエンコーダ、及びマルチモーダルエンコーダを含む視覚及び言語学習(V+L)モデルを訓練するための方法であって、
    データインターフェースを介して、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットを受信することであって、前記複数の画像サンプルのうちの少なくとも1つの画像サンプルは、前記複数のテキストサンプルのうちの少なくとも1つのテキストサンプルに対応する、ことと、
    画像エンコーダによって、前記複数の画像サンプルを複数の符号化された画像サンプルに符号化し、テキストエンコーダによって、前記複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化することと、
    前記複数の符号化された画像サンプル及び前記複数の符号化されたテキストサンプルに基づいて、第1の損失目標をコンピューティングすることと、
    マルチモーダルエンコーダによって、前記複数の符号化された画像サンプルの第1のサブセット及び前記複数の符号化されたテキストサンプルの第2のサブセットを、複数の符号化された画像-テキストサンプルに符号化することと、
    前記複数の符号化された画像-テキストサンプルに基づいて、第2の損失目標をコンピューティングすることと、
    前記第1の損失目標及び前記第2の損失目標に少なくとも部分的に基づいて前記V+Lモデルを更新することと、を含む、方法。
  2. 前記第1の損失目標は、コンピューティングされソフトマックス正規化された画像からテキストへの類似度とラベル付きグラウンドトゥルースの画像からテキストへの類似度との間のクロスエントロピー、及びコンピューティングされソフトマックス正規化されたテキストから画像への類似度とラベル付きグラウンドトゥルースのテキストから画像への類似度との間のクロスエントロピーの平均期待和である画像-テキスト対照(ITC)損失目標を含む、請求項1に記載の方法。
  3. 前記第2の損失目標は、画像-テキストペアの予測された2クラス確率とグラウンドトゥルースの1ホット2クラス可能性との間のクロスエントロピーとしてコンピューティングされる画像-テキストマッチング(ITM)損失目標と、前記符号化された画像-テキストサンプル内の1つ以上のマスクされたトークンの予測された可能性と、前記符号化された画像-テキストサンプル内の前記1つ以上のマスクされたトークンのグラウンドトゥルースのアイデンティティとの間のクロスエントロピーとしてコンピューティングされるMLM損失目標とを含む、請求項1に記載の方法。
  4. 前記V+Lモデルを更新することは、
    前記第1の損失目標に少なくとも部分的に基づいて、前記画像エンコーダ及び前記テキストエンコーダを更新することと、
    前記第2の損失目標に少なくとも部分的に基づいて、前記マルチモーダルエンコーダを更新することと、を含む、請求項1に記載の方法。
  5. モーメンタム蒸留(MoD)を使用して、モーメンタムモデルを形成することと、
    前記モーメンタムモデルを使用して、複数のモデル化された画像サンプル及び複数のモデル化されたテキストサンプルを生成することと、
    前記複数のモデル化された画像サンプルを前記複数の画像サンプルに含めることと、
    前記複数のモデル化されたテキストサンプルを前記複数のテキストサンプルに含めることと、をさらに含む、請求項1に記載の方法。
  6. 前記画像エンコーダ、前記テキストエンコーダ、及び前記マルチモーダルエンコーダは、各々、トランスフォーマを含む、請求項1に記載の方法。
  7. 前記符号化された画像-テキストサンプルの対照類似度を通じて陰性の画像-テキストペアをマイニングすることに少なくとも部分的に基づいて、前記第1のサブセット及び前記第2のサブセットを選択することをさらに含む、請求項1に記載の方法。
  8. 画像-テキスト取り出しタスク、画像からテキストの取り出し(TR)タスク、テキストから画像の取り出し(IR)タスク、視覚的含意(VE)タスク、視覚的質問応答(VQA)タスク、及び現実のための視覚的推論のための自然言語(NLVR)タスクからなる群から選択されるタスクに対して前記V+Lモデルを微調整することをさらに含む、請求項1に記載の方法。
  9. V+Lモデルを訓練するためのシステムであって、
    非一時的なメモリと、
    前記非一時的なメモリに結合され、かつ前記非一時的なメモリから命令を読み出して、前記システムに動作を実行させるように構成された1つ以上のプロセッサであって、前記動作は、
    データインターフェースを介して、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットを受信することであって、前記複数の画像サンプルのうちの少なくとも1つの画像サンプルは、前記複数のテキストサンプルのうちの少なくとも1つのテキストサンプルに対応する、ことと、
    画像エンコーダによって、前記複数の画像サンプルを複数の符号化された画像サンプルに符号化し、テキストエンコーダによって、前記複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化することと、
    前記複数の符号化された画像サンプル及び前記複数の符号化されたテキストサンプルに基づいて、第1の損失目標をコンピューティングすることと、
    マルチモーダルエンコーダによって、前記複数の符号化された画像サンプルの第1のサブセット及び前記複数の符号化されたテキストサンプルの第2のサブセットを、複数の符号化された画像-テキストサンプルに符号化することと、
    前記複数の符号化された画像-テキストサンプルに基づいて、第2の損失目標をコンピューティングすることと、
    前記第1の損失目標及び前記第2の損失目標に少なくとも部分的に基づいて、前記画像エンコーダ、前記テキストエンコーダ、及び前記マルチモーダルエンコーダの前記V+Lモデルを更新することと、を含む、システム。
  10. 前記V+Lモデルを更新することは、前記第1の損失目標に少なくとも部分的に基づいて、前記画像エンコーダ及び前記テキストエンコーダを更新することと、前記第2の損失目標に少なくとも部分的に基づいて、前記マルチモーダルエンコーダを更新することと、を含む、請求項9に記載のシステム。
  11. 前記動作は、
    モーメンタム蒸留(MoD)を使用して、モーメンタムモデルを形成することと、
    前記モーメンタムモデルを使用して、複数のモデル化された画像サンプル及び複数のモデル化されたテキストサンプルを生成することと、
    前記複数のモデル化された画像サンプルを前記複数の画像サンプルに含めることと、
    前記複数のモデル化されたテキストサンプルを前記複数のテキストサンプルに含めることと、をさらに含む、請求項9に記載のシステム。
  12. 前記画像エンコーダ、前記テキストエンコーダ、及び前記マルチモーダルエンコーダは、各々、トランスフォーマを含む、請求項9に記載のシステム。
  13. 前記動作は、前記符号化された画像-テキストサンプルの対照類似度を通じて陰性の画像-テキストペアをマイニングすることに少なくとも部分的に基づいて、前記第1のサブセット及び前記第2のサブセットを選択することをさらに含む、請求項9に記載のシステム。
  14. 前記動作は、画像-テキスト取り出しタスク、画像からテキストの取り出し(TR)タスク、テキストから画像の取り出し(IR)タスク、視覚的含意(VE)タスク、視覚的質問応答(VQA)タスク、及び現実のための視覚的推論のための自然言語(NLVR)タスクからなる群から選択されるタスクに対して前記V+Lモデルを微調整することをさらに含む、請求項9に記載のシステム。
  15. システムに動作を実行させるために実行可能な機械可読命令を記憶した非一時的な機械可読媒体であって、前記動作は、
    データインターフェースを介して、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットを受信することであって、前記複数の画像サンプルのうちの少なくとも1つの画像サンプルは、前記複数のテキストサンプルのうちの少なくとも1つのテキストサンプルに対応する、ことと、
    画像エンコーダによって、前記複数の画像サンプルを複数の符号化された画像サンプルに符号化し、テキストエンコーダによって、前記複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化することと、
    前記複数の符号化された画像サンプル及び前記複数の符号化されたテキストサンプルに基づいて、第1の損失目標をコンピューティングすることと、
    マルチモーダルエンコーダによって、前記複数の符号化された画像サンプルの第1のサブセット及び前記複数の符号化されたテキストサンプルの第2のサブセットを、複数の符号化された画像-テキストサンプルに符号化することと、
    前記複数の符号化された画像-テキストサンプルに基づいて、第2の損失目標をコンピューティングすることと、
    前記第1の損失目標及び前記第2の損失目標に少なくとも部分的に基づいて、前記画像エンコーダ、前記テキストエンコーダ、及び前記マルチモーダルエンコーダを更新することと、を含む、非一時的な機械可読媒体。
JP2023572887A 2021-05-26 2022-01-26 視覚及び言語表現学習のためのシステム及び方法 Pending JP2024520023A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163193286P 2021-05-26 2021-05-26
US63/193,286 2021-05-26
US17/370,524 US20220391755A1 (en) 2021-05-26 2021-07-08 Systems and methods for vision-and-language representation learning
US17/370,524 2021-07-08
PCT/US2022/013889 WO2022250745A1 (en) 2021-05-26 2022-01-26 Systems and methods for vision-and-language representation learning

Publications (1)

Publication Number Publication Date
JP2024520023A true JP2024520023A (ja) 2024-05-21

Family

ID=84230183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023572887A Pending JP2024520023A (ja) 2021-05-26 2022-01-26 視覚及び言語表現学習のためのシステム及び方法

Country Status (4)

Country Link
US (1) US20220391755A1 (ja)
EP (1) EP4348506A1 (ja)
JP (1) JP2024520023A (ja)
WO (1) WO2022250745A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023212340A1 (en) * 2022-04-28 2023-11-02 Google Llc Contrastive captioning neural networks
CN115952852B (zh) * 2022-12-20 2024-03-12 北京百度网讯科技有限公司 模型训练方法、文本检索方法、装置、电子设备和介质
CN115861995B (zh) * 2023-02-08 2023-05-23 山东海量信息技术研究院 一种视觉问答方法、装置及电子设备和存储介质
CN116049459B (zh) * 2023-03-30 2023-07-14 浪潮电子信息产业股份有限公司 跨模态互检索的方法、装置、服务器及存储介质
CN116993976B (zh) * 2023-07-17 2024-06-14 中国科学院自动化研究所 引用图像分割模型训练方法及引用图像分割方法
CN116721221B (zh) * 2023-08-08 2024-01-12 浪潮电子信息产业股份有限公司 基于多模态的三维内容生成方法、装置、设备及存储介质
CN117093692A (zh) * 2023-08-23 2023-11-21 广东技术师范大学 一种基于深度融合的多粒度图像-文本匹配方法及系统
CN116862000B (zh) * 2023-09-01 2024-01-23 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备
CN117033609B (zh) * 2023-10-09 2024-02-02 腾讯科技(深圳)有限公司 文本视觉问答方法、装置、计算机设备和存储介质
CN117151223B (zh) * 2023-10-31 2024-01-23 北京新广视通科技集团有限责任公司 一种基于可学习提示的多模态实体识别和关系抽取方法
CN117198514B (zh) * 2023-11-08 2024-01-30 中国医学科学院北京协和医院 一种基于clip模型的易损斑块识别方法及系统
CN117272237B (zh) * 2023-11-23 2024-01-19 北京知呱呱科技有限公司 基于多模态融合的专利附图多语言图解生成方法及系统
CN117909535B (zh) * 2024-03-15 2024-05-31 中国科学技术大学 基于视觉语言模型的组合理解方法、系统、设备与介质

Also Published As

Publication number Publication date
US20220391755A1 (en) 2022-12-08
WO2022250745A1 (en) 2022-12-01
EP4348506A1 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
JP2024520023A (ja) 視覚及び言語表現学習のためのシステム及び方法
US11562147B2 (en) Unified vision and dialogue transformer with BERT
US11620515B2 (en) Multi-task knowledge distillation for language model
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
Kafle et al. Dvqa: Understanding data visualizations via question answering
Alom et al. The history began from alexnet: A comprehensive survey on deep learning approaches
See et al. Compression of neural machine translation models via pruning
Joshi et al. On representation knowledge distillation for graph neural networks
Nguyen et al. Efficient attention mechanism for visual dialog that can handle all the interactions between multiple inputs
Le A tutorial on deep learning part 1: Nonlinear classifiers and the backpropagation algorithm
Abbasi et al. Modeling teacher-student techniques in deep neural networks for knowledge distillation
US20210375280A1 (en) Systems and methods for response selection in multi-party conversations with dynamic topic tracking
CN113656570A (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
Shamsaldin et al. A study of the convolutional neural networks applications
US11853706B2 (en) Generative language model for few-shot aspect-based sentiment analysis
CN117529755A (zh) 图像识别系统中的迁移学习
Gómez et al. Multimodal grid features and cell pointers for scene text visual question answering
Huang et al. Vqabq: Visual question answering by basic questions
Sokkhey et al. Development and optimization of deep belief networks applied for academic performance prediction with larger datasets
Ferlitsch Deep Learning Patterns and Practices
Belharbi et al. Deep neural networks regularization for structured output prediction
CN110704668A (zh) 基于网格的协同注意力vqa方法和装置
Alharbi et al. Learning interpretation with explainable knowledge distillation
Zelenina et al. Convolutional neural networks in the task of image classification
Sharma et al. Visual question answering model based on the fusion of multimodal features by a two-way co-attention mechanism

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240123