JP7195365B2

JP7195365B2 - 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法

Info

Publication number: JP7195365B2
Application number: JP2021064797A
Authority: JP
Inventors: ラルス－ラロンドダイアン; パレスジュリエン; ブロンサリイルデイズメー
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-04-07
Filing date: 2021-04-06
Publication date: 2022-12-23
Anticipated expiration: 2041-04-06
Also published as: KR20210124901A; US11263753B2; JP2021166046A; US20210312628A1; KR102458463B1

Description

本開示は、画像条件付きマスク言語モデリング(Image-conditioned Masked Language Modeling、IMLM)を用いて、画像認識のための畳み込みニューラルネットワーク(Convolutional Neural Network)を訓練するための方法に関し、具体的には、マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法に関する。

コンピュータビジョン(computer vision)のディープラーニング(deep learning)アプローチでは、大規模な手動で注釈付けされたデータセットが活用される。これらのデータソースは、関心のある特定タスク等、例えば、画像分類、物体検出(object detection)又は場面細分化(scene segmentation)に関する最新モデルを訓練することができるようにする。また、大規模な手動で注釈付けされたデータセットは、大容量のニューラルネットワークが多数のタスクを通じて伝達可能な表現などを学習できるようにする。

機械学習パイプライン等、例えば、自動運転車や自動パーソナルアシスタントには、重要な作業などを命令することになるので、より正確且つ強力なモデルを構築する必要がある。

このような重要な作業などへの転換は、ニューラルネットワークベースのアーキテクチャの計算の複雑さを増加させると同時に、より有能なモデルの訓練を必要とする。しかしながら、入力画像に関して細分化した分析を遂行すべきタスクに対し、構造化した注釈付けされたデータを収集することは困難になり、費用の増加も招くことになる。

より具体的には、そのようなデータが不十分なドメインに対して注釈付けされたデータを収集したり、視覚的な場面等の構造に関する詳細な理解、又は、オブジェクトタイプ及び属性に関する細分化した分析が必要なタスクに対して注釈付けされたデータを収集したりすることは困難になり、費用の増加も招くことになる。

一つの特定の例は、感知器が認識すべき全ての個別オブジェクト及び概念の境界ボックス(bounding box)を必要とする物体検出タスクに関する注釈等である。

注釈付けされる複雑な場面を図２に例示する。図２に示すように、画像３００は家又は大邸宅３３０を含む。家又は大邸宅３３０は、庭園領域(図示せず)を囲む複数の壁又は垣根３４０を有する。画像３００は、複数の常緑樹３２０及び落葉樹３２１をさらに含む。図２に示すように、画像３００は複数の雲３１０を含む。

図２の画像３００に関する適切な注釈を生成するために、図３に示す複数の境界ボックス４１０が検知される多様なオブジェクトの周囲に具現される。図３は、微細でないスケールの境界ボックス４１０の使用を例示する。窓やドアや煙突などのように精密な検知が要求されるものである場合、図３に示すように、より多くの数の境界ボックス４１０を使用するべきである。これらの境界ボックスの使用は、精密なモデルを訓練するための強い教師(strong supervision)を要求する。

また、個別視覚的タスクに関する注釈を収集する費用を低減するために、より弱い教師信号(weak supervision signal)に依存するモデルを用いて、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。

さらに、個別視覚的タスクに関する注釈を収集する費用を低減するために、ソーシャルメディアプラットフォーム(social media platform)のように、豊富であるが過度のノイズのある公開されている知識ベースを使用し、弱い教師信号に依存するモデルを用いて、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。

韓国登録特許第１０－１８８２７４３号公報

本開示は、画像条件付きマスク言語モデリングを用いて、画像認識のための畳み込みニューラルネットワークを訓練するための方法を提供する。

本開示の一実施例によれば、シャム(Siamese)アーキテクチャを用いて、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、シャムアーキテクチャの第１のブランチ(branch)は視覚的表現を生成する畳み込みニューラルネットワークであり、シャムアーキテクチャの第２のブランチはテキスト表現を生成する言語モデルニューラルネットワークであり、前記方法は、（ａ）言語モデルニューラルネットワークのマスクされたトークンを使用し、畳み込みニューラルネットワークにより生成された画像の視覚的表現を使用して、画像条件付きマスク言語モデリングタスクを解決するステップを含み、前記画像条件付きマスク言語モデリングタスクを解決するステップは、（ａ１）画像条件付きマスク言語モデリングタスクの予測損失を計算するステップ、及び、（ａ２）予測損失を畳み込みニューラルネットワークに逆伝播(back propagate)して、畳み込みニューラルネットワークを訓練するステップを含む。

本開示の他の一実施例によれば、マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、（ａ）畳み込みニューラルネットワークに画像を入力するステップ、（ｂ）畳み込みニューラルネットワークからＨ×Ｗ×Ｃ次元画像埋め込みテンソルを出力するステップ、ここで、Ｈ及びＷはＣ次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す、（ｃ）トークンのリストを生成するためにキャプション(caption)をトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ、（ｄ）トークンのリスト内のトークンのうちの一つをマスクするステップ、（ｅ）Ｈ×Ｗ×Ｃ次元画像埋め込みテンソルの視覚的特徴ベクトルを用いてマスクされたトークンを予測するステップ、（ｆ）マスクされたトークンと関連した予測損失を決定するステップ、及び、（ｇ）予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。

本開示のまた他の一実施例によれば、マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、（ａ）畳み込みニューラルネットワークに画像を入力するステップ、（ｂ）畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ、（ｃ）トークンのリストを生成するためにキャプションをトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ、（ｄ）マスクされるトークンのリスト内のトークンのうちの一つをランダムに選択するステップ、ここで、選択されたトークンは正解(ground truth)として見なされる、（ｅ）言語モデルニューラルネットワークを用いてトークンの潜在表現を計算するステップ、（ｆ）マスクされたトークンの潜在表現を質疑ベクトルとして使用し、視覚的埋め込みテンソルで視覚的埋め込みベクトルを注意深くプーリング(pooling)するステップ、（ｇ）プーリングした視覚的埋め込みベクトルをトークンにマッピングすることにより、マスクされたトークンを予測するステップ、（ｈ）マスクされたトークンと関連した予測損失を決定するステップ、及び、（ｉ）予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。

添付の図面は、ただ多様な実施例を例示するためのもので、限定するものと解釈されるものではない。
訓練方法及び再識別方法に関するアーキテクチャの例を示す。注釈付けされる複雑な場面の例を示す。図２に対して生成された境界ボックスの注釈の例を示す。ＢＥＲＴ(Bidirectional Encoder Representations from Transformers)モデルにおいて解決済みマスク言語モデリングタスクの完全なチェーンのブロックダイアグラムを示す。画像認識のための畳み込みニューラルネットワークを訓練するのに用いられる画像条件付きマスク言語モデリングの完全なチェーンのブロックダイアグラムを示す。線形階層を用いたＩｍａｇｅＮｅｔＴｏｐ－１分類の正確度を示す表である。ＲｏｔＮｅによって学習された画像表現、及び、画像検索タスクに関する画像条件付きマスク言語モデリングの比較を示す表である。

後術する方法及び／又はプロセスは、サーバ１００により、図１に示すようなアーキテクチャ内で具現できる。

以下の説明において、視覚的埋め込み(visual embedding)及び視覚的表現は、これらの公式が同一であるので、相互交換的に用いられる。

一般に、サーバ１００は、データ交換のために、インターネットのような拡張されたネットワーク２００に連結される。サーバ１００は、データプロセッサ１１０及びハードディスクのようなメモリ１２０を含む。

前述したように、ソーシャルメディアプラットフォームのように、豊富であるが過度のノイズのある公開された利用可能な知識ベースを使用して、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。

このようなプラットフォームに毎日アップロードされるデータの量を考慮するとき、使用者らにより直接注釈付けされたデータから利益を得ることは、モデルの性能を非常に高めることができる。より具体的には、数十億個のソーシャルメディア画像のハッシュタグ(hashtag)を予測することが、ＩｍａｇｅＮｅｔのオブジェクト分類タスクにおける大きい向上につながることが分かる。また、インターネット上の料理ビデオから大規模な映像データセットを収集し、自動にパース(parsing)した注釈を含むことにより、ＶｉｄｅｏＢＥＲＴモデルを訓練できることが分かる。

また、前述したように、個別視覚的タスクに関する注釈を収集する費用を低減するために、より弱い教師信号に依存するモデルを用いて、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。

より具体的には、無料で利用可能な画像の大規模なセットに対するプロキシタスク(proxy task)を解決することで、画像埋め込みモデルを学習するために、コンピュータビジョンにおいて教師なし学習(unsupervised learning)が活用された。埋め込みモデルが学習される場合、これはターゲットタスクのリストを最小限の努力で解決するのに使用され得る。

例えば、教師なしプロキシタスクは、オートエンコーダ(auto-encoder)を用いてデータの潜在空間を学習できるのに対し、ターゲットタスクは、教師(supervised)オブジェクト(画像)分類、検知又は細分化を含むことができる。大容量のオートエンコーダが学習される場合、そのエンコーダネットワークは、（ｉ）各々のターゲットタスクに関する別途のモデルを微細調整する初期状態、或いは、（ｉｉ）表現学習の負担なしにターゲットタスクを効率的に解決できる特徴抽出器として使用され得る。

しかしながら、どのような場合でも、エンコーダネットワークにより学習された表現の性能は、プロキシタスクの目的に厳しく依存する。よって、入力ドメインの主要表現をキャプチャーするプロキシタスクを公式化することが要求される。

自己教師あり学習(self-supervised learning)を活用する他のドメイン－特定プロキシタスクでは、入力空間の構造に関する暗示的事前知識を学習するために、“プリテキスト(pretext)”タスクが解決される。前述したように、事前知識(prior knowledge)はターゲットタスクに活用できる。コンピュータビジョンアプリケーション等の場合、グレースケール画像の色相化、画像回転の予測、若しくは画像埋め込みのクラスタリング(clustering)は、ダウンストリームビジョン問題に関して有用な事前知識を提供する。同様に、次の文章の予測及びマスク言語モデリングタスクを解決することは、言語モデルが自然言語処理ターゲットタスクの多様なセットに対して実質的によく遂行できるようにする。

教師なし表現学習が有益であり得るが、転移学習では教師あり学習が依然として数段よく遂行される。また、教師なし表現学習は、注釈の不足を補完するためにもっと大規模なデータセットを必要とする。

したがって、例えば、半教師あり学習(semi-supervised learning)下において、両方のパラダイムで利益を得る代替公式を探すことが望ましい。

画像／テキスト記述ペア(image/textual description pair)は、ソーシャルメディアプラットフォームにおいて豊富で盛んであることに留意する。

詳細に後述するように、これらの画像／テキスト記述ペアは、適切な視覚的埋め込みを訓練するのに活用できる。より具体的には、後述するように、画像条件付きマスク言語モデリングタスクと称するプロキシタスクは、言語モデルにより把握されたテキスト付加情報を用いて、画像に現れる視覚的埋め込みモデルオブジェクト及び概念を学習させるのに活用される。

例えば、視覚的埋め込みモデルの訓練は、図３に示す境界注釈を、“Ｉｔｉｓｃｌｏｕｄｙ”、“Ｔｈｅｈｏｕｓｅｉｓｏｌｄ”、“Ｔｈｅｒｅｉｓａｂｅａｕｔｉｆｕｌｃｈａｔｅａｕａｍｏｎｇｔｈｅｔｒｅｅｓ”、“Ｔｈｅｔｒｅｅｓｏｎｔｈｅｌｅｆｔａｒｅｅｖｅｒｇｒｅｅｎ”、“ＴｈｅｌｏｎｅｍａｐｌｅｔｒｅｅｉｓｐａｎｔｅｄｔｏｔｈｅＥａｓｔｏｆｔｈｅｈｏｕｓｅ”、又は、“Ｔｈｅｃｈａｔｅａｕｈａｓａｗａｌｌｅｄｇａｒｄｅｎ”のような不完全なテキスト記述に代替することにより実現される。

画像条件付きマスク言語モデリングを活用する際に、互いに異なるモダリティ(modalities)で作動する２種類のモジュール、すなわち、事前訓練された言語モデル及び視覚的認識モデルが使用される。これらのモジュールを使用すれば、視覚的場面の理解のために自然言語の意味論的構造が活用される。

例えば、画像キャプションペアからなるデータセットが付与される場合、画像条件付きマスク言語モデリングは、データセットのキャプションに関するマスク言語モデリングタスクを解決する。しかしながら、言語事前知識及びデータセット偏向に基づいてマスクされた単語を予測する代わりに、画像条件付きマスク言語モデリングは、キャプションと関連した画像を見ることにより予測する。

より具体的には、画像キャプションペアが付与される場合、キャプションの単語がマスクされ、画像条件付きマスク言語モデリングは、画像の表現を用いてマスクされたラベル(label)を予測しようと試みる。

前述したように、多様なビジョンタスクを通じて用いられる効率的且つ伝達可能な表現を学習するように視覚的埋め込みモデルを訓練するために、画像条件付きマスク言語モデリングベースプロキシタスクが活用される。画像条件付きマスク言語モデリングにおいて、マスク言語モデリングタスクは視覚的情報を用いて解決され、これに関する詳細は後述する。

画像条件付きマスク言語モデリングをもっとよく理解するために、マスク言語モデリングが自然言語表現にどのように適用されるか簡略に説明する。

マスク言語モデリングは、大規模なテキストコーパス(text corpora)に対して言語モデルを事前訓練するための自己教師ありプロキシタスクである。このような類型の事前訓練方式は、言語モデルが効率的な言語事前知識を学習できるようにするので、言語モデルを単純に微細調整するだけでも、広範囲な自然言語処理ターゲットタスクで最新技術に比べて大福な改善を達成できる。

このような事前訓練タスクにおいて、（ｉ）単語のシーケンスがトークン化し、（ｉｉ）トークンのランダムサブセットがマスクされたり、他のトークンに代替されたり、そのまま維持されたりするように選択され、（ｉｉｉ）全てのトークンは言語モデル(双方向トランスフォーマエンコーダモデル)に対する入力として付与され、（ｉｖ）言語モデルは(トークンが変更された場合、トークンがマスク又は代替される前)選択されたトークンの正解ラベルを正しく予測するように訓練される。図４は、このような事前訓練タスクを遂行するためのアーキテクチャを示す。

図４に示すように、“ＴＨＥＲＥＩＳＡＢＥＡＵＴＩＦＵＬＣＨＡＴＥＡＵＡＭＯＮＧＴＨＥＴＲＥＥＳ”を示すトークンのセットが(ここで、ＣＨＡＴＥＡＵに対するトークンがマスクされる)、トランスフォーマエンコーダ５１０に入力されて、マスクされたトークン５２０のコンテキスト化(contextualized)した表現を生成する。マスクされたトークン５２０のコンテキスト化した表現は、ＢＥＲＴ(Delvin et al. “Bert: Pre-training of deep bidirectional transformers for language understanding”に記載される)のようなコンテキストフィルタ(context filter)５３０に入力されて単語予測５４０を生成する。

図４を参照して自然言語表現に適用されるマスク言語モデリングを説明し、画像条件付きマスク言語モデリングについて詳細に記述する。

事前訓練タスクは、画像キャプションペアが含まれたデータセットを活用する：

ここで、Ｉ_ｉは画像であり、

は場面Ｉ_ｉのｍ_ｉキャプションのセットである。

事前訓練プロセスは、二つのニューラルネットワークモジュール、すなわち、Ｆ－ＣＮＮ(fully-convolutional neural network)(図５の６６０)ベース画像埋め込みモデルΦ_θＣＮＮ( )、及び、事前訓練された言語モデル(ＬＭ)Ψ_θＬＭ( )であり、ここで、θ_ＣＮＮ及びθ_ＬＭは各々Ｆ－ＣＮＮ及びＬＭのパラメーターである。

画像埋め込みモデルΦ_θＣＮＮ( )は、ＲＧＢ画像(Ｉ_ｉ)(図５の３００)を入力とし、Ｈ×Ｗ×Ｃ次元画像埋め込みテンソル(図５の６７０)を出力し、すなわち、Φ_θＣＮＮ(Ｉ)∈Ｒ^{Ｈ×Ｗ×Ｃ}であり、ここで、Ｈ及びＷはＣ次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す。

一方、事前訓練された言語モデル(ＬＭ)Ψ_θＬＭ( )(図５の６１０)は、キャプションＣ_ｉ,ｊ(図５のＴＨＥＲＥＩＳＡＢＥＡＵＴＩＦＵＬ［ＭＡＳＫ］ＡＭＯＮＧＴＨＥＴＲＥＥＳ、ここで、マスクされたトークンは“ＣＨＡＴＥＡＵ”である)をトークン化することにより獲得されたトークンのリスト[ｔ_１，... ，ｔ_Ｔ]^ｉ,ｊを入力として受信し、トークン[Ψ_θＬＭ(ｔ_１) ，... ，Ψ_θＬＭ(ｔ_Ｔ)]^ｉ,ｊ(図５の６２０)のＤ次元コンテキスト化した表現を出力し、ここで、Ψ_θＬＭ(ｔ_ｔ)∈Ｒ^Ｄである。

画像条件付きマスク言語モデリングにおいて、画像Ｉ_ｉに対して注釈付けされる各々のキャプション

は、画像Ｉ_ｉに示す少なくとも一つの特定動作又はオブジェクトを記述する。換言すれば、キャプションＣ_ｉ,ｊには、画像Ｉ_ｉで視覚的対応を持つ少なくとも一つのトークンがあると仮定し得る。続いて、トークンのうちの一つがマスクされ、Ｉ_ｉから抽出された視覚的特徴Φ_θＣＮＮ(Ｉ_ｉ)を使用して、トークンのラベルを予測しようと試みることができる。このような方式により、トークン予測損失を視覚的埋め込みモデルΦ_θＣＮＮ( )に逆伝播することにより、パラメーターθ_ＣＮＮが調整できる。

より具体的には、画像キャプションペア(Ｉ_ｉ,Ｃ_ｉ,ｊ)が付与される場合、画像条件付きマスク言語モデリングの学習問題は、次の通り定義される。最初は２つのモダリティの入力表現が抽出される。キャプションＣ_ｉ,ｊは[ｔ_１，...，ｔ_Ｔ]^ｉ,ｊにトークン化する。トークンのうちの一つはランダムに選択されるｔ_ｍ∈[ｔ_１，...，ｔ_Ｔ]^ｉ,ｊ。

選択されたトークンｙ_ｔｍの識別(すなわち、トークン語彙から選択されたトークンの索引)は、正解として見なされる。続いて、ｔ_ｍは“[マスク]”に代替される。トークンの潜在表現[Ψ_θＬＭ(ｔ_１)，...，Ψ_θＬＭ(ｔ_Ｔ)]^ｉ,ｊは言語モデルにより計算され、ここで、Ψ_θＬＭ(ｔ_ｔ)∈Ｒ^Ｄである。

並列的に、画像の視覚的埋め込みテンソルΦ_θＣＮＮ(Ｉ)∈Ｒ^{Ｈ×Ｗ×Ｃ}は、Ｆ－ＣＮＮ(図５の６６０)により計算される。

一実施例において、マスクされたトークンの潜在表現Ψ_θＬＭ(ｔ_ｍ)は、視覚的埋め込みテンソルΦ_θＣＮＮ(Ｉ_ｉ)を注意深くプーリングするための質疑ベクトルとして使用できる。

このようなプロセスは、視覚的埋め込みベクトルΦ_θＣＮＮ(Ｉ_ｉ)のグリッドに対する空間注意（アテンション）メカニズム(spatial attention mechanism)であり、ここで、注意点数はマスクされたトークンΨ_θＬＭ(ｔ_ｍ)の潜在表現によって条件付きされ、その詳細は後述する。最後に、注意モジュール(図５の６５０)によりプーリングされた視覚的埋め込みベクトルがトークン語彙にマッピングされ、マスクされたトークンのラベルを予測する

前記プロセスは、テキストデータから抽出された信頼し得る付加情報をＦ－ＣＮＮ(図５の６６０)に提供することで、Ｆ－ＣＮＮ(図５の６６０)を訓練するように遂行される。訓練を遂行するために、ＢＥＲＴのような事前訓練された双方向トランスフォーマエンコーダモデルを言語モデルとして使用することができる。異なる言語モデルを使用することもできる。Ｆ－ＣＮＮを訓練する間、ＢＥＲＴにより学習された言語事前知識の利益を得るために、（ｉ）ＢＥＲＴ(θ_ＬＭ)のパラメーターが凍結され(frozen)、（ｉｉ）プーリングされた視覚的埋め込みベクトルが、コンテキストフィルタ(図５の６３０)及び事前訓練されたＢＥＲＴモデルの部分であるトークン埋め込みを使用して、トークン語彙空間にマッピングされる。

ＢＥＲＴモデルは、２つの自己教師ありプロテキストタスク(マスク言語モデリングタスク及び次の文章予測タスク)を解決して訓練され、これにより訓練には追加的な手動の注釈付けが不要であることに留意する。

画像条件付きマスク言語モデリングにおいて、何をΦ_θＣＮＮ(Ｉ_ｉ)に学習させるかは、訓練中にマスクされるトークンの制限により選択的に決定され得る。マスクできるトークンのリストを予め決定することによる学習手順に対するこのような類型の柔軟な制御は、多数の利点を持つことができる。

第一に、画像から感知するのに曖昧なトークン；例えば、“概略(about)”、“美しい(beautiful)”若しくは“サポート(support)”が除去され得る。このようなトークンを除去することで、曖昧な概念の予測から発生し得るノイズのある学習信号がフィルターリングされ、これにより訓練を安定化させることができる。

第二に、トークン選択のためのカリキュラム学習ベースアプローチを採択することができ、ここで、マスクできるトークンが訓練過程中に動的にアップデートされる。

つまり、最小化する目標は、次のような対数尤度(log-likelihood)である：

ここで、θ_ＡＴＴは注意モジュール(図５の６５０)で用いられる訓練可能なパラメーターであり、Ｍはマスクできるトークンのセットである。

要約すれば、画像と関連したキャプションのマスクされたトークンは、画像を直接“目視”により予測される。すなわち、マスクされたトークンは、Ｆ－ＣＮＮから来る視覚的情報だけ使用して予測される。Ｆ－ＣＮＮから抽出されたＷ×Ｈサイズの空間グリッド上に置かれたＣ次元視覚的特徴ベクトルは、ＢＥＲＴから抽出されたマスクされたトークンのコンテキスト化した潜在表現に対する条件付きにより参考される。最後に、参考された(プーリングされた)視覚的特徴ベクトルは、ＢＥＲＴにより学習されたトークン埋め込み空間に投影される。

次は、視覚的埋め込みベクトルに対する注意を計算することについて説明する。

自然言語処理アプリケーションのためのテキストシーケンスをモデリングするために、スケーリングされた内積注意(scaled dot product attention)として称する一つの特定自己注意方式が使用された。異なる注意メカニズムが使用され得ることに留意する。

スケーリングされた内積注意方式において、トランスフォーマアーキテクチャの各々の階層において、Ｄ次元キーｋ、質疑ｑ及び値ｖベクトルが入力シーケンスの各々のトークンに対して計算される。続いて、トークンｔ_ｂに対するトークンｔ_ａの注意点数は、次の通り計算される：

ここで、ｑ_ａ及びｋ_ｂは、各々ネットワークの所定階層におけるトークンｔ_ａ及びｔ_ｂに対して計算されたＲ^Ｄの質疑及びキーベクトルである。入力シーケンスにおいて各々のトークン間のペアワイズ(pairwise)注意点数に基づき、トークンのコンテキスト化した表現が次の通り計算される：

ここで、Ｑ、Ｋ、Ｖは、ネットワークの所定階層における全てのトークンに対して計算されるＲＴＸＤの質疑、キー及び値である。

これは、視覚的質問応答の目的のために誘導された注意単位を構築するように拡張された。誘導された注意単位において、注意点数は、長短期記憶モデルから来るトークンの潜在表現、及び、ＲｅｓＮｅｔ１０１－バックボーン型ＦａｓｔＲ－ＣＮＮモデルの凍結された視覚的埋め込みベクトル間で計算される。このために、キー及び値ベクトルはトークン表現により計算され、質疑ベクトルは画像表現により計算される。このような方式により視覚的情報を質疑することで、トークン表現がコンテキスト化する。

視覚的質問応答及び画像条件付きマスク言語モデリングタスクは、データモダリティ及び解決されるタスクに対して類似しているが、前述した訓練は異なるアプローチに従う。

事前訓練された視覚的埋め込みモデルを使用し、言語モデルを訓練させて視覚的質問応答タスクのための多重モード表現を学習する代わりに、事前訓練された言語モデルを使用して視覚的埋め込みモデルが訓練されて、画像条件付きマスク言語モデリングタスクのための視覚的表現を学習する。したがって、プール(pool)視覚的表現は、マスクされたトークンのコンテキスト化した表現を質疑することによりプーリングされる。

より具体的に、質疑ベクトルｑは、事前訓練されたＢＥＲＴモデルにより計算されたキャプションＣ_ｉ,ｊのマスクされたトークンの潜在表現である。キー及び値ベクトルは、２つの互いに異なる畳み込み神経ブロックρ_θＫ及びρ_θＶを用いて、Ｆ－ＣＮＮの出力をＢＥＲＴモデルのトークン表現空間にマッピングすることにより計算され、ここで、θ_Ｋ及びθ_Ｖはこれらのブロックの訓練可能なパラメーターであり、すなわち、θ_ＡＴＴ＝{θ_Ｋ∪θ_Ｖ}。これらのブロックは、（ｉ）視覚的埋め込みベクトル及びマスクされたトークンの表現間のスケーリングされた内積注意点数を計算するために(これらの次元が一致すること)、（ｉｉ）画像埋め込みモデルΦ_θＣＮＮ(Ｉ_ｉ)により学習された表現を視覚的埋め込み空間からトークン表現空間へのマッピングを分離するために、そして、（ｉｉｉ）Ｆ－ＣＮＮが畳み込み変換を使用して視覚的埋め込みべクトルの空間グリッドを出力する時、次を得るためのベクトルの配列を獲得するために使用される：

ここで、ｑ∈Ｒ^Ｄは質疑ベクトルとして使用される、マスクされたトークンの潜在表現であり、ＫとＶは畳み込みブロックにより計算されたＲ^ＭＸＤのキー及び値であり(表記法をより簡単に作るために、畳み込みブロックがＷ×Ｈ次元空間グリッドをＭ＝Ｗ×Ｈサイズの配列に平坦化すると仮定する)、なお、γ(ｑ,Ｋ,Ｖ)はマスクされたトークン表現を質疑することにより獲得したＲ^Ｄからコンテキスト化した視覚的埋め込みを生成する。

最終的に、γ(ｑ,Ｋ,Ｖ)は、前述したように、トークン語彙空間にマッピングされる。訓練中に、θ_ＣＮＮ,θ_Ｋ及びθ_Ｖは、次の通り数式（１）に定義されたトークン予測損失を最適化することにより調整される：

モデルを、効率的な画像表現を学習するための能力と関連して評価する一般の慣行には、３つの考慮事項がある。

第１の考慮事項は、ターゲットタスクのスペクトラムと関連がある：広範囲なターゲットタスクから表現を一般化できるか。例えば、自動エンコーダにより学習された表現がオブジェクト分類から表面推定又は視覚的探索に至る多様なタスクに有用であるか。

第２及び第３の考慮事項は、所望の性能を達成するのに必要なパラメーター及び注釈付けされた訓練サンプルの数と関連がある：モデルが計算的により低廉なアーキテクチャ又は非常に少ない注釈付けされたデータを用いて、特定ターゲットタスクにおいて同一の性能水準を達成できるか。

これらの基本様態に基づいてモデルをベンチマークするために、オブジェクト分類、検知及び細分化、画像検索又はＦＳＬ(few-shot learning)を含んでいくつかのターゲットタスクが提案された。

視覚的な世界に関する事前知識を収集して効率的な画像表現を学習する方法としては、教師なし学習の一形態として自己教師ありプロキシタスクが提案された。

次のテストにおいて、画像条件付きマスク言語モデリングは、次のような理由により教師なし学習に基づいたアプローチと比較された。

第一に、視覚的埋め込みモデルを訓練させて評価するために解決されるプロキシ及びターゲットタスクは、互いに分離されている。画像条件付きマスク言語モデリングにおいて、視覚的埋め込みモデルは、事前訓練された言語モデルにより案内される、マスクされた単語予測タスクを解決することにより訓練される。続いて、視覚的埋め込みモデルにより学習された表現は、他の本質的に異なるビジョンタスク等、例えば、オブジェクト分類又は画像検索として評価される。

そのような意味から、追加テキスト入力(ノイズがあって不完全であるが)が使用されても、画像条件付きマスク言語モデリングは、ターゲットタスクと関連して教師なし方式により訓練される。

第二に、インターネットで発見される豊富な画像キャプションペアは、データ注釈付けのボルトネット(bottleneck)を克服するための弱い教師(weak supervision)の潜在的なソースになり得る。よって、画像条件付きマスク言語モデリングは、ビジョンタスクに対する豊富な弱い教師が活用できる、視覚的埋め込みモデルを訓練するための代替的な方法である。

第三に、教師なし学習アプローチは、ビジョンタスクのリストから画像表現を評価するためのベンチマークプロトコルを自然に確立した。これらのプロトコルを直接実験することで、画像条件付きマスク言語モデリングから得た利得が測定できる。

テストにおいて、Φ_θＣＮＮ,ρ_θＫ及びρ_θＶモジュールは、ＶｉｓｕａｌＧｅｎｏｍｅデータセットに提供された(画像、領域記述(region description))チュープル(tuple)に関するものである。ＶｉｓｕａｌＧｅｎｏｍｅには１０８,０７７個の画像及び５４０万個の領域記述が含まれる。各々の領域記述は画像にあるオブジェクト間の特定相互作用に関するものであり、境界ボックス及びキャプション注釈と共に提供される。目標は、Ｆ－ＣＮＮを訓練するために不完全な弱い教師を活用するものであるため、実験で境界ボックス注釈は削除される。

これらの実験において、画像領域の１０％未満又は９０％超過を占有する領域記述は除去される。続いて、ＷｏｒｄＰｉｅｃｅトークン化が適用され、長さが３未満又は１５超過のシーケンスは除去される。マスクできるトークンのリストは、キャプションにある最も一般的な２,０００個の名詞及び形容詞からなる。そうする間に、マスクされたトークンのラベルを予測するのが目的であるため、単一ピースにトークン化する名詞及び形容詞が選択される。

名詞及び形容詞は記述にパッシングされる。領域記述及びマスクできる単語の両方を前処理した後、データセットは約１百万個の領域記述及び１,２４６個のマスクできる単語を有する。したがって、前記数式（１）は、(画像、領域記述)ペアに関する１２４６方式(way)分類問題に変換される。残りの記述のうち、５０ｋ領域記述の２個のセットをランダムに選択して検証及びテストセットを構成する。

一貫性を維持するために、ＡｌｅｘＮｅｔ－類似畳み込みニューラルネットワークである画像埋め込みモデルΦ_θＣＮＮが使用され、各々の畳み込み階層にはＢａｔｃｈＮｏｒｍ２Ｄ階層がある。テスト等において、ＩｍａｇｅＮｅｔで事前訓練されたＡｌｅｘＮｅｔチェックポイントは回転予測タスクと共にローディングされる。しかしながら、前述したように、注意メカニズムを用いて視覚的特徴がプーリングされるため、ＡｌｅｘＮｅｔの最後の最大プーリング及び完全に連結した階層が除去される。

ρ_θＫ及びρ_θＶブロックは、後で２個のＣｏｎｖ２Ｄ－ＢａｔｃｈＮｏｒｍ２Ｄ－ＲｅＬＵ階層及び線形Ｃｏｎｖ２Ｄ階層を用いて構築される。ＢＥＲＴモデルのトークン表現の次元である７６８個のチャンネルを有する最後の線形Ｃｏｎｖ２Ｄを除いた各々のＣｏｎｖ２Ｄ階層は、３×３のカーネル(kernel)及び５１２個のチャンネルを有する。また、ρ_θＫ及びρ_θＶが視覚的特徴ベクトルの空間構成を理解するために、ワン－ハット(one-hat)位置埋め込みは、 ρ_θＫ及びρ_θＶブロックに供給される前に視覚的特徴ベクトルΦ_θＣＮＮ(Ｉ_ｉ)に結合される。モデルの全ての訓練可能なパラメーターは、各々Φ_θＣＮＮ及び[ρ_θＫ，ρ_θＶ]ネットワークのパラメーターに対し、学習率が５×１０^－５及び５×１０^－４であるＡＤＡＭオプティマイザを用いて、２５６サイズのバッチ(batch)で１００ｋＳＧＤアップデートを遂行することにより調整される。線形学習率減衰(linear learning rate decay)は訓練中に適用される。

画像条件付きマスク言語モデリングは、ＩＬＳＶＲＣ－２０１２チャレンジデータセットに対するオブジェクト分類タスクに関するいくつかの最新自己教師あり学習アプローチと比較された。このタスクに関する標準評価手順は、事前訓練されたモデルから画像表現を抽出し、凍結された表現の上部にロジスティック回帰分類器(logistic regression classifier)を訓練することを伴う。ＡｌｅｘＮｅｔには５個の畳み込み階層があるので、凍結された表現は各々の畳み込み階層の出力から計算され、次いで空間的にサイズが調整されることにより、各々の階層の表現が概略９ｋ次元になる。その後、各ブランチで平坦化、ＢａｔｃｈＮｏｒｍ２Ｄ及び完全連結階層が付加にされ、新しく付加されたこれらのパラメーターは、ＩＬＳＶＲＣ－２０１２データセットの訓練セットに対し、３５エポック(epoch)の間にＳＧＤアップデートを遂行することにより訓練される。

このタスクでの性能を計算するために、公開的に共有された保存所が使用される。比較される全てのアプローチは、画像条件付きマスク言語モデリングのようなＡｌｅｘＮｅｔ－類似アーキテクチャを使用する。

画像条件付きマスク言語モデリングにより訓練されたＡｌｅｘＮｅｔアーキテクチャから抽出された画像表現は、自己教師あり学習アプローチに比べて大幅な改善が実現される。ＲｏｔＮｅｔと画像条件付きマスク言語モデリングとを比較することで、伝達可能な表現を学習するために言語事前知識を活用する明らかな利点が実現される。また、畳み込み階層パラメーターの個数が、ＤｅｅｐＣｌｕｓｔｅｒよりＡｌｅｘＮｅｔの方で実質的により大きいことができるが、画像条件付きマスク言語モデリングは、特にＡｌｅｘＮｅｔに対するより一般的な表現の学習を可能にする。これと関連して、画像条件付きマスク言語モデリングにおいてＦ－ＣＮＮを訓練することがＤｅｅｐＣｌｕｓｔｅｒより効率的である。

図６は、線形階層を用いたＩｍａｇｅＮｅｔＴｏｐ－１分類の正確度を示す表１である。表１の全てのアプローチは、モデル等でＡｌｅｘＮｅｔ－類似アーキテクチャを使用する。表１の第１の部分及び第２の部分は、そのベンチマークの上限及び下限である。

画像条件付きマスク言語モデリング及びＲｏｔＮｅｔを画像検索タスクに対してテストした。クラス水準分類タスクとは異なり、このタスクは画像の細分化した細部事項をキャプチャーする側面でモデルをベンチマークすることで、クラス内分散(intra-class variation)を選好する。

この両方のモデルにより学習された表現を評価するために、ＡｌｅｘＮｅｔの畳み込み階層を取り、一般化した平均プーリング、Ｌ２正規化、及び、完全連結階層が付加される。完全連結階層のパラメーターは、Ｌａｎｄｍａｒｋｓデータセットのクリーン(clean)バージョンに対するＡＰ損失を最小化することで、３００エポックの間に訓練される。完全なモデルは、ｍＡＰ(mean-average-precision)点数を計算することで、再訪問したＯｘｆｏｒｄＢｕｉｌｄｉｎｇｓ及びＰａｒｉｓデータセットでテストされる。画像条件付きマスク言語モデリングタスクを解決することにより生成された画像表現は、このタスクでＲｏｔＮｅｔモデルにより獲得された相手より非常に優れている。結果は図７の表２に提示される。

不正解(distractor)は、不正解セットから不正解をランダムに選択し、選択した不正解をギャラリーセット(gallery set)に追加して選択した。

その拡張されたデータセットに対して報告された以前の最新結果と訓練されたモデルとを比較すれば、訓練されたモデルの両バージョン(ｒ及びｂ)が、図４に提示された通り、最新記述(ｙ)より非常に優れている。

要約すれば、シャムアーキテクチャを用いて、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、シャムアーキテクチャの第１のブランチは視覚的表現を生成する畳み込みニューラルネットワークであり、シャムアーキテクチャの第２のブランチはテキスト表現を生成する言語モデルニューラルネットワークであり、その方法は、（ａ）言語モデルニューラルネットワークのマスクされたトークンを使用し、畳み込みニューラルネットワークにより生成された画像の視覚的表現を使用して、画像条件付きマスク言語モデリングタスクを解決するステップを含み、画像条件付きマスク言語モデリングタスクを解決するステップは、（ａ１）画像条件付きマスク言語モデリングタスクの予測損失を計算するステップ、及び、（ａ２）予測損失を畳み込みニューラルネットワークに逆伝播して、畳み込みニューラルネットワークを訓練するステップを含む。

マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、（ａ）畳み込みニューラルネットワークに画像を入力するステップ；（ｂ）畳み込みニューラルネットワークからＨ×Ｗ×Ｃ次元画像埋め込みテンソルを出力するステップ、ここで、Ｈ及びＷはＣ次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す；（ｃ）トークンのリストを生成するためにキャプションをトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ；（ｄ）トークンのリスト内のトークンのうちの一つをマスクするステップ；（ｅ）Ｈ×Ｗ×Ｃ次元画像埋め込みテンソルの視覚的特徴ベクトルを用いてマスクされたトークンを予測するステップ；（ｆ）マスクされたトークンと関連した予測損失を決定するステップ；及び、（ｇ）予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。

マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、（ａ）畳み込みニューラルネットワークに画像を入力するステップ；（ｂ）畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ；（ｃ）トークンのリストを生成するためにキャプションをトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ；（ｄ）マスクされるトークンのリスト内のトークンのうちの一つをランダムに選択するステップ、ここで、選択されたトークンは正解として見なされる；（ｅ）言語モデルニューラルネットワークを使用して、トークンの潜在表現を計算するステップ；（ｆ）マスクされたトークンの潜在表現を質疑ベクトルとして使用して、視覚的埋め込みテンソルで視覚的埋め込みベクトルを注意深くプーリングするステップ；（ｇ）プーリングした視覚的埋め込みベクトルをトークンにマッピングすることにより、マスクされたトークンを予測するステップ；（ｈ）マスクされたトークンと関連した予測損失を決定するステップ；及び、（ｉ）予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。

視覚的特徴ベクトルの視覚的埋め込みテンソルは、Ｈ×Ｗ×Ｃ次元画像埋め込みテンソルであり得、ここで、Ｈ及びＷはＣ次元視覚的埋め込みベクトルの空間グリッドの高さ及び幅を示す。

プーリングされた視覚的特徴ベクトルは、コンテキストフィルタを用いてトークン語彙空間にマッピングされ得る。

マスクされたトークンを予測することは、視覚的埋め込みベクトルのグリッドにわたって空間注意メカニズムを使用でき、ここで、注意点数はマスクされたトークンの潜在表現によって条件付けされる。

上述の実施例の変形例、他の特徴及び機能、若しくはその対案が、望ましくは多くの異なるシステム又は応用により組み合わせできることが分かる。また、多様な突然又は意外の代案、修正、変形又はその範囲内の改善が当業者により後続的になされることができ、これは前記説明及び後述の特許請求の範囲により含まれるように意図される。

Claims

マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、
（ａ）前記畳み込みニューラルネットワークに画像を入力するステップ；
（ｂ）前記畳み込みニューラルネットワークからＨ×Ｗ×Ｃ次元画像埋め込みテンソルを出力するステップ、ここで、Ｈ及びＷはＣ次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す；
（ｃ）トークンのリストを生成するためにキャプションをトークン化するステップであって、少なくとも一つの前記トークンは、前記畳み込みニューラルネットワークにより受信された前記画像に対する視覚的対応を持つ、ステップ；
（ｄ）前記トークンのリスト内の前記トークンのうちの一つをマスクするステップ；
（ｅ）前記Ｈ×Ｗ×Ｃ次元画像埋め込みテンソルの視覚的特徴ベクトルを用いて、前記マスクされたトークンを予測するステップ；
（ｆ）前記マスクされたトークンと関連した予測損失を決定するステップ；及び、
（ｇ）前記予測損失を前記畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップ、を含む、方法。
マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、
（ａ）前記畳み込みニューラルネットワークに画像を入力するステップ；
（ｂ）前記畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ；
（ｃ）トークンのリストを生成するためにキャプションをトークン化するステップであって、少なくとも一つの前記トークンは、前記畳み込みニューラルネットワークにより受信された前記画像に対する視覚的対応を持つ、ステップ；
（ｄ）マスクされる前記トークンのリスト内の前記トークンのうちの一つをランダムに選択するステップであって、選択された前記トークンは正解として見なされる、ステップ；
（ｅ）言語モデルニューラルネットワークを用いて、前記トークンの潜在表現を計算するステップ；
（ｆ）前記マスクされたトークンの潜在表現を質疑ベクトルとして使用して、前記視覚的埋め込みテンソルで前記視覚的埋め込みベクトルを注意深くプーリングするステップ；
（ｇ）前記プーリングした視覚的埋め込みベクトルを前記トークンにマッピングすることにより、前記マスクされたトークンを予測するステップ；
（ｈ）前記マスクされたトークンと関連した予測損失を決定するステップ；及び、
（ｉ）前記予測損失を前記畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップ、を含む、方法。
視覚的特徴ベクトルの前記視覚的埋め込みテンソルは、Ｈ×Ｗ×Ｃ次元画像埋め込みテンソルであり、Ｈ及びＷはＣ次元視覚的埋め込みベクトルの空間グリッドの高さ及び幅を示す、請求項２に記載の方法。
前記プーリングされた視覚的特徴ベクトルは、コンテキストフィルタを用いてトークン語彙空間にマッピングされる、請求項２又は３に記載の方法。
前記マスクされたトークンを予測するステップは、前記視覚的埋め込みベクトルのグリッドにわたって空間注意メカニズムを使用し、注意点数は前記マスクされたトークンの前記潜在表現によって条件付けされる、請求項２乃至４の何れか一項に記載の方法。