JP2021166046A - 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 - Google Patents

画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 Download PDF

Info

Publication number
JP2021166046A
JP2021166046A JP2021064797A JP2021064797A JP2021166046A JP 2021166046 A JP2021166046 A JP 2021166046A JP 2021064797 A JP2021064797 A JP 2021064797A JP 2021064797 A JP2021064797 A JP 2021064797A JP 2021166046 A JP2021166046 A JP 2021166046A
Authority
JP
Japan
Prior art keywords
neural network
image
visual
convolutional neural
token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021064797A
Other languages
English (en)
Other versions
JP7195365B2 (ja
Inventor
ラルス−ラロンド ダイアン
Larlus-Larrondo Diane
パレス ジュリエン
Perez Julien
ブロン サリイルデイズ メー
Bulent Sariyildiz Mert
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2021166046A publication Critical patent/JP2021166046A/ja
Application granted granted Critical
Publication of JP7195365B2 publication Critical patent/JP7195365B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法を提供する。
【解決手段】 方法は、畳み込みニューラルネットワークに画像を入力するステップ;畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ;キャプションをトークン化するステップ;マスクされるトークンのリスト内のトークンのうちの一つをランダムに選択するステップ;言語モデルニューラルネットワークを用いてトークンの潜在表現を計算するステップ;視覚的埋め込みテンソルで視覚的埋め込みベクトルを注意深くプーリングするステップ;マスクされたトークンを予測するステップ;マスクされたトークンと関連した予測損失を決定するステップ;及び、予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。
【選択図】図1

Description

本開示は、画像条件付きマスク言語モデリング(Image-conditioned Masked Language Modeling、IMLM)を用いて、画像認識のための畳み込みニューラルネットワーク(Convolutional Neural Network)を訓練するための方法に関し、具体的には、マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法に関する。
コンピュータビジョン(computer vision)のディープラーニング(deep learning)アプローチでは、大規模な手動で注釈付けされたデータセットが活用される。これらのデータソースは、関心のある特定タスク等、例えば、画像分類、物体検出(object detection)又は場面細分化(scene segmentation)に関する最新モデルを訓練することができるようにする。また、大規模な手動で注釈付けされたデータセットは、大容量のニューラルネットワークが多数のタスクを通じて伝達可能な表現などを学習できるようにする。
機械学習パイプライン等、例えば、自動運転車や自動パーソナルアシスタントには、重要な作業などを命令することになるので、より正確且つ強力なモデルを構築する必要がある。
このような重要な作業などへの転換は、ニューラルネットワークベースのアーキテクチャの計算の複雑さを増加させると同時に、より有能なモデルの訓練を必要とする。しかしながら、入力画像に関して細分化した分析を遂行すべきタスクに対し、構造化した注釈付けされたデータを収集することは困難になり、費用の増加も招くことになる。
より具体的には、そのようなデータが不十分なドメインに対して注釈付けされたデータを収集したり、視覚的な場面等の構造に関する詳細な理解、又は、オブジェクトタイプ及び属性に関する細分化した分析が必要なタスクに対して注釈付けされたデータを収集したりすることは困難になり、費用の増加も招くことになる。
一つの特定の例は、感知器が認識すべき全ての個別オブジェクト及び概念の境界ボックス(bounding box)を必要とする物体検出タスクに関する注釈等である。
注釈付けされる複雑な場面を図2に例示する。図2に示すように、画像300は家又は大邸宅330を含む。家又は大邸宅330は、庭園領域(図示せず)を囲む複数の壁又は垣根340を有する。画像300は、複数の常緑樹320及び落葉樹321をさらに含む。図2に示すように、画像300は複数の雲310を含む。
図2の画像300に関する適切な注釈を生成するために、図3に示す複数の境界ボックス410が検知される多様なオブジェクトの周囲に具現される。図3は、微細でないスケールの境界ボックス410の使用を例示する。窓やドアや煙突などのように精密な検知が要求されるものである場合、図3に示すように、より多くの数の境界ボックス410を使用するべきである。これらの境界ボックスの使用は、精密なモデルを訓練するための強い教師(strong supervision)を要求する。
また、個別視覚的タスクに関する注釈を収集する費用を低減するために、より弱い教師信号(weak supervision signal)に依存するモデルを用いて、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。
さらに、個別視覚的タスクに関する注釈を収集する費用を低減するために、ソーシャルメディアプラットフォーム(social media platform)のように、豊富であるが過度のノイズのある公開されている知識ベースを使用し、弱い教師信号に依存するモデルを用いて、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。
韓国登録特許第10−1882743号公報
本開示は、画像条件付きマスク言語モデリングを用いて、画像認識のための畳み込みニューラルネットワークを訓練するための方法を提供する。
本開示の一実施例によれば、シャム(Siamese)アーキテクチャを用いて、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、シャムアーキテクチャの第1のブランチ(branch)は視覚的表現を生成する畳み込みニューラルネットワークであり、シャムアーキテクチャの第2のブランチはテキスト表現を生成する言語モデルニューラルネットワークであり、前記方法は、(a)言語モデルニューラルネットワークのマスクされたトークンを使用し、畳み込みニューラルネットワークにより生成された画像の視覚的表現を使用して、画像条件付きマスク言語モデリングタスクを解決するステップを含み、前記画像条件付きマスク言語モデリングタスクを解決するステップは、(a1)画像条件付きマスク言語モデリングタスクの予測損失を計算するステップ、及び、(a2)予測損失を畳み込みニューラルネットワークに逆伝播(back propagate)して、畳み込みニューラルネットワークを訓練するステップを含む。
本開示の他の一実施例によれば、マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、(a)畳み込みニューラルネットワークに画像を入力するステップ、(b)畳み込みニューラルネットワークからH×W×C次元画像埋め込みテンソルを出力するステップ、ここで、H及びWはC次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す、(c)トークンのリストを生成するためにキャプション(caption)をトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ、(d)トークンのリスト内のトークンのうちの一つをマスクするステップ、(e)H×W×C次元画像埋め込みテンソルの視覚的特徴ベクトルを用いてマスクされたトークンを予測するステップ、(f)マスクされたトークンと関連した予測損失を決定するステップ、及び、(g)予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。
本開示のまた他の一実施例によれば、マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、(a)畳み込みニューラルネットワークに画像を入力するステップ、(b)畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ、(c)トークンのリストを生成するためにキャプションをトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ、(d)マスクされるトークンのリスト内のトークンのうちの一つをランダムに選択するステップ、ここで、選択されたトークンは正解(ground truth)として見なされる、(e)言語モデルニューラルネットワークを用いてトークンの潜在表現を計算するステップ、(f)マスクされたトークンの潜在表現を質疑ベクトルとして使用し、視覚的埋め込みテンソルで視覚的埋め込みベクトルを注意深くプーリング(pooling)するステップ、(g)プーリングした視覚的埋め込みベクトルをトークンにマッピングすることにより、マスクされたトークンを予測するステップ、(h)マスクされたトークンと関連した予測損失を決定するステップ、及び、(i)予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。
添付の図面は、ただ多様な実施例を例示するためのもので、限定するものと解釈されるものではない。
訓練方法及び再識別方法に関するアーキテクチャの例を示す。 注釈付けされる複雑な場面の例を示す。 図2に対して生成された境界ボックスの注釈の例を示す。 BERT(Bidirectional Encoder Representations from Transformers)モデルにおいて解決済みマスク言語モデリングタスクの完全なチェーンのブロックダイアグラムを示す。 画像認識のための畳み込みニューラルネットワークを訓練するのに用いられる画像条件付きマスク言語モデリングの完全なチェーンのブロックダイアグラムを示す。 線形階層を用いたImageNet Top−1分類の正確度を示す表である。 RotNeによって学習された画像表現、及び、画像検索タスクに関する画像条件付きマスク言語モデリングの比較を示す表である。
後術する方法及び/又はプロセスは、サーバ100により、図1に示すようなアーキテクチャ内で具現できる。
以下の説明において、視覚的埋め込み(visual embedding)及び視覚的表現は、これらの公式が同一であるので、相互交換的に用いられる。
一般に、サーバ100は、データ交換のために、インターネットのような拡張されたネットワーク200に連結される。サーバ100は、データプロセッサ110及びハードディスクのようなメモリ120を含む。
前述したように、ソーシャルメディアプラットフォームのように、豊富であるが過度のノイズのある公開された利用可能な知識ベースを使用して、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。
このようなプラットフォームに毎日アップロードされるデータの量を考慮するとき、使用者らにより直接注釈付けされたデータから利益を得ることは、モデルの性能を非常に高めることができる。より具体的には、数十億個のソーシャルメディア画像のハッシュタグ(hashtag)を予測することが、ImageNetのオブジェクト分類タスクにおける大きい向上につながることが分かる。また、インターネット上の料理ビデオから大規模な映像データセットを収集し、自動にパース(parsing)した注釈を含むことにより、VideoBERTモデルを訓練できることが分かる。
また、前述したように、個別視覚的タスクに関する注釈を収集する費用を低減するために、より弱い教師信号に依存するモデルを用いて、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。
より具体的には、無料で利用可能な画像の大規模なセットに対するプロキシタスク(proxy task)を解決することで、画像埋め込みモデルを学習するために、コンピュータビジョンにおいて教師なし学習(unsupervised learning)が活用された。埋め込みモデルが学習される場合、これはターゲットタスクのリストを最小限の努力で解決するのに使用され得る。
例えば、教師なしプロキシタスクは、オートエンコーダ(auto-encoder)を用いてデータの潜在空間を学習できるのに対し、ターゲットタスクは、教師(supervised)オブジェクト(画像)分類、検知又は細分化を含むことができる。大容量のオートエンコーダが学習される場合、そのエンコーダネットワークは、(i)各々のターゲットタスクに関する別途のモデルを微細調整する初期状態、或いは、(ii)表現学習の負担なしにターゲットタスクを効率的に解決できる特徴抽出器として使用され得る。
しかしながら、どのような場合でも、エンコーダネットワークにより学習された表現の性能は、プロキシタスクの目的に厳しく依存する。よって、入力ドメインの主要表現をキャプチャーするプロキシタスクを公式化することが要求される。
自己教師あり学習(self-supervised learning)を活用する他のドメイン−特定プロキシタスクでは、入力空間の構造に関する暗示的事前知識を学習するために、“プリテキスト(pretext)”タスクが解決される。前述したように、事前知識(prior knowledge)はターゲットタスクに活用できる。コンピュータビジョンアプリケーション等の場合、グレースケール画像の色相化、画像回転の予測、若しくは画像埋め込みのクラスタリング(clustering)は、ダウンストリームビジョン問題に関して有用な事前知識を提供する。同様に、次の文章の予測及びマスク言語モデリングタスクを解決することは、言語モデルが自然言語処理ターゲットタスクの多様なセットに対して実質的によく遂行できるようにする。
教師なし表現学習が有益であり得るが、転移学習では教師あり学習が依然として数段よく遂行される。また、教師なし表現学習は、注釈の不足を補完するためにもっと大規模なデータセットを必要とする。
したがって、例えば、半教師あり学習(semi-supervised learning)下において、両方のパラダイムで利益を得る代替公式を探すことが望ましい。
画像/テキスト記述ペア(image/textual description pair)は、ソーシャルメディアプラットフォームにおいて豊富で盛んであることに留意する。
詳細に後述するように、これらの画像/テキスト記述ペアは、適切な視覚的埋め込みを訓練するのに活用できる。より具体的には、後述するように、画像条件付きマスク言語モデリングタスクと称するプロキシタスクは、言語モデルにより把握されたテキスト付加情報を用いて、画像に現れる視覚的埋め込みモデルオブジェクト及び概念を学習させるのに活用される。
例えば、視覚的埋め込みモデルの訓練は、図3に示す境界注釈を、“It is cloudy”、“The house is old”、“There is a beautiful chateau among the trees”、“The trees on the left are evergreen”、“The lone maple tree is panted to the East of the house”、又は、“The chateau has a walled garden”のような不完全なテキスト記述に代替することにより実現される。
画像条件付きマスク言語モデリングを活用する際に、互いに異なるモダリティ(modalities)で作動する2種類のモジュール、すなわち、事前訓練された言語モデル及び視覚的認識モデルが使用される。これらのモジュールを使用すれば、視覚的場面の理解のために自然言語の意味論的構造が活用される。
例えば、画像キャプションペアからなるデータセットが付与される場合、画像条件付きマスク言語モデリングは、データセットのキャプションに関するマスク言語モデリングタスクを解決する。しかしながら、言語事前知識及びデータセット偏向に基づいてマスクされた単語を予測する代わりに、画像条件付きマスク言語モデリングは、キャプションと関連した画像を見ることにより予測する。
より具体的には、画像キャプションペアが付与される場合、キャプションの単語がマスクされ、画像条件付きマスク言語モデリングは、画像の表現を用いてマスクされたラベル(label)を予測しようと試みる。
前述したように、多様なビジョンタスクを通じて用いられる効率的且つ伝達可能な表現を学習するように視覚的埋め込みモデルを訓練するために、画像条件付きマスク言語モデリングベースプロキシタスクが活用される。画像条件付きマスク言語モデリングにおいて、マスク言語モデリングタスクは視覚的情報を用いて解決され、これに関する詳細は後述する。
画像条件付きマスク言語モデリングをもっとよく理解するために、マスク言語モデリングが自然言語表現にどのように適用されるか簡略に説明する。
マスク言語モデリングは、大規模なテキストコーパス(text corpora)に対して言語モデルを事前訓練するための自己教師ありプロキシタスクである。このような類型の事前訓練方式は、言語モデルが効率的な言語事前知識を学習できるようにするので、言語モデルを単純に微細調整するだけでも、広範囲な自然言語処理ターゲットタスクで最新技術に比べて大福な改善を達成できる。
このような事前訓練タスクにおいて、(i)単語のシーケンスがトークン化し、(ii)トークンのランダムサブセットがマスクされたり、他のトークンに代替されたり、そのまま維持されたりするように選択され、(iii)全てのトークンは言語モデル(双方向トランスフォーマエンコーダモデル)に対する入力として付与され、(iv)言語モデルは(トークンが変更された場合、トークンがマスク又は代替される前)選択されたトークンの正解ラベルを正しく予測するように訓練される。図4は、このような事前訓練タスクを遂行するためのアーキテクチャを示す。
図4に示すように、“THERE IS A BEAUTIFUL CHATEAU AMONG THE TREES”を示すトークンのセットが(ここで、CHATEAUに対するトークンがマスクされる)、トランスフォーマエンコーダ510に入力されて、マスクされたトークン520のコンテキスト化(contextualized)した表現を生成する。マスクされたトークン520のコンテキスト化した表現は、BERT(Delvin et al. “Bert: Pre-training of deep bidirectional transformers for language understanding”に記載される)のようなコンテキストフィルタ(context filter)530に入力されて単語予測540を生成する。
図4を参照して自然言語表現に適用されるマスク言語モデリングを説明し、画像条件付きマスク言語モデリングについて詳細に記述する。
事前訓練タスクは、画像キャプションペアが含まれたデータセットを活用する:
Figure 2021166046
ここで、Iは画像であり、
Figure 2021166046

は場面Iのmキャプションのセットである。
事前訓練プロセスは、二つのニューラルネットワークモジュール、すなわち、F−CNN(fully-convolutional neural network)(図5の660)ベース画像埋め込みモデルΦθCNN( )、及び、事前訓練された言語モデル(LM)ΨθLM( )であり、ここで、θCNN及びθLMは各々F−CNN及びLMのパラメーターである。
画像埋め込みモデルΦθCNN( )は、RGB画像(I)(図5の300)を入力とし、H×W×C次元画像埋め込みテンソル(図5の670)を出力し、すなわち、ΦθCNN(I)∈RH×W×Cであり、ここで、H及びWはC次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す。
一方、事前訓練された言語モデル(LM)ΨθLM( )(図5の610)は、キャプションCi,j(図5のTHERE IS A BEAUTIFUL [MASK] AMONG THE TREES、ここで、マスクされたトークンは“CHATEAU”である)をトークン化することにより獲得されたトークンのリスト[t,... ,t]i,jを入力として受信し、トークン[ΨθLM(t) ,... ,ΨθLM(t)]i,j(図5の620)のD次元コンテキスト化した表現を出力し、ここで、ΨθLM(t)∈Rである。
画像条件付きマスク言語モデリングにおいて、画像Iに対して注釈付けされる各々のキャプション
Figure 2021166046
は、画像Iに示す少なくとも一つの特定動作又はオブジェクトを記述する。換言すれば、キャプションCi,jには、画像Iで視覚的対応を持つ少なくとも一つのトークンがあると仮定し得る。続いて、トークンのうちの一つがマスクされ、Iから抽出された視覚的特徴ΦθCNN(I)を使用して、トークンのラベルを予測しようと試みることができる。このような方式により、トークン予測損失を視覚的埋め込みモデルΦθCNN( )に逆伝播することにより、パラメーターθCNNが調整できる。
より具体的には、画像キャプションペア(I,Ci,j)が付与される場合、画像条件付きマスク言語モデリングの学習問題は、次の通り定義される。最初は2つのモダリティの入力表現が抽出される。キャプションCi,jは[t,...,t]i,jにトークン化する。トークンのうちの一つはランダムに選択されるt∈[t,...,t]i,j
選択されたトークンytmの識別(すなわち、トークン語彙から選択されたトークンの索引)は、正解として見なされる。続いて、tは“[マスク]”に代替される。トークンの潜在表現[ΨθLM(t),...,ΨθLM(t)]i,jは言語モデルにより計算され、ここで、ΨθLM(t)∈Rである。
並列的に、画像の視覚的埋め込みテンソルΦθCNN(I)∈RH×W×Cは、F−CNN(図5の660)により計算される。
一実施例において、マスクされたトークンの潜在表現ΨθLM(t)は、視覚的埋め込みテンソルΦθCNN(I)を注意深くプーリングするための質疑ベクトルとして使用できる。
このようなプロセスは、視覚的埋め込みベクトルΦθCNN(I)のグリッドに対する空間注意(アテンション)メカニズム(spatial attention mechanism)であり、ここで、注意点数はマスクされたトークンΨθLM(t)の潜在表現によって条件付きされ、その詳細は後述する。最後に、注意モジュール(図5の650)によりプーリングされた視覚的埋め込みベクトルがトークン語彙にマッピングされ、マスクされたトークンのラベルを予測する
Figure 2021166046
前記プロセスは、テキストデータから抽出された信頼し得る付加情報をF−CNN(図5の660)に提供することで、F−CNN(図5の660)を訓練するように遂行される。訓練を遂行するために、BERTのような事前訓練された双方向トランスフォーマエンコーダモデルを言語モデルとして使用することができる。異なる言語モデルを使用することもできる。F−CNNを訓練する間、BERTにより学習された言語事前知識の利益を得るために、(i)BERT(θLM)のパラメーターが凍結され(frozen)、(ii)プーリングされた視覚的埋め込みベクトルが、コンテキストフィルタ(図5の630)及び事前訓練されたBERTモデルの部分であるトークン埋め込みを使用して、トークン語彙空間にマッピングされる。
BERTモデルは、2つの自己教師ありプロテキストタスク(マスク言語モデリングタスク及び次の文章予測タスク)を解決して訓練され、これにより訓練には追加的な手動の注釈付けが不要であることに留意する。
画像条件付きマスク言語モデリングにおいて、何をΦθCNN(I)に学習させるかは、訓練中にマスクされるトークンの制限により選択的に決定され得る。マスクできるトークンのリストを予め決定することによる学習手順に対するこのような類型の柔軟な制御は、多数の利点を持つことができる。
第一に、画像から感知するのに曖昧なトークン;例えば、“概略(about)”、“美しい(beautiful)”若しくは“サポート(support)”が除去され得る。このようなトークンを除去することで、曖昧な概念の予測から発生し得るノイズのある学習信号がフィルターリングされ、これにより訓練を安定化させることができる。
第二に、トークン選択のためのカリキュラム学習ベースアプローチを採択することができ、ここで、マスクできるトークンが訓練過程中に動的にアップデートされる。
つまり、最小化する目標は、次のような対数尤度(log-likelihood)である:
Figure 2021166046
ここで、θATTは注意モジュール(図5の650)で用いられる訓練可能なパラメーターであり、Mはマスクできるトークンのセットである。
要約すれば、画像と関連したキャプションのマスクされたトークンは、画像を直接“目視”により予測される。すなわち、マスクされたトークンは、F−CNNから来る視覚的情報だけ使用して予測される。F−CNNから抽出されたW×Hサイズの空間グリッド上に置かれたC次元視覚的特徴ベクトルは、BERTから抽出されたマスクされたトークンのコンテキスト化した潜在表現に対する条件付きにより参考される。最後に、参考された(プーリングされた)視覚的特徴ベクトルは、BERTにより学習されたトークン埋め込み空間に投影される。
次は、視覚的埋め込みベクトルに対する注意を計算することについて説明する。
自然言語処理アプリケーションのためのテキストシーケンスをモデリングするために、スケーリングされた内積注意(scaled dot product attention)として称する一つの特定自己注意方式が使用された。異なる注意メカニズムが使用され得ることに留意する。
スケーリングされた内積注意方式において、トランスフォーマアーキテクチャの各々の階層において、D次元キーk、質疑q及び値vベクトルが入力シーケンスの各々のトークンに対して計算される。続いて、トークンtに対するトークンtの注意点数は、次の通り計算される:
Figure 2021166046
ここで、q及びkは、各々ネットワークの所定階層におけるトークンt及びtに対して計算されたRの質疑及びキーベクトルである。入力シーケンスにおいて各々のトークン間のペアワイズ(pairwise)注意点数に基づき、トークンのコンテキスト化した表現が次の通り計算される:
Figure 2021166046
ここで、Q、K、Vは、ネットワークの所定階層における全てのトークンに対して計算されるRTXDの質疑、キー及び値である。
これは、視覚的質問応答の目的のために誘導された注意単位を構築するように拡張された。誘導された注意単位において、注意点数は、長短期記憶モデルから来るトークンの潜在表現、及び、ResNet101−バックボーン型Fast R−CNNモデルの凍結された視覚的埋め込みベクトル間で計算される。このために、キー及び値ベクトルはトークン表現により計算され、質疑ベクトルは画像表現により計算される。このような方式により視覚的情報を質疑することで、トークン表現がコンテキスト化する。
視覚的質問応答及び画像条件付きマスク言語モデリングタスクは、データモダリティ及び解決されるタスクに対して類似しているが、前述した訓練は異なるアプローチに従う。
事前訓練された視覚的埋め込みモデルを使用し、言語モデルを訓練させて視覚的質問応答タスクのための多重モード表現を学習する代わりに、事前訓練された言語モデルを使用して視覚的埋め込みモデルが訓練されて、画像条件付きマスク言語モデリングタスクのための視覚的表現を学習する。したがって、プール(pool)視覚的表現は、マスクされたトークンのコンテキスト化した表現を質疑することによりプーリングされる。
より具体的に、質疑ベクトルqは、事前訓練されたBERTモデルにより計算されたキャプションCi,jのマスクされたトークンの潜在表現である。キー及び値ベクトルは、2つの互いに異なる畳み込み神経ブロックρθK及びρθVを用いて、F−CNNの出力をBERTモデルのトークン表現空間にマッピングすることにより計算され、ここで、θ及びθはこれらのブロックの訓練可能なパラメーターであり、すなわち、θATT={θ∪θ}。これらのブロックは、(i)視覚的埋め込みベクトル及びマスクされたトークンの表現間のスケーリングされた内積注意点数を計算するために(これらの次元が一致すること)、(ii)画像埋め込みモデルΦθCNN(I)により学習された表現を視覚的埋め込み空間からトークン表現空間へのマッピングを分離するために、そして、(iii)F−CNNが畳み込み変換を使用して視覚的埋め込みべクトルの空間グリッドを出力する時、次を得るためのベクトルの配列を獲得するために使用される:
Figure 2021166046
ここで、q∈Rは質疑ベクトルとして使用される、マスクされたトークンの潜在表現であり、KとVは畳み込みブロックにより計算されたRMXDのキー及び値であり(表記法をより簡単に作るために、畳み込みブロックがW×H次元空間グリッドをM=W×Hサイズの配列に平坦化すると仮定する)、なお、γ(q,K,V)はマスクされたトークン表現を質疑することにより獲得したRからコンテキスト化した視覚的埋め込みを生成する。
最終的に、γ(q,K,V)は、前述したように、トークン語彙空間にマッピングされる。訓練中に、θCNN及びθは、次の通り数式(1)に定義されたトークン予測損失を最適化することにより調整される:
Figure 2021166046
モデルを、効率的な画像表現を学習するための能力と関連して評価する一般の慣行には、3つの考慮事項がある。
第1の考慮事項は、ターゲットタスクのスペクトラムと関連がある:広範囲なターゲットタスクから表現を一般化できるか。例えば、自動エンコーダにより学習された表現がオブジェクト分類から表面推定又は視覚的探索に至る多様なタスクに有用であるか。
第2及び第3の考慮事項は、所望の性能を達成するのに必要なパラメーター及び注釈付けされた訓練サンプルの数と関連がある:モデルが計算的により低廉なアーキテクチャ又は非常に少ない注釈付けされたデータを用いて、特定ターゲットタスクにおいて同一の性能水準を達成できるか。
これらの基本様態に基づいてモデルをベンチマークするために、オブジェクト分類、検知及び細分化、画像検索又はFSL(few-shot learning)を含んでいくつかのターゲットタスクが提案された。
視覚的な世界に関する事前知識を収集して効率的な画像表現を学習する方法としては、教師なし学習の一形態として自己教師ありプロキシタスクが提案された。
次のテストにおいて、画像条件付きマスク言語モデリングは、次のような理由により教師なし学習に基づいたアプローチと比較された。
第一に、視覚的埋め込みモデルを訓練させて評価するために解決されるプロキシ及びターゲットタスクは、互いに分離されている。画像条件付きマスク言語モデリングにおいて、視覚的埋め込みモデルは、事前訓練された言語モデルにより案内される、マスクされた単語予測タスクを解決することにより訓練される。続いて、視覚的埋め込みモデルにより学習された表現は、他の本質的に異なるビジョンタスク等、例えば、オブジェクト分類又は画像検索として評価される。
そのような意味から、追加テキスト入力(ノイズがあって不完全であるが)が使用されても、画像条件付きマスク言語モデリングは、ターゲットタスクと関連して教師なし方式により訓練される。
第二に、インターネットで発見される豊富な画像キャプションペアは、データ注釈付けのボルトネット(bottleneck)を克服するための弱い教師(weak supervision)の潜在的なソースになり得る。よって、画像条件付きマスク言語モデリングは、ビジョンタスクに対する豊富な弱い教師が活用できる、視覚的埋め込みモデルを訓練するための代替的な方法である。
第三に、教師なし学習アプローチは、ビジョンタスクのリストから画像表現を評価するためのベンチマークプロトコルを自然に確立した。これらのプロトコルを直接実験することで、画像条件付きマスク言語モデリングから得た利得が測定できる。
テストにおいて、ΦθCNNθK及びρθVモジュールは、Visual Genomeデータセットに提供された(画像、領域記述(region description))チュープル(tuple)に関するものである。Visual Genomeには108,077個の画像及び540万個の領域記述が含まれる。各々の領域記述は画像にあるオブジェクト間の特定相互作用に関するものであり、境界ボックス及びキャプション注釈と共に提供される。目標は、F−CNNを訓練するために不完全な弱い教師を活用するものであるため、実験で境界ボックス注釈は削除される。
これらの実験において、画像領域の10%未満又は90%超過を占有する領域記述は除去される。続いて、WordPieceトークン化が適用され、長さが3未満又は15超過のシーケンスは除去される。マスクできるトークンのリストは、キャプションにある最も一般的な2,000個の名詞及び形容詞からなる。そうする間に、マスクされたトークンのラベルを予測するのが目的であるため、単一ピースにトークン化する名詞及び形容詞が選択される。
名詞及び形容詞は記述にパッシングされる。領域記述及びマスクできる単語の両方を前処理した後、データセットは約1百万個の領域記述及び1,246個のマスクできる単語を有する。したがって、前記数式(1)は、(画像、領域記述)ペアに関する1246方式(way)分類問題に変換される。残りの記述のうち、50k領域記述の2個のセットをランダムに選択して検証及びテストセットを構成する。
一貫性を維持するために、AlexNet−類似畳み込みニューラルネットワークである画像埋め込みモデルΦθCNNが使用され、各々の畳み込み階層にはBatchNorm2D階層がある。テスト等において、ImageNetで事前訓練されたAlexNetチェックポイントは回転予測タスクと共にローディングされる。しかしながら、前述したように、注意メカニズムを用いて視覚的特徴がプーリングされるため、AlexNetの最後の最大プーリング及び完全に連結した階層が除去される。
ρθK及びρθVブロックは、後で2個のConv2D−BatchNorm2D−ReLU階層及び線形Conv2D階層を用いて構築される。BERTモデルのトークン表現の次元である768個のチャンネルを有する最後の線形Conv2Dを除いた各々のConv2D階層は、3×3のカーネル(kernel)及び512個のチャンネルを有する。また、ρθK及びρθVが視覚的特徴ベクトルの空間構成を理解するために、ワン−ハット(one-hat)位置埋め込みは、 ρθK及びρθVブロックに供給される前に視覚的特徴ベクトルΦθCNN(I)に結合される。モデルの全ての訓練可能なパラメーターは、各々ΦθCNN及び[ρθK,ρθV]ネットワークのパラメーターに対し、学習率が5×10−5及び5×10−4であるADAMオプティマイザを用いて、256サイズのバッチ(batch)で100k SGDアップデートを遂行することにより調整される。線形学習率減衰(linear learning rate decay)は訓練中に適用される。
画像条件付きマスク言語モデリングは、ILSVRC−2012チャレンジデータセットに対するオブジェクト分類タスクに関するいくつかの最新自己教師あり学習アプローチと比較された。このタスクに関する標準評価手順は、事前訓練されたモデルから画像表現を抽出し、凍結された表現の上部にロジスティック回帰分類器(logistic regression classifier)を訓練することを伴う。AlexNetには5個の畳み込み階層があるので、凍結された表現は各々の畳み込み階層の出力から計算され、次いで空間的にサイズが調整されることにより、各々の階層の表現が概略9k次元になる。その後、各ブランチで平坦化、BatchNorm2D及び完全連結階層が付加にされ、新しく付加されたこれらのパラメーターは、ILSVRC−2012データセットの訓練セットに対し、35エポック(epoch)の間にSGDアップデートを遂行することにより訓練される。
このタスクでの性能を計算するために、公開的に共有された保存所が使用される。比較される全てのアプローチは、画像条件付きマスク言語モデリングのようなAlexNet−類似アーキテクチャを使用する。
画像条件付きマスク言語モデリングにより訓練されたAlexNetアーキテクチャから抽出された画像表現は、自己教師あり学習アプローチに比べて大幅な改善が実現される。RotNetと画像条件付きマスク言語モデリングとを比較することで、伝達可能な表現を学習するために言語事前知識を活用する明らかな利点が実現される。また、畳み込み階層パラメーターの個数が、Deep ClusterよりAlexNetの方で実質的により大きいことができるが、画像条件付きマスク言語モデリングは、特にAlexNetに対するより一般的な表現の学習を可能にする。これと関連して、画像条件付きマスク言語モデリングにおいてF−CNNを訓練することがDeep Clusterより効率的である。
図6は、線形階層を用いたImageNet Top−1分類の正確度を示す表1である。表1の全てのアプローチは、モデル等でAlexNet−類似アーキテクチャを使用する。表1の第1の部分及び第2の部分は、そのベンチマークの上限及び下限である。
画像条件付きマスク言語モデリング及びRotNetを画像検索タスクに対してテストした。クラス水準分類タスクとは異なり、このタスクは画像の細分化した細部事項をキャプチャーする側面でモデルをベンチマークすることで、クラス内分散(intra-class variation)を選好する。
この両方のモデルにより学習された表現を評価するために、AlexNetの畳み込み階層を取り、一般化した平均プーリング、L2正規化、及び、完全連結階層が付加される。完全連結階層のパラメーターは、Landmarksデータセットのクリーン(clean)バージョンに対するAP損失を最小化することで、300エポックの間に訓練される。完全なモデルは、mAP(mean-average-precision)点数を計算することで、再訪問したOxford Buildings及びParisデータセットでテストされる。画像条件付きマスク言語モデリングタスクを解決することにより生成された画像表現は、このタスクでRotNetモデルにより獲得された相手より非常に優れている。結果は図7の表2に提示される。
不正解(distractor)は、不正解セットから不正解をランダムに選択し、選択した不正解をギャラリーセット(gallery set)に追加して選択した。
その拡張されたデータセットに対して報告された以前の最新結果と訓練されたモデルとを比較すれば、訓練されたモデルの両バージョン(r及びb)が、図4に提示された通り、最新記述(y)より非常に優れている。
要約すれば、シャムアーキテクチャを用いて、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、シャムアーキテクチャの第1のブランチは視覚的表現を生成する畳み込みニューラルネットワークであり、シャムアーキテクチャの第2のブランチはテキスト表現を生成する言語モデルニューラルネットワークであり、その方法は、(a)言語モデルニューラルネットワークのマスクされたトークンを使用し、畳み込みニューラルネットワークにより生成された画像の視覚的表現を使用して、画像条件付きマスク言語モデリングタスクを解決するステップを含み、画像条件付きマスク言語モデリングタスクを解決するステップは、(a1)画像条件付きマスク言語モデリングタスクの予測損失を計算するステップ、及び、(a2)予測損失を畳み込みニューラルネットワークに逆伝播して、畳み込みニューラルネットワークを訓練するステップを含む。
マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、(a)畳み込みニューラルネットワークに画像を入力するステップ;(b)畳み込みニューラルネットワークからH×W×C次元画像埋め込みテンソルを出力するステップ、ここで、H及びWはC次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す;(c)トークンのリストを生成するためにキャプションをトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ;(d)トークンのリスト内のトークンのうちの一つをマスクするステップ;(e)H×W×C次元画像埋め込みテンソルの視覚的特徴ベクトルを用いてマスクされたトークンを予測するステップ;(f)マスクされたトークンと関連した予測損失を決定するステップ;及び、(g)予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。
マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、(a)畳み込みニューラルネットワークに画像を入力するステップ;(b)畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ;(c)トークンのリストを生成するためにキャプションをトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ;(d)マスクされるトークンのリスト内のトークンのうちの一つをランダムに選択するステップ、ここで、選択されたトークンは正解として見なされる;(e)言語モデルニューラルネットワークを使用して、トークンの潜在表現を計算するステップ;(f)マスクされたトークンの潜在表現を質疑ベクトルとして使用して、視覚的埋め込みテンソルで視覚的埋め込みベクトルを注意深くプーリングするステップ;(g)プーリングした視覚的埋め込みベクトルをトークンにマッピングすることにより、マスクされたトークンを予測するステップ;(h)マスクされたトークンと関連した予測損失を決定するステップ;及び、(i)予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。
視覚的特徴ベクトルの視覚的埋め込みテンソルは、H×W×C次元画像埋め込みテンソルであり得、ここで、H及びWはC次元視覚的埋め込みベクトルの空間グリッドの高さ及び幅を示す。
プーリングされた視覚的特徴ベクトルは、コンテキストフィルタを用いてトークン語彙空間にマッピングされ得る。
マスクされたトークンを予測することは、視覚的埋め込みベクトルのグリッドにわたって空間注意メカニズムを使用でき、ここで、注意点数はマスクされたトークンの潜在表現によって条件付けされる。
上述の実施例の変形例、他の特徴及び機能、若しくはその対案が、望ましくは多くの異なるシステム又は応用により組み合わせできることが分かる。また、多様な突然又は意外の代案、修正、変形又はその範囲内の改善が当業者により後続的になされることができ、これは前記説明及び後述の特許請求の範囲により含まれるように意図される。

Claims (6)

  1. シャムアーキテクチャを用いて、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、前記シャムアーキテクチャの第1のブランチは視覚的表現を生成する畳み込みニューラルネットワークであり、前記シャムアーキテクチャの第2のブランチはテキスト表現を生成する言語モデルニューラルネットワークであり、前記方法は、
    (a)言語モデルニューラルネットワークのマスクされたトークンを使用し、前記畳み込みニューラルネットワークにより生成された画像の視覚的表現を使用して、画像条件付きマスク言語モデリングタスクを解決するステップを含み、
    前記画像条件付きマスク言語モデリングタスクを解決するステップは、
    (a1)前記画像条件付きマスク言語モデリングタスクの予測損失を計算するステップ;及び、
    (a2)前記予測損失を前記畳み込みニューラルネットワークに逆伝播して、前記畳み込みニューラルネットワークを訓練するステップを含む、方法。
  2. マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、
    (a)前記畳み込みニューラルネットワークに画像を入力するステップ;
    (b)前記畳み込みニューラルネットワークからH×W×C次元画像埋め込みテンソルを出力するステップ、ここで、H及びWはC次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す;
    (c)トークンのリストを生成するためにキャプションをトークン化するステップであって、少なくとも一つの前記トークンは、前記畳み込みニューラルネットワークにより受信された前記画像に対する視覚的対応を持つ、ステップ;
    (d)前記トークンのリスト内の前記トークンのうちの一つをマスクするステップ;
    (e)前記H×W×C次元画像埋め込みテンソルの視覚的特徴ベクトルを用いて、前記マスクされたトークンを予測するステップ;
    (f)前記マスクされたトークンと関連した予測損失を決定するステップ;及び、
    (g)前記予測損失を前記畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップ、を含む、方法。
  3. マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、
    (a)前記畳み込みニューラルネットワークに画像を入力するステップ;
    (b)前記畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ;
    (c)トークンのリストを生成するためにキャプションをトークン化するステップであって、少なくとも一つの前記トークンは、前記畳み込みニューラルネットワークにより受信された前記画像に対する視覚的対応を持つ、ステップ;
    (d)マスクされる前記トークンのリスト内の前記トークンのうちの一つをランダムに選択するステップであって、選択された前記トークンは正解として見なされる、ステップ;
    (e)言語モデルニューラルネットワークを用いて、前記トークンの潜在表現を計算するステップ;
    (f)前記マスクされたトークンの潜在表現を質疑ベクトルとして使用して、前記視覚的埋め込みテンソルで前記視覚的埋め込みベクトルを注意深くプーリングするステップ;
    (g)前記プーリングした視覚的埋め込みベクトルを前記トークンにマッピングすることにより、前記マスクされたトークンを予測するステップ;
    (h)前記マスクされたトークンと関連した予測損失を決定するステップ;及び、
    (i)前記予測損失を前記畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップ、を含む、方法。
  4. 視覚的特徴ベクトルの前記視覚的埋め込みテンソルは、H×W×C次元画像埋め込みテンソルであり、H及びWはC次元視覚的埋め込みベクトルの空間グリッドの高さ及び幅を示す、請求項3に記載の方法。
  5. 前記プーリングされた視覚的特徴ベクトルは、コンテキストフィルタを用いてトークン語彙空間にマッピングされる、請求項3又は4に記載の方法。
  6. 前記マスクされたトークンを予測するステップは、前記視覚的埋め込みベクトルのグリッドにわたって空間注意メカニズムを使用し、注意点数は前記マスクされたトークンの前記潜在表現によって条件付けされる、請求項3乃至5の何れか一項に記載の方法。
JP2021064797A 2020-04-07 2021-04-06 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 Active JP7195365B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/842,311 US11263753B2 (en) 2020-04-07 2020-04-07 Method for training a convolutional neural network for image recognition using image-conditioned masked language modeling
US16/842,311 2020-04-07

Publications (2)

Publication Number Publication Date
JP2021166046A true JP2021166046A (ja) 2021-10-14
JP7195365B2 JP7195365B2 (ja) 2022-12-23

Family

ID=77921160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021064797A Active JP7195365B2 (ja) 2020-04-07 2021-04-06 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法

Country Status (3)

Country Link
US (1) US11263753B2 (ja)
JP (1) JP7195365B2 (ja)
KR (1) KR102458463B1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403700B2 (en) * 2019-04-23 2022-08-02 Target Brands, Inc. Link prediction using Hebbian graph embeddings
CN111427932B (zh) * 2020-04-02 2022-10-04 南方科技大学 出行预测方法、装置、设备和存储介质
US11526678B2 (en) * 2020-05-14 2022-12-13 Naver Corporation Attention over common-sense network for natural language inference
US20220058477A1 (en) * 2020-08-21 2022-02-24 Microsoft Technology Licensing, Llc Hyperparameter Transfer Via the Theory of Infinite-Width Neural Networks
US11328172B2 (en) * 2020-08-24 2022-05-10 Huawei Technologies Co. Ltd. Method for fine-grained sketch-based scene image retrieval
US11978155B2 (en) * 2020-09-25 2024-05-07 Intel Corporation Inferred shading mechanism
US11475628B2 (en) * 2021-01-12 2022-10-18 Toyota Research Institute, Inc. Monocular 3D vehicle modeling and auto-labeling using semantic keypoints
CN112836110B (zh) * 2021-02-07 2022-09-16 四川封面传媒有限责任公司 一种热点信息挖掘方法、装置、计算机设备及存储介质
US11790885B2 (en) * 2021-05-06 2023-10-17 International Business Machines Corporation Semi-structured content aware bi-directional transformer
US20220382978A1 (en) * 2021-05-28 2022-12-01 Microsoft Technology Licensing, Llc Training masked language models based on partial sequences of tokens
KR20230069780A (ko) 2021-11-12 2023-05-19 삼성에스디에스 주식회사 멀티 모달 대화를 위한 언어 모델 학습 방법 및 장치
CN114049519A (zh) * 2021-11-17 2022-02-15 江西航天鄱湖云科技有限公司 一种光学遥感图像场景分类方法
KR102479817B1 (ko) * 2021-11-25 2022-12-21 인하대학교 산학협력단 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법
CN113936647B (zh) * 2021-12-17 2022-04-01 中国科学院自动化研究所 语音识别模型的训练方法、语音识别方法和系统
CN116486419A (zh) * 2022-01-14 2023-07-25 中国科学院深圳先进技术研究院 一种基于孪生卷积神经网络的书法字识别方法
CN115049899B (zh) * 2022-08-16 2022-11-11 粤港澳大湾区数字经济研究院(福田) 模型训练方法、指代表达式生成方法及相关设备
CN116011505B (zh) * 2023-03-15 2024-05-14 图灵人工智能研究院(南京)有限公司 基于特征对比的多模块动态模型训练方法、装置
KR102563550B1 (ko) * 2023-04-14 2023-08-11 고려대학교산학협력단 읽기 전용 프롬프트 학습 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268548A1 (en) * 2017-03-14 2018-09-20 Adobe Systems Incorporated Automatically segmenting images based on natural language phrases

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110023963B (zh) * 2016-10-26 2023-05-30 渊慧科技有限公司 使用神经网络处理文本序列
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
US11017550B2 (en) * 2017-11-15 2021-05-25 Uatc, Llc End-to-end tracking of objects
US11030414B2 (en) * 2017-12-26 2021-06-08 The Allen Institute For Artificial Intelligence System and methods for performing NLP related tasks using contextualized word representations
WO2019167240A1 (ja) * 2018-03-01 2019-09-06 日本電気株式会社 情報処理装置、制御方法、及びプログラム
US11269870B2 (en) * 2018-10-02 2022-03-08 Adobe Inc. Performing automatic segment expansion of user embeddings using multiple user embedding representation types
US10873782B2 (en) * 2018-10-02 2020-12-22 Adobe Inc. Generating user embedding representations that capture a history of changes to user trait data
EP3660733B1 (en) * 2018-11-30 2023-06-28 Tata Consultancy Services Limited Method and system for information extraction from document images using conversational interface and database querying
WO2020263389A1 (en) * 2019-06-26 2020-12-30 Hrl Laboratories, Llc System and method fdr detecting backdoor attacks in convolutional neural networks
KR20210051343A (ko) * 2019-10-30 2021-05-10 삼성에스디에스 주식회사 비지도 도메인 적응 장치 및 방법
US10949907B1 (en) * 2020-06-23 2021-03-16 Price Technologies Inc. Systems and methods for deep learning model based product matching using multi modal data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268548A1 (en) * 2017-03-14 2018-09-20 Adobe Systems Incorporated Automatically segmenting images based on natural language phrases

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIASEN LU ET AL.: "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks", [ONLINE] COMPUTER VISION AND PATTERN RECOGNITION ARXIV:1908.02265V1 [CS.CV], JPN6022019939, 6 August 2019 (2019-08-06), ISSN: 0004779691 *
NILS REIMERS, IRYNA GUREVYCH: "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", [ONLINE] COMPUTATION AND LANGUAGE (CS.CL) ARXIV:1908.10084V1 [CS.CL], JPN6022019938, 27 August 2019 (2019-08-27), ISSN: 0004779692 *
築山 将央 外3名: "Visual Question Answeringのための多種質問回答生成とTransformerを", 電子情報通信学会技術研究報告 VOL.118 NO.450 IE2018−89, JPN6022019937, 12 February 2019 (2019-02-12), JP, pages 91 - 96, ISSN: 0004779693 *

Also Published As

Publication number Publication date
KR20210124901A (ko) 2021-10-15
KR102458463B1 (ko) 2022-10-26
JP7195365B2 (ja) 2022-12-23
US11263753B2 (en) 2022-03-01
US20210312628A1 (en) 2021-10-07

Similar Documents

Publication Publication Date Title
JP2021166046A (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
CN108733792B (zh) 一种实体关系抽取方法
Lai et al. A review on deep learning techniques applied to answer selection
US20210286989A1 (en) Multi-model, multi-task trained neural network for analyzing unstructured and semi-structured electronic documents
US9858263B2 (en) Semantic parsing using deep neural networks for predicting canonical forms
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN109947912A (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
US20210271822A1 (en) Encoder, system and method for metaphor detection in natural language processing
CN111159223A (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN111613339A (zh) 一种基于深度学习的相似病历查找方法与系统
CN111209384A (zh) 基于人工智能的问答数据处理方法、装置及电子设备
CN108845990A (zh) 基于双向注意力机制的答案选择方法、装置和电子设备
Zhang et al. Deep Learning+ Student Modeling+ Clustering: A Recipe for Effective Automatic Short Answer Grading.
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN114881038A (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN115017356A (zh) 图像文本对的判断方法和装置
Luo Automatic short answer grading using deep learning
Wu et al. Question-driven multiple attention (dqma) model for visual question answer
M'Charrak Deep learning for natural language processing (nlp) using variational autoencoders (vae)
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
Herok et al. Image Captioning Using Scene Graph and Language Decoder
Trembczyk Answer Triggering Mechanisms in Neural Reading Comprehension-based Question Answering Systems
Papastavrou Advancing visual word disambiguation: A hybrid approach with large language models, transformers and introduction to novel hybrid ArPa Model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221213

R150 Certificate of patent or registration of utility model

Ref document number: 7195365

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150