JP7345050B2

JP7345050B2 - 画像における自然言語句の文脈接地

Info

Publication number: JP7345050B2
Application number: JP2022506821A
Authority: JP
Inventors: ファーレイレイ、; アシムカダヴ、; ニンシエ、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-09-12
Filing date: 2020-09-10
Publication date: 2023-09-14
Anticipated expiration: 2040-09-10
Also published as: US20210081728A1; WO2021050776A1; US11620814B2; DE112020004321T5; JP2022543123A

Description

本開示は、一般に言語テキストおよび画像に関する。より詳細には、言語テキストを画像に含まれる視覚オブジェクトと対応付ける技術を記載する。

言語接地（ｇｒｏｕｎｄｉｎｇ）は、テキストエンティティと画像内のオブジェクトとの間の対応を理解することを必要とする視覚的推論の課題に対処するための基本的なタスクである。言語接地の１つの単純な実世界適用は、テキスト質問を入力として取り込み、その質問の言語エンティティによって参照される所与の画像内の視覚オブジェクトを出力として返す自然言語検索システムである。かかる大きな必要性および有用性にもかかわらず、言語接地を実行する自動化されたシステム、方法、および構造は、当該技術分野ではまだ解決されていない重要な技術的課題を提示する。

当該技術分野の進歩は、画像における自然言語エンティティの文脈接地を提供するシステム、方法、および構造に関する本開示の態様に従ってなされる。

従来技術とは対照的に、本開示の態様によるシステム、方法、および構造は、対応するテキストエンティティと画像領域との文脈を有利に捕捉し、それによって接地精度を改善する新規なアーキテクチャを導入する。

さらに、従来技術とは対照的に、本開示の態様によるシステム、方法、および構造は、特定の埋め込みまたは物体特徴抽出なしに、それぞれ対応するテキストおよび画像における文脈を捕捉する文脈接地アプローチを導入する。

動作上、本明細書で開示される本発明のアーキテクチャは、事前訓練されたテキストトークン埋め込みと物体検出器からの画像オブジェクト特徴とを入力として受け付ける。方法ｄ。位置および空間情報を捕捉する追加の符号化は、特徴品質を向上させることができる。別々のテキストおよび画像の分岐は、異なるモダリティのためのそれぞれのアーキテクチャの改善を容易にする。テキスト分岐は、大規模なマスク言語モデリングタスク上で事前訓練され、一方、画像分岐はスクラッチから訓練される。

発明者らのモデルは、それぞれ高次の交互作用の層を通してテキストトークンと画像オブジェクトの文脈表現を学習する。最終的な接地ヘッドは、クロスモーダルな交互作用を通して、テキスト表現と視覚表現の間の対応をランク付けする。

最後に、発明者らの評価において、発明者らのモデルがＦｌｉｃｋｒ３０Kエンティティデータセット上で７１．３６％の最高の接地精度を達成する事を示した。クロスモーダルデータセットに対するタスクに依存しない、タスク固有の事前訓練を必要とすることが多い関連作業と比較して、競合結果を提供するための追加の事前訓練は不要である。

本開示のより完全な理解は、添付の図面を参照することによって実現され得る。

キャプション内のエンティティに対応する境界ボックスで注釈付けされたＦｌｉｃｋｒ３０Ｋエンティティからの実例画像を示す概略図である。

本開示の態様による自然言語オブジェクト検索システム図を示す概略図である。

本開示の態様による、文脈接地アーキテクチャおよびワークフローを示す概略図である。

例示的な実施形態は、図面および詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で具現化されてもよく、図面および詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。
説明

以下は、単に本開示の原理を例示するものである。したがって、当業者は、本明細書では明示的に説明または図示されていないが、本開示の原理を具体化し、その精神および範囲内に含まれる様々な構成を考案することができることが理解されよう。

また、本明細書に列挙されたすべての実施例および条件付き言語は、読者が本開示の原理および本技術を促進するために本発明者によって寄与された概念を理解するのを助けるための教育目的のためだけのものであることが意図され、そのような具体的に列挙された実施例および条件に限定されないものとして解釈されるべきである。

さらに、本開示の原理、態様、および実施形態、ならびにその特定の例を列挙する本明細書のすべての記述は、その構造的および機能的な均等物の両方を包含することが意図される。さらに、そのような均等物は、現在知られている均等物と、将来開発される均等物、すなわち、構造にかかわらず、同じ機能を実行する開発された任意の要素との両方を含むことが意図される。

したがって、たとえば、本明細書の任意のブロック図が、本開示の原理を実施する例示的な回路の概念図を表すことが、当業者には理解されよう。

本明細書で特に明記しない限り、図面を構成する図は、一定の縮尺で描かれていない。

いくつかの追加の背景として、クロスモデル推論は、テキストおよび画像のような異なるモダリティにおいてエンティティおよびオブジェクトを接地するのが困難であることに留意されたい。代表的なタスクは、視覚的質問応答（ＶＱＡ）と、テキストと画像との間の接地された特徴を活用して予測を行う画像キャプショニングとを含む。

これらのタスクにおける最近の進歩は印象的な結果を達成するが、両方のモダリティにおけるテキストエンティティと視覚オブジェクトとの間の対応の質は、説得力がなく、解釈可能でもない。これは、１つのモダリティから他のモダリティへの接地が暗黙的に訓練され、中間結果が物体検出ほど明示的に評価されないことが多いためである可能性が高い。

この問題に対処するために、視覚的接地の評価を容易にするために、言語句と画像領域との間の対応の正確な注釈を有するＦｌｉｃｋｒ３０Ｋエンティティデータセットが作成された。

図１は、キャプション内のエンティティに対応する境界ボックスで注釈付けされたＦｌｉｃｋｒ３０Ｋエンティティからの実例画像を示す概略図である。この図では、２人の男性を別々のエンティティと呼ぶ。画像内の２人の男性を一意に接地するために、接地アルゴリズムは、対応を学習するために、それぞれのコンテキストおよび属性を考慮に入れなければならない。

歴史的に長年にわたり、この局所化の課題に取り組むために、多くの深層学習に基づくアプローチが提案されてきた。そのようなアプローチの背後にある基本的なアイデアは、各エンティティおよびオブジェクトについて代表的な特徴を導出し、次いでそれらの対応をスコア付けすることである。キャプション入力のモダリティでは、個々のトークン表現は、通常、単語埋め込みから始まり、その後に、文中のテキストエンティティの文脈上の意味を捕捉するために、再帰型ニューラルネットワーク（ＲＮＮ）（通常、ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｉｅｓ（ＬＳＴＭ）またはＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔｓ（ＧＲＵ））が続く。一方、画像関心領域（ＲｏＩ）内の視覚オブジェクトは、物体検出によって抽出される。

検出された各オブジェクトは、典型的には２Ｄ畳み込みの受信フィールドを介して制限されたコンテキストを捕捉する。ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋ（ＦＰＮ）のような高度な技術は、オブジェクトサイズに対して異なる意味レベルで特徴を組み合わせることによって表現を強化する。そうであっても、これらの従来のアプローチは、テキストおよび画像の両方において、関連する長距離文脈を効果的に抽出することに制限される。この制限を考慮して、自然言語処理（ＮＬＰ）およびコンピュータビジョン（ＣＶ）タスクにおける長距離依存性に対処するために、非局所的注意技術が提案されている。

この進歩により、発明者らはテキストエンティティと視覚オブジェクトとの間の文脈的対応を推論するために、広範なモーダル内およびモーダル間の交互作用を通して表現を改善するための文脈接地アプローチを導入した。

関連作業。特徴交互作用の方法論では、機械翻訳のためのＴｒａｎｓｆｏｒｍｅｒ（トランスフォーマー）アーキテクチャは、言語要素間の交互作用を効率的に計算するための系統的アプローチを実証する。同時に、非ローカルネットワークは、トランスフォーマーをＣＶドメインに一般化し、特徴マップからプールされたオブジェクトまでの異なるレベルの粒度で特徴交互作用をサポートする。

最近、画像トランスフォーマーは、接地のためのＲｏＩレベルでの画像入力を扱いながら、画素位置における空間情報を符号化することにより、画像生成ドメインにオリジナルのトランスフォーマーアーキテクチャを適応させる。加えて、他は、大規模のマスク言語モデリングに関する事前訓練されたトランスフォーマーエンコーダとしてＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒ）を提案し、最高精度（ＳＯＴＡ）の結果を達成するための訓練下流タスクを容易にした。

以下に示すように、本発明の作業は、言語エンティティおよび視覚オブジェクトの文脈表現を共同で学習することによって、ＢＥＲＴをクロスモーダル接地タスクに拡張する。同時に、ＶｉｓｕａｌＢＥＲＴと名付けられた別の作業ラインも、単一のトランスフォーマーアーキテクチャにおける接地を取り扱うためにＢＥＲＴを統合する。しかしながら、それらのモデルは、競合結果を達成するために、クロスモーダルデータセットに対するタスクに依存しない事前訓練およびタスク固有の事前訓練の両方を必要とする。逆に、本発明者らは、追加の事前訓練なしにＳＯＴＡ結果を達成し、異なるモダリティに対するそれぞれのアーキテクチャ上の懸念を可能にする。

文脈接地

従来技術の主なアプローチは、ＲＮＮ／ＬＳＴＭを使用して、高レベルの句表現を抽出し、次いで、異なる注意機構を適用して、視覚領域への対応をランク付けする。エンティティフレーズの隠された表現は、言語文脈を考慮に入れるが、視覚オブジェクトの周りの画像文脈は対照的に、２Ｄ受信フィールドを介した物体検出に限定される。それにもかかわらず、ＲＮＮを通って遠く離れた文脈依存性を捕捉するために、画像におけるオブジェクトについてテキストのような位置順序はない。

ＮＬＰにおける最近の進歩に鑑みて、トランスフォーマーアーキテクチャは、純粋な注意技術を介して長距離依存性に対処する。ＲＮＮが組み込まれていない場合、トランスフォーマーは、範囲にかかわらず、テキストトークンが効率的に互いに交互作用することを可能にする。順序情報は、追加の位置符号化によって挿入される。このブレークスルーによって明確にされるように、画像ＲｏＩの対応する文脈表現は、符号化された空間情報とのモーダル内交互作用を介して導出され得る。

図２は、本開示の態様による自然言語オブジェクト検索システム図を示す概略図である。この図を参照すると、文脈接地モジュールが機能ブロックとして示されていることが分かる。

このようなシステムへのアクセスは、例えば、ユーザが画像に関する質問を入力し、画像での検索結果を表示するための入力フィールドを示すコンピュータブラウザを介して達成される。したがって、システムへの入力は、テキスト質問と画像のペアである。

質問は、トークンに構文解析され、物体検出器に適用（供給）されて、後続の接地のための視覚オブジェクト候補として顕著な領域を特定する。文脈接地モジュールは、エンティティ埋め込みおよび視覚オブジェクト表現の両方を入力として受け付け、それらの対応を確率でスコア付けする。最後に、最も確率スコアが高い質問言語エンティティに対応するオブジェクトが検索され、ユーザに対して境界ボックスで視覚化される。

図３は、本開示の態様による文脈接地アーキテクチャおよびワークフローを示す概略図である。

本開示の態様によれば、接地オブジェクトは、テキストおよび画像の両方における対応する文脈に、改良された精度で注意を誘導する。したがって、図３に示すような文脈接地アーキテクチャを説明する。

より詳細に説明するように、上記の文脈接地モジュールの内部では、ベクトルおよび視覚オブジェクトを埋め込む各入力エンティティが、結果として生じる表現が文脈からの特徴を伴うように、同じモダリティで互いに注意を払うように、複数の文脈交互作用層を通過する。性能をさらに改善するために、質問における文脈エンティティに順序情報を追加するための位置符号化、および画像における視覚オブジェクトの位置情報を追加するための空間符号化などの追加のエンコード機能を追加することができる。最後に、文脈接地層は、文脈エンティティおよび視覚オブジェクト表現を二つ一組でランク付けし、結果として得られるスコアを出力する。

その図に示されるように、モデルは、テキスト入力と画像入力の両方に対する２つのトランスフォーマーエンコーダ分岐から構成され、接地ヘッドに対するそれぞれの文脈表現を生成してその対応を決定する。テキスト分岐は、オリジナルのトランスフォーマーからの異なる位置埋め込みを訓練するＢＥＲＴベースのモデルから事前訓練される。一方、画像分岐は、物体検出器からの入力オブジェクトとしてＲｏＩ特徴を取り込む。

これに対応して、画像全体に正規化されたＲｏＩの位置およびサイズの絶対的空間情報が与えられると、空間埋め込みを生成するように２層の多層パーセプトロン（ＭＬＰ）を訓練する。両方の分岐は、第１の交互作用層への入力として、トークンおよびＲｏＩにそれぞれ位置および空間埋め込みを追加する。各層において、各隠れ表現は、層出力として新規の隠れ表現を生成するために、互いに自己注意（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）を実行する。自己注意は、代表性を強化するために、マルチヘッドであってもよい。各分岐の終わりに、最終的な隠れ状態が接地ヘッドに供給され、質問としてテキストエンティティの隠れ状態を、キーとして画像オブジェクトの隠れ表現を用いて、クロスモーダルな注意を実行する。注意応答は、マッチング対応として機能する。対応がグラウンドトゥルースと一致しない場合、エンティティ当たりの平均二値クロスエントロピー損失は、分岐にわたって交互作用を導くように逆伝播される。Ｆｌｉｃｋｒ３０Ｋエンティティデータセット上の接地リコールを評価し、その結果を次節のＳＯＴＡ作業と比較する。

評価

本発明の文脈接地アプローチは、テキストエンティティおよび画像オブジェクトの両方における文脈を捕捉するために、トランスフォーマーエンコーダを使用する。テキスト分岐がＢＥＲＴから事前訓練されている間、画像分岐はスクラッチから訓練される。トランスフォーマーの複雑さの観点から、以前の作業は、異なる数の交互作用層と注意ヘッドとにより性能が変化することを示した。また、モーダル内オブジェクト交互作用は、何らかの位置符号化または空間符号化が適用されない限り、空間における関係を必ずしも考慮しない。本発明者らの評価では、表１に要約された性能変動を探索するために空間符号化を追加することに加えて、層およびヘッドの数の両方を変化させる。

我々は、以前のＳＯＴＡＢＡＮによって使用されたのと同じ物体検出器に基づいて、全てのトップ１、５及び１０リコール（ｒｅｃａｌｌｓ）においてＳＯＴＡ結果を達成する。エンティティタイプごとのリコールの内訳を表２に示す。そこに見られるように、８つのエンティティタイプのうちの６つは、本発明の文脈接地から利益を得る。興味深いことに、機器（Ｉｎｓｔｒｕｍｅｎｔ）の種類のリコールは損なわれる。これは、データセット内の機器インスタンスの数が比較的少ないことに起因し、モデルが文脈をうまく学習することを妨げる。

一方、７６８次元の隠れサイズを備えた、１２層と１２ヘッドとから成るテキスト分岐と比較して、１層と、２注意ヘッドと２０４８次元の隠れサイズとを持つ画像分岐で最良の性能を達成した。さらに、空間埋め込みを加えると、精度が一貫して０．５％程度改善される。これは、画像オブジェクトが、その意味のための代表的な隠れ状態を生成するために文脈を必要とする単語埋め込みとは異なり、受信フィールドを介していくつかの近傍情報を既に捕捉している可能性があるためである。

最後に、表３で、結果を、進行中の最近の研究、すなわちＶｉｓｕａｌＢＥＲＴと比較した。これは、また、最初にテキストと画像入力を融合することにより表現を学習する単一のトランスフォーマーアーキテクチャに基づいて、改善された接地結果を達成した。わずかに、上位１位のリコールでは、本発明の性能が上がっている。

本開示の態様による本発明のアプローチは、ＣＯＣＯキャプショニングおよびターゲットデータセットに関するタスクに依存しない事前訓練およびタスク固有の事前訓練を必要とするＶｉｓｕａｌＢＥＲＴとは異なり、競合結果をもたらすための同様の事前訓練を必要としないことに有利に留意されたい。さらに、本発明のアーキテクチャは、それぞれ異なる入力モダリティに適応するように適応性もある。

要約すると、当業者は、本開示の態様によるシステム、方法、および構造が、関連するテキストエンティティを対応する視覚オブジェクトとマッチングさせることによって、接地モジュールの性能を有利に改善することを理解する。さらに理解され、認識されるように、本開示に関して、テキストエンティティ埋め込みと、以下のステップに続く対応によって後にランク付けされる視覚オブジェクト表現とを、それぞれ受け付ける２つの分岐がある。

最初に、２つの分岐は、テキスト質問と画像の入力が前処理され、幾つかの埋め込みとオブジェクト表現に変換されると想定する。特に、入力質問は、テキスト分岐入力として言語エンティティ埋め込みを抽出するために、単語またはより小さなトークンでトークン化される。有利には、位置符号化のような追加情報を使用して、トークンのシーケンスの順序情報を充実させることができる。符号化は、互いの絶対的１Ｄ位置または相対的位置から導出し、訓練することができ、また、符号化は、後続の文脈交互作用層にわたって入力要素および／または注意に適用することができる。入力視覚オブジェクトは、画像分岐入力としてオブジェクト特徴を提供する何らかの物体検出器によって抽出される。この点において、空間符号化などの追加情報を使用して、異なる視覚オブジェクト間の空間関係を区別することができ、符号化は、互いに対する絶対的２Ｄ相対的位置から導出し、訓練することができ、符号化を、後続の文脈交互作用層にわたって入力要素および／または注意に適用することができる。

第２に、次に、各ブランチの後に、１つまたは複数の文脈交互作用層が続き、同じモダリティからの入力要素は、層出力表現として関連する文脈を捕捉するために互いに注意を払う。

第３に、最後の層の言語エンティティ埋め込みと視覚オブジェクト表現とのすべてのペアがスコア付けされ、それらの対応が確率における接地出力としてランク付けされる。

ここまで、いくつかの特定の実施例を使用して本開示を提示したが、当業者は本教示がそのように限定されないことを認識するのであろう。したがって、本開示は、本明細書に添付される特許請求の範囲によってのみ限定されるべきである。

Claims

テキスト分岐および画像分岐を含むテキスト画像検索のための方法であって、該方法は、
テキスト質問と画像とを入力として受信し、
前記入力したテキスト質問をトークンに構文解析し、それらをエンティティ埋め込みベクトルに変換し、
前記入力した画像内の視覚オブジェクト候補を特定し、
前記エンティティ埋め込みと視覚オブジェクト候補との間の対応をスコア付けし、
境界ボックスで視覚化された、最も高い確率のスコアを持つ質問テキストエンティティに対応するオブジェクトを、システムのユーザに提供し、
前記画像分岐によって、物体検出器から入力対象として関心領域（ＲｏＩ）特徴を受信し、
２層の多層パーセプトロン（ＭＬＰ）を訓練して、画像全体に正規化された前記ＲｏＩの位置およびサイズの絶対的空間情報を与えられた空間埋め込みを生成することを含み、
特定の埋め込みまたはオブジェクト特徴抽出が前記方法で使用されない、方法。
ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）ベースのモデルを使用して前記テキスト分岐を事前訓練することをさらに含む、請求項１に記載のシステムの方法。
分岐の両方によって、前記ＭＬＰの第１の交互作用層への入力として、トークンおよびＲｏＩにそれぞれ位置および空間埋め込みを追加することを、さらに含む、請求項１に記載の方法。
前記ＭＬＰの各層において、各隠れ表現による自己注意を互いに実行して、層出力として新規の隠れ表現を生成することを、さらに含む、請求項３に記載の方法。
各分岐の終わりで、最終的な隠れ状態を接地ヘッドに提供して、質問としてテキストエンティティの隠れ状態を、キーとして画像オブジェクトの隠れ表現を有するクロスモーダルな注意応答を提供することを、さらに含む、請求項４に記載の方法。
一致する対応が前記注意応答から決定される、請求項５に記載の方法。
前記対応がグラウンドトゥルースと一致しない場合に、エンティティごとに平均二値クロスエントロピー損失を逆伝搬することを、さらに含む、請求項６に記載の方法。