JP7345050B2 - 画像における自然言語句の文脈接地 - Google Patents

画像における自然言語句の文脈接地 Download PDF

Info

Publication number
JP7345050B2
JP7345050B2 JP2022506821A JP2022506821A JP7345050B2 JP 7345050 B2 JP7345050 B2 JP 7345050B2 JP 2022506821 A JP2022506821 A JP 2022506821A JP 2022506821 A JP2022506821 A JP 2022506821A JP 7345050 B2 JP7345050 B2 JP 7345050B2
Authority
JP
Japan
Prior art keywords
image
text
entity
input
grounding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022506821A
Other languages
English (en)
Other versions
JP2022543123A (ja
Inventor
ファーレイ レイ、
アシム カダヴ、
ニン シエ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022543123A publication Critical patent/JP2022543123A/ja
Application granted granted Critical
Publication of JP7345050B2 publication Critical patent/JP7345050B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Description

本開示は、一般に言語テキストおよび画像に関する。より詳細には、言語テキストを画像に含まれる視覚オブジェクトと対応付ける技術を記載する。
言語接地(grounding)は、テキストエンティティと画像内のオブジェクトとの間の対応を理解することを必要とする視覚的推論の課題に対処するための基本的なタスクである。言語接地の1つの単純な実世界適用は、テキスト質問を入力として取り込み、その質問の言語エンティティによって参照される所与の画像内の視覚オブジェクトを出力として返す自然言語検索システムである。かかる大きな必要性および有用性にもかかわらず、言語接地を実行する自動化されたシステム、方法、および構造は、当該技術分野ではまだ解決されていない重要な技術的課題を提示する。
当該技術分野の進歩は、画像における自然言語エンティティの文脈接地を提供するシステム、方法、および構造に関する本開示の態様に従ってなされる。
従来技術とは対照的に、本開示の態様によるシステム、方法、および構造は、対応するテキストエンティティと画像領域との文脈を有利に捕捉し、それによって接地精度を改善する新規なアーキテクチャを導入する。
さらに、従来技術とは対照的に、本開示の態様によるシステム、方法、および構造は、特定の埋め込みまたは物体特徴抽出なしに、それぞれ対応するテキストおよび画像における文脈を捕捉する文脈接地アプローチを導入する。
動作上、本明細書で開示される本発明のアーキテクチャは、事前訓練されたテキストトークン埋め込みと物体検出器からの画像オブジェクト特徴とを入力として受け付ける。方法d。位置および空間情報を捕捉する追加の符号化は、特徴品質を向上させることができる。別々のテキストおよび画像の分岐は、異なるモダリティのためのそれぞれのアーキテクチャの改善を容易にする。テキスト分岐は、大規模なマスク言語モデリングタスク上で事前訓練され、一方、画像分岐はスクラッチから訓練される。
発明者らのモデルは、それぞれ高次の交互作用の層を通してテキストトークンと画像オブジェクトの文脈表現を学習する。最終的な接地ヘッドは、クロスモーダルな交互作用を通して、テキスト表現と視覚表現の間の対応をランク付けする。
最後に、発明者らの評価において、発明者らのモデルがFlickr30Kエンティティデータセット上で71.36%の最高の接地精度を達成する事を示した。クロスモーダルデータセットに対するタスクに依存しない、タスク固有の事前訓練を必要とすることが多い関連作業と比較して、競合結果を提供するための追加の事前訓練は不要である。
本開示のより完全な理解は、添付の図面を参照することによって実現され得る。
キャプション内のエンティティに対応する境界ボックスで注釈付けされたFlickr30Kエンティティからの実例画像を示す概略図である。
本開示の態様による自然言語オブジェクト検索システム図を示す概略図である。
本開示の態様による、文脈接地アーキテクチャおよびワークフローを示す概略図である。
例示的な実施形態は、図面および詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で具現化されてもよく、図面および詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。
説明
以下は、単に本開示の原理を例示するものである。したがって、当業者は、本明細書では明示的に説明または図示されていないが、本開示の原理を具体化し、その精神および範囲内に含まれる様々な構成を考案することができることが理解されよう。
また、本明細書に列挙されたすべての実施例および条件付き言語は、読者が本開示の原理および本技術を促進するために本発明者によって寄与された概念を理解するのを助けるための教育目的のためだけのものであることが意図され、そのような具体的に列挙された実施例および条件に限定されないものとして解釈されるべきである。
さらに、本開示の原理、態様、および実施形態、ならびにその特定の例を列挙する本明細書のすべての記述は、その構造的および機能的な均等物の両方を包含することが意図される。さらに、そのような均等物は、現在知られている均等物と、将来開発される均等物、すなわち、構造にかかわらず、同じ機能を実行する開発された任意の要素との両方を含むことが意図される。
したがって、たとえば、本明細書の任意のブロック図が、本開示の原理を実施する例示的な回路の概念図を表すことが、当業者には理解されよう。
本明細書で特に明記しない限り、図面を構成する図は、一定の縮尺で描かれていない。
いくつかの追加の背景として、クロスモデル推論は、テキストおよび画像のような異なるモダリティにおいてエンティティおよびオブジェクトを接地するのが困難であることに留意されたい。代表的なタスクは、視覚的質問応答(VQA)と、テキストと画像との間の接地された特徴を活用して予測を行う画像キャプショニングとを含む。
これらのタスクにおける最近の進歩は印象的な結果を達成するが、両方のモダリティにおけるテキストエンティティと視覚オブジェクトとの間の対応の質は、説得力がなく、解釈可能でもない。これは、1つのモダリティから他のモダリティへの接地が暗黙的に訓練され、中間結果が物体検出ほど明示的に評価されないことが多いためである可能性が高い。
この問題に対処するために、視覚的接地の評価を容易にするために、言語句と画像領域との間の対応の正確な注釈を有するFlickr30Kエンティティデータセットが作成された。
図1は、キャプション内のエンティティに対応する境界ボックスで注釈付けされたFlickr30Kエンティティからの実例画像を示す概略図である。この図では、2人の男性を別々のエンティティと呼ぶ。画像内の2人の男性を一意に接地するために、接地アルゴリズムは、対応を学習するために、それぞれのコンテキストおよび属性を考慮に入れなければならない。
歴史的に長年にわたり、この局所化の課題に取り組むために、多くの深層学習に基づくアプローチが提案されてきた。そのようなアプローチの背後にある基本的なアイデアは、各エンティティおよびオブジェクトについて代表的な特徴を導出し、次いでそれらの対応をスコア付けすることである。キャプション入力のモダリティでは、個々のトークン表現は、通常、単語埋め込みから始まり、その後に、文中のテキストエンティティの文脈上の意味を捕捉するために、再帰型ニューラルネットワーク(RNN)(通常、Long Short-Term Memories(LSTM)またはGated Recurrent Units(GRU))が続く。一方、画像関心領域(RoI)内の視覚オブジェクトは、物体検出によって抽出される。
検出された各オブジェクトは、典型的には2D畳み込みの受信フィールドを介して制限されたコンテキストを捕捉する。feature pyramid network(FPN)のような高度な技術は、オブジェクトサイズに対して異なる意味レベルで特徴を組み合わせることによって表現を強化する。そうであっても、これらの従来のアプローチは、テキストおよび画像の両方において、関連する長距離文脈を効果的に抽出することに制限される。この制限を考慮して、自然言語処理(NLP)およびコンピュータビジョン(CV)タスクにおける長距離依存性に対処するために、非局所的注意技術が提案されている。
この進歩により、発明者らはテキストエンティティと視覚オブジェクトとの間の文脈的対応を推論するために、広範なモーダル内およびモーダル間の交互作用を通して表現を改善するための文脈接地アプローチを導入した。
関連作業。特徴交互作用の方法論では、機械翻訳のためのTransformer(トランスフォーマー)アーキテクチャは、言語要素間の交互作用を効率的に計算するための系統的アプローチを実証する。同時に、非ローカルネットワークは、トランスフォーマーをCVドメインに一般化し、特徴マップからプールされたオブジェクトまでの異なるレベルの粒度で特徴交互作用をサポートする。
最近、画像トランスフォーマーは、接地のためのRoIレベルでの画像入力を扱いながら、画素位置における空間情報を符号化することにより、画像生成ドメインにオリジナルのトランスフォーマーアーキテクチャを適応させる。加えて、他は、大規模のマスク言語モデリングに関する事前訓練されたトランスフォーマーエンコーダとしてBERT(Bidirectional Encoder Representations from Transformer)を提案し、最高精度(SOTA)の結果を達成するための訓練下流タスクを容易にした。
以下に示すように、本発明の作業は、言語エンティティおよび視覚オブジェクトの文脈表現を共同で学習することによって、BERTをクロスモーダル接地タスクに拡張する。同時に、VisualBERTと名付けられた別の作業ラインも、単一のトランスフォーマーアーキテクチャにおける接地を取り扱うためにBERTを統合する。しかしながら、それらのモデルは、競合結果を達成するために、クロスモーダルデータセットに対するタスクに依存しない事前訓練およびタスク固有の事前訓練の両方を必要とする。逆に、本発明者らは、追加の事前訓練なしにSOTA結果を達成し、異なるモダリティに対するそれぞれのアーキテクチャ上の懸念を可能にする。
文脈接地
従来技術の主なアプローチは、RNN/LSTMを使用して、高レベルの句表現を抽出し、次いで、異なる注意機構を適用して、視覚領域への対応をランク付けする。エンティティフレーズの隠された表現は、言語文脈を考慮に入れるが、視覚オブジェクトの周りの画像文脈は対照的に、2D受信フィールドを介した物体検出に限定される。それにもかかわらず、RNNを通って遠く離れた文脈依存性を捕捉するために、画像におけるオブジェクトについてテキストのような位置順序はない。
NLPにおける最近の進歩に鑑みて、トランスフォーマーアーキテクチャは、純粋な注意技術を介して長距離依存性に対処する。RNNが組み込まれていない場合、トランスフォーマーは、範囲にかかわらず、テキストトークンが効率的に互いに交互作用することを可能にする。順序情報は、追加の位置符号化によって挿入される。このブレークスルーによって明確にされるように、画像RoIの対応する文脈表現は、符号化された空間情報とのモーダル内交互作用を介して導出され得る。
図2は、本開示の態様による自然言語オブジェクト検索システム図を示す概略図である。この図を参照すると、文脈接地モジュールが機能ブロックとして示されていることが分かる。
このようなシステムへのアクセスは、例えば、ユーザが画像に関する質問を入力し、画像での検索結果を表示するための入力フィールドを示すコンピュータブラウザを介して達成される。したがって、システムへの入力は、テキスト質問と画像のペアである。
質問は、トークンに構文解析され、物体検出器に適用(供給)されて、後続の接地のための視覚オブジェクト候補として顕著な領域を特定する。文脈接地モジュールは、エンティティ埋め込みおよび視覚オブジェクト表現の両方を入力として受け付け、それらの対応を確率でスコア付けする。最後に、最も確率スコアが高い質問言語エンティティに対応するオブジェクトが検索され、ユーザに対して境界ボックスで視覚化される。
図3は、本開示の態様による文脈接地アーキテクチャおよびワークフローを示す概略図である。
本開示の態様によれば、接地オブジェクトは、テキストおよび画像の両方における対応する文脈に、改良された精度で注意を誘導する。したがって、図3に示すような文脈接地アーキテクチャを説明する。
より詳細に説明するように、上記の文脈接地モジュールの内部では、ベクトルおよび視覚オブジェクトを埋め込む各入力エンティティが、結果として生じる表現が文脈からの特徴を伴うように、同じモダリティで互いに注意を払うように、複数の文脈交互作用層を通過する。性能をさらに改善するために、質問における文脈エンティティに順序情報を追加するための位置符号化、および画像における視覚オブジェクトの位置情報を追加するための空間符号化などの追加のエンコード機能を追加することができる。最後に、文脈接地層は、文脈エンティティおよび視覚オブジェクト表現を二つ一組でランク付けし、結果として得られるスコアを出力する。
その図に示されるように、モデルは、テキスト入力と画像入力の両方に対する2つのトランスフォーマーエンコーダ分岐から構成され、接地ヘッドに対するそれぞれの文脈表現を生成してその対応を決定する。テキスト分岐は、オリジナルのトランスフォーマーからの異なる位置埋め込みを訓練するBERTベースのモデルから事前訓練される。一方、画像分岐は、物体検出器からの入力オブジェクトとしてRoI特徴を取り込む。
これに対応して、画像全体に正規化されたRoIの位置およびサイズの絶対的空間情報が与えられると、空間埋め込みを生成するように2層の多層パーセプトロン(MLP)を訓練する。両方の分岐は、第1の交互作用層への入力として、トークンおよびRoIにそれぞれ位置および空間埋め込みを追加する。各層において、各隠れ表現は、層出力として新規の隠れ表現を生成するために、互いに自己注意(self-attention)を実行する。自己注意は、代表性を強化するために、マルチヘッドであってもよい。各分岐の終わりに、最終的な隠れ状態が接地ヘッドに供給され、質問としてテキストエンティティの隠れ状態を、キーとして画像オブジェクトの隠れ表現を用いて、クロスモーダルな注意を実行する。注意応答は、マッチング対応として機能する。対応がグラウンドトゥルースと一致しない場合、エンティティ当たりの平均二値クロスエントロピー損失は、分岐にわたって交互作用を導くように逆伝播される。Flickr30Kエンティティデータセット上の接地リコールを評価し、その結果を次節のSOTA作業と比較する。
評価
本発明の文脈接地アプローチは、テキストエンティティおよび画像オブジェクトの両方における文脈を捕捉するために、トランスフォーマーエンコーダを使用する。テキスト分岐がBERTから事前訓練されている間、画像分岐はスクラッチから訓練される。トランスフォーマーの複雑さの観点から、以前の作業は、異なる数の交互作用層と注意ヘッドとにより性能が変化することを示した。また、モーダル内オブジェクト交互作用は、何らかの位置符号化または空間符号化が適用されない限り、空間における関係を必ずしも考慮しない。本発明者らの評価では、表1に要約された性能変動を探索するために空間符号化を追加することに加えて、層およびヘッドの数の両方を変化させる。
我々は、以前のSOTA BANによって使用されたのと同じ物体検出器に基づいて、全てのトップ1、5及び10リコール(recalls)においてSOTA結果を達成する。エンティティタイプごとのリコールの内訳を表2に示す。そこに見られるように、8つのエンティティタイプのうちの6つは、本発明の文脈接地から利益を得る。興味深いことに、機器(Instrument)の種類のリコールは損なわれる。これは、データセット内の機器インスタンスの数が比較的少ないことに起因し、モデルが文脈をうまく学習することを妨げる。
一方、768次元の隠れサイズを備えた、12層と12ヘッドとから成るテキスト分岐と比較して、1層と、2注意ヘッドと2048次元の隠れサイズとを持つ画像分岐で最良の性能を達成した。さらに、空間埋め込みを加えると、精度が一貫して0.5%程度改善される。これは、画像オブジェクトが、その意味のための代表的な隠れ状態を生成するために文脈を必要とする単語埋め込みとは異なり、受信フィールドを介していくつかの近傍情報を既に捕捉している可能性があるためである。
最後に、表3で、結果を、進行中の最近の研究、すなわちVisualBERTと比較した。これは、また、最初にテキストと画像入力を融合することにより表現を学習する単一のトランスフォーマーアーキテクチャに基づいて、改善された接地結果を達成した。わずかに、上位1位のリコールでは、本発明の性能が上がっている。
本開示の態様による本発明のアプローチは、COCOキャプショニングおよびターゲットデータセットに関するタスクに依存しない事前訓練およびタスク固有の事前訓練を必要とするVisualBERTとは異なり、競合結果をもたらすための同様の事前訓練を必要としないことに有利に留意されたい。さらに、本発明のアーキテクチャは、それぞれ異なる入力モダリティに適応するように適応性もある。
Figure 0007345050000001

Figure 0007345050000002

Figure 0007345050000003
本開示の態様による本発明のアプローチは、COCOキャプショニングおよびターゲットデータセットに関するタスクに依存しない事前訓練およびタスク固有の事前訓練を必要とするVisualBERTとは異なり、競合結果をもたらすための同様の事前訓練を必要としないことに有利に留意されたい。さらに、本発明のアーキテクチャは、それぞれ異なる入力モダリティに適応するように適応性もある。
要約すると、当業者は、本開示の態様によるシステム、方法、および構造が、関連するテキストエンティティを対応する視覚オブジェクトとマッチングさせることによって、接地モジュールの性能を有利に改善することを理解する。さらに理解され、認識されるように、本開示に関して、テキストエンティティ埋め込みと、以下のステップに続く対応によって後にランク付けされる視覚オブジェクト表現とを、それぞれ受け付ける2つの分岐がある。
最初に、2つの分岐は、テキスト質問と画像の入力が前処理され、幾つかの埋め込みとオブジェクト表現に変換されると想定する。特に、入力質問は、テキスト分岐入力として言語エンティティ埋め込みを抽出するために、単語またはより小さなトークンでトークン化される。有利には、位置符号化のような追加情報を使用して、トークンのシーケンスの順序情報を充実させることができる。符号化は、互いの絶対的1D位置または相対的位置から導出し、訓練することができ、また、符号化は、後続の文脈交互作用層にわたって入力要素および/または注意に適用することができる。入力視覚オブジェクトは、画像分岐入力としてオブジェクト特徴を提供する何らかの物体検出器によって抽出される。この点において、空間符号化などの追加情報を使用して、異なる視覚オブジェクト間の空間関係を区別することができ、符号化は、互いに対する絶対的2D相対的位置から導出し、訓練することができ、符号化を、後続の文脈交互作用層にわたって入力要素および/または注意に適用することができる。
第2に、次に、各ブランチの後に、1つまたは複数の文脈交互作用層が続き、同じモダリティからの入力要素は、層出力表現として関連する文脈を捕捉するために互いに注意を払う。
第3に、最後の層の言語エンティティ埋め込みと視覚オブジェクト表現とのすべてのペアがスコア付けされ、それらの対応が確率における接地出力としてランク付けされる。
ここまで、いくつかの特定の実施例を使用して本開示を提示したが、当業者は本教示がそのように限定されないことを認識するのであろう。したがって、本開示は、本明細書に添付される特許請求の範囲によってのみ限定されるべきである。

Claims (7)

  1. テキスト分岐および画像分岐を含むテキスト画像検索のための方法であって、該方法は、
    テキスト質問と画像とを入力として受信し、
    前記入力したテキスト質問をトークンに構文解析し、それらをエンティティ埋め込みベクトルに変換し、
    前記入力した画像内の視覚オブジェクト候補を特定し、
    前記エンティティ埋め込みと視覚オブジェクト候補との間の対応をスコア付けし、
    境界ボックスで視覚化された、最も高い確率のスコアを持つ質問テキストエンティティに対応するオブジェクトを、システムのユーザに提供し、
    前記画像分岐によって、物体検出器から入力対象として関心領域(RoI)特徴を受信し、
    2層の多層パーセプトロン(MLP)を訓練して、画像全体に正規化された前記RoIの位置およびサイズの絶対的空間情報を与えられた空間埋め込みを生成することを含み、
    特定の埋め込みまたはオブジェクト特徴抽出が前記方法で使用されない、方法。
  2. BERT(Bidirectional Encoder Representations from Transformers)ベースのモデルを使用して前記テキスト分岐を事前訓練することをさらに含む、請求項1に記載のシステムの方法。
  3. 分岐の両方によって、前記MLPの第1の交互作用層への入力として、トークンおよびRoIにそれぞれ位置および空間埋め込みを追加することを、さらに含む、請求項に記載の方法。
  4. 前記MLPの各層において、各隠れ表現による自己注意を互いに実行して、層出力として新規の隠れ表現を生成することを、さらに含む、請求項に記載の方法。
  5. 各分岐の終わりで、最終的な隠れ状態を接地ヘッドに提供して、質問としてテキストエンティティの隠れ状態を、キーとして画像オブジェクトの隠れ表現を有するクロスモーダルな注意応答を提供することを、さらに含む、請求項に記載の方法。
  6. 一致する対応が前記注意応答から決定される、請求項に記載の方法。
  7. 前記対応がグラウンドトゥルースと一致しない場合に、エンティティごとに平均二値クロスエントロピー損失を逆伝搬することを、さらに含む、請求項に記載の方法。
JP2022506821A 2019-09-12 2020-09-10 画像における自然言語句の文脈接地 Active JP7345050B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962899307P 2019-09-12 2019-09-12
US62/899,307 2019-09-12
US17/014,984 2020-09-08
US17/014,984 US11620814B2 (en) 2019-09-12 2020-09-08 Contextual grounding of natural language phrases in images
PCT/US2020/050258 WO2021050776A1 (en) 2019-09-12 2020-09-10 Contextual grounding of natural language phrases in images

Publications (2)

Publication Number Publication Date
JP2022543123A JP2022543123A (ja) 2022-10-07
JP7345050B2 true JP7345050B2 (ja) 2023-09-14

Family

ID=74865601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022506821A Active JP7345050B2 (ja) 2019-09-12 2020-09-10 画像における自然言語句の文脈接地

Country Status (4)

Country Link
US (1) US11620814B2 (ja)
JP (1) JP7345050B2 (ja)
DE (1) DE112020004321T5 (ja)
WO (1) WO2021050776A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620814B2 (en) * 2019-09-12 2023-04-04 Nec Corporation Contextual grounding of natural language phrases in images
US11809822B2 (en) * 2020-02-27 2023-11-07 Adobe Inc. Joint visual-semantic embedding and grounding via multi-task training for image searching
US11699275B2 (en) * 2020-06-17 2023-07-11 Tata Consultancy Services Limited Method and system for visio-linguistic understanding using contextual language model reasoners
US11615567B2 (en) * 2020-11-18 2023-03-28 Adobe Inc. Image segmentation using text embedding
EP4248446A1 (en) * 2020-11-23 2023-09-27 NE47 Bio, Inc. Protein database search using learned representations
US11775617B1 (en) * 2021-03-15 2023-10-03 Amazon Technologies, Inc. Class-agnostic object detection
CN113378815B (zh) * 2021-06-16 2023-11-24 南京信息工程大学 一种场景文本定位识别的系统及其训练和识别的方法
WO2022261570A1 (en) * 2021-08-04 2022-12-15 Innopeak Technology, Inc. Cross-attention system and method for fast video-text retrieval task with image clip
CN114691847B (zh) * 2022-03-10 2024-04-26 华中科技大学 基于深度感知与语义引导的关系注意力网络视觉问答方法
CN115098722B (zh) * 2022-08-25 2022-12-27 北京达佳互联信息技术有限公司 文本和图像的匹配方法、装置、电子设备和存储介质
CN116702094B (zh) * 2023-08-01 2023-12-22 国家计算机网络与信息安全管理中心 一种群体应用偏好特征表示方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262475A1 (en) 2014-12-16 2017-09-14 A9.Com, Inc. Approaches for associating terms with image regions
US20190130206A1 (en) 2017-10-27 2019-05-02 Salesforce.Com, Inc. Interpretable counting in visual question answering
US20190266236A1 (en) 2019-05-14 2019-08-29 Intel Corporation Early exit for natural language processing models

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7695960B2 (en) * 2003-06-05 2010-04-13 Transgene S.A. Composition comprising the polyprotein NS3/NS4 and the polypeptide NS5B of HCV, expression vectors including the corresponding nucleic sequences and their therapeutic use
US8521670B2 (en) * 2011-05-25 2013-08-27 HGST Netherlands B.V. Artificial neural network application for magnetic core width prediction and modeling for magnetic disk drive manufacture
US10831820B2 (en) * 2013-05-01 2020-11-10 Cloudsight, Inc. Content based image management and selection
WO2015189603A1 (en) * 2014-06-09 2015-12-17 University Of Lincoln Assembly, apparatus, system and method
US10146768B2 (en) * 2017-01-25 2018-12-04 Google Llc Automatic suggested responses to images received in messages using language model
US11288508B2 (en) * 2017-10-02 2022-03-29 Sensen Networks Group Pty Ltd System and method for machine learning-driven object detection
US10579897B2 (en) * 2017-10-02 2020-03-03 Xnor.ai Inc. Image based object detection
US11250299B2 (en) * 2018-11-01 2022-02-15 Nec Corporation Learning representations of generalized cross-modal entailment tasks
NL2021956B1 (en) * 2018-11-08 2020-05-15 Univ Johannesburg Method and system for high speed detection of diamonds
US20200250398A1 (en) * 2019-02-01 2020-08-06 Owkin Inc. Systems and methods for image classification
US11620814B2 (en) * 2019-09-12 2023-04-04 Nec Corporation Contextual grounding of natural language phrases in images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262475A1 (en) 2014-12-16 2017-09-14 A9.Com, Inc. Approaches for associating terms with image regions
US20190130206A1 (en) 2017-10-27 2019-05-02 Salesforce.Com, Inc. Interpretable counting in visual question answering
US20190266236A1 (en) 2019-05-14 2019-08-29 Intel Corporation Early exit for natural language processing models

Also Published As

Publication number Publication date
US20210081728A1 (en) 2021-03-18
WO2021050776A1 (en) 2021-03-18
US11620814B2 (en) 2023-04-04
DE112020004321T5 (de) 2022-06-09
JP2022543123A (ja) 2022-10-07

Similar Documents

Publication Publication Date Title
JP7345050B2 (ja) 画像における自然言語句の文脈接地
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
Lee et al. Sentiment classification with word localization based on weakly supervised learning with a convolutional neural network
Gong et al. Natural language inference over interaction space
JP2021166046A (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
CN108960338B (zh) 基于注意力反馈机制的图像自动语句标注方法
CN115618045B (zh) 一种视觉问答方法、装置及存储介质
Wang et al. Stroke constrained attention network for online handwritten mathematical expression recognition
Peng et al. UMass at ImageCLEF Medical Visual Question Answering (Med-VQA) 2018 Task.
CN115116066A (zh) 一种基于字符距离感知的场景文本识别方法
EP4302234A1 (en) Cross-modal processing for vision and language
Wang et al. Tag: Boosting text-vqa via text-aware visual question-answer generation
CN116595195A (zh) 一种知识图谱构建方法、装置及介质
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
Parvin et al. Transformer-based local-global guidance for image captioning
Hafeth et al. Semantic representations with attention networks for boosting image captioning
Merdivan et al. Image-based text classification using 2d convolutional neural networks
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
Tannert et al. FlowchartQA: the first large-scale benchmark for reasoning over flowcharts
Lai et al. Contextual grounding of natural language entities in images
Beltr et al. Semantic text recognition via visual question answering
Wang et al. TASTA: Text‐Assisted Spatial and Temporal Attention Network for Video Question Answering
El-Gayar Automatic Generation of Image Caption Based on Semantic Relation using Deep Visual Attention Prediction
Chandrasekar et al. Indic visual question answering
Peng et al. Transformer-based Sparse Encoder and Answer Decoder for Visual Question Answering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230904

R150 Certificate of patent or registration of utility model

Ref document number: 7345050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350