JP2017091525A - 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 - Google Patents

視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 Download PDF

Info

Publication number
JP2017091525A
JP2017091525A JP2016215579A JP2016215579A JP2017091525A JP 2017091525 A JP2017091525 A JP 2017091525A JP 2016215579 A JP2016215579 A JP 2016215579A JP 2016215579 A JP2016215579 A JP 2016215579A JP 2017091525 A JP2017091525 A JP 2017091525A
Authority
JP
Japan
Prior art keywords
question
attention
map
image feature
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016215579A
Other languages
English (en)
Other versions
JP6351689B2 (ja
Inventor
チェン・カン
Kan Chen
ワン・ジアン
Jiang Wang
シュイ・ウェイ
Wei Xu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of JP2017091525A publication Critical patent/JP2017091525A/ja
Application granted granted Critical
Publication of JP6351689B2 publication Critical patent/JP6351689B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Abstract

【課題】画像(静止画像又はビデオ画像)に関連する質問に対する解答を自動的に生成する。
【解決手段】質問に対する解答を自動的に生成するために、質問応答タスク(VQA)モデル用の注目に基づく深層学習アーキテクチャを使用する。正答を生成するために、モデルの注目を質問に応じて画像中の関連領域に合わせるのが重要であり、それは異なる質問は異なる画像領域の属性について質問する可能性があるためである。このような質問でガイドされた注目は設定可能な畳み込みニューラルネットワーク(ABC−CNN)で学習する。ABC−CNNモデルは、画像特徴マップと、質問セマンティクスで決定された設定可能な畳み込みカーネルとを畳み込むことで注目マップを決定する。質問でガイドされた注目マップは質問に関連する領域に集中し、且つ、無関係の領域からノイズがフィルタリングされる。
【選択図】図2

Description

本出願はコンピューティング技術に関して、より具体的には、画像に関連する質問の質問応答タスクを自動化させてマンマシンインタフェースを改良するシステム及び方法に関する。
如何に画像に関連する質問を自動的に回答するかが課題となっている。深層学習によって質問応答過程を自動化させることを試みたが、さらに大幅な改善が期待される。
従って、更に効果的且つ正確な方式で画像に関連する質問を回答するシステム及び方法が求められる。
一つの様態において、画像入力に関連する問題入力に対する解答の生成精度を改良するコンピュータ実施方法を提供し、この方法は、前記画像入力を受信するステップと、前記画像入力に関連する前記問題入力を受信するステップと、前記問題入力と前記画像入力を注目に基づく設置可能な畳み込みニューラルネットワーク(ABC−CNN)フレームワークに入力して解答を生成するステップとを含み、前記ABC−CNNフレームワークは、前記画像入力から画像特徴マップを抽出するCNNを含む画像特徴マップ抽出部と、前記問題入力から質問埋め込みを取得するセマンティクス質問埋め込み部と、前記画像特徴マップと前記質問埋め込みを受信して、前記問題入力で質問される領域又は複数の領域に集中する、質問でガイドされた注目マップを取得する質問ガイド注目マップ生成部と、前記の質問でガイドされた注目マップを使用して前記画像特徴マップを重み付け、注目重み付け画像特徴マップを取得し、前記画像特徴マップ、前記質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて解答を生成する解答生成部とを備える。
他の一つの様態において、画像に関連する質問に対して解答を生成するコンピュータ実施方法を提供し、この方法は、深層畳み込みニューラルネットワークを使用して複数の画素を含む入力画像から画像特徴マップを抽出するステップと、長期短期記憶(LSTM)レイヤを使用して前記入力画像に関連する入力問題において密集質問埋め込みを取得するステップと、前記密集質問埋め込みを意味空間から視覚空間に射影することによって質問で設定された複数のカーネルを生成させるステップと、質問で設定されたカーネルと前記画像特徴マップを畳み込んで質問でガイドされた注目マップを生成するステップと、前記の質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けることによって、マルチクラス分類器で注目重み付け画像特徴マップを取得するステップと、前記画像特徴マップ、前記密集質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて、前記入力問題に対して解答を生成するステップとを含んでおり、ここで、前記注目重み付け画像特徴マップが前記入力問題に無関係の領域の重みを低下させる。
さらに、他の一つの様態において、非一時的コンピュータ可読媒体又はメディアを提供し、この媒体又はメディアは、一つ又は複数のプロセッサにより実行されるときに以下の操作を実行させる一つ又は複数の命令シーケンスを含んでおり、前記操作は問題入力の受信に応答して、前記問題入力の密集質問埋め込みを抽出するステップと、前記問題入力に関連する画像入力の受信に応答して、画像特徴マップを生成するステップと、少なくとも前記画像特徴マップと前記密集質問埋め込みに基づき、前記問題入力で質問される領域に選択的に集中する、質問でガイドされた注目マップを生成するステップと、前記質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けて注目重み付け画像マップを取得するステップと、セマンティクス情報、前記画像特徴マップ及び前記注目重み付け画像マップを融合して前記問題入力に対して解答を生成するステップとを含む。
例として図面に示される本出願の実施形態を参照する。これら図面は、本出願を説明するもので制限されるものではない。本出願は、これら実施形態の内容において説明するが、本出願の範囲はこれら特定実施形態に制限されない。図面に示されている構成要素は、必ずしも一定の縮尺で描かれていない。
本出願の実施形態に係る視覚質問応答において注目の問題点を示す。 本出願の実施形態に係る例示的なパイプライン又はフレームワークを示す。 本出願の実施形態に係るクエリ処理用のLSTMフレームワークの実施形態の詳細を示す。 本出願の実施形態に係る注目重み付け画像(attention weighted image)に基づく解答生成の例示的フローチャートを示す。 本出願の実施形態に係る注目重み付け画像を生成する例示的フローチャートを示す。 本出願の実施形態に係る、それぞれのデータセットの番号で識別される画像及び対応したQAペアを示す。 本出願の実施形態に係る、画像に関連する質問と、Toronto COCO−QAデータセットにおいてABC−CNNで生成された、質問でガイドされた注目マップとを有する選択画像を示す。 本出願の実施形態に係る計算装置/情報処理システムの簡略化ブロック図を示す。
以下の説明では、解釈のために、細部を説明して本発明の理解を与える。なお、当業者にとっては、これらの細部がない場合でも本発明を実施できることが明らかである。また、本発明の下記実施形態を、プロセス、装置、システム、機器又は手段のような様々な方式で非一時的コンピュータ可読媒体において実施できることを当業者は理解すべきである。
図面に示す構成要素又はモジュールは本出願の例示的な実施形態の説明であり、本出願の混乱を避けるためものである。理解すべきであることは、明細書全体において、構成要素が単独な機能ユニット(サブユニットを含んでもよい)と記述されてもよいが、当業者は、各構成要素又はその部材が単独な構成要素に区分されることができ、又は統合される(単一のシステム又は構成要素の内部に集積されることを含む)ことができることを認識すべきである。本文に議論された機能又は操作が構成要素として実現されることができることを理解すべきである。なお、本明細書で論述される機能又は操作は構成要素として実施してもよい。構成要素はソフトウェア、ハードウェア、又はそれらの組み合わせで実施してもよい。
なお、図面内の構成要素又はシステムの間の接続は直接接続に限定されない。より具体的には、これらの校正要素の間のデータは中間校正要素で変更され、再フォーマットされ、又は他の方式で改変されてもよい。また、付加的接続又はより少ない接続を利用してもよい。また、用語「連結」、「接続」又は「通信連結」が直接接続、1つ又は複数の中間設備で実現される非直接接続及び無線接続を含むことを理解すべきである。
明細書において、「1つの実施形態」、「好ましい実施形態」、「実施形態」又は「各実施形態」とは、実施形態を合わせて説明した具体的な特徴、構造、特性又は機能が本出願の少なくとも1つの実施形態に含まれ、且つ1つの以上の実施形態に存在してもよいことを意味する。また、本明細書における複数の箇所において、上記フレーズは必ずしもすべて同一の1つ又は複数の実施形態を参照しない。
明細書における各箇所において、一部の用語の使用は例示するためであり、限定と解釈されるべきではない。サービス、機能又はリソースは単一のサービス、機能又はリソースに限定されず、これら用語の使用は、関連サービス、機能又はリソースの分散又は集約型のグループ化も意味することができる。用語「含む」、「含んでいる」、「備える」、「備えている」は、オープンエンドの用語と理解すべきであり、その後にリストされるいかなる内容は例示だけであり、リストされる項目に限定されることを意味しない。用語「画像」は静的画像又はビデオ画像を含む。本明細書で用いられている見出しは全て構成上の目的だけであり、明細書又は特許請求の範囲を限定するものではないと理解すべきである。本特許で言及される全ての参照文献は全文として援用することによって本明細書に組み込まれる。
更に、(1)一部のステップが選択的に実施されてもよい、(2)ステップは本明細書で説明される特定順番に制限されなくてもよい、(3)一部のステップは異なる順番で実行してもよい、及び(4)一部のステップは同時に実行してもよいことを、当業者が理解すべきである。
A.紹介
視覚質問応答(VQA)はコンピュータ視覚化、自然言語処理及び機械学習の積極的な学際的研究分野である。画像及び画像に関連する自然言語の質問を提供して、VQAは自然言語文で質問を回答する。VQAは人工知能を構築する基本的なステップだけでなく、多数のアプリケーション(例えば画像検索、視覚障害者ナビゲーションや早期幼児教育)にも非常に重要である。VQAは挑戦的な作業であり、それは画像を深く理解するのに複雑な計算視覚技術が必要であり、更に質問の意味を抽出するのに先進的な自然言語処理技術が必要であり、且つ視覚情報と意味情報を効果的に統合するのに統一されたフレームワークが必要であるためである。
従来、ほとんどの従来技術のVQAモデルは、視覚部分、自然言語部分及び解答生成部分を含む。視覚部分は、深層畳み込みニューラルネットワーク(CNN)(例えばY・A・レソン(Y.A.LeCun)、L・ボットウ(L.Bottou)、G・B・オル(G.B.Orr)及びK・R・ミュラー(K.R.Muller)の、「効果的なBackProp」(Efficient Backprop)、『ニューラルネットワーク:コツ』(Neural networks: Tricks of the trade))、ページ9〜48、スプリンガー社(Springer)、2012を参照)又は従来の視覚特徴抽出器を使用して入力画像から視覚特徴を抽出する。自然言語部分は、Bag−of−Wordモデル又はリカレントニューラルネットワーク(RNN)(例えばS・ホッホライ(S.Hochreiter)とJ・シュミットヒューバー(J.Schmidhuber)の、「長期短期記憶(Long short−term memory)」、『ニューラル計算』(Neural computation)、9(8):1735〜1780、1997を参照)モデルを使用して密集質問埋め込み(dense question embedding)を学習して質問の意味をコーディングする。解答生成部分は、視覚的特徴と質問埋め込みが提供された条件下で解答を生成する。解答は、マルチクラス分類器で生成された単語解答でもよく、別のRNNデコーダーで生成された完全文でもよい。グローバル視覚的特徴と密集質問埋め込みは、線形/非線形結合射影によって統合されることができる。このような統合は通常視覚部分と質問理解部分の間の関係を十分に活用できない。
本明細書では、統一されたフレームワークとして新規な注目に基づく設定可能な畳み込みニューラルネットワーク(ABC−CNN)の実施形態を提供し、VQAの視覚情報と意味情報を統合する。人は画像に関連する質問を回答する時に、回答する前に質問の意図に基づく情報領域に注意を合わせる傾向がある。例えば、図1中、「コートが何色ですか?」と聞かれたら、コートの色を判断して解答を出す前にコートの領域を見つけるのが一般的である。当該当領域を見つけるメカニズムは質問でガイドされた注目と呼ばれ、これら領域は画像及び画像に関連する質問の両方で決定されるためである。
画像及び画像に関連する質問が提供された条件下で、提案されたフレームワークは自然言語解答を生成するだけでなく、質問でガイドされた注目情報を質問を回答するための重要な証拠として提供する。実施形態では、VQAタスクは単語解答を取るが、実施形態は例えばRNNデコーダーで完全文を生成するように簡単に拡張できる。
これら質問を処理するために、注目に基づく設定可能な畳み込みニューラルネットワーク(ABC−CNN)が提案された。本出願のいくつかの実施形態に係る例示的なABC−CNNフレームワーク200は図2に示される。ABC−CNNフレームワークは、視覚部分(画像特徴マップ抽出部分とも呼ばれる)、質問理解部分、解答生成部分及び注目抽出部分を含む。図示した実施形態において、ボックス205は視覚部分又は視覚構成要素、ボックス210は質問理解部分又は質問理解構成要素、ボックス215は設定可能な畳み込みを有する注目抽出部分又は注目抽出構成要素、ボックス220は注目重み付け画像特徴マップ222に対してマルチクラス分類を応用する解答生成部分又は解答生成構成要素を示す。
実施形態において、畳み込みニューラルネットワーク(CNN)207は視覚部分から視覚的特徴を抽出することに用いられる。シングルグローバル視覚的特徴を抽出する代わりに、スライドウィンドウにおいてCNNを応用したり、完全畳み込みニューラルネットワークを利用したりすることで、空間特徴マップを抽出して重要な空間的情報を保留する。実施形態において、長期短期記憶(LSTM)モデル214は質問理解部分において質問埋め込み212を取得ることに用いられ、且つ、マルチクラス分類器は解答生成部分において解答を生成することに用いられる。視覚部分と質問理解部分は質問でガイドされた注目を活用させることで統合される。
実施形態において、質問でガイドされた注目情報は注目抽出部分215において質問でガイドされた注目マップ218として示され、注目抽出部分215はABC−CNNフレームワークのコアである。それは設定可能な畳み込みニューラルネットワークによって実現されるものであり、畳み込みカーネル216は質問埋め込みを意味空間から視覚空間に射影することによって生成される。設定可能な畳み込みカーネルは質問意味に基づいて決定された視覚情報に対応する。例えば、図1において、質問「傘が何色ですか?」は「傘」の視覚的特徴に対応した畳み込みカーネルを生成する。設定可能な畳み込みカーネルと画像特徴マップとの畳み込みは適応的に各領域の与えられた質問の応答に対する重要性を質問でガイドされた注目マップ218として表示する。質問でガイドされた注目マップ218は空間的に視覚的特徴マップを重みづけて、ノイズと独立した情報をフィルタリングすることに用いられる。実施形態において、ABC−CNNは、画像における注目領域に対する手動ラベリングを一切必要とせずに画像と言語理解を効果的に統合してエンドツーエンドの方式で訓練されることができる、統一されたフレームワークである。
実験では、本出願によるABC−CNNアーキテクチャの実施形態は三つの基準VQAデータセットについて評価され、即ち:Toronto COCOQA(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv:1505.02074.2015を参照)、DAQUAR(M・マリナウスキ(M.Malinowski)とM・フリツー(M.Fritz)の、「不確定な入力に基づいて実世界のシーンについての質問応答を行う多世界性アプローチ」(A multi−world approach to question answering about real−world scenes based on uncertain input)、『ニューラル情報処理システムの発展』(Advances in Neural Information Processing Systems)、ページ1682〜1690、2014を参照)、及びVQA(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ルー(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA:Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)。実験から明らかなように、ABC−CNNフレームワークは従来の技術方法より遥かに優れる。視覚化は、ABC−CNNアーキテクチャが質問で質問される領域をよく反映する注目マップを生成できることを実証する。
要約すれば、統一されたABC−CNNフレームワークは質問でガイドされた注目によって視覚情報と意味情報を効果的に統合してVQAに用いるものとして開示される。質問でガイドされた注目はVQAシステムの性能を著しく改良するだけでなく、質問応答過程を更に良く理解することに寄与する。
B.関連作業
VQA&画像キャプション:この二つの質問は視覚的内容の推論及び自然言語の結果の表示の点について類似性が存在する。VQA及び画像キャプションについての従来の最先端の方法はCNNで視覚的特徴を抽出し且つLSTMモデルをデコーダーとして解答又はキャプションを生成する傾向がある。一部の方法はLSTMデコーダーに解答又はキャプションが生成される期間においてマルチモデルレイヤを使用して結合射影によって視覚的特徴と単語埋め込みベクトルを組み合わせる。ほかの方法の少なくとも一種(P・セルマネット(P.Sermanet)、A・フローム(A.Frome)及びE・リール(E.Real)の、「精細分類用の注目」(Attention for fine−grained categorization)、arXivプレプリントXiv:1412.7054、2014を参照)は射影された画像特徴をLSTMデコーダーの初期状態とし、これはシーケンスツーシーケンス学習(I・スツケベル(I.Sutskever)、O・ビニャルス(O.Vinyals)及びQ・V・リ(Q.V.Le)の、「ニューラルネットワークを用いるシーケンス−シーケンス学習」(Sequence to sequence learning with neural networks)、『ニューラル情報処理システムの発展』(Advances in neural information processing systems)、ページ3104-3112、2014を参照)におけるコーデック−デコーダーフレームワークに類似する。画像特徴をグローバル視覚的特徴として処理する場合、質問中の有用な情報を活用してこれらの注目を画像における対応領域に合わせることができない。
注目モデル:注目モデルは、対象検出、精細画像分類、精細視覚認識及び画像キャプションを含む多数のコンピュータ視覚タスクに用いている。注目情報は画像中の注目領域シーケンスとしてモデリングできる。リカレントニューラルネットワークはカレント注目領域の位置及び視覚的特徴に基づいて次の注目領域を予測することに用いる。当該フレームワークをそれぞれ対象認識、対象検出及び精細対象認識に用いることがある。更に、画像キャプション用の注目に基づくモデルが開発されており、当該モデルはリカレントニューラルネットワークを生成器とすることで、文の異なる単語を生成する時に、モデルはその注目を異なる画像領域に合わせる。前記モデルは各画像における一組の提案領域を抽出し、且つ注目重みは復号化LSTM生成器の隠れ状態と各提案領域から抽出された視覚的特徴によって学習される。一つの場合では(T・Y・リン(T.Y.Lin)、A・ロイ・チョードリー(A.Roy Chowdhury)及びS・マジ(S.Maji)の、「精細視覚認識用の双線形CNNモデル」(Bilinear CNN models for fine−grained visual recognition)、arXivプレプリントarXiv:1504.07889、2015を参照)、双線形CNN構造が位置とコンテンツを組み合わせて精細画像分類に用いることが提案されている。注目がこれらの視覚タスクに成功的に応用されることに示唆され、ABC−CNNは質問でガイドされた注目を使用してVQAの性能を改良する。
設定可能な畳み込みニューラルネットワーク:小範囲天気予報用の動的畳み込みアーキテクチャ(B・クライン(B.Klein)、L・ウルフ(L.Wolf)及びY・クライン(Y.クライン)の、「小範囲天気予報用の動的畳み込みアーキテクチャ」A dynamic convolutional layer for short range weather prediction)、『IEEEコンピュータ視覚及びパターン認識プロシーディング』(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition)ページ4840〜4848、2015を参照)が提案された。動的畳み込みレイヤ中の畳み込みカーネルはニューラルネットワークによって前の時間ステップで天気画像情報をコーディングすることによって決定される。VQAでは、注目領域を決定するための最も重要な手がかりは質問である。従って、ABC−CNNフレームワークの実施形態における設定可能な畳み込みカーネルは質問埋め込みによって決定される。
C.注目に基づく設定可能なCNN
図2にはABC−CNNフレームワークの実施形態が示される。実施形態において、単語解答を有するQAペアは本明細書の主な例であり、それはタスクがマルチクラス分類の問題とみなされてよいためであり、それによって評価指標を簡略化させるとともに質問でガイドされた注目モデルの開発に焦点を合わせることを可能にする。しなしながら、注目モデルの実施形態は、マルチクラス分類モデルの代わりとしてLSTMデコーダーを使用して多単語文を生成して解答とするように簡単に広げられる。
図2に示されるように、図示したABC−CNN実施形態は、画像特徴抽出部分205、質問理解部分210、注目抽出部分215及び解答生成部分220の四つの構成要素を含む。画像特徴抽出部分205では、実施形態において、深層畳み込みニューラルネットワーク207はそれぞれの画像に対して画像特徴マップI 208を抽出して画像表示とする。実施形態において、1000クラスImageNet分類挑戦2012データセット(J・とう(J.Deng)、W・董(W.Dong)、R・ソッチ(R.Socher)、L・J・李(L.−J.Li)、K・李(K.Li)及び李菲菲(L.Fei−Fei)の、「画像ネットワーク:大規模階層型データベース」(A large−scale hierarchical image database)、『IEEEコンピュータ視覚及びパターン認識2009 CVPR2009プロシーディング』(Computer Vision and Pattern Recognition, 2009.CVPR2009.IEEE Conference on)、ページ248-255、IEEE、2009を参照)において予め訓練されたVGG−19深層畳み込みニューラルネットワーク(K・シモンヤン(K.Simonyan)とA・ジッセルマン(A.Zisserman)の、「大規模画像認識用の非常に深い畳み込みネットワーク」(A very deep convolutional networks for large−scale image recognition)、arXivプレプリント)arXiv:1409.1556、2014を参照)、及びPASCAL 2007セグメンテーションデータセットにおいて予め訓練された完全畳み込み分割ニューラルネットワーク(L・C・陳(L.C.Chen)、G・パパンドレウ(G.Papandreou)、I・コッキンノス(I.Kokkinos)、A・K・マーフィー(K.Murphy)及びA・L・ユール(A.L.Yuille)の、「深層畳み込みネットワークと完全に接続されたCRFSを用いるセマンティクス画像分割」(Semantic image segmentation with deep convolutional nets and fully connected CRFS)、arXivプレプリントarXiv:1412.7062、2014を参照)が使用される。実施形態において、質問理解部分210はLSTMレイヤ214を使用して密集質問埋め込みs213を学習して、画像に関連する質問の意味情報をコーディングする。実施形態において、ABC−CNNフレームワークのコア構成要素は注目抽出部分215である。実施形態において、注目抽出部分は密集質問埋め込みに基づき一組の畳み込みカーネル216が設置される。問題において質問される対象を特徴付けする視覚的特徴の畳み込みカーネル216は画像特徴マップ208に用いられて、質問でガイドされた注目マップ218を生成する。実施形態において、画像特徴マップI208、注目重み付け画像特徴マップ222及び密集質問埋め込み213の融合による改良に基づき、解答生成部分220はマルチクラス分類器で質問を回答する。本章の残り部分では、ABC−CNNフレームワークの各構成要素の実施形態を詳細に説明する。
1. 注目抽出
実施形態において、質問でガイドされた注目マップm(問題で質問される画像領域を反映する)は設定可能な畳み込みニューラルネットワークで各画像−質問ペアから生成される。設定可能な畳み込みニューラルネットワークにおける畳み込みカーネルは密集質問埋め込みsに基づいて密集質問埋め込みsを意味空間から視覚空間に射影することで設定されることができる。
ただし、σ(.)はsigmoid関数である。
実施形態において、密集質問表現sは問題で質問されるセマンティクス対象情報をコーディングする。実施形態において、射影が意味情報を対応した視覚情報に変換して、画像特徴マップIの数と同じチャンネルを有する質問で設定されたカーネルとする。例えば、質問が「傘が何色ですか?」であれば、質問で設定されたカーネルkは傘の視覚的特徴すべきある。
実施形態において、質問でガイドされた注目マップは質問で設定されたカーネルkを画像特徴マップIに応用することで生成されることができる。
ただし、mijは位置(i,j)での質問でガイドされた注目の要素であり、且つ符号*は畳み込み演算を示す。実施形態において、Softmax正規化は空間注目分布を発生させて質問でガイドされたマップとする。実施形態において、畳み込みは注目マップmが画像特徴マップIと同じサイズを有することを確保するために埋め込まれる。質問でガイドされた注目マップは問題で質問される領域に集中する。例えば、質問「傘が何色ですか?」によれば、画像中の傘領域に集中する注目マップを生成でき、それは畳み込みカーネルは質問に応じて傘の視覚的特徴として設定されるためである。
以下の原因で、注目マップmを使用することによって、すべての四種類の質問について質問応答の正確度は改善できる。
・ カウント質問として、例えば「対象にいくつかの自動車があるか?」について、注目マップは無関係の領域をフィルタリングすることによって、画像中の対象の数を簡単に推定することを可能にさせる。
・ 色の質問として、例えば「コートが何色ですか?」について、関連対象に焦点を合わせることで特定対象の色は更に効果的に応答されることができる。
・ 対象質問として、例えば「机の上に何が置かれていますか?」について、注目マップは関連性が低い領域、例えば背景をフィルタリングして、且つ空間関係に基づいて対象を見付けるより有益な位置が推測されることができる。
・ 位置質問として、例えば「画像中の自動車がどこにありますか?」について、注目マップが対象の画像での位置を明らかに説明するため、正確な解答を生成するのに重要である。
2. 質問理解
質問理解は視覚質問応答に対して重要なことである。質問の意味論的意味は解答生成に最も重要な手がかりを提供するだけでなく、設定可能な畳み込みカーネルを確定して注目マップを生成するのに用いられることができる。
最近、長期短期記憶(LSTM)モデルが言語理解について効率よく作用できることが明らかになる。実施形態において、LSTMモデルは密集質問埋め込みを生成して質問の意味論的意味を特徴付けするのに用いられる。実施形態において、質問qはまず単語列{v}にトークン化される。実施形態において、すべての大文字が小文字に変換され、且つすべての句読点が削除される。訓練セットにおいて現れるがテストセットにおいて現れていない単語は特殊な符号(例えば#OOV#)で置換され、且つ特殊符号#B#と#E#はシーケンスの先頭とシーケンスの末端に追加されている。質問辞書に基づき、それぞれの単語は密集単語埋め込みベクトルとして示される。実施形態において、LSTMは単語埋め込みシーケンスに用いてメモリゲート(memory gate)cと忘却ゲート(forget gate)fの使用によって各ベクトルvから隠れ状態h(式3、以下のように示される)を生成する:
ただし、φは双曲線正接関数であり、且つ
は2つのベクトル間の要素ごとの積を示す(以下、本文中では当該記号を「◎」と表記する)。図3には、質問プロセスに用いられるLSTMフレームワークの実施形態の詳細が示される。入力問題qの意味情報sはすべての時間ステップにおいてLSTM状態{h}の平均値を求めることで取得される。
3. 画像特徴抽出
実施形態において、それぞれの画像中の視覚情報はN×N×Dの画像特徴マップとして示される。特徴マップは画像をN×Nのグリッドに分けてグリッド中の各セルからD次元特徴ベクトルfを抽出することによって抽出されることができる。実施形態において、原画像と左・右反転画像のそれぞれのセルの中心、左上角、右上角、左下角及び右下角で五個(5個)のウィンドウを抽出して、更にそれぞれのセルに対して合計で十個(10個)のウィンドウを生成させる。実施形態において、VGG−19深層畳み込みニューラルネットワークは各ウィンドウについてD次元特徴を抽出する。実施形態において、各セルのD次元特徴ベクトルはすべての十個(10個)のD次元特徴ベクトルの平均である。最後のN×N×D画像特徴マップはN×N×D次元特徴ベクトルの連結である。
また、完全畳み込みニューラルネットワークアーキテクチャを使用して更に効果的に画像特徴マップを抽出することもできる。実施形態において、PASCAL 2007セグメンテーションデータセットにおいて予め訓練された分割モデル(L・C・陳(L.C.Chen)、G・パパンドレウ(G.Papandreou)、I・コッキンノス(I.Kokkinos)、A・K・マーフィー(K.Murphy)及びA・L・ユール(A.L.Yuille)の、「深層畳み込みネットワークと完全に接続されたCRFSを用いるセマンティクス画像分割」(Semantic image segmentation with deep convolutional nets and fully connected CRFS)、arXivプレプリントarXiv:1412.7062、2014を参照)は使用され、且つわずかに良好な性能を達成させる。
4. 解答生成
実施形態において、解答生成部分は原画像特徴マップ、密集質問埋め込み及び注目重み付け画像特徴マップ用のマルチクラス分類器である。実施形態において、注目マップは画像特徴マップIを空間的に重み付けることに用いられる。重み付けられた画像特徴マップは質問に対応した対象に集中する。実施形態において、空間的な重み付けは画像特徴マップと注目マップのそれぞれのチャンネル間の要素ごとの積によって実現される。
ただし、◎は要素ごとの積、I’とIはそれぞれ注目重み付け画像特徴マップI’と原画像特徴マップIのi番目のチャンネルを示す。注目重み付け画像特徴マップは質問に無関係の領域の重みを低下させる。実施形態において、オーバーフィッティングを防止するために、1×1畳み込みを注目重み付け特徴画像マップに用いてチャンネルの数を減少させ、それによって減少された特徴マップIを取得する。実施形態において、問題又は質問する意味情報、画像特徴マップI及び減少された特徴マップIは非線形射影によって融合される:
ただし、hは最終射影特徴を示し、且つ
は要素に応じて一つずつスケーリングされた双曲線正接関数:
である。当該関数で勾配が値の最も非線形な範囲に入って、より高い訓練速度を実現する。
実施形態において、Softmax活性化を有するマルチクラス分類器は最終射影特徴hにおいて訓練される。解答idは解答辞書において指定されることができる。ABC−CNNが生成する解答は最大確率を有する単語:
である。
ただし
は解答辞書中のすべての単語のセットである。
なお、実施形態では、質問と解答用の辞書は共有するものではない。それは、質問と解答によって同一単語の表現が異なる可能性がある意味とする。
図4は本出願の実施形態に係るABC−CNNアーキテクチャを使用して解答を生成する例示的なフローチャートを示す。実施形態において、ABC−CNNアーキテクチャはステップ405において深層畳み込みニューラルネットワークで複数の画素を含む入力画像から画像特徴マップを抽出し、且つステップ410において長期短期記憶(LSTM)レイヤで入力画像に関連する入力問題から密集質問埋め込みを取得する。ステップ415において、密集質問埋め込みを意味空間から視覚空間に射影することで複数の質問で設定されたカーネルを生成する。ステップ420において、質問で設定されたカーネルと画像特徴マップを畳み込むことによって質問でガイドされた注目マップを生成する。ステップ425において、質問でガイドされた注目マップで空間的に画像特徴マップを重み付けることによって、マルチクラス分類器で注目重み付け画像特徴マップを取得する。注目重み付け画像特徴マップは質問に無関係の領域の重みを低下させ、又は質問に関連する領域に焦点を合わせることに用いられる。実施形態において、空間的な重み付けは画像特徴マップと質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される。最後に、ステップ430において、画像特徴マップ、深層質問埋め込み及び注目加重画像特徴マップの融合に基づいて質問の解答を生成する。
図5は本出願の実施形態に係るABC−CNNアーキテクチャを使用して質問でガイドされた注目マップを生成する例示的なフローチャートを示す。実施形態において、注目マップ生成部分はステップ505において画像入力から抽出された画像特徴マップを受信し、且つステップ510においてLSTMを使用して問題入力から取得した密集質問埋め込みを受信する。ステップ515において、質問埋め込みを意味空間から視覚空間に射影することで、一組の設定可能な畳み込みカーネルを生成させる。ステップ520において、空間的な注目分布は、質問で設定されたカーネルと画像特徴マップの間の畳み込み演算によって生成される。実施形態において、ABC−CNNフレームワークは初期重みを有し、当該初期重みは予備訓練期間においてABC−CNNフレームワーク内のすべてのレイヤ(CNNレイヤやLSTMレイヤ等を含む)の各次元における活性化が0平均値及び一つの標準偏差を有することを確保するようにランダムに調整される。ステップ525において、Softmax正規化を空間的な注目分布に用いて質問でガイドされた注目マップを生成する。
5. 訓練及びテスト
実施形態において、フレームワークの全体は、確率的な勾配降下とadadelta(M・D・ゼイラー(M.D.Zeiler)の、「Adadelta:適応学習速度法」(Adadelta: An adaptive learning rate method)、arXivプレプリントarXiv:1212.5701、2012を参照)アルゴリズムを使用してエンドツーエンド方式で訓練する。各バッチの確率的な勾配降下は、独立してランダムに64個の画像質問ペアをサンプリングし、且つバックプロパゲーションを使用してABC−CNNアーキテクチャのすべての重みを学習することができる。実施形態において、すべてのレイヤの初期重みは、すべてのレイヤの各次元の活性化が0平均値及び一つの標準偏差を有するようにランダムに調整されることができる。実施形態において、初期学習速度を0.1に設定する。実験では、ABC−CNN実施形態においてエンドツーエンド方式ですべての重みを訓練することが可能であるが、画像特徴抽出部分中の重みはより高い訓練速度を可能にするために一定であってもよい。
テスト段階では、実施形態において、各画像に対して画像特徴マップを抽出する。実施形態において、質問が与えられた場合、当該質問の密集質問埋め込みを生成させ、且つ質問埋め込みは畳み込みカーネルを構成して、注目マップを生成するのに用いる。実施形態において、マルチクラス分類器は原特徴マップ、質問埋め込み及び注目重み付け画像特徴マップの融合によって解答を生成する。
D. 実験
本モデルの実施形態は以下のデータセットについて評価され、即ち:Toronto COCOQAデータセット(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)、DAQUARデータセット(M・マリナウスキ(M.Malinowski)及びM・フリツー(M.Fritz)の、「不確定な入力に基づいて実世界のシーンについての質問応答を行う多世界性アプローチ」(A multi−world approach to question answering about real−world scenes based on uncertain input)、『ニューラル情報処理システムの発展』(Advances in Neural Information Processing Systems)、第1682〜1690ページ、2014を参照)、及びVQAデータセット(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ルー(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA: Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)。実施形態は単語解答を有するQAペアについて評価し、それぞれToronto−QAデータセット、VQAデータセット及びDAQUARデータセットの(100%、85%、90%)を考慮する。それはM・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータ」(Exploring models and data for image question answering)(arXiv: 1505.02074.2015を参照)での評価に合致する。その上、ABC−CNNフレームワークの実施形態は、解答生成部分においてRNNデコーダーで完全文を生成して解答とするように簡単に広げられる。
なお、本特許文献に引用された実験及び結果(本章又は任意のほかの章において)は説明の形として提供され、且つ具体的な実施形態又は複数の具体的な実施形態によって具体的な条件下で実行され、従って、これら実験又はその結果は、本特許文献に開示されている範囲を制限するものではない。
1. 実施詳細
実験では、ATT−SEG−HSVモデル以外、画像特徴マップと注目マップの両方の解像度として3×3を選択し、当該ATT−SEG−HSVモデルは完全畳み込み分割ネットワークから抽出された特徴(16×16)を使用する。各画像セルは予め訓練されたVGGネットワーク[K・チャットフィールド、K・シモンヤン、A・ベダルディ及びA・ゼッセルマン、「悪魔が細部に隠されている:畳み込みネットワークの深層探求」(Return of the devil in the details: Delving deep into convolutional nets)、arXivプレプリントarXiv:1405.3531、2014を参照]を使用して4096次元画像特徴ベクトルを生成する。すべての画像セルからの画像特徴ベクトルは4096×3×3次元を有する画像特徴マップを構成する。オーバーフィッティングを防止するために、画像特徴マップの次元は1×1畳み込みによって256×3×3まで減少される。密集質問埋め込みの次元は256である。また、HSV色特徴マップは画像特徴マップ(ATT−HSV)に追加される。各セルにおける色特徴は当該各セル中の画素のHSVヒストグラムとしてコーディングされる。PASCAL 2007セグメンテーションデータセットにおいて予め訓練された完全畳み込みニューラルネットワーク(L・C・陳(L.C.Chen)、G・パパンドレウ(G.Papandreou)、I・コッキンノス(I.Kokkinos)、A・K・マーフィー(K.Murphy)及びA・L・ユール(A.L.Yuille)の、「深層畳み込みネットワークと完全に接続されたCRFSを用いるセマンティクス画像分割」(Semantic image segmentation with deep convolutional nets and fully connected CRFS)、arXivプレプリントarXiv:1412.7062、2014を参照)も16×16×1024特徴マップの生成に用いられ、且つそれらとHSV色特徴マップを連結して画像特徴マップ(ATT−SEG−HSV)にする。4個のK40 Nvidia GPUを使用してToronto COCO−QAデータセットにおいてネットワークATT−HSVを訓練するのに約24時間がかかる。システムは単一のK40 GPUにおいて各質問に対して9.89msの速度で解答を生成できる。
2. データセット
本出願のモデルによる実施形態は三つのデータセットについて評価され、即ち:DAQUAR、Toronto COCO−QA及びVQA。
DAQUARデータセットは2種類のバージョンを有し、即ち:完全なデータセット(DQ−Full)と減少されたデータセット(DQ−Reduced)。DQ−Reducedは894個のオブジェクトクラスを有するDQ−Fullデータセットのサブセットである37個のオブジェクトクラスの質問応答ペアを有する。2種類のバージョンは、NYU−Depth V2データセット(N・シルベルマン(N.Silberman)、D・ホイエム(D.Hoiem)、P・コーリ(P.Kohli)及びR・ファーガス(R.Fergus)の、RGBD画像からの室内分割及びサポート推論(Indoor segmentation and support inference from RGBD images)、コンピュータ視覚−ECCV 2012、ページ746〜760、スプリンガー出版社、2012(Computer Vision-ECCV 2012,pages746〜760.Springer,2012)を参照)からの室内シーン画像を使用する。DQ−Fullデータセットは6794個のQAペアを有する795個の訓練画像と5674個のQAペアを有する654個のテスト画像を有する。DQ−Reducedデータセットは3825個のQAペアを有する781個の訓練画像と286個のQAペアを有する25個のテスト画像を有する。実験では、DAQUARデータセットは単語解答を有するQAペアだけについてテスト及び訓練を行い、それはレン(Ren)等の人(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)による評価に合致する。このようなQAペアは、それぞれDQ−FullデータセットとDQ−Reducedデータセットに対する訓練セットとテストセットの(90.6%,89.5%)と(98.7%,97.6%)を構成する。
Toronto COCO−QAデータセットはMicrosoft COCOデータセット(MS−COCO)からの画像を使用する。そのQAペアは単語解答だけを含む。その基本統計は表1にまとめられる。
表1.Toronto COCO−QA質問タイプの分解(P・セルマネット(P.Sermanet)、A・フローム(A.Frome)及びE・リール(E.Real)の、「精細分類用の注目」(Attention for fine−grained categorization)、arXivプレプリントXiv:1412.7054、2014を参照)。
VQAデータセットは最近に収集してMS−COCOデータセット中の画像で構築されるデータセットである。VQAデータセット中のVQA実像(オープンエンド型)タスクの提案モデルは評価される。それは82783個の訓練画像、40504個の認証画像及び81434個のテスト画像を有する。MS−COCOデータセットにおける各画像は三個(3個)の質問が注釈され、且つ各質問は十個(10)の候補解答を有する。訓練、テスト及び認証用QAペアの総数はそれぞれ248349、121512、244302である。本モデルの実施形態はVQAデータセット中の単語解答QAペアについて評価し、単語解答QAペアはデータセットにおけるQAペアの総数の86.88%を構成する。図6において、三個のデータセットからのいくつかのサンプルが示される。
3. 評価メトリクス
VQAモデルの性能は「解答の正確性」及び「呉−パーマー類似性測度セット(Wu−Palmer similarity measure Set)(WUPS)」スコアに基づいて評価される。解答の正確さ(ACC)はグランドトゥルース解答と正確にマッチングする、生成された解答の百分率を計算する。WUPSスコアは呉−パーマー(WUP)類似性[Z・呉(Z.Wu)とM・パーマー(M.Palmer)の、「動詞セマンティクス及び字句選択」(Verbs semantics and lexical selection)、『計算言語協会の32回目のプロシーディング』(Proceedings of the 32nd annual meeting on Association for Computational Linguistics)、ページ133〜138、計算言語協会出版、1994を参照]から得られ、値が[0,1]の範囲である。WUP類似性は2つの単語の分類ツリーにおける最下位の共通祖先の深さに基づいて2つの単語の類似性を測定する。閾値を有するWUPスコアは、全ての生成された解答とグランドトゥルース解答の重み低下されたWUPSスコアの平均値である。2つの単語のWUPSスコアSwupsが閾値より低い場合、重み低下されたWUPSスコアは0.1Swupsである。2つの単語のWUPSスコアSwupsが閾値の以上である場合、重み低下されたWUPSはSwupsである。実験では、閾値0.0と0.9を有するWUPSスコアは使用される。
4. ベースライン方法
本方法の実施形態と異なる基準方法を比較する。以下、すべてのベースラインモデルを示す:
1.VIS+LSTM (VL):それはレン(Ren)等の人が提案したフレームワーク(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)であり、当該フレームワークは画像特徴を抽出するCNNを有し、当該CNNの後に次元削減レイヤが続く。次に、画像特徴を質問単語埋め込みシーケンスのヘッダに挿入して質問LSTMの入力とする。
2.2−VIS+BLSTM (2VB):画像特徴は単語埋め込みシーケンスの先頭及び末端でコーディングされる。その上、レン(Ren)等が提案したフレームワークにおけるLSTMは前方と後方へ入るように設定される。
3.IMG+BOW (IB):レン(Ren)等の人はBag−of−Words特徴を使用して密集質問埋め込みを生成する。
4.IMG:画像特徴だけが質問応答に用いられる。それは「聴覚障害」モデルと呼称される。
5.LSTM:LTMからの密集質問埋め込みだけで解答を生成する。それは「視覚障害」モデルと呼称される。
6.ENSEMBLE:レン(Ren)等の人は以上のすべての方法を使用して融合モデルを評価する。
7.Q+I:アントール(Antol)等の人(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ル(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA: Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)は密集質問埋め込みと画像特徴の両方を使用してマルチクラス分類器を訓練して質問応答を実現する。
8.Q+I+C:Q+Iモデルと類似して、Q+I+Cモデルはラベルされた画像キャプションの密集埋め込みを追加入力とする。
9.ASK:マリナウスキ(Malinowski)等の人(M・マリナウスキ(M.Malinowski)及びM・フリツー(M.Fritz)、「君のニューラルに質問する:画像に関する質問応答用のニューラルに基づく方法(Ask your neurons: A neural−based approach to answering questions about images)、arXivプレプリントarXiv:1505.01121、2014を参照」はLSTMデコーダーにおいてCNN特徴と質問埋め込みを線形結合することで解答を生成する。
5. 結果及び分析
表2、4及び5は各モデルのToronto COCO−QAデータセット、DQ−Reducedデータセット及びDQ−Fullデータセットでの性能を示す。表3は各クラスにおける異なる方法のToronto COCO−QAデータセットでの性能を分解する。
表2には、VGG特徴マップ(AYY)だけが使用されているABC−CNNはレン(Ren)等の人(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)による単一モデルのうちの大多数より優れる。HSV特徴マップとVGG特徴マップ(ATT−HSV)を組み合わせることによって、ABC−CNNの性能はすべてのベースラインモデルより優れる。単一モデルだけを使用するが、ABC−CNNは解答正確性がENSEMBLEモデルに比べて0.2%高い。質問でガイドされた注目が質問セマンティクス及び画像中のコンテキスト情報を活用させて質問を回答するため、ABC−CNNは「対象」、「数」及び「位置」分類においてベースライン方法より優れる。ABC−CNNの正確さは「色」分類においてIBとENSEMBLEモデルよりやや低い。
更に、完全畳み込みモデルATT−SEG−HSVの性能がVGGモデルATT−HSVより優れるが、完全畳み込みニューラルネットワークによる特徴マップ抽出の速度がはるかに高いことが発見された。VGG、SEG及びHSV特徴(ATT−VGG−SEG−HSV)の組み合わせによって最適な性能が得られる。具体的には、完全畳み込みモデルの追加は正確に位置質問を回答することに寄与する。ABC−CNNにおける注目(NO−ATT)もアブレーション実験(ablative experiment)として除去され、且つそれによって、正確さについて1.34%、0.85%及び0.35%低下させることと、WUPS0.9及びWUPS0.0のスコアになることとをそれぞれ引き起こす。
表4には、ABC−CNNモデルとベースラインモデルをDQ−Reducedデータセットにおいて比較される。ABC−CNNモデルの性能はすべてのメトリクスにおいてすべての単一モデルより高い。WUPS0.9測定では、ABC−CNNモデルはENSEMBLEモデルより0.53%しか低下しない。
DQ−FullとVQAデータセットにおいて、ABC−CNNは表5と表6のデータセットにおいて従来の技術案より優れる。DQ−Fullデータセットにおいて、ABC−CNNモデルはToronto COCO−QAデータセットとDQ−Reducedデータセットにおけるモデルと同様である。VQAデータセットにおいて、公正に評価するため、アントール(Antol)等の人(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ル(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA: Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)のように1000個の最頻出解答(ATT 1000)を含む解答辞書が使用される。ABC−CNNモデルは更に、すべての解答(ATT Full)を含む解答辞書で評価される。
図7には、生成された質問でガイドされた注目マップ及びそれに対応した画像と質問の一部が示される。異なる注目領域を有する異なる質問の意図が質問でガイドされた注目マップでうまくキャプチャーされることが観察される。これら注目マップを使用して、注目の焦点を重要な領域に合わせて無関係の情報をフィルタリングすることによって、ABC−CNNは更に正確な解答を生成できる。原特徴マップが解答を予測する時にも提供されるため、質問対象が画像中の対象(例えば「山坂の草に横になっているのは何ですか?」)だけである場合、ABC−CNNは注目マップを使用せずに質問を回答することができる。
E. システムの実施形態
実施形態において、本特許文献の様々様態は情報処理システム/計算システムに関してもよく、情報処理システム/計算システムにおいて実施されてもよい。本出願の目的として、計算システムは、商業、科学、制御又は他の目的に基づいて解答、計算、確定、分類、処理、輸送、受信、検索、開始、ルーティング、切替、記憶、表示、伝送、出現、検出、記録、コピー、操作又は任意の様態として操作された情報、インテリジェンス又はデータの任意の装置又は装置セットを含んでもよい。例えば、計算システムはパーソナルコンピュータ(例えば、ラップトップコンピュータ)、タブレットコンピュータ、タブレット電話、パーソナルディジタルアシスタント(PDA)、スマートフォン、スマート腕時計、スマートパッケージング、サーバー(例えば、ブレードサーバー又はラックマウント型サーバー)、ネットワーク記憶設備又は任意の他の適切な設備であってもよく、更に大きさ、形状、性能、機能及び価格が変化してもよい。計算システムはランダムアクセスメモリ(RAM)、1つ又は複数の処理リソース(例えば、中央処理装置(CPU)又はハードウェア又はソフトウェア制御ロジック)、ROM及び/又は他のタイプのメモリを含んでもよい。計算システムにおける付加的構成要素は1つ又は複数のディスクドライブ、外部設備と通信するための1つ又は複数のネットワークポート、及び例えばキーボード、マウス、タッチスクリーン及び/又はビデオディスプレーの各種の入力及び出力(I/O)設備を含んでもよい。計算システムは更に各ハードウェア校正要素の間で通信できるように操作される可能な1つ又は複数のバスを含んでもよい。
図8は、本出願の実施形態に係る計算設備/情報処理システム(又は計算システム)の簡略化したブロック図を示す。情報処理システムが異なって配置されてもよく、異なるアセンブリを含んでもよいことを理解することができるが、システム800に示す機能に対して情報処理システムをサポートする各実施形態に操作されてもよいことを理解すべきである。
図8に示すように、システム800は、計算リソースを提供するとともにコンピュータを制御する1つ又は複数の中央処理装置(CPU)801を含む。CPU801はマイクロプロセッサ等を利用して実現されてもよく、且つ1つ又は複数のグラフ処理ユニット(GPU)817及び/又は数学計算に用いられる浮動小数点コプロセッサを更に含んでもよい。システム800はシステムメモリ802を更に含んでもよく、システムメモリ802はランダムアクセスメモリ(RAM)又は読み取り専用メモリ(ROM)の様態であってもよく、又はRAMとROMの様態であってもよい。
図8に示すように、複数のコントローラ及び周辺設備をさらに提供してもよい。入力コントローラ803は例えばキーボード、マウス又はライトペンへの各種の入力設備804のインターフェースを示す。スキャナー806と通信するスキャナーコントローラ805を更に有してもよい。システム800は、1つ又は複数の記憶設備808とインタラクションするためのメモリコントローラ807を更に含んでもよく、1つ又は複数の記憶設備808の中のそれぞれはいずれも例えば磁気テープ又はCDの記憶媒体を含み、又は記録操作システム、ユーティリティプログラム及びアプリケーションに用いることができる指令プログラムを含む光学媒体を更に含んでもよく、ここで、アプリケーションは本出願の各様態のプログラムを実現する実施形態を含んでもよい。本出願によれば、記憶設備808は更に既に処理されたデータ又は処理しようとするデータを記憶することに用いられてもよい。システム800は表示設備811にインターフェースを提供するためのディスプレーコントローラ809を更に含んでもよく、表示設備811は陰極線管(CRT)、薄膜トランジスタ(TFT)ディスプレー又は他のタイプのディスプレーであってもよい。計算システム800は更にプリンター813と通信するためのプリンターコントローラ812を含んでもよい。通信コントローラ814は1つ又は複数の通信設備815にインタラクションすることができ、通信設備815によりシステム800はインターネット、クラウドリソース(例えば、イーサネット(登録商標)クラウド、イーサネット上のファイバチャネル(FCoE)/データセンターブリッジング(DCB)クラウド等)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、記憶領域ネットワーク(SAN)の多種のネットワークにおける任意のネットワークを含むか又は赤外線信号の任意の適切な電磁キャリア信号を含むことによりリモート設備に接続される。
示されるシステムにおいて、すべての主なシステムアセンブリはバス816に接続されてもよく、バス816は1つ以上の物理バスを示すことができる。しかし、各種のシステムアセンブリは互いに物理的に隣接してもよく、又は互いに物理的に隣接する必要がない。例えば、入力データ及び/又は出力データは1つの物理位置から他の物理位置にリモート伝送されることができる。なお、本出願の各様態を実現するプログラムはネットワークでリモート位置(例えば、サーバー)からアクセスすることができる。当該データ及び/又はプログラムは多種の機械読み取り可能な媒体における任意の媒体により伝送されてもよく、機械読み取り可能な媒体は、例えばハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、例えばCD-ROM及びホログラフィー設備のような光学媒体、光磁気媒体、及び例えば特定用途向け集積回路(ASIC)、プログラム可能なロジック設備(PLD)、フラッシュメモリデバイス及びROMとRAM設備のような特別にプログラムコードを記憶又は記憶して実行するように構成されるハードウェア設備を含むが、これらに限定されない。
1つ又は複数のプロセッサ又は処理ユニットに対して、本出願の実施形態は指令を利用して1つ又は複数の非一時的コンピュータ可読媒体でコーディングすることにより、各ステップを実行することができる。1つ又は複数の非一時的コンピュータ可読媒体は揮発性及び不揮発性メモリを含むべきであることを注意すべきである。代替の実施例でもよく、ハードウェア実現方式又はソフトウェア/ハードウェア実現方式を含むことを注意すべきである。ハードウェア実現の機能はASIC、プログラマブルアレイ、デジタル信号処理回路等を利用して実現することができる。このため、任意の請求項において、用語「装置」はソフトウェア実現方式をカバーするだけではなく、ハードウェア実現方式もカバーする。類似するように、本文に使用された用語「コンピュータ可読媒体」はその上で実行される指令プログラムを有するソフトウェア及び/又はハードウェア、又はソフトウェア及びハードウェアの組み合せを含む。これらの実現態様の代替態様を考えて、図面及び付いている説明が機能情報を提供し、当業者はプログラムコード(即ち、ソフトウェア)をプログラミングすること及び/又は回路(即ち、ハードウェア)を製造することで必要な処理を実行する必要があることを理解すべきである。
本出願の実施形態は更に非一時的有形のコンピュータ可読媒体を有するコンピュータ製品に関してもよく、当該コンピュータ可読媒体には各種のコンピュータで実現される操作を実行するためのコンピュータコードを有することを注意すべきである。媒体及びコンピュータコードは本出願の目的に基づいて専門に設計して構造する媒体及びコンピュータコードであってもよく、又は関連分野の当業者が公知するか又は取得するできるタイプであってもよい。有形のコンピュータ可読媒体の例示は、例えばハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、例えばCD-ROM及びホログラフィー設備のような光学媒体、光磁気媒体、及びプログラムコードを記憶又は記憶して実行するように専門に配置されたハードウェア設備、例えば特定用途向け集積回路(ASIC)、プログラム可能なロジック設備(PLD)、フラッシュメモリデバイス及びROMとRAM設備を含むが、これらに限定されない。コンピュータコードの例示は、例えばコンパイラで生成されたマシンコード、及びコンピュータがインタプリタを利用して実行する上級コード(higher level code)のファイルを含む。本出願の実施形態は処理設備で実行されるプログラムモジュールに位置してもよいマシン実行可能な指令として全体的又は部分的に実施されることができる。プログラムモジュールの例示は、ベース、プログラム、ルーチン、オブジェクト、アセンブリ及びデータ構造を含む。分散式計算環境において、プログラムモジュールは物理的にローカル、リモート又は両者の環境に設置されてもよい。
当業者は、計算システム又はプログラミング言語が本出願の実施に対して非常に重要なものではないことを理解すべきである。当業者は、多くの上記素子が物理的及び/又は機能的にサブモジュールに分けられるか又は統合されることを認識すべきである。
なお、前記例、実施形態及び実験は、例示的なもので、本出願の範囲を制限するのではなく、明瞭さと理解のためである。本明細書を読んで図面を研究した当業者であれば、本出願のすべての代替、置換、強化、同等、組合せ又は改良が本出願の範囲内に含まれることが分かる。従って、添付されている特許請求の範囲において断らない限り、特許請求の範囲は、本出願の実際な精神及び範囲内におけるすべての上記した代替、置換、強化、同等、組合せ又は改良を含む。なお、添付される請求項における要素は異なって設置されてもよく、複数の依存、配置及び組み合わせを含む。例えば、実施形態において、各請求項のサブジェクトをほかの請求項と組み合わせてもよい。

Claims (20)

  1. 画像入力に関連する問題入力に対する解答の生成精度を改良するコンピュータ実施方法であって、
    前記画像入力を受信するステップと、
    前記画像入力に関連する前記問題入力を受信するステップと、
    前記問題入力と前記画像入力を注目に基づく設置可能な畳み込みニューラルネットワーク(ABC−CNN)フレームワークに入力して解答を生成するステップとを含み、
    前記ABC−CNNフレームワークは、
    前記画像入力から画像特徴マップを抽出するCNNを含む画像特徴マップ抽出部と、
    前記問題入力から質問埋め込みを取得するセマンティクス質問埋め込み部と、
    前記画像特徴マップと前記質問埋め込みを受信して、前記問題入力で質問される領域又は複数の領域に集中する、質問でガイドされた注目マップを取得する質問ガイド注目マップ生成部と、
    前記の質問でガイドされた注目マップを使用して前記画像特徴マップを重み付け、注目重み付け画像特徴マップを取得し、前記画像特徴マップ、前記質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて解答を生成する解答生成部とを備える
    ことを特徴とするコンピュータ実施方法。
  2. 前記セマンティクス質問埋め込み部は、長期短期記憶(LSTM)レイヤを含んで前記質問埋め込みを生成して前記問題入力の意味論的意味を特徴付けする
    ことを特徴とする請求項1に記載のコンピュータ実施方法。
  3. 前記質問ガイド注目マップ生成部は、設定可能な畳み込みカーネルを含み、前記設定可能な畳み込みカーネルが、前記質問埋め込みを意味空間から視覚空間に射影することによって生成され、前記画像特徴マップと畳み込んで前記質問でガイドされた注目マップを生成することに用いられる
    ことを特徴とする請求項1に記載のコンピュータ実施方法。
  4. 前記畳み込みカーネルは前記画像特徴マップの数と同じ数のチャンネルを有する
    ことを特徴とする請求項3に記載のコンピュータ実施方法。
  5. 前記質問でガイドされた注目マップのサイズは前記画像特徴マップのサイズと同じである
    ことを特徴とする請求項3に記載のコンピュータ実施方法。
  6. 前記画像特徴マップは、前記画像入力を複数のグリッドに分けて前記グリッドの各セルにおいてD次元特徴ベクトルを抽出することによって抽出される
    ことを特徴とする請求項1に記載のコンピュータ実施方法。
  7. 前記画像特徴マップが前記質問でガイドされた注目マップによって空間的に重み付けられ、前記注目重み付け画像特徴マップを取得する
    ことを特徴とする請求項1に記載のコンピュータ実施方法。
  8. 前記空間的な重み付けは、前記画像特徴マップと前記質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される
    ことを特徴とする請求項7に記載のコンピュータ実施方法。
  9. 前記空間的な重み付けは、空間的な注目分布用のSoftmax正規化によって限定される
    ことを特徴とする請求項8に記載のコンピュータ実施方法。
  10. 前記ABC−CNNフレームワークは、確率的勾配降下によってエンドツーエンド方式で予め訓練される
    ことを特徴とする請求項1に記載のコンピュータ実施方法。
  11. 前記ABC−CNNフレームワークは初期重みを有し、前記初期重みは予備訓練の期間において、前記ABC−CNNフレームワーク内のすべてのレイヤの活性化の各次元が0平均値と一つの標準偏差を有することを確保するようにランダムに調整される
    ことを特徴とする請求項10に記載のコンピュータ実施方法。
  12. 画像に関連する質問に対して解答を生成するコンピュータ実施方法であって、
    深層畳み込みニューラルネットワークを使用して複数の画素を含む入力画像から画像特徴マップを抽出するステップと、
    長期短期記憶(LSTM)レイヤを使用して前記入力画像に関連する入力問題において密集質問埋め込みを取得するステップと、
    前記密集質問埋め込みを意味空間から視覚空間に射影することによって質問で設定された複数のカーネルを生成させるステップと、
    質問で設定されたカーネルと前記画像特徴マップを畳み込んで質問でガイドされた注目マップを生成するステップと、
    前記の質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けることによって、マルチクラス分類器で注目重み付け画像特徴マップを取得するステップと、
    前記画像特徴マップ、前記密集質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて、前記入力問題に対して解答を生成するステップとを含んでおり、
    ここで、前記注目重み付け画像特徴マップが前記入力問題に無関係の領域の重みを低下させる
    ことを特徴とするコンピュータ実施方法。
  13. 前記空間的に重み付けることは、前記画像特徴マップと前記質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される請求項12に記載の方法。
  14. 前記質問でガイドされた注目マップは、前記入力問題に応じて適応的に各画素の注目度を示す請求項12に記載の方法。
  15. 前記の質問でガイドされた注目マップは、前記質問で設定されたカーネルを前記画像特徴マップに応用することによって取得される請求項12に記載の方法。
  16. 前記画像特徴マップ、前記密集質問埋め込み及び前記注目重み付け画像特徴マップは非線形射影によって融合される請求項12に記載の方法。
  17. 前記非線形射影は、要素ごとにスケーリングされた双曲線正接関数である請求項16に記載の方法。
  18. 一つ又は複数のプロセッサにより実行されるときに、以下の操作を実行させる一つ又は複数の命令シーケンスを含んでおり、前記操作は
    問題入力の受信に応答して、前記問題入力の密集質問埋め込みを抽出するステップと、
    前記問題入力に関連する画像入力の受信に応答して、画像特徴マップを生成するステップと、
    少なくとも前記画像特徴マップと前記密集質問埋め込みに基づき、前記問題入力で質問される領域に選択的に集中する、質問でガイドされた注目マップを生成するステップと、
    前記質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けて注目重み付け画像マップを取得するステップと、
    セマンティクス情報、前記画像特徴マップ及び前記注目重み付け画像マップを融合して前記問題入力に対して解答を生成するステップとを含む
    ことを特徴とする非一時的コンピュータ可読媒体又はメディア。
  19. 質問でガイドされた注目マップの生成は、前記注目マップの空間的な注目分布についてSoftmax正規化を行うステップを更に含む
    ことを特徴とする請求項18に記載の非一時的コンピュータ可読媒体又はメディア。
  20. 質問でガイドされた注目マップの生成は、前記密集質問埋め込みに基づいて一組の畳み込みカーネルを配置し、更に前記畳み込みカーネルを前記画像特徴マップに応用し、質問でガイドされた注目マップを生成するステップを含む
    ことを特徴とする請求項19に記載の非一時的コンピュータ可読媒体又はメディア。
JP2016215579A 2015-11-03 2016-11-02 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 Active JP6351689B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562250260P 2015-11-03 2015-11-03
US62/250,260 2015-11-03
US15/184,991 2016-06-16
US15/184,991 US9965705B2 (en) 2015-11-03 2016-06-16 Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering

Publications (2)

Publication Number Publication Date
JP2017091525A true JP2017091525A (ja) 2017-05-25
JP6351689B2 JP6351689B2 (ja) 2018-07-04

Family

ID=57281007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016215579A Active JP6351689B2 (ja) 2015-11-03 2016-11-02 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法

Country Status (5)

Country Link
US (1) US9965705B2 (ja)
EP (1) EP3166049B1 (ja)
JP (1) JP6351689B2 (ja)
KR (1) KR101865102B1 (ja)
CN (1) CN106649542B (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018199473A (ja) * 2017-05-30 2018-12-20 株式会社Soken 操舵角決定装置、自動運転車
CN109145816A (zh) * 2018-08-21 2019-01-04 北京京东尚科信息技术有限公司 商品识别方法和系统
JP2019114227A (ja) * 2017-12-20 2019-07-11 三星電子株式会社Samsung Electronics Co.,Ltd. 映像の相互作用処理方法、相互作用処理装置、学習方法、学習装置及びコンピュータプログラム
WO2019163985A1 (ja) * 2018-02-23 2019-08-29 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
JP2019153277A (ja) * 2017-12-07 2019-09-12 イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け
JP2019185748A (ja) * 2018-04-12 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC インタラクティブ言語習得のシステム、及び方法
JP2020047213A (ja) * 2018-09-21 2020-03-26 富士ゼロックス株式会社 文字列認識装置及び文字列認識プログラム
JP2020053018A (ja) * 2018-09-27 2020-04-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体
KR20200037077A (ko) * 2018-09-28 2020-04-08 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. Vqa 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 컴퓨터 판독 가능 매체
JP2020123319A (ja) * 2019-01-30 2020-08-13 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP2020135852A (ja) * 2019-02-12 2020-08-31 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム
JP2020532017A (ja) * 2017-10-31 2020-11-05 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像質問応答方法、装置、システムおよび記憶媒体
JP2021509979A (ja) * 2018-11-30 2021-04-08 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体
JP2022013644A (ja) * 2020-06-30 2022-01-18 北京百度網訊科技有限公司 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム
JP2022508790A (ja) * 2019-03-13 2022-01-19 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 画像領域位置決め方法、モデル訓練方法及び関連装置
US11321618B2 (en) 2018-04-25 2022-05-03 Om Digital Solutions Corporation Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method
WO2023157265A1 (ja) * 2022-02-18 2023-08-24 日本電信電話株式会社 応答生成装置、応答生成方法および応答生成プログラム
JP7474446B2 (ja) 2019-05-17 2024-04-25 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング マルチラベル予測に適したニューラルネットワークの射影層
JP7481995B2 (ja) 2020-10-28 2024-05-13 株式会社東芝 状態判定装置、方法およびプログラム

Families Citing this family (204)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858524B2 (en) * 2014-11-14 2018-01-02 Google Inc. Generating natural language descriptions of images
US10013640B1 (en) * 2015-12-21 2018-07-03 Google Llc Object recognition from videos using recurrent neural networks
US9830709B2 (en) * 2016-03-11 2017-11-28 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US20180068330A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Deep Learning Based Unsupervised Event Learning for Economic Indicator Predictions
US10339168B2 (en) * 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US10339167B2 (en) * 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US10552968B1 (en) 2016-09-23 2020-02-04 Snap Inc. Dense feature scale detection for image matching
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
US10699184B2 (en) * 2016-12-29 2020-06-30 Facebook, Inc. Updating predictions for a deep-learning model
JP7221203B2 (ja) * 2017-01-23 2023-02-13 オックスフォード ユニヴァーシティ イノヴェーション リミテッド モバイル装置の位置特定方法
US10339421B2 (en) * 2017-03-30 2019-07-02 Toyota Motor Engineering & Manufacturing North America, Inc. RGB-D scene labeling with multimodal recurrent neural networks
US10489287B2 (en) 2017-05-15 2019-11-26 Bank Of America Corporation Conducting automated software testing using centralized controller and distributed test host servers
US10223248B2 (en) 2017-05-15 2019-03-05 Bank Of America Corporation Conducting automated software testing using centralized controller and distributed test host servers
US11501154B2 (en) 2017-05-17 2022-11-15 Samsung Electronics Co., Ltd. Sensor transformation attention network (STAN) model
US11669718B2 (en) 2017-05-23 2023-06-06 Intel Corporation Methods and apparatus for discriminative semantic transfer and physics-inspired optimization of features in deep learning
EP4156031A1 (en) * 2017-05-23 2023-03-29 Google LLC Attention-based sequence transduction neural networks
US11417235B2 (en) * 2017-05-25 2022-08-16 Baidu Usa Llc Listen, interact, and talk: learning to speak via interaction
CN110692066B (zh) * 2017-06-05 2023-06-02 渊慧科技有限公司 使用多模态输入选择动作
US11645508B2 (en) 2017-06-09 2023-05-09 Korea Advanced Institute Of Science And Technology Electronic apparatus and method for generating trained model
KR102419136B1 (ko) * 2017-06-15 2022-07-08 삼성전자주식회사 다채널 특징맵을 이용하는 영상 처리 장치 및 방법
CN107463609B (zh) * 2017-06-27 2020-06-19 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107688821B (zh) * 2017-07-11 2021-08-06 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
KR20190007816A (ko) 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법
CN107480206B (zh) * 2017-07-25 2020-06-12 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
US20190034497A1 (en) * 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval
CN109426776A (zh) 2017-08-25 2019-03-05 微软技术许可有限责任公司 基于深度神经网络的对象检测
KR101986307B1 (ko) * 2017-08-29 2019-06-05 서울대학교산학협력단 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
US10679075B2 (en) * 2017-08-31 2020-06-09 Nec Corporation Dense correspondence estimation with multi-level metric learning and hierarchical matching
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
US10671918B2 (en) 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing
EP3701429A1 (en) 2017-10-25 2020-09-02 Deepmind Technologies Limited Auto-regressive neural network systems with a soft attention mechanism using support data patches
US10592767B2 (en) * 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
GB2568233A (en) * 2017-10-27 2019-05-15 Babylon Partners Ltd A computer implemented determination method and system
US10395147B2 (en) * 2017-10-30 2019-08-27 Rakuten, Inc. Method and apparatus for improved segmentation and recognition of images
US10410350B2 (en) 2017-10-30 2019-09-10 Rakuten, Inc. Skip architecture neural network machine and method for improved semantic segmentation
CN108875751B (zh) * 2017-11-02 2021-03-02 北京旷视科技有限公司 图像处理方法和装置、神经网络的训练方法、存储介质
CN107862058B (zh) * 2017-11-10 2021-10-22 北京百度网讯科技有限公司 用于生成信息的方法和装置
US10542270B2 (en) * 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
CN108022012A (zh) * 2017-12-01 2018-05-11 兰州大学 基于深度学习的车辆位置预测方法
CN107909115B (zh) * 2017-12-04 2022-02-15 上海师范大学 一种图像中文字幕生成方法
CN108154235A (zh) * 2017-12-04 2018-06-12 盈盛资讯科技有限公司 一种图像问答推理方法、系统及装置
CN108021897B (zh) * 2017-12-11 2021-06-15 北京小米移动软件有限公司 图片问答方法及装置
US10754851B2 (en) * 2017-12-22 2020-08-25 Adobe Inc. Question answering for data visualizations
CN108153876B (zh) * 2017-12-26 2021-07-23 爱因互动科技发展(北京)有限公司 智能问答方法及系统
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108230413B (zh) * 2018-01-23 2021-07-06 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质
CN108229477B (zh) * 2018-01-25 2020-10-09 深圳市商汤科技有限公司 针对图像的视觉关联性识别方法、装置、设备及存储介质
CN108319909B (zh) * 2018-01-29 2021-11-30 清华大学 一种驾驶行为分析方法及系统
WO2019148315A1 (en) * 2018-01-30 2019-08-08 Intel Corporation Visual question answering using visual knowledge bases
CN108491421B (zh) * 2018-02-07 2021-04-16 北京百度网讯科技有限公司 一种生成问答的方法、装置、设备和计算存储介质
US11507800B2 (en) 2018-03-06 2022-11-22 Adobe Inc. Semantic class localization digital environment
US11287894B2 (en) * 2018-03-09 2022-03-29 Adobe Inc. Utilizing a touchpoint attribution attention neural network to identify significant touchpoints and measure touchpoint contribution in multichannel, multi-touch digital content campaigns
CN110362810B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362809B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362808B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110555104B (zh) * 2018-03-26 2022-06-17 阿里巴巴(中国)有限公司 文本分析方法及装置
CN108921811B (zh) * 2018-04-03 2020-06-30 阿里巴巴集团控股有限公司 检测物品损伤的方法和装置、物品损伤检测器
CN108614996A (zh) * 2018-04-04 2018-10-02 杭州电子科技大学 一种基于深度学习的军船、民船自动识别方法
CN108647573A (zh) * 2018-04-04 2018-10-12 杭州电子科技大学 一种基于深度学习的军事目标识别方法
US10621990B2 (en) * 2018-04-30 2020-04-14 International Business Machines Corporation Cognitive print speaker modeler
EP3788632A1 (en) * 2018-04-30 2021-03-10 Koninklijke Philips N.V. Visual question answering using on-image annotations
EP3794511A1 (en) * 2018-05-18 2021-03-24 BenevolentAI Technology Limited Graph neutral networks with attention
CN108776779B (zh) * 2018-05-25 2022-09-23 西安电子科技大学 基于卷积循环网络的sar序列图像目标识别方法
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
US10769307B2 (en) 2018-05-30 2020-09-08 Bank Of America Corporation Processing system using natural language processing for performing dataset filtering and sanitization
JP2019211969A (ja) * 2018-06-04 2019-12-12 オリンパス株式会社 学習管理装置、学習管理サーバ、および学習管理方法
CN109086892B (zh) * 2018-06-15 2022-02-18 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
US10885395B2 (en) 2018-06-17 2021-01-05 Pensa Systems Method for scaling fine-grained object recognition of consumer packaged goods
KR102120751B1 (ko) * 2018-06-21 2020-06-10 주식회사 머니브레인 대화 이해 ai 시스템에 의하여, 머신러닝을 대화 관리 기술에 적용한 하이브리드 계층적 대화 흐름 모델을 기초로 답변을 제공하는 방법 및 컴퓨터 판독가능 기록 매체
CN108875034A (zh) * 2018-06-25 2018-11-23 湖南丹尼尔智能科技有限公司 一种基于层次化长短期记忆网络的中文文本分类方法
CN108920587B (zh) * 2018-06-26 2021-09-24 清华大学 融合外部知识的开放域视觉问答方法及装置
US20200019603A1 (en) * 2018-07-13 2020-01-16 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved table identification using a neural network
CN109255012B (zh) * 2018-07-23 2021-04-30 深思考人工智能机器人科技(北京)有限公司 机器阅读理解以及减少候选数据集规模的方法、装置
US10721190B2 (en) * 2018-07-31 2020-07-21 Microsoft Technology Licensing, Llc Sequence to sequence to classification model for generating recommended messages
CN109086405B (zh) * 2018-08-01 2021-09-14 武汉大学 基于显著性和卷积神经网络的遥感图像检索方法及系统
US10740536B2 (en) * 2018-08-06 2020-08-11 International Business Machines Corporation Dynamic survey generation and verification
CN109145970B (zh) * 2018-08-06 2021-01-12 北京市商汤科技开发有限公司 基于图像的问答处理方法和装置、电子设备及存储介质
US10832084B2 (en) * 2018-08-17 2020-11-10 Nec Corporation Dense three-dimensional correspondence estimation with multi-level metric learning and hierarchical matching
CN109410158B (zh) * 2018-08-21 2020-10-02 西安电子科技大学 一种基于卷积神经网络的多焦点图像融合方法
US11010559B2 (en) 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
KR102073323B1 (ko) * 2018-09-02 2020-02-03 주식회사 뉴로다임 인공지능 기반의 구조물 건전성 관리 시스템
US11645535B2 (en) 2018-09-24 2023-05-09 Samsung Electronics Co., Ltd. Normalization method for training deep neural networks
WO2020131187A2 (en) * 2018-09-26 2020-06-25 Sofar Ocean Technologies, Inc. Ocean weather forecasting system
US10799182B2 (en) 2018-10-19 2020-10-13 Microsoft Technology Licensing, Llc Video-based physiological measurement using neural networks
US11250299B2 (en) * 2018-11-01 2022-02-15 Nec Corporation Learning representations of generalized cross-modal entailment tasks
WO2020087534A1 (en) * 2018-11-02 2020-05-07 Microsoft Technology Licensing, Llc Generating response in conversation
CN109712108B (zh) * 2018-11-05 2021-02-02 杭州电子科技大学 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
CN111177328B (zh) 2018-11-12 2023-04-28 阿里巴巴集团控股有限公司 问答匹配系统和方法及问答处理设备和介质
US10755099B2 (en) * 2018-11-13 2020-08-25 Adobe Inc. Object detection in images
CN111175681B (zh) 2018-11-13 2022-08-30 西门子(深圳)磁共振有限公司 基于刀锋序列的磁共振成像方法、装置及其存储介质
US10929392B1 (en) * 2018-11-16 2021-02-23 Amazon Technologies, Inc. Artificial intelligence system for automated generation of realistic question and answer pairs
CN109670576B (zh) * 2018-11-29 2022-09-13 中山大学 一种多尺度视觉关注图像描述方法
US11573991B2 (en) * 2018-11-30 2023-02-07 Samsung Electronics Co., Ltd. Deep reinforcement learning-based multi-step question answering systems
CN109635926B (zh) * 2018-11-30 2021-11-05 深圳市商汤科技有限公司 用于神经网络的注意力特征获取方法、装置及存储介质
CN109685115B (zh) * 2018-11-30 2022-10-14 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN109740515B (zh) * 2018-12-29 2021-08-17 科大讯飞股份有限公司 一种评阅方法及装置
US11120062B2 (en) 2019-01-07 2021-09-14 International Business Machines Corporation Framework for analyzing graphical data by question answering systems
CN109800294B (zh) * 2019-01-08 2020-10-13 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
KR102192016B1 (ko) * 2019-01-11 2020-12-16 연세대학교 산학협력단 의미 인식 기반의 이미지 보정 방법 및 그를 위한 장치
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
US10373025B1 (en) * 2019-01-28 2019-08-06 StradVision, Inc. Method and device for verifying integrity of parameters of CNN by using test pattern to enhance fault tolerance and fluctuation robustness in extreme situations for functional safety
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
CN111507141B (zh) * 2019-01-31 2023-04-18 阿里巴巴集团控股有限公司 图片识别方法、服务界面显示方法、系统及设备
CN111598117B (zh) * 2019-02-21 2023-06-30 成都通甲优博科技有限责任公司 图像识别方法及装置
CN111666006B (zh) * 2019-03-05 2022-01-14 京东方科技集团股份有限公司 画作问答方法及装置、画作问答系统、可读存储介质
CN109902164B (zh) * 2019-03-06 2020-12-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109902166A (zh) * 2019-03-12 2019-06-18 北京百度网讯科技有限公司 视觉问答模型、电子设备及存储介质
US10956474B2 (en) 2019-03-14 2021-03-23 Microsoft Technology Licensing, Llc Determination of best set of suggested responses
US10997374B2 (en) * 2019-03-22 2021-05-04 Fortia Financial Solutions Generation of natural language text from structured data using a fusion model
US11568247B2 (en) * 2019-03-22 2023-01-31 Nec Corporation Efficient and fine-grained video retrieval
CN110047076B (zh) * 2019-03-29 2021-03-23 腾讯科技(深圳)有限公司 一种图像信息的处理方法、装置及存储介质
US11494377B2 (en) * 2019-04-01 2022-11-08 Nec Corporation Multi-detector probabilistic reasoning for natural language queries
EP3719745A1 (en) * 2019-04-01 2020-10-07 Siemens Healthcare GmbH Processing a medical image
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110070224A (zh) * 2019-04-20 2019-07-30 北京工业大学 一种基于多步骤递归预测的空气质量预测方法
CN110097617B (zh) * 2019-04-25 2020-09-15 北京理工大学 基于卷积神经网络与显著性权重的图像融合方法
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
US10949718B2 (en) 2019-05-08 2021-03-16 Accenture Global Solutions Limited Multi-modal visual question answering system
US11494616B2 (en) * 2019-05-09 2022-11-08 Shenzhen Malong Technologies Co., Ltd. Decoupling category-wise independence and relevance with self-attention for multi-label image classification
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110175229B (zh) * 2019-05-27 2021-07-06 言图科技有限公司 一种基于自然语言进行在线培训的方法和系统
CN110197307B (zh) * 2019-06-03 2023-07-25 上海海洋大学 一种结合注意力机制的区域型海表面温度预测方法
CN110209823B (zh) * 2019-06-12 2021-04-13 齐鲁工业大学 一种多标签文本分类方法及系统
CN110377710B (zh) * 2019-06-17 2022-04-01 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110225368B (zh) * 2019-06-27 2020-07-10 腾讯科技(深圳)有限公司 一种视频定位方法、装置及电子设备
US11250214B2 (en) * 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling
US11874882B2 (en) 2019-07-02 2024-01-16 Microsoft Technology Licensing, Llc Extracting key phrase candidates from documents and producing topical authority ranking
CN110321864A (zh) * 2019-07-09 2019-10-11 西北工业大学 基于多尺度裁剪机制的遥感图像文字说明生成方法
CN110321565B (zh) * 2019-07-09 2024-02-23 广东工业大学 基于深度学习的实时文本情感分析方法、装置及设备
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110414684A (zh) * 2019-07-23 2019-11-05 清华大学 基于知识感知的模块化视觉推理方法及装置
KR102148607B1 (ko) * 2019-07-26 2020-08-26 연세대학교 산학협력단 오디오-비디오 정합 영역 탐지 장치 및 방법
CN110472642B (zh) * 2019-08-19 2022-02-01 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
WO2021045434A1 (ko) * 2019-09-05 2021-03-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN110704668B (zh) * 2019-09-23 2022-11-04 北京影谱科技股份有限公司 基于网格的协同注意力vqa方法和装置
US11462032B2 (en) 2019-09-23 2022-10-04 Proscia Inc. Stain normalization for automated whole-slide image classification
WO2021058270A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Gated attention neural networks
CN110717431B (zh) * 2019-09-27 2023-03-24 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN110727824B (zh) * 2019-10-11 2022-04-01 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
KR20210044056A (ko) 2019-10-14 2021-04-22 삼성전자주식회사 중복 토큰 임베딩을 이용한 자연어 처리 방법 및 장치
US11157554B2 (en) 2019-11-05 2021-10-26 International Business Machines Corporation Video response generation and modification
CN110851760B (zh) * 2019-11-12 2022-12-27 电子科技大学 在web3D环境融入视觉问答的人机交互系统
CN110990630B (zh) * 2019-11-29 2022-06-24 清华大学 一种基于图建模视觉信息的利用问题指导的视频问答方法
CN110929013A (zh) * 2019-12-04 2020-03-27 成都中科云集信息技术有限公司 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN111598118B (zh) * 2019-12-10 2023-07-07 中山大学 一种视觉问答任务实现方法及系统
CN111160140B (zh) * 2019-12-13 2023-04-18 浙江大华技术股份有限公司 一种图像检测方法及装置
CN111126258B (zh) * 2019-12-23 2023-06-23 深圳市华尊科技股份有限公司 图像识别方法及相关装置
CN111080729B (zh) * 2019-12-24 2023-06-13 山东浪潮科学研究院有限公司 基于Attention机制的训练图片压缩网络的构建方法及系统
CN111147396B (zh) * 2019-12-26 2023-03-21 哈尔滨工程大学 一种基于序列特征的加密流量分类方法
EP4094194A1 (en) 2020-01-23 2022-11-30 Umnai Limited An explainable neural net architecture for multidimensional data
CN113296152A (zh) * 2020-02-21 2021-08-24 中国石油天然气集团有限公司 断层检测方法及装置
CN111325751B (zh) * 2020-03-18 2022-05-27 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
CN111489334B (zh) * 2020-04-02 2023-08-08 暖屋信息科技(苏州)有限公司 一种基于卷积注意力神经网络的缺陷工件图像识别方法
CN111488887B (zh) * 2020-04-09 2023-04-18 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置
CN111539884B (zh) * 2020-04-21 2023-08-15 温州大学 一种基于多注意力机制融合的神经网络视频去模糊方法
US11526678B2 (en) * 2020-05-14 2022-12-13 Naver Corporation Attention over common-sense network for natural language inference
CN111563513B (zh) * 2020-05-15 2022-06-24 电子科技大学 基于注意力机制的散焦模糊检测方法
CN111737512B (zh) * 2020-06-04 2021-11-12 东华大学 基于深度特征区域融合的丝绸文物图像检索方法
CN111612103B (zh) * 2020-06-23 2023-07-11 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN113837212B (zh) * 2020-06-24 2023-09-26 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN111858882B (zh) * 2020-06-24 2022-08-09 贵州大学 一种基于概念交互和关联语义的文本视觉问答系统及方法
CN111767379B (zh) * 2020-06-29 2023-06-27 北京百度网讯科技有限公司 图像问答方法、装置、设备以及存储介质
CN111782838B (zh) * 2020-06-30 2024-04-05 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN111859005B (zh) * 2020-07-01 2022-03-29 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN111783697A (zh) * 2020-07-06 2020-10-16 周书田 一种基于卷积神经网络的错题检测及靶向推荐系统和方法
CN111949824B (zh) * 2020-07-08 2023-11-03 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
US11622117B2 (en) * 2020-07-21 2023-04-04 Tencent America LLC Method and apparatus for rate-adaptive neural image compression with adversarial generators
CN112036276B (zh) * 2020-08-19 2023-04-07 北京航空航天大学 一种人工智能视频问答方法
CA3196713C (en) * 2020-09-23 2023-11-14 Proscia Inc. Critical component detection using deep learning and attention
US20220129693A1 (en) * 2020-10-28 2022-04-28 Kabushiki Kaisha Toshiba State determination apparatus and image analysis apparatus
CN112511172B (zh) * 2020-11-11 2023-03-24 山东云海国创云计算装备产业创新中心有限公司 一种译码方法、装置、设备及存储介质
CN112365340A (zh) * 2020-11-20 2021-02-12 无锡锡商银行股份有限公司 一种多模态个人贷款风险预测方法
US11769018B2 (en) * 2020-11-24 2023-09-26 Openstream Inc. System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
CN112527993B (zh) * 2020-12-17 2022-08-05 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112488055B (zh) * 2020-12-18 2022-09-06 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112800191B (zh) * 2020-12-31 2023-01-17 科大讯飞股份有限公司 一种基于图片的问答方法、设备及计算机可读存储介质
CN112712092A (zh) * 2021-01-07 2021-04-27 泰康保险集团股份有限公司 采集图像特征的方法、装置、设备和计算机可读介质
CN112750082B (zh) * 2021-01-21 2023-05-16 武汉工程大学 基于融合注意力机制的人脸超分辨率方法及系统
CN112990213B (zh) * 2021-02-07 2023-10-10 西北大学 一种基于深度学习的数字万用表字符识别系统和方法
CN113065576A (zh) * 2021-02-26 2021-07-02 华为技术有限公司 一种特征提取的方法以及装置
CN113010712B (zh) * 2021-03-04 2022-12-02 天津大学 一种基于多图融合的视觉问答方法
CN113011332A (zh) * 2021-03-19 2021-06-22 中国科学技术大学 基于多区域注意力机制的人脸伪造检测方法
KR20220141537A (ko) 2021-04-13 2022-10-20 한국원자력연구원 피드백 데이터 기반 자가 학습 장치 및 방법
CN113128415B (zh) * 2021-04-22 2023-09-29 合肥工业大学 一种环境辨别方法、系统、设备及存储介质
CN112949841B (zh) * 2021-05-13 2022-08-16 德鲁动力科技(成都)有限公司 一种基于Attention的CNN神经网络的行人重识别方法
CN113222026B (zh) * 2021-05-18 2022-11-11 合肥工业大学 一种机务段场景视觉问答方法、系统及服务器
CN113298151A (zh) * 2021-05-26 2021-08-24 中国电子科技集团公司第五十四研究所 一种基于多级特征融合的遥感图像语义描述方法
US11967128B2 (en) * 2021-05-28 2024-04-23 Adobe Inc. Decompositional learning for color attribute prediction
CN113420833B (zh) * 2021-07-21 2023-12-26 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113626662A (zh) * 2021-07-29 2021-11-09 山东新一代信息产业技术研究院有限公司 一种实现灾后图像视觉问答的方法
CN113313091B (zh) * 2021-07-29 2021-11-02 山东建筑大学 仓储物流下的基于多重注意力和拓扑约束的密度估计方法
WO2023143995A1 (en) 2022-01-26 2023-08-03 Bayer Aktiengesellschaft Disease detection, identification and/or characterization using multiple representations of audio data
CN114661874B (zh) * 2022-03-07 2024-04-30 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法
KR20240023928A (ko) 2022-08-16 2024-02-23 김찬우 이미지 기반 자동 문제 생성 장치 및 방법
WO2024056439A1 (de) 2022-09-14 2024-03-21 Bayer Aktiengesellschaft Ermittlung der stabilität von verpackten formulierungen
EP4350701A1 (en) 2022-10-07 2024-04-10 SIVA Health AG Classifying individuals suffering from chronic cough
CN115905591B (zh) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN116543146B (zh) * 2023-07-06 2023-09-26 贵州大学 一种基于窗口自注意与多尺度机制的图像密集描述方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4532915B2 (ja) * 2004-01-29 2010-08-25 キヤノン株式会社 パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
US20120078062A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
EP2622510A4 (en) * 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
US10510018B2 (en) * 2013-09-30 2019-12-17 Manyworlds, Inc. Method, system, and apparatus for selecting syntactical elements from information as a focus of attention and performing actions to reduce uncertainty
CN104573731B (zh) * 2015-02-06 2018-03-23 厦门大学 基于卷积神经网络的快速目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANTOL, STANISLAW、他6名: "VQA:Visual Question Answering", ARXIV, vol. 1505.00468v3, JPN6017045032, 15 October 2015 (2015-10-15), US, pages 1 - 16 *
MALINOWSKI, MATEUSZ、他2名: "Ask Your Neurons: A Neural-based Approach to Answering Questions about Images", ARXIX, vol. 150501121v3, JPN6017045035, 1 October 2015 (2015-10-01), US, pages 1 - 9 *
REN,MENGYE、他2名: "Exploring Models and Data for Image Question Answering", ARXIV, vol. 1505.02074v3, JPN6017045033, 25 June 2015 (2015-06-25), US, pages 1 - 11 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018199473A (ja) * 2017-05-30 2018-12-20 株式会社Soken 操舵角決定装置、自動運転車
JP2020532017A (ja) * 2017-10-31 2020-11-05 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像質問応答方法、装置、システムおよび記憶媒体
US11222236B2 (en) 2017-10-31 2022-01-11 Beijing Sensetime Technology Development Co., Ltd. Image question answering method, apparatus and system, and storage medium
JP7217138B2 (ja) 2017-12-07 2023-02-02 イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け
JP2019153277A (ja) * 2017-12-07 2019-09-12 イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け
JP2019114227A (ja) * 2017-12-20 2019-07-11 三星電子株式会社Samsung Electronics Co.,Ltd. 映像の相互作用処理方法、相互作用処理装置、学習方法、学習装置及びコンピュータプログラム
JP7231994B2 (ja) 2017-12-20 2023-03-02 三星電子株式会社 映像の相互作用処理方法、相互作用処理装置、学習方法、学習装置及びコンピュータプログラム
WO2019163985A1 (ja) * 2018-02-23 2019-08-29 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
JP2019145040A (ja) * 2018-02-23 2019-08-29 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
JP6992590B2 (ja) 2018-02-23 2022-01-13 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
JP2019185748A (ja) * 2018-04-12 2019-10-24 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC インタラクティブ言語習得のシステム、及び方法
US11321618B2 (en) 2018-04-25 2022-05-03 Om Digital Solutions Corporation Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method
CN109145816A (zh) * 2018-08-21 2019-01-04 北京京东尚科信息技术有限公司 商品识别方法和系统
JP2020047213A (ja) * 2018-09-21 2020-03-26 富士ゼロックス株式会社 文字列認識装置及び文字列認識プログラム
JP7172351B2 (ja) 2018-09-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 文字列認識装置及び文字列認識プログラム
JP2020053018A (ja) * 2018-09-27 2020-04-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体
US11521118B2 (en) 2018-09-27 2022-12-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating training data for VQA system, and medium
US11416709B2 (en) 2018-09-28 2022-08-16 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and computer readable medium for generating VQA training data
KR20200037077A (ko) * 2018-09-28 2020-04-08 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. Vqa 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 컴퓨터 판독 가능 매체
JP2020057359A (ja) * 2018-09-28 2020-04-09 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な記憶媒体
KR102329242B1 (ko) * 2018-09-28 2021-11-22 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. Vqa 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 컴퓨터 판독 가능 매체
US11455788B2 (en) 2018-11-30 2022-09-27 Beijing Sensetime Technology Development Co., Ltd. Method and apparatus for positioning description statement in image, electronic device, and storage medium
JP2021509979A (ja) * 2018-11-30 2021-04-08 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体
US11314800B2 (en) 2019-01-30 2022-04-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device, and storage medium for image-based data processing
JP2020123319A (ja) * 2019-01-30 2020-08-13 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP6997161B2 (ja) 2019-01-30 2022-01-17 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP2020135852A (ja) * 2019-02-12 2020-08-31 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム
JP2022508790A (ja) * 2019-03-13 2022-01-19 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 画像領域位置決め方法、モデル訓練方法及び関連装置
JP7474446B2 (ja) 2019-05-17 2024-04-25 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング マルチラベル予測に適したニューラルネットワークの射影層
JP2022013644A (ja) * 2020-06-30 2022-01-18 北京百度網訊科技有限公司 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム
JP7196218B2 (ja) 2020-06-30 2022-12-26 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム
US11768876B2 (en) 2020-06-30 2023-09-26 Beijing Baidu Netcom Science Technology Co., Ltd. Method and device for visual question answering, computer apparatus and medium
JP7481995B2 (ja) 2020-10-28 2024-05-13 株式会社東芝 状態判定装置、方法およびプログラム
WO2023157265A1 (ja) * 2022-02-18 2023-08-24 日本電信電話株式会社 応答生成装置、応答生成方法および応答生成プログラム

Also Published As

Publication number Publication date
EP3166049A1 (en) 2017-05-10
JP6351689B2 (ja) 2018-07-04
CN106649542B (zh) 2020-06-16
US9965705B2 (en) 2018-05-08
KR20180038937A (ko) 2018-04-17
KR101865102B1 (ko) 2018-06-07
US20170124432A1 (en) 2017-05-04
CN106649542A (zh) 2017-05-10
EP3166049B1 (en) 2020-09-02

Similar Documents

Publication Publication Date Title
JP6351689B2 (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
Naz et al. Offline cursive Urdu-Nastaliq script recognition using multidimensional recurrent neural networks
Yang et al. Show, attend, and translate: Unsupervised image translation with self-regularization and attention
Wang et al. Sparse observation (so) alignment for sign language recognition
CN111598183A (zh) 一种多特征融合图像描述方法
CN111062277A (zh) 基于单目视觉的手语-唇语转化方法
EP4302234A1 (en) Cross-modal processing for vision and language
Wang et al. (2+ 1) D-SLR: an efficient network for video sign language recognition
Gajurel et al. A fine-grained visual attention approach for fingerspelling recognition in the wild
Burton et al. The speaker-independent lipreading play-off; a survey of lipreading machines
Selvam et al. A transformer-based framework for scene text recognition
Rawf et al. A comparative technique using 2D CNN and transfer learning to detect and classify Arabic-script-based sign language
Ling et al. Development of vertical text interpreter for natural scene images
Amaral et al. Evaluating deep models for dynamic brazilian sign language recognition
CN115512191A (zh) 一种联合问答的图像自然语言描述方法
Fenghour et al. Contour mapping for speaker-independent lip reading system
Li Special character recognition using deep learning
Zahid et al. A Computer Vision-Based System for Recognition and Classification of Urdu Sign Language Dataset for Differently Abled People Using Artificial Intelligence
Hallyal et al. Optimized recognition of CAPTCHA through attention models
Hasanov et al. Development of a hybrid word recognition system and dataset for the Azerbaijani Sign Language dactyl alphabet
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
Voruganti Visual question answering with external knowledge
Ilham et al. Dynamic Sign Language Recognition Using Mediapipe Library and Modified LSTM Method.
Correa et al. An Image Captioner for the Visually Challenged

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180605

R150 Certificate of patent or registration of utility model

Ref document number: 6351689

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250