JP2017091525A - 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 - Google Patents
視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 Download PDFInfo
- Publication number
- JP2017091525A JP2017091525A JP2016215579A JP2016215579A JP2017091525A JP 2017091525 A JP2017091525 A JP 2017091525A JP 2016215579 A JP2016215579 A JP 2016215579A JP 2016215579 A JP2016215579 A JP 2016215579A JP 2017091525 A JP2017091525 A JP 2017091525A
- Authority
- JP
- Japan
- Prior art keywords
- question
- attention
- map
- image feature
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/60—Memory management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Abstract
【解決手段】質問に対する解答を自動的に生成するために、質問応答タスク(VQA)モデル用の注目に基づく深層学習アーキテクチャを使用する。正答を生成するために、モデルの注目を質問に応じて画像中の関連領域に合わせるのが重要であり、それは異なる質問は異なる画像領域の属性について質問する可能性があるためである。このような質問でガイドされた注目は設定可能な畳み込みニューラルネットワーク(ABC−CNN)で学習する。ABC−CNNモデルは、画像特徴マップと、質問セマンティクスで決定された設定可能な畳み込みカーネルとを畳み込むことで注目マップを決定する。質問でガイドされた注目マップは質問に関連する領域に集中し、且つ、無関係の領域からノイズがフィルタリングされる。
【選択図】図2
Description
視覚質問応答(VQA)はコンピュータ視覚化、自然言語処理及び機械学習の積極的な学際的研究分野である。画像及び画像に関連する自然言語の質問を提供して、VQAは自然言語文で質問を回答する。VQAは人工知能を構築する基本的なステップだけでなく、多数のアプリケーション(例えば画像検索、視覚障害者ナビゲーションや早期幼児教育)にも非常に重要である。VQAは挑戦的な作業であり、それは画像を深く理解するのに複雑な計算視覚技術が必要であり、更に質問の意味を抽出するのに先進的な自然言語処理技術が必要であり、且つ視覚情報と意味情報を効果的に統合するのに統一されたフレームワークが必要であるためである。
VQA&画像キャプション:この二つの質問は視覚的内容の推論及び自然言語の結果の表示の点について類似性が存在する。VQA及び画像キャプションについての従来の最先端の方法はCNNで視覚的特徴を抽出し且つLSTMモデルをデコーダーとして解答又はキャプションを生成する傾向がある。一部の方法はLSTMデコーダーに解答又はキャプションが生成される期間においてマルチモデルレイヤを使用して結合射影によって視覚的特徴と単語埋め込みベクトルを組み合わせる。ほかの方法の少なくとも一種(P・セルマネット(P.Sermanet)、A・フローム(A.Frome)及びE・リール(E.Real)の、「精細分類用の注目」(Attention for fine−grained categorization)、arXivプレプリントXiv:1412.7054、2014を参照)は射影された画像特徴をLSTMデコーダーの初期状態とし、これはシーケンスツーシーケンス学習(I・スツケベル(I.Sutskever)、O・ビニャルス(O.Vinyals)及びQ・V・リ(Q.V.Le)の、「ニューラルネットワークを用いるシーケンス−シーケンス学習」(Sequence to sequence learning with neural networks)、『ニューラル情報処理システムの発展』(Advances in neural information processing systems)、ページ3104-3112、2014を参照)におけるコーデック−デコーダーフレームワークに類似する。画像特徴をグローバル視覚的特徴として処理する場合、質問中の有用な情報を活用してこれらの注目を画像における対応領域に合わせることができない。
図2にはABC−CNNフレームワークの実施形態が示される。実施形態において、単語解答を有するQAペアは本明細書の主な例であり、それはタスクがマルチクラス分類の問題とみなされてよいためであり、それによって評価指標を簡略化させるとともに質問でガイドされた注目モデルの開発に焦点を合わせることを可能にする。しなしながら、注目モデルの実施形態は、マルチクラス分類モデルの代わりとしてLSTMデコーダーを使用して多単語文を生成して解答とするように簡単に広げられる。
実施形態において、質問でガイドされた注目マップm(問題で質問される画像領域を反映する)は設定可能な畳み込みニューラルネットワークで各画像−質問ペアから生成される。設定可能な畳み込みニューラルネットワークにおける畳み込みカーネルは密集質問埋め込みsに基づいて密集質問埋め込みsを意味空間から視覚空間に射影することで設定されることができる。
・ カウント質問として、例えば「対象にいくつかの自動車があるか?」について、注目マップは無関係の領域をフィルタリングすることによって、画像中の対象の数を簡単に推定することを可能にさせる。
・ 色の質問として、例えば「コートが何色ですか?」について、関連対象に焦点を合わせることで特定対象の色は更に効果的に応答されることができる。
・ 対象質問として、例えば「机の上に何が置かれていますか?」について、注目マップは関連性が低い領域、例えば背景をフィルタリングして、且つ空間関係に基づいて対象を見付けるより有益な位置が推測されることができる。
・ 位置質問として、例えば「画像中の自動車がどこにありますか?」について、注目マップが対象の画像での位置を明らかに説明するため、正確な解答を生成するのに重要である。
質問理解は視覚質問応答に対して重要なことである。質問の意味論的意味は解答生成に最も重要な手がかりを提供するだけでなく、設定可能な畳み込みカーネルを確定して注目マップを生成するのに用いられることができる。
実施形態において、それぞれの画像中の視覚情報はN×N×Dの画像特徴マップとして示される。特徴マップは画像をN×Nのグリッドに分けてグリッド中の各セルからD次元特徴ベクトルfを抽出することによって抽出されることができる。実施形態において、原画像と左・右反転画像のそれぞれのセルの中心、左上角、右上角、左下角及び右下角で五個(5個)のウィンドウを抽出して、更にそれぞれのセルに対して合計で十個(10個)のウィンドウを生成させる。実施形態において、VGG−19深層畳み込みニューラルネットワークは各ウィンドウについてD次元特徴を抽出する。実施形態において、各セルのD次元特徴ベクトルはすべての十個(10個)のD次元特徴ベクトルの平均である。最後のN×N×D画像特徴マップはN×N×D次元特徴ベクトルの連結である。
実施形態において、解答生成部分は原画像特徴マップ、密集質問埋め込み及び注目重み付け画像特徴マップ用のマルチクラス分類器である。実施形態において、注目マップは画像特徴マップIを空間的に重み付けることに用いられる。重み付けられた画像特徴マップは質問に対応した対象に集中する。実施形態において、空間的な重み付けは画像特徴マップと注目マップのそれぞれのチャンネル間の要素ごとの積によって実現される。
ただし
実施形態において、フレームワークの全体は、確率的な勾配降下とadadelta(M・D・ゼイラー(M.D.Zeiler)の、「Adadelta:適応学習速度法」(Adadelta: An adaptive learning rate method)、arXivプレプリントarXiv:1212.5701、2012を参照)アルゴリズムを使用してエンドツーエンド方式で訓練する。各バッチの確率的な勾配降下は、独立してランダムに64個の画像質問ペアをサンプリングし、且つバックプロパゲーションを使用してABC−CNNアーキテクチャのすべての重みを学習することができる。実施形態において、すべてのレイヤの初期重みは、すべてのレイヤの各次元の活性化が0平均値及び一つの標準偏差を有するようにランダムに調整されることができる。実施形態において、初期学習速度を0.1に設定する。実験では、ABC−CNN実施形態においてエンドツーエンド方式ですべての重みを訓練することが可能であるが、画像特徴抽出部分中の重みはより高い訓練速度を可能にするために一定であってもよい。
本モデルの実施形態は以下のデータセットについて評価され、即ち:Toronto COCOQAデータセット(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)、DAQUARデータセット(M・マリナウスキ(M.Malinowski)及びM・フリツー(M.Fritz)の、「不確定な入力に基づいて実世界のシーンについての質問応答を行う多世界性アプローチ」(A multi−world approach to question answering about real−world scenes based on uncertain input)、『ニューラル情報処理システムの発展』(Advances in Neural Information Processing Systems)、第1682〜1690ページ、2014を参照)、及びVQAデータセット(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ルー(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA: Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)。実施形態は単語解答を有するQAペアについて評価し、それぞれToronto−QAデータセット、VQAデータセット及びDAQUARデータセットの(100%、85%、90%)を考慮する。それはM・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータ」(Exploring models and data for image question answering)(arXiv: 1505.02074.2015を参照)での評価に合致する。その上、ABC−CNNフレームワークの実施形態は、解答生成部分においてRNNデコーダーで完全文を生成して解答とするように簡単に広げられる。
実験では、ATT−SEG−HSVモデル以外、画像特徴マップと注目マップの両方の解像度として3×3を選択し、当該ATT−SEG−HSVモデルは完全畳み込み分割ネットワークから抽出された特徴(16×16)を使用する。各画像セルは予め訓練されたVGGネットワーク[K・チャットフィールド、K・シモンヤン、A・ベダルディ及びA・ゼッセルマン、「悪魔が細部に隠されている:畳み込みネットワークの深層探求」(Return of the devil in the details: Delving deep into convolutional nets)、arXivプレプリントarXiv:1405.3531、2014を参照]を使用して4096次元画像特徴ベクトルを生成する。すべての画像セルからの画像特徴ベクトルは4096×3×3次元を有する画像特徴マップを構成する。オーバーフィッティングを防止するために、画像特徴マップの次元は1×1畳み込みによって256×3×3まで減少される。密集質問埋め込みの次元は256である。また、HSV色特徴マップは画像特徴マップ(ATT−HSV)に追加される。各セルにおける色特徴は当該各セル中の画素のHSVヒストグラムとしてコーディングされる。PASCAL 2007セグメンテーションデータセットにおいて予め訓練された完全畳み込みニューラルネットワーク(L・C・陳(L.C.Chen)、G・パパンドレウ(G.Papandreou)、I・コッキンノス(I.Kokkinos)、A・K・マーフィー(K.Murphy)及びA・L・ユール(A.L.Yuille)の、「深層畳み込みネットワークと完全に接続されたCRFSを用いるセマンティクス画像分割」(Semantic image segmentation with deep convolutional nets and fully connected CRFS)、arXivプレプリントarXiv:1412.7062、2014を参照)も16×16×1024特徴マップの生成に用いられ、且つそれらとHSV色特徴マップを連結して画像特徴マップ(ATT−SEG−HSV)にする。4個のK40 Nvidia GPUを使用してToronto COCO−QAデータセットにおいてネットワークATT−HSVを訓練するのに約24時間がかかる。システムは単一のK40 GPUにおいて各質問に対して9.89msの速度で解答を生成できる。
本出願のモデルによる実施形態は三つのデータセットについて評価され、即ち:DAQUAR、Toronto COCO−QA及びVQA。
VQAモデルの性能は「解答の正確性」及び「呉−パーマー類似性測度セット(Wu−Palmer similarity measure Set)(WUPS)」スコアに基づいて評価される。解答の正確さ(ACC)はグランドトゥルース解答と正確にマッチングする、生成された解答の百分率を計算する。WUPSスコアは呉−パーマー(WUP)類似性[Z・呉(Z.Wu)とM・パーマー(M.Palmer)の、「動詞セマンティクス及び字句選択」(Verbs semantics and lexical selection)、『計算言語協会の32回目のプロシーディング』(Proceedings of the 32nd annual meeting on Association for Computational Linguistics)、ページ133〜138、計算言語協会出版、1994を参照]から得られ、値が[0,1]の範囲である。WUP類似性は2つの単語の分類ツリーにおける最下位の共通祖先の深さに基づいて2つの単語の類似性を測定する。閾値を有するWUPスコアは、全ての生成された解答とグランドトゥルース解答の重み低下されたWUPSスコアの平均値である。2つの単語のWUPSスコアSwupsが閾値より低い場合、重み低下されたWUPSスコアは0.1Swupsである。2つの単語のWUPSスコアSwupsが閾値の以上である場合、重み低下されたWUPSはSwupsである。実験では、閾値0.0と0.9を有するWUPSスコアは使用される。
本方法の実施形態と異なる基準方法を比較する。以下、すべてのベースラインモデルを示す:
1.VIS+LSTM (VL):それはレン(Ren)等の人が提案したフレームワーク(M・レン(M.Ren)、R・キロス(R.Kiros)及びR・ゼメル(R.Zemel)の、「画像質問応答用のモデル及びデータの探索」(Exploring models and data for image question answering)、arXiv: 1505.02074.2015を参照)であり、当該フレームワークは画像特徴を抽出するCNNを有し、当該CNNの後に次元削減レイヤが続く。次に、画像特徴を質問単語埋め込みシーケンスのヘッダに挿入して質問LSTMの入力とする。
2.2−VIS+BLSTM (2VB):画像特徴は単語埋め込みシーケンスの先頭及び末端でコーディングされる。その上、レン(Ren)等が提案したフレームワークにおけるLSTMは前方と後方へ入るように設定される。
3.IMG+BOW (IB):レン(Ren)等の人はBag−of−Words特徴を使用して密集質問埋め込みを生成する。
4.IMG:画像特徴だけが質問応答に用いられる。それは「聴覚障害」モデルと呼称される。
5.LSTM:LTMからの密集質問埋め込みだけで解答を生成する。それは「視覚障害」モデルと呼称される。
6.ENSEMBLE:レン(Ren)等の人は以上のすべての方法を使用して融合モデルを評価する。
7.Q+I:アントール(Antol)等の人(S・アントール(S.Antol)、A・アグラワール(A.Agrawal)、J・ル(J.Lu)、M・ミッチェル(M.Mitchell)、D・バトラ(D.Batra)、C・L・ジットニック(C.L.Zitnick)及びD・パリーク(D.Parikh)の、「VQA:視覚質問応答」(VQA: Visual question answering)、arXivプレプリントarXiv:1505.00468、2015を参照)は密集質問埋め込みと画像特徴の両方を使用してマルチクラス分類器を訓練して質問応答を実現する。
8.Q+I+C:Q+Iモデルと類似して、Q+I+Cモデルはラベルされた画像キャプションの密集埋め込みを追加入力とする。
9.ASK:マリナウスキ(Malinowski)等の人(M・マリナウスキ(M.Malinowski)及びM・フリツー(M.Fritz)、「君のニューラルに質問する:画像に関する質問応答用のニューラルに基づく方法(Ask your neurons: A neural−based approach to answering questions about images)、arXivプレプリントarXiv:1505.01121、2014を参照」はLSTMデコーダーにおいてCNN特徴と質問埋め込みを線形結合することで解答を生成する。
表2、4及び5は各モデルのToronto COCO−QAデータセット、DQ−Reducedデータセット及びDQ−Fullデータセットでの性能を示す。表3は各クラスにおける異なる方法のToronto COCO−QAデータセットでの性能を分解する。
実施形態において、本特許文献の様々様態は情報処理システム/計算システムに関してもよく、情報処理システム/計算システムにおいて実施されてもよい。本出願の目的として、計算システムは、商業、科学、制御又は他の目的に基づいて解答、計算、確定、分類、処理、輸送、受信、検索、開始、ルーティング、切替、記憶、表示、伝送、出現、検出、記録、コピー、操作又は任意の様態として操作された情報、インテリジェンス又はデータの任意の装置又は装置セットを含んでもよい。例えば、計算システムはパーソナルコンピュータ(例えば、ラップトップコンピュータ)、タブレットコンピュータ、タブレット電話、パーソナルディジタルアシスタント(PDA)、スマートフォン、スマート腕時計、スマートパッケージング、サーバー(例えば、ブレードサーバー又はラックマウント型サーバー)、ネットワーク記憶設備又は任意の他の適切な設備であってもよく、更に大きさ、形状、性能、機能及び価格が変化してもよい。計算システムはランダムアクセスメモリ(RAM)、1つ又は複数の処理リソース(例えば、中央処理装置(CPU)又はハードウェア又はソフトウェア制御ロジック)、ROM及び/又は他のタイプのメモリを含んでもよい。計算システムにおける付加的構成要素は1つ又は複数のディスクドライブ、外部設備と通信するための1つ又は複数のネットワークポート、及び例えばキーボード、マウス、タッチスクリーン及び/又はビデオディスプレーの各種の入力及び出力(I/O)設備を含んでもよい。計算システムは更に各ハードウェア校正要素の間で通信できるように操作される可能な1つ又は複数のバスを含んでもよい。
Claims (20)
- 画像入力に関連する問題入力に対する解答の生成精度を改良するコンピュータ実施方法であって、
前記画像入力を受信するステップと、
前記画像入力に関連する前記問題入力を受信するステップと、
前記問題入力と前記画像入力を注目に基づく設置可能な畳み込みニューラルネットワーク(ABC−CNN)フレームワークに入力して解答を生成するステップとを含み、
前記ABC−CNNフレームワークは、
前記画像入力から画像特徴マップを抽出するCNNを含む画像特徴マップ抽出部と、
前記問題入力から質問埋め込みを取得するセマンティクス質問埋め込み部と、
前記画像特徴マップと前記質問埋め込みを受信して、前記問題入力で質問される領域又は複数の領域に集中する、質問でガイドされた注目マップを取得する質問ガイド注目マップ生成部と、
前記の質問でガイドされた注目マップを使用して前記画像特徴マップを重み付け、注目重み付け画像特徴マップを取得し、前記画像特徴マップ、前記質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて解答を生成する解答生成部とを備える
ことを特徴とするコンピュータ実施方法。 - 前記セマンティクス質問埋め込み部は、長期短期記憶(LSTM)レイヤを含んで前記質問埋め込みを生成して前記問題入力の意味論的意味を特徴付けする
ことを特徴とする請求項1に記載のコンピュータ実施方法。 - 前記質問ガイド注目マップ生成部は、設定可能な畳み込みカーネルを含み、前記設定可能な畳み込みカーネルが、前記質問埋め込みを意味空間から視覚空間に射影することによって生成され、前記画像特徴マップと畳み込んで前記質問でガイドされた注目マップを生成することに用いられる
ことを特徴とする請求項1に記載のコンピュータ実施方法。 - 前記畳み込みカーネルは前記画像特徴マップの数と同じ数のチャンネルを有する
ことを特徴とする請求項3に記載のコンピュータ実施方法。 - 前記質問でガイドされた注目マップのサイズは前記画像特徴マップのサイズと同じである
ことを特徴とする請求項3に記載のコンピュータ実施方法。 - 前記画像特徴マップは、前記画像入力を複数のグリッドに分けて前記グリッドの各セルにおいてD次元特徴ベクトルを抽出することによって抽出される
ことを特徴とする請求項1に記載のコンピュータ実施方法。 - 前記画像特徴マップが前記質問でガイドされた注目マップによって空間的に重み付けられ、前記注目重み付け画像特徴マップを取得する
ことを特徴とする請求項1に記載のコンピュータ実施方法。 - 前記空間的な重み付けは、前記画像特徴マップと前記質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される
ことを特徴とする請求項7に記載のコンピュータ実施方法。 - 前記空間的な重み付けは、空間的な注目分布用のSoftmax正規化によって限定される
ことを特徴とする請求項8に記載のコンピュータ実施方法。 - 前記ABC−CNNフレームワークは、確率的勾配降下によってエンドツーエンド方式で予め訓練される
ことを特徴とする請求項1に記載のコンピュータ実施方法。 - 前記ABC−CNNフレームワークは初期重みを有し、前記初期重みは予備訓練の期間において、前記ABC−CNNフレームワーク内のすべてのレイヤの活性化の各次元が0平均値と一つの標準偏差を有することを確保するようにランダムに調整される
ことを特徴とする請求項10に記載のコンピュータ実施方法。 - 画像に関連する質問に対して解答を生成するコンピュータ実施方法であって、
深層畳み込みニューラルネットワークを使用して複数の画素を含む入力画像から画像特徴マップを抽出するステップと、
長期短期記憶(LSTM)レイヤを使用して前記入力画像に関連する入力問題において密集質問埋め込みを取得するステップと、
前記密集質問埋め込みを意味空間から視覚空間に射影することによって質問で設定された複数のカーネルを生成させるステップと、
質問で設定されたカーネルと前記画像特徴マップを畳み込んで質問でガイドされた注目マップを生成するステップと、
前記の質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けることによって、マルチクラス分類器で注目重み付け画像特徴マップを取得するステップと、
前記画像特徴マップ、前記密集質問埋め込み及び前記注目重み付け画像特徴マップの融合に基づいて、前記入力問題に対して解答を生成するステップとを含んでおり、
ここで、前記注目重み付け画像特徴マップが前記入力問題に無関係の領域の重みを低下させる
ことを特徴とするコンピュータ実施方法。 - 前記空間的に重み付けることは、前記画像特徴マップと前記質問でガイドされた注目マップの各チャンネル間の要素ごとの積によって実現される請求項12に記載の方法。
- 前記質問でガイドされた注目マップは、前記入力問題に応じて適応的に各画素の注目度を示す請求項12に記載の方法。
- 前記の質問でガイドされた注目マップは、前記質問で設定されたカーネルを前記画像特徴マップに応用することによって取得される請求項12に記載の方法。
- 前記画像特徴マップ、前記密集質問埋め込み及び前記注目重み付け画像特徴マップは非線形射影によって融合される請求項12に記載の方法。
- 前記非線形射影は、要素ごとにスケーリングされた双曲線正接関数である請求項16に記載の方法。
- 一つ又は複数のプロセッサにより実行されるときに、以下の操作を実行させる一つ又は複数の命令シーケンスを含んでおり、前記操作は
問題入力の受信に応答して、前記問題入力の密集質問埋め込みを抽出するステップと、
前記問題入力に関連する画像入力の受信に応答して、画像特徴マップを生成するステップと、
少なくとも前記画像特徴マップと前記密集質問埋め込みに基づき、前記問題入力で質問される領域に選択的に集中する、質問でガイドされた注目マップを生成するステップと、
前記質問でガイドされた注目マップで前記画像特徴マップを空間的に重み付けて注目重み付け画像マップを取得するステップと、
セマンティクス情報、前記画像特徴マップ及び前記注目重み付け画像マップを融合して前記問題入力に対して解答を生成するステップとを含む
ことを特徴とする非一時的コンピュータ可読媒体又はメディア。 - 質問でガイドされた注目マップの生成は、前記注目マップの空間的な注目分布についてSoftmax正規化を行うステップを更に含む
ことを特徴とする請求項18に記載の非一時的コンピュータ可読媒体又はメディア。 - 質問でガイドされた注目マップの生成は、前記密集質問埋め込みに基づいて一組の畳み込みカーネルを配置し、更に前記畳み込みカーネルを前記画像特徴マップに応用し、質問でガイドされた注目マップを生成するステップを含む
ことを特徴とする請求項19に記載の非一時的コンピュータ可読媒体又はメディア。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562250260P | 2015-11-03 | 2015-11-03 | |
US62/250,260 | 2015-11-03 | ||
US15/184,991 | 2016-06-16 | ||
US15/184,991 US9965705B2 (en) | 2015-11-03 | 2016-06-16 | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017091525A true JP2017091525A (ja) | 2017-05-25 |
JP6351689B2 JP6351689B2 (ja) | 2018-07-04 |
Family
ID=57281007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016215579A Active JP6351689B2 (ja) | 2015-11-03 | 2016-11-02 | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9965705B2 (ja) |
EP (1) | EP3166049B1 (ja) |
JP (1) | JP6351689B2 (ja) |
KR (1) | KR101865102B1 (ja) |
CN (1) | CN106649542B (ja) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018199473A (ja) * | 2017-05-30 | 2018-12-20 | 株式会社Soken | 操舵角決定装置、自動運転車 |
CN109145816A (zh) * | 2018-08-21 | 2019-01-04 | 北京京东尚科信息技术有限公司 | 商品识别方法和系统 |
JP2019114227A (ja) * | 2017-12-20 | 2019-07-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 映像の相互作用処理方法、相互作用処理装置、学習方法、学習装置及びコンピュータプログラム |
WO2019163985A1 (ja) * | 2018-02-23 | 2019-08-29 | 日本電信電話株式会社 | 特徴表現装置、特徴表現方法、およびプログラム |
JP2019153277A (ja) * | 2017-12-07 | 2019-09-12 | イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ | エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け |
JP2019185748A (ja) * | 2018-04-12 | 2019-10-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | インタラクティブ言語習得のシステム、及び方法 |
JP2020047213A (ja) * | 2018-09-21 | 2020-03-26 | 富士ゼロックス株式会社 | 文字列認識装置及び文字列認識プログラム |
JP2020053018A (ja) * | 2018-09-27 | 2020-04-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体 |
KR20200037077A (ko) * | 2018-09-28 | 2020-04-08 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Vqa 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 컴퓨터 판독 가능 매체 |
JP2020123319A (ja) * | 2019-01-30 | 2020-08-13 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム |
JP2020135852A (ja) * | 2019-02-12 | 2020-08-31 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム |
JP2020532017A (ja) * | 2017-10-31 | 2020-11-05 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 画像質問応答方法、装置、システムおよび記憶媒体 |
JP2021509979A (ja) * | 2018-11-30 | 2021-04-08 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 |
JP2022013644A (ja) * | 2020-06-30 | 2022-01-18 | 北京百度網訊科技有限公司 | 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム |
JP2022508790A (ja) * | 2019-03-13 | 2022-01-19 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 画像領域位置決め方法、モデル訓練方法及び関連装置 |
US11321618B2 (en) | 2018-04-25 | 2022-05-03 | Om Digital Solutions Corporation | Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method |
WO2023157265A1 (ja) * | 2022-02-18 | 2023-08-24 | 日本電信電話株式会社 | 応答生成装置、応答生成方法および応答生成プログラム |
JP7474446B2 (ja) | 2019-05-17 | 2024-04-25 | ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | マルチラベル予測に適したニューラルネットワークの射影層 |
JP7481995B2 (ja) | 2020-10-28 | 2024-05-13 | 株式会社東芝 | 状態判定装置、方法およびプログラム |
Families Citing this family (204)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858524B2 (en) * | 2014-11-14 | 2018-01-02 | Google Inc. | Generating natural language descriptions of images |
US10013640B1 (en) * | 2015-12-21 | 2018-07-03 | Google Llc | Object recognition from videos using recurrent neural networks |
US9830709B2 (en) * | 2016-03-11 | 2017-11-28 | Qualcomm Incorporated | Video analysis with convolutional attention recurrent neural networks |
US11409791B2 (en) * | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US20180068330A1 (en) * | 2016-09-07 | 2018-03-08 | International Business Machines Corporation | Deep Learning Based Unsupervised Event Learning for Economic Indicator Predictions |
US10339168B2 (en) * | 2016-09-09 | 2019-07-02 | International Business Machines Corporation | System and method for generating full questions from natural language queries |
US10339167B2 (en) * | 2016-09-09 | 2019-07-02 | International Business Machines Corporation | System and method for generating full questions from natural language queries |
US10552968B1 (en) | 2016-09-23 | 2020-02-04 | Snap Inc. | Dense feature scale detection for image matching |
US10402658B2 (en) * | 2016-11-03 | 2019-09-03 | Nec Corporation | Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation |
US10699184B2 (en) * | 2016-12-29 | 2020-06-30 | Facebook, Inc. | Updating predictions for a deep-learning model |
JP7221203B2 (ja) * | 2017-01-23 | 2023-02-13 | オックスフォード ユニヴァーシティ イノヴェーション リミテッド | モバイル装置の位置特定方法 |
US10339421B2 (en) * | 2017-03-30 | 2019-07-02 | Toyota Motor Engineering & Manufacturing North America, Inc. | RGB-D scene labeling with multimodal recurrent neural networks |
US10489287B2 (en) | 2017-05-15 | 2019-11-26 | Bank Of America Corporation | Conducting automated software testing using centralized controller and distributed test host servers |
US10223248B2 (en) | 2017-05-15 | 2019-03-05 | Bank Of America Corporation | Conducting automated software testing using centralized controller and distributed test host servers |
US11501154B2 (en) | 2017-05-17 | 2022-11-15 | Samsung Electronics Co., Ltd. | Sensor transformation attention network (STAN) model |
US11669718B2 (en) | 2017-05-23 | 2023-06-06 | Intel Corporation | Methods and apparatus for discriminative semantic transfer and physics-inspired optimization of features in deep learning |
EP4156031A1 (en) * | 2017-05-23 | 2023-03-29 | Google LLC | Attention-based sequence transduction neural networks |
US11417235B2 (en) * | 2017-05-25 | 2022-08-16 | Baidu Usa Llc | Listen, interact, and talk: learning to speak via interaction |
CN110692066B (zh) * | 2017-06-05 | 2023-06-02 | 渊慧科技有限公司 | 使用多模态输入选择动作 |
US11645508B2 (en) | 2017-06-09 | 2023-05-09 | Korea Advanced Institute Of Science And Technology | Electronic apparatus and method for generating trained model |
KR102419136B1 (ko) * | 2017-06-15 | 2022-07-08 | 삼성전자주식회사 | 다채널 특징맵을 이용하는 영상 처리 장치 및 방법 |
CN107463609B (zh) * | 2017-06-27 | 2020-06-19 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN107688821B (zh) * | 2017-07-11 | 2021-08-06 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
KR20190007816A (ko) | 2017-07-13 | 2019-01-23 | 삼성전자주식회사 | 동영상 분류를 위한 전자 장치 및 그의 동작 방법 |
CN107480206B (zh) * | 2017-07-25 | 2020-06-12 | 杭州电子科技大学 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
US20190034497A1 (en) * | 2017-07-27 | 2019-01-31 | Nec Laboratories America, Inc. | Data2Data: Deep Learning for Time Series Representation and Retrieval |
CN109426776A (zh) | 2017-08-25 | 2019-03-05 | 微软技术许可有限责任公司 | 基于深度神经网络的对象检测 |
KR101986307B1 (ko) * | 2017-08-29 | 2019-06-05 | 서울대학교산학협력단 | 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템 |
US10679075B2 (en) * | 2017-08-31 | 2020-06-09 | Nec Corporation | Dense correspondence estimation with multi-level metric learning and hierarchical matching |
US10366166B2 (en) * | 2017-09-07 | 2019-07-30 | Baidu Usa Llc | Deep compositional frameworks for human-like language acquisition in virtual environments |
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
US10671918B2 (en) | 2017-10-24 | 2020-06-02 | International Business Machines Corporation | Attention based sequential image processing |
EP3701429A1 (en) | 2017-10-25 | 2020-09-02 | Deepmind Technologies Limited | Auto-regressive neural network systems with a soft attention mechanism using support data patches |
US10592767B2 (en) * | 2017-10-27 | 2020-03-17 | Salesforce.Com, Inc. | Interpretable counting in visual question answering |
GB2568233A (en) * | 2017-10-27 | 2019-05-15 | Babylon Partners Ltd | A computer implemented determination method and system |
US10395147B2 (en) * | 2017-10-30 | 2019-08-27 | Rakuten, Inc. | Method and apparatus for improved segmentation and recognition of images |
US10410350B2 (en) | 2017-10-30 | 2019-09-10 | Rakuten, Inc. | Skip architecture neural network machine and method for improved semantic segmentation |
CN108875751B (zh) * | 2017-11-02 | 2021-03-02 | 北京旷视科技有限公司 | 图像处理方法和装置、神经网络的训练方法、存储介质 |
CN107862058B (zh) * | 2017-11-10 | 2021-10-22 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
US10542270B2 (en) * | 2017-11-15 | 2020-01-21 | Salesforce.Com, Inc. | Dense video captioning |
CN108022012A (zh) * | 2017-12-01 | 2018-05-11 | 兰州大学 | 基于深度学习的车辆位置预测方法 |
CN107909115B (zh) * | 2017-12-04 | 2022-02-15 | 上海师范大学 | 一种图像中文字幕生成方法 |
CN108154235A (zh) * | 2017-12-04 | 2018-06-12 | 盈盛资讯科技有限公司 | 一种图像问答推理方法、系统及装置 |
CN108021897B (zh) * | 2017-12-11 | 2021-06-15 | 北京小米移动软件有限公司 | 图片问答方法及装置 |
US10754851B2 (en) * | 2017-12-22 | 2020-08-25 | Adobe Inc. | Question answering for data visualizations |
CN108153876B (zh) * | 2017-12-26 | 2021-07-23 | 爱因互动科技发展(北京)有限公司 | 智能问答方法及系统 |
CN108108771A (zh) * | 2018-01-03 | 2018-06-01 | 华南理工大学 | 基于多尺度深度学习的图像问答方法 |
CN108230413B (zh) * | 2018-01-23 | 2021-07-06 | 北京市商汤科技开发有限公司 | 图像描述方法和装置、电子设备、计算机存储介质 |
CN108229477B (zh) * | 2018-01-25 | 2020-10-09 | 深圳市商汤科技有限公司 | 针对图像的视觉关联性识别方法、装置、设备及存储介质 |
CN108319909B (zh) * | 2018-01-29 | 2021-11-30 | 清华大学 | 一种驾驶行为分析方法及系统 |
WO2019148315A1 (en) * | 2018-01-30 | 2019-08-08 | Intel Corporation | Visual question answering using visual knowledge bases |
CN108491421B (zh) * | 2018-02-07 | 2021-04-16 | 北京百度网讯科技有限公司 | 一种生成问答的方法、装置、设备和计算存储介质 |
US11507800B2 (en) | 2018-03-06 | 2022-11-22 | Adobe Inc. | Semantic class localization digital environment |
US11287894B2 (en) * | 2018-03-09 | 2022-03-29 | Adobe Inc. | Utilizing a touchpoint attribution attention neural network to identify significant touchpoints and measure touchpoint contribution in multichannel, multi-touch digital content campaigns |
CN110362810B (zh) * | 2018-03-26 | 2022-06-14 | 阿里巴巴(中国)有限公司 | 文本分析方法及装置 |
CN110362809B (zh) * | 2018-03-26 | 2022-06-14 | 阿里巴巴(中国)有限公司 | 文本分析方法及装置 |
CN110362808B (zh) * | 2018-03-26 | 2022-06-14 | 阿里巴巴(中国)有限公司 | 文本分析方法及装置 |
CN110555104B (zh) * | 2018-03-26 | 2022-06-17 | 阿里巴巴(中国)有限公司 | 文本分析方法及装置 |
CN108921811B (zh) * | 2018-04-03 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 检测物品损伤的方法和装置、物品损伤检测器 |
CN108614996A (zh) * | 2018-04-04 | 2018-10-02 | 杭州电子科技大学 | 一种基于深度学习的军船、民船自动识别方法 |
CN108647573A (zh) * | 2018-04-04 | 2018-10-12 | 杭州电子科技大学 | 一种基于深度学习的军事目标识别方法 |
US10621990B2 (en) * | 2018-04-30 | 2020-04-14 | International Business Machines Corporation | Cognitive print speaker modeler |
EP3788632A1 (en) * | 2018-04-30 | 2021-03-10 | Koninklijke Philips N.V. | Visual question answering using on-image annotations |
EP3794511A1 (en) * | 2018-05-18 | 2021-03-24 | BenevolentAI Technology Limited | Graph neutral networks with attention |
CN108776779B (zh) * | 2018-05-25 | 2022-09-23 | 西安电子科技大学 | 基于卷积循环网络的sar序列图像目标识别方法 |
CN108829756B (zh) * | 2018-05-25 | 2021-10-22 | 杭州一知智能科技有限公司 | 一种利用分层注意力上下文网络解决多轮视频问答的方法 |
US10769307B2 (en) | 2018-05-30 | 2020-09-08 | Bank Of America Corporation | Processing system using natural language processing for performing dataset filtering and sanitization |
JP2019211969A (ja) * | 2018-06-04 | 2019-12-12 | オリンパス株式会社 | 学習管理装置、学習管理サーバ、および学習管理方法 |
CN109086892B (zh) * | 2018-06-15 | 2022-02-18 | 中山大学 | 一种基于一般依赖树的视觉问题推理模型及系统 |
US10885395B2 (en) | 2018-06-17 | 2021-01-05 | Pensa Systems | Method for scaling fine-grained object recognition of consumer packaged goods |
KR102120751B1 (ko) * | 2018-06-21 | 2020-06-10 | 주식회사 머니브레인 | 대화 이해 ai 시스템에 의하여, 머신러닝을 대화 관리 기술에 적용한 하이브리드 계층적 대화 흐름 모델을 기초로 답변을 제공하는 방법 및 컴퓨터 판독가능 기록 매체 |
CN108875034A (zh) * | 2018-06-25 | 2018-11-23 | 湖南丹尼尔智能科技有限公司 | 一种基于层次化长短期记忆网络的中文文本分类方法 |
CN108920587B (zh) * | 2018-06-26 | 2021-09-24 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
US20200019603A1 (en) * | 2018-07-13 | 2020-01-16 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved table identification using a neural network |
CN109255012B (zh) * | 2018-07-23 | 2021-04-30 | 深思考人工智能机器人科技(北京)有限公司 | 机器阅读理解以及减少候选数据集规模的方法、装置 |
US10721190B2 (en) * | 2018-07-31 | 2020-07-21 | Microsoft Technology Licensing, Llc | Sequence to sequence to classification model for generating recommended messages |
CN109086405B (zh) * | 2018-08-01 | 2021-09-14 | 武汉大学 | 基于显著性和卷积神经网络的遥感图像检索方法及系统 |
US10740536B2 (en) * | 2018-08-06 | 2020-08-11 | International Business Machines Corporation | Dynamic survey generation and verification |
CN109145970B (zh) * | 2018-08-06 | 2021-01-12 | 北京市商汤科技开发有限公司 | 基于图像的问答处理方法和装置、电子设备及存储介质 |
US10832084B2 (en) * | 2018-08-17 | 2020-11-10 | Nec Corporation | Dense three-dimensional correspondence estimation with multi-level metric learning and hierarchical matching |
CN109410158B (zh) * | 2018-08-21 | 2020-10-02 | 西安电子科技大学 | 一种基于卷积神经网络的多焦点图像融合方法 |
US11010559B2 (en) | 2018-08-30 | 2021-05-18 | International Business Machines Corporation | Multi-aspect sentiment analysis by collaborative attention allocation |
KR102073323B1 (ko) * | 2018-09-02 | 2020-02-03 | 주식회사 뉴로다임 | 인공지능 기반의 구조물 건전성 관리 시스템 |
US11645535B2 (en) | 2018-09-24 | 2023-05-09 | Samsung Electronics Co., Ltd. | Normalization method for training deep neural networks |
WO2020131187A2 (en) * | 2018-09-26 | 2020-06-25 | Sofar Ocean Technologies, Inc. | Ocean weather forecasting system |
US10799182B2 (en) | 2018-10-19 | 2020-10-13 | Microsoft Technology Licensing, Llc | Video-based physiological measurement using neural networks |
US11250299B2 (en) * | 2018-11-01 | 2022-02-15 | Nec Corporation | Learning representations of generalized cross-modal entailment tasks |
WO2020087534A1 (en) * | 2018-11-02 | 2020-05-07 | Microsoft Technology Licensing, Llc | Generating response in conversation |
CN109712108B (zh) * | 2018-11-05 | 2021-02-02 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN111177328B (zh) | 2018-11-12 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 问答匹配系统和方法及问答处理设备和介质 |
US10755099B2 (en) * | 2018-11-13 | 2020-08-25 | Adobe Inc. | Object detection in images |
CN111175681B (zh) | 2018-11-13 | 2022-08-30 | 西门子(深圳)磁共振有限公司 | 基于刀锋序列的磁共振成像方法、装置及其存储介质 |
US10929392B1 (en) * | 2018-11-16 | 2021-02-23 | Amazon Technologies, Inc. | Artificial intelligence system for automated generation of realistic question and answer pairs |
CN109670576B (zh) * | 2018-11-29 | 2022-09-13 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
US11573991B2 (en) * | 2018-11-30 | 2023-02-07 | Samsung Electronics Co., Ltd. | Deep reinforcement learning-based multi-step question answering systems |
CN109635926B (zh) * | 2018-11-30 | 2021-11-05 | 深圳市商汤科技有限公司 | 用于神经网络的注意力特征获取方法、装置及存储介质 |
CN109685115B (zh) * | 2018-11-30 | 2022-10-14 | 西北大学 | 一种双线性特征融合的细粒度概念模型及学习方法 |
CN109784163A (zh) * | 2018-12-12 | 2019-05-21 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
CN109740515B (zh) * | 2018-12-29 | 2021-08-17 | 科大讯飞股份有限公司 | 一种评阅方法及装置 |
US11120062B2 (en) | 2019-01-07 | 2021-09-14 | International Business Machines Corporation | Framework for analyzing graphical data by question answering systems |
CN109800294B (zh) * | 2019-01-08 | 2020-10-13 | 中国科学院自动化研究所 | 基于物理环境博弈的自主进化智能对话方法、系统、装置 |
KR102192016B1 (ko) * | 2019-01-11 | 2020-12-16 | 연세대학교 산학협력단 | 의미 인식 기반의 이미지 보정 방법 및 그를 위한 장치 |
US10325179B1 (en) * | 2019-01-23 | 2019-06-18 | StradVision, Inc. | Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same |
US10311578B1 (en) * | 2019-01-23 | 2019-06-04 | StradVision, Inc. | Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same |
US10373025B1 (en) * | 2019-01-28 | 2019-08-06 | StradVision, Inc. | Method and device for verifying integrity of parameters of CNN by using test pattern to enhance fault tolerance and fluctuation robustness in extreme situations for functional safety |
US10373027B1 (en) * | 2019-01-30 | 2019-08-06 | StradVision, Inc. | Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same |
CN111507141B (zh) * | 2019-01-31 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 图片识别方法、服务界面显示方法、系统及设备 |
CN111598117B (zh) * | 2019-02-21 | 2023-06-30 | 成都通甲优博科技有限责任公司 | 图像识别方法及装置 |
CN111666006B (zh) * | 2019-03-05 | 2022-01-14 | 京东方科技集团股份有限公司 | 画作问答方法及装置、画作问答系统、可读存储介质 |
CN109902164B (zh) * | 2019-03-06 | 2020-12-18 | 杭州一知智能科技有限公司 | 利用卷积双向自注意网络解决开放长格式视频问答的方法 |
CN109902166A (zh) * | 2019-03-12 | 2019-06-18 | 北京百度网讯科技有限公司 | 视觉问答模型、电子设备及存储介质 |
US10956474B2 (en) | 2019-03-14 | 2021-03-23 | Microsoft Technology Licensing, Llc | Determination of best set of suggested responses |
US10997374B2 (en) * | 2019-03-22 | 2021-05-04 | Fortia Financial Solutions | Generation of natural language text from structured data using a fusion model |
US11568247B2 (en) * | 2019-03-22 | 2023-01-31 | Nec Corporation | Efficient and fine-grained video retrieval |
CN110047076B (zh) * | 2019-03-29 | 2021-03-23 | 腾讯科技(深圳)有限公司 | 一种图像信息的处理方法、装置及存储介质 |
US11494377B2 (en) * | 2019-04-01 | 2022-11-08 | Nec Corporation | Multi-detector probabilistic reasoning for natural language queries |
EP3719745A1 (en) * | 2019-04-01 | 2020-10-07 | Siemens Healthcare GmbH | Processing a medical image |
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
CN110070224A (zh) * | 2019-04-20 | 2019-07-30 | 北京工业大学 | 一种基于多步骤递归预测的空气质量预测方法 |
CN110097617B (zh) * | 2019-04-25 | 2020-09-15 | 北京理工大学 | 基于卷积神经网络与显著性权重的图像融合方法 |
CN110134774B (zh) * | 2019-04-29 | 2021-02-09 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
US10949718B2 (en) | 2019-05-08 | 2021-03-16 | Accenture Global Solutions Limited | Multi-modal visual question answering system |
US11494616B2 (en) * | 2019-05-09 | 2022-11-08 | Shenzhen Malong Technologies Co., Ltd. | Decoupling category-wise independence and relevance with self-attention for multi-label image classification |
CN110263912B (zh) * | 2019-05-14 | 2021-02-26 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110175229B (zh) * | 2019-05-27 | 2021-07-06 | 言图科技有限公司 | 一种基于自然语言进行在线培训的方法和系统 |
CN110197307B (zh) * | 2019-06-03 | 2023-07-25 | 上海海洋大学 | 一种结合注意力机制的区域型海表面温度预测方法 |
CN110209823B (zh) * | 2019-06-12 | 2021-04-13 | 齐鲁工业大学 | 一种多标签文本分类方法及系统 |
CN110377710B (zh) * | 2019-06-17 | 2022-04-01 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110225368B (zh) * | 2019-06-27 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种视频定位方法、装置及电子设备 |
US11250214B2 (en) * | 2019-07-02 | 2022-02-15 | Microsoft Technology Licensing, Llc | Keyphrase extraction beyond language modeling |
US11874882B2 (en) | 2019-07-02 | 2024-01-16 | Microsoft Technology Licensing, Llc | Extracting key phrase candidates from documents and producing topical authority ranking |
CN110321864A (zh) * | 2019-07-09 | 2019-10-11 | 西北工业大学 | 基于多尺度裁剪机制的遥感图像文字说明生成方法 |
CN110321565B (zh) * | 2019-07-09 | 2024-02-23 | 广东工业大学 | 基于深度学习的实时文本情感分析方法、装置及设备 |
CN110348535B (zh) * | 2019-07-17 | 2022-05-31 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN110414684A (zh) * | 2019-07-23 | 2019-11-05 | 清华大学 | 基于知识感知的模块化视觉推理方法及装置 |
KR102148607B1 (ko) * | 2019-07-26 | 2020-08-26 | 연세대학교 산학협력단 | 오디오-비디오 정합 영역 탐지 장치 및 방법 |
CN110472642B (zh) * | 2019-08-19 | 2022-02-01 | 齐鲁工业大学 | 基于多级注意力的细粒度图像描述方法及系统 |
CN110516791B (zh) * | 2019-08-20 | 2022-04-22 | 北京影谱科技股份有限公司 | 一种基于多重注意力的视觉问答方法及系统 |
WO2021045434A1 (ko) * | 2019-09-05 | 2021-03-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN110704668B (zh) * | 2019-09-23 | 2022-11-04 | 北京影谱科技股份有限公司 | 基于网格的协同注意力vqa方法和装置 |
US11462032B2 (en) | 2019-09-23 | 2022-10-04 | Proscia Inc. | Stain normalization for automated whole-slide image classification |
WO2021058270A1 (en) * | 2019-09-25 | 2021-04-01 | Deepmind Technologies Limited | Gated attention neural networks |
CN110717431B (zh) * | 2019-09-27 | 2023-03-24 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN110727824B (zh) * | 2019-10-11 | 2022-04-01 | 浙江大学 | 利用多重交互注意力机制解决视频中对象关系问答任务的方法 |
KR20210044056A (ko) | 2019-10-14 | 2021-04-22 | 삼성전자주식회사 | 중복 토큰 임베딩을 이용한 자연어 처리 방법 및 장치 |
US11157554B2 (en) | 2019-11-05 | 2021-10-26 | International Business Machines Corporation | Video response generation and modification |
CN110851760B (zh) * | 2019-11-12 | 2022-12-27 | 电子科技大学 | 在web3D环境融入视觉问答的人机交互系统 |
CN110990630B (zh) * | 2019-11-29 | 2022-06-24 | 清华大学 | 一种基于图建模视觉信息的利用问题指导的视频问答方法 |
CN110929013A (zh) * | 2019-12-04 | 2020-03-27 | 成都中科云集信息技术有限公司 | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
CN111598118B (zh) * | 2019-12-10 | 2023-07-07 | 中山大学 | 一种视觉问答任务实现方法及系统 |
CN111160140B (zh) * | 2019-12-13 | 2023-04-18 | 浙江大华技术股份有限公司 | 一种图像检测方法及装置 |
CN111126258B (zh) * | 2019-12-23 | 2023-06-23 | 深圳市华尊科技股份有限公司 | 图像识别方法及相关装置 |
CN111080729B (zh) * | 2019-12-24 | 2023-06-13 | 山东浪潮科学研究院有限公司 | 基于Attention机制的训练图片压缩网络的构建方法及系统 |
CN111147396B (zh) * | 2019-12-26 | 2023-03-21 | 哈尔滨工程大学 | 一种基于序列特征的加密流量分类方法 |
EP4094194A1 (en) | 2020-01-23 | 2022-11-30 | Umnai Limited | An explainable neural net architecture for multidimensional data |
CN113296152A (zh) * | 2020-02-21 | 2021-08-24 | 中国石油天然气集团有限公司 | 断层检测方法及装置 |
CN111325751B (zh) * | 2020-03-18 | 2022-05-27 | 重庆理工大学 | 基于注意力卷积神经网络的ct图像分割系统 |
CN111489334B (zh) * | 2020-04-02 | 2023-08-08 | 暖屋信息科技(苏州)有限公司 | 一种基于卷积注意力神经网络的缺陷工件图像识别方法 |
CN111488887B (zh) * | 2020-04-09 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像处理方法、装置 |
CN111539884B (zh) * | 2020-04-21 | 2023-08-15 | 温州大学 | 一种基于多注意力机制融合的神经网络视频去模糊方法 |
US11526678B2 (en) * | 2020-05-14 | 2022-12-13 | Naver Corporation | Attention over common-sense network for natural language inference |
CN111563513B (zh) * | 2020-05-15 | 2022-06-24 | 电子科技大学 | 基于注意力机制的散焦模糊检测方法 |
CN111737512B (zh) * | 2020-06-04 | 2021-11-12 | 东华大学 | 基于深度特征区域融合的丝绸文物图像检索方法 |
CN111612103B (zh) * | 2020-06-23 | 2023-07-11 | 中国人民解放军国防科技大学 | 结合抽象语义表示的图像描述生成方法、系统及介质 |
CN113837212B (zh) * | 2020-06-24 | 2023-09-26 | 四川大学 | 一种基于多模态双向导向注意力的视觉问答方法 |
CN111858882B (zh) * | 2020-06-24 | 2022-08-09 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
CN111767379B (zh) * | 2020-06-29 | 2023-06-27 | 北京百度网讯科技有限公司 | 图像问答方法、装置、设备以及存储介质 |
CN111782838B (zh) * | 2020-06-30 | 2024-04-05 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111859005B (zh) * | 2020-07-01 | 2022-03-29 | 江西理工大学 | 一种跨层多模型特征融合与基于卷积解码的图像描述方法 |
CN111783697A (zh) * | 2020-07-06 | 2020-10-16 | 周书田 | 一种基于卷积神经网络的错题检测及靶向推荐系统和方法 |
CN111949824B (zh) * | 2020-07-08 | 2023-11-03 | 合肥工业大学 | 基于语义对齐的视觉问答方法和系统、存储介质 |
US11622117B2 (en) * | 2020-07-21 | 2023-04-04 | Tencent America LLC | Method and apparatus for rate-adaptive neural image compression with adversarial generators |
CN112036276B (zh) * | 2020-08-19 | 2023-04-07 | 北京航空航天大学 | 一种人工智能视频问答方法 |
CA3196713C (en) * | 2020-09-23 | 2023-11-14 | Proscia Inc. | Critical component detection using deep learning and attention |
US20220129693A1 (en) * | 2020-10-28 | 2022-04-28 | Kabushiki Kaisha Toshiba | State determination apparatus and image analysis apparatus |
CN112511172B (zh) * | 2020-11-11 | 2023-03-24 | 山东云海国创云计算装备产业创新中心有限公司 | 一种译码方法、装置、设备及存储介质 |
CN112365340A (zh) * | 2020-11-20 | 2021-02-12 | 无锡锡商银行股份有限公司 | 一种多模态个人贷款风险预测方法 |
US11769018B2 (en) * | 2020-11-24 | 2023-09-26 | Openstream Inc. | System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system |
CN112527993B (zh) * | 2020-12-17 | 2022-08-05 | 浙江财经大学东方学院 | 一种跨媒体层次化深度视频问答推理框架 |
CN112488055B (zh) * | 2020-12-18 | 2022-09-06 | 贵州大学 | 一种基于渐进图注意力网络的视频问答方法 |
CN112800191B (zh) * | 2020-12-31 | 2023-01-17 | 科大讯飞股份有限公司 | 一种基于图片的问答方法、设备及计算机可读存储介质 |
CN112712092A (zh) * | 2021-01-07 | 2021-04-27 | 泰康保险集团股份有限公司 | 采集图像特征的方法、装置、设备和计算机可读介质 |
CN112750082B (zh) * | 2021-01-21 | 2023-05-16 | 武汉工程大学 | 基于融合注意力机制的人脸超分辨率方法及系统 |
CN112990213B (zh) * | 2021-02-07 | 2023-10-10 | 西北大学 | 一种基于深度学习的数字万用表字符识别系统和方法 |
CN113065576A (zh) * | 2021-02-26 | 2021-07-02 | 华为技术有限公司 | 一种特征提取的方法以及装置 |
CN113010712B (zh) * | 2021-03-04 | 2022-12-02 | 天津大学 | 一种基于多图融合的视觉问答方法 |
CN113011332A (zh) * | 2021-03-19 | 2021-06-22 | 中国科学技术大学 | 基于多区域注意力机制的人脸伪造检测方法 |
KR20220141537A (ko) | 2021-04-13 | 2022-10-20 | 한국원자력연구원 | 피드백 데이터 기반 자가 학습 장치 및 방법 |
CN113128415B (zh) * | 2021-04-22 | 2023-09-29 | 合肥工业大学 | 一种环境辨别方法、系统、设备及存储介质 |
CN112949841B (zh) * | 2021-05-13 | 2022-08-16 | 德鲁动力科技(成都)有限公司 | 一种基于Attention的CNN神经网络的行人重识别方法 |
CN113222026B (zh) * | 2021-05-18 | 2022-11-11 | 合肥工业大学 | 一种机务段场景视觉问答方法、系统及服务器 |
CN113298151A (zh) * | 2021-05-26 | 2021-08-24 | 中国电子科技集团公司第五十四研究所 | 一种基于多级特征融合的遥感图像语义描述方法 |
US11967128B2 (en) * | 2021-05-28 | 2024-04-23 | Adobe Inc. | Decompositional learning for color attribute prediction |
CN113420833B (zh) * | 2021-07-21 | 2023-12-26 | 南京大学 | 一种基于问题语义映射的视觉问答方法及装置 |
CN113626662A (zh) * | 2021-07-29 | 2021-11-09 | 山东新一代信息产业技术研究院有限公司 | 一种实现灾后图像视觉问答的方法 |
CN113313091B (zh) * | 2021-07-29 | 2021-11-02 | 山东建筑大学 | 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 |
WO2023143995A1 (en) | 2022-01-26 | 2023-08-03 | Bayer Aktiengesellschaft | Disease detection, identification and/or characterization using multiple representations of audio data |
CN114661874B (zh) * | 2022-03-07 | 2024-04-30 | 浙江理工大学 | 基于多角度语义理解与自适应双通道的视觉问答方法 |
KR20240023928A (ko) | 2022-08-16 | 2024-02-23 | 김찬우 | 이미지 기반 자동 문제 생성 장치 및 방법 |
WO2024056439A1 (de) | 2022-09-14 | 2024-03-21 | Bayer Aktiengesellschaft | Ermittlung der stabilität von verpackten formulierungen |
EP4350701A1 (en) | 2022-10-07 | 2024-04-10 | SIVA Health AG | Classifying individuals suffering from chronic cough |
CN115905591B (zh) * | 2023-02-22 | 2023-05-30 | 浪潮电子信息产业股份有限公司 | 一种视觉问答方法、系统、设备及可读存储介质 |
CN116543146B (zh) * | 2023-07-06 | 2023-09-26 | 贵州大学 | 一种基于窗口自注意与多尺度机制的图像密集描述方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4532915B2 (ja) * | 2004-01-29 | 2010-08-25 | キヤノン株式会社 | パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体 |
US20120078062A1 (en) * | 2010-09-24 | 2012-03-29 | International Business Machines Corporation | Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system |
EP2622510A4 (en) * | 2010-09-28 | 2017-04-05 | International Business Machines Corporation | Providing answers to questions using logical synthesis of candidate answers |
US10510018B2 (en) * | 2013-09-30 | 2019-12-17 | Manyworlds, Inc. | Method, system, and apparatus for selecting syntactical elements from information as a focus of attention and performing actions to reduce uncertainty |
CN104573731B (zh) * | 2015-02-06 | 2018-03-23 | 厦门大学 | 基于卷积神经网络的快速目标检测方法 |
-
2016
- 2016-06-16 US US15/184,991 patent/US9965705B2/en active Active
- 2016-11-02 CN CN201610952620.4A patent/CN106649542B/zh active Active
- 2016-11-02 JP JP2016215579A patent/JP6351689B2/ja active Active
- 2016-11-03 KR KR1020160145584A patent/KR101865102B1/ko active IP Right Grant
- 2016-11-03 EP EP16197146.0A patent/EP3166049B1/en active Active
Non-Patent Citations (3)
Title |
---|
ANTOL, STANISLAW、他6名: "VQA:Visual Question Answering", ARXIV, vol. 1505.00468v3, JPN6017045032, 15 October 2015 (2015-10-15), US, pages 1 - 16 * |
MALINOWSKI, MATEUSZ、他2名: "Ask Your Neurons: A Neural-based Approach to Answering Questions about Images", ARXIX, vol. 150501121v3, JPN6017045035, 1 October 2015 (2015-10-01), US, pages 1 - 9 * |
REN,MENGYE、他2名: "Exploring Models and Data for Image Question Answering", ARXIV, vol. 1505.02074v3, JPN6017045033, 25 June 2015 (2015-06-25), US, pages 1 - 11 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018199473A (ja) * | 2017-05-30 | 2018-12-20 | 株式会社Soken | 操舵角決定装置、自動運転車 |
JP2020532017A (ja) * | 2017-10-31 | 2020-11-05 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 画像質問応答方法、装置、システムおよび記憶媒体 |
US11222236B2 (en) | 2017-10-31 | 2022-01-11 | Beijing Sensetime Technology Development Co., Ltd. | Image question answering method, apparatus and system, and storage medium |
JP7217138B2 (ja) | 2017-12-07 | 2023-02-02 | イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ | エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け |
JP2019153277A (ja) * | 2017-12-07 | 2019-09-12 | イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ | エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け |
JP2019114227A (ja) * | 2017-12-20 | 2019-07-11 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 映像の相互作用処理方法、相互作用処理装置、学習方法、学習装置及びコンピュータプログラム |
JP7231994B2 (ja) | 2017-12-20 | 2023-03-02 | 三星電子株式会社 | 映像の相互作用処理方法、相互作用処理装置、学習方法、学習装置及びコンピュータプログラム |
WO2019163985A1 (ja) * | 2018-02-23 | 2019-08-29 | 日本電信電話株式会社 | 特徴表現装置、特徴表現方法、およびプログラム |
JP2019145040A (ja) * | 2018-02-23 | 2019-08-29 | 日本電信電話株式会社 | 特徴表現装置、特徴表現方法、およびプログラム |
JP6992590B2 (ja) | 2018-02-23 | 2022-01-13 | 日本電信電話株式会社 | 特徴表現装置、特徴表現方法、およびプログラム |
JP2019185748A (ja) * | 2018-04-12 | 2019-10-24 | バイドゥ ユーエスエイ エルエルシーBaidu USA LLC | インタラクティブ言語習得のシステム、及び方法 |
US11321618B2 (en) | 2018-04-25 | 2022-05-03 | Om Digital Solutions Corporation | Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method |
CN109145816A (zh) * | 2018-08-21 | 2019-01-04 | 北京京东尚科信息技术有限公司 | 商品识别方法和系统 |
JP2020047213A (ja) * | 2018-09-21 | 2020-03-26 | 富士ゼロックス株式会社 | 文字列認識装置及び文字列認識プログラム |
JP7172351B2 (ja) | 2018-09-21 | 2022-11-16 | 富士フイルムビジネスイノベーション株式会社 | 文字列認識装置及び文字列認識プログラム |
JP2020053018A (ja) * | 2018-09-27 | 2020-04-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体 |
US11521118B2 (en) | 2018-09-27 | 2022-12-06 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating training data for VQA system, and medium |
US11416709B2 (en) | 2018-09-28 | 2022-08-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device and computer readable medium for generating VQA training data |
KR20200037077A (ko) * | 2018-09-28 | 2020-04-08 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Vqa 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 컴퓨터 판독 가능 매체 |
JP2020057359A (ja) * | 2018-09-28 | 2020-04-09 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な記憶媒体 |
KR102329242B1 (ko) * | 2018-09-28 | 2021-11-22 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Vqa 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 컴퓨터 판독 가능 매체 |
US11455788B2 (en) | 2018-11-30 | 2022-09-27 | Beijing Sensetime Technology Development Co., Ltd. | Method and apparatus for positioning description statement in image, electronic device, and storage medium |
JP2021509979A (ja) * | 2018-11-30 | 2021-04-08 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体 |
US11314800B2 (en) | 2019-01-30 | 2022-04-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, electronic device, and storage medium for image-based data processing |
JP2020123319A (ja) * | 2019-01-30 | 2020-08-13 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム |
JP6997161B2 (ja) | 2019-01-30 | 2022-01-17 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム |
JP2020135852A (ja) * | 2019-02-12 | 2020-08-31 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム |
JP2022508790A (ja) * | 2019-03-13 | 2022-01-19 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 画像領域位置決め方法、モデル訓練方法及び関連装置 |
JP7474446B2 (ja) | 2019-05-17 | 2024-04-25 | ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング | マルチラベル予測に適したニューラルネットワークの射影層 |
JP2022013644A (ja) * | 2020-06-30 | 2022-01-18 | 北京百度網訊科技有限公司 | 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム |
JP7196218B2 (ja) | 2020-06-30 | 2022-12-26 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム |
US11768876B2 (en) | 2020-06-30 | 2023-09-26 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and device for visual question answering, computer apparatus and medium |
JP7481995B2 (ja) | 2020-10-28 | 2024-05-13 | 株式会社東芝 | 状態判定装置、方法およびプログラム |
WO2023157265A1 (ja) * | 2022-02-18 | 2023-08-24 | 日本電信電話株式会社 | 応答生成装置、応答生成方法および応答生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3166049A1 (en) | 2017-05-10 |
JP6351689B2 (ja) | 2018-07-04 |
CN106649542B (zh) | 2020-06-16 |
US9965705B2 (en) | 2018-05-08 |
KR20180038937A (ko) | 2018-04-17 |
KR101865102B1 (ko) | 2018-06-07 |
US20170124432A1 (en) | 2017-05-04 |
CN106649542A (zh) | 2017-05-10 |
EP3166049B1 (en) | 2020-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6351689B2 (ja) | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 | |
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
Naz et al. | Offline cursive Urdu-Nastaliq script recognition using multidimensional recurrent neural networks | |
Yang et al. | Show, attend, and translate: Unsupervised image translation with self-regularization and attention | |
Wang et al. | Sparse observation (so) alignment for sign language recognition | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN111062277A (zh) | 基于单目视觉的手语-唇语转化方法 | |
EP4302234A1 (en) | Cross-modal processing for vision and language | |
Wang et al. | (2+ 1) D-SLR: an efficient network for video sign language recognition | |
Gajurel et al. | A fine-grained visual attention approach for fingerspelling recognition in the wild | |
Burton et al. | The speaker-independent lipreading play-off; a survey of lipreading machines | |
Selvam et al. | A transformer-based framework for scene text recognition | |
Rawf et al. | A comparative technique using 2D CNN and transfer learning to detect and classify Arabic-script-based sign language | |
Ling et al. | Development of vertical text interpreter for natural scene images | |
Amaral et al. | Evaluating deep models for dynamic brazilian sign language recognition | |
CN115512191A (zh) | 一种联合问答的图像自然语言描述方法 | |
Fenghour et al. | Contour mapping for speaker-independent lip reading system | |
Li | Special character recognition using deep learning | |
Zahid et al. | A Computer Vision-Based System for Recognition and Classification of Urdu Sign Language Dataset for Differently Abled People Using Artificial Intelligence | |
Hallyal et al. | Optimized recognition of CAPTCHA through attention models | |
Hasanov et al. | Development of a hybrid word recognition system and dataset for the Azerbaijani Sign Language dactyl alphabet | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
Voruganti | Visual question answering with external knowledge | |
Ilham et al. | Dynamic Sign Language Recognition Using Mediapipe Library and Modified LSTM Method. | |
Correa et al. | An Image Captioner for the Visually Challenged |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171128 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180529 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180605 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6351689 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |