JP6916383B2 - 画像質問応答方法、装置、システムおよび記憶媒体 - Google Patents
画像質問応答方法、装置、システムおよび記憶媒体 Download PDFInfo
- Publication number
- JP6916383B2 JP6916383B2 JP2020511894A JP2020511894A JP6916383B2 JP 6916383 B2 JP6916383 B2 JP 6916383B2 JP 2020511894 A JP2020511894 A JP 2020511894A JP 2020511894 A JP2020511894 A JP 2020511894A JP 6916383 B2 JP6916383 B2 JP 6916383B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- question
- image
- detection box
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Description
本願は2017年10月31日に中国特許局に提出された、出願番号がCN201711049294.7であり、発明の名称が「画像質問応答方法、装置、システムおよび記憶媒体」である中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
前記メモリと通信して前記実行可能命令を実行することで上記いずれか一項に記載の画像質問応答方法を完了するためのプロセッサと、を含む電子機器を提供する。
個の対象を囲むために、
個の検出ボックスを生成してもよい。この
個の検出ボックスにはいずれもそれらに囲まれる対象の、その背景との差異度を反映するスコア値がマッピングされている。スコア値が低ければ低いほど、対象と背景との近似度が高くなる。本実施例では、スコア値に基づいて高い順にこの
個の検出ボックスからM個の検出ボックスを選択して後続の特徴抽出を行ってもよく、ここで、M≦
である。選択された一部の検出ボックスから検出ボックス副特徴を抽出する。最後に、抽出された検出ボックス副特徴を検出ボックス特徴として合成する。上記のように検出ボックス特徴を抽出すれば、検出ボックスを自律的に生成し、それにより人間の介入を低減することができる。また、背景との差が大きい一部の検出ボックスを選択することで、高品質の対象情報をできる限り抽出し、それにより前景内容に関連するVQAタスクに高適性の画像解析結果を提供することができる。
は次元統一された質問特徴であり、
は次元統一されかつ平均化された検出ボックス特徴であり、
は次元統一されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴Dの次元を統一できる。Mは検出ボックス副特徴の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
に基づいて第一重みを取得できる。例えば、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を1要素ずつに加算または乗算してもよい。任意選択的な一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の方式を採用する。該実施例では、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を乗算することで第一重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
は、次元統一された質問特徴
と、次元統一されたグローバル特徴
と、次元統一されかつ平均化された検出ボックス特徴
とのジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の複数の領域の重み情報を含むベクトル形式の第一重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmax関数を利用して活性化してもよい。
は次元統一された質問特徴であり、
は次元統一された検出ボックス特徴であり、
は次元統一されかつ平均化されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴ベクトルDの次元を統一できる。N×Nは画像領域の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
に基づいて第二重みを取得できる。例えば、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を1要素ずつに加算または乗算してもよい。一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の形式を採用する。該実施例では、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を乗算することで第二重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
は、次元統一された質問特徴
と、次元統一されかつ平均化されたグローバル特徴
と、次元統一された検出ボックス特徴
とのジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の少なくとも一つの検出ボックスの重み情報を含むベクトル形式の第二重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmaxを利用して活性化してもよい。
および第二重み
を得た場合、任意選択的に、図1を参照しながら説明したステップS1050およびステップS1060は下式(7)および式(8)でそれぞれ表してもよい。
式(7)
を利用してM個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは例えばベクトル形式
で表すことができる。
は第一質問予測回答であり、
は第二質問予測回答である。
、
、
は機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴をさらに学習し、それにより表す能力を増強することができる。第一質問予測回答
はグローバル視覚内容に関連する質問により正確に応答でき、第二質問予測回答
は前景内容に関連する質問により正確に応答できる。
と第二質問予測回答
とを加算し、両者の和を線形分類し、それにより質問の回答を最終的に予測する。例えば、第一質問予測回答
と第二質問予測回答
の和に対して線形変換を行い、Softmax関数を利用して最終的な質問回答を予測するようにしてもよい。
は予測される質問回答の確率を表すものであり、
は機械学習によって更新可能なネットワークパラメータである。例えば、
の値が最も大きい回答を最終の質問回答として選択してもよい。または、例えば、
の値を降順に並び替え、それにより
の値が最も高い複数の回答をユーザの選択のための回答候補として選択してもよい。本実施例によれば、第一質問予測回答と第二質問予測回答はそのプロセスが相対的に独立して行われるので、画像から異なるタイプの情報をできる限りキャプチャでき、一方、この二つの分岐での予測を組み合わせることで、様々なVQAシーンに効果的に適応できる。
メモリと通信して該実行可能命令を実行することでいずれかの上記の実施例に提供される画像質問応答方法の動作を完了するためのプロセッサと、を含む電子機器が提供される。
Claims (17)
- 画像質問応答方法であって、
質問のセマンティクスを表す質問特徴を抽出することと、
画像の前景内容と背景内容を区別しないように前記画像を一つ以上の領域に分割し、前記一つ以上の領域に対して、前記画像のグローバル特徴を抽出することと、
前記画像内の対象を囲んで識別することができるように前記画像において検出ボックスを生成し、前記検出ボックスの検出ボックス特徴を抽出することであって、前記対象は前記画像の前景内容である、ことと、
前記質問特徴、及び前記グローバル特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みを取得することと、
前記質問特徴、及び前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、
前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、
前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、
前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含み、
前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測するステップは、
前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得ることと、
前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、
前記第一質問予測回答および前記第二質問予測回答を加算して和を求め、前記和を線形分類することによって、前記質問の回答を得ることと、を含むことを特徴とする画像質問応答方法。 - 質問のセマンティクスを表す質問特徴を抽出する前記ステップは、
リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを含むことを特徴とする請求項1に記載の画像質問応答方法。 - 画像のグローバル特徴を抽出する前記ステップは、
畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを含むことを特徴とする請求項1または2に記載の画像質問応答方法。 - 前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の前記第二重みを取得する前記ステップは、
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、
前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化することと、
前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得することと、を含むことを特徴とする請求項3に記載の画像質問応答方法。 - 前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する前記ステップは、
高速な領域畳み込みニューラルネットワークにより、前記画像内の対象を囲む複数の検出ボックスを取得することと、
前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、
前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、
前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得ることと、を含むことを特徴とする請求項1から4のいずれか一項に記載の画像質問応答方法。 - 前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みを取得する前記ステップは、
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、
前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化することと、
前記次元統一された質問特徴、前記次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得することと、を含むことを特徴とする請求項5に記載の画像質問応答方法。 - 画像質問応答装置であって、
質問のセマンティクスを表す質問特徴を抽出し、画像の前景内容と背景内容を区別しないように前記画像を一つ以上の領域に分割し、前記一つ以上の領域に対して、前記画像のグローバル特徴を抽出し、前記画像内の対象を囲んで識別することができるように前記画像において検出ボックスを生成し、前記検出ボックスの検出ボックス特徴を抽出する特徴抽出器であって、前記対象は前記画像の前景内容である、特徴抽出器と、
前記質問特徴、及び前記グローバル特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みを取得し、前記質問特徴、及び前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器と、
前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得る領域注意力抽出器と、
前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器と、
前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する予測器と、を含み、
前記予測器は、
前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、
前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、
前記第一質問予測回答および前記第二質問予測回答を加算して和を求め、前記和を線形分類することによって、前記質問の回答を得るデュアルモード分析器と、を含むことを特徴とする画像質問応答装置。 - 前記特徴抽出器にリカレントニューラルネットワークが設定されており、前記特徴抽出器は、前記リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを特徴とする請求項7に記載の画像質問応答装置。
- 前記特徴抽出器に畳み込みニューラルネットワークが設定されており、前記特徴抽出器は、前記畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを特徴とする請求項7または8に記載の画像質問応答装置。
- 前記重み計算器は、
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第二次元統一器と、
前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化する領域平均化器と、
前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得する第二重み取得器と、を含むことを特徴とする請求項9に記載の画像質問応答装置。 - 前記特徴抽出器は、
前記画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、
前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、
前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、
前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得る特徴合成器と、を含むことを特徴とする請求項7から10のいずれか一項に記載の画像質問応答装置。 - 前記重み計算器は、
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第一次元統一器と、
前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、
前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得する第一重み取得器と、を含むことを特徴とする請求項11に記載の画像質問応答装置。 - 画像質問応答システムであって、
実行可能命令を記憶するメモリと、
前記メモリと通信して実行可能命令を実行することで請求項1から6のいずれか一項に記載の画像質問応答方法の対応する動作を完了する一つ以上のプロセッサと、を含むことを特徴とする画像質問応答システム。 - 請求項7から12のいずれか一項に記載の画像質問応答装置を含むプロセッサを含むことを特徴とする電子機器。
- 実行可能命令を記憶するためのメモリと、
前記メモリと通信して前記実行可能命令を実行することで請求項1から6のいずれか一項に記載の画像質問応答方法を完了するためのプロセッサと、を含むことを特徴とする電子機器。 - コンピュータ可読命令を記憶するためのコンピュータ可読記憶媒体であって、前記コンピュータ可読命令は実行される時に、コンピュータに、請求項1から6のいずれか一項に記載の画像質問応答方法の対応する動作を実行させることを特徴とするコンピュータ可読記憶媒体。
- コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器において動作される時、前記機器内のプロセッサに、請求項1から6のいずれか一項に記載の画像質問応答方法を実現させることを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711049294.7A CN108228703B (zh) | 2017-10-31 | 2017-10-31 | 图像问答方法、装置、系统和存储介质 |
CN201711049294.7 | 2017-10-31 | ||
PCT/CN2018/112735 WO2019085905A1 (zh) | 2017-10-31 | 2018-10-30 | 图像问答方法、装置、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020532017A JP2020532017A (ja) | 2020-11-05 |
JP6916383B2 true JP6916383B2 (ja) | 2021-08-11 |
Family
ID=62654947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020511894A Active JP6916383B2 (ja) | 2017-10-31 | 2018-10-30 | 画像質問応答方法、装置、システムおよび記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11222236B2 (ja) |
JP (1) | JP6916383B2 (ja) |
CN (1) | CN108228703B (ja) |
SG (1) | SG11202001737SA (ja) |
WO (1) | WO2019085905A1 (ja) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228703B (zh) * | 2017-10-31 | 2020-05-08 | 北京市商汤科技开发有限公司 | 图像问答方法、装置、系统和存储介质 |
CN108984730A (zh) * | 2018-07-12 | 2018-12-11 | 三星电子(中国)研发中心 | 一种搜索方法和搜索设备 |
CN109086779B (zh) * | 2018-07-28 | 2021-11-09 | 天津大学 | 一种基于卷积神经网络的注意力目标识别方法 |
CN109146786A (zh) * | 2018-08-07 | 2019-01-04 | 北京市商汤科技开发有限公司 | 场景图生成方法及装置、电子设备和存储介质 |
CN109447943B (zh) * | 2018-09-21 | 2020-08-14 | 中国科学院深圳先进技术研究院 | 一种目标检测方法、系统及终端设备 |
CN109544524B (zh) * | 2018-11-15 | 2023-05-23 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价系统 |
CN109408627B (zh) * | 2018-11-15 | 2021-03-02 | 众安信息技术服务有限公司 | 一种融合卷积神经网络和循环神经网络的问答方法及系统 |
CN113168713B (zh) * | 2018-12-14 | 2024-09-06 | 富士胶片株式会社 | 小批量学习装置及其工作程序、工作方法及图像处理装置 |
CN109871457A (zh) | 2019-01-30 | 2019-06-11 | 北京百度网讯科技有限公司 | 基于图像的数据处理方法、装置、电子设备和存储介质 |
CN109858555B (zh) * | 2019-02-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于图像的数据处理方法、装置、设备及可读存储介质 |
CN110134774B (zh) * | 2019-04-29 | 2021-02-09 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
CN110263912B (zh) * | 2019-05-14 | 2021-02-26 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110175231B (zh) * | 2019-05-31 | 2022-03-15 | 北京市商汤科技开发有限公司 | 视觉问答方法、装置和设备 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
CN110335291A (zh) * | 2019-07-01 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 人物追踪方法及终端 |
CN110348535B (zh) * | 2019-07-17 | 2022-05-31 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN113032535A (zh) * | 2019-12-24 | 2021-06-25 | 中国移动通信集团浙江有限公司 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
CN111666882B (zh) * | 2020-06-08 | 2023-04-25 | 武汉唯理科技有限公司 | 一种手写体试题答案提取方法 |
CN112513877B (zh) * | 2020-08-01 | 2024-07-19 | 商汤国际私人有限公司 | 目标对象的识别方法、装置和系统 |
CN112084901B (zh) * | 2020-08-26 | 2024-03-01 | 长沙理工大学 | 基于gcam的高分辨率sar图像机场跑道区自动检测方法及系统 |
JP7481995B2 (ja) | 2020-10-28 | 2024-05-13 | 株式会社東芝 | 状態判定装置、方法およびプログラム |
JP2022082238A (ja) * | 2020-11-20 | 2022-06-01 | 富士通株式会社 | 機械学習プログラム,機械学習方法および出力装置 |
CN112860847B (zh) * | 2021-01-19 | 2022-08-19 | 中国科学院自动化研究所 | 视频问答的交互方法及系统 |
CN112784856A (zh) * | 2021-01-29 | 2021-05-11 | 长沙理工大学 | 胸部x射线图像的通道注意力特征提取方法和识别方法 |
CN113010656B (zh) * | 2021-03-18 | 2022-12-20 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113066065B (zh) * | 2021-03-29 | 2023-08-04 | 中国科学院上海高等研究院 | 无参考图像质量检测方法、系统、终端及介质 |
CN113239784B (zh) * | 2021-05-11 | 2022-09-30 | 广西科学院 | 一种基于空间序列特征学习的行人重识别系统及方法 |
CN113222026B (zh) * | 2021-05-18 | 2022-11-11 | 合肥工业大学 | 一种机务段场景视觉问答方法、系统及服务器 |
CN113033721B (zh) * | 2021-05-31 | 2021-09-28 | 北京世纪好未来教育科技有限公司 | 题目批改方法及计算机存储介质 |
CN113220859B (zh) * | 2021-06-01 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于图像的问答方法、装置、计算机设备及存储介质 |
CN113536952B (zh) * | 2021-06-22 | 2023-04-21 | 电子科技大学 | 一种基于动作捕捉的注意力网络的视频问答方法 |
CN113793187B (zh) * | 2021-09-24 | 2024-06-18 | 福州大学 | 基于实例权重平衡和双重注意力的点击率预测方法及系统 |
CN114417878B (zh) * | 2021-12-29 | 2023-04-18 | 北京百度网讯科技有限公司 | 语义识别方法、装置、电子设备及存储介质 |
CN114417044B (zh) * | 2022-01-19 | 2023-05-26 | 中国科学院空天信息创新研究院 | 图像问答的方法及装置 |
CN114445826A (zh) * | 2022-01-28 | 2022-05-06 | 北京百度网讯科技有限公司 | 视觉问答方法、装置、电子设备以及存储介质 |
CN114972944B (zh) * | 2022-06-16 | 2023-10-27 | 中国电信股份有限公司 | 视觉问答模型的训练方法及装置、问答方法、介质、设备 |
CN115129848B (zh) * | 2022-09-02 | 2023-02-28 | 苏州浪潮智能科技有限公司 | 一种视觉问答任务的处理方法、装置、设备和介质 |
CN116540972A (zh) * | 2023-03-13 | 2023-08-04 | 北京有竹居网络技术有限公司 | 用于问答的方法、装置、设备和存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9082040B2 (en) * | 2011-05-13 | 2015-07-14 | Microsoft Technology Licensing, Llc | Identifying visual contextual synonyms |
US20160350653A1 (en) * | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
CN105574133A (zh) * | 2015-12-15 | 2016-05-11 | 苏州贝多环保技术有限公司 | 一种多模态的智能问答系统及方法 |
US10997233B2 (en) * | 2016-04-12 | 2021-05-04 | Microsoft Technology Licensing, Llc | Multi-stage image querying |
US10198671B1 (en) * | 2016-11-10 | 2019-02-05 | Snap Inc. | Dense captioning with joint interference and visual context |
CN107256228A (zh) * | 2017-05-02 | 2017-10-17 | 清华大学 | 基于结构化注意力机制的答案选择系统及方法 |
CN108228703B (zh) * | 2017-10-31 | 2020-05-08 | 北京市商汤科技开发有限公司 | 图像问答方法、装置、系统和存储介质 |
US10754851B2 (en) * | 2017-12-22 | 2020-08-25 | Adobe Inc. | Question answering for data visualizations |
-
2017
- 2017-10-31 CN CN201711049294.7A patent/CN108228703B/zh active Active
-
2018
- 2018-10-30 JP JP2020511894A patent/JP6916383B2/ja active Active
- 2018-10-30 WO PCT/CN2018/112735 patent/WO2019085905A1/zh active Application Filing
- 2018-10-30 SG SG11202001737SA patent/SG11202001737SA/en unknown
-
2020
- 2020-02-22 US US16/798,359 patent/US11222236B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20200193228A1 (en) | 2020-06-18 |
CN108228703B (zh) | 2020-05-08 |
JP2020532017A (ja) | 2020-11-05 |
CN108228703A (zh) | 2018-06-29 |
SG11202001737SA (en) | 2020-03-30 |
WO2019085905A1 (zh) | 2019-05-09 |
US11222236B2 (en) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6916383B2 (ja) | 画像質問応答方法、装置、システムおよび記憶媒体 | |
US20220230420A1 (en) | Artificial intelligence-based object detection method and apparatus, device, and storage medium | |
Rastgoo et al. | Video-based isolated hand sign language recognition using a deep cascaded model | |
CN108229478B (zh) | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 | |
CN111680159B (zh) | 数据处理方法、装置及电子设备 | |
US20230177821A1 (en) | Document image understanding | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN110532996A (zh) | 视频分类的方法、信息处理的方法以及服务器 | |
JP2023545543A (ja) | 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム | |
WO2018196718A1 (zh) | 图像消歧方法、装置、存储介质和电子设备 | |
CN108268629B (zh) | 基于关键词的图像描述方法和装置、设备、介质 | |
CN113656563B (zh) | 一种神经网络搜索方法及相关设备 | |
CN110457523B (zh) | 封面图片的选取方法、模型的训练方法、装置及介质 | |
CN114925320B (zh) | 一种数据处理方法及相关装置 | |
CN110263218B (zh) | 视频描述文本生成方法、装置、设备和介质 | |
WO2023173552A1 (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
Halvardsson et al. | Interpretation of swedish sign language using convolutional neural networks and transfer learning | |
CN115063875A (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
Huu et al. | Proposing a Recognition System of Gestures Using MobilenetV2 Combining Single Shot Detector Network for Smart‐Home Applications | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN116109732A (zh) | 图像标注方法、装置、处理设备及存储介质 | |
CN114444476A (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN116362301A (zh) | 一种模型的量化方法以及相关设备 | |
CN115017321A (zh) | 一种知识点预测方法、装置、存储介质以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200227 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6916383 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |