JP2020532017A - 画像質問応答方法、装置、システムおよび記憶媒体 - Google Patents

画像質問応答方法、装置、システムおよび記憶媒体 Download PDF

Info

Publication number
JP2020532017A
JP2020532017A JP2020511894A JP2020511894A JP2020532017A JP 2020532017 A JP2020532017 A JP 2020532017A JP 2020511894 A JP2020511894 A JP 2020511894A JP 2020511894 A JP2020511894 A JP 2020511894A JP 2020532017 A JP2020532017 A JP 2020532017A
Authority
JP
Japan
Prior art keywords
feature
question
image
detection box
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020511894A
Other languages
English (en)
Other versions
JP6916383B2 (ja
Inventor
パン ルー
パン ルー
ホンション リー
ホンション リー
シャオガン ワン
シャオガン ワン
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2020532017A publication Critical patent/JP2020532017A/ja
Application granted granted Critical
Publication of JP6916383B2 publication Critical patent/JP6916383B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本願は画像質問応答方法、装置、システムおよび記憶媒体を提供する。前記画像質問応答方法は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を含む。本願が提供する技術的解決手段は画像のグローバル特徴、および対象を含む検出ボックスの検出ボックス特徴を総合的に考慮し、それにより画像質問応答の効率および精度を向上させることができる。

Description

(関連出願の相互参照)
本願は2017年10月31日に中国特許局に提出された、出願番号がCN201711049294.7であり、発明の名称が「画像質問応答方法、装置、システムおよび記憶媒体」である中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願はCV(Computer Vision、コンピュータビジョン)分野に関し、より具体的には、画像質問応答方法、装置、システムおよび記憶媒体に関する。
近年、人工知能分野では、画像質問応答タスクがかなり注目されている。画像質問応答は視覚質問応答(Visual Question Answering、VQA)とも呼ばれ、画像に基づいて自然言語からなる質問に応答するというような作業ニーズに関わる。VQAは、言語と画像とのインタラクションが例示的に表れるものとして、知的監視、画像スクリーニングなどのような、様々動作シーンに適用可能である。
本願は画像質問応答の技術的解決手段を提供する。
本願の実施例の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含む画像質問応答方法を提供する。
任意選択的に、本発明の上記いずれかの方法の実施例では、質問のセマンティクスを表す質問特徴を抽出する前記ステップは、リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、画像のグローバル特徴を抽出する前記ステップは、畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記第二重みを取得するステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得することと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する前記ステップは、高速な領域畳み込みニューラルネットワークにより、前記画像内の対象を囲む複数の検出ボックスを取得することと、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得ることと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて前記画像の少なくとも一つの領域の各々の前記第一重みを取得する前記ステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一された検出ボックス特徴を前記複数の検出ボックス副特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得することと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する前記ステップは、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得ることと、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得ることと、を含んでもよい。
本願の実施例の別の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器と、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器と、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得る領域注意力抽出器と、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器と、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する予測器と、を含む画像質問応答装置を提供する。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器にリカレントニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることができる。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器に畳み込みニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含んでもよい前記グローバル特徴を抽出できる。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第二次元統一器と、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化する領域平均化器と、前記第二乗算器が前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得する第二重み取得器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器は、前記画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得る特徴合成器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第一次元統一器と、前記次元統一された検出ボックス特徴を前記複数の検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、前記第一乗算器が前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得する第一重み取得器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記予測器は、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得るデュアルモード分析器と、を含んでもよい。
本願の実施例のさらに別の一態様は、実行可能命令を記憶するメモリと、メモリと通信して実行可能命令を実行し、それにより、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を完了するプロセッサと、を含む画像質問応答システムを提供する。
本願の実施例のさらに別の一態様は、上記いずれか一項に記載の画像質問応答装置を含むプロセッサを含む電子機器を提供する。
本願の実施例のさらに別の一態様は、実行可能命令を記憶するためのメモリと、
前記メモリと通信して前記実行可能命令を実行することで上記いずれか一項に記載の画像質問応答方法を完了するためのプロセッサと、を含む電子機器を提供する。
本願の実施例のさらに別の一態様はコンピュータ可読命令を記憶可能なコンピュータ可読記憶媒体であって、これらの命令は、実行される時に、プロセッサに、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を実行させることができるコンピュータ可読記憶媒体を提供する。
本願の実施例のさらに別の一態様はコンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において動作される時、前記機器内のプロセッサは上記いずれか一項に記載の画像質問応答方法を実現するための命令を実行するコンピュータプログラム製品を提供する。
本願の技術的解決手段は質問のセマンティクスに基づいて画像のグローバル特徴、および対象が含まれている検出ボックスの検出ボックス特徴を総合的に考慮することで、画像と質問とのインタラクションをより包括的に分析し、画像質問応答の効率および精度を向上させる。
以下に図面および実施例により、本願の技術的解決手段をさらに詳しく説明する。
本願の実施例に提供される画像質問応答方法の一実施例のフローチャートである。 本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。 本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。 本願の実施例に提供される第一重み取得方法の一例のフローチャートである。 本願の実施例に提供される第二重み取得方法の一例のフローチャートである。 本願の実施例に提供される質問回答予測方法の一例のフローチャートである。 本願の実施例に提供される画像質問応答装置の一実施例の構成模式図である。 本願の実施例に提供される画像質問応答システムの一実施例の構成模式図である。
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に特記されない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限とするものではない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある要素が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えばプログラムモジュール)の一般的な言語環境において説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム/サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
なお、本願における実施例および実施例における特徴は、矛盾なく相互に組み合わせることが可能であることを説明する必要がある。以下に図面と実施例を関連付けて本願を詳細に説明する。
図1は本願の実施例に提供される画像質問応答方法1000の一実施例のフローチャートである。該方法は、例えば端末機器、サーバ、モバイル機器などの任意の電子機器によって実行でき、図1に示すように、該実施例の方法は以下を含む。
ステップS1010で、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する。
質問は画像に関連する、自然言語からなる疑問文であってもよい。図2は本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。図2を参照すると、例えば、該質問は、画像2110に関連する質問2120「皿に何がありますか?」、画像2210に関連する質問2220「これはどんなスポーツですか?」、画像2310に関連する質問2320「今日は晴れですか?」などである。深層学習ネットワーク(Deep Learning Networks)を用いて質問の質問特徴を抽出してもよい。該質問特徴は、質問のセマンティク表現(Semantic Representation)を含み、例えば特徴ベクトルとして表してもよい。
画像のグローバル特徴は、例えば特徴ベクトルとして表してもよく、画像の全領域の内容のセマンティク表現を含む。該ステップでは、特徴を抽出しようとする画像の内容を限定せず、つまり、画像の前景内容(対象などを含んでもよい)と背景内容を区別しない。従って、画像のグローバル特徴は画像のグローバル視覚内容、および質問に応答するのに必要な、具体的な前景内容を保持できる。
画像内の対象を囲む検出ボックスの検出ボックス特徴の抽出は画像のグローバル特徴の抽出と異なり、まず画像の前景内容と背景内容を区別する必要がある。検出ボックスで画像中の前景内容、例えば、対象などをラベル付けしてもよい。検出ボックスは、例えば矩形形状を有し、かつ画像内の対象を囲んでいてもよい。検出ボックス特徴を抽出する時、検出ボックス内の画像特徴のみを抽出する。検出ボックス特徴は、例えば特徴ベクトルとして表してもよく、検出ボックス内の内容のセマンティク表現を含む。従って、検出ボックス特徴は大量の背景情報をフィルタして取り除き、それにより前景内容に関連する質問をより効率的に、より正確に予測することができる。
任意選択的な一例では、該ステップS1010はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される特徴抽出器2100によって実行してもよい。
ステップS1020で、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の複数の領域の各々の第一重みおよび画像の複数の検出ボックスの各々の第二重みを取得する。該ステップは視覚注意力メカニズムを導入する。視覚注意力メカニズムは質問と画像を初歩的に関連付け、それにより画像の異なる部位に異なる注意力重みを設定することができる。注意力重みは該部位と質問との関連度を反映する。視覚注意力メカニズムの導入によって、質問に密接に関連する画像部位に効率的に注意を向け、それにより予測効率および精度を向上させることができる。
本願の実施例は二分岐による視覚注意力メカニズムを導入する。第一分岐において、視覚注意力メカニズムは画像の自然分割領域に基づいて導入される。画像の自然分割領域とは、画像の前景内容と背景内容を区別せず、自然の位置関係に基づいて画像を一つ以上の領域に分割したものである。例えば、図2に示すように、画像2410も画像2510も同じ画像内容を含み、同一の関連質問2420「この男性は何を注いでいますか?」を有する。ここで、画像2410はその横縦座標に基づいてN×N個の領域2411に分割され、Nは1以上の整数である。例えば、図2に示す例では、画像2410は5×5個の領域に分割される。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのN×N個の領域とそれぞれ初歩的に関連付け、それによりこのN×N個の領域の各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の自然分割領域に基づいて視覚注意力メカニズムを導入することで、画像の複数の領域の各々の第一重みを取得できる。
画像の自然分割領域に基づいて視覚注意力メカニズムを導入すれば、画像のグローバル視覚内容がより高い程度で保持され、特に背景内容が効果的に保持されるという利点がある。例えば、図2に示す画像2310に関連する質問2320「今日は晴れですか?」に応答する時、質問は実際に画像2310の背景内容(空)に関連するため、画像の自然分割領域に基づいて視覚注意力メカニズムを導入すればこの種類の質問の回答をより効率的に予測できる。
第二分岐において、視覚注意力メカニズムは画像の検出ボックスに基づいて導入される。画像の検出ボックスは、一つ以上の対象を含んでもよい画像の前景内容(例えば、対象)を認識しかつそれを囲む。従って、画像において一つ以上の検出ボックスを生成できる。例えば、図2に示すように、画像2510においてM個の検出ボックス2511が生成されており、Mは1以上の整数である。例えば、図2に示す例では、画像2510において4個の検出ボックスが生成されている。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは質問を画像のこのM個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのM個の検出ボックスの各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の検出ボックスに基づいて視覚注意力メカニズムを導入することで、画像の複数の検出ボックスの各々の第二重みを取得できる。
画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば、画像の前景内容により多くの注意が向けられ、それにより前景内容に関連する質問により効率的に、正確に応答できる。例えば、図2に示す画像2110に関連する質問2120「皿に何がありますか?」および画像2210に関連する質問2220「これはどんなスポーツですか?」に応答する時、画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば画像2110および画像2210中の背景情報を無視でき、同時に皿を囲む検出ボックスおよびラケットを囲む検出ボックスにより大きい重みを割り当て、さらにこの種類の質問の回答をより効率的に、正確に予測することができる。
任意選択的な一例では、該ステップS1020はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される重み計算器2200によって実行してもよい。
ステップS1030で、第一重みによりグローバル特徴に対して重み付け和を求め、画像の領域注意力特徴を得る。画像がその横縦座標に基づいてN×N個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴ベクトルはN×N個の領域特徴ベクトルで連結されてなってもよい。ステップS1020では、このN×N個の領域の各々の第一重みが得られる。従って、このN×N個の第一重みによりこのN×N個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。
任意選択的な一例では、該ステップS1030はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される領域注意力抽出器2300によって実行してもよい。
ステップS1040で、第二重みにより検出ボックス特徴に対して重み付け和を求め、画像の検出ボックス注意力特徴を得る。検出ボックス特徴は画像の複数の検出ボックスに関連する複数の検出ボックス副特徴を含んでもよい。例えば、検出ボックス特徴ベクトルはM個の検出ボックス副特徴ベクトルで連結されてなってもよい。ステップS1020では、このM個の検出ボックスの各々の第二重みが得られる。従って、このM個の第二重みによりこのM個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。
任意選択的な一例では、該ステップS1040はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される検出ボックス注意力抽出器2400によって実行してもよい。
なお、上記ステップS1030とステップS1040間の順序は交換してもよく、つまり、先にステップS1040を実行してからステップS1030を実行してもよいことに注意すべきである。
ステップS1050で、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する。質問特徴、領域注意力特徴および検出ボックス注意力特徴を得ると、質問特徴と領域注意力特徴およびその検出ボックス注意力特徴との関係への学習を両立させることができる。このような予測プロセスは多分類タスクとして処理してもよい。例えば、分類器で学習の結果を分類し、複数の回答候補のスコアに基づいて質問の回答を予測してもよい。本願の技術的解決手段によれば、二分岐による視覚注意力メカニズムの導入によって、様々なVQAシーンにおいても効率的かつ正確な回答予測を実現できる。
任意選択的な一例では、該ステップS1050はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される予測器2500によって実行してもよい。
本願の任意選択的な一実施例では、質問特徴を抽出するステップは、リカレントニューラルネットワークを利用して質問を構成する単語の文脈の特徴を抽出し、質問特徴を得ることを含んでもよい。いずれかの上記の実施例のように、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、リカレントニューラルネットワーク(Recurrent Neural Network、RNN)などを含むがこれらに限定されない様々な深層学習ネットワークを用いて質問の質問特徴を抽出してもよい。一般的に定義されたCNNとは異なり、RNNは前の時点の出力情報を次の時点の入力情報の一つとすることができるため、過去情報への学習能力を有する。
いずれかの上記の実施例のように、質問は一般的に自然言語からなる疑問文である。このような語句は複数の単語を含み、単語同士は互いに文脈的に繋がりがある。例えば、「食卓に置かれたのはリンゴですか、それとも梨ですか?」のような質問を解析する時、単語「食卓」のセマンティクス特徴を抽出した後、後文で食品に関連する単語が現れる確率が大きいと予測可能である。従って、質問特徴の抽出プロセスに、過去情報への学習能力を有するRNNを導入することは有益である。
RNNは、長短期記憶ユニット(Long Short−Term Memory、LSTM)およびゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)など様々なバリエーションを含んでもよい。RNNにより質問の特徴を抽出する場合、まず質問を構成する単語を順にワンホット(One−Hot)コードとしてコーディングしてもよい。ワンホットコードのコーディングは、このようなコーディング方式であり、即ち、システムに含まれる状態の数の分だけ、当該コーディングがビット数を有する。これらのビットのうち、一つだけが1であり、残りは全て0である。例えば、システムは5000個の単語(即ち、5000種類の可能な状態)を選び出した場合、ワンホットコードは5000個のビットを有する。このとき、ワンホットコードは一つのベクトルと見なしてもよく、その要素それぞれは0または1のみに限定される。入力される単語に対応する要素だけは、そのビットが1であり、残りは全て0である。実際の応用では、選び出されていない単語を表すための少なくとも一つのビットをシステム用としてリザーブしてもよい。ワンホットコードのコーディング方式は、テキスト文字のデジタル化データへの変換を実現できる。続いて、ワンホットコードに基づいて質問のセマンティクス特徴を抽出してもよい。例えば、現在時刻のワンホットコード入力、および前の出力に基づくワンホットコード特徴抽出結果を共にRNNに入力する。RNNは過去情報を考慮する上で、共に入力される内容をコーディングし、これにより現在単語のセマンティクス特徴を抽出することができる。
本願の任意選択的な一実施例では、グローバル特徴を抽出するステップは、CNNにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出することを含んでもよい。画像のグローバル特徴抽出に適用可能なCNNの例はResNetネットワークまたはVGG−16ネットワークを含んでもよいが、これらに限定されない。CNNは画像認識タスクの応用シーンについて、例えばImageNetのような、適当な訓練サンプル集合で予備訓練されてもよい。入力される画像はまず、使用されるCNNに適するサイズ(例えば、画素数)に調整し、続いてCNNに入力するようにされてもよい。CNNは、それぞれが画像との畳み込み動作を経た後に一つの特徴チャネル出力を得る複数の畳み込みカーネルを含んでもよい。CNNの畳み込みカーネルの数(または特徴チャネルの数)は画像認識タスクの応用シーンによって設定してもよい。いずれかの上記の実施例のように、画像がその横縦座標に基づいてN×N個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴は、ベクトル形式で表してもよく、グローバル特徴ベクトルはN×N個の領域特徴ベクトルで連結されてなってもよい。
図3は本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。図3を参照すると、本願の一実施例では、検出ボックス特徴を抽出するステップは、ステップS1031で、高速な領域畳み込みニューラルネットワーク(Faster−Region Convolutional Neural Network、Faster−RCNN)により画像内の対象を囲む複数の検出ボックスを得ることと、ステップS1032で、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、ステップS1033で、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、ステップS1034で、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得ることと、を含んでもよい。
本願の実施例では、まず画像の対象と背景を区別する必要がある。これは対象認識技術に関わる。Faster−RCNNは高効率な対象認識ネットワークである。領域畳み込みニューラルネットワーク(RCNN)および高速領域畳み込みニューラルネットワーク(Fast−RCNN)とは異なり、Faster−RCNNは検出ボックス候補(Region Proposal)を自動的に生成できる。
検出ボックス候補を生成した後、Faster−RCNNは検出ボックス候補中の画像特徴を認識し、それにより検出ボックス候補に囲まれるのは対象であるか、それとも背景であるかを判断することができる。検出ボックス候補に対象の一部または全てが囲まれた場合、Faster−RCNNは検出ボックス候補のサイズおよび位置をさらに補正し、それにより適当なサイズで画像内の対象を完全に囲ませることができる。
実際の応用では、画像における複数の対象を囲むために、複数の検出ボックスを生成してもよい。例えば、
個の対象を囲むために、
個の検出ボックスを生成してもよい。この
個の検出ボックスにはいずれもそれらに囲まれる対象の、その背景との差異度を反映するスコア値がマッピングされている。スコア値が低ければ低いほど、対象と背景との近似度が高くなる。本実施例では、スコア値に基づいて高い順にこの
個の検出ボックスからM個の検出ボックスを選択して後続の特徴抽出を行ってもよく、ここで、M≦
である。選択された一部の検出ボックスから検出ボックス副特徴を抽出する。最後に、抽出された検出ボックス副特徴を検出ボックス特徴として合成する。上記のように検出ボックス特徴を抽出すれば、検出ボックスを自律的に生成し、それにより人間の介入を低減することができる。また、背景との差が大きい一部の検出ボックスを選択することで、高品質の対象情報をできる限り抽出し、それにより前景内容に関連するVQAタスクに高適性の画像解析結果を提供することができる。
図4は本願の実施例に提供される第一重み取得方法の一例のフローチャートである。図4を参照すると、本願の任意選択的な一実施例では、第一重みを取得するステップS1040−1は、ステップS1041で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップS1042で、次元統一された検出ボックス特徴を複数の検出ボックス副特徴の数に基づいて平均化することと、ステップS1043で、次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得することと、を含んでもよい。
質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の自然分割領域に基づいて視覚注意力メカニズムを導入してもよい。画像はその横縦座標に基づいてN×N個の領域に分割されてもよい。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのN×N個の領域とそれぞれ初歩的に関連付け、それによりこのN×N個の領域の各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像からM個の検出ボックスを選択して後続の特徴抽出を行ってもよく、抽出される特徴は連結されて検出ボックス特徴を構成する。このM個の検出ボックスから抽出される特徴は検出ボックス特徴を構成するM個の検出ボックス副特徴である。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表すことができる。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、画像のグローバル視覚内容をより効率的に学習および理解するために、検出ボックス副特徴の数Mに基づいて検出ボックス特徴を平均化してもよい。
任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式(1)で表してもよい。


式(1)
式(1)中、Qは質問特徴ベクトルであり、Rはグローバル特徴ベクトルであり、Dは検出ボックス特徴ベクトルであり、
は次元統一された質問特徴であり、
は次元統一されかつ平均化された検出ボックス特徴であり、
は次元統一されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴Dの次元を統一できる。Mは検出ボックス副特徴の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
最後に、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
に基づいて第一重みを取得できる。例えば、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を1要素ずつに加算または乗算してもよい。任意選択的な一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の方式を採用する。該実施例では、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を乗算することで第一重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
例えば、上記動作は下式(2)で表してもよい。
式(2)
式(2)中、
は、質問特徴と、グローバル特徴と、検出ボックス特徴とのジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の複数の領域の重み情報を含むベクトル形式の第一重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmax関数を利用して活性化してもよい。
例えば、上記動作は下式(3)で表してもよい。
式(3)
式(3)中、
はスカラー形式の第一重みであり、
は機械学習によって更新可能なネットワークパラメータである。
図5は本願の実施例に提供される第二重み取得方法の一例のフローチャートである。図5を参照すると、本願の一実施例では、第二重みを取得するステップS1040−2は、ステップS1044で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップS1045で、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化することと、ステップS1046で、次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得することと、を含んでもよい。
質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の検出ボックスに基づいて視覚注意力メカニズムを導入してもよい。画像においてM個の検出ボックスが生成された場合、検出ボックス特徴は画像のM個の検出ボックスに関連するM個の検出ボックス副特徴を含んでもよい。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは、質問を画像のこのM個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのM個の検出ボックスの各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像はN×N個の領域を含むことが可能である。このN×N個の領域の特徴ベクトルを抽出し、画像のこのN×N個の領域に関連するN×N個の領域特徴を得る。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表してもよい。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、次元統一されたグローバル特徴を複数の領域特徴の数N×Nに基づいて平均化してもよい。
任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式(4)で表してもよい。


式(4)
式(4)中、Qは質問特徴ベクトルであり、Rはグローバル特徴ベクトルであり、Dは検出ボックス特徴ベクトルである。
は次元統一された質問特徴であり、
は次元統一されかつ平均化された検出ボックス特徴であり、
は次元統一されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴ベクトルDの次元を統一できる。N×Nは画像領域の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
最後に、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
に基づいて第二重みを取得できる。例えば、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を1要素ずつに加算または乗算してもよい。一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の形式を採用する。該実施例では、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を乗算することで第二重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
例えば、上記動作は下式(5)で表してもよい。
式(5)
式(5)中、
は質問特徴と、グローバル特徴と、検出ボックス特徴とのジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の少なくとも一つの検出ボックスの重み情報を含むベクトル形式の第二重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmaxを利用して活性化してもよい。
例えば、上記動作は下式(6)で表してもよい。
式(6)
式(6)中、
はスカラー形式の第二重みであり、
は利機械学習によって更新可能なネットワークパラメータである。
本願の任意選択的な一実施例では、上記実施例の方法に基づいて第一重み
および第二重み
を得た場合、任意選択的に、図1を参照しながら説明したステップS1050およびステップS1060は下式(7)および式(8)でそれぞれ表してもよい。
式(7)
式(7)中、N×N個の第一重み
を利用してN×N個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトル形式
で表すことが可能である。
式(8)
式(8)中、M個の第二重み
を利用してM個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは例えばベクトル形式
で表すことができる。
図6は本願の実施例に提供される質問回答予測方法の一例のフローチャートである。図6を参照すると、本願の一実施例では、質問回答を予測するステップは、ステップS1071で、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得ることと、ステップS1072で、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、ステップS1073で、第一質問予測回答および第二質問予測回答を分類することによって、質問の回答を予測することと、を含んでもよい。
本願の実施例では、質問予測を多目的分類タスクとして処理してもよい。例えば、質問特徴をさらに学習し、さらに学習した質問特徴を領域注意力特徴と乗算し、それにより第一質問予測を得るようにしてもよい。同様に、質問特徴をさらに学習し、さらに学習した質問特徴を検出ボックス注意力特徴と乗算し、それにより第二質問予測を得るようにしてもよい。
任意選択的に、上記動作は下式(9)で表してもよい。
式(9)
ここで、
は第一質問予測回答であり、
は第二質問予測回答である。


は機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴をさらに学習し、それにより表す能力を増強することができる。第一質問予測回答
はグローバル視覚内容に関連する質問により正確に応答でき、第二質問予測回答
は前景内容に関連する質問により正確に応答できる。
最後に、第一質問予測回答
と第二質問予測回答
とを加算し、両者の和を線形分類し、それにより質問の回答を最終的に予測する。例えば、第一質問予測回答
と第二質問予測回答
の和に対して線形変換を行い、Softmax関数を利用して最終的な質問回答を予測するようにしてもよい。
例えば、上記動作は下式(10)で表してもよい。
式(10)
ここで、
は予測される質問回答の確率を表すものであり、
は機械学習によって更新可能なネットワークパラメータである。例えば、
の値が最も大きい回答を最終の質問回答として選択してもよい。または、例えば、
の値を降順に並び替え、それにより
の値が最も高い複数の回答をユーザの選択のための回答候補として選択してもよい。本実施例によれば、第一質問予測回答と第二質問予測回答はそのプロセスが相対的に独立して行われるので、画像から異なるタイプの情報をできる限りキャプチャでき、一方、この二つの分岐での予測を組み合わせることで、様々なVQAシーンに効果的に適応できる。
本願の上記実施例で言及された特徴ベクトルの融合動作は、例えば加算および乗算など様々な方式を採用できる。任意選択的に、本願の例示的実施例ではアダマール積を採用する。本願の各実施例では、特徴ベクトルの次元は全て一致するため、アダマール積を採用することがより望ましい。また、アダマール積を採用すれば、計算量を低減し、それにより方法の実行効率を向上させることができる。
当業者であれば、上記各ネットワークは訓練されていなければ適用できないことを理解可能である。通常の逆伝播(Back−Propagation、BP)方法および/または通時的逆伝播(Back−Propagation Through Time、BPTT)方法を利用して訓練を完了してもよい。当業者は本願の開示内容に基づいてこれらの訓練方法を得ることができるので、本明細書では説明を省略する。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行するということを理解できる。
図7は本願の実施例に提供される画像質問応答装置2000の一実施例の構成模式図である。該実施例の装置は本願の上記各方法の実施例を実現するために用いることができる。図7に示すように、該実施例の装置は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器2100と、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器2200と、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得る領域注意力抽出器2300と、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器2400と、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する予測器2500と、を含む画像質問応答装置2000を含む。
特徴抽出器2100にリカレントニューラルネットワークが設定されることが可能であり、特徴抽出器2100は、リカレントニューラルネットワークにより質問を構成する単語の文脈に基づいて特徴を抽出し、質問特徴を得ることができる。
特徴抽出器2100に畳み込みニューラルネットワークが設定されることが可能であり、特徴抽出器2100は、畳み込みニューラルネットワークにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出できる。
特徴抽出器2100は、画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得る特徴合成器と、を含んでもよい。
重み計算器2200は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第一次元統一器と、次元統一された検出ボックス特徴を複数の検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、第一乗算器が次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得する第一重み取得器と、を含んでもよい。
重み計算器2200は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第二次元統一器と、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化する領域平均化器と、第二乗算器が次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得する第二重み取得器と、を含んでもよい。
予測器2500は、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、第一質問予測回答および第二質問予測回答を分類することによって、予測される質問の回答を得るデュアルモード分析器と、を含んでもよい。
本願の実施例の別の態様によれば、いずれかの上記の実施例に提供される画像質問応答装置を含むプロセッサを含む電子機器が提供される。
本願の実施例のさらに別の態様によれば、実行可能命令を記憶するためのメモリと、
メモリと通信して該実行可能命令を実行することでいずれかの上記の実施例に提供される画像質問応答方法の動作を完了するためのプロセッサと、を含む電子機器が提供される。
本願の実施例のさらに別の態様によれば、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、該命令は実行される時にいずれかの上記の実施例に提供される画像質問応答方法の動作を実行するコンピュータ記憶媒体が提供される。
本願の各実施例におけるニューラルネットワークそれぞれは、例えば多層畳み込みニューラルネットワークのような多層ニューラルネットワーク(即ち、深層ニューラルネットワーク)であってもよく、例えばLeNet、AlexNet、GoogLeNet、VGG、ResNetなどのような任意のニューラルネットワークモデルであってもよい。各ニューラルネットワークは同じタイプおよび構造のニューラルネットワークを採用してもよく、異なるタイプおよび構造のニューラルネットワークを採用してもよい。本願の実施例はこれを限定しない。
本願の実施例は電子機器をさらに提供し、例えば移動端末、パーソナルコンピュータ(PC)、タブレット、サーバなどであってもよい。以下に図8を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器800の構成模式図が示される。図8に示すように、コンピュータシステム800は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)801、および/または一つ以上の画像処理装置(GPU)813などであり、プロセッサは読み取り専用メモリ(ROM)802に記憶されている実行可能命令または記憶部808からランダムアクセスメモリ(RAM)803にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部812はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されない。
プロセッサは読み取り専用メモリ802および/またはランダムアクセスメモリ803と通信して実行可能命令を実行し、バス804を介して通信部812と接続し、通信部812によって他の目標機器と通信し、それにより本願の実施例に提供されるいずれか一項の方法の対応する動作、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を完了することができる。
また、RAM803には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU801、ROM802およびRAM803はバス804を介して互いに接続される。RAM803が存在する場合、ROM802は任意選択的なモジュールとなる。RAM803は実行可能命令を記憶するか、または動作時にROM802へ実行可能命令を書き込み、実行可能命令によってCPU801は上記通信方法の対応する動作を実行する。入力/出力(I/O)インタフェース805もバス804に接続される。通信部812は統合設置してもよいし、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部806、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部807、ハードディスクなどを含む記憶部808、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信部分809といった部品は、I/Oインタフェース805に接続される。通信部分809はインタネットのようなネットワークによって通信処理を実行する。ドライバ810も必要に応じてI/Oインタフェース805に接続される。取り外し可能な媒体811、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ810に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部808にインストールされる。
なお、図8に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図8の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPU813とCPU801は分離設置するかまたはGPU813をCPU801に統合するようにしてもよく、通信部は分離設置するか、またCPU801やGPU813に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願が開示した保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現可能である。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例に提供される方法のステップを対応して実行する対応の命令、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分809によってネットワークからダウンロードおよびインストールされ、および/または取り外し可能な媒体811からインストールされ得る。該コンピュータプログラムは中央処理装置(CPU)801により実行される時、本願の方法で限定された上記機能を実行する。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。
本願の方法および装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本願の方法および装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に特記されない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読命令を含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示および説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正および変形を加えることができるのは明らかであろう。実施例は本願の原理および実際の適用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。
(関連出願の相互参照)
本願は2017年10月31日に中国特許局に提出された、出願番号がCN201711049294.7であり、発明の名称が「画像質問応答方法、装置、システムおよび記憶媒体」である中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願はCV(Computer Vision、コンピュータビジョン)分野に関し、より具体的には、画像質問応答方法、装置、システムおよび記憶媒体に関する。
近年、人工知能分野では、画像質問応答タスクがかなり注目されている。画像質問応答は視覚質問応答(Visual Question Answering、VQA)とも呼ばれ、画像に基づいて自然言語からなる質問に応答するというような作業ニーズに関わる。VQAは、言語と画像とのインタラクションが例示的に表れるものとして、知的監視、画像スクリーニングなどのような、様々動作シーンに適用可能である。
本願は画像質問応答の技術的解決手段を提供する。
本願の実施例の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含む画像質問応答方法を提供する。
任意選択的に、本発明の上記いずれかの方法の実施例では、質問のセマンティクスを表す質問特徴を抽出する前記ステップは、リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、画像のグローバル特徴を抽出する前記ステップは、畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記第二重みを取得するステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得することと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する前記ステップは、高速な領域畳み込みニューラルネットワークにより、前記画像内の対象を囲む複数の検出ボックスを取得することと、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得ることと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて前記画像の少なくとも一つの領域の各々の前記第一重みを取得する前記ステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得することと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する前記ステップは、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得ることと、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得ることと、を含んでもよい。
本願の実施例の別の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器と、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器と、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得る領域注意力抽出器と、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器と、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する予測器と、を含む画像質問応答装置を提供する。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器にリカレントニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることができる。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器に畳み込みニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含んでもよい前記グローバル特徴を抽出できる。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第二次元統一器と、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化する領域平均化器と、前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得する第二重み取得器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器は、前記画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得る特徴合成器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第一次元統一器と、前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得する第一重み取得器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記予測器は、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得るデュアルモード分析器と、を含んでもよい。
本願の実施例のさらに別の一態様は、実行可能命令を記憶するメモリと、メモリと通信して実行可能命令を実行し、それにより、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を完了するプロセッサと、を含む画像質問応答システムを提供する。
本願の実施例のさらに別の一態様は、上記いずれか一項に記載の画像質問応答装置を含むプロセッサを含む電子機器を提供する。
本願の実施例のさらに別の一態様は、実行可能命令を記憶するためのメモリと、
前記メモリと通信して前記実行可能命令を実行することで上記いずれか一項に記載の画像質問応答方法を完了するためのプロセッサと、を含む電子機器を提供する。
本願の実施例のさらに別の一態様はコンピュータ可読命令を記憶可能なコンピュータ可読記憶媒体であって、これらの命令は、実行される時に、プロセッサに、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を実行させることができるコンピュータ可読記憶媒体を提供する。
本願の実施例のさらに別の一態様はコンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において動作される時、前記機器内のプロセッサは上記いずれか一項に記載の画像質問応答方法を実現するための命令を実行するコンピュータプログラム製品を提供する。
本願の技術的解決手段は質問のセマンティクスに基づいて画像のグローバル特徴、および対象が含まれている検出ボックスの検出ボックス特徴を総合的に考慮することで、画像と質問とのインタラクションをより包括的に分析し、画像質問応答の効率および精度を向上させる。
以下に図面および実施例により、本願の技術的解決手段をさらに詳しく説明する。
本願の実施例に提供される画像質問応答方法の一実施例のフローチャートである。 本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。 本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。 本願の実施例に提供される第一重み取得方法の一例のフローチャートである。 本願の実施例に提供される第二重み取得方法の一例のフローチャートである。 本願の実施例に提供される質問回答予測方法の一例のフローチャートである。 本願の実施例に提供される画像質問応答装置の一実施例の構成模式図である。 本願の実施例に提供される画像質問応答システムの一実施例の構成模式図である。
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に特記されない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限とするものではない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある要素が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えばプログラムモジュール)の一般的な言語環境において説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム/サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
なお、本願における実施例および実施例における特徴は、矛盾なく相互に組み合わせることが可能であることを説明する必要がある。以下に図面と実施例を関連付けて本願を詳細に説明する。
図1は本願の実施例に提供される画像質問応答方法1000の一実施例のフローチャートである。該方法は、例えば端末機器、サーバ、モバイル機器などの任意の電子機器によって実行でき、図1に示すように、該実施例の方法は以下を含む。
ステップS1010で、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する。
質問は画像に関連する、自然言語からなる疑問文であってもよい。図2は本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。図2を参照すると、例えば、該質問は、画像2110に関連する質問2120「皿に何がありますか?」、画像2210に関連する質問2220「これはどんなスポーツですか?」、画像2310に関連する質問2320「今日は晴れですか?」などである。深層学習ネットワーク(Deep Learning Networks)を用いて質問の質問特徴を抽出してもよい。該質問特徴は、質問のセマンティク表現(Semantic Representation)を含み、例えば特徴ベクトルとして表してもよい。
画像のグローバル特徴は、例えば特徴ベクトルとして表してもよく、画像の全領域の内容のセマンティク表現を含む。該ステップでは、特徴を抽出しようとする画像の内容を限定せず、つまり、画像の前景内容(対象などを含んでもよい)と背景内容を区別しない。従って、画像のグローバル特徴は画像のグローバル視覚内容、および質問に応答するのに必要な、具体的な前景内容を保持できる。
画像内の対象を囲む検出ボックスの検出ボックス特徴の抽出は画像のグローバル特徴の抽出と異なり、まず画像の前景内容と背景内容を区別する必要がある。検出ボックスで画像中の前景内容、例えば、対象などをラベル付けしてもよい。検出ボックスは、例えば矩形形状を有し、かつ画像内の対象を囲んでいてもよい。検出ボックス特徴を抽出する時、検出ボックス内の画像特徴のみを抽出する。検出ボックス特徴は、例えば特徴ベクトルとして表してもよく、検出ボックス内の内容のセマンティク表現を含む。従って、検出ボックス特徴は大量の背景情報をフィルタして取り除き、それにより前景内容に関連する質問をより効率的に、より正確に予測することができる。
任意選択的な一例では、該ステップS1010はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される特徴抽出器2100によって実行してもよい。
ステップS1020で、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の複数の領域の各々の第一重みおよび画像の複数の検出ボックスの各々の第二重みを取得する。該ステップは視覚注意力メカニズムを導入する。視覚注意力メカニズムは質問と画像を初歩的に関連付け、それにより画像の異なる部位に異なる注意力重みを設定することができる。注意力重みは該部位と質問との関連度を反映する。視覚注意力メカニズムの導入によって、質問に密接に関連する画像部位に効率的に注意を向け、それにより予測効率および精度を向上させることができる。
本願の実施例は二分岐による視覚注意力メカニズムを導入する。第一分岐において、視覚注意力メカニズムは画像の自然分割領域に基づいて導入される。画像の自然分割領域とは、画像の前景内容と背景内容を区別せず、自然の位置関係に基づいて画像を一つ以上の領域に分割したものである。例えば、図2に示すように、画像2410も画像2510も同じ画像内容を含み、同一の関連質問2420「この男性は何を注いでいますか?」を有する。ここで、画像2410はその横縦座標に基づいてN×N個の領域2411に分割され、Nは1以上の整数である。例えば、図2に示す例では、画像2410は5×5個の領域に分割される。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのN×N個の領域とそれぞれ初歩的に関連付け、それによりこのN×N個の領域の各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の自然分割領域に基づいて視覚注意力メカニズムを導入することで、画像の複数の領域の各々の第一重みを取得できる。
画像の自然分割領域に基づいて視覚注意力メカニズムを導入すれば、画像のグローバル視覚内容がより高い程度で保持され、特に背景内容が効果的に保持されるという利点がある。例えば、図2に示す画像2310に関連する質問2320「今日は晴れですか?」に応答する時、質問は実際に画像2310の背景内容(空)に関連するため、画像の自然分割領域に基づいて視覚注意力メカニズムを導入すればこの種類の質問の回答をより効率的に予測できる。
第二分岐において、視覚注意力メカニズムは画像の検出ボックスに基づいて導入される。画像の検出ボックスは、一つ以上の対象を含んでもよい画像の前景内容(例えば、対象)を認識しかつそれを囲む。従って、画像において一つ以上の検出ボックスを生成できる。例えば、図2に示すように、画像2510においてM個の検出ボックス2511が生成されており、Mは1以上の整数である。例えば、図2に示す例では、画像2510において4個の検出ボックスが生成されている。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは質問を画像のこのM個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのM個の検出ボックスの各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の検出ボックスに基づいて視覚注意力メカニズムを導入することで、画像の複数の検出ボックスの各々の第二重みを取得できる。
画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば、画像の前景内容により多くの注意が向けられ、それにより前景内容に関連する質問により効率的に、正確に応答できる。例えば、図2に示す画像2110に関連する質問2120「皿に何がありますか?」および画像2210に関連する質問2220「これはどんなスポーツですか?」に応答する時、画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば画像2110および画像2210中の背景情報を無視でき、同時に皿を囲む検出ボックスおよびラケットを囲む検出ボックスにより大きい重みを割り当て、さらにこの種類の質問の回答をより効率的に、正確に予測することができる。
任意選択的な一例では、該ステップS1020はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される重み計算器2200によって実行してもよい。
ステップS1030で、第一重みによりグローバル特徴に対して重み付け和を求め、画像の領域注意力特徴を得る。画像がその横縦座標に基づいてN×N個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴ベクトルはN×N個の領域特徴ベクトルで連結されてなってもよい。ステップS1020では、このN×N個の領域の各々の第一重みが得られる。従って、このN×N個の第一重みによりこのN×N個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。
任意選択的な一例では、該ステップS1030はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される領域注意力抽出器2300によって実行してもよい。
ステップS1040で、第二重みにより検出ボックス特徴に対して重み付け和を求め、画像の検出ボックス注意力特徴を得る。検出ボックス特徴は画像の複数の検出ボックスに関連する複数の検出ボックス副特徴を含んでもよい。例えば、検出ボックス特徴ベクトルはM個の検出ボックス副特徴ベクトルで連結されてなってもよい。ステップS1020では、このM個の検出ボックスの各々の第二重みが得られる。従って、このM個の第二重みによりこのM個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。
任意選択的な一例では、該ステップS1040はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される検出ボックス注意力抽出器2400によって実行してもよい。
なお、上記ステップS1030とステップS1040間の順序は交換してもよく、つまり、先にステップS1040を実行してからステップS1030を実行してもよいことに注意すべきである。
ステップS1050で、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する。質問特徴、領域注意力特徴および検出ボックス注意力特徴を得ると、質問特徴と領域注意力特徴およびその検出ボックス注意力特徴との関係への学習を両立させることができる。このような予測プロセスは多分類タスクとして処理してもよい。例えば、分類器で学習の結果を分類し、複数の回答候補のスコアに基づいて質問の回答を予測してもよい。本願の技術的解決手段によれば、二分岐による視覚注意力メカニズムの導入によって、様々なVQAシーンにおいても効率的かつ正確な回答予測を実現できる。
任意選択的な一例では、該ステップS1050はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される予測器2500によって実行してもよい。
本願の任意選択的な一実施例では、質問特徴を抽出するステップは、リカレントニューラルネットワークを利用して質問を構成する単語の文脈の特徴を抽出し、質問特徴を得ることを含んでもよい。いずれかの上記の実施例のように、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、リカレントニューラルネットワーク(Recurrent Neural Network、RNN)などを含むがこれらに限定されない様々な深層学習ネットワークを用いて質問の質問特徴を抽出してもよい。一般的に定義されたCNNとは異なり、RNNは前の時点の出力情報を次の時点の入力情報の一つとすることができるため、過去情報への学習能力を有する。
いずれかの上記の実施例のように、質問は一般的に自然言語からなる疑問文である。このような語句は複数の単語を含み、単語同士は互いに文脈的に繋がりがある。例えば、「食卓に置かれたのはリンゴですか、それとも梨ですか?」のような質問を解析する時、単語「食卓」のセマンティクス特徴を抽出した後、後文で食品に関連する単語が現れる確率が大きいと予測可能である。従って、質問特徴の抽出プロセスに、過去情報への学習能力を有するRNNを導入することは有益である。
RNNは、長短期記憶ユニット(Long Short−Term Memory、LSTM)およびゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)など様々なバリエーションを含んでもよい。RNNにより質問の特徴を抽出する場合、まず質問を構成する単語を順にワンホット(One−Hot)コードとしてコーディングしてもよい。ワンホットコードのコーディングは、このようなコーディング方式であり、即ち、システムに含まれる状態の数の分だけ、当該コーディングがビット数を有する。これらのビットのうち、一つだけが1であり、残りは全て0である。例えば、システムは5000個の単語(即ち、5000種類の可能な状態)を選び出した場合、ワンホットコードは5000個のビットを有する。このとき、ワンホットコードは一つのベクトルと見なしてもよく、その要素それぞれは0または1のみに限定される。入力される単語に対応する要素だけは、そのビットが1であり、残りは全て0である。実際の応用では、選び出されていない単語を表すための少なくとも一つのビットをシステム用としてリザーブしてもよい。ワンホットコードのコーディング方式は、テキスト文字のデジタル化データへの変換を実現できる。続いて、ワンホットコードに基づいて質問のセマンティクス特徴を抽出してもよい。例えば、現在時刻のワンホットコード入力、および前の出力に基づくワンホットコード特徴抽出結果を共にRNNに入力する。RNNは過去情報を考慮する上で、共に入力される内容をコーディングし、これにより現在単語のセマンティクス特徴を抽出することができる。
本願の任意選択的な一実施例では、グローバル特徴を抽出するステップは、CNNにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出することを含んでもよい。画像のグローバル特徴抽出に適用可能なCNNの例はResNetネットワークまたはVGG−16ネットワークを含んでもよいが、これらに限定されない。CNNは画像認識タスクの応用シーンについて、例えばImageNetのような、適当な訓練サンプル集合で予備訓練されてもよい。入力される画像はまず、使用されるCNNに適するサイズ(例えば、画素数)に調整し、続いてCNNに入力するようにされてもよい。CNNは、それぞれが画像との畳み込み動作を経た後に一つの特徴チャネル出力を得る複数の畳み込みカーネルを含んでもよい。CNNの畳み込みカーネルの数(または特徴チャネルの数)は画像認識タスクの応用シーンによって設定してもよい。いずれかの上記の実施例のように、画像がその横縦座標に基づいてN×N個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴は、ベクトル形式で表してもよく、グローバル特徴ベクトルはN×N個の領域特徴ベクトルで連結されてなってもよい。
図3は本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。図3を参照すると、本願の一実施例では、検出ボックス特徴を抽出するステップは、ステップS1031で、高速な領域畳み込みニューラルネットワーク(Faster−Region Convolutional Neural Network、Faster−RCNN)により画像内の対象を囲む複数の検出ボックスを得ることと、ステップS1032で、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、ステップS1033で、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、ステップS1034で、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得ることと、を含んでもよい。
本願の実施例では、まず画像の対象と背景を区別する必要がある。これは対象認識技術に関わる。Faster−RCNNは高効率な対象認識ネットワークである。領域畳み込みニューラルネットワーク(RCNN)および高速領域畳み込みニューラルネットワーク(Fast−RCNN)とは異なり、Faster−RCNNは検出ボックス候補(Region Proposal)を自動的に生成できる。
検出ボックス候補を生成した後、Faster−RCNNは検出ボックス候補中の画像特徴を認識し、それにより検出ボックス候補に囲まれるのは対象であるか、それとも背景であるかを判断することができる。検出ボックス候補に対象の一部または全てが囲まれた場合、Faster−RCNNは検出ボックス候補のサイズおよび位置をさらに補正し、それにより適当なサイズで画像内の対象を完全に囲ませることができる。
実際の応用では、画像における複数の対象を囲むために、複数の検出ボックスを生成してもよい。例えば、
個の対象を囲むために、
個の検出ボックスを生成してもよい。この
個の検出ボックスにはいずれもそれらに囲まれる対象の、その背景との差異度を反映するスコア値がマッピングされている。スコア値が低ければ低いほど、対象と背景との近似度が高くなる。本実施例では、スコア値に基づいて高い順にこの
個の検出ボックスからM個の検出ボックスを選択して後続の特徴抽出を行ってもよく、ここで、M≦
である。選択された一部の検出ボックスから検出ボックス副特徴を抽出する。最後に、抽出された検出ボックス副特徴を検出ボックス特徴として合成する。上記のように検出ボックス特徴を抽出すれば、検出ボックスを自律的に生成し、それにより人間の介入を低減することができる。また、背景との差が大きい一部の検出ボックスを選択することで、高品質の対象情報をできる限り抽出し、それにより前景内容に関連するVQAタスクに高適性の画像解析結果を提供することができる。
図4は本願の実施例に提供される第一重み取得方法の一例のフローチャートである。図4を参照すると、本願の任意選択的な一実施例では、第一重みを取得するステップS1040−1は、ステップS1041で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップS1042で、次元統一された検出ボックス特徴を少なくとも一つの検出ボックス副特徴の数に基づいて平均化することと、ステップS1043で、次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得することと、を含んでもよい。
質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の自然分割領域に基づいて視覚注意力メカニズムを導入してもよい。画像はその横縦座標に基づいてN×N個の領域に分割されてもよい。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのN×N個の領域とそれぞれ初歩的に関連付け、それによりこのN×N個の領域の各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像からM個の検出ボックスを選択して後続の特徴抽出を行ってもよく、抽出される特徴は連結されて検出ボックス特徴を構成する。このM個の検出ボックスから抽出される特徴は検出ボックス特徴を構成するM個の検出ボックス副特徴である。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表すことができる。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、画像のグローバル視覚内容をより効率的に学習および理解するために、検出ボックス副特徴の数Mに基づいて検出ボックス特徴を平均化してもよい。
任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式(1)で表してもよい。


式(1)
式(1)中、Qは質問特徴ベクトルであり、Rはグローバル特徴ベクトルであり、Dは検出ボックス特徴ベクトルであり、
は次元統一された質問特徴であり、
は次元統一されかつ平均化された検出ボックス特徴であり、
は次元統一されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴Dの次元を統一できる。Mは検出ボックス副特徴の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
最後に、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
に基づいて第一重みを取得できる。例えば、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を1要素ずつに加算または乗算してもよい。任意選択的な一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の方式を採用する。該実施例では、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を乗算することで第一重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
例えば、上記動作は下式(2)で表してもよい。
式(2)
式(2)中、
は、次元統一された質問特
次元統一されたグローバル特
次元統一されかつ平均化された検出ボックス特
のジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の複数の領域の重み情報を含むベクトル形式の第一重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmax関数を利用して活性化してもよい。
例えば、上記動作は下式(3)で表してもよい。
式(3)
式(3)中、
はスカラー形式の第一重みであり、
は機械学習によって更新可能なネットワークパラメータである。
図5は本願の実施例に提供される第二重み取得方法の一例のフローチャートである。図5を参照すると、本願の一実施例では、第二重みを取得するステップS1040−2は、ステップS1044で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップS1045で、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化することと、ステップS1046で、次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得することと、を含んでもよい。
質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の検出ボックスに基づいて視覚注意力メカニズムを導入してもよい。画像においてM個の検出ボックスが生成された場合、検出ボックス特徴は画像のM個の検出ボックスに関連するM個の検出ボックス副特徴を含んでもよい。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは、質問を画像のこのM個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのM個の検出ボックスの各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像はN×N個の領域を含むことが可能である。このN×N個の領域の特徴ベクトルを抽出し、画像のこのN×N個の領域に関連するN×N個の領域特徴を得る。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表してもよい。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、次元統一されたグローバル特徴を複数の領域特徴の数N×Nに基づいて平均化してもよい。
任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式(4)で表してもよい


(4)
式(4)中、Qは質問特徴ベクトルであり、Rはグローバル特徴ベクトルであり、Dは検出ボックス特徴ベクトルである。
は次元統一された質問特徴であり、
は次元統一された検出ボックス特徴であり、
は次元統一されかつ平均化されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴ベクトルDの次元を統一できる。N×Nは画像領域の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
最後に、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
に基づいて第二重みを取得できる。例えば、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を1要素ずつに加算または乗算してもよい。一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の形式を採用する。該実施例では、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を乗算することで第二重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
例えば、上記動作は下式(5)で表してもよい。
式(5)
式(5)中、
、次元統一された質問特
次元統一されかつ平均化されたグローバル特
次元統一された検出ボックス特
のジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の少なくとも一つの検出ボックスの重み情報を含むベクトル形式の第二重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmaxを利用して活性化してもよい。
例えば、上記動作は下式(6)で表してもよい。
式(6)
式(6)中、
はスカラー形式の第二重みであり、
は利機械学習によって更新可能なネットワークパラメータである。
本願の任意選択的な一実施例では、上記実施例の方法に基づいて第一重み
および第二重み
を得た場合、任意選択的に、図1を参照しながら説明したステップS1050およびステップS1060は下式(7)および式(8)でそれぞれ表してもよい。
式(7)
式(7)中、N×N個の第一重み
を利用してN×N個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトル形式
で表すことが可能である。
式(8)
式(8)中、M個の第二重み
を利用してM個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは例えばベクトル形式
で表すことができる。
図6は本願の実施例に提供される質問回答予測方法の一例のフローチャートである。図6を参照すると、本願の一実施例では、質問回答を予測するステップは、ステップS1071で、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得ることと、ステップS1072で、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、ステップS1073で、第一質問予測回答および第二質問予測回答を分類することによって、質問の回答を予測することと、を含んでもよい。
本願の実施例では、質問予測を多目的分類タスクとして処理してもよい。例えば、質問特徴をさらに学習し、さらに学習した質問特徴を領域注意力特徴と乗算し、それにより第一質問予測を得るようにしてもよい。同様に、質問特徴をさらに学習し、さらに学習した質問特徴を検出ボックス注意力特徴と乗算し、それにより第二質問予測を得るようにしてもよい。
任意選択的に、上記動作は下式(9)で表してもよい。
式(9)
ここで、
は第一質問予測回答であり、
は第二質問予測回答である。


は機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴をさらに学習し、それにより表す能力を増強することができる。第一質問予測回答
はグローバル視覚内容に関連する質問により正確に応答でき、第二質問予測回答
は前景内容に関連する質問により正確に応答できる。
最後に、第一質問予測回答
と第二質問予測回答
とを加算し、両者の和を線形分類し、それにより質問の回答を最終的に予測する。例えば、第一質問予測回答
と第二質問予測回答
の和に対して線形変換を行い、Softmax関数を利用して最終的な質問回答を予測するようにしてもよい。
例えば、上記動作は下式(10)で表してもよい。
式(10)
ここで、
は予測される質問回答の確率を表すものであり、
は機械学習によって更新可能なネットワークパラメータである。例えば、
の値が最も大きい回答を最終の質問回答として選択してもよい。または、例えば、
の値を降順に並び替え、それにより
の値が最も高い複数の回答をユーザの選択のための回答候補として選択してもよい。本実施例によれば、第一質問予測回答と第二質問予測回答はそのプロセスが相対的に独立して行われるので、画像から異なるタイプの情報をできる限りキャプチャでき、一方、この二つの分岐での予測を組み合わせることで、様々なVQAシーンに効果的に適応できる。
本願の上記実施例で言及された特徴ベクトルの融合動作は、例えば加算および乗算など様々な方式を採用できる。任意選択的に、本願の例示的実施例ではアダマール積を採用する。本願の各実施例では、特徴ベクトルの次元は全て一致するため、アダマール積を採用することがより望ましい。また、アダマール積を採用すれば、計算量を低減し、それにより方法の実行効率を向上させることができる。
当業者であれば、上記各ネットワークは訓練されていなければ適用できないことを理解可能である。通常の逆伝播(Back−Propagation、BP)方法および/または通時的逆伝播(Back−Propagation Through Time、BPTT)方法を利用して訓練を完了してもよい。当業者は本願の開示内容に基づいてこれらの訓練方法を得ることができるので、本明細書では説明を省略する。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行するということを理解できる。
図7は本願の実施例に提供される画像質問応答装置2000の一実施例の構成模式図である。該実施例の装置は本願の上記各方法の実施例を実現するために用いることができる。図7に示すように、該実施例の装置は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器2100と、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器2200と、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得る領域注意力抽出器2300と、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器2400と、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する予測器2500と、を含む画像質問応答装置2000を含む。
特徴抽出器2100にリカレントニューラルネットワークが設定されることが可能であり、特徴抽出器2100は、リカレントニューラルネットワークにより質問を構成する単語の文脈に基づいて特徴を抽出し、質問特徴を得ることができる。
特徴抽出器2100に畳み込みニューラルネットワークが設定されることが可能であり、特徴抽出器2100は、畳み込みニューラルネットワークにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出できる。
特徴抽出器2100は、画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得る特徴合成器と、を含んでもよい。
重み計算器2200は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第一次元統一器と、次元統一された検出ボックス特徴を少なくとも一つの検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得する第一重み取得器と、を含んでもよい。
重み計算器2200は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第二次元統一器と、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化する領域平均化器と、次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得する第二重み取得器と、を含んでもよい。
予測器2500は、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、第一質問予測回答および第二質問予測回答を分類することによって、予測される質問の回答を得るデュアルモード分析器と、を含んでもよい。
本願の実施例の別の態様によれば、いずれかの上記の実施例に提供される画像質問応答装置を含むプロセッサを含む電子機器が提供される。
本願の実施例のさらに別の態様によれば、実行可能命令を記憶するためのメモリと、
メモリと通信して該実行可能命令を実行することでいずれかの上記の実施例に提供される画像質問応答方法の動作を完了するためのプロセッサと、を含む電子機器が提供される。
本願の実施例のさらに別の態様によれば、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、該命令は実行される時にいずれかの上記の実施例に提供される画像質問応答方法の動作を実行するコンピュータ記憶媒体が提供される。
本願の各実施例におけるニューラルネットワークそれぞれは、例えば多層畳み込みニューラルネットワークのような多層ニューラルネットワーク(即ち、深層ニューラルネットワーク)であってもよく、例えばLeNet、AlexNet、GoogLeNet、VGG、ResNetなどのような任意のニューラルネットワークモデルであってもよい。各ニューラルネットワークは同じタイプおよび構造のニューラルネットワークを採用してもよく、異なるタイプおよび構造のニューラルネットワークを採用してもよい。本願の実施例はこれを限定しない。
本願の実施例は電子機器をさらに提供し、例えば移動端末、パーソナルコンピュータ(PC)、タブレット、サーバなどであってもよい。以下に図8を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器800の構成模式図が示される。図8に示すように、コンピュータシステム800は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)801、および/または一つ以上の画像処理装置(GPU)813などであり、プロセッサは読み取り専用メモリ(ROM)802に記憶されている実行可能命令または記憶部808からランダムアクセスメモリ(RAM)803にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部812はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されない。
プロセッサは読み取り専用メモリ802および/またはランダムアクセスメモリ803と通信して実行可能命令を実行し、バス804を介して通信部812と接続し、通信部812によって他の目標機器と通信し、それにより本願の実施例に提供されるいずれか一項の方法の対応する動作、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を完了することができる。
また、RAM803には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU801、ROM802およびRAM803はバス804を介して互いに接続される。RAM803が存在する場合、ROM802は任意選択的なモジュールとなる。RAM803は実行可能命令を記憶するか、または動作時にROM802へ実行可能命令を書き込み、実行可能命令によってCPU801は上記通信方法の対応する動作を実行する。入力/出力(I/O)インタフェース805もバス804に接続される。通信部812は統合設置してもよいし、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部806、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部807、ハードディスクなどを含む記憶部808、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信部分809といった部品は、I/Oインタフェース805に接続される。通信部分809はインタネットのようなネットワークによって通信処理を実行する。ドライバ810も必要に応じてI/Oインタフェース805に接続される。取り外し可能な媒体811、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ810に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部808にインストールされる。
なお、図8に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図8の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPU813とCPU801は分離設置するかまたはGPU813をCPU801に統合するようにしてもよく、通信部は分離設置するか、またCPU801やGPU813に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願が開示した保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現可能である。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例に提供される方法のステップを対応して実行する対応の命令、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分809によってネットワークからダウンロードおよびインストールされ、および/または取り外し可能な媒体811からインストールされ得る。該コンピュータプログラムは中央処理装置(CPU)801により実行される時、本願の方法で限定された上記機能を実行する。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。
本願の方法および装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本願の方法および装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に特記されない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読命令を含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示および説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正および変形を加えることができるのは明らかであろう。実施例は本願の原理および実際の適用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。

Claims (19)

  1. 画像質問応答方法であって、
    質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、
    前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、
    前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、
    前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、
    前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含むことを特徴とする画像質問応答方法。
  2. 質問のセマンティクスを表す質問特徴を抽出する前記ステップは、
    リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを含むことを特徴とする請求項1に記載の画像質問応答方法。
  3. 画像のグローバル特徴を抽出する前記ステップは、
    畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを含むことを特徴とする請求項1または2に記載の画像質問応答方法。
  4. 前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の前記第二重みを取得する前記ステップは、
    前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、
    前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化することと、
    前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得することと、を含むことを特徴とする請求項3に記載の画像質問応答方法。
  5. 前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する前記ステップは、
    高速な領域畳み込みニューラルネットワークにより、前記画像内の対象を囲む複数の検出ボックスを取得することと、
    前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、
    前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、
    前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得ることと、を含むことを特徴とする請求項1から4のいずれか一項に記載の画像質問応答方法。
  6. 前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みを取得する前記ステップは、
    前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、
    前記次元統一された検出ボックス特徴を前記複数の検出ボックス副特徴の数に基づいて平均化することと、
    前記次元統一された質問特徴、前記次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得することと、を含むことを特徴とする請求項5に記載の画像質問応答方法。
  7. 前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する前記ステップは、
    前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得ることと、
    前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、
    前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得ることと、を含むことを特徴とする請求項1から6のいずれか一項に記載の画像質問応答方法。
  8. 画像質問応答装置であって、
    質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器と、
    前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器と、
    前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得る領域注意力抽出器と、
    前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器と、
    前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する予測器と、を含むことを特徴とする画像質問応答装置。
  9. 前記特徴抽出器にリカレントニューラルネットワークが設定されており、前記特徴抽出器は、前記リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを特徴とする請求項8に記載の画像質問応答装置。
  10. 前記特徴抽出器に畳み込みニューラルネットワークが設定されており、前記特徴抽出器は、前記畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを特徴とする請求項8または9に記載の画像質問応答装置。
  11. 前記重み計算器は、
    前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第二次元統一器と、
    前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化する領域平均化器と、
    前記第二乗算器が前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得する第二重み取得器と、を含むことを特徴とする請求項10に記載の画像質問応答装置。
  12. 前記特徴抽出器は、
    前記画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、
    前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、
    前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、
    前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得る特徴合成器と、を含むことを特徴とする請求項8から11のいずれか一項に記載の画像質問応答装置。
  13. 前記重み計算器は、
    前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第一次元統一器と、
    前記次元統一された検出ボックス特徴を前記複数の検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、
    前記第一乗算器が前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得する第一重み取得器と、を含むことを特徴とする請求項12に記載の画像質問応答装置。
  14. 前記予測器は、
    前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、
    前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、
    前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得るデュアルモード分析器と、を含むことを特徴とする請求項8から13のいずれか一項に記載の画像質問応答装置。
  15. 画像質問応答システムであって、
    実行可能命令を記憶するメモリと、
    前記メモリと通信して実行可能命令を実行することで請求項1から7のいずれか一項に記載の画像質問応答方法の対応する動作を完了する一つ以上のプロセッサと、を含むことを特徴とする画像質問応答システム。
  16. 請求項8から14のいずれか一項に記載の画像質問応答装置を含むプロセッサを含むことを特徴とする電子機器。
  17. 実行可能命令を記憶するためのメモリと、
    前記メモリと通信して前記実行可能命令を実行することで請求項1から7のいずれか一項に記載の画像質問応答方法を完了するためのプロセッサと、を含むことを特徴とする電子機器。
  18. コンピュータ可読命令を記憶するためのコンピュータ可読記憶媒体であって、前記コンピュータ可読命令は実行される時に請求項1から7のいずれか一項に記載の画像質問応答方法の対応する動作を実行することを特徴とするコンピュータ可読記憶媒体。
  19. コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において動作される時、前記機器内のプロセッサは請求項1から7のいずれか一項に記載の画像質問応答方法を実現するための命令を実行することを特徴とするコンピュータプログラム製品。
JP2020511894A 2017-10-31 2018-10-30 画像質問応答方法、装置、システムおよび記憶媒体 Active JP6916383B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711049294.7 2017-10-31
CN201711049294.7A CN108228703B (zh) 2017-10-31 2017-10-31 图像问答方法、装置、系统和存储介质
PCT/CN2018/112735 WO2019085905A1 (zh) 2017-10-31 2018-10-30 图像问答方法、装置、系统和存储介质

Publications (2)

Publication Number Publication Date
JP2020532017A true JP2020532017A (ja) 2020-11-05
JP6916383B2 JP6916383B2 (ja) 2021-08-11

Family

ID=62654947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020511894A Active JP6916383B2 (ja) 2017-10-31 2018-10-30 画像質問応答方法、装置、システムおよび記憶媒体

Country Status (5)

Country Link
US (1) US11222236B2 (ja)
JP (1) JP6916383B2 (ja)
CN (1) CN108228703B (ja)
SG (1) SG11202001737SA (ja)
WO (1) WO2019085905A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022174707A (ja) * 2021-05-11 2022-11-24 広西科学院 スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108984730A (zh) * 2018-07-12 2018-12-11 三星电子(中国)研发中心 一种搜索方法和搜索设备
CN109086779B (zh) * 2018-07-28 2021-11-09 天津大学 一种基于卷积神经网络的注意力目标识别方法
CN109146786A (zh) * 2018-08-07 2019-01-04 北京市商汤科技开发有限公司 场景图生成方法及装置、电子设备和存储介质
CN109447943B (zh) * 2018-09-21 2020-08-14 中国科学院深圳先进技术研究院 一种目标检测方法、系统及终端设备
CN109408627B (zh) * 2018-11-15 2021-03-02 众安信息技术服务有限公司 一种融合卷积神经网络和循环神经网络的问答方法及系统
CN109544524B (zh) * 2018-11-15 2023-05-23 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
EP3896647A4 (en) * 2018-12-14 2022-01-26 FUJIFILM Corporation MINI-BATCH LEARNING DEVICE, OPERATING PROGRAM FOR MINI-BATCH LEARNING DEVICE, OPERATING METHOD FOR MINI-BATCH LEARNING DEVICE, AND IMAGE PROCESSING DEVICE
CN109871457A (zh) 2019-01-30 2019-06-11 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、电子设备和存储介质
CN109858555B (zh) 2019-02-12 2022-05-17 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110175231B (zh) * 2019-05-31 2022-03-15 北京市商汤科技开发有限公司 视觉问答方法、装置和设备
CN110287814A (zh) * 2019-06-04 2019-09-27 北方工业大学 一种基于图像目标特征和多层注意力机制的视觉问答方法
CN110335291A (zh) * 2019-07-01 2019-10-15 腾讯科技(深圳)有限公司 人物追踪方法及终端
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN113032535A (zh) * 2019-12-24 2021-06-25 中国移动通信集团浙江有限公司 辅助视障人士视觉问答方法、装置、计算设备及存储介质
CN111666882B (zh) * 2020-06-08 2023-04-25 武汉唯理科技有限公司 一种手写体试题答案提取方法
JP7250924B2 (ja) 2020-08-01 2023-04-03 商▲湯▼国▲際▼私人有限公司 目標対象認識方法、装置、及びシステム
CN112084901B (zh) * 2020-08-26 2024-03-01 长沙理工大学 基于gcam的高分辨率sar图像机场跑道区自动检测方法及系统
JP7481995B2 (ja) 2020-10-28 2024-05-13 株式会社東芝 状態判定装置、方法およびプログラム
JP2022082238A (ja) * 2020-11-20 2022-06-01 富士通株式会社 機械学習プログラム,機械学習方法および出力装置
CN112860847B (zh) * 2021-01-19 2022-08-19 中国科学院自动化研究所 视频问答的交互方法及系统
CN112784856A (zh) * 2021-01-29 2021-05-11 长沙理工大学 胸部x射线图像的通道注意力特征提取方法和识别方法
CN113010656B (zh) * 2021-03-18 2022-12-20 广东工业大学 一种基于多模态融合和结构性控制的视觉问答方法
CN113066065B (zh) * 2021-03-29 2023-08-04 中国科学院上海高等研究院 无参考图像质量检测方法、系统、终端及介质
CN113222026B (zh) * 2021-05-18 2022-11-11 合肥工业大学 一种机务段场景视觉问答方法、系统及服务器
CN113033721B (zh) * 2021-05-31 2021-09-28 北京世纪好未来教育科技有限公司 题目批改方法及计算机存储介质
CN113220859B (zh) * 2021-06-01 2024-05-10 平安科技(深圳)有限公司 基于图像的问答方法、装置、计算机设备及存储介质
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113793187B (zh) * 2021-09-24 2024-06-18 福州大学 基于实例权重平衡和双重注意力的点击率预测方法及系统
CN114417044B (zh) * 2022-01-19 2023-05-26 中国科学院空天信息创新研究院 图像问答的方法及装置
CN114445826A (zh) * 2022-01-28 2022-05-06 北京百度网讯科技有限公司 视觉问答方法、装置、电子设备以及存储介质
CN114972944B (zh) * 2022-06-16 2023-10-27 中国电信股份有限公司 视觉问答模型的训练方法及装置、问答方法、介质、设备
CN115129848B (zh) * 2022-09-02 2023-02-28 苏州浪潮智能科技有限公司 一种视觉问答任务的处理方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
JP2017091525A (ja) * 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082040B2 (en) * 2011-05-13 2015-07-14 Microsoft Technology Licensing, Llc Identifying visual contextual synonyms
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
US10997233B2 (en) * 2016-04-12 2021-05-04 Microsoft Technology Licensing, Llc Multi-stage image querying
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
CN107256228A (zh) * 2017-05-02 2017-10-17 清华大学 基于结构化注意力机制的答案选择系统及方法
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
US10754851B2 (en) * 2017-12-22 2020-08-25 Adobe Inc. Question answering for data visualizations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
JP2017091525A (ja) * 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022174707A (ja) * 2021-05-11 2022-11-24 広西科学院 スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法

Also Published As

Publication number Publication date
US20200193228A1 (en) 2020-06-18
US11222236B2 (en) 2022-01-11
JP6916383B2 (ja) 2021-08-11
WO2019085905A1 (zh) 2019-05-09
CN108228703A (zh) 2018-06-29
SG11202001737SA (en) 2020-03-30
CN108228703B (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
JP6916383B2 (ja) 画像質問応答方法、装置、システムおよび記憶媒体
TWI773189B (zh) 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體
US20210248355A1 (en) Face key point detection method and apparatus, storage medium, and electronic device
CN111680159B (zh) 数据处理方法、装置及电子设备
CN108229478A (zh) 图像语义分割及训练方法和装置、电子设备、存储介质和程序
CN111428010B (zh) 人机智能问答的方法和装置
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
JP2023545543A (ja) 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
CN113656563B (zh) 一种神经网络搜索方法及相关设备
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN114925320B (zh) 一种数据处理方法及相关装置
Huu et al. Proposing a Recognition System of Gestures Using MobilenetV2 Combining Single Shot Detector Network for Smart‐Home Applications
CN114612743A (zh) 深度学习模型的训练方法、目标对象识别方法和装置
CN108268629B (zh) 基于关键词的图像描述方法和装置、设备、介质
Mohamedon et al. Banana ripeness classification using computer vision-based mobile application
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN114444476A (zh) 信息处理方法、装置和计算机可读存储介质
CN117094362B (zh) 一种任务处理方法及相关装置
CN112926341A (zh) 文本数据处理方法、装置
CN116977260A (zh) 目标物的缺陷检测方法、装置、电子设备及存储介质
CN113822324A (zh) 基于多任务模型的图像处理方法、装置及相关设备
CN115017321A (zh) 一种知识点预测方法、装置、存储介质以及计算机设备
Menon et al. SIGN LANGUAGE RECOGNITION USING CONVOLUTIONAL NEURAL NETWORKS IN MACHINE LEARNING.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210715

R150 Certificate of patent or registration of utility model

Ref document number: 6916383

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250