(関連出願の相互参照)
本願は2017年10月31日に中国特許局に提出された、出願番号がCN201711049294.7であり、発明の名称が「画像質問応答方法、装置、システムおよび記憶媒体」である中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願はCV(Computer Vision、コンピュータビジョン)分野に関し、より具体的には、画像質問応答方法、装置、システムおよび記憶媒体に関する。
近年、人工知能分野では、画像質問応答タスクがかなり注目されている。画像質問応答は視覚質問応答(Visual Question Answering、VQA)とも呼ばれ、画像に基づいて自然言語からなる質問に応答するというような作業ニーズに関わる。VQAは、言語と画像とのインタラクションが例示的に表れるものとして、知的監視、画像スクリーニングなどのような、様々動作シーンに適用可能である。
本願は画像質問応答の技術的解決手段を提供する。
本願の実施例の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含む画像質問応答方法を提供する。
任意選択的に、本発明の上記いずれかの方法の実施例では、質問のセマンティクスを表す質問特徴を抽出する前記ステップは、リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、画像のグローバル特徴を抽出する前記ステップは、畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記第二重みを取得するステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得することと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する前記ステップは、高速な領域畳み込みニューラルネットワークにより、前記画像内の対象を囲む複数の検出ボックスを取得することと、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得ることと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて前記画像の少なくとも一つの領域の各々の前記第一重みを取得する前記ステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一された検出ボックス特徴を前記複数の検出ボックス副特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得することと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する前記ステップは、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得ることと、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得ることと、を含んでもよい。
本願の実施例の別の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器と、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器と、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得る領域注意力抽出器と、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器と、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する予測器と、を含む画像質問応答装置を提供する。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器にリカレントニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることができる。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器に畳み込みニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含んでもよい前記グローバル特徴を抽出できる。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第二次元統一器と、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化する領域平均化器と、前記第二乗算器が前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得する第二重み取得器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器は、前記画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得る特徴合成器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第一次元統一器と、前記次元統一された検出ボックス特徴を前記複数の検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、前記第一乗算器が前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得する第一重み取得器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記予測器は、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得るデュアルモード分析器と、を含んでもよい。
本願の実施例のさらに別の一態様は、実行可能命令を記憶するメモリと、メモリと通信して実行可能命令を実行し、それにより、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を完了するプロセッサと、を含む画像質問応答システムを提供する。
本願の実施例のさらに別の一態様は、上記いずれか一項に記載の画像質問応答装置を含むプロセッサを含む電子機器を提供する。
本願の実施例のさらに別の一態様は、実行可能命令を記憶するためのメモリと、
前記メモリと通信して前記実行可能命令を実行することで上記いずれか一項に記載の画像質問応答方法を完了するためのプロセッサと、を含む電子機器を提供する。
本願の実施例のさらに別の一態様はコンピュータ可読命令を記憶可能なコンピュータ可読記憶媒体であって、これらの命令は、実行される時に、プロセッサに、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を実行させることができるコンピュータ可読記憶媒体を提供する。
本願の実施例のさらに別の一態様はコンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において動作される時、前記機器内のプロセッサは上記いずれか一項に記載の画像質問応答方法を実現するための命令を実行するコンピュータプログラム製品を提供する。
本願の技術的解決手段は質問のセマンティクスに基づいて画像のグローバル特徴、および対象が含まれている検出ボックスの検出ボックス特徴を総合的に考慮することで、画像と質問とのインタラクションをより包括的に分析し、画像質問応答の効率および精度を向上させる。
以下に図面および実施例により、本願の技術的解決手段をさらに詳しく説明する。
本願の実施例に提供される画像質問応答方法の一実施例のフローチャートである。
本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。
本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。
本願の実施例に提供される第一重み取得方法の一例のフローチャートである。
本願の実施例に提供される第二重み取得方法の一例のフローチャートである。
本願の実施例に提供される質問回答予測方法の一例のフローチャートである。
本願の実施例に提供される画像質問応答装置の一実施例の構成模式図である。
本願の実施例に提供される画像質問応答システムの一実施例の構成模式図である。
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に特記されない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限とするものではない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある要素が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えばプログラムモジュール)の一般的な言語環境において説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム/サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
なお、本願における実施例および実施例における特徴は、矛盾なく相互に組み合わせることが可能であることを説明する必要がある。以下に図面と実施例を関連付けて本願を詳細に説明する。
図1は本願の実施例に提供される画像質問応答方法1000の一実施例のフローチャートである。該方法は、例えば端末機器、サーバ、モバイル機器などの任意の電子機器によって実行でき、図1に示すように、該実施例の方法は以下を含む。
ステップS1010で、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する。
質問は画像に関連する、自然言語からなる疑問文であってもよい。図2は本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。図2を参照すると、例えば、該質問は、画像2110に関連する質問2120「皿に何がありますか?」、画像2210に関連する質問2220「これはどんなスポーツですか?」、画像2310に関連する質問2320「今日は晴れですか?」などである。深層学習ネットワーク(Deep Learning Networks)を用いて質問の質問特徴を抽出してもよい。該質問特徴は、質問のセマンティク表現(Semantic Representation)を含み、例えば特徴ベクトルとして表してもよい。
画像のグローバル特徴は、例えば特徴ベクトルとして表してもよく、画像の全領域の内容のセマンティク表現を含む。該ステップでは、特徴を抽出しようとする画像の内容を限定せず、つまり、画像の前景内容(対象などを含んでもよい)と背景内容を区別しない。従って、画像のグローバル特徴は画像のグローバル視覚内容、および質問に応答するのに必要な、具体的な前景内容を保持できる。
画像内の対象を囲む検出ボックスの検出ボックス特徴の抽出は画像のグローバル特徴の抽出と異なり、まず画像の前景内容と背景内容を区別する必要がある。検出ボックスで画像中の前景内容、例えば、対象などをラベル付けしてもよい。検出ボックスは、例えば矩形形状を有し、かつ画像内の対象を囲んでいてもよい。検出ボックス特徴を抽出する時、検出ボックス内の画像特徴のみを抽出する。検出ボックス特徴は、例えば特徴ベクトルとして表してもよく、検出ボックス内の内容のセマンティク表現を含む。従って、検出ボックス特徴は大量の背景情報をフィルタして取り除き、それにより前景内容に関連する質問をより効率的に、より正確に予測することができる。
任意選択的な一例では、該ステップS1010はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される特徴抽出器2100によって実行してもよい。
ステップS1020で、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の複数の領域の各々の第一重みおよび画像の複数の検出ボックスの各々の第二重みを取得する。該ステップは視覚注意力メカニズムを導入する。視覚注意力メカニズムは質問と画像を初歩的に関連付け、それにより画像の異なる部位に異なる注意力重みを設定することができる。注意力重みは該部位と質問との関連度を反映する。視覚注意力メカニズムの導入によって、質問に密接に関連する画像部位に効率的に注意を向け、それにより予測効率および精度を向上させることができる。
本願の実施例は二分岐による視覚注意力メカニズムを導入する。第一分岐において、視覚注意力メカニズムは画像の自然分割領域に基づいて導入される。画像の自然分割領域とは、画像の前景内容と背景内容を区別せず、自然の位置関係に基づいて画像を一つ以上の領域に分割したものである。例えば、図2に示すように、画像2410も画像2510も同じ画像内容を含み、同一の関連質問2420「この男性は何を注いでいますか?」を有する。ここで、画像2410はその横縦座標に基づいてN×N個の領域2411に分割され、Nは1以上の整数である。例えば、図2に示す例では、画像2410は5×5個の領域に分割される。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのN×N個の領域とそれぞれ初歩的に関連付け、それによりこのN×N個の領域の各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の自然分割領域に基づいて視覚注意力メカニズムを導入することで、画像の複数の領域の各々の第一重みを取得できる。
画像の自然分割領域に基づいて視覚注意力メカニズムを導入すれば、画像のグローバル視覚内容がより高い程度で保持され、特に背景内容が効果的に保持されるという利点がある。例えば、図2に示す画像2310に関連する質問2320「今日は晴れですか?」に応答する時、質問は実際に画像2310の背景内容(空)に関連するため、画像の自然分割領域に基づいて視覚注意力メカニズムを導入すればこの種類の質問の回答をより効率的に予測できる。
第二分岐において、視覚注意力メカニズムは画像の検出ボックスに基づいて導入される。画像の検出ボックスは、一つ以上の対象を含んでもよい画像の前景内容(例えば、対象)を認識しかつそれを囲む。従って、画像において一つ以上の検出ボックスを生成できる。例えば、図2に示すように、画像2510においてM個の検出ボックス2511が生成されており、Mは1以上の整数である。例えば、図2に示す例では、画像2510において4個の検出ボックスが生成されている。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは質問を画像のこのM個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのM個の検出ボックスの各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の検出ボックスに基づいて視覚注意力メカニズムを導入することで、画像の複数の検出ボックスの各々の第二重みを取得できる。
画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば、画像の前景内容により多くの注意が向けられ、それにより前景内容に関連する質問により効率的に、正確に応答できる。例えば、図2に示す画像2110に関連する質問2120「皿に何がありますか?」および画像2210に関連する質問2220「これはどんなスポーツですか?」に応答する時、画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば画像2110および画像2210中の背景情報を無視でき、同時に皿を囲む検出ボックスおよびラケットを囲む検出ボックスにより大きい重みを割り当て、さらにこの種類の質問の回答をより効率的に、正確に予測することができる。
任意選択的な一例では、該ステップS1020はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される重み計算器2200によって実行してもよい。
ステップS1030で、第一重みによりグローバル特徴に対して重み付け和を求め、画像の領域注意力特徴を得る。画像がその横縦座標に基づいてN×N個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴ベクトルはN×N個の領域特徴ベクトルで連結されてなってもよい。ステップS1020では、このN×N個の領域の各々の第一重みが得られる。従って、このN×N個の第一重みによりこのN×N個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。
任意選択的な一例では、該ステップS1030はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される領域注意力抽出器2300によって実行してもよい。
ステップS1040で、第二重みにより検出ボックス特徴に対して重み付け和を求め、画像の検出ボックス注意力特徴を得る。検出ボックス特徴は画像の複数の検出ボックスに関連する複数の検出ボックス副特徴を含んでもよい。例えば、検出ボックス特徴ベクトルはM個の検出ボックス副特徴ベクトルで連結されてなってもよい。ステップS1020では、このM個の検出ボックスの各々の第二重みが得られる。従って、このM個の第二重みによりこのM個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。
任意選択的な一例では、該ステップS1040はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される検出ボックス注意力抽出器2400によって実行してもよい。
なお、上記ステップS1030とステップS1040間の順序は交換してもよく、つまり、先にステップS1040を実行してからステップS1030を実行してもよいことに注意すべきである。
ステップS1050で、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する。質問特徴、領域注意力特徴および検出ボックス注意力特徴を得ると、質問特徴と領域注意力特徴およびその検出ボックス注意力特徴との関係への学習を両立させることができる。このような予測プロセスは多分類タスクとして処理してもよい。例えば、分類器で学習の結果を分類し、複数の回答候補のスコアに基づいて質問の回答を予測してもよい。本願の技術的解決手段によれば、二分岐による視覚注意力メカニズムの導入によって、様々なVQAシーンにおいても効率的かつ正確な回答予測を実現できる。
任意選択的な一例では、該ステップS1050はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される予測器2500によって実行してもよい。
本願の任意選択的な一実施例では、質問特徴を抽出するステップは、リカレントニューラルネットワークを利用して質問を構成する単語の文脈の特徴を抽出し、質問特徴を得ることを含んでもよい。いずれかの上記の実施例のように、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、リカレントニューラルネットワーク(Recurrent Neural Network、RNN)などを含むがこれらに限定されない様々な深層学習ネットワークを用いて質問の質問特徴を抽出してもよい。一般的に定義されたCNNとは異なり、RNNは前の時点の出力情報を次の時点の入力情報の一つとすることができるため、過去情報への学習能力を有する。
いずれかの上記の実施例のように、質問は一般的に自然言語からなる疑問文である。このような語句は複数の単語を含み、単語同士は互いに文脈的に繋がりがある。例えば、「食卓に置かれたのはリンゴですか、それとも梨ですか?」のような質問を解析する時、単語「食卓」のセマンティクス特徴を抽出した後、後文で食品に関連する単語が現れる確率が大きいと予測可能である。従って、質問特徴の抽出プロセスに、過去情報への学習能力を有するRNNを導入することは有益である。
RNNは、長短期記憶ユニット(Long Short−Term Memory、LSTM)およびゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)など様々なバリエーションを含んでもよい。RNNにより質問の特徴を抽出する場合、まず質問を構成する単語を順にワンホット(One−Hot)コードとしてコーディングしてもよい。ワンホットコードのコーディングは、このようなコーディング方式であり、即ち、システムに含まれる状態の数の分だけ、当該コーディングがビット数を有する。これらのビットのうち、一つだけが1であり、残りは全て0である。例えば、システムは5000個の単語(即ち、5000種類の可能な状態)を選び出した場合、ワンホットコードは5000個のビットを有する。このとき、ワンホットコードは一つのベクトルと見なしてもよく、その要素それぞれは0または1のみに限定される。入力される単語に対応する要素だけは、そのビットが1であり、残りは全て0である。実際の応用では、選び出されていない単語を表すための少なくとも一つのビットをシステム用としてリザーブしてもよい。ワンホットコードのコーディング方式は、テキスト文字のデジタル化データへの変換を実現できる。続いて、ワンホットコードに基づいて質問のセマンティクス特徴を抽出してもよい。例えば、現在時刻のワンホットコード入力、および前の出力に基づくワンホットコード特徴抽出結果を共にRNNに入力する。RNNは過去情報を考慮する上で、共に入力される内容をコーディングし、これにより現在単語のセマンティクス特徴を抽出することができる。
本願の任意選択的な一実施例では、グローバル特徴を抽出するステップは、CNNにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出することを含んでもよい。画像のグローバル特徴抽出に適用可能なCNNの例はResNetネットワークまたはVGG−16ネットワークを含んでもよいが、これらに限定されない。CNNは画像認識タスクの応用シーンについて、例えばImageNetのような、適当な訓練サンプル集合で予備訓練されてもよい。入力される画像はまず、使用されるCNNに適するサイズ(例えば、画素数)に調整し、続いてCNNに入力するようにされてもよい。CNNは、それぞれが画像との畳み込み動作を経た後に一つの特徴チャネル出力を得る複数の畳み込みカーネルを含んでもよい。CNNの畳み込みカーネルの数(または特徴チャネルの数)は画像認識タスクの応用シーンによって設定してもよい。いずれかの上記の実施例のように、画像がその横縦座標に基づいてN×N個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴は、ベクトル形式で表してもよく、グローバル特徴ベクトルはN×N個の領域特徴ベクトルで連結されてなってもよい。
図3は本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。図3を参照すると、本願の一実施例では、検出ボックス特徴を抽出するステップは、ステップS1031で、高速な領域畳み込みニューラルネットワーク(Faster−Region Convolutional Neural Network、Faster−RCNN)により画像内の対象を囲む複数の検出ボックスを得ることと、ステップS1032で、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、ステップS1033で、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、ステップS1034で、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得ることと、を含んでもよい。
本願の実施例では、まず画像の対象と背景を区別する必要がある。これは対象認識技術に関わる。Faster−RCNNは高効率な対象認識ネットワークである。領域畳み込みニューラルネットワーク(RCNN)および高速領域畳み込みニューラルネットワーク(Fast−RCNN)とは異なり、Faster−RCNNは検出ボックス候補(Region Proposal)を自動的に生成できる。
検出ボックス候補を生成した後、Faster−RCNNは検出ボックス候補中の画像特徴を認識し、それにより検出ボックス候補に囲まれるのは対象であるか、それとも背景であるかを判断することができる。検出ボックス候補に対象の一部または全てが囲まれた場合、Faster−RCNNは検出ボックス候補のサイズおよび位置をさらに補正し、それにより適当なサイズで画像内の対象を完全に囲ませることができる。
実際の応用では、画像における複数の対象を囲むために、複数の検出ボックスを生成してもよい。例えば、
個の対象を囲むために、
個の検出ボックスを生成してもよい。この
個の検出ボックスにはいずれもそれらに囲まれる対象の、その背景との差異度を反映するスコア値がマッピングされている。スコア値が低ければ低いほど、対象と背景との近似度が高くなる。本実施例では、スコア値に基づいて高い順にこの
個の検出ボックスからM個の検出ボックスを選択して後続の特徴抽出を行ってもよく、ここで、M≦
である。選択された一部の検出ボックスから検出ボックス副特徴を抽出する。最後に、抽出された検出ボックス副特徴を検出ボックス特徴として合成する。上記のように検出ボックス特徴を抽出すれば、検出ボックスを自律的に生成し、それにより人間の介入を低減することができる。また、背景との差が大きい一部の検出ボックスを選択することで、高品質の対象情報をできる限り抽出し、それにより前景内容に関連するVQAタスクに高適性の画像解析結果を提供することができる。
図4は本願の実施例に提供される第一重み取得方法の一例のフローチャートである。図4を参照すると、本願の任意選択的な一実施例では、第一重みを取得するステップS1040−1は、ステップS1041で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップS1042で、次元統一された検出ボックス特徴を複数の検出ボックス副特徴の数に基づいて平均化することと、ステップS1043で、次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得することと、を含んでもよい。
質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の自然分割領域に基づいて視覚注意力メカニズムを導入してもよい。画像はその横縦座標に基づいてN×N個の領域に分割されてもよい。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのN×N個の領域とそれぞれ初歩的に関連付け、それによりこのN×N個の領域の各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像からM個の検出ボックスを選択して後続の特徴抽出を行ってもよく、抽出される特徴は連結されて検出ボックス特徴を構成する。このM個の検出ボックスから抽出される特徴は検出ボックス特徴を構成するM個の検出ボックス副特徴である。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表すことができる。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、画像のグローバル視覚内容をより効率的に学習および理解するために、検出ボックス副特徴の数Mに基づいて検出ボックス特徴を平均化してもよい。
任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式(1)で表してもよい。
、
、
式(1)
式(1)中、Qは質問特徴ベクトルであり、Rはグローバル特徴ベクトルであり、Dは検出ボックス特徴ベクトルであり、
は次元統一された質問特徴であり、
は次元統一されかつ平均化された検出ボックス特徴であり、
は次元統一されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴Dの次元を統一できる。Mは検出ボックス副特徴の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
最後に、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
に基づいて第一重みを取得できる。例えば、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を1要素ずつに加算または乗算してもよい。任意選択的な一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の方式を採用する。該実施例では、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を乗算することで第一重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
例えば、上記動作は下式(2)で表してもよい。
式(2)
式(2)中、
は、質問特徴と、グローバル特徴と、検出ボックス特徴とのジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の複数の領域の重み情報を含むベクトル形式の第一重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmax関数を利用して活性化してもよい。
例えば、上記動作は下式(3)で表してもよい。
式(3)
式(3)中、
はスカラー形式の第一重みであり、
は機械学習によって更新可能なネットワークパラメータである。
図5は本願の実施例に提供される第二重み取得方法の一例のフローチャートである。図5を参照すると、本願の一実施例では、第二重みを取得するステップS1040−2は、ステップS1044で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップS1045で、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化することと、ステップS1046で、次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得することと、を含んでもよい。
質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の検出ボックスに基づいて視覚注意力メカニズムを導入してもよい。画像においてM個の検出ボックスが生成された場合、検出ボックス特徴は画像のM個の検出ボックスに関連するM個の検出ボックス副特徴を含んでもよい。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは、質問を画像のこのM個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのM個の検出ボックスの各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像はN×N個の領域を含むことが可能である。このN×N個の領域の特徴ベクトルを抽出し、画像のこのN×N個の領域に関連するN×N個の領域特徴を得る。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表してもよい。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、次元統一されたグローバル特徴を複数の領域特徴の数N×Nに基づいて平均化してもよい。
任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式(4)で表してもよい。
、
、
式(4)
式(4)中、Qは質問特徴ベクトルであり、Rはグローバル特徴ベクトルであり、Dは検出ボックス特徴ベクトルである。
は次元統一された質問特徴であり、
は次元統一されかつ平均化された検出ボックス特徴であり、
は次元統一されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴ベクトルDの次元を統一できる。N×Nは画像領域の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
最後に、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
に基づいて第二重みを取得できる。例えば、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を1要素ずつに加算または乗算してもよい。一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の形式を採用する。該実施例では、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を乗算することで第二重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
例えば、上記動作は下式(5)で表してもよい。
式(5)
式(5)中、
は質問特徴と、グローバル特徴と、検出ボックス特徴とのジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の少なくとも一つの検出ボックスの重み情報を含むベクトル形式の第二重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmaxを利用して活性化してもよい。
例えば、上記動作は下式(6)で表してもよい。
式(6)
式(6)中、
はスカラー形式の第二重みであり、
は利機械学習によって更新可能なネットワークパラメータである。
本願の任意選択的な一実施例では、上記実施例の方法に基づいて第一重み
および第二重み
を得た場合、任意選択的に、図1を参照しながら説明したステップS1050およびステップS1060は下式(7)および式(8)でそれぞれ表してもよい。
式(7)
式(7)中、N×N個の第一重み
を利用してN×N個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトル形式
で表すことが可能である。
式(8)
式(8)中、M個の第二重み
を利用してM個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは例えばベクトル形式
で表すことができる。
図6は本願の実施例に提供される質問回答予測方法の一例のフローチャートである。図6を参照すると、本願の一実施例では、質問回答を予測するステップは、ステップS1071で、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得ることと、ステップS1072で、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、ステップS1073で、第一質問予測回答および第二質問予測回答を分類することによって、質問の回答を予測することと、を含んでもよい。
本願の実施例では、質問予測を多目的分類タスクとして処理してもよい。例えば、質問特徴をさらに学習し、さらに学習した質問特徴を領域注意力特徴と乗算し、それにより第一質問予測を得るようにしてもよい。同様に、質問特徴をさらに学習し、さらに学習した質問特徴を検出ボックス注意力特徴と乗算し、それにより第二質問予測を得るようにしてもよい。
任意選択的に、上記動作は下式(9)で表してもよい。
式(9)
ここで、
は第一質問予測回答であり、
は第二質問予測回答である。
、
、
は機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴をさらに学習し、それにより表す能力を増強することができる。第一質問予測回答
はグローバル視覚内容に関連する質問により正確に応答でき、第二質問予測回答
は前景内容に関連する質問により正確に応答できる。
最後に、第一質問予測回答
と第二質問予測回答
とを加算し、両者の和を線形分類し、それにより質問の回答を最終的に予測する。例えば、第一質問予測回答
と第二質問予測回答
の和に対して線形変換を行い、Softmax関数を利用して最終的な質問回答を予測するようにしてもよい。
例えば、上記動作は下式(10)で表してもよい。
式(10)
ここで、
は予測される質問回答の確率を表すものであり、
は機械学習によって更新可能なネットワークパラメータである。例えば、
の値が最も大きい回答を最終の質問回答として選択してもよい。または、例えば、
の値を降順に並び替え、それにより
の値が最も高い複数の回答をユーザの選択のための回答候補として選択してもよい。本実施例によれば、第一質問予測回答と第二質問予測回答はそのプロセスが相対的に独立して行われるので、画像から異なるタイプの情報をできる限りキャプチャでき、一方、この二つの分岐での予測を組み合わせることで、様々なVQAシーンに効果的に適応できる。
本願の上記実施例で言及された特徴ベクトルの融合動作は、例えば加算および乗算など様々な方式を採用できる。任意選択的に、本願の例示的実施例ではアダマール積を採用する。本願の各実施例では、特徴ベクトルの次元は全て一致するため、アダマール積を採用することがより望ましい。また、アダマール積を採用すれば、計算量を低減し、それにより方法の実行効率を向上させることができる。
当業者であれば、上記各ネットワークは訓練されていなければ適用できないことを理解可能である。通常の逆伝播(Back−Propagation、BP)方法および/または通時的逆伝播(Back−Propagation Through Time、BPTT)方法を利用して訓練を完了してもよい。当業者は本願の開示内容に基づいてこれらの訓練方法を得ることができるので、本明細書では説明を省略する。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行するということを理解できる。
図7は本願の実施例に提供される画像質問応答装置2000の一実施例の構成模式図である。該実施例の装置は本願の上記各方法の実施例を実現するために用いることができる。図7に示すように、該実施例の装置は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器2100と、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器2200と、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得る領域注意力抽出器2300と、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器2400と、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する予測器2500と、を含む画像質問応答装置2000を含む。
特徴抽出器2100にリカレントニューラルネットワークが設定されることが可能であり、特徴抽出器2100は、リカレントニューラルネットワークにより質問を構成する単語の文脈に基づいて特徴を抽出し、質問特徴を得ることができる。
特徴抽出器2100に畳み込みニューラルネットワークが設定されることが可能であり、特徴抽出器2100は、畳み込みニューラルネットワークにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出できる。
特徴抽出器2100は、画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得る特徴合成器と、を含んでもよい。
重み計算器2200は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第一次元統一器と、次元統一された検出ボックス特徴を複数の検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、第一乗算器が次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得する第一重み取得器と、を含んでもよい。
重み計算器2200は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第二次元統一器と、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化する領域平均化器と、第二乗算器が次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得する第二重み取得器と、を含んでもよい。
予測器2500は、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、第一質問予測回答および第二質問予測回答を分類することによって、予測される質問の回答を得るデュアルモード分析器と、を含んでもよい。
本願の実施例の別の態様によれば、いずれかの上記の実施例に提供される画像質問応答装置を含むプロセッサを含む電子機器が提供される。
本願の実施例のさらに別の態様によれば、実行可能命令を記憶するためのメモリと、
メモリと通信して該実行可能命令を実行することでいずれかの上記の実施例に提供される画像質問応答方法の動作を完了するためのプロセッサと、を含む電子機器が提供される。
本願の実施例のさらに別の態様によれば、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、該命令は実行される時にいずれかの上記の実施例に提供される画像質問応答方法の動作を実行するコンピュータ記憶媒体が提供される。
本願の各実施例におけるニューラルネットワークそれぞれは、例えば多層畳み込みニューラルネットワークのような多層ニューラルネットワーク(即ち、深層ニューラルネットワーク)であってもよく、例えばLeNet、AlexNet、GoogLeNet、VGG、ResNetなどのような任意のニューラルネットワークモデルであってもよい。各ニューラルネットワークは同じタイプおよび構造のニューラルネットワークを採用してもよく、異なるタイプおよび構造のニューラルネットワークを採用してもよい。本願の実施例はこれを限定しない。
本願の実施例は電子機器をさらに提供し、例えば移動端末、パーソナルコンピュータ(PC)、タブレット、サーバなどであってもよい。以下に図8を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器800の構成模式図が示される。図8に示すように、コンピュータシステム800は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)801、および/または一つ以上の画像処理装置(GPU)813などであり、プロセッサは読み取り専用メモリ(ROM)802に記憶されている実行可能命令または記憶部808からランダムアクセスメモリ(RAM)803にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部812はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されない。
プロセッサは読み取り専用メモリ802および/またはランダムアクセスメモリ803と通信して実行可能命令を実行し、バス804を介して通信部812と接続し、通信部812によって他の目標機器と通信し、それにより本願の実施例に提供されるいずれか一項の方法の対応する動作、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を完了することができる。
また、RAM803には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU801、ROM802およびRAM803はバス804を介して互いに接続される。RAM803が存在する場合、ROM802は任意選択的なモジュールとなる。RAM803は実行可能命令を記憶するか、または動作時にROM802へ実行可能命令を書き込み、実行可能命令によってCPU801は上記通信方法の対応する動作を実行する。入力/出力(I/O)インタフェース805もバス804に接続される。通信部812は統合設置してもよいし、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部806、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部807、ハードディスクなどを含む記憶部808、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信部分809といった部品は、I/Oインタフェース805に接続される。通信部分809はインタネットのようなネットワークによって通信処理を実行する。ドライバ810も必要に応じてI/Oインタフェース805に接続される。取り外し可能な媒体811、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ810に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部808にインストールされる。
なお、図8に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図8の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPU813とCPU801は分離設置するかまたはGPU813をCPU801に統合するようにしてもよく、通信部は分離設置するか、またCPU801やGPU813に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願が開示した保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現可能である。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例に提供される方法のステップを対応して実行する対応の命令、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分809によってネットワークからダウンロードおよびインストールされ、および/または取り外し可能な媒体811からインストールされ得る。該コンピュータプログラムは中央処理装置(CPU)801により実行される時、本願の方法で限定された上記機能を実行する。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。
本願の方法および装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本願の方法および装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に特記されない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読命令を含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示および説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正および変形を加えることができるのは明らかであろう。実施例は本願の原理および実際の適用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。
(関連出願の相互参照)
本願は2017年10月31日に中国特許局に提出された、出願番号がCN201711049294.7であり、発明の名称が「画像質問応答方法、装置、システムおよび記憶媒体」である中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本願はCV(Computer Vision、コンピュータビジョン)分野に関し、より具体的には、画像質問応答方法、装置、システムおよび記憶媒体に関する。
近年、人工知能分野では、画像質問応答タスクがかなり注目されている。画像質問応答は視覚質問応答(Visual Question Answering、VQA)とも呼ばれ、画像に基づいて自然言語からなる質問に応答するというような作業ニーズに関わる。VQAは、言語と画像とのインタラクションが例示的に表れるものとして、知的監視、画像スクリーニングなどのような、様々動作シーンに適用可能である。
本願は画像質問応答の技術的解決手段を提供する。
本願の実施例の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含む画像質問応答方法を提供する。
任意選択的に、本発明の上記いずれかの方法の実施例では、質問のセマンティクスを表す質問特徴を抽出する前記ステップは、リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、画像のグローバル特徴を抽出する前記ステップは、畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記第二重みを取得するステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得することと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する前記ステップは、高速な領域畳み込みニューラルネットワークにより、前記画像内の対象を囲む複数の検出ボックスを取得することと、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得ることと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて前記画像の少なくとも一つの領域の各々の前記第一重みを取得する前記ステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得することと、を含んでもよい。
任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する前記ステップは、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得ることと、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得ることと、を含んでもよい。
本願の実施例の別の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器と、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器と、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得る領域注意力抽出器と、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器と、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する予測器と、を含む画像質問応答装置を提供する。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器にリカレントニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることができる。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器に畳み込みニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含んでもよい前記グローバル特徴を抽出できる。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第二次元統一器と、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化する領域平均化器と、前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得する第二重み取得器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器は、前記画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得る特徴合成器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第一次元統一器と、前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得する第一重み取得器と、を含んでもよい。
任意選択的に、本発明の上記いずれかの装置の実施例では、前記予測器は、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得るデュアルモード分析器と、を含んでもよい。
本願の実施例のさらに別の一態様は、実行可能命令を記憶するメモリと、メモリと通信して実行可能命令を実行し、それにより、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を完了するプロセッサと、を含む画像質問応答システムを提供する。
本願の実施例のさらに別の一態様は、上記いずれか一項に記載の画像質問応答装置を含むプロセッサを含む電子機器を提供する。
本願の実施例のさらに別の一態様は、実行可能命令を記憶するためのメモリと、
前記メモリと通信して前記実行可能命令を実行することで上記いずれか一項に記載の画像質問応答方法を完了するためのプロセッサと、を含む電子機器を提供する。
本願の実施例のさらに別の一態様はコンピュータ可読命令を記憶可能なコンピュータ可読記憶媒体であって、これらの命令は、実行される時に、プロセッサに、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を実行させることができるコンピュータ可読記憶媒体を提供する。
本願の実施例のさらに別の一態様はコンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において動作される時、前記機器内のプロセッサは上記いずれか一項に記載の画像質問応答方法を実現するための命令を実行するコンピュータプログラム製品を提供する。
本願の技術的解決手段は質問のセマンティクスに基づいて画像のグローバル特徴、および対象が含まれている検出ボックスの検出ボックス特徴を総合的に考慮することで、画像と質問とのインタラクションをより包括的に分析し、画像質問応答の効率および精度を向上させる。
以下に図面および実施例により、本願の技術的解決手段をさらに詳しく説明する。
本願の実施例に提供される画像質問応答方法の一実施例のフローチャートである。
本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。
本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。
本願の実施例に提供される第一重み取得方法の一例のフローチャートである。
本願の実施例に提供される第二重み取得方法の一例のフローチャートである。
本願の実施例に提供される質問回答予測方法の一例のフローチャートである。
本願の実施例に提供される画像質問応答装置の一実施例の構成模式図である。
本願の実施例に提供される画像質問応答システムの一実施例の構成模式図である。
明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に特記されない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限とするものではない。
関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。
なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある要素が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本願の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境および/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えばプログラムモジュール)の一般的な言語環境において説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム/サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。
なお、本願における実施例および実施例における特徴は、矛盾なく相互に組み合わせることが可能であることを説明する必要がある。以下に図面と実施例を関連付けて本願を詳細に説明する。
図1は本願の実施例に提供される画像質問応答方法1000の一実施例のフローチャートである。該方法は、例えば端末機器、サーバ、モバイル機器などの任意の電子機器によって実行でき、図1に示すように、該実施例の方法は以下を含む。
ステップS1010で、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する。
質問は画像に関連する、自然言語からなる疑問文であってもよい。図2は本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。図2を参照すると、例えば、該質問は、画像2110に関連する質問2120「皿に何がありますか?」、画像2210に関連する質問2220「これはどんなスポーツですか?」、画像2310に関連する質問2320「今日は晴れですか?」などである。深層学習ネットワーク(Deep Learning Networks)を用いて質問の質問特徴を抽出してもよい。該質問特徴は、質問のセマンティク表現(Semantic Representation)を含み、例えば特徴ベクトルとして表してもよい。
画像のグローバル特徴は、例えば特徴ベクトルとして表してもよく、画像の全領域の内容のセマンティク表現を含む。該ステップでは、特徴を抽出しようとする画像の内容を限定せず、つまり、画像の前景内容(対象などを含んでもよい)と背景内容を区別しない。従って、画像のグローバル特徴は画像のグローバル視覚内容、および質問に応答するのに必要な、具体的な前景内容を保持できる。
画像内の対象を囲む検出ボックスの検出ボックス特徴の抽出は画像のグローバル特徴の抽出と異なり、まず画像の前景内容と背景内容を区別する必要がある。検出ボックスで画像中の前景内容、例えば、対象などをラベル付けしてもよい。検出ボックスは、例えば矩形形状を有し、かつ画像内の対象を囲んでいてもよい。検出ボックス特徴を抽出する時、検出ボックス内の画像特徴のみを抽出する。検出ボックス特徴は、例えば特徴ベクトルとして表してもよく、検出ボックス内の内容のセマンティク表現を含む。従って、検出ボックス特徴は大量の背景情報をフィルタして取り除き、それにより前景内容に関連する質問をより効率的に、より正確に予測することができる。
任意選択的な一例では、該ステップS1010はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される特徴抽出器2100によって実行してもよい。
ステップS1020で、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の複数の領域の各々の第一重みおよび画像の複数の検出ボックスの各々の第二重みを取得する。該ステップは視覚注意力メカニズムを導入する。視覚注意力メカニズムは質問と画像を初歩的に関連付け、それにより画像の異なる部位に異なる注意力重みを設定することができる。注意力重みは該部位と質問との関連度を反映する。視覚注意力メカニズムの導入によって、質問に密接に関連する画像部位に効率的に注意を向け、それにより予測効率および精度を向上させることができる。
本願の実施例は二分岐による視覚注意力メカニズムを導入する。第一分岐において、視覚注意力メカニズムは画像の自然分割領域に基づいて導入される。画像の自然分割領域とは、画像の前景内容と背景内容を区別せず、自然の位置関係に基づいて画像を一つ以上の領域に分割したものである。例えば、図2に示すように、画像2410も画像2510も同じ画像内容を含み、同一の関連質問2420「この男性は何を注いでいますか?」を有する。ここで、画像2410はその横縦座標に基づいてN×N個の領域2411に分割され、Nは1以上の整数である。例えば、図2に示す例では、画像2410は5×5個の領域に分割される。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのN×N個の領域とそれぞれ初歩的に関連付け、それによりこのN×N個の領域の各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の自然分割領域に基づいて視覚注意力メカニズムを導入することで、画像の複数の領域の各々の第一重みを取得できる。
画像の自然分割領域に基づいて視覚注意力メカニズムを導入すれば、画像のグローバル視覚内容がより高い程度で保持され、特に背景内容が効果的に保持されるという利点がある。例えば、図2に示す画像2310に関連する質問2320「今日は晴れですか?」に応答する時、質問は実際に画像2310の背景内容(空)に関連するため、画像の自然分割領域に基づいて視覚注意力メカニズムを導入すればこの種類の質問の回答をより効率的に予測できる。
第二分岐において、視覚注意力メカニズムは画像の検出ボックスに基づいて導入される。画像の検出ボックスは、一つ以上の対象を含んでもよい画像の前景内容(例えば、対象)を認識しかつそれを囲む。従って、画像において一つ以上の検出ボックスを生成できる。例えば、図2に示すように、画像2510においてM個の検出ボックス2511が生成されており、Mは1以上の整数である。例えば、図2に示す例では、画像2510において4個の検出ボックスが生成されている。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは質問を画像のこのM個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのM個の検出ボックスの各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の検出ボックスに基づいて視覚注意力メカニズムを導入することで、画像の複数の検出ボックスの各々の第二重みを取得できる。
画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば、画像の前景内容により多くの注意が向けられ、それにより前景内容に関連する質問により効率的に、正確に応答できる。例えば、図2に示す画像2110に関連する質問2120「皿に何がありますか?」および画像2210に関連する質問2220「これはどんなスポーツですか?」に応答する時、画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば画像2110および画像2210中の背景情報を無視でき、同時に皿を囲む検出ボックスおよびラケットを囲む検出ボックスにより大きい重みを割り当て、さらにこの種類の質問の回答をより効率的に、正確に予測することができる。
任意選択的な一例では、該ステップS1020はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される重み計算器2200によって実行してもよい。
ステップS1030で、第一重みによりグローバル特徴に対して重み付け和を求め、画像の領域注意力特徴を得る。画像がその横縦座標に基づいてN×N個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴ベクトルはN×N個の領域特徴ベクトルで連結されてなってもよい。ステップS1020では、このN×N個の領域の各々の第一重みが得られる。従って、このN×N個の第一重みによりこのN×N個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。
任意選択的な一例では、該ステップS1030はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される領域注意力抽出器2300によって実行してもよい。
ステップS1040で、第二重みにより検出ボックス特徴に対して重み付け和を求め、画像の検出ボックス注意力特徴を得る。検出ボックス特徴は画像の複数の検出ボックスに関連する複数の検出ボックス副特徴を含んでもよい。例えば、検出ボックス特徴ベクトルはM個の検出ボックス副特徴ベクトルで連結されてなってもよい。ステップS1020では、このM個の検出ボックスの各々の第二重みが得られる。従って、このM個の第二重みによりこのM個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。
任意選択的な一例では、該ステップS1040はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される検出ボックス注意力抽出器2400によって実行してもよい。
なお、上記ステップS1030とステップS1040間の順序は交換してもよく、つまり、先にステップS1040を実行してからステップS1030を実行してもよいことに注意すべきである。
ステップS1050で、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する。質問特徴、領域注意力特徴および検出ボックス注意力特徴を得ると、質問特徴と領域注意力特徴およびその検出ボックス注意力特徴との関係への学習を両立させることができる。このような予測プロセスは多分類タスクとして処理してもよい。例えば、分類器で学習の結果を分類し、複数の回答候補のスコアに基づいて質問の回答を予測してもよい。本願の技術的解決手段によれば、二分岐による視覚注意力メカニズムの導入によって、様々なVQAシーンにおいても効率的かつ正確な回答予測を実現できる。
任意選択的な一例では、該ステップS1050はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される予測器2500によって実行してもよい。
本願の任意選択的な一実施例では、質問特徴を抽出するステップは、リカレントニューラルネットワークを利用して質問を構成する単語の文脈の特徴を抽出し、質問特徴を得ることを含んでもよい。いずれかの上記の実施例のように、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、リカレントニューラルネットワーク(Recurrent Neural Network、RNN)などを含むがこれらに限定されない様々な深層学習ネットワークを用いて質問の質問特徴を抽出してもよい。一般的に定義されたCNNとは異なり、RNNは前の時点の出力情報を次の時点の入力情報の一つとすることができるため、過去情報への学習能力を有する。
いずれかの上記の実施例のように、質問は一般的に自然言語からなる疑問文である。このような語句は複数の単語を含み、単語同士は互いに文脈的に繋がりがある。例えば、「食卓に置かれたのはリンゴですか、それとも梨ですか?」のような質問を解析する時、単語「食卓」のセマンティクス特徴を抽出した後、後文で食品に関連する単語が現れる確率が大きいと予測可能である。従って、質問特徴の抽出プロセスに、過去情報への学習能力を有するRNNを導入することは有益である。
RNNは、長短期記憶ユニット(Long Short−Term Memory、LSTM)およびゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)など様々なバリエーションを含んでもよい。RNNにより質問の特徴を抽出する場合、まず質問を構成する単語を順にワンホット(One−Hot)コードとしてコーディングしてもよい。ワンホットコードのコーディングは、このようなコーディング方式であり、即ち、システムに含まれる状態の数の分だけ、当該コーディングがビット数を有する。これらのビットのうち、一つだけが1であり、残りは全て0である。例えば、システムは5000個の単語(即ち、5000種類の可能な状態)を選び出した場合、ワンホットコードは5000個のビットを有する。このとき、ワンホットコードは一つのベクトルと見なしてもよく、その要素それぞれは0または1のみに限定される。入力される単語に対応する要素だけは、そのビットが1であり、残りは全て0である。実際の応用では、選び出されていない単語を表すための少なくとも一つのビットをシステム用としてリザーブしてもよい。ワンホットコードのコーディング方式は、テキスト文字のデジタル化データへの変換を実現できる。続いて、ワンホットコードに基づいて質問のセマンティクス特徴を抽出してもよい。例えば、現在時刻のワンホットコード入力、および前の出力に基づくワンホットコード特徴抽出結果を共にRNNに入力する。RNNは過去情報を考慮する上で、共に入力される内容をコーディングし、これにより現在単語のセマンティクス特徴を抽出することができる。
本願の任意選択的な一実施例では、グローバル特徴を抽出するステップは、CNNにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出することを含んでもよい。画像のグローバル特徴抽出に適用可能なCNNの例はResNetネットワークまたはVGG−16ネットワークを含んでもよいが、これらに限定されない。CNNは画像認識タスクの応用シーンについて、例えばImageNetのような、適当な訓練サンプル集合で予備訓練されてもよい。入力される画像はまず、使用されるCNNに適するサイズ(例えば、画素数)に調整し、続いてCNNに入力するようにされてもよい。CNNは、それぞれが画像との畳み込み動作を経た後に一つの特徴チャネル出力を得る複数の畳み込みカーネルを含んでもよい。CNNの畳み込みカーネルの数(または特徴チャネルの数)は画像認識タスクの応用シーンによって設定してもよい。いずれかの上記の実施例のように、画像がその横縦座標に基づいてN×N個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴は、ベクトル形式で表してもよく、グローバル特徴ベクトルはN×N個の領域特徴ベクトルで連結されてなってもよい。
図3は本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。図3を参照すると、本願の一実施例では、検出ボックス特徴を抽出するステップは、ステップS1031で、高速な領域畳み込みニューラルネットワーク(Faster−Region Convolutional Neural Network、Faster−RCNN)により画像内の対象を囲む複数の検出ボックスを得ることと、ステップS1032で、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、ステップS1033で、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、ステップS1034で、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得ることと、を含んでもよい。
本願の実施例では、まず画像の対象と背景を区別する必要がある。これは対象認識技術に関わる。Faster−RCNNは高効率な対象認識ネットワークである。領域畳み込みニューラルネットワーク(RCNN)および高速領域畳み込みニューラルネットワーク(Fast−RCNN)とは異なり、Faster−RCNNは検出ボックス候補(Region Proposal)を自動的に生成できる。
検出ボックス候補を生成した後、Faster−RCNNは検出ボックス候補中の画像特徴を認識し、それにより検出ボックス候補に囲まれるのは対象であるか、それとも背景であるかを判断することができる。検出ボックス候補に対象の一部または全てが囲まれた場合、Faster−RCNNは検出ボックス候補のサイズおよび位置をさらに補正し、それにより適当なサイズで画像内の対象を完全に囲ませることができる。
実際の応用では、画像における複数の対象を囲むために、複数の検出ボックスを生成してもよい。例えば、
個の対象を囲むために、
個の検出ボックスを生成してもよい。この
個の検出ボックスにはいずれもそれらに囲まれる対象の、その背景との差異度を反映するスコア値がマッピングされている。スコア値が低ければ低いほど、対象と背景との近似度が高くなる。本実施例では、スコア値に基づいて高い順にこの
個の検出ボックスからM個の検出ボックスを選択して後続の特徴抽出を行ってもよく、ここで、M≦
である。選択された一部の検出ボックスから検出ボックス副特徴を抽出する。最後に、抽出された検出ボックス副特徴を検出ボックス特徴として合成する。上記のように検出ボックス特徴を抽出すれば、検出ボックスを自律的に生成し、それにより人間の介入を低減することができる。また、背景との差が大きい一部の検出ボックスを選択することで、高品質の対象情報をできる限り抽出し、それにより前景内容に関連するVQAタスクに高適性の画像解析結果を提供することができる。
図4は本願の実施例に提供される第一重み取得方法の一例のフローチャートである。図4を参照すると、本願の任意選択的な一実施例では、第一重みを取得するステップS1040−1は、ステップS1041で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップS1042で、次元統一された検出ボックス特徴を少なくとも一つの検出ボックス副特徴の数に基づいて平均化することと、ステップS1043で、次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得することと、を含んでもよい。
質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の自然分割領域に基づいて視覚注意力メカニズムを導入してもよい。画像はその横縦座標に基づいてN×N個の領域に分割されてもよい。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのN×N個の領域とそれぞれ初歩的に関連付け、それによりこのN×N個の領域の各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像からM個の検出ボックスを選択して後続の特徴抽出を行ってもよく、抽出される特徴は連結されて検出ボックス特徴を構成する。このM個の検出ボックスから抽出される特徴は検出ボックス特徴を構成するM個の検出ボックス副特徴である。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表すことができる。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、画像のグローバル視覚内容をより効率的に学習および理解するために、検出ボックス副特徴の数Mに基づいて検出ボックス特徴を平均化してもよい。
任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式(1)で表してもよい。
、
、
式(1)
式(1)中、Qは質問特徴ベクトルであり、Rはグローバル特徴ベクトルであり、Dは検出ボックス特徴ベクトルであり、
は次元統一された質問特徴であり、
は次元統一されかつ平均化された検出ボックス特徴であり、
は次元統一されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴Dの次元を統一できる。Mは検出ボックス副特徴の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
最後に、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
に基づいて第一重みを取得できる。例えば、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を1要素ずつに加算または乗算してもよい。任意選択的な一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の方式を採用する。該実施例では、次元統一された質問特徴
、次元統一されたグローバル特徴
および次元統一されかつ平均化された検出ボックス特徴
を乗算することで第一重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
例えば、上記動作は下式(2)で表してもよい。
式(2)
式(2)中、
は、次元統一された質問特徴
と、次元統一されたグローバル特徴
と、次元統一されかつ平均化された検出ボックス特徴
とのジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の複数の領域の重み情報を含むベクトル形式の第一重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmax関数を利用して活性化してもよい。
例えば、上記動作は下式(3)で表してもよい。
式(3)
式(3)中、
はスカラー形式の第一重みであり、
は機械学習によって更新可能なネットワークパラメータである。
図5は本願の実施例に提供される第二重み取得方法の一例のフローチャートである。図5を参照すると、本願の一実施例では、第二重みを取得するステップS1040−2は、ステップS1044で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップS1045で、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化することと、ステップS1046で、次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得することと、を含んでもよい。
質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の検出ボックスに基づいて視覚注意力メカニズムを導入してもよい。画像においてM個の検出ボックスが生成された場合、検出ボックス特徴は画像のM個の検出ボックスに関連するM個の検出ボックス副特徴を含んでもよい。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは、質問を画像のこのM個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのM個の検出ボックスの各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像はN×N個の領域を含むことが可能である。このN×N個の領域の特徴ベクトルを抽出し、画像のこのN×N個の領域に関連するN×N個の領域特徴を得る。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表してもよい。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、次元統一されたグローバル特徴を複数の領域特徴の数N×Nに基づいて平均化してもよい。
任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式(4)で表してもよい。
、
、
式(4)
式(4)中、Qは質問特徴ベクトルであり、Rはグローバル特徴ベクトルであり、Dは検出ボックス特徴ベクトルである。
は次元統一された質問特徴であり、
は次元統一された検出ボックス特徴であり、
は次元統一されかつ平均化されたグローバル特徴である。
それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルQ、グローバル特徴ベクトルRおよび検出ボックス特徴ベクトルDの次元を統一できる。N×Nは画像領域の数を表し、tanh()は双曲線正接関数であり、1は全1ベクトルを表す。
最後に、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
に基づいて第二重みを取得できる。例えば、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を1要素ずつに加算または乗算してもよい。一実施例では、例えばアダマール積(Hadamard Product)を計算するように、乗算の形式を採用する。該実施例では、次元統一された質問特徴
、次元統一された検出ボックス特徴
および次元統一されかつ平均化されたグローバル特徴
を乗算することで第二重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にL2ノルム正則化を行ってもよい。
例えば、上記動作は下式(5)で表してもよい。
式(5)
式(5)中、
は、次元統一された質問特徴
と、次元統一されかつ平均化されたグローバル特徴
と、次元統一された検出ボックス特徴
とのジョイント特徴表現を表し、
はL2ノルム正則化を表し、
はアダマール積を表す。
は画像の少なくとも一つの検出ボックスの重み情報を含むベクトル形式の第二重みと見なしてもよい。実際の動作では、該ジョイント特徴表現
をさらに畳み込んでSoftmaxを利用して活性化してもよい。
例えば、上記動作は下式(6)で表してもよい。
式(6)
式(6)中、
はスカラー形式の第二重みであり、
は利機械学習によって更新可能なネットワークパラメータである。
本願の任意選択的な一実施例では、上記実施例の方法に基づいて第一重み
および第二重み
を得た場合、任意選択的に、図1を参照しながら説明したステップS1050およびステップS1060は下式(7)および式(8)でそれぞれ表してもよい。
式(7)
式(7)中、N×N個の第一重み
を利用してN×N個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトル形式
で表すことが可能である。
式(8)
式(8)中、M個の第二重み
を利用してM個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは例えばベクトル形式
で表すことができる。
図6は本願の実施例に提供される質問回答予測方法の一例のフローチャートである。図6を参照すると、本願の一実施例では、質問回答を予測するステップは、ステップS1071で、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得ることと、ステップS1072で、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、ステップS1073で、第一質問予測回答および第二質問予測回答を分類することによって、質問の回答を予測することと、を含んでもよい。
本願の実施例では、質問予測を多目的分類タスクとして処理してもよい。例えば、質問特徴をさらに学習し、さらに学習した質問特徴を領域注意力特徴と乗算し、それにより第一質問予測を得るようにしてもよい。同様に、質問特徴をさらに学習し、さらに学習した質問特徴を検出ボックス注意力特徴と乗算し、それにより第二質問予測を得るようにしてもよい。
任意選択的に、上記動作は下式(9)で表してもよい。
式(9)
ここで、
は第一質問予測回答であり、
は第二質問予測回答である。
、
、
は機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴をさらに学習し、それにより表す能力を増強することができる。第一質問予測回答
はグローバル視覚内容に関連する質問により正確に応答でき、第二質問予測回答
は前景内容に関連する質問により正確に応答できる。
最後に、第一質問予測回答
と第二質問予測回答
とを加算し、両者の和を線形分類し、それにより質問の回答を最終的に予測する。例えば、第一質問予測回答
と第二質問予測回答
の和に対して線形変換を行い、Softmax関数を利用して最終的な質問回答を予測するようにしてもよい。
例えば、上記動作は下式(10)で表してもよい。
式(10)
ここで、
は予測される質問回答の確率を表すものであり、
は機械学習によって更新可能なネットワークパラメータである。例えば、
の値が最も大きい回答を最終の質問回答として選択してもよい。または、例えば、
の値を降順に並び替え、それにより
の値が最も高い複数の回答をユーザの選択のための回答候補として選択してもよい。本実施例によれば、第一質問予測回答と第二質問予測回答はそのプロセスが相対的に独立して行われるので、画像から異なるタイプの情報をできる限りキャプチャでき、一方、この二つの分岐での予測を組み合わせることで、様々なVQAシーンに効果的に適応できる。
本願の上記実施例で言及された特徴ベクトルの融合動作は、例えば加算および乗算など様々な方式を採用できる。任意選択的に、本願の例示的実施例ではアダマール積を採用する。本願の各実施例では、特徴ベクトルの次元は全て一致するため、アダマール積を採用することがより望ましい。また、アダマール積を採用すれば、計算量を低減し、それにより方法の実行効率を向上させることができる。
当業者であれば、上記各ネットワークは訓練されていなければ適用できないことを理解可能である。通常の逆伝播(Back−Propagation、BP)方法および/または通時的逆伝播(Back−Propagation Through Time、BPTT)方法を利用して訓練を完了してもよい。当業者は本願の開示内容に基づいてこれらの訓練方法を得ることができるので、本明細書では説明を省略する。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行するということを理解できる。
図7は本願の実施例に提供される画像質問応答装置2000の一実施例の構成模式図である。該実施例の装置は本願の上記各方法の実施例を実現するために用いることができる。図7に示すように、該実施例の装置は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器2100と、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器2200と、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得る領域注意力抽出器2300と、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器2400と、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する予測器2500と、を含む画像質問応答装置2000を含む。
特徴抽出器2100にリカレントニューラルネットワークが設定されることが可能であり、特徴抽出器2100は、リカレントニューラルネットワークにより質問を構成する単語の文脈に基づいて特徴を抽出し、質問特徴を得ることができる。
特徴抽出器2100に畳み込みニューラルネットワークが設定されることが可能であり、特徴抽出器2100は、畳み込みニューラルネットワークにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出できる。
特徴抽出器2100は、画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得る特徴合成器と、を含んでもよい。
重み計算器2200は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第一次元統一器と、次元統一された検出ボックス特徴を少なくとも一つの検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得する第一重み取得器と、を含んでもよい。
重み計算器2200は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第二次元統一器と、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化する領域平均化器と、次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得する第二重み取得器と、を含んでもよい。
予測器2500は、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、第一質問予測回答および第二質問予測回答を分類することによって、予測される質問の回答を得るデュアルモード分析器と、を含んでもよい。
本願の実施例の別の態様によれば、いずれかの上記の実施例に提供される画像質問応答装置を含むプロセッサを含む電子機器が提供される。
本願の実施例のさらに別の態様によれば、実行可能命令を記憶するためのメモリと、
メモリと通信して該実行可能命令を実行することでいずれかの上記の実施例に提供される画像質問応答方法の動作を完了するためのプロセッサと、を含む電子機器が提供される。
本願の実施例のさらに別の態様によれば、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、該命令は実行される時にいずれかの上記の実施例に提供される画像質問応答方法の動作を実行するコンピュータ記憶媒体が提供される。
本願の各実施例におけるニューラルネットワークそれぞれは、例えば多層畳み込みニューラルネットワークのような多層ニューラルネットワーク(即ち、深層ニューラルネットワーク)であってもよく、例えばLeNet、AlexNet、GoogLeNet、VGG、ResNetなどのような任意のニューラルネットワークモデルであってもよい。各ニューラルネットワークは同じタイプおよび構造のニューラルネットワークを採用してもよく、異なるタイプおよび構造のニューラルネットワークを採用してもよい。本願の実施例はこれを限定しない。
本願の実施例は電子機器をさらに提供し、例えば移動端末、パーソナルコンピュータ(PC)、タブレット、サーバなどであってもよい。以下に図8を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器800の構成模式図が示される。図8に示すように、コンピュータシステム800は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)801、および/または一つ以上の画像処理装置(GPU)813などであり、プロセッサは読み取り専用メモリ(ROM)802に記憶されている実行可能命令または記憶部808からランダムアクセスメモリ(RAM)803にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部812はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されない。
プロセッサは読み取り専用メモリ802および/またはランダムアクセスメモリ803と通信して実行可能命令を実行し、バス804を介して通信部812と接続し、通信部812によって他の目標機器と通信し、それにより本願の実施例に提供されるいずれか一項の方法の対応する動作、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を完了することができる。
また、RAM803には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU801、ROM802およびRAM803はバス804を介して互いに接続される。RAM803が存在する場合、ROM802は任意選択的なモジュールとなる。RAM803は実行可能命令を記憶するか、または動作時にROM802へ実行可能命令を書き込み、実行可能命令によってCPU801は上記通信方法の対応する動作を実行する。入力/出力(I/O)インタフェース805もバス804に接続される。通信部812は統合設置してもよいし、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部806、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部807、ハードディスクなどを含む記憶部808、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信部分809といった部品は、I/Oインタフェース805に接続される。通信部分809はインタネットのようなネットワークによって通信処理を実行する。ドライバ810も必要に応じてI/Oインタフェース805に接続される。取り外し可能な媒体811、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ810に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部808にインストールされる。
なお、図8に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図8の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPU813とCPU801は分離設置するかまたはGPU813をCPU801に統合するようにしてもよく、通信部は分離設置するか、またCPU801やGPU813に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願が開示した保護範囲に属する。
特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現可能である。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例に提供される方法のステップを対応して実行する対応の命令、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分809によってネットワークからダウンロードおよびインストールされ、および/または取り外し可能な媒体811からインストールされ得る。該コンピュータプログラムは中央処理装置(CPU)801により実行される時、本願の方法で限定された上記機能を実行する。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。
本願の方法および装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本願の方法および装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に特記されない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読命令を含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示および説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正および変形を加えることができるのは明らかであろう。実施例は本願の原理および実際の適用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。