JP6916383B2

JP6916383B2 - 画像質問応答方法、装置、システムおよび記憶媒体

Info

Publication number: JP6916383B2
Application number: JP2020511894A
Authority: JP
Inventors: パンルー; ホンションリー; シャオガンワン
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2017-10-31
Filing date: 2018-10-30
Publication date: 2021-08-11
Anticipated expiration: 2038-10-30
Also published as: US20200193228A1; CN108228703B; JP2020532017A; CN108228703A; SG11202001737SA; WO2019085905A1; US11222236B2

Description

（関連出願の相互参照）
本願は２０１７年１０月３１日に中国特許局に提出された、出願番号がＣＮ２０１７１１０４９２９４．７であり、発明の名称が「画像質問応答方法、装置、システムおよび記憶媒体」である中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本願はＣＶ（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、コンピュータビジョン）分野に関し、より具体的には、画像質問応答方法、装置、システムおよび記憶媒体に関する。

近年、人工知能分野では、画像質問応答タスクがかなり注目されている。画像質問応答は視覚質問応答（ＶｉｓｕａｌＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ、ＶＱＡ）とも呼ばれ、画像に基づいて自然言語からなる質問に応答するというような作業ニーズに関わる。ＶＱＡは、言語と画像とのインタラクションが例示的に表れるものとして、知的監視、画像スクリーニングなどのような、様々動作シーンに適用可能である。

本願は画像質問応答の技術的解決手段を提供する。

本願の実施例の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含む画像質問応答方法を提供する。

任意選択的に、本発明の上記いずれかの方法の実施例では、質問のセマンティクスを表す質問特徴を抽出する前記ステップは、リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを含んでもよい。

任意選択的に、本発明の上記いずれかの方法の実施例では、画像のグローバル特徴を抽出する前記ステップは、畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを含んでもよい。

任意選択的に、本発明の上記いずれかの方法の実施例では、前記第二重みを取得するステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得することと、を含んでもよい。

任意選択的に、本発明の上記いずれかの方法の実施例では、前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する前記ステップは、高速な領域畳み込みニューラルネットワークにより、前記画像内の対象を囲む複数の検出ボックスを取得することと、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得ることと、を含んでもよい。

任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて前記画像の少なくとも一つの領域の各々の前記第一重みを取得する前記ステップは、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化することと、前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得することと、を含んでもよい。

任意選択的に、本発明の上記いずれかの方法の実施例では、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する前記ステップは、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得ることと、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得ることと、を含んでもよい。

本願の実施例の別の一態様は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器と、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器と、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得る領域注意力抽出器と、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器と、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する予測器と、を含む画像質問応答装置を提供する。

任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器にリカレントニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることができる。

任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器に畳み込みニューラルネットワークが設定されることが可能であり、前記特徴抽出器は、前記畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含んでもよい前記グローバル特徴を抽出できる。

任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第二次元統一器と、前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化する領域平均化器と、前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得する第二重み取得器と、を含んでもよい。

任意選択的に、本発明の上記いずれかの装置の実施例では、前記特徴抽出器は、前記画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得る特徴合成器と、を含んでもよい。

任意選択的に、本発明の上記いずれかの装置の実施例では、前記重み計算器は、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第一次元統一器と、前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得する第一重み取得器と、を含んでもよい。

任意選択的に、本発明の上記いずれかの装置の実施例では、前記予測器は、前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、前記第一質問予測回答および前記第二質問予測回答を分類することによって、前記質問の回答を得るデュアルモード分析器と、を含んでもよい。

本願の実施例のさらに別の一態様は、実行可能命令を記憶するメモリと、メモリと通信して実行可能命令を実行し、それにより、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を完了するプロセッサと、を含む画像質問応答システムを提供する。

本願の実施例のさらに別の一態様は、上記いずれか一項に記載の画像質問応答装置を含むプロセッサを含む電子機器を提供する。

本願の実施例のさらに別の一態様は、実行可能命令を記憶するためのメモリと、
前記メモリと通信して前記実行可能命令を実行することで上記いずれか一項に記載の画像質問応答方法を完了するためのプロセッサと、を含む電子機器を提供する。

本願の実施例のさらに別の一態様はコンピュータ可読命令を記憶可能なコンピュータ可読記憶媒体であって、これらの命令は、実行される時に、プロセッサに、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みおよび前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含んでもよいがこれらに限定されない本願の実施例に提供されるいずれかの画像質問応答方法の対応する動作を実行させることができるコンピュータ可読記憶媒体を提供する。

本願の実施例のさらに別の一態様はコンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器において動作される時、前記機器内のプロセッサは上記いずれか一項に記載の画像質問応答方法を実現するための命令を実行するコンピュータプログラム製品を提供する。

本願の技術的解決手段は質問のセマンティクスに基づいて画像のグローバル特徴、および対象が含まれている検出ボックスの検出ボックス特徴を総合的に考慮することで、画像と質問とのインタラクションをより包括的に分析し、画像質問応答の効率および精度を向上させる。

以下に図面および実施例により、本願の技術的解決手段をさらに詳しく説明する。

本願の実施例に提供される画像質問応答方法の一実施例のフローチャートである。本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。本願の実施例に提供される第一重み取得方法の一例のフローチャートである。本願の実施例に提供される第二重み取得方法の一例のフローチャートである。本願の実施例に提供される質問回答予測方法の一例のフローチャートである。本願の実施例に提供される画像質問応答装置の一実施例の構成模式図である。本願の実施例に提供される画像質問応答システムの一実施例の構成模式図である。

明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。

図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。

ここで、図面を参照しながら本願の様々な例示的実施例を詳細に説明する。なお、特に特記されない限り、これらの実施例において記述した部材およびステップの相対的配置、数式および数値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的実施例に対する説明は実際に説明的なものに過ぎず、本願およびその適用または使用へのなんらの制限とするものではない。

関連分野の当業者に既知の技術、方法および機器については、詳細に説明しないが、場合によって、前記技術、方法および機器は明細書の一部と見なすべきである。

なお、類似する符号および英文字は以下の図面において類似項目を表し、従って、ある要素が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本願の実施例はコンピュータシステム／サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバとの併用に適する公知の計算システム、環境および／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステムおよび上記任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

コンピュータシステム／サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能命令（例えばプログラムモジュール）の一般的な言語環境において説明できる。通常、プログラムモジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目標プログラム、コンポーネント、ロジック、データ構造などを含むことができる。コンピュータシステム／サーバは、タスクが通信ネットワークにわたって接続された遠隔処理機器により実行される分散型クラウドコンピューティング環境において実施できる。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してもよい。

なお、本願における実施例および実施例における特徴は、矛盾なく相互に組み合わせることが可能であることを説明する必要がある。以下に図面と実施例を関連付けて本願を詳細に説明する。

図１は本願の実施例に提供される画像質問応答方法１０００の一実施例のフローチャートである。該方法は、例えば端末機器、サーバ、モバイル機器などの任意の電子機器によって実行でき、図１に示すように、該実施例の方法は以下を含む。

ステップＳ１０１０で、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する。

質問は画像に関連する、自然言語からなる疑問文であってもよい。図２は本願の実施例に提供される画像および画像に関連する質問のいくつかの実施例の模式図である。図２を参照すると、例えば、該質問は、画像２１１０に関連する質問２１２０「皿に何がありますか？」、画像２２１０に関連する質問２２２０「これはどんなスポーツですか？」、画像２３１０に関連する質問２３２０「今日は晴れですか？」などである。深層学習ネットワーク（ＤｅｅｐＬｅａｒｎｉｎｇＮｅｔｗｏｒｋｓ）を用いて質問の質問特徴を抽出してもよい。該質問特徴は、質問のセマンティク表現（ＳｅｍａｎｔｉｃＲｅｐｒｅｓｅｎｔａｔｉｏｎ）を含み、例えば特徴ベクトルとして表してもよい。

画像のグローバル特徴は、例えば特徴ベクトルとして表してもよく、画像の全領域の内容のセマンティク表現を含む。該ステップでは、特徴を抽出しようとする画像の内容を限定せず、つまり、画像の前景内容（対象などを含んでもよい）と背景内容を区別しない。従って、画像のグローバル特徴は画像のグローバル視覚内容、および質問に応答するのに必要な、具体的な前景内容を保持できる。

画像内の対象を囲む検出ボックスの検出ボックス特徴の抽出は画像のグローバル特徴の抽出と異なり、まず画像の前景内容と背景内容を区別する必要がある。検出ボックスで画像中の前景内容、例えば、対象などをラベル付けしてもよい。検出ボックスは、例えば矩形形状を有し、かつ画像内の対象を囲んでいてもよい。検出ボックス特徴を抽出する時、検出ボックス内の画像特徴のみを抽出する。検出ボックス特徴は、例えば特徴ベクトルとして表してもよく、検出ボックス内の内容のセマンティク表現を含む。従って、検出ボックス特徴は大量の背景情報をフィルタして取り除き、それにより前景内容に関連する質問をより効率的に、より正確に予測することができる。

任意選択的な一例では、該ステップＳ１０１０はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される特徴抽出器２１００によって実行してもよい。

ステップＳ１０２０で、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の複数の領域の各々の第一重みおよび画像の複数の検出ボックスの各々の第二重みを取得する。該ステップは視覚注意力メカニズムを導入する。視覚注意力メカニズムは質問と画像を初歩的に関連付け、それにより画像の異なる部位に異なる注意力重みを設定することができる。注意力重みは該部位と質問との関連度を反映する。視覚注意力メカニズムの導入によって、質問に密接に関連する画像部位に効率的に注意を向け、それにより予測効率および精度を向上させることができる。

本願の実施例は二分岐による視覚注意力メカニズムを導入する。第一分岐において、視覚注意力メカニズムは画像の自然分割領域に基づいて導入される。画像の自然分割領域とは、画像の前景内容と背景内容を区別せず、自然の位置関係に基づいて画像を一つ以上の領域に分割したものである。例えば、図２に示すように、画像２４１０も画像２５１０も同じ画像内容を含み、同一の関連質問２４２０「この男性は何を注いでいますか？」を有する。ここで、画像２４１０はその横縦座標に基づいてＮ×Ｎ個の領域２４１１に分割され、Ｎは１以上の整数である。例えば、図２に示す例では、画像２４１０は５×５個の領域に分割される。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのＮ×Ｎ個の領域とそれぞれ初歩的に関連付け、それによりこのＮ×Ｎ個の領域の各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の自然分割領域に基づいて視覚注意力メカニズムを導入することで、画像の複数の領域の各々の第一重みを取得できる。

画像の自然分割領域に基づいて視覚注意力メカニズムを導入すれば、画像のグローバル視覚内容がより高い程度で保持され、特に背景内容が効果的に保持されるという利点がある。例えば、図２に示す画像２３１０に関連する質問２３２０「今日は晴れですか？」に応答する時、質問は実際に画像２３１０の背景内容（空）に関連するため、画像の自然分割領域に基づいて視覚注意力メカニズムを導入すればこの種類の質問の回答をより効率的に予測できる。

第二分岐において、視覚注意力メカニズムは画像の検出ボックスに基づいて導入される。画像の検出ボックスは、一つ以上の対象を含んでもよい画像の前景内容（例えば、対象）を認識しかつそれを囲む。従って、画像において一つ以上の検出ボックスを生成できる。例えば、図２に示すように、画像２５１０においてＭ個の検出ボックス２５１１が生成されており、Ｍは１以上の整数である。例えば、図２に示す例では、画像２５１０において４個の検出ボックスが生成されている。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは質問を画像のこのＭ個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのＭ個の検出ボックスの各々と質問との関連度を得る。このような関連度は重みの形式であってもよい。即ち、画像の検出ボックスに基づいて視覚注意力メカニズムを導入することで、画像の複数の検出ボックスの各々の第二重みを取得できる。

画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば、画像の前景内容により多くの注意が向けられ、それにより前景内容に関連する質問により効率的に、正確に応答できる。例えば、図２に示す画像２１１０に関連する質問２１２０「皿に何がありますか？」および画像２２１０に関連する質問２２２０「これはどんなスポーツですか？」に応答する時、画像検出ボックスに基づいて視覚注意力メカニズムを導入すれば画像２１１０および画像２２１０中の背景情報を無視でき、同時に皿を囲む検出ボックスおよびラケットを囲む検出ボックスにより大きい重みを割り当て、さらにこの種類の質問の回答をより効率的に、正確に予測することができる。

任意選択的な一例では、該ステップＳ１０２０はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される重み計算器２２００によって実行してもよい。

ステップＳ１０３０で、第一重みによりグローバル特徴に対して重み付け和を求め、画像の領域注意力特徴を得る。画像がその横縦座標に基づいてＮ×Ｎ個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴ベクトルはＮ×Ｎ個の領域特徴ベクトルで連結されてなってもよい。ステップＳ１０２０では、このＮ×Ｎ個の領域の各々の第一重みが得られる。従って、このＮ×Ｎ個の第一重みによりこのＮ×Ｎ個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。

任意選択的な一例では、該ステップＳ１０３０はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される領域注意力抽出器２３００によって実行してもよい。

ステップＳ１０４０で、第二重みにより検出ボックス特徴に対して重み付け和を求め、画像の検出ボックス注意力特徴を得る。検出ボックス特徴は画像の複数の検出ボックスに関連する複数の検出ボックス副特徴を含んでもよい。例えば、検出ボックス特徴ベクトルはＭ個の検出ボックス副特徴ベクトルで連結されてなってもよい。ステップＳ１０２０では、このＭ個の検出ボックスの各々の第二重みが得られる。従って、このＭ個の第二重みによりこのＭ個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは、例えばベクトルの形式で表してもよい。

任意選択的な一例では、該ステップＳ１０４０はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される検出ボックス注意力抽出器２４００によって実行してもよい。

なお、上記ステップＳ１０３０とステップＳ１０４０間の順序は交換してもよく、つまり、先にステップＳ１０４０を実行してからステップＳ１０３０を実行してもよいことに注意すべきである。

ステップＳ１０５０で、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する。質問特徴、領域注意力特徴および検出ボックス注意力特徴を得ると、質問特徴と領域注意力特徴およびその検出ボックス注意力特徴との関係への学習を両立させることができる。このような予測プロセスは多分類タスクとして処理してもよい。例えば、分類器で学習の結果を分類し、複数の回答候補のスコアに基づいて質問の回答を予測してもよい。本願の技術的解決手段によれば、二分岐による視覚注意力メカニズムの導入によって、様々なＶＱＡシーンにおいても効率的かつ正確な回答予測を実現できる。

任意選択的な一例では、該ステップＳ１０５０はプロセッサによってメモリに記憶された対応する命令を呼び出して実行してもよいし、プロセッサにより動作される予測器２５００によって実行してもよい。

本願の任意選択的な一実施例では、質問特徴を抽出するステップは、リカレントニューラルネットワークを利用して質問を構成する単語の文脈の特徴を抽出し、質問特徴を得ることを含んでもよい。いずれかの上記の実施例のように、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）などを含むがこれらに限定されない様々な深層学習ネットワークを用いて質問の質問特徴を抽出してもよい。一般的に定義されたＣＮＮとは異なり、ＲＮＮは前の時点の出力情報を次の時点の入力情報の一つとすることができるため、過去情報への学習能力を有する。

いずれかの上記の実施例のように、質問は一般的に自然言語からなる疑問文である。このような語句は複数の単語を含み、単語同士は互いに文脈的に繋がりがある。例えば、「食卓に置かれたのはリンゴですか、それとも梨ですか？」のような質問を解析する時、単語「食卓」のセマンティクス特徴を抽出した後、後文で食品に関連する単語が現れる確率が大きいと予測可能である。従って、質問特徴の抽出プロセスに、過去情報への学習能力を有するＲＮＮを導入することは有益である。

ＲＮＮは、長短期記憶ユニット（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）およびゲート付き回帰型ユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、ＧＲＵ）など様々なバリエーションを含んでもよい。ＲＮＮにより質問の特徴を抽出する場合、まず質問を構成する単語を順にワンホット（Ｏｎｅ−Ｈｏｔ）コードとしてコーディングしてもよい。ワンホットコードのコーディングは、このようなコーディング方式であり、即ち、システムに含まれる状態の数の分だけ、当該コーディングがビット数を有する。これらのビットのうち、一つだけが１であり、残りは全て０である。例えば、システムは５０００個の単語（即ち、５０００種類の可能な状態）を選び出した場合、ワンホットコードは５０００個のビットを有する。このとき、ワンホットコードは一つのベクトルと見なしてもよく、その要素それぞれは０または１のみに限定される。入力される単語に対応する要素だけは、そのビットが１であり、残りは全て０である。実際の応用では、選び出されていない単語を表すための少なくとも一つのビットをシステム用としてリザーブしてもよい。ワンホットコードのコーディング方式は、テキスト文字のデジタル化データへの変換を実現できる。続いて、ワンホットコードに基づいて質問のセマンティクス特徴を抽出してもよい。例えば、現在時刻のワンホットコード入力、および前の出力に基づくワンホットコード特徴抽出結果を共にＲＮＮに入力する。ＲＮＮは過去情報を考慮する上で、共に入力される内容をコーディングし、これにより現在単語のセマンティクス特徴を抽出することができる。

本願の任意選択的な一実施例では、グローバル特徴を抽出するステップは、ＣＮＮにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出することを含んでもよい。画像のグローバル特徴抽出に適用可能なＣＮＮの例はＲｅｓＮｅｔネットワークまたはＶＧＧ−１６ネットワークを含んでもよいが、これらに限定されない。ＣＮＮは画像認識タスクの応用シーンについて、例えばＩｍａｇｅＮｅｔのような、適当な訓練サンプル集合で予備訓練されてもよい。入力される画像はまず、使用されるＣＮＮに適するサイズ（例えば、画素数）に調整し、続いてＣＮＮに入力するようにされてもよい。ＣＮＮは、それぞれが画像との畳み込み動作を経た後に一つの特徴チャネル出力を得る複数の畳み込みカーネルを含んでもよい。ＣＮＮの畳み込みカーネルの数（または特徴チャネルの数）は画像認識タスクの応用シーンによって設定してもよい。いずれかの上記の実施例のように、画像がその横縦座標に基づいてＮ×Ｎ個の領域に分割された場合、グローバル特徴は画像の複数の領域に関連する複数の領域特徴を含んでもよい。例えば、グローバル特徴は、ベクトル形式で表してもよく、グローバル特徴ベクトルはＮ×Ｎ個の領域特徴ベクトルで連結されてなってもよい。

図３は本願の実施例に提供される検出ボックス特徴抽出方法の一例のフローチャートである。図３を参照すると、本願の一実施例では、検出ボックス特徴を抽出するステップは、ステップＳ１０３１で、高速な領域畳み込みニューラルネットワーク（Ｆａｓｔｅｒ−ＲｅｇｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、Ｆａｓｔｅｒ−ＲＣＮＮ）により画像内の対象を囲む複数の検出ボックスを得ることと、ステップＳ１０３２で、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、ステップＳ１０３３で、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、ステップＳ１０３４で、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得ることと、を含んでもよい。

本願の実施例では、まず画像の対象と背景を区別する必要がある。これは対象認識技術に関わる。Ｆａｓｔｅｒ−ＲＣＮＮは高効率な対象認識ネットワークである。領域畳み込みニューラルネットワーク（ＲＣＮＮ）および高速領域畳み込みニューラルネットワーク（Ｆａｓｔ−ＲＣＮＮ）とは異なり、Ｆａｓｔｅｒ−ＲＣＮＮは検出ボックス候補（ＲｅｇｉｏｎＰｒｏｐｏｓａｌ）を自動的に生成できる。

検出ボックス候補を生成した後、Ｆａｓｔｅｒ−ＲＣＮＮは検出ボックス候補中の画像特徴を認識し、それにより検出ボックス候補に囲まれるのは対象であるか、それとも背景であるかを判断することができる。検出ボックス候補に対象の一部または全てが囲まれた場合、Ｆａｓｔｅｒ−ＲＣＮＮは検出ボックス候補のサイズおよび位置をさらに補正し、それにより適当なサイズで画像内の対象を完全に囲ませることができる。

実際の応用では、画像における複数の対象を囲むために、複数の検出ボックスを生成してもよい。例えば、

個の対象を囲むために、

個の検出ボックスを生成してもよい。この

個の検出ボックスにはいずれもそれらに囲まれる対象の、その背景との差異度を反映するスコア値がマッピングされている。スコア値が低ければ低いほど、対象と背景との近似度が高くなる。本実施例では、スコア値に基づいて高い順にこの

個の検出ボックスからＭ個の検出ボックスを選択して後続の特徴抽出を行ってもよく、ここで、Ｍ≦

である。選択された一部の検出ボックスから検出ボックス副特徴を抽出する。最後に、抽出された検出ボックス副特徴を検出ボックス特徴として合成する。上記のように検出ボックス特徴を抽出すれば、検出ボックスを自律的に生成し、それにより人間の介入を低減することができる。また、背景との差が大きい一部の検出ボックスを選択することで、高品質の対象情報をできる限り抽出し、それにより前景内容に関連するＶＱＡタスクに高適性の画像解析結果を提供することができる。

図４は本願の実施例に提供される第一重み取得方法の一例のフローチャートである。図４を参照すると、本願の任意選択的な一実施例では、第一重みを取得するステップＳ１０４０−１は、ステップＳ１０４１で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップＳ１０４２で、次元統一された検出ボックス特徴を少なくとも一つの検出ボックス副特徴の数に基づいて平均化することと、ステップＳ１０４３で、次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得することと、を含んでもよい。

質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の自然分割領域に基づいて視覚注意力メカニズムを導入してもよい。画像はその横縦座標に基づいてＮ×Ｎ個の領域に分割されてもよい。画像の自然分割領域に基づいて導入される視覚注意力メカニズムは質問を画像のこのＮ×Ｎ個の領域とそれぞれ初歩的に関連付け、それによりこのＮ×Ｎ個の領域の各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像からＭ個の検出ボックスを選択して後続の特徴抽出を行ってもよく、抽出される特徴は連結されて検出ボックス特徴を構成する。このＭ個の検出ボックスから抽出される特徴は検出ボックス特徴を構成するＭ個の検出ボックス副特徴である。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表すことができる。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、画像のグローバル視覚内容をより効率的に学習および理解するために、検出ボックス副特徴の数Ｍに基づいて検出ボックス特徴を平均化してもよい。

任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式（１）で表してもよい。

、

式（１）

式（１）中、Ｑは質問特徴ベクトルであり、Ｒはグローバル特徴ベクトルであり、Ｄは検出ボックス特徴ベクトルであり、

は次元統一された質問特徴であり、

は次元統一されかつ平均化された検出ボックス特徴であり、

は次元統一されたグローバル特徴である。

それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルＱ、グローバル特徴ベクトルＲおよび検出ボックス特徴Ｄの次元を統一できる。Ｍは検出ボックス副特徴の数を表し、ｔａｎｈ（）は双曲線正接関数であり、１は全１ベクトルを表す。

最後に、次元統一された質問特徴

、次元統一されたグローバル特徴

および次元統一されかつ平均化された検出ボックス特徴

に基づいて第一重みを取得できる。例えば、次元統一された質問特徴

、次元統一されたグローバル特徴

および次元統一されかつ平均化された検出ボックス特徴

を１要素ずつに加算または乗算してもよい。任意選択的な一実施例では、例えばアダマール積（ＨａｄａｍａｒｄＰｒｏｄｕｃｔ）を計算するように、乗算の方式を採用する。該実施例では、次元統一された質問特徴

、次元統一されたグローバル特徴

および次元統一されかつ平均化された検出ボックス特徴

を乗算することで第一重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にＬ２ノルム正則化を行ってもよい。

例えば、上記動作は下式（２）で表してもよい。

式（２）

式（２）中、

は、次元統一された質問特徴

と、次元統一されたグローバル特徴

と、次元統一されかつ平均化された検出ボックス特徴

とのジョイント特徴表現を表し、

はＬ２ノルム正則化を表し、

はアダマール積を表す。

は画像の複数の領域の重み情報を含むベクトル形式の第一重みと見なしてもよい。実際の動作では、該ジョイント特徴表現

をさらに畳み込んでＳｏｆｔｍａｘ関数を利用して活性化してもよい。

例えば、上記動作は下式（３）で表してもよい。

式（３）

式（３）中、

はスカラー形式の第一重みであり、

は機械学習によって更新可能なネットワークパラメータである。

図５は本願の実施例に提供される第二重み取得方法の一例のフローチャートである。図５を参照すると、本願の一実施例では、第二重みを取得するステップＳ１０４０−２は、ステップＳ１０４４で、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一することと、ステップＳ１０４５で、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化することと、ステップＳ１０４６で、次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得することと、を含んでもよい。

質問特徴、グローバル特徴および検出ボックス特徴を取得した後、画像の検出ボックスに基づいて視覚注意力メカニズムを導入してもよい。画像においてＭ個の検出ボックスが生成された場合、検出ボックス特徴は画像のＭ個の検出ボックスに関連するＭ個の検出ボックス副特徴を含んでもよい。画像の検出ボックスに基づいて導入される視覚注意力メカニズムは、質問を画像のこのＭ個の検出ボックスとそれぞれ初歩的に関連付け、それによりこのＭ個の検出ボックスの各々と質問との関連度を得る。任意選択的に、いずれかの上記の実施例のように、画像はＮ×Ｎ個の領域を含むことが可能である。このＮ×Ｎ個の領域の特徴ベクトルを抽出し、画像のこのＮ×Ｎ個の領域に関連するＮ×Ｎ個の領域特徴を得る。いずれかの上記の実施例のように、質問特徴、グローバル特徴および検出ボックス特徴はいずれもベクトル形式で表してもよい。従って、後続の動作を容易にするために、この三つのベクトルの次元を統一してもよい。本実施例では、次元統一されたグローバル特徴を複数の領域特徴の数Ｎ×Ｎに基づいて平均化してもよい。

任意選択的に、上記平均化プロセスおよび次元統一プロセスは下式（４）で表してもよい。

、

式（４）

式（４）中、Ｑは質問特徴ベクトルであり、Ｒはグローバル特徴ベクトルであり、Ｄは検出ボックス特徴ベクトルである。

は次元統一された質問特徴であり、

は次元統一された検出ボックス特徴であり、

は次元統一されかつ平均化されたグローバル特徴である。

それぞれは機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴ベクトルＱ、グローバル特徴ベクトルＲおよび検出ボックス特徴ベクトルＤの次元を統一できる。Ｎ×Ｎは画像領域の数を表し、ｔａｎｈ（）は双曲線正接関数であり、１は全１ベクトルを表す。

最後に、次元統一された質問特徴

、次元統一された検出ボックス特徴

および次元統一されかつ平均化されたグローバル特徴

に基づいて第二重みを取得できる。例えば、次元統一された質問特徴

、次元統一された検出ボックス特徴

および次元統一されかつ平均化されたグローバル特徴

を１要素ずつに加算または乗算してもよい。一実施例では、例えばアダマール積（ＨａｄａｍａｒｄＰｒｏｄｕｃｔ）を計算するように、乗算の形式を採用する。該実施例では、次元統一された質問特徴

、次元統一された検出ボックス特徴

および次元統一されかつ平均化されたグローバル特徴

を乗算することで第二重みを取得すれば、より正確な重み情報を得ることができる。任意選択的な動作では、ベクトルの大きさを制限するよう、乗算後にＬ２ノルム正則化を行ってもよい。

例えば、上記動作は下式（５）で表してもよい。

式（５）

式（５）中、

は、次元統一された質問特徴

と、次元統一されかつ平均化されたグローバル特徴

と、次元統一された検出ボックス特徴

とのジョイント特徴表現を表し、

はＬ２ノルム正則化を表し、

はアダマール積を表す。

は画像の少なくとも一つの検出ボックスの重み情報を含むベクトル形式の第二重みと見なしてもよい。実際の動作では、該ジョイント特徴表現

をさらに畳み込んでＳｏｆｔｍａｘを利用して活性化してもよい。

例えば、上記動作は下式（６）で表してもよい。

式（６）

式（６）中、

はスカラー形式の第二重みであり、

は利機械学習によって更新可能なネットワークパラメータである。

本願の任意選択的な一実施例では、上記実施例の方法に基づいて第一重み

および第二重み

を得た場合、任意選択的に、図１を参照しながら説明したステップＳ１０５０およびステップＳ１０６０は下式（７）および式（８）でそれぞれ表してもよい。

式（７）

式（７）中、Ｎ×Ｎ個の第一重み

を利用してＮ×Ｎ個の領域特徴ベクトルに対して重み付け和を求め、それによって画像の領域注意力特徴を得ることができ、それは、例えばベクトル形式

で表すことが可能である。

式（８）

式（８）中、Ｍ個の第二重み

を利用してＭ個の検出ボックス副特徴ベクトルに対して重み付け和を求め、それによって画像の検出ボックス注意力特徴を得ることができ、それは例えばベクトル形式

で表すことができる。

図６は本願の実施例に提供される質問回答予測方法の一例のフローチャートである。図６を参照すると、本願の一実施例では、質問回答を予測するステップは、ステップＳ１０７１で、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得ることと、ステップＳ１０７２で、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、ステップＳ１０７３で、第一質問予測回答および第二質問予測回答を分類することによって、質問の回答を予測することと、を含んでもよい。

本願の実施例では、質問予測を多目的分類タスクとして処理してもよい。例えば、質問特徴をさらに学習し、さらに学習した質問特徴を領域注意力特徴と乗算し、それにより第一質問予測を得るようにしてもよい。同様に、質問特徴をさらに学習し、さらに学習した質問特徴を検出ボックス注意力特徴と乗算し、それにより第二質問予測を得るようにしてもよい。

任意選択的に、上記動作は下式（９）で表してもよい。

式（９）

ここで、

は第一質問予測回答であり、

は第二質問予測回答である。

、

は機械学習によって更新可能なネットワークパラメータであり、かつ質問特徴をさらに学習し、それにより表す能力を増強することができる。第一質問予測回答

はグローバル視覚内容に関連する質問により正確に応答でき、第二質問予測回答

は前景内容に関連する質問により正確に応答できる。

最後に、第一質問予測回答

と第二質問予測回答

とを加算し、両者の和を線形分類し、それにより質問の回答を最終的に予測する。例えば、第一質問予測回答

と第二質問予測回答

の和に対して線形変換を行い、Ｓｏｆｔｍａｘ関数を利用して最終的な質問回答を予測するようにしてもよい。

例えば、上記動作は下式（１０）で表してもよい。

式（１０）

ここで、

は予測される質問回答の確率を表すものであり、

は機械学習によって更新可能なネットワークパラメータである。例えば、

の値が最も大きい回答を最終の質問回答として選択してもよい。または、例えば、

の値を降順に並び替え、それにより

の値が最も高い複数の回答をユーザの選択のための回答候補として選択してもよい。本実施例によれば、第一質問予測回答と第二質問予測回答はそのプロセスが相対的に独立して行われるので、画像から異なるタイプの情報をできる限りキャプチャでき、一方、この二つの分岐での予測を組み合わせることで、様々なＶＱＡシーンに効果的に適応できる。

本願の上記実施例で言及された特徴ベクトルの融合動作は、例えば加算および乗算など様々な方式を採用できる。任意選択的に、本願の例示的実施例ではアダマール積を採用する。本願の各実施例では、特徴ベクトルの次元は全て一致するため、アダマール積を採用することがより望ましい。また、アダマール積を採用すれば、計算量を低減し、それにより方法の実行効率を向上させることができる。

当業者であれば、上記各ネットワークは訓練されていなければ適用できないことを理解可能である。通常の逆伝播（Ｂａｃｋ−Ｐｒｏｐａｇａｔｉｏｎ、ＢＰ）方法および／または通時的逆伝播（Ｂａｃｋ−ＰｒｏｐａｇａｔｉｏｎＴｈｒｏｕｇｈＴｉｍｅ、ＢＰＴＴ）方法を利用して訓練を完了してもよい。当業者は本願の開示内容に基づいてこれらの訓練方法を得ることができるので、本明細書では説明を省略する。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了でき、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行するということを理解できる。

図７は本願の実施例に提供される画像質問応答装置２０００の一実施例の構成模式図である。該実施例の装置は本願の上記各方法の実施例を実現するために用いることができる。図７に示すように、該実施例の装置は、質問のセマンティクスを表す質問特徴、画像のグローバル特徴および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する特徴抽出器２１００と、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器２２００と、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得る領域注意力抽出器２３００と、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器２４００と、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測する予測器２５００と、を含む画像質問応答装置２０００を含む。

特徴抽出器２１００にリカレントニューラルネットワークが設定されることが可能であり、特徴抽出器２１００は、リカレントニューラルネットワークにより質問を構成する単語の文脈に基づいて特徴を抽出し、質問特徴を得ることができる。

特徴抽出器２１００に畳み込みニューラルネットワークが設定されることが可能であり、特徴抽出器２１００は、畳み込みニューラルネットワークにより、画像の複数の領域に関連する複数の領域特徴を含むグローバル特徴を抽出できる。

特徴抽出器２１００は、画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、複数の検出ボックスに囲まれる対象と画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、少なくとも一つの検出ボックス副特徴に基づいて検出ボックス特徴を得る特徴合成器と、を含んでもよい。

重み計算器２２００は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第一次元統一器と、次元統一された検出ボックス特徴を少なくとも一つの検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、次元統一された質問特徴、次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて第一重みを取得する第一重み取得器と、を含んでもよい。

重み計算器２２００は、質問特徴、グローバル特徴および検出ボックス特徴の次元を統一する第二次元統一器と、次元統一されたグローバル特徴を複数の領域特徴の数に基づいて平均化する領域平均化器と、次元統一された質問特徴、次元統一された検出ボックス特徴および次元統一されかつ平均化されたグローバル特徴に基づいて第二重みを取得する第二重み取得器と、を含んでもよい。

予測器２５００は、質問特徴と領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、質問特徴と検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、第一質問予測回答および第二質問予測回答を分類することによって、予測される質問の回答を得るデュアルモード分析器と、を含んでもよい。

本願の実施例の別の態様によれば、いずれかの上記の実施例に提供される画像質問応答装置を含むプロセッサを含む電子機器が提供される。

本願の実施例のさらに別の態様によれば、実行可能命令を記憶するためのメモリと、
メモリと通信して該実行可能命令を実行することでいずれかの上記の実施例に提供される画像質問応答方法の動作を完了するためのプロセッサと、を含む電子機器が提供される。

本願の実施例のさらに別の態様によれば、コンピュータ可読命令を記憶するためのコンピュータ記憶媒体であって、該命令は実行される時にいずれかの上記の実施例に提供される画像質問応答方法の動作を実行するコンピュータ記憶媒体が提供される。

本願の各実施例におけるニューラルネットワークそれぞれは、例えば多層畳み込みニューラルネットワークのような多層ニューラルネットワーク（即ち、深層ニューラルネットワーク）であってもよく、例えばＬｅＮｅｔ、ＡｌｅｘＮｅｔ、ＧｏｏｇＬｅＮｅｔ、ＶＧＧ、ＲｅｓＮｅｔなどのような任意のニューラルネットワークモデルであってもよい。各ニューラルネットワークは同じタイプおよび構造のニューラルネットワークを採用してもよく、異なるタイプおよび構造のニューラルネットワークを採用してもよい。本願の実施例はこれを限定しない。

本願の実施例は電子機器をさらに提供し、例えば移動端末、パーソナルコンピュータ（ＰＣ）、タブレット、サーバなどであってもよい。以下に図８を参照すると、本願の実施例の端末機器またはサーバの実現に適する電子機器８００の構成模式図が示される。図８に示すように、コンピュータシステム８００は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置（ＣＰＵ）８０１、および／または一つ以上の画像処理装置（ＧＰＵ）８１３などであり、プロセッサは読み取り専用メモリ（ＲＯＭ）８０２に記憶されている実行可能命令または記憶部８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部８１２はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されない。

プロセッサは読み取り専用メモリ８０２および／またはランダムアクセスメモリ８０３と通信して実行可能命令を実行し、バス８０４を介して通信部８１２と接続し、通信部８１２によって他の目標機器と通信し、それにより本願の実施例に提供されるいずれか一項の方法の対応する動作、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を完了することができる。

また、ＲＡＭ８０３には、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。ＣＰＵ８０１、ＲＯＭ８０２およびＲＡＭ８０３はバス８０４を介して互いに接続される。ＲＡＭ８０３が存在する場合、ＲＯＭ８０２は任意選択的なモジュールとなる。ＲＡＭ８０３は実行可能命令を記憶するか、または動作時にＲＯＭ８０２へ実行可能命令を書き込み、実行可能命令によってＣＰＵ８０１は上記通信方法の対応する動作を実行する。入力／出力（Ｉ／Ｏ）インタフェース８０５もバス８０４に接続される。通信部８１２は統合設置してもよいし、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつバスリンクに存在する。

キーボード、マウスなどを含む入力部８０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカーなどを含む出力部８０７、ハードディスクなどを含む記憶部８０８、およびＬＡＮカード、モデムのネットワークインタフェースカードなどを含む通信部分８０９といった部品は、Ｉ／Ｏインタフェース８０５に接続される。通信部分８０９はインタネットのようなネットワークによって通信処理を実行する。ドライバ８１０も必要に応じてＩ／Ｏインタフェース８０５に接続される。取り外し可能な媒体８１１、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバ８１０に取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部８０８にインストールされる。

なお、図８に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図８の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵ８１３とＣＰＵ８０１は分離設置するかまたはＧＰＵ８１３をＣＰＵ８０１に統合するようにしてもよく、通信部は分離設置するか、またＣＰＵ８０１やＧＰＵ８１３に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願が開示した保護範囲に属する。

特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現可能である。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例に提供される方法のステップを対応して実行する対応の命令、例えば、質問のセマンティクスを表す質問特徴、画像のグローバル特徴、および画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出することと、質問特徴、グローバル特徴および検出ボックス特徴に基づいて、画像の少なくとも一つの領域の各々の第一重みおよび画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、第一重みによりグローバル特徴を重み付けし、画像の領域注意力特徴を得ることと、第二重みにより検出ボックス特徴を重み付けし、画像の検出ボックス注意力特徴を得ることと、質問特徴、領域注意力特徴および検出ボックス注意力特徴に基づいて質問の回答を予測することと、を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分８０９によってネットワークからダウンロードおよびインストールされ、および／または取り外し可能な媒体８１１からインストールされ得る。該コンピュータプログラムは中央処理装置（ＣＰＵ）８０１により実行される時、本願の方法で限定された上記機能を実行する。

本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。

本願の方法および装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本願の方法および装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に特記されない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読命令を含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。

本願の説明は、例示および説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正および変形を加えることができるのは明らかであろう。実施例は本願の原理および実際の適用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。

Claims

画像質問応答方法であって、
質問のセマンティクスを表す質問特徴を抽出することと、
画像の前景内容と背景内容を区別しないように前記画像を一つ以上の領域に分割し、前記一つ以上の領域に対して、前記画像のグローバル特徴を抽出することと、
前記画像内の対象を囲んで識別することができるように前記画像において検出ボックスを生成し、前記検出ボックスの検出ボックス特徴を抽出することであって、前記対象は前記画像の前景内容である、ことと、
前記質問特徴、及び前記グローバル特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みを取得することと、
前記質問特徴、及び前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得することと、
前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得ることと、
前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得ることと、
前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測することと、を含み、
前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測するステップは、
前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得ることと、
前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得ることと、
前記第一質問予測回答および前記第二質問予測回答を加算して和を求め、前記和を線形分類することによって、前記質問の回答を得ることと、を含むことを特徴とする画像質問応答方法。
質問のセマンティクスを表す質問特徴を抽出する前記ステップは、
リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを含むことを特徴とする請求項１に記載の画像質問応答方法。
画像のグローバル特徴を抽出する前記ステップは、
畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを含むことを特徴とする請求項１または２に記載の画像質問応答方法。
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の前記第二重みを取得する前記ステップは、
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、
前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化することと、
前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得することと、を含むことを特徴とする請求項３に記載の画像質問応答方法。
前記画像内の対象を囲む検出ボックスの検出ボックス特徴を抽出する前記ステップは、
高速な領域畳み込みニューラルネットワークにより、前記画像内の対象を囲む複数の検出ボックスを取得することと、
前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定することと、
前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得ることと、
前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得ることと、を含むことを特徴とする請求項１から４のいずれか一項に記載の画像質問応答方法。
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みを取得する前記ステップは、
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一することと、
前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化することと、
前記次元統一された質問特徴、前記次元統一されたグローバル特徴および次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得することと、を含むことを特徴とする請求項５に記載の画像質問応答方法。
画像質問応答装置であって、
質問のセマンティクスを表す質問特徴を抽出し、画像の前景内容と背景内容を区別しないように前記画像を一つ以上の領域に分割し、前記一つ以上の領域に対して、前記画像のグローバル特徴を抽出し、前記画像内の対象を囲んで識別することができるように前記画像において検出ボックスを生成し、前記検出ボックスの検出ボックス特徴を抽出する特徴抽出器であって、前記対象は前記画像の前景内容である、特徴抽出器と、
前記質問特徴、及び前記グローバル特徴に基づいて、前記画像の少なくとも一つの領域の各々の第一重みを取得し、前記質問特徴、及び前記検出ボックス特徴に基づいて、前記画像の少なくとも一つの検出ボックスの各々の第二重みを取得する重み計算器と、
前記第一重みにより前記グローバル特徴を重み付けし、前記画像の領域注意力特徴を得る領域注意力抽出器と、
前記第二重みにより前記検出ボックス特徴を重み付けし、前記画像の検出ボックス注意力特徴を得る検出ボックス注意力抽出器と、
前記質問特徴、前記領域注意力特徴および前記検出ボックス注意力特徴に基づいて前記質問の回答を予測する予測器と、を含み、
前記予測器は、
前記質問特徴と前記領域注意力特徴とを融合し、第一質問予測回答を得る領域予測器と、
前記質問特徴と前記検出ボックス注意力特徴とを融合し、第二質問予測回答を得る検出ボックス予測器と、
前記第一質問予測回答および前記第二質問予測回答を加算して和を求め、前記和を線形分類することによって、前記質問の回答を得るデュアルモード分析器と、を含むことを特徴とする画像質問応答装置。
前記特徴抽出器にリカレントニューラルネットワークが設定されており、前記特徴抽出器は、前記リカレントニューラルネットワークを利用して前記質問を構成する単語の文脈の特徴を抽出し、前記質問特徴を得ることを特徴とする請求項７に記載の画像質問応答装置。
前記特徴抽出器に畳み込みニューラルネットワークが設定されており、前記特徴抽出器は、前記畳み込みニューラルネットワークにより、前記画像の複数の領域に関連する複数の領域特徴を含む前記グローバル特徴を抽出することを特徴とする請求項７または８に記載の画像質問応答装置。
前記重み計算器は、
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第二次元統一器と、
前記次元統一されたグローバル特徴を前記複数の領域特徴の数に基づいて平均化する領域平均化器と、
前記次元統一された質問特徴、前記次元統一された検出ボックス特徴および前記次元統一されかつ平均化されたグローバル特徴に基づいて前記第二重みを取得する第二重み取得器と、を含むことを特徴とする請求項９に記載の画像質問応答装置。
前記特徴抽出器は、
前記画像内の対象を囲む複数の検出ボックスを得るための高速な領域畳み込みニューラルネットワークが設定された検出ボックス生成器と、
前記複数の検出ボックスに囲まれる対象と前記画像の背景との差異に基づいて少なくとも一つの検出ボックスを特定する検出ボックス選択器と、
前記少なくとも一つの検出ボックスに基づいて少なくとも一つの検出ボックス副特徴を抽出して得る検出ボックス副特徴抽出器と、
前記少なくとも一つの検出ボックス副特徴に基づいて前記検出ボックス特徴を得る特徴合成器と、を含むことを特徴とする請求項７から１０のいずれか一項に記載の画像質問応答装置。
前記重み計算器は、
前記質問特徴、前記グローバル特徴および前記検出ボックス特徴の次元を統一する第一次元統一器と、
前記次元統一された検出ボックス特徴を前記少なくとも一つの検出ボックス副特徴の数に基づいて平均化する検出ボックス平均化器と、
前記次元統一された質問特徴、前記次元統一されたグローバル特徴および前記次元統一されかつ平均化された検出ボックス特徴に基づいて前記第一重みを取得する第一重み取得器と、を含むことを特徴とする請求項１１に記載の画像質問応答装置。
画像質問応答システムであって、
実行可能命令を記憶するメモリと、
前記メモリと通信して実行可能命令を実行することで請求項１から６のいずれか一項に記載の画像質問応答方法の対応する動作を完了する一つ以上のプロセッサと、を含むことを特徴とする画像質問応答システム。
請求項７から１２のいずれか一項に記載の画像質問応答装置を含むプロセッサを含むことを特徴とする電子機器。
実行可能命令を記憶するためのメモリと、
前記メモリと通信して前記実行可能命令を実行することで請求項１から６のいずれか一項に記載の画像質問応答方法を完了するためのプロセッサと、を含むことを特徴とする電子機器。
コンピュータ可読命令を記憶するためのコンピュータ可読記憶媒体であって、前記コンピュータ可読命令は実行される時に、コンピュータに、請求項１から６のいずれか一項に記載の画像質問応答方法の対応する動作を実行させることを特徴とするコンピュータ可読記憶媒体。
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器において動作される時、前記機器内のプロセッサに、請求項１から６のいずれか一項に記載の画像質問応答方法を実現させることを特徴とするコンピュータプログラム。