JP7196218B2

JP7196218B2 - 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム

Info

Publication number: JP7196218B2
Application number: JP2021035343A
Authority: JP
Inventors: 夏孟欽; ▲ユウ▼林李; 群義謝; 聚黄; 鈞宇韓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2021-03-05
Publication date: 2022-12-26
Anticipated expiration: 2041-03-05
Also published as: US20210406468A1; EP3859560A3; JP2022013644A; EP3859560A2; KR20220002065A; US11768876B2; CN111782840A; CN111782840B

Description

本開示は、コンピュータ視覚、自然言語処理の分野に関し、より具体的には、画像質問応答方法、装置、コンピュータ装置および媒体に関する。

画像質問応答（ＶｉｓｕａｌＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ、ＶＱＡ）は、コンピュータ視覚と自然言語処理を関連付けることを目的とした非常に困難なタスクである。画像質問応答タスクでは、例えば、画像および関連質問が与えられ、機械が画像の内容に基づいて幾つかの常識と組み合わせて質問に対する解答を推論することが要求される。この画像質問応答タスクを完成するために、機械は、視覚及び言語という２つの異なるモダリティ（Ｍｏｄａｌｉｔｙ）でのデータを総合的に理解するように、クロスモーダル（Ｃｒｏｓｓ－Ｍｏｄａｌ）の理解能力を有していなければならない。画像質問応答タスクは他の単一モダリティでのタスク（例えば画像識別、ドキュメント分類等）よりも高い要求を有する。

本発明は、上記課題に鑑みてなされたものであり、画像質問応答方法、装置、コンピュータ装置及び媒体を提供している。

本開示の一態様は、画像質問応答方法を提供し、入力画像及び入力質問を取得することと、入力画像に基づいて、ノード特徴及びエッジ特徴を含む視覚図を構築することと、上記ノード特徴およびエッジ特徴に基づいて、ノード特徴を更新して、更新視覚図を取得することと、入力質問に基づいて質問特徴を決定することと、更新視覚図と質問特徴とを融合処理して融合特徴を取得することと、融合特徴に基づいて、入力画像及び入力質問に対する予測解答を生成することと、を含む。

本開示の実施例によれば、前記入力画像に基づいて視覚図を構築することは、目標検出ネットワークの中間層から入力画像における複数の目標対象に対する表現特徴および空間特徴を抽出するように、目標検出ネットワークによって入力画像を処理することと、上記表現特徴および空間特徴に基づいてノード特徴を決定することと、目標検出ネットワークの出力層により出力された処理結果に基づいて、複数の目標対象のそれぞれの位置情報を決定することと、複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の２つの目標対象間の位置関係を決定することと、任意の２つの目標対象間の位置関係に基づいてエッジ特徴を決定することと、ノード特徴およびエッジ特徴から視覚図を構成することと、を含む。

本開示の実施例によれば、前記複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の２つの目標対象間の位置関係を決定することは、任意の２つの目標対象のそれぞれの位置情報に基づいて、任意の２つの目標対象の位置領域間の積集合および和集合を計算することと、積集合と和集合の比率を計算することと、当該比率が所定の閾値よりも大きい場合、当該任意の２つの目標対象間の位置関係を１として表することと、当該比率が所定の閾値以下である場合には、当該任意の２つの目標対象間の位置関係を０と表すことと、を含む。

本開示の実施例によれば、ノード特徴およびエッジ特徴に基づいて、ノード特徴を更新することは、完全接続層と、第１の画像畳み込み層と、第２の画像畳み込み層を含む予定ニューラルネットワークによって、視覚図のノード特徴に対して、少なくとも１回の更新操作を実行することを含み、上記少なくとも１回の更新操作の各々の更新操作は、完全接続層によって、視覚図のノード特徴を、予定数に等しい空間次元数を有する第１の特徴にマッピングすることと、第１の画像畳み込み層によって、第１の特徴を処理し、第２の特徴を取得することと、第２の画像畳み込み層によって、第２の特徴を処理し、更新されたノード特徴を取得することと、更新されたノード特徴とエッジ特徴とから更新視覚図を構成することと、を含む。

本開示の実施例によれば、少なくとも１回の更新操作の各々の更新操作は、エッジ特徴に基づいてラプラス行列を構築することをさらに含む。第１の画像畳み込み層によって第１の特徴を処理することは、第１の画像畳み込み層によって、ラプラス行列に基づいて、第１の特徴を処理し、複数の第１のサブ特徴を含む第２の特徴を取得することを含む。

本開示の実施例によれば、予定ニューラルネットワークは関連層をさらに含む。少なくとも１回の更新操作の各々の更新操作は、関連層によって、複数の第１のサブ特徴のうちの任意の２つのサブ特徴間の関連関係を計算し、任意の２つのサブ特徴間の関連関係に基づいて、関係行列を決定することをさらに含む。第２の画像畳み込み層によって第２の特徴を処理することは、第２の画像畳み込み層によって、関係行列に基づいて、第２の特徴を処理し、更新されたノード特徴を取得することを含む。

本開示の実施例によれば、上記任意の２つの第１のサブ特徴間の関連関係は、当該任意の２つの第１のサブ特徴間のユークリッド距離、又は当該任意の２つの第１のサブ特徴間のコサイン類似度を含む。

本開示の実施例によれば、入力質問に基づいて質問特徴を決定することは、単語符号化アルゴリズム及び特徴符号化アルゴリズムによって、入力質問を順次符号化処理して質問特徴を取得することを含む。

本開示の実施例によれば、上記更新視覚図は、複数の第２のサブ特徴を含む更新されたノード特徴を含む。上記更新視覚図及び質問特徴を融合処理することは、アテンションメカニズムに基づいて、複数の第２のサブ特徴のそれぞれと質問特徴との間のアテンション重みを決定することと、複数の第２のサブ特徴のそれぞれと質問特徴との間のアテンション重みによって、複数の第２のサブ特徴を加重加算して、自己適応特徴を取得することと、自己適応特徴と質問特徴とを融合処理して融合特徴を取得することと、を含む。

本開示の実施例によれば、自己適応特徴および質問特徴を融合処理することは、自己適応特徴と質問特徴とを要素毎に内積演算操作して前記融合特徴を取得することを含む。

本開示の実施例によれば、融合特徴に基づいて入力画像及び入力質問に対する予測解答を生成することは、多層パーセプトロンによって融合特徴を処理し、融合特徴に対する予測解答を取得することを含む。

本開示の別の態様は、画像質問応答装置を提供し、取得モジュール、画像構築モジュール、更新モジュール、質問特徴抽出モジュール、融合モジュールおよび予測モジュールを含む。取得モジュールは、入力画像及び入力質問を取得する。画像構築モジュールは、入力画像に基づいて、ノード特徴及びエッジ特徴を含む視覚図を構築する。更新モジュールは、ノード特徴およびエッジ特徴に基づいて、ノード特徴を更新して、更新視覚図を取得する。質問特徴抽出モジュールは、入力質問に基づいて質問特徴を決定する。融合モジュールは、更新視覚図と質問特徴とを融合処理して融合特徴を取得する。予測モジュールは、融合特徴に基づいて、入力画像及び入力質問に対する予測解答を生成する。

本開示の実施例によれば、画像構築モジュールは、目標検出ネットワークの中間層から入力画像における複数の目標対象に対する表現特徴および空間特徴を抽出するように、目標検出ネットワークによって入力画像を処理する検出サブモジュールと、上記表現特徴および空間特徴に基づいてノード特徴を決定するノード特徴決定サブモジュールと、目標検出ネットワークの出力層により出力された処理結果に基づいて、複数の目標対象のそれぞれの位置情報を決定し、複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の２つの目標対象間の位置関係を決定し、任意の２つの目標対象間の位置関係に基づいてエッジ特徴を決定するエッジ特徴決定サブモジュールと、ノード特徴およびエッジ特徴から視覚図を構成する図面構築サブモジュールと、を含む。

本開示の実施例によれば、エッジ特徴決定サブモジュールが、前記複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の２つの目標対象間の位置関係を決定することは、エッジ特徴決定サブモジュールが、任意の２つの目標対象のそれぞれの位置情報に基づいて、当該任意の２つの目標対象の位置領域間の積集合および和集合を計算することと、積集合と和集合の比率を計算することと、当該比率が所定の閾値よりも大きい場合、当該任意の２つの目標対象間の位置関係を１として表することと、当該比率が所定の閾値以下である場合には、当該任意の２つの目標対象間の位置関係を０と表すことと、を含む。

本開示の実施例によれば、更新モジュールは、完全接続層と、第１の画像畳み込み層と、第２の画像畳み込み層とを含む予定ニューラルネットワークによって、視覚図のノード特徴に対して、少なくとも１回の更新操作を実行する。更新モジュールは、完全接続層によって、視覚図のノード特徴を、予定数に等しい空間次元数を有する第１の特徴にマッピングするマッピングサブモジュールと、第１の画像畳み込み層によって、第１の特徴を処理し、第２の特徴を取得する第１の画像畳み込みサブモジュールと、第２の画像畳み込み層によって、第２の特徴を処理し、更新されたノード特徴を取得する第２の画像畳み込みサブモジュールと、更新されたノード特徴とエッジ特徴とから更新視覚図を構成する更新サブモジュールと、を含む。

本開示の実施例によれば、更新モジュールは、エッジ特徴に基づいてラプラス行列を構築する第１の構築サブモジュールをさらに含む。第１の画像畳み込みモジュールは、第１の画像畳み込み層によって、ラプラス行列に基づいて、第１の特徴を処理し、複数の第１のサブ特徴を含む第２の特徴を取得する。

本開示の実施例によれば、予定ニューラルネットワークは関連層をさらに含む。更新モジュールは、関連層によって、複数の第１のサブ特徴のうちの任意の２つのサブ特徴間の関連関係を計算し、任意の２つの第１のサブ特徴間の関連関係に基づいて、関係行列を決定する第２の構築サブモジュールをさらに含む。第２の画像畳み込みモジュールは、第２の画像畳み込み層によって、関係行列に基づいて、第２の特徴を処理し、更新されたノード特徴を取得する。

本開示の実施例によれば、質問特徴抽出モジュールは、単語符号化アルゴリズム及び特徴符号化アルゴリズムによって、入力質問を順次符号化処理して質問特徴を取得する。

本開示の実施例によれば、上記更新視覚図は、複数の第２のサブ特徴を含む更新されたノード特徴を含む。融合モジュールは、アテンションメカニズムに基づいて、複数の第２のサブ特徴のそれぞれと質問特徴との間のアテンション重みを決定するアテンションサブモジュールと、複数の第２のサブ特徴のそれぞれと質問特徴との間のアテンション重みによって、複数の第２のサブ特徴を加重加算して、自己適応特徴を取得する自己適応サブモジュールと、自己適応特徴と質問特徴とを融合処理して融合特徴を取得する融合サブモジュールと、を含む。

本開示の実施例によれば、融合サブモジュールは、自己適応特徴と質問特徴とを要素毎に内積演算操作して融合特徴を取得する。

本開示の実施例によれば、予測モジュールは、多層パーセプトロンによって融合特徴を処理し、融合特徴に対する予測解答を取得する。

本開示の別の態様は、コンピュータ装置を提供しており、メモリと、プロセッサと、メモリに記憶されたプロセッサに実行されるコンピュータプログラムとを含み、前記プロセッサが前記プログラムを実行する場合、上記方法を実現する。

本開示の別の態様は、非一時的なコンピュータ読み取り可能な記憶媒体を提供しており、実行される際に、上記方法を実現するコンピュータ実行可能な命令が記憶される。

本開示の別の態様は、コンピュータプログラムを提供しており、実行される際に、上記方法を実現するコンピュータ実行可能な命令を含む。

本発明の実施例による画像質問応答方法は、入力画像及び入力質問を取得した後、入力画像のトポロジー（視覚図）を構築することにより、画像における目標対象の特徴情報と目標対象との間の潜在的な関係を表し、入力画像が複雑である場合のノイズの影響を低減する。視覚図におけるノード特徴によって更新することで、入力画像の浅いおよび深い語義特徴をより完全に正確に表現することができる更新視覚図を得る。これに基づいて、更新視覚図と質問特徴に対して融合処理を行い、融合処理で得られた融合特徴に基づいて最終解答の予測を行う。入力画像の特徴表現に対する前期の最適化の結果として、複雑な入力に対する画像質問応答過程の推論能力は効果的に高められ、本開示の実施例による画像質問応答過程はより解釈性が高くなる。

以下、図面を参照して本開示の実施例を説明することにより、本開示の上記および他の目的、特徴や利点は、より明らかになる。

図１は、本開示の実施例による画像質問応答方法及び装置を適用するための例示的なシステムアーキテクチャを概略的に示している。図２は、本開示の実施例による画像質問応答方法のフローチャートを概略的に示している。図３Ａは、本開示の実施例による画像質問応答過程の例示的な概略図を概略的に示している。図３Ｂは、本開示の別の実施例による画像質問応答過程の例示的な概略図を概略的に示している。図３Ｃは、本開示の実施例による画像畳み込み符号化モジュールの例示的な構造図を概略的に示している。図４は、本開示の実施例による画像質問応答装置のブロック図を概略的に示している。図５は、本開示の実施例によるコンピュータ装置のブロック図を概略的に示している。

以下、本開示の実施例について、図面を参照しながら説明する。しかしながら、これらの説明が例示的なものであり、本開示の範囲を限定するものではないことを理解されたい。以下の詳細な説明では、説明を容易にするために、本開示の実施例に対する全面的な理解を提供するように、多数の具体的な詳細が記載される。しかしながら、これらの具体的な詳細なしに１つ以上の実施例が実施されてもよいことは明らかである。また、以下の説明において、本開示の概念を不必要に混乱させることを避けるように、周知の構造及び技術に対する説明は省略する。

ここで使用される用語は、具体的な実施例を説明するためのものに過ぎず、本開示を限定することを意図しない。「備える」、「含む」などのここで使用される用語は、前記特徴、ステップ、操作、および／または部品の存在を示すが、１つまたは複数の他の特徴、ステップ、操作または部品の存在または追加を除外しない。

ここで使用される全ての用語（技術的及び科学的用語を含む）は、別途定義されない限り、当業者によって一般的に理解される意味を有する。ここで使用される用語は、本明細書の文脈と一致する意味を有すると解釈されるべきであり、理想的または過度に形式的に解釈されるべきではないことに留意されたい。

「Ａ、Ｂ及びＣなどのうちの少なくとも１つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである（例えば、「Ａ、Ｂ及びＣのうちの少なくとも１つを有するシステム」は、Ａを単独で有するシステム、Ｂを単独で有するシステム、Ｃを単独で有するシステム、Ａ及びＢを有するシステム、Ａ及びＣを有するシステム、Ｂ及びＣを有するシステム、及び／又はＡ、Ｂ、Ｃを有するシステムなどを含むが、これらに限定されない）。「Ａ、Ｂ及びＣなどのうちの少なくとも１つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである（例えば、「Ａ、Ｂ又はＣのうちの少なくとも１つを有するシステム」は、Ａを単独で有するシステム、Ｂを単独で有するシステム、Ｃを単独で有するシステム、Ａ及びＢを有するシステム、Ａ及びＣを有するシステム、Ｂ及びＣを有するシステム、及び／又はＡ、Ｂ、Ｃを有するシステムなどを含むが、これらに限定されない）。

本開示の実施例は、画像質問応答方法、装置、コンピュータ装置、媒体及びプログラムを提供している。画像質問応答方法は、取得過程、画像構築過程、更新過程、問題特徴抽出過程、融合過程、及び予測過程を含むことができる。取得過程では、入力画像と入力質問とが取得される。入力画像に対して、ノード特徴とエッジ特徴を含む視覚図を構築する画像構築過程と、更新過程とを行う。更新過程では、視覚図におけるノード特徴及びエッジ特徴に基づいて、ノード特徴を更新し、更新視覚図を得る。入力質問に対して質問抽出過程を行い、質問特徴を決定する。次に、融合過程を行い、更新視覚図と質問特徴に対して融合処理を行って融合特徴を得る。融合特徴に基づいて予測過程を行い、入力画像及び入力質問に対する予測解答を生成することができる。

画像質問応答は、コンピュータ視覚と自然言語処理との関連付けを目標とする挑戦的なタスクである。画像質問応答タスクでは、例えば、画像および関連質問が与えられ、機械は、画像の内容に基づいて、幾つかの常識と組み合わせて、質問に対する解答を推論することが要求される。この画像の問答タスクを完成するために、機械は、視覚および言語という２つの異なるモダリティでのデータに対して総合的な理解を実現するように、クロスモーダルな理解能力を有していなければならない。画像質問応答タスクは、他の単一モダリティでのタスク（例えば画像識別、ドキュメント分類等）よりも高い要求を有する。現在、画像質問応答システムは、学術界及び産業界の両方で広く研究されており、画像質問応答システムは、任意の自然言語で記述された質問及び所与の画像に対して、十分な理解及び推論を行った後、自然言語で正確に回答するように、適切なモデルを設計することを目標とする。しかし、現在の画像質問応答システムは、例えばクロスモーダルデータの融合や効果的な関係推論などの課題がまだ解決されていない。

図１は、本開示の実施例による画像質問応答方法および装置を適用できる例示的なシステムアーキテクチャ１００を概略的に示している。図１は、当業者が本開示の技術内容を理解させるように、本開示の実施例を適用できるシステムアーキテクチャの例示に過ぎず、本開示の実施例が他の装置、システム、環境又はシナリオで使用できないことを意味するものではないことに留意されたい。

図１に示すように、本実施例によるシステムアーキテクチャ１００は、複数の端末装置１１０、ネットワーク１２０、及びサーバ１３０を含むことができる。ここで、端末装置１１０は、例えば、デスクトップ型コンピュータ、携帯型コンピュータ、スマートフォン、タブレット型コンピュータなどの各種端末装置であってもよいが、ここでは限定されない。サーバ１３０は、様々な計算能力を有する電子デバイスであってもよく、例えば、サーバまたはサーバクラスタであってもよく、ここでは限定されない。端末装置１１０は、様々な機能のソフトウェアクライアントをロードして、ソフトウェアクライアントを介してサーバ１３０と対話することができる。

なお、一実施例において、本開示の実施例による画像質問応答方法は、端末装置１１０によって実施されることができ、相応的には、画像質問応答装置は、端末装置１１０に設けられることができる。別の実施例において、本開示の実施例による画像質問応答方法は、サーバ１３０によって実施されることができ、相応的には、画像質問応答装置は、サーバ１３０に設けられることができる。さらに別の実施例において、本発明の実施例による画像質問応答方法は、端末装置１１０及び／又はサーバ１３０と相互通信可能な他の装置によって実施されることができ、相応的には、画像質問応答装置は、他の装置に設けられることができる。

近年、画像質問応答の進展は目覚ましく、コンピュータ視覚や自然言語処理の分野から注目を集めている。画像質問応答タスクを解決するための提案が各分野で数多くなされている。ほとんどの提案は、エンドツーエンドの手順を採用しており、例えば、事前にトレーニングされた畳み込みニューラルネットワークを用いて画像特徴を抽出し、再帰ニューラルネットワークを用いて質問を示し、そして、画像特徴と質問特徴を関連して解答を予測する。現在の画像質問応答提案は、（１）粗粒度クロスモーダル表現による画像質問応答モデル、（２）アテンションメカニズムに基づく細粒度クロスモーダル表現モデル、（３）外部知識又は知識ネットワークに基づく画像質問応答モデルという３つのモデルを利用することが多い。

モデル（１）は、最も直接的な画像質問応答モデルである。クロスモーダル特徴融合がこのモデルの中心であるが、処理内容が比較的複雑で、主体が多数存在する画像である場合、解答予測の正確性に影響を与える可能性のあるノイズが必然的により多く導入される。質問テキストに対する処理においても同様な課題があり、質問が長く、画像に関連する単語が多数存在する場合、このモデルで、質問者が所望するキーワードを捕捉し難く、最終的に解答の予測の正確性が悪くなる。モデル（２）は、上記した粗粒度クロスモーダル表現モデルに基づいて、アテンションメカニズムを導入したものであり、これは、細粒度クロスモーダルの表現能力を大きく向上させる。しかし、現在、画像質問応答モデルに用いられるアテンションモデルは、質問の特徴に基づいて画像の注目領域を学習することが多く、質問自体の注目点学習を無視し、すなわち、質問におけるキーワード又はフレーズに対するアテンション学習を無視しているため、解答の予測正確性が悪い。モデル（３）の難点は、従来のモデルは、外部知識と画像質問応答データセットにおけるすべての質問とをマッピングすることが困難であり、一部の問題しか解決できず、汎用性に乏しい点である。

上記分析から分かるように、従来の画像質問応答提案は、以下の問題がある。一、クロスモーダルの融合戦略が不十分であり、複雑な融合モデルを導入するとともに、モデルの計算効率も大きく低下している。そのため、如何にして効果的な特徴融合を保障するとともに計算コストを低減するかのアルゴリズムを検討することは、画像質問応答の重要な開発方向である。二、関係推論の能力が不足する。多くの実際な画像質問応答過程では、モデルが多段階の関係推論によって最終的な解答を見つける必要があるが、現在のモデルは、複数のモダリティ特徴融合によって質問に回答し、複雑な質問に対する理解および推論の効果を不十分にしている。

本開示の実施例によれば、画像質問応答方法が提供される。この方法を、図面を用いて例示的に説明する。なお、以下の方法における各操作の番号は、説明の便宜上、その操作を示したものであり、各操作の実行順序を示すものと解釈してはならない。特に明記しない限り、この方法は、示された順序で完全に実行される必要はない。

図２は、本開示の実施例による画像質問応答方法のフローチャートを概略的に示している。

図２に示すように、この方法は、操作Ｓ２０１～操作Ｓ２０６を含む。

操作Ｓ２０１において、入力画像及び入力質問を取得する。

操作Ｓ２０２において、入力画像に基づいて、視覚図（ＶｉｓｕａｌＧｒａｐｈ）を構築する。

本開示の実施例によれば、視覚図は、入力画像のトポロジー表現であり、入力画像の特徴情報をより完全に正確に示している。例示的に、視覚図は、ノード（Ｎｏｄｅ）特徴及びエッジ（Ｅｄｇｅ）特徴を含むことができる。ノード特徴は、入力画像内の１つ以上の目標対象の特徴情報を示し、エッジ特徴は、入力画像における目標対象間の潜在的な関係を示している。

操作Ｓ２０３において、上述ノード特徴とエッジ特徴に基づいて、ノード特徴を更新し、更新視覚図を取得する。

本開示の実施例によれば、もともと構築されていたノード特徴およびエッジ特徴に基づいて、ノード特徴における明示的および暗黙的な関係を学習することができる。更新視覚図が入力画像におけるより深い意味的語義関係を示すように、明示的および暗黙的な関係を用いて、ノード特徴を更新する。

操作Ｓ２０４において、入力質問に基づいて質問特徴を決定する。

操作Ｓ２０５において、更新視覚図および質問特徴に対して融合処理を行って融合特徴を取得する。

操作Ｓ２０６において、融合特徴に基づいて入力画像及び入力質問に対する予測解答を生成する。

本開示の実施例による画像質問応答方法が、入力画像と入力質問を取得した後、入力画像のトポロジー（視覚図）を構築することにより、画像における目標対象の特徴情報と目標対象間の潜在的な関係を表し、入力画像が複雑である場合のノイズの影響を低減することが当業者に理解される。視覚図におけるノード特徴によって更新することで、入力画像の浅いおよび深い語義特徴をより完全に正確に表現することができる更新視覚図を得る。これに基づいて、更新視覚図と質問特徴に対して融合処理を行い、融合処理で得られた融合特徴に基づいて最終解答の予測を行う。入力画像の特徴表現に対する前期の最適化の結果として、複雑な入力に対する画像質問応答過程の推論能力は効果的に高められ、本開示の実施例による画像質問応答過程はより解釈性が高くなる。

以下、図３Ａ、図３Ｂ及び図３Ｃを参照して、具体的な実施例を組み合わせ、本開示の実施例による画像質問応答方法を例示的に説明する。

図３Ａは、本開示の実施例による画像質問応答過程の例示的な概略図を概略的に示している。図３Ｂは、本開示の別の実施例による画像質問応答過程の例示的な概略図を概略的に示している。

図３Ａに示す例では、ネットワークモデル３００を予め構築することができ、当該ネットワークモデル３００は、順次に接続された画像構築モジュール３０１と、直列に接続された１つ以上の画像畳み込み符号化モジュール（ＧＣＮＥｎｃｏｄｅｒ）３０２と、視覚図に基づく問答モジュール３０３とを含むことができる。本開示の実施例によれば、上記のネットワークモデル３００を訓練することによって、当該ネットワークモデル３００が図２に示すような画像質問応答タスクを実行する能力を有する必要がある。訓練過程では、サンプル画像及びサンプル質問を上記ネットワークモデル３００に入力し、ネットワークモデル３００の目的関数が収束するまで、ネットワークモデル３００の出力とサンプルラベルとの差異に応じてネットワークモデル３００のパラメータを最適化する。ここで、サンプルラベルは、サンプル画像及びサンプル質問に対する真実解答である。ネットワークモデル３００に対する訓練を完了し、本開示の実施例による画像質問応答方法は、訓練されたネットワークモデル３００によって実施することができる。以下、実施手順を例示的に説明する。

本開示の実施例によれば、図３Ａに示すように、ネットワークモデル３００における画像構築モジュール３０１は、入力画像Ｉ３０４を取得し、画像構築モジュール３０１は、上記操作Ｓ２０２における入力画像に基づいて、視覚図を構築する過程を実行することができる。例示的に、画像構築モジュール３０１は、目標検出ネットワーク（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）の中間層から入力画像における複数の目標対象に対する表現特徴及び空間特徴を抽出し、上記表現特徴及び空間特徴に基づいてノード特徴を決定するように、目標検出ネットワークによって入力画像Ｉ３０４を処理することができる。そして、目標検出ネットワークの出力層によって出力される処理結果に基づいて、複数の目標対象のそれぞれの位置情報を決定する。複数の目標対象のそれぞれの位置情報に基づいて、複数の目標対象のうちの任意の２つの目標対象間の位置関係を決定する。任意の２つの目標対象間の位置関係に基づいて、エッジ特徴を決定する。上記ノード特徴とエッジ特徴とから視覚図を構成する。

図３Ｂに示す例において、画像構築モジュール３０１は、ＦａｓｔｅｒＲＣＮＮ（ＦａｓｔｅｒＲｅｇｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、より高速領域畳み込みニューラルネットワーク）を利用して、入力画像Ｉ３０４におけるＫ_１個の目標対象を検出し、特徴マップ（ＦｅａｔｕｒｅＭａｐ）全体にわたって関心領域プール化操作（ＲＯＩＰｏｏｌｉｎｇ）を経た表現特徴

及び空間特徴

を抽出する。そのうち、表現特徴Ｆは、Ｋ_１個の目標対象に対するＫ_１個のサブ特徴を含め、各サブ特徴は、空間次元数２０４８であるのベクトルとして表すことができ、空間次元数は、需要に応じて設定することができる。ここでは、単に例である。空間特徴Ｓはまた、Ｋ_１個の目標対象に対するＫ_１個のサブ特徴を含め、各サブ特徴は、空間次元数が４であるベクトルとして表され得る。例えば、目標対象に対する外枠（ＢｏｕｎｄｉｎｇＢｏｘ）の高さ値、幅値、および中心点の座標を含む。表現特徴Ｆと空間特徴Ｓとを加えて視覚図Ｇ３０５のノード特徴Ｖ＝｛Ｆ｜｜Ｓ｝として、併合方式は、例えば、連結併合であってもよい。

視覚マップＧ３０５のエッジ特徴は、例えば、

というバイナリ表現であり得る。エッジ特徴は、入力画像Ｉ３０４における任意の２つの目標対象間の位置関係により決定することができる。本開示の実施例によれば、上記任意の２つの目標対象は、異なる目標対象を含んでもよいし、同じ目標対象を含んでもよい。上記目標検出ネットワークの処理により、入力画像Ｉ３０４における各目標対象の位置座標、すなわち、各目標対象が占める位置領域を決定することができる。

例示的には、任意の２つの目標対象の位置領域の重なり度合い（Ｉｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ，ＩｏＵ）が所定の閾値よりも大きいか否かによって、エッジ特徴Ｅにおける各要素の値を判定してもよい。例えば、所定の閾値を０．３にし、入力画像におけるｉ番目の目標対象およびｊ番目の目標対象に対して、ｉ番目の目標対象の位置領域とｊ番目の目標対象の位置領域との間のＩｏＵ値を計算し、当該ＩｏＵ値が所定の閾値より大きい場合、エッジ特徴Ｅの要素ｅ_ｉｊを１として表し、当該ＩｏＵ値が所定の閾値以下である場合、エッジ特徴Ｅの要素ｅ_ｉｊを０として表す。本例では、ｉ及びｊは、いずれも１以上Ｋ_１以下の正の整数であり、ｉ及びｊは、同一であっても異なっていてもよい。

上記例示的な実施形態により、視覚図Ｇ＝｛Ｖ，Ｅ｝を構築することができる。図３Ａ及び図３Ｂに示すように、視覚図Ｇ３０５は、画像畳み込み符号化モジュール３０２に入力されて処理され、画像畳み込み符号化モジュール３０２は、画像畳み込み（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎＮｅｔｗｏｒｋ、ＧＣＮ）方法に基づいて視覚図のノード間の関係の学習および特徴の更新を行う。以下、実施過程を例示的に説明する。

本発明の実施例によれば、上記操作Ｓ２０３は、ノード特徴及びエッジ特徴に基づいてノード特徴を更新する過程は、以下の方式に従って実施されることができる。所定のニューラルネットワークを用いて、視覚図のノード特徴に対して更新操作を少なくとも１回実行する。一例では、所定のニューラルネットワークは、１つまたは複数の画像畳み込み符号化モジュール３０２を含み得る。

図３Ｃは、本開示の実施例による画像畳み込み符号化モジュールの例示的な構造図を概略的に示している。図３Ｃに示すように、画像畳み込み符号化モジュール３０２は、完全接続層（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ、ＦＣ）３０２１、第１の画像畳み込み層（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ、Ｇｃｏｎｖ_１）３０２２、及び第２の画像畳み込み層（Ｇｃｏｎｖ_２）３０２３を含むことができる。例示的には、上述した少なくとも１回の更新操作の各更新操作は、完全接続層３０２１を用いて、視覚図Ｇ３０５のノード特徴Ｖ３０５１を所定数ｄと等しい空間次元数を有する第１の特徴Ｘ３０５１１にマッピングすることを含む。第１の画像畳み込み層３０２２によって第１の特徴Ｘ３０５１１を処理し、第２の特徴Ｘ’３０５１２を取得する。第２の画像畳み込み層３０２３によって第２の特徴Ｘ’３０５１２を処理し、更新されたノード特徴Ｘ’’を取得する。更新されたノード特徴Ｘ’’とエッジ特徴Ｅ３０５２から更新視覚図Ｇ’３０６を構成する。

例えば、上記した完全接続層３０２１によって視覚図Ｇ３０５のノード特徴Ｖ３０５１を空間次元数がｄである第１の特徴Ｘ３０５１１にマッピングする過程は、数（１）のように表現される。

σは非線形関数であり、Ｗ_１完全接続層の重みパラメータである。

本開示の実施例によれば、視覚図Ｇ３０５のエッジ特徴量Ｅ３０５２に応じて、第１の画像畳み込み層３０２２を用いてノード特徴の更新及び明示的な関係の学習を行うことができる。図３Ｃに示すように、上記少なくとも１回の更新操作の各更新操作は、以下のことをさらに含んでもよい。エッジ特徴Ｅ３０５２に基づいて、ラプラス行列（ＧｒａｐｈＬａｐｌａｃｉａｎｓ）Ｌ３０５２１を構築する。上記した第１の画像畳み込み層３０２２を用いて第１の特徴Ｘ３０５１１を処理する過程は第１の画像畳み込み層３０２２を用いてラプラス行列Ｌ３０５２１に基づいて第１の特徴Ｘ３０５１１を処理して、第２の特徴Ｘ’３０５１２を取得することを含むことができる。第２の特徴Ｘ’３０５１２は複数の第１のサブ特徴ｘ_ｉ’を含み、ｉは１以上Ｋ_１以下の整数であり、ｘ_ｉ’はｄ個の空間次元を有するベクトルとして表現される。上記した第２の特徴Ｘ’を算出する過程およびラプラス行列を構築する過程は、それぞれ数（２）および数（３）のように表すことができる。

ただし、

は対角行列であり、

σは非線形関数であり、Ｗ_２およびＷ_３は第１の画像畳み込み層の重みパラメータである。

入力画像における暗黙的な関係を更に学習するために、本開示の実施例によれば、図３Ｃに示すように、画像畳み込み符号化モジュール３０２は、関連層（Ａｄｊ）３０２４を更に含むことができる。

第１の画像畳み込み層３０２２の処理が終了した後に、関連層３０２４を用いて、複数の第１のサブ特徴のうち任意の２つの第１のサブ特徴ｘ_ｉ’、ｘ_ｊ’間の関連関係を計算し、任意の２つの第１のサブ特徴間の関連関係に基づいて関係行列Ａ’３０５１２’を決定することができる。但し、

具体的には、数（４）のように示している。

数（４）から分かるように、本例では、ｘ_ｉ’とｘ_ｊ’との間のＬ－２距離（ユークリッド距離）を算出することにより、ｘ_ｉ’とｘ_ｊ’との間の関連関係を決定する。他の例では、任意の類似度計算方法を用いて、ｘ_ｉ’とｘ_ｊ’との間の関連関係を決定することができ、例えばコサイン類似度などを用いることができるが、ここでは限定しない。本実施例によれば、関連層によって画像ノード間の暗黙的な関係行列を学習する。

これに基づき、第２の画像畳み込み層３０２３によって第２の特徴Ｘ’３０５１２を処理することができる。例示的には、第２の画像畳み込み層３０２３により、学習した関係行列Ａ’から深いノード特徴の更新および学習を行う。第２の画像畳み込み層３０２３の更新戦略は、数（５）のように定義することができる。

ただし、Ｗ_４は第２の画像畳み込み層の重みパラメータである。

２層の画像畳み込みネットワークを通過した後、図３Ｃに示すように、画像畳み込み符号化モジュール３０２全体の出力は更新視覚図Ｇ’３０６であり、Ｇ’＝｛Ｘ’ ’，Ｅ｝。Ｘ’ ’は、複数の第２のサブ特徴ｘ_ｉ’’を含む更新されたノード特徴であり、ｉは、１以上K_１以下の整数である。より良い更新効果を実現するために、本開示の実施例によるネットワークモデルでは、いくつかの画像畳み込み符号化モジュールが直列に接続されて、視覚図のノード特徴に対する複数の回の更新を実現することができ、これにより、より深い語義関係を学習することができる。例えば、ｎ個の画像畳み込み符号化モジュールによってｎ回の更新を実行することができ、更新視覚図Ｇ^ｎ３０６を取得し、ｎは正の整数である。

引き続き図３Ａおよび図３Ｂを参照すると、画像畳み込み符号化モジュール３０２を説明した後、視覚図に基づく問答モジュール３０３の実装形態を例示的に説明する。いくつかの画像畳み込み符号化モジュールを経た後、視覚図における各ノード特徴は、学習した関係に基づいて、関連ノードの特徴を融合し、ある程度、深い語義特徴を含み、次に学習した特徴を最終質問の回答に用いる必要がある。

本開示の実施例によれば、視覚図に基づく問答モジュール３０３は、上記操作Ｓ２０４～Ｓ２０６を実行することができる。一方、図３Ａ及び図３Ｂに示すように、視覚図に基づく問答モジュール３０３は、入力質問Ｑ３０７を取得し、単語符号化（ＷｏｒｄＥｍｂｅｄｄｉｎｇ、単語埋め込み）アルゴリズム３０３１及び特徴符号化アルゴリズム３０３２により、入力質問Ｑ３０７を順次に符号化処理し、質問特徴ｑ３０８を取得する。本例では、Ｇｌｏｖｅ語符号化アルゴリズムとＢｉ－ＧＲＵ特徴符号化アルゴリズムを用いて質問全体の特徴表現ｑを取得する。一方、図３Ａに示すように、視覚図に基づく問答モジュール３０３は、画像畳み込み符号化モジュール３０２によって出力された更新視覚図３０６を取得し、更新視覚図と質問特徴とを融合する過程を実行することができる。

本開示の一実施例において、図３Ｂに示すように、視覚図に基づく問答モジュール３０３は、アテンションメカニズム３０３３を利用して、視覚図における各第２のサブ特徴x_ｉ’’∈Ｘ’’と質問特徴ｑとの間のアテンションマップ重み（ａｔｔｅｎｔｉｏｎｍａｐ）

を学習更新し、例えば、数（６）に示されるような詳細な方法で計算される。

そして、例えば、上記アテンションマッピング重みは、更新視覚図におけるノード特徴

における各第２のサブ特徴を重み付け加算して、最終的に質問に回答するための自己適応特徴表現

を得て、推論特徴（ＲｅａｓｏｎｉｎｇＦｅａｔｕｒｅ）ｒ３０９ともいう。計算方法は、数（７）のように表すことができる。

本発明の実施例によれば、視覚図に基づく問答モジュール３０３は、多層パーセプトロン（Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ、ＭＬＰ）３０３４をさらに含むことができる。図３Ｂに示すように、自己適応特徴と質問特徴とを融合処理する過程は、自己適応特徴ｒと質問特徴ｑとを要素（Ｅｌｅｍｅｎｔ－ｗｉｓｅ）毎に内積演算操作して融合特徴を取得するを含むことができる。融合特徴をＭＬＰに送って

を予測する。本例では２層のＭＬＰを用いており、処理の過程は数（８）のように表される。

訓練済みのネットワークモデルを使用するとき、予測待ちの入力画像および入力質問を上記ネットワークモデルに入力して、ネットワークモデルから相応的な解答カテゴリおよび信頼度を出力し、最も信頼度の高い解答カテゴリを、予測待ちの入力画像および入力質問に対して得られる予測解答とすることが理解され得る。上記入力画像と入力問題に対する処理過程は、訓練段階のサンプル画像およびサンプル質問に対する処理過程と同様であるため、ここでは贅言しない。

上記各実施例から分かるように、本開示の実施例による画像質問応答方法は、画像のトポロジー（視覚図）を構築することにより画像における目標の特徴と目標との間の潜在的な関係を表し、さらに画像畳み込みニューラルネットワークによって画像における目標間の明示的および暗示的な関係を学習し、効果的な特徴符号化を行うことにより、モデルは、より推論特性を有する自己適応特徴表現を学習し、最後に学習した推論特徴と質問の特徴融合を利用して最終解答の予測を行うことができる。本開示の実施例による画像質問応答方法は、複雑な質問に対するモデルの推論能力を効果的に向上させることができ、問答過程全体の解釈性をより高めることができる。

図４は、本開示の実施例による画像質問応答装置のブロック図を概略的に示している。

図４に示すように、画像質問応答装置４００は、取得モジュール４１０、画像構築モジュール４２０、更新モジュール４３０、質問特徴抽出モジュール４４０、融合モジュール４５０、及び予測モジュール４６０を含むことができる。

取得モジュール４１０は、入力画像及び入力質問を取得するために使用される。

画像構築モジュール４２０は、入力画像に基づいて、ノード特徴及びエッジ特徴を含む視覚図を構築するために使用される。

更新モジュール４３０は、更新視覚図を得るように、上記ノード特徴及びエッジ特徴に基づいてノード特徴を更新するために使用される。

質問特徴抽出モジュール４４０は、入力質問に基づいて質問特徴を決定するために使用される。

融合モジュール４５０は、更新視覚図と質問特徴とを融合処理して融合特徴を得るために使用される。

予測モジュール４６０は、融合特徴に基づいて入力画像及び入力質問に対する予測解答を生成するために使用される。

なお、装置部分の実施例における各モジュール／ユニット／サブユニット等の実施形態、解決された技術的課題、実現された機能、及び達成された技術効果は、それぞれ方法部分の実施例における各対応するステップの実施形態、解決された技術的課題、実現された機能、及び達成された技術的効果と同一又は類似であり、ここでは贅言しない。

本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちのいずれか複数、またはこれらのうちの少なくとも一部の機能は、１つのモジュールで実現されることができる。本発明の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちのいずれか１つ以上は、複数のモジュールに分割して実現することができる。本開示の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの任意の１つ以上は、少なくとも部分的に、例えばフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理アレイ（ＰＬＡ）、システムオンチップ、基板上システム、パッケージ上システム、特定用途向け集積回路（ＡＳＩＣ）などのハードウェア回路として実装されてもよく、または回路を集積またはパッケージ化する他の合理的な方式のハードウェアもしくはファームウェアによって、またはソフトウェア、ハードウェア、およびファームウェアの３つの実装形態のうちの任意の１つもしくはそれらのうちの任意のいくつかの適切な組み合わせによって実装されてもよい。あるいは、本開示の実施例によるモジュール、サブモジュール、ユニット、サブユニットのうちの１つ以上は、少なくとも部分的に、実行されたときに相応的な機能を実行可能なコンピュータプログラムモジュールとして実現されてもよい。

例えば、取得モジュール４１０、画像構築モジュール４２０、更新モジュール４３０、質問特徴抽出モジュール４４０、融合モジュール４５０および予測モジュール４６０のうちのいずれか複数を１つのモジュールに統合してもよいし、いずれか１つのモジュールを複数のモジュールに分割してもよい。あるいは、これらのモジュールのうちの１つ以上のモジュールの機能の少なくとも一部は、他のモジュールの機能の少なくとも一部と組み合わされて、１つのモジュールに実現され得る。本開示の実施例によれば、取得モジュール４１０、画像構築モジュール４２０、更新モジュール４３０、質問特徴抽出モジュール４４０、融合モジュール４５０及び予測モジュール４６０のうちの少なくとも１つは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブル論理アレイ（ＰＬＡ）、システムオンチップ、基板上システム、パッケージ上システム、特定用途向け集積回路（ＡＳＩＣ）などのハードウェア回路として少なくとも部分的に実現されてもよく、又は、回路を集積又はパッケージ化する任意の他の合理的な方法などのハードウェア若しくはファームウェア、又は、ソフトウェア、ハードウェア、及びファームウェアの３つの実現形態のうちの任意の１つ、又は、これらのうちの任意のいくつかの適切な組み合わせで実現されてもよい。あるいは、取得モジュール４１０、画像構築モジュール４２０、更新モジュール４３０、質問特徴抽出モジュール４４０、融合モジュール４５０及び予測モジュール４６０のうちの少なくとも１つは、少なくとも部分的に、実行されたときに相応的な機能を実行可能なコンピュータプログラムモジュールとして実装されてもよい。

図５は、本開示の実施例による、上記の方法を実施するように適合されたコンピュータ装置のブロック図を概略的に示している。図５に示すコンピュータ装置は一例に過ぎず、本開示の実施例の機能及び使用範囲に何ら制限を課すものではない。

図５に示すように、本開示の実施例によるコンピュータ装置５００は、リードオンリーメモリ（ＲＯＭ）５０２に記憶されたプログラム、又は記憶部分５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたプログラムに従って様々な適切な操作及び処理を実行することができるプロセッサ５０１を含む。プロセッサ５０１は、例えば、汎用マイクロプロセッサ（例えば、ＣＰＵ）、命令セットプロセッサ、および／または関連チップセット、および／または特定用途向けマイクロプロセッサ（例えば、特定用途向け集積回路（ＡＳＩＣ））などを含み得る。プロセッサ５０１は、キャッシュ用途のためのオンボードメモリも含み得る。プロセッサ５０１は、本開示の実施例による方法フローの異なる操作を実行するための単一の処理ユニット又は複数の処理ユニットを含んでもよい。

ＲＡＭ５０３には、装置５００の操作に必要な各種プログラムやデータが記憶される。プロセッサ５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４を介して互いに接続されている。プロセッサ５０１は、ＲＯＭ５０２及び／又はＲＡＭ５０３のプログラムを実行することにより、本発明の実施例による方法の流れによる様々な操作を実行する。なお、前記プログラムは、ＲＯＭ５０２およびＲＡＭ５０３以外のメモリに格納されていてもよい。プロセッサ５０１は、前記１つ以上のメモリに記憶されたプログラムを実行することにより、本発明の実施例による方法フローの様々な操作を実行することもできる。

本開示の実施例によれば、装置５００は、バス５０４に接続された入出力（Ｉ／Ｏ）インタフェース５０５をさらに含むことができる。また、装置５００は、Ｉ／Ｏインタフェース５０５に接続された、キーボード、マウスなどを含む入力部分５０６、例えばカソード線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカなどを含む出力部分５０７、ハードディスクなどを含む記憶部分５０８、例えばＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部分５０９のうちの１つ以上を含んでもよい。通信部分５０９は、インターネットなどのネットワークを介して通信処理を行う。ドライバ５１０は、必要に応じて、Ｉ／Ｏインタフェース５０５に接続される。読み出されたコンピュータプログラムが、必要に応じて記憶部分５０８にインストールされるように、例えば磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア５１１は、需要に応じてドライブ５１０に実装される。

本開示の実施例によれば、本開示の実施例による方法のフローは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ読み取り可能な記憶媒体にインストールされたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例で、このコンピュータプログラムは、通信部分５０９によってネットワークからダウンロードしてインストールされてもよいし、取り外し可能な媒体５１１からインストールされてもよい。このコンピュータプログラムがプロセッサ５０１によって実行されると、本開示の実施例のシステムにおいて限定した上記機能が実行される。本開示の実施例によれば、前述したシステム、デバイス、装置、モジュール、ユニット等は、コンピュータプログラムモジュールにより実現することができる。

本開示は、さらに、非一時的なコンピュータ読み取り可能な記憶媒体を提供しており、当該非一時的なコンピュータ読み取り可能な記憶媒体は、上記実施例に記載のデバイス／装置／システムに含まれてもよく、デバイス／装置／システムに組み込まれずに単独で存在してもよい。上記非一時的なコンピュータ読み取り可能な記憶媒体には、一つ又は複数のプログラムが記録されており、上記一つ又は複数のプログラムが実行されると、本開示の実施例による方法を実現する。

本開示の実施例によれば、非一時的なコンピュータ読み取り可能な記憶媒体は、不揮発性のコンピュータ読み取り可能な記憶媒体であってもよく、例えば、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、携帯型コンパクトディスクＲＯＭ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本開示において、非一時的なコンピュータ読み取り可能な記憶媒体は、プログラムを含む又は記憶する、任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスによって又はそれらと関連して使用される。例えば、本開示の実施例によれば、非一時的なコンピュータ読み取り可能な記憶媒体は、前記したＲＯＭ５０２および／またはＲＡＭ５０３およびＲＡＭ５０３以外の１つ以上のメモリを含むことができる。

図面におけるフローチャート及びブロック図は、本開示の様々な実施例によるシステム、方法、及びコンピュータプログラム製品の実現可能な構造、機能及び操作を示している。この点に関して、フローチャート又はブロック図における各ブロックは、モジュール、セグメント、又はコードの一部を表すことができ、モジュール、セグメント、又はコードの一部は、特定な論理機能を実現するための１つ又は複数の実行可能命令を含む。これに代えて、別の実現では、ブロックに表記された機能は、図面に示す順序とは異なる順序で生じ得ることにも留意すべきである。例えば、連続して示される２つのブロックは、実際には、機能に応じて、実質的に並列に実行されてもよく、逆順に実行されてもよい。ブロック図又はフローチャートの各ブロック、及びブロック図又はフローチャートのブロックの組合せは、特定な機能又は操作を実行する専用ハードウェアベースのシステムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組合せにより実現されてもよいことにも留意すべきである。

当業者は、本開示に明示的に記載されていなくても、本開示の様々な実施例及び／又は特許請求の範囲に記載された特徴について様々な組合せ及び／又は結合で実施してもよいことを理解するだろう。特に、本開示の様々な実施例及び／又は特許請求の範囲に記載された特徴は、本開示の精神及び教示から逸脱することなく、様々な組合せ及び／又は結合を行うことができる。これらの組合せ及び／又は結合はいずれも本開示の範囲に含まれる。

以上、本開示の実施例を説明した。しかしながら、これらの実施例は、説明のためのものであり、本開示の範囲を限定するものではない。以上、各実施例を個別に説明したが、各実施例における各手段を適宜組み合わせて用いることができないことを意味するわけではない。本開示の範囲は、添付の特許請求の範囲及びその均等物によって限定される。当業者は、本開示の範囲から逸脱することなく、様々な変更及び修正を行うことができ、これらの変更及び修正も本開示の範囲に属する。

Claims

入力画像及び入力質問を取得することと、
前記入力画像に基づいて、入力画像内の１つ以上の目標対象の特徴情報を示すノード特徴及び入力画像における目標対象間の関係を示すエッジ特徴を含む視覚図を構築することと、
前記ノード特徴および前記エッジ特徴に基づいて、前記ノード特徴を更新して、更新視覚図を取得することと、
前記入力質問に基づいて質問特徴を決定することと、
前記更新視覚図と前記質問特徴とを融合処理して融合特徴を取得することと、
前記融合特徴に基づいて、前記入力画像及び前記入力質問に対する予測解答を生成することと、を含み、
前記ノード特徴および前記エッジ特徴に基づいて、前記ノード特徴を更新することは、
完全接続層と、第１の画像畳み込み層と、第２の画像畳み込み層とを含む予定ニューラルネットワークによって、前記視覚図のノード特徴に対して、少なくとも１回の更新操作を実行することを含み、
前記少なくとも１回の更新操作の各々の更新操作は、
完全接続層によって、前記視覚図のノード特徴を、予定数に等しい空間次元数を有する第１の特徴にマッピングすることと、
第１の画像畳み込み層によって、前記第１の特徴を処理し、第２の特徴を取得することと、
第２の画像畳み込み層によって、前記第２の特徴を処理し、更新されたノード特徴を取得することと、
前記更新されたノード特徴と前記エッジ特徴とから前記更新視覚図を構成することと、を含む
コンピュータ装置によって実行される画像質問応答方法。
前記入力画像に基づいて視覚図を構築することは、
目標検出ネットワークの中間層から前記入力画像における複数の目標対象に対する表現特徴および空間特徴を抽出するように、前記目標検出ネットワークによって前記入力画像を処理することと、
前記表現特徴および前記空間特徴に基づいて前記ノード特徴を決定することと、
前記目標検出ネットワークの出力層により出力された処理結果に基づいて、前記複数の目標対象のそれぞれの位置情報を決定することと、
前記複数の目標対象のそれぞれの位置情報に基づいて、前記複数の目標対象のうちの任意の２つの目標対象間の位置関係を決定することと、
前記任意の２つの目標対象間の位置関係に基づいて前記エッジ特徴を決定することと、
前記ノード特徴および前記エッジ特徴から前記視覚図を構成することと、を含む
請求項１に記載の画像質問応答方法。
前記複数の目標対象のそれぞれの位置情報に基づいて、前記複数の目標対象のうちの任意の２つの目標対象間の位置関係を決定することは、
前記任意の２つの目標対象のそれぞれの位置情報に基づいて、前記任意の２つの目標対象の位置領域間の積集合および和集合を計算することと、
前記積集合と前記和集合の比率を計算することと、
前記比率が所定の閾値よりも大きい場合、前記任意の２つの目標対象間の位置関係を１として表することと、
前記比率が所定の閾値以下である場合には、前記任意の２つの目標対象間の位置関係を０と表すことと、を含む
請求項２に記載の画像質問応答方法。
前記少なくとも１回の更新操作の各々の更新操作は、前記エッジ特徴に基づいてラプラス行列を構築することをさらに含み、
第１の画像畳み込み層によって前記第１の特徴を処理することは、前記第１の画像畳み込み層によって、前記ラプラス行列に基づいて、前記第１の特徴を処理し、複数の第１のサブ特徴を含む前記第２の特徴を取得することを含む
請求項１に記載の画像質問応答方法。
前記予定ニューラルネットワークは関連層をさらに含み、
前記少なくとも１回の更新操作の各々の更新操作は、関連層によって、前記複数の第１のサブ特徴のうちの任意の２つのサブ特徴間の関連関係を計算し、前記任意の２つのサブ特徴間の関連関係に基づいて、関係行列を決定することをさらに含み、
第２の画像畳み込み層によって前記第２の特徴を処理することは、前記第２の画像畳み込み層によって、前記関係行列に基づいて、前記第２の特徴を処理し、前記更新されたノード特徴を取得することを含む
請求項４に記載の画像質問応答方法。
前記任意の２つの第１のサブ特徴間の関連関係は、
前記任意の２つの第１のサブ特徴間のユークリッド距離、又は
前記任意の２つの第１のサブ特徴間のコサイン類似度を含む
請求項５に記載の画像質問応答方法。
前記入力質問に基づいて質問特徴を決定することは、
単語符号化アルゴリズム及び特徴符号化アルゴリズムによって、前記入力質問を順次符号化処理して前記質問特徴を取得することを含む
請求項１に記載の画像質問応答方法。
前記更新視覚図は、複数の第２のサブ特徴を含む更新されたノード特徴を含み、
前記更新視覚図及び前記質問特徴を融合処理することは、
アテンションメカニズムに基づいて、前記複数の第２のサブ特徴のそれぞれと前記質問特徴との間のアテンション重みを決定することと、
前記複数の第２のサブ特徴のそれぞれと前記質問特徴との間のアテンション重みによって、前記複数の第２のサブ特徴を加重加算して、自己適応特徴を取得することと、
前記自己適応特徴と前記質問特徴とを融合処理して前記融合特徴を取得することと、を含む
請求項１に記載の画像質問応答方法。
前記自己適応特徴および前記質問特徴を融合処理することは、
前記自己適応特徴と前記質問特徴とを要素毎に内積演算操作して前記融合特徴を取得することを含む
請求項８に記載の画像質問応答方法。
前記融合特徴に基づいて前記入力画像及び前記入力質問に対する予測解答を生成することは、
多層パーセプトロンによって前記融合特徴を処理し、前記融合特徴に対する予測解答を取得することを含む
請求項９に記載の画像質問応答方法。
入力画像及び入力質問を取得する取得モジュールと、
前記入力画像に基づいて、入力画像内の１つ以上の目標対象の特徴情報を示すノード特徴及び入力画像における目標対象間の関係を示すエッジ特徴を含む視覚図を構築する画像構築モジュールと、
前記ノード特徴および前記エッジ特徴に基づいて、前記ノード特徴を更新して、更新視覚図を取得する更新モジュールと、
前記入力質問に基づいて質問特徴を決定する質問特徴抽出モジュールと、
前記更新視覚図と前記質問特徴とを融合処理して融合特徴を取得する融合モジュールと、
前記融合特徴に基づいて、前記入力画像及び前記入力質問に対する予測解答を生成する予測モジュールと、を含み、
前記ノード特徴および前記エッジ特徴に基づいて、前記ノード特徴を更新することは、
完全接続層と、第１の画像畳み込み層と、第２の画像畳み込み層とを含む予定ニューラルネットワークによって、前記視覚図のノード特徴に対して、少なくとも１回の更新操作を実行することを含み、
前記少なくとも１回の更新操作の各々の更新操作は、
完全接続層によって、前記視覚図のノード特徴を、予定数に等しい空間次元数を有する第１の特徴にマッピングすることと、
第１の画像畳み込み層によって、前記第１の特徴を処理し、第２の特徴を取得することと、
第２の画像畳み込み層によって、前記第２の特徴を処理し、更新されたノード特徴を取得することと、
前記更新されたノード特徴と前記エッジ特徴とから前記更新視覚図を構成することと、を含む
画像質問応答装置。
コンピュータ命令が記憶されたメモリと、
少なくとも１つのプロセッサと、を含み、
前記プロセッサは、前記コンピュータ命令を実行する場合、請求項１～１０のいずれか一つ項による方法を実現する
コンピュータ装置。
プロセッサによって実行される際に、請求項１～１０のいずれか一つ項による方法を実現するコンピュータ命令が記憶された
非一時的なコンピュータ読み取り可能な記憶媒体。
実行される際に、請求項１～１０のいずれか一つ項による方法を実現するコンピュータ命令を含むコンピュータプログラム。