JP2021103576A

JP2021103576A - 画像の質疑応答方法、装置、電子デバイス、記憶媒体、及びプログラム

Info

Publication number: JP2021103576A
Application number: JP2021051835A
Authority: JP
Inventors: キン，シャーメン; Xiameng Qin; リ，ユーリン; Yulin Li; ファン，ジュ; Ju Huang; シェ，クンイー; Qunyi Xie; ハン，ジュンユ; Junyu Han
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2021-03-25
Publication date: 2021-07-15
Anticipated expiration: 2041-03-25
Also published as: CN111767379B; KR20210040301A; JP7291169B2; CN111767379A; EP3885935A1; US20210264190A1

Abstract

【課題】画像に対する質疑応答方法、装置、電子デバイス、記憶媒体及びプログラムを提供する。【解決手段】質疑応答方法は、質問文に基づき、トポロジ構造を有するクエリグラフを構築し、前記質問文の問題特徴を抽出することと、質問文に対応するターゲット画像に基づき、トポロジ構造を有するビジュアルグラフとテキストグラフとを構築すること、融合モデルを用いて、ビジュアルグラフ、テキストグラフクエリグラフおよびクエリグラフを融合させ、最終融合グラフを得ることと、最終融合グラフから抽出した推理特徴および問題特徴に基づき、質問文の回答を確定することと、を含む。ターゲット画像と質問文とをもとに構築したビジュアルグラフ、テキストグラフ及びクエリグラフをクロスモードで融合するため、異なる形態でのターゲット画像の注目点が得られ、これを基に、質問文の意図に基づいて、より正確に画像の質疑応答の回答を識別できる。【選択図】図１

Description

本開示は、画像処理に関する。特にコンピュータビジョン、深層学習および自然言語処理に関する。

既存の画像の質疑応答技術において、通常、質問文には話し言葉による説明が多く含まれ、また質問文に対応する画像には多くの標的（ターゲット）が含まれるため、質問文を迅速かつ正確に理解し、画像から正確な回答を推測することは困難である。

本開示は、画像の質疑応答方法、装置、電子デバイスおよび記憶媒体を提供する。

本開示の第一態様は、画像の質疑応答方法を提供し、当該方法は、
質問文に基づき、トポロジ構造を有するクエリグラフを構築し、質問文の問題特性を抽出することと、
質問文に対応するターゲット画像に基づき、トポロジ構造を有するビジュアルグラフとテキストグラフとを構築することと、
融合モデルを用いて、ビジュアルグラフ、テキストグラフ、およびクエリグラフを融合させ、最終融合グラフを得ることと、
最終融合グラフから抽出された推論特徴および質問特徴に基づき、質問文の回答情報を決定することと、を含む。

本開示の第二の態様は、画像の質疑応答装置を提供し、当該装置は、
質問文に基づき、クエリグラフの構築し、問題特徴を抽出するための質問文モジュールと、
質問文に対応するターゲット画像に基づき、ビジュアルグラフとテキストグラフを構築するための画像モジュールと、
融合モデルを用いて、ビジュアルグラフ、テキストグラフ、およびクエリグラフを融合させ、最終融合グラフを得るための融合モジュールと、
最終融合グラフから抽出された推理特徴および問題特徴に基づき、質問文の回答情報を決定するための決定モジュールと、を含む。

本開示の第三の態様は、画像の質疑応答の電子デバイスを提供し、当該デバイスの機能はハードウェアにより実現してもよく、ハードウェアにより相応のソフトウェアを実行することにより実現してもよい。ハードウェアもしくはソフトウェアには前記機能に対応する一つもしくは一つ以上のモジュールを備えている。

本開示の考えられる設計として、プロセッサと記憶媒体とを含む電子デバイスである。記憶媒体は電子デバイスが上記の画像の質疑応答方法を実行するためにサポートするプログラムを保存する。プロセッサは記憶媒体に保存されたプログラムを実行するために配置される。当該電子デバイスは通信インターフェースをさらに含み、他のデバイスやインターネットと通信可能にしてもよい。

本開示の第四の態様は、コンピュータ命令を保存する非一時的なコンピュータ可読記憶媒体を提供し、上記の画像の質疑応答方法を実行するために関連するプログラムを含む、電子デバイスおよび電子デバイスに使用されるコンピュータソフトウェア命令を格納する。

本開示の技術により、従来技術では画像から質問文に対応する回答を正確に推測することができないという問題を解決できる。本開示の実施形態では、ターゲット画像と質問文とに基づいて構築されるビジュアルグラフ、テキストグラフ、およびクエリグラフに対してクロスモーダルフュージョンを行うため、ターゲット画像が異なるモダリティにおける注目点（フォーカスポイント）を取得することができ、これによって、質問文の意図に基づき、画像質疑応答の回答をより正確に識別することができる。

ここに記載された内容は、本開示の実施形態のキーポイントまたは重要な特徴を標識することを意図せず、また、本開示の範囲を制限することにも用いられないことを理解すべきである。本開示の他の特徴については、下記の明細書を通して説明を促す。

添付図面は、本方案をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施形態による画像の質疑応答方法の概要図である。本開示の実施形態による画像の質疑応答方法のステップＳ１０の概要図である。本開示のもう一つの実施形態による画像の質疑応答方法のステップＳ１０方法の概要図である。本開示の実施形態による応用概要図である。本開示の実施形態による画像の質疑応答方法のステップＳ２０の概要図である。本開示のもう一つの実施形態による画像の質疑応答方法のステップＳ２０の概要図である。本開示のもう一つの実施形態による画像の質疑応答方法のステップＳ２０の概要図である。本開示のもう一つの実施形態による画像の質疑応答方法のステップＳ２０の概要図である。本開示の実施形態による画像の質疑応答方法のステップＳ３０の概要図である。本開示の実施形態による応用概要図である。本開示のもう一つの実施形態による画像の質疑応答方法の概要図である。本開示の実施形態による応用概要図である。本開示の実施形態による画像の質疑応答装置の概要図である。本開示の実施形態を実現する画像の質疑応答電子デバイスのブロック図である。

以下では、本出願の例示的な実施形態を、理解を容易にするために本出願の実施形態の様々な詳細を含む添付の図面に関連して説明するが、これらは単に例示的なものであると考えるべきである。したがって、当業者は、本出願の範囲および精神を逸脱することなく、本明細書に記載された実施形態に様々な変更および修正を加えることができることを認識すべきである。同様に、以下の説明では、周知の機能及び構成については、明確化及び簡明化のために説明を省略する。

本開示の実施形態によれば、本開示は、図１に示すように、画像の質疑応答方法を提供する。当該方法は、以下のステップを有する。

Ｓ１０：質問文に基づき、トポロジ構造を有するクエリグラフを構築し、質問文の問題特性を抽出する。

質問文は画像に対して質問するいかなる内容を含んでもよい。質問文は音声形式での文でもよく、テキスト形式での文でもいい。例えば、質問文は「画像の中に男性は何人いるか？」という文でもよい。

クエリグラフはノードとノードとの間のエッジ関係によって構築されたトポロジグラフであると理解してもよい。当該トポロジグラフの具体的なノード、ノードに対応する特徴およびノード間のエッジ関係は質問文に基づきカスタマイズできる。

問題特徴は質問文の意図や意味を表すための任意の特徴を含んでもよい。得られる質問特徴が質問文に関連する内容を表すことが実現可能であれば、質問特徴の抽出する方法および質問特徴のディメンション（ｄｉｍｅｎｓｉｏｎ）は、必要に応じて選択および調整してもよい。

Ｓ２０は、質問文に対応するターゲット画像に基づき、トポロジ構造のビジュアルグラフとテキストグラフとを構築する。

ターゲット画像は質問文に言及されるターゲットであると理解してもよい。ターゲット画像は一枚でも複数枚でもよい。

ビジュアルグラフはノードとノードとの間のエッジ関係によって構築されたトポロジグラフであると理解してもよい。当該トポロジの具体的なノード、ノードに対応する特徴およびノード間のエッジ関係は質問文に基づきカスタマイズできる。ビジュアルグラフはターゲット画像において識別された各ターゲットビジュアルに関連する内容のトポロジ関係を表すためものであってもよい。

テキストグラフはノードとノードとの間のエッジ関係によって構築されたトポロジグラフであると理解してもよい。当該トポロジの具体的なノード、ノードの特徴およびノード間のエッジ関係は質問文に基づきカスタマイズできる。テキストグラフはターゲット画像において識別された各ターゲット種類と相互の相関関係のトポロジ関係を表すためのものであってもよい。

Ｓ３０：融合モデルを用いて、ビジュアルグラフ、テキストグラフ、およびクエリグラフを融合させ、最終融合グラフを得る。

融合モデルは、異なるモダリティでのトポロジグラフの融合を実現可能であれば、従来技術の任意のニューラルネットワークモデルを用いてもよい。

最終融合グラフは、ビジュアルグラフの各ノードのノード特徴および／またはノードのエッジ関係、テキストグラフの各ノードのノード特徴および／またはノードのエッジ関係、およびクエリグラフの各ノードのノード特徴および／またはノードのエッジ関係を含んでもよい。

Ｓ４０：最終融合グラフから抽出された推論特徴および質問特徴に基づき、質問文の回答情報を決定する。

推理特徴は、質問文とターゲット画像との間の関係を表すものとして理解してもよい。回答情報は、質問文の意図とターゲット画像における画像内容に基づく質問文に対する回答として理解してもよい。例えば、質問文が「画像の中に男性は何人いるか？」である場合、回答情報が「画像の中に男性は３人いる」であってもよい。

本開示による技術は、質問文に対する回答が画像から正確に推測できないという従来の課題を解決する。本開示の実施形態は、ビジュアルグラフとクエリグラフとを構築することによって異なるモダリティでの注目点を学習し、複数のターゲット画像を含むことと複雑な問題によって引き起こされるノイズを低減する。同時に、ターゲット画像における各ターゲット間の視覚的な意味関係を明示的に表すテキストグラフを構築することにより、関係推論の機能を向上させる。同時に、ターゲット画像と質問文とに基づいて構築されたビジュアルグラフ、テキストグラフ、およびクエリグラフに対してクロスモーダルフュージョン（ａｃｒｏｓｓｍｏｄａｌｉｔｉｅｓｆｕｓｉｏｎ）を行うため、ターゲット画像が異なるモダリティにおける注目点および質問文の意図に基づいて、多段階の関係推論により、より正確に画像の質疑応答の回答を識別することを実現できる。

本開示の実施方法では、図２が示すように、質問文に基づき、クエリグラフを構築する。当該方法は、以下のステップを有する。

構文分析アルゴリズムは、自然言語処理（ＮＬＰ、ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓＳｉｎｇ）の任意のアルゴリズム、例えば、依存関係の解析 (ＤｅｐｅｎｄｅｎｃｙＰａｒｓｉｎｇ )、構文構造の解析(ｓｙｎｔａｃｔｉｃｓｔｒｕｃｔｕｒｅｐａｒｓｉｎｇ)、構成要素の構造の解析 (ｃｏｎｓｔｉｔｕｅｎｔｓｔｒｕｃｔｕｒｅｐａｒｓｉｎｇ)、フレーズ構造 (ｐｈｒａｓｅｓｔｒｕｃｔｕｒｅｐａｒｓｉｎｇ)の解析などが用いられる。

Ｓ１２：質問文に基づき、各単語ノードのノード特徴を決定する。

Ｓ１３：各単語ノードの特徴および各単語ノード間のエッジ関係に基づき、クエリグラフを構築する。

本実施形態では、質問文に基づきクエリグラフが構築され、質問文における各単語間の関連関係および各単語の特徴ベクトルを効果的に取得し、質問文の注目点をさらに正確に決定することができる。

本開示の実施形態において、図３が示すように、画像の質疑応答方法がさらに下記のステップを有する。

Ｓ５０：第一の符号化モデルを用いて、各単語ノードのノード特徴を更新する。

クエリグラフの各単語ノードのノード特性に対する更新が実現可能であれば、第一の符号化ネットワークは、任意のニューラルネットワーク構造を用いてもよい。

第一の符号化モデルは、クエリグラフの単語ノードのノード特性と単語ノード間のエッジ関係に対して計算することにより、クエリグラフの各単語ノードのノード特性を更新してもよく、クエリグラフにおける各ノードのノード特徴をもっと正確にすることができる。

実施例の中で、図４が示すように、第一の符号化モデルを用いて、各単語ノードのノード特徴を更新する。当該方法は、下記のステップを有する。

クエリグラフのエッジ関係Ｅに基づき、対角行列とラプラス変換を用いて、ラプラシアン行列Ｌ（ｇｒａｐｈＬａｐｌａｃｉａｎ）を得る。

更新されたノード特徴Ｘ’を関連層（Ａｄｊ）に入力し、関連層を用いて各ノードの潜在関係の行列Ａ’を学習する。具体的には以下の通りである：

ただし、ｉはノード番号を表し、ｊはノード番号を表し、Ｋ_lはノードの数を表す。

各ノード特徴の更新結果に基づき、クエリグラフの更新を完成させる。

本開示の実施方法において、図５が示すように、質問文に対応するターゲット画像に基づき、ビジュアルグラフを構築する。当該方法は：下記のステップを有する。

Ｓ２１：ターゲット検出アルゴリズムを用いて、ターゲット画像の各ターゲットを識別し、各ターゲットの外観特徴と空間特徴とを決定する。

ターゲット画像に含むターゲットは画像における全てのものであると理解してよい。例えば、画像における人物、建築、交通手段動物など、いずれもターゲットとみなされる。

空間特徴は画像において識別されたターゲットが画像の中での位置、角度などを含む。外観特徴はターゲットの視覚的関連内容を表す特徴を含んでもよい。例えば、テクスチャー、色、形およびより高い次元（ディメンション）の特徴であってもよい。

Ｓ２３：各ターゲット間のオーバーラップ度（ＩＯＵ，ｉｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒｕｎｉｏｎ、ユニオン上の交差）に基づき、各ビジュアルノード間のエッジ関係を決定する。

Ｓ２４：各ビジュアルグラフノードのノード特徴および各ビジュアルグラフノード間のエッジ関係に基づき、ビジュアルグラフを構築する。

本実施形態ではターゲット画像に基づいて構築されたビジュアルグラフにより、ターゲット画像にけるターゲットの各々を表す特徴ベクトル、および、各ターゲット間の視覚的関連特徴の関連関係を効果的に得ることができる。

本開示の実施方法では、図６が示すように、画像の質疑応答方法は、以下のステップをさらに有する。

Ｓ６０：第二の符号化モデルと用いて各ビジュアルノードのノード特徴を更新する。

第二の符号化ネットワークは第一符号化ネットワークと同じ構造を用いてもよい。第二の符号化ネットワークがビジュアルグラフの各ビジュアルノードのノード特徴に対する更新プロセスは、上記の第一の符号化がクエリグラフの各単語ノードのノード特徴に対する更新プロセスとほぼ一致のため、ここでは改めて説明しないことにする。具体的な更新プロセスは上記の第一の符号化ネットワークを参考してもよい。両者の違いは、入力されたトポロジグラフが異なること、すなわち入力されたノードのノード特徴とエッジ関係が異なることにある。

第二の符号化モデルは、ビジュアルグラフのビジュアルグラフノードのノード特徴およびビジュアルグラフノード間のエッジ関係を計算することにより、ビジュアルグラフにおける各ビジュアルグラフノードのノード特徴を更新してもよく、ビジュアルグラフにおける各ビジュアルグラフノードのノード特徴をより正確にすることができる。

一例では、第一の符号化ネットワークと第二の符号化ネットワークは同じ符号化ネットワークであり、すなわちビジュアルグラフとクエリグラフは同じ符号化ネットワークによりノード特徴の更新を行う。

本開示の実施方法において、図７に示すように、問題文に対応するターゲット画像を基づき、テキストグラフを構築する。当該方法は以下のステップを有する。

Ｓ２５：視覚関係検出アルゴリズム（ＶＲＤ、ＶｉｓｕａｌＲｅｌａｔｉｏｎｓｈｉｐＤｅｔｅｃｔｉｏｎ）を用いて、ターゲット画像における各ターゲットのラベル特徴および各ターゲット間の関係特徴を決定する。

ラベル特徴はターゲットが属する種類の特徴を含んでもよい。例えば、ラベル特徴により、ターゲットを人物、建築あるいは車両などに決定することができる。ターゲット間の関係特徴は二つのターゲット間の位置関係を表す特徴を含んでもよい。例えば、ターゲットの関係特徴によりターゲット１（人物）とターゲット２（自転車）との間の関係はターゲット１がターゲット２の上に乗っているということを決定することができる。

Ｓ２６：各ターゲットのラベル特徴と各ターゲット間の関係特徴とに基づき、各ターゲットから構成される各テキストグラフノードのノード特徴を決定する。

Ｓ２７：各ターゲット間の関係特徴に基づき、各テキストグラフノード間のエッジ関係を決定する。

Ｓ２８：各テキストグラフノードのノード特徴および各テキストノード間のエッジ関係に基づき、テキストグラフを構築する。

本開示の実施形態では、ターゲット画像に基づいて構築されたテキストグラフにより、ターゲット画像におけるターゲットの各々の種類を表すラベル特徴および、各ターゲット間の関連関係特徴を効果的に得ることができる。

一実施形態においては、図８に示すように、画像の質疑応答方法はさらに以下のステップを有する。

Ｓ７０：各テキストグラフノードのノード特徴に対し第三の符号化モデルで更新する。

第三の符号化ネットワークは第一の符号化ネットワークと同じ構造を用いてもよい。第三の符号化ネットワークがテキストグラフの各テキストグラフノードのノード特徴に対する更新プロセスは、上記第一の符号化ネットワークのクエリグラフの各単語ノードのノード特徴に対する更新プロセスと一致しているため、ここでは改めて説明しないことにする。具体的な更新プロセスは、上記の第一の符号化ネットワークを参照してもよい。両者の違いは、入力されたトポロジ図が異なること、すなわち入力されたノードのノード特徴とエッジ関係が異なることにある。

第三の符号化モデルは、テキストグラフのテキストグラフノードのノード特徴およびテキストグラフノード間のエッジ関係を計算することにより、テキストグラフにおける各テキストグラフノードのノード特徴を更新してもよく、テキストグラフにおける各テキストグラフノードのノード特徴をより正確にすることができる。

一例では、第一の符号化ネットワークと第三の符号化ネットワークは同じ符号化ネットワークであり、すなわちテキストグラフとクエリグラフは同じ符号化ネットワークによりノード特徴の更新を行う。

一例では、第一の符号化ネットワーク、第二の符号化ネットワーク、および第三の符号化ネットワークは同じ符号化ネットワークであり、すなわちテキストグラフ、ビジュアルグラフ、およびクエリグラフは、同じ符号化ネットワークによりノード特徴の更新を行う。

本開示の実施形態において、図９に示すように、融合モデルを用いてビジュアルグラフ、テキストグラフおよびクエリグラフを融合させ、最終融合グラフを得る。当該方法は以下のステップを有する。

Ｓ３１：第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させ、第一の融合グラフを得る。

Ｓ３２：第二の融合モデルを用いてテキストグラフとクエリグラフとを融合させ、第二の融合グラフを得る。

Ｓ３３：第三の融合モデルを用いて第一の融合グラフと第二の融合グラフを融合させ、最終融合グラフを得る。

本開示の実施形態では、ターゲット画像と質問文とに基づいて構築されたビジュアルグラフ、テキストグラフ、およびクエリグラフに対してクロスモーダルフュージョンを行うため、ターゲット画像が異なるモダリティにおける注目点を取得することができ、これによって、質問文の意図に基づき、画像の質疑応答の回答をより正確に識別することができる。

一例では、第一の融合モデル、第二の融合モデル、および第三の融合モデルは、逐次に同じ神経ネットワーク構造を用いてもよい。第一の融合モデル、第二の融合モデル、および第三の融合モデルは、同じ融合モデルであってもよい。すなわち一つの融合モデルによって上記ステップＳ３１〜Ｓ３３を実行する。

一例では、図１０に示すように、第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させ、第一の融合グラフを得る。当該方法は、下記のステップを有する。

一例では、第二の融合モデルは第一の融合モデルと同じ構造を用いてもよい。第二の融合モデルを用いてテキストグラフとクエリグラフとを融合させるプロセスは、第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させるプロセスと一致しているため、ここでは改めて説明しないことにする。具体的な融合プロセスは、上記の第一の融合モデルの実施形態を参照してもよい。

第三の融合モデルは第一の融合モデルと同じ構造を用いてもよい。第三の融合モデルを用いて第一の融合グラフと第二の融合グラフとを融合させるプロセスは、第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させるプロセスと一致しているため、ここでは改めて説明をしないことにする。具体的な融合プロセスは、上記の第一の融合モデルの実施形態を参照してもよい。

本開示の実施形態において、図１１に示すように、最終融合グラフから抽出された推理特徴および問題特徴に基づいて、質問文の回答情報を決定する。当該方法では、下記のステップを有する。

Ｓ４１：最終融合グラフから抽出した推理特徴および問題特徴に基づき、多層パーセプトロン（ＭＬＰ，ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ）を用いて質問文の回答情報を決定する。

本実施形態では、多層パーセプトロンにより推理特徴および問題特徴に対して計算を行い、質問文の回答情報を正確に推理することができる。

一例において、最終融合グラフは、最終的な回答を生成するために必要な推理的特徴を最大プーリング（ＭａｘＰｏｏｌｉｎｇ）操作により求められる。

一例では、質問文に従って、質問文の問題特徴を抽出する。当該方法では、下記のステップを有する。

ｗｏｒｄｅｍｂｅｄｄｉｎｇ（ワード埋め込み）とＢｉ‐ＧＲＵ特徴符号化を用いて質問文を処理し、対象語句の問題特徴を決定する。

一例では、図１２に示すように、画像の質疑回答方法は、次のステップを有する。

依存構文解析アルゴリズム（ｄｅｐｅｎｄｅｎｃｙｓｙｎｔａｃｔｉｃｐａｒｓｉｎｇａｌｇｏｒｉｔｈｍ）と質問文を用いてクエリグラフを構築し、各単語ノードのノード特徴を第一の符号化モデルで更新し、更新されたクエリグラフを得る。

ＦａｓｔｅｒＲＣＮＮとターゲット画像を用いてビジュアルグラフを構築し、各ビジュアルノードのノード特徴を第二の符号化モデルで更新し、更新されたビジュアルグラフを得る。

視覚関係検出アルゴリズムとターゲット画像とを用いてテキストグラフを構築し、各テキストグラフノードのノード特徴を第三の符号化モデルで更新し、更新されたテキストグラフを得る。

第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させ、第一の融合グラフを得て、第二の融合モデルを用いてテキストグラフとクエリグラフとを融合させ、第二の融合グラフを得て、第三の融合モデルを用いて第一の融合グラフと第二の融合グラフとを融合させ、最終融合グラフを得る。

最終融合グラフは、最終回答の生成に必要な推理的特徴を最大プーリング（ＭａｘＰｏｏｌｉｎｇ）操作により得られる。

単語埋め込みおよびＢｉ‐ＧＲＵ特徴符号化により、対象文の問題点の特徴を決定する。

最終融合グラフから抽出された推理特徴および問題特徴に基づいて、多層パーセプトロンを用いて質問文の応答情報を決定する。

本開示の実施形態によれば、図１３に示すように、画像質疑回答装置を提供する。当該画像質疑回答装置は、下記のモジュールを有する。

質問文モジュール１０は、質問文に基づき、クエリグラフを構築し、質問文の問題特徴を抽出する。

画像モジュール２０は、質問文に対応するターゲット画像に基づき、ビジュアルグラフとテキストグラフとを構築する。

融合モジュール３０は、融合モデルを用いてビジュアルグラフ、テキストグラフ、およびクエリグラフを融合させ、最終融合グラフを得る。

決定モジュール４０は、最終融合グラフから抽出された推理特徴および問題特徴に基づき、質問文の回答情報を決定する。

本開示の実施形態において、融合モジュール３０は、以下のサブモジュールを有する。

第一の融合サブモジュールは、第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させ、第一の融合グラフを得る。

第二の融合サブモジュールは、第二の融合モデルを用いてテキストグラフとクエリグラフとを融合させ、第二の融合グラフを得る。

第三の融合サブモジュールは、第三の融合モデルを用いて第一の融合グラフと第二の融合グラフとを融合させ、最終融合グラフを得る。

本開示の実施形態において、質問文モジュール１０は、以下のサブモジュールを有する。

第一の確定サブモジュールは、構文解析アルゴリズムを用いて質問文を計算し、質問文における各単語により構成される各単語ノード間のエッジ関係を決定する。

第二の確定サブモジュールは、質問文に従って、各単語ノードのノード特徴を決定するに使用する。

第一の構築サブモジュールは、各単語ノードのノード特徴および各単語ノード間のエッジ関係に基づいて、クエリグラフを構築するために使用する。

本開示の実施形態において、画像の質疑応答装置はさらに、各単語ノードのノード特徴を第一の符号化モデルを用いて更新する第一の更新モジュールを有する。

本開示の実施形態において、画像モジュール２０は、以下のサブモジュールを有する。

第三の決定サブモジュールは、ターゲット検出アルゴリズムを用いて、ターゲット画像に含まれる各ターゲットを識別し、各ターゲットの外観特徴および空間特徴を決定する。

第四の決定サブモジュールは、各ターゲットの外観特徴と空間特徴とに基づいて、各ターゲットから構成される各ビジュアルグラフノードのノード特徴を決定する。

第五の決定サブモジュールは、各ターゲット間のオーバーラップ度に基づき、各ビジュアルグラフノード間のエッジ関係を決定する。

第二の構築サブモジュールは、各ビジュアルグラフノードのノード特徴および各ビジュアルグラフノード間のエッジ関係に基づいてビジュアルグラフを構築する。

本開示の実施形態において、画像質疑応答装置はさらに、第二の符号化モデルを用いて、各ビジュアルグラフノードのノード特徴を更新する第二の更新モジュールを有する。

第六の決定サブモジュールは、視覚関係検出アルゴリズムを用いて、ターゲット画像において識別された各ターゲットのラベル特徴および各ターゲット間の関係特徴を決定する。

第七の決定サブモジュールは、各ターゲットのラベル特徴と各ターゲット間の関係特徴とに基づき、各ターゲットからなる各テキストグラフノードのノード特徴を決定する。

第八の決定サブモジュールは、各ターゲット間の関係特徴に基づき、各テキストグラフノード間のエッジ関係を決定する。

第三の構築サブモジュールは、各テキストグラフノードのノード特徴および各テキストグラフノード間のエッジ関係に基づき、テキストグラフを構築する。

本開示の実施形態において、画像の質疑応答装置はさらに、
各テキストグラフノードのノード特徴を第三の符号化モデルによって更新する第三の更新モジュールを有する。

本開示の実施形態において、決定モジュール４０は、
最終融合グラフから抽出された推理特徴および問題特徴に基づき、多層パーセプトロンを用いて質問文の回答情報を決定する第九の確定サブモジュールを有する。

本開示に記載する画像の質疑応答装置の機能は、上記画像の質疑応答方法の各実施形態を参照することができる。

本開示の実施形態をもとに、本申請は、さらに電子デバイスおよび可読記憶媒体を提供する。

図１４に示すように、本開示の実施形態に係る画像の質疑応答の方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。また、パーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、および他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は一例としてだけであり、本明細書で説明されたものおよび／または要求される本明細書の実施を制限することは意図されない。

図１４に示すように、電子機器は、１つ以上のプロセッサ１４０１と、メモリ１４０２と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースと、を含む。各構成要素は、異なるバスを用いて互いに接続し、共通のマザーボードに取り付けられてもよく、必要に応じて他の方法でインストールされてもよい。プロセッサ−は、ＧＵＩのグラフィカル情報を外部入出力装置（例えば、インターフェースに接続された表示装置）に表示するためのメモリまたはメモリ上に記憶された命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施形態では、必要ならば、複数のプロセッサおよび／または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作（例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして）を提供する。図１４では、１つのプロセッサ−１４０１を例にしている。

メモリ１４０２は、本明細書に提供される非一時的なコンピュータ可読記憶媒体である。メモリは、少なくとも１つのプロセッサによって実行されることができる命令を記憶しており、少なくとも１つのプロセッサに本明細書で提供される画像質疑応答の方法を実行できる。本明細書の非一時的なコンピュータ可読記憶媒体は、コンピュータに本明細書で提供される画像の質疑応答の方法を実行させるためのコンピュータ命令を記憶している。

メモリ１４０２は、非一時的なコンピュータ可読記憶媒体として、本明細書の実施形態における画像問答の方法に対応するプログラム命令／モジュール（例えば、図１３に示す質問文モジュール１０、画像モジュール２０、融合モジュール３０、および決定モジュール４０）のように非一時的なソフトウェアプログラム、非一時的なコンピュータ実行プログラム、およびモジュールを記憶するために使用されてもよい。プロセッサ１４０１は、メモリ１４０２に格納された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、すなわち、上述した方法の実施形態における画像の質疑応答方法を実行する。

メモリ１４０２は、プログラム格納領域とデータ格納領域を含む。プログラム格納領域は、少なくとも１つの機能に必要なアプリケーションを記憶することができ、データ格納領域は、画像の質疑応答の電子デバイスの使用に応じて作成されたデータなどを記憶することができる。さらに、メモリ１４０２は、高速ランダムアクセスメモリを含み、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的な固体記憶装置を含むことができる。いくつかの実施形態では、メモリ１４０２は、プロセッサ１４０１に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して画像の質疑応答用の電子デバイスに接続することができる。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。

画像質疑応答の方法の電子デバイスは、入力装置１４０３と出力装置１４０４とをさらに含むことができる。プロセッサ１４０１、メモリ１４０２、入力装置１４０３および出力装置１４０４は、バスまたは他の方法で接続されてもよく、図１４ではバスを介して接続されている例である。

入力装置１４０３は、入力された数字または文字情報を受信し、画像質疑応答の電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成してもよい。例えばタッチスクリーン、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力デバイス１４０４は、表示デバイス、補助照明デバイス（例えばＬＥＤ）、および触覚フィードバックデバイス（例えば、振動モータ）などを含んでもよい。この表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定しない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

ここで記載するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムにおいて実装されてもよく、１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能システム上で実行されてもよく、および／または解釈されてもよく、このプログラマブルプロセッサは、記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力から実行されてもよい。装置は、データと命令を受信し、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置にデータと命令を送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう）は、プログラマブルプロセッサのマシン命令を含み、高度なプロセスおよび／またはターゲットに向けたプログラミング言語、および／またはアセンブリ／マシン言語を用いてこれらの計算プログラムを実施することができる。本明細書で使用されるように、用語「機械可読媒体」および「コンピュータ可読媒体」は、機械命令および／またはデータをプログラム可能プロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を指し、機械可読信号としての機械命令を受信するマシンを含む。媒体用語「機械可読信号」は、機械命令および／またはデータをプログラム可能なプロセッサに提供するための任意の信号を意味する。

ユーザとインターアクトするために、コンピュータで本明細書が説明するシステムおよび技術を実施することができる。このコンピュータは、ユーザに情報を表示する表示装置（例えば、CRT（ブラウン管）またはLCD（液晶ディスプレイ）モニタ）と、キーボードおよび指向装置（例えば、マウスまたはトラックボール）とを有する。ユーザはこのキーボードと指向装置でコンピュータに情報を入力できる。他の種類のデバイスは、ユーザとのインターアクトするためにも使用される。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、いかなる形式（音声入力、音声入力、または触覚入力を含む）で受信されてもよい。

本明細書で説明するシステムおよび技術は、バックグラウンド構成要素を含む計算システム（例えば、データサーバとして）、または中間部品を含む計算システム（例えば、アプリケーションサーバ）、または、フロントエンド構成要素を含む計算システム（例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータでは、ユーザはグラフィカルユーザインタフェースまたはネットワークブラウザを通して、ここで記述されたシステムと技術の実施方法とインターアクトできる）、または、このようなバックグラウンド構成要素、中間部品、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて使用される。システムの構成要素は、任意の形態またはメディアのデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に離れており、通信ネットワークを介してインターアクトする。それぞれのコンピュータ上を作動し、クライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバの関係が生成される。

上記の様々な形態のフローを用いて、順序付け、追加、またはステップ削除が可能であることを理解すべきである。例えば、本明細書では、本開示に記載された各ステップを並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良いし、本明細書では、本明細書では、本開示の技術案が所望する結果を実現することができる限り、これに限定されない。

上記具体的な実施形態は、本出願の保護範囲に対する制限を構成していない。当業者は、設計要求とその他の要因によって、様々な修正、組み合わせ、サブグループ、および代替が可能であることを理解するべきである。本出願の精神及び原則内における補正、均等置換及び改善等は、いずれも本出願の保護範囲に含まれるべきである。

Claims

質問文に基づき、トポロジ構造を有するクエリグラフを構築し、前記質問文の問題特徴を抽出することと、
前記質問文に対応するターゲット画像に基づき、トポロジ構造を有するビジュアルグラフとテキストグラフとを構築することと、
融合モデルを用いて、前記ビジュアルグラフ、前記テキストグラフ、および前記クエリグラフを融合させ、最終融合グラフを得ることと、
前記最終融合グラフから抽出された推理特徴および問題特徴に基づき、前記質問文の回答情報を決定することと、を含む
ことを特徴とする画像の質疑応答方法。
前記融合モデルを用いて、前記ビジュアルグラフ、前記テキストグラフ、および前記クエリグラフを融合させ、最終融合グラフを得ることには、
第一の融合モデルを用いてビジュアルグラフと前記テキストグラフとを融合させ、第一の融合グラフを得ることと、
第二の融合モデルを用いて前記テキストグラフと前記クエリグラフとを融合させ、第二の融合グラフを得ることと、
第三の融合モデルを用いて前記第一の融合グラフと前記第二の融合グラフとを融合させ、前記最終融合グラフを得ることと、を含む
ことを特徴とする請求項１に記載の画像の質疑応答方法。
前記質問文に基づき、クエリグラフを構築することには、
構文解析アルゴリズムを用いて、前記質問文を計算し、前記質問文における各単語により構成される各単語ノード間のエッジ関係を決定することと、
前記質問文に基づき、前記各単語ノードのノード特徴を決定することと、
前記各単語ノードのノード特徴および前記各単語ノード間のエッジ関係に基づき、クエリグラフを構築することと、を含む
ことを特徴とする請求項１に記載の画像の質疑応答方法。
第一の符号化モデルを用いて前記各単語ノードのノード特徴を更新すること、をさらに含む
ことを特徴とする請求項３に記載の画像の質疑応答方法。
前記質問文に対応するターゲット画像に基づき、ビジュアルグラフを構築することには、
ターゲット検出アルゴリズムを用いて、前記ターゲット画像に含まれる各ターゲットを識別し、前記各ターゲットの外観特徴と空間特徴とを決定することと、
前記各ターゲットの外観特徴と空間特徴とに基づき、前記各ターゲットから構成される各ビジュアルグラフノードのノード特徴を決定することと、
前記各ターゲット間のオーバーラップ度に基づき、前記各ビジュアルグラフノード間のエッジ関係を決定することと、
前記各ビジュアルグラフノードのノード特徴および前記各ビジュアルグラフノード間のエッジ関係に基づき、前記ビジュアルグラフを構築することと、を含む
ことを特徴とする請求項１に記載の画像の質疑応答方法。
第二の符号化モデルを用いて前記各ビジュアルノードのノード特徴を更新すること、をさらに含む
ことを特徴とする請求項５に記載の画像の質疑応答方法。
前記質問文に対応するターゲット画像に基づき、テキストグラフを構築することには、
視覚関係検出アルゴリズムを用いて、前記ターゲット画像において識別された各ターゲットのラベル特徴および前記各ターゲット間の関係特徴を決定することと、
前記各ターゲットのラベル特徴と各ターゲット間の関係特徴とに基づき、前記各ターゲットからなる各テキストグラフノードのノード特徴を決定することと、
前記各ターゲット間の関係特徴に基づき、前記テキストグラフノード間のエッジ関係を決定することと、
前記各テキストグラフノードのノード特徴および前記各テキストグラフノード間のエッジ関係に基づき、前記テキストグラフを構築することと、を含む
ことを特徴とする請求項１に記載の画像の質疑応答方法。
第三の符号化モデルを用いて前記各テキストグラフノードのノード特徴を更新すること、をさらに含む
ことを特徴とする請求項７に記載の画像の質疑応答方法。
前記最終融合グラフから抽出された推理特徴および問題特徴に基づき、前記質問文の回答情報を決定することには、
前記最終融合グラフから抽出された推理特徴および問題特徴に基づき、多層パーセプトロンを用いて前記質問文の回答情報を決定すること、を含む
ことを特徴とする請求項１〜８のいずれか１項に記載の画像の質疑応答方法。
質問文に基づき、トポロジ構造を有するクエリグラフを構築し、質問文の問題特徴を抽出するための質問文モジュールと、
前記質問文に対応するターゲット画像に基づき、トポロジ構造を有するビジュアルグラフとテキストグラフとを構築するための画像モジュールと、
融合モデルを用いて、前記ビジュアルグラフ、前記テキストグラフおよび前記クエリグラフを融合させ、最終融合グラフを得るための融合モジュールと、
前記最終融合グラフから抽出された推理特徴および問題特徴に基づき、前記質問文の回答情報を決定するための決定モジュールと、を備える
ことを特徴とする画像の質疑応答装置。
前記融合モジュールは、
第一の融合モデルを用いて、ビジュアルグラフと前記テキストグラフとを融合させ、第一の融合グラフを得るための第一の融合サブモジュールと、
第二の融合モデルを用いて、前記テキストグラフと前記クエリグラフとを融合させ、第二の融合グラフを得るための第二の融合サブモジュールと、
第三の融合モデルを用いて、前記第一の融合グラフと前記第二の融合グラフとを融合させ、前記最終融合グラフを得るための第三の融合サブモジュールと、を備える
ことを特徴とする請求項１０に記載の画像の質疑応答装置。
前記質問文モジュールは、
構文解析アルゴリズムを用いて、質問文を計算し、質問文における各単語により構成される各単語ノード間のエッジ関係を決定するための第一の決定サブモジュールと、
前記質問文に基づき、前記各単語ノードのノード特徴を決定するための第二の決定サブモジュールと、
前記各単語ノードのノード特徴および各単語ノード間のエッジ関係に基づき、クエリグラフを構築するための第一の構成サブモジュールと、を備える
ことを特徴とする請求項１０に記載の画像の質疑応答装置。
第一の符号化モデルを用いて前記各単語ノードのノード特徴を更新するための第一の更新モジュール、をさらに備える
ことを特徴とする画像の質疑応答装置。
前記画像モジュールは、
ターゲット検出アルゴリズムを用いて、前記ターゲット画像に含まれる各ターゲットを識別し、前記各ターゲットの外観特徴と空間特徴とを決定するための第三の決定サブモジュールと、
前記各ターゲットの外界特徴と空間特徴とに基づいて、前記各ターゲットから構成される各ビジュアルグラフノードのノード特徴を決定するための第四の決定サブモジュールと、
前記各ターゲット間のオーバーラップ度に基づき、前記各ビジュアルグラフノード間のエッジ関係を決定するための第五の決定サブモジュールと、
前記ビジュアルグラフノードのノード特徴および前記各ビジュアルグラフノード間のエッジ関係に基づき、前記ビジュアルグラフを構築するための第二の構成サブモジュールと、を備える。
ことを特徴とする請求項１２に記載の画像の質疑応答装置。
第二の符号化モデルを用いて前記各ビジュアルグラフノードのノード特徴を更新するための第二の更新モジュール、をさらに備える
ことを特徴とする請求項１４に記載の画像の質疑応答装置。
前記画像モジュールは、
視覚関係検出アルゴリズムを用いて、前記ターゲット画像において識別された前記各ターゲットのラベル特徴および前記各ターゲット間の関係特徴を決定するための第六の確定サブモジュールと、
前記各ターゲットのラベル特徴と各ターゲット間の関係特徴とに基づき、前記各ターゲットからなる各テキストグラフノードのノード特徴を決定するための第七の決定サブモジュールと、
前記各ターゲット間の関係特徴に基づき、前記各テキストグラフノード間のエッジ関係を決定するための第八の確定サブモジュールと、
前記各テキストグラフノードのノード特徴および前記各テキストグラフノード間のエッジ関係に基づき、前記テキストグラフを構築するため第三の構築サブモジュールと、を備える
ことを特徴とする請求項１０に記載の画像の質疑応答装置。
第三の符号化モデルを用いて前記各テキストグラフノードのノード特徴を更新するための第三の更新モジュール、をさらに備える
ことを特徴とする請求項１６に記載の画像の質疑応答装置。
前記確定モジュールは、
前記最終融合グラフから抽出された推理特徴および前記問題の特徴に基づき、多層パーセプトロンを用いて質問文の回答情報を決定するための第九の確定サブモジュール、を備える
ことを特徴とする請求項１０〜１７のいずれか１項に記載の画像の質疑応答装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶され、
請求項１〜９のいずれか１項に記載の画像の質疑応答方法を実行させるよう、前記命令が前記少なくとも１つのプロセッサにより実行されることを特徴とする電子デバイス。
請求項１〜９のいずれか１項に記載の画像の質疑応答方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１〜９のいずれか１項に記載の画像の質疑応答方法を実現することを特徴とするプログラム。