JP2021103576A - 画像の質疑応答方法、装置、電子デバイス、記憶媒体、及びプログラム - Google Patents

画像の質疑応答方法、装置、電子デバイス、記憶媒体、及びプログラム Download PDF

Info

Publication number
JP2021103576A
JP2021103576A JP2021051835A JP2021051835A JP2021103576A JP 2021103576 A JP2021103576 A JP 2021103576A JP 2021051835 A JP2021051835 A JP 2021051835A JP 2021051835 A JP2021051835 A JP 2021051835A JP 2021103576 A JP2021103576 A JP 2021103576A
Authority
JP
Japan
Prior art keywords
graph
question
text
node
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021051835A
Other languages
English (en)
Other versions
JP7291169B2 (ja
Inventor
キン,シャーメン
Xiameng Qin
リ,ユーリン
Yulin Li
ファン,ジュ
Ju Huang
シェ,クンイー
Qunyi Xie
ハン,ジュンユ
Junyu Han
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021103576A publication Critical patent/JP2021103576A/ja
Application granted granted Critical
Publication of JP7291169B2 publication Critical patent/JP7291169B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像に対する質疑応答方法、装置、電子デバイス、記憶媒体及びプログラムを提供する。【解決手段】質疑応答方法は、質問文に基づき、トポロジ構造を有するクエリグラフを構築し、前記質問文の問題特徴を抽出することと、質問文に対応するターゲット画像に基づき、トポロジ構造を有するビジュアルグラフとテキストグラフとを構築すること、融合モデルを用いて、ビジュアルグラフ、テキストグラフクエリグラフおよびクエリグラフを融合させ、最終融合グラフを得ることと、最終融合グラフから抽出した推理特徴および問題特徴に基づき、質問文の回答を確定することと、を含む。ターゲット画像と質問文とをもとに構築したビジュアルグラフ、テキストグラフ及びクエリグラフをクロスモードで融合するため、異なる形態でのターゲット画像の注目点が得られ、これを基に、質問文の意図に基づいて、より正確に画像の質疑応答の回答を識別できる。【選択図】図1

Description

本開示は、画像処理に関する。特にコンピュータビジョン、深層学習および自然言語処理に関する。
既存の画像の質疑応答技術において、通常、質問文には話し言葉による説明が多く含まれ、また質問文に対応する画像には多くの標的(ターゲット)が含まれるため、質問文を迅速かつ正確に理解し、画像から正確な回答を推測することは困難である。
本開示は、画像の質疑応答方法、装置、電子デバイスおよび記憶媒体を提供する。
本開示の第一態様は、画像の質疑応答方法を提供し、当該方法は、
質問文に基づき、トポロジ構造を有するクエリグラフを構築し、質問文の問題特性を抽出することと、
質問文に対応するターゲット画像に基づき、トポロジ構造を有するビジュアルグラフとテキストグラフとを構築することと、
融合モデルを用いて、ビジュアルグラフ、テキストグラフ、およびクエリグラフを融合させ、最終融合グラフを得ることと、
最終融合グラフから抽出された推論特徴および質問特徴に基づき、質問文の回答情報を決定することと、を含む。
本開示の第二の態様は、画像の質疑応答装置を提供し、当該装置は、
質問文に基づき、クエリグラフの構築し、問題特徴を抽出するための質問文モジュールと、
質問文に対応するターゲット画像に基づき、ビジュアルグラフとテキストグラフを構築するための画像モジュールと、
融合モデルを用いて、ビジュアルグラフ、テキストグラフ、およびクエリグラフを融合させ、最終融合グラフを得るための融合モジュールと、
最終融合グラフから抽出された推理特徴および問題特徴に基づき、質問文の回答情報を決定するための決定モジュールと、を含む。
本開示の第三の態様は、画像の質疑応答の電子デバイスを提供し、当該デバイスの機能はハードウェアにより実現してもよく、ハードウェアにより相応のソフトウェアを実行することにより実現してもよい。ハードウェアもしくはソフトウェアには前記機能に対応する一つもしくは一つ以上のモジュールを備えている。
本開示の考えられる設計として、プロセッサと記憶媒体とを含む電子デバイスである。記憶媒体は電子デバイスが上記の画像の質疑応答方法を実行するためにサポートするプログラムを保存する。プロセッサは記憶媒体に保存されたプログラムを実行するために配置される。当該電子デバイスは通信インターフェースをさらに含み、他のデバイスやインターネットと通信可能にしてもよい。
本開示の第四の態様は、コンピュータ命令を保存する非一時的なコンピュータ可読記憶媒体を提供し、上記の画像の質疑応答方法を実行するために関連するプログラムを含む、電子デバイスおよび電子デバイスに使用されるコンピュータソフトウェア命令を格納する。
本開示の技術により、従来技術では画像から質問文に対応する回答を正確に推測することができないという問題を解決できる。本開示の実施形態では、ターゲット画像と質問文とに基づいて構築されるビジュアルグラフ、テキストグラフ、およびクエリグラフに対してクロスモーダルフュージョンを行うため、ターゲット画像が異なるモダリティにおける注目点(フォーカスポイント)を取得することができ、これによって、質問文の意図に基づき、画像質疑応答の回答をより正確に識別することができる。
ここに記載された内容は、本開示の実施形態のキーポイントまたは重要な特徴を標識することを意図せず、また、本開示の範囲を制限することにも用いられないことを理解すべきである。本開示の他の特徴については、下記の明細書を通して説明を促す。
添付図面は、本方案をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施形態による画像の質疑応答方法の概要図である。 本開示の実施形態による画像の質疑応答方法のステップS10の概要図である。 本開示のもう一つの実施形態による画像の質疑応答方法のステップS10方法の概要図である。 本開示の実施形態による応用概要図である。 本開示の実施形態による画像の質疑応答方法のステップS20の概要図である。 本開示のもう一つの実施形態による画像の質疑応答方法のステップS20の概要図である。 本開示のもう一つの実施形態による画像の質疑応答方法のステップS20の概要図である。 本開示のもう一つの実施形態による画像の質疑応答方法のステップS20の概要図である。 本開示の実施形態による画像の質疑応答方法のステップS30の概要図である。 本開示の実施形態による応用概要図である。 本開示のもう一つの実施形態による画像の質疑応答方法の概要図である。 本開示の実施形態による応用概要図である。 本開示の実施形態による画像の質疑応答装置の概要図である。 本開示の実施形態を実現する画像の質疑応答電子デバイスのブロック図である。
以下では、本出願の例示的な実施形態を、理解を容易にするために本出願の実施形態の様々な詳細を含む添付の図面に関連して説明するが、これらは単に例示的なものであると考えるべきである。 したがって、当業者は、本出願の範囲および精神を逸脱することなく、本明細書に記載された実施形態に様々な変更および修正を加えることができることを認識すべきである。同様に、以下の説明では、周知の機能及び構成については、明確化及び簡明化のために説明を省略する。
本開示の実施形態によれば、本開示は、図1に示すように、画像の質疑応答方法を提供する。当該方法は、以下のステップを有する。
S10:質問文に基づき、トポロジ構造を有するクエリグラフを構築し、質問文の問題特性を抽出する。
質問文は画像に対して質問するいかなる内容を含んでもよい。質問文は音声形式での文でもよく、テキスト形式での文でもいい。例えば、質問文は「画像の中に男性は何人いるか?」という文でもよい。
クエリグラフはノードとノードとの間のエッジ関係によって構築されたトポロジグラフであると理解してもよい。当該トポロジグラフの具体的なノード、ノードに対応する特徴およびノード間のエッジ関係は質問文に基づきカスタマイズできる。
問題特徴は質問文の意図や意味を表すための任意の特徴を含んでもよい。得られる質問特徴が質問文に関連する内容を表すことが実現可能であれば、質問特徴の抽出する方法および質問特徴のディメンション(dimension)は、必要に応じて選択および調整してもよい。
S20は、質問文に対応するターゲット画像に基づき、トポロジ構造のビジュアルグラフとテキストグラフとを構築する。
ターゲット画像は質問文に言及されるターゲットであると理解してもよい。ターゲット画像は一枚でも複数枚でもよい。
ビジュアルグラフはノードとノードとの間のエッジ関係によって構築されたトポロジグラフであると理解してもよい。当該トポロジの具体的なノード、ノードに対応する特徴およびノード間のエッジ関係は質問文に基づきカスタマイズできる。ビジュアルグラフはターゲット画像において識別された各ターゲットビジュアルに関連する内容のトポロジ関係を表すためものであってもよい。
テキストグラフはノードとノードとの間のエッジ関係によって構築されたトポロジグラフであると理解してもよい。当該トポロジの具体的なノード、ノードの特徴およびノード間のエッジ関係は質問文に基づきカスタマイズできる。テキストグラフはターゲット画像において識別された各ターゲット種類と相互の相関関係のトポロジ関係を表すためのものであってもよい。
S30:融合モデルを用いて、ビジュアルグラフ、テキストグラフ、およびクエリグラフを融合させ、最終融合グラフを得る。
融合モデルは、異なるモダリティでのトポロジグラフの融合を実現可能であれば、従来技術の任意のニューラルネットワークモデルを用いてもよい。
最終融合グラフは、ビジュアルグラフの各ノードのノード特徴および/またはノードのエッジ関係、テキストグラフの各ノードのノード特徴および/またはノードのエッジ関係、およびクエリグラフの各ノードのノード特徴および/またはノードのエッジ関係を含んでもよい。
S40:最終融合グラフから抽出された推論特徴および質問特徴に基づき、質問文の回答情報を決定する。
推理特徴は、質問文とターゲット画像との間の関係を表すものとして理解してもよい。回答情報は、質問文の意図とターゲット画像における画像内容に基づく質問文に対する回答として理解してもよい。例えば、質問文が「画像の中に男性は何人いるか?」である場合、回答情報が「画像の中に男性は3人いる」であってもよい。
本開示による技術は、質問文に対する回答が画像から正確に推測できないという従来の課題を解決する。本開示の実施形態は、ビジュアルグラフとクエリグラフとを構築することによって異なるモダリティでの注目点を学習し、複数のターゲット画像を含むことと複雑な問題によって引き起こされるノイズを低減する。同時に、ターゲット画像における各ターゲット間の視覚的な意味関係を明示的に表すテキストグラフを構築することにより、関係推論の機能を向上させる。同時に、ターゲット画像と質問文とに基づいて構築されたビジュアルグラフ、テキストグラフ、およびクエリグラフに対してクロスモーダルフュージョン(across modalities fusion)を行うため、ターゲット画像が異なるモダリティにおける注目点および質問文の意図に基づいて、多段階の関係推論により、より正確に画像の質疑応答の回答を識別することを実現できる。
本開示の実施方法では、図2が示すように、質問文に基づき、クエリグラフを構築する。当該方法は、以下のステップを有する。
Figure 2021103576
構文分析アルゴリズムは、自然言語処理(NLP、 Natural Language ProcesSing)の任意のアルゴリズム、例えば、依存関係の解析 (Dependency Parsing )、構文構造の解析(syntacticstructure parsing)、構成要素の構造の解析 (constituent structure parsing)、フレーズ構造 (phrase structure parsing)の解析などが用いられる。
S12:質問文に基づき、各単語ノードのノード特徴を決定する。
Figure 2021103576
S13:各単語ノードの特徴および各単語ノード間のエッジ関係に基づき、クエリグラフを構築する。
本実施形態では、質問文に基づきクエリグラフが構築され、質問文における各単語間の関連関係および各単語の特徴ベクトルを効果的に取得し、質問文の注目点をさらに正確に決定することができる。
本開示の実施形態において、図3が示すように、画像の質疑応答方法がさらに下記のステップを有する。
S50:第一の符号化モデルを用いて、各単語ノードのノード特徴を更新する。
クエリグラフの各単語ノードのノード特性に対する更新が実現可能であれば、第一の符号化ネットワークは、任意のニューラルネットワーク構造を用いてもよい。
第一の符号化モデルは、クエリグラフの単語ノードのノード特性と単語ノード間のエッジ関係に対して計算することにより、クエリグラフの各単語ノードのノード特性を更新してもよく、クエリグラフにおける各ノードのノード特徴をもっと正確にすることができる。
実施例の中で、図4が示すように、第一の符号化モデルを用いて、各単語ノードのノード特徴を更新する。当該方法は、下記のステップを有する。
Figure 2021103576
クエリグラフのエッジ関係Eに基づき、対角行列とラプラス変換を用いて、ラプラシアン行列L(graph Laplacian)を得る。
Figure 2021103576
更新されたノード特徴X’を関連層(Adj)に入力し、関連層を用いて各ノードの潜在関係の行列A’を学習する。具体的には以下の通りである:
Figure 2021103576
ただし、iはノード番号を表し、jはノード番号を表し、Klはノードの数を表す。
Figure 2021103576
各ノード特徴の更新結果に基づき、クエリグラフの更新を完成させる。
本開示の実施方法において、図5が示すように、質問文に対応するターゲット画像に基づき、ビジュアルグラフを構築する。当該方法は:下記のステップを有する。
S21:ターゲット検出アルゴリズムを用いて、ターゲット画像の各ターゲットを識別し、各ターゲットの外観特徴と空間特徴とを決定する。
Figure 2021103576
ターゲット画像に含むターゲットは画像における全てのものであると理解してよい。例えば、画像における人物、建築、交通手段動物など、いずれもターゲットとみなされる。
空間特徴は画像において識別されたターゲットが画像の中での位置、角度などを含む。外観特徴はターゲットの視覚的関連内容を表す特徴を含んでもよい。例えば、テクスチャー、色、形およびより高い次元(ディメンション)の特徴であってもよい。
Figure 2021103576
S23:各ターゲット間のオーバーラップ度(IOU,intersection over union、ユニオン上の交差)に基づき、各ビジュアルノード間のエッジ関係を決定する。
Figure 2021103576
S24:各ビジュアルグラフノードのノード特徴および各ビジュアルグラフノード間のエッジ関係に基づき、ビジュアルグラフを構築する。
本実施形態ではターゲット画像に基づいて構築されたビジュアルグラフにより、ターゲット画像にけるターゲットの各々を表す特徴ベクトル、および、各ターゲット間の視覚的関連特徴の関連関係を効果的に得ることができる。
本開示の実施方法では、図6が示すように、画像の質疑応答方法は、以下のステップをさらに有する。
S60:第二の符号化モデルと用いて各ビジュアルノードのノード特徴を更新する。
第二の符号化ネットワークは第一符号化ネットワークと同じ構造を用いてもよい。第二の符号化ネットワークがビジュアルグラフの各ビジュアルノードのノード特徴に対する更新プロセスは、上記の第一の符号化がクエリグラフの各単語ノードのノード特徴に対する更新プロセスとほぼ一致のため、ここでは改めて説明しないことにする。具体的な更新プロセスは上記の第一の符号化ネットワークを参考してもよい。両者の違いは、入力されたトポロジグラフが異なること、すなわち入力されたノードのノード特徴とエッジ関係が異なることにある。
第二の符号化モデルは、ビジュアルグラフのビジュアルグラフノードのノード特徴およびビジュアルグラフノード間のエッジ関係を計算することにより、ビジュアルグラフにおける各ビジュアルグラフノードのノード特徴を更新してもよく、ビジュアルグラフにおける各ビジュアルグラフノードのノード特徴をより正確にすることができる。
一例では、第一の符号化ネットワークと第二の符号化ネットワークは同じ符号化ネットワークであり、すなわちビジュアルグラフとクエリグラフは同じ符号化ネットワークによりノード特徴の更新を行う。
本開示の実施方法において、図7に示すように、問題文に対応するターゲット画像を基づき、テキストグラフを構築する。当該方法は以下のステップを有する。
S25:視覚関係検出アルゴリズム(VRD、Visual Rel ationship Detection)を用いて、ターゲット画像における各ターゲットのラベル特徴および各ターゲット間の関係特徴を決定する。
ラベル特徴はターゲットが属する種類の特徴を含んでもよい。例えば、ラベル特徴により、ターゲットを人物、建築あるいは車両などに決定することができる。ターゲット間の関係特徴は二つのターゲット間の位置関係を表す特徴を含んでもよい。例えば、ターゲットの関係特徴によりターゲット1(人物)とターゲット2(自転車)との間の関係はターゲット1がターゲット2の上に乗っているということを決定することができる。
S26:各ターゲットのラベル特徴と各ターゲット間の関係特徴とに基づき、各ターゲットから構成される各テキストグラフノードのノード特徴を決定する。
S27:各ターゲット間の関係特徴に基づき、各テキストグラフノード間のエッジ関係を決定する。
S28:各テキストグラフノードのノード特徴および各テキストノード間のエッジ関係に基づき、テキストグラフを構築する。
本開示の実施形態では、ターゲット画像に基づいて構築されたテキストグラフにより、ターゲット画像におけるターゲットの各々の種類を表すラベル特徴および、各ターゲット間の関連関係特徴を効果的に得ることができる。
Figure 2021103576
一実施形態においては、図8に示すように、画像の質疑応答方法はさらに以下のステップを有する。
S70:各テキストグラフノードのノード特徴に対し第三の符号化モデルで更新する。
第三の符号化ネットワークは第一の符号化ネットワークと同じ構造を用いてもよい。第三の符号化ネットワークがテキストグラフの各テキストグラフノードのノード特徴に対する更新プロセスは、上記第一の符号化ネットワークのクエリグラフの各単語ノードのノード特徴に対する更新プロセスと一致しているため、ここでは改めて説明しないことにする。具体的な更新プロセスは、上記の第一の符号化ネットワークを参照してもよい。両者の違いは、入力されたトポロジ図が異なること、すなわち入力されたノードのノード特徴とエッジ関係が異なることにある。
第三の符号化モデルは、テキストグラフのテキストグラフノードのノード特徴およびテキストグラフノード間のエッジ関係を計算することにより、テキストグラフにおける各テキストグラフノードのノード特徴を更新してもよく、テキストグラフにおける各テキストグラフノードのノード特徴をより正確にすることができる。
一例では、第一の符号化ネットワークと第三の符号化ネットワークは同じ符号化ネットワークであり、すなわちテキストグラフとクエリグラフは同じ符号化ネットワークによりノード特徴の更新を行う。
一例では、第一の符号化ネットワーク、第二の符号化ネットワーク、および第三の符号化ネットワークは同じ符号化ネットワークであり、すなわちテキストグラフ、ビジュアルグラフ、およびクエリグラフは、同じ符号化ネットワークによりノード特徴の更新を行う。
本開示の実施形態において、図9に示すように、融合モデルを用いてビジュアルグラフ、テキストグラフおよびクエリグラフを融合させ、最終融合グラフを得る。当該方法は以下のステップを有する。
S31:第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させ、第一の融合グラフを得る。
S32:第二の融合モデルを用いてテキストグラフとクエリグラフとを融合させ、第二の融合グラフを得る。
S33:第三の融合モデルを用いて第一の融合グラフと第二の融合グラフを融合させ、最終融合グラフを得る。
本開示の実施形態では、ターゲット画像と質問文とに基づいて構築されたビジュアルグラフ、テキストグラフ、およびクエリグラフに対してクロスモーダルフュージョンを行うため、ターゲット画像が異なるモダリティにおける注目点を取得することができ、これによって、質問文の意図に基づき、画像の質疑応答の回答をより正確に識別することができる。
一例では、第一の融合モデル、第二の融合モデル、および第三の融合モデルは、逐次に同じ神経ネットワーク構造を用いてもよい。第一の融合モデル、第二の融合モデル、および第三の融合モデルは、同じ融合モデルであってもよい。すなわち一つの融合モデルによって上記ステップS31〜S33を実行する。
一例では、図10に示すように、第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させ、第一の融合グラフを得る。当該方法は、下記のステップを有する。
Figure 2021103576
一例では、第二の融合モデルは第一の融合モデルと同じ構造を用いてもよい。第二の融合モデルを用いてテキストグラフとクエリグラフとを融合させるプロセスは、第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させるプロセスと一致しているため、ここでは改めて説明しないことにする。具体的な融合プロセスは、上記の第一の融合モデルの実施形態を参照してもよい。
第三の融合モデルは第一の融合モデルと同じ構造を用いてもよい。第三の融合モデルを用いて第一の融合グラフと第二の融合グラフとを融合させるプロセスは、第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させるプロセスと一致しているため、ここでは改めて説明をしないことにする。具体的な融合プロセスは、上記の第一の融合モデルの実施形態を参照してもよい。
本開示の実施形態において、図11に示すように、最終融合グラフから抽出された推理特徴および問題特徴に基づいて、質問文の回答情報を決定する。当該方法では、下記のステップを有する。
S41:最終融合グラフから抽出した推理特徴および問題特徴に基づき、多層パーセプトロン(MLP,Multilayer Perceptron)を用いて質問文の回答情報を決定する。
本実施形態では、多層パーセプトロンにより推理特徴および問題特徴に対して計算を行い、質問文の回答情報を正確に推理することができる。
一例において、最終融合グラフは、最終的な回答を生成するために必要な推理的特徴を最大プーリング(Max Pooling)操作により求められる。
一例では、質問文に従って、質問文の問題特徴を抽出する。当該方法では、下記のステップを有する。
word embedding(ワード埋め込み)とBi‐GRU特徴符号化を用いて質問文を処理し、対象語句の問題特徴を決定する。
一例では、図12に示すように、画像の質疑回答方法は、次のステップを有する。
依存構文解析アルゴリズム(dependency syntactic parsing algorithm)と質問文を用いてクエリグラフを構築し、各単語ノードのノード特徴を第一の符号化モデルで更新し、更新されたクエリグラフを得る。
Faster RCNNとターゲット画像を用いてビジュアルグラフを構築し、各ビジュアルノードのノード特徴を第二の符号化モデルで更新し、更新されたビジュアルグラフを得る。
視覚関係検出アルゴリズムとターゲット画像とを用いてテキストグラフを構築し、各テキストグラフノードのノード特徴を第三の符号化モデルで更新し、更新されたテキストグラフを得る。
第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させ、第一の融合グラフを得て、第二の融合モデルを用いてテキストグラフとクエリグラフとを融合させ、第二の融合グラフを得て、第三の融合モデルを用いて第一の融合グラフと第二の融合グラフとを融合させ、最終融合グラフを得る。
最終融合グラフは、最終回答の生成に必要な推理的特徴を最大プーリング(Max Pooling)操作により得られる。
単語埋め込みおよびBi‐GRU特徴符号化により、対象文の問題点の特徴を決定する。
最終融合グラフから抽出された推理特徴および問題特徴に基づいて、多層パーセプトロンを用いて質問文の応答情報を決定する。
本開示の実施形態によれば、図13に示すように、画像質疑回答装置を提供する。当該画像質疑回答装置は、下記のモジュールを有する。
質問文モジュール10は、質問文に基づき、クエリグラフを構築し、質問文の問題特徴を抽出する。
画像モジュール20は、質問文に対応するターゲット画像に基づき、ビジュアルグラフとテキストグラフとを構築する。
融合モジュール30は、融合モデルを用いてビジュアルグラフ、テキストグラフ、およびクエリグラフを融合させ、最終融合グラフを得る。
決定モジュール40は、最終融合グラフから抽出された推理特徴および問題特徴に基づき、質問文の回答情報を決定する。
本開示の実施形態において、融合モジュール30は、以下のサブモジュールを有する。
第一の融合サブモジュールは、第一の融合モデルを用いてビジュアルグラフとテキストグラフとを融合させ、第一の融合グラフを得る。
第二の融合サブモジュールは、第二の融合モデルを用いてテキストグラフとクエリグラフとを融合させ、第二の融合グラフを得る。
第三の融合サブモジュールは、第三の融合モデルを用いて第一の融合グラフと第二の融合グラフとを融合させ、最終融合グラフを得る。
本開示の実施形態において、質問文モジュール10は、以下のサブモジュールを有する。
第一の確定サブモジュールは、構文解析アルゴリズムを用いて質問文を計算し、質問文における各単語により構成される各単語ノード間のエッジ関係を決定する。
第二の確定サブモジュールは、質問文に従って、各単語ノードのノード特徴を決定するに使用する。
第一の構築サブモジュールは、各単語ノードのノード特徴および各単語ノード間のエッジ関係に基づいて、クエリグラフを構築するために使用する。
本開示の実施形態において、画像の質疑応答装置はさらに、各単語ノードのノード特徴を第一の符号化モデルを用いて更新する第一の更新モジュールを有する。
本開示の実施形態において、画像モジュール20は、以下のサブモジュールを有する。
第三の決定サブモジュールは、ターゲット検出アルゴリズムを用いて、ターゲット画像に含まれる各ターゲットを識別し、各ターゲットの外観特徴および空間特徴を決定する。
第四の決定サブモジュールは、各ターゲットの外観特徴と空間特徴とに基づいて、各ターゲットから構成される各ビジュアルグラフノードのノード特徴を決定する。
第五の決定サブモジュールは、各ターゲット間のオーバーラップ度に基づき、各ビジュアルグラフノード間のエッジ関係を決定する。
第二の構築サブモジュールは、各ビジュアルグラフノードのノード特徴および各ビジュアルグラフノード間のエッジ関係に基づいてビジュアルグラフを構築する。
本開示の実施形態において、画像質疑応答装置はさらに、第二の符号化モデルを用いて、各ビジュアルグラフノードのノード特徴を更新する第二の更新モジュールを有する。
本開示の実施形態において、画像モジュール20は、以下のサブモジュールを有する。
第六の決定サブモジュールは、視覚関係検出アルゴリズムを用いて、ターゲット画像において識別された各ターゲットのラベル特徴および各ターゲット間の関係特徴を決定する。
第七の決定サブモジュールは、各ターゲットのラベル特徴と各ターゲット間の関係特徴とに基づき、各ターゲットからなる各テキストグラフノードのノード特徴を決定する。
第八の決定サブモジュールは、各ターゲット間の関係特徴に基づき、各テキストグラフノード間のエッジ関係を決定する。
第三の構築サブモジュールは、各テキストグラフノードのノード特徴および各テキストグラフノード間のエッジ関係に基づき、テキストグラフを構築する。
本開示の実施形態において、画像の質疑応答装置はさらに、
各テキストグラフノードのノード特徴を第三の符号化モデルによって更新する第三の更新モジュールを有する。
本開示の実施形態において、決定モジュール40は、
最終融合グラフから抽出された推理特徴および問題特徴に基づき、多層パーセプトロンを用いて質問文の回答情報を決定する第九の確定サブモジュールを有する。
本開示に記載する画像の質疑応答装置の機能は、上記画像の質疑応答方法の各実施形態を参照することができる。
本開示の実施形態をもとに、本申請は、さらに電子デバイスおよび可読記憶媒体を提供する。
図14に示すように、本開示の実施形態に係る画像の質疑応答の方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。また、パーソナルデジタル処理、携帯電話、スマートフォン、装着可能デバイス、および他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は一例としてだけであり、本明細書で説明されたものおよび/または要求される本明細書の実施を制限することは意図されない。
図14に示すように、電子機器は、1つ以上のプロセッサ1401と、メモリ1402と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースと、を含む。各構成要素は、異なるバスを用いて互いに接続し、共通のマザーボードに取り付けられてもよく、必要に応じて他の方法でインストールされてもよい。プロセッサ−は、GUIのグラフィカル情報を外部入出力装置(例えば、インターフェースに接続された表示装置)に表示するためのメモリまたはメモリ上に記憶された命令を含む、電子デバイス内で実行される命令を処理することができる。他の実施形態では、必要ならば、複数のプロセッサおよび/または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子デバイスを接続してもよく、各デバイスは、部分的に必要な動作(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)を提供する。図14では、1つのプロセッサ−1401を例にしている。
メモリ1402は、本明細書に提供される非一時的なコンピュータ可読記憶媒体である。メモリは、少なくとも1つのプロセッサによって実行されることができる命令を記憶しており、少なくとも1つのプロセッサに本明細書で提供される画像質疑応答の方法を実行できる。本明細書の非一時的なコンピュータ可読記憶媒体は、コンピュータに本明細書で提供される画像の質疑応答の方法を実行させるためのコンピュータ命令を記憶している。
メモリ1402は、非一時的なコンピュータ可読記憶媒体として、本明細書の実施形態における画像問答の方法に対応するプログラム命令/モジュール(例えば、図13に示す質問文モジュール10、画像モジュール20、融合モジュール30、および決定モジュール40)のように非一時的なソフトウェアプログラム、非一時的なコンピュータ実行プログラム、およびモジュールを記憶するために使用されてもよい。プロセッサ1401は、メモリ1402に格納された非一時的なソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、すなわち、上述した方法の実施形態における画像の質疑応答方法を実行する。
メモリ1402は、プログラム格納領域とデータ格納領域を含む。プログラム格納領域は、少なくとも1つの機能に必要なアプリケーションを記憶することができ、データ格納領域は、画像の質疑応答の電子デバイスの使用に応じて作成されたデータなどを記憶することができる。さらに、メモリ1402は、高速ランダムアクセスメモリを含み、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一時的な固体記憶装置を含むことができる。いくつかの実施形態では、メモリ1402は、プロセッサ1401に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して画像の質疑応答用の電子デバイスに接続することができる。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。
画像質疑応答の方法の電子デバイスは、入力装置1403と出力装置1404とをさらに含むことができる。プロセッサ1401、メモリ1402、入力装置1403および出力装置1404は、バスまたは他の方法で接続されてもよく、図14ではバスを介して接続されている例である。
入力装置1403は、入力された数字または文字情報を受信し、画像質疑応答の電子デバイスのユーザ設定および機能制御に関するキー信号入力を生成してもよい。例えばタッチスクリーン、キーパッド、マウス、トラックボード、タッチパッド、指示棒、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力デバイス1404は、表示デバイス、補助照明デバイス(例えばLED)、および触覚フィードバックデバイス(例えば、振動モータ)などを含んでもよい。この表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定しない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
ここで記載するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムにおいて実装されてもよく、1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能システム上で実行されてもよく、および/または解釈されてもよく、このプログラマブルプロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力から実行されてもよい。装置は、データと命令を受信し、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置にデータと命令を送信する。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう)は、プログラマブルプロセッサのマシン命令を含み、高度なプロセスおよび/またはターゲットに向けたプログラミング言語、および/またはアセンブリ/マシン言語を用いてこれらの計算プログラムを実施することができる。本明細書で使用されるように、用語「機械可読媒体」および「コンピュータ可読媒体」は、機械命令および/またはデータをプログラム可能プロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指し、機械可読信号としての機械命令を受信するマシンを含む。媒体用語「機械可読信号」は、機械命令および/またはデータをプログラム可能なプロセッサに提供するための任意の信号を意味する。
ユーザとインターアクトするために、コンピュータで本明細書が説明するシステムおよび技術を実施することができる。このコンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(ブラウン管)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよび指向装置(例えば、マウスまたはトラックボール)とを有する。ユーザはこのキーボードと指向装置でコンピュータに情報を入力できる。他の種類のデバイスは、ユーザとのインターアクトするためにも使用される。例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、ユーザからの入力は、いかなる形式(音声入力、音声入力、または触覚入力を含む)で受信されてもよい。
本明細書で説明するシステムおよび技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、または中間部品を含む計算システム(例えば、アプリケーションサーバ)、または、フロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータでは、ユーザはグラフィカルユーザインタフェースまたはネットワークブラウザを通して、ここで記述されたシステムと技術の実施方法とインターアクトできる)、または、このようなバックグラウンド構成要素、中間部品、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて使用される。システムの構成要素は、任意の形態またはメディアのデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されてもよい。通信ネットワークの例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に離れており、通信ネットワークを介してインターアクトする。それぞれのコンピュータ上を作動し、クライアントとサーバとの関係を持つコンピュータプログラムによってクライアントとサーバの関係が生成される。
上記の様々な形態のフローを用いて、順序付け、追加、またはステップ削除が可能であることを理解すべきである。例えば、本明細書では、本開示に記載された各ステップを並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良いし、本明細書では、本明細書では、本開示の技術案が所望する結果を実現することができる限り、これに限定されない。
上記具体的な実施形態は、本出願の保護範囲に対する制限を構成していない。当業者は、設計要求とその他の要因によって、様々な修正、組み合わせ、サブグループ、および代替が可能であることを理解するべきである。本出願の精神及び原則内における補正、均等置換及び改善等は、いずれも本出願の保護範囲に含まれるべきである。

Claims (21)

  1. 質問文に基づき、トポロジ構造を有するクエリグラフを構築し、前記質問文の問題特徴を抽出することと、
    前記質問文に対応するターゲット画像に基づき、トポロジ構造を有するビジュアルグラフとテキストグラフとを構築することと、
    融合モデルを用いて、前記ビジュアルグラフ、前記テキストグラフ、および前記クエリグラフを融合させ、最終融合グラフを得ることと、
    前記最終融合グラフから抽出された推理特徴および問題特徴に基づき、前記質問文の回答情報を決定することと、を含む
    ことを特徴とする画像の質疑応答方法。
  2. 前記融合モデルを用いて、前記ビジュアルグラフ、前記テキストグラフ、および前記クエリグラフを融合させ、最終融合グラフを得ることには、
    第一の融合モデルを用いてビジュアルグラフと前記テキストグラフとを融合させ、第一の融合グラフを得ることと、
    第二の融合モデルを用いて前記テキストグラフと前記クエリグラフとを融合させ、第二の融合グラフを得ることと、
    第三の融合モデルを用いて前記第一の融合グラフと前記第二の融合グラフとを融合させ、前記最終融合グラフを得ることと、を含む
    ことを特徴とする請求項1に記載の画像の質疑応答方法。
  3. 前記質問文に基づき、クエリグラフを構築することには、
    構文解析アルゴリズムを用いて、前記質問文を計算し、前記質問文における各単語により構成される各単語ノード間のエッジ関係を決定することと、
    前記質問文に基づき、前記各単語ノードのノード特徴を決定することと、
    前記各単語ノードのノード特徴および前記各単語ノード間のエッジ関係に基づき、クエリグラフを構築することと、を含む
    ことを特徴とする請求項1に記載の画像の質疑応答方法。
  4. 第一の符号化モデルを用いて前記各単語ノードのノード特徴を更新すること、をさらに含む
    ことを特徴とする請求項3に記載の画像の質疑応答方法。
  5. 前記質問文に対応するターゲット画像に基づき、ビジュアルグラフを構築することには、
    ターゲット検出アルゴリズムを用いて、前記ターゲット画像に含まれる各ターゲットを識別し、前記各ターゲットの外観特徴と空間特徴とを決定することと、
    前記各ターゲットの外観特徴と空間特徴とに基づき、前記各ターゲットから構成される各ビジュアルグラフノードのノード特徴を決定することと、
    前記各ターゲット間のオーバーラップ度に基づき、前記各ビジュアルグラフノード間のエッジ関係を決定することと、
    前記各ビジュアルグラフノードのノード特徴および前記各ビジュアルグラフノード間のエッジ関係に基づき、前記ビジュアルグラフを構築することと、を含む
    ことを特徴とする請求項1に記載の画像の質疑応答方法。
  6. 第二の符号化モデルを用いて前記各ビジュアルノードのノード特徴を更新すること、をさらに含む
    ことを特徴とする請求項5に記載の画像の質疑応答方法。
  7. 前記質問文に対応するターゲット画像に基づき、テキストグラフを構築することには、
    視覚関係検出アルゴリズムを用いて、前記ターゲット画像において識別された各ターゲットのラベル特徴および前記各ターゲット間の関係特徴を決定することと、
    前記各ターゲットのラベル特徴と各ターゲット間の関係特徴とに基づき、前記各ターゲットからなる各テキストグラフノードのノード特徴を決定することと、
    前記各ターゲット間の関係特徴に基づき、前記テキストグラフノード間のエッジ関係を決定することと、
    前記各テキストグラフノードのノード特徴および前記各テキストグラフノード間のエッジ関係に基づき、前記テキストグラフを構築することと、を含む
    ことを特徴とする請求項1に記載の画像の質疑応答方法。
  8. 第三の符号化モデルを用いて前記各テキストグラフノードのノード特徴を更新すること、をさらに含む
    ことを特徴とする請求項7に記載の画像の質疑応答方法。
  9. 前記最終融合グラフから抽出された推理特徴および問題特徴に基づき、前記質問文の回答情報を決定することには、
    前記最終融合グラフから抽出された推理特徴および問題特徴に基づき、多層パーセプトロンを用いて前記質問文の回答情報を決定すること、を含む
    ことを特徴とする請求項1〜8のいずれか1項に記載の画像の質疑応答方法。
  10. 質問文に基づき、トポロジ構造を有するクエリグラフを構築し、質問文の問題特徴を抽出するための質問文モジュールと、
    前記質問文に対応するターゲット画像に基づき、トポロジ構造を有するビジュアルグラフとテキストグラフとを構築するための画像モジュールと、
    融合モデルを用いて、前記ビジュアルグラフ、前記テキストグラフおよび前記クエリグラフを融合させ、最終融合グラフを得るための融合モジュールと、
    前記最終融合グラフから抽出された推理特徴および問題特徴に基づき、前記質問文の回答情報を決定するための決定モジュールと、を備える
    ことを特徴とする画像の質疑応答装置。
  11. 前記融合モジュールは、
    第一の融合モデルを用いて、ビジュアルグラフと前記テキストグラフとを融合させ、第一の融合グラフを得るための第一の融合サブモジュールと、
    第二の融合モデルを用いて、前記テキストグラフと前記クエリグラフとを融合させ、第二の融合グラフを得るための第二の融合サブモジュールと、
    第三の融合モデルを用いて、前記第一の融合グラフと前記第二の融合グラフとを融合させ、前記最終融合グラフを得るための第三の融合サブモジュールと、を備える
    ことを特徴とする請求項10に記載の画像の質疑応答装置。
  12. 前記質問文モジュールは、
    構文解析アルゴリズムを用いて、質問文を計算し、質問文における各単語により構成される各単語ノード間のエッジ関係を決定するための第一の決定サブモジュールと、
    前記質問文に基づき、前記各単語ノードのノード特徴を決定するための第二の決定サブモジュールと、
    前記各単語ノードのノード特徴および各単語ノード間のエッジ関係に基づき、クエリグラフを構築するための第一の構成サブモジュールと、を備える
    ことを特徴とする請求項10に記載の画像の質疑応答装置。
  13. 第一の符号化モデルを用いて前記各単語ノードのノード特徴を更新するための第一の更新モジュール、をさらに備える
    ことを特徴とする画像の質疑応答装置。
  14. 前記画像モジュールは、
    ターゲット検出アルゴリズムを用いて、前記ターゲット画像に含まれる各ターゲットを識別し、前記各ターゲットの外観特徴と空間特徴とを決定するための第三の決定サブモジュールと、
    前記各ターゲットの外界特徴と空間特徴とに基づいて、前記各ターゲットから構成される各ビジュアルグラフノードのノード特徴を決定するための第四の決定サブモジュールと、
    前記各ターゲット間のオーバーラップ度に基づき、前記各ビジュアルグラフノード間のエッジ関係を決定するための第五の決定サブモジュールと、
    前記ビジュアルグラフノードのノード特徴および前記各ビジュアルグラフノード間のエッジ関係に基づき、前記ビジュアルグラフを構築するための第二の構成サブモジュールと、を備える。
    ことを特徴とする請求項12に記載の画像の質疑応答装置。
  15. 第二の符号化モデルを用いて前記各ビジュアルグラフノードのノード特徴を更新するための第二の更新モジュール、をさらに備える
    ことを特徴とする請求項14に記載の画像の質疑応答装置。
  16. 前記画像モジュールは、
    視覚関係検出アルゴリズムを用いて、前記ターゲット画像において識別された前記各ターゲットのラベル特徴および前記各ターゲット間の関係特徴を決定するための第六の確定サブモジュールと、
    前記各ターゲットのラベル特徴と各ターゲット間の関係特徴とに基づき、前記各ターゲットからなる各テキストグラフノードのノード特徴を決定するための第七の決定サブモジュールと、
    前記各ターゲット間の関係特徴に基づき、前記各テキストグラフノード間のエッジ関係を決定するための第八の確定サブモジュールと、
    前記各テキストグラフノードのノード特徴および前記各テキストグラフノード間のエッジ関係に基づき、前記テキストグラフを構築するため第三の構築サブモジュールと、を備える
    ことを特徴とする請求項10に記載の画像の質疑応答装置。
  17. 第三の符号化モデルを用いて前記各テキストグラフノードのノード特徴を更新するための第三の更新モジュール、をさらに備える
    ことを特徴とする請求項16に記載の画像の質疑応答装置。
  18. 前記確定モジュールは、
    前記最終融合グラフから抽出された推理特徴および前記問題の特徴に基づき、多層パーセプトロンを用いて質問文の回答情報を決定するための第九の確定サブモジュール、を備える
    ことを特徴とする請求項10〜17のいずれか1項に記載の画像の質疑応答装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、
    請求項1〜9のいずれか1項に記載の画像の質疑応答方法を実行させるよう、前記命令が前記少なくとも1つのプロセッサにより実行されることを特徴とする電子デバイス。
  20. 請求項1〜9のいずれか1項に記載の画像の質疑応答方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
  21. コンピュータにおいて、プロセッサにより実行される場合、請求項1〜9のいずれか1項に記載の画像の質疑応答方法を実現することを特徴とするプログラム。
JP2021051835A 2020-06-29 2021-03-25 画像の質疑応答方法、装置、電子デバイス、記憶媒体、及びプログラム Active JP7291169B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010603698.1A CN111767379B (zh) 2020-06-29 2020-06-29 图像问答方法、装置、设备以及存储介质
CN202010603698.1 2020-06-29

Publications (2)

Publication Number Publication Date
JP2021103576A true JP2021103576A (ja) 2021-07-15
JP7291169B2 JP7291169B2 (ja) 2023-06-14

Family

ID=72722918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021051835A Active JP7291169B2 (ja) 2020-06-29 2021-03-25 画像の質疑応答方法、装置、電子デバイス、記憶媒体、及びプログラム

Country Status (5)

Country Link
US (1) US20210264190A1 (ja)
EP (1) EP3885935A1 (ja)
JP (1) JP7291169B2 (ja)
KR (1) KR20210040301A (ja)
CN (1) CN111767379B (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515886B (zh) * 2021-04-28 2023-11-24 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113761153B (zh) * 2021-05-19 2023-10-24 腾讯科技(深圳)有限公司 基于图片的问答处理方法、装置、可读介质及电子设备
KR102342580B1 (ko) * 2021-07-16 2021-12-24 주식회사 애자일소다 딥러닝 알고리즘을 이용한 정형 데이터 처리 장치 및 방법
CN113722549B (zh) * 2021-09-03 2022-06-21 优维科技(深圳)有限公司 一种基于图的数据状态融合存储系统及方法
CN114266258B (zh) * 2021-12-30 2023-06-23 北京百度网讯科技有限公司 一种语义关系提取方法、装置、电子设备及存储介质
CN114626455A (zh) * 2022-03-11 2022-06-14 北京百度网讯科技有限公司 金融信息处理方法、装置、设备、存储介质及产品
CN114444472B (zh) * 2022-04-02 2022-07-12 北京百度网讯科技有限公司 文本处理方法、装置、电子设备和存储介质
CN114581906B (zh) * 2022-05-06 2022-08-05 山东大学 自然场景图像的文本识别方法及系统
CN114842368B (zh) * 2022-05-07 2023-10-03 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、系统、设备及存储介质
CN114973294B (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 基于图文匹配方法、装置、设备及存储介质
CN115409855B (zh) * 2022-09-20 2023-07-07 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质
CN115905591B (zh) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN116628004B (zh) * 2023-05-19 2023-12-08 北京百度网讯科技有限公司 信息查询方法、装置、电子设备及存储介质
KR102620260B1 (ko) * 2023-05-30 2023-12-29 국방과학연구소 그래프 기반의 객체 인식방법 및 장치
CN116862000B (zh) * 2023-09-01 2024-01-23 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备
CN117312516B (zh) * 2023-09-27 2024-10-01 星环信息科技(上海)股份有限公司 一种知识问答方法、装置、设备及存储介质
CN117271818B (zh) * 2023-11-22 2024-03-01 鹏城实验室 视觉问答方法、系统、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007012039A (ja) * 2005-05-31 2007-01-18 Itochu Techno-Science Corp 検索システムおよびコンピュータプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US11663249B2 (en) * 2018-01-30 2023-05-30 Intel Corporation Visual question answering using visual knowledge bases
CN109255359B (zh) * 2018-09-27 2021-11-12 南京邮电大学 一种基于复杂网络分析方法的视觉问答问题解决方法
US10872083B2 (en) * 2018-10-31 2020-12-22 Microsoft Technology Licensing, Llc Constructing structured database query language statements from natural language questions
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答系统及其构建方法
CN110717024B (zh) * 2019-10-08 2022-05-17 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN111177355B (zh) * 2019-12-30 2021-05-28 北京百度网讯科技有限公司 基于搜索数据的人机对话交互方法、装置和电子设备
CN111159376A (zh) * 2019-12-30 2020-05-15 深圳追一科技有限公司 会话处理方法、装置、电子设备以及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007012039A (ja) * 2005-05-31 2007-01-18 Itochu Techno-Science Corp 検索システムおよびコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TENEY, DAMIEN ET AL.: "Graph-Structured Representations for Visual Question Answering", COMPUTER VISION AND PATTERN RECOGNITION, JPN6022011099, 30 March 2017 (2017-03-30), pages 1 - 17, ISSN: 0004902102 *

Also Published As

Publication number Publication date
US20210264190A1 (en) 2021-08-26
KR20210040301A (ko) 2021-04-13
JP7291169B2 (ja) 2023-06-14
CN111767379A (zh) 2020-10-13
EP3885935A1 (en) 2021-09-29
CN111767379B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
JP2021103576A (ja) 画像の質疑応答方法、装置、電子デバイス、記憶媒体、及びプログラム
KR102504699B1 (ko) 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
US20230162723A1 (en) Text data processing method and apparatus
US20210407642A1 (en) Drug recommendation method and device, electronic apparatus, and storage medium
JP2021082308A (ja) マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体
US20210397947A1 (en) Method and apparatus for generating model for representing heterogeneous graph node
JP7058304B2 (ja) 異種グラフにおけるノード表現の生成方法、装置及び電子機器
US11847164B2 (en) Method, electronic device and storage medium for generating information
US20230229898A1 (en) Data processing method and related device
JP2022028908A (ja) 多項関係生成モデルのトレーニング方法、装置、電子機器及び媒体
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
KR20210108906A (ko) 점군 데이터 처리방법, 장치, 전자기기 및 판독 가능 기록매체
CN111737954B (zh) 文本相似度确定方法、装置、设备和介质
JP7044839B2 (ja) エンドツーエンドモデルのトレーニング方法および装置
JP7395445B2 (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
JP2022013600A (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
JP2021103573A (ja) 文字認識の方法、装置、電子設備、コンピュータ可読記憶媒体、及びプログラム
KR20210056961A (ko) 의미 처리 방법, 장치, 전자 기기 및 매체
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
JP2021192289A (ja) 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体
CN111950272B (zh) 文本相似度的生成方法、装置及电子设备
US20240104403A1 (en) Method for training click rate prediction model
JP2022006166A (ja) 地図上の目的地の決定方法、機器、及び記憶媒体
KR20210040317A (ko) 의료 충돌을 탐지하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN117213496A (zh) 视觉导航方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230602

R150 Certificate of patent or registration of utility model

Ref document number: 7291169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150