JP6997161B2 - 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム - Google Patents

画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP6997161B2
JP6997161B2 JP2019210904A JP2019210904A JP6997161B2 JP 6997161 B2 JP6997161 B2 JP 6997161B2 JP 2019210904 A JP2019210904 A JP 2019210904A JP 2019210904 A JP2019210904 A JP 2019210904A JP 6997161 B2 JP6997161 B2 JP 6997161B2
Authority
JP
Japan
Prior art keywords
image
correlation
attribute
response
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019210904A
Other languages
English (en)
Other versions
JP2020123319A (ja
Inventor
ピンピン ホァン
ミン チャオ
イン リー
ジアンフイ ホァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020123319A publication Critical patent/JP2020123319A/ja
Application granted granted Critical
Publication of JP6997161B2 publication Critical patent/JP6997161B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本開示の実施例は一般に情報処理技術分野に関し、さらに、画像に基づくデータ処理方法、装置、電子機器コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムに関する。
視覚的質問応答(VQA)は、コンピュータービジョンと自然言語処理に関する情報処理技術である。視覚的質問応答システムは通常、ある画像と、該画像に関する、自由な形式がある、オープンな自然言語の問題を入力とし、該問題についての自然言語の回答を出力とする。このような問題は、ユーザの画像に関する問い合わせとして認められ、視覚的質問応答システムにより提供される回答は、該問い合わせに対する応答として認められる。そのため、ユーザは視覚的質問応答システムに画像を入力し、その後、該画像に関する問い合わせを視覚的質問応答システムに提出することができる。視覚的質問応答システムが応答した後、ユーザは、該応答が正確であるか否かを判断して、視覚的質問応答システムの画像に対する理解力を把握することができる。さらに、視覚的質問応答システムは一般に画像に基づくデータ処理システムとして認められる。
ところが、正確率の面で、従来の画像に基づくデータ処理システムにより提供される応答はやはり低いレベルの一途を辿り、ユーザの需要に応じることができない場合が多く、低いユーザエクスペリエンスをもたらす。
本開示の実施例は画像に基づくデータ処理方法、装置、電子機器およびコンピュータ読み取り可能な記憶媒体に関する。
本開示の第1態様によれば、画像に基づくデータ処理方法を提供する。該方法は、画像に関して入力された問い合わせに応答して、対象と属性の間の予定マッピングに基づいて、画像に示される対象に関する属性を確定することを含む。該方法はさらに、対象と属性に基づいて対象と問い合わせとの相関性を確定することを含む。該方法はさらに、相関性に基づいて問い合わせに対する応答を提供することを含む。
本開示の第2様態によれば、画像に基づくデータ処理装置を提供する。該装置は、画像に関して入力された問い合わせに応答して、対象と属性との予定マッピングに基づき、画像に示される対象に関連する属性を確定するように配置される属性確定モジュールを含む。該装置はさらに、対象と属性に基づいて対象と問い合わせとの相関性を確定するように配置される相関性確定モジュールを含む。該装置はさらに、相関性に基づいて問い合わせに対する応答を提供するように配置される応答提供モジュールを含む。
本開示の第3様態によれば、電子機器を提供する。該電子機器は、1つ又は複数のプロセッサと、1つ又は複数のプログラムを格納するための記憶装置を含む。1つ又は複数のプログラムが1つ又は複数のプロセッサにより実行される時、1つ又は複数のプロセッサに第1様態の方法を実現させる。
本開示の第4様態によれば、プロセッサにより実行される時に第1様態の方法を実現するコンピュータプログラムが格納されるコンピュータ読み取り可能な記憶媒体を提供する。
発明の概要の部分に説明される内容は、本開示の実施例の肝心な、重要な特徴を限定するものではなく、また、本開示の範囲を限定するものでもないことを理解すべきである。本開示のほかの特徴は以下の説明を通して理解しやすくなる。
次の詳しい説明と図面を合わせて、本開示の実施例の上記及びほかの目的、特徴及びメリットは理解しやすくなる。図面において、非制限的例示的な方式で、本開示の複数の実施例を示す。
画像に基づくデータ処理システムにより処理される例示的な画像を示す。 画像に基づくデータ処理システムにより処理される例示的な画像を示す。 画像に基づくデータ処理システムにより処理される例示的な画像を示す。 注意力メカニズムを用いる従来の解決手段における画像に基づくデータ処理システムの関心領域の概略図を示す。 注意力メカニズムを用いる従来の解決手段における画像に基づくデータ処理システムの関心領域の概略図を示す。 注意力メカニズムを用いる従来の解決手段における画像に基づくデータ処理システムの関心領域の概略図を示す。 本開示の一部の実施例がその中に実現可能な例示的な環境の概略図を示す。 本開示の実施例による画像に基づくデータ処理方法の概略フローチャートを示す。 本開示の実施例による画像に基づくデータ処理システムの関心領域の概略図を示す。 本開示の実施例による画像に基づくデータ処理システムの関心領域の概略図を示す。 本開示の実施例による画像に基づくデータ処理システムの関心領域の概略図を示す。 本開示の実施例による画像に基づくデータ処理システムの例示的な構造ブロック図を示す。 本開示の実施例による画像に基づくデータ処理装置の例示的なブロック図を示す。 本開示の実施例の装置を実施するための例示的なブロック図を示す。
すべての図面において、同じであるか類似する記号は、同じであるか類似するモジュールを示す。
次に、図面に示される複数の例示的な実施例を合わせて、本開示の原理と精神を説明する。これらの具体的な実施例は、当業者に本開示をよりよく理解且つ実現させるためのものであり、本開示の範囲を制限するためのものではないことを理解すべきである。
上記したように、正確率の面で、従来の画像に基づくデータ処理システムにより提供される応答はやはり低いレベルの一途に辿り、ユーザの需要に応じることができない場合が多く、低いユーザエクスペリエンスをもたらす。なぜ従来の画像に基づくデータ処理システムの応答の正確率が低いか、発明者らは研究を通して、1つの重要な原因として、従来の画像に基づくデータ処理システムは、ユーザの問い合わせを答えるプロセス中に、画像における関心すべき対象を正確に確定できないことで、画像に基づくデータ処理システムによって出力された応答が正しくないことをもたらすことがわかる。次に、例示的な方式でそれを詳しく説明する。
図1A~図1Cは、画像に基づくデータ処理システムにより処理される3つの例示的な画像を示す。図1Aに示すように、画像110にネクタイ112を結び、ズボン114を履いている人物のイメージが示されている。例えば、ユーザが画像110に対して「彼のネクタイがズボンに合いますか?」という問い合わせを入力する可能性があり、図1Bに示されるように、画像120にバナナ122とパイナップル124などの複数種の果物が示されている。例えば、ユーザが画像120に対して、「黄色い果物は何ですか?」という問い合わせを入力する可能性があり、ここで示される画像120が無色であっても、画像120に示される果物は実際に色を有するものであってもよいことを理解すべきである。図1Cに示されるように、画像130に1つのベッド並びに、ベッドサイド132および枕134などの関連物品が示されている。例えば、ユーザが画像130に対して「ベッドサイドは柔らかい?」という問い合わせを入力する可能性がある。
ここで提供される画像110~130及びそれらに対する具体的な問い合わせは例示的なものであり、本開示の範囲を制限するものではない。ほかの実施例において、画像に基づくデータ処理システムにより処理される画像は如何なる対象を示すための任意の画像であり得、ユーザからの画像に対する問い合わせは、画像に示される対象に関する如何なる問い合わせであり得る。即ち、本開示の実施例は、画像に基づくデータ処理システムにより処理される如何なる画像と問い合わせに適用できる。
図1A~図1Cにおける画像110、画像120、画像130及びそれらに対して提出した上記問い合わせに関しては、従来の画像に基づくデータ処理システムにおいて、先に画像と問い合わせに対してそれぞれ特徴を抽出し、その後に両者の特徴のマルチモーダル統合を行い、最後に分類器を通して問い合わせへの応答を出力するという処理プロセスを取るものがある。しかしながら、画像中に常に複雑で、冗長である様々な物体とシーンが含まれるため、画像に基づくデータ処理システムにとって、画像への理解は大きな挑戦となる。そのため、上記従来の方式により画像のグローバル特徴を抽出した後、問い合わせの特徴とのマルチモーダル統合を行うことは、効果が不良である。
ほかのいくつかの従来の画像に基づくデータ処理システムにおいて、画像情報の検索範囲を狭め、コンピューティングリソースをできるだけ重要な対象に集中するために、画像に基づくデータ処理システムは注意力メカニズムを用いることができる。具体的に、対象検出アルゴリズムにより、画像に基づくデータ処理システムは、画像中の複数の目立たしい物体(例えば、対象検出アルゴリズムの信頼性点数が最も多い上位36個の物体)をスクリーニングし、且つこれらの対象の特徴を抽出して画像のグローバル特徴の代わりに問い合わせ特徴とのマルチモーダル統合を行う。
このような注意力メカニズムによる従来の画像に基づくデータ処理システムに対して、発明者らは汎用的な可視化方法を通して、その関心領域に対して可視化分析と研究を行った。該研究により、このような従来の画像に基づくデータ処理システムは、ある状況において、関心の焦点が問い合わせの本来の意図から逸脱し、最終的に、画像に基づくデータ処理システムによる応答が間違っていることにつながることがわかる。次に図2A~図2Cを合わせてそれについて詳しく説明する。
図2A~図2Cは、注意力メカニズムによる従来の解決手段における画像に基づくデータ処理システムの関心領域の概略図を示す。図2Aに示されるように、画像110に関しては、従来の解決手段における画像に基づくデータ処理システムは主に領域210と領域220に重点を置き、これらの領域に、ユーザの問い合わせに言及するネクタイ112が含まれていない。図2Bに示されるように、画像120に関しては、従来の解決手段における画像に基づくデータ処理システムは主に領域230と領域240に重点を置き、これらの領域に、ユーザの問い合わせに言及されたバナナ122が含まれていない。図2Cに示されるように、画像130に関しては、従来の解決手段における画像に基づくデータ処理システムは主に領域250と領域260に重点を置き、これらの領域に、ユーザの問い合わせに言及されたベッドサイド132が含まれていない。ここで、領域210~260の特定数目、サイズおよび形状は例示的なものであり、読者が画像に基づくデータ処理システムの関心領域を理解するために役立つものであり、本開示の範囲を制限するものではないことを理解すべきである。ほかの実施例において、画像に基づくデータ処理システムは画像中の任意数目、任意サイズおよび任意形状の領域に関心を持つことができる。
図2A~図2Cから見れば、従来の画像に基づくデータ処理システムの関心領域と問い合わせは相関性の欠如で、画像に基づくデータ処理システムが間違った応答を出力することをもたらした。その根本的な原因は、従来の注意力メカニズムは、対象検出アルゴリズムにより提供される目立たしい対象情報とユーザの問い合わせを効果的に統合せず、関連付けしていないことにあり、結果として画像に基づくデータ処理システムは、どの対象に焦点を合わせるのか不明である。そのため、従来の方法は注意力メカニズムを用い、対象検出アルゴリズムにより画像中の最も目立たしい対象情報を導入したが、このような画像に基づくデータ処理システムはやはり正確な応答を提供できない場合が多かった。
従来の解決手段における上記問題及びほかの潜在的な問題を鑑みて、本開示の実施例は、画像に基づくデータ処理システムにより提供される応答の正確率を高めるように、画像に基づくデータ処理システムの注意力メカニズムと関心焦点を改善するための、画像に基づくデータ処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。
一部の実施例において、提供される画像に基づくデータ処理システムは、対象検出アルゴリズムを利用して対象の特徴情報を提供するだけでなく、対象と問い合わせの相関性も確定する。例えば、画像に基づくデータ処理システムはこれらの対象及びその属性の組み合わせ(カテゴリーラベルとも呼ばれる)を導入し、且つ、これらのカテゴリーラベルを、問い合わせの特徴と同じ次元の特徴表現に変換することができる。その後、画像に基づくデータ処理システムは、各対象のカテゴリーラベルの特徴と問い合わせの特徴に対して類似度の計算を行うことにより、各対象と問い合わせの相関性を得る。
そのほか、画像に基づくデータ処理システムは、対象と問い合わせの相関性に基づいて対象の関心重みを設定する。例えば、対象の関心重みが大きければ大きいほど、問い合わせの応答を確定する時の、画像に基づくデータ処理システムの該対象に対する関心の程度が高くなることが示され、したがって、画像に基づくデータ処理システムの関心焦点の正確性を高める。次に、図面を合わせて本開示の複数の実施例を説明する。
図3は本開示の一部の実施例がその中に実現可能な例示的な環境300の概略図を示す。図3に示されるように、例示的な環境300において、ユーザ(示されず)は、画像305と画像305に関する問い合わせ310をコンピューティングデバイス330に入力することができる。コンピューティングデバイス330は、画像305から対象315を識別することができる。本明細書に記載したように、画像305における対象315は、画像305に示される任意物体であり得、例えば、建物、人体、動物など、一定の形状とサイズがある物体であり得る。ほかの場合、対象315は、空、草地、雲などのような固定形状とサイズがない物体であってもよい。さらに一般に、対象315は、既存の、又は未来に開発するいずれかの対象識別技術を通して画像305から識別できる如何なる対象であってもよい。
対象315を識別した後、コンピューティングデバイス330は、対象315の属性320を確定できる。本明細書に記載したように、属性320は、対象315の色又は状態などのように、対象315が一般的に備える性質であってもよい。対象315が人物とされる場合、対象315の状態は、該人物が立ち状態かほかの状態であってもよい。さらに一般に、属性320は対象315の画像305に示される如何なる性質であってもよい。該性質が画像305を通して示され得るため、ユーザの対象315に対する問い合わせ310は対象315の該性質に関する可能性がある。
次に、図3に示されるように、対象315の属性320を確定した後、コンピューティングデバイス330は、対象315と属性320を用いて対象315と問い合わせ310との相関性を確定できる。即ち、コンピューティングデバイス330は、問い合わせ310が対象315に関連しているか、及び、相関度合いを確定する。例えば、問い合わせ310の中に対象315又は属性320が直接言及された場合、通常に問い合わせ310と対象315が高い相関性を備えることが示される。例えば、問い合わせ310に対象315又は属性320に近いか類似する対象又は属性が言及された場合、問い合わせ310と対象315が高い相関性を備えることが示される可能性がある。
対象315と問い合わせ310の相関性を確定した後、コンピューティングデバイス330は、該相関性に基づいて問い合わせ310に対する応答340を提供できる。例えば、コンピューティングデバイス330は、画像305に示される複数の対象について、それらの問い合わせ310との相関性をそれぞれ確定し、その後に応答340を提供するプロセス中に、高い相関性を備える対象にもっと関心を持ち、低い相関性の対象に関心を減らす。問い合わせ310に対する明確な回答以外に、ここでの応答340は、ほかの様々な形式の、問い合わせ310に対する応答を含むことができることを理解すべきである。例えば、応答340は、コンピューティングデバイス330が問い合わせ310に対する明確な回答を提供できないという情報であってもよく、或いは、ほかの如何なる応答情報であってもよい。
コンピューティングデバイス330は、任意タイプの移動端末、固定端末又は携帯端末であり、携帯電話、サイト、ユニット、設備、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケーター、デスクトップコンピュータ、ラップトップコンピュータ、ノートパソコン、ネットブックパソコン、タブレットコンピュータ、パーソナル通信システム(PCS)デバイス、パーソナルナビゲーションデバイス、パーソナルデジタルアシスタント(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/ビデオカメラ、測位設備、テレビ受像機、ラジオ受信機、電子書籍リーダー、ゲーム機又はそれらの任意の組み合わせを含み、また、これらの設備の付属品と周辺機器又はそれらの任意の組み合わせを含むことを理解すべきである。さらに、コンピューティングデバイス330は、任意タイプのユーザ向けのインターフェース(例えば、「着用可能な」回路など)をサポートできることが予見される。次に、図4を合わせて、本開示の実施例による画像に基づくデータ処理の例示的な動作を説明する。
図4は、本開示の実施例による画像に基づくデータ処理方法400の例示的なフローチャートを示す。一部の実施例において、方法400は、図3のコンピューティングデバイス330により実現されることができ、例えば、コンピューティングデバイス330のプロセッサ又は処理ユニットにより実現され得る。ほかの実施例において、方法400のすべて又は一部もコンピューティングデバイスシステム330と別々であるコンピューティングデバイスにより実現され得、或いは、例示的な環境300におけるほかのユニットにより実現され得る。議論の便宜上、図3を合わせて方法400を説明する。
ステップ410において、画像305に関して入力された問い合わせ310に応答し、コンピューティングデバイス330が対象と属性の予定マッピングに基づいて、画像305に示された対象315に関連する属性320を確定する。一部の実施例において、コンピューティングデバイス330は、既存の、又は未来に開発する任意対象検出アルゴリズムにより画像310の中の対象315を検出することができる。対象315を検出した後、コンピューティングデバイス330は、応答340を提供する際に、対象315を考慮すべきか、或いは、対象315をどのぐらい考慮するかを確定するために、対象315と問い合わせ310との相関性が存在するか否かを確定することができる。そのような相関性を確定する際、コンピューティングデバイス330は、対象315を利用するだけでなく、対象315の属性320も利用する。その原因は下記のとおりに解釈できる。
場合によって、問い合わせ310には、対象315が直接言及される可能性があり、それは、問い合わせ310が対象315に関連することが意味される。ほかの場合では、問い合わせ310は対象315に直接関連せず、対象315のある属性に関連する。例えば、前述したように、画像120に対する問い合わせ「黄色い物体は何ですか」において、該問い合わせは、画像の中の対象(例えば、バナナ122)を直接言及しなかったが、バナナ122の属性(黄色)に関わっている。即ち、問い合わせ310が対象315の属性320に関する場合、コンピューティングデバイス330は、問い合わせ310が対象315に関連すると認めることができる。そのため、ユーザが画像305に対して問い合わせ310を入力した後、コンピューティングデバイス330は先に画像305から対象315及びその属性320を検出する。具体的に、コンピューティングデバイス330は、対象と属性の予定マッピングを通して属性320を確定することができる。例えば、そのような予定マッピングは、バナナが一般的に黄色で、リンゴが一般的に赤色であるような事前知識に基づく可能性がある。
一部の実施例において、対象315の属性320を確定するために、コンピューティングデバイス330は、対象315に基づいて予め定義されたデータセットから属性320を取得することができる。例えば、該データセットは、ビジュアルゲノム(Visual Genome)データセットのような、複数の画像から予め標識された対象と属性を含むことができる。それは、10万枚の画像から予め標識された1600個の実体名称タグと400個の属性タグを含むことが挙げられる。このような方式を通して、コンピューティングデバイス330は、すでに確立した、画像に予め標識された対象と属性の予定関係を充分利用することができるので、対象に基づいてその属性を確定する計算方式の複雑さが低減された。
ステップ420において、コンピューティングデバイス330は対象315と属性320に基づいて対象315と問い合わせ310との相関性を確定する。前文に記載のとおり、問い合わせ310が対象315自体又はその属性320に直接関連する場合、問い合わせ310と対象315が高い相関性を備えることが示され得る。さらに一般的な状況において、コンピューティングデバイス330は、問い合わせ310の中の説明単位と、対象315と属性320の相関性を確定することにより、対象315と問い合わせ310の相関性を確定することができる。例えば、ここで、説明単位は問い合わせ310における単語、フレーズ、句、ほかの適切な説明単位、或いはそれらの任意の問い合わせであってもよい。
問い合わせ310の説明単位と対象315との相関性を確定する際、コンピューティングデバイス330は、対象315と属性320の組み合わせの第1特徴表現を確定することができる。例えば、対象315と属性320のような組み合わせ(本明細書に対象315のカテゴリーラベルと呼ばれる)は「黄色いバナナ」、「黒いペン」、「立っているサル」などであってもよい。コンピューティングデバイス330は、単語と特徴との予め定義されたマッピングテーブルを通して、対象315のカテゴリーラベルを特定次元(例えば、300次元)の第1特徴表現に変換させることができる。
次に、コンピューティングデバイス330は、問い合わせ310における少なくとも1つの説明単位に対応する少なくとも1つの第2特徴表現を確定することができる。例えば、コンピューティングデバイス330は、問い合わせ310から特定数目(例えば14個)の単語を抽出することができる。該例示的な数目の場合、コンピューティングデバイス330は、対象315のカテゴリーラベルを特徴化する際に使用する同じ単語と特徴との予め定義されたマッピングテーブルに基づき、これらの14個の単語を14個の第2特徴表現に変換することができる。ここで使用される様々な具体的な数目、具体的な対象および具体的な属性は例示的なものであり、本開示の範囲を制限するものではないことを理解すべきである。ほかの実施例において、対象315と属性320は、如何なる適切な対象と関連属性であり得、コンピューティングデバイス330は、問い合わせ310から任意の適切な数目の説明単位を確定することができる。
その後、コンピューティングデバイス330は対象315のカテゴリーラベルの第1特徴表現と問い合わせ310の少なくとも1つの第2特徴表現に基づいて、対象315と問い合わせ310との相関性を取得することができる。1つの第2特徴表現のみが存在する場合、コンピューティングデバイス330は第1特徴表現と第2特徴表現との相関性(例えば、コサイン類似度)を直接計算することで、対象315と問い合わせ310との相関性を確定することができる。該方式を通して、コンピューティングデバイス330は数値計算により、対象315と問い合わせ310との相関性を定量化することができる。
複数の第2特徴表現が存在する場合、コンピューティングデバイス330は第1特徴表現と複数の第2特徴表現のそれぞれとの複数の類似度を計算することができる。その後、コンピューティングデバイス330は計算して取得した複数の類似度に基づいて対象315と問い合わせ310との相関性を取得することができる。それにより、コンピューティングデバイス330は、対象315の特徴表現と問い合わせ310の複数の説明単位の特徴表現との類似度を総合的に考慮することで、対象315と問い合わせ310との相関性をさらに正確に確定することができる。例えば、コンピューティングデバイス330は、複数の類似度における最大値、中間値、平均値、加重値、ほかの任意の適切な計算値、或いは、それらの任意の組み合わせを、対象315と問い合わせ310との相関性として選択することができる。こうして、コンピューティングデバイス330は、異なる計算方式を用いて、取得した複数の類似度を処理することができ、したがって、最終的に取得した相関性の正確性と適当性を調整することができる。
ステップ430において、コンピューティングデバイス330は、対象315と問い合わせ310の相関性に基づいて、問い合わせへの応答340を提供する。例えば、コンピューティングデバイス330は、対象315と問い合わせ310が高い相関性を備えることを確定した場合、画像305における問い合わせ310との相関性が低いほかの対象に比べて、コンピューティングデバイス330は、応答340を確定する際に、対象315をもっと多く考慮すべきである。逆に、コンピューティングデバイス330は、対象315と問い合わせ310が低い相関性を備えることを確定した場合、画像305における問い合わせ310との相関性が高いほかの対象に比べて、コンピューティングデバイス330は、応答340を確定する際に、対象315をより少なく考慮すべきである。
一部の実施例において、コンピューティングデバイス330が応答340を確定する際に対象315を考慮する度合いを定量化するために、コンピューティングデバイス330は、対象315と問い合わせ310との相関性に基づいて対象315の重みを確定することができる。該重みは、コンピューティングデバイス330が応答340を確定する際の対象315の重要度を示すことができる。該重みを確定した後、コンピューティングデバイス330は、該重みに基づいて応答340の内容を確定することができる。この方式を通して、コンピューティングデバイス330は、画像305における複数の異なる対象に対して異なる重みを設定することで、コンピューティングデバイス330が応答340を確定するプロセス中の関心焦点を改善し、最終的に応答340の正確率を高めることができる。
図5A~図5Cは、本開示の実施例による画像に基づくデータ処理システムの関心領域の概略図を示す。図5Aに示されるように、画像110に関しては、本開示の実施例による画像に基づくデータ処理システムは領域510と領域520に焦点を当てることができ、領域510は問い合わせに言及されたネクタイ112を含む。図5Bに示されるように、画像120に関しては、本開示の実施例による画像に基づくデータ処理システムは、領域530と領域540に焦点を当てることができ、領域540は問い合わせに言及されたバナナ122を含む。図5Cに示されるように、画像130に関しては、本開示の実施例による画像に基づくデータ処理システムは領域550と領域560に焦点を当てることができ、領域550は問い合わせに言及されたベッドサイド132を含む。ここで、領域510~560の特定数目、サイズおよび形状は例示的なものであり、読者が画像に基づくデータ処理システムの関心領域を理解するために役立つものであり、本開示の範囲を制限するものではないことを理解すべきである。ほかの実施例において、画像に基づくデータ処理システムは画像における任意の数目、任意のサイズおよび任意の形状の領域に焦点を当てることができる。
図5A~図5Cから見れば、本開示の実施例による画像に基づくデータ処理システムは、間違った関心焦点を効果的に修正し、且つ正確な応答を出したことが分かる。それにより、本開示の実施例は、画像における対象のカテゴリーラベルを導入することで、画像と問い合わせの関連性が直接構築され、画像におけるもっとも関心を持つべき領域を探し出すことに役立ち、従来の画像に基づくデータ処理システムの関心焦点ずれの問題を軽減または解決した。例えば、本開示の実施例は、問い合わせと画像との相関性関係を強化し、画像に基づくデータ処理システムが関心領域を正確に探し出すことに役立ち、画像に基づくデータ処理システムの性能が効果的に向上された。
図6は、本開示の実施例による、例示的に画像に基づくデータ処理システム600の構造ブロック図を示す。例示的な、画像に基づくデータ処理システム600は、本開示の実施例を実現するための例示的な構造であってもよく、本開示の範囲を制限するものではないことを理解すべきである。ほかの実施例において、本開示の実施例は、任意の適切なシステム構造を用いてコンピューティングデバイス330或いは計算能力を備えるほかの設備に実施され得る。
図6に示されるように、システム600は、3つの入力を備えることが認められる。具体的に、第1の入力は、問い合わせ310のテキストを単語埋め込みモジュール610の中に入力して、単語ベクトルに変換する。例えば、単語埋め込みモジュール610は、「単語-特徴」マッピングテーブルに基づき、問い合わせ310の中の各単語を特定次元(例えば、300次元)の特徴表現に変換することができる。その後、特徴抽出モジュール625は問い合わせ310の単語ベクトル表現に基づいて問い合わせ310の特徴を抽出することができる。一部の実施例において、特徴抽出モジュール625はゲート付き回帰型ユニット(GRU)に基づいて実現され得る。
第2の入力は、先に対象検出アルゴリズムを通して、入力した画像305からk(kは自然数)個の一番目立たしい対象を抽出する。特徴抽出モジュール615は、目立たしい対象ごとを予定次元(例えば、2048次元)の畳み込みニューラルネットワーク(CNN)特徴で示すことができる。例えば、重み計算モジュール630は、例えば14×300次元の問い合わせ特徴と例えばk×2048(kは一般に36にする)次元の画像特徴に対してマルチモーダル統合を行うことで、k個の対象の関心重みを得る。重み計算モジュール630は、画像305と問い合わせ310の特徴表現に基づいて対象の重みを計算し、ここで、対象の重みは対象と問い合わせ310との相関性を考慮しないことを注意しなければならない。その後、加重合計モジュール640は、重み計算モジュール630により計算して得た関心重みを、後文に説明しようとする第3の入力からの、対象と問い合わせ310との相関性に基づいて確定される対象の関心重みと加算することができる。
第3の入力は画像に示される対象のカテゴリーラベル605であり、各対象のカテゴリーラベルは「属性+実体名称」の組み合わせであってもよい。前文に記載したように、これらのカテゴリーラベルは、ビジュアルゲノムデータセットからのものであってもよい。具体的に、k個の対象のカテゴリーラベル(第2の入力の画像における対象の特徴順序と一致し得る)が入力された後、単語埋め込みモジュール620は「単語-特徴」マッピングテーブルに基づき、各対象のカテゴリーラベルを予定次元(例えば、300次元)の特徴表現に変換させることができる。相関性計算モジュール635は、問い合わせ310の予定数目(例えば14個)の単語特徴と画像のk個の対象のカテゴリーラベル特徴に対してコサイン類似度をそれぞれ計算することができ、公式は下記のとおりである。
Figure 0006997161000001
ここで、A、Bはそれぞれ対象のカテゴリーラベル特徴と問い合わせ310の1つの単語特徴を示すことができ、上記式(1)におけるsimilarityは、計算されるコサイン類似度を示す。公式(1)を通して、1つのk×14次元のコサイン類似度行列を取得できる。その後、該コサイン類似度行列の各行から1つの最大値を選択して(即ち、各対象のカテゴリーラベルに対して、該カテゴリーラベルの対応する予定数目のコサイン類似度から最大値を選択する)、該カテゴリーラベル(即ち、対象)の関心重みとする。最終的にk×1次元の関心重みを取得できる。
そのほか、加重合計モジュール640は、第3の入力により得られたk個の対象の関心重みと重み計算モジュール630により得られた対象の関心重みを加算し、その後に、加算後の関心重みを応答計算モジュール645に提供することができる。応答計算モジュール645は、複数の対象の関心重みに基づいて最終的な応答340を出力することができる。例えば、応答計算モジュール645は、複数の候補問い合わせ応答の点数を計算し、点数が一番多い候補応答を最終的な応答内容とすることができる。
図7は、本開示の実施例による画像に基づくデータ処理装置700の例示的なブロック図を示す。一部の実施例において、装置700は、図3のコンピューティングデバイス330の中に含まれるか、或いは、コンピューティングデバイス330として実現される。
図7に示されるように、装置700は属性確定モジュール710、相関性確定モジュール720及び応答提供モジュール730を含む。属性確定モジュール710は、画像に関して入力した問い合わせに応答して、対象と属性との予定マッピングに基づいて、画像に示される対象に関連する属性を確定するように配置される。相関性確定モジュール720は、対象と属性に基づいて、対象と問い合わせとの相関性を確定するように配置される。応答提供モジュール730は、相関性に基づいて問い合わせの応答を提供するように配置される。
一部の実施例において、属性確定モジュール710は、対象に基づいて、予め定義されたデータセットから属性を取得するように配置される属性取得モジュールを含み、データセットは、複数の画像から予め標識した対象と属性を含む。
一部の実施例において、相関性確定モジュール720は、対象と属性の組み合わせの第1特徴表現を確定するように配置される第1特徴表現確定モジュールと、問い合わせの中の少なくとも1つの説明単位に対応する少なくとも1つの第2特徴表現を確定するように配置される第2特徴表現確定モジュールと、第1特徴表現と少なくとも1つの第2特徴表現に基づいて、相関性を取得するように配置される相関性取得モジュールを備える。
一部の実施例において、少なくとも1つの第2特徴表現は、複数の第2特徴表現を含むことを示し、且つ、相関性取得モジュールは、第1特徴表現と複数の第2特徴表現のそれぞれとの複数の類似度を計算するように配置される類似度計算モジュールと、複数の類似度に基づいて相関性を取得するように配置される相関性取得モジュールを備える。
一部の実施例において、相関性取得モジュールは、複数の類似度における最大値、中間値、平均値、加重値の少なくとも1項を相関性として選択するように配置される選択モジュールを含む。
一部の実施例において、応答提供モジュール730は、相関性に基づいて対象の重み(重みは、応答を確定する際の対象の重要さを示す)を確定するように配置される重み確定モジュールと、対象の重みに基づいて応答の内容を確定するように配置される応答確定モジュールを備える。
図8は、本開示の実施例の装置800を実施するためのブロック図を例示的に示す。図8に示されるように、装置800は、読み取り専用メモリ(ROM)802に格納されたコンピュータプログラム命令、又は、記憶ユニット808からランダムアクセスメモリ(RAM)803にローディングしたコンピュータプログラム命令に基づいて、様々な適切な動作と処理を実行することができる中央処理装置(CPU)801を含む。RAM803は、装置800の動作に必要な様々なプログラムとデータをさらに格納することができる。CPU801、ROM802及びRAM803は、バス804を介して互いに接続される。入力/出力(I/O)インターフェース805もバス804に接続される。
装置800の複数のコンポーネントがI/Oインターフェース805に接続され、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808、及び、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット809を備える。通信ユニット809は、装置800と、インターネットなどのコンピュータネットワーク及び/又は様々な通信ネットワークを介したほかの装置との情報/データ交換を可能にする。
前文に記載の各プロセスと処理、例えば、方法400は、処理ユニット801により実行され得る。例えば、一部の実施例において、方法400はコンピュータソフトウェアプログラムとして実現され得、それは、記憶ユニット808などの機械可読媒体に有形の形態で包含される。一部の実施例において、コンピュータプログラムの一部又はすべてはROM802及び/又は通信ユニット809を通して装置800にローディング及び/又はインストールすることができる。コンピュータプログラムはRAM803にローディングされ、且つCPU801により実行される時に、前文に記載の方法400の1つ又は複数のステップを実行できる。
本文に記述されるように、用語「含む」及び類似用語は、開放性に含むことを指すことが理解されるべきであり、即ち、「それらを含むが、それらに制限されない」という意味である。用語「基づく」は「少なくとも部分的に基づく」として理解されるべきである。用語「1つの実施例」或いは「該実施例」は、「少なくとも1つの実施例」として理解されるべきである。用語「第1」、「第2」などは異なるか同じ対象を指すことができる。本明細書はさらに、ほかの明示的、暗黙的な定義を含む可能性がある。
本明細書に記載されるとおり、用語「確定」は様々な動作をカバーする。例えば、「確定」は、演算、計算、処理、導出、調査、検索(例えば、テーブル、データベース又はほかのデータ構造から検索する)、確認などを含むことができる。そのほか、「確定」は、受信(例えば、情報の受信)、アクセス(例えば、メモリの中のデータにアクセスする)などを含むことができる。そのほか、「確定」は、解析、選択、スクリーニング、構築などを含むことができる。
本開示の実施例は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアの組み合わせを通して実現され得る。ハードウェア部分は専用ロジックで実現され得、ソフトウェア部分はメモリに格納されて、マイクロプロセッサ又は特定用途向けハードウェアなどの適切な命令実行システムにより実行され得る。当業者であれば、上記装置と方法は、コンピュータ実行可能な命令により実現され、及び/又は、プログラマブルメモリ、或いは、光学や電子信号キャリアなどのデータキャリアにより提供されるプロセッサ制御コードに含まれて実現され得ることを理解できる。
そのほか、図面において、本開示の方法の動作を特定順序で説明したが、これらの特定順序のみによってこれらの動作を実行するか、或いは、示された動作を全部実行しなければ予期の結果を実現できないことを意味するものではない。逆に、フローチャートに示されるステップは、その実行順序を変更することができる。追加的或いは代替的なものとして、一部のステップを省略して、複数のステップを1つのステップにし、及び/又は、1つのステップを複数のステップに分けて実行できる。さらに、本開示による2つ又は複数の装置の特徴と機能は1つの装置の中に具現化することができることを注意すべきである。逆に、前文に記載の1つの装置の特徴と機能は、さらに複数の装置によって具現化されてもよい。
複数の具体的な実施例を合わせて本開示を説明したが、本開示は開示された具体的な実施例に制限されないことを理解すべきである。本開示は、添付した特許請求の範囲と精神に含まれる様々な修正と等価の配置を包括することを旨とする。

Claims (15)

  1. 画像に基づくデータ処理方法であって、前記方法はコンピュータによって実行され、
    画像に関して入力された問い合わせに応答し、前記画像における対象を確定するステップと、
    対象と属性との対応関係を示す予め定義されたデータセットである、対象と属性との予定マッピングに基づいて、前記画像におけ前記対象に関連する属性を確定するステップと、
    前記対象と、確定された前記対象に関連する属性に基づいて、前記対象と前記問い合わせとの相関性を定するステップと、
    前記相関性に基づいて前記問い合わせの応答を確定するステップと、を備える画像に基づくデータ処理方法。
  2. 記属性を確定するステップは、
    前記対象に基づいて、複数の画像から予め標識された対象と属性を含む予め定義されたデータセットから、前記属性を取得することを含む請求項1に記載の方法。
  3. 前記相関性を確定するステップは、
    前記対象と前記属性の組み合わせの第1特徴表現を確定することと、
    前記問い合わせにおける少なくとも1つの記述単位に対応する少なくとも1つの第2特徴表現を確定することと、
    前記第1特徴表現と前記少なくとも1つの第2特徴表現に基づいて、前記相関性を取得することと、を含む請求項1に記載の方法。
  4. 前記第2特徴表現は、複数あり、
    且つ、
    前記相関性を取得することは、
    前記第1特徴表現と前記複数の第2特徴表現のそれぞれとの類似度を計算することと、
    前記複数の類似度に基づいて前記相関性を取得することと、を含む請求項3に記載の方法。
  5. 前記相関性を取得することは、
    前記複数の類似度の最大値、中間値、平均値、加重値の少なくとも1項を前記相関性として選択することを含む請求項4に記載の方法。
  6. 前記応答を提供するステップは、
    前記相関性に基づいて、前記応答を確定する際の前記対象の重要さを示す前記対象の重みを確定することと、
    前記対象の前記重みに基づいて前記応答の内容を確定することと、を含む請求項1に記載の方法。
  7. 画像に基づくデータ処理装置であって、
    画像に関して入力された問い合わせに応答し、前記画像における対象を確定し、対象と属性との対応関係を示す予め定義されたデータセットである、対象と属性との予定マッピングに基づいて、前記画像におけ前記対象に関連する属性を確定するように配置される属性確定モジュールと、
    前記対象と、確定された前記対象に関連する属性に基づいて、前記対象と前記問い合わせとの相関性を定するように配置される相関性確定モジュールと、
    前記相関性に基づいて前記問い合わせの応答を確定するように配置される応答提供モジュール、を備える画像に基づくデータ処理装置。
  8. 前記属性確定モジュールは、
    前記対象に基づいて、複数の画像から予め標識された対象と属性を含む予め定義されたデータセットから、前記属性を取得するように配置される属性取得モジュールを備える請求項7に記載の装置。
  9. 前記相関性確定モジュールは、
    前記対象と前記属性の組み合わせの第1特徴表現を確定するように配置される第1特徴表現確定モジュールと、
    前記問い合わせにおける少なくとも1つの記述単位に対応する少なくとも1つの第2特徴表現を確定するように配置される第2特徴表現確定モジュールと、
    前記第1特徴表現と前記少なくとも1つの第2特徴表現に基づいて、前記相関性を取得するように配置される相関性取得モジュールと、を備える請求項7に記載の装置。
  10. 前記第2特徴表現は、複数あり、
    且つ、
    前記相関性取得モジュールは、
    前記第1特徴表現と前記複数の第2特徴表現のそれぞれとの類似度を計算するように配置される類似度計算モジュールと、
    前記複数の類似度に基づいて前記相関性を取得するように配置される相関性取得モジュールと、を備える請求項9に記載の装置。
  11. 前記相関性取得モジュールは、
    前記複数の類似度の最大値、中間値、平均値、加重値の少なくとも1項を前記相関性として選択するように配置される選択モジュールを備える請求項10に記載の装置。
  12. 前記応答提供モジュールは、
    前記相関性に基づいて、前記応答を確定する際の前記対象の重要さを示す前記対象の重みを確定するように配置される重み確定モジュールと、
    前記対象の前記重みに基づいて前記応答の内容を確定するように配置される応答確定モジュールと、を備える請求項7に記載の装置。
  13. 電子機器であって、
    1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを格納するための記憶装置であって、前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される時、前記1つ又は複数のプロセッサに請求項1~6のいずれか1項に記載の方法を実現させる記憶装置と、を備える電子機器。
  14. コンピュータ読み取り可能な記憶媒体であって、
    コンピュータプログラムが格納され、
    前記プログラムはプロセッサにより実行される時に、請求項1~6のいずれか1項に記載の方法を実現するコンピュータ読み取り可能な記憶媒体。
  15. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1~6のいずれか1項に記載の方法を実現する、コンピュータプログラム。
JP2019210904A 2019-01-30 2019-11-21 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム Active JP6997161B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910094119.2A CN109871457A (zh) 2019-01-30 2019-01-30 基于图像的数据处理方法、装置、电子设备和存储介质
CN201910094119.2 2019-01-30

Publications (2)

Publication Number Publication Date
JP2020123319A JP2020123319A (ja) 2020-08-13
JP6997161B2 true JP6997161B2 (ja) 2022-01-17

Family

ID=66918287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019210904A Active JP6997161B2 (ja) 2019-01-30 2019-11-21 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US11314800B2 (ja)
EP (1) EP3690673A1 (ja)
JP (1) JP6997161B2 (ja)
KR (1) KR102279126B1 (ja)
CN (1) CN109871457A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12045288B1 (en) * 2020-09-24 2024-07-23 Amazon Technologies, Inc. Natural language selection of objects in image data
CN112288512B (zh) * 2020-10-09 2024-07-16 北京三快在线科技有限公司 信息处理方法、装置、电子设备及可读存储介质
JP7481995B2 (ja) * 2020-10-28 2024-05-13 株式会社東芝 状態判定装置、方法およびプログラム
US11769018B2 (en) * 2020-11-24 2023-09-26 Openstream Inc. System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
KR102259009B1 (ko) * 2021-02-26 2021-06-01 아이오크롭스 주식회사 수확 대상 과실 판단 방법 및 과실 수확 장치
CN113722458B (zh) * 2021-08-27 2024-09-06 海信电子科技(武汉)有限公司 视觉问答处理方法、设备、计算机可读介质和程序产品
CN114840697B (zh) * 2022-04-14 2024-04-26 山东大学 一种云服务机器人的视觉问答方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091525A (ja) 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
JP2017220019A (ja) 2016-06-07 2017-12-14 日本電信電話株式会社 画像検索装置、方法、及びプログラム
JP2018165926A (ja) 2017-03-28 2018-10-25 株式会社Nttドコモ 類似画像検索装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240423B1 (en) * 1998-04-22 2001-05-29 Nec Usa Inc. Method and system for image querying using region based and boundary based image matching
JP5089482B2 (ja) * 2008-05-12 2012-12-05 キヤノン株式会社 情報処理装置、データ処理方法およびプログラム
US8903198B2 (en) * 2011-06-03 2014-12-02 International Business Machines Corporation Image ranking based on attribute correlation
US9536178B2 (en) * 2012-06-15 2017-01-03 Vufind, Inc. System and method for structuring a large scale object recognition engine to maximize recognition accuracy and emulate human visual cortex
US8811727B2 (en) * 2012-06-15 2014-08-19 Moataz A. Rashad Mohamed Methods for efficient classifier training for accurate object recognition in images and video
JP5963609B2 (ja) 2012-08-23 2016-08-03 キヤノン株式会社 画像処理装置、画像処理方法
US10909329B2 (en) 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US10534810B1 (en) * 2015-05-21 2020-01-14 Google Llc Computerized systems and methods for enriching a knowledge base for search queries
CN106933867B (zh) * 2015-12-30 2020-02-21 杭州华为企业通信技术有限公司 一种图像查询方法和装置
CN107169111A (zh) * 2017-05-19 2017-09-15 深圳市唯特视科技有限公司 一种在视觉问答场景中提高问题前提可信度的方法
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
US10719744B2 (en) * 2017-12-28 2020-07-21 Intel Corporation Automated semantic inference of visual features and scenes
CN108446404B (zh) * 2018-03-30 2021-01-05 中国科学院自动化研究所 面向无约束视觉问答指向问题的检索方法及系统
CN109241267B (zh) * 2018-09-27 2022-07-01 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091525A (ja) 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
JP2017220019A (ja) 2016-06-07 2017-12-14 日本電信電話株式会社 画像検索装置、方法、及びプログラム
JP2018165926A (ja) 2017-03-28 2018-10-25 株式会社Nttドコモ 類似画像検索装置

Also Published As

Publication number Publication date
EP3690673A1 (en) 2020-08-05
US11314800B2 (en) 2022-04-26
US20200242152A1 (en) 2020-07-30
KR20200094624A (ko) 2020-08-07
KR102279126B1 (ko) 2021-07-19
JP2020123319A (ja) 2020-08-13
CN109871457A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
JP6997161B2 (ja) 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
US10489909B2 (en) Method of automatically detecting microaneurysm based on multi-sieving convolutional neural network
Wang et al. Stereoscopic thumbnail creation via efficient stereo saliency detection
US9633045B2 (en) Image ranking based on attribute correlation
US8538957B1 (en) Validating translations using visual similarity between visual media search results
US20220254134A1 (en) Region recognition method, apparatus and device, and readable storage medium
US20170352162A1 (en) Region-of-interest extraction device and region-of-interest extraction method
US8948517B2 (en) Landmark localization via visual search
CN114332680A (zh) 图像处理、视频搜索方法、装置、计算机设备和存储介质
WO2021169642A1 (zh) 基于视频的眼球转向确定方法与系统
US20210097101A1 (en) Method and apparatus for searching for an image and related storage medium
CN111091010A (zh) 相似度确定、网络训练、查找方法及装置和存储介质
CN109284497B (zh) 用于识别自然语言的医疗文本中的医疗实体的方法和装置
US9081800B2 (en) Object detection via visual search
CN116612324A (zh) 基于语义自适应融合机制的小样本图像分类方法及装置
CN111444313B (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
US9223854B2 (en) Document relevance determining method and computer program
Li et al. Location and model reconstruction algorithm for overlapped and sheltered spherical fruits based on geometry
US9002116B2 (en) Attribute recognition via visual search
CN113887422B (zh) 基于人工智能的表格图片内容提取方法、装置及设备
CN113762237B (zh) 文本图像处理方法、装置、设备及存储介质
CN112650869B (zh) 图像检索重排序方法、装置、电子设备及存储介质
CN113313126A (zh) 用于图像识别的方法、计算设备和计算机存储介质
US20160364458A1 (en) Methods and Systems for Using Field Characteristics to Index, Search For, and Retrieve Forms
Sun et al. Weighted joint sparse representation-based classification method for robust alignment-free face recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210510

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211216

R150 Certificate of patent or registration of utility model

Ref document number: 6997161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150