JP6997161B2

JP6997161B2 - 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム

Info

Publication number: JP6997161B2
Application number: JP2019210904A
Authority: JP
Inventors: ピンピンホァン; ミンチャオ; インリー; ジアンフイホァン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-01-30
Filing date: 2019-11-21
Publication date: 2022-01-17
Anticipated expiration: 2039-11-21
Also published as: EP3690673A1; US11314800B2; US20200242152A1; KR20200094624A; KR102279126B1; JP2020123319A; CN109871457A

Description

本開示の実施例は一般に情報処理技術分野に関し、さらに、画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラムに関する。

視覚的質問応答（ＶＱＡ）は、コンピュータービジョンと自然言語処理に関する情報処理技術である。視覚的質問応答システムは通常、ある画像と、該画像に関する、自由な形式がある、オープンな自然言語の問題を入力とし、該問題についての自然言語の回答を出力とする。このような問題は、ユーザの画像に関する問い合わせとして認められ、視覚的質問応答システムにより提供される回答は、該問い合わせに対する応答として認められる。そのため、ユーザは視覚的質問応答システムに画像を入力し、その後、該画像に関する問い合わせを視覚的質問応答システムに提出することができる。視覚的質問応答システムが応答した後、ユーザは、該応答が正確であるか否かを判断して、視覚的質問応答システムの画像に対する理解力を把握することができる。さらに、視覚的質問応答システムは一般に画像に基づくデータ処理システムとして認められる。

ところが、正確率の面で、従来の画像に基づくデータ処理システムにより提供される応答はやはり低いレベルの一途を辿り、ユーザの需要に応じることができない場合が多く、低いユーザエクスペリエンスをもたらす。

本開示の実施例は画像に基づくデータ処理方法、装置、電子機器およびコンピュータ読み取り可能な記憶媒体に関する。

本開示の第１態様によれば、画像に基づくデータ処理方法を提供する。該方法は、画像に関して入力された問い合わせに応答して、対象と属性の間の予定マッピングに基づいて、画像に示される対象に関する属性を確定することを含む。該方法はさらに、対象と属性に基づいて対象と問い合わせとの相関性を確定することを含む。該方法はさらに、相関性に基づいて問い合わせに対する応答を提供することを含む。

本開示の第２様態によれば、画像に基づくデータ処理装置を提供する。該装置は、画像に関して入力された問い合わせに応答して、対象と属性との予定マッピングに基づき、画像に示される対象に関連する属性を確定するように配置される属性確定モジュールを含む。該装置はさらに、対象と属性に基づいて対象と問い合わせとの相関性を確定するように配置される相関性確定モジュールを含む。該装置はさらに、相関性に基づいて問い合わせに対する応答を提供するように配置される応答提供モジュールを含む。

本開示の第３様態によれば、電子機器を提供する。該電子機器は、１つ又は複数のプロセッサと、１つ又は複数のプログラムを格納するための記憶装置を含む。１つ又は複数のプログラムが１つ又は複数のプロセッサにより実行される時、１つ又は複数のプロセッサに第１様態の方法を実現させる。

本開示の第４様態によれば、プロセッサにより実行される時に第１様態の方法を実現するコンピュータプログラムが格納されるコンピュータ読み取り可能な記憶媒体を提供する。

発明の概要の部分に説明される内容は、本開示の実施例の肝心な、重要な特徴を限定するものではなく、また、本開示の範囲を限定するものでもないことを理解すべきである。本開示のほかの特徴は以下の説明を通して理解しやすくなる。

次の詳しい説明と図面を合わせて、本開示の実施例の上記及びほかの目的、特徴及びメリットは理解しやすくなる。図面において、非制限的例示的な方式で、本開示の複数の実施例を示す。
画像に基づくデータ処理システムにより処理される例示的な画像を示す。画像に基づくデータ処理システムにより処理される例示的な画像を示す。画像に基づくデータ処理システムにより処理される例示的な画像を示す。注意力メカニズムを用いる従来の解決手段における画像に基づくデータ処理システムの関心領域の概略図を示す。注意力メカニズムを用いる従来の解決手段における画像に基づくデータ処理システムの関心領域の概略図を示す。注意力メカニズムを用いる従来の解決手段における画像に基づくデータ処理システムの関心領域の概略図を示す。本開示の一部の実施例がその中に実現可能な例示的な環境の概略図を示す。本開示の実施例による画像に基づくデータ処理方法の概略フローチャートを示す。本開示の実施例による画像に基づくデータ処理システムの関心領域の概略図を示す。本開示の実施例による画像に基づくデータ処理システムの関心領域の概略図を示す。本開示の実施例による画像に基づくデータ処理システムの関心領域の概略図を示す。本開示の実施例による画像に基づくデータ処理システムの例示的な構造ブロック図を示す。本開示の実施例による画像に基づくデータ処理装置の例示的なブロック図を示す。本開示の実施例の装置を実施するための例示的なブロック図を示す。

すべての図面において、同じであるか類似する記号は、同じであるか類似するモジュールを示す。

次に、図面に示される複数の例示的な実施例を合わせて、本開示の原理と精神を説明する。これらの具体的な実施例は、当業者に本開示をよりよく理解且つ実現させるためのものであり、本開示の範囲を制限するためのものではないことを理解すべきである。

上記したように、正確率の面で、従来の画像に基づくデータ処理システムにより提供される応答はやはり低いレベルの一途に辿り、ユーザの需要に応じることができない場合が多く、低いユーザエクスペリエンスをもたらす。なぜ従来の画像に基づくデータ処理システムの応答の正確率が低いか、発明者らは研究を通して、１つの重要な原因として、従来の画像に基づくデータ処理システムは、ユーザの問い合わせを答えるプロセス中に、画像における関心すべき対象を正確に確定できないことで、画像に基づくデータ処理システムによって出力された応答が正しくないことをもたらすことがわかる。次に、例示的な方式でそれを詳しく説明する。

図１Ａ～図１Ｃは、画像に基づくデータ処理システムにより処理される３つの例示的な画像を示す。図１Ａに示すように、画像１１０にネクタイ１１２を結び、ズボン１１４を履いている人物のイメージが示されている。例えば、ユーザが画像１１０に対して「彼のネクタイがズボンに合いますか？」という問い合わせを入力する可能性があり、図１Ｂに示されるように、画像１２０にバナナ１２２とパイナップル１２４などの複数種の果物が示されている。例えば、ユーザが画像１２０に対して、「黄色い果物は何ですか？」という問い合わせを入力する可能性があり、ここで示される画像１２０が無色であっても、画像１２０に示される果物は実際に色を有するものであってもよいことを理解すべきである。図１Ｃに示されるように、画像１３０に１つのベッド並びに、ベッドサイド１３２および枕１３４などの関連物品が示されている。例えば、ユーザが画像１３０に対して「ベッドサイドは柔らかい？」という問い合わせを入力する可能性がある。

ここで提供される画像１１０～１３０及びそれらに対する具体的な問い合わせは例示的なものであり、本開示の範囲を制限するものではない。ほかの実施例において、画像に基づくデータ処理システムにより処理される画像は如何なる対象を示すための任意の画像であり得、ユーザからの画像に対する問い合わせは、画像に示される対象に関する如何なる問い合わせであり得る。即ち、本開示の実施例は、画像に基づくデータ処理システムにより処理される如何なる画像と問い合わせに適用できる。

図１Ａ～図１Ｃにおける画像１１０、画像１２０、画像１３０及びそれらに対して提出した上記問い合わせに関しては、従来の画像に基づくデータ処理システムにおいて、先に画像と問い合わせに対してそれぞれ特徴を抽出し、その後に両者の特徴のマルチモーダル統合を行い、最後に分類器を通して問い合わせへの応答を出力するという処理プロセスを取るものがある。しかしながら、画像中に常に複雑で、冗長である様々な物体とシーンが含まれるため、画像に基づくデータ処理システムにとって、画像への理解は大きな挑戦となる。そのため、上記従来の方式により画像のグローバル特徴を抽出した後、問い合わせの特徴とのマルチモーダル統合を行うことは、効果が不良である。

ほかのいくつかの従来の画像に基づくデータ処理システムにおいて、画像情報の検索範囲を狭め、コンピューティングリソースをできるだけ重要な対象に集中するために、画像に基づくデータ処理システムは注意力メカニズムを用いることができる。具体的に、対象検出アルゴリズムにより、画像に基づくデータ処理システムは、画像中の複数の目立たしい物体（例えば、対象検出アルゴリズムの信頼性点数が最も多い上位３６個の物体）をスクリーニングし、且つこれらの対象の特徴を抽出して画像のグローバル特徴の代わりに問い合わせ特徴とのマルチモーダル統合を行う。

このような注意力メカニズムによる従来の画像に基づくデータ処理システムに対して、発明者らは汎用的な可視化方法を通して、その関心領域に対して可視化分析と研究を行った。該研究により、このような従来の画像に基づくデータ処理システムは、ある状況において、関心の焦点が問い合わせの本来の意図から逸脱し、最終的に、画像に基づくデータ処理システムによる応答が間違っていることにつながることがわかる。次に図２Ａ～図２Ｃを合わせてそれについて詳しく説明する。

図２Ａ～図２Ｃは、注意力メカニズムによる従来の解決手段における画像に基づくデータ処理システムの関心領域の概略図を示す。図２Ａに示されるように、画像１１０に関しては、従来の解決手段における画像に基づくデータ処理システムは主に領域２１０と領域２２０に重点を置き、これらの領域に、ユーザの問い合わせに言及するネクタイ１１２が含まれていない。図２Ｂに示されるように、画像１２０に関しては、従来の解決手段における画像に基づくデータ処理システムは主に領域２３０と領域２４０に重点を置き、これらの領域に、ユーザの問い合わせに言及されたバナナ１２２が含まれていない。図２Ｃに示されるように、画像１３０に関しては、従来の解決手段における画像に基づくデータ処理システムは主に領域２５０と領域２６０に重点を置き、これらの領域に、ユーザの問い合わせに言及されたベッドサイド１３２が含まれていない。ここで、領域２１０～２６０の特定数目、サイズおよび形状は例示的なものであり、読者が画像に基づくデータ処理システムの関心領域を理解するために役立つものであり、本開示の範囲を制限するものではないことを理解すべきである。ほかの実施例において、画像に基づくデータ処理システムは画像中の任意数目、任意サイズおよび任意形状の領域に関心を持つことができる。

図２Ａ～図２Ｃから見れば、従来の画像に基づくデータ処理システムの関心領域と問い合わせは相関性の欠如で、画像に基づくデータ処理システムが間違った応答を出力することをもたらした。その根本的な原因は、従来の注意力メカニズムは、対象検出アルゴリズムにより提供される目立たしい対象情報とユーザの問い合わせを効果的に統合せず、関連付けしていないことにあり、結果として画像に基づくデータ処理システムは、どの対象に焦点を合わせるのか不明である。そのため、従来の方法は注意力メカニズムを用い、対象検出アルゴリズムにより画像中の最も目立たしい対象情報を導入したが、このような画像に基づくデータ処理システムはやはり正確な応答を提供できない場合が多かった。

従来の解決手段における上記問題及びほかの潜在的な問題を鑑みて、本開示の実施例は、画像に基づくデータ処理システムにより提供される応答の正確率を高めるように、画像に基づくデータ処理システムの注意力メカニズムと関心焦点を改善するための、画像に基づくデータ処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。

一部の実施例において、提供される画像に基づくデータ処理システムは、対象検出アルゴリズムを利用して対象の特徴情報を提供するだけでなく、対象と問い合わせの相関性も確定する。例えば、画像に基づくデータ処理システムはこれらの対象及びその属性の組み合わせ（カテゴリーラベルとも呼ばれる）を導入し、且つ、これらのカテゴリーラベルを、問い合わせの特徴と同じ次元の特徴表現に変換することができる。その後、画像に基づくデータ処理システムは、各対象のカテゴリーラベルの特徴と問い合わせの特徴に対して類似度の計算を行うことにより、各対象と問い合わせの相関性を得る。

そのほか、画像に基づくデータ処理システムは、対象と問い合わせの相関性に基づいて対象の関心重みを設定する。例えば、対象の関心重みが大きければ大きいほど、問い合わせの応答を確定する時の、画像に基づくデータ処理システムの該対象に対する関心の程度が高くなることが示され、したがって、画像に基づくデータ処理システムの関心焦点の正確性を高める。次に、図面を合わせて本開示の複数の実施例を説明する。

図３は本開示の一部の実施例がその中に実現可能な例示的な環境３００の概略図を示す。図３に示されるように、例示的な環境３００において、ユーザ（示されず）は、画像３０５と画像３０５に関する問い合わせ３１０をコンピューティングデバイス３３０に入力することができる。コンピューティングデバイス３３０は、画像３０５から対象３１５を識別することができる。本明細書に記載したように、画像３０５における対象３１５は、画像３０５に示される任意物体であり得、例えば、建物、人体、動物など、一定の形状とサイズがある物体であり得る。ほかの場合、対象３１５は、空、草地、雲などのような固定形状とサイズがない物体であってもよい。さらに一般に、対象３１５は、既存の、又は未来に開発するいずれかの対象識別技術を通して画像３０５から識別できる如何なる対象であってもよい。

対象３１５を識別した後、コンピューティングデバイス３３０は、対象３１５の属性３２０を確定できる。本明細書に記載したように、属性３２０は、対象３１５の色又は状態などのように、対象３１５が一般的に備える性質であってもよい。対象３１５が人物とされる場合、対象３１５の状態は、該人物が立ち状態かほかの状態であってもよい。さらに一般に、属性３２０は対象３１５の画像３０５に示される如何なる性質であってもよい。該性質が画像３０５を通して示され得るため、ユーザの対象３１５に対する問い合わせ３１０は対象３１５の該性質に関する可能性がある。

次に、図３に示されるように、対象３１５の属性３２０を確定した後、コンピューティングデバイス３３０は、対象３１５と属性３２０を用いて対象３１５と問い合わせ３１０との相関性を確定できる。即ち、コンピューティングデバイス３３０は、問い合わせ３１０が対象３１５に関連しているか、及び、相関度合いを確定する。例えば、問い合わせ３１０の中に対象３１５又は属性３２０が直接言及された場合、通常に問い合わせ３１０と対象３１５が高い相関性を備えることが示される。例えば、問い合わせ３１０に対象３１５又は属性３２０に近いか類似する対象又は属性が言及された場合、問い合わせ３１０と対象３１５が高い相関性を備えることが示される可能性がある。

対象３１５と問い合わせ３１０の相関性を確定した後、コンピューティングデバイス３３０は、該相関性に基づいて問い合わせ３１０に対する応答３４０を提供できる。例えば、コンピューティングデバイス３３０は、画像３０５に示される複数の対象について、それらの問い合わせ３１０との相関性をそれぞれ確定し、その後に応答３４０を提供するプロセス中に、高い相関性を備える対象にもっと関心を持ち、低い相関性の対象に関心を減らす。問い合わせ３１０に対する明確な回答以外に、ここでの応答３４０は、ほかの様々な形式の、問い合わせ３１０に対する応答を含むことができることを理解すべきである。例えば、応答３４０は、コンピューティングデバイス３３０が問い合わせ３１０に対する明確な回答を提供できないという情報であってもよく、或いは、ほかの如何なる応答情報であってもよい。

コンピューティングデバイス３３０は、任意タイプの移動端末、固定端末又は携帯端末であり、携帯電話、サイト、ユニット、設備、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケーター、デスクトップコンピュータ、ラップトップコンピュータ、ノートパソコン、ネットブックパソコン、タブレットコンピュータ、パーソナル通信システム（ＰＣＳ）デバイス、パーソナルナビゲーションデバイス、パーソナルデジタルアシスタント（ＰＤＡ）、オーディオ／ビデオプレーヤー、デジタルカメラ／ビデオカメラ、測位設備、テレビ受像機、ラジオ受信機、電子書籍リーダー、ゲーム機又はそれらの任意の組み合わせを含み、また、これらの設備の付属品と周辺機器又はそれらの任意の組み合わせを含むことを理解すべきである。さらに、コンピューティングデバイス３３０は、任意タイプのユーザ向けのインターフェース（例えば、「着用可能な」回路など）をサポートできることが予見される。次に、図４を合わせて、本開示の実施例による画像に基づくデータ処理の例示的な動作を説明する。

図４は、本開示の実施例による画像に基づくデータ処理方法４００の例示的なフローチャートを示す。一部の実施例において、方法４００は、図３のコンピューティングデバイス３３０により実現されることができ、例えば、コンピューティングデバイス３３０のプロセッサ又は処理ユニットにより実現され得る。ほかの実施例において、方法４００のすべて又は一部もコンピューティングデバイスシステム３３０と別々であるコンピューティングデバイスにより実現され得、或いは、例示的な環境３００におけるほかのユニットにより実現され得る。議論の便宜上、図３を合わせて方法４００を説明する。

ステップ４１０において、画像３０５に関して入力された問い合わせ３１０に応答し、コンピューティングデバイス３３０が対象と属性の予定マッピングに基づいて、画像３０５に示された対象３１５に関連する属性３２０を確定する。一部の実施例において、コンピューティングデバイス３３０は、既存の、又は未来に開発する任意対象検出アルゴリズムにより画像３１０の中の対象３１５を検出することができる。対象３１５を検出した後、コンピューティングデバイス３３０は、応答３４０を提供する際に、対象３１５を考慮すべきか、或いは、対象３１５をどのぐらい考慮するかを確定するために、対象３１５と問い合わせ３１０との相関性が存在するか否かを確定することができる。そのような相関性を確定する際、コンピューティングデバイス３３０は、対象３１５を利用するだけでなく、対象３１５の属性３２０も利用する。その原因は下記のとおりに解釈できる。

場合によって、問い合わせ３１０には、対象３１５が直接言及される可能性があり、それは、問い合わせ３１０が対象３１５に関連することが意味される。ほかの場合では、問い合わせ３１０は対象３１５に直接関連せず、対象３１５のある属性に関連する。例えば、前述したように、画像１２０に対する問い合わせ「黄色い物体は何ですか」において、該問い合わせは、画像の中の対象（例えば、バナナ１２２）を直接言及しなかったが、バナナ１２２の属性（黄色）に関わっている。即ち、問い合わせ３１０が対象３１５の属性３２０に関する場合、コンピューティングデバイス３３０は、問い合わせ３１０が対象３１５に関連すると認めることができる。そのため、ユーザが画像３０５に対して問い合わせ３１０を入力した後、コンピューティングデバイス３３０は先に画像３０５から対象３１５及びその属性３２０を検出する。具体的に、コンピューティングデバイス３３０は、対象と属性の予定マッピングを通して属性３２０を確定することができる。例えば、そのような予定マッピングは、バナナが一般的に黄色で、リンゴが一般的に赤色であるような事前知識に基づく可能性がある。

一部の実施例において、対象３１５の属性３２０を確定するために、コンピューティングデバイス３３０は、対象３１５に基づいて予め定義されたデータセットから属性３２０を取得することができる。例えば、該データセットは、ビジュアルゲノム（ＶｉｓｕａｌＧｅｎｏｍｅ）データセットのような、複数の画像から予め標識された対象と属性を含むことができる。それは、１０万枚の画像から予め標識された１６００個の実体名称タグと４００個の属性タグを含むことが挙げられる。このような方式を通して、コンピューティングデバイス３３０は、すでに確立した、画像に予め標識された対象と属性の予定関係を充分利用することができるので、対象に基づいてその属性を確定する計算方式の複雑さが低減された。

ステップ４２０において、コンピューティングデバイス３３０は対象３１５と属性３２０に基づいて対象３１５と問い合わせ３１０との相関性を確定する。前文に記載のとおり、問い合わせ３１０が対象３１５自体又はその属性３２０に直接関連する場合、問い合わせ３１０と対象３１５が高い相関性を備えることが示され得る。さらに一般的な状況において、コンピューティングデバイス３３０は、問い合わせ３１０の中の説明単位と、対象３１５と属性３２０の相関性を確定することにより、対象３１５と問い合わせ３１０の相関性を確定することができる。例えば、ここで、説明単位は問い合わせ３１０における単語、フレーズ、句、ほかの適切な説明単位、或いはそれらの任意の問い合わせであってもよい。

問い合わせ３１０の説明単位と対象３１５との相関性を確定する際、コンピューティングデバイス３３０は、対象３１５と属性３２０の組み合わせの第１特徴表現を確定することができる。例えば、対象３１５と属性３２０のような組み合わせ（本明細書に対象３１５のカテゴリーラベルと呼ばれる）は「黄色いバナナ」、「黒いペン」、「立っているサル」などであってもよい。コンピューティングデバイス３３０は、単語と特徴との予め定義されたマッピングテーブルを通して、対象３１５のカテゴリーラベルを特定次元（例えば、３００次元）の第１特徴表現に変換させることができる。

次に、コンピューティングデバイス３３０は、問い合わせ３１０における少なくとも１つの説明単位に対応する少なくとも１つの第２特徴表現を確定することができる。例えば、コンピューティングデバイス３３０は、問い合わせ３１０から特定数目（例えば１４個）の単語を抽出することができる。該例示的な数目の場合、コンピューティングデバイス３３０は、対象３１５のカテゴリーラベルを特徴化する際に使用する同じ単語と特徴との予め定義されたマッピングテーブルに基づき、これらの１４個の単語を１４個の第２特徴表現に変換することができる。ここで使用される様々な具体的な数目、具体的な対象および具体的な属性は例示的なものであり、本開示の範囲を制限するものではないことを理解すべきである。ほかの実施例において、対象３１５と属性３２０は、如何なる適切な対象と関連属性であり得、コンピューティングデバイス３３０は、問い合わせ３１０から任意の適切な数目の説明単位を確定することができる。

その後、コンピューティングデバイス３３０は対象３１５のカテゴリーラベルの第１特徴表現と問い合わせ３１０の少なくとも１つの第２特徴表現に基づいて、対象３１５と問い合わせ３１０との相関性を取得することができる。１つの第２特徴表現のみが存在する場合、コンピューティングデバイス３３０は第１特徴表現と第２特徴表現との相関性（例えば、コサイン類似度）を直接計算することで、対象３１５と問い合わせ３１０との相関性を確定することができる。該方式を通して、コンピューティングデバイス３３０は数値計算により、対象３１５と問い合わせ３１０との相関性を定量化することができる。

複数の第２特徴表現が存在する場合、コンピューティングデバイス３３０は第１特徴表現と複数の第２特徴表現のそれぞれとの複数の類似度を計算することができる。その後、コンピューティングデバイス３３０は計算して取得した複数の類似度に基づいて対象３１５と問い合わせ３１０との相関性を取得することができる。それにより、コンピューティングデバイス３３０は、対象３１５の特徴表現と問い合わせ３１０の複数の説明単位の特徴表現との類似度を総合的に考慮することで、対象３１５と問い合わせ３１０との相関性をさらに正確に確定することができる。例えば、コンピューティングデバイス３３０は、複数の類似度における最大値、中間値、平均値、加重値、ほかの任意の適切な計算値、或いは、それらの任意の組み合わせを、対象３１５と問い合わせ３１０との相関性として選択することができる。こうして、コンピューティングデバイス３３０は、異なる計算方式を用いて、取得した複数の類似度を処理することができ、したがって、最終的に取得した相関性の正確性と適当性を調整することができる。

ステップ４３０において、コンピューティングデバイス３３０は、対象３１５と問い合わせ３１０の相関性に基づいて、問い合わせへの応答３４０を提供する。例えば、コンピューティングデバイス３３０は、対象３１５と問い合わせ３１０が高い相関性を備えることを確定した場合、画像３０５における問い合わせ３１０との相関性が低いほかの対象に比べて、コンピューティングデバイス３３０は、応答３４０を確定する際に、対象３１５をもっと多く考慮すべきである。逆に、コンピューティングデバイス３３０は、対象３１５と問い合わせ３１０が低い相関性を備えることを確定した場合、画像３０５における問い合わせ３１０との相関性が高いほかの対象に比べて、コンピューティングデバイス３３０は、応答３４０を確定する際に、対象３１５をより少なく考慮すべきである。

一部の実施例において、コンピューティングデバイス３３０が応答３４０を確定する際に対象３１５を考慮する度合いを定量化するために、コンピューティングデバイス３３０は、対象３１５と問い合わせ３１０との相関性に基づいて対象３１５の重みを確定することができる。該重みは、コンピューティングデバイス３３０が応答３４０を確定する際の対象３１５の重要度を示すことができる。該重みを確定した後、コンピューティングデバイス３３０は、該重みに基づいて応答３４０の内容を確定することができる。この方式を通して、コンピューティングデバイス３３０は、画像３０５における複数の異なる対象に対して異なる重みを設定することで、コンピューティングデバイス３３０が応答３４０を確定するプロセス中の関心焦点を改善し、最終的に応答３４０の正確率を高めることができる。

図５Ａ～図５Ｃは、本開示の実施例による画像に基づくデータ処理システムの関心領域の概略図を示す。図５Ａに示されるように、画像１１０に関しては、本開示の実施例による画像に基づくデータ処理システムは領域５１０と領域５２０に焦点を当てることができ、領域５１０は問い合わせに言及されたネクタイ１１２を含む。図５Ｂに示されるように、画像１２０に関しては、本開示の実施例による画像に基づくデータ処理システムは、領域５３０と領域５４０に焦点を当てることができ、領域５４０は問い合わせに言及されたバナナ１２２を含む。図５Ｃに示されるように、画像１３０に関しては、本開示の実施例による画像に基づくデータ処理システムは領域５５０と領域５６０に焦点を当てることができ、領域５５０は問い合わせに言及されたベッドサイド１３２を含む。ここで、領域５１０～５６０の特定数目、サイズおよび形状は例示的なものであり、読者が画像に基づくデータ処理システムの関心領域を理解するために役立つものであり、本開示の範囲を制限するものではないことを理解すべきである。ほかの実施例において、画像に基づくデータ処理システムは画像における任意の数目、任意のサイズおよび任意の形状の領域に焦点を当てることができる。

図５Ａ～図５Ｃから見れば、本開示の実施例による画像に基づくデータ処理システムは、間違った関心焦点を効果的に修正し、且つ正確な応答を出したことが分かる。それにより、本開示の実施例は、画像における対象のカテゴリーラベルを導入することで、画像と問い合わせの関連性が直接構築され、画像におけるもっとも関心を持つべき領域を探し出すことに役立ち、従来の画像に基づくデータ処理システムの関心焦点ずれの問題を軽減または解決した。例えば、本開示の実施例は、問い合わせと画像との相関性関係を強化し、画像に基づくデータ処理システムが関心領域を正確に探し出すことに役立ち、画像に基づくデータ処理システムの性能が効果的に向上された。

図６は、本開示の実施例による、例示的に画像に基づくデータ処理システム６００の構造ブロック図を示す。例示的な、画像に基づくデータ処理システム６００は、本開示の実施例を実現するための例示的な構造であってもよく、本開示の範囲を制限するものではないことを理解すべきである。ほかの実施例において、本開示の実施例は、任意の適切なシステム構造を用いてコンピューティングデバイス３３０或いは計算能力を備えるほかの設備に実施され得る。

図６に示されるように、システム６００は、３つの入力を備えることが認められる。具体的に、第１の入力は、問い合わせ３１０のテキストを単語埋め込みモジュール６１０の中に入力して、単語ベクトルに変換する。例えば、単語埋め込みモジュール６１０は、「単語－特徴」マッピングテーブルに基づき、問い合わせ３１０の中の各単語を特定次元（例えば、３００次元）の特徴表現に変換することができる。その後、特徴抽出モジュール６２５は問い合わせ３１０の単語ベクトル表現に基づいて問い合わせ３１０の特徴を抽出することができる。一部の実施例において、特徴抽出モジュール６２５はゲート付き回帰型ユニット（ＧＲＵ）に基づいて実現され得る。

第２の入力は、先に対象検出アルゴリズムを通して、入力した画像３０５からｋ（ｋは自然数）個の一番目立たしい対象を抽出する。特徴抽出モジュール６１５は、目立たしい対象ごとを予定次元（例えば、２０４８次元）の畳み込みニューラルネットワーク（ＣＮＮ）特徴で示すことができる。例えば、重み計算モジュール６３０は、例えば１４×３００次元の問い合わせ特徴と例えばｋ×２０４８（ｋは一般に３６にする）次元の画像特徴に対してマルチモーダル統合を行うことで、ｋ個の対象の関心重みを得る。重み計算モジュール６３０は、画像３０５と問い合わせ３１０の特徴表現に基づいて対象の重みを計算し、ここで、対象の重みは対象と問い合わせ３１０との相関性を考慮しないことを注意しなければならない。その後、加重合計モジュール６４０は、重み計算モジュール６３０により計算して得た関心重みを、後文に説明しようとする第３の入力からの、対象と問い合わせ３１０との相関性に基づいて確定される対象の関心重みと加算することができる。

第３の入力は画像に示される対象のカテゴリーラベル６０５であり、各対象のカテゴリーラベルは「属性＋実体名称」の組み合わせであってもよい。前文に記載したように、これらのカテゴリーラベルは、ビジュアルゲノムデータセットからのものであってもよい。具体的に、ｋ個の対象のカテゴリーラベル（第２の入力の画像における対象の特徴順序と一致し得る）が入力された後、単語埋め込みモジュール６２０は「単語－特徴」マッピングテーブルに基づき、各対象のカテゴリーラベルを予定次元（例えば、３００次元）の特徴表現に変換させることができる。相関性計算モジュール６３５は、問い合わせ３１０の予定数目（例えば１４個）の単語特徴と画像のｋ個の対象のカテゴリーラベル特徴に対してコサイン類似度をそれぞれ計算することができ、公式は下記のとおりである。

ここで、Ａ、Ｂはそれぞれ対象のカテゴリーラベル特徴と問い合わせ３１０の１つの単語特徴を示すことができ、上記式（１）におけるｓｉｍｉｌａｒｉｔｙは、計算されるコサイン類似度を示す。公式（１）を通して、１つのｋ×１４次元のコサイン類似度行列を取得できる。その後、該コサイン類似度行列の各行から１つの最大値を選択して（即ち、各対象のカテゴリーラベルに対して、該カテゴリーラベルの対応する予定数目のコサイン類似度から最大値を選択する）、該カテゴリーラベル（即ち、対象）の関心重みとする。最終的にｋ×１次元の関心重みを取得できる。

そのほか、加重合計モジュール６４０は、第３の入力により得られたｋ個の対象の関心重みと重み計算モジュール６３０により得られた対象の関心重みを加算し、その後に、加算後の関心重みを応答計算モジュール６４５に提供することができる。応答計算モジュール６４５は、複数の対象の関心重みに基づいて最終的な応答３４０を出力することができる。例えば、応答計算モジュール６４５は、複数の候補問い合わせ応答の点数を計算し、点数が一番多い候補応答を最終的な応答内容とすることができる。

図７は、本開示の実施例による画像に基づくデータ処理装置７００の例示的なブロック図を示す。一部の実施例において、装置７００は、図３のコンピューティングデバイス３３０の中に含まれるか、或いは、コンピューティングデバイス３３０として実現される。

図７に示されるように、装置７００は属性確定モジュール７１０、相関性確定モジュール７２０及び応答提供モジュール７３０を含む。属性確定モジュール７１０は、画像に関して入力した問い合わせに応答して、対象と属性との予定マッピングに基づいて、画像に示される対象に関連する属性を確定するように配置される。相関性確定モジュール７２０は、対象と属性に基づいて、対象と問い合わせとの相関性を確定するように配置される。応答提供モジュール７３０は、相関性に基づいて問い合わせの応答を提供するように配置される。

一部の実施例において、属性確定モジュール７１０は、対象に基づいて、予め定義されたデータセットから属性を取得するように配置される属性取得モジュールを含み、データセットは、複数の画像から予め標識した対象と属性を含む。

一部の実施例において、相関性確定モジュール７２０は、対象と属性の組み合わせの第１特徴表現を確定するように配置される第１特徴表現確定モジュールと、問い合わせの中の少なくとも１つの説明単位に対応する少なくとも１つの第２特徴表現を確定するように配置される第２特徴表現確定モジュールと、第１特徴表現と少なくとも１つの第２特徴表現に基づいて、相関性を取得するように配置される相関性取得モジュールを備える。

一部の実施例において、少なくとも１つの第２特徴表現は、複数の第２特徴表現を含むことを示し、且つ、相関性取得モジュールは、第１特徴表現と複数の第２特徴表現のそれぞれとの複数の類似度を計算するように配置される類似度計算モジュールと、複数の類似度に基づいて相関性を取得するように配置される相関性取得モジュールを備える。

一部の実施例において、相関性取得モジュールは、複数の類似度における最大値、中間値、平均値、加重値の少なくとも１項を相関性として選択するように配置される選択モジュールを含む。

一部の実施例において、応答提供モジュール７３０は、相関性に基づいて対象の重み（重みは、応答を確定する際の対象の重要さを示す）を確定するように配置される重み確定モジュールと、対象の重みに基づいて応答の内容を確定するように配置される応答確定モジュールを備える。

図８は、本開示の実施例の装置８００を実施するためのブロック図を例示的に示す。図８に示されるように、装置８００は、読み取り専用メモリ（ＲＯＭ）８０２に格納されたコンピュータプログラム命令、又は、記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にローディングしたコンピュータプログラム命令に基づいて、様々な適切な動作と処理を実行することができる中央処理装置（ＣＰＵ）８０１を含む。ＲＡＭ８０３は、装置８００の動作に必要な様々なプログラムとデータをさらに格納することができる。ＣＰＵ８０１、ＲＯＭ８０２及びＲＡＭ８０３は、バス８０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続される。

装置８００の複数のコンポーネントがＩ／Ｏインターフェース８０５に接続され、キーボード、マウスなどの入力ユニット８０６と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット８０７と、磁気ディスク、光ディスクなどの記憶ユニット８０８、及び、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット８０９を備える。通信ユニット８０９は、装置８００と、インターネットなどのコンピュータネットワーク及び／又は様々な通信ネットワークを介したほかの装置との情報／データ交換を可能にする。

前文に記載の各プロセスと処理、例えば、方法４００は、処理ユニット８０１により実行され得る。例えば、一部の実施例において、方法４００はコンピュータソフトウェアプログラムとして実現され得、それは、記憶ユニット８０８などの機械可読媒体に有形の形態で包含される。一部の実施例において、コンピュータプログラムの一部又はすべてはＲＯＭ８０２及び／又は通信ユニット８０９を通して装置８００にローディング及び／又はインストールすることができる。コンピュータプログラムはＲＡＭ８０３にローディングされ、且つＣＰＵ８０１により実行される時に、前文に記載の方法４００の１つ又は複数のステップを実行できる。

本文に記述されるように、用語「含む」及び類似用語は、開放性に含むことを指すことが理解されるべきであり、即ち、「それらを含むが、それらに制限されない」という意味である。用語「基づく」は「少なくとも部分的に基づく」として理解されるべきである。用語「１つの実施例」或いは「該実施例」は、「少なくとも１つの実施例」として理解されるべきである。用語「第１」、「第２」などは異なるか同じ対象を指すことができる。本明細書はさらに、ほかの明示的、暗黙的な定義を含む可能性がある。

本明細書に記載されるとおり、用語「確定」は様々な動作をカバーする。例えば、「確定」は、演算、計算、処理、導出、調査、検索（例えば、テーブル、データベース又はほかのデータ構造から検索する）、確認などを含むことができる。そのほか、「確定」は、受信（例えば、情報の受信）、アクセス（例えば、メモリの中のデータにアクセスする）などを含むことができる。そのほか、「確定」は、解析、選択、スクリーニング、構築などを含むことができる。

本開示の実施例は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアの組み合わせを通して実現され得る。ハードウェア部分は専用ロジックで実現され得、ソフトウェア部分はメモリに格納されて、マイクロプロセッサ又は特定用途向けハードウェアなどの適切な命令実行システムにより実行され得る。当業者であれば、上記装置と方法は、コンピュータ実行可能な命令により実現され、及び／又は、プログラマブルメモリ、或いは、光学や電子信号キャリアなどのデータキャリアにより提供されるプロセッサ制御コードに含まれて実現され得ることを理解できる。

そのほか、図面において、本開示の方法の動作を特定順序で説明したが、これらの特定順序のみによってこれらの動作を実行するか、或いは、示された動作を全部実行しなければ予期の結果を実現できないことを意味するものではない。逆に、フローチャートに示されるステップは、その実行順序を変更することができる。追加的或いは代替的なものとして、一部のステップを省略して、複数のステップを１つのステップにし、及び／又は、１つのステップを複数のステップに分けて実行できる。さらに、本開示による２つ又は複数の装置の特徴と機能は１つの装置の中に具現化することができることを注意すべきである。逆に、前文に記載の１つの装置の特徴と機能は、さらに複数の装置によって具現化されてもよい。

複数の具体的な実施例を合わせて本開示を説明したが、本開示は開示された具体的な実施例に制限されないことを理解すべきである。本開示は、添付した特許請求の範囲と精神に含まれる様々な修正と等価の配置を包括することを旨とする。

Claims

画像に基づくデータ処理方法であって、前記方法はコンピュータによって実行され、
画像に関して入力された問い合わせに応答し、前記画像における対象を確定するステップと、
対象と属性との対応関係を示す予め定義されたデータセットである、対象と属性との予定マッピングに基づいて、前記画像における前記対象に関連する属性を確定するステップと、
前記対象と、確定された前記対象に関連する属性とに基づいて、前記対象と前記問い合わせとの相関性を判定するステップと、
前記相関性に基づいて前記問い合わせへの応答を確定するステップと、を備える画像に基づくデータ処理方法。
前記属性を確定するステップは、
前記対象に基づいて、複数の画像から予め標識された対象と属性を含む予め定義されたデータセットから、前記属性を取得することを含む請求項１に記載の方法。
前記相関性を確定するステップは、
前記対象と前記属性の組み合わせの第１特徴表現を確定することと、
前記問い合わせにおける少なくとも１つの記述単位に対応する少なくとも１つの第２特徴表現を確定することと、
前記第１特徴表現と前記少なくとも１つの第２特徴表現に基づいて、前記相関性を取得することと、を含む請求項１に記載の方法。
前記第２特徴表現は、複数あり、
且つ、
前記相関性を取得することは、
前記第１特徴表現と前記複数の第２特徴表現のそれぞれとの類似度を計算することと、
前記複数の類似度に基づいて前記相関性を取得することと、を含む請求項３に記載の方法。
前記相関性を取得することは、
前記複数の類似度の最大値、中間値、平均値、加重値の少なくとも１項を前記相関性として選択することを含む請求項４に記載の方法。
前記応答を提供するステップは、
前記相関性に基づいて、前記応答を確定する際の前記対象の重要さを示す前記対象の重みを確定することと、
前記対象の前記重みに基づいて前記応答の内容を確定することと、を含む請求項１に記載の方法。
画像に基づくデータ処理装置であって、
画像に関して入力された問い合わせに応答し、前記画像における対象を確定し、対象と属性との対応関係を示す予め定義されたデータセットである、対象と属性との予定マッピングに基づいて、前記画像における前記対象に関連する属性を確定するように配置される属性確定モジュールと、
前記対象と、確定された前記対象に関連する属性とに基づいて、前記対象と前記問い合わせとの相関性を判定するように配置される相関性確定モジュールと、
前記相関性に基づいて前記問い合わせへの応答を確定するように配置される応答提供モジュール、を備える画像に基づくデータ処理装置。
前記属性確定モジュールは、
前記対象に基づいて、複数の画像から予め標識された対象と属性を含む予め定義されたデータセットから、前記属性を取得するように配置される属性取得モジュールを備える請求項７に記載の装置。
前記相関性確定モジュールは、
前記対象と前記属性の組み合わせの第１特徴表現を確定するように配置される第１特徴表現確定モジュールと、
前記問い合わせにおける少なくとも１つの記述単位に対応する少なくとも１つの第２特徴表現を確定するように配置される第２特徴表現確定モジュールと、
前記第１特徴表現と前記少なくとも１つの第２特徴表現に基づいて、前記相関性を取得するように配置される相関性取得モジュールと、を備える請求項７に記載の装置。
前記第２特徴表現は、複数あり、
且つ、
前記相関性取得モジュールは、
前記第１特徴表現と前記複数の第２特徴表現のそれぞれとの類似度を計算するように配置される類似度計算モジュールと、
前記複数の類似度に基づいて前記相関性を取得するように配置される相関性取得モジュールと、を備える請求項９に記載の装置。
前記相関性取得モジュールは、
前記複数の類似度の最大値、中間値、平均値、加重値の少なくとも１項を前記相関性として選択するように配置される選択モジュールを備える請求項１０に記載の装置。
前記応答提供モジュールは、
前記相関性に基づいて、前記応答を確定する際の前記対象の重要さを示す前記対象の重みを確定するように配置される重み確定モジュールと、
前記対象の前記重みに基づいて前記応答の内容を確定するように配置される応答確定モジュールと、を備える請求項７に記載の装置。
電子機器であって、
１つ又は複数のプロセッサと、
１つ又は複数のプログラムを格納するための記憶装置であって、前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサにより実行される時、前記１つ又は複数のプロセッサに請求項１～６のいずれか１項に記載の方法を実現させる記憶装置と、を備える電子機器。
コンピュータ読み取り可能な記憶媒体であって、
コンピュータプログラムが格納され、
前記プログラムはプロセッサにより実行される時に、請求項１～６のいずれか１項に記載の方法を実現するコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１～６のいずれか１項に記載の方法を実現する、コンピュータプログラム。