JP2023541752A

JP2023541752A - ニューラルネットワークモデルのトレーニング方法、画像検索方法、機器及び媒体

Info

Publication number: JP2023541752A
Application number: JP2022573483A
Authority: JP
Inventors: チェン，ユエローン; ヤオ，クン; スン，イーペン; ハン，ジュンユ; リウ，ジーントゥオ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2022-04-27
Publication date: 2023-10-04
Also published as: CN113656582B; CN113656582A; WO2023020005A1

Abstract

本開示は、画像検索方法、装置、機器及び媒体を提供し、人工知能技術分野に関し、具体的には、コンピュータビジョンと深層学習技術の分野に関し、画像処理や画像認識などのシーンに応用することができる。この画像検索方法は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得することと、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定することとを含む。【選択図】図１

Description

本出願は、２０２１年８月１７日に出願された中国特許出願２０２１１０９４５３４４．Ｘの優先権を主張するものであり、その内容の全ては参照によって本明細書に組み込まれる。

本開示は、人工知能技術分野に関し、特にコンピュータビジョンと深層学習技術に関し、画像処理や画像認識などのシーンに応用することができ、具体的には、ニューラルネットワークモデルのトレーニング方法、画像検索の方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。

人工知能は、コンピュータに人間のいくつかの思惟過程及び知能的行動（例えば、学習、推理、思考、計画など）を模擬させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。

インターネットの普及に伴い、ネットショッピングの利点はより顕著になり、益々重要なショッピング形式になっている。それと同時に、ユーザにとって、ショッピングソフトウェアで製品を検索することは顕著な需要である。現在の方法は、キーワードで検索することに加えて、ピクチャを利用して製品を検索することも現在の主な方法である。

この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に説明されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。

本開示は、ニューラルネットワークモデルのトレーニング方法、画像検索方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
本開示の一態様によれば、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含むニューラルネットワークモデルのトレーニング方法を提供し、この方法は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得することと、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第１の特徴ベクトルを取得することと、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第２の特徴ベクトルを取得することと、第１の特徴ベクトルと第２の特徴ベクトルに基づいて、第１の損失値を計算することと、少なくとも第１の損失値に基づいて、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整することとを含む。

本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索方法を提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、この方法は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得することと、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定することとを含む。

本開示の別の態様によれば、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含むニューラルネットワークモデルのトレーニング装置を提供し、この装置は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するように構成される第１の取得ユニットと、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第１の特徴ベクトルを取得するように構成される第２の取得ユニットと、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第２の特徴ベクトルを取得するように構成される第３の取得ユニットと、第１の特徴ベクトルと第２の特徴ベクトルに基づいて、第１の損失値を計算するように構成される計算ユニットと、少なくとも第１の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成されるパラメータ調整ユニットとを含む。

本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索装置を提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、この装置は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得するように構成される第１の取得ユニットであって、画像特徴抽出ネットワークモデルは上記のトレーニング方法によりトレーニングされて得られる第１の取得ユニットと、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定するように構成される第１の確定ユニットとを含む。

本開示の別の態様によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信接続されたメモリとを含み、ここで、メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶しており、これらの命令は、少なくとも１つのプロセッサによって実行されることにより、少なくとも１つのプロセッサが上記の画像検索方法またはニューラルネットワークモデルのトレーニング方法を実行することができる電子機器を提供する。

本開示の別の態様によれば、上記の画像検索方法またはニューラルネットワークモデルのトレーニング方法をコンピュータに実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。

本開示の別の態様によれば、プロセッサによって実行されると、上記の画像検索方法またはニューラルネットワークモデルのトレーニング方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本開示の１つ又は複数の実施例によれば、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を利用して画像認識ニューラルネットワークとテキスト認識ニューラルネットワークをトレーニングすることにより、画像認識ニューラルネットワークに画像のセマンティック情報を学習させることができる。実際の応用では、トレーニングされた画像認識ニューラルネットワークを利用して画像特徴を取得し、この画像特徴は画像のセマンティック情報を含むため、画像検索結果の精度を向上させることができる。

理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解される。

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示の目的のみであり、特許請求の範囲を限定するものではない。すべての図面において、同一の符号は類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例によるニューラルネットワークモデルのトレーニング方法を示すフローチャートである。本開示の実施例による別のニューラルネットワークモデルのトレーニング方法を示すフローチャートである。本開示の実施例による別のニューラルネットワークモデルのトレーニング方法を示すフローチャートである。本開示の実施例による画像検索方法を示すフローチャートである。本開示の実施例による別の画像検索方法を示すフローチャートである。本開示の実施例による別の画像検索方法を示すフローチャートである。本開示の実施例による別の画像検索方法を示すフローチャートである。本開示の実施例による別の画像検索方法を示すフローチャートである。本開示の実施例によるニューラルネットワークモデルのトレーニング装置を示す構造ブロック図である。本開示の例示的な実施例による画像検索装置を示す構造ブロック図である。本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。

以下、図面を結び付けながら本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細が含まれているが、それらは単なる例示的なものと見なされるべきである。したがって、当業者であれば認識できるように、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができる。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。

本開示では、特に明記しない限り、様々な要素を説明するための「第１」、「第２」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第１の要素と第２の要素は、要素の同じ例を指すことができ、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。

本開示の様々な前記例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は１つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び／又は」は、リストされた項目のいずれか及び可能なすべての組み合わせをカバーする。

関連技術において、単純に画像特徴を使用する検索技術では、ピクチャ自体に付加可能なテキスト情報を十分に利用できないため、画像における各モジュールの相関性をよりよく学習することができない。テキスト情報自体は非常に全面的で立体的な監督情報である。テキスト情報の参与が欠落すると、ニューラルネットワークモデルは角度が複雑で、形状が変化しやすい物体（例えば、服飾）などのターゲットに対する特徴付け能力が相対的に弱い。

上記問題を解決するために、ニューラルネットワークモデルトのレーニング過程において、画像認識ニューラルネットワークとテキスト認識ニューラルネットワークを組み合わせて、それぞれサンプル画像及びサンプル画像に対応するセマンティックテキスト情報を入力することは、画像認識ニューラルネットワークが画像のセマンティック特徴をよりよく学習できるようにすることを目的としている。実際の応用では、トレーニングされた画像認識ニューラルネットワークのみを使用し、さらにデータベースに記憶された特徴ベクトルとの類似度計算を行う。これによって、画像のセマンティック特徴をよりよく学習し、より正確な結果を出力することができる。

以下、図面を参照して本開示の実施例について詳細に説明する。
本開示の一態様によれば、ニューラルネットワークモデルのトレーニング方法を提供する。図１に示すように、トレーニング方法１００は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するステップ１０１と、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第１の特徴ベクトルを取得するステップ１０２と、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第２の特徴ベクトルを取得するステップ１０３と、第１の特徴ベクトルと第２の特徴ベクトルに基づいて、第１の損失値を計算するステップ１０４と、少なくとも第１の損失値に基づいて、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整するステップ１０５とを含むことができる。これにより、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を利用することで、画像認識ニューラルネットワークとテキスト認識ニューラルネットワークをトレーニングすることにより、画像認識ニューラルネットワークに画像のセマンティック情報を学習させることができる。

一例では、サンプル画像は物品の画像であってもよく、セマンティックテキスト情報はピクチャ内容を反映することができ、かつより豊富な情報である。例えば、サンプル画像はマウス、キーボード、及びディスプレイを含み、その対応するセマンティックテキスト情報はワイヤレスマウスキーボード、液晶ディスプレイ及びブランド名、色などを含んでもよい。さらに例えば、サンプル画像は上着画像であってもよく、この時、サンプル画像に対応するセマンティックテキスト情報はブランド名、上着、半袖衣類、スポーツウェアなどを含んでもよい。

いくつかの実施例によれば、サンプル画像を画像ニューラルネットワークモデルに入力する前に、サンプル画像を前処理し、次に前処理されたサンプル画像を画像認識ニューラルネットワークモデルに入力して、サンプル画像に対応する第１の特徴ベクトルを得ることができる。前処理は、サンプル画像に寸法調整、角度補正を行うことなどを含んでもよい。

いくつかの実施例によれば、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力する前に、セマンティックテキスト情報のうちの少なくとも１つのキーワードを取得し、セマンティックテキスト情報に対応する少なくとも１つのキーワードをテキスト認識ニューラルネットワークモデルに入力し、セマンティックテキスト情報に対応する第１の特徴ベクトルを得ることができる。

例示的に、第１の特徴ベクトルと第２の特徴ベクトルとの間のユークリッド距離を計算し、このユークリッド距離を第１の損失値として確定し、第１の損失値ができるだけ小さくなるように、第１の損失値に基づいてモデルのパラメータを調整することができるが、これらに限定されない。

いくつかの実施例によれば、サンプル画像はサンプルオブジェクトを含む。図２に示されるように、ニューラルネットワークモデルのトレーニング方法２００は、ステップ２０１～ステップ２０８を含んでもよい。

ステップ２０１、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得する。
ステップ２０２、サンプル画像におけるサンプルオブジェクトを囲む真の境界ボックス及びサンプルオブジェクトの真のラベルをマークする。

いくつかの実施例によれば、セマンティックテキスト情報の少なくとも１つのキーワードを取得し、少なくとも１つのキーワードのうちの１つ又は複数のキーワードを真のラベルとすることができる。

一例では、猫のサンプル画像及びこのサンプル画像に対応するセマンティックテキスト情報を取得し、ここでは、このセマンティックテキスト情報は、猫、猫の品種、猫の色、猫の特徴（例えば、短い足、短い耳）などのキーワードを含んでもよい。このようなシーンにおいて、真のラベルはセマンティックテキスト情報に含まれるキーワード「猫」であってもよい。

ステップ２０３、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第１の特徴ベクトル、予測境界ボックス及びサンプルオブジェクトの予測ラベルを取得する。

ステップ２０４、予測境界ボックス、予測ラベル、真の境界ボックス及び真のラベルに基づいて、第２の損失値を計算する。
いくつかの実施例によれば、真の境界ボックスと予測境界ボックスとのＩｏＵに基づいて損失値を計算することができ、真の境界ボックスと予測境界ボックスとの中心距離に基づいて損失値を計算することもでき、また、その他の方法で損失値を計算することもでき、ここで限定しない。

ステップ２０５、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第２の特徴ベクトルを取得する。

ステップ２０６、第１の特徴ベクトルと第２の特徴ベクトルに基づいて、第１の損失値を計算する。
ステップ２０７、第１の損失値と第２の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整する。

ステップ２０８、第１の損失値に基づいて、テキスト認識ニューラルネットワークモデルのパラメータを調整する。
上記のトレーニング方法において、画像ニューラルネットワークモデルはターゲット検出の機能も有しており、モデルがサンプルオブジェクトの画像特徴をよりよく抽出できるようにする。

図２におけるステップ２０１、ステップ２０５、ステップ２０６は、それぞれ図１におけるステップ１０１、ステップ１０３、ステップ１０４と同様であるため、ここでは説明は省略する。

いくつかの実施例によれば、図３に示されるように、ニューラルネットワークモデルのトレーニング方法３００は、ステップ３０１～ステップ３１０を含んでもよい。
ステップ３０１、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得する。

ステップ３０２、サンプル画像におけるサンプルオブジェクトの真のラベルをマークする。
ステップ３０３、サンプル画像におけるサンプルオブジェクトが位置するフォアグラウンド領域を確定する。

ステップ３０４、サンプル画像をトリミングすることで、フォアグラウンド画像を得る。
ステップ３０５、フォアグラウンド画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第１の特徴ベクトルとサンプルオブジェクトの予測ラベルを得る。

ステップ３０６、予測ラベルと真のラベルに基づいて、第３の損失値を計算する。
いくつかの実施例によれば、予測ラベルと真のラベルを１つの空間で変換し、各自の特徴ベクトルをそれぞれ得ることにより、２つの特徴ベクトルのユークリッド距離を計算し、最後に第３の損失値を得る。

ステップ３０７、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第２の特徴ベクトルを取得する。

ステップ３０８、第１の特徴ベクトルと第２の特徴ベクトルに基づいて、第１の損失値を計算する。
ステップ３０９、第１の損失値と第３の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整する。

いくつかの実施例によれば、ステップ３０８で得られた第１の損失値とステップ３０６において予測ラベルと真のラベルの損失値を表す第３の損失値をもとにし、ここでは、損失値は予測値と真の値の差を表すために用いられ、ニューラルネットワークをトレーニングする時に、ニューラルネットワーク内のすべてのパラメータを絶えず変更して、損失値を絶えず減らすことによって、より正確なニューラルネットワークモデルをトレーニングすることができる。

ステップ３１０、第１の損失値に基づいて、テキストニューラルネットワーク認識ニューラルネットワークモデルのパラメータを調整する。
図３におけるステップ３０１、ステップ３０７とステップ３０８は、図１におけるステップ１０１、ステップ１０３とステップ１０４と同様であるため、ここでは説明は省略する。

本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索方法をさらに提供し、前記ニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含む。図４に示すように、画像検索方法４００は、ステップ４０１～ステップ４０２を含んでもよい。

ステップ４０１、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得する。
上記解決手段において、トレーニングされた画像認識ニューラルネットワークを利用して画像特徴を取得し、この画像特徴は画像のセマンティック情報を含むため、画像検索結果の精度を向上させることができる。

一例では、画像認識ニューラルネットワークモデルは、畳み込みニューラルネットワークで一般的に用いられる階層化構築方式を導入することによって構築される階層化ｔｒａｎｓｆｏｒｍｅｒモデルであってもよい。ｔｒａｎｓｆｏｒｍｅｒモデルは、ＣＮＮとｓｅｌｆ－ａｔｔｅｎｔｉｏｎ構造を組み合わせて、ニューラルネットワークの浅層ではスライディングウィンドウアルゴリズムを有する畳み込みニューラルネットワークを使用してｌｏｗｌｅｖｅｌ特徴を抽出し、深層ではセルフアテンションメカニズムを有するｔｒａｎｓｆｏｒｍｅｒモデルを使用してｈｉｇｈｌｅｖｅｌ特徴を抽出し、画像検索タスクで効果の向上が非常に顕著である。

ステップ４０２、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定する。
いくつかの実施例によれば、データベースには複数の画像のそれぞれに対応する複数の画像特徴ベクトルが記憶され、それぞれ検出すべき画像の画像特徴ベクトルとデータベースに記憶された複数の画像特徴ベクトルのうちの各画像特徴ベクトルの間のユークリッド距離を計算する。対応するユークリッド距離に基づいて、データベースにおける検出すべき画像に照合する複数の画像を確定することができる。

いくつかの実施例によれば、データベースに記憶された複数の画像特徴ベクトルは、図１～図３に示される方法１００、方法２００と方法３００のいずれかの方法でトレーニングして得られた画像認識ニューラルネットワークモデルによって得られてもよい。

いくつかの実施例では、検出すべき画像はターゲットオブジェクトを含み、図５に示すように、画像検索方法５００は、
検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトル、ターゲットオブジェクトのターゲット境界ボックス及びターゲットオブジェクトのターゲットラベルを取得するステップ５０１と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定するステップ５０２と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ５０３と、
テキスト特徴ベクトルに基づいて、第１の照合画像セットから検出すべき画像の少なくとも１つの照合画像を確定するステップ５０４とを含んでもよい。

図５におけるステップ５０２は、図４におけるステップ４０２と同様であるため、ここでは説明は省略する。
いくつかの実施例によれば、それぞれテキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルと、ステップ５０２で確定された第１の照合画像セットに含まれる各画像に対応するテキスト特徴ベクトルとの間のユークリッド距離を計算し、入力された検出すべき画像の少なくとも１つの照合画像を第１の照合画像セットから確定する。

これにより、検出すべき画像は、画像認識ニューラルネットワークモデルによって第１の照合画像セットを確定した後、検出すべき画像に関連するボイステキスト情報を利用して画像認識ニューラルネットワークモデルとともにトレーニングされたテキストニューラルネットワークモデルによってさらに確定され、最終的に確定された画像と入力された検出すべき画像の照合度がより高くなる。

いくつかの実施例によれば、図６に示すように、画像検索方法６００は、ステップ６０１～ステップ６０５を含む。
ステップ６０１、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトル、ターゲットオブジェクトのターゲット境界ボックス及びターゲットオブジェクトのターゲットラベルを取得する。

ステップ６０２、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定する。
ステップ６０３、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得する。

ステップ６０４、テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第２の照合画像セットを確定する。
いくつかの実施例によれば、テキスト特徴ベクトルとデータベースに記憶されたテキスト特徴ベクトルとのユークリッド距離を計算し、要求に合った画像を選別し、これらの画像は検出すべき画像の第２の照合画像セットを共同で構成する。

いくつかの実施例によれば、データベースに記憶された複数のテキスト特徴ベクトルは、図１～図３に示される方法１００、方法２００及び方法３００のいずれかの方法でトレーニングして得られたニューラルネットワークモデルにおけるテキスト認識ニューラルネットワークモデルによって得られてもよい。

ステップ６０５、第１の照合画像セットと第２の照合画像セットに基づいて、検出すべき画像の少なくとも１つの照合画像を確定する。
いくつかの実施例によれば、画像特徴ベクトルとテキスト特徴ベクトルをそれぞれデータベースにおけるデータと比較することによって、画像特徴ベクトルとデータベースにおける画像特徴ベクトルとのユークリッド距離、及びテキスト特徴ベクトルとデータベースにおけるテキスト特徴ベクトルとのユークリッド距離を計算し、最終的に２回の比較結果によって最終的な照合画像を確定する。

一例では、２回の比較結果の両方に含まれる画像を照合画像とするか、または２回の比較結果を類似度に従ってソーティングし、スコアが最も高いいくつかの画像を最終的な照合画像として選択する。

図６におけるステップ６０１～ステップ６０３は、図５におけるステップ５０１～ステップ５０３と同様であるため、ここでは説明は省略する。
いくつかの実施例では、図７に示すように、画像検索方法７００は、
検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するステップ７０１と、
検出すべき画像をトリミングすることで、フォアグラウンド画像を得るステップ７０２と、
フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とし、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルとターゲットオブジェクトのターゲットラベルを取得するステップ７０３と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定するステップ７０４と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ７０５と、
テキスト特徴ベクトルに基づいて、第１の照合画像セットから検出すべき画像の少なくとも１つの照合画像を確定するステップ７０６とを含んでもよい。

図７におけるステップ７０４～ステップ７０６は、図５におけるステップ５０２～ステップ５０４と同様であるため、ここでは説明は省略する。
いくつかの実施例では、図８に示すように、画像検索方法８００は、
検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するステップ８０１と、
検出画像をトリミングすることで、フォアグラウンド画像を得るステップ８０２と、
フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とし、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルとターゲットオブジェクトのターゲットラベルを取得するステップ８０３と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定するステップ８０４と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ８０５と、
テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第２の照合画像セットを確定するステップ８０６と、
第１の照合画像セットと第２の照合画像セットに基づいて、検出すべき画像の少なくとも１つの照合画像を確定するステップ８０７とを含んでもよい。

本開示の実施例における画像検索方法を利用して、画像のセマンティックテキスト情報を十分に利用し、画像検索結果の正確性を向上させ、ユーザ体験を向上させることができる。

例えば、ターゲット画像は上着画像であり、この上着画像のセマンティック情報は、ブランド名、上着、半袖衣類、スポーツウェアなどを含んでもよい。既存の検索方法を利用して検索された結果は、同じブランドの画像ロゴの下衣を含むが、本開示の実施例における画像検索方法を利用して、画像に対応するセマンティックテキスト情報を十分に利用することができ、検索結果は同じブランドの画像ロゴのスポーツ半袖上着のみを含んでもよく、画像検索結果の正確性を大幅に向上させ、ユーザ体験を向上させることができる。

図８におけるステップ８０４～ステップ８０７は、図６におけるステップ６０２～ステップ６０５と同様であるため、ここでは説明は省略する。
本開示の別の態様によれば、更にニューラルネットワークモデルのトレーニング装置９００を提供する。図９に示すように、ニューラルネットワークモデルのトレーニング装置９００は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するように構成される第１の取得ユニット９０１と、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第１の特徴ベクトルを取得するように構成される第２の取得ユニット９０２と、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第２の特徴ベクトルを取得するように構成される第３の取得ユニット９０３と、第１の特徴ベクトルと第２の特徴ベクトルに基づいて、第１の損失値を計算するように構成される計算ユニット９０４と、少なくとも第１の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成されるパラメータ調整ユニット９０５とを含む。

いくつかの実施例によれば、トレーニング装置９００は、サンプル画像におけるサンプルオブジェクトを囲む真の境界ボックス及びサンプルオブジェクトの真のラベルをマークするように構成される第１のマークユニットをさらに含む。

いくつかの実施例によれば、計算ユニット９０４はさらに、予測境界ボックス、予測ラベル、真の境界ボックス及び真のラベルに基づいて、第２の損失値を計算するように構成される。

いくつかの実施例によれば、パラメータ調整ユニット９０５は、第１の損失値と第２の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第１のパラメータ調整サブユニットと、第１の損失値に基づいて、テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第２のパラメータ調整サブユニットとを含む。

いくつかの実施例によれば、第１のマークユニットはさらに、セマンティックテキスト情報の少なくとも１つのキーワードを取得し、少なくとも１つのキーワードのうちの１つ又は複数のキーワードを真のラベルとするように構成される。

いくつかの実施例によれば、トレーニング装置９００は、サンプル画像を画像認識ニューラルネットワークモデルに入力する前に、サンプル画像におけるサンプルオブジェクトが位置するフォアグラウンド領域を確定するように構成される確定ユニットと、サンプル画像をトリミングすることで、フォアグラウンド画像を得て、フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む。

いくつかの実施例によれば、トレーニング装置９００は、サンプル画像におけるサンプルオブジェクトの真のラベルをマークするように構成される第２のマークユニットをさらに含む。

いくつかの実施例によれば、計算ユニット９０４はさらに、予測ラベルと真のラベルに基づいて、第３の損失値を計算するように構成される。
いくつかの実施例によれば、パラメータ調整ユニット９０５は、第１の損失値と第３の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第３のパラメータ調整サブユニットと、第１の損失値に基づいて、テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第４のパラメータ調整サブユニットとを含む。

トレーニング装置９００のユニット９０１～ユニット９０５の動作は、上記したステップ１０１～ステップ１０５の動作と同様であるので、ここでは説明を省略する。
本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索装置１０００をさらに提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含む。図１０に示すように、画像検索装置１０００は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得するように構成される第１の取得ユニット１００１と、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定するように構成される第１の確定ユニット１００２とを含む。

いくつかの実施例によれば、検出すべき画像はターゲットオブジェクトを含み、画像認識ニューラルネットワークモデルの出力はターゲットオブジェクトを囲むターゲット境界ボックスとターゲットオブジェクトのターゲットラベルをさらに含む。

いくつかの実施例によれば、画像検索装置１０００は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第２の取得ユニットと、テキスト特徴ベクトルに基づいて、第１の照合画像セットから検出すべき画像の少なくとも１つの照合画像を確定するように構成される第２の確定ユニットとをさらに含む。

いくつかの実施例によれば、画像検索装置１０００は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第３の取得ユニットと、テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第２の照合画像セットを確定するように構成される第３の確定ユニットと、第１の照合画像セットと第２の照合画像セットに基づいて、検出すべき画像の少なくとも１つの照合画像を確定するように構成される第４の確定ユニットとをさらに含む。

いくつかの実施例によれば、検出すべき画像はターゲットオブジェクトを含み、または、画像検索装置１０００は、検出すべき画像を画像認識ニューラルネットワークモデルに入力する前に、検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するように構成される第５の確定ユニットと、検出すべき画像をトリミングすることで、フォアグラウンド画像を得て、フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む。

いくつかの実施例によれば、画像認識ニューラルネットワークモデルの出力はターゲットオブジェクトのターゲットラベルをさらに含む。
いくつかの実施例によれば、画像検索装置１０００は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第４の取得ユニットと、テキスト特徴ベクトルに基づいて、第１の照合画像セットから検出すべき画像の少なくとも１つの照合画像を確定するように構成される第６の確定ユニットとをさらに含む。

いくつかの実施例によれば、画像認識ニューラルネットワークモデルの出力はターゲットオブジェクトのターゲットラベルをさらに含み、また、画像検索装置１０００は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第５の取得ユニットと、テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第２の照合画像セットを確定するように構成される第７の確定ユニットと、第１の照合画像セットと第２の照合画像セットに基づいて、検出すべき画像の少なくとも１つの照合画像を確定するように構成される第８の確定ユニットとをさらに含む。

画像検索装置１０００のユニット１００１とユニット１００２の動作は、上記したステップ４０１とステップ４０５の動作と同様であるので、ここでは説明を省略する。
本開示の技術案において、関連するユーザ個人情報の取得、記憶と応用などは、すべて関連法律法規の規定に合致し、かつ公順良俗に違反しない。

本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
図１１を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器１１００の構造ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示すことを目的とする。電子機器はさらに、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び／又は請求した本開示の実現を制限することを意図するものではない。

図１１に示すように、機器１１００は、計算ユニット１１０１を含み、それはリードオンリーメモリ（ＲＯＭ）１１０２に記憶されるコンピュータプログラム又は記憶ユニット１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。ＲＡＭ１１０３において、さらに機器１１００の操作に必要な種々のプログラムとデータを記憶することができる。計算ユニット１１０１、ＲＯＭ１１０２及びＲＡＭ１１０３はバス１１０４によって互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース１１０５も、バス１１０４に接続される。

機器１１００における複数の部品はＩ／Ｏインターフェース１１０５に接続され、入力ユニット１１０６、出力ユニット１１０７、記憶ユニット１１０８及び通信ユニット１１０９を含む。入力ユニット１１０６は、機器１１００に情報を入力することが可能ないずれかのタイプの装置であってもよく、入力ユニット１１０６は、入力された数字又は文字情報が受信でき、電子機器のユーザ設定及び／又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び／又はリモコンを含むことができるが、これらに限定されない。出力ユニット１１０７は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、ビデオ／オーディオ出力端末、バイブレータ、及び／又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット１１０８は磁気ディスク、光ディスクを含むことができるが、これらに限定されない。通信ユニット１１０９は、機器１１００が例えば、インターネットであるコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にし、かつモデム、ネットワークカード、赤外線通信デバイス、無線通信送受信機及び／又はチップセット、例えば、ブルートゥース（登録商標）デバイス、１３０２．１１デバイス、ＷｉＦｉデバイス、ＷｉＭａｘデバイス、セルラー通信デバイス及び／又は類似物を含んでもよいが、これらに限定されない。

計算ユニット１１０１は処理及びコンピューティング能力を有する様々な汎用及び／又は専用の処理アセンブリであってもよい。計算ユニット１１０１のいくつかの例として、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット１１０１は上述した各方法と処理、例えば、ニューラルネットワークモデルのトレーニング方法と画像検索方法を実行する。例えば、一部の実施例において、ニューラルネットワークモデルのトレーニング方法と画像検索方法はコンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット１１０８に有形に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ１１０２及び／又は通信ユニット１１０９を介して機器１１００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ１１０３にロードされて計算ユニット１１０１によって実行される場合、以上で説明される方法のニューラルネットワークモデルのトレーニング方法と画像検索方法の１つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット１１０１は他のいかなる適切な方式で（例えば、ファームウェアにより）方法のニューラルネットワークモデルのトレーニング方法と画像検索方法を実行するように構成されてよい。

本明細書で上記したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、ロードプログラマブル論理デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実施され、この１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び／又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも１つの入力装置、この少なくとも１つの出力装置に送信してよいこと、を含んでもよい。

本開示の方法を実施するためのプログラムコードは１つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び／又はブロック図に規定の機能／操作を実施される。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用されるか、命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。

ユーザとのインタラクティブを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）、及びキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置はさらに、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）とインターネットを含む。

コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクティブを行う。互にクライアント－サーバという関係を有するコンピュータプログラムを対応するコンピュータで実行することによってクライアントとサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバであっても、ブロックチェーンと組み合わせたサーバであってもよい。

理解すべきこととして、以上に示した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。

本開示の実施形態又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施形態又は例であり、本発明の範囲はこれらの実施形態又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。さらに、実施形態又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができる。

本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索装置を提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、この装置は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得するように構成される第１の取得ユニットであって、画像認識ニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られる第１の取得ユニットと、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定するように構成される第１の確定ユニットとを含む。

これにより、検出すべき画像は、画像認識ニューラルネットワークモデルによって第１の照合画像セットを確定した後、検出すべき画像に関連セマンティック情報を利用して画像認識ニューラルネットワークモデルとともにトレーニングされたテキストニューラルネットワークモデルによってさらに確定され、最終的に確定された画像と入力された検出すべき画像の照合度がより高くなる。

図７におけるステップ７０４～ステップ７０６は、図５におけるステップ５０２～ステップ５０４と同様であるため、ここでは説明は省略する。
いくつかの実施例では、図８に示すように、画像検索方法８００は、
検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するステップ８０１と、
検出すべき画像をトリミングすることで、フォアグラウンド画像を得るステップ８０２と、
フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とし、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルとターゲットオブジェクトのターゲットラベルを取得するステップ８０３と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第１の照合画像セットを確定するステップ８０４と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ８０５と、
テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第２の照合画像セットを確定するステップ８０６と、
第１の照合画像セットと第２の照合画像セットに基づいて、検出すべき画像の少なくとも１つの照合画像を確定するステップ８０７とを含んでもよい。

Claims

ニューラルネットワークモデルのトレーニング方法であって、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、前記方法は、
サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得することと、
前記サンプル画像を画像認識ニューラルネットワークモデルに入力し、前記画像認識ニューラルネットワークモデルから出力された前記サンプル画像に対応する第１の特徴ベクトルを取得することと、
セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力された前記セマンティックテキスト情報に対応する第２の特徴ベクトルを取得することと、
前記第１の特徴ベクトルと第２の特徴ベクトルに基づいて、第１の損失値を計算することと、
少なくとも前記第１の損失値に基づいて、前記画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整することとを含む、ニューラルネットワークモデルのトレーニング方法。
前記サンプル画像はサンプルオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は予測境界ボックスと前記サンプルオブジェクトの予測ラベルをさらに含み、
前記方法は、
前記サンプル画像における前記サンプルオブジェクトを囲む真の境界ボックス及び前記サンプルオブジェクトの真のラベルをマークすることと、
前記予測境界ボックス、前記予測ラベル、前記真の境界ボックス及び真のラベルに基づいて、第２の損失値を計算することとをさらに含み、
ここで、少なくとも前記第１の損失値に基づいて、前記画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整することは、
前記第１の損失値と第２の損失値に基づいて、前記画像認識ニューラルネットワークモデルのパラメータを調整することと、
前記第１の損失値に基づいて、前記テキスト認識ニューラルネットワークモデルのパラメータを調整することとを含む、請求項１に記載の方法。
前記セマンティックテキスト情報の少なくとも１つのキーワードを取得し、前記少なくとも１つのキーワードのうちの１つ又は複数のキーワードを前記真のラベルとすることをさらに含む、請求項２に記載の方法。
前記サンプル画像はサンプルオブジェクトを含み、前記方法は、
前記サンプル画像を前記画像認識ニューラルネットワークモデルに入力する前に、前記サンプル画像における前記サンプルオブジェクトが位置するフォアグラウンド領域を確定することと、
前記サンプル画像をトリミングすることで、フォアグラウンド画像を得て、前記フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とすることとをさらに含む、請求項１に記載の方法。
前記画像認識ニューラルネットワークモデルの出力は前記サンプルオブジェクトの予測ラベルをさらに含み、
前記方法は、
前記サンプル画像における前記サンプルオブジェクトの真のラベルをマークすることと、
前記予測ラベルと真のラベルに基づいて、第３の損失値を計算することとをさらに含み、
少なくとも前記第１の損失値に基づいて、前記画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整することは、
前記第１の損失値と第３の損失値に基づいて、前記画像認識ニューラルネットワークモデルのパラメータを調整することと、
前記第１の損失値に基づいて、前記テキスト認識ニューラルネットワークモデルのパラメータを調整することとを含む、請求項４に記載の方法。
ニューラルネットワークモデルに基づく画像検索方法であって、前記ニューラルネットワークモデルは請求項１～５のいずれか一項に記載のトレーニング方法によりトレーニングされて得られ、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、前記方法は、
検出すべき画像を画像認識ニューラルネットワークモデルに入力し、前記画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得することと、
前記検出すべき画像の画像特徴ベクトルに基づいて、データベースから前記検出すべき画像の第１の照合画像セットを確定することとを含む、ニューラルネットワークモデルに基づく画像検索方法。
前記検出すべき画像はターゲットオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトを囲むターゲット境界ボックスと前記ターゲットオブジェクトのターゲットラベルをさらに含み、
前記方法は、
前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得することと、
前記テキスト特徴ベクトルに基づいて、前記第１の照合画像セットから前記検出すべき画像の少なくとも１つの照合画像を確定することとをさらに含む、請求項６に記載の方法。
前記検出すべき画像はターゲットオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトを囲むターゲット境界ボックスと前記ターゲットオブジェクトのターゲットラベルをさらに含み、
前記方法は、
前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得することと、
前記テキスト特徴ベクトルに基づいて、データベースから前記検出すべき画像の第２の照合画像セットを確定することと、
前記第１の照合画像セットと第２の照合画像セットに基づいて、前記検出すべき画像の少なくとも１つの照合画像を確定することとをさらに含む、請求項６に記載の方法。
前記検出すべき画像はターゲットオブジェクトを含み、前記方法は、
前記検出すべき画像を前記画像認識ニューラルネットワークモデルに入力する前に、前記検出すべき画像における前記ターゲットオブジェクトが位置するフォアグラウンド領域を確定することと、
前記検出すべき画像をトリミングすることで、フォアグラウンド画像を得て、前記フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とすることとをさらに含む、請求項６に記載の方法。
前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトのターゲットラベルをさらに含み、
前記方法は、
前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得することと、
前記テキスト特徴ベクトルに基づいて、前記第１の照合画像セットから前記検出すべき画像の少なくとも１つの照合画像を確定することとをさらに含む、請求項９に記載の方法。
前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトのターゲットラベルをさらに含み、
前記方法は、
前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得することと、
前記テキスト特徴ベクトルに基づいて、データベースから前記検出すべき画像の第２の照合画像セットを確定することと、
前記第１の照合画像セットと第２の照合画像セットに基づいて、前記検出すべき画像の少なくとも１つの照合画像を確定することとをさらに含む、請求項９に記載の方法。
ニューラルネットワークモデルのトレーニング装置であって、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、前記装置は、
サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するように構成される第１の取得ユニットと、
前記サンプル画像を画像認識ニューラルネットワークモデルに入力し、前記画像認識ニューラルネットワークモデルから出力された前記サンプル画像に対応する第１の特徴ベクトルを取得するように構成される第２の取得ユニットと、
セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力された前記セマンティックテキスト情報に対応する第２の特徴ベクトルを取得するように構成される第３の取得ユニットと、
前記第１の特徴ベクトルと第２の特徴ベクトルに基づいて、第１の損失値を計算するように構成される計算ユニットと、
少なくとも前記第１の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成されるパラメータ調整ユニットとを含む、ニューラルネットワークモデルのトレーニング装置。
前記サンプル画像はサンプルオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は予測境界ボックスと前記サンプルオブジェクトの予測ラベルをさらに含み、
前記装置は、
前記サンプル画像における前記サンプルオブジェクトを囲む真の境界ボックス及び前記サンプルオブジェクトの真のラベルをマークするように構成される第１のマークユニットをさらに含み、
前記計算ユニットはさらに、前記予測境界ボックス、前記予測ラベル、前記真の境界ボックス及び真のラベルに基づいて、第２の損失値を計算するように構成され、
前記パラメータ調整ユニットは、
前記第１の損失値と第２の損失値に基づいて、前記画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第１のパラメータ調整サブユニットと、
前記第１の損失値に基づいて、前記テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第２のパラメータ調整サブユニットとを含む、請求項１２に記載の装置。
前記第１のマークユニットはさらに、前記セマンティックテキスト情報の少なくとも１つのキーワードを取得し、前記少なくとも１つのキーワードのうちの１つ又は複数のキーワードを前記真のラベルとするように構成される、請求項１２に記載の装置。
前記サンプル画像はサンプルオブジェクトを含み、前記装置は、
前記サンプル画像を前記画像認識ニューラルネットワークモデルに入力する前に、前記サンプル画像における前記サンプルオブジェクトが位置するフォアグラウンド領域を確定するように構成される確定ユニットと、
前記サンプル画像をトリミングすることで、フォアグラウンド画像を得て、前記フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む、請求項１２に記載の装置。
前記画像認識ニューラルネットワークモデルの出力は前記サンプルオブジェクトの予測ラベルをさらに含み、
前記装置は、
前記サンプル画像における前記サンプルオブジェクトの真のラベルをマークするように構成される第２のマークユニットをさらに含み、
前記計算ユニットはさらに、前記予測ラベルと前記真のラベルに基づいて、第３の損失値を計算するように構成され、
前記パラメータ調整ユニットは、
前記第１の損失値と第３の損失値に基づいて、前記画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第３のパラメータ調整サブユニットと、
前記第１の損失値に基づいて、前記テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第４のパラメータ調整サブユニットとを含む、請求項１２に記載の装置。
ニューラルネットワークモデルに基づく画像検索装置であって、前記ニューラルネットワークモデルは請求項１～５のいずれか一項に記載のトレーニング方法によりトレーニングされて得られ、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、前記装置は、
検出すべき画像を画像認識ニューラルネットワークモデルに入力し、前記画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得するように構成される第１の取得ユニットと、
前記検出すべき画像の画像特徴ベクトルに基づいて、データベースから前記検出すべき画像の第１の照合画像セットを確定するように構成される第１の確定ユニットとを含む、ニューラルネットワークモデルに基づく画像検索装置。
前記検出すべき画像はターゲットオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトを囲むターゲット境界ボックスと前記ターゲットオブジェクトのターゲットラベルをさらに含み、
前記装置は、
前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第２の取得ユニットと、
前記テキスト特徴ベクトルに基づいて、前記第１の照合画像セットから前記検出すべき画像の少なくとも１つの照合画像を確定するように構成される第２の確定ユニットとをさらに含む、請求項１７に記載の装置。
前記検出すべき画像はターゲットオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトを囲むターゲット境界ボックスと前記ターゲットオブジェクトのターゲットラベルをさらに含み、
前記装置は、
前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第３の取得ユニットと、
前記テキスト特徴ベクトルに基づいて、データベースから前記検出すべき画像の第２の照合画像セットを確定するように構成される第３の確定ユニットと、
前記第１の照合画像セットと第２の照合画像セットに基づいて、前記検出すべき画像の少なくとも１つの照合画像を確定するように構成される第４の確定ユニットとをさらに含む、請求項１７に記載の装置。
前記検出すべき画像はターゲットオブジェクトを含み、前記装置は、
前記検出すべき画像を画像認識ニューラルネットワークモデルに入力する前に、前記検出すべき画像における前記ターゲットオブジェクトが位置するフォアグラウンド領域を確定するように構成される第５の確定ユニットと、
前記検出すべき画像をトリミングすることで、フォアグラウンド画像を得て、前記フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む、請求項１７に記載の装置。
前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトのターゲットラベルをさらに含み、
前記装置は、
前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第４の取得ユニットと、
前記テキスト特徴ベクトルに基づいて、前記第１の照合画像セットから前記検出すべき画像の少なくとも１つの照合画像を確定するように構成される第６の確定ユニットとをさらに含む、請求項２０に記載の装置。
前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトのターゲットラベルをさらに含み、
前記装置は、
前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第５の取得ユニットと、
前記テキスト特徴ベクトルに基づいて、データベースから前記検出すべき画像の第２の照合画像セットを確定するように構成される第７の確定ユニットと、
前記第１の照合画像セットと第２の照合画像セットに基づいて、前記検出すべき画像の少なくとも１つの照合画像を確定するように構成される第８の確定ユニットとをさらに含む、請求項２０に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが請求項１～１１のいずれか一項に記載の方法を実行することができる、電子機器。
コンピュータに請求項１～１１のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～１１のいずれか一項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。