JP2023541752A - ニューラルネットワークモデルのトレーニング方法、画像検索方法、機器及び媒体 - Google Patents

ニューラルネットワークモデルのトレーニング方法、画像検索方法、機器及び媒体 Download PDF

Info

Publication number
JP2023541752A
JP2023541752A JP2022573483A JP2022573483A JP2023541752A JP 2023541752 A JP2023541752 A JP 2023541752A JP 2022573483 A JP2022573483 A JP 2022573483A JP 2022573483 A JP2022573483 A JP 2022573483A JP 2023541752 A JP2023541752 A JP 2023541752A
Authority
JP
Japan
Prior art keywords
image
neural network
network model
recognition neural
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022573483A
Other languages
English (en)
Inventor
チェン,ユエローン
ヤオ,クン
スン,イーペン
ハン,ジュンユ
リウ,ジーントゥオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023541752A publication Critical patent/JP2023541752A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本開示は、画像検索方法、装置、機器及び媒体を提供し、人工知能技術分野に関し、具体的には、コンピュータビジョンと深層学習技術の分野に関し、画像処理や画像認識などのシーンに応用することができる。この画像検索方法は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得することと、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定することとを含む。【選択図】図1

Description

本出願は、2021年8月17日に出願された中国特許出願202110945344.Xの優先権を主張するものであり、その内容の全ては参照によって本明細書に組み込まれる。
本開示は、人工知能技術分野に関し、特にコンピュータビジョンと深層学習技術に関し、画像処理や画像認識などのシーンに応用することができ、具体的には、ニューラルネットワークモデルのトレーニング方法、画像検索の方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
人工知能は、コンピュータに人間のいくつかの思惟過程及び知能的行動(例えば、学習、推理、思考、計画など)を模擬させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。
インターネットの普及に伴い、ネットショッピングの利点はより顕著になり、益々重要なショッピング形式になっている。それと同時に、ユーザにとって、ショッピングソフトウェアで製品を検索することは顕著な需要である。現在の方法は、キーワードで検索することに加えて、ピクチャを利用して製品を検索することも現在の主な方法である。
この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に説明されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
本開示は、ニューラルネットワークモデルのトレーニング方法、画像検索方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
本開示の一態様によれば、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含むニューラルネットワークモデルのトレーニング方法を提供し、この方法は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得することと、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルを取得することと、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得することと、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算することと、少なくとも第1の損失値に基づいて、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整することとを含む。
本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索方法を提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、この方法は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得することと、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定することとを含む。
本開示の別の態様によれば、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含むニューラルネットワークモデルのトレーニング装置を提供し、この装置は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するように構成される第1の取得ユニットと、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルを取得するように構成される第2の取得ユニットと、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得するように構成される第3の取得ユニットと、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算するように構成される計算ユニットと、少なくとも第1の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成されるパラメータ調整ユニットとを含む。
本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索装置を提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、この装置は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得するように構成される第1の取得ユニットであって、画像特徴抽出ネットワークモデルは上記のトレーニング方法によりトレーニングされて得られる第1の取得ユニットと、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するように構成される第1の確定ユニットとを含む。
本開示の別の態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、これらの命令は、少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサが上記の画像検索方法またはニューラルネットワークモデルのトレーニング方法を実行することができる電子機器を提供する。
本開示の別の態様によれば、上記の画像検索方法またはニューラルネットワークモデルのトレーニング方法をコンピュータに実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
本開示の別の態様によれば、プロセッサによって実行されると、上記の画像検索方法またはニューラルネットワークモデルのトレーニング方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本開示の1つ又は複数の実施例によれば、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を利用して画像認識ニューラルネットワークとテキスト認識ニューラルネットワークをトレーニングすることにより、画像認識ニューラルネットワークに画像のセマンティック情報を学習させることができる。実際の応用では、トレーニングされた画像認識ニューラルネットワークを利用して画像特徴を取得し、この画像特徴は画像のセマンティック情報を含むため、画像検索結果の精度を向上させることができる。
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解される。
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示の目的のみであり、特許請求の範囲を限定するものではない。すべての図面において、同一の符号は類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例によるニューラルネットワークモデルのトレーニング方法を示すフローチャートである。 本開示の実施例による別のニューラルネットワークモデルのトレーニング方法を示すフローチャートである。 本開示の実施例による別のニューラルネットワークモデルのトレーニング方法を示すフローチャートである。 本開示の実施例による画像検索方法を示すフローチャートである。 本開示の実施例による別の画像検索方法を示すフローチャートである。 本開示の実施例による別の画像検索方法を示すフローチャートである。 本開示の実施例による別の画像検索方法を示すフローチャートである。 本開示の実施例による別の画像検索方法を示すフローチャートである。 本開示の実施例によるニューラルネットワークモデルのトレーニング装置を示す構造ブロック図である。 本開示の例示的な実施例による画像検索装置を示す構造ブロック図である。 本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。
以下、図面を結び付けながら本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細が含まれているが、それらは単なる例示的なものと見なされるべきである。したがって、当業者であれば認識できるように、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができる。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第1の要素と第2の要素は、要素の同じ例を指すことができ、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
本開示の様々な前記例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は1つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされた項目のいずれか及び可能なすべての組み合わせをカバーする。
関連技術において、単純に画像特徴を使用する検索技術では、ピクチャ自体に付加可能なテキスト情報を十分に利用できないため、画像における各モジュールの相関性をよりよく学習することができない。テキスト情報自体は非常に全面的で立体的な監督情報である。テキスト情報の参与が欠落すると、ニューラルネットワークモデルは角度が複雑で、形状が変化しやすい物体(例えば、服飾)などのターゲットに対する特徴付け能力が相対的に弱い。
上記問題を解決するために、ニューラルネットワークモデルトのレーニング過程において、画像認識ニューラルネットワークとテキスト認識ニューラルネットワークを組み合わせて、それぞれサンプル画像及びサンプル画像に対応するセマンティックテキスト情報を入力することは、画像認識ニューラルネットワークが画像のセマンティック特徴をよりよく学習できるようにすることを目的としている。実際の応用では、トレーニングされた画像認識ニューラルネットワークのみを使用し、さらにデータベースに記憶された特徴ベクトルとの類似度計算を行う。これによって、画像のセマンティック特徴をよりよく学習し、より正確な結果を出力することができる。
以下、図面を参照して本開示の実施例について詳細に説明する。
本開示の一態様によれば、ニューラルネットワークモデルのトレーニング方法を提供する。図1に示すように、トレーニング方法100は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するステップ101と、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルを取得するステップ102と、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得するステップ103と、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算するステップ104と、少なくとも第1の損失値に基づいて、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整するステップ105とを含むことができる。これにより、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を利用することで、画像認識ニューラルネットワークとテキスト認識ニューラルネットワークをトレーニングすることにより、画像認識ニューラルネットワークに画像のセマンティック情報を学習させることができる。
一例では、サンプル画像は物品の画像であってもよく、セマンティックテキスト情報はピクチャ内容を反映することができ、かつより豊富な情報である。例えば、サンプル画像はマウス、キーボード、及びディスプレイを含み、その対応するセマンティックテキスト情報はワイヤレスマウスキーボード、液晶ディスプレイ及びブランド名、色などを含んでもよい。さらに例えば、サンプル画像は上着画像であってもよく、この時、サンプル画像に対応するセマンティックテキスト情報はブランド名、上着、半袖衣類、スポーツウェアなどを含んでもよい。
いくつかの実施例によれば、サンプル画像を画像ニューラルネットワークモデルに入力する前に、サンプル画像を前処理し、次に前処理されたサンプル画像を画像認識ニューラルネットワークモデルに入力して、サンプル画像に対応する第1の特徴ベクトルを得ることができる。前処理は、サンプル画像に寸法調整、角度補正を行うことなどを含んでもよい。
いくつかの実施例によれば、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力する前に、セマンティックテキスト情報のうちの少なくとも1つのキーワードを取得し、セマンティックテキスト情報に対応する少なくとも1つのキーワードをテキスト認識ニューラルネットワークモデルに入力し、セマンティックテキスト情報に対応する第1の特徴ベクトルを得ることができる。
例示的に、第1の特徴ベクトルと第2の特徴ベクトルとの間のユークリッド距離を計算し、このユークリッド距離を第1の損失値として確定し、第1の損失値ができるだけ小さくなるように、第1の損失値に基づいてモデルのパラメータを調整することができるが、これらに限定されない。
いくつかの実施例によれば、サンプル画像はサンプルオブジェクトを含む。図2に示されるように、ニューラルネットワークモデルのトレーニング方法200は、ステップ201~ステップ208を含んでもよい。
ステップ201、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得する。
ステップ202、サンプル画像におけるサンプルオブジェクトを囲む真の境界ボックス及びサンプルオブジェクトの真のラベルをマークする。
いくつかの実施例によれば、セマンティックテキスト情報の少なくとも1つのキーワードを取得し、少なくとも1つのキーワードのうちの1つ又は複数のキーワードを真のラベルとすることができる。
一例では、猫のサンプル画像及びこのサンプル画像に対応するセマンティックテキスト情報を取得し、ここでは、このセマンティックテキスト情報は、猫、猫の品種、猫の色、猫の特徴(例えば、短い足、短い耳)などのキーワードを含んでもよい。このようなシーンにおいて、真のラベルはセマンティックテキスト情報に含まれるキーワード「猫」であってもよい。
ステップ203、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトル、予測境界ボックス及びサンプルオブジェクトの予測ラベルを取得する。
ステップ204、予測境界ボックス、予測ラベル、真の境界ボックス及び真のラベルに基づいて、第2の損失値を計算する。
いくつかの実施例によれば、真の境界ボックスと予測境界ボックスとのIoUに基づいて損失値を計算することができ、真の境界ボックスと予測境界ボックスとの中心距離に基づいて損失値を計算することもでき、また、その他の方法で損失値を計算することもでき、ここで限定しない。
ステップ205、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得する。
ステップ206、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算する。
ステップ207、第1の損失値と第2の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整する。
ステップ208、第1の損失値に基づいて、テキスト認識ニューラルネットワークモデルのパラメータを調整する。
上記のトレーニング方法において、画像ニューラルネットワークモデルはターゲット検出の機能も有しており、モデルがサンプルオブジェクトの画像特徴をよりよく抽出できるようにする。
図2におけるステップ201、ステップ205、ステップ206は、それぞれ図1におけるステップ101、ステップ103、ステップ104と同様であるため、ここでは説明は省略する。
いくつかの実施例によれば、図3に示されるように、ニューラルネットワークモデルのトレーニング方法300は、ステップ301~ステップ310を含んでもよい。
ステップ301、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得する。
ステップ302、サンプル画像におけるサンプルオブジェクトの真のラベルをマークする。
ステップ303、サンプル画像におけるサンプルオブジェクトが位置するフォアグラウンド領域を確定する。
ステップ304、サンプル画像をトリミングすることで、フォアグラウンド画像を得る。
ステップ305、フォアグラウンド画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルとサンプルオブジェクトの予測ラベルを得る。
ステップ306、予測ラベルと真のラベルに基づいて、第3の損失値を計算する。
いくつかの実施例によれば、予測ラベルと真のラベルを1つの空間で変換し、各自の特徴ベクトルをそれぞれ得ることにより、2つの特徴ベクトルのユークリッド距離を計算し、最後に第3の損失値を得る。
ステップ307、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得する。
ステップ308、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算する。
ステップ309、第1の損失値と第3の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整する。
いくつかの実施例によれば、ステップ308で得られた第1の損失値とステップ306において予測ラベルと真のラベルの損失値を表す第3の損失値をもとにし、ここでは、損失値は予測値と真の値の差を表すために用いられ、ニューラルネットワークをトレーニングする時に、ニューラルネットワーク内のすべてのパラメータを絶えず変更して、損失値を絶えず減らすことによって、より正確なニューラルネットワークモデルをトレーニングすることができる。
ステップ310、第1の損失値に基づいて、テキストニューラルネットワーク認識ニューラルネットワークモデルのパラメータを調整する。
図3におけるステップ301、ステップ307とステップ308は、図1におけるステップ101、ステップ103とステップ104と同様であるため、ここでは説明は省略する。
本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索方法をさらに提供し、前記ニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含む。図4に示すように、画像検索方法400は、ステップ401~ステップ402を含んでもよい。
ステップ401、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得する。
上記解決手段において、トレーニングされた画像認識ニューラルネットワークを利用して画像特徴を取得し、この画像特徴は画像のセマンティック情報を含むため、画像検索結果の精度を向上させることができる。
一例では、画像認識ニューラルネットワークモデルは、畳み込みニューラルネットワークで一般的に用いられる階層化構築方式を導入することによって構築される階層化transformerモデルであってもよい。transformerモデルは、CNNとself-attention構造を組み合わせて、ニューラルネットワークの浅層ではスライディングウィンドウアルゴリズムを有する畳み込みニューラルネットワークを使用してlow level特徴を抽出し、深層ではセルフアテンションメカニズムを有するtransformerモデルを使用してhigh level特徴を抽出し、画像検索タスクで効果の向上が非常に顕著である。
ステップ402、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定する。
いくつかの実施例によれば、データベースには複数の画像のそれぞれに対応する複数の画像特徴ベクトルが記憶され、それぞれ検出すべき画像の画像特徴ベクトルとデータベースに記憶された複数の画像特徴ベクトルのうちの各画像特徴ベクトルの間のユークリッド距離を計算する。対応するユークリッド距離に基づいて、データベースにおける検出すべき画像に照合する複数の画像を確定することができる。
いくつかの実施例によれば、データベースに記憶された複数の画像特徴ベクトルは、図1~図3に示される方法100、方法200と方法300のいずれかの方法でトレーニングして得られた画像認識ニューラルネットワークモデルによって得られてもよい。
いくつかの実施例では、検出すべき画像はターゲットオブジェクトを含み、図5に示すように、画像検索方法500は、
検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトル、ターゲットオブジェクトのターゲット境界ボックス及びターゲットオブジェクトのターゲットラベルを取得するステップ501と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するステップ502と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ503と、
テキスト特徴ベクトルに基づいて、第1の照合画像セットから検出すべき画像の少なくとも1つの照合画像を確定するステップ504とを含んでもよい。
図5におけるステップ502は、図4におけるステップ402と同様であるため、ここでは説明は省略する。
いくつかの実施例によれば、それぞれテキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルと、ステップ502で確定された第1の照合画像セットに含まれる各画像に対応するテキスト特徴ベクトルとの間のユークリッド距離を計算し、入力された検出すべき画像の少なくとも1つの照合画像を第1の照合画像セットから確定する。
これにより、検出すべき画像は、画像認識ニューラルネットワークモデルによって第1の照合画像セットを確定した後、検出すべき画像に関連するボイステキスト情報を利用して画像認識ニューラルネットワークモデルとともにトレーニングされたテキストニューラルネットワークモデルによってさらに確定され、最終的に確定された画像と入力された検出すべき画像の照合度がより高くなる。
いくつかの実施例によれば、図6に示すように、画像検索方法600は、ステップ601~ステップ605を含む。
ステップ601、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトル、ターゲットオブジェクトのターゲット境界ボックス及びターゲットオブジェクトのターゲットラベルを取得する。
ステップ602、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定する。
ステップ603、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得する。
ステップ604、テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第2の照合画像セットを確定する。
いくつかの実施例によれば、テキスト特徴ベクトルとデータベースに記憶されたテキスト特徴ベクトルとのユークリッド距離を計算し、要求に合った画像を選別し、これらの画像は検出すべき画像の第2の照合画像セットを共同で構成する。
いくつかの実施例によれば、データベースに記憶された複数のテキスト特徴ベクトルは、図1~図3に示される方法100、方法200及び方法300のいずれかの方法でトレーニングして得られたニューラルネットワークモデルにおけるテキスト認識ニューラルネットワークモデルによって得られてもよい。
ステップ605、第1の照合画像セットと第2の照合画像セットに基づいて、検出すべき画像の少なくとも1つの照合画像を確定する。
いくつかの実施例によれば、画像特徴ベクトルとテキスト特徴ベクトルをそれぞれデータベースにおけるデータと比較することによって、画像特徴ベクトルとデータベースにおける画像特徴ベクトルとのユークリッド距離、及びテキスト特徴ベクトルとデータベースにおけるテキスト特徴ベクトルとのユークリッド距離を計算し、最終的に2回の比較結果によって最終的な照合画像を確定する。
一例では、2回の比較結果の両方に含まれる画像を照合画像とするか、または2回の比較結果を類似度に従ってソーティングし、スコアが最も高いいくつかの画像を最終的な照合画像として選択する。
図6におけるステップ601~ステップ603は、図5におけるステップ501~ステップ503と同様であるため、ここでは説明は省略する。
いくつかの実施例では、図7に示すように、画像検索方法700は、
検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するステップ701と、
検出すべき画像をトリミングすることで、フォアグラウンド画像を得るステップ702と、
フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とし、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルとターゲットオブジェクトのターゲットラベルを取得するステップ703と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するステップ704と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ705と、
テキスト特徴ベクトルに基づいて、第1の照合画像セットから検出すべき画像の少なくとも1つの照合画像を確定するステップ706とを含んでもよい。
図7におけるステップ704~ステップ706は、図5におけるステップ502~ステップ504と同様であるため、ここでは説明は省略する。
いくつかの実施例では、図8に示すように、画像検索方法800は、
検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するステップ801と、
検出画像をトリミングすることで、フォアグラウンド画像を得るステップ802と、
フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とし、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルとターゲットオブジェクトのターゲットラベルを取得するステップ803と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するステップ804と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ805と、
テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第2の照合画像セットを確定するステップ806と、
第1の照合画像セットと第2の照合画像セットに基づいて、検出すべき画像の少なくとも1つの照合画像を確定するステップ807とを含んでもよい。
本開示の実施例における画像検索方法を利用して、画像のセマンティックテキスト情報を十分に利用し、画像検索結果の正確性を向上させ、ユーザ体験を向上させることができる。
例えば、ターゲット画像は上着画像であり、この上着画像のセマンティック情報は、ブランド名、上着、半袖衣類、スポーツウェアなどを含んでもよい。既存の検索方法を利用して検索された結果は、同じブランドの画像ロゴの下衣を含むが、本開示の実施例における画像検索方法を利用して、画像に対応するセマンティックテキスト情報を十分に利用することができ、検索結果は同じブランドの画像ロゴのスポーツ半袖上着のみを含んでもよく、画像検索結果の正確性を大幅に向上させ、ユーザ体験を向上させることができる。
図8におけるステップ804~ステップ807は、図6におけるステップ602~ステップ605と同様であるため、ここでは説明は省略する。
本開示の別の態様によれば、更にニューラルネットワークモデルのトレーニング装置900を提供する。図9に示すように、ニューラルネットワークモデルのトレーニング装置900は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するように構成される第1の取得ユニット901と、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルを取得するように構成される第2の取得ユニット902と、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得するように構成される第3の取得ユニット903と、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算するように構成される計算ユニット904と、少なくとも第1の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成されるパラメータ調整ユニット905とを含む。
いくつかの実施例によれば、トレーニング装置900は、サンプル画像におけるサンプルオブジェクトを囲む真の境界ボックス及びサンプルオブジェクトの真のラベルをマークするように構成される第1のマークユニットをさらに含む。
いくつかの実施例によれば、計算ユニット904はさらに、予測境界ボックス、予測ラベル、真の境界ボックス及び真のラベルに基づいて、第2の損失値を計算するように構成される。
いくつかの実施例によれば、パラメータ調整ユニット905は、第1の損失値と第2の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第1のパラメータ調整サブユニットと、第1の損失値に基づいて、テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第2のパラメータ調整サブユニットとを含む。
いくつかの実施例によれば、第1のマークユニットはさらに、セマンティックテキスト情報の少なくとも1つのキーワードを取得し、少なくとも1つのキーワードのうちの1つ又は複数のキーワードを真のラベルとするように構成される。
いくつかの実施例によれば、トレーニング装置900は、サンプル画像を画像認識ニューラルネットワークモデルに入力する前に、サンプル画像におけるサンプルオブジェクトが位置するフォアグラウンド領域を確定するように構成される確定ユニットと、サンプル画像をトリミングすることで、フォアグラウンド画像を得て、フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む。
いくつかの実施例によれば、トレーニング装置900は、サンプル画像におけるサンプルオブジェクトの真のラベルをマークするように構成される第2のマークユニットをさらに含む。
いくつかの実施例によれば、計算ユニット904はさらに、予測ラベルと真のラベルに基づいて、第3の損失値を計算するように構成される。
いくつかの実施例によれば、パラメータ調整ユニット905は、第1の損失値と第3の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第3のパラメータ調整サブユニットと、第1の損失値に基づいて、テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第4のパラメータ調整サブユニットとを含む。
トレーニング装置900のユニット901~ユニット905の動作は、上記したステップ101~ステップ105の動作と同様であるので、ここでは説明を省略する。
本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索装置1000をさらに提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含む。図10に示すように、画像検索装置1000は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得するように構成される第1の取得ユニット1001と、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するように構成される第1の確定ユニット1002とを含む。
いくつかの実施例によれば、検出すべき画像はターゲットオブジェクトを含み、画像認識ニューラルネットワークモデルの出力はターゲットオブジェクトを囲むターゲット境界ボックスとターゲットオブジェクトのターゲットラベルをさらに含む。
いくつかの実施例によれば、画像検索装置1000は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第2の取得ユニットと、テキスト特徴ベクトルに基づいて、第1の照合画像セットから検出すべき画像の少なくとも1つの照合画像を確定するように構成される第2の確定ユニットとをさらに含む。
いくつかの実施例によれば、画像検索装置1000は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第3の取得ユニットと、テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第2の照合画像セットを確定するように構成される第3の確定ユニットと、第1の照合画像セットと第2の照合画像セットに基づいて、検出すべき画像の少なくとも1つの照合画像を確定するように構成される第4の確定ユニットとをさらに含む。
いくつかの実施例によれば、検出すべき画像はターゲットオブジェクトを含み、または、画像検索装置1000は、検出すべき画像を画像認識ニューラルネットワークモデルに入力する前に、検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するように構成される第5の確定ユニットと、検出すべき画像をトリミングすることで、フォアグラウンド画像を得て、フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む。
いくつかの実施例によれば、画像認識ニューラルネットワークモデルの出力はターゲットオブジェクトのターゲットラベルをさらに含む。
いくつかの実施例によれば、画像検索装置1000は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第4の取得ユニットと、テキスト特徴ベクトルに基づいて、第1の照合画像セットから検出すべき画像の少なくとも1つの照合画像を確定するように構成される第6の確定ユニットとをさらに含む。
いくつかの実施例によれば、画像認識ニューラルネットワークモデルの出力はターゲットオブジェクトのターゲットラベルをさらに含み、また、画像検索装置1000は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第5の取得ユニットと、テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第2の照合画像セットを確定するように構成される第7の確定ユニットと、第1の照合画像セットと第2の照合画像セットに基づいて、検出すべき画像の少なくとも1つの照合画像を確定するように構成される第8の確定ユニットとをさらに含む。
画像検索装置1000のユニット1001とユニット1002の動作は、上記したステップ401とステップ405の動作と同様であるので、ここでは説明を省略する。
本開示の技術案において、関連するユーザ個人情報の取得、記憶と応用などは、すべて関連法律法規の規定に合致し、かつ公順良俗に違反しない。
本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
図11を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器1100の構造ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示すことを目的とする。電子機器はさらに、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限することを意図するものではない。
図11に示すように、機器1100は、計算ユニット1101を含み、それはリードオンリーメモリ(ROM)1102に記憶されるコンピュータプログラム又は記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。RAM 1103において、さらに機器1100の操作に必要な種々のプログラムとデータを記憶することができる。計算ユニット1101、ROM 1102及びRAM 1103はバス1104によって互いに接続される。入力/出力(I/O)インターフェース1105も、バス1104に接続される。
機器1100における複数の部品はI/Oインターフェース1105に接続され、入力ユニット1106、出力ユニット1107、記憶ユニット1108及び通信ユニット1109を含む。入力ユニット1106は、機器1100に情報を入力することが可能ないずれかのタイプの装置であってもよく、入力ユニット1106は、入力された数字又は文字情報が受信でき、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含むことができるが、これらに限定されない。出力ユニット1107は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、ビデオ/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット1108は磁気ディスク、光ディスクを含むことができるが、これらに限定されない。通信ユニット1109は、機器1100が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にし、かつモデム、ネットワークカード、赤外線通信デバイス、無線通信送受信機及び/又はチップセット、例えば、ブルートゥース(登録商標)デバイス、1302.11デバイス、WiFiデバイス、WiMaxデバイス、セルラー通信デバイス及び/又は類似物を含んでもよいが、これらに限定されない。
計算ユニット1101は処理及びコンピューティング能力を有する様々な汎用及び/又は専用の処理アセンブリであってもよい。計算ユニット1101のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット1101は上述した各方法と処理、例えば、ニューラルネットワークモデルのトレーニング方法と画像検索方法を実行する。例えば、一部の実施例において、ニューラルネットワークモデルのトレーニング方法と画像検索方法はコンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット1108に有形に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM 1102及び/又は通信ユニット1109を介して機器1100にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM 1103にロードされて計算ユニット1101によって実行される場合、以上で説明される方法のニューラルネットワークモデルのトレーニング方法と画像検索方法の1つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット1101は他のいかなる適切な方式で(例えば、ファームウェアにより)方法のニューラルネットワークモデルのトレーニング方法と画像検索方法を実行するように構成されてよい。
本明細書で上記したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び/又はブロック図に規定の機能/操作を実施される。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用されるか、命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
ユーザとのインタラクティブを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置はさらに、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクティブを行う。互にクライアント-サーバという関係を有するコンピュータプログラムを対応するコンピュータで実行することによってクライアントとサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバであっても、ブロックチェーンと組み合わせたサーバであってもよい。
理解すべきこととして、以上に示した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
本開示の実施形態又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施形態又は例であり、本発明の範囲はこれらの実施形態又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。さらに、実施形態又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができる。
本出願は、2021年8月17日に出願された中国特許出願202110945344.Xの優先権を主張するものであり、その内容の全ては参照によって本明細書に組み込まれる。
本開示は、人工知能技術分野に関し、特にコンピュータビジョンと深層学習技術に関し、画像処理や画像認識などのシーンに応用することができ、具体的には、ニューラルネットワークモデルのトレーニング方法、画像検索の方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
人工知能は、コンピュータに人間のいくつかの思惟過程及び知能的行動(例えば、学習、推理、思考、計画など)を模擬させるように研究する科目であり、ハードウェア面の技術もあれば、ソフトウェア面の技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの大きな方向を含む。
インターネットの普及に伴い、ネットショッピングの利点はより顕著になり、益々重要なショッピング形式になっている。それと同時に、ユーザにとって、ショッピングソフトウェアで製品を検索することは顕著な需要である。現在の方法は、キーワードで検索することに加えて、ピクチャを利用して製品を検索することも現在の主な方法である。
この部分で説明される方法は、必ずしも以前に想定される方法又は採用される方法ではない。特に断りのない限り、この部分に説明されているいずれの方法は、この部分に含まれるだけで従来技術であると考えられるべきではない。同様に、特に断りのない限り、この部分で言及されている課題は、従来の技術で承認されたものであると考えるべきではない。
本開示は、ニューラルネットワークモデルのトレーニング方法、画像検索方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
本開示の一態様によれば、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含むニューラルネットワークモデルのトレーニング方法を提供し、この方法は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得することと、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルを取得することと、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得することと、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算することと、少なくとも第1の損失値に基づいて、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整することとを含む。
本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索方法を提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、この方法は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得することと、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定することとを含む。
本開示の別の態様によれば、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含むニューラルネットワークモデルのトレーニング装置を提供し、この装置は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するように構成される第1の取得ユニットと、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルを取得するように構成される第2の取得ユニットと、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得するように構成される第3の取得ユニットと、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算するように構成される計算ユニットと、少なくとも第1の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成されるパラメータ調整ユニットとを含む。
本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索装置を提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、この装置は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得するように構成される第1の取得ユニットであって、画像認識ニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られる第1の取得ユニットと、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するように構成される第1の確定ユニットとを含む。
本開示の別の態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、これらの命令は、少なくとも1つのプロセッサによって実行されることにより、少なくとも1つのプロセッサが上記の画像検索方法またはニューラルネットワークモデルのトレーニング方法を実行することができる電子機器を提供する。
本開示の別の態様によれば、上記の画像検索方法またはニューラルネットワークモデルのトレーニング方法をコンピュータに実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体を提供する。
本開示の別の態様によれば、プロセッサによって実行されると、上記の画像検索方法またはニューラルネットワークモデルのトレーニング方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本開示の1つ又は複数の実施例によれば、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を利用して画像認識ニューラルネットワークとテキスト認識ニューラルネットワークをトレーニングすることにより、画像認識ニューラルネットワークに画像のセマンティック情報を学習させることができる。実際の応用では、トレーニングされた画像認識ニューラルネットワークを利用して画像特徴を取得し、この画像特徴は画像のセマンティック情報を含むため、画像検索結果の精度を向上させることができる。
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点又は重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではない。本開示の他の特徴は、以下の明細書によって容易に理解される。
図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字による説明とともに、実施例の例示的な実施形態を説明するために用いられる。図示の実施例は例示の目的のみであり、特許請求の範囲を限定するものではない。すべての図面において、同一の符号は類似しているが、必ずしも同じとは限らない要素を指す。
本開示の実施例によるニューラルネットワークモデルのトレーニング方法を示すフローチャートである。 本開示の実施例による別のニューラルネットワークモデルのトレーニング方法を示すフローチャートである。 本開示の実施例による別のニューラルネットワークモデルのトレーニング方法を示すフローチャートである。 本開示の実施例による画像検索方法を示すフローチャートである。 本開示の実施例による別の画像検索方法を示すフローチャートである。 本開示の実施例による別の画像検索方法を示すフローチャートである。 本開示の実施例による別の画像検索方法を示すフローチャートである。 本開示の実施例による別の画像検索方法を示すフローチャートである。 本開示の実施例によるニューラルネットワークモデルのトレーニング装置を示す構造ブロック図である。 本開示の例示的な実施例による画像検索装置を示す構造ブロック図である。 本開示の実施例を実現するために使用できる例示的な電子機器を示す構成ブロック図である。
以下、図面を結び付けながら本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細が含まれているが、それらは単なる例示的なものと見なされるべきである。したがって、当業者であれば認識できるように、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができる。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
本開示では、特に明記しない限り、様々な要素を説明するための「第1」、「第2」などの用語の使用は、これらの要素の位置関係、タイミング関係、又は重要性関係を限定することを意図していない。このような用語は、ある要素を別の要素と区別するためにのみ使用される。いくつかの例では、第1の要素と第2の要素は、要素の同じ例を指すことができ、場合によっては、コンテキストの説明に基づいて、異なる例を指してもよい。
本開示の様々な前記例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。コンテキストで別途に明確に示されていない限り、特に要素の数を限定しないなら、要素は1つであってもよいし、複数であってもよい。なお、本開示で使用される用語「及び/又は」は、リストされた項目のいずれか及び可能なすべての組み合わせをカバーする。
関連技術において、単純に画像特徴を使用する検索技術では、ピクチャ自体に付加可能なテキスト情報を十分に利用できないため、画像における各モジュールの相関性をよりよく学習することができない。テキスト情報自体は非常に全面的で立体的な監督情報である。テキスト情報の参与が欠落すると、ニューラルネットワークモデルは角度が複雑で、形状が変化しやすい物体(例えば、服飾)などのターゲットに対する特徴付け能力が相対的に弱い。
上記問題を解決するために、ニューラルネットワークモデルトのレーニング過程において、画像認識ニューラルネットワークとテキスト認識ニューラルネットワークを組み合わせて、それぞれサンプル画像及びサンプル画像に対応するセマンティックテキスト情報を入力することは、画像認識ニューラルネットワークが画像のセマンティック特徴をよりよく学習できるようにすることを目的としている。実際の応用では、トレーニングされた画像認識ニューラルネットワークのみを使用し、さらにデータベースに記憶された特徴ベクトルとの類似度計算を行う。これによって、画像のセマンティック特徴をよりよく学習し、より正確な結果を出力することができる。
以下、図面を参照して本開示の実施例について詳細に説明する。
本開示の一態様によれば、ニューラルネットワークモデルのトレーニング方法を提供する。図1に示すように、トレーニング方法100は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するステップ101と、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルを取得するステップ102と、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得するステップ103と、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算するステップ104と、少なくとも第1の損失値に基づいて、画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整するステップ105とを含むことができる。これにより、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を利用することで、画像認識ニューラルネットワークとテキスト認識ニューラルネットワークをトレーニングすることにより、画像認識ニューラルネットワークに画像のセマンティック情報を学習させることができる。
一例では、サンプル画像は物品の画像であってもよく、セマンティックテキスト情報はピクチャ内容を反映することができ、かつより豊富な情報である。例えば、サンプル画像はマウス、キーボード、及びディスプレイを含み、その対応するセマンティックテキスト情報はワイヤレスマウスキーボード、液晶ディスプレイ及びブランド名、色などを含んでもよい。さらに例えば、サンプル画像は上着画像であってもよく、この時、サンプル画像に対応するセマンティックテキスト情報はブランド名、上着、半袖衣類、スポーツウェアなどを含んでもよい。
いくつかの実施例によれば、サンプル画像を画像ニューラルネットワークモデルに入力する前に、サンプル画像を前処理し、次に前処理されたサンプル画像を画像認識ニューラルネットワークモデルに入力して、サンプル画像に対応する第1の特徴ベクトルを得ることができる。前処理は、サンプル画像に寸法調整、角度補正を行うことなどを含んでもよい。
いくつかの実施例によれば、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力する前に、セマンティックテキスト情報のうちの少なくとも1つのキーワードを取得し、セマンティックテキスト情報に対応する少なくとも1つのキーワードをテキスト認識ニューラルネットワークモデルに入力し、セマンティックテキスト情報に対応する第1の特徴ベクトルを得ることができる。
例示的に、第1の特徴ベクトルと第2の特徴ベクトルとの間のユークリッド距離を計算し、このユークリッド距離を第1の損失値として確定し、第1の損失値ができるだけ小さくなるように、第1の損失値に基づいてモデルのパラメータを調整することができるが、これらに限定されない。
いくつかの実施例によれば、サンプル画像はサンプルオブジェクトを含む。図2に示されるように、ニューラルネットワークモデルのトレーニング方法200は、ステップ201~ステップ208を含んでもよい。
ステップ201、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得する。
ステップ202、サンプル画像におけるサンプルオブジェクトを囲む真の境界ボックス及びサンプルオブジェクトの真のラベルをマークする。
いくつかの実施例によれば、セマンティックテキスト情報の少なくとも1つのキーワードを取得し、少なくとも1つのキーワードのうちの1つ又は複数のキーワードを真のラベルとすることができる。
一例では、猫のサンプル画像及びこのサンプル画像に対応するセマンティックテキスト情報を取得し、ここでは、このセマンティックテキスト情報は、猫、猫の品種、猫の色、猫の特徴(例えば、短い足、短い耳)などのキーワードを含んでもよい。このようなシーンにおいて、真のラベルはセマンティックテキスト情報に含まれるキーワード「猫」であってもよい。
ステップ203、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトル、予測境界ボックス及びサンプルオブジェクトの予測ラベルを取得する。
ステップ204、予測境界ボックス、予測ラベル、真の境界ボックス及び真のラベルに基づいて、第2の損失値を計算する。
いくつかの実施例によれば、真の境界ボックスと予測境界ボックスとのIoUに基づいて損失値を計算することができ、真の境界ボックスと予測境界ボックスとの中心距離に基づいて損失値を計算することもでき、また、その他の方法で損失値を計算することもでき、ここで限定しない。
ステップ205、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得する。
ステップ206、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算する。
ステップ207、第1の損失値と第2の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整する。
ステップ208、第1の損失値に基づいて、テキスト認識ニューラルネットワークモデルのパラメータを調整する。
上記のトレーニング方法において、画像ニューラルネットワークモデルはターゲット検出の機能も有しており、モデルがサンプルオブジェクトの画像特徴をよりよく抽出できるようにする。
図2におけるステップ201、ステップ205、ステップ206は、それぞれ図1におけるステップ101、ステップ103、ステップ104と同様であるため、ここでは説明は省略する。
いくつかの実施例によれば、図3に示されるように、ニューラルネットワークモデルのトレーニング方法300は、ステップ301~ステップ310を含んでもよい。
ステップ301、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得する。
ステップ302、サンプル画像におけるサンプルオブジェクトの真のラベルをマークする。
ステップ303、サンプル画像におけるサンプルオブジェクトが位置するフォアグラウンド領域を確定する。
ステップ304、サンプル画像をトリミングすることで、フォアグラウンド画像を得る。
ステップ305、フォアグラウンド画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルとサンプルオブジェクトの予測ラベルを得る。
ステップ306、予測ラベルと真のラベルに基づいて、第3の損失値を計算する。
いくつかの実施例によれば、予測ラベルと真のラベルを1つの空間で変換し、各自の特徴ベクトルをそれぞれ得ることにより、2つの特徴ベクトルのユークリッド距離を計算し、最後に第3の損失値を得る。
ステップ307、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得する。
ステップ308、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算する。
ステップ309、第1の損失値と第3の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整する。
いくつかの実施例によれば、ステップ308で得られた第1の損失値とステップ306において予測ラベルと真のラベルの損失値を表す第3の損失値をもとにし、ここでは、損失値は予測値と真の値の差を表すために用いられ、ニューラルネットワークをトレーニングする時に、ニューラルネットワーク内のすべてのパラメータを絶えず変更して、損失値を絶えず減らすことによって、より正確なニューラルネットワークモデルをトレーニングすることができる。
ステップ310、第1の損失値に基づいて、テキストニューラルネットワーク認識ニューラルネットワークモデルのパラメータを調整する。
図3におけるステップ301、ステップ307とステップ308は、図1におけるステップ101、ステップ103とステップ104と同様であるため、ここでは説明は省略する。
本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索方法をさらに提供し、前記ニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含む。図4に示すように、画像検索方法400は、ステップ401~ステップ402を含んでもよい。
ステップ401、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得する。
上記解決手段において、トレーニングされた画像認識ニューラルネットワークを利用して画像特徴を取得し、この画像特徴は画像のセマンティック情報を含むため、画像検索結果の精度を向上させることができる。
一例では、画像認識ニューラルネットワークモデルは、畳み込みニューラルネットワークで一般的に用いられる階層化構築方式を導入することによって構築される階層化transformerモデルであってもよい。transformerモデルは、CNNとself-attention構造を組み合わせて、ニューラルネットワークの浅層ではスライディングウィンドウアルゴリズムを有する畳み込みニューラルネットワークを使用してlow level特徴を抽出し、深層ではセルフアテンションメカニズムを有するtransformerモデルを使用してhigh level特徴を抽出し、画像検索タスクで効果の向上が非常に顕著である。
ステップ402、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定する。
いくつかの実施例によれば、データベースには複数の画像のそれぞれに対応する複数の画像特徴ベクトルが記憶され、それぞれ検出すべき画像の画像特徴ベクトルとデータベースに記憶された複数の画像特徴ベクトルのうちの各画像特徴ベクトルの間のユークリッド距離を計算する。対応するユークリッド距離に基づいて、データベースにおける検出すべき画像に照合する複数の画像を確定することができる。
いくつかの実施例によれば、データベースに記憶された複数の画像特徴ベクトルは、図1~図3に示される方法100、方法200と方法300のいずれかの方法でトレーニングして得られた画像認識ニューラルネットワークモデルによって得られてもよい。
いくつかの実施例では、検出すべき画像はターゲットオブジェクトを含み、図5に示すように、画像検索方法500は、
検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトル、ターゲットオブジェクトのターゲット境界ボックス及びターゲットオブジェクトのターゲットラベルを取得するステップ501と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するステップ502と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ503と、
テキスト特徴ベクトルに基づいて、第1の照合画像セットから検出すべき画像の少なくとも1つの照合画像を確定するステップ504とを含んでもよい。
図5におけるステップ502は、図4におけるステップ402と同様であるため、ここでは説明は省略する。
いくつかの実施例によれば、それぞれテキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルと、ステップ502で確定された第1の照合画像セットに含まれる各画像に対応するテキスト特徴ベクトルとの間のユークリッド距離を計算し、入力された検出すべき画像の少なくとも1つの照合画像を第1の照合画像セットから確定する。
これにより、検出すべき画像は、画像認識ニューラルネットワークモデルによって第1の照合画像セットを確定した後、検出すべき画像に関連セマンティック情報を利用して画像認識ニューラルネットワークモデルとともにトレーニングされたテキストニューラルネットワークモデルによってさらに確定され、最終的に確定された画像と入力された検出すべき画像の照合度がより高くなる。
いくつかの実施例によれば、図6に示すように、画像検索方法600は、ステップ601~ステップ605を含む。
ステップ601、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトル、ターゲットオブジェクトのターゲット境界ボックス及びターゲットオブジェクトのターゲットラベルを取得する。
ステップ602、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定する。
ステップ603、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得する。
ステップ604、テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第2の照合画像セットを確定する。
いくつかの実施例によれば、テキスト特徴ベクトルとデータベースに記憶されたテキスト特徴ベクトルとのユークリッド距離を計算し、要求に合った画像を選別し、これらの画像は検出すべき画像の第2の照合画像セットを共同で構成する。
いくつかの実施例によれば、データベースに記憶された複数のテキスト特徴ベクトルは、図1~図3に示される方法100、方法200及び方法300のいずれかの方法でトレーニングして得られたニューラルネットワークモデルにおけるテキスト認識ニューラルネットワークモデルによって得られてもよい。
ステップ605、第1の照合画像セットと第2の照合画像セットに基づいて、検出すべき画像の少なくとも1つの照合画像を確定する。
いくつかの実施例によれば、画像特徴ベクトルとテキスト特徴ベクトルをそれぞれデータベースにおけるデータと比較することによって、画像特徴ベクトルとデータベースにおける画像特徴ベクトルとのユークリッド距離、及びテキスト特徴ベクトルとデータベースにおけるテキスト特徴ベクトルとのユークリッド距離を計算し、最終的に2回の比較結果によって最終的な照合画像を確定する。
一例では、2回の比較結果の両方に含まれる画像を照合画像とするか、または2回の比較結果を類似度に従ってソーティングし、スコアが最も高いいくつかの画像を最終的な照合画像として選択する。
図6におけるステップ601~ステップ603は、図5におけるステップ501~ステップ503と同様であるため、ここでは説明は省略する。
いくつかの実施例では、図7に示すように、画像検索方法700は、
検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するステップ701と、
検出すべき画像をトリミングすることで、フォアグラウンド画像を得るステップ702と、
フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とし、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルとターゲットオブジェクトのターゲットラベルを取得するステップ703と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するステップ704と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ705と、
テキスト特徴ベクトルに基づいて、第1の照合画像セットから検出すべき画像の少なくとも1つの照合画像を確定するステップ706とを含んでもよい。
図7におけるステップ704~ステップ706は、図5におけるステップ502~ステップ504と同様であるため、ここでは説明は省略する。
いくつかの実施例では、図8に示すように、画像検索方法800は、
検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するステップ801と、
検出すべき画像をトリミングすることで、フォアグラウンド画像を得るステップ802と、
フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とし、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルとターゲットオブジェクトのターゲットラベルを取得するステップ803と、
検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するステップ804と、
ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するステップ805と、
テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第2の照合画像セットを確定するステップ806と、
第1の照合画像セットと第2の照合画像セットに基づいて、検出すべき画像の少なくとも1つの照合画像を確定するステップ807とを含んでもよい。
本開示の実施例における画像検索方法を利用して、画像のセマンティックテキスト情報を十分に利用し、画像検索結果の正確性を向上させ、ユーザ体験を向上させることができる。
例えば、ターゲット画像は上着画像であり、この上着画像のセマンティック情報は、ブランド名、上着、半袖衣類、スポーツウェアなどを含んでもよい。既存の検索方法を利用して検索された結果は、同じブランドの画像ロゴの下衣を含むが、本開示の実施例における画像検索方法を利用して、画像に対応するセマンティックテキスト情報を十分に利用することができ、検索結果は同じブランドの画像ロゴのスポーツ半袖上着のみを含んでもよく、画像検索結果の正確性を大幅に向上させ、ユーザ体験を向上させることができる。
図8におけるステップ804~ステップ807は、図6におけるステップ602~ステップ605と同様であるため、ここでは説明は省略する。
本開示の別の態様によれば、更にニューラルネットワークモデルのトレーニング装置900を提供する。図9に示すように、ニューラルネットワークモデルのトレーニング装置900は、サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するように構成される第1の取得ユニット901と、サンプル画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力されたサンプル画像に対応する第1の特徴ベクトルを取得するように構成される第2の取得ユニット902と、セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたセマンティックテキスト情報に対応する第2の特徴ベクトルを取得するように構成される第3の取得ユニット903と、第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算するように構成される計算ユニット904と、少なくとも第1の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成されるパラメータ調整ユニット905とを含む。
いくつかの実施例によれば、トレーニング装置900は、サンプル画像におけるサンプルオブジェクトを囲む真の境界ボックス及びサンプルオブジェクトの真のラベルをマークするように構成される第1のマークユニットをさらに含む。
いくつかの実施例によれば、計算ユニット904はさらに、予測境界ボックス、予測ラベル、真の境界ボックス及び真のラベルに基づいて、第2の損失値を計算するように構成される。
いくつかの実施例によれば、パラメータ調整ユニット905は、第1の損失値と第2の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第1のパラメータ調整サブユニットと、第1の損失値に基づいて、テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第2のパラメータ調整サブユニットとを含む。
いくつかの実施例によれば、第1のマークユニットはさらに、セマンティックテキスト情報の少なくとも1つのキーワードを取得し、少なくとも1つのキーワードのうちの1つ又は複数のキーワードを真のラベルとするように構成される。
いくつかの実施例によれば、トレーニング装置900は、サンプル画像を画像認識ニューラルネットワークモデルに入力する前に、サンプル画像におけるサンプルオブジェクトが位置するフォアグラウンド領域を確定するように構成される確定ユニットと、サンプル画像をトリミングすることで、フォアグラウンド画像を得て、フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む。
いくつかの実施例によれば、トレーニング装置900は、サンプル画像におけるサンプルオブジェクトの真のラベルをマークするように構成される第2のマークユニットをさらに含む。
いくつかの実施例によれば、計算ユニット904はさらに、予測ラベルと真のラベルに基づいて、第3の損失値を計算するように構成される。
いくつかの実施例によれば、パラメータ調整ユニット905は、第1の損失値と第3の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第3のパラメータ調整サブユニットと、第1の損失値に基づいて、テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第4のパラメータ調整サブユニットとを含む。
トレーニング装置900のユニット901~ユニット905の動作は、上記したステップ101~ステップ105の動作と同様であるので、ここでは説明を省略する。
本開示の別の態様によれば、ニューラルネットワークモデルに基づく画像検索装置1000をさらに提供し、このニューラルネットワークモデルは上記のトレーニング方法によりトレーニングされて得られ、このニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含む。図10に示すように、画像検索装置1000は、検出すべき画像を画像認識ニューラルネットワークモデルに入力し、画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得するように構成される第1の取得ユニット1001と、検出すべき画像の画像特徴ベクトルに基づいて、データベースから検出すべき画像の第1の照合画像セットを確定するように構成される第1の確定ユニット1002とを含む。
いくつかの実施例によれば、検出すべき画像はターゲットオブジェクトを含み、画像認識ニューラルネットワークモデルの出力はターゲットオブジェクトを囲むターゲット境界ボックスとターゲットオブジェクトのターゲットラベルをさらに含む。
いくつかの実施例によれば、画像検索装置1000は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第2の取得ユニットと、テキスト特徴ベクトルに基づいて、第1の照合画像セットから検出すべき画像の少なくとも1つの照合画像を確定するように構成される第2の確定ユニットとをさらに含む。
いくつかの実施例によれば、画像検索装置1000は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第3の取得ユニットと、テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第2の照合画像セットを確定するように構成される第3の確定ユニットと、第1の照合画像セットと第2の照合画像セットに基づいて、検出すべき画像の少なくとも1つの照合画像を確定するように構成される第4の確定ユニットとをさらに含む。
いくつかの実施例によれば、検出すべき画像はターゲットオブジェクトを含み、または、画像検索装置1000は、検出すべき画像を画像認識ニューラルネットワークモデルに入力する前に、検出すべき画像におけるターゲットオブジェクトが位置するフォアグラウンド領域を確定するように構成される第5の確定ユニットと、検出すべき画像をトリミングすることで、フォアグラウンド画像を得て、フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む。
いくつかの実施例によれば、画像認識ニューラルネットワークモデルの出力はターゲットオブジェクトのターゲットラベルをさらに含む。
いくつかの実施例によれば、画像検索装置1000は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第4の取得ユニットと、テキスト特徴ベクトルに基づいて、第1の照合画像セットから検出すべき画像の少なくとも1つの照合画像を確定するように構成される第6の確定ユニットとをさらに含む。
いくつかの実施例によれば、画像認識ニューラルネットワークモデルの出力はターゲットオブジェクトのターゲットラベルをさらに含み、また、画像検索装置1000は、ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第5の取得ユニットと、テキスト特徴ベクトルに基づいて、データベースから検出すべき画像の第2の照合画像セットを確定するように構成される第7の確定ユニットと、第1の照合画像セットと第2の照合画像セットに基づいて、検出すべき画像の少なくとも1つの照合画像を確定するように構成される第8の確定ユニットとをさらに含む。
画像検索装置1000のユニット1001とユニット1002の動作は、上記したステップ401とステップ405の動作と同様であるので、ここでは説明を省略する。
本開示の技術案において、関連するユーザ個人情報の取得、記憶と応用などは、すべて関連法律法規の規定に合致し、かつ公順良俗に違反しない。
本開示の実施例によれば、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
図11を参照して、ここでは、本開示の様々な態様に適用可能なハードウェア装置の一例である、本開示のサーバ又はクライアントとして利用可能な電子機器1100の構造ブロック図について説明する。電子機器は、様々な形態のデジタル電子コンピュータ機器、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示すことを目的とする。電子機器はさらに、様々な形態の移動装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限することを意図するものではない。
図11に示すように、機器1100は、計算ユニット1101を含み、それはリードオンリーメモリ(ROM)1102に記憶されるコンピュータプログラム又は記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされるコンピュータプログラムによって、種々の適当な動作と処理を実行することができる。RAM 1103において、さらに機器1100の操作に必要な種々のプログラムとデータを記憶することができる。計算ユニット1101、ROM 1102及びRAM 1103はバス1104によって互いに接続される。入力/出力(I/O)インターフェース1105も、バス1104に接続される。
機器1100における複数の部品はI/Oインターフェース1105に接続され、入力ユニット1106、出力ユニット1107、記憶ユニット1108及び通信ユニット1109を含む。入力ユニット1106は、機器1100に情報を入力することが可能ないずれかのタイプの装置であってもよく、入力ユニット1106は、入力された数字又は文字情報が受信でき、電子機器のユーザ設定及び/又は機能制御に関するキー信号入力を生成することができ、マウス、キーボード、タッチスクリーン、トラックボード、トラックボール、操作レバー、マイク及び/又はリモコンを含むことができるが、これらに限定されない。出力ユニット1107は、情報を提示することが可能ないずれかのタイプの装置であってもよく、ディスプレイ、スピーカ、ビデオ/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これらに限定されない。記憶ユニット1108は磁気ディスク、光ディスクを含むことができるが、これらに限定されない。通信ユニット1109は、機器1100が例えば、インターネットであるコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にし、かつモデム、ネットワークカード、赤外線通信デバイス、無線通信送受信機及び/又はチップセット、例えば、ブルートゥース(登録商標)デバイス、1302.11デバイス、WiFiデバイス、WiMaxデバイス、セルラー通信デバイス及び/又は類似物を含んでもよいが、これらに限定されない。
計算ユニット1101は処理及びコンピューティング能力を有する様々な汎用及び/又は専用の処理アセンブリであってもよい。計算ユニット1101のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラなどを含んでもよいが、これらに限定されない。計算ユニット1101は上述した各方法と処理、例えば、ニューラルネットワークモデルのトレーニング方法と画像検索方法を実行する。例えば、一部の実施例において、ニューラルネットワークモデルのトレーニング方法と画像検索方法はコンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット1108に有形に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM 1102及び/又は通信ユニット1109を介して機器1100にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM 1103にロードされて計算ユニット1101によって実行される場合、以上で説明される方法のニューラルネットワークモデルのトレーニング方法と画像検索方法の1つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット1101は他のいかなる適切な方式で(例えば、ファームウェアにより)方法のニューラルネットワークモデルのトレーニング方法と画像検索方法を実行するように構成されてよい。
本明細書で上記したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行し及び/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び/又はブロック図に規定の機能/操作を実施される。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用されるか、命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
ユーザとのインタラクティブを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、及びキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置はさらに、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクティブを行う。互にクライアント-サーバという関係を有するコンピュータプログラムを対応するコンピュータで実行することによってクライアントとサーバとの関係を生成する。サーバは、クラウドサーバであってもよく、分散型システムのサーバであっても、ブロックチェーンと組み合わせたサーバであってもよい。
理解すべきこととして、以上に示した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよい。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
本開示の実施形態又は例は図面を参照して説明されたが、上記の方法、システム、及び装置は単なる例示的な実施形態又は例であり、本発明の範囲はこれらの実施形態又は例によって制限されるものではなく、授権後の特許請求の範囲及びその均等範囲のみによって限定されることを理解されたい。実施例又は例の様々な要素は省略されてもよく、又はそれらの均等要素によって代替されてもよい。なお、各ステップは、本開示で説明した順序とは異なる順序で実行されてもよい。さらに、実施形態又は例の様々な要素は、様々な方法で組み合わせられてもよい。重要なのは、技術の進化に伴い、ここで説明される多くの要素は、本開示の後に現れる同等の要素に置き換えることができる。

Claims (25)

  1. ニューラルネットワークモデルのトレーニング方法であって、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、前記方法は、
    サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得することと、
    前記サンプル画像を画像認識ニューラルネットワークモデルに入力し、前記画像認識ニューラルネットワークモデルから出力された前記サンプル画像に対応する第1の特徴ベクトルを取得することと、
    セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力された前記セマンティックテキスト情報に対応する第2の特徴ベクトルを取得することと、
    前記第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算することと、
    少なくとも前記第1の損失値に基づいて、前記画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整することとを含む、ニューラルネットワークモデルのトレーニング方法。
  2. 前記サンプル画像はサンプルオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は予測境界ボックスと前記サンプルオブジェクトの予測ラベルをさらに含み、
    前記方法は、
    前記サンプル画像における前記サンプルオブジェクトを囲む真の境界ボックス及び前記サンプルオブジェクトの真のラベルをマークすることと、
    前記予測境界ボックス、前記予測ラベル、前記真の境界ボックス及び真のラベルに基づいて、第2の損失値を計算することとをさらに含み、
    ここで、少なくとも前記第1の損失値に基づいて、前記画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整することは、
    前記第1の損失値と第2の損失値に基づいて、前記画像認識ニューラルネットワークモデルのパラメータを調整することと、
    前記第1の損失値に基づいて、前記テキスト認識ニューラルネットワークモデルのパラメータを調整することとを含む、請求項1に記載の方法。
  3. 前記セマンティックテキスト情報の少なくとも1つのキーワードを取得し、前記少なくとも1つのキーワードのうちの1つ又は複数のキーワードを前記真のラベルとすることをさらに含む、請求項2に記載の方法。
  4. 前記サンプル画像はサンプルオブジェクトを含み、前記方法は、
    前記サンプル画像を前記画像認識ニューラルネットワークモデルに入力する前に、前記サンプル画像における前記サンプルオブジェクトが位置するフォアグラウンド領域を確定することと、
    前記サンプル画像をトリミングすることで、フォアグラウンド画像を得て、前記フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とすることとをさらに含む、請求項1に記載の方法。
  5. 前記画像認識ニューラルネットワークモデルの出力は前記サンプルオブジェクトの予測ラベルをさらに含み、
    前記方法は、
    前記サンプル画像における前記サンプルオブジェクトの真のラベルをマークすることと、
    前記予測ラベルと真のラベルに基づいて、第3の損失値を計算することとをさらに含み、
    少なくとも前記第1の損失値に基づいて、前記画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルのパラメータを調整することは、
    前記第1の損失値と第3の損失値に基づいて、前記画像認識ニューラルネットワークモデルのパラメータを調整することと、
    前記第1の損失値に基づいて、前記テキスト認識ニューラルネットワークモデルのパラメータを調整することとを含む、請求項4に記載の方法。
  6. ニューラルネットワークモデルに基づく画像検索方法であって、前記ニューラルネットワークモデルは請求項1~5のいずれか一項に記載のトレーニング方法によりトレーニングされて得られ、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、前記方法は、
    検出すべき画像を画像認識ニューラルネットワークモデルに入力し、前記画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得することと、
    前記検出すべき画像の画像特徴ベクトルに基づいて、データベースから前記検出すべき画像の第1の照合画像セットを確定することとを含む、ニューラルネットワークモデルに基づく画像検索方法。
  7. 前記検出すべき画像はターゲットオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトを囲むターゲット境界ボックスと前記ターゲットオブジェクトのターゲットラベルをさらに含み、
    前記方法は、
    前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得することと、
    前記テキスト特徴ベクトルに基づいて、前記第1の照合画像セットから前記検出すべき画像の少なくとも1つの照合画像を確定することとをさらに含む、請求項6に記載の方法。
  8. 前記検出すべき画像はターゲットオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトを囲むターゲット境界ボックスと前記ターゲットオブジェクトのターゲットラベルをさらに含み、
    前記方法は、
    前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得することと、
    前記テキスト特徴ベクトルに基づいて、データベースから前記検出すべき画像の第2の照合画像セットを確定することと、
    前記第1の照合画像セットと第2の照合画像セットに基づいて、前記検出すべき画像の少なくとも1つの照合画像を確定することとをさらに含む、請求項6に記載の方法。
  9. 前記検出すべき画像はターゲットオブジェクトを含み、前記方法は、
    前記検出すべき画像を前記画像認識ニューラルネットワークモデルに入力する前に、前記検出すべき画像における前記ターゲットオブジェクトが位置するフォアグラウンド領域を確定することと、
    前記検出すべき画像をトリミングすることで、フォアグラウンド画像を得て、前記フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とすることとをさらに含む、請求項6に記載の方法。
  10. 前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトのターゲットラベルをさらに含み、
    前記方法は、
    前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得することと、
    前記テキスト特徴ベクトルに基づいて、前記第1の照合画像セットから前記検出すべき画像の少なくとも1つの照合画像を確定することとをさらに含む、請求項9に記載の方法。
  11. 前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトのターゲットラベルをさらに含み、
    前記方法は、
    前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得することと、
    前記テキスト特徴ベクトルに基づいて、データベースから前記検出すべき画像の第2の照合画像セットを確定することと、
    前記第1の照合画像セットと第2の照合画像セットに基づいて、前記検出すべき画像の少なくとも1つの照合画像を確定することとをさらに含む、請求項9に記載の方法。
  12. ニューラルネットワークモデルのトレーニング装置であって、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、前記装置は、
    サンプル画像及びサンプル画像に対応するセマンティックテキスト情報を取得するように構成される第1の取得ユニットと、
    前記サンプル画像を画像認識ニューラルネットワークモデルに入力し、前記画像認識ニューラルネットワークモデルから出力された前記サンプル画像に対応する第1の特徴ベクトルを取得するように構成される第2の取得ユニットと、
    セマンティックテキスト情報をテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力された前記セマンティックテキスト情報に対応する第2の特徴ベクトルを取得するように構成される第3の取得ユニットと、
    前記第1の特徴ベクトルと第2の特徴ベクトルに基づいて、第1の損失値を計算するように構成される計算ユニットと、
    少なくとも前記第1の損失値に基づいて、画像認識ニューラルネットワークモデルのパラメータを調整するように構成されるパラメータ調整ユニットとを含む、ニューラルネットワークモデルのトレーニング装置。
  13. 前記サンプル画像はサンプルオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は予測境界ボックスと前記サンプルオブジェクトの予測ラベルをさらに含み、
    前記装置は、
    前記サンプル画像における前記サンプルオブジェクトを囲む真の境界ボックス及び前記サンプルオブジェクトの真のラベルをマークするように構成される第1のマークユニットをさらに含み、
    前記計算ユニットはさらに、前記予測境界ボックス、前記予測ラベル、前記真の境界ボックス及び真のラベルに基づいて、第2の損失値を計算するように構成され、
    前記パラメータ調整ユニットは、
    前記第1の損失値と第2の損失値に基づいて、前記画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第1のパラメータ調整サブユニットと、
    前記第1の損失値に基づいて、前記テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第2のパラメータ調整サブユニットとを含む、請求項12に記載の装置。
  14. 前記第1のマークユニットはさらに、前記セマンティックテキスト情報の少なくとも1つのキーワードを取得し、前記少なくとも1つのキーワードのうちの1つ又は複数のキーワードを前記真のラベルとするように構成される、請求項12に記載の装置。
  15. 前記サンプル画像はサンプルオブジェクトを含み、前記装置は、
    前記サンプル画像を前記画像認識ニューラルネットワークモデルに入力する前に、前記サンプル画像における前記サンプルオブジェクトが位置するフォアグラウンド領域を確定するように構成される確定ユニットと、
    前記サンプル画像をトリミングすることで、フォアグラウンド画像を得て、前記フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む、請求項12に記載の装置。
  16. 前記画像認識ニューラルネットワークモデルの出力は前記サンプルオブジェクトの予測ラベルをさらに含み、
    前記装置は、
    前記サンプル画像における前記サンプルオブジェクトの真のラベルをマークするように構成される第2のマークユニットをさらに含み、
    前記計算ユニットはさらに、前記予測ラベルと前記真のラベルに基づいて、第3の損失値を計算するように構成され、
    前記パラメータ調整ユニットは、
    前記第1の損失値と第3の損失値に基づいて、前記画像認識ニューラルネットワークモデルのパラメータを調整するように構成される第3のパラメータ調整サブユニットと、
    前記第1の損失値に基づいて、前記テキスト認識ニューラルネットワークモデルのパラメータを調整するように構成される第4のパラメータ調整サブユニットとを含む、請求項12に記載の装置。
  17. ニューラルネットワークモデルに基づく画像検索装置であって、前記ニューラルネットワークモデルは請求項1~5のいずれか一項に記載のトレーニング方法によりトレーニングされて得られ、前記ニューラルネットワークモデルは画像認識ニューラルネットワークモデルとテキスト認識ニューラルネットワークモデルを含み、前記装置は、
    検出すべき画像を画像認識ニューラルネットワークモデルに入力し、前記画像認識ニューラルネットワークモデルから出力された画像特徴ベクトルを取得するように構成される第1の取得ユニットと、
    前記検出すべき画像の画像特徴ベクトルに基づいて、データベースから前記検出すべき画像の第1の照合画像セットを確定するように構成される第1の確定ユニットとを含む、ニューラルネットワークモデルに基づく画像検索装置。
  18. 前記検出すべき画像はターゲットオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトを囲むターゲット境界ボックスと前記ターゲットオブジェクトのターゲットラベルをさらに含み、
    前記装置は、
    前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第2の取得ユニットと、
    前記テキスト特徴ベクトルに基づいて、前記第1の照合画像セットから前記検出すべき画像の少なくとも1つの照合画像を確定するように構成される第2の確定ユニットとをさらに含む、請求項17に記載の装置。
  19. 前記検出すべき画像はターゲットオブジェクトを含み、前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトを囲むターゲット境界ボックスと前記ターゲットオブジェクトのターゲットラベルをさらに含み、
    前記装置は、
    前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第3の取得ユニットと、
    前記テキスト特徴ベクトルに基づいて、データベースから前記検出すべき画像の第2の照合画像セットを確定するように構成される第3の確定ユニットと、
    前記第1の照合画像セットと第2の照合画像セットに基づいて、前記検出すべき画像の少なくとも1つの照合画像を確定するように構成される第4の確定ユニットとをさらに含む、請求項17に記載の装置。
  20. 前記検出すべき画像はターゲットオブジェクトを含み、前記装置は、
    前記検出すべき画像を画像認識ニューラルネットワークモデルに入力する前に、前記検出すべき画像における前記ターゲットオブジェクトが位置するフォアグラウンド領域を確定するように構成される第5の確定ユニットと、
    前記検出すべき画像をトリミングすることで、フォアグラウンド画像を得て、前記フォアグラウンド画像を画像認識ニューラルネットワークモデルの入力とするように構成されるトリミングユニットとをさらに含む、請求項17に記載の装置。
  21. 前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトのターゲットラベルをさらに含み、
    前記装置は、
    前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第4の取得ユニットと、
    前記テキスト特徴ベクトルに基づいて、前記第1の照合画像セットから前記検出すべき画像の少なくとも1つの照合画像を確定するように構成される第6の確定ユニットとをさらに含む、請求項20に記載の装置。
  22. 前記画像認識ニューラルネットワークモデルの出力は前記ターゲットオブジェクトのターゲットラベルをさらに含み、
    前記装置は、
    前記ターゲットラベルをテキスト認識ニューラルネットワークモデルに入力し、前記テキスト認識ニューラルネットワークモデルから出力されたテキスト特徴ベクトルを取得するように構成される第5の取得ユニットと、
    前記テキスト特徴ベクトルに基づいて、データベースから前記検出すべき画像の第2の照合画像セットを確定するように構成される第7の確定ユニットと、
    前記第1の照合画像セットと第2の照合画像セットに基づいて、前記検出すべき画像の少なくとも1つの照合画像を確定するように構成される第8の確定ユニットとをさらに含む、請求項20に記載の装置。
  23. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが請求項1~11のいずれか一項に記載の方法を実行することができる、電子機器。
  24. コンピュータに請求項1~11のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。
  25. プロセッサによって実行されると、請求項1~11のいずれか一項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。
JP2022573483A 2021-08-17 2022-04-27 ニューラルネットワークモデルのトレーニング方法、画像検索方法、機器及び媒体 Pending JP2023541752A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110945344.X 2021-08-17
CN202110945344.XA CN113656582B (zh) 2021-08-17 2021-08-17 神经网络模型的训练方法、图像检索方法、设备和介质
PCT/CN2022/089626 WO2023020005A1 (zh) 2021-08-17 2022-04-27 神经网络模型的训练方法、图像检索方法、设备和介质

Publications (1)

Publication Number Publication Date
JP2023541752A true JP2023541752A (ja) 2023-10-04

Family

ID=78492122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022573483A Pending JP2023541752A (ja) 2021-08-17 2022-04-27 ニューラルネットワークモデルのトレーニング方法、画像検索方法、機器及び媒体

Country Status (3)

Country Link
JP (1) JP2023541752A (ja)
CN (1) CN113656582B (ja)
WO (1) WO2023020005A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656582B (zh) * 2021-08-17 2022-11-18 北京百度网讯科技有限公司 神经网络模型的训练方法、图像检索方法、设备和介质
CN114118379B (zh) * 2021-12-02 2023-03-24 北京百度网讯科技有限公司 神经网络的训练方法、图像处理方法、装置、设备和介质
CN114155543B (zh) * 2021-12-08 2022-11-29 北京百度网讯科技有限公司 神经网络训练方法、文档图像理解方法、装置和设备
CN114612749B (zh) * 2022-04-20 2023-04-07 北京百度网讯科技有限公司 神经网络模型训练方法及装置、电子设备和介质
CN116311271B (zh) * 2023-03-22 2023-12-26 北京百度网讯科技有限公司 文本图像的处理方法及装置
CN116612204B (zh) * 2023-06-01 2024-05-03 北京百度网讯科技有限公司 图像生成方法、训练方法、装置、电子设备以及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298749A (zh) * 2014-10-14 2015-01-21 杭州淘淘搜科技有限公司 一种图像视觉和文本语义融合商品检索方法
US11017019B1 (en) * 2015-08-14 2021-05-25 Shutterstock, Inc. Style classification for authentic content search
CN106095829B (zh) * 2016-06-01 2019-08-06 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN107730343A (zh) * 2017-09-15 2018-02-23 广州唯品会研究院有限公司 一种基于图片属性提取的用户商品信息推送方法及设备
CN108062421A (zh) * 2018-01-09 2018-05-22 焦点科技股份有限公司 一种大规模图片多尺度语义检索方法
CN109522967A (zh) * 2018-11-28 2019-03-26 广州逗号智能零售有限公司 一种商品定位识别方法、装置、设备以及存储介质
CN111860084B (zh) * 2019-04-30 2024-04-16 千寻位置网络有限公司 图像特征的匹配、定位方法及装置、定位系统
CN110866140B (zh) * 2019-11-26 2024-02-02 腾讯科技(深圳)有限公司 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN112163114B (zh) * 2020-09-10 2024-03-22 华中科技大学 一种基于特征融合的图像检索方法
CN112364195B (zh) * 2020-10-22 2022-09-30 天津大学 一种基于属性引导对抗哈希网络的零样本图像检索方法
CN112612913A (zh) * 2020-12-28 2021-04-06 厦门市美亚柏科信息股份有限公司 一种用于图像的搜索方法和系统
CN112784912A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 图像识别方法及装置、神经网络模型的训练方法及装置
CN113656582B (zh) * 2021-08-17 2022-11-18 北京百度网讯科技有限公司 神经网络模型的训练方法、图像检索方法、设备和介质

Also Published As

Publication number Publication date
WO2023020005A1 (zh) 2023-02-23
CN113656582A (zh) 2021-11-16
CN113656582B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
JP2023541752A (ja) ニューラルネットワークモデルのトレーニング方法、画像検索方法、機器及び媒体
WO2020199932A1 (zh) 模型训练方法、人脸识别方法、装置、设备及存储介质
US11275906B2 (en) Natural language text conversion and method therefor
CN111259751A (zh) 基于视频的人体行为识别方法、装置、设备及存储介质
KR102576344B1 (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
CN110741377A (zh) 人脸图像处理方法、装置、存储介质及电子设备
CN113591918B (zh) 图像处理模型的训练方法、图像处理方法、装置和设备
CN113971751A (zh) 训练特征提取模型、检测相似图像的方法和装置
KR20200059993A (ko) 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
KR20200040097A (ko) 전자 장치 및 그 제어 방법
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN114840734B (zh) 多模态表示模型的训练方法、跨模态检索方法及装置
KR20190118108A (ko) 전자 장치 및 그의 제어방법
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
KR20220109363A (ko) 이미지 검색 방법, 장치 및 시스템
CN113642481A (zh) 识别方法、训练方法、装置、电子设备以及存储介质
CN110738261B (zh) 图像分类和模型训练方法、装置、电子设备及存储介质
CN112101204A (zh) 生成式对抗网络的训练方法、图像处理方法、装置和设备
CN114972910B (zh) 图文识别模型的训练方法、装置、电子设备及存储介质
CN115393488A (zh) 虚拟人物表情的驱动方法、装置、电子设备和存储介质
CN114707638A (zh) 模型训练、对象识别方法及装置、设备、介质和产品
CN114220163A (zh) 人体姿态估计方法、装置、电子设备及存储介质
JP2021114313A (ja) 顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム
CN113378773B (zh) 手势识别方法、装置、设备、存储介质以及程序产品
CN117854156B (zh) 一种特征提取模型的训练方法和相关装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231106