JP2022191412A

JP2022191412A - マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置

Info

Publication number: JP2022191412A
Application number: JP2022165363A
Authority: JP
Inventors: ユアン・フェン; Yuan Feng; ジュン・スン; Jun Son; ホーンフイ・ジョン; Honghui Zheng; イーン・シン; Ying Xin; ビン・ジャーン; Zhang Bin; チャオ・リー; Chao Li; ユンハオ・ワーン; Yunhao Wang; シュミン・ハン; Shumin Han
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-02
Filing date: 2022-10-14
Publication date: 2022-12-27
Anticipated expiration: 2042-10-14
Also published as: JP7403605B2; CN114549874B; KR20220147550A; CN114549874A; US20230196716A1

Abstract

【課題】クロスモーダル情報検索に対して、画像に複数のターゲットが存在する時、マルチターゲット混同により計算結果が不正確であるという問題を解決し、検索結果の正確性を向上させることができるマルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法及び装置を提供する。
【解決手段】方法は、複数のターゲットが含まれるサンプル画像とサンプルテキストからなる複数のトレーニングサンプルを取得し、各トレーニングサンプルに対して、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。
【選択図】図１

Description

本開示は、人工知能技術分野に関し、特に深層学習、画像認識の技術分野に関する。

インターネットの普及が進むにつれて、マルチメディアデータは爆発的に増加している。この大規模なマルチメディアデータをどのように効率的に整理、管理、検索するかは、現在、人気課題となっている。マルチメディアデータは、テキスト、画像などのマルチモーダル情報が異種の特徴空間にあるため、それらの間の関連関係が複雑で多様であり、どのようにクロスモーダル情報検索を実現するかは、解決すべき課題となっている。

現在、クロスモーダル情報検索に対して、画像に複数のターゲットが存在する時、マルチターゲット混同の問題が発生しやすく、検索結果の正確性に影響を与える。

本開示は、マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置を提供する。
本開示の一態様によれば、マルチターゲット画像テキストマッチングモデルのトレーニング方法を提供する。この方法は、
複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれることと、
各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付けることと、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得ることとを含む。

本開示の別の態様によれば、画像テキスト検索方法を提供する。この方法は、
検索テキストと複数の画像を取得することと、
検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力し、検索テキストと複数の画像との類似度を得ることと、
検索テキストと複数の画像との類似度に基づき、検索テキストに対応するターゲット画像を決定することとを含み、
ここで、マルチターゲット画像テキストマッチングモデルは、本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法によってトレーニングして得られたものである。

本開示の別の態様によれば、マルチターゲット画像テキストマッチングモデルのトレーニング装置を提供する。この装置は、
複数のトレーニングサンプルを取得するための第１の取得モジュールであって、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる第１の取得モジュールと、
各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得するための第２の取得モジュールであって、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける第２の取得モジュールと、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得るためのモデルトレーニングモジュールとを含む。

本開示の別の態様によれば、画像テキスト検索装置を提供する。この装置は、
検索テキストと複数の画像を取得するための取得モジュールと、
検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、検索テキストと複数の画像との類似度を得るためのマッチングモジュールと、
検索テキストと複数の画像との類似度に基づき、検索テキストに対応するターゲット画像を決定するための決定モジュールとを含み、
ここで、マルチターゲット画像テキストマッチングモデルは、本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法によってトレーニングして得られたものである。

本開示の別の態様によれば、電子機器を提供する。この電子機器は、
少なくとも１つのプロセッサと、
この少なくとも１つのプロセッサに通信接続されたメモリとを含み、ここで、
このメモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、この命令は、この少なくとも１つのプロセッサが本開示のいずれか１つの実施例における方法を実行できるように、この少なくとも１つのプロセッサによって実行される。

本開示の別の態様によれば、本開示に記載のいずれか１つの実施例における方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。

本開示の別の態様によれば、プロセッサによって実行されると、本開示のいずれか１つの実施例における方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本開示は、マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置、電子機器と記憶媒体を提供する。複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる。各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。本開示の技術案は、サンプルテキスト及び対応するヒートマップによってマルチターゲット画像テキストマッチングモデルをトレーニングし、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決することができる。マルチターゲット画像テキストマッチングモデルを画像テキスト検索に用いることで、検索結果の正確性を向上させることができる。

理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって理解されやすくなる。

図面は、本解決手段をよりよく理解するためのものであり、本開示を限定するものではない。ここで、
本開示の一実施例におけるマルチターゲット画像テキストマッチングモデルのトレーニング方法のフローチャートである。本開示の一実施例におけるサンプルテキスト「イヌ」に対応するヒートマップである。本開示の一実施例におけるサンプルテキスト「ネコ」に対応するヒートマップである。本開示の一実施例における画像テキスト検索方法のフローチャートである。本開示の一実施例におけるオンライン検索方法の概略図である。本開示の一実施例におけるオンライン検索方法の概略図である。本開示の一実施例におけるマルチターゲット画像テキストマッチングモデルのトレーニング装置の概略図である。本開示の一実施例における画像テキスト検索装置の概略図である。本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法を実現するための電子機器のブロック図である。

以下、図面に合わせて本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細が含まれているが、それらは単なる例示的なものと見なされるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。

本開示の実施例は、マルチターゲット画像テキストマッチングモデルのトレーニング方法を提供する。図１は、本開示の一実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法のフローチャートであり、この方法はマルチターゲット画像テキストマッチングモデルのトレーニング装置に用いることができ、この装置は端末機器、サーバ又は他の処理機器に配備されてよい。いくつかの可能な実現形態において、この方法は、プロセッサでメモリに記憶されるコンピュータ可読命令を呼び出す方式によって実現されてもよい。図１に示すように、以下を含む。

ステップＳ１０１、複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる。

任意選択的に、ウェブサーチエンジン又はウェブクローラの方式によってテキスト及びテキストに対応する画像を取得して、サンプルテキスト及びサンプル画像としてよい。
ここで、サンプル画像には複数のターゲットが含まれてよい。例えば、１枚のサンプル画像にはネコの画像とイヌの画像が含まれてよく、このサンプル画像とサンプルテキスト「ネコ」とは１つのサンプルペアを構成し、このサンプル画像とサンプルテキスト「イヌ」とは１つのサンプルペアを構成する。

ステップＳ１０２、各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。

ここで、ヒートマップは、データを可視化した表現方式である。色変化の度合いによって、ホットスポットの分布や領域集合などのデータ情報を直感的に反映することができる。本開示の実施例において、ヒートマップによって、サンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。ヒートマップによって、マルチターゲット画像において語義のアライメントを実現し、サンプルテキストとサンプル画像におけるターゲットとを対応させることができる。

一例において、サンプルテキスト「イヌ」に対応するヒートマップは図２に示すとおりであり、図２において、イヌの画像の位置が色によって強調された。サンプルテキスト「ネコ」に対応するヒートマップは図３に示すとおりであり、図３において、ネコの画像の位置が色によって強調された。

ステップＳ１０３、複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。

サンプルテキスト及び対応するヒートマップをサンプルペアとし、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。関連技術において、画像に複数のターゲットが存在する時、画像テキストマッチングモデルにマルチターゲット混同の問題が発生しやすいが、マルチターゲット画像テキストマッチングモデルは、画像テキストマッチングモデルに比べ、出力結果の正確性がさらに高い。

本開示は、マルチターゲット画像テキストマッチングモデルのトレーニング方法を提供する。複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる。各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。本開示の技術案は、サンプルテキスト及び対応するヒートマップによってマルチターゲット画像テキストマッチングモデルをトレーニングし、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決することができる。マルチターゲット画像テキストマッチングモデルを画像テキスト検索に用いることで、検索結果の正確性を向上させることができる。

一可能な実現形態において、図１に示すＳ１０２、各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得することは、さらに、
予めトレーニングされた画像テキストマッチングモデルを取得することと、
各トレーニングサンプルに対し、画像テキストマッチングモデルとトレーニングサンプルに基づき、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることとを含む。

実際の応用において、画像テキストマッチングモデルを予めトレーニングしてよく、画像テキストマッチングモデルは、対照的テキスト－画像プリトレーニングモデル（ＣｏｎｔｒａｓｔｉｖｅＬａｎｇｕａｇｅ－ＩｍａｇｅＰｒｅ－ｔｒａｉｎｉｎｇ、ＣＬＩＰ）であってよい。ＣＬＩＰモデル構造は、１つのテキストコーディングモジュール（ｔｅｘｔｅｎｃｏｄｅｒ）と１つの画像コーディングモジュール（ｉｍａｇｅｅｎｃｏｄｅｒ）とを含み、テキストと画像をそれぞれ特徴空間にマッピングする。画像テキストサンプルペアの画像特徴とテキスト特徴を取得した後、１つのバッチ（ｂａｔｃｈ）のサンプルにおけるすべての画像とテキストとの類似度マトリックスを計算し、画像のそれぞれと各テキストとの類似度のロス（ｌｏｓｓ）、及びテキストのそれぞれと各画像との類似度のロスをそれぞれ計算し、逆伝播してから、モデル全体に対して最適化を行って、最終的に画像テキストマッチングモデルを得る。画像テキストマッチングモデルによって、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることができる。

本開示の実施例において、予めトレーニングされた画像テキストマッチングモデルによって、各トレーニングサンプルのサンプルテキストに対応するヒートマップを得ることができる。

ここで、予めトレーニングされた画像テキストマッチングモデルによってヒートマップを得ることの実現過程は、以下の実施例のとおりである。
一可能な実現形態では、上記実施例における、各トレーニングサンプルに対し、画像テキストマッチングモデルとトレーニングサンプルに基づき、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることは、さらに、
各トレーニングサンプルに対し、トレーニングサンプルを画像テキストマッチングモデルに入力して、トレーニングサンプルに対応する類似度と勾配を得ることと、トレーニングサンプルに対応する類似度と勾配に基づき、トレーニングサンプルにおけるサンプル画像に対して処理を行って、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることとを含む。

実際の応用において、トレーニングサンプルを画像テキストマッチングモデルに入力することによって、画像テキストマッチングモデルから出力された各トレーニングサンプルに対応する類似度と勾配を得、類似度と勾配によりサンプル画像に対して処理を行うことによって、サンプルテキストに対応するヒートマップを得ることができる。任意選択的に、勾配重み付きクラス活性化マッピング（ｇｒａｄｉｅｎｔ－ｗｅｉｇｈｔｅｄｃｌａｓｓａｃｔｉｖａｔｉｏｎｍａｐｐｉｎｇ、Ｇｒａｄ－Ｃａｍ）方法によってヒートマップを生成してよい。Ｇｒａｄ－Ｃａｍ方法により、異なるサンプルテキストに対し、サンプル画像における応答領域が異なっており、それによって異なるヒートマップを生成することができる。

本開示の実施例において、トレーニングサンプルに対応する類似度と勾配に基づき、サンプルテキストに対応するヒートマップを生成する。ヒートマップのエネルギー領域に対して切り取りを行うことによって、バックグラウンド及び他のターゲットによる干渉を大幅に低減することができ、それによってより正確な画像テキストペアを生成する。

一可能な実現形態において、図１に示すＳ１０３、複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得ることは、さらに、
予めトレーニングされた画像テキストマッチングモデルを取得することと、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルのモデルパラメータを調整して、マルチターゲット画像テキストマッチングモデルを得ることとを含む。

実際の応用において、複数のサンプルテキスト及び対応するヒートマップに基づき、予めトレーニングされた画像テキストマッチングモデルのモデルパラメータに対して微調整（ＦｉｎｅＴｕｎｅ）を行うことによって、マルチターゲット画像テキストマッチングモデルを得る。

本開示の実施例において、予めトレーニングされた画像テキストマッチングモデルのモデルパラメータに対して微調整を行うことは、モデルを初めからトレーニングすることに比べて、微調整により計算リソース及び計算時間を節約し、計算効率及び計算結果の正解率を高めることができる。

一可能な実現形態では、上記実施例における画像テキストマッチングモデルは、予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールとを含む。

本開示の実施例において、画像テキストマッチングモデルの構成部分として予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールを採用することで、モデルの収束速度を速め、モデルの効果を向上させることができる。

本開示の実施例は、画像テキスト検索方法を提供する。図４は、本開示の一実施例による画像テキスト検索方法のフローチャートであり、この方法は画像テキスト検索装置に用いることができ、この装置はサーバ又は他の処理機器に配備されてよい。いくつかの可能な実現形態において、この方法は、プロセッサでメモリに記憶されるコンピュータ可読命令を呼び出す方式によって実現されてもよい。図４に示すように、以下のステップを含む。

ステップＳ４０１、検索テキストと複数の画像を取得する。
本開示の実施例において、実行主体はサーバであってよい。ここで、検索テキストは、サーバが受信した、端末機器から送信されたテキストであってよく、複数の画像は、予め構築された画像テキスト検索データベースにおける画像であってよい。画像テキスト検索データベースは、複数の画像とテキストからなる画像テキストペアに基づいて予め構築したデータベースであってよい。

ステップＳ４０２、検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力し、検索テキストと複数の画像との類似度を得る。
ここで、マルチターゲット画像テキストマッチングモデルは、本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法によってトレーニングして得られたものである。検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力し、マルチターゲット画像テキストマッチングモデルは検索テキストと各画像との類似度を出力する。

ステップＳ４０３、検索テキストと複数の画像との類似度に基づき、検索テキストに対応するターゲット画像を決定する。
検索テキストと各画像との類似度に基づきスクリーニングを行い、予め設定された閾値を超える類似度に対応する画像を、検索テキストに対応するターゲット画像とする。

本開示の実施例による画像テキスト検索方法は、予めトレーニングされたマルチターゲット画像テキストマッチングモデルを採用して類似度を計算することにより、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決し、検索結果の正確性を向上させることができる。

一可能な実現形態において、図４に示すＳ４０１において、複数の画像を取得することの後、さらに、
マルチターゲット画像テキストマッチングモデルの画像コーディングモジュールによって複数の画像における各画像の画像特徴を抽出し、各画像の画像特徴を分類して、複数種類の画像を得て記憶することを含む。

実際の応用において、マルチターゲット画像テキストマッチングモデルは画像コーディングモジュールを含んでよく、複数の画像を取得した後、画像コーディングモジュールによって複数の画像における各画像の画像特徴を抽出して分類し、画像及び所属種類に対してインデックスを作成し、かつ予め設定された記憶空間に記憶することができる。サーバが検索テキストを受信すると、インデックス及び検索テキストに基づき画像テキスト検索を行う。

本開示の実施例において、画像に対して予め特徴を抽出し、かつ分類して記憶することにより、検索速度を高め、オンライン検索の需要を満たすことができる。
一可能な実現形態において、図４に示すＳ４０２において、検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、検索テキストと複数の画像との類似度を得ることは、さらに、
マルチターゲット画像テキストマッチングモデルのテキストコーディングモジュールによって検索テキストのテキスト特徴を抽出することと、
複数種類の画像において、検索テキストに対応するターゲット種類の画像を決定することと、
マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、検索テキストとターゲット種類の画像における各画像との類似度を得ることとを含む。

実際の応用において、マルチターゲット画像テキストマッチングモデルは、テキストコーディングモジュールと類似度決定モジュールをさらに含んでよく、画像テキスト検索を行う時、テキストコーディングモジュールによって検索テキストのテキスト特徴を抽出してから、検索テキストを対応する画像の種類にマッチングさせ、マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、検索テキストとターゲット種類の画像における各画像との類似度を計算する。

本開示の実施例において、検索テキストに対応するターゲット種類の画像を決定し、検索テキストとターゲット種類の画像との類似度を計算することによって、検索テキストとすべての画像との類似度を計算することによる時間の浪費を回避し、オンライン検索の速度を向上させる。

図５は、本開示の一実施例におけるオンライン検索方法の概略図である。マルチターゲット画像テキストマッチングモデルは、テキストコーディングモジュールと、画像コーディングモジュールと、類似度決定モジュールとを含む。複数の画像を取得し、かつ画像コーディングモジュールによって画像特徴を抽出し、複数の画像に対して分類（図示されるｑｕａｎｔｉｚｅｒ）を行い，複数種類（図示されるｉ、ｊ…ｚ）を得、インデックス（図示されるｉｎｄｅｘｉｎｇ）を作成し、転置インデックスリスト（図示されるｉｎｖｅｒｔｅｄｌｉｓｔｉ、ｉｎｖｅｒｔｅｄｌｉｓｔｊ…ｉｎｖｅｒｔｅｄｌｉｓｔｚ）を得、画像特徴ｙは種類ｊに属し、転置インデックスリストｉｎｖｅｒｔｅｄｌｉｓｔｊは画像特徴ｙのＩＤを記録する。テキストコーディングモジュールによってテキスト特徴を抽出し、検索テキスト（図示されるｑｕｅｒｙ）のテキスト特徴ｘを得、テキスト特徴ｘに対応する画像種類がｚであると決定し、類似度決定モジュールによってテキスト特徴ｘと画像種類ｚにおける各画像との類似度を計算し、類似度が予め設定された位置よりも前である画像を、検索テキストに対応するターゲット画像集合（図示されるｃａｌｕｌａｔｅｓｉｍｉｌａｒｉｔｙａｎｄｓｅｌｅｃｔｔｏｐｋ）とする。

図６は、本開示の一実施例におけるオンライン検索方法の概略図である。図に示すように、第１に、画像テキスト関係キャッチである。具体的には、ウェブクローラ方式によって画像とテキストを取得し、複数の画像テキスト関係ペアを得てトレーニングサンプルセットとする。

第２に、モデルトレーニングである。具体的には、トレーニングサンプルセットを利用して初期モデルをトレーニングし、画像テキストマッチングモデルを得る。
第３に、マルチターゲット語義のアライメントである。具体的には、マルチターゲット画像テキストマッチングモデルの複数のトレーニングサンプルを取得し、各トレーニングサンプルにはサンプル画像とサンプルテキストが含まれ、サンプル画像には複数のターゲットが含まれる。トレーニングサンプルを画像テキストマッチングモデルに入力し、画像テキストマッチングモデルから出力された勾配と類似度に基づき、サンプルテキストに対応するヒートマップを得る。

第４に、マルチモーダルモデルである。サンプルテキスト及び対応するヒートマップを利用して画像テキストマッチングモデルのモデルパラメータを微調整し、マルチモーダルモデル、即ちマルチターゲット画像テキストマッチングモデルを得る。

第５に、オンラインテキスト検索である。具体的には、検索テキストをマルチモーダルモデルに入力する。全量ピクチャライブラリにおける各画像をマルチモーダルモデルに入力して、複数の画像特徴を得る。複数の画像特徴を分類し、かつインデックスを作成する。検索テキストに対応するターゲット種類の画像を決定し、検索テキスト及び対応するターゲット種類の画像に対して類似度の計算を行い、類似度が予め設定された条件を満たすターゲット画像を得て検索結果とし、出力する。

図７は、本開示の一実施例におけるマルチターゲット画像テキストマッチングモデルのトレーニング装置の概略図である。図７に示すように、マルチターゲット画像テキストマッチングモデルのトレーニング装置は、
複数のトレーニングサンプルを取得するための第１の取得モジュール７０１であって、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる第１の取得モジュール７０１と、
各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得するための第２の取得モジュール７０２であって、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける第２の取得モジュール７０２と、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得るためのモデルトレーニングモジュール７０３とを含んでよい。

本開示によるマルチターゲット画像テキストマッチングモデルのトレーニング装置は、複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる。各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。本開示の技術案は、サンプルテキスト及び対応するヒートマップによってマルチターゲット画像テキストマッチングモデルをトレーニングし、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決することができる。マルチターゲット画像テキストマッチングモデルを画像テキスト検索に用いることで、検索結果の正確性を向上させることができる。

一可能な実現形態において、図７に示す第２の取得モジュール７０２は、取得ユニットと決定ユニットとをさらに含む。
取得ユニットは、予めトレーニングされた画像テキストマッチングモデルを取得するためのものであり、
決定ユニットは、各トレーニングサンプルに対し、画像テキストマッチングモデルとトレーニングサンプルに基づき、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得るためのものである。

一可能な実現形態において、第２の取得モジュール７０２における決定ユニットは、具体的には、
各トレーニングサンプルに対し、トレーニングサンプルを画像テキストマッチングモデルに入力して、トレーニングサンプルに対応する類似度と勾配を得、トレーニングサンプルに対応する類似度と勾配に基づき、トレーニングサンプルにおけるサンプル画像に対して処理を行って、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得るためのものである。

一可能な実現形態において、図７に示すモデルトレーニングモジュール７０３は、具体的には、
予めトレーニングされた画像テキストマッチングモデルを取得し、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルのモデルパラメータを調整して、マルチターゲット画像テキストマッチングモデルを得るためのものである。

一可能な実現形態において、画像テキストマッチングモデルは、予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールとを含む。
本開示の実施例の各装置における各ユニット、モジュール、又はサブモジュールの機能は、上記マルチターゲット画像テキストマッチングモデルのトレーニング方法の実施例における対応説明を参照することができ、ここでは説明を省略する。

図８は、本開示の一実施例における画像テキスト検索装置の概略図である。図８に示すように、画像テキスト検索装置は、
検索テキストと複数の画像を取得するための取得モジュール８０１と、
検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、検索テキストと複数の画像との類似度を得るためのマッチングモジュール８０２と、
検索テキストと複数の画像との類似度に基づき、検索テキストに対応するターゲット画像を決定するための決定モジュール８０３とを含んでよく、
ここで、マルチターゲット画像テキストマッチングモデルは、本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法によってトレーニングして得られたものである。

本開示の実施例による画像テキスト検索装置は、予めトレーニングされたマルチターゲット画像テキストマッチングモデルを採用して類似度を計算することにより、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決し、検索結果の正確性を向上させることができる。

一可能な実現形態において、図８に示す画像テキスト検索装置は、
マルチターゲット画像テキストマッチングモデルの画像コーディングモジュールによって複数の画像における各画像の画像特徴を抽出し、各画像の画像特徴を分類して、複数種類の画像を得て記憶するための分類モジュールをさらに含む。

一可能な実現形態において、図８に示すマッチングモジュール８０２は、
マルチターゲット画像テキストマッチングモデルのテキストコーディングモジュールによって検索テキストのテキスト特徴を抽出し、
複数種類の画像において、検索テキストに対応するターゲット種類の画像を決定し、
マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、検索テキストとターゲット種類の画像における各画像との類似度を得るためのものである。

本開示の実施例の各装置における各ユニット、モジュール、又はサブモジュールの機能は、上記画像テキスト検索方法の実施例における対応説明を参照することができ、ここでは説明を省略する。

本開示の技術案において、関連するユーザ個人情報の取得、記憶と応用などは、すべて関連法律法規の規定に合致し、かつ公順良俗に違反しない。
本開示の別の態様によれば、電子機器を提供する。この電子機器は、
少なくとも１つのプロセッサと、
この少なくとも１つのプロセッサに通信接続されたメモリとを含み、ここで、
このメモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、この命令は、この少なくとも１つのプロセッサが本開示のいずれか１つの実施例における方法を実行できるように、この少なくとも１つのプロセッサによって実行される。

図９は、本開示の実施例を実施するための例示的な電子機器９００を示すブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器はさらに、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、スマートフォン、着用可能なデバイスとその他の類似する計算装置を表すことができる。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び／又は請求した本開示の実現を制限することを意図するものではない。

図９に示すように、機器９００は、計算ユニット９０１を含み、それはリードオンリーメモリ（ＲＯＭ）９０２に記憶されるコンピュータプログラム又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。ＲＡＭ９０３において、機器９００を操作するために必要な様々なプログラムと情報をさらに記憶することができる。計算ユニット９０１、ＲＯＭ９０２及びＲＡＭ９０３は、バス９０４によって互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース９０５もバス９０４に接続される。

機器９００における複数の部品はＩ／Ｏインターフェース９０５に接続され、この複数の部品は、例えばキーボード、マウスなどの入力ユニット９０６と、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット９０７と、例えば磁気ディスク、光ディスクなどの記憶ユニット９０８と、例えばネットワークカード、モデム、無線通信送受信機などの通信ユニット９０９とを含む。通信ユニット９０９は、機器９００が例えばインターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット９０１は処理及び計算能力を有する様々な汎用及び／又は専用の処理コンポーネントであってよい。計算ユニット９０１の例は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット９０１は、以上で説明される各方法と処理、例えば本開示の実施例におけるいずれかの方法を実行する。例えば、いくつかの実施例において、本開示の実施例における方法は、コンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット９０８に有形に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介して機器９００にロード及び／又はインストールされてよい。コンピュータプログラムがＲＡＭ９０３にロードされて計算ユニット９０１によって実行される時、以上で説明される方法の１つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット９０１は他のいかなる適切な方式で（例えば、ファームウェアにより）本開示の実施例における方法を実行するように構成されてよい。

本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、ロードプログラマブル論理デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は以下を含んでよい。１つ又は複数のコンピュータプログラムに実施され、この１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈してよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置から情報と命令を受信し、情報と命令をこの記憶システム、この少なくとも１つの入力装置、この少なくとも１つの出力装置に送信することが可能である。

本開示の方法を実施するプログラムコードは１つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブル情報処理装置のプロセッサ又はコントローラに提供されてよく、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び／又はブロック図に規定される機能／操作は実施される。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行しかつ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

本開示の文脈において、機械可読媒体は有形の媒体であってよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）と、キーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置はさらに、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、情報サーバ）や、ミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部品を含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインターフェース又はこのウェブブラウザを通じて、ここで説明したシステム及び技術の実施形態とのインタラクティブを実現できる）や、このようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含む計算システムで実施されてよい。システムの部品は、任意の形態又は媒体のデジタル情報通信（例えば、通信ネットワーク）により相互に接続されてよい。通信ネットワークの例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）とインターネットを含む。

コンピュータシステムは、クライアントとサーバを含んでよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント－サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアントとサーバの関係を生成する。サーバーは、クラウドサーバであってもよく、分散型システムのサーバ又はブロックチェーンを組み込んだサーバであってもよい。

理解すべきこととして、以上に示した様々な形態のフローを用いて、改めて順位付け、ステップを追加又は削除することができる。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されない。

上述した具体的な実施形態は、本開示特許請求の範囲を限定するものではない。当業者が理解すべきこととして、設計要求と他の要因に基づき、様々な修正、組み合わせ、一部の組み合わせと代替を行うことができることである。本開示の精神及び原則から逸脱することなく行われるいかなる修正、同等物による置換や改良などは、いずれも本開示の保護範囲に含まれるものである。

Claims

マルチターゲット画像テキストマッチングモデルのトレーニング方法であって、
複数のトレーニングサンプルを取得し、前記トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、前記サンプル画像には複数のターゲットが含まれることと、
各トレーニングサンプルに対し、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、前記ヒートマップは前記サンプルテキストと前記サンプル画像におけるターゲットと対応する領域を特徴付けることと、
複数の前記サンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得ることとを含む、マルチターゲット画像テキストマッチングモデルのトレーニング方法。
前記の、各トレーニングサンプルに対し、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得することは、
予めトレーニングされた画像テキストマッチングモデルを取得することと、
各トレーニングサンプルに対し、前記画像テキストマッチングモデルと前記トレーニングサンプルに基づき、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることとを含む、請求項１に記載の方法。
前記の、各トレーニングサンプルに対し、前記画像テキストマッチングモデルと前記トレーニングサンプルに基づき、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることは、
各トレーニングサンプルに対し、前記トレーニングサンプルを前記画像テキストマッチングモデルに入力して、前記トレーニングサンプルに対応する類似度と勾配を得ることと、前記トレーニングサンプルに対応する類似度と勾配に基づき、前記トレーニングサンプルにおけるサンプル画像に対して処理を行って、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることとを含む、請求項２に記載の方法。
前記の、複数の前記サンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得ることは、
予めトレーニングされた画像テキストマッチングモデルを取得することと、
複数の前記サンプルテキスト及び対応するヒートマップに基づき、前記画像テキストマッチングモデルのモデルパラメータを調整して、マルチターゲット画像テキストマッチングモデルを得ることとを含む、請求項１に記載の方法。
前記画像テキストマッチングモデルは、予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールとを含む、請求項１に記載の方法。
画像テキスト検索方法であって、
検索テキストと複数の画像を取得することと、
前記検索テキストと前記複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、前記検索テキストと前記複数の画像との類似度を得ることと、
前記検索テキストと前記複数の画像との類似度に基づき、前記検索テキストに対応するターゲット画像を決定することとを含み、
ここで、前記マルチターゲット画像テキストマッチングモデルは、請求項１～５のいずれか１項に記載の方法に基づいてトレーニングして得られたものである、画像テキスト検索方法。
複数の画像を取得することの後、前記方法は、
前記マルチターゲット画像テキストマッチングモデルの画像コーディングモジュールによって前記複数の画像における各画像の画像特徴を抽出し、各画像の画像特徴を分類して、複数種類の画像を得て記憶することをさらに含む、請求項６に記載の方法。
前記の、前記検索テキストと前記複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、前記検索テキストと前記複数の画像との類似度を得ることは、
前記マルチターゲット画像テキストマッチングモデルのテキストコーディングモジュールによって前記検索テキストのテキスト特徴を抽出することと、
前記複数種類の画像において、前記検索テキストに対応するターゲット種類の画像を決定することと、
前記マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、前記検索テキストと前記ターゲット種類の画像における各画像との類似度を得ることとを含む、請求項７に記載の方法。
マルチターゲット画像テキストマッチングモデルのトレーニング装置であって、
複数のトレーニングサンプルを取得するための第１の取得モジュールであって、前記トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、前記サンプル画像には複数のターゲットが含まれる第１の取得モジュールと、
各トレーニングサンプルに対し、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得するための第２の取得モジュールであって、前記ヒートマップは前記サンプルテキストと前記サンプル画像におけるターゲットと対応する領域を特徴付ける第２の取得モジュールと、
複数の前記サンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得るためのモデルトレーニングモジュールとを含む、マルチターゲット画像テキストマッチングモデルのトレーニング装置。
前記第２の取得モジュールは、取得ユニットと決定ユニットとを含み、
前記取得ユニットは、予めトレーニングされた画像テキストマッチングモデルを取得するためのものであり、
前記決定ユニットは、各トレーニングサンプルに対し、前記画像テキストマッチングモデルと前記トレーニングサンプルに基づき、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得るためのものである、請求項９に記載の装置。
前記決定ユニットは、具体的には、
各トレーニングサンプルに対し、前記トレーニングサンプルを前記画像テキストマッチングモデルに入力して、前記トレーニングサンプルに対応する類似度と勾配を得て、前記トレーニングサンプルに対応する類似度と勾配に基づき、前記トレーニングサンプルにおけるサンプル画像に対して処理を行って、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得るためのものである、請求項１０に記載の装置。
前記モデルトレーニングモジュールは、具体的には、
予めトレーニングされた画像テキストマッチングモデルを取得し、
複数の前記サンプルテキスト及び対応するヒートマップに基づき、前記画像テキストマッチングモデルのモデルパラメータを調整して、マルチターゲット画像テキストマッチングモデルを得るためのものである、請求項９に記載の装置。
前記画像テキストマッチングモデルは、予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールとを含む、請求項９に記載の装置。
画像テキスト検索装置であって、
検索テキストと複数の画像を取得するための取得モジュールと、
前記検索テキストと前記複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、前記検索テキストと前記複数の画像との類似度を得るためのマッチングモジュールと、
前記検索テキストと前記複数の画像との類似度に基づき、前記検索テキストに対応するターゲット画像を決定するための決定モジュールとを含み、
ここで、前記マルチターゲット画像テキストマッチングモデルは、請求項１～５のいずれか１項に記載の方法に基づいてトレーニングして得られたものである、画像テキスト検索装置。
前記マルチターゲット画像テキストマッチングモデルの画像コーディングモジュールによって前記複数の画像における各画像の画像特徴を抽出し、各画像の画像特徴を分類して、複数種類の画像を得て記憶するための分類モジュールをさらに含む、請求項１４に記載の装置。
前記マッチングモジュールは、
前記マルチターゲット画像テキストマッチングモデルのテキストコーディングモジュールによって前記検索テキストのテキスト特徴を抽出し、
前記複数種類の画像において、前記検索テキストに対応するターゲット種類の画像を決定し、
前記マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、前記検索テキストと前記ターゲット種類の画像における各画像との類似度を得るためのものである、請求項１５に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに請求項１～８のいずれか１項に記載の方法を実行させる、ことを特徴とする電子機器。
コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～８のいずれか１項に記載の方法を実行させるためのものである、ことを特徴とするコンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～８のいずれか１項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。