JP2022191412A - マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置 - Google Patents

マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置 Download PDF

Info

Publication number
JP2022191412A
JP2022191412A JP2022165363A JP2022165363A JP2022191412A JP 2022191412 A JP2022191412 A JP 2022191412A JP 2022165363 A JP2022165363 A JP 2022165363A JP 2022165363 A JP2022165363 A JP 2022165363A JP 2022191412 A JP2022191412 A JP 2022191412A
Authority
JP
Japan
Prior art keywords
text
image
sample
matching model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022165363A
Other languages
English (en)
Other versions
JP7403605B2 (ja
Inventor
ユアン・フェン
Yuan Feng
ジュン・スン
Jun Son
ホーンフイ・ジョン
Honghui Zheng
イーン・シン
Ying Xin
ビン・ジャーン
Zhang Bin
チャオ・リー
Chao Li
ユンハオ・ワーン
Yunhao Wang
シュミン・ハン
Shumin Han
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022191412A publication Critical patent/JP2022191412A/ja
Application granted granted Critical
Publication of JP7403605B2 publication Critical patent/JP7403605B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Abstract

Figure 2022191412000001
【課題】クロスモーダル情報検索に対して、画像に複数のターゲットが存在する時、マルチターゲット混同により計算結果が不正確であるという問題を解決し、検索結果の正確性を向上させることができるマルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法及び装置を提供する。
【解決手段】方法は、複数のターゲットが含まれるサンプル画像とサンプルテキストからなる複数のトレーニングサンプルを取得し、各トレーニングサンプルに対して、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。
【選択図】図1

Description

本開示は、人工知能技術分野に関し、特に深層学習、画像認識の技術分野に関する。
インターネットの普及が進むにつれて、マルチメディアデータは爆発的に増加している。この大規模なマルチメディアデータをどのように効率的に整理、管理、検索するかは、現在、人気課題となっている。マルチメディアデータは、テキスト、画像などのマルチモーダル情報が異種の特徴空間にあるため、それらの間の関連関係が複雑で多様であり、どのようにクロスモーダル情報検索を実現するかは、解決すべき課題となっている。
現在、クロスモーダル情報検索に対して、画像に複数のターゲットが存在する時、マルチターゲット混同の問題が発生しやすく、検索結果の正確性に影響を与える。
本開示は、マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置を提供する。
本開示の一態様によれば、マルチターゲット画像テキストマッチングモデルのトレーニング方法を提供する。この方法は、
複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれることと、
各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付けることと、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得ることとを含む。
本開示の別の態様によれば、画像テキスト検索方法を提供する。この方法は、
検索テキストと複数の画像を取得することと、
検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力し、検索テキストと複数の画像との類似度を得ることと、
検索テキストと複数の画像との類似度に基づき、検索テキストに対応するターゲット画像を決定することとを含み、
ここで、マルチターゲット画像テキストマッチングモデルは、本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法によってトレーニングして得られたものである。
本開示の別の態様によれば、マルチターゲット画像テキストマッチングモデルのトレーニング装置を提供する。この装置は、
複数のトレーニングサンプルを取得するための第1の取得モジュールであって、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる第1の取得モジュールと、
各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得するための第2の取得モジュールであって、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける第2の取得モジュールと、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得るためのモデルトレーニングモジュールとを含む。
本開示の別の態様によれば、画像テキスト検索装置を提供する。この装置は、
検索テキストと複数の画像を取得するための取得モジュールと、
検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、検索テキストと複数の画像との類似度を得るためのマッチングモジュールと、
検索テキストと複数の画像との類似度に基づき、検索テキストに対応するターゲット画像を決定するための決定モジュールとを含み、
ここで、マルチターゲット画像テキストマッチングモデルは、本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法によってトレーニングして得られたものである。
本開示の別の態様によれば、電子機器を提供する。この電子機器は、
少なくとも1つのプロセッサと、
この少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
このメモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、この命令は、この少なくとも1つのプロセッサが本開示のいずれか1つの実施例における方法を実行できるように、この少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、本開示に記載のいずれか1つの実施例における方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。
本開示の別の態様によれば、プロセッサによって実行されると、本開示のいずれか1つの実施例における方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本開示は、マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置、電子機器と記憶媒体を提供する。複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる。各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。本開示の技術案は、サンプルテキスト及び対応するヒートマップによってマルチターゲット画像テキストマッチングモデルをトレーニングし、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決することができる。マルチターゲット画像テキストマッチングモデルを画像テキスト検索に用いることで、検索結果の正確性を向上させることができる。
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって理解されやすくなる。
図面は、本解決手段をよりよく理解するためのものであり、本開示を限定するものではない。ここで、
本開示の一実施例におけるマルチターゲット画像テキストマッチングモデルのトレーニング方法のフローチャートである。 本開示の一実施例におけるサンプルテキスト「イヌ」に対応するヒートマップである。 本開示の一実施例におけるサンプルテキスト「ネコ」に対応するヒートマップである。 本開示の一実施例における画像テキスト検索方法のフローチャートである。 本開示の一実施例におけるオンライン検索方法の概略図である。 本開示の一実施例におけるオンライン検索方法の概略図である。 本開示の一実施例におけるマルチターゲット画像テキストマッチングモデルのトレーニング装置の概略図である。 本開示の一実施例における画像テキスト検索装置の概略図である。 本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法を実現するための電子機器のブロック図である。
以下、図面に合わせて本開示の例示的な実施例を説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細が含まれているが、それらは単なる例示的なものと見なされるべきである。したがって、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能及び構造についての説明を省略している。
本開示の実施例は、マルチターゲット画像テキストマッチングモデルのトレーニング方法を提供する。図1は、本開示の一実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法のフローチャートであり、この方法はマルチターゲット画像テキストマッチングモデルのトレーニング装置に用いることができ、この装置は端末機器、サーバ又は他の処理機器に配備されてよい。いくつかの可能な実現形態において、この方法は、プロセッサでメモリに記憶されるコンピュータ可読命令を呼び出す方式によって実現されてもよい。図1に示すように、以下を含む。
ステップS101、複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる。
任意選択的に、ウェブサーチエンジン又はウェブクローラの方式によってテキスト及びテキストに対応する画像を取得して、サンプルテキスト及びサンプル画像としてよい。
ここで、サンプル画像には複数のターゲットが含まれてよい。例えば、1枚のサンプル画像にはネコの画像とイヌの画像が含まれてよく、このサンプル画像とサンプルテキスト「ネコ」とは1つのサンプルペアを構成し、このサンプル画像とサンプルテキスト「イヌ」とは1つのサンプルペアを構成する。
ステップS102、各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。
ここで、ヒートマップは、データを可視化した表現方式である。色変化の度合いによって、ホットスポットの分布や領域集合などのデータ情報を直感的に反映することができる。本開示の実施例において、ヒートマップによって、サンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。ヒートマップによって、マルチターゲット画像において語義のアライメントを実現し、サンプルテキストとサンプル画像におけるターゲットとを対応させることができる。
一例において、サンプルテキスト「イヌ」に対応するヒートマップは図2に示すとおりであり、図2において、イヌの画像の位置が色によって強調された。サンプルテキスト「ネコ」に対応するヒートマップは図3に示すとおりであり、図3において、ネコの画像の位置が色によって強調された。
ステップS103、複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。
サンプルテキスト及び対応するヒートマップをサンプルペアとし、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。関連技術において、画像に複数のターゲットが存在する時、画像テキストマッチングモデルにマルチターゲット混同の問題が発生しやすいが、マルチターゲット画像テキストマッチングモデルは、画像テキストマッチングモデルに比べ、出力結果の正確性がさらに高い。
本開示は、マルチターゲット画像テキストマッチングモデルのトレーニング方法を提供する。複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる。各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。本開示の技術案は、サンプルテキスト及び対応するヒートマップによってマルチターゲット画像テキストマッチングモデルをトレーニングし、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決することができる。マルチターゲット画像テキストマッチングモデルを画像テキスト検索に用いることで、検索結果の正確性を向上させることができる。
一可能な実現形態において、図1に示すS102、各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得することは、さらに、
予めトレーニングされた画像テキストマッチングモデルを取得することと、
各トレーニングサンプルに対し、画像テキストマッチングモデルとトレーニングサンプルに基づき、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることとを含む。
実際の応用において、画像テキストマッチングモデルを予めトレーニングしてよく、画像テキストマッチングモデルは、対照的テキスト-画像プリトレーニングモデル(Contrastive Language-Image Pre-training、CLIP)であってよい。CLIPモデル構造は、1つのテキストコーディングモジュール(text encoder)と1つの画像コーディングモジュール(image encoder)とを含み、テキストと画像をそれぞれ特徴空間にマッピングする。画像テキストサンプルペアの画像特徴とテキスト特徴を取得した後、1つのバッチ(batch)のサンプルにおけるすべての画像とテキストとの類似度マトリックスを計算し、画像のそれぞれと各テキストとの類似度のロス(loss)、及びテキストのそれぞれと各画像との類似度のロスをそれぞれ計算し、逆伝播してから、モデル全体に対して最適化を行って、最終的に画像テキストマッチングモデルを得る。画像テキストマッチングモデルによって、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることができる。
本開示の実施例において、予めトレーニングされた画像テキストマッチングモデルによって、各トレーニングサンプルのサンプルテキストに対応するヒートマップを得ることができる。
ここで、予めトレーニングされた画像テキストマッチングモデルによってヒートマップを得ることの実現過程は、以下の実施例のとおりである。
一可能な実現形態では、上記実施例における、各トレーニングサンプルに対し、画像テキストマッチングモデルとトレーニングサンプルに基づき、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることは、さらに、
各トレーニングサンプルに対し、トレーニングサンプルを画像テキストマッチングモデルに入力して、トレーニングサンプルに対応する類似度と勾配を得ることと、トレーニングサンプルに対応する類似度と勾配に基づき、トレーニングサンプルにおけるサンプル画像に対して処理を行って、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることとを含む。
実際の応用において、トレーニングサンプルを画像テキストマッチングモデルに入力することによって、画像テキストマッチングモデルから出力された各トレーニングサンプルに対応する類似度と勾配を得、類似度と勾配によりサンプル画像に対して処理を行うことによって、サンプルテキストに対応するヒートマップを得ることができる。任意選択的に、勾配重み付きクラス活性化マッピング(gradient-weighted class activation mapping、Grad-Cam)方法によってヒートマップを生成してよい。Grad-Cam方法により、異なるサンプルテキストに対し、サンプル画像における応答領域が異なっており、それによって異なるヒートマップを生成することができる。
本開示の実施例において、トレーニングサンプルに対応する類似度と勾配に基づき、サンプルテキストに対応するヒートマップを生成する。ヒートマップのエネルギー領域に対して切り取りを行うことによって、バックグラウンド及び他のターゲットによる干渉を大幅に低減することができ、それによってより正確な画像テキストペアを生成する。
一可能な実現形態において、図1に示すS103、複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得ることは、さらに、
予めトレーニングされた画像テキストマッチングモデルを取得することと、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルのモデルパラメータを調整して、マルチターゲット画像テキストマッチングモデルを得ることとを含む。
実際の応用において、複数のサンプルテキスト及び対応するヒートマップに基づき、予めトレーニングされた画像テキストマッチングモデルのモデルパラメータに対して微調整(Fine Tune)を行うことによって、マルチターゲット画像テキストマッチングモデルを得る。
本開示の実施例において、予めトレーニングされた画像テキストマッチングモデルのモデルパラメータに対して微調整を行うことは、モデルを初めからトレーニングすることに比べて、微調整により計算リソース及び計算時間を節約し、計算効率及び計算結果の正解率を高めることができる。
一可能な実現形態では、上記実施例における画像テキストマッチングモデルは、予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールとを含む。
本開示の実施例において、画像テキストマッチングモデルの構成部分として予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールを採用することで、モデルの収束速度を速め、モデルの効果を向上させることができる。
本開示の実施例は、画像テキスト検索方法を提供する。図4は、本開示の一実施例による画像テキスト検索方法のフローチャートであり、この方法は画像テキスト検索装置に用いることができ、この装置はサーバ又は他の処理機器に配備されてよい。いくつかの可能な実現形態において、この方法は、プロセッサでメモリに記憶されるコンピュータ可読命令を呼び出す方式によって実現されてもよい。図4に示すように、以下のステップを含む。
ステップS401、検索テキストと複数の画像を取得する。
本開示の実施例において、実行主体はサーバであってよい。ここで、検索テキストは、サーバが受信した、端末機器から送信されたテキストであってよく、複数の画像は、予め構築された画像テキスト検索データベースにおける画像であってよい。画像テキスト検索データベースは、複数の画像とテキストからなる画像テキストペアに基づいて予め構築したデータベースであってよい。
ステップS402、検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力し、検索テキストと複数の画像との類似度を得る。
ここで、マルチターゲット画像テキストマッチングモデルは、本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法によってトレーニングして得られたものである。検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力し、マルチターゲット画像テキストマッチングモデルは検索テキストと各画像との類似度を出力する。
ステップS403、検索テキストと複数の画像との類似度に基づき、検索テキストに対応するターゲット画像を決定する。
検索テキストと各画像との類似度に基づきスクリーニングを行い、予め設定された閾値を超える類似度に対応する画像を、検索テキストに対応するターゲット画像とする。
本開示の実施例による画像テキスト検索方法は、予めトレーニングされたマルチターゲット画像テキストマッチングモデルを採用して類似度を計算することにより、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決し、検索結果の正確性を向上させることができる。
一可能な実現形態において、図4に示すS401において、複数の画像を取得することの後、さらに、
マルチターゲット画像テキストマッチングモデルの画像コーディングモジュールによって複数の画像における各画像の画像特徴を抽出し、各画像の画像特徴を分類して、複数種類の画像を得て記憶することを含む。
実際の応用において、マルチターゲット画像テキストマッチングモデルは画像コーディングモジュールを含んでよく、複数の画像を取得した後、画像コーディングモジュールによって複数の画像における各画像の画像特徴を抽出して分類し、画像及び所属種類に対してインデックスを作成し、かつ予め設定された記憶空間に記憶することができる。サーバが検索テキストを受信すると、インデックス及び検索テキストに基づき画像テキスト検索を行う。
本開示の実施例において、画像に対して予め特徴を抽出し、かつ分類して記憶することにより、検索速度を高め、オンライン検索の需要を満たすことができる。
一可能な実現形態において、図4に示すS402において、検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、検索テキストと複数の画像との類似度を得ることは、さらに、
マルチターゲット画像テキストマッチングモデルのテキストコーディングモジュールによって検索テキストのテキスト特徴を抽出することと、
複数種類の画像において、検索テキストに対応するターゲット種類の画像を決定することと、
マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、検索テキストとターゲット種類の画像における各画像との類似度を得ることとを含む。
実際の応用において、マルチターゲット画像テキストマッチングモデルは、テキストコーディングモジュールと類似度決定モジュールをさらに含んでよく、画像テキスト検索を行う時、テキストコーディングモジュールによって検索テキストのテキスト特徴を抽出してから、検索テキストを対応する画像の種類にマッチングさせ、マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、検索テキストとターゲット種類の画像における各画像との類似度を計算する。
本開示の実施例において、検索テキストに対応するターゲット種類の画像を決定し、検索テキストとターゲット種類の画像との類似度を計算することによって、検索テキストとすべての画像との類似度を計算することによる時間の浪費を回避し、オンライン検索の速度を向上させる。
図5は、本開示の一実施例におけるオンライン検索方法の概略図である。マルチターゲット画像テキストマッチングモデルは、テキストコーディングモジュールと、画像コーディングモジュールと、類似度決定モジュールとを含む。複数の画像を取得し、かつ画像コーディングモジュールによって画像特徴を抽出し、複数の画像に対して分類(図示されるquantizer)を行い,複数種類(図示されるi、j…z)を得、インデックス(図示されるindexing)を作成し、転置インデックスリスト(図示されるinverted list i、inverted list j…inverted list z)を得、画像特徴yは種類jに属し、転置インデックスリストinverted list jは画像特徴yのIDを記録する。テキストコーディングモジュールによってテキスト特徴を抽出し、検索テキスト(図示されるquery)のテキスト特徴xを得、テキスト特徴xに対応する画像種類がzであると決定し、類似度決定モジュールによってテキスト特徴xと画像種類zにおける各画像との類似度を計算し、類似度が予め設定された位置よりも前である画像を、検索テキストに対応するターゲット画像集合(図示されるcalulate similarity and select top k)とする。
図6は、本開示の一実施例におけるオンライン検索方法の概略図である。図に示すように、第1に、画像テキスト関係キャッチである。具体的には、ウェブクローラ方式によって画像とテキストを取得し、複数の画像テキスト関係ペアを得てトレーニングサンプルセットとする。
第2に、モデルトレーニングである。具体的には、トレーニングサンプルセットを利用して初期モデルをトレーニングし、画像テキストマッチングモデルを得る。
第3に、マルチターゲット語義のアライメントである。具体的には、マルチターゲット画像テキストマッチングモデルの複数のトレーニングサンプルを取得し、各トレーニングサンプルにはサンプル画像とサンプルテキストが含まれ、サンプル画像には複数のターゲットが含まれる。トレーニングサンプルを画像テキストマッチングモデルに入力し、画像テキストマッチングモデルから出力された勾配と類似度に基づき、サンプルテキストに対応するヒートマップを得る。
第4に、マルチモーダルモデルである。サンプルテキスト及び対応するヒートマップを利用して画像テキストマッチングモデルのモデルパラメータを微調整し、マルチモーダルモデル、即ちマルチターゲット画像テキストマッチングモデルを得る。
第5に、オンラインテキスト検索である。具体的には、検索テキストをマルチモーダルモデルに入力する。全量ピクチャライブラリにおける各画像をマルチモーダルモデルに入力して、複数の画像特徴を得る。複数の画像特徴を分類し、かつインデックスを作成する。検索テキストに対応するターゲット種類の画像を決定し、検索テキスト及び対応するターゲット種類の画像に対して類似度の計算を行い、類似度が予め設定された条件を満たすターゲット画像を得て検索結果とし、出力する。
図7は、本開示の一実施例におけるマルチターゲット画像テキストマッチングモデルのトレーニング装置の概略図である。図7に示すように、マルチターゲット画像テキストマッチングモデルのトレーニング装置は、
複数のトレーニングサンプルを取得するための第1の取得モジュール701であって、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる第1の取得モジュール701と、
各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得するための第2の取得モジュール702であって、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける第2の取得モジュール702と、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得るためのモデルトレーニングモジュール703とを含んでよい。
本開示によるマルチターゲット画像テキストマッチングモデルのトレーニング装置は、複数のトレーニングサンプルを取得し、トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、サンプル画像には複数のターゲットが含まれる。各トレーニングサンプルに対し、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、ヒートマップはサンプルテキストとサンプル画像におけるターゲットと対応する領域を特徴付ける。複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得る。本開示の技術案は、サンプルテキスト及び対応するヒートマップによってマルチターゲット画像テキストマッチングモデルをトレーニングし、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決することができる。マルチターゲット画像テキストマッチングモデルを画像テキスト検索に用いることで、検索結果の正確性を向上させることができる。
一可能な実現形態において、図7に示す第2の取得モジュール702は、取得ユニットと決定ユニットとをさらに含む。
取得ユニットは、予めトレーニングされた画像テキストマッチングモデルを取得するためのものであり、
決定ユニットは、各トレーニングサンプルに対し、画像テキストマッチングモデルとトレーニングサンプルに基づき、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得るためのものである。
一可能な実現形態において、第2の取得モジュール702における決定ユニットは、具体的には、
各トレーニングサンプルに対し、トレーニングサンプルを画像テキストマッチングモデルに入力して、トレーニングサンプルに対応する類似度と勾配を得、トレーニングサンプルに対応する類似度と勾配に基づき、トレーニングサンプルにおけるサンプル画像に対して処理を行って、トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得るためのものである。
一可能な実現形態において、図7に示すモデルトレーニングモジュール703は、具体的には、
予めトレーニングされた画像テキストマッチングモデルを取得し、
複数のサンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルのモデルパラメータを調整して、マルチターゲット画像テキストマッチングモデルを得るためのものである。
一可能な実現形態において、画像テキストマッチングモデルは、予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールとを含む。
本開示の実施例の各装置における各ユニット、モジュール、又はサブモジュールの機能は、上記マルチターゲット画像テキストマッチングモデルのトレーニング方法の実施例における対応説明を参照することができ、ここでは説明を省略する。
図8は、本開示の一実施例における画像テキスト検索装置の概略図である。図8に示すように、画像テキスト検索装置は、
検索テキストと複数の画像を取得するための取得モジュール801と、
検索テキストと複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、検索テキストと複数の画像との類似度を得るためのマッチングモジュール802と、
検索テキストと複数の画像との類似度に基づき、検索テキストに対応するターゲット画像を決定するための決定モジュール803とを含んでよく、
ここで、マルチターゲット画像テキストマッチングモデルは、本開示の実施例によるマルチターゲット画像テキストマッチングモデルのトレーニング方法によってトレーニングして得られたものである。
本開示の実施例による画像テキスト検索装置は、予めトレーニングされたマルチターゲット画像テキストマッチングモデルを採用して類似度を計算することにより、画像に複数のターゲットがある時、計算結果が不正確であるという問題を解決し、検索結果の正確性を向上させることができる。
一可能な実現形態において、図8に示す画像テキスト検索装置は、
マルチターゲット画像テキストマッチングモデルの画像コーディングモジュールによって複数の画像における各画像の画像特徴を抽出し、各画像の画像特徴を分類して、複数種類の画像を得て記憶するための分類モジュールをさらに含む。
一可能な実現形態において、図8に示すマッチングモジュール802は、
マルチターゲット画像テキストマッチングモデルのテキストコーディングモジュールによって検索テキストのテキスト特徴を抽出し、
複数種類の画像において、検索テキストに対応するターゲット種類の画像を決定し、
マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、検索テキストとターゲット種類の画像における各画像との類似度を得るためのものである。
本開示の実施例の各装置における各ユニット、モジュール、又はサブモジュールの機能は、上記画像テキスト検索方法の実施例における対応説明を参照することができ、ここでは説明を省略する。
本開示の技術案において、関連するユーザ個人情報の取得、記憶と応用などは、すべて関連法律法規の規定に合致し、かつ公順良俗に違反しない。
本開示の別の態様によれば、電子機器を提供する。この電子機器は、
少なくとも1つのプロセッサと、
この少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
このメモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、この命令は、この少なくとも1つのプロセッサが本開示のいずれか1つの実施例における方法を実行できるように、この少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、本開示に記載のいずれか1つの実施例における方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体を提供する。
本開示の別の態様によれば、プロセッサによって実行されると、本開示のいずれか1つの実施例における方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
図9は、本開示の実施例を実施するための例示的な電子機器900を示すブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器はさらに、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、スマートフォン、着用可能なデバイスとその他の類似する計算装置を表すことができる。本明細書に示される部品、これらの接続関係及びこれらの機能は例示的なものに過ぎず、本明細書に説明した及び/又は請求した本開示の実現を制限することを意図するものではない。
図9に示すように、機器900は、計算ユニット901を含み、それはリードオンリーメモリ(ROM)902に記憶されるコンピュータプログラム又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM 903において、機器900を操作するために必要な様々なプログラムと情報をさらに記憶することができる。計算ユニット901、ROM 902及びRAM 903は、バス904によって互いに接続される。入力/出力(I/O)インターフェース905もバス904に接続される。
機器900における複数の部品はI/Oインターフェース905に接続され、この複数の部品は、例えばキーボード、マウスなどの入力ユニット906と、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット907と、例えば磁気ディスク、光ディスクなどの記憶ユニット908と、例えばネットワークカード、モデム、無線通信送受信機などの通信ユニット909とを含む。通信ユニット909は、機器900が例えばインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット901は処理及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってよい。計算ユニット901の例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット901は、以上で説明される各方法と処理、例えば本開示の実施例におけるいずれかの方法を実行する。例えば、いくつかの実施例において、本開示の実施例における方法は、コンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット908に有形に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM 902及び/又は通信ユニット909を介して機器900にロード及び/又はインストールされてよい。コンピュータプログラムがRAM 903にロードされて計算ユニット901によって実行される時、以上で説明される方法の1つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット901は他のいかなる適切な方式で(例えば、ファームウェアにより)本開示の実施例における方法を実行するように構成されてよい。
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、ロードプログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は以下を含んでよい。1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈してよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置から情報と命令を受信し、情報と命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信することが可能である。
本開示の方法を実施するプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブル情報処理装置のプロセッサ又はコントローラに提供されてよく、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に規定される機能/操作は実施される。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行しかつ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
本開示の文脈において、機械可読媒体は有形の媒体であってよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)と、キーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置はさらに、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、情報サーバ)や、ミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部品を含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインターフェース又はこのウェブブラウザを通じて、ここで説明したシステム及び技術の実施形態とのインタラクティブを実現できる)や、このようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含む計算システムで実施されてよい。システムの部品は、任意の形態又は媒体のデジタル情報通信(例えば、通信ネットワーク)により相互に接続されてよい。通信ネットワークの例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
コンピュータシステムは、クライアントとサーバを含んでよい。クライアントとサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアントとサーバの関係を生成する。サーバーは、クラウドサーバであってもよく、分散型システムのサーバ又はブロックチェーンを組み込んだサーバであってもよい。
理解すべきこととして、以上に示した様々な形態のフローを用いて、改めて順位付け、ステップを追加又は削除することができる。例えば、本開示に記載された各ステップは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されない。
上述した具体的な実施形態は、本開示特許請求の範囲を限定するものではない。当業者が理解すべきこととして、設計要求と他の要因に基づき、様々な修正、組み合わせ、一部の組み合わせと代替を行うことができることである。本開示の精神及び原則から逸脱することなく行われるいかなる修正、同等物による置換や改良などは、いずれも本開示の保護範囲に含まれるものである。

Claims (19)

  1. マルチターゲット画像テキストマッチングモデルのトレーニング方法であって、
    複数のトレーニングサンプルを取得し、前記トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、前記サンプル画像には複数のターゲットが含まれることと、
    各トレーニングサンプルに対し、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得し、前記ヒートマップは前記サンプルテキストと前記サンプル画像におけるターゲットと対応する領域を特徴付けることと、
    複数の前記サンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得ることとを含む、マルチターゲット画像テキストマッチングモデルのトレーニング方法。
  2. 前記の、各トレーニングサンプルに対し、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得することは、
    予めトレーニングされた画像テキストマッチングモデルを取得することと、
    各トレーニングサンプルに対し、前記画像テキストマッチングモデルと前記トレーニングサンプルに基づき、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることとを含む、請求項1に記載の方法。
  3. 前記の、各トレーニングサンプルに対し、前記画像テキストマッチングモデルと前記トレーニングサンプルに基づき、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることは、
    各トレーニングサンプルに対し、前記トレーニングサンプルを前記画像テキストマッチングモデルに入力して、前記トレーニングサンプルに対応する類似度と勾配を得ることと、前記トレーニングサンプルに対応する類似度と勾配に基づき、前記トレーニングサンプルにおけるサンプル画像に対して処理を行って、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得ることとを含む、請求項2に記載の方法。
  4. 前記の、複数の前記サンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得ることは、
    予めトレーニングされた画像テキストマッチングモデルを取得することと、
    複数の前記サンプルテキスト及び対応するヒートマップに基づき、前記画像テキストマッチングモデルのモデルパラメータを調整して、マルチターゲット画像テキストマッチングモデルを得ることとを含む、請求項1に記載の方法。
  5. 前記画像テキストマッチングモデルは、予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールとを含む、請求項1に記載の方法。
  6. 画像テキスト検索方法であって、
    検索テキストと複数の画像を取得することと、
    前記検索テキストと前記複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、前記検索テキストと前記複数の画像との類似度を得ることと、
    前記検索テキストと前記複数の画像との類似度に基づき、前記検索テキストに対応するターゲット画像を決定することとを含み、
    ここで、前記マルチターゲット画像テキストマッチングモデルは、請求項1~5のいずれか1項に記載の方法に基づいてトレーニングして得られたものである、画像テキスト検索方法。
  7. 複数の画像を取得することの後、前記方法は、
    前記マルチターゲット画像テキストマッチングモデルの画像コーディングモジュールによって前記複数の画像における各画像の画像特徴を抽出し、各画像の画像特徴を分類して、複数種類の画像を得て記憶することをさらに含む、請求項6に記載の方法。
  8. 前記の、前記検索テキストと前記複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、前記検索テキストと前記複数の画像との類似度を得ることは、
    前記マルチターゲット画像テキストマッチングモデルのテキストコーディングモジュールによって前記検索テキストのテキスト特徴を抽出することと、
    前記複数種類の画像において、前記検索テキストに対応するターゲット種類の画像を決定することと、
    前記マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、前記検索テキストと前記ターゲット種類の画像における各画像との類似度を得ることとを含む、請求項7に記載の方法。
  9. マルチターゲット画像テキストマッチングモデルのトレーニング装置であって、
    複数のトレーニングサンプルを取得するための第1の取得モジュールであって、前記トレーニングサンプルはサンプル画像とサンプルテキストからなるサンプルペアを含み、前記サンプル画像には複数のターゲットが含まれる第1の取得モジュールと、
    各トレーニングサンプルに対し、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを取得するための第2の取得モジュールであって、前記ヒートマップは前記サンプルテキストと前記サンプル画像におけるターゲットと対応する領域を特徴付ける第2の取得モジュールと、
    複数の前記サンプルテキスト及び対応するヒートマップに基づき、画像テキストマッチングモデルをトレーニングして、マルチターゲット画像テキストマッチングモデルを得るためのモデルトレーニングモジュールとを含む、マルチターゲット画像テキストマッチングモデルのトレーニング装置。
  10. 前記第2の取得モジュールは、取得ユニットと決定ユニットとを含み、
    前記取得ユニットは、予めトレーニングされた画像テキストマッチングモデルを取得するためのものであり、
    前記決定ユニットは、各トレーニングサンプルに対し、前記画像テキストマッチングモデルと前記トレーニングサンプルに基づき、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得るためのものである、請求項9に記載の装置。
  11. 前記決定ユニットは、具体的には、
    各トレーニングサンプルに対し、前記トレーニングサンプルを前記画像テキストマッチングモデルに入力して、前記トレーニングサンプルに対応する類似度と勾配を得て、前記トレーニングサンプルに対応する類似度と勾配に基づき、前記トレーニングサンプルにおけるサンプル画像に対して処理を行って、前記トレーニングサンプルにおけるサンプルテキストに対応するヒートマップを得るためのものである、請求項10に記載の装置。
  12. 前記モデルトレーニングモジュールは、具体的には、
    予めトレーニングされた画像テキストマッチングモデルを取得し、
    複数の前記サンプルテキスト及び対応するヒートマップに基づき、前記画像テキストマッチングモデルのモデルパラメータを調整して、マルチターゲット画像テキストマッチングモデルを得るためのものである、請求項9に記載の装置。
  13. 前記画像テキストマッチングモデルは、予めトレーニングされたテキストコーディングモジュールと画像コーディングモジュールとを含む、請求項9に記載の装置。
  14. 画像テキスト検索装置であって、
    検索テキストと複数の画像を取得するための取得モジュールと、
    前記検索テキストと前記複数の画像をマルチターゲット画像テキストマッチングモデルに入力して、前記検索テキストと前記複数の画像との類似度を得るためのマッチングモジュールと、
    前記検索テキストと前記複数の画像との類似度に基づき、前記検索テキストに対応するターゲット画像を決定するための決定モジュールとを含み、
    ここで、前記マルチターゲット画像テキストマッチングモデルは、請求項1~5のいずれか1項に記載の方法に基づいてトレーニングして得られたものである、画像テキスト検索装置。
  15. 前記マルチターゲット画像テキストマッチングモデルの画像コーディングモジュールによって前記複数の画像における各画像の画像特徴を抽出し、各画像の画像特徴を分類して、複数種類の画像を得て記憶するための分類モジュールをさらに含む、請求項14に記載の装置。
  16. 前記マッチングモジュールは、
    前記マルチターゲット画像テキストマッチングモデルのテキストコーディングモジュールによって前記検索テキストのテキスト特徴を抽出し、
    前記複数種類の画像において、前記検索テキストに対応するターゲット種類の画像を決定し、
    前記マルチターゲット画像テキストマッチングモデルの類似度決定モジュールによって、前記検索テキストと前記ターゲット種類の画像における各画像との類似度を得るためのものである、請求項15に記載の装置。
  17. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~8のいずれか1項に記載の方法を実行させる、ことを特徴とする電子機器。
  18. コンピュータ命令を記憶した非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~8のいずれか1項に記載の方法を実行させるためのものである、ことを特徴とするコンピュータ可読記憶媒体。
  19. プロセッサによって実行されると、請求項1~8のいずれか1項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。
JP2022165363A 2022-03-02 2022-10-14 マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置 Active JP7403605B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210200250.4A CN114549874B (zh) 2022-03-02 2022-03-02 多目标图文匹配模型的训练方法、图文检索方法及装置
CN202210200250.4 2022-03-02

Publications (2)

Publication Number Publication Date
JP2022191412A true JP2022191412A (ja) 2022-12-27
JP7403605B2 JP7403605B2 (ja) 2023-12-22

Family

ID=81662508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022165363A Active JP7403605B2 (ja) 2022-03-02 2022-10-14 マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置

Country Status (4)

Country Link
US (1) US20230196716A1 (ja)
JP (1) JP7403605B2 (ja)
KR (1) KR20220147550A (ja)
CN (1) CN114549874B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115115914B (zh) * 2022-06-07 2024-02-27 腾讯科技(深圳)有限公司 信息识别方法、装置以及计算机可读存储介质
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법
CN116226688B (zh) * 2023-05-10 2023-10-31 粤港澳大湾区数字经济研究院(福田) 数据处理、图文检索、图像分类方法及相关设备
CN116797889B (zh) * 2023-08-24 2023-12-08 青岛美迪康数字工程有限公司 医学影像识别模型的更新方法、装置和计算机设备
CN116935418B (zh) * 2023-09-15 2023-12-05 成都索贝数码科技股份有限公司 一种三维图文模板自动重组方法、设备及系统
CN117235534B (zh) * 2023-11-13 2024-02-20 支付宝(杭州)信息技术有限公司 训练内容理解模型和内容生成模型的方法及装置
CN117688193A (zh) * 2024-02-01 2024-03-12 湘江实验室 图文统一编码方法、装置、计算机设备及介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9483694B2 (en) * 2014-01-26 2016-11-01 Sang Hun Kim Image text search and retrieval system
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
JP2019194446A (ja) 2018-05-01 2019-11-07 株式会社ユタカ技研 触媒コンバータのフランジ構造
KR102102161B1 (ko) 2018-05-18 2020-04-20 오드컨셉 주식회사 이미지 내 객체의 대표 특성을 추출하는 방법, 장치 및 컴퓨터 프로그램
CN110634125B (zh) * 2019-01-14 2022-06-10 广州爱孕记信息科技有限公司 基于深度学习的胎儿超声图像识别方法及系统
CN110209862B (zh) * 2019-05-22 2021-06-25 招商局金融科技有限公司 文本配图方法、电子装置及计算机可读存储介质
JP2021022368A (ja) 2019-07-25 2021-02-18 学校法人中部大学 ニューラルネットワークを用いた画像認識装置およびトレーニング装置
CN112487979B (zh) * 2020-11-30 2023-08-04 北京百度网讯科技有限公司 目标检测方法和模型训练方法、装置、电子设备和介质
CN112733533B (zh) * 2020-12-31 2023-11-07 浙大城市学院 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN113378815B (zh) * 2021-06-16 2023-11-24 南京信息工程大学 一种场景文本定位识别的系统及其训练和识别的方法
CN113378857A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
CN113590865B (zh) * 2021-07-09 2022-11-22 北京百度网讯科技有限公司 图像搜索模型的训练方法及图像搜索方法
CN113656613A (zh) * 2021-08-20 2021-11-16 北京百度网讯科技有限公司 训练图文检索模型的方法、多模态图像检索方法及装置
CN113836333B (zh) * 2021-09-18 2024-01-16 北京百度网讯科技有限公司 图文匹配模型的训练方法、实现图文检索的方法、装置
CN113901907A (zh) * 2021-09-30 2022-01-07 北京百度网讯科技有限公司 图文匹配模型训练方法、图文匹配方法及装置
CN113947188A (zh) * 2021-10-14 2022-01-18 北京百度网讯科技有限公司 目标检测网络的训练方法和车辆检测方法
CN114004229A (zh) * 2021-11-08 2022-02-01 北京有竹居网络技术有限公司 文本识别方法、装置、可读介质及电子设备

Also Published As

Publication number Publication date
JP7403605B2 (ja) 2023-12-22
CN114549874B (zh) 2024-03-08
KR20220147550A (ko) 2022-11-03
CN114549874A (zh) 2022-05-27
US20230196716A1 (en) 2023-06-22

Similar Documents

Publication Publication Date Title
JP2022191412A (ja) マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置
US20220318275A1 (en) Search method, electronic device and storage medium
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
WO2023178965A1 (zh) 一种意图识别方法、装置、电子设备及存储介质
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
US20220198358A1 (en) Method for generating user interest profile, electronic device and storage medium
CN110807097A (zh) 分析数据的方法和装置
US20230085684A1 (en) Method of recommending data, electronic device, and medium
CN116955856A (zh) 信息展示方法、装置、电子设备以及存储介质
EP4246365A1 (en) Webpage identification method and apparatus, electronic device, and medium
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
JP2023015275A (ja) 観測情報処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
US20210342379A1 (en) Method and device for processing sentence, and storage medium
CN114692778A (zh) 用于智能巡检的多模态样本集生成方法、训练方法及装置
US20210311985A1 (en) Method and apparatus for image processing, electronic device, and computer readable storage medium
CN115292506A (zh) 应用于办公领域的知识图谱本体构建方法和装置
CN115828915B (zh) 实体消歧方法、装置、电子设备和存储介质
CN114422584B (zh) 资源的推送方法、设备和存储介质
CN113535958B (zh) 生产线索聚合方法、装置及系统、电子设备和介质
CN111539208B (zh) 语句处理方法和装置、以及电子设备和可读存储介质
CN115794984B (zh) 数据存储方法、数据检索方法、装置、设备以及介质
CN112818167B (zh) 实体检索方法、装置、电子设备及计算机可读存储介质
US20230147798A1 (en) Search method, computing device and storage medium
US20220318503A1 (en) Method and apparatus for identifying instruction, and screen for voice interaction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231212

R150 Certificate of patent or registration of utility model

Ref document number: 7403605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150