JP7331975B2 - クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体 - Google Patents

クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体 Download PDF

Info

Publication number
JP7331975B2
JP7331975B2 JP2022028920A JP2022028920A JP7331975B2 JP 7331975 B2 JP7331975 B2 JP 7331975B2 JP 2022028920 A JP2022028920 A JP 2022028920A JP 2022028920 A JP2022028920 A JP 2022028920A JP 7331975 B2 JP7331975 B2 JP 7331975B2
Authority
JP
Japan
Prior art keywords
modal
sample
loss function
similarity
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022028920A
Other languages
English (en)
Other versions
JP2022135991A (ja
Inventor
ヘ、フェン
ワン、チ
フェン、ジファン
ヤン、フ
チャイ、チュングアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022135991A publication Critical patent/JP2022135991A/ja
Application granted granted Critical
Publication of JP7331975B2 publication Critical patent/JP7331975B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Description

本開示は、コンピュータ技術の分野に関し、具体的には、知識グラフ、コンピュータビジョン、ディープラーニングなどの人工知能技術の分野に関し、特に、クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体に関する。
人工知能(Artificial Intelligence、AI)は、人間のある思考プロセスと知能行為(たとえば、学習、推理、思考、計画など)をコンピュータでシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的に、たとえば、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術および機械学習/ディープラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。
インターネット技術の発展に伴い、インターネット上のデータ種類がますます多くなり、例えば、テキスト、画像、ビデオなどがあり、各タイプのデータは一種のモーダルと見なすことができる。クロスモーダル検索は、一つのモーダルのデータを使用して他の種類のモーダルのデータを検索することを指し、例えば、テキストを使用してビデオを検索する。クロスモーダル検索は、クロスモーダル検索モデルを使用して、一つのモーダルのデータをクロスモーダル検索モデルに入力して、他の種類のモーダルのデータを出力することができる。クロスモーダル検索モデルをトレーニングする時、比較損失関数(contrastive loss)を使用することができ、比較損失関数の一つのパラメータは、間隔(margin)である。
関連技術では、クロスモーダル検索モデルをトレーニングする時、使用される比較損失関数における間隔は固定値である。
本開示は、クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体を提供する。
本開示の一態様によれば、クロスモーダル検索モデルのトレーニング方法を提供し、クロスモーダルサンプルペアに基づいて、クロスモーダルサンプルペアの類似性を決定するステップであって、クロスモーダルサンプルペアは、第1のモーダルのサンプルと第2のモーダルのサンプルを含み、第1のモーダルは第2のモーダルと異なるステップと、類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を決定するステップと、ソフト間隔損失関数に基づいて、総損失関数を決定し、総損失関数に基づいて、クロスモーダル検索モデルをトレーニングするステップと、を含む。
本開示の別の態様によれば、クロスモーダル検索モデルのトレーニング装置を提供し、クロスモーダルサンプルペアに基づいて、クロスモーダルサンプルペアの類似性を決定するための第1の計算モジュールであって、クロスモーダルサンプルペアは、第1のモーダルのサンプルと第2のモーダルのサンプルを含み、第1のモーダルは第2のモーダルと異なる第1の計算モジュールと、類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を決定するための第2の計算モジュールと、ソフト間隔損失関数に基づいて、総損失関数を決定し、総損失関数に基づいて、クロスモーダル検索モデルをトレーニングするためのトレーニングモジュールと、を含む。
本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶されており、命令が少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサが上記の任意の態様のいずれかに記載の方法を実行する。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに上記の任意の態様のいずれかに記載の方法を実行させる。
本開示の別の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、コンピュータプログラムがプロセッサによって実行される時に上記の任意の態様のいずれかに記載の方法を実現する。
本開示の技術案によれば、クロスモーダル検索モデルのトレーニングモデルの検索効果を向上させることができる。
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
本開示の第1の実施例による概略図である。 本開示の第2の実施例による概略図である。 本開示の第3の実施例による概略図である。 本開示の第4の実施例による概略図である。 本開示の第5の実施例による概略図である。 本開示の第6の実施例による概略図である。 本開示の第7の実施例による概略図である。 本開示の第8の実施例による概略図である。 本開示の第9の実施例による概略図である。 本開示の第10の実施例による概略図である。 本開示の実施例のクロスモーダル検索モデルのトレーニング方法のいずれか一つを実現するための電子機器の概略図である。
以下、図面に基づいて、本出願の例示の実施例を表現する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。類似として、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。
図1は、本開示の第1の実施例による概略図である。本実施例は、クロスモーダル検索モデルのトレーニング方法を提供し、当該方法は、以下のようなステップを含む。
101、クロスモーダルサンプルペアに基づいて、クロスモーダルサンプルペアの類似性を決定し、クロスモーダルサンプルペアは、第1のモーダルのサンプルと第2のモーダルのサンプルを含み、第1のモーダルは第2のモーダルと異なる。
102、類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を決定する。
103、ソフト間隔損失関数に基づいて、総損失関数を決定し、総損失関数に基づいて、クロスモーダル検索モデルをトレーニングする。
図2を参照すると、ユーザは、クロスモーダル検索時、テキストを使用してビデオを検索することを例にとって、クロスモーダル検索システムは、「自動車」などの、ユーザが入力したテキストを受信し、クロスモーダル検索システムは、クロスモーダル検索モデルを使用して、当該テキストにマッチングするビデオを探すことができ、例えば、「自動車」に関連するビデオであり、次に、マッチングするビデオをユーザにフィードバックすることができる。クロスモーダル検索モデルは、テキスト符号化モデル(text encoder)201とビデオ符号化モデルを含むことができ、テキスト符号化モデルは、ユーザが入力したテキストをテキスト表現(text representation)に変換し、ビデオ符号化モデルは、ビデオライブラリ内のビデオをビデオ表現(video representation)に変換する。さらに、ビデオ符号化モデルは、ビデオ特徴抽出モデル(video feature extractor)202とビデオ特徴融合モデル(video feature aggregator)203を含むことができ、ビデオ特徴抽出モデルは、ビデオ特徴を抽出するために用いられ、ビデオ特徴融合モジュールは、ビデオ特徴を融合するために用いられる。テキスト符号化モデル、ビデオ特徴抽出モデルのバックボーン構造は、いずれも関連技術における対応するセマンティック表現を使用してモデルを抽出することができ、例えば、テキスト符号化モデルは、双方向TransformerのEncoder(Bidirectional Encoder Representations from Transformers、BERT)モデルであり、ビデオ特徴抽出モデルは、resnetなどの畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)モデルである。ビデオ特徴融合モデルは、関連技術における特徴融合方式を使用することもでき、例えば、一般的なビデオ特徴抽出モデルは、マルチモーダルのビデオ特徴を抽出し、ビデオ特徴融合モジュールは、各モーダルのビデオ特徴に対して重み付き加算を行って融合後のビデオ特徴、すなわちビデオ表現を取得することができる。テキスト符号化モデルとビデオ符号化モデルを経て、対応するセマンティック表現、すなわちテキスト表現とビデオ表現を取得することができ、その後、セマンティック特徴マッチングモジュール204を介して、テキスト表現に最もマッチングするビデオ表現を取得し、対応するビデオをユーザが入力したテキストにマッチングするビデオとすることができる。セマンティック特徴マッチングは、様々な関連技術を使用して実現することもでき、例えば、近似最近傍(Approximate Nearest Neighbor、ANN)アルゴリズムを使用してマッチングする。
上記のように、クロスモーダル検索時にクロスモーダル検索モデルを使用して行うことができ、本実施例は、クロスモーダルモデルのトレーニング方法を提供して、より効果的なモデルを提供し、さらに、クロスモーダル検索効果を向上させる。
本実施例の実行主体は、サーバなどの単一のデバイス主体であってもよい。
第1のモーダルと第2のモーダルは、二つの異なるモーダルであり、本開示の実施例では、第1のモーダルをテキスト(text)とし、第2のモーダルをビデオ(video)として、説明する。
比較損失関数で一般的に使用される間隔(margin)と区別するために、一般的に使用される間隔は、固定値であり、ハード間隔(hard margin)と呼ぶことができ、本開示の実施例では、上記の類似性に基づいて間隔を決定し、当該間隔は、固定値ではなく、ソフト間隔(soft margin)と呼ぶことができる。従って、ハード間隔に対応する損失関数は、ハード間隔損失関数と呼ぶことができ、ソフト間隔に対応する損失関数は、ソフト間隔損失関数と呼ぶことができる。
一般的に、固定値のハード間隔に基づいて損失関数を計算する時、総損失関数は、ハード間隔損失関数に基づいてのみ計算する。本開示の実施例では、ソフト間隔およびソフト間隔損失関数を導入し、したがって、総損失関数は、ハード間隔損失関数だけでなく、ソフト間隔損失関数にも基づいて計算する。
本実施例では、クロスモーダルサンプルペアの類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を計算し、ソフト間隔損失関数に基づいて総損失関数を計算することで、異なるクロスモーダルサンプルペアに基づいて異なる間隔を選択し、固定の間隔によって引き起こされる問題を回避し、クロスモーダル検索モデルの検索効果を向上させることができる。
いくつかの実施例では、比較損失関数は、トリプレット比較損失関数(triplet contrastive loss)であってもよい。トリプレット比較損失関数では、ソフト間隔は、類似性距離に基づいて決定し、類似性距離は、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を指す。
すなわち、クロスモーダルサンプルペアは、少なくとも1つのペアであり、少なくとも1つのペアのクロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、正のサンプルペアは、アンカーサンプルと正のサンプルを含み、負のサンプルペアは、アンカーサンプルと負のサンプルを含み、アンカーサンプルは、第1のモーダルであり、正のサンプルと負のサンプルは、いずれも第2のモーダルであり、類似性に基づいてソフト間隔を決定するステップは、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得するステップと、類似性距離に基づいて、ソフト間隔を決定するステップと、を含む。
トリプレット比較損失関数に対応して、サンプルは、アンカーサンプル(anchor sample)、正のサンプル(positive sample)、および負のサンプル(negative sample)に分けることができる。アンカーサンプル、正のサンプル、および負のサンプルをそれぞれA、P、Nで表すと仮定すると、アンカーサンプルと正のサンプルで構成されるサンプルペア<A、P>は、正のサンプルペアと呼ぶことができ、アンカーサンプルと負のサンプルで構成されるサンプルペア<A、N>は、負のサンプルペアと呼ぶことができる。アンカーサンプルは、例えば、サンプルセット内の一つのテキストであり、正のサンプルは、サンプルセット内の当該テキストに関連するビデオを指し、負のサンプルは、サンプルセット内でランダムに選択されたビデオであり、当該ビデオは、当該テキストに関連しているか、または関連していないことができる。
図3に示すように、アンカーサンプルがテキスト「自動車」であると仮定すると、正のサンプルは、Pで表し、「自動車」に関連するビデオであり、負のサンプルは、Nで表し、ランダムに選択されたビデオ(図のビデオは、ビデオフレームで表す)であり、「自動車」に関連しているか、または関連していないことができ、図3では、負のサンプルは、了一つの「自動車」に関連するビデオ(N1)、および一つの「自動車」に関連しないビデオ(N2)を含む。関連技術では、図3の左側に示すように、間隔(margin)は、固定値であり、ハード間隔で表し、本開示の実施例では、図3の右側に示すように、間隔は、固定値ではなく、ソフト間隔で表し、具体的には、一つの負のサンプルがアンカーサンプルに関連する場合、当該関連する負のサンプルに対応する間隔は、関連しない負のサンプルに対応する間隔より小さくする必要がある。
負のサンプルは、アンカーサンプルに関連しているか、または関連していない可能性があるため、固定の間隔を使用する場合、誤った学習方向を引き起こし、クロスモーダル検索モデルの効果を低下させることができる。
本実施例では、正のサンプルペアの類似性と負のサンプルペアの類似性との間の類似性距離に基づいて、ソフト間隔を決定することができ、トリプレット比較損失関数のシナリオに適用することができる。
図4は、本開示の第4の実施例による概略図である。本実施例は、クロスモーダル検索モデルのトレーニング方法を提供し、図4に示すように、当該方法は、以下のようなステップを含む。
401、クロスモーダルデータセットに基づいて、少なくとも1つのグループの比較サンプルグループを構築する。
クロスモーダルデータセットは、複数のクロスモーダルマッチングサンプルペアで構成され、各クロスモーダルマッチングサンプルペアは、二つの異なるモーダルに相互マッチングするサンプルを含み、二つの異なるモーダルがそれぞれテキストとビデオであると仮定すると、一つのクロスモーダルマッチングサンプルペアは、(v、t)として表すことができ、その中、vはビデオを表し、tはテキストを表す。
トリプレット比較を例とし、各グループの比較サンプルグループは、アンカーサンプル、正のサンプル、および負のサンプルを含み、アンカーサンプルは、クロスモーダルマッチングサンプルペア内の一つのサンプルであり、正のサンプルは、アンカーサンプルが存在するクロスモーダルマッチングサンプルペア内の別のサンプルであり、負のサンプルは、ランダムに選択された非アンカーサンプルが存在するクロスモーダルマッチングサンプルペア中、アンカーサンプルと異なるモーダルを有するサンプルである。例えば、二つのクロスモーダルマッチングサンプルペアは、それぞれ<vi、ti>と<vj、tj>であり、選択されたアンカーサンプルがtiであると仮定すると、正のサンプルは、viであり、負のサンプルは、vjであるため、1グループの比較サンプルグループは、(ti、vi、vj)であってもよい。
一般的には、クロスモーダル検索に対応する比較サンプルグループは、2つのグループとして選択することができ、すなわち、上記の1グループの比較サンプルグループ(ti、vi、vj)に加えて、別のグループの比較サンプルペアを(vi、ti、tj)として選択することもできる。
402、各比較サンプルグループに基づいて、対応する損失関数を計算して、サンプルグループに対応する損失関数を取得する。
各比較サンプルグループに基づいて対応する損失関数を計算するプロセスは類似し、具体的には、以下の説明を参照することができる。
403、少なくとも1つのグループの比較サンプルグループに対応する各サンプルグループの損失関数に基づいて、総損失関数を計算する。
例えば、各サンプルグループに対応する損失関数は、加算後の関数を総損失関数とする。
例えば、図5を参照すると、2つのグループ比較サンプルグループをそれぞれ第1の比較サンプルグループと第2の比較サンプルグループと呼び、対応する損失関数を第1の損失関数と第2の損失関数と呼ぶことができると仮定すると、図5に示すように、第1の損失関数と第2の損失関数を加算して、加算後の関数を総損失関数とすることができる。
以下の式で表し、
Figure 0007331975000001
その中、
Figure 0007331975000002
は、総損失関数であり、
Figure 0007331975000003
は、それぞれ第1の損失関数と第2の損失関数であり、すなわち、
Figure 0007331975000004
は、(ti、vi、vj)に基づいて計算された損失関数であり、
Figure 0007331975000005
は、(vi、ti、tj)に基づいて計算された損失関数である。
総損失関数を取得した後、総損失関数を使用してクロスモーダル検索モデルをトレーニングすることができ、すなわち、総損失関数が収束するまで、テキスト符号化モデルのパラメータとビデオ符号化モデルのパラメータを調整する。
本実施例では、各サンプルグループに対応する損失関数に基づいて総損失関数を計算し、異なる負のサンプルペアの構成状況を考慮して、総損失関数の精度を向上させ、さらに、クロスモーダル検索モデルの効果を向上させることができる。
上記では、各比較サンプルグループの損失関数に基づいて総損失関数を計算し、総損失関数に基づいてクロスモーダル検索モデルをトレーニングするように、各比較サンプルグループに基づいて損失関数を計算することを説明する。以下では、各比較サンプルグループの損失関数の計算プロセスを説明する。各比較サンプルグループの損失関数の計算プロセスは類似し、次に、一つの比較サンプルグループの計算プロセスを例とし、図6を参照し、当該方法は、以下のようなステップを含む。
601、比較サンプルグループに基づいて、クロスモーダルサンプルペアを構築し、クロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、正のサンプルペアは、アンカーサンプルと正のサンプルを含み、負のサンプルペアは、アンカーサンプルと負のサンプルを含み、アンカーサンプルは、第1のモーダルであり、正のサンプルと負のサンプルは、いずれも第2のモーダルである。
比較サンプルグループを(ti、vi、vj)として例にとると、構築された正のサンプルペアは、<vi、ti>であり、負のサンプルペアは、<vj、ti>である。
602、クロスモーダルサンプルペアの予測類似性距離を計算する。
予測類似性距離は、第1の予測類似性と第2の予測類似性との間の距離を指し、第1の予測類似性は、正のサンプルペアの予測類似性であり、第2の予測類似性は、負のサンプルペアの予測類似性である。
図7に示すように、アンカーサンプルは、テキスト「一台の自動車を表示する(a car is shown)」であり、正のサンプルはPで表し、負のサンプルはNで表し、図7の正のサンプルと負のサンプルは、いずれも自動車に関連するビデオである。
アンカーサンプルをテキストとして例にとって、アンカーサンプルは、アンカーテキストと呼ぶことができ、正のサンプルと負のサンプルは、それぞれ正のビデオおよび負のビデオと呼ぶことができる。比較サンプルグループ(アンカーテキスト、正のビデオ、および負のビデオ)を取得した後、それをクロスモーダル検索モデルに入力して、テキスト符号化モデルは、アンカーテキストを符号化して、予測テキスト表現を取得し、ビデオ符号化モデル(ビデオ特徴抽出モデルおよびビデオ特徴融合モジュール)は、正のビデオおよび負のビデオをそれぞれ符号化して、第1の予測ビデオ表現と第2の予測ビデオ表現を取得することができ、その後、予測テキスト表現と第1の予測ビデオ表現の類似性を計算して、第1の予測類似性とし、予測テキスト表現と第2の予測ビデオ表現の類似性を計算して、第2の予測類似性とし、次に、第2の予測類似性と第1の予測類似性の差を計算して予測類似性距離とする。
603、比較サンプルグループに対応するサンプルペアに基づいて、ソフト間隔を取得し、ソフト間隔と予測類似性距離に基づいてソフト間隔損失関数を計算する。
ソフト間隔およびソフト間隔損失関数の計算プロセスは、以下の説明を参照することができる。
604、ハード間隔と予測類似性距離に基づいてハード間隔損失関数を計算し、ハード間隔損失関数とソフト間隔損失関数に基づいて、比較サンプルグループの損失関数を計算する。
ハード間隔損失関数は、固定の間隔に基づいて計算された比較損失関数を指し、関連技術を使用して実現することができる。
ソフト間隔損失関数およびハード間隔損失関数を取得した後、それを加算し、加算後の損失関数に基づいて比較サンプルグループの損失関数を取得することができる。
さらに、ソフト間隔損失関数は、少なくとも一つの状態のソフト間隔損失関数を含むことができ、従って、各状態のソフト間隔損失関数に対して重み付き加算を行い、次に、ハード間隔損失関数と加算し、次に、加算後の損失関数に基づいて比較サンプルグループの損失関数を計算することができる。図7に示すように、少なくとも一つの状態のソフト間隔損失関数は、静的ソフト間隔損失関数と動的ソフト間隔損失関数を含むことができる。
以下の式で表し、
Figure 0007331975000006
Figure 0007331975000007
その中、Bは、アンカーサンプルの数量であり、iは、アンカーサンプルのインデックスであり、jは、負のサンプルのインデックスであり、
Figure 0007331975000008
は、ハード間隔損失関数であり、mは、ハード間隔であり、
Figure 0007331975000009
は、動的ソフト間隔損失関数であり、
Figure 0007331975000010
は、動的ソフト間隔であり、
Figure 0007331975000011
は、静的ソフト間隔損失関数であり、
Figure 0007331975000012
は、静的ソフト間隔であり、
Figure 0007331975000013
は、重み付き係数であり、その中、異なる比較サンプルグループに対応する重み付き係数は、同一または異なることができ、上記の式では、いずれも
Figure 0007331975000014
を例として表示する。
ハード間隔損失関数は、トリプレット比較損失関数にすることができ、計算式は、
Figure 0007331975000015
Figure 0007331975000016
その中、
Figure 0007331975000017
は、正のサンプルペア類似性であり、
Figure 0007331975000018
は、それぞれ一つの負のサンプルペア類似性であり、
Figure 0007331975000019
は、正の演算を表し、すなわち
Figure 0007331975000020
であり、
Figure 0007331975000021
は、モーダルがvであり、インデックスは、iのサンプルのセマンティック表現であり、他のセマンティック表現は、
Figure 0007331975000022
と類似し、その中、モーダルがテキストtである場合、対応するセマンティック表現は、テキスト表現であり、モーダルがビデオvである場合、対応するセマンティック表現は、ビデオ表現である。テキスト表現
Figure 0007331975000023
は、テキスト符号化モデルを介して取得することができ、ビデオ表現
Figure 0007331975000024
は、ビデオ符号化モデルを介して取得することができる。
上記は、ソフト間隔損失関数とハード間隔損失関数に基づいて比較サンプルグループの損失関数を計算するのを説明し、以下は、ソフト間隔損失関数の計算プロセスを説明する。
図7を参照すると、ソフト間隔損失関数は、動的ソフト間隔損失関数と静的ソフト間隔損失関数を含むことができ、動的ソフト間隔損失関数と静的ソフト間隔損失関数の計算プロセスは、類似する。動的ソフト間隔損失関数
Figure 0007331975000025
を例とし、
Figure 0007331975000026
は、それぞれビデオとテキストに対応し、本実施例の主なアイデアは、クロスモーダルの損失関数を二つの単一モーダルでの損失関数の加算演算に変換することである。
図8に示すように、ソフト間隔損失関数の計算方法は、以下のようなステップを含むことができる。
801、クロスモーダルサンプルペア、対応する第1のモーダルでのサンプルペア、および第2のモーダルでのサンプルペアを取得する。
比較サンプルグループに対応するサンプルペアに基づいて取得することができ、比較サンプルグループに対応するサンプルペアは、正のサンプルに対応するサンプルペア、および負のサンプルに対応するサンプルペアを含み、正のサンプルに対応するサンプルペアは、正のサンプル、および正のサンプルの別のモーダルのサンプルを含み、負のサンプルに対応するサンプルペアは、負のサンプル、および負のサンプルの別のモーダルのサンプルを含む。正のサンプルと負のサンプルがいずれもビデオであり、別のモーダルがテキストであることを例とし、正のサンプルと負のサンプルは、それぞれ正のビデオおよび負のビデオと呼ぶことができ、正のサンプルの別のモーダルのサンプルは、正のテキストと呼ぶことができ、負のサンプルの別のモーダルのサンプルは、負のテキストと呼ぶことができ、正のサンプルに対応するサンプルペアは、正のビデオと正のテキストを含み、負のサンプルに対応するサンプルペアは、負のビデオと負のテキストを含む。図7に示すように、正のサンプルに対応するサンプルペアは、正のビデオP、および正のテキスト「一台の自動車を表示する(a car is shown)」を含み、負のサンプルに対応するサンプルペアは、負のビデオN、および負のテキスト「展示中の自動車(a car is being displayed)」を含む。
図9に示すように、クロスモーダルドメイン内の比較サンプルグループは、アンカーテキスト、正のビデオ、および負のビデオを含み、正のビデオは、正のテキストに対応し、負のビデオは、負のテキストに対応し、ビデオモーダルドメインにおけるアンカーテキストの対応内容は、アンカービデオと呼び、アンカービデオは、正のビデオと同じである。
第1のモーダルでのサンプルペアは、<アンカーテキスト、正のテキスト>と、<アンカーテキスト、負のテキスト>を含み、第2のモーダルでのサンプルペアは、<アンカービデオ、正のビデオ>と、<アンカービデオ、負のビデオ>を含む。
802、第1のモーダルでのセマンティック表現モデルを使用して、第1のモーダルでのサンプルペアを処理して、第1のモーダルでのサンプルペアの類似性距離を取得し、第2のモーダルでのセマンティック表現モデルを使用して、第2のモーダルでのサンプルペアを処理して、第2のモーダルでのサンプルペアの類似性距離を取得する。
図7を参照すると、異なる状態(動的、静的)および異なるモーダル(テキスト、ビデオ)について、セマンティック表現モデルは、さらに、動的テキスト監視エキスパートなど、状態およびモーダルに対応する監視エキスパートと呼ぶことができる。
静的監視エキスパートグループを例として、静的テキスト監視エキスパートを使用して第1のモーダルでのサンプルペア、すなわち<アンカーテキスト、正のテキスト>、<アンカーテキスト、負のテキスト>を処理し、静的ビデオ監視エキスパートを使用して第2のモーダルでのサンプルペア、すなわち<アンカービデオ、正のビデオ>、<アンカービデオ、負のビデオ>を処理する。
静的テキスト監視エキスパートは、第1のモーダル下の二つのサンプルペア(<アンカーテキスト、正のテキスト>および<アンカーテキスト、負のテキスト>)の類似性距離を取得することができる。同様に、静的ビデオ監視エキスパートは、第2のモーダル下の二つのサンプルペア(<アンカービデオ、正のビデオ>、<アンカービデオ、負のビデオ>)の類似性距離を取得することができる。
第1のモーダルを例として、静的テキスト監視エキスパートは、アンカーテキストのテキスト表現と負のテキストのテキスト表現をそれぞれ取得し、次に、この二つのテキスト表現に基づいて第1のモーダルでのサンプルペアの類似性距離を計算することができる。以下の式で表し、
Figure 0007331975000027
その中、
Figure 0007331975000028
は、第1のモーダルでのサンプルペアの類似性距離であり、
Figure 0007331975000029
は、アンカーテキスト
Figure 0007331975000030
のテキスト表現であり、
Figure 0007331975000031
は、負のテキスト
Figure 0007331975000032
のテキスト表現であり、ここでは、静的テキスト監視エキスパートがbert-sentenceモデルである場合を例とする。
Figure 0007331975000033
は、内積演算であり、
Figure 0007331975000034
は、ノルム演算である。
同様に、静的ビデオ監視エキスパートに基づいて第2のモーダルでのサンプルペアの類似性距離を取得することができる。以下の式で表し、
Figure 0007331975000035
その中、
Figure 0007331975000036
は、第2のモーダルでのサンプルペアの類似性距離であり、
Figure 0007331975000037
は、アンカービデオ
Figure 0007331975000038
のビデオ表現であり、
Figure 0007331975000039
は、負のビデオ
Figure 0007331975000040
のビデオ表現であり、静的ビデオ監視エキスパートは、例えば、CNNであり、具体的には、resnet-152であってもよい。テキストとは異なり、ビデオは、ビデオフレームに対する処理であるため、CNNによって抽出された特徴に対してプーリング(pooling)操作を行って、ビデオ表現を行列形式からベクトル形式に変換することができる。
上記は、静的監視エキスパートグループの処理フローを示す。動的監視エキスパートグループの処理フローも類似し、異なることは、静的監視エキスパートグループは、既存の事前トレーニングモデルを使用し、例えば、上記のBERTモデルまたはresnet-152モデルであり、動的監視エキスパートグループは、クロスモーダル検索モデル自体を使用し、すなわち、クロスモーダル検索モデルのパラメータは、常に調整され、現在の時刻について、現在の時刻に既に存在する現在のパラメータを使用して、各モーダルでのサンプルペアを処理することができる。例えば、既存のテキスト符号化モデルのパラメータを使用して第1のモーダルでのサンプルペアを処理し、既存のビデオ符号化モデルのパラメータを使用して第2のモーダルでのサンプルペアを処理する。
上記の処理を経て、4つの類似性距離を取得することができ、静的テキスト類似性距離
Figure 0007331975000041
、静的ビデオ類似性距離
Figure 0007331975000042
、動的テキスト類似性距離
Figure 0007331975000043
、および動的ビデオ類似性距離
Figure 0007331975000044
とそれぞれ呼ぶことができる。静的テキスト類似性距離と静的ビデオ類似性距離は、静的類似性距離と総称することができ、動的テキスト類似性距離と動的ビデオ類似性距離は、動的類似性距離と総称することができる。
本実施例では、単一モーダルでのセマンティック表現モデルを使用することにより、対応する単一モーダルでの類似性距離を計算して取得することができる。
803、第1のモーダルでのサンプルペアの類似性距離を処理して、第1のモーダルでのソフト間隔を取得し、第2のモーダルでのサンプルペアの類似性距離を処理して、第2のモーダルでのソフト間隔を取得する。
図7に示すように、類似性距離に対して正規化処理を行って、対応するソフト間隔を取得することができる。以下の式で表し、
Figure 0007331975000045
その中、
Figure 0007331975000046
は、第1のモーダルでの類似性距離、例えば、静的に対応して、
Figure 0007331975000047
は、具体的には、
Figure 0007331975000048

Figure 0007331975000049
であり、
Figure 0007331975000050
は、正規化後の類似性距離、すなわち対応するソフト間隔であり、例えば、
Figure 0007331975000051
は、静的テキストソフト間隔である。
Figure 0007331975000052
は、ハイパーパラメータであり、
Figure 0007331975000053
は、
Figure 0007331975000054
に対応する分散であり、
Figure 0007331975000055
は、分散演算であり、
Figure 0007331975000056
は、期待演算である。
他のソフト間隔の計算方式は類似し、ここで詳細に説明しない、正規化処理を経て、静的テキストソフト間隔、静的ビデオソフト間隔、動的テキストソフト間隔、および動的ビデオソフト間隔を取得することができる。
類似性距離を正規化することにより、異なるモーダルでの類似性距離が比較可能であるように、異なるモーダルでの類似性距離を均衡することができる。
804、第1のモーダルでのソフト間隔と予測類似性距離に基づいて、第1のモーダルでの比較損失関数を計算し、第2のモーダルでのソフト間隔と予測類似性距離に基づいて、第2のモーダルでの比較損失関数を計算する。
805、第1のモーダルでの比較損失関数と第2のモーダルでの比較損失関数に基づいて、ソフト間隔損失関数を計算する。
第1のモーダルでの比較損失関数と第2のモーダルでの比較損失関数を加算し、加算後に取得された関数をソフト間隔損失関数とすることができる。以下の式で表し、
Figure 0007331975000057
Figure 0007331975000058
その中、
Figure 0007331975000059
は、2つのグループ比較サンプルグループのソフト間隔損失関数にそれぞれ対応し、
Figure 0007331975000060
は、第1のモーダルでの比較損失関数であり、
Figure 0007331975000061
は、第2のモーダルでの比較損失関数である。具体的には、静的ソフト間隔損失関数を計算する時、上記の
Figure 0007331975000062
は、それぞれ
Figure 0007331975000063
であり、動的ソフト間隔損失関数を計算する時、上記の
Figure 0007331975000064
は、それぞれ
Figure 0007331975000065
である。第1のモーダルでの比較損失関数と第2のモーダルでの比較損失関数は、いずれも上記のハード間隔損失関数の計算原理を使用して計算することができ、異なることは、ハード間隔損失関数の間隔は、固定値mであり、二つのモーダルでの比較損失関数の間隔は、対応するソフト間隔
Figure 0007331975000066
である。
本実施例では、ソフト間隔損失関数の計算プロセスを第1のモーダルでの比較損失関数と第2のモーダルでの比較損失関数との合計に変換することにより、クロスモーダルの損失関数の計算を単一モーダルでの損失関数計算に変換することができ、ソフト間隔損失関数の計算効率を向上させることができる。動的ソフト間隔損失関数と静的ソフト間隔損失関数を含むソフト間隔損失関数によって、ソフト間隔損失関数が他のモデルの知識、および自体モデルの知識を含むようにすることができようにすることができ、クロスモーダル検索モデルの効果を向上させることができる。事前トレーニングモデルを使用して静的類似性距離を取得することにより、既存のモデルを利用して、既存モデルに対する知識の導入を実現することができ、クロスモーダル検索モデルの現在のパラメータを使用して、自体モデルに対する知識の導入を実現することができる。
図10は、本開示の第10の実施例による概略図である。本実施例は、クロスモーダル検索モデルのトレーニング装置を提供し、当該装置1000は、第1の計算モジュール1001、第2の計算モジュール1002、およびトレーニングモジュール1003を含む。
第1の計算モジュール1001は、クロスモーダルサンプルペアに基づいて、クロスモーダルサンプルペアの類似性を決定するために用いられ、クロスモーダルサンプルペアは、第1のモーダルのサンプルと第2のモーダルのサンプルを含み、第1のモーダルは第2のモーダルと異なり、第2の計算モジュール1002は、類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を決定するために用いられ、トレーニングモジュール1003は、ソフト間隔損失関数に基づいて、総損失関数を決定し、総損失関数に基づいて、クロスモーダル検索モデルをトレーニングするために用いられる。
いくつかの実施例では、クロスモーダルサンプルペアは、少なくとも1つのペアであり、少なくとも1つのペアのクロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、正のサンプルペアは、アンカーサンプルと正のサンプルを含み、負のサンプルペアは、アンカーサンプルと負のサンプルを含み、アンカーサンプルは、第1のモーダルであり、正のサンプルと負のサンプルは、いずれも第2のモーダルであり、第2の計算モジュール1002は、具体的には、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得し、類似性距離に基づいて、ソフト間隔を決定するために用いられる。
いくつかの実施例では、第2の計算モジュール1002は、さらに、具体的には、類似性距離に対して正規化処理を行って、正規化された類似性距離を取得し、正規化された類似性距離を、ソフト間隔として決定するために用いられる。
いくつかの実施例では、類似性距離は、第1のモーダルでの類似性距離と第2のモーダルでの類似性距離を含み、第2の計算モジュール1002は、さらに、具体的には、第1のモーダルでの類似性距離に基づいて第1のモーダルでのソフト間隔を決定し、第1のモーダルでのソフト間隔に基づいて、第1のモーダルでの比較損失関数を計算し、第2のモーダルでの類似性距離に基づいて第2のモーダルでのソフト間隔を決定し、第1のモーダルでのソフト間隔に基づいて、第2のモーダルでの比較損失関数を計算し、第1のモーダルでの比較損失関数と第2のモーダルでの比較損失関数に基づいて、ソフト間隔損失関数を計算するために用いられる。
いくつかの実施例では、第1の計算モジュール1001は、具体的には、クロスモーダルサンプルペア、対応する第1のモーダルでのサンプルペア、および第2のモーダルでのサンプルペアを取得し、第1のモーダルでのセマンティック表現モデルを使用して、第1のモーダルでのサンプルペアを処理して、第1のモーダルでの類似性距離を取得し、および、第2のモーダルでのセマンティック表現モデルを使用して、第2のモーダルでのサンプルペアを処理して、第2のモーダルでの類似性距離を取得するために用いられる。
いくつかの実施例では、クロスモーダルサンプルペアは、少なくとも1つのグループの比較サンプルグループに対応し、トレーニングモジュール1003は、具体的には、ソフト間隔損失関数に基づいて、対応する比較サンプルグループの損失関数を計算し、少なくとも1つのグループの比較サンプルグループの各サンプルグループに対応する損失関数に基づいて、総損失関数を計算するために用いられる。
いくつかの実施例では、ソフト間隔損失関数は、少なくとも一つの状態のソフト間隔損失関数を含み、トレーニングモジュール1003は、さらに、具体的には、少なくとも一つの状態のソフト間隔損失関数を重み付き加算して、重み付き加算関数を取得し、重み付き加算関数とハード間隔損失関数を加算し、加算後の関数に基づいて対応する比較サンプルグループの損失関数を計算するために用いられる。
いくつかの実施例では、類似性距離は、静的類似性距離と動的類似性距離を含み、ソフト間隔損失関数は、静的ソフト間隔損失関数と動的ソフト間隔損失関数を含み、静的ソフト間隔損失関数は、静的類似性距離に基づいて計算され、動的ソフト間隔損失関数は、動的類似性距離に基づいて計算され、第2の計算モジュール1002は、具体的には、事前トレーニングモデルを使用して、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を計算して、静的類似性距離を取得し、及び/又は、クロスモーダル検索モデルの現在のパラメータを使用して、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を計算して、動的類似性距離を取得するために用いられる。
本開示の実施例では、異なる実施例の同じまたは類似の内容は、互いに参照できることを理解することができる。
本開示の実施例の「第1」、「第2」などは、区分にのみ用いられ、重要度の高低、時系列的な前後などを示すものではないことを理解されたい。
本開示の実施例では、クロスモーダルサンプルペアの類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を計算し、ソフト間隔損失関数に基づいて総損失関数を計算することで、異なるクロスモーダルサンプルペアに基づいて異なる間隔を選択し、固定の間隔によって引き起こされる問題を回避し、クロスモーダル検索モデルの検索効果を向上させることができる。正のサンプルペアの類似性と負のサンプルペアの類似性との間の類似性距離に基づいて、ソフト間隔を決定することができ、トリプレット比較損失関数のシナリオに適用することができる。各サンプルグループに対応する損失関数に基づいて総損失関数を計算することは、異なる負のサンプルペアの構成状況を考慮して、総損失関数の精度を向上させ、さらに、クロスモーダル検索モデルの効果を向上させることができる。単一モーダルでのセマンティック表現モデルを使用することにより、対応する単一モーダルでの類似性距離を計算して取得することができる。各サンプルグループに対応する損失関数に基づいて総損失関数を計算することは、異なる負のサンプルペアの構成状況を考慮して、総損失関数の精度を向上させ、さらに、クロスモーダル検索モデルの効果を向上させることができる。ソフト間隔損失関数の計算プロセスを第1のモーダルでの比較損失関数と第2のモーダルでの比較損失関数との合計に変換することにより、クロスモーダルの損失関数の計算を単一モーダルでの損失関数計算に変換することができ、ソフト間隔損失関数の計算効率を向上させることができる。動的ソフト間隔損失関数と静的ソフト間隔損失関数を含むソフト間隔損失関数によって、ソフト間隔損失関数が他のモデルの知識、および自体モデルの知識を含むようにすることができ、クロスモーダル検索モデルの効果を向上させることができる。事前トレーニングモデルを使用して静的類似性距離を取得することにより、既存のモデルを利用して、既存モデルに対する知識の導入を実現することができ、クロスモーダル検索モデルの現在のパラメータを使用して、自体モデルに対する知識の導入を実現することができる。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品をさらに提供する。
図11に示すように、本開示の実施例の例を実現するための電子機器1100のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図11に示すように、電子機器1100は計算ユニット1101を含み、計算ユニット1101は、読み取り専用メモリ(ROM)1102に記憶されているコンピュータプログラムまたは記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM1103には、電子機器1100が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット1101、ROM1102、およびRAM1103は、バス1104を介してお互いに接続される。入出力(I/O)インターフェース1105もバス1104に接続される。
電子機器1100内の複数のコンポーネントは、I/Oインターフェース1105に接続されており、キーボード、マウスなどの入力ユニット1106と、様々なタイプのディスプレイ、スピーカなどの出力ユニット1107と、ディスク、光ディスクなどの記憶ユニット1108と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1109と、を含む。通信ユニット1109は、電子機器1100が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット1101は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット1101のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1101は、クロスモーダル検索モデルのトレーニング方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、クロスモーダル検索モデルのトレーニング方法は、記憶ユニット1108などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM1102および/または通信ユニット1109を介して電子機器1100にロードおよび/またはインストールされる。コンピュータプログラムがRAM1103にロードされて計算ユニット1101によって実行される場合、上記のクロスモーダル検索モデルのトレーニング方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット1101は、他の任意の適切な方式(例えば、ファームウェアによって)を介してクロスモーダル検索モデルのトレーニング方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサーバ(Virtual Private Server、またはVPSと呼ぶ)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (17)

  1. コンピュータにより実行される、クロスモーダル検索モデルのトレーニング方法であって、
    前記クロスモーダル検索モデルを利用して、クロスモーダルサンプルペアに基づいて、前記クロスモーダルサンプルペアの類似性を決定するステップであって、前記クロスモーダルサンプルペアは、第1のモーダルのサンプルと第2のモーダルのサンプルを含み、前記第1のモーダルは前記第2のモーダルと異なるステップと、
    前記類似性に基づいてソフトマージンを決定し、前記ソフトマージンに基づいてソフトマージン損失関数を決定するステップと、
    前記ソフトマージン損失関数とハードマージン損失関数の加算結果に基づいて、総損失関数を決定し、前記総損失関数に基づいて、前記クロスモーダル検索モデルをトレーニングするステップと、を含む、
    クロスモーダル検索モデルのトレーニング方法。
  2. 前記クロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、前記正のサンプルペアは、アンカーサンプルと正のサンプルを含み、前記負のサンプルペアは、前記アンカーサンプルと負のサンプルを含み、前記アンカーサンプルは、第1のモーダルであり、前記正のサンプルと前記負のサンプルは、いずれも第2のモーダルであり、
    類似性に基づいてソフトマージンを決定するステップは、
    前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得するステップと、
    前記類似性距離に基づいて、ソフトマージンを決定するステップと、を含む、
    請求項1に記載のクロスモーダル検索モデルのトレーニング方法。
  3. 類似性距離に基づいて、ソフトマージンを決定するステップは、
    前記類似性距離に対して正規化処理を行って、正規化された類似性距離を取得し、前記正規化された類似性距離を、ソフトマージンとして決定するステップを含む、
    請求項2に記載のクロスモーダル検索モデルのトレーニング方法。
  4. 前記類似性距離は、第1のモーダルでの類似性距離と第2のモーダルでの類似性距離を含み、
    類似性に基づいてソフトマージンを決定し、前記ソフトマージンに基づいてソフトマージン損失関数を決定するステップは、
    前記第1のモーダルでの類似性距離に基づいて第1のモーダルでのソフトマージンを決定し、前記第1のモーダルでのソフトマージンに基づいて、第1のモーダルでの比較損失関数を計算するステップと、
    前記第2のモーダルでの類似性距離に基づいて第2のモーダルでのソフトマージンを決定し、前記第のモーダルでのソフトマージンに基づいて、第2のモーダルでの比較損失関数を計算するステップと、
    前記第1のモーダルでの比較損失関数と前記第2のモーダルでの比較損失関数に基づいて、ソフトマージン損失関数を計算するステップと、を含む、
    請求項2に記載のクロスモーダル検索モデルのトレーニング方法。
  5. クロスモーダルサンプルペアに基づいて、前記クロスモーダルサンプルペアの類似性を決定するステップは、
    前記クロスモーダルサンプルペアに対応する第1のモーダルでのサンプルペア、および第2のモーダルでのサンプルペアを取得するステップと、
    第1のモーダルでのセマンティック表現モデルを使用して、前記第1のモーダルでのサンプルペアを処理して、前記第1のモーダルでの類似性距離を取得し、および、第2のモーダルでのセマンティック表現モデルを使用して、前記第2のモーダルでのサンプルペアを処理して、前記第2のモーダルでの類似性距離を取得するステップと、を含む、
    請求項4に記載のクロスモーダル検索モデルのトレーニング方法。
  6. 前記クロスモーダルサンプルペアは、少なくとも1つのグループの比較サンプルグループに対応し、前記比較サンプルグループは、対応するクロスモーダルマッチングサンプルペア内の一つのサンプルであるアンカーサンプルと、前記アンカーサンプルが所在するクロスモーダルマッチングサンプルペア内の別のサンプルである正のサンプルと、ランダムに選択された前記アンカーサンプルが所在しないクロスモーダルマッチングサンプルペア内の、前記アンカーサンプルと異なるモーダルを有するサンプルである負のサンプルと、を含み、
    ソフトマージン損失関数とハードマージン損失関数の加算結果に基づいて、総損失関数を決定するステップは、
    前記ソフトマージン損失関数に含まれる静的ソフトマージン損失関数及び動的ソフトマージン損失関数を重み付き加算して、重み付き加算関数を取得し、前記重み付き加算関数とハードマージン損失関数を加算し、対応する比較サンプルグループの損失関数を計算するステップと、
    前記少なくとも1つのグループの比較サンプルグループの各サンプルグループに対応する損失関数に基づいて、総損失関数を計算するステップと、を含む、
    請求項1~5のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法。
  7. 前記類似性距離は、静的類似性距離と動的類似性距離を含み、的ソフトマージン損失関数は、前記静的類似性距離に基づいて計算され、的ソフトマージン損失関数は、前記動的類似性距離に基づいて計算され、
    正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得するステップは、
    事前トレーニングモデルを使用して、前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、前記静的類似性距離を取得し、及び/又は、
    前記クロスモーダル検索モデルの現在のパラメータを使用して、前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、前記動的類似性距離を取得するステップを含む、
    請求項2~5のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法。
  8. クロスモーダル検索モデルのトレーニング装置であって、
    前記クロスモーダル検索モデルを利用して、クロスモーダルサンプルペアに基づいて、前記クロスモーダルサンプルペアの類似性を決定するための第1の計算モジュールであって、前記クロスモーダルサンプルペアは、第1のモーダルのサンプルと第2のモーダルのサンプルを含み、前記第1のモーダルは前記第2のモーダルと異なる第1の計算モジュールと、
    前記類似性に基づいてソフトマージンを決定し、前記ソフトマージンに基づいてソフトマージン損失関数を決定するための第2の計算モジュールと、
    前記ソフトマージン損失関数とハードマージン損失関数の加算結果に基づいて、総損失関数を決定し、前記総損失関数に基づいて、クロスモーダル検索モデルをトレーニングするためのトレーニングモジュールと、を含む、
    クロスモーダル検索モデルのトレーニング装置。
  9. 前記クロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、前記正のサンプルペアは、アンカーサンプルと正のサンプルを含み、前記負のサンプルペアは、前記アンカーサンプルと負のサンプルを含み、前記アンカーサンプルは、第1のモーダルであり、前記正のサンプルと前記負のサンプルは、いずれも第2のモーダルであり、
    前記第2の計算モジュールは、具体的には、
    前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得し、
    前記類似性距離に基づいて、ソフトマージンを決定するために用いられる、
    請求項に記載のクロスモーダル検索モデルのトレーニング装置。
  10. 前記第2の計算モジュールは、さらに、具体的には、
    前記類似性距離に対して正規化処理を行って、正規化された類似性距離を取得し、前記正規化された類似性距離を、ソフトマージンとして決定するために用いられる、
    請求項に記載のクロスモーダル検索モデルのトレーニング装置。
  11. 前記類似性距離は、第1のモーダルでの類似性距離と第2のモーダルでの類似性距離を含み、
    前記第2の計算モジュールは、さらに、具体的には、
    前記第1のモーダルでの類似性距離に基づいて第1のモーダルでのソフトマージンを決定し、前記第1のモーダルでのソフトマージンに基づいて、第1のモーダルでの比較損失関数を計算し、
    前記第2のモーダルでの類似性距離に基づいて第2のモーダルでのソフトマージンを決定し、前記第のモーダルでのソフトマージンに基づいて、第2のモーダルでの比較損失関数を計算し、
    前記第1のモーダルでの比較損失関数と前記第2のモーダルでの比較損失関数に基づいて、ソフトマージン損失関数を計算するために用いられる、
    請求項に記載のクロスモーダル検索モデルのトレーニング装置。
  12. 前記第1の計算モジュールは、具体的には、
    前記クロスモーダルサンプルペアに対応する第1のモーダルでのサンプルペア、および第2のモーダルでのサンプルペアを取得し、
    第1のモーダルでのセマンティック表現モデルを使用して、前記第1のモーダルでのサンプルペアを処理して、前記第1のモーダルでの類似性距離を取得し、および、第2のモーダルでのセマンティック表現モデルを使用して、前記第2のモーダルでのサンプルペアを処理して、前記第2のモーダルでの類似性距離を取得するために用いられる、
    請求項11に記載のクロスモーダル検索モデルのトレーニング装置。
  13. 前記クロスモーダルサンプルペアは、少なくとも1つのグループの比較サンプルグループに対応し、前記比較サンプルグループは、対応するクロスモーダルマッチングサンプルペア内の一つのサンプルであるアンカーサンプルと、前記アンカーサンプルが所在するクロスモーダルマッチングサンプルペア内の別のサンプルである正のサンプルと、ランダムに選択された前記アンカーサンプルが所在しないクロスモーダルマッチングサンプルペア内の、前記アンカーサンプルと異なるモーダルを有するサンプルである負のサンプルと、を含み、
    前記トレーニングモジュールは、具体的には、
    前記ソフトマージン損失関数に含まれる静的ソフトマージン損失関数及び動的ソフトマージン損失関数を重み付き加算して、重み付き加算関数を取得し、前記重み付き加算関数とハードマージン損失関数を加算し、対応する比較サンプルグループの損失関数を計算し
    前記少なくとも1つのグループの比較サンプルグループの各サンプルグループに対応する損失関数に基づいて、総損失関数を計算するために用いられる、
    請求項12のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング装置。
  14. 前記類似性距離は、静的類似性距離と動的類似性距離を含み、的ソフトマージン損失関数は、前記静的類似性距離に基づいて計算され、的ソフトマージン損失関数は、前記動的類似性距離に基づいて計算され、
    前記第2の計算モジュールは、具体的には、
    事前トレーニングモデルを使用して、前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、前記静的類似性距離を取得し、及び/又は、
    前記クロスモーダル検索モデルの現在のパラメータを使用して、前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、前記動的類似性距離を取得するために用いられる、
    請求項12のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング装置。
  15. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法を実行する、
    電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法を実行させる、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  17. プロセッサによって実行される時に請求項1~のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法を実現する、
    コンピュータプログラム。
JP2022028920A 2021-03-05 2022-02-28 クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体 Active JP7331975B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110244645.X 2021-03-05
CN202110244645.XA CN113033622B (zh) 2021-03-05 2021-03-05 跨模态检索模型的训练方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022135991A JP2022135991A (ja) 2022-09-15
JP7331975B2 true JP7331975B2 (ja) 2023-08-23

Family

ID=76467941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022028920A Active JP7331975B2 (ja) 2021-03-05 2022-02-28 クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体

Country Status (5)

Country Link
US (1) US20220284246A1 (ja)
EP (1) EP4053751A1 (ja)
JP (1) JP7331975B2 (ja)
KR (1) KR20220125673A (ja)
CN (1) CN113033622B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407814B (zh) * 2021-06-29 2023-06-16 抖音视界有限公司 文本搜索方法、装置、可读介质及电子设备
CN113360683B (zh) * 2021-06-30 2024-04-19 北京百度网讯科技有限公司 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN114067233B (zh) * 2021-09-26 2023-05-23 四川大学 一种跨模态匹配方法及系统
CN114417878B (zh) * 2021-12-29 2023-04-18 北京百度网讯科技有限公司 语义识别方法、装置、电子设备及存储介质
CN114782719B (zh) * 2022-04-26 2023-02-03 北京百度网讯科技有限公司 一种特征提取模型的训练方法、对象检索方法以及装置
CN114840734B (zh) * 2022-04-29 2023-04-25 北京百度网讯科技有限公司 多模态表示模型的训练方法、跨模态检索方法及装置
CN115829058B (zh) * 2022-12-23 2024-04-23 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN115861995B (zh) * 2023-02-08 2023-05-23 山东海量信息技术研究院 一种视觉问答方法、装置及电子设备和存储介质
CN116776160B (zh) * 2023-08-23 2023-11-10 腾讯科技(深圳)有限公司 一种数据处理方法和相关装置
CN117392396B (zh) * 2023-12-08 2024-03-05 安徽蔚来智驾科技有限公司 跨模态目标状态的检测方法、设备、智能设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507218A (zh) 2020-04-08 2020-08-07 中国人民大学 语音与人脸图像的匹配方法、装置、存储介质及电子设备
JP2020177465A (ja) 2019-04-18 2020-10-29 国立大学法人 東京大学 情報処理装置、機械学習モデルの製造方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182279B (zh) * 2018-01-26 2019-10-01 有米科技股份有限公司 基于文本特征的对象分类方法、装置和计算机设备
BR112020022270A2 (pt) * 2018-05-14 2021-02-23 Quantum-Si Incorporated sistemas e métodos para unificar modelos estatísticos para diferentes modalidades de dados
CN109522850B (zh) * 2018-11-22 2023-03-10 中山大学 一种基于小样本学习的动作相似度评估方法
CN111325223B (zh) * 2018-12-13 2023-10-24 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
US11568315B2 (en) * 2019-03-22 2023-01-31 Royal Bank Of Canada Systems and methods for learning user representations for open vocabulary data sets
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
CN111862175B (zh) * 2020-07-13 2022-09-13 清华大学深圳国际研究生院 一种基于循环正则训练的跨模态医学图像配准方法及装置
CN112148916A (zh) * 2020-09-28 2020-12-29 华中科技大学 一种基于监督的跨模态检索方法、装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020177465A (ja) 2019-04-18 2020-10-29 国立大学法人 東京大学 情報処理装置、機械学習モデルの製造方法、及びプログラム
CN111507218A (zh) 2020-04-08 2020-08-07 中国人民大学 语音与人脸图像的匹配方法、装置、存储介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
David Semedo et al.,Adaptive Temporal Triplet-loss for Cross-modal Embedding Learning,MM '20: Proceedings of the 28th ACM International Conference on Multimedia,ACM,2020年10月12日,pp.1152-1161,Internet<URL: https://doi.org/10.1145/3394171.3413540>
Jiwei Wei et al.,Universal Weighting Metric Learning for Cross-Modal Matching,2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2020年,Internet<URL: https://doi.ieeecomputersociety.org/10.1109/CVPR42600.2020.01302>
安田 昌弘,弱ラベルで示される特定の共起関係に基づいたクロスモーダル音検索,日本音響学会 2020年 秋季研究発表会講演論文集CD-ROM [CD-ROM],日本,一般社団法人日本音響学会,2020年08月26日,pp.165~168,Internet<URL:https://www.jstage.jst.go.jp/article/jsdtpr/9/0/9_55/_pdf/-char/ja>

Also Published As

Publication number Publication date
KR20220125673A (ko) 2022-09-14
JP2022135991A (ja) 2022-09-15
CN113033622B (zh) 2023-02-03
US20220284246A1 (en) 2022-09-08
CN113033622A (zh) 2021-06-25
EP4053751A1 (en) 2022-09-07

Similar Documents

Publication Publication Date Title
JP7331975B2 (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN113553864B (zh) 翻译模型的训练方法、装置、电子设备及存储介质
CN112668671A (zh) 预训练模型的获取方法和装置
KR20220113881A (ko) 사전 훈련 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
JP2022177220A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
KR20220005416A (ko) 다항 관계 생성 모델의 트레이닝 방법, 장치, 전자 기기 및 매체
EP4064277A1 (en) Method and apparatus for training speech recognition model, device and storage medium
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
KR102635800B1 (ko) 신경망 모델의 사전 훈련 방법, 장치, 전자 기기 및 매체
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
JP7351942B2 (ja) 分野フレーズマイニング方法、装置及び電子機器
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
KR20230139296A (ko) 포인트 클라우드 처리 모델의 훈련과 포인트 클라우드 인스턴스 분할 방법 및 장치
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质
CN114861758A (zh) 多模态数据处理方法、装置、电子设备及可读存储介质
CN113435208B (zh) 学生模型的训练方法、装置及电子设备
CN113468857B (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN114817612A (zh) 多模态数据匹配度计算和计算模型训练的方法、相关装置
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
US20230070966A1 (en) Method for processing question, electronic device and storage medium
CN112784967A (zh) 信息处理方法、装置以及电子设备
CN116050465B (zh) 文本理解模型的训练方法和文本理解方法、装置
CN117573361A (zh) 工作负载生成的方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230724

R150 Certificate of patent or registration of utility model

Ref document number: 7331975

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150