JP2023072022A - マルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法及び装置 - Google Patents
マルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法及び装置 Download PDFInfo
- Publication number
- JP2023072022A JP2023072022A JP2023038523A JP2023038523A JP2023072022A JP 2023072022 A JP2023072022 A JP 2023072022A JP 2023038523 A JP2023038523 A JP 2023038523A JP 2023038523 A JP2023038523 A JP 2023038523A JP 2023072022 A JP2023072022 A JP 2023072022A
- Authority
- JP
- Japan
- Prior art keywords
- data
- modal
- representation
- sample
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 238000012549 training Methods 0.000 title claims abstract description 55
- 230000014509 gene expression Effects 0.000 claims description 65
- 238000011524 similarity measure Methods 0.000 claims description 51
- 230000000875 corresponding effect Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 22
- 230000002596 correlated effect Effects 0.000 claims description 19
- 238000013434 data augmentation Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 230000003416 augmentation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000003672 processing method Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000002845 discoloration Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/908—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
第1の取得ユニット710であって、サンプルタプルを取得するように構成され、前記サンプルタプルは、前記第1のデータモーダルの第1のサンプルと第2のサンプル、及び前記第2のデータモーダルの第3のサンプルと第4のサンプルを含み、ここで、前記サンプルタプルに含まれる各サンプルの意味はマッチングするものと、
第1の入力ユニット720であって、前記第1のサンプルと前記第2のサンプルをそれぞれ前記第1の表現ユニットに入力することで、前記第1のサンプルの第1の表現と前記第2のサンプルの第2の表現を取得するように構成されるものと、
第2の入力ユニット730であって、前記第3のサンプルと前記第4のサンプルをそれぞれ前記第2の表現ユニットに入力することで、前記第3のサンプルの第3の表現と前記第4のサンプルの第4の表現を取得するように構成されるものと、
第1の損失ユニット740であって、前記第1の表現と前記第2の表現に基づき、前記第1のデータモーダルの第1のシングルモーダル損失を決定するように構成されるものと、
第2の損失ユニット750であって、前記第3の表現と前記第4の表現に基づき、前記第2のデータモーダルの第2のシングルモーダル損失を決定するように構成されるものと、
第3の損失ユニット760であって、第1のターゲット表現と第2のターゲット表現に基づき、前記第1のデータモーダルから前記第2のデータモーダルへの第1のクロスモーダル損失と、前記第2のデータモーダルから前記第1のデータモーダルへの第2のクロスモーダル損失を決定するように構成され、ここで、前記第1のターゲット表現は前記第1の表現と前記第2の表現のうちのいずれか1つであり、前記第2のターゲット表現は前記第3の表現と前記第4の表現のうちのいずれか1つであるものと、
第4の損失ユニット770であって、前記第1のシングルモーダル損失と、前記第2のシングルモーダル損失と、前記第1のクロスモーダル損失と、前記第2のクロスモーダル損失に基づき、前記マルチモーダル表現モデルの全体の損失を決定するように構成されるものと、
調整ユニット780であって、前記全体の損失に基づき、前記マルチモーダル表現モデルのパラメータを調整するように構成されるものと、を含む。
第1の取得ユニット810であって、第1のデータモーダルの検索対象を取得するように構成されるものと、
表現ユニット820であって、前記検索対象をマルチモーダル表現モデルに入力することで、前記検索対象に対応する第1の表現を取得するように構成されるものと、
第2の取得ユニット830であって、第2のデータモーダルの複数の候補対象のそれぞれの第2の表現を取得するように構成され、ここで、前記第2の表現は、対応する候補対象を前記マルチモーダル表現モデルに入力することにより得られたものと、
決定ユニット840であって、前記第1の表現と各第2の表現の類似度に基づき、前記複数の候補対象から前記検索対象にマッチングするターゲット対象を決定するように構成され、ここで、前記マルチモーダル表現モデルは、上記マルチモーダル表現モデルに基づくトレーニング装置でトレーニングすることで得られたものと、を含む。
取得ユニット910であって、第1のデータモーダルの第1の対象と第2のデータモーダルの第2の対象を取得するように構成されるものと、
表現ユニット920であって、前記第1の対象と前記第2の対象をそれぞれマルチモーダル表現モデルに入力することで、前記第1の対象に対応する第1の表現と前記第2の対象に対応する第2の表現を取得するように構成されるものと、
決定ユニット930であって、前記第1の表現と前記第2の表現の類似度に基づき、前記第1の対象と前記第2の対象の推論タグを決定するように構成され、ここで、前記マルチモーダル表現モデルは、上記マルチモーダル表現モデルに基づくトレーニング装置でトレーニングすることで得られたものと、を含む。
Claims (31)
- マルチモーダル表現モデルのトレーニング方法であって、前記マルチモーダル表現モデルは、第1のデータモーダルに対応する第1の表現モジュールと、第2のデータモーダルに対応する第2の表現モジュールを含み、前記方法は、
サンプルタプルを取得し、前記サンプルタプルは、前記第1のデータモーダルの第1のサンプルと第2のサンプル、及び前記第2のデータモーダルの第3のサンプルと第4のサンプルを含み、前記サンプルタプルに含まれる各サンプルの意味はマッチングすることと、
前記第1のサンプルと前記第2のサンプルをそれぞれ前記第1の表現モジュールに入力することで、前記第1のサンプルの第1の表現と前記第2のサンプルの第2の表現を取得することと、
前記第3のサンプルと前記第4のサンプルをそれぞれ前記第2の表現モジュールに入力することで、前記第3のサンプルの第3の表現と前記第4のサンプルの第4の表現を取得することと、
前記第1の表現と前記第2の表現に基づき、前記第1のデータモーダルの第1のシングルモーダル損失を決定することと、
前記第3の表現と前記第4の表現に基づき、前記第2のデータモーダルの第2のシングルモーダル損失を決定することと、
第1のターゲット表現と第2のターゲット表現に基づき、前記第1のデータモーダルから前記第2のデータモーダルへの第1のクロスモーダル損失と、前記第2のデータモーダルから前記第1のデータモーダルへの第2のクロスモーダル損失を決定し、前記第1のターゲット表現は前記第1の表現と前記第2の表現のうちのいずれか1つであり、前記第2のターゲット表現は前記第3の表現と前記第4の表現のうちのいずれか1つであることと、
前記第1のシングルモーダル損失と、前記第2のシングルモーダル損失と、前記第1のクロスモーダル損失と、前記第2のクロスモーダル損失に基づき、前記マルチモーダル表現モデルの全体の損失を決定することと、
前記全体の損失に基づき、前記マルチモーダル表現モデルのパラメータを調整することと、を含む、マルチモーダル表現モデルのトレーニング方法。 - 生データペアを取得し、前記生データペアは、前記第1のデータモーダルの第1の生データと前記第2のデータモーダルの第2の生データを含み、前記第1の生データと前記第2の生データの意味はマッチングすることと、
前記第1の生データに基づき、前記第1のサンプルと前記第2のサンプルを生成することと、
前記第2の生データに基づき、前記第3のサンプルと前記第4のサンプルを生成することと、を更に含む、請求項1に記載の方法。 - 前記第1の生データに基づき、前記第1のサンプルと前記第2のサンプルを生成することは、
前記第1の生データに対する第1のデータ拡張処理を行うことで、前記第1のサンプルを生成することと、
前記第1の生データに対する第2のデータ拡張処理を行うことで、前記第1のサンプルと異なる前記第2のサンプルを生成することと、を含む、請求項2に記載の方法。 - 前記第1のサンプルと前記第2のサンプルは前記第1の生データと同じであり、前記第1の表現モジュールはランダムノイズを添加することで、前記第1の表現を前記第2の表現から異ならせるように構成される、請求項2に記載の方法。
- 前記第1のデータモーダルはテキストモーダルであり、前記第1の表現モジュールはdropout処理層を含むテキストエンコーダであり、前記dropout処理層のドロップ確率は予め設定された閾値より小さい、請求項4に記載の方法。
- 前記第1の表現と前記第2の表現に基づき、前記第1のデータモーダルの第1のシングルモーダル損失を決定することは、
前記第1の表現と前記第2の表現の第1の類似度、及び前記第1の表現と他のサンプルタプルの第2の表現の第2の類似度に基づき、前記第1のシングルモーダル損失を決定し、前記第1のシングルモーダル損失は、前記第1の類似度と負の相関を有し、且つ、前記第2の類似度と正の相関を有することを含む、請求項1に記載の方法。 - 第1のターゲット表現と第2のターゲット表現に基づき、前記第1のデータモーダルから前記第2のデータモーダルへの第1のクロスモーダル損失を決定することは、
前記第1のターゲット表現と前記第2のターゲット表現の第3の類似度、及び前記第1のターゲット表現と他のサンプルタプルの第2のターゲット表現の第4の類似度に基づき、前記第1のクロスモーダル損失を決定し、前記第1のクロスモーダル損失は、前記第3の類似度と負の相関を有し、且つ、前記第4の類似度と正の相関を有することを含む、請求項1に記載の方法。 - 第1のターゲット表現と第2のターゲット表現に基づき、前記第2のデータモーダルから前記第1のデータモーダルへの第2のクロスモーダル損失を決定することは、
前記第1のターゲット表現と前記第2のターゲット表現の第3の類似度、及び前記第2のターゲット表現と他のサンプルタプルの第1のターゲット表現の第5の類似度に基づき、前記第2のクロスモーダル損失を決定し、前記第2のクロスモーダル損失は、前記第3の類似度と負の相関を有し、且つ、前記第5の類似度と正の相関を有することを含む、請求項1に記載の方法。 - 前記全体の損失は、前記第1のシングルモーダル損失と、前記第2のシングルモーダル損失と、前記第1のクロスモーダル損失と、前記第2のクロスモーダル損失の加重和である、請求項1に記載の方法。
- 予め設定された適用場面におけるマッチングデータペアに基づき、前記マルチモーダル表現モデルに対する微調整を行うことを更に含む、請求項1に記載の方法。
- 前記マッチングデータペアはターゲットデータモーダルの第1のデータと第2のデータを含み、前記第1のデータと前記第2のデータの意味はマッチングし、予め設定された適用場面におけるマッチングデータペアに基づき、前記マルチモーダル表現モデルに対する微調整を行うことは、
前記マッチングデータペアに基づき、前記ターゲットデータモーダルに対応する表現モジュールに対する微調整を行うことを含む、請求項10に記載の方法。 - 前記マッチングデータペアは、第1のデータモーダルの第1のデータと第2のデータモーダルの第2のデータを含み、前記第1のデータと前記第2のデータの意味はマッチングし、予め設定された適用場面におけるマッチングデータペアに基づき、前記マルチモーダル表現モデルに対する微調整を行うことは、
前記第1のデータに基づき、前記第1のデータモーダルの第1のデータサンプルと第2のデータサンプルを生成することと、
前記第2のデータに基づき、前記第2のデータモーダルの第3のデータサンプルと第4のデータサンプルを生成することと、
前記第1のデータサンプルと、前記第2のデータサンプルと、前記第3のデータサンプルと、前記第4のデータサンプルに基づき、データサンプルタプルを構築することと、
前記データサンプルタプルに基づき、前記マルチモーダル表現モデルに対する微調整を行うこととを含む、請求項10に記載の方法。 - 前記第1のデータモーダルと前記第2のデータモーダルは、テキストモーダル、画像モーダル、ビデオモーダル、オーディオモーダルのいずれか2つである、請求項1に記載の方法。
- クロスモーダル検索方法であって、
第1のデータモーダルの検索対象を取得することと、
前記検索対象をマルチモーダル表現モデルに入力することで、前記検索対象に対応する第1の表現を取得することと、
第2のデータモーダルの複数の候補対象のそれぞれの第2の表現を取得し、前記第2の表現は、対応する候補対象を前記マルチモーダル表現モデルに入力することにより得られたことと、
前記第1の表現と各第2の表現の類似度に基づき、前記複数の候補対象から前記検索対象にマッチングするターゲット対象を決定することと、を含み、
前記マルチモーダル表現モデルは、請求項1に記載の方法でトレーニングすることで得られたものである、クロスモーダル検索方法。 - マルチモーダル表現モデルのトレーニング装置であって、前記マルチモーダル表現モデルは、第1のデータモーダルに対応する第1の表現ユニットと、第2のデータモーダルに対応する第2の表現ユニットを含み、前記装置は、
第1の取得ユニットであって、サンプルタプルを取得するように構成され、前記サンプルタプルは、前記第1のデータモーダルの第1のサンプルと第2のサンプル、及び前記第2のデータモーダルの第3のサンプルと第4のサンプルを含み、前記サンプルタプルに含まれる各サンプルの意味はマッチングするものと、
第1の入力ユニットであって、前記第1のサンプルと前記第2のサンプルをそれぞれ前記第1の表現ユニットに入力することで、前記第1のサンプルの第1の表現と前記第2のサンプルの第2の表現を取得するように構成されるものと、
第2の入力ユニットであって、前記第3のサンプルと前記第4のサンプルをそれぞれ前記第2の表現ユニットに入力することで、前記第3のサンプルの第3の表現と前記第4のサンプルの第4の表現を取得するように構成されるものと、
第1の損失ユニットであって、前記第1の表現と前記第2の表現に基づき、前記第1のデータモーダルの第1のシングルモーダル損失を決定するように構成されるものと、
第2の損失ユニットであって、前記第3の表現と前記第4の表現に基づき、前記第2のデータモーダルの第2のシングルモーダル損失を決定するように構成されるものと、
第3の損失ユニットであって、第1のターゲット表現と第2のターゲット表現に基づき、前記第1のデータモーダルから前記第2のデータモーダルへの第1のクロスモーダル損失と、前記第2のデータモーダルから前記第1のデータモーダルへの第2のクロスモーダル損失を決定するように構成され、前記第1のターゲット表現は前記第1の表現と前記第2の表現のうちのいずれか1つであり、前記第2のターゲット表現は前記第3の表現と前記第4の表現のうちのいずれか1つであるものと、
第4の損失ユニットであって、前記第1のシングルモーダル損失と、前記第2のシングルモーダル損失と、前記第1のクロスモーダル損失と、前記第2のクロスモーダル損失に基づき、前記マルチモーダル表現モデルの全体の損失を決定するように構成されるものと、
調整ユニットであって、前記全体の損失に基づき、前記マルチモーダル表現モデルのパラメータを調整するように構成されるものと、を含む、マルチモーダル表現モデルのトレーニング装置。 - 第2の取得ユニットであって、生データペアを取得するように構成され、前記生データペアは、前記第1のデータモーダルの第1の生データと前記第2のデータモーダルの第2の生データを含み、前記第1の生データと前記第2の生データの意味はマッチングするものと、
第1の生成ユニットであって、前記第1の生データに基づき、前記第1のサンプルと前記第2のサンプルを生成するように構成されるものと、
第2の生成ユニットであって、前記第2の生データに基づき、前記第3のサンプルと前記第4のサンプルを生成するように構成されるものと、を更に含む、請求項15に記載の装置。 - 前記第1の生成ユニットは、
第1の拡張サブユニットであって、前記第1の生データに対する第1のデータ拡張処理を行うことで、前記第1のサンプルを生成するように構成されるものと、
第2の拡張サブユニットであって、前記第1の生データに対する第2のデータ拡張処理を行うことで、前記第1のサンプルと異なる前記第2のサンプルを生成するように構成されるものと、を含む、請求項16に記載の装置。 - 前記第1のサンプルと前記第2のサンプルは前記第1の生データと同じであり、前記第1の表現ユニットは、ランダムノイズを添加することで、前記第1の表現を前記第2の表現から異ならせるように構成される、請求項16に記載の装置。
- 前記第1のデータモーダルはテキストモーダルであり、前記第1の表現ユニットはdropout処理層を含むテキストエンコーダであり、前記dropout処理層のドロップ確率は予め設定された閾値より小さい、請求項18に記載の装置。
- 前記第1の損失ユニットは更に、
前記第1の表現と前記第2の表現の第1の類似度、及び前記第1の表現と他のサンプルタプルの第2の表現の第2の類似度に基づき、前記第1のシングルモーダル損失を決定するように構成され、前記第1のシングルモーダル損失は、前記第1の類似度と負の相関を有し、且つ、前記第2の類似度と正の相関を有する、請求項15に記載の装置。 - 前記第3の損失ユニットは更に、
前記第1のターゲット表現と前記第2のターゲット表現の第3の類似度、及び前記第1のターゲット表現と他のサンプルタプルの第2のターゲット表現の第4の類似度に基づき、前記第1のクロスモーダル損失を決定するように構成され、前記第1のクロスモーダル損失は、前記第3の類似度と負の相関を有し、且つ、前記第4の類似度と正の相関を有する、請求項15に記載の装置。 - 前記第3の損失ユニットは更に、
前記第1のターゲット表現と前記第2のターゲット表現の第3の類似度、及び前記第2のターゲット表現と他のサンプルタプルの第1のターゲット表現の第5の類似度に基づき、前記第2のクロスモーダル損失を決定するように構成され、前記第2のクロスモーダル損失は、前記第3の類似度と負の相関を有し、且つ、前記第5の類似度と正の相関を有する、請求項15に記載の装置。 - 前記全体の損失は、前記第1のシングルモーダル損失と、前記第2のシングルモーダル損失と、前記第1のクロスモーダル損失と、前記第2のクロスモーダル損失の加重和である、請求項15に記載の装置。
- 予め設定された適用場面におけるマッチングデータペアに基づき、前記マルチモーダル表現モデルに対する微調整を行うように構成される微調整ユニットを更に含む、請求項15に記載の装置。
- 前記マッチングデータペアはターゲットデータモーダルの第1のデータと第2のデータを含み、前記第1のデータと前記第2のデータの意味はマッチングし、前記微調整ユニットは更に、
前記マッチングデータペアに基づき、前記ターゲットデータモーダルに対応する表現ユニットに対する微調整を行うように構成される、請求項24に記載の装置。 - 前記マッチングデータペアは、第1のデータモーダルの第1のデータと第2のデータモーダルの第2のデータを含み、前記第1のデータと前記第2のデータの意味はマッチングし、前記微調整ユニットは、
前記第1のデータに基づき、前記第1のデータモーダルの第1のデータサンプルと第2のデータサンプルを生成するように構成される第1の生成サブユニットと、
前記第2のデータに基づき、前記第2のデータモーダルの第3のデータサンプルと第4のデータサンプルを生成するように構成される第2の生成サブユニットと、
前記第1のデータサンプルと、前記第2のデータサンプルと、前記第3のデータサンプルと、前記第4のデータサンプルに基づき、データサンプルタプルを構築するように構成される第3の生成サブユニットと、
データサンプルタプルに基づき、前記マルチモーダル表現モデルに対する微調整を行うように構成される微調整サブユニットと、を含む、請求項24に記載の装置。 - 前記第1のデータモーダルと前記第2のデータモーダルは、テキストモーダル、画像モーダル、ビデオモーダル、オーディオモーダルのいずれか2つである、請求項15に記載の装置。
- クロスモーダル検索装置であって、
第1の取得ユニットであって、第1のデータモーダルの検索対象を取得するように構成されるものと、
表現ユニットであって、前記検索対象をマルチモーダル表現モデルに入力することで、前記検索対象に対応する第1の表現を取得するように構成されるものと、
第2の取得ユニットであって、第2のデータモーダルの複数の候補対象のそれぞれの第2の表現を取得するように構成され、前記第2の表現は、対応する候補対象を前記マルチモーダル表現モデルに入力することにより得られたものと、
決定ユニットであって、前記第1の表現と各第2の表現の類似度に基づき、前記複数の候補対象から前記検索対象にマッチングするターゲット対象を決定するように構成されるものと、を含み、
前記マルチモーダル表現モデルは、請求項15に記載の装置でトレーニングすることで得られたものである、クロスモーダル検索装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~14のいずれか一項に記載の方法を実行させる、電子機器。 - コンピュータに請求項1~14のいずれか一項に記載の方法を実行させるためのコンピュータ命令が記憶された非一時的コンピュータ可読記憶媒体。
- プロセッサによって実行されると、請求項1~14のいずれか一項に記載の方法を前記プロセッサに実行させるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210476076.6A CN114840734B (zh) | 2022-04-29 | 2022-04-29 | 多模态表示模型的训练方法、跨模态检索方法及装置 |
CN202210476076.6 | 2022-04-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023072022A true JP2023072022A (ja) | 2023-05-23 |
JP7552000B2 JP7552000B2 (ja) | 2024-09-18 |
Family
ID=82567724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023038523A Active JP7552000B2 (ja) | 2022-04-29 | 2023-03-13 | マルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法及び装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7552000B2 (ja) |
CN (1) | CN114840734B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994470A (zh) * | 2024-04-07 | 2024-05-07 | 之江实验室 | 一种多模态层次自适应的数字网格重建方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115640520B (zh) * | 2022-11-07 | 2023-07-14 | 北京百度网讯科技有限公司 | 跨语言跨模态模型的预训练方法、设备和存储介质 |
CN116304984A (zh) * | 2023-03-14 | 2023-06-23 | 烟台大学 | 基于对比学习的多模态意图识别方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461157B (zh) * | 2019-01-22 | 2022-11-18 | 大连理工大学 | 一种基于自学习的跨模态哈希检索方法 |
CN110597878B (zh) * | 2019-09-16 | 2023-09-15 | 广东工业大学 | 一种多模态数据的跨模态检索方法、装置、设备及介质 |
CN112148916A (zh) * | 2020-09-28 | 2020-12-29 | 华中科技大学 | 一种基于监督的跨模态检索方法、装置、设备及介质 |
CN112199375B (zh) * | 2020-09-30 | 2024-03-01 | 三维通信股份有限公司 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
CN113033622B (zh) * | 2021-03-05 | 2023-02-03 | 北京百度网讯科技有限公司 | 跨模态检索模型的训练方法、装置、设备和存储介质 |
CN113239214B (zh) * | 2021-05-19 | 2022-10-28 | 中国科学院自动化研究所 | 基于有监督对比的跨模态检索方法、系统及设备 |
CN113779361B (zh) * | 2021-08-27 | 2024-09-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114170533A (zh) * | 2021-12-08 | 2022-03-11 | 西安电子科技大学 | 基于注意力机制和多模态表征学习的滑坡识别方法及系统 |
-
2022
- 2022-04-29 CN CN202210476076.6A patent/CN114840734B/zh active Active
-
2023
- 2023-03-13 JP JP2023038523A patent/JP7552000B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117994470A (zh) * | 2024-04-07 | 2024-05-07 | 之江实验室 | 一种多模态层次自适应的数字网格重建方法及装置 |
CN117994470B (zh) * | 2024-04-07 | 2024-06-07 | 之江实验室 | 一种多模态层次自适应的数字网格重建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114840734A (zh) | 2022-08-02 |
JP7552000B2 (ja) | 2024-09-18 |
CN114840734B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12073334B2 (en) | Human-computer dialogue method and apparatus | |
US20220180202A1 (en) | Text processing model training method, and text processing method and apparatus | |
JP7317791B2 (ja) | エンティティ・リンキング方法、装置、機器、及び記憶媒体 | |
US11586814B2 (en) | Paraphrase sentence generation method and apparatus | |
US20220292269A1 (en) | Method and apparatus for acquiring pre-trained model | |
KR102382499B1 (ko) | 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체 | |
US11068474B2 (en) | Sequence to sequence conversational query understanding | |
WO2019242297A1 (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
JP2023072022A (ja) | マルチモーダル表現モデルのトレーニング方法、クロスモーダル検索方法及び装置 | |
US20240105159A1 (en) | Speech processing method and related device | |
US20230147550A1 (en) | Method and apparatus for pre-training semantic representation model and electronic device | |
JP7335300B2 (ja) | 知識事前訓練モデルの訓練方法、装置及び電子機器 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN110114765B (zh) | 通过共享话语的上下文执行翻译的电子设备及其操作方法 | |
US11314951B2 (en) | Electronic device for performing translation by sharing context of utterance and operation method therefor | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
US20240104353A1 (en) | Sequence-to sequence neural network systems using look ahead tree search | |
US20240177506A1 (en) | Method and Apparatus for Generating Captioning Device, and Method and Apparatus for Outputting Caption | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
US20230342561A1 (en) | Machine translation method and apparatus, device and storage medium | |
US20230317058A1 (en) | Spoken language processing method and apparatus, and storage medium | |
JP7472421B2 (ja) | 翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体 | |
CN115357710A (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 | |
EP4116865A2 (en) | Method and apparatus for training non-autoregressive translation model | |
WO2024086418A1 (en) | Hallucination mitigation for generative transformer models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230313 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7552000 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |