JP7397786B2 - クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 - Google Patents
クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 Download PDFInfo
- Publication number
- JP7397786B2 JP7397786B2 JP2020215106A JP2020215106A JP7397786B2 JP 7397786 B2 JP7397786 B2 JP 7397786B2 JP 2020215106 A JP2020215106 A JP 2020215106A JP 2020215106 A JP2020215106 A JP 2020215106A JP 7397786 B2 JP7397786 B2 JP 7397786B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- features
- text
- word meaning
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 48
- 238000012549 training Methods 0.000 claims description 225
- 239000013598 vector Substances 0.000 claims description 86
- 238000012545 processing Methods 0.000 claims description 56
- 239000003550 marker Substances 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 23
- 230000000007 visual effect Effects 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 230000001747 exhibiting effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 25
- 230000000694 effects Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/10—Recognition assisted with metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
画像における各オブジェクトは順序がないため、画像における各オブジェクトの順序特徴は、一つの固定IDに対応するベクトルを用いることができ、例えば、全て1と設定することができる。第1のモーダルマーカーは、例えば、マーカー[IMG]と設定する。順序特徴と第1のモーダルマーカーは、他の実現形態を有してもよく、本実施例では、限定しない。さらに、各オブジェクトに対応するオブジェクト特徴、順序特徴及び第1のモーダルマーカーを結合すると、各オブジェクトの画像特徴を生成する。
Claims (19)
- 複数の語彙データ及び複数の画像を含むサンプルセットを取得するステップと、
前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データに対応する少なくとも一つの前記画像との組合せであるステップと、
前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップと、
トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップと、を含み、
前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップが、
それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおいて前記画像が呈している各オブジェクトに対して画像特徴を抽出し、及び前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するステップと、
各オブジェクトの前記画像特徴と各テキストユニットの前記テキスト特徴とを結合し、入力特徴を取得するステップと、
前記入力特徴に基づいて、第1のトレーニングタスクを実行することで、前記語意モデルをトレーニングするステップと、を含み、
前記第1のトレーニングタスクが、
それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、前記入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換、及び重なる表示領域を有する少なくとも二つのオブジェクトを選択し、前記入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、
置換後に取得した入力特徴を前記語意モデルに入力することで、前記語意モデルから出力された第1の語意ベクトルを取得するステップと、
前記第1の語意ベクトルに基づいて、選択されたテキストユニット及び選択されたオブジェクトを予測するステップと、
予測の正確性に基づいて、前記語意モデルのパラメータを調整するステップと、
を含むクロスモーダル処理方法。 - 前記前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップは、
各前記語彙データを対応する語彙データにより説明される前記画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得するステップと、
固定的に設定された前記語彙データをランダムに特定された前記画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得、及び/又は、固定的に設定された前記画像をランダムに特定された前記語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するステップと、を含む請求項1に記載のクロスモーダル処理方法。 - 前記入力特徴は、マッチングマークをさらに含み、前記前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングするステップは、
前記入力特徴に基づいて、第2のトレーニングタスクを実行し、前記語意モデルをトレーニングするステップを含み、
前記第2のトレーニングタスクは、
それぞれのトレーニングサンプルに対して、対応する入力特徴における前記マッチングマークを設定値にしてから、前記語意モデルに入力することで、前記語意モデルから出力された第2の語意ベクトルを取得するステップと、
前記第2の語意ベクトルにおける前記マッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、
予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、前記語意モデルのパラメータを調整するステップと、を含む請求項2に記載のクロスモーダル処理方法。 - 前記対応するトレーニングサンプルにおける前記画像が呈している各オブジェクトに対して画像特徴を抽出するステップは、
前記画像が呈している各オブジェクトに対して、対応する関心領域の画像コンテンツ情報をプール化した視覚特徴と、対応するオブジェクトの画像内での展示位置を示す空間座標を取得するステップと、
前記視覚特徴と前記空間座標とを結合し、オブジェクト特徴を生成するステップと、
各オブジェクトの前記オブジェクト特徴、各オブジェクトの間の相互の順序関係を指示するオブジェクトの順序特徴及び、対応するオブジェクトが画像に属することを指示する設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するステップと、を含む請求項1に記載のクロスモーダル処理方法。 - 前記各オブジェクトの前記オブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するステップの前に、
それぞれのオブジェクトに対して、構築されたシードプールから対応するオブジェクトを説明する基準テキストを検出するステップと、
前記基準テキストの文字内容を前記オブジェクト特徴に融合するステップと、をさらに含む請求項4に記載のクロスモーダル処理方法。 - 前記前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するステップは、
前記語彙データにおける各テキストユニットに対して、対応するテキストユニットに含まれる文字を指示する文字特徴と、対応するテキストユニットの語順を指示する位置特徴を取得するステップと、
各テキストユニットの前記文字特徴、前記位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するステップと、を含む請求項1に記載のクロスモーダル処理方法。 - 前記各テキストユニットの前記文字特徴、前記位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するステップの前に、
それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するステップであって、前記基準画像で対応するテキストユニットにより説明されるオブジェクトを呈しているステップと、
前記基準画像の画像内容を前記文字特徴に融合するステップと、をさらに含む請求項6に記載のクロスモーダル処理方法。 - 前記レーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップは、
トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検出するステップ、
または、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成するステップ、を含む請求項1から7の何れかに記載のクロスモーダル処理方法。 - 複数の語彙データ及び複数の画像を含むサンプルセットを取得するための取得モジュールと、
前記サンプルセットに基づいて、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである複数のトレーニングサンプルを生成するための生成モジュールと、
前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるためのトレーニングモジュールと、
トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うための処理モジュールと、を含み、
前記トレーニングモジュールが、
それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける前記画像が呈している各オブジェクトに対して画像特徴を抽出し、及び前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するための抽出ユニットと、
各オブジェクトの前記画像特徴と各テキストユニットの前記テキスト特徴とを結合し、
入力特徴を取得するための結合ユニットと、
前記入力特徴に基づいて、第1のトレーニングタスクを実行し、前記語意モデルをトレーニングするためのトレーニングユニットと、を含み、
前記第1のトレーニングタスクが、
それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、前記入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換、及び重なる表示領域を有する少なくとも二つのオブジェクトを選択し、前記入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、
置換後に取得した入力特徴を前記語意モデルに入力することで、前記語意モデルから出力された第1の語意ベクトルを取得するステップと、
前記第1の語意ベクトルに基づいて、選択されたテキストユニット及び/又は選択されたオブジェクトを予測するステップと、
予測の正確性に基づいて、前記語意モデルのパラメータを調整するステップと、
を含むクロスモーダル処理装置。 - 前記生成モジュールは、具体的に、
各前記語彙データを対応する語彙データにより説明される前記画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、及び、固定的に設定された前記語彙データをランダムに特定された前記画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する、及び/又は、固定的に設定された前記画像をランダムに特定された前記語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するように構成される請求項9に記載のクロスモーダル処理装置。 - 前記入力特徴には、マッチングマークをさらに含まれ、
前記トレーニングモジュールは、具体的に、
前記入力特徴に基づいて、第2のトレーニングタスクを実行し、前記語意モデルをトレーニングするように構成され、
前記第2のトレーニングタスクは、
それぞれのトレーニングサンプルに対して、対応する入力特徴における前記マッチングマークを設定値にしてから、前記語意モデルに入力することで、前記語意モデルから出力された第2の語意ベクトルを取得するステップと、
前記第2の語意ベクトルにおける前記マッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、
予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、前記語意モデルのパラメータを調整するステップと、
を含む請求項10に記載のクロスモーダル処理装置。 - 前記抽出ユニットは、
前記画像が呈している各オブジェクトに対して、対応する関心領域の画像コンテンツ情報をプール化した視覚特徴と、対応するオブジェクトの画像内での展示位置を示す空間座標を取得するための取得サブユニットと、
前記視覚特徴と前記空間座標とを結合し、オブジェクト特徴を生成するための結合サブユニットと、
各オブジェクトの前記オブジェクト特徴、各オブジェクトの間の相互の順序関係を指示するオブジェクトの順序特徴及び、対応するオブジェクトが画像に属することを指示する設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するための生成サブユニットと、をさらに含む請求項9に記載のクロスモーダル処理装置。 - 前記抽出ユニットは、
それぞれのオブジェクトに対して、構築されたシードプールから対応するオブジェクトを説明する基準テキストを検出するための検出サブユニットと、
前記基準テキストの文字内容を前記オブジェクト特徴に融合するための融合サブユニットと、をさらに含む請求項12に記載のクロスモーダル処理装置。 - 前記取得サブユニットは、前記語彙データにおける各テキストユニットに対して、対応するテキストユニットに含まれる文字を指示する文字特徴と、対応するテキストユニットの語順を指示する位置特徴を取得するようにさらに構成され、
前記生成サブユニットは、各テキストユニットの前記文字特徴、前記位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するようにさらに構成される請求項12に記載のクロスモーダル処理装置。 - 前記検出サブユニットは、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するようにさらに構成され、前記基準画像は、対応するテキストユニットにより説明されるオブジェクトを呈しており、
前記融合サブユニットは、前記基準画像の画像内容を前記文字特徴に融合するようにさらに構成される請求項13に記載のクロスモーダル処理装置。 - 前記処理モジュールは、具体的に、
トレーニングされた語意モデルを用いて、語彙データに基づいて対応する画像を検出する、又は、トレーニングされた語意モデルを用いて、画像に基づいて対応する画像を説明する語彙データを生成するように構成される請求項9から15の何れかに記載のクロスモーダル処理装置。 - 少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが、請求項1から8の何れかに記載のクロスモーダル処理方法を実行できることを特徴とする、電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1から8のいずれかに記載のクロスモーダル処理方法を実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータ上で動作しているときに、請求項1から8のいずれかに記載のクロスモーダル処理方法を前記コンピュータに実行させることを特徴とする、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010238730.0A CN111461203A (zh) | 2020-03-30 | 2020-03-30 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN202010238730.0 | 2020-03-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021163456A JP2021163456A (ja) | 2021-10-11 |
JP7397786B2 true JP7397786B2 (ja) | 2023-12-13 |
Family
ID=71681724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020215106A Active JP7397786B2 (ja) | 2020-03-30 | 2020-12-24 | クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11341366B2 (ja) |
EP (1) | EP3889830A1 (ja) |
JP (1) | JP7397786B2 (ja) |
KR (1) | KR20210040326A (ja) |
CN (1) | CN111461203A (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475658B (zh) * | 2020-06-12 | 2020-12-25 | 北京百度网讯科技有限公司 | 知识表示学习方法、装置、设备以及存储介质 |
EP3926531B1 (en) * | 2020-06-17 | 2024-04-24 | Tata Consultancy Services Limited | Method and system for visio-linguistic understanding using contextual language model reasoners |
CN113177147B (zh) * | 2020-08-13 | 2022-05-17 | 阿里巴巴集团控股有限公司 | 对象、机器模型处理方法、装置、设备和存储介质 |
CN112287134B (zh) * | 2020-09-18 | 2021-10-15 | 中国科学院深圳先进技术研究院 | 检索模型的训练和识别方法、电子设备及存储介质 |
CN112765992A (zh) * | 2021-01-14 | 2021-05-07 | 深圳市人马互动科技有限公司 | 训练数据的构建方法、装置、计算机设备及存储介质 |
CN112528048B (zh) * | 2021-02-18 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 一种跨模态检索方法、装置、设备及介质 |
CN115017911A (zh) * | 2021-03-05 | 2022-09-06 | 微软技术许可有限责任公司 | 针对视觉和语言的跨模态处理 |
CN112966127B (zh) * | 2021-04-07 | 2022-05-20 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113239153B (zh) * | 2021-05-26 | 2022-11-29 | 清华大学深圳国际研究生院 | 一种基于实例遮掩的文本与图像互检索方法 |
CN113591902B (zh) * | 2021-06-11 | 2022-09-27 | 中国科学院自动化研究所 | 基于多模态预训练模型的跨模态理解与生成方法和装置 |
CN113393833B (zh) * | 2021-06-16 | 2024-04-02 | 中国科学技术大学 | 音视频唤醒方法、系统、设备及存储介质 |
CN113360683B (zh) * | 2021-06-30 | 2024-04-19 | 北京百度网讯科技有限公司 | 训练跨模态检索模型的方法以及跨模态检索方法和装置 |
CN113628294B (zh) * | 2021-07-09 | 2023-06-20 | 南京邮电大学 | 一种面向跨模态通信系统的图像重建方法及装置 |
CN113947771B (zh) * | 2021-10-15 | 2023-06-27 | 北京百度网讯科技有限公司 | 图像识别方法、装置、设备、存储介质以及程序产品 |
CN113947700A (zh) * | 2021-10-18 | 2022-01-18 | 北京百度网讯科技有限公司 | 模型确定方法、装置、电子设备和存储器 |
CN113947147B (zh) * | 2021-10-18 | 2023-04-18 | 北京百度网讯科技有限公司 | 目标地图模型的训练方法、定位方法及相关装置 |
CN114186564B (zh) * | 2021-11-05 | 2023-11-24 | 北京百度网讯科技有限公司 | 语义表示模型的预训练方法、装置以及电子设备 |
CN114022735B (zh) * | 2021-11-09 | 2023-06-23 | 北京有竹居网络技术有限公司 | 视觉语言预训练模型的训练方法、装置、设备及介质 |
CN114357204B (zh) * | 2021-11-25 | 2024-03-26 | 腾讯科技(深圳)有限公司 | 媒体信息的处理方法及相关设备 |
CN114140603B (zh) * | 2021-12-08 | 2022-11-11 | 北京百度网讯科技有限公司 | 虚拟形象生成模型的训练方法和虚拟形象生成方法 |
CN114299194B (zh) * | 2021-12-23 | 2023-06-02 | 北京百度网讯科技有限公司 | 图像生成模型的训练方法、图像生成方法及装置 |
CN114417878B (zh) * | 2021-12-29 | 2023-04-18 | 北京百度网讯科技有限公司 | 语义识别方法、装置、电子设备及存储介质 |
CN114429552A (zh) * | 2022-01-21 | 2022-05-03 | 北京有竹居网络技术有限公司 | 对象属性识别方法、装置、可读存储介质及电子设备 |
CN114419351B (zh) * | 2022-01-28 | 2024-08-23 | 深圳市腾讯计算机系统有限公司 | 图文预训练模型训练、图文预测模型训练方法和装置 |
CN114239760B (zh) * | 2022-02-25 | 2022-05-20 | 苏州浪潮智能科技有限公司 | 多模态模型训练以及图像识别方法、装置、电子设备 |
CN114549935B (zh) * | 2022-02-25 | 2024-05-07 | 北京百度网讯科技有限公司 | 信息生成方法和装置 |
CN114663915B (zh) * | 2022-03-04 | 2024-04-05 | 西安交通大学 | 基于Transformer模型的图像人-物交互定位方法及系统 |
CN114611498A (zh) * | 2022-03-18 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 标题生成方法、模型训练方法及装置 |
CN114372477B (zh) * | 2022-03-21 | 2022-06-10 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
CN115035538B (zh) * | 2022-03-22 | 2023-04-07 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
CN114692778B (zh) * | 2022-04-13 | 2023-07-25 | 北京百度网讯科技有限公司 | 用于智能巡检的多模态样本集生成方法、训练方法及装置 |
CN114896438B (zh) * | 2022-05-10 | 2024-06-28 | 西安电子科技大学 | 基于分层对齐和广义池化图注意力机制的图文检索方法 |
CN115033670B (zh) * | 2022-06-02 | 2024-08-02 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN115294150A (zh) * | 2022-06-22 | 2022-11-04 | 华为技术有限公司 | 一种图像处理方法和终端设备 |
CN115081627B (zh) * | 2022-07-27 | 2022-11-25 | 中南大学 | 一种基于生成式网络的跨模态数据哈希检索攻击方法 |
KR102594547B1 (ko) * | 2022-11-28 | 2023-10-26 | (주)위세아이텍 | 멀티모달 특성 기반의 이미지 검색 장치 및 방법 |
CN115659987B (zh) * | 2022-12-28 | 2023-03-21 | 华南师范大学 | 基于双通道的多模态命名实体识别方法、装置以及设备 |
CN116363262B (zh) * | 2023-03-31 | 2024-02-02 | 北京百度网讯科技有限公司 | 图像生成方法、装置及电子设备 |
CN116127123B (zh) * | 2023-04-17 | 2023-07-07 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
CN116630726B (zh) * | 2023-07-26 | 2023-09-22 | 成都大熊猫繁育研究基地 | 基于多模态的鸟类分类方法及系统 |
CN117726897B (zh) * | 2023-09-22 | 2024-09-24 | 书行科技(北京)有限公司 | 训练数据生成方法、装置、电子设备和存储介质 |
CN117274619B (zh) * | 2023-11-21 | 2024-02-09 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种基于风格融合对比学习的跨域目标识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097604A1 (en) | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Stacked cross-modal matching |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060088806A1 (en) * | 2004-10-26 | 2006-04-27 | Clark Quinn | Learning integrating system and methods |
US8903167B2 (en) * | 2011-05-12 | 2014-12-02 | Microsoft Corporation | Synthesizing training samples for object recognition |
US9836671B2 (en) * | 2015-08-28 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
JP2019514100A (ja) * | 2016-03-08 | 2019-05-30 | ナント ホールディングス アイピー, エルエルシー | イメージベースオブジェクト認識のための画像特徴組み合わせ |
CN106095893B (zh) * | 2016-06-06 | 2018-11-20 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CA3012647A1 (en) * | 2017-08-10 | 2019-02-10 | Cloudsight, Inc. | Content based image management and selection |
US10719742B2 (en) * | 2018-02-15 | 2020-07-21 | Adobe Inc. | Image composites using a generative adversarial neural network |
US10628708B2 (en) * | 2018-05-18 | 2020-04-21 | Adobe Inc. | Utilizing a deep neural network-based model to identify visually similar digital images based on user-selected visual attributes |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109447242B (zh) * | 2018-10-10 | 2021-08-20 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN109522970B (zh) * | 2018-11-28 | 2021-05-04 | 南京旷云科技有限公司 | 图像分类方法、装置及系统 |
CN109378054A (zh) * | 2018-12-13 | 2019-02-22 | 山西医科大学第医院 | 一种多模态图像辅助诊断系统及其搭建方法 |
CN109816039B (zh) * | 2019-01-31 | 2021-04-20 | 深圳市商汤科技有限公司 | 一种跨模态信息检索方法、装置和存储介质 |
CN110298395B (zh) * | 2019-06-18 | 2023-04-18 | 天津大学 | 一种基于三模态对抗网络的图文匹配方法 |
US11734352B2 (en) * | 2020-02-14 | 2023-08-22 | Naver Corporation | Cross-modal search systems and methods |
-
2020
- 2020-03-30 CN CN202010238730.0A patent/CN111461203A/zh active Pending
- 2020-08-10 US US16/988,774 patent/US11341366B2/en active Active
- 2020-12-24 JP JP2020215106A patent/JP7397786B2/ja active Active
-
2021
- 2021-01-05 EP EP21150239.8A patent/EP3889830A1/en not_active Withdrawn
- 2021-03-24 KR KR1020210038308A patent/KR20210040326A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200097604A1 (en) | 2018-09-21 | 2020-03-26 | Microsoft Technology Licensing, Llc | Stacked cross-modal matching |
Non-Patent Citations (4)
Title |
---|
Di Qi et al., "ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data", arXiv:2001.07966, 2020.01.23, https://arxiv.org/abs/2001.07966 |
Gen Li et al., "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training", arXiv:1908.06066, 2019.12.02, https://arxiv.org/abs/1908.06066 |
Junyang Lin et al., "InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining", arXiv:2003.13198v1, 2020.03.30, https://arxiv.org/abs/2003.13198v1 |
Mandar Joshi et al., "SpanBERT: Improving Pre-training by Representing and Predicting Spans", arXiv:1907.10529, 2020.01.18, https://arxiv.org/abs/1907.10529 |
Also Published As
Publication number | Publication date |
---|---|
US20210303921A1 (en) | 2021-09-30 |
CN111461203A (zh) | 2020-07-28 |
JP2021163456A (ja) | 2021-10-11 |
US11341366B2 (en) | 2022-05-24 |
KR20210040326A (ko) | 2021-04-13 |
EP3889830A1 (en) | 2021-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7397786B2 (ja) | クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 | |
US11410033B2 (en) | Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications | |
Cheng et al. | Fully convolutional networks for continuous sign language recognition | |
CN112560912B (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
KR102565659B1 (ko) | 정보 생성 방법 및 장치 | |
CN112287156B (zh) | 利用多个对象检测模型在图像中自动选择用户请求的对象 | |
AU2020202601B2 (en) | Utilizing object attribute detection models to automatically select instances of detected objects in images | |
RU2688271C2 (ru) | Поиск изображений на естественном языке | |
CN110717339A (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN110991427B (zh) | 用于视频的情绪识别方法、装置和计算机设备 | |
KR20210040851A (ko) | 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체 | |
JP2021082308A (ja) | マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体 | |
KR20220113829A (ko) | 차량 추적 방법, 장치 및 전자 기기 | |
EP3876163A2 (en) | Model training, image processing method, device, storage medium, and program product | |
CN111738251A (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN108073851B (zh) | 一种抓取手势识别的方法、装置及电子设备 | |
CN111078878A (zh) | 文本处理方法、装置、设备及计算机可读存储介质 | |
CN112149741A (zh) | 图像识别模型的训练方法、装置、电子设备及存储介质 | |
CN111902812A (zh) | 电子装置及其控制方法 | |
CN111090991A (zh) | 场景纠错方法、装置、电子设备和存储介质 | |
Xu et al. | Text-guided human image manipulation via image-text shared space | |
CN112597288B (zh) | 人机交互方法、装置、设备及存储介质 | |
CN110738261B (zh) | 图像分类和模型训练方法、装置、电子设备及存储介质 | |
Constantin et al. | Interactive multimodal robot dialog using pointing gesture recognition | |
CN112668464B (zh) | 一种融合场景匹配的中文手语翻译模型构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220518 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220913 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20230106 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230131 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230418 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7397786 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |