JP7397786B2 - クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 - Google Patents

クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 Download PDF

Info

Publication number
JP7397786B2
JP7397786B2 JP2020215106A JP2020215106A JP7397786B2 JP 7397786 B2 JP7397786 B2 JP 7397786B2 JP 2020215106 A JP2020215106 A JP 2020215106A JP 2020215106 A JP2020215106 A JP 2020215106A JP 7397786 B2 JP7397786 B2 JP 7397786B2
Authority
JP
Japan
Prior art keywords
image
features
text
word meaning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020215106A
Other languages
English (en)
Other versions
JP2021163456A (ja
Inventor
ギョ―チェン ニウ,
ボレイ へー,
シンヤン シャオ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021163456A publication Critical patent/JP2021163456A/ja
Application granted granted Critical
Publication of JP7397786B2 publication Critical patent/JP7397786B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Description

本出願は、コンピュータの技術分野に関し、特に、自然言語処理の技術分野に関する。具体的には、クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体に関する。
私たちが住んでいる世界は、マルチモーダルな世界であり、文字、視覚などの異なるモーダルの内容は、私たちの生活に溢れている。人工知能技術の急速な発展に伴い、例えば、視覚-言語のようなマルチモーダル処理に基づくニーズと要求は、ますます高まっている。
しかしながら、現在のマルチモーダル処理方法では、モデルのトレーニングを行う際に、十分な語意情報を捉えることができず、テキストと視覚との2つのモーダル間の語意的な関連も確立されておらず、モデルのトレーニング効果がよくない。
クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体を提供する。
第1の態様は、トレーニング語彙データと対応する画像との組合わせをトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した、クロスモーダル処理方法を提供する。
本出願の第2の態様は、クロスモーダル処理装置を提案する。
本出願の第3の態様は、電子機器を提案する。
本出願の第4の態様は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提案する。
本出願の第1の態様の実施例は、複数の語彙データ及び複数の画像を含むサンプルセットを取得するステップと、前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データに対応する少なくとも一つの前記画像との組合せであるステップと、前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることによって、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップと、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップと、を含む、クロスモーダル処理方法を提案する。
本出願の第2の態様の実施例は、複数の語彙データ及び複数の画像を含むサンプルセットを取得するための取得モジュールと、前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するための生成モジュールであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである生成モジュールと、前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることによって、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるためのトレーニングモジュールと、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うための処理モジュールと、を含む、クロスモーダル処理装置を提案する。
本出願の第3の態様の実施例は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行されることによって、前記少なくとも一つのプロセッサが、第1の態様のクロスモーダル処理方法を実行可能である、電子機器を提案する。
本出願の第4の態様の実施例は、前記コンピュータ命令が、前記コンピュータに、第1の態様に記載のクロスモーダル処理方法を実行させる、ことを特徴とする、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提案する。
本出願の実施例に係る技術案は、以下の有益な効果を含むことができる。すなわち、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行い、トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
なお、本発明の概要に記載の内容は、本開示の実施例の肝心な特徴又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の明細書により理解されやすくなる。
図面は、本方案をよりよく理解するためのものであり、本出願に対する限定を構成するものではない。
本出願の実施例に係るクロスモーダル処理方法のフローチャートである。 本出願の実施例に係る他のクロスモーダル処理方法のフローチャートである。 本出願の実施例に係るクロスモーダル処理のアーキテクチャ説明図である。 本出願の実施例に係る別のクロスモーダル処理方法のフローチャートである。 本出願の実施例に係る画像とテキストとが対応する説明図である。 本出願の実施例に係る別のクロスモーダル処理方法的フローチャートである。 本出願の実施例に係るクロスモーダル処理装置の概略構成図である。及び 本出願の実施例に係るクロスモーダル処理方法を実現するための電子機器のブロック図である。
以下、本出願の例示的な実施例を、図面を参照して説明する。理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでいるが、それらは単なる例示であると見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解されたい。同様に、明確かつ簡潔するため、以下の説明では、周知の機能及び構成の説明を省略する。
以下、本出願の実施例に係るクロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体を、図面を参照して説明する。
図1は、本出願の実施例に係るクロスモーダル処理方法のフローチャートである。インタアクティブ時に使用される用語をモーダルする。クロスモーダルとは、テキスト、画像、ビデオなどの多くの手段とシンボルキャリアを組合わせてインタラクティブにする現象を指し、それに応じて、クロスモーダルは、例えば、画像とテキスト情報を同時に含むなど、少なくとも2つのモーダルの情報を同時に含む。
図1に示すように、当該方法は、以下のステップを含む。
ステップ101において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。
語彙データは、少なくとも一つのテキストユニットを含む。
可能な一実現形態として、マルチメディアデータセットから異なるモーダルのデータを収集して、複数の画像と対応する複数の語彙データを含むサンプルセットを生成することができる。語彙データは、対応する画像の内容を説明するように構成される。
ステップ102において、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせである。
具体的には、サンプルセットに含まれる複数の語彙データ及び複数の画像に基づいて、語彙データと対応する画像とを組合せ、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせである。
ステップ103において、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させる。
本実施例において、語彙データと画像とを組合せトレーニングサンプルを生成し、トレーニングサンプルにテキストの情報と対応する画像の情報とを同時に含むようにすることで、語意モデルがトレーニングする際に語彙データと画像との組合せ情報に基づいたトレーニングを行うようにし、モデルが語彙データと画像との組合せの語意ベクトルを学習可能にする。語彙データと画像との組合せの語意ベクトルには、2種のモーダル間の語意的な関連を含む。語意モデルのトレーニング効果が向上し、従来技術では、語意モデルのトレーニングを行う際に、語彙データと画像に基づいて独立して認識モデルを構築するとともにトレーニングし、それぞれのモーダルに対応する認識モデルの結果を重み付けして対応する語意情報を取得するので、トレーニングして取得したモデルが語彙データと画像との間の語意的な関連を認識できず、すなわち、語彙データと対応する画像との間の語意的な関連が分割され、モデルのトレーニング効果が悪くなり、認識効果が悪くなってしまう。
本実施例におけるトレーニングサンプルは、少なくとも1つの語彙モータと任意の少なくとも1つの画像との組合わせであってもよい。語彙データと画像の組合わせ方が異なると、対応するトレーニングタスクも異なり、異なるトレーニングタスクごとに対して、語意モデルをトレーニングする。これについては、後続の実施例で詳しく紹介する。
ステップ104において、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。
本実施例において、トレーニングされた語意モデルは、語彙データと画像との組合せの語意ベクトルを学習し、語彙データと画像との間の語意的な関連を学習する。トレーニングされた語意モデルを具体的な語彙データと画像とのクロスモーダル処理に適用する。例えば、画像に基づいて、対応する画像を説明する語彙データを生成し、或いは、語彙データに基づいて、対応する画像を検出する。
選択可能には、実際に適用するシーンでは、異なる認識タスクに応じて、認識を行うための画像及び語彙データを識別することができる。モデルの認識結果に応じて、モデルのパラメータを微調整することで、そのシーンの認識タスクにおけるモデルの認識効果を向上させる。
本実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像との組合せをトレーニングすることによって、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
上記の実施例に基づいて、本実施例は、別のクロスモーダル処理方法を提供する。本実施例において、語意モデルに実行されるものを第1のトレーニングタスクとして説明する。
図2は、本出願の実施例に係る他のクロスモーダル処理方法のフローチャートである。
図2に示すように、当該方法は、以下ステップを含むことができる。
ステップ201において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。
ステップ202において、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。ここで、それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせである。
具体的には、上記の実施例におけるステップ101~102を参照することができるが、原理が同じであるので、ここでは説明を省略する。
ステップ203において、それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける画像が呈している各オブジェクトに対して画像特徴を抽出し、及び、語彙データにおける各テキストユニットに対してテキスト特徴を抽出する。
本実施例において、それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける画像が呈している各オブジェクトに対して画像特徴を抽出する。オブジェクトとは、画像が呈している、例えば、人、ビル、樹木及び車両などの実体を指す。具体的には、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得する。可能な一実現形態として、それぞれのトレーニングサンプルに対して、サンプルに含まれる画像に対して、高速目標検出モデルFaster R-CNNで画像における各オブジェクトの領域、及び視覚特徴と空間座標である領域に対応する特徴を認識する。視覚特徴は、対応する関心領域の画像コンテンツ情報をFaster R-CNNモデルでプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。視覚特徴と空間座標とを結合し、各オブジェクトのオブジェクト特徴を生成し、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成する。オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第1のモーダルマーカーは、対応するオブジェクトが対応する画像に属することを指示するように構成される。
図3に示すように、トレーニングサンプルにおける画像は、図3の画像である。図3に示される画像を語意分割モデルで認識し、画像が呈しているオブジェクトには、T1に指示される建物building、T2に指示されるドアdoor、T3に指示される自転車bicycle、T4に指示されるバスケットbasket及びT5に指示される女子womanが含まれることが認識され、各オブジェクトに対して特徴を抽出して画像が呈している各オブジェクトのオブジェクト特徴を取得しVbuilding、Vdoor、Vwoman、Vbicycle、及びVbasketとマーカーする。
画像における各オブジェクトは順序がないため、画像における各オブジェクトの順序特徴は、一つの固定IDに対応するベクトルを用いることができ、例えば、全て1と設定することができる。第1のモーダルマーカーは、例えば、マーカー[IMG]と設定する。順序特徴と第1のモーダルマーカーは、他の実現形態を有してもよく、本実施例では、限定しない。さらに、各オブジェクトに対応するオブジェクト特徴、順序特徴及び第1のモーダルマーカーを結合すると、各オブジェクトの画像特徴を生成する。
それぞれのトレーニングサンプルに対して、語彙データにおける各テキストユニットに対してテキスト特徴を抽出する。具体的には、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得する。文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成され、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成する。第2のモーダルマーカーは、対応するテキストユニットが対応する語彙データに属することを指示するように構成される。
例えば、一つの語彙データは、A woman riding a bike with a dog in a basketであり、当該語彙データを複数のテキストユニットに分け、それぞれのテキストユニットには、1つまたは複数でもよい所定数の文字を含み、各テキストユニットの文字特徴を取得てもよい。即ち、各テキストユニットには、所定数の文字を含み、語彙データに含まれる全てのテキストユニットを語順に従い、2から順に1コードずつ増加し、語彙データに12つのテキスト単位があるとして、対応する位置特徴は、2、3、4、5、……12と13に順次コード化される。図3に示すように、設定された第2のモーダルマーカーは、例えば [Text]である。
本実施例では、それぞれのトレーニングサンプルに対して、画像が呈する各オブジェクトのオブジェクト特徴を生成し、対応するテキスト特徴をさらに生成し、オブジェクト特徴が生成された後、オブジェクト特徴に含まれるベクトルの次元がテキスト特徴の次元よりも大きければ、各オブジェクトのオブジェクト特徴を、対応するテキスト特徴の次元と同一に圧縮することで、次元の統一を実現し、データの処理を容易にする。
ステップ204において、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、入力特徴を取得する。
具体的には、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、語意モデルの入力特徴を取得することで、語意モデルが画像と語彙データの組合せ特徴をトレーニングする。これにより、語意モデルが画像と語彙データとの間の語意的な関連が取得可能となり、語意モデルの認識効果が向上した。
例えば、図3に示すように、語彙データにおけるそれぞれのテキストユニットに対して、A2において対応する文字特徴、B2において対応する第2のモーダルマーカー及びC2において対応する位置特徴を結合して対応するテキストユニットのテキスト特徴を生成する。画像におけるそれぞれのオブジェクトに対して、A1において対応するオブジェクト特徴、B1において対応する第1のモーダルマーカー及びC1において対応する位置特徴を結合して対応するオブジェクトの画像特徴を生成する。さらに、それぞれのオブジェクトの画像特徴及びそれぞれのテキストユニットのテキスト特徴を加えて結合し、入力特徴を取得しする。入力特徴は、ベクトルで示される。
ステップ205において、入力特徴に基づいて、第1のトレーニングタスクを実行することによって、語意モデルをトレーニングする。
本実施例は、第1のトレーニングタスクと第2のトレーニングタスクを含む。本実施例では、第1のトレーニングタスクに基づいて、語意モデルをトレーニングする。第2のトレーニングタスクによるモデルに対するトレーニング過程は、後続の実施例でさらに具体的に紹介する。
第1のトレーニングタスクは、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換するステップ、及び/又は、少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップを含む。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニット及び/又は選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
具体的には、第1の可能な実現形態として、語彙データのテキストユニットに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
第2の可能な実現形態として、画像におけるオブジェクトに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルの画像から、少なくとも一つのオブジェクトを選択する。画像におけるオブジェクトの表示領域は空間に交差して重なる表示領域が存在する場合もあれば、交差して重なる領域が存在しない場合もあるため、2つのシーンで説明する。
あるシーンでは、画像におけるオブジェクトの表示領域は、空間に交差し重なる表示領域が存在すると、2つのオブジェクトの間に語意的な関連が存在するため、選択されたオブジェクトは、重なる表示領域を有する少なくとも2つのオブジェクトを含み、マスク領域の粒度を増加させ、マスク領域に含まれる語意情報を増加させることができる。
別のシーンでは、画像におけるオブジェクトは、互いに重なる表示領域がないため、選択されたオブジェクトは、何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトである。画像におけるオブジェクトが全部互いに独立したオブジェクトである場合でも、選択されたオブジェクト、即ち、選択された少なくとも1つのオブジェクトが何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトであると特定でき、マスク領域の粒度を増加させることで、マスク領域に含まれる語意情報を増加させる。
入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することにで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
第3の可能な実現形態では、語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングする。具体的には、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換し、及び、少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、マスクされたテキスト部分及びマスクの画像部分に対応するテキストを予測する。予測の正確性に基づいて、語意モデルのパラメータを調整し、少なくとも一つのテキストユニットと画像ユニットに対してともにマスクする。マスクの粒度が粗いため、マスク部分に含まれる語意情報を増加させ、モデルが語彙データと画像との間の語意的な関連をよりよく学習することを可能とし、同時に、語意モデルのパラメータ調整の速度が向上し、モデルのトレーニング効果が向上した。
例えば、図3において語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングする。図3に示すように、語彙データにおける4つの連続したテキストユニットをマスクし、即ち、各テキストユニットに対応する文字woman、 riding、a及びbikeを設定された画像マスク[mask]で置換し、4つのテキストユニットに対するマスクを完成する。同時に、画像における3つのオブジェクト、即ち、T3に対応するオブジェクトである自転車bicycle、T4に対応するオブジェクトであるバスケットbasket、T5に対応するオブジェクトである女子woman、対応する画像特徴におけるオブジェクト特徴Vwoman,Vbicycle及びVbasketに対して、設定された画像マスク[mask]で置換する。従って、本実施例におけるマスクの粒度がさらに粗く、語彙データに対して、少なくとも一つのテキストユニットをマスクし、画像に対して、画像における少なくとも一つのオブジェクトをマスクし、より豊かな語意情報を捉えることができる。しかし、従来技術において、マスク粒度は、単一の単語または単一の物体オブジェクトであるので、さらに大きな語意ユニットの場合には、うまく対応できず、例えば、哈爾濱について、「爾」の字が単独にマスク置換され、「哈」と「濱」で「爾」を予測すれば、比較的簡単で、あまり価値がないが、一方、「哈爾濱」という句全体がマスクされると、この句の前後の言葉で「哈爾濱」を予測すれば、「哈爾濱」について、よりよい語意を学習することができる。
さらに、置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットと選択されたオブジェクトを予測する。図3のように、マスクされたテキストユニットに対応する文字は、woman、riding、a及びbikeであり、語意モデルから出力された第1の語意ベクトルに基づいて予測した文字は、woamn、riding、a及びbikeであり、予測結果が完全に正確である。画像特徴におけるマスクされたオブジェクト特徴に対応するオブジェクトは、basketの画像、bicycleの画像及びwomanの画像であり、語意モデルが予測して出力するのは、対応する説明テキストbasket、bicycle及びwomanであり、予測結果も完全に正確である。実際に適用される過程では、モデルのトレーニング過程において、モデルの正確性は、最初は低いが、予測結果の正確性に基づいて、モデルが収斂するまで絶えず語意モデルのパラメータを調整するので、語意モデルの損失関数は、最小であり、認識の正確性は、最も高くなる。
ステップ206では、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。
本実施例において、トレーニングされた語意モデルは、語彙データと画像との組合せの語意ベクトルを学習し、語彙データと画像との間の語意的な関連を学習し、さらに、トレーニングされた語意モデルを具体的な語彙データと画像とのクロスモーダル処理に適用する。本実施例では、2種の適用シーンが提供される。
あるシーンでは、トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検索する。具体的には、一致する画像と語彙データが入力モデルであるか否かを判断する必要があり、モデルの出力に基づいて両者が一致するか否かを特定する。即ち、既知の語彙データに対応する特徴と、未知の画像の初期化特徴とを語意モデルに入力し、語意モデルから出力された既知の語彙データと未知の画像との組合せの語意ベクトルにおける対応する画像部分のデータに基づいて、未知の画像が呈しているオブジェクトを予測し、予測されたオブジェクトに基づいて、複数の未知の画像から当該未知の画像を検出する。これにより、既知の語彙データに対応する画像を特定する。
別のシーンでは、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成する。具体的には、既知の画像に対応する特徴と、未知の語彙データの初期化特徴とを語意モデルに入力し、モデルから出力された既知の画像と未知の語彙データとの組合せの語意ベクトルにおける対応する語彙データ部分のデータに基づいて、対応する既知の画像を説明するための未知の説明語彙データを特定する。
なお、未知の語彙データとは、当該語彙データがどの画像を説明するのかが不明であり、語彙データに対応する画像が未知であることを指す。
選択可能には、実際に適用するシーンでは、異なる認識タスクに応じて、認識を行うための画像及び語彙データを識別することができる。モデルの認識結果に応じて、モデルのパラメータを微調整することで、そのシーンの認識タスクにおけるモデルの認識効果を向上させる。
本実施例に係るクロスモーダル処理方法では、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行い、トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させる。これにより、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
上記の実施例に基づいて、本実施例は、別のクロスモーダル処理方法を提供する。本実施例では、予めシードプールを構築し、シードプールに基づいて、画像とテキストを情報合わせするとともに、情報融合を行う。画像特徴とテキスト特徴に含まれる情報量を高め、モデルのトレーニング効果を向上させる。
図4は、本出願の実施例に係る別のクロスモーダル処理方法のフローチャートである。
図4に示すように、当該方法は、以下ステップを含む。
ステップ301において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。
ステップ302において、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。ここで、それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせである。
ステップ303において、それぞれのトレーニングサンプルに対して、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得し、視覚特徴と空間座標とを結合し、オブジェクト特徴を生成する。
可能な一実現形態では、それぞれのトレーニングサンプルについて、サンプルに含まれる画像に対して、高速目標検出モデルFaster R-CNNで画像における各オブジェクトの領域、及び視覚特徴と空間座標である領域に対応する特徴を認識する。ここで、視覚特徴は、対応する関心領域の画像コンテンツ情報をFaster R-CNNモデルでプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。視覚特徴と空間座標とを結合し、対応するオブジェクトのオブジェクト特徴を生成する。
本実施例では、それぞれのトレーニングサンプルに対して、画像が呈している各オブジェクトのオブジェクト特徴を生成し、対応するテキスト特徴をさらに生成する。オブジェクト特徴が生成された後、オブジェクト特徴に含まれるベクトルの次元がテキスト特徴の次元よりも大きければ、各オブジェクトのオブジェクト特徴dを、対応するテキスト特徴の次元と同一に圧縮することで、次元の統一を実現し、データの処理を容易にする。テキスト特徴の生成方法については、後続のステップで具体的に説明する。
ステップ304において、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索し、基準テキストの文字内容を対応するオブジェクト特徴に融合する。
基準テキストは、対応するオブジェクトを説明するように構成される。
本実施例において、シードプールは、予め構築されたものであり、可能な一実現形態として、大量の画像サンプルを取得し、高速目標検出モデルFaster R-CNNでそれぞれの大量画像に対して各境界ボックスboundingboxを抽出するとともに、それぞれのboundingboxに対応するサブ画像と対応する文字説明の関係マッピングを構築する。図5に示すように、基準テキストの野球のバットbaseballbatとS1で示す境界ボックスboundingboxとは、対応関係を有し、基準テキストの人personとS2で示す境界ボックスとは、対応関係を有し、基準テキストのスポーツボールsport ballとS3で示す境界ボックスとは、対応関係を有し、基準テキストの野球グローブとS4で示す境界ボックスとは、対応関係を有する。同じ理由により、それぞれの画像において、各境界ボックスと対応する基準テキストとの対応関係を取得でき、一つの基準テキストは、複数の物体に対応することができる。例えば、バスケットは、様々な外形と造形を有するが、異なる画像のバスケットは、対応する基準テキストが全部バスケットでもよいため、我々は、一定規模の一対多のマッピングを構築した。それぞれの物体の基準テキストは、複数の異なる図に対応することができるので、基準テキストと画像との間のマッピング関係を含むシードプールを構築することができる。
例えば、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索し、基準テキストの文字内容は、300次元の特徴ベクトルであり、対応するオブジェクトのオブジェクト特徴は、128次元の特徴ベクトルである場合には、マークアップテキストに対応する300次元の特徴ベクトルを対応する128次元のオブジェクト特徴に融合させた後で、取得した対応するオブジェクトのオブジェクト特徴のベクトルは依然として128次元を維持することで、基準テキストの文字内容を対応するオブジェクト特徴に融合させた後もオブジェクト特徴の次元は変わらないが、オブジェクト特徴に含まれる情報量が増加することを実現し、画像特徴に含まれる情報が向上した。
ステップ305において、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成する。
オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第1のモーダルマーカーは、対応するオブジェクトが対応する画像に属することを指示するように構成される。第1のモーダルマーカーは、例えば、[IMG]のような設定された特殊マークであってもよい。
可能な一実現形態として、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、結合の方式で各オブジェクトの画像特徴を生成することができ、画像特徴に含まれる情報を増加させた。
具体的には、画像特徴の例について説明すると、図2に対応する実施例のステップ203を参照することができるが、原理が同じであるため、ここでは説明を省略する。
ステップ306において、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得する。
文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。
ステップ307において、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を捜索し、基準画像の画像内容を対応するテキストユニットの文字特徴に融合する。
基準画像は、対応するテキストユニットに説明されるオブジェクトを呈し、マークアップ画像の画像内容は、画像が呈しているオブジェクトの大きさ、色、形状等を含む。
例えば、それぞれのオブジェクトに対して、シードプールで予めそれぞれのテキストユニットと対応するマークアップ画像との対応関係が既に構築されたため、構築されたシードプールから捜索した対応する基準画像を見て、例えば、図3に示すように、テキストユニットに含まれる文字は、バスケットbasketであり、シードプールで検出することで、複数のマークアップ画像を特定する。図3では3種類のみを模式的に示すが、捜索した複数のマークアップ画像の画像内容を対応するテキストユニットの文字特徴に融合する。具体的には、基準画像の画像内容は、300次元の特徴ベクトルに対応し、対応するテキストユニットの文字特徴は、128次元の特徴ベクトルの場合には、画像内容に対応する300次元の特徴ベクトルを文字特徴が128次元の特徴ベクトルに融合させた後に取得した文字特徴のベクトルは、依然として128次元を維持する。これにより、対応する画像内容を文字特徴に融合した後も文字特徴の次元は変わらないが、文字特徴に含まれる情報が増加するため、テキスト特徴に含まれる情報、及びテキストとオブジェクトとの間の語意的な関連性が向上する。さらに、後続のステップでテキスト特徴と画像特徴とを結合した入力特徴に含まれる語意情報量も増加するので、入力特徴に基づいて、トレーニングを行う語意モデルのトレーニング効果を向上させることができる。
ステップ308において、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成する。
文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成され、第2のモーダルマーカーは、対応するテキストユニットが対応する語彙データに属することを指示するように構成され、例えば、設定マーク[Text]である。
本実施例において、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーを結合し、各テキストユニットのテキスト特徴を生成し、テキスト特徴に含まれる情報を増加させた。
ステップ309において、各オブジェクトの画像特徴及び各テキストユニットのテキスト特徴を結合し、入力特徴を取得する。
具体的には、各オブジェクトの画像特徴及び各テキストユニットのテキスト特徴を結合し、語意モデルの入力特徴を取得することで、語意モデルが画像と語彙データとの組合せ特徴をトレーニングする。これにより、語意モデルが画像と語彙データとの間の語意的な関連を取得可能となり、語意モデルの認識効果が向上した。
例えば、図3に示すように、語彙データにおけるそれぞれのテキストユニットに対して、A2において対応する文字特徴、B2において対応する第2のモーダルマーカー及びC2において対応する位置特徴を結合して対応するテキストユニットのテキスト特徴を生成する。画像におけるそれぞれのオブジェクトに対して、A1において対応するオブジェクト特徴、B1において対応する第1のモーダルマーカー及びC1において対応する位置特徴を結合して対応するオブジェクトの画像特徴を生成する。さらに、それぞれのオブジェクトの画像特徴及びそれぞれのテキストユニットのテキスト特徴を加えて結合し、入力特徴を取得する。入力特徴は、ベクトルで示され、テキスト情報と画像情報との聨合方式を実現し、モデルがテキストと画像との間の関連情報を学習することを可能とし、後続のモデルのトレーニング効果が向上した。
ステップ310において、入力特徴に基づいて、第1のトレーニングタスクを実行することによって、語意モデルをトレーニングする。
具体的には、第1の可能な実現形態として、語彙データのテキストユニットに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換し、置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
第2の可能な実現形態では、画像におけるオブジェクトに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルの画像から、少なくとも一つのオブジェクトを選択する。画像におけるオブジェクトの表示領域は、空間に交差して重なる表示領域が存在する場合もあれば、交差して重なる領域が存在しない場合もあるため、2つのシーンで説明する。
あるシーンでは、画像におけるオブジェクトの表示領域は、空間に交差し重なる表示領域が存在すると、2つのオブジェクトの間に語意的な関連が存在するため、選択されたオブジェクトは、重なる表示領域を有する少なくとも2つのオブジェクトを含む。このため、マスク領域の粒度を増加させ、マスク領域に含まれる語意情報を増加させることができる。
別のシーンでは、画像におけるオブジェクトは、互いに重なる表示領域がないため、選択されたオブジェクトは、何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトであり、画像におけるオブジェクトが全部互いに独立したオブジェクトの場合でも、選択されたオブジェクト、即ち、選択された少なくとも1つのオブジェクトが何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトを特定でき、マスク領域の粒度を増加させることで、マスク領域に含まれる語意情報を増加させる。
入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。
第3の可能な実現形態として、語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングする。具体的には、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換し、及び、少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットと選択されたオブジェクトを予測する。予測の正確性に基づいて、語意モデルのパラメータを調整し、テキストユニットと画像ユニットに対してともにマスクすることで、正確性を予測し、モデルが語彙データと画像との間の語意的な関連をより迅速に学習することを可能とし、語意モデルのパラメータ調整の速度が向上し、モデルのトレーニング効果が向上した。
例えば、図3において語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングし、図3に示すように、語彙データにおける4つの連続したテキストユニットをマスクし、即ち、各テキストユニットに対応する文字woman、riding、a及びbikeを設定された画像マスク[mask]で置換し、4つのテキストユニットに対するマスクを完成する。同時に、画像における3つのオブジェクトの画像特徴におけるオブジェクト特徴に対して、設定された画像マスク[Mask]で置換する。従って、本実施例におけるマスクの粒度がさらに粗く、語彙データに対して、少なくとも一つのテキストユニットをマスクし、画像に対して、画像における少なくとも一つのオブジェクトをマスクし、より豊かな語意情報を捉えることができる。しかし、従来の技術では、マスク粒度は、単一の単語または単一の物体オブジェクトであり、さらに大きな語意ユニットの場合にはうまく対応できないため、例えば、哈爾濱について、「爾」の字が単独にマスク置換され、「哈」と「濱」で「爾」を予測すると、比較的簡単で、あまり価値がないが、「哈爾濱」という句全体がマスクされ、この句の前後の言葉で「哈爾濱」を予測すれば、「哈爾濱」について、よりよい語意を学習することができる。
さらに、置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第1の語意ベクトルを取得し、第1の語意ベクトルに基づいて、選択されたテキストユニットと選択されたオブジェクトを予測する。図3のように、マスクされたテキストユニットに対応する文字は、woman、riding、a及びbikeであり、語意モデルから出力された第1の語意ベクトルに基づいて予測した文字は、woamn、riding、a及びbikeであり、予測結果が完全に正確である。画像特徴におけるマスクされたオブジェクト特徴に対応するオブジェクトは、basket、bicycle及びwomanであり、語意モデルは、マスクされたオブジェクトに対して対応する説明情報を予測する。予測して出力するのは、basket、bicycle及びwomanであり、予測結果も完全に正確である。実際に適用される過程では、モデルのトレーニング過程において、モデル認識の正確性は、最初は低いが、予測結果の正確性に基づいて、モデルが収斂するまで絶えず語意モデルのパラメータを調整すると、語意モデルの損失関数は、最小となり、認識の正確性は、最も高くなる。
ステップ311において、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。
具体的には、ステップ309~ステップ311では、入力特徴に基づいて、第1のトレーニングタスクに対する操作は、図2に対応する実施例におけるステップ204~206を参照することができるが、原理が同じであるため、ここでは説明を省略する。
本実施例では、予め設定されたシードプールにより、各オブジェクトの画像特徴に対応する基準テキストの文字内容を融合させて、含まれる情報を増加させる。同じ理由により、各テキストユニットのテキスト特徴に対応する基準画像の画像内容を融合させて、含まれる情報を増加させることで、情報量を増加させたテキスト特徴と画像特徴とを繋ぎ合わせた後、取得した入力特徴に含まれる語意情報量も増加する。従来技術に比べ、テキストと画像を統合して視覚で示す場合、2種のモーダルの特徴間の対応関係が構築されず、2種のモーダルの特徴が分かれたものとなる。このため、語意モデルがクロスモーダル時のモーダル間の語意関係を学習できず、モデルのトレーニング効果が悪くなる。一方、本出願では、構築されたシードプールにより、テキストと画像特徴を揃えるとともに互いに融合させると、語意モデルがクロスモーダル時のモーダル間の語意関係を学習できないため、語意モデルのトレーニング効果を向上させることができる。
本出願の実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上する。また、予め設定されたシードプールに基づいて、情報量を増加させたテキスト特徴と画像特徴を生成し、テキスト特徴と画像特徴とを結合した後、取得した入力特徴に含まれる語意情報量も増加する。これにより、入力特徴に基づいて、トレーニングを行う語意モデルのトレーニング効果を向上させることができる。
上記の実施例により、本実施例は、別のクロスモーダル処理方法を提供し、本実施例において、第2のトレーニングタスクで語意モデルをトレーニングする過程を説明する。
図6は、本出願の実施例に係る別のクロスモーダル処理方法のフローチャートである。
図6に示すように、当該方法は、以下のステップを含む。
ステップ601において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。
語彙データは、少なくとも一つのテキストユニットを含む。
可能な一実現形態として、マルチメディアデータセットから異なるモーダルのデータを収集して、複数の画像及び対応する複数の語彙データを含むサンプルセットを生成することができ、語彙データは、対応する画像の内容を説明するように構成される。
ステップ602では、サンプルセットに基づいて、語彙データが画像と一致するトレーニングサンプル及び語彙データが画像と一致しないトレーニングサンプルを生成する。
本実施例では、第2のトレーニングタスクでモデルをトレーニングし、用いられるトレーニングサンプルは、正例のトレーニングサンプル及び負例のトレーニングサンプルを含む。大量の正例のトレーニングサンプル及び負例のトレーニングサンプルを用いることでにより、モデルのトレーニング効果及びモデルのトレーニング速度を向上させることができる。
具体的には、サンプルセットに基づいて、各語彙データを対応する語彙データにより説明される画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、正例のトレーニングサンプルとする。
本実施例において、語彙データが画像と一致しないトレーニングサンプル、即ち、反例のトレーニングサンプルとして、3種の可能な生成形態がある。第1の可能な実現形態として、固定的に設定された語彙データをランダムに特定された画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する。
第2の可能な実現形態として、固定的に設定された画像をランダムに特定された語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する。
第3の可能な実現形態として、固定的に設定された語彙データをランダムに特定された画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得し、及び固定的に設定された画像をランダムに特定された語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する。
ステップ603において、それぞれのトレーニングサンプルに対して、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得する。
可能な一実現形態として、それぞれのトレーニングサンプルに対して、サンプルに含まれる画像に対して、高速目標検出モデルFaster R-CNNで画像における各オブジェクトの領域、及び視覚特徴と空間座標である領域に対応する特徴を認識する。視覚特徴は、対応する関心領域の画像コンテンツ情報をFaster R-CNNモデルでプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。
ステップ604において、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索し、基準テキストの文字内容を対応するオブジェクト特徴に融合する。
基準テキストは、対応するオブジェクトを説明するように構成される。
本実施例において、シードプールは、予め構築されたものであり、可能な一実現形態として、大量の画像サンプルを取得し、高速目標検出モデルFaster R-CNNでそれぞれの大量画像に対して各境界ボックスboundingboxを抽出するとともに、それぞれのboundingboxに対応するサブピクチャ及び対応する文字説明の関係マッピングを構築する。図5に示すように、基準テキストの野球のバットbaseballbatとS1で示す境界ボックスboundingboxとは、対応関係を有し、基準テキストの人personとS2で示す境界ボックスとは、対応関係を有し、基準テキストのスポーツボールsport ballとS3で示す境界ボックスとは、対応関係を有し、基準テキストの野球グローブとS4で示す境界ボックスとは、対応関係を有する。同じ理由により、それぞれの画像において、各境界ボックスと対応する基準テキストとの対応関係を取得でき、一つの基準テキストは、複数の物体に対応することができる。例えば、バスケットは、様々な外形と造形を有するが、異なる画像のバスケットは、対応する基準テキストが全部バスケットでもよいため、我々は、一定規模の一対多のマッピングを構築した。それぞれの物体の基準テキストは、複数の異なる図に対応することができ、基準テキストと画像との間のマッピング関係を含むシードプールを構築することができる。
例えば、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索する。基準テキストの文字内容は、300次元の特徴ベクトルであり、対応するオブジェクトのオブジェクト特徴は、128次元の特徴ベクトルである場合には、マークアップテキストに対応する300次元の特徴ベクトルを対応する128次元のオブジェクト特徴に融合させた後も、取得した対応するオブジェクトのオブジェクト特徴のベクトルは依然として128次元に維持されるので、基準テキストの文字内容を対応するオブジェクト特徴に融合させた後もオブジェクト特徴の次元は変わらないが、オブジェクト特徴に含まれる情報が増加するため、画像特徴に含まれる情報が向上した。
ステップ605において、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成する。
オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第1のモーダルマーカーは、対応するオブジェクトが対応する画像に属することを指示するように構成される。第1のモーダルマーカーは、例えば、[IMG]のような設定された特殊マークであってもよい。
可能な一実現形態として、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、結合の方式で各オブジェクトの画像特徴を生成することができる。
具体的には、画像特徴の例についての説明は、図2に対応する実施例におけるステップ203を参照することができるが、原理が同じであるため、ここでは説明を省略する。
ステップ606において、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得する。
文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。
ステップ607において、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を捜索し、基準画像の画像内容を対応するテキストユニットの文字特徴に融合する。
基準画像は、対応するテキストユニットに説明されるオブジェクトを呈し、マークアップ画像の画像内容は、画像が呈しているオブジェクトの大きさ、色、形状等を含む。
例えば、それぞれのオブジェクトに対して、シードプールで予めそれぞれのテキストユニットと対応するマークアップ画像との対応関係が既に構築されたため、構築されたシードプールから捜索した対応する基準画像を見て、例えば、図3に示すように、テキストユニットに含まれる文字は、バスケットbasketであり、シードプールで検出することで、複数のマークアップ画像を特定する。図3では3種類のみを模式的に示すが、捜索した複数のマークアップ画像の画像内容を対応するテキストユニットの文字特徴に融合する。具体的には、基準画像の画像内容は、300次元の特徴ベクトルに対応し、対応するテキストユニットの文字特徴は、128次元の特徴ベクトルである場合には、画像内容に対応する300次元の特徴ベクトルを文字特徴が128次元の特徴ベクトルに融合させた後も、取得した文字特徴のベクトルは、依然として128次元を維持するため、対応する画像内容を文字特徴に融合した後も、文字特徴の次元が変わらないが、文字特徴に含まれる情報が増加するので、テキスト特徴に含まれる情報、及びテキストとオブジェクトとの間の語意的な関連性が向上し、後続のステップでテキスト特徴と画像特徴とを結合した入力特徴に含まれる語意情報量も増加するため、入力特徴に基づいて、トレーニングを行う語意モデルのトレーニング効果を向上させることができる。
ステップ608において、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成する。
文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。第2のモーダルマーカーは、対応するテキストユニットが対応する語彙データに属することを指示するように構成され、例えば、設定マーク[Text]である。
ステップ609において、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、入力特徴を取得する。
具体的には、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、語意モデルの入力特徴を取得することで、語意モデルに画像と語彙データとの組合せ特徴をトレーニングさせ、語意モデルが画像と語彙データとの間の語意的な関連を取得可能となり、語意モデルの認識効果が向上した。
例えば、図3に示すように、語彙データにおけるそれぞれのテキストユニットに対して、A2において対応する文字特徴、B2において対応する第2のモーダルマーカー及びC2において対応する位置特徴を結合して対応するテキストユニットのテキスト特徴を生成する。画像におけるそれぞれのオブジェクトに対して、A1において対応するオブジェクト特徴、B1において対応する第1のモーダルマーカー及びC1において対応する位置特徴を結合して対応するオブジェクトの画像特徴を生成する。さらに、それぞれのオブジェクトの画像特徴及びそれぞれのテキストユニットのテキスト特徴を結合し、入力特徴を取得し、入力特徴は、ベクトルで示される。
ステップ610において、入力特徴には、マッチングマークをさらに含まれ、入力特徴に基づいて、第2のトレーニングタスクを実行することによって、語意モデルをトレーニングする。
入力特徴には、マッチングマークをさらに含まれ、マッチングマークは予め設定された学習可能なベクトルであり、例えば、学習類別(classification,CLS)ベクトルである。
第2のトレーニングタスクは、以下の内容を含み、それぞれのトレーニングサンプルに対して、対応する入力特徴に含まれるマッチングマークを設定値にしてから、語意モデルに入力することで、語意モデルから出力された第2の語意ベクトルを取得し、第2の語意ベクトルにおけるマッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測する。予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、語意モデルのパラメータを調整し、第2のトレーニングタスクの絶えないトレーニングとモデルのパラメータを調整する。これにより、語意モデルを収斂させ、予測の一致結果と実際の一致結果との間の差異を最小にすることにより、語彙データと対応する画像の一致特定を実現し、画像と語彙データに対応する検索の分野に適用可能である。
語意モデルは、入力特徴に基づいて、マッチングマークの値を調整し、値を調整した後のマッチングマークの値は、トレーニングサンプルにおける語彙データと画像との一致性を指示するように構成されることができる。
ステップ611において、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。
本実施例において、トレーニングされた語意モデルは、語彙データと画像との組合せの語意ベクトルを学習し、語彙データと画像との間の語意的な関連を学習する。さらに、トレーニングされた語意モデルを具体的な語彙データと画像とのクロスモーダル処理に適用する。本実施例においては、2つの適用シーンを提供する。
あるシーンでは、トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検索する。具体的には、一致する画像と語彙データ入力モデルであるか否かを判断する必要があり、モデルから出力されたCLSの値に基づいて、両者が一致するか否かを特定する。即ち、既知の語彙データに対応する特徴及び未知の画像の初期化特徴を語意モデルに入力し、語意モデルから出力された既知の語彙データと未知の画像との組合せの語意ベクトルにおける対応する画像部分のデータに基づいて、未知の画像が呈しているオブジェクトを予測し、予測されたオブジェクトに基づいて、複数の未知の画像から当該未知の画像を検出することで、既知の語彙データに対応する画像を特定する。
別のシーンでは、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成する。具体的には、既知の画像に対応する特徴及び未知の語彙データの初期化特徴を語意モデルに入力し、モデルから出力された既知の画像と未知の語彙データとの組合せの語意ベクトルにおける対応する語彙データ部分のデータに基づいて、対応する既知の画像を説明するための未知の説明する語彙データを特定する。
未知の語彙データとは、当該語彙データがどの画像を説明するように構成されるかが不明であり、語彙データに対応する画像が未知であることを指す。
選択可能には、実際に適用するシーンでは、異なる認識タスクに応じて、認識を行うための画像及び語彙データを識別することができる。モデルの認識結果に応じて、モデルのパラメータを微調整することで、そのシーンの認識タスクにおけるモデルの認識効果を向上させる。
トレーニングの効果を向上させるために、第1のトレーニングタスクと第2のトレーニングタスクは、いずれも実行することができ、2つのトレーニングタスクは、反復的に行われる。第1のトレーニングタスクの予測結果と第2のトレーニングタスクの一致性予測結果とに基づいて、語意モデルの損失値を算出する。モデルの損失値は、2つのトレーニングタスクに対応する損失関数の損失値から算出される。算出されたモデルの損失値に基づいて、2つのタスクの損失関数をともに収斂させるように、語意モデルのパラメータを調整することで、モデルトレーニングの効果を向上させる。
本実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させる。トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
上記の実施例を実現するため、本出願は、クロスモーダル処理装置をさらに提案する。
図7は、本出願の実施例に係るクロスモーダル処理装置の概略構成図である。
図7に示すように、当該装置は、取得モジュール71と、生成モジュール72と、トレーニングモジュール73と、処理モジュール74と、を含む。
取得モジュール71は、複数の語彙データ及び複数の画像を含むサンプルセットを取得するように構成される。
生成モジュール72は、前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するように構成される。それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである。
トレーニングモジュール73は、前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるように構成される。
処理モジュール74は、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うように構成される。
本出願の実施例の可能な一実現形態として、上記のトレーニングモジュール73は、それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおいて前記画像が呈している各オブジェクトに対して画像特徴を抽出し、語彙データにおける各テキストユニットに対してテキスト特徴を抽出するための抽出ユニットと、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、入力特徴を取得するための結合ユニットと、入力特徴に基づいて、第1のトレーニングタスクを実行することによって、語意モデルをトレーニングするためのトレーニングユニットと、を含み、第1のトレーニングタスクは、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換する、及び/又は少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、置換後に取得した入力特徴を語意モデルに入力することによって、語意モデルから出力された第1の語意ベクトルを取得するステップと、第1の語意ベクトルに基づいて、選択されたテキストユニット及び/又は選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整するステップと、を含む。
可能な一実現形態として、選択されたオブジェクトは、重なる表示領域を有する少なくとも二つのオブジェクトを含み、または、選択されたオブジェクトは、何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトである。
可能な一実現形態として、上記の生成モジュール72は、具体的には、各語彙データを対応する語彙データにより説明される画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、及び、固定的に設定された語彙データをランダムに特定された画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得し、及び/又は、固定的に設定された画像をランダムに特定された語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するように構成される。
他の可能な一実現形態として、入力特徴には、マッチングマークをさらに含まれ、上記のトレーニングモジュール73は、具体的には、入力特徴に基づいて、第2のトレーニングタスクを実行することによって、語意モデルをトレーニングするようにさらに構成され、前記第2のトレーニングタスクは、それぞれのトレーニングサンプルに対して、対応する入力特徴におけるマッチングマークを設定値にしてから、語意モデルに入力することによって、語意モデルから出力された第2の語意ベクトルを取得するステップと、第2の語意ベクトルにおけるマッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、語意モデルのパラメータを調整するステップと、を含む。
可能な一実現形態として、抽出ユニットは、以下をさらに含み、取得サブユニットは、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得するように構成され、視覚特徴は、対応する関心領域の画像コンテンツ情報をプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。
結合サブユニットは、視覚特徴と空間座標とを結合し、オブジェクト特徴を生成するように構成される。
生成サブユニットは、各オブジェクトの前記オブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するように構成され、オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第1のモーダルマーカーは、対応するオブジェクトが画像に属することを指示するように構成される。
他の可能な一実現形態として、抽出ユニットは、以下をさらに含み、検出サブユニットは、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを検出するように構成され、基準テキストは、対応するオブジェクトを説明するように構成される。
融合サブユニットは、基準テキストの文字内容をオブジェクト特徴に融合するように構成される。
他の可能な一実現形態として、取得サブユニットは、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得するようにさらに構成され、文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。
生成サブユニットは、各テキストユニットの文字特徴、位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するようにさらに構成される。
他の可能な一実現形態として、検出サブユニットは、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するようにさらに構成され、基準画像で対応するテキストユニットにより説明されるオブジェクトを呈している。
融合サブユニットは、基準画像の画像内容を文字特徴に融合するようにさらに構成される。
他の可能な一実現形態として、上記の処理モジュール74は、具体的には、トレーニングされた語意モデルを用いて、語彙データに基づいて対応する画像を検出する、または、トレーニングされた語意モデルを用いて、画像に基づいて対応する画像を説明する語彙データを生成するように構成される。
上記のクロスモーダル処理方法の実施例に対する解釈説明も当該実施例のクロスモーダル処理装置に適用されるが、ここでは説明を省略する。
本出願の実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることによって、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行い、トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
上記の実施例を実現するために、本出願の実施例は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含む電子機器であって、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行されることによって、前記少なくとも一つのプロセッサが前記方法実施例における前記のクロスモーダル処理方法を実行可能である、電子機器をさらに提供する。
本出願の第4の態様の実施例には、コンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体が提案されており、前記コンピュータ命令は、前記コンピュータに上記の方法実施例に記載のクロスモーダル処理方法を実行させるように構成される。
本出願の実施例により、本出願は、電子機器と読み取り可能な記憶媒体をさらに提供する。
図8に示すように、本出願の実施例に係るクロスモーダル処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図8に示すように、当該電子機器は、一つ又は複数のプロセッサ801と、メモリ802と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作(例えば、サーバアレイ、一セットのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図8では、一つのプロセッサ801を例とする。
メモリ802は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶されることにより、前記少なくとも一つのプロセッサが本出願に係るクロスモーダル処理方法を実行することができる。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願に係るクロスモーダル処理方法を実行させるためのコンピュータ命令が記憶されている。
メモリ802は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係るXXXの方法に対応するプログラム命令/モジュール(例えば、図7に示す取得モジュール71、生成モジュール72、トレーニングモジュール73、及び処理モジュール74)などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するように構成されることができる。プロセッサ801は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例に係るクロスモーダル処理方法を実現する。
メモリ802は、ストレージプログラム領域とストレージデータ領域とを含むことができ、ここで、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、クロスモーダル処理方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。メモリ802は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ802は、プロセッサ801に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してクロスモーダル処理方法を実行する電子機器に接続することができる。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組合わせを含むが、これらに限定されない。
クロスモーダル処理方法を実行する電子機器は、入力装置803と輸出装置804とをさらに含むことができる。プロセッサ801、メモリ802、入力装置803、及び出力装置804は、バス又は他の方式を介して接続することができ、図8では、バスを介して接続することを例とする。
入力装置803は、入力された数字又は文字情報を受信し、クロスモーダル処理方法のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置804は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合わせで実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されてもい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。
本出願の実施例の技術案によれば、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも1つの語彙データと対応する少なくとも1つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組合わせ、サブコンビネーション、及び置換を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (19)

  1. 複数の語彙データ及び複数の画像を含むサンプルセットを取得するステップと、
    前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データに対応する少なくとも一つの前記画像との組合せであるステップと、
    前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップと、
    トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップと、を含み、
    前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップが、
    それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおいて前記画像が呈している各オブジェクトに対して画像特徴を抽出し、及び前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するステップと、
    各オブジェクトの前記画像特徴と各テキストユニットの前記テキスト特徴とを結合し、入力特徴を取得するステップと、
    前記入力特徴に基づいて、第1のトレーニングタスクを実行することで、前記語意モデルをトレーニングするステップと、を含み、
    前記第1のトレーニングタスクが、
    それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、前記入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換、及び重なる表示領域を有する少なくとも二つのオブジェクトを選択し、前記入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、
    置換後に取得した入力特徴を前記語意モデルに入力することで、前記語意モデルから出力された第1の語意ベクトルを取得するステップと、
    前記第1の語意ベクトルに基づいて、選択されたテキストユニット及び選択されたオブジェクトを予測するステップと、
    予測の正確性に基づいて、前記語意モデルのパラメータを調整するステップと、
    を含むクロスモーダル処理方法。
  2. 前記前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップは、
    各前記語彙データを対応する語彙データにより説明される前記画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得するステップと、
    固定的に設定された前記語彙データをランダムに特定された前記画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得、及び/又は、固定的に設定された前記画像をランダムに特定された前記語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するステップと、を含む請求項に記載のクロスモーダル処理方法。
  3. 前記入力特徴は、マッチングマークをさらに含み、前記前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングするステップは、
    前記入力特徴に基づいて、第2のトレーニングタスクを実行し、前記語意モデルをトレーニングするステップを含み、
    前記第2のトレーニングタスクは、
    それぞれのトレーニングサンプルに対して、対応する入力特徴における前記マッチングマークを設定値にしてから、前記語意モデルに入力することで、前記語意モデルから出力された第2の語意ベクトルを取得するステップと、
    前記第2の語意ベクトルにおける前記マッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、
    予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、前記語意モデルのパラメータを調整するステップと、を含む請求項に記載のクロスモーダル処理方法。
  4. 前記対応するトレーニングサンプルにおける前記画像が呈している各オブジェクトに対して画像特徴を抽出するステップは、
    前記画像が呈している各オブジェクトに対して、対応する関心領域の画像コンテンツ情報をプール化した視覚特徴と、対応するオブジェクトの画像内での展示位置を示す空間座標を取得するステップと、
    前記視覚特徴と前記空間座標とを結合し、オブジェクト特徴を生成するステップと、
    各オブジェクトの前記オブジェクト特徴、各オブジェクトの間の相互の順序関係を指示するオブジェクトの順序特徴及び、対応するオブジェクトが画像に属することを指示する設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するステップと、を含む請求項に記載のクロスモーダル処理方法。
  5. 前記各オブジェクトの前記オブジェクト特徴、オブジェクトの順序特徴及び設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するステップの前に、
    それぞれのオブジェクトに対して、構築されたシードプールから対応するオブジェクトを説明する基準テキストを検出するステップと、
    前記基準テキストの文字内容を前記オブジェクト特徴に融合するステップと、をさらに含む請求項に記載のクロスモーダル処理方法。
  6. 前記前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するステップは、
    前記語彙データにおける各テキストユニットに対して、対応するテキストユニットに含まれる文字を指示する文字特徴と、対応するテキストユニットの語順を指示する位置特徴を取得するステップと、
    各テキストユニットの前記文字特徴、前記位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するステップと、を含む請求項に記載のクロスモーダル処理方法。
  7. 前記各テキストユニットの前記文字特徴、前記位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するステップの前に、
    それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するステップであって、前記基準画像で対応するテキストユニットにより説明されるオブジェクトを呈しているステップと、
    前記基準画像の画像内容を前記文字特徴に融合するステップと、をさらに含む請求項に記載のクロスモーダル処理方法。
  8. 前記レーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップは、
    トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検出するステップ、
    または、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成するステップ、を含む請求項1からの何れかに記載のクロスモーダル処理方法。
  9. 複数の語彙データ及び複数の画像を含むサンプルセットを取得するための取得モジュールと、
    前記サンプルセットに基づいて、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである複数のトレーニングサンプルを生成するための生成モジュールと
    前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるためのトレーニングモジュールと、
    トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うための処理モジュールと、を含み、
    前記トレーニングモジュールが、
    それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける前記画像が呈している各オブジェクトに対して画像特徴を抽出し、及び前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するための抽出ユニットと、
    各オブジェクトの前記画像特徴と各テキストユニットの前記テキスト特徴とを結合し、
    入力特徴を取得するための結合ユニットと、
    前記入力特徴に基づいて、第1のトレーニングタスクを実行し、前記語意モデルをトレーニングするためのトレーニングユニットと、を含み、
    前記第1のトレーニングタスクが、
    それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、前記入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換、及び重なる表示領域を有する少なくとも二つのオブジェクトを選択し、前記入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、
    置換後に取得した入力特徴を前記語意モデルに入力することで、前記語意モデルから出力された第1の語意ベクトルを取得するステップと、
    前記第1の語意ベクトルに基づいて、選択されたテキストユニット及び/又は選択されたオブジェクトを予測するステップと、
    予測の正確性に基づいて、前記語意モデルのパラメータを調整するステップと、
    を含むクロスモーダル処理装置。
  10. 前記生成モジュールは、具体的に、
    各前記語彙データを対応する語彙データにより説明される前記画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、及び、固定的に設定された前記語彙データをランダムに特定された前記画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する、及び/又は、固定的に設定された前記画像をランダムに特定された前記語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するように構成される請求項に記載のクロスモーダル処理装置。
  11. 前記入力特徴には、マッチングマークをさらに含まれ、
    前記トレーニングモジュールは、具体的に、
    前記入力特徴に基づいて、第2のトレーニングタスクを実行し、前記語意モデルをトレーニングするように構成され、
    前記第2のトレーニングタスクは、
    それぞれのトレーニングサンプルに対して、対応する入力特徴における前記マッチングマークを設定値にしてから、前記語意モデルに入力することで、前記語意モデルから出力された第2の語意ベクトルを取得するステップと、
    前記第2の語意ベクトルにおける前記マッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、
    予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、前記語意モデルのパラメータを調整するステップと、
    を含む請求項10に記載のクロスモーダル処理装置。
  12. 前記抽出ユニットは、
    前記画像が呈している各オブジェクトに対して、対応する関心領域の画像コンテンツ情報をプール化した視覚特徴と、対応するオブジェクトの画像内での展示位置を示す空間座標を取得するための取得サブユニットと、
    前記視覚特徴と前記空間座標とを結合し、オブジェクト特徴を生成するための結合サブユニットと、
    各オブジェクトの前記オブジェクト特徴、各オブジェクトの間の相互の順序関係を指示するオブジェクトの順序特徴及び、対応するオブジェクトが画像に属することを指示する設定された第1のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するための生成サブユニットと、をさらに含む請求項に記載のクロスモーダル処理装置。
  13. 前記抽出ユニットは、
    それぞれのオブジェクトに対して、構築されたシードプールから対応するオブジェクトを説明する基準テキストを検出するための検出サブユニットと、
    前記基準テキストの文字内容を前記オブジェクト特徴に融合するための融合サブユニットと、をさらに含む請求項12に記載のクロスモーダル処理装置。
  14. 前記取得サブユニットは、前記語彙データにおける各テキストユニットに対して、対応するテキストユニットに含まれる文字を指示する文字特徴と、対応するテキストユニットの語順を指示する位置特徴を取得するようにさらに構成され、
    前記生成サブユニットは、各テキストユニットの前記文字特徴、前記位置特徴及び設定された第2のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するようにさらに構成される請求項12に記載のクロスモーダル処理装置。
  15. 前記検出サブユニットは、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するようにさらに構成され、前記基準画像は、対応するテキストユニットにより説明されるオブジェクトを呈しており、
    前記融合サブユニットは、前記基準画像の画像内容を前記文字特徴に融合するようにさらに構成される請求項13に記載のクロスモーダル処理装置。
  16. 前記処理モジュールは、具体的に、
    トレーニングされた語意モデルを用いて、語彙データに基づいて対応する画像を検出する、又は、トレーニングされた語意モデルを用いて、画像に基づいて対応する画像を説明する語彙データを生成するように構成される請求項から15の何れかに記載のクロスモーダル処理装置。
  17. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含む電子機器であって、
    前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが、請求項1からの何れかに記載のクロスモーダル処理方法を実行できることを特徴とする、電子機器。
  18. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1からのいずれかに記載のクロスモーダル処理方法を実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
  19. コンピュータ上で動作しているときに、請求項1からのいずれかに記載のクロスモーダル処理方法を前記コンピュータに実行させることを特徴とする、コンピュータプログラム。
JP2020215106A 2020-03-30 2020-12-24 クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 Active JP7397786B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010238730.0A CN111461203A (zh) 2020-03-30 2020-03-30 跨模态处理方法、装置、电子设备和计算机存储介质
CN202010238730.0 2020-03-30

Publications (2)

Publication Number Publication Date
JP2021163456A JP2021163456A (ja) 2021-10-11
JP7397786B2 true JP7397786B2 (ja) 2023-12-13

Family

ID=71681724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020215106A Active JP7397786B2 (ja) 2020-03-30 2020-12-24 クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体

Country Status (5)

Country Link
US (1) US11341366B2 (ja)
EP (1) EP3889830A1 (ja)
JP (1) JP7397786B2 (ja)
KR (1) KR20210040326A (ja)
CN (1) CN111461203A (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475658B (zh) * 2020-06-12 2020-12-25 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
EP3926531B1 (en) * 2020-06-17 2024-04-24 Tata Consultancy Services Limited Method and system for visio-linguistic understanding using contextual language model reasoners
CN113177147B (zh) * 2020-08-13 2022-05-17 阿里巴巴集团控股有限公司 对象、机器模型处理方法、装置、设备和存储介质
CN112287134B (zh) * 2020-09-18 2021-10-15 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112765992A (zh) * 2021-01-14 2021-05-07 深圳市人马互动科技有限公司 训练数据的构建方法、装置、计算机设备及存储介质
CN112528048B (zh) * 2021-02-18 2021-05-14 腾讯科技(深圳)有限公司 一种跨模态检索方法、装置、设备及介质
CN112966127B (zh) * 2021-04-07 2022-05-20 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113239153B (zh) * 2021-05-26 2022-11-29 清华大学深圳国际研究生院 一种基于实例遮掩的文本与图像互检索方法
CN113591902B (zh) * 2021-06-11 2022-09-27 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN113393833B (zh) * 2021-06-16 2024-04-02 中国科学技术大学 音视频唤醒方法、系统、设备及存储介质
CN113360683B (zh) * 2021-06-30 2024-04-19 北京百度网讯科技有限公司 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN113628294B (zh) * 2021-07-09 2023-06-20 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
CN113947771B (zh) * 2021-10-15 2023-06-27 北京百度网讯科技有限公司 图像识别方法、装置、设备、存储介质以及程序产品
CN113947700A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 模型确定方法、装置、电子设备和存储器
CN113947147B (zh) * 2021-10-18 2023-04-18 北京百度网讯科技有限公司 目标地图模型的训练方法、定位方法及相关装置
CN114186564B (zh) * 2021-11-05 2023-11-24 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置以及电子设备
CN114022735B (zh) * 2021-11-09 2023-06-23 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114357204B (zh) * 2021-11-25 2024-03-26 腾讯科技(深圳)有限公司 媒体信息的处理方法及相关设备
CN114140603B (zh) 2021-12-08 2022-11-11 北京百度网讯科技有限公司 虚拟形象生成模型的训练方法和虚拟形象生成方法
CN114299194B (zh) * 2021-12-23 2023-06-02 北京百度网讯科技有限公司 图像生成模型的训练方法、图像生成方法及装置
CN114417878B (zh) * 2021-12-29 2023-04-18 北京百度网讯科技有限公司 语义识别方法、装置、电子设备及存储介质
CN114429552A (zh) * 2022-01-21 2022-05-03 北京有竹居网络技术有限公司 对象属性识别方法、装置、可读存储介质及电子设备
CN114419351A (zh) * 2022-01-28 2022-04-29 深圳市腾讯计算机系统有限公司 图文预训练模型训练、图文预测模型训练方法和装置
CN114239760B (zh) * 2022-02-25 2022-05-20 苏州浪潮智能科技有限公司 多模态模型训练以及图像识别方法、装置、电子设备
CN114549935B (zh) * 2022-02-25 2024-05-07 北京百度网讯科技有限公司 信息生成方法和装置
CN114663915B (zh) * 2022-03-04 2024-04-05 西安交通大学 基于Transformer模型的图像人-物交互定位方法及系统
CN114611498A (zh) * 2022-03-18 2022-06-10 腾讯科技(深圳)有限公司 标题生成方法、模型训练方法及装置
CN114372477B (zh) 2022-03-21 2022-06-10 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN115035538B (zh) * 2022-03-22 2023-04-07 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN114692778B (zh) * 2022-04-13 2023-07-25 北京百度网讯科技有限公司 用于智能巡检的多模态样本集生成方法、训练方法及装置
CN115294150A (zh) * 2022-06-22 2022-11-04 华为技术有限公司 一种图像处理方法和终端设备
CN115081627B (zh) * 2022-07-27 2022-11-25 中南大学 一种基于生成式网络的跨模态数据哈希检索攻击方法
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법
CN115659987B (zh) * 2022-12-28 2023-03-21 华南师范大学 基于双通道的多模态命名实体识别方法、装置以及设备
CN116363262B (zh) * 2023-03-31 2024-02-02 北京百度网讯科技有限公司 图像生成方法、装置及电子设备
CN116127123B (zh) * 2023-04-17 2023-07-07 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法
CN116630726B (zh) * 2023-07-26 2023-09-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及系统
CN117274619B (zh) * 2023-11-21 2024-02-09 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于风格融合对比学习的跨域目标识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097604A1 (en) 2018-09-21 2020-03-26 Microsoft Technology Licensing, Llc Stacked cross-modal matching

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060088806A1 (en) * 2004-10-26 2006-04-27 Clark Quinn Learning integrating system and methods
US8903167B2 (en) * 2011-05-12 2014-12-02 Microsoft Corporation Synthesizing training samples for object recognition
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
WO2017156043A1 (en) * 2016-03-08 2017-09-14 Nant Holdings Ip, Llc Image feature combination for image-based object recognition
CN106095893B (zh) * 2016-06-06 2018-11-20 北京大学深圳研究生院 一种跨媒体检索方法
CA3012647A1 (en) * 2017-08-10 2019-02-10 Cloudsight, Inc. Content based image management and selection
US10719742B2 (en) * 2018-02-15 2020-07-21 Adobe Inc. Image composites using a generative adversarial neural network
US10628708B2 (en) * 2018-05-18 2020-04-21 Adobe Inc. Utilizing a deep neural network-based model to identify visually similar digital images based on user-selected visual attributes
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109447242B (zh) * 2018-10-10 2021-08-20 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109522970B (zh) * 2018-11-28 2021-05-04 南京旷云科技有限公司 图像分类方法、装置及系统
CN109378054A (zh) * 2018-12-13 2019-02-22 山西医科大学第医院 一种多模态图像辅助诊断系统及其搭建方法
CN109816039B (zh) * 2019-01-31 2021-04-20 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110298395B (zh) * 2019-06-18 2023-04-18 天津大学 一种基于三模态对抗网络的图文匹配方法
US11734352B2 (en) * 2020-02-14 2023-08-22 Naver Corporation Cross-modal search systems and methods

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097604A1 (en) 2018-09-21 2020-03-26 Microsoft Technology Licensing, Llc Stacked cross-modal matching

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Di Qi et al., "ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data", arXiv:2001.07966, 2020.01.23, https://arxiv.org/abs/2001.07966
Gen Li et al., "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training", arXiv:1908.06066, 2019.12.02, https://arxiv.org/abs/1908.06066
Junyang Lin et al., "InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining", arXiv:2003.13198v1, 2020.03.30, https://arxiv.org/abs/2003.13198v1
Mandar Joshi et al., "SpanBERT: Improving Pre-training by Representing and Predicting Spans", arXiv:1907.10529, 2020.01.18, https://arxiv.org/abs/1907.10529

Also Published As

Publication number Publication date
US11341366B2 (en) 2022-05-24
US20210303921A1 (en) 2021-09-30
KR20210040326A (ko) 2021-04-13
EP3889830A1 (en) 2021-10-06
CN111461203A (zh) 2020-07-28
JP2021163456A (ja) 2021-10-11

Similar Documents

Publication Publication Date Title
JP7397786B2 (ja) クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体
Cheng et al. Fully convolutional networks for continuous sign language recognition
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
KR102565659B1 (ko) 정보 생성 방법 및 장치
US20220383115A1 (en) Online, incremental real-time learning for tagging and labeling data streams for deep neural networks and neural network applications
US10664060B2 (en) Multimodal input-based interaction method and device
US11468550B2 (en) Utilizing object attribute detection models to automatically select instances of detected objects in images
CN110717339A (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
JP2021082308A (ja) マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
CN111767379A (zh) 图像问答方法、装置、设备以及存储介质
KR20220113829A (ko) 차량 추적 방법, 장치 및 전자 기기
CN111738251A (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN108073851B (zh) 一种抓取手势识别的方法、装置及电子设备
EP3876163A2 (en) Model training, image processing method, device, storage medium, and program product
KR102171691B1 (ko) 증강현실 기반 3d 프린터 유지보수 방법 및 시스템
CN111090991A (zh) 场景纠错方法、装置、电子设备和存储介质
CN111078878A (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN112149741A (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN111902812A (zh) 电子装置及其控制方法
Xu et al. Text-guided human image manipulation via image-text shared space
Sanmitra et al. Machine Learning Based Real Time Sign Language Detection
CN112597288B (zh) 人机交互方法、装置、设备及存储介质
Qiu et al. Effective skeleton topology and semantics-guided adaptive graph convolution network for action recognition
CN112668464B (zh) 一种融合场景匹配的中文手语翻译模型构建方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220518

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220913

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230106

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230131

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231201

R150 Certificate of patent or registration of utility model

Ref document number: 7397786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150