JP7397786B2

JP7397786B2 - クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体

Info

Publication number: JP7397786B2
Application number: JP2020215106A
Authority: JP
Inventors: ギョ―チェンニウ，; ボレイへー，; シンヤンシャオ，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-12-24
Publication date: 2023-12-13
Anticipated expiration: 2040-12-24
Also published as: US20210303921A1; CN111461203A; JP2021163456A; US11341366B2; KR20210040326A; EP3889830A1

Description

本出願は、コンピュータの技術分野に関し、特に、自然言語処理の技術分野に関する。具体的には、クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体に関する。

私たちが住んでいる世界は、マルチモーダルな世界であり、文字、視覚などの異なるモーダルの内容は、私たちの生活に溢れている。人工知能技術の急速な発展に伴い、例えば、視覚－言語のようなマルチモーダル処理に基づくニーズと要求は、ますます高まっている。

しかしながら、現在のマルチモーダル処理方法では、モデルのトレーニングを行う際に、十分な語意情報を捉えることができず、テキストと視覚との２つのモーダル間の語意的な関連も確立されておらず、モデルのトレーニング効果がよくない。

クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体を提供する。

第１の態様は、トレーニング語彙データと対応する画像との組合わせをトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した、クロスモーダル処理方法を提供する。

本出願の第２の態様は、クロスモーダル処理装置を提案する。

本出願の第３の態様は、電子機器を提案する。

本出願の第４の態様は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提案する。

本出願の第１の態様の実施例は、複数の語彙データ及び複数の画像を含むサンプルセットを取得するステップと、前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データに対応する少なくとも一つの前記画像との組合せであるステップと、前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることによって、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップと、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップと、を含む、クロスモーダル処理方法を提案する。

本出願の第２の態様の実施例は、複数の語彙データ及び複数の画像を含むサンプルセットを取得するための取得モジュールと、前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するための生成モジュールであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである生成モジュールと、前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることによって、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるためのトレーニングモジュールと、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うための処理モジュールと、を含む、クロスモーダル処理装置を提案する。

本出願の第３の態様の実施例は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行されることによって、前記少なくとも一つのプロセッサが、第１の態様のクロスモーダル処理方法を実行可能である、電子機器を提案する。

本出願の第４の態様の実施例は、前記コンピュータ命令が、前記コンピュータに、第１の態様に記載のクロスモーダル処理方法を実行させる、ことを特徴とする、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提案する。

本出願の実施例に係る技術案は、以下の有益な効果を含むことができる。すなわち、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行い、トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。

なお、本発明の概要に記載の内容は、本開示の実施例の肝心な特徴又は重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の明細書により理解されやすくなる。

図面は、本方案をよりよく理解するためのものであり、本出願に対する限定を構成するものではない。
本出願の実施例に係るクロスモーダル処理方法のフローチャートである。本出願の実施例に係る他のクロスモーダル処理方法のフローチャートである。本出願の実施例に係るクロスモーダル処理のアーキテクチャ説明図である。本出願の実施例に係る別のクロスモーダル処理方法のフローチャートである。本出願の実施例に係る画像とテキストとが対応する説明図である。本出願の実施例に係る別のクロスモーダル処理方法的フローチャートである。本出願の実施例に係るクロスモーダル処理装置の概略構成図である。及び本出願の実施例に係るクロスモーダル処理方法を実現するための電子機器のブロック図である。

以下、本出願の例示的な実施例を、図面を参照して説明する。理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでいるが、それらは単なる例示であると見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解されたい。同様に、明確かつ簡潔するため、以下の説明では、周知の機能及び構成の説明を省略する。

以下、本出願の実施例に係るクロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体を、図面を参照して説明する。

図１は、本出願の実施例に係るクロスモーダル処理方法のフローチャートである。インタアクティブ時に使用される用語をモーダルする。クロスモーダルとは、テキスト、画像、ビデオなどの多くの手段とシンボルキャリアを組合わせてインタラクティブにする現象を指し、それに応じて、クロスモーダルは、例えば、画像とテキスト情報を同時に含むなど、少なくとも２つのモーダルの情報を同時に含む。

図１に示すように、当該方法は、以下のステップを含む。

ステップ１０１において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。

語彙データは、少なくとも一つのテキストユニットを含む。

可能な一実現形態として、マルチメディアデータセットから異なるモーダルのデータを収集して、複数の画像と対応する複数の語彙データを含むサンプルセットを生成することができる。語彙データは、対応する画像の内容を説明するように構成される。

ステップ１０２において、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせである。

具体的には、サンプルセットに含まれる複数の語彙データ及び複数の画像に基づいて、語彙データと対応する画像とを組合せ、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせである。

ステップ１０３において、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させる。

本実施例において、語彙データと画像とを組合せトレーニングサンプルを生成し、トレーニングサンプルにテキストの情報と対応する画像の情報とを同時に含むようにすることで、語意モデルがトレーニングする際に語彙データと画像との組合せ情報に基づいたトレーニングを行うようにし、モデルが語彙データと画像との組合せの語意ベクトルを学習可能にする。語彙データと画像との組合せの語意ベクトルには、２種のモーダル間の語意的な関連を含む。語意モデルのトレーニング効果が向上し、従来技術では、語意モデルのトレーニングを行う際に、語彙データと画像に基づいて独立して認識モデルを構築するとともにトレーニングし、それぞれのモーダルに対応する認識モデルの結果を重み付けして対応する語意情報を取得するので、トレーニングして取得したモデルが語彙データと画像との間の語意的な関連を認識できず、すなわち、語彙データと対応する画像との間の語意的な関連が分割され、モデルのトレーニング効果が悪くなり、認識効果が悪くなってしまう。

本実施例におけるトレーニングサンプルは、少なくとも１つの語彙モータと任意の少なくとも１つの画像との組合わせであってもよい。語彙データと画像の組合わせ方が異なると、対応するトレーニングタスクも異なり、異なるトレーニングタスクごとに対して、語意モデルをトレーニングする。これについては、後続の実施例で詳しく紹介する。

ステップ１０４において、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。

本実施例において、トレーニングされた語意モデルは、語彙データと画像との組合せの語意ベクトルを学習し、語彙データと画像との間の語意的な関連を学習する。トレーニングされた語意モデルを具体的な語彙データと画像とのクロスモーダル処理に適用する。例えば、画像に基づいて、対応する画像を説明する語彙データを生成し、或いは、語彙データに基づいて、対応する画像を検出する。

選択可能には、実際に適用するシーンでは、異なる認識タスクに応じて、認識を行うための画像及び語彙データを識別することができる。モデルの認識結果に応じて、モデルのパラメータを微調整することで、そのシーンの認識タスクにおけるモデルの認識効果を向上させる。

本実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像との組合せをトレーニングすることによって、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。

上記の実施例に基づいて、本実施例は、別のクロスモーダル処理方法を提供する。本実施例において、語意モデルに実行されるものを第１のトレーニングタスクとして説明する。

図２は、本出願の実施例に係る他のクロスモーダル処理方法のフローチャートである。

図２に示すように、当該方法は、以下ステップを含むことができる。

ステップ２０１において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。

ステップ２０２において、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。ここで、それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせである。

具体的には、上記の実施例におけるステップ１０１～１０２を参照することができるが、原理が同じであるので、ここでは説明を省略する。

ステップ２０３において、それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける画像が呈している各オブジェクトに対して画像特徴を抽出し、及び、語彙データにおける各テキストユニットに対してテキスト特徴を抽出する。

本実施例において、それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける画像が呈している各オブジェクトに対して画像特徴を抽出する。オブジェクトとは、画像が呈している、例えば、人、ビル、樹木及び車両などの実体を指す。具体的には、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得する。可能な一実現形態として、それぞれのトレーニングサンプルに対して、サンプルに含まれる画像に対して、高速目標検出モデルＦａｓｔｅｒＲ－ＣＮＮで画像における各オブジェクトの領域、及び視覚特徴と空間座標である領域に対応する特徴を認識する。視覚特徴は、対応する関心領域の画像コンテンツ情報をＦａｓｔｅｒＲ－ＣＮＮモデルでプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。視覚特徴と空間座標とを結合し、各オブジェクトのオブジェクト特徴を生成し、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第１のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成する。オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第１のモーダルマーカーは、対応するオブジェクトが対応する画像に属することを指示するように構成される。

図３に示すように、トレーニングサンプルにおける画像は、図３の画像である。図３に示される画像を語意分割モデルで認識し、画像が呈しているオブジェクトには、Ｔ１に指示される建物ｂｕｉｌｄｉｎｇ、Ｔ２に指示されるドアｄｏｏｒ、Ｔ３に指示される自転車ｂｉｃｙｃｌｅ、Ｔ４に指示されるバスケットｂａｓｋｅｔ及びＴ５に指示される女子ｗｏｍａｎが含まれることが認識され、各オブジェクトに対して特徴を抽出して画像が呈している各オブジェクトのオブジェクト特徴を取得しＶ_{ｂｕｉｌｄｉｎｇ}、Ｖ_ｄｏｏｒ、Ｖ_{ｗｏｍａｎ}、Ｖ_{ｂｉｃｙｃｌｅ}、及びＶ_{ｂａｓｋｅｔ}とマーカーする。
画像における各オブジェクトは順序がないため、画像における各オブジェクトの順序特徴は、一つの固定ＩＤに対応するベクトルを用いることができ、例えば、全て１と設定することができる。第１のモーダルマーカーは、例えば、マーカー［ＩＭＧ］と設定する。順序特徴と第１のモーダルマーカーは、他の実現形態を有してもよく、本実施例では、限定しない。さらに、各オブジェクトに対応するオブジェクト特徴、順序特徴及び第１のモーダルマーカーを結合すると、各オブジェクトの画像特徴を生成する。

それぞれのトレーニングサンプルに対して、語彙データにおける各テキストユニットに対してテキスト特徴を抽出する。具体的には、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得する。文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成され、各テキストユニットの文字特徴、位置特徴及び設定された第２のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成する。第２のモーダルマーカーは、対応するテキストユニットが対応する語彙データに属することを指示するように構成される。

例えば、一つの語彙データは、Ａｗｏｍａｎｒｉｄｉｎｇａｂｉｋｅｗｉｔｈａｄｏｇｉｎａｂａｓｋｅｔであり、当該語彙データを複数のテキストユニットに分け、それぞれのテキストユニットには、１つまたは複数でもよい所定数の文字を含み、各テキストユニットの文字特徴を取得てもよい。即ち、各テキストユニットには、所定数の文字を含み、語彙データに含まれる全てのテキストユニットを語順に従い、２から順に１コードずつ増加し、語彙データに１２つのテキスト単位があるとして、対応する位置特徴は、２、３、４、５、……１２と１３に順次コード化される。図３に示すように、設定された第２のモーダルマーカーは、例えば［Ｔｅｘｔ］である。

本実施例では、それぞれのトレーニングサンプルに対して、画像が呈する各オブジェクトのオブジェクト特徴を生成し、対応するテキスト特徴をさらに生成し、オブジェクト特徴が生成された後、オブジェクト特徴に含まれるベクトルの次元がテキスト特徴の次元よりも大きければ、各オブジェクトのオブジェクト特徴を、対応するテキスト特徴の次元と同一に圧縮することで、次元の統一を実現し、データの処理を容易にする。

ステップ２０４において、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、入力特徴を取得する。

具体的には、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、語意モデルの入力特徴を取得することで、語意モデルが画像と語彙データの組合せ特徴をトレーニングする。これにより、語意モデルが画像と語彙データとの間の語意的な関連が取得可能となり、語意モデルの認識効果が向上した。

例えば、図３に示すように、語彙データにおけるそれぞれのテキストユニットに対して、Ａ２において対応する文字特徴、Ｂ２において対応する第２のモーダルマーカー及びＣ２において対応する位置特徴を結合して対応するテキストユニットのテキスト特徴を生成する。画像におけるそれぞれのオブジェクトに対して、Ａ１において対応するオブジェクト特徴、Ｂ１において対応する第１のモーダルマーカー及びＣ１において対応する位置特徴を結合して対応するオブジェクトの画像特徴を生成する。さらに、それぞれのオブジェクトの画像特徴及びそれぞれのテキストユニットのテキスト特徴を加えて結合し、入力特徴を取得しする。入力特徴は、ベクトルで示される。

ステップ２０５において、入力特徴に基づいて、第１のトレーニングタスクを実行することによって、語意モデルをトレーニングする。

本実施例は、第１のトレーニングタスクと第２のトレーニングタスクを含む。本実施例では、第１のトレーニングタスクに基づいて、語意モデルをトレーニングする。第２のトレーニングタスクによるモデルに対するトレーニング過程は、後続の実施例でさらに具体的に紹介する。

第１のトレーニングタスクは、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換するステップ、及び／又は、少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップを含む。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第１の語意ベクトルを取得し、第１の語意ベクトルに基づいて、選択されたテキストユニット及び／又は選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。

具体的には、第１の可能な実現形態として、語彙データのテキストユニットに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第１の語意ベクトルを取得し、第１の語意ベクトルに基づいて、選択されたテキストユニットを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。

第２の可能な実現形態として、画像におけるオブジェクトに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルの画像から、少なくとも一つのオブジェクトを選択する。画像におけるオブジェクトの表示領域は空間に交差して重なる表示領域が存在する場合もあれば、交差して重なる領域が存在しない場合もあるため、２つのシーンで説明する。

あるシーンでは、画像におけるオブジェクトの表示領域は、空間に交差し重なる表示領域が存在すると、２つのオブジェクトの間に語意的な関連が存在するため、選択されたオブジェクトは、重なる表示領域を有する少なくとも２つのオブジェクトを含み、マスク領域の粒度を増加させ、マスク領域に含まれる語意情報を増加させることができる。

別のシーンでは、画像におけるオブジェクトは、互いに重なる表示領域がないため、選択されたオブジェクトは、何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトである。画像におけるオブジェクトが全部互いに独立したオブジェクトである場合でも、選択されたオブジェクト、即ち、選択された少なくとも１つのオブジェクトが何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトであると特定でき、マスク領域の粒度を増加させることで、マスク領域に含まれる語意情報を増加させる。

入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することにで、語意モデルから出力された第１の語意ベクトルを取得し、第１の語意ベクトルに基づいて、選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。

第３の可能な実現形態では、語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングする。具体的には、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換し、及び、少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第１の語意ベクトルを取得し、第１の語意ベクトルに基づいて、マスクされたテキスト部分及びマスクの画像部分に対応するテキストを予測する。予測の正確性に基づいて、語意モデルのパラメータを調整し、少なくとも一つのテキストユニットと画像ユニットに対してともにマスクする。マスクの粒度が粗いため、マスク部分に含まれる語意情報を増加させ、モデルが語彙データと画像との間の語意的な関連をよりよく学習することを可能とし、同時に、語意モデルのパラメータ調整の速度が向上し、モデルのトレーニング効果が向上した。

例えば、図３において語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングする。図３に示すように、語彙データにおける４つの連続したテキストユニットをマスクし、即ち、各テキストユニットに対応する文字ｗｏｍａｎ、ｒｉｄｉｎｇ、ａ及びｂｉｋｅを設定された画像マスク［ｍａｓｋ］で置換し、４つのテキストユニットに対するマスクを完成する。同時に、画像における３つのオブジェクト、即ち、Ｔ３に対応するオブジェクトである自転車ｂｉｃｙｃｌｅ、Ｔ４に対応するオブジェクトであるバスケットｂａｓｋｅｔ、Ｔ５に対応するオブジェクトである女子ｗｏｍａｎ、対応する画像特徴におけるオブジェクト特徴Ｖ_{ｗｏｍａｎ}，Ｖ_{ｂｉｃｙｃｌｅ}及びＶ_{ｂａｓｋｅｔ}に対して、設定された画像マスク［ｍａｓｋ］で置換する。従って、本実施例におけるマスクの粒度がさらに粗く、語彙データに対して、少なくとも一つのテキストユニットをマスクし、画像に対して、画像における少なくとも一つのオブジェクトをマスクし、より豊かな語意情報を捉えることができる。しかし、従来技術において、マスク粒度は、単一の単語または単一の物体オブジェクトであるので、さらに大きな語意ユニットの場合には、うまく対応できず、例えば、哈爾濱について、「爾」の字が単独にマスク置換され、「哈」と「濱」で「爾」を予測すれば、比較的簡単で、あまり価値がないが、一方、「哈爾濱」という句全体がマスクされると、この句の前後の言葉で「哈爾濱」を予測すれば、「哈爾濱」について、よりよい語意を学習することができる。

さらに、置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第１の語意ベクトルを取得し、第１の語意ベクトルに基づいて、選択されたテキストユニットと選択されたオブジェクトを予測する。図３のように、マスクされたテキストユニットに対応する文字は、ｗｏｍａｎ、ｒｉｄｉｎｇ、ａ及びｂｉｋｅであり、語意モデルから出力された第１の語意ベクトルに基づいて予測した文字は、ｗｏａｍｎ、ｒｉｄｉｎｇ、ａ及びｂｉｋｅであり、予測結果が完全に正確である。画像特徴におけるマスクされたオブジェクト特徴に対応するオブジェクトは、ｂａｓｋｅｔの画像、ｂｉｃｙｃｌｅの画像及びｗｏｍａｎの画像であり、語意モデルが予測して出力するのは、対応する説明テキストｂａｓｋｅｔ、ｂｉｃｙｃｌｅ及びｗｏｍａｎであり、予測結果も完全に正確である。実際に適用される過程では、モデルのトレーニング過程において、モデルの正確性は、最初は低いが、予測結果の正確性に基づいて、モデルが収斂するまで絶えず語意モデルのパラメータを調整するので、語意モデルの損失関数は、最小であり、認識の正確性は、最も高くなる。

ステップ２０６では、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。

本実施例において、トレーニングされた語意モデルは、語彙データと画像との組合せの語意ベクトルを学習し、語彙データと画像との間の語意的な関連を学習し、さらに、トレーニングされた語意モデルを具体的な語彙データと画像とのクロスモーダル処理に適用する。本実施例では、２種の適用シーンが提供される。

あるシーンでは、トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検索する。具体的には、一致する画像と語彙データが入力モデルであるか否かを判断する必要があり、モデルの出力に基づいて両者が一致するか否かを特定する。即ち、既知の語彙データに対応する特徴と、未知の画像の初期化特徴とを語意モデルに入力し、語意モデルから出力された既知の語彙データと未知の画像との組合せの語意ベクトルにおける対応する画像部分のデータに基づいて、未知の画像が呈しているオブジェクトを予測し、予測されたオブジェクトに基づいて、複数の未知の画像から当該未知の画像を検出する。これにより、既知の語彙データに対応する画像を特定する。

別のシーンでは、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成する。具体的には、既知の画像に対応する特徴と、未知の語彙データの初期化特徴とを語意モデルに入力し、モデルから出力された既知の画像と未知の語彙データとの組合せの語意ベクトルにおける対応する語彙データ部分のデータに基づいて、対応する既知の画像を説明するための未知の説明語彙データを特定する。

なお、未知の語彙データとは、当該語彙データがどの画像を説明するのかが不明であり、語彙データに対応する画像が未知であることを指す。

本実施例に係るクロスモーダル処理方法では、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行い、トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させる。これにより、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。

上記の実施例に基づいて、本実施例は、別のクロスモーダル処理方法を提供する。本実施例では、予めシードプールを構築し、シードプールに基づいて、画像とテキストを情報合わせするとともに、情報融合を行う。画像特徴とテキスト特徴に含まれる情報量を高め、モデルのトレーニング効果を向上させる。

図４は、本出願の実施例に係る別のクロスモーダル処理方法のフローチャートである。

図４に示すように、当該方法は、以下ステップを含む。

ステップ３０１において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。

ステップ３０２において、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。ここで、それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせである。

ステップ３０３において、それぞれのトレーニングサンプルに対して、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得し、視覚特徴と空間座標とを結合し、オブジェクト特徴を生成する。

可能な一実現形態では、それぞれのトレーニングサンプルについて、サンプルに含まれる画像に対して、高速目標検出モデルＦａｓｔｅｒＲ－ＣＮＮで画像における各オブジェクトの領域、及び視覚特徴と空間座標である領域に対応する特徴を認識する。ここで、視覚特徴は、対応する関心領域の画像コンテンツ情報をＦａｓｔｅｒＲ－ＣＮＮモデルでプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。視覚特徴と空間座標とを結合し、対応するオブジェクトのオブジェクト特徴を生成する。

本実施例では、それぞれのトレーニングサンプルに対して、画像が呈している各オブジェクトのオブジェクト特徴を生成し、対応するテキスト特徴をさらに生成する。オブジェクト特徴が生成された後、オブジェクト特徴に含まれるベクトルの次元がテキスト特徴の次元よりも大きければ、各オブジェクトのオブジェクト特徴dを、対応するテキスト特徴の次元と同一に圧縮することで、次元の統一を実現し、データの処理を容易にする。テキスト特徴の生成方法については、後続のステップで具体的に説明する。

ステップ３０４において、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索し、基準テキストの文字内容を対応するオブジェクト特徴に融合する。

基準テキストは、対応するオブジェクトを説明するように構成される。

本実施例において、シードプールは、予め構築されたものであり、可能な一実現形態として、大量の画像サンプルを取得し、高速目標検出モデルＦａｓｔｅｒＲ－ＣＮＮでそれぞれの大量画像に対して各境界ボックスｂｏｕｎｄｉｎｇｂｏｘを抽出するとともに、それぞれのｂｏｕｎｄｉｎｇｂｏｘに対応するサブ画像と対応する文字説明の関係マッピングを構築する。図５に示すように、基準テキストの野球のバットｂａｓｅｂａｌｌｂａｔとＳ１で示す境界ボックスｂｏｕｎｄｉｎｇｂｏｘとは、対応関係を有し、基準テキストの人ｐｅｒｓｏｎとＳ２で示す境界ボックスとは、対応関係を有し、基準テキストのスポーツボールｓｐｏｒｔｂａｌｌとＳ３で示す境界ボックスとは、対応関係を有し、基準テキストの野球グローブとＳ４で示す境界ボックスとは、対応関係を有する。同じ理由により、それぞれの画像において、各境界ボックスと対応する基準テキストとの対応関係を取得でき、一つの基準テキストは、複数の物体に対応することができる。例えば、バスケットは、様々な外形と造形を有するが、異なる画像のバスケットは、対応する基準テキストが全部バスケットでもよいため、我々は、一定規模の一対多のマッピングを構築した。それぞれの物体の基準テキストは、複数の異なる図に対応することができるので、基準テキストと画像との間のマッピング関係を含むシードプールを構築することができる。

例えば、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索し、基準テキストの文字内容は、３００次元の特徴ベクトルであり、対応するオブジェクトのオブジェクト特徴は、１２８次元の特徴ベクトルである場合には、マークアップテキストに対応する３００次元の特徴ベクトルを対応する１２８次元のオブジェクト特徴に融合させた後で、取得した対応するオブジェクトのオブジェクト特徴のベクトルは依然として１２８次元を維持することで、基準テキストの文字内容を対応するオブジェクト特徴に融合させた後もオブジェクト特徴の次元は変わらないが、オブジェクト特徴に含まれる情報量が増加することを実現し、画像特徴に含まれる情報が向上した。

ステップ３０５において、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第１のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成する。

オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第１のモーダルマーカーは、対応するオブジェクトが対応する画像に属することを指示するように構成される。第１のモーダルマーカーは、例えば、［ＩＭＧ］のような設定された特殊マークであってもよい。

可能な一実現形態として、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第１のモーダルマーカーに基づいて、結合の方式で各オブジェクトの画像特徴を生成することができ、画像特徴に含まれる情報を増加させた。

具体的には、画像特徴の例について説明すると、図２に対応する実施例のステップ２０３を参照することができるが、原理が同じであるため、ここでは説明を省略する。

ステップ３０６において、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得する。

文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。

ステップ３０７において、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を捜索し、基準画像の画像内容を対応するテキストユニットの文字特徴に融合する。

基準画像は、対応するテキストユニットに説明されるオブジェクトを呈し、マークアップ画像の画像内容は、画像が呈しているオブジェクトの大きさ、色、形状等を含む。

例えば、それぞれのオブジェクトに対して、シードプールで予めそれぞれのテキストユニットと対応するマークアップ画像との対応関係が既に構築されたため、構築されたシードプールから捜索した対応する基準画像を見て、例えば、図３に示すように、テキストユニットに含まれる文字は、バスケットｂａｓｋｅｔであり、シードプールで検出することで、複数のマークアップ画像を特定する。図３では３種類のみを模式的に示すが、捜索した複数のマークアップ画像の画像内容を対応するテキストユニットの文字特徴に融合する。具体的には、基準画像の画像内容は、３００次元の特徴ベクトルに対応し、対応するテキストユニットの文字特徴は、１２８次元の特徴ベクトルの場合には、画像内容に対応する３００次元の特徴ベクトルを文字特徴が１２８次元の特徴ベクトルに融合させた後に取得した文字特徴のベクトルは、依然として１２８次元を維持する。これにより、対応する画像内容を文字特徴に融合した後も文字特徴の次元は変わらないが、文字特徴に含まれる情報が増加するため、テキスト特徴に含まれる情報、及びテキストとオブジェクトとの間の語意的な関連性が向上する。さらに、後続のステップでテキスト特徴と画像特徴とを結合した入力特徴に含まれる語意情報量も増加するので、入力特徴に基づいて、トレーニングを行う語意モデルのトレーニング効果を向上させることができる。

ステップ３０８において、各テキストユニットの文字特徴、位置特徴及び設定された第２のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成する。

文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成され、第２のモーダルマーカーは、対応するテキストユニットが対応する語彙データに属することを指示するように構成され、例えば、設定マーク［Ｔｅｘｔ］である。

本実施例において、各テキストユニットの文字特徴、位置特徴及び設定された第２のモーダルマーカーを結合し、各テキストユニットのテキスト特徴を生成し、テキスト特徴に含まれる情報を増加させた。

ステップ３０９において、各オブジェクトの画像特徴及び各テキストユニットのテキスト特徴を結合し、入力特徴を取得する。

具体的には、各オブジェクトの画像特徴及び各テキストユニットのテキスト特徴を結合し、語意モデルの入力特徴を取得することで、語意モデルが画像と語彙データとの組合せ特徴をトレーニングする。これにより、語意モデルが画像と語彙データとの間の語意的な関連を取得可能となり、語意モデルの認識効果が向上した。

例えば、図３に示すように、語彙データにおけるそれぞれのテキストユニットに対して、Ａ２において対応する文字特徴、Ｂ２において対応する第２のモーダルマーカー及びＣ２において対応する位置特徴を結合して対応するテキストユニットのテキスト特徴を生成する。画像におけるそれぞれのオブジェクトに対して、Ａ１において対応するオブジェクト特徴、Ｂ１において対応する第１のモーダルマーカー及びＣ１において対応する位置特徴を結合して対応するオブジェクトの画像特徴を生成する。さらに、それぞれのオブジェクトの画像特徴及びそれぞれのテキストユニットのテキスト特徴を加えて結合し、入力特徴を取得する。入力特徴は、ベクトルで示され、テキスト情報と画像情報との聨合方式を実現し、モデルがテキストと画像との間の関連情報を学習することを可能とし、後続のモデルのトレーニング効果が向上した。

ステップ３１０において、入力特徴に基づいて、第１のトレーニングタスクを実行することによって、語意モデルをトレーニングする。

具体的には、第１の可能な実現形態として、語彙データのテキストユニットに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換し、置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第１の語意ベクトルを取得し、第１の語意ベクトルに基づいて、選択されたテキストユニットを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。

第２の可能な実現形態では、画像におけるオブジェクトに対するマスクに基づいてモデルをトレーニングする。具体的には、それぞれのトレーニングサンプルの画像から、少なくとも一つのオブジェクトを選択する。画像におけるオブジェクトの表示領域は、空間に交差して重なる表示領域が存在する場合もあれば、交差して重なる領域が存在しない場合もあるため、２つのシーンで説明する。

あるシーンでは、画像におけるオブジェクトの表示領域は、空間に交差し重なる表示領域が存在すると、２つのオブジェクトの間に語意的な関連が存在するため、選択されたオブジェクトは、重なる表示領域を有する少なくとも２つのオブジェクトを含む。このため、マスク領域の粒度を増加させ、マスク領域に含まれる語意情報を増加させることができる。

別のシーンでは、画像におけるオブジェクトは、互いに重なる表示領域がないため、選択されたオブジェクトは、何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトであり、画像におけるオブジェクトが全部互いに独立したオブジェクトの場合でも、選択されたオブジェクト、即ち、選択された少なくとも１つのオブジェクトが何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトを特定でき、マスク領域の粒度を増加させることで、マスク領域に含まれる語意情報を増加させる。

入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第１の語意ベクトルを取得し、第１の語意ベクトルに基づいて、選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整する。

第３の可能な実現形態として、語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングする。具体的には、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換し、及び、少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換する。置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第１の語意ベクトルを取得し、第１の語意ベクトルに基づいて、選択されたテキストユニットと選択されたオブジェクトを予測する。予測の正確性に基づいて、語意モデルのパラメータを調整し、テキストユニットと画像ユニットに対してともにマスクすることで、正確性を予測し、モデルが語彙データと画像との間の語意的な関連をより迅速に学習することを可能とし、語意モデルのパラメータ調整の速度が向上し、モデルのトレーニング効果が向上した。

例えば、図３において語彙データと画像を同時にマスクすることに基づいて、モデルをトレーニングし、図３に示すように、語彙データにおける４つの連続したテキストユニットをマスクし、即ち、各テキストユニットに対応する文字ｗｏｍａｎ、ｒｉｄｉｎｇ、ａ及びｂｉｋｅを設定された画像マスク［ｍａｓｋ］で置換し、４つのテキストユニットに対するマスクを完成する。同時に、画像における３つのオブジェクトの画像特徴におけるオブジェクト特徴に対して、設定された画像マスク［Ｍａｓｋ］で置換する。従って、本実施例におけるマスクの粒度がさらに粗く、語彙データに対して、少なくとも一つのテキストユニットをマスクし、画像に対して、画像における少なくとも一つのオブジェクトをマスクし、より豊かな語意情報を捉えることができる。しかし、従来の技術では、マスク粒度は、単一の単語または単一の物体オブジェクトであり、さらに大きな語意ユニットの場合にはうまく対応できないため、例えば、哈爾濱について、「爾」の字が単独にマスク置換され、「哈」と「濱」で「爾」を予測すると、比較的簡単で、あまり価値がないが、「哈爾濱」という句全体がマスクされ、この句の前後の言葉で「哈爾濱」を予測すれば、「哈爾濱」について、よりよい語意を学習することができる。

さらに、置換後に取得した入力特徴を語意モデルに入力することで、語意モデルから出力された第１の語意ベクトルを取得し、第１の語意ベクトルに基づいて、選択されたテキストユニットと選択されたオブジェクトを予測する。図３のように、マスクされたテキストユニットに対応する文字は、ｗｏｍａｎ、ｒｉｄｉｎｇ、ａ及びｂｉｋｅであり、語意モデルから出力された第１の語意ベクトルに基づいて予測した文字は、ｗｏａｍｎ、ｒｉｄｉｎｇ、ａ及びｂｉｋｅであり、予測結果が完全に正確である。画像特徴におけるマスクされたオブジェクト特徴に対応するオブジェクトは、ｂａｓｋｅｔ、ｂｉｃｙｃｌｅ及びｗｏｍａｎであり、語意モデルは、マスクされたオブジェクトに対して対応する説明情報を予測する。予測して出力するのは、ｂａｓｋｅｔ、ｂｉｃｙｃｌｅ及びｗｏｍａｎであり、予測結果も完全に正確である。実際に適用される過程では、モデルのトレーニング過程において、モデル認識の正確性は、最初は低いが、予測結果の正確性に基づいて、モデルが収斂するまで絶えず語意モデルのパラメータを調整すると、語意モデルの損失関数は、最小となり、認識の正確性は、最も高くなる。

ステップ３１１において、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。

具体的には、ステップ３０９～ステップ３１１では、入力特徴に基づいて、第１のトレーニングタスクに対する操作は、図２に対応する実施例におけるステップ２０４～２０６を参照することができるが、原理が同じであるため、ここでは説明を省略する。

本実施例では、予め設定されたシードプールにより、各オブジェクトの画像特徴に対応する基準テキストの文字内容を融合させて、含まれる情報を増加させる。同じ理由により、各テキストユニットのテキスト特徴に対応する基準画像の画像内容を融合させて、含まれる情報を増加させることで、情報量を増加させたテキスト特徴と画像特徴とを繋ぎ合わせた後、取得した入力特徴に含まれる語意情報量も増加する。従来技術に比べ、テキストと画像を統合して視覚で示す場合、２種のモーダルの特徴間の対応関係が構築されず、２種のモーダルの特徴が分かれたものとなる。このため、語意モデルがクロスモーダル時のモーダル間の語意関係を学習できず、モデルのトレーニング効果が悪くなる。一方、本出願では、構築されたシードプールにより、テキストと画像特徴を揃えるとともに互いに融合させると、語意モデルがクロスモーダル時のモーダル間の語意関係を学習できないため、語意モデルのトレーニング効果を向上させることができる。

本出願の実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上する。また、予め設定されたシードプールに基づいて、情報量を増加させたテキスト特徴と画像特徴を生成し、テキスト特徴と画像特徴とを結合した後、取得した入力特徴に含まれる語意情報量も増加する。これにより、入力特徴に基づいて、トレーニングを行う語意モデルのトレーニング効果を向上させることができる。

上記の実施例により、本実施例は、別のクロスモーダル処理方法を提供し、本実施例において、第２のトレーニングタスクで語意モデルをトレーニングする過程を説明する。

図６は、本出願の実施例に係る別のクロスモーダル処理方法のフローチャートである。

図６に示すように、当該方法は、以下のステップを含む。

ステップ６０１において、複数の語彙データ及び複数の画像を含むサンプルセットを取得する。

可能な一実現形態として、マルチメディアデータセットから異なるモーダルのデータを収集して、複数の画像及び対応する複数の語彙データを含むサンプルセットを生成することができ、語彙データは、対応する画像の内容を説明するように構成される。

ステップ６０２では、サンプルセットに基づいて、語彙データが画像と一致するトレーニングサンプル及び語彙データが画像と一致しないトレーニングサンプルを生成する。

本実施例では、第２のトレーニングタスクでモデルをトレーニングし、用いられるトレーニングサンプルは、正例のトレーニングサンプル及び負例のトレーニングサンプルを含む。大量の正例のトレーニングサンプル及び負例のトレーニングサンプルを用いることでにより、モデルのトレーニング効果及びモデルのトレーニング速度を向上させることができる。

具体的には、サンプルセットに基づいて、各語彙データを対応する語彙データにより説明される画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、正例のトレーニングサンプルとする。

本実施例において、語彙データが画像と一致しないトレーニングサンプル、即ち、反例のトレーニングサンプルとして、３種の可能な生成形態がある。第１の可能な実現形態として、固定的に設定された語彙データをランダムに特定された画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する。

第２の可能な実現形態として、固定的に設定された画像をランダムに特定された語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する。

第３の可能な実現形態として、固定的に設定された語彙データをランダムに特定された画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得し、及び固定的に設定された画像をランダムに特定された語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する。

ステップ６０３において、それぞれのトレーニングサンプルに対して、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得する。

可能な一実現形態として、それぞれのトレーニングサンプルに対して、サンプルに含まれる画像に対して、高速目標検出モデルＦａｓｔｅｒＲ－ＣＮＮで画像における各オブジェクトの領域、及び視覚特徴と空間座標である領域に対応する特徴を認識する。視覚特徴は、対応する関心領域の画像コンテンツ情報をＦａｓｔｅｒＲ－ＣＮＮモデルでプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。

ステップ６０４において、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索し、基準テキストの文字内容を対応するオブジェクト特徴に融合する。

本実施例において、シードプールは、予め構築されたものであり、可能な一実現形態として、大量の画像サンプルを取得し、高速目標検出モデルＦａｓｔｅｒＲ－ＣＮＮでそれぞれの大量画像に対して各境界ボックスｂｏｕｎｄｉｎｇｂｏｘを抽出するとともに、それぞれのｂｏｕｎｄｉｎｇｂｏｘに対応するサブピクチャ及び対応する文字説明の関係マッピングを構築する。図５に示すように、基準テキストの野球のバットｂａｓｅｂａｌｌｂａｔとＳ１で示す境界ボックスｂｏｕｎｄｉｎｇｂｏｘとは、対応関係を有し、基準テキストの人ｐｅｒｓｏｎとＳ２で示す境界ボックスとは、対応関係を有し、基準テキストのスポーツボールｓｐｏｒｔｂａｌｌとＳ３で示す境界ボックスとは、対応関係を有し、基準テキストの野球グローブとＳ４で示す境界ボックスとは、対応関係を有する。同じ理由により、それぞれの画像において、各境界ボックスと対応する基準テキストとの対応関係を取得でき、一つの基準テキストは、複数の物体に対応することができる。例えば、バスケットは、様々な外形と造形を有するが、異なる画像のバスケットは、対応する基準テキストが全部バスケットでもよいため、我々は、一定規模の一対多のマッピングを構築した。それぞれの物体の基準テキストは、複数の異なる図に対応することができ、基準テキストと画像との間のマッピング関係を含むシードプールを構築することができる。

例えば、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを捜索する。基準テキストの文字内容は、３００次元の特徴ベクトルであり、対応するオブジェクトのオブジェクト特徴は、１２８次元の特徴ベクトルである場合には、マークアップテキストに対応する３００次元の特徴ベクトルを対応する１２８次元のオブジェクト特徴に融合させた後も、取得した対応するオブジェクトのオブジェクト特徴のベクトルは依然として１２８次元に維持されるので、基準テキストの文字内容を対応するオブジェクト特徴に融合させた後もオブジェクト特徴の次元は変わらないが、オブジェクト特徴に含まれる情報が増加するため、画像特徴に含まれる情報が向上した。

ステップ６０５において、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第１のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成する。

可能な一実現形態として、各オブジェクトのオブジェクト特徴、オブジェクトの順序特徴及び設定された第１のモーダルマーカーに基づいて、結合の方式で各オブジェクトの画像特徴を生成することができる。

具体的には、画像特徴の例についての説明は、図２に対応する実施例におけるステップ２０３を参照することができるが、原理が同じであるため、ここでは説明を省略する。

ステップ６０６において、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得する。

ステップ６０７において、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を捜索し、基準画像の画像内容を対応するテキストユニットの文字特徴に融合する。

例えば、それぞれのオブジェクトに対して、シードプールで予めそれぞれのテキストユニットと対応するマークアップ画像との対応関係が既に構築されたため、構築されたシードプールから捜索した対応する基準画像を見て、例えば、図３に示すように、テキストユニットに含まれる文字は、バスケットｂａｓｋｅｔであり、シードプールで検出することで、複数のマークアップ画像を特定する。図３では３種類のみを模式的に示すが、捜索した複数のマークアップ画像の画像内容を対応するテキストユニットの文字特徴に融合する。具体的には、基準画像の画像内容は、３００次元の特徴ベクトルに対応し、対応するテキストユニットの文字特徴は、１２８次元の特徴ベクトルである場合には、画像内容に対応する３００次元の特徴ベクトルを文字特徴が１２８次元の特徴ベクトルに融合させた後も、取得した文字特徴のベクトルは、依然として１２８次元を維持するため、対応する画像内容を文字特徴に融合した後も、文字特徴の次元が変わらないが、文字特徴に含まれる情報が増加するので、テキスト特徴に含まれる情報、及びテキストとオブジェクトとの間の語意的な関連性が向上し、後続のステップでテキスト特徴と画像特徴とを結合した入力特徴に含まれる語意情報量も増加するため、入力特徴に基づいて、トレーニングを行う語意モデルのトレーニング効果を向上させることができる。

ステップ６０８において、各テキストユニットの文字特徴、位置特徴及び設定された第２のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成する。

文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。第２のモーダルマーカーは、対応するテキストユニットが対応する語彙データに属することを指示するように構成され、例えば、設定マーク［Ｔｅｘｔ］である。

ステップ６０９において、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、入力特徴を取得する。

具体的には、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、語意モデルの入力特徴を取得することで、語意モデルに画像と語彙データとの組合せ特徴をトレーニングさせ、語意モデルが画像と語彙データとの間の語意的な関連を取得可能となり、語意モデルの認識効果が向上した。

例えば、図３に示すように、語彙データにおけるそれぞれのテキストユニットに対して、Ａ２において対応する文字特徴、Ｂ２において対応する第２のモーダルマーカー及びＣ２において対応する位置特徴を結合して対応するテキストユニットのテキスト特徴を生成する。画像におけるそれぞれのオブジェクトに対して、Ａ１において対応するオブジェクト特徴、Ｂ１において対応する第１のモーダルマーカー及びＣ１において対応する位置特徴を結合して対応するオブジェクトの画像特徴を生成する。さらに、それぞれのオブジェクトの画像特徴及びそれぞれのテキストユニットのテキスト特徴を結合し、入力特徴を取得し、入力特徴は、ベクトルで示される。

ステップ６１０において、入力特徴には、マッチングマークをさらに含まれ、入力特徴に基づいて、第２のトレーニングタスクを実行することによって、語意モデルをトレーニングする。

入力特徴には、マッチングマークをさらに含まれ、マッチングマークは予め設定された学習可能なベクトルであり、例えば、学習類別（ｃｌａｓｓｉｆｉｃａｔｉｏｎ，ＣＬＳ）ベクトルである。

第２のトレーニングタスクは、以下の内容を含み、それぞれのトレーニングサンプルに対して、対応する入力特徴に含まれるマッチングマークを設定値にしてから、語意モデルに入力することで、語意モデルから出力された第２の語意ベクトルを取得し、第２の語意ベクトルにおけるマッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測する。予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、語意モデルのパラメータを調整し、第２のトレーニングタスクの絶えないトレーニングとモデルのパラメータを調整する。これにより、語意モデルを収斂させ、予測の一致結果と実際の一致結果との間の差異を最小にすることにより、語彙データと対応する画像の一致特定を実現し、画像と語彙データに対応する検索の分野に適用可能である。

語意モデルは、入力特徴に基づいて、マッチングマークの値を調整し、値を調整した後のマッチングマークの値は、トレーニングサンプルにおける語彙データと画像との一致性を指示するように構成されることができる。

ステップ６１１において、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。

本実施例において、トレーニングされた語意モデルは、語彙データと画像との組合せの語意ベクトルを学習し、語彙データと画像との間の語意的な関連を学習する。さらに、トレーニングされた語意モデルを具体的な語彙データと画像とのクロスモーダル処理に適用する。本実施例においては、２つの適用シーンを提供する。

あるシーンでは、トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検索する。具体的には、一致する画像と語彙データ入力モデルであるか否かを判断する必要があり、モデルから出力されたＣＬＳの値に基づいて、両者が一致するか否かを特定する。即ち、既知の語彙データに対応する特徴及び未知の画像の初期化特徴を語意モデルに入力し、語意モデルから出力された既知の語彙データと未知の画像との組合せの語意ベクトルにおける対応する画像部分のデータに基づいて、未知の画像が呈しているオブジェクトを予測し、予測されたオブジェクトに基づいて、複数の未知の画像から当該未知の画像を検出することで、既知の語彙データに対応する画像を特定する。

別のシーンでは、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成する。具体的には、既知の画像に対応する特徴及び未知の語彙データの初期化特徴を語意モデルに入力し、モデルから出力された既知の画像と未知の語彙データとの組合せの語意ベクトルにおける対応する語彙データ部分のデータに基づいて、対応する既知の画像を説明するための未知の説明する語彙データを特定する。

未知の語彙データとは、当該語彙データがどの画像を説明するように構成されるかが不明であり、語彙データに対応する画像が未知であることを指す。

トレーニングの効果を向上させるために、第１のトレーニングタスクと第２のトレーニングタスクは、いずれも実行することができ、２つのトレーニングタスクは、反復的に行われる。第１のトレーニングタスクの予測結果と第２のトレーニングタスクの一致性予測結果とに基づいて、語意モデルの損失値を算出する。モデルの損失値は、２つのトレーニングタスクに対応する損失関数の損失値から算出される。算出されたモデルの損失値に基づいて、２つのタスクの損失関数をともに収斂させるように、語意モデルのパラメータを調整することで、モデルトレーニングの効果を向上させる。

本実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させる。トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。

上記の実施例を実現するため、本出願は、クロスモーダル処理装置をさらに提案する。

図７は、本出願の実施例に係るクロスモーダル処理装置の概略構成図である。

図７に示すように、当該装置は、取得モジュール７１と、生成モジュール７２と、トレーニングモジュール７３と、処理モジュール７４と、を含む。

取得モジュール７１は、複数の語彙データ及び複数の画像を含むサンプルセットを取得するように構成される。

生成モジュール７２は、前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するように構成される。それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである。

トレーニングモジュール７３は、前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるように構成される。

処理モジュール７４は、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うように構成される。

本出願の実施例の可能な一実現形態として、上記のトレーニングモジュール７３は、それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおいて前記画像が呈している各オブジェクトに対して画像特徴を抽出し、語彙データにおける各テキストユニットに対してテキスト特徴を抽出するための抽出ユニットと、各オブジェクトの画像特徴と各テキストユニットのテキスト特徴とを結合し、入力特徴を取得するための結合ユニットと、入力特徴に基づいて、第１のトレーニングタスクを実行することによって、語意モデルをトレーニングするためのトレーニングユニットと、を含み、第１のトレーニングタスクは、それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換する、及び／又は少なくとも一つのオブジェクトを選択し、入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、置換後に取得した入力特徴を語意モデルに入力することによって、語意モデルから出力された第１の語意ベクトルを取得するステップと、第１の語意ベクトルに基づいて、選択されたテキストユニット及び／又は選択されたオブジェクトを予測し、予測の正確性に基づいて、語意モデルのパラメータを調整するステップと、を含む。

可能な一実現形態として、選択されたオブジェクトは、重なる表示領域を有する少なくとも二つのオブジェクトを含み、または、選択されたオブジェクトは、何れのオブジェクトとも重なる表示領域を有しない一つのオブジェクトである。

可能な一実現形態として、上記の生成モジュール７２は、具体的には、各語彙データを対応する語彙データにより説明される画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、及び、固定的に設定された語彙データをランダムに特定された画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得し、及び／又は、固定的に設定された画像をランダムに特定された語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するように構成される。

他の可能な一実現形態として、入力特徴には、マッチングマークをさらに含まれ、上記のトレーニングモジュール７３は、具体的には、入力特徴に基づいて、第２のトレーニングタスクを実行することによって、語意モデルをトレーニングするようにさらに構成され、前記第２のトレーニングタスクは、それぞれのトレーニングサンプルに対して、対応する入力特徴におけるマッチングマークを設定値にしてから、語意モデルに入力することによって、語意モデルから出力された第２の語意ベクトルを取得するステップと、第２の語意ベクトルにおけるマッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、語意モデルのパラメータを調整するステップと、を含む。

可能な一実現形態として、抽出ユニットは、以下をさらに含み、取得サブユニットは、画像が呈している各オブジェクトに対して、視覚特徴と空間座標を取得するように構成され、視覚特徴は、対応する関心領域の画像コンテンツ情報をプール化したものであり、空間座標は、対応するオブジェクトの画像内での展示位置を示すように構成される。

結合サブユニットは、視覚特徴と空間座標とを結合し、オブジェクト特徴を生成するように構成される。

生成サブユニットは、各オブジェクトの前記オブジェクト特徴、オブジェクトの順序特徴及び設定された第１のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するように構成され、オブジェクトの順序特徴は、各オブジェクトの間の相互の順序関係を指示するように構成され、第１のモーダルマーカーは、対応するオブジェクトが画像に属することを指示するように構成される。

他の可能な一実現形態として、抽出ユニットは、以下をさらに含み、検出サブユニットは、それぞれのオブジェクトに対して、構築されたシードプールから対応する基準テキストを検出するように構成され、基準テキストは、対応するオブジェクトを説明するように構成される。

融合サブユニットは、基準テキストの文字内容をオブジェクト特徴に融合するように構成される。

他の可能な一実現形態として、取得サブユニットは、語彙データにおける各テキストユニットに対して、文字特徴と位置特徴を取得するようにさらに構成され、文字特徴は、対応するテキストユニットに含まれる文字を指示するように構成され、位置特徴は、対応するテキストユニットの語順を指示するように構成される。

生成サブユニットは、各テキストユニットの文字特徴、位置特徴及び設定された第２のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するようにさらに構成される。

他の可能な一実現形態として、検出サブユニットは、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するようにさらに構成され、基準画像で対応するテキストユニットにより説明されるオブジェクトを呈している。

融合サブユニットは、基準画像の画像内容を文字特徴に融合するようにさらに構成される。

他の可能な一実現形態として、上記の処理モジュール７４は、具体的には、トレーニングされた語意モデルを用いて、語彙データに基づいて対応する画像を検出する、または、トレーニングされた語意モデルを用いて、画像に基づいて対応する画像を説明する語彙データを生成するように構成される。

上記のクロスモーダル処理方法の実施例に対する解釈説明も当該実施例のクロスモーダル処理装置に適用されるが、ここでは説明を省略する。

本出願の実施例に係るクロスモーダル処理方法において、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることによって、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行い、トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。

上記の実施例を実現するために、本出願の実施例は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含む電子機器であって、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行されることによって、前記少なくとも一つのプロセッサが前記方法実施例における前記のクロスモーダル処理方法を実行可能である、電子機器をさらに提供する。

本出願の第４の態様の実施例には、コンピュータ命令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体が提案されており、前記コンピュータ命令は、前記コンピュータに上記の方法実施例に記載のクロスモーダル処理方法を実行させるように構成される。

本出願の実施例により、本出願は、電子機器と読み取り可能な記憶媒体をさらに提供する。

図８に示すように、本出願の実施例に係るクロスモーダル処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図８に示すように、当該電子機器は、一つ又は複数のプロセッサ８０１と、メモリ８０２と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作（例えば、サーバアレイ、一セットのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図８では、一つのプロセッサ８０１を例とする。

メモリ８０２は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶されることにより、前記少なくとも一つのプロセッサが本出願に係るクロスモーダル処理方法を実行することができる。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願に係るクロスモーダル処理方法を実行させるためのコンピュータ命令が記憶されている。

メモリ８０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係るXXXの方法に対応するプログラム命令／モジュール（例えば、図７に示す取得モジュール７１、生成モジュール７２、トレーニングモジュール７３、及び処理モジュール７４）などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するように構成されることができる。プロセッサ８０１は、メモリ８０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例に係るクロスモーダル処理方法を実現する。

メモリ８０２は、ストレージプログラム領域とストレージデータ領域とを含むことができ、ここで、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、クロスモーダル処理方法に基づく電子機器の使用によって作成されたデータなどを記憶することができる。メモリ８０２は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ８０２は、プロセッサ８０１に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介してクロスモーダル処理方法を実行する電子機器に接続することができる。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組合わせを含むが、これらに限定されない。

クロスモーダル処理方法を実行する電子機器は、入力装置８０３と輸出装置８０４とをさらに含むことができる。プロセッサ８０１、メモリ８０２、入力装置８０３、及び出力装置８０４は、バス又は他の方式を介して接続することができ、図８では、バスを介して接続することを例とする。

入力装置８０３は、入力された数字又は文字情報を受信し、クロスモーダル処理方法のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置８０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合わせで実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されてもい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。

本出願の実施例の技術案によれば、複数の語彙データ及び複数の画像を含むサンプルセットを取得し、サンプルセットに基づいて、複数のトレーニングサンプルを生成する。それぞれのトレーニングサンプルは、少なくとも１つの語彙データと対応する少なくとも１つの画像との組合わせであり、複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、語意モデルに語彙データと画像との組合せの語意ベクトルを学習させ、トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行う。トレーニング語彙データと対応する画像とを組合わせてトレーニングすることで、語意モデルに語彙データと対応する画像との間の語意的な関連を学習させ、クロスモーダル処理を行う語意モデルのトレーニング効果が向上した。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組合わせ、サブコンビネーション、及び置換を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

複数の語彙データ及び複数の画像を含むサンプルセットを取得するステップと、
前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップであって、それぞれの前記トレーニングサンプルは、少なくとも一つの前記語彙データに対応する少なくとも一つの前記画像との組合せであるステップと、
前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップと、
トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップと、を含み、
前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるステップが、
それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおいて前記画像が呈している各オブジェクトに対して画像特徴を抽出し、及び前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するステップと、
各オブジェクトの前記画像特徴と各テキストユニットの前記テキスト特徴とを結合し、入力特徴を取得するステップと、
前記入力特徴に基づいて、第１のトレーニングタスクを実行することで、前記語意モデルをトレーニングするステップと、を含み、
前記第１のトレーニングタスクが、
それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、前記入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換、及び重なる表示領域を有する少なくとも二つのオブジェクトを選択し、前記入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、
置換後に取得した入力特徴を前記語意モデルに入力することで、前記語意モデルから出力された第１の語意ベクトルを取得するステップと、
前記第１の語意ベクトルに基づいて、選択されたテキストユニット及び選択されたオブジェクトを予測するステップと、
予測の正確性に基づいて、前記語意モデルのパラメータを調整するステップと、
を含むクロスモーダル処理方法。
前記前記サンプルセットに基づいて、複数のトレーニングサンプルを生成するステップは、
各前記語彙データを対応する語彙データにより説明される前記画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得するステップと、
固定的に設定された前記語彙データをランダムに特定された前記画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得、及び／又は、固定的に設定された前記画像をランダムに特定された前記語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するステップと、を含む請求項１に記載のクロスモーダル処理方法。
前記入力特徴は、マッチングマークをさらに含み、前記前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングするステップは、
前記入力特徴に基づいて、第２のトレーニングタスクを実行し、前記語意モデルをトレーニングするステップを含み、
前記第２のトレーニングタスクは、
それぞれのトレーニングサンプルに対して、対応する入力特徴における前記マッチングマークを設定値にしてから、前記語意モデルに入力することで、前記語意モデルから出力された第２の語意ベクトルを取得するステップと、
前記第２の語意ベクトルにおける前記マッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、
予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、前記語意モデルのパラメータを調整するステップと、を含む請求項２に記載のクロスモーダル処理方法。
前記対応するトレーニングサンプルにおける前記画像が呈している各オブジェクトに対して画像特徴を抽出するステップは、
前記画像が呈している各オブジェクトに対して、対応する関心領域の画像コンテンツ情報をプール化した視覚特徴と、対応するオブジェクトの画像内での展示位置を示す空間座標を取得するステップと、
前記視覚特徴と前記空間座標とを結合し、オブジェクト特徴を生成するステップと、
各オブジェクトの前記オブジェクト特徴、各オブジェクトの間の相互の順序関係を指示するオブジェクトの順序特徴及び、対応するオブジェクトが画像に属することを指示する設定された第１のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するステップと、を含む請求項１に記載のクロスモーダル処理方法。
前記各オブジェクトの前記オブジェクト特徴、オブジェクトの順序特徴及び設定された第１のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するステップの前に、
それぞれのオブジェクトに対して、構築されたシードプールから対応するオブジェクトを説明する基準テキストを検出するステップと、
前記基準テキストの文字内容を前記オブジェクト特徴に融合するステップと、をさらに含む請求項４に記載のクロスモーダル処理方法。
前記前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するステップは、
前記語彙データにおける各テキストユニットに対して、対応するテキストユニットに含まれる文字を指示する文字特徴と、対応するテキストユニットの語順を指示する位置特徴を取得するステップと、
各テキストユニットの前記文字特徴、前記位置特徴及び設定された第２のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するステップと、を含む請求項１に記載のクロスモーダル処理方法。
前記各テキストユニットの前記文字特徴、前記位置特徴及び設定された第２のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するステップの前に、
それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するステップであって、前記基準画像で対応するテキストユニットにより説明されるオブジェクトを呈しているステップと、
前記基準画像の画像内容を前記文字特徴に融合するステップと、をさらに含む請求項６に記載のクロスモーダル処理方法。
前記レーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うステップは、
トレーニングされた語意モデルを用いて、語彙データに基づいて、対応する画像を検出するステップ、
または、トレーニングされた語意モデルを用いて、画像に基づいて、対応する画像を説明する語彙データを生成するステップ、を含む請求項１から７の何れかに記載のクロスモーダル処理方法。
複数の語彙データ及び複数の画像を含むサンプルセットを取得するための取得モジュールと、
前記サンプルセットに基づいて、少なくとも一つの前記語彙データと対応する少なくとも一つの前記画像との組合せである複数のトレーニングサンプルを生成するための生成モジュールと、
前記複数のトレーニングサンプルを用いて、語意モデルをトレーニングすることで、前記語意モデルに語彙データと画像との組合せの語意ベクトルを学習させるためのトレーニングモジュールと、
トレーニングされた語意モデルを用いて、語彙データと画像との間のクロスモーダル処理を行うための処理モジュールと、を含み、
前記トレーニングモジュールが、
それぞれのトレーニングサンプルに対して、対応するトレーニングサンプルにおける前記画像が呈している各オブジェクトに対して画像特徴を抽出し、及び前記語彙データにおける各テキストユニットに対してテキスト特徴を抽出するための抽出ユニットと、
各オブジェクトの前記画像特徴と各テキストユニットの前記テキスト特徴とを結合し、
入力特徴を取得するための結合ユニットと、
前記入力特徴に基づいて、第１のトレーニングタスクを実行し、前記語意モデルをトレーニングするためのトレーニングユニットと、を含み、
前記第１のトレーニングタスクが、
それぞれのトレーニングサンプルに対して、少なくとも一つのテキストユニットを選択し、前記入力特徴における対応するテキストユニットのテキスト特徴を設定されたテキストマスクに置換、及び重なる表示領域を有する少なくとも二つのオブジェクトを選択し、前記入力特徴における対応するオブジェクトの画像特徴を設定された画像マスクに置換するステップと、
置換後に取得した入力特徴を前記語意モデルに入力することで、前記語意モデルから出力された第１の語意ベクトルを取得するステップと、
前記第１の語意ベクトルに基づいて、選択されたテキストユニット及び／又は選択されたオブジェクトを予測するステップと、
予測の正確性に基づいて、前記語意モデルのパラメータを調整するステップと、
を含むクロスモーダル処理装置。
前記生成モジュールは、具体的に、
各前記語彙データを対応する語彙データにより説明される前記画像と組合せ、語彙データが画像と一致するトレーニングサンプルを取得し、及び、固定的に設定された前記語彙データをランダムに特定された前記画像と組合せ、語彙データが画像と一致しないトレーニングサンプルを取得する、及び／又は、固定的に設定された前記画像をランダムに特定された前記語彙データと組合せ、語彙データが画像と一致しないトレーニングサンプルを取得するように構成される請求項９に記載のクロスモーダル処理装置。
前記入力特徴には、マッチングマークをさらに含まれ、
前記トレーニングモジュールは、具体的に、
前記入力特徴に基づいて、第２のトレーニングタスクを実行し、前記語意モデルをトレーニングするように構成され、
前記第２のトレーニングタスクは、
それぞれのトレーニングサンプルに対して、対応する入力特徴における前記マッチングマークを設定値にしてから、前記語意モデルに入力することで、前記語意モデルから出力された第２の語意ベクトルを取得するステップと、
前記第２の語意ベクトルにおける前記マッチングマークの値に基づいて、対応するトレーニングサンプルにおける語彙データと画像との一致性を予測するステップと、
予測した一致性と対応するトレーニングサンプルの実際の一致性との間の差異に基づいて、前記語意モデルのパラメータを調整するステップと、
を含む請求項１０に記載のクロスモーダル処理装置。
前記抽出ユニットは、
前記画像が呈している各オブジェクトに対して、対応する関心領域の画像コンテンツ情報をプール化した視覚特徴と、対応するオブジェクトの画像内での展示位置を示す空間座標を取得するための取得サブユニットと、
前記視覚特徴と前記空間座標とを結合し、オブジェクト特徴を生成するための結合サブユニットと、
各オブジェクトの前記オブジェクト特徴、各オブジェクトの間の相互の順序関係を指示するオブジェクトの順序特徴及び、対応するオブジェクトが画像に属することを指示する設定された第１のモーダルマーカーに基づいて、各オブジェクトの画像特徴を生成するための生成サブユニットと、をさらに含む請求項９に記載のクロスモーダル処理装置。
前記抽出ユニットは、
それぞれのオブジェクトに対して、構築されたシードプールから対応するオブジェクトを説明する基準テキストを検出するための検出サブユニットと、
前記基準テキストの文字内容を前記オブジェクト特徴に融合するための融合サブユニットと、をさらに含む請求項１２に記載のクロスモーダル処理装置。
前記取得サブユニットは、前記語彙データにおける各テキストユニットに対して、対応するテキストユニットに含まれる文字を指示する文字特徴と、対応するテキストユニットの語順を指示する位置特徴を取得するようにさらに構成され、
前記生成サブユニットは、各テキストユニットの前記文字特徴、前記位置特徴及び設定された第２のモーダルマーカーに基づいて、各テキストユニットのテキスト特徴を生成するようにさらに構成される請求項１２に記載のクロスモーダル処理装置。
前記検出サブユニットは、それぞれのテキストユニットに対して、構築されたシードプールから対応する基準画像を検出するようにさらに構成され、前記基準画像は、対応するテキストユニットにより説明されるオブジェクトを呈しており、
前記融合サブユニットは、前記基準画像の画像内容を前記文字特徴に融合するようにさらに構成される請求項１３に記載のクロスモーダル処理装置。
前記処理モジュールは、具体的に、
トレーニングされた語意モデルを用いて、語彙データに基づいて対応する画像を検出する、又は、トレーニングされた語意モデルを用いて、画像に基づいて対応する画像を説明する語彙データを生成するように構成される請求項９から１５の何れかに記載のクロスモーダル処理装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが、請求項１から８の何れかに記載のクロスモーダル処理方法を実行できることを特徴とする、電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１から８のいずれかに記載のクロスモーダル処理方法を実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータ上で動作しているときに、請求項１から８のいずれかに記載のクロスモーダル処理方法を前記コンピュータに実行させることを特徴とする、コンピュータプログラム。