JP7331975B2

JP7331975B2 - クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体

Info

Publication number: JP7331975B2
Application number: JP2022028920A
Authority: JP
Inventors: ヘ、フェン; ワン、チ; フェン、ジファン; ヤン、フ; チャイ、チュングアン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-05
Filing date: 2022-02-28
Publication date: 2023-08-23
Anticipated expiration: 2042-02-28
Also published as: CN113033622B; EP4053751A1; CN113033622A; JP2022135991A; KR20220125673A; US20220284246A1

Description

本開示は、コンピュータ技術の分野に関し、具体的には、知識グラフ、コンピュータビジョン、ディープラーニングなどの人工知能技術の分野に関し、特に、クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、人間のある思考プロセスと知能行為（たとえば、学習、推理、思考、計画など）をコンピュータでシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的に、たとえば、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術および機械学習／ディープラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。

インターネット技術の発展に伴い、インターネット上のデータ種類がますます多くなり、例えば、テキスト、画像、ビデオなどがあり、各タイプのデータは一種のモーダルと見なすことができる。クロスモーダル検索は、一つのモーダルのデータを使用して他の種類のモーダルのデータを検索することを指し、例えば、テキストを使用してビデオを検索する。クロスモーダル検索は、クロスモーダル検索モデルを使用して、一つのモーダルのデータをクロスモーダル検索モデルに入力して、他の種類のモーダルのデータを出力することができる。クロスモーダル検索モデルをトレーニングする時、比較損失関数（ｃｏｎｔｒａｓｔｉｖｅｌｏｓｓ）を使用することができ、比較損失関数の一つのパラメータは、間隔（ｍａｒｇｉｎ）である。

関連技術では、クロスモーダル検索モデルをトレーニングする時、使用される比較損失関数における間隔は固定値である。

本開示は、クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体を提供する。

本開示の一態様によれば、クロスモーダル検索モデルのトレーニング方法を提供し、クロスモーダルサンプルペアに基づいて、クロスモーダルサンプルペアの類似性を決定するステップであって、クロスモーダルサンプルペアは、第１のモーダルのサンプルと第２のモーダルのサンプルを含み、第１のモーダルは第２のモーダルと異なるステップと、類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を決定するステップと、ソフト間隔損失関数に基づいて、総損失関数を決定し、総損失関数に基づいて、クロスモーダル検索モデルをトレーニングするステップと、を含む。

本開示の別の態様によれば、クロスモーダル検索モデルのトレーニング装置を提供し、クロスモーダルサンプルペアに基づいて、クロスモーダルサンプルペアの類似性を決定するための第１の計算モジュールであって、クロスモーダルサンプルペアは、第１のモーダルのサンプルと第２のモーダルのサンプルを含み、第１のモーダルは第２のモーダルと異なる第１の計算モジュールと、類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を決定するための第２の計算モジュールと、ソフト間隔損失関数に基づいて、総損失関数を決定し、総損失関数に基づいて、クロスモーダル検索モデルをトレーニングするためのトレーニングモジュールと、を含む。

本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶されており、命令が少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサが上記の任意の態様のいずれかに記載の方法を実行する。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに上記の任意の態様のいずれかに記載の方法を実行させる。

本開示の別の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、コンピュータプログラムがプロセッサによって実行される時に上記の任意の態様のいずれかに記載の方法を実現する。

本開示の技術案によれば、クロスモーダル検索モデルのトレーニングモデルの検索効果を向上させることができる。

本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。

図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
本開示の第１の実施例による概略図である。本開示の第２の実施例による概略図である。本開示の第３の実施例による概略図である。本開示の第４の実施例による概略図である。本開示の第５の実施例による概略図である。本開示の第６の実施例による概略図である。本開示の第７の実施例による概略図である。本開示の第８の実施例による概略図である。本開示の第９の実施例による概略図である。本開示の第１０の実施例による概略図である。本開示の実施例のクロスモーダル検索モデルのトレーニング方法のいずれか一つを実現するための電子機器の概略図である。

以下、図面に基づいて、本出願の例示の実施例を表現する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。類似として、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。

図１は、本開示の第１の実施例による概略図である。本実施例は、クロスモーダル検索モデルのトレーニング方法を提供し、当該方法は、以下のようなステップを含む。
１０１、クロスモーダルサンプルペアに基づいて、クロスモーダルサンプルペアの類似性を決定し、クロスモーダルサンプルペアは、第１のモーダルのサンプルと第２のモーダルのサンプルを含み、第１のモーダルは第２のモーダルと異なる。

１０２、類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を決定する。

１０３、ソフト間隔損失関数に基づいて、総損失関数を決定し、総損失関数に基づいて、クロスモーダル検索モデルをトレーニングする。

図２を参照すると、ユーザは、クロスモーダル検索時、テキストを使用してビデオを検索することを例にとって、クロスモーダル検索システムは、「自動車」などの、ユーザが入力したテキストを受信し、クロスモーダル検索システムは、クロスモーダル検索モデルを使用して、当該テキストにマッチングするビデオを探すことができ、例えば、「自動車」に関連するビデオであり、次に、マッチングするビデオをユーザにフィードバックすることができる。クロスモーダル検索モデルは、テキスト符号化モデル（ｔｅｘｔｅｎｃｏｄｅｒ）２０１とビデオ符号化モデルを含むことができ、テキスト符号化モデルは、ユーザが入力したテキストをテキスト表現（ｔｅｘｔｒｅｐｒｅｓｅｎｔａｔｉｏｎ）に変換し、ビデオ符号化モデルは、ビデオライブラリ内のビデオをビデオ表現（ｖｉｄｅｏｒｅｐｒｅｓｅｎｔａｔｉｏｎ）に変換する。さらに、ビデオ符号化モデルは、ビデオ特徴抽出モデル（ｖｉｄｅｏｆｅａｔｕｒｅｅｘｔｒａｃｔｏｒ）２０２とビデオ特徴融合モデル（ｖｉｄｅｏｆｅａｔｕｒｅａｇｇｒｅｇａｔｏｒ）２０３を含むことができ、ビデオ特徴抽出モデルは、ビデオ特徴を抽出するために用いられ、ビデオ特徴融合モジュールは、ビデオ特徴を融合するために用いられる。テキスト符号化モデル、ビデオ特徴抽出モデルのバックボーン構造は、いずれも関連技術における対応するセマンティック表現を使用してモデルを抽出することができ、例えば、テキスト符号化モデルは、双方向ＴｒａｎｓｆｏｒｍｅｒのＥｎｃｏｄｅｒ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、ＢＥＲＴ）モデルであり、ビデオ特徴抽出モデルは、ｒｅｓｎｅｔなどの畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）モデルである。ビデオ特徴融合モデルは、関連技術における特徴融合方式を使用することもでき、例えば、一般的なビデオ特徴抽出モデルは、マルチモーダルのビデオ特徴を抽出し、ビデオ特徴融合モジュールは、各モーダルのビデオ特徴に対して重み付き加算を行って融合後のビデオ特徴、すなわちビデオ表現を取得することができる。テキスト符号化モデルとビデオ符号化モデルを経て、対応するセマンティック表現、すなわちテキスト表現とビデオ表現を取得することができ、その後、セマンティック特徴マッチングモジュール２０４を介して、テキスト表現に最もマッチングするビデオ表現を取得し、対応するビデオをユーザが入力したテキストにマッチングするビデオとすることができる。セマンティック特徴マッチングは、様々な関連技術を使用して実現することもでき、例えば、近似最近傍（ＡｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ、ＡＮＮ）アルゴリズムを使用してマッチングする。

上記のように、クロスモーダル検索時にクロスモーダル検索モデルを使用して行うことができ、本実施例は、クロスモーダルモデルのトレーニング方法を提供して、より効果的なモデルを提供し、さらに、クロスモーダル検索効果を向上させる。

本実施例の実行主体は、サーバなどの単一のデバイス主体であってもよい。

第１のモーダルと第２のモーダルは、二つの異なるモーダルであり、本開示の実施例では、第１のモーダルをテキスト（ｔｅｘｔ）とし、第２のモーダルをビデオ（ｖｉｄｅｏ）として、説明する。

比較損失関数で一般的に使用される間隔（ｍａｒｇｉｎ）と区別するために、一般的に使用される間隔は、固定値であり、ハード間隔（ｈａｒｄｍａｒｇｉｎ）と呼ぶことができ、本開示の実施例では、上記の類似性に基づいて間隔を決定し、当該間隔は、固定値ではなく、ソフト間隔（ｓｏｆｔｍａｒｇｉｎ）と呼ぶことができる。従って、ハード間隔に対応する損失関数は、ハード間隔損失関数と呼ぶことができ、ソフト間隔に対応する損失関数は、ソフト間隔損失関数と呼ぶことができる。

一般的に、固定値のハード間隔に基づいて損失関数を計算する時、総損失関数は、ハード間隔損失関数に基づいてのみ計算する。本開示の実施例では、ソフト間隔およびソフト間隔損失関数を導入し、したがって、総損失関数は、ハード間隔損失関数だけでなく、ソフト間隔損失関数にも基づいて計算する。

本実施例では、クロスモーダルサンプルペアの類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を計算し、ソフト間隔損失関数に基づいて総損失関数を計算することで、異なるクロスモーダルサンプルペアに基づいて異なる間隔を選択し、固定の間隔によって引き起こされる問題を回避し、クロスモーダル検索モデルの検索効果を向上させることができる。

いくつかの実施例では、比較損失関数は、トリプレット比較損失関数（ｔｒｉｐｌｅｔｃｏｎｔｒａｓｔｉｖｅｌｏｓｓ）であってもよい。トリプレット比較損失関数では、ソフト間隔は、類似性距離に基づいて決定し、類似性距離は、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を指す。

すなわち、クロスモーダルサンプルペアは、少なくとも１つのペアであり、少なくとも１つのペアのクロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、正のサンプルペアは、アンカーサンプルと正のサンプルを含み、負のサンプルペアは、アンカーサンプルと負のサンプルを含み、アンカーサンプルは、第１のモーダルであり、正のサンプルと負のサンプルは、いずれも第２のモーダルであり、類似性に基づいてソフト間隔を決定するステップは、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得するステップと、類似性距離に基づいて、ソフト間隔を決定するステップと、を含む。

トリプレット比較損失関数に対応して、サンプルは、アンカーサンプル（ａｎｃｈｏｒｓａｍｐｌｅ）、正のサンプル（ｐｏｓｉｔｉｖｅｓａｍｐｌｅ）、および負のサンプル（ｎｅｇａｔｉｖｅｓａｍｐｌｅ）に分けることができる。アンカーサンプル、正のサンプル、および負のサンプルをそれぞれＡ、Ｐ、Ｎで表すと仮定すると、アンカーサンプルと正のサンプルで構成されるサンプルペア<Ａ、Ｐ>は、正のサンプルペアと呼ぶことができ、アンカーサンプルと負のサンプルで構成されるサンプルペア<Ａ、Ｎ>は、負のサンプルペアと呼ぶことができる。アンカーサンプルは、例えば、サンプルセット内の一つのテキストであり、正のサンプルは、サンプルセット内の当該テキストに関連するビデオを指し、負のサンプルは、サンプルセット内でランダムに選択されたビデオであり、当該ビデオは、当該テキストに関連しているか、または関連していないことができる。

図３に示すように、アンカーサンプルがテキスト「自動車」であると仮定すると、正のサンプルは、Ｐで表し、「自動車」に関連するビデオであり、負のサンプルは、Ｎで表し、ランダムに選択されたビデオ（図のビデオは、ビデオフレームで表す）であり、「自動車」に関連しているか、または関連していないことができ、図３では、負のサンプルは、了一つの「自動車」に関連するビデオ（Ｎ１）、および一つの「自動車」に関連しないビデオ（Ｎ２）を含む。関連技術では、図３の左側に示すように、間隔（ｍａｒｇｉｎ）は、固定値であり、ハード間隔で表し、本開示の実施例では、図３の右側に示すように、間隔は、固定値ではなく、ソフト間隔で表し、具体的には、一つの負のサンプルがアンカーサンプルに関連する場合、当該関連する負のサンプルに対応する間隔は、関連しない負のサンプルに対応する間隔より小さくする必要がある。

負のサンプルは、アンカーサンプルに関連しているか、または関連していない可能性があるため、固定の間隔を使用する場合、誤った学習方向を引き起こし、クロスモーダル検索モデルの効果を低下させることができる。

本実施例では、正のサンプルペアの類似性と負のサンプルペアの類似性との間の類似性距離に基づいて、ソフト間隔を決定することができ、トリプレット比較損失関数のシナリオに適用することができる。

図４は、本開示の第４の実施例による概略図である。本実施例は、クロスモーダル検索モデルのトレーニング方法を提供し、図４に示すように、当該方法は、以下のようなステップを含む。
４０１、クロスモーダルデータセットに基づいて、少なくとも1つのグループの比較サンプルグループを構築する。

クロスモーダルデータセットは、複数のクロスモーダルマッチングサンプルペアで構成され、各クロスモーダルマッチングサンプルペアは、二つの異なるモーダルに相互マッチングするサンプルを含み、二つの異なるモーダルがそれぞれテキストとビデオであると仮定すると、一つのクロスモーダルマッチングサンプルペアは、（ｖ、ｔ）として表すことができ、その中、ｖはビデオを表し、ｔはテキストを表す。

トリプレット比較を例とし、各グループの比較サンプルグループは、アンカーサンプル、正のサンプル、および負のサンプルを含み、アンカーサンプルは、クロスモーダルマッチングサンプルペア内の一つのサンプルであり、正のサンプルは、アンカーサンプルが存在するクロスモーダルマッチングサンプルペア内の別のサンプルであり、負のサンプルは、ランダムに選択された非アンカーサンプルが存在するクロスモーダルマッチングサンプルペア中、アンカーサンプルと異なるモーダルを有するサンプルである。例えば、二つのクロスモーダルマッチングサンプルペアは、それぞれ<ｖⁱ、ｔⁱ>と<ｖ^j、ｔ^j>であり、選択されたアンカーサンプルがｔⁱであると仮定すると、正のサンプルは、ｖⁱであり、負のサンプルは、ｖ^jであるため、１グループの比較サンプルグループは、（ｔⁱ、ｖⁱ、ｖ^j）であってもよい。

一般的には、クロスモーダル検索に対応する比較サンプルグループは、２つのグループとして選択することができ、すなわち、上記の１グループの比較サンプルグループ（ｔⁱ、ｖⁱ、ｖ^j）に加えて、別のグループの比較サンプルペアを（ｖⁱ、ｔⁱ、ｔ^j）として選択することもできる。

４０２、各比較サンプルグループに基づいて、対応する損失関数を計算して、サンプルグループに対応する損失関数を取得する。

各比較サンプルグループに基づいて対応する損失関数を計算するプロセスは類似し、具体的には、以下の説明を参照することができる。

４０３、少なくとも1つのグループの比較サンプルグループに対応する各サンプルグループの損失関数に基づいて、総損失関数を計算する。

例えば、各サンプルグループに対応する損失関数は、加算後の関数を総損失関数とする。

例えば、図５を参照すると、２つのグループ比較サンプルグループをそれぞれ第１の比較サンプルグループと第２の比較サンプルグループと呼び、対応する損失関数を第１の損失関数と第２の損失関数と呼ぶことができると仮定すると、図５に示すように、第１の損失関数と第２の損失関数を加算して、加算後の関数を総損失関数とすることができる。

以下の式で表し、

その中、

は、総損失関数であり、

は、それぞれ第１の損失関数と第２の損失関数であり、すなわち、

は、（ｔⁱ、ｖⁱ、ｖ^j）に基づいて計算された損失関数であり、

は、（ｖⁱ、ｔⁱ、ｔ^j）に基づいて計算された損失関数である。

総損失関数を取得した後、総損失関数を使用してクロスモーダル検索モデルをトレーニングすることができ、すなわち、総損失関数が収束するまで、テキスト符号化モデルのパラメータとビデオ符号化モデルのパラメータを調整する。

本実施例では、各サンプルグループに対応する損失関数に基づいて総損失関数を計算し、異なる負のサンプルペアの構成状況を考慮して、総損失関数の精度を向上させ、さらに、クロスモーダル検索モデルの効果を向上させることができる。

上記では、各比較サンプルグループの損失関数に基づいて総損失関数を計算し、総損失関数に基づいてクロスモーダル検索モデルをトレーニングするように、各比較サンプルグループに基づいて損失関数を計算することを説明する。以下では、各比較サンプルグループの損失関数の計算プロセスを説明する。各比較サンプルグループの損失関数の計算プロセスは類似し、次に、一つの比較サンプルグループの計算プロセスを例とし、図６を参照し、当該方法は、以下のようなステップを含む。
６０１、比較サンプルグループに基づいて、クロスモーダルサンプルペアを構築し、クロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、正のサンプルペアは、アンカーサンプルと正のサンプルを含み、負のサンプルペアは、アンカーサンプルと負のサンプルを含み、アンカーサンプルは、第１のモーダルであり、正のサンプルと負のサンプルは、いずれも第２のモーダルである。

比較サンプルグループを（ｔⁱ、ｖⁱ、ｖ^j）として例にとると、構築された正のサンプルペアは、<ｖⁱ、ｔⁱ>であり、負のサンプルペアは、<ｖ^j、ｔⁱ>である。

６０２、クロスモーダルサンプルペアの予測類似性距離を計算する。

予測類似性距離は、第１の予測類似性と第２の予測類似性との間の距離を指し、第１の予測類似性は、正のサンプルペアの予測類似性であり、第２の予測類似性は、負のサンプルペアの予測類似性である。

図７に示すように、アンカーサンプルは、テキスト「一台の自動車を表示する（ａｃａｒｉｓｓｈｏｗｎ）」であり、正のサンプルはＰで表し、負のサンプルはＮで表し、図７の正のサンプルと負のサンプルは、いずれも自動車に関連するビデオである。

アンカーサンプルをテキストとして例にとって、アンカーサンプルは、アンカーテキストと呼ぶことができ、正のサンプルと負のサンプルは、それぞれ正のビデオおよび負のビデオと呼ぶことができる。比較サンプルグループ（アンカーテキスト、正のビデオ、および負のビデオ）を取得した後、それをクロスモーダル検索モデルに入力して、テキスト符号化モデルは、アンカーテキストを符号化して、予測テキスト表現を取得し、ビデオ符号化モデル（ビデオ特徴抽出モデルおよびビデオ特徴融合モジュール）は、正のビデオおよび負のビデオをそれぞれ符号化して、第１の予測ビデオ表現と第２の予測ビデオ表現を取得することができ、その後、予測テキスト表現と第１の予測ビデオ表現の類似性を計算して、第１の予測類似性とし、予測テキスト表現と第２の予測ビデオ表現の類似性を計算して、第２の予測類似性とし、次に、第２の予測類似性と第１の予測類似性の差を計算して予測類似性距離とする。

６０３、比較サンプルグループに対応するサンプルペアに基づいて、ソフト間隔を取得し、ソフト間隔と予測類似性距離に基づいてソフト間隔損失関数を計算する。

ソフト間隔およびソフト間隔損失関数の計算プロセスは、以下の説明を参照することができる。

６０４、ハード間隔と予測類似性距離に基づいてハード間隔損失関数を計算し、ハード間隔損失関数とソフト間隔損失関数に基づいて、比較サンプルグループの損失関数を計算する。

ハード間隔損失関数は、固定の間隔に基づいて計算された比較損失関数を指し、関連技術を使用して実現することができる。

ソフト間隔損失関数およびハード間隔損失関数を取得した後、それを加算し、加算後の損失関数に基づいて比較サンプルグループの損失関数を取得することができる。

さらに、ソフト間隔損失関数は、少なくとも一つの状態のソフト間隔損失関数を含むことができ、従って、各状態のソフト間隔損失関数に対して重み付き加算を行い、次に、ハード間隔損失関数と加算し、次に、加算後の損失関数に基づいて比較サンプルグループの損失関数を計算することができる。図７に示すように、少なくとも一つの状態のソフト間隔損失関数は、静的ソフト間隔損失関数と動的ソフト間隔損失関数を含むことができる。

以下の式で表し、

その中、Ｂは、アンカーサンプルの数量であり、ｉは、アンカーサンプルのインデックスであり、jは、負のサンプルのインデックスであり、

は、ハード間隔損失関数であり、mは、ハード間隔であり、

は、動的ソフト間隔損失関数であり、

は、動的ソフト間隔であり、

は、静的ソフト間隔損失関数であり、

は、静的ソフト間隔であり、

は、重み付き係数であり、その中、異なる比較サンプルグループに対応する重み付き係数は、同一または異なることができ、上記の式では、いずれも

を例として表示する。

ハード間隔損失関数は、トリプレット比較損失関数にすることができ、計算式は、

その中、

は、正のサンプルペア類似性であり、

は、それぞれ一つの負のサンプルペア類似性であり、

は、正の演算を表し、すなわち

であり、

は、モーダルがｖであり、インデックスは、ｉのサンプルのセマンティック表現であり、他のセマンティック表現は、

と類似し、その中、モーダルがテキストｔである場合、対応するセマンティック表現は、テキスト表現であり、モーダルがビデオｖである場合、対応するセマンティック表現は、ビデオ表現である。テキスト表現

は、テキスト符号化モデルを介して取得することができ、ビデオ表現

は、ビデオ符号化モデルを介して取得することができる。

上記は、ソフト間隔損失関数とハード間隔損失関数に基づいて比較サンプルグループの損失関数を計算するのを説明し、以下は、ソフト間隔損失関数の計算プロセスを説明する。

図７を参照すると、ソフト間隔損失関数は、動的ソフト間隔損失関数と静的ソフト間隔損失関数を含むことができ、動的ソフト間隔損失関数と静的ソフト間隔損失関数の計算プロセスは、類似する。動的ソフト間隔損失関数

を例とし、

は、それぞれビデオとテキストに対応し、本実施例の主なアイデアは、クロスモーダルの損失関数を二つの単一モーダルでの損失関数の加算演算に変換することである。

図８に示すように、ソフト間隔損失関数の計算方法は、以下のようなステップを含むことができる。
８０１、クロスモーダルサンプルペア、対応する第１のモーダルでのサンプルペア、および第２のモーダルでのサンプルペアを取得する。

比較サンプルグループに対応するサンプルペアに基づいて取得することができ、比較サンプルグループに対応するサンプルペアは、正のサンプルに対応するサンプルペア、および負のサンプルに対応するサンプルペアを含み、正のサンプルに対応するサンプルペアは、正のサンプル、および正のサンプルの別のモーダルのサンプルを含み、負のサンプルに対応するサンプルペアは、負のサンプル、および負のサンプルの別のモーダルのサンプルを含む。正のサンプルと負のサンプルがいずれもビデオであり、別のモーダルがテキストであることを例とし、正のサンプルと負のサンプルは、それぞれ正のビデオおよび負のビデオと呼ぶことができ、正のサンプルの別のモーダルのサンプルは、正のテキストと呼ぶことができ、負のサンプルの別のモーダルのサンプルは、負のテキストと呼ぶことができ、正のサンプルに対応するサンプルペアは、正のビデオと正のテキストを含み、負のサンプルに対応するサンプルペアは、負のビデオと負のテキストを含む。図７に示すように、正のサンプルに対応するサンプルペアは、正のビデオＰ、および正のテキスト「一台の自動車を表示する（ａｃａｒｉｓｓｈｏｗｎ）」を含み、負のサンプルに対応するサンプルペアは、負のビデオＮ、および負のテキスト「展示中の自動車（ａｃａｒｉｓｂｅｉｎｇｄｉｓｐｌａｙｅｄ）」を含む。

図９に示すように、クロスモーダルドメイン内の比較サンプルグループは、アンカーテキスト、正のビデオ、および負のビデオを含み、正のビデオは、正のテキストに対応し、負のビデオは、負のテキストに対応し、ビデオモーダルドメインにおけるアンカーテキストの対応内容は、アンカービデオと呼び、アンカービデオは、正のビデオと同じである。

第１のモーダルでのサンプルペアは、<アンカーテキスト、正のテキスト>と、<アンカーテキスト、負のテキスト>を含み、第２のモーダルでのサンプルペアは、<アンカービデオ、正のビデオ>と、<アンカービデオ、負のビデオ>を含む。

８０２、第１のモーダルでのセマンティック表現モデルを使用して、第１のモーダルでのサンプルペアを処理して、第１のモーダルでのサンプルペアの類似性距離を取得し、第２のモーダルでのセマンティック表現モデルを使用して、第２のモーダルでのサンプルペアを処理して、第２のモーダルでのサンプルペアの類似性距離を取得する。

図７を参照すると、異なる状態（動的、静的）および異なるモーダル（テキスト、ビデオ）について、セマンティック表現モデルは、さらに、動的テキスト監視エキスパートなど、状態およびモーダルに対応する監視エキスパートと呼ぶことができる。

静的監視エキスパートグループを例として、静的テキスト監視エキスパートを使用して第１のモーダルでのサンプルペア、すなわち<アンカーテキスト、正のテキスト>、<アンカーテキスト、負のテキスト>を処理し、静的ビデオ監視エキスパートを使用して第２のモーダルでのサンプルペア、すなわち<アンカービデオ、正のビデオ>、<アンカービデオ、負のビデオ>を処理する。

静的テキスト監視エキスパートは、第１のモーダル下の二つのサンプルペア（<アンカーテキスト、正のテキスト>および<アンカーテキスト、負のテキスト>）の類似性距離を取得することができる。同様に、静的ビデオ監視エキスパートは、第２のモーダル下の二つのサンプルペア（<アンカービデオ、正のビデオ>、<アンカービデオ、負のビデオ>）の類似性距離を取得することができる。

第１のモーダルを例として、静的テキスト監視エキスパートは、アンカーテキストのテキスト表現と負のテキストのテキスト表現をそれぞれ取得し、次に、この二つのテキスト表現に基づいて第１のモーダルでのサンプルペアの類似性距離を計算することができる。以下の式で表し、

その中、

は、第１のモーダルでのサンプルペアの類似性距離であり、

は、アンカーテキスト

のテキスト表現であり、

は、負のテキスト

のテキスト表現であり、ここでは、静的テキスト監視エキスパートがｂｅｒｔ－ｓｅｎｔｅｎｃｅモデルである場合を例とする。

は、内積演算であり、

は、ノルム演算である。

同様に、静的ビデオ監視エキスパートに基づいて第２のモーダルでのサンプルペアの類似性距離を取得することができる。以下の式で表し、

その中、

は、第２のモーダルでのサンプルペアの類似性距離であり、

は、アンカービデオ

のビデオ表現であり、

は、負のビデオ

のビデオ表現であり、静的ビデオ監視エキスパートは、例えば、ＣＮＮであり、具体的には、ｒｅｓｎｅｔ-１５２であってもよい。テキストとは異なり、ビデオは、ビデオフレームに対する処理であるため、ＣＮＮによって抽出された特徴に対してプーリング（ｐｏｏｌｉｎｇ）操作を行って、ビデオ表現を行列形式からベクトル形式に変換することができる。

上記は、静的監視エキスパートグループの処理フローを示す。動的監視エキスパートグループの処理フローも類似し、異なることは、静的監視エキスパートグループは、既存の事前トレーニングモデルを使用し、例えば、上記のＢＥＲＴモデルまたはｒｅｓｎｅｔ-１５２モデルであり、動的監視エキスパートグループは、クロスモーダル検索モデル自体を使用し、すなわち、クロスモーダル検索モデルのパラメータは、常に調整され、現在の時刻について、現在の時刻に既に存在する現在のパラメータを使用して、各モーダルでのサンプルペアを処理することができる。例えば、既存のテキスト符号化モデルのパラメータを使用して第１のモーダルでのサンプルペアを処理し、既存のビデオ符号化モデルのパラメータを使用して第２のモーダルでのサンプルペアを処理する。

上記の処理を経て、４つの類似性距離を取得することができ、静的テキスト類似性距離

、静的ビデオ類似性距離

、動的テキスト類似性距離

、および動的ビデオ類似性距離

とそれぞれ呼ぶことができる。静的テキスト類似性距離と静的ビデオ類似性距離は、静的類似性距離と総称することができ、動的テキスト類似性距離と動的ビデオ類似性距離は、動的類似性距離と総称することができる。

本実施例では、単一モーダルでのセマンティック表現モデルを使用することにより、対応する単一モーダルでの類似性距離を計算して取得することができる。

８０３、第１のモーダルでのサンプルペアの類似性距離を処理して、第１のモーダルでのソフト間隔を取得し、第２のモーダルでのサンプルペアの類似性距離を処理して、第２のモーダルでのソフト間隔を取得する。

図７に示すように、類似性距離に対して正規化処理を行って、対応するソフト間隔を取得することができる。以下の式で表し、

その中、

は、第１のモーダルでの類似性距離、例えば、静的に対応して、

は、具体的には、

、

であり、

は、正規化後の類似性距離、すなわち対応するソフト間隔であり、例えば、

は、静的テキストソフト間隔である。

は、ハイパーパラメータであり、

は、

に対応する分散であり、

は、分散演算であり、

は、期待演算である。

他のソフト間隔の計算方式は類似し、ここで詳細に説明しない、正規化処理を経て、静的テキストソフト間隔、静的ビデオソフト間隔、動的テキストソフト間隔、および動的ビデオソフト間隔を取得することができる。

類似性距離を正規化することにより、異なるモーダルでの類似性距離が比較可能であるように、異なるモーダルでの類似性距離を均衡することができる。

８０４、第１のモーダルでのソフト間隔と予測類似性距離に基づいて、第１のモーダルでの比較損失関数を計算し、第２のモーダルでのソフト間隔と予測類似性距離に基づいて、第２のモーダルでの比較損失関数を計算する。

８０５、第１のモーダルでの比較損失関数と第２のモーダルでの比較損失関数に基づいて、ソフト間隔損失関数を計算する。

第１のモーダルでの比較損失関数と第２のモーダルでの比較損失関数を加算し、加算後に取得された関数をソフト間隔損失関数とすることができる。以下の式で表し、

その中、

は、２つのグループ比較サンプルグループのソフト間隔損失関数にそれぞれ対応し、

は、第１のモーダルでの比較損失関数であり、

は、第２のモーダルでの比較損失関数である。具体的には、静的ソフト間隔損失関数を計算する時、上記の

は、それぞれ

であり、動的ソフト間隔損失関数を計算する時、上記の

は、それぞれ

である。第１のモーダルでの比較損失関数と第２のモーダルでの比較損失関数は、いずれも上記のハード間隔損失関数の計算原理を使用して計算することができ、異なることは、ハード間隔損失関数の間隔は、固定値ｍであり、二つのモーダルでの比較損失関数の間隔は、対応するソフト間隔

である。

本実施例では、ソフト間隔損失関数の計算プロセスを第１のモーダルでの比較損失関数と第２のモーダルでの比較損失関数との合計に変換することにより、クロスモーダルの損失関数の計算を単一モーダルでの損失関数計算に変換することができ、ソフト間隔損失関数の計算効率を向上させることができる。動的ソフト間隔損失関数と静的ソフト間隔損失関数を含むソフト間隔損失関数によって、ソフト間隔損失関数が他のモデルの知識、および自体モデルの知識を含むようにすることができようにすることができ、クロスモーダル検索モデルの効果を向上させることができる。事前トレーニングモデルを使用して静的類似性距離を取得することにより、既存のモデルを利用して、既存モデルに対する知識の導入を実現することができ、クロスモーダル検索モデルの現在のパラメータを使用して、自体モデルに対する知識の導入を実現することができる。

図１０は、本開示の第１０の実施例による概略図である。本実施例は、クロスモーダル検索モデルのトレーニング装置を提供し、当該装置１０００は、第１の計算モジュール１００１、第２の計算モジュール１００２、およびトレーニングモジュール１００３を含む。

第１の計算モジュール１００１は、クロスモーダルサンプルペアに基づいて、クロスモーダルサンプルペアの類似性を決定するために用いられ、クロスモーダルサンプルペアは、第１のモーダルのサンプルと第２のモーダルのサンプルを含み、第１のモーダルは第２のモーダルと異なり、第２の計算モジュール１００２は、類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を決定するために用いられ、トレーニングモジュール１００３は、ソフト間隔損失関数に基づいて、総損失関数を決定し、総損失関数に基づいて、クロスモーダル検索モデルをトレーニングするために用いられる。

いくつかの実施例では、クロスモーダルサンプルペアは、少なくとも１つのペアであり、少なくとも１つのペアのクロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、正のサンプルペアは、アンカーサンプルと正のサンプルを含み、負のサンプルペアは、アンカーサンプルと負のサンプルを含み、アンカーサンプルは、第１のモーダルであり、正のサンプルと負のサンプルは、いずれも第２のモーダルであり、第２の計算モジュール１００２は、具体的には、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得し、類似性距離に基づいて、ソフト間隔を決定するために用いられる。

いくつかの実施例では、第２の計算モジュール１００２は、さらに、具体的には、類似性距離に対して正規化処理を行って、正規化された類似性距離を取得し、正規化された類似性距離を、ソフト間隔として決定するために用いられる。

いくつかの実施例では、類似性距離は、第１のモーダルでの類似性距離と第２のモーダルでの類似性距離を含み、第２の計算モジュール１００２は、さらに、具体的には、第１のモーダルでの類似性距離に基づいて第１のモーダルでのソフト間隔を決定し、第１のモーダルでのソフト間隔に基づいて、第１のモーダルでの比較損失関数を計算し、第２のモーダルでの類似性距離に基づいて第２のモーダルでのソフト間隔を決定し、第１のモーダルでのソフト間隔に基づいて、第２のモーダルでの比較損失関数を計算し、第１のモーダルでの比較損失関数と第２のモーダルでの比較損失関数に基づいて、ソフト間隔損失関数を計算するために用いられる。

いくつかの実施例では、第１の計算モジュール１００１は、具体的には、クロスモーダルサンプルペア、対応する第１のモーダルでのサンプルペア、および第２のモーダルでのサンプルペアを取得し、第１のモーダルでのセマンティック表現モデルを使用して、第１のモーダルでのサンプルペアを処理して、第１のモーダルでの類似性距離を取得し、および、第２のモーダルでのセマンティック表現モデルを使用して、第２のモーダルでのサンプルペアを処理して、第２のモーダルでの類似性距離を取得するために用いられる。

いくつかの実施例では、クロスモーダルサンプルペアは、少なくとも1つのグループの比較サンプルグループに対応し、トレーニングモジュール１００３は、具体的には、ソフト間隔損失関数に基づいて、対応する比較サンプルグループの損失関数を計算し、少なくとも1つのグループの比較サンプルグループの各サンプルグループに対応する損失関数に基づいて、総損失関数を計算するために用いられる。

いくつかの実施例では、ソフト間隔損失関数は、少なくとも一つの状態のソフト間隔損失関数を含み、トレーニングモジュール１００３は、さらに、具体的には、少なくとも一つの状態のソフト間隔損失関数を重み付き加算して、重み付き加算関数を取得し、重み付き加算関数とハード間隔損失関数を加算し、加算後の関数に基づいて対応する比較サンプルグループの損失関数を計算するために用いられる。

いくつかの実施例では、類似性距離は、静的類似性距離と動的類似性距離を含み、ソフト間隔損失関数は、静的ソフト間隔損失関数と動的ソフト間隔損失関数を含み、静的ソフト間隔損失関数は、静的類似性距離に基づいて計算され、動的ソフト間隔損失関数は、動的類似性距離に基づいて計算され、第２の計算モジュール１００２は、具体的には、事前トレーニングモデルを使用して、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を計算して、静的類似性距離を取得し、及び／又は、クロスモーダル検索モデルの現在のパラメータを使用して、正のサンプルペアの類似性と負のサンプルペアの類似性との間の距離を計算して、動的類似性距離を取得するために用いられる。

本開示の実施例では、異なる実施例の同じまたは類似の内容は、互いに参照できることを理解することができる。

本開示の実施例の「第１」、「第２」などは、区分にのみ用いられ、重要度の高低、時系列的な前後などを示すものではないことを理解されたい。

本開示の実施例では、クロスモーダルサンプルペアの類似性に基づいてソフト間隔を決定し、ソフト間隔に基づいてソフト間隔損失関数を計算し、ソフト間隔損失関数に基づいて総損失関数を計算することで、異なるクロスモーダルサンプルペアに基づいて異なる間隔を選択し、固定の間隔によって引き起こされる問題を回避し、クロスモーダル検索モデルの検索効果を向上させることができる。正のサンプルペアの類似性と負のサンプルペアの類似性との間の類似性距離に基づいて、ソフト間隔を決定することができ、トリプレット比較損失関数のシナリオに適用することができる。各サンプルグループに対応する損失関数に基づいて総損失関数を計算することは、異なる負のサンプルペアの構成状況を考慮して、総損失関数の精度を向上させ、さらに、クロスモーダル検索モデルの効果を向上させることができる。単一モーダルでのセマンティック表現モデルを使用することにより、対応する単一モーダルでの類似性距離を計算して取得することができる。各サンプルグループに対応する損失関数に基づいて総損失関数を計算することは、異なる負のサンプルペアの構成状況を考慮して、総損失関数の精度を向上させ、さらに、クロスモーダル検索モデルの効果を向上させることができる。ソフト間隔損失関数の計算プロセスを第１のモーダルでの比較損失関数と第２のモーダルでの比較損失関数との合計に変換することにより、クロスモーダルの損失関数の計算を単一モーダルでの損失関数計算に変換することができ、ソフト間隔損失関数の計算効率を向上させることができる。動的ソフト間隔損失関数と静的ソフト間隔損失関数を含むソフト間隔損失関数によって、ソフト間隔損失関数が他のモデルの知識、および自体モデルの知識を含むようにすることができ、クロスモーダル検索モデルの効果を向上させることができる。事前トレーニングモデルを使用して静的類似性距離を取得することにより、既存のモデルを利用して、既存モデルに対する知識の導入を実現することができ、クロスモーダル検索モデルの現在のパラメータを使用して、自体モデルに対する知識の導入を実現することができる。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品をさらに提供する。

図１１に示すように、本開示の実施例の例を実現するための電子機器１１００のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図１１に示すように、電子機器１１００は計算ユニット１１０１を含み、計算ユニット１１０１は、読み取り専用メモリ（ＲＯＭ）１１０２に記憶されているコンピュータプログラムまたは記憶ユニット１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。ＲＡＭ１１０３には、電子機器１１００が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット１１０１、ＲＯＭ１１０２、およびＲＡＭ１１０３は、バス１１０４を介してお互いに接続される。入出力（Ｉ／Ｏ）インターフェース１１０５もバス１１０４に接続される。

電子機器１１００内の複数のコンポーネントは、Ｉ／Ｏインターフェース１１０５に接続されており、キーボード、マウスなどの入力ユニット１１０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット１１０７と、ディスク、光ディスクなどの記憶ユニット１１０８と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１１０９と、を含む。通信ユニット１１０９は、電子機器１１００が、インターネットなどのコンピュータネットワーク、および／または様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット１１０１は、様々な処理と計算能力を備える汎用および／または専用の処理コンポーネントである。計算ユニット１１０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１１０１は、クロスモーダル検索モデルのトレーニング方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、クロスモーダル検索モデルのトレーニング方法は、記憶ユニット１１０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ１１０２および／または通信ユニット１１０９を介して電子機器１１００にロードおよび／またはインストールされる。コンピュータプログラムがＲＡＭ１１０３にロードされて計算ユニット１１０１によって実行される場合、上記のクロスモーダル検索モデルのトレーニング方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット１１０１は、他の任意の適切な方式（例えば、ファームウェアによって）を介してクロスモーダル検索モデルのトレーニング方法を実行するように構成されることができる。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび／またはブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとＶＰＳサーバ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ、またはＶＰＳと呼ぶ）に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

コンピュータにより実行される、クロスモーダル検索モデルのトレーニング方法であって、
前記クロスモーダル検索モデルを利用して、クロスモーダルサンプルペアに基づいて、前記クロスモーダルサンプルペアの類似性を決定するステップであって、前記クロスモーダルサンプルペアは、第１のモーダルのサンプルと第２のモーダルのサンプルを含み、前記第１のモーダルは前記第２のモーダルと異なるステップと、
前記類似性に基づいてソフトマージンを決定し、前記ソフトマージンに基づいてソフトマージン損失関数を決定するステップと、
前記ソフトマージン損失関数とハードマージン損失関数の加算結果に基づいて、総損失関数を決定し、前記総損失関数に基づいて、前記クロスモーダル検索モデルをトレーニングするステップと、を含む、
クロスモーダル検索モデルのトレーニング方法。
前記クロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、前記正のサンプルペアは、アンカーサンプルと正のサンプルを含み、前記負のサンプルペアは、前記アンカーサンプルと負のサンプルを含み、前記アンカーサンプルは、第１のモーダルであり、前記正のサンプルと前記負のサンプルは、いずれも第２のモーダルであり、
類似性に基づいてソフトマージンを決定するステップは、
前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得するステップと、
前記類似性距離に基づいて、ソフトマージンを決定するステップと、を含む、
請求項１に記載のクロスモーダル検索モデルのトレーニング方法。
類似性距離に基づいて、ソフトマージンを決定するステップは、
前記類似性距離に対して正規化処理を行って、正規化された類似性距離を取得し、前記正規化された類似性距離を、ソフトマージンとして決定するステップを含む、
請求項２に記載のクロスモーダル検索モデルのトレーニング方法。
前記類似性距離は、第１のモーダルでの類似性距離と第２のモーダルでの類似性距離を含み、
類似性に基づいてソフトマージンを決定し、前記ソフトマージンに基づいてソフトマージン損失関数を決定するステップは、
前記第１のモーダルでの類似性距離に基づいて第１のモーダルでのソフトマージンを決定し、前記第１のモーダルでのソフトマージンに基づいて、第１のモーダルでの比較損失関数を計算するステップと、
前記第２のモーダルでの類似性距離に基づいて第２のモーダルでのソフトマージンを決定し、前記第２のモーダルでのソフトマージンに基づいて、第２のモーダルでの比較損失関数を計算するステップと、
前記第１のモーダルでの比較損失関数と前記第２のモーダルでの比較損失関数に基づいて、ソフトマージン損失関数を計算するステップと、を含む、
請求項２に記載のクロスモーダル検索モデルのトレーニング方法。
クロスモーダルサンプルペアに基づいて、前記クロスモーダルサンプルペアの類似性を決定するステップは、
前記クロスモーダルサンプルペアに対応する第１のモーダルでのサンプルペア、および第２のモーダルでのサンプルペアを取得するステップと、
第１のモーダルでのセマンティック表現モデルを使用して、前記第１のモーダルでのサンプルペアを処理して、前記第１のモーダルでの類似性距離を取得し、および、第２のモーダルでのセマンティック表現モデルを使用して、前記第２のモーダルでのサンプルペアを処理して、前記第２のモーダルでの類似性距離を取得するステップと、を含む、
請求項４に記載のクロスモーダル検索モデルのトレーニング方法。
前記クロスモーダルサンプルペアは、少なくとも1つのグループの比較サンプルグループに対応し、前記比較サンプルグループは、対応するクロスモーダルマッチングサンプルペア内の一つのサンプルであるアンカーサンプルと、前記アンカーサンプルが所在するクロスモーダルマッチングサンプルペア内の別のサンプルである正のサンプルと、ランダムに選択された前記アンカーサンプルが所在しないクロスモーダルマッチングサンプルペア内の、前記アンカーサンプルと異なるモーダルを有するサンプルである負のサンプルと、を含み、
ソフトマージン損失関数とハードマージン損失関数の加算結果に基づいて、総損失関数を決定するステップは、
前記ソフトマージン損失関数に含まれる静的ソフトマージン損失関数及び動的ソフトマージン損失関数を重み付き加算して、重み付き加算関数を取得し、前記重み付き加算関数とハードマージン損失関数を加算し、対応する比較サンプルグループの損失関数を計算するステップと、
前記少なくとも1つのグループの比較サンプルグループの各サンプルグループに対応する損失関数に基づいて、総損失関数を計算するステップと、を含む、
請求項１～５のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法。
前記類似性距離は、静的類似性距離と動的類似性距離を含み、静的ソフトマージン損失関数は、前記静的類似性距離に基づいて計算され、動的ソフトマージン損失関数は、前記動的類似性距離に基づいて計算され、
正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得するステップは、
事前トレーニングモデルを使用して、前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、前記静的類似性距離を取得し、及び／又は、
前記クロスモーダル検索モデルの現在のパラメータを使用して、前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、前記動的類似性距離を取得するステップを含む、
請求項２～５のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法。
クロスモーダル検索モデルのトレーニング装置であって、
前記クロスモーダル検索モデルを利用して、クロスモーダルサンプルペアに基づいて、前記クロスモーダルサンプルペアの類似性を決定するための第１の計算モジュールであって、前記クロスモーダルサンプルペアは、第１のモーダルのサンプルと第２のモーダルのサンプルを含み、前記第１のモーダルは前記第２のモーダルと異なる第１の計算モジュールと、
前記類似性に基づいてソフトマージンを決定し、前記ソフトマージンに基づいてソフトマージン損失関数を決定するための第２の計算モジュールと、
前記ソフトマージン損失関数とハードマージン損失関数の加算結果に基づいて、総損失関数を決定し、前記総損失関数に基づいて、クロスモーダル検索モデルをトレーニングするためのトレーニングモジュールと、を含む、
クロスモーダル検索モデルのトレーニング装置。
前記クロスモーダルサンプルペアは、正のサンプルペアと負のサンプルペアを含み、前記正のサンプルペアは、アンカーサンプルと正のサンプルを含み、前記負のサンプルペアは、前記アンカーサンプルと負のサンプルを含み、前記アンカーサンプルは、第１のモーダルであり、前記正のサンプルと前記負のサンプルは、いずれも第２のモーダルであり、
前記第２の計算モジュールは、具体的には、
前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、類似性距離を取得し、
前記類似性距離に基づいて、ソフトマージンを決定するために用いられる、
請求項８に記載のクロスモーダル検索モデルのトレーニング装置。
前記第２の計算モジュールは、さらに、具体的には、
前記類似性距離に対して正規化処理を行って、正規化された類似性距離を取得し、前記正規化された類似性距離を、ソフトマージンとして決定するために用いられる、
請求項９に記載のクロスモーダル検索モデルのトレーニング装置。
前記類似性距離は、第１のモーダルでの類似性距離と第２のモーダルでの類似性距離を含み、
前記第２の計算モジュールは、さらに、具体的には、
前記第１のモーダルでの類似性距離に基づいて第１のモーダルでのソフトマージンを決定し、前記第１のモーダルでのソフトマージンに基づいて、第１のモーダルでの比較損失関数を計算し、
前記第２のモーダルでの類似性距離に基づいて第２のモーダルでのソフトマージンを決定し、前記第２のモーダルでのソフトマージンに基づいて、第２のモーダルでの比較損失関数を計算し、
前記第１のモーダルでの比較損失関数と前記第２のモーダルでの比較損失関数に基づいて、ソフトマージン損失関数を計算するために用いられる、
請求項９に記載のクロスモーダル検索モデルのトレーニング装置。
前記第１の計算モジュールは、具体的には、
前記クロスモーダルサンプルペアに対応する第１のモーダルでのサンプルペア、および第２のモーダルでのサンプルペアを取得し、
第１のモーダルでのセマンティック表現モデルを使用して、前記第１のモーダルでのサンプルペアを処理して、前記第１のモーダルでの類似性距離を取得し、および、第２のモーダルでのセマンティック表現モデルを使用して、前記第２のモーダルでのサンプルペアを処理して、前記第２のモーダルでの類似性距離を取得するために用いられる、
請求項１１に記載のクロスモーダル検索モデルのトレーニング装置。
前記クロスモーダルサンプルペアは、少なくとも1つのグループの比較サンプルグループに対応し、前記比較サンプルグループは、対応するクロスモーダルマッチングサンプルペア内の一つのサンプルであるアンカーサンプルと、前記アンカーサンプルが所在するクロスモーダルマッチングサンプルペア内の別のサンプルである正のサンプルと、ランダムに選択された前記アンカーサンプルが所在しないクロスモーダルマッチングサンプルペア内の、前記アンカーサンプルと異なるモーダルを有するサンプルである負のサンプルと、を含み、
前記トレーニングモジュールは、具体的には、
前記ソフトマージン損失関数に含まれる静的ソフトマージン損失関数及び動的ソフトマージン損失関数を重み付き加算して、重み付き加算関数を取得し、前記重み付き加算関数とハードマージン損失関数を加算し、対応する比較サンプルグループの損失関数を計算し、
前記少なくとも1つのグループの比較サンプルグループの各サンプルグループに対応する損失関数に基づいて、総損失関数を計算するために用いられる、
請求項８～１２のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング装置。
前記類似性距離は、静的類似性距離と動的類似性距離を含み、静的ソフトマージン損失関数は、前記静的類似性距離に基づいて計算され、動的ソフトマージン損失関数は、前記動的類似性距離に基づいて計算され、
前記第２の計算モジュールは、具体的には、
事前トレーニングモデルを使用して、前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、前記静的類似性距離を取得し、及び／又は、
前記クロスモーダル検索モデルの現在のパラメータを使用して、前記正のサンプルペアの類似性と前記負のサンプルペアの類似性との間の距離を計算して、前記動的類似性距離を取得するために用いられる、
請求項９～１２のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１～７のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法を実行する、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～７のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される時に請求項１～７のいずれかの一つに記載のクロスモーダル検索モデルのトレーニング方法を実現する、
コンピュータプログラム。