JP2020522791A

JP2020522791A - 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置

Info

Publication number: JP2020522791A
Application number: JP2019564942A
Authority: JP
Inventors: マ，リン; ジアン，ウェンハオ; リウ，ウェイ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2017-09-12
Filing date: 2018-09-07
Publication date: 2020-07-30
Anticipated expiration: 2038-09-07
Also published as: CN108288067B; US20200019807A1; CN110532571A; JP6887026B2; KR20190129110A; US11699298B2; EP3683724A4; CN110532571B; US11087166B2; US20210312211A1; CN108288067A; WO2019052403A1; EP3683724A1; KR102235051B1

Abstract

画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置は、人工知能技術分野に関する。このトレーニング方法は、画像サンプルおよびテキストサンプルのグローバル表現およびローカル表現（２０１、２０２）を抽出し、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定し、前記マッチングモデルは、画像のグローバル表現およびローカル表現と、テキストのグローバル表現およびローカル表現とに基づいて、画像とテキストとの間のマッチング度（２０３）を決定するために使用されるものである。本願によって得られたマッチング度は、画像の詳細な特徴からグローバル特徴までのすべてが考慮されたことに基づくものであり、より正確で全面的である。【選択図】図２Ｂ

Description

本願は、２０１７年９月１２日に中国特許庁に提出された、出願番号が２０１７１０８１７３４４．５であり、出願名称が「画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置」である中国特許出願の優先権を主張し、その全ての内容は、参照することにより本願に組み込まれる。

本願は、人工知能技術分野に関し、特に、画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置に関する。

画像とテキストに対する理解は、人工知能における最も重要な研究方向の１つである。その中の１つの重要な研究は、画像とテキストとの間の関連関係を発掘することである。例えば、ウェブニュースにおけるニューステキストのコンテンツとニュース画像は、同じテーマのアイデアを表している。つまり、画像とテキストの間には、絶対的な独立性が存在しておらず、マッチング関係が存在している。従って、特定の画像にマッチングされるテキストをどのように見つけるか、あるいは、特定のテキストにマッチングされる画像をどのように見つけるかということは、業界内で関心のあるトピックになる。

本願の実施例によって提供される画像テキストマッチングモデルのトレーニング方法および関連装置は、画像とテキストとの間のマッチング度を全面的に測定することができ、これによって、得られたマッチング度は、より正確で包括的になる。

本願の実施例によって提供される双方向検索方法および関連装置は、画像テキスト双方向検索を行う際に、より正確な検索結果を得ることができる。

本願の実施例では、コンピュータによって実施される画像テキストマッチングモデルのトレーニング方法が提供されており、前記方法は、
画像サンプルのグローバル特徴およびローカル特徴を抽出することと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出することと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定することであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものであることと、を含む。

本願の実施例では、コンピュータによって実施される画像テキスト双方向検索方法が提供されており、前記方法は、
テキストまたは画像である参照サンプルを受信することと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出することと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させることであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものであることと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択することと、を含む。

本願の実施例では、画像テキストマッチングモデルのトレーニング装置が提供されており、前記装置は、
画像サンプルのグローバル特徴およびローカル特徴を抽出するための画像特徴抽出モジュールと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するためのテキスト特徴抽出モジュールと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するためのトレーニングモジュールであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものであるトレーニングモジュールと、を含む。

本願の実施例では、画像テキスト双方向検索装置が提供されており、前記装置は、
テキストまたは画像である参照サンプルを受信するための参照サンプル受信モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するための参照サンプル特徴抽出モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させるための検索モジュールであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである検索モジュールと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択するための選択モジュールと、を含む。

本願の実施例では、コンピューティングデバイスが提供されており、ここで、該コンピューティングデバイスは、プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って本願の実施例のいずれかに記載の画像テキストマッチングモデルのトレーニング方法を実行するためのプロセッサと、を含む。

本願の実施例では、コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体が提供されており、ここで、前記コンピュータ実行可能な命令は、本願の実施例のいずれかに記載の画像テキストマッチングモデルのトレーニング方法を前記コンピュータに実行させる。

本願の実施例では、コンピューティングデバイスが提供されており、ここで、該コンピューティングデバイスは、プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って本願の実施例に記載の画像テキスト双方向検索方法を実行するためのプロセッサと、を含む。

本願の実施例では、コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体が提供されており、ここで、前記コンピュータ実行可能な命令は、本願の実施例に記載の画像テキスト双方向検索方法を前記コンピュータに実行させる。

本願のいくつかの実施例によって提供される、適用シーンの概略図である。本願のいくつかの実施例によって提供される、画像テキストマッチングモデルのトレーニング方法のフローチャートである。本願のいくつかの実施例によって提供される、画像テキストマッチングモデルのトレーニング方法のフローチャートである。本願のいくつかの実施例によって提供される、マッチングモデルのブロック図である。本願のいくつかの実施例によって提供される、画像特徴の類似度を計算するためのモデルのブロック図である。本願のいくつかの実施例によって提供される、画像情報のカテゴリの概略図である。本願のいくつかの実施例による、テキストのグローバル表現を抽出することのブロック図である。本願のいくつかの実施例によって提供される、画像テキストマッチングモデルのトレーニング方法のフローチャートである。本願のいくつかの実施例によって提供される、画像テキスト双方向検索方法のフローチャートである。本願のいくつかの実施例によって提供される、画像テキストマッチングモデルのトレーニング装置の構成図である。本願のいくつかの実施例によって提供される、画像テキスト双方向検索装置の構成図である。本願のいくつかの実施例によって提供される、コンピューティングデバイスの構成図である。

本願の実施例によって提供される技術的解決案を容易に理解するために、以下、図面を参照しながら本願の実施例を詳細に説明する。

いくつかの実施例において、画像とテキストのマッチングは、以下の２つの方法で実現される。

方法１では、画像とテキストのそれぞれのグローバル表現を抽出して、グローバル表現を同じ意味空間にマッピングし、この意味空間に画像とテキストのグローバル表現の間のマッチング関係を確立して、さらに、画像とテキストのマッチングを実現する。ここで、画像のグローバル表現は、画像のグローバル特性を反映しており、画像の全体的な特徴を説明するために使用されるものであり、グローバル表現は、例えば、色の特徴、形状の特徴、テクスチャの特徴などである。

方法２では、畳み込みニューラルネットワークによって画像のローカル情報のローカル表現を得、構文ツリー情報によってテキストのローカル表現を得て、さらに、画像とテキストのローカル表現のマッチング関係を学習する。ここで、画像のローカル表現は、画像のローカル情報を反映しており、画像の局部的な詳細特徴を説明するために使用されるものである。グローバル表現と比較すると、ローカル表現は、画像に含まれる量が多く、特徴間の相関度が小さい、遮蔽される場合に部分的特徴の消失によって他の特徴の検出やマッチングに影響を与えないなどのような特徴を有する。

しかしながら、上記の２つの方法は、いずれも単一態様の情報を用いて、画像とテキストのマッチングを行い、すなわち、グローバル表現を単独で採用するか、あるいは、ローカル表現を単独で採用する。ローカル表現を採用しても、グローバル表現を採用しても、画像とテキストのマッチングを行う場合、画像とテキストとの間のマッチング度が、１つのレベルからのみ反映されている。コンテンツが豊富な画像について、グローバル表現は、色の特徴、形状の特徴とテクスチャの特徴などを抽出できるだけで、ローカル表現の詳細な特徴を表示できないかもしれなく、そのため、その反映できる特徴が限られている。一方で、ローカル表現は、画像とテキストのマッピング関係を局部的に考慮できるだけで、グローバル表現の特徴を表示できない。したがって、以上の２つの方法は、いずれも画像とテキストとの間のマッチング度を全面的に測定することができない。

画像とテキストを全面的にマッチングすることで、より正確なマッチング度を得ることができるために、本願の実施例において、以下の方法に基づいて、画像テキストマッチングモデルをトレーニングする。該方法は、具体的に、
画像サンプルのグローバル特徴およびローカル特徴を抽出することと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出することと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定することであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、画像とテキストとの間のマッチング度を決定するために使用されるものであることと、を含む。

このようにすれば、得られたマッチング度は、画像とテキストのそれぞれのグローバル表現およびローカル表現に基づくものである。画像の詳細な特徴からグローバル特徴までのすべてが考慮されて得られたマッチング度は、より正確で包括的なものになる。したがって、本願の実施例によって提供されるマッチングモデルに基づいて画像テキスト双方向検索を行う場合、検索結果もより正確になる。

例えば、本願の実施例によって提供される画像テキスト双方向検索方法の適用シーンの概略図である図１を参照することができる。このシーンは、例えば、端末装置１１とサーバ１２とを含むようにしてもよい。ここで、前記端末装置１１には、例えば、社交のためのブログクライアントやＷｅＣｈａｔクライアント、時事を知るためのニュースクライアントなどのような、様々なクライアントがインストールされてもよい。端末装置１１のクライアントと、サーバ１２との通信接続が確立された後、端末装置１１のクライアントは、画像および／またはテキストに対してグローバル特徴とローカル特徴を抽出してサーバ１２に送信するようにしてもよい。あるいは、端末装置１１のクライアントは、画像および／またはテキストをサーバ１２に送信し、サーバ１２によって画像および／またはテキストのグローバル特徴とローカル特徴が抽出され、そして、サーバ１２は、画像のグローバル特徴およびローカル特徴に基づいて、このマッチングモデルに従って、この画像にマッチングされるテキストを検索し、または、サーバ１２は、テキストのグローバル特徴およびローカル特徴に基づいて、このマッチングモデルに従って、このテキストにマッチングされる画像を検索し、それから、サーバ１２は、検索結果を端末装置１１にフィードバックするようにしてもよい。

ここで、端末装置１１とサーバ１２は、通信ネットワークを介して通信接続を行ってもよい。この通信ネットワークは、ローカルエリアネットワーク、ワイドエリアネットワークなどであってもよく、端末装置１１は、携帯電話、タブレット、ノートパソコン、パーソナルコンピュータなどであってもよいし、サーバ１２は、相応な画像テキストマッチングモデルのトレーニングおよび双方向検索の両方をサポートできる任意のサーバデバイスであってもよい。

説明すべきものとして、本願の実施例によって提供される技術的解決案は、いかなる、テキストに基づいて画像を検索する必要があるシーン、および／または、画像に基づいてテキストを検索する必要があるシーンに適用され、例えば、クラウドアルバム管理（例えば、特定のテキストに基づいて、マッチされる画像を検索する）、ＷｅＣｈａｔモーメント（ＷｅｃｈａｔＭｏｍｅｎｔｓ）、ＱＱスペース（ＱＱＳｐａｃｅ、Ｑｚｏｎｅ）、ＱＱマスイノベーションスペース（ＱＱＭａｓｓＩｎｎｏｖａｔｉｏｎＳｐａｃｅ）、および、ＷｅＣｈａｔとＱＱのチャット環境における、画像および／またはテキストの検索に適用されてもよい。

本願の実施例によって提供される画像テキストマッチングモデルのトレーニング方法のフローチャートである図２Ａを参照して、前記方法は、サーバ１２であってもよいコンピュータによって実施され、以下のステップを含む。

Ｓ２１では、画像サンプルのグローバル特徴およびローカル特徴を抽出する。

Ｓ２２では、テキストサンプルのグローバル特徴およびローカル特徴を抽出する。

Ｓ２３では、抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定し、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである。

本願によって提供される技術的解決案を採用すれば、画像サンプルおよびテキストサンプルのグローバル特徴およびローカル特徴に基づいて、マッチングモデルをトレーニングして、画像およびテキストのローカル特徴からグローバル特徴までのすべてが考慮されて、このトレーニングによって得られたマッチングモデルに基づいて決定されたマッチング度は、より正確で包括的になる。本願の実施例によって提供されるマッチングモデルに基づいて画像テキスト双方向検索を行う場合、検索結果もより正確になる。

本願の実施例によって提供される画像テキストマッチングモデルのトレーニング方法のフローチャートである図２Ｂを参照して、この方法は、図１に示すサーバ１２によって実行され、以下のステップを含む。

ステップ２０１では、画像サンプルのグローバル特徴およびローカル特徴を抽出する。いくつかの実施例において、前記グローバル特徴はベクトルであり、対応する画像のテキスト情報を特徴づけるために使用されるものである。画像サンプルのローカル特徴もベクトルであり、ベクトルの各次元の情報は、対応する単語のカテゴリの情報が画像のローカル領域に含まれる情報、例えば、対応する単語のカテゴリの情報が画像のローカル領域に含まれる確率、を特徴づけるために使用されるものである。

ステップ２０２では、テキストサンプルのグローバル特徴およびローカル特徴を抽出する。

いくつかの実施例において、前記テキストサンプルのグローバル特徴は、テキストサンプルの全体的な意味情報を特徴づけるために使用されるものであり、テキストサンプルのローカル特徴は、テキストの局部的な意味情報の総合を特徴づけるために使用されるものであり、ここで、テキストサンプルのローカル特徴は、例えば単語やフレーズなどのような、テキストの局部的な情報に対して、より注目している。

説明すべきものとして、ステップ２０１及びステップ２０２の実行順序は限定されていない。

ステップ２０３では、抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定し、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである。

ここで、前記方法は、マッチングモデルをトレーニングした後、トレーニングされたマッチングモデルに基づいて、画像とテキストとの間のマッチング度を決定するようにしてもよいし、以下のステップを含む。

ステップ２０４では、前記入力された画像とテキストに対して、前記マッチングモデルによって前記画像と前記テキストのそれぞれのグローバル特徴を所定の意味空間にマッピングし、前記画像と前記テキストとの間のグローバル特徴の類似度を計算し、そして、前記画像と前記テキストのそれぞれのローカル特徴を前記所定の意味空間にマッピングし、前記画像と前記テキストとの間のローカル特徴の類似度を計算し、かつ、グローバル特徴の類似度の予め設定された重み値と、ローカル特徴の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、前記画像と前記テキストとの間の前記マッチング度を決定する。

本願の実施例によって提供される画像テキストマッチングモデルのブロック図である図３に示すように、入力された画像３１０に対して、ローカル画像ＣＮＮ（ＣｏｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、畳み込みニューラルネットワーク）３１１を用いて画像のローカル表現（ローカル特徴とも呼ばれる）（図における３１２で示す）を抽出し、かつ、グローバル画像ＣＮＮ３１３を用いて画像のグローバル表現（グローバル特徴とも呼ばれる）（図における３１４で示す）を抽出する。入力されたテキスト３２０に対して、ローカルテキストエンコーダ３２１を用いてテキストのローカル表現（ローカル特徴とも呼ばれる）（図における３２２で示す）を抽出し、かつ、グローバルテキストエンコーダ３２３を用いてテキストのグローバル表現（グローバル特徴とも呼ばれる）（図における３２４で示す）を抽出する。画像３１０およびテキスト３２０のローカル表現およびグローバル表現が抽出された後、ローカル深度マッチングによって、画像３１０とテキスト３２０のそれぞれのローカル表現を所定の意味空間にマッピングし、この所定の意味空間に、画像３１０とテキスト３２０とからなる異種サンプルペア（画像テキストペアとも呼ばれる）との間のローカル特徴の類似度を決定し、同様に、グローバル深度マッチングによって、画像３１０とテキスト３２０のそれぞれのグローバル特徴を所定の意味空間にマッピングし、この所定の意味空間に、画像３１０とテキスト３２０とからなる異種サンプルペアとの間のグローバル特徴の類似度を決定する。そして、モデル集積によって、グローバル特徴の類似度の予め設定された重み値と、ローカル特徴の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、異種サンプルペアのマッチング度を決定する。

理解を容易にするために、本願の実施例は、画像テキストマッチングモデルのトレーニング方法を提供し、以下の内容によって説明を行う。

１）所定の意味空間へのマッピングについて
いくつかの実施例において、画像とテキストとの間のグローバル表現の類似度およびローカル表現の類似度を正確に得るために、本願の実施例では、
画像サンプルとテキストサンプルのそれぞれのグローバル表現を所定の意味空間にマッピングすることは、具体的に、
画像サンプルとテキストサンプルのそれぞれのグローバル表現を、少なくとも２層の全結合層を介して、所定の意味空間にマッピングすること、を含む。

画像サンプルとテキストサンプルのそれぞれのローカル表現を所定の意味空間にマッピングすることは、具体的に、
画像サンプルとテキストサンプルのそれぞれのローカル表現を、少なくとも２層の全結合層を介して、所定の意味空間にマッピングすること、を含む。

ここで、全結合層は、畳み込みニューラルネットワークの基本的な構造の１層であり、全結合層の各ノードは、前の層のすべてのノードに接続され、前に抽出された特徴を統合するために使用されるものであり、ここで、全結合層は、画像およびテキストのグローバル特徴とローカル特徴を所定の意味空間にマッピングするために使用されるものであり、ここで、全結合動作は、全結合層を介して所定の意味空間にマッピングするということを実行するための動作を意味する。全結合層のパラメータは、予め設定されたターゲット関数のトレーニングによって得られたものであり、この予め設定されたターゲット関数は、意味関連の異種サンプルペア（画像テキストペア）の類似度が非意味関連の異種サンプルペアよりも高くなる、ということを実現するために使用されるものであり、または、意味関連の異種サンプルペアの類似度が非意味関連の異種サンプル対の類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを実現するために使用されるものである。

本願の実施例において、テキストおよび画像のグローバル表現およびローカル表現を同じ意味空間にマッピングするために、テキストと画像のそれぞれのグローバル表現およびローカル表現を複数の全結合層によって正確に解析する。また、全結合層のパラメータは、予め設定されたターゲット関数に基づいて決定されたものである。予め設定されたターゲット関数によって、下記のことを実現することができ、即ち、実際の状況に応じて、異種サンプルペアの類似度（この類似度は、グローバル表現の類似度またはローカル表現の類似度である）を正確に決定することができる。

また、複数の全結合層を介して、テキストおよび画像の記述に対して複数層の非線形変換を行うことができ、さらに、画像とテキストとの間の直接的なマッピング関係を見出すことができる。

予め設定されたターゲット関数は、意味関連の異種サンプルペアの類似度が非意味関連の異種サンプルペアの類似度より高くなる、ということを実現するために使用されるものであれば、この予め設定されたターゲット関数は、数式（１）に示すようになる。

ここで、L(I_n ⁺,S_n ⁺,I_n ^-,S_n ^-)は、予め設定されたターゲット関数を表し、I_n ⁺およびI_n ^-は、テキストサンプルを表し、S_n ⁺およびS_n ^-は、画像サンプルを表し、グローバル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル表現の類似度を表し、ローカル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル表現の類似度を表し、λ_１およびλ_２は、いずれも予め設定された係数を表し、d(I_n ⁺,S_n ⁺)は、意味関連の異種サンプルペアの類似度を表し、d(I_n ⁺,S_n ^-)およびd(I_n ^-,S_n ⁺)は、いずれも非意味関連の異種サンプルペアの類似度を表し、μ_１およびμ_２は、いずれも予め設定された閾値を表す。

１つの画像が一般的に複数のサンプル意味に関連される、ということが考えられる。例えば、一枚の風景画像の中で、鳥が空の中を飛んでいて魚が水の中を泳いでいるため、対応する意味には、鳥が空の中を飛んでいて魚が水の中を泳いでいることが含まれてもよい。したがって、マッチングモデルの正確性を向上させるために、同一の画像に意味的に関連されるテキストの間の類似度を、これらのテキストと、他の画像に意味的に関連されるテキストとの間の類似度よりも高くする必要がある。予め設定されたターゲット関数は、数式（１）に示す条件を満たす上で、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを同時に要求する必要がある。この目的を達成するために、同一の画像サンプルに関連されるテキストサンプルの間の類似度が、異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなるための数式は、式（２）に示すようになる。

ここで、L(S_i,S₁,S_j)は、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを要求するための予め設定されたターゲット関数を表し、S_i,S₁は、同一の画像サンプルに意味的に関連されるテキストサンプルを表し、S_i,S_jは、異なる画像サンプルに関連されるテキストサンプルを表し、グローバル表現の類似度を決定する場合、d()は、テキストサンプルの間のグローバル表現の類似度を表し、ローカル表現の類似度を決定する場合、d()は、テキストサンプルの間のローカル表現の類似度を表し、ｕ_３は、予め設定された閾値を表す。

もちろん、具体的に実施する場合、数式（１）と数式（２）を統合して、数式（３）または数式（４）に示す形式の予め設定されたターゲット関数を得ることができ、得られた予め設定されたターゲット関数は、上記の数式（１）と数式（２）に示す要求を満たすことができる。

説明すべきものとして、具体的に実施する場合、予め設定されたターゲット関数の要求に応じて、具体的な数学的表現方式を設計することができ、本願の実施例は、これを限定しない。

予め設定されたターゲット関数の役割に基づいて、図４に示すような深度マッチングモデルをトレーニングすることができる。この深度マッチングモデルは、画像とテキストとの間のマッチング度を決定するために使用されるものである。図４において、左側に画像の特徴ベクトルを入力し（ｉｍａｇｅｅｍｂｅｄｄｉｎｇ）（この特徴ベクトルは、グローバル特徴またはローカル特徴の特徴ベクトルである）、右側にテキストの特徴ベクトル（この特徴ベクトルは、グローバル特徴またはローカル特徴の特徴ベクトルである）を入力する（ｓｅｎｔｅｎｃｅｅｍｂｅｄｉｎｇ）。画像およびテキストの特徴ベクトルが同一の所定の意味空間にマッピングされた後、特徴ベクトルの間の距離を計算する。例えば、図４において、S₁ ¹、S₁ ²、S₁ ³、S₁ ⁴、S_mは、テキストの特徴ベクトルを表し、I₁およびI_nは、画像の特徴ベクトルを表す。この所定の意味空間では、画像とテキストの間の距離を計算する。採用された特徴ベクトルがグローバル特徴を表すための特徴ベクトルであれば、計算の結果は、グローバル特徴間の類似度であり、採用された特徴ベクトルがローカル特徴を表すための特徴ベクトルであれば、計算の結果は、ローカル特徴間の類似度である。

２）画像サンプルのグローバル表現（グローバル特徴）およびローカル表現（ローカル特徴）の抽出について、
本願の実施例において、画像のグローバル特徴を抽出することについては限定されていない。例えば、画像の畳み込みニューラルネットワークの全結合層の特徴を用いて画像のグローバル表現を表し、前述のＣＮＮのように、ここでのＣＮＮについては、ＶＧＧ（例えば、ＶｅｒｙＤｅｅｐＣｏｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＬａｒｇｅ−ＳＩｃａｌｅＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ、大規模画像認識の深度畳み込みネットワーク）、ＲｅｓＮｅｔ（ＲｅｄｓｕａｌＮｅｔｗｏｒｋｓ、残差ネットワーク）、Ｉｎｃｅｐｔｉｏｎ、ＩｎｃｅｐｔｉｏｎＶ３、ＩｎｃｅｐｔｉｏｎＶ４などを選択できるが、これらに限定されていない。もちろん、ＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ、全畳み込みネットワーク）などのネットワークモデルを用いて画像のグローバル表現を抽出することもできる。

ここで、本願の実施例によって提供される、画像サンプルのローカル表現を抽出することは説明され、具体的には、以下のように実行可能であり、即ち、
画像サンプルを所定数の画像ブロックに分割し、各画像ブロックに対して、この画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算し、
所定数の画像ブロックにおける各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル特徴を構成する。

例えば、図５に示すように、図５におけるＩｍａｇｅＣＮＮは、画像ＣＮＮを用いて画像ブロックの特徴を抽出する、ということを表す。本願の焦点は、特定の一枚の画像に対してブロックが分割された後、各画像ブロックの特徴を抽出する、ということにある。画像情報のカテゴリは５つあり、それぞれ、人、芝生、空、犬、猫であると仮定する。抽出された画像ブロックが４つあると仮定すると、画像ブロック毎に対して、該画像ブロックに上記５つのカテゴリの画像情報が含まれる確率を計算する。そして、各カテゴリに対して、４つの画像ブロックの当該カテゴリの確率から最大確率を選択する。各カテゴリの最大確率で画像サンプルのグローバル表現を構成する。

もちろん、具体的に実施する場合、カテゴリ毎に対して、当該カテゴリの最大確率と対応する確率閾値とを比較して、サンプル画像において当該カテゴリの画像情報を含む画像ブロックが少なくとも１つあるかどうかを判断するようにしてもよい。例えば、人というカテゴリについて、４つの画像ブロックの中で最大確率は０．９９であり、対応する確率閾値は０．８である場合、４つの画像ブロックにおいて人を含む画像ブロックが少なくとも１つある、ということが表明される。

３）、テキストサンプルのグローバル表現（グローバル特徴）およびローカル表現（ローカル特徴）の抽出について、
本願の実施例において、テキストサンプルのグローバル表現をより良く抽出するために、以下のステップ、即ち、
テキストサンプルに対して単語分割を行うステップと、
各単語セグメントに対して、この単語セグメントのベクトルを決定するステップであって、ここで、異なる単語セグメントのベクトルの長さは同じであるステップと、
同一のテキストサンプルの単語セグメントのベクトルを、テキストのグローバル特徴を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル特徴を得るステップであって、ここで、テキストサンプルのグローバル特徴を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、その前の畳み込み層によって抽出された少なくとも２つの単語セグメントのベクトルの特徴が含まれるステップと、が含まれる。

例えば、具体的に実施する場合、畳み込み層の畳み動作を以下の数式（５）で示してもよい。

ここで、

数式（５）では、ｒは、指定された大きさの視野領域を表し、ｌ−１は、第ｌ−１層の畳み込み層（すなわち、前の畳み込み層）を表し、ｌは、第ｌ層の畳み込み層（すなわち、現在の畳み込み層）を表し、W_l,fは、積行列を表し、ｆは、ｆ番目の特徴を表し、ｉは、ｉ番目の位置情報を表し、V_(l,f) ⁱは、第ｌ層の畳み込み層によって抽出された、ｉ位置に対応するｆ特徴を表す。

ここで、プーリング層の動作を以下の式（６）で示されてもよい。

ここで、V_(l+1,f) ⁱは、プーリング層の出力を表し、ｌ＋１は、プーリング層を表し、V_(l,f) ^Mxiは、第ｌ層によって抽出されたＭ×ｉ番目の特徴を表し、Ｍは、プーリング動作の大きさを制御するための定数を表す。

例えば、図６に示すように、入力されたテキストは、「ａｙｏｕｎｇｃｈｉｌｄｒｕｎｔｈｒｏｕｇｈａｌａｒｇｅｆｉｅｌｄｏｆｇｒａｓｓ」であり、テキスト畳み込みニューラルネットワーク（即ち、図におけるＳｅｎｔｅｎｃｅＣＮＮ）によって、テキストのグローバル表現を抽出する。具体的には、このＳｅｎｔｅｎｃｅＣＮＮには、テキストの特徴を抽出するための複数の畳み込み層ｃｏｎｖｏｌｕｔｉｏｎが含まれている。その後、最大プーリング層（ｍａｘ−ｐｏｏｌｉｎｇ）によって、畳み込み層によって抽出された特徴の統合および次元削減を行い、これによって、テキストのグローバル表現が得られる。

このように、本願の実施例において、複数の畳み込み層によってテキストサンプルの特徴の抽出を実現し、その後、池化層によって不要な特徴情報をフィルタリングする。なお、複数の畳み込み層を用いて畳み込み動作を行う場合、指定された大きさの視野領域が用いられ、この視野領域には複数の単語セグメントの特徴が含まれるため、テキストサンプルのグローバル表現に、隣接する単語セグメント間の組織及び相互作用情報を学習したことが実現されたということに相当し、これによって、最終的に抽出されたグローバル表現は、より合理的で正確になる。

具体的実施する場合、ｗｏｒｄ２ｖｅｃというツールを用いて、各単語セグメントを１つの固定長のベクトルで表すことができる。

また、テキストのグローバル表現を抽出するためのニューラルネットワークは、畳み込みニューラルネットワークであってもよく、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ、リカレントニューラルネットワーク）であってもよい。

テキストサンプルのローカル表現は、様々な方法で抽出されてもよく、単語セグメントごとにさらに集中することができ、例えば、伝統的なＴＦ−ＩＤＦ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ−ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）表現が採用され、あるいは、ＦｉｓｈｅｒＶｔｏｃｔｅｃが単語セグメントごとのベクトルまたは単語セグメントのベクトルの平均値に作用される。このような表現は、単語セグメントと単語セグメントの間の相関性を全体的に考慮することではなく、単語セグメントのそのものにより集中し、そのため、テキストのローカル表現と考えられてもよい。

以下、本願の実施例における上記マッチングモデルに基づく画像テキスト双方向検索方法について説明する。

本願の実施例によって提供される画像テキストマッチングモデルのトレーニング方法の具体的な実施例のフローチャートである図７に示すように、該方法は、以下のステップを含む。

ステップ７０１で、グローバル画像表現ＣＮＮに基づいて、画像サンプルのグローバル表現を抽出する。

ステップ７０２で、画像サンプルを所定数の画像ブロックに分割し、ローカル画像ＣＮＮに基づき各画像ブロックに対して、その画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算し、かつ、所定数の画像ブロックから各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル表現を構成する。

ステップ７０３で、テキストサンプルに対して単語分割を行い、各単語セグメントに対して、この単語セグメントのベクトルを決定し、ここで、異なる単語セグメントのベクトルの長さは同じであり、同一のテキストサンプルの単語セグメントのベクトルを、あらかじめ構築された、テキストのグローバル表現を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル表現を得、ここで、テキストサンプルのグローバル表現を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、その前の畳み込み層によって抽出された少なくとも２つの単語セグメントのベクトルの特徴が含まれる。

ステップ７０４で、テキストサンプルのローカル表現を抽出する。

ここで、ステップ７０１〜ステップ７０４の実行順序は限定されていない。

ステップ７０５で、画像サンプルとテキストサンプルのそれぞれのグローバル表現を、少なくとも２層の全結合層を介して所定の意味空間にマッピングし、画像サンプルとテキストサンプルとからなる異種サンプルペア（画像テキストペア）の間のグローバル表現の類似度を計算し、ここで、全結合層のパラメータは、予め設定されたターゲット関数に従ってトレーニングされて得られたものである。

ステップ７０６で、画像サンプルとテキストサンプルのそれぞれのローカル表現を、少なくとも２層の全結合層を介して所定の意味空間にマッピングし、異種サンプルペア（画像サンプルペア）の間のローカル表現の類似度を計算し、ここで、全結合層のパラメータは、予め設定されたターゲット関数に従ってトレーニングされて得られたものである。

ここで、ステップ７０５およびステップ７０６の実行順序は限定されていない。

なお、予め設定されたターゲット関数は、上記の実施例において説明されたが、ここでは説明されていない。

ステップ７０７で、グローバル表現の類似度の予め設定された重み値と、ローカル表現の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、異種サンプルペアのマッチング度を決定する。

本願の実施例において、画像ブロックによって、画像のローカル表現を抽出し、複数の畳み込み層とプーリング層によって、テキストのグローバル表現を抽出することで、テキストの単語セグメントの間の関連関係を得ることができ、これにより、抽出された特徴は、より正確で全面的になる。そして、予め設定されたターゲット関数によって、意味関連の異種サンプルペアの類似度が、非意味関連の異種サンプルペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が、異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなるようにさせ、これによって、最終的な類似度の計算をより実際のニーズに合致させ、画像とテキストのマッチングの正確度を向上させる。

上記の実施例におけるマッチングモデルに基づく画像テキスト双方向検索方法のフローチャートである図８に示すように、前記方法は、サーバ１２であってもよいコンピュータによって実施され、以下のステップを含む。

ステップ８０１で、テキストまたは画像である参照サンプルを受信する。

ステップ８０２で、前記参照サンプルのグローバル特徴およびローカル特徴を抽出する。

ステップ８０３で、前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させ、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである。

ここで、素材ライブラリを作成することで、参照サンプルと素材ライブラリにおける各素材との間のマッチング度を計算することができる。マッチング度を具体的に計算する方法は、上記の実施例において説明されたが、ここでは説明されていない。

ステップ８０４で、マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択する。

本願の実施例は、グローバル表現およびローカル表現のマッチングモデルに基づいて、参照サンプルの対応する素材を検索することを実現し、これにより、最終的に得られたマッチング結果は、より正確になる。例えば、テキストにマッチングされる画像を検索したり、画像にマッチングされるテキストを検索したりする。

上述の実施例と同様な発明概念に基づいて、本願の実施例は、また、画像テキストマッチングモデルのトレーニング装置を提供し、この装置の原理および有益効果は、上記の方法の実施例で説明された内容と類似しており、ここでは説明されていない。

この装置の構成概略図である図９に示すように、前記装置は
画像サンプルのグローバル特徴およびローカル特徴を抽出するための画像特徴抽出モジュール９０１と、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するためのテキスト特徴抽出モジュール９０２と、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するトレーニングモジュール９０３であって、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである、トレーニングモジュール９０３と、を備える。

いくつかの実施例において、前記マッチングモデルによって、前記画像と前記テキストのそれぞれのグローバル特徴を所定の意味空間にマッピングして、前記画像と前記テキストとの間のグローバル特徴の類似度を計算し、および、前記画像と前記テキストのそれぞれのローカル特徴を前記所定の意味空間にマッピングして、前記画像と前記テキストとの間のローカル特徴の類似度を計算し、かつ、グローバル特徴の類似度の予め設定された重み値と、ローカル特徴の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、前記画像と前記テキストとの間の前記マッチング度を決定する。

いくつかの実施例において、前記マッチングモデルには、少なくとも２層の全結合層が含まれ、前記マッチングモデルのモデルパラメータには、前記少なくとも２層の全結合層のパラメータが含まれる。

トレーニングモジュール９０３は、具体的に、
前記画像サンプルと前記テキストサンプルのそれぞれのグローバル特徴を、前記少なくとも２層の全結合層を介して、所定の意味空間にマッピングするグローバルトレーニングユニット９０３１と、
前記画像サンプルと前記テキストサンプルのそれぞれのローカル特徴を、前記少なくとも２層の全結合層を介して、前記所定の意味空間にマッピングするローカルトレーニングユニット９０３２と、を備え、
マッピングの結果および予め設定されたターゲット関数に基づいて、少なくとも２層の全結合層のパラメータを決定し、ここで、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなるということを実現するために使用されるものであり、または、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを実現するために使用されるものである。

いくつかの実施例において、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなる、ということを実現するために使用されるものである。

ここで、前記マッピングの結果には、前記少なくとも２層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも２層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とが含まれる。

前記トレーニングモジュール９０３は、
前記少なくとも２層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも２層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも２層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを決定し、
前記少なくとも２層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを、前記予め設定されたターゲット関数に入力して、前記少なくとも２層の全結合層のパラメータを決定する。

予め設定されたターゲット関数は、意味関連の異種サンプルペアの類似度が非意味関連の異種サンプルペアの類似度よりも高くなる、ということを実現するために使用されるものであれば、この予め設定されたターゲット関数は、次式の通りである。

ここで、L(I_n ⁺,S_n ⁺,I_n ^-,S_n ^-)は、予め設定されたターゲット関数を表し、I_n ⁺、I_n ^-は、テキストサンプルを表し、S_n ⁺、S_n ^-は、画像サンプルを表し、グローバル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル表現の類似度を表し、ローカル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル表現の類似度を表し、λ_１およびλ_２は、いずれも予め設定された係数を表し、d(I_n ⁺,S_n ⁺)は、意味関連の異種サンプルペアの類似度を表し、d(I_n ⁺,S_n ^-)およびd(I_n ^-,S_n ⁺)は、いずれも非意味関連の異種サンプルペアの類似度を表し、μ_１およびμ_２は、いずれも予め設定された閾値を表す。

いくつかの実施例において、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを実現するために使用されるものであり、
ここで、前記マッピングの結果には、少なくとも２層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、少なくとも２層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とが含まれ、
前記トレーニングモジュール９０３は、
前記少なくとも２層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、および前記少なくとも２層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも２層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも２層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを決定し、
前記少なくとも２層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも２層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを、前記予め設定されたターゲット関数に入力し、前記少なくとも２層の全結合層のパラメータを決定する。

いくつかの実施例において、前記予め設定されたターゲット関数は、以下の１つによって決定され、即ち、次の通りである。

ここで、

ここで、ＬＹは、予め設定されたターゲット関数であり、L(I_n ⁺,S_n ⁺,I_n ^-,S_n ^-)は、意味関連の画像テキストペアの類似度と非意味関連の画像テキストペアの類似度との間の関係を表し、L(S_i,S_l,S_j)は、同一の画像サンプルに関連されるテキストサンプルの間の類似度と、異なる画像サンプルに関連されるテキストサンプルの間の類似度との間の関係を表し、I_n ⁺、I_n ^-は、テキストサンプルを表し、S_n ⁺、S_n ^-は、画像サンプルを表し、グローバル特徴の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル特徴の類似度を表し、ローカル特徴の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル特徴の類似度を表し、λ_１およびλ_２は、いずれも予め設定された係数を表し、d(I_n ⁺,S_n ⁺)は、意味関連の異種サンプルペア（画像テキストペア）の類似度を表し、d(I_n ⁺,S_n ^-)およびd(I_n ^-,S_n ⁺)は、いずれも非意味関連の異種サンプルペア（画像テキストペア）の類似度を表し、ｕ_１およびｕ_２は、いずれも予め設定された閾値を表し、
ここで、

S_i,S_lは、同一の画像サンプルに意味的に関連されるテキストサンプルを表し、S_i,S_jは、異なる画像サンプルに関連されるテキストサンプルを表し、グローバル特徴の類似度を決定する場合、d()は、テキストサンプルの間のグローバル特徴の類似度を表し、ローカル特徴の類似度を決定する場合、d()は、テキストサンプルの間のローカル特徴の類似度を表し、ｕ_３は、予め設定された閾値を表す。

いくつかの実施例において、画像特徴抽出モジュールは、具体的に、画像サンプルを所定数の画像ブロックに分割し、各画像ブロックに対して、この画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算し、かつ、
所定数の画像ブロックにおける各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル特徴を構成する。

いくつかの実施形例において、テキスト特徴抽出モジュールは、具体的に、テキストサンプルの単語分割を行い、
各単語セグメントに対して、この単語セグメントのベクトルを決定し、ここで、異なる単語セグメントのベクトルの長さは同じであり、
同一のテキストサンプルの単語セグメントのベクトルを、テキストのグローバル特徴を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル特徴を得、ここで、テキストサンプルのグローバル特徴を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、該前の畳み込み層によって抽出された少なくとも２つの単語セグメントのベクトルの特徴が含まれる。

上述の実施例と同様な発明概念に基づいて、本願の実施例は、また、画像テキスト双方向検索装置を提供し、この装置の原理および有益効果は、上記の方法の実施例で説明された内容と類似しており、ここでは説明されていない。

この装置の構成概略図である図１０に示すように、前記装置は、
テキストまたは画像である参照サンプルを受信するための参照サンプル受信モジュール１００１と、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するための参照サンプル特徴抽出モジュール１００２と、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させる検索モジュール１００３であって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである検索モジュール１００３と、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択する選択モジュール１００４と、を備える。

本願の実施例は、また、コンピューティングデバイスを提供し、該コンピューティングデバイスは、具体的に、デスクトップコンピュータ、携帯型コンピュータ、スマートフォン、タブレットコンピュータ、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｉｓｔａｎｔ、ＰＤＡ）などであってもよい。図１１に示すように、このコンピューティングデバイスには、中央プロセッサ（ＣｅｎｔｅｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）１１０１、メモリ１１０２、入力デバイス１１０３、出力デバイス１１０４などが含まれてもよく、入力デバイスには、キーボード、マウス、タッチスクリーンなどが含まれてもよいし、出力デバイスには、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ＣＲＴ）などのような表示デバイスが含まれてもよい。

メモリは、リードオンリーメモリ（ＲＯＭ）およびランダムアクセスメモリ（ＲＡＭ）を含み、メモリに記憶されているプログラム命令およびデータをプロセッサに提供することができる。本願の実施例において、メモリは、画像テキストマッチングモデルのトレーニング方法および／または画像テキスト双方向検索方法のプログラム命令を記憶するために使用されてもよい。プロセッサは、メモリに記憶されているプログラム命令を呼び出すことにより、取得されたプログラム命令に従って、以下のことを実行し、即ち、画像サンプルのグローバル特徴およびローカル特徴を抽出し、かつ、テキストサンプルのグローバル特徴およびローカル特徴を抽出し、抽出された画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定し、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定する。

または、プロセッサは、メモリに記憶されているプログラム命令を呼び出すことにより、取得されたプログラム命令に従って、以下のことを実行し、即ち、テキストまたは画像である参照サンプルを受信し、前記参照サンプルのグローバル特徴およびローカル特徴を抽出し、前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照モデルと、対応する素材との間のマッチング度を計算させ、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定し、マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択する。

本願は、また、上記のコンピューティングデバイスによって使用されるコンピュータプログラム命令を記憶するためのコンピュータ記憶媒体を提供し、該コンピュータ記憶媒体は、上記画像テキストマッチングモデルのトレーニング方法および／または画像テキスト双方向検索方法を実行するためのプログラムを含む。

前記コンピュータ記憶媒体は、コンピュータがアクセスできる任意の利用可能な媒体またはデータ記憶装置であってもよいし、磁気メモリ（例えば、フロッピーディスク、ハードディスク、磁気ディスク、光磁気ディスク（ＭＯ）など）、光学メモリ（例えば、ＣＤ、ＤＶＤ、ＢＤ、ＨＶＤなど）、および半導体メモリ（例えばＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、不揮発性メモリ（ＮＡＮＤＦＬＡＳＨ）、ソリッドステートドライブ（ＳＳＤ））などを含むが、これらに限定されていない。

最後に説明すべきものとして、以上の実施例は、本願の技術的解決案を説明するためにのみ使用されるものであり、それらに限定されるものではない。本願が前述の実施例を参照しながら詳細に説明されたが、当業者は、下記のことを理解すべきであり、即ち、上記の各実施例に記載された技術的解決案が依然として修正されたり、一部の技術的特徴が均等に置換されたりすることができ、これらの修正または置換が、相応な技術的解決案の本質を本願の各実施例の技術的解決案の精神および範囲から逸脱させない。

Claims

コンピュータによって実施される画像テキストマッチングモデルのトレーニング方法であって、
画像サンプルのグローバル特徴およびローカル特徴を抽出するステップと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するステップと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するステップであって、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである、ステップと、
を含む画像テキストマッチングモデルのトレーニング方法。
前記マッチングモデルによって前記画像と前記テキストのそれぞれのグローバル特徴を所定の意味空間にマッピングして、前記画像と前記テキストとの間のグローバル特徴の類似度を計算し、および、前記画像と前記テキストのそれぞれのローカル特徴を前記所定の意味空間にマッピングして、前記画像と前記テキストとの間のローカル特徴の類似度を計算し、かつ、グローバル特徴の類似度の予め設定された重み値と、ローカル特徴の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、前記画像と前記テキストとの間の前記マッチング度を決定するステップ、をさらに含む請求項１に記載の方法。
前記マッチングモデルには、少なくとも２層の全結合層が含まれ、前記マッチングモデルのモデルパラメータには、前記少なくとも２層の全結合層のパラメータが含まれ、
ここで、前記抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するステップは、
前記画像サンプルと前記テキストサンプルのそれぞれのグローバル表現を、前記少なくとも２層の全結合層を介して、所定の意味空間にマッピングし、前記画像サンプルと前記テキストサンプルのそれぞれのローカル表現を、前記少なくとも２層の全結合層を介して、所定の意味空間にマッピングするステップと、
マッピングの結果および予め設定されたターゲット関数に基づいて、前記少なくとも２層の全結合層のパラメータを決定するステップであって、ここで、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなることを実現するために使用されるものであり、あるいは、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなることを実現するために使用されるものである、ステップと、を含む、
請求項１に記載の方法。
前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなることを実現するために使用されるものであり、
ここで、前記マッピングの結果には、前記少なくとも２層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも２層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とが含まれ、
前記マッピングの結果および予め設定されたターゲット関数に基づいて、前記少なくとも２層の全結合層のパラメータを決定するステップは、
前記少なくとも２層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも２層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも２層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを決定するステップと、
前記少なくとも２層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを、前記予め設定されたターゲット関数に入力して、前記少なくとも２層の全結合層のパラメータを決定するステップと、を含む、
請求項３に記載の方法。
前記予め設定されたターゲット関数は、次式であり、

ここで、L(I_n ⁺,S_n ⁺,I_n ^-,S_n ^-)は、予め設定されたターゲット関数を表し、I_n ⁺、I_n ^-は、テキストサンプルを表し、S_n ⁺、S_n ^-は、画像サンプルを表し、グローバル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル表現の類似度を表し、ローカル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル表現の類似度を表し、λ_１およびλ_２は、いずれも予め設定された係数を表し、d(I_n ⁺,S_n ⁺)は、意味関連の画像テキストペアの類似度を表し、d(I_n ⁺,S_n ^-)およびd(I_n ^-,S_n ⁺)は、いずれも非意味関連の画像テキストペアの類似度を表し、μ_１およびμ_２は、いずれも予め設定された閾値を表す、
請求項４に記載の方法。
前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなることを実現するために使用されるものであり、
ここで、前記マッピングの結果には、前記少なくとも２層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも２層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とが含まれ、
前記マッピングの結果および予め設定されたターゲット関数に基づいて、前記少なくとも２層の全結合層のパラメータを決定することは、
前記少なくとも２層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも２層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも２層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも２層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを決定することと、
前記少なくとも２層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも２層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも２層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを、前記予め設定されたターゲット関数に入力し、前記少なくとも２層の全結合層のパラメータを決定することと、を含む、
請求項３に記載の方法。
前記予め設定されたターゲット関数は、以下の１つによって決定され、

ここで、

ここで、ＬＹは、予め設定されたターゲット関数であり、L(I_n ⁺,S_n ⁺,I_n ^-,S_n ^-)は、意味関連の画像テキストペアの類似度と非意味関連の画像テキストペアの類似度との間の関係を表し、L(S_i,S₁,S_j)は、同一の画像サンプルに関連されるテキストサンプルの間の類似度と、異なる画像サンプルに関連されるテキストサンプルの間の類似度との間の関係を表し、I_n ⁺、I_n ^-は、テキストサンプルを表し、S_n ⁺、S_n ^-は、画像サンプルを表し、グローバル特徴の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル特徴の類似度を表し、ローカル特徴の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル特徴の類似度を表し、λ_１およびλ_２は、いずれも予め設定された係数を表し、d(I_n ⁺,S_n ⁺)は、意味関連の画像テキストペアの類似度を表し、d(I_n ⁺,S_n ^-)およびd(I_n ^-,S_n ⁺)は、いずれも非意味関連の画像テキストペアの類似度を表し、ｕ_１およびｕ_２は、いずれも予め設定された閾値を表し、
ここで、

S_i,S₁は、同一の画像サンプルに意味的に関連されるテキストサンプルを表し、S_i,S_jは、異なる画像サンプルに関連されるテキストサンプルを表し、グローバル特徴の類似度を決定する場合、d()は、テキストサンプルの間のグローバル特徴の類似度を表し、ローカル特徴の類似度を決定する場合、d()は、テキストサンプルの間のローカル特徴の類似度を表し、ｕ_３は、予め設定された閾値を表す、
請求項６に記載の方法。
画像サンプルのローカル特徴を抽出するステップは、
画像サンプルを所定数の画像ブロックに分割し、各画像ブロックに対して、この画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算するステップと、
所定数の画像ブロックにおける各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル特徴を構成するステップと、を含む、
請求項１に記載の方法。
テキストサンプルのグローバル表現を抽出するステップは、
テキストサンプルに単語分割を行うステップと、
各単語セグメントに対して、この単語セグメントのベクトルを決定するステップであって、ここで、異なる単語セグメントのベクトルの長さは同じである、ステップと、
同一のテキストサンプルの単語セグメントのベクトルを、テキストのグローバル特徴を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル特徴を得るステップであって、ここで、テキストサンプルのグローバル特徴を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、その前の畳み込み層によって抽出された少なくとも２つの単語セグメントのベクトルの特徴が含まれるステップと、を含む、
請求項１に記載の方法。
コンピュータによって実施される画像テキスト双方向検索方法であって、
テキストまたは画像である参照サンプルを受信するステップと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するステップと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させるステップであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものであるステップと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択するステップと、
を含む画像テキスト双方向検索方法。
画像テキストマッチングモデルのトレーニング装置であって、
画像サンプルのグローバル特徴およびローカル特徴を抽出するための画像特徴抽出モジュールと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するためのテキスト特徴抽出モジュールと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するためのトレーニングモジュールであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものであるトレーニングモジュールと、
を含む画像テキストマッチングモデルのトレーニング装置。
画像テキスト双方向検索装置であって、
テキストまたは画像である参照サンプルを受信するための参照サンプル受信モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するための参照サンプル特徴抽出モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させるための検索モジュールであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである検索モジュールと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択するための選択モジュールと、
を含む画像テキスト双方向検索装置。
コンピューティングデバイスであって、
プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って、請求項１〜９のいずれか１項に記載の画像テキストマッチングモデルのトレーニング方法を実行するためのプロセッサと、
を含むコンピューティングデバイス。
コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体であって、
前記コンピュータ実行可能な命令は、請求項１〜９のいずれか１項に記載の画像テキストマッチングモデルのトレーニング方法を前記コンピュータに実行させる、
コンピュータ記憶媒体。
コンピューティングデバイスであって、
プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って、請求項１０に記載の画像テキスト双方向検索方法を実行するためのプロセッサと、
を含むコンピューティングデバイス。
コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体であって、
前記コンピュータ実行可能な命令は、請求項１０に記載の画像テキスト双方向検索方法を前記コンピュータに実行させる、
コンピュータ記憶媒体。