JP6887026B2 - 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置 - Google Patents

画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置 Download PDF

Info

Publication number
JP6887026B2
JP6887026B2 JP2019564942A JP2019564942A JP6887026B2 JP 6887026 B2 JP6887026 B2 JP 6887026B2 JP 2019564942 A JP2019564942 A JP 2019564942A JP 2019564942 A JP2019564942 A JP 2019564942A JP 6887026 B2 JP6887026 B2 JP 6887026B2
Authority
JP
Japan
Prior art keywords
text
image
sample
global
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019564942A
Other languages
English (en)
Other versions
JP2020522791A (ja
Inventor
マ,リン
ジアン,ウェンハオ
リウ,ウェイ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2020522791A publication Critical patent/JP2020522791A/ja
Application granted granted Critical
Publication of JP6887026B2 publication Critical patent/JP6887026B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本願は、2017年9月12日に中国特許庁に提出された、出願番号が201710817344.5であり、出願名称が「画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置」である中国特許出願の優先権を主張し、その全ての内容は、参照することにより本願に組み込まれる。
本願は、人工知能技術分野に関し、特に、画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置に関する。
画像とテキストに対する理解は、人工知能における最も重要な研究方向の1つである。その中の1つの重要な研究は、画像とテキストとの間の関連関係を発掘することである。例えば、ウェブニュースにおけるニューステキストのコンテンツとニュース画像は、同じテーマのアイデアを表している。つまり、画像とテキストの間には、絶対的な独立性が存在しておらず、マッチング関係が存在している。従って、特定の画像にマッチングされるテキストをどのように見つけるか、あるいは、特定のテキストにマッチングされる画像をどのように見つけるかということは、業界内で関心のあるトピックになる。
本願の実施例によって提供される画像テキストマッチングモデルのトレーニング方法および関連装置は、画像とテキストとの間のマッチング度を全面的に測定することができ、これによって、得られたマッチング度は、より正確で包括的になる。
本願の実施例によって提供される双方向検索方法および関連装置は、画像テキスト双方向検索を行う際に、より正確な検索結果を得ることができる。
本願の実施例では、コンピュータによって実施される画像テキストマッチングモデルのトレーニング方法が提供されており、前記方法は、
画像サンプルのグローバル特徴およびローカル特徴を抽出することと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出することと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定することであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものであることと、を含む。
本願の実施例では、コンピュータによって実施される画像テキスト双方向検索方法が提供されており、前記方法は、
テキストまたは画像である参照サンプルを受信することと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出することと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させることであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものであることと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択することと、を含む。
本願の実施例では、画像テキストマッチングモデルのトレーニング装置が提供されており、前記装置は、
画像サンプルのグローバル特徴およびローカル特徴を抽出するための画像特徴抽出モジュールと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するためのテキスト特徴抽出モジュールと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するためのトレーニングモジュールであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものであるトレーニングモジュールと、を含む。
本願の実施例では、画像テキスト双方向検索装置が提供されており、前記装置は、
テキストまたは画像である参照サンプルを受信するための参照サンプル受信モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するための参照サンプル特徴抽出モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させるための検索モジュールであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである検索モジュールと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択するための選択モジュールと、を含む。
本願の実施例では、コンピューティングデバイスが提供されており、ここで、該コンピューティングデバイスは、プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って本願の実施例のいずれかに記載の画像テキストマッチングモデルのトレーニング方法を実行するためのプロセッサと、を含む。
本願の実施例では、コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体が提供されており、ここで、前記コンピュータ実行可能な命令は、本願の実施例のいずれかに記載の画像テキストマッチングモデルのトレーニング方法を前記コンピュータに実行させる。
本願の実施例では、コンピューティングデバイスが提供されており、ここで、該コンピューティングデバイスは、プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って本願の実施例に記載の画像テキスト双方向検索方法を実行するためのプロセッサと、を含む。
本願の実施例では、コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体が提供されており、ここで、前記コンピュータ実行可能な命令は、本願の実施例に記載の画像テキスト双方向検索方法を前記コンピュータに実行させる。
本願のいくつかの実施例によって提供される、適用シーンの概略図である。 本願のいくつかの実施例によって提供される、画像テキストマッチングモデルのトレーニング方法のフローチャートである。 本願のいくつかの実施例によって提供される、画像テキストマッチングモデルのトレーニング方法のフローチャートである。 本願のいくつかの実施例によって提供される、マッチングモデルのブロック図である。 本願のいくつかの実施例によって提供される、画像特徴の類似度を計算するためのモデルのブロック図である。 本願のいくつかの実施例によって提供される、画像情報のカテゴリの概略図である。 本願のいくつかの実施例による、テキストのグローバル表現を抽出することのブロック図である。 本願のいくつかの実施例によって提供される、画像テキストマッチングモデルのトレーニング方法のフローチャートである。 本願のいくつかの実施例によって提供される、画像テキスト双方向検索方法のフローチャートである。 本願のいくつかの実施例によって提供される、画像テキストマッチングモデルのトレーニング装置の構成図である。 本願のいくつかの実施例によって提供される、画像テキスト双方向検索装置の構成図である。 本願のいくつかの実施例によって提供される、コンピューティングデバイスの構成図である。
本願の実施例によって提供される技術的解決案を容易に理解するために、以下、図面を参照しながら本願の実施例を詳細に説明する。
いくつかの実施例において、画像とテキストのマッチングは、以下の2つの方法で実現される。
方法1では、画像とテキストのそれぞれのグローバル表現を抽出して、グローバル表現を同じ意味空間にマッピングし、この意味空間に画像とテキストのグローバル表現の間のマッチング関係を確立して、さらに、画像とテキストのマッチングを実現する。ここで、画像のグローバル表現は、画像のグローバル特性を反映しており、画像の全体的な特徴を説明するために使用されるものであり、グローバル表現は、例えば、色の特徴、形状の特徴、テクスチャの特徴などである。
方法2では、畳み込みニューラルネットワークによって画像のローカル情報のローカル表現を得、構文ツリー情報によってテキストのローカル表現を得て、さらに、画像とテキストのローカル表現のマッチング関係を学習する。ここで、画像のローカル表現は、画像のローカル情報を反映しており、画像の局部的な詳細特徴を説明するために使用されるものである。グローバル表現と比較すると、ローカル表現は、画像に含まれる量が多く、特徴間の相関度が小さい、遮蔽される場合に部分的特徴の消失によって他の特徴の検出やマッチングに影響を与えないなどのような特徴を有する。
しかしながら、上記の2つの方法は、いずれも単一態様の情報を用いて、画像とテキストのマッチングを行い、すなわち、グローバル表現を単独で採用するか、あるいは、ローカル表現を単独で採用する。ローカル表現を採用しても、グローバル表現を採用しても、画像とテキストのマッチングを行う場合、画像とテキストとの間のマッチング度が、1つのレベルからのみ反映されている。コンテンツが豊富な画像について、グローバル表現は、色の特徴、形状の特徴とテクスチャの特徴などを抽出できるだけで、ローカル表現の詳細な特徴を表示できないかもしれなく、そのため、その反映できる特徴が限られている。一方で、ローカル表現は、画像とテキストのマッピング関係を局部的に考慮できるだけで、グローバル表現の特徴を表示できない。したがって、以上の2つの方法は、いずれも画像とテキストとの間のマッチング度を全面的に測定することができない。
画像とテキストを全面的にマッチングすることで、より正確なマッチング度を得ることができるために、本願の実施例において、以下の方法に基づいて、画像テキストマッチングモデルをトレーニングする。該方法は、具体的に、
画像サンプルのグローバル特徴およびローカル特徴を抽出することと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出することと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定することであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、画像とテキストとの間のマッチング度を決定するために使用されるものであることと、を含む。
このようにすれば、得られたマッチング度は、画像とテキストのそれぞれのグローバル表現およびローカル表現に基づくものである。画像の詳細な特徴からグローバル特徴までのすべてが考慮されて得られたマッチング度は、より正確で包括的なものになる。したがって、本願の実施例によって提供されるマッチングモデルに基づいて画像テキスト双方向検索を行う場合、検索結果もより正確になる。
例えば、本願の実施例によって提供される画像テキスト双方向検索方法の適用シーンの概略図である図1を参照することができる。このシーンは、例えば、端末装置11とサーバ12とを含むようにしてもよい。ここで、前記端末装置11には、例えば、社交のためのブログクライアントやWeChatクライアント、時事を知るためのニュースクライアントなどのような、様々なクライアントがインストールされてもよい。端末装置11のクライアントと、サーバ12との通信接続が確立された後、端末装置11のクライアントは、画像および/またはテキストに対してグローバル特徴とローカル特徴を抽出してサーバ12に送信するようにしてもよい。あるいは、端末装置11のクライアントは、画像および/またはテキストをサーバ12に送信し、サーバ12によって画像および/またはテキストのグローバル特徴とローカル特徴が抽出され、そして、サーバ12は、画像のグローバル特徴およびローカル特徴に基づいて、このマッチングモデルに従って、この画像にマッチングされるテキストを検索し、または、サーバ12は、テキストのグローバル特徴およびローカル特徴に基づいて、このマッチングモデルに従って、このテキストにマッチングされる画像を検索し、それから、サーバ12は、検索結果を端末装置11にフィードバックするようにしてもよい。
ここで、端末装置11とサーバ12は、通信ネットワークを介して通信接続を行ってもよい。この通信ネットワークは、ローカルエリアネットワーク、ワイドエリアネットワークなどであってもよく、端末装置11は、携帯電話、タブレット、ノートパソコン、パーソナルコンピュータなどであってもよいし、サーバ12は、相応な画像テキストマッチングモデルのトレーニングおよび双方向検索の両方をサポートできる任意のサーバデバイスであってもよい。
説明すべきものとして、本願の実施例によって提供される技術的解決案は、いかなる、テキストに基づいて画像を検索する必要があるシーン、および/または、画像に基づいてテキストを検索する必要があるシーンに適用され、例えば、クラウドアルバム管理(例えば、特定のテキストに基づいて、マッチされる画像を検索する)、WeChatモーメント(Wechat Moments)、QQスペース(QQ Space、Qzone)、QQマスイノベーションスペース(QQ Mass Innovation Space)、および、WeChatとQQのチャット環境における、画像および/またはテキストの検索に適用されてもよい。
本願の実施例によって提供される画像テキストマッチングモデルのトレーニング方法のフローチャートである図2Aを参照して、前記方法は、サーバ12であってもよいコンピュータによって実施され、以下のステップを含む。
S21では、画像サンプルのグローバル特徴およびローカル特徴を抽出する。
S22では、テキストサンプルのグローバル特徴およびローカル特徴を抽出する。
S23では、抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定し、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである。
本願によって提供される技術的解決案を採用すれば、画像サンプルおよびテキストサンプルのグローバル特徴およびローカル特徴に基づいて、マッチングモデルをトレーニングして、画像およびテキストのローカル特徴からグローバル特徴までのすべてが考慮されて、このトレーニングによって得られたマッチングモデルに基づいて決定されたマッチング度は、より正確で包括的になる。本願の実施例によって提供されるマッチングモデルに基づいて画像テキスト双方向検索を行う場合、検索結果もより正確になる。
本願の実施例によって提供される画像テキストマッチングモデルのトレーニング方法のフローチャートである図2Bを参照して、この方法は、図1に示すサーバ12によって実行され、以下のステップを含む。
ステップ201では、画像サンプルのグローバル特徴およびローカル特徴を抽出する。いくつかの実施例において、前記グローバル特徴はベクトルであり、対応する画像のテキスト情報を特徴づけるために使用されるものである。画像サンプルのローカル特徴もベクトルであり、ベクトルの各次元の情報は、対応する単語のカテゴリの情報が画像のローカル領域に含まれる情報、例えば、対応する単語のカテゴリの情報が画像のローカル領域に含まれる確率、を特徴づけるために使用されるものである。
ステップ202では、テキストサンプルのグローバル特徴およびローカル特徴を抽出する。
いくつかの実施例において、前記テキストサンプルのグローバル特徴は、テキストサンプルの全体的な意味情報を特徴づけるために使用されるものであり、テキストサンプルのローカル特徴は、テキストの局部的な意味情報の総合を特徴づけるために使用されるものであり、ここで、テキストサンプルのローカル特徴は、例えば単語やフレーズなどのような、テキストの局部的な情報に対して、より注目している。
説明すべきものとして、ステップ201及びステップ202の実行順序は限定されていない。
ステップ203では、抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定し、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである。
ここで、前記方法は、マッチングモデルをトレーニングした後、トレーニングされたマッチングモデルに基づいて、画像とテキストとの間のマッチング度を決定するようにしてもよいし、以下のステップを含む。
ステップ204では、前記入力された画像とテキストに対して、前記マッチングモデルによって前記画像と前記テキストのそれぞれのグローバル特徴を所定の意味空間にマッピングし、前記画像と前記テキストとの間のグローバル特徴の類似度を計算し、そして、前記画像と前記テキストのそれぞれのローカル特徴を前記所定の意味空間にマッピングし、前記画像と前記テキストとの間のローカル特徴の類似度を計算し、かつ、グローバル特徴の類似度の予め設定された重み値と、ローカル特徴の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、前記画像と前記テキストとの間の前記マッチング度を決定する。
本願の実施例によって提供される画像テキストマッチングモデルのブロック図である図3に示すように、入力された画像310に対して、ローカル画像CNN(Covolutional Neural Network、畳み込みニューラルネットワーク)311を用いて画像のローカル表現(ローカル特徴とも呼ばれる)(図における312で示す)を抽出し、かつ、グローバル画像CNN 313を用いて画像のグローバル表現(グローバル特徴とも呼ばれる)(図における314で示す)を抽出する。入力されたテキスト320に対して、ローカルテキストエンコーダ321を用いてテキストのローカル表現(ローカル特徴とも呼ばれる)(図における322で示す)を抽出し、かつ、グローバルテキストエンコーダ323を用いてテキストのグローバル表現(グローバル特徴とも呼ばれる)(図における324で示す)を抽出する。画像310およびテキスト320のローカル表現およびグローバル表現が抽出された後、ローカル深度マッチングによって、画像310とテキスト320のそれぞれのローカル表現を所定の意味空間にマッピングし、この所定の意味空間に、画像310とテキスト320とからなる異種サンプルペア(画像テキストペアとも呼ばれる)との間のローカル特徴の類似度を決定し、同様に、グローバル深度マッチングによって、画像310とテキスト320のそれぞれのグローバル特徴を所定の意味空間にマッピングし、この所定の意味空間に、画像310とテキスト320とからなる異種サンプルペアとの間のグローバル特徴の類似度を決定する。そして、モデル集積によって、グローバル特徴の類似度の予め設定された重み値と、ローカル特徴の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、異種サンプルペアのマッチング度を決定する。
理解を容易にするために、本願の実施例は、画像テキストマッチングモデルのトレーニング方法を提供し、以下の内容によって説明を行う。
1)所定の意味空間へのマッピングについて
いくつかの実施例において、画像とテキストとの間のグローバル表現の類似度およびローカル表現の類似度を正確に得るために、本願の実施例では、
画像サンプルとテキストサンプルのそれぞれのグローバル表現を所定の意味空間にマッピングすることは、具体的に、
画像サンプルとテキストサンプルのそれぞれのグローバル表現を、少なくとも2層の全結合層を介して、所定の意味空間にマッピングすること、を含む。
画像サンプルとテキストサンプルのそれぞれのローカル表現を所定の意味空間にマッピングすることは、具体的に、
画像サンプルとテキストサンプルのそれぞれのローカル表現を、少なくとも2層の全結合層を介して、所定の意味空間にマッピングすること、を含む。
ここで、全結合層は、畳み込みニューラルネットワークの基本的な構造の1層であり、全結合層の各ノードは、前の層のすべてのノードに接続され、前に抽出された特徴を統合するために使用されるものであり、ここで、全結合層は、画像およびテキストのグローバル特徴とローカル特徴を所定の意味空間にマッピングするために使用されるものであり、ここで、全結合動作は、全結合層を介して所定の意味空間にマッピングするということを実行するための動作を意味する。全結合層のパラメータは、予め設定されたターゲット関数のトレーニングによって得られたものであり、この予め設定されたターゲット関数は、意味関連の異種サンプルペア(画像テキストペア)の類似度が非意味関連の異種サンプルペアよりも高くなる、ということを実現するために使用されるものであり、または、意味関連の異種サンプルペアの類似度が非意味関連の異種サンプル対の類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを実現するために使用されるものである。
本願の実施例において、テキストおよび画像のグローバル表現およびローカル表現を同じ意味空間にマッピングするために、テキストと画像のそれぞれのグローバル表現およびローカル表現を複数の全結合層によって正確に解析する。また、全結合層のパラメータは、予め設定されたターゲット関数に基づいて決定されたものである。予め設定されたターゲット関数によって、下記のことを実現することができ、即ち、実際の状況に応じて、異種サンプルペアの類似度(この類似度は、グローバル表現の類似度またはローカル表現の類似度である)を正確に決定することができる。
また、複数の全結合層を介して、テキストおよび画像の記述に対して複数層の非線形変換を行うことができ、さらに、画像とテキストとの間の直接的なマッピング関係を見出すことができる。
予め設定されたターゲット関数は、意味関連の異種サンプルペアの類似度が非意味関連の異種サンプルペアの類似度より高くなる、ということを実現するために使用されるものであれば、この予め設定されたターゲット関数は、数式(1)に示すようになる。
Figure 0006887026

ここで、L(In +,Sn +,In -,Sn -)は、予め設定されたターゲット関数を表し、In +およびIn -は、テキストサンプルを表し、Sn +およびSn -は、画像サンプルを表し、グローバル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル表現の類似度を表し、ローカル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル表現の類似度を表し、λおよびλは、いずれも予め設定された係数を表し、d(In +,Sn +)は、意味関連の異種サンプルペアの類似度を表し、d(In +,Sn -)およびd(In -,Sn +)は、いずれも非意味関連の異種サンプルペアの類似度を表し、u およびu は、いずれも予め設定された閾値を表す。
1つの画像が一般的に複数のサンプル意味に関連される、ということが考えられる。例えば、一枚の風景画像の中で、鳥が空の中を飛んでいて魚が水の中を泳いでいるため、対応する意味には、鳥が空の中を飛んでいて魚が水の中を泳いでいることが含まれてもよい。したがって、マッチングモデルの正確性を向上させるために、同一の画像に意味的に関連されるテキストの間の類似度を、これらのテキストと、他の画像に意味的に関連されるテキストとの間の類似度よりも高くする必要がある。予め設定されたターゲット関数は、数式(1)に示す条件を満たす上で、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを同時に要求する必要がある。この目的を達成するために、同一の画像サンプルに関連されるテキストサンプルの間の類似度が、異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなるための数式は、式(2)に示すようになる。
Figure 0006887026
ここで、L(Si,S1,Sj)は、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを要求するための予め設定されたターゲット関数を表し、Si,S1は、同一の画像サンプルに意味的に関連されるテキストサンプルを表し、Si,Sjは、異なる画像サンプルに関連されるテキストサンプルを表し、グローバル表現の類似度を決定する場合、d()は、テキストサンプルの間のグローバル表現の類似度を表し、ローカル表現の類似度を決定する場合、d()は、テキストサンプルの間のローカル表現の類似度を表し、uは、予め設定された閾値を表す。
もちろん、具体的に実施する場合、数式(1)と数式(2)を統合して、数式(3)または数式(4)に示す形式の予め設定されたターゲット関数を得ることができ、得られた予め設定されたターゲット関数は、上記の数式(1)と数式(2)に示す要求を満たすことができる。
Figure 0006887026
Figure 0006887026
説明すべきものとして、具体的に実施する場合、予め設定されたターゲット関数の要求に応じて、具体的な数学的表現方式を設計することができ、本願の実施例は、これを限定しない。
予め設定されたターゲット関数の役割に基づいて、図4に示すような深度マッチングモデルをトレーニングすることができる。この深度マッチングモデルは、画像とテキストとの間のマッチング度を決定するために使用されるものである。図4において、左側に画像の特徴ベクトルを入力し(image embedding)(この特徴ベクトルは、グローバル特徴またはローカル特徴の特徴ベクトルである)、右側にテキストの特徴ベクトル(この特徴ベクトルは、グローバル特徴またはローカル特徴の特徴ベクトルである)を入力する(sentence embeding)。画像およびテキストの特徴ベクトルが同一の所定の意味空間にマッピングされた後、特徴ベクトルの間の距離を計算する。例えば、図4において、S1 1、S1 2、S1 3、S1 4、Smは、テキストの特徴ベクトルを表し、I1およびInは、画像の特徴ベクトルを表す。この所定の意味空間では、画像とテキストの間の距離を計算する。採用された特徴ベクトルがグローバル特徴を表すための特徴ベクトルであれば、計算の結果は、グローバル特徴間の類似度であり、採用された特徴ベクトルがローカル特徴を表すための特徴ベクトルであれば、計算の結果は、ローカル特徴間の類似度である。
2)画像サンプルのグローバル表現(グローバル特徴)およびローカル表現(ローカル特徴)の抽出について、
本願の実施例において、画像のグローバル特徴を抽出することについては限定されていない。例えば、画像の畳み込みニューラルネットワークの全結合層の特徴を用いて画像のグローバル表現を表し、前述のCNNのように、ここでのCNNについては、VGG(例えば、Very Deep Covolutional Networks for Large−SIcale Image Recognition、大規模画像認識の深度畳み込みネットワーク)、ResNet(Redsual Networks、残差ネットワーク)、Inception、Inception V3、Inception V4などを選択できるが、これらに限定されていない。もちろん、FCN(Fully Convolutional Networks for Semantic Segmentation、全畳み込みネットワーク)などのネットワークモデルを用いて画像のグローバル表現を抽出することもできる。
ここで、本願の実施例によって提供される、画像サンプルのローカル表現を抽出することは説明され、具体的には、以下のように実行可能であり、即ち、
画像サンプルを所定数の画像ブロックに分割し、各画像ブロックに対して、この画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算し、
所定数の画像ブロックにおける各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル特徴を構成する。
例えば、図5に示すように、図5におけるImage CNNは、画像CNNを用いて画像ブロックの特徴を抽出する、ということを表す。本願の焦点は、特定の一枚の画像に対してブロックが分割された後、各画像ブロックの特徴を抽出する、ということにある。画像情報のカテゴリは5つあり、それぞれ、人、芝生、空、犬、猫であると仮定する。抽出された画像ブロックが4つあると仮定すると、画像ブロック毎に対して、該画像ブロックに上記5つのカテゴリの画像情報が含まれる確率を計算する。そして、各カテゴリに対して、4つの画像ブロックの当該カテゴリの確率から最大確率を選択する。各カテゴリの最大確率で画像サンプルのグローバル表現を構成する。
もちろん、具体的に実施する場合、カテゴリ毎に対して、当該カテゴリの最大確率と対応する確率閾値とを比較して、サンプル画像において当該カテゴリの画像情報を含む画像ブロックが少なくとも1つあるかどうかを判断するようにしてもよい。例えば、人というカテゴリについて、4つの画像ブロックの中で最大確率は0.99であり、対応する確率閾値は0.8である場合、4つの画像ブロックにおいて人を含む画像ブロックが少なくとも1つある、ということが表明される。
3)、テキストサンプルのグローバル表現(グローバル特徴)およびローカル表現(ローカル特徴)の抽出について、
本願の実施例において、テキストサンプルのグローバル表現をより良く抽出するために、以下のステップ、即ち、
テキストサンプルに対して単語分割を行うステップと、
各単語セグメントに対して、この単語セグメントのベクトルを決定するステップであって、ここで、異なる単語セグメントのベクトルの長さは同じであるステップと、
同一のテキストサンプルの単語セグメントのベクトルを、テキストのグローバル特徴を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル特徴を得るステップであって、ここで、テキストサンプルのグローバル特徴を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、その前の畳み込み層によって抽出された少なくとも2つの単語セグメントのベクトルの特徴が含まれるステップと、が含まれる。
例えば、具体的に実施する場合、畳み込み層の畳み動作を以下の数式(5)で示してもよい。
Figure 0006887026
ここで、
Figure 0006887026
数式(5)では、rは、指定された大きさの視野領域を表し、l−1は、第l−1層の畳み込み層(すなわち、前の畳み込み層)を表し、lは、第l層の畳み込み層(すなわち、現在の畳み込み層)を表し、Wl,fは、積行列を表し、fは、f番目の特徴を表し、iは、i番目の位置情報を表し、V(l,f) iは、第l層の畳み込み層によって抽出された、i位置に対応するf特徴を表す。
ここで、プーリング層の動作を以下の式(6)で示されてもよい。
Figure 0006887026
ここで、V(l+1,f) iは、プーリング層の出力を表し、l+1は、プーリング層を表し、V(l,f) Mxiは、第l層によって抽出されたM×i番目の特徴を表し、Mは、プーリング動作の大きさを制御するための定数を表す。
例えば、図6に示すように、入力されたテキストは、「a young child run through a large field of grass」であり、テキスト畳み込みニューラルネットワーク(即ち、図におけるSentence CNN)によって、テキストのグローバル表現を抽出する。具体的には、このSentence CNNには、テキストの特徴を抽出するための複数の畳み込み層convolutionが含まれている。その後、最大プーリング層(max−pooling)によって、畳み込み層によって抽出された特徴の統合および次元削減を行い、これによって、テキストのグローバル表現が得られる。
このように、本願の実施例において、複数の畳み込み層によってテキストサンプルの特徴の抽出を実現し、その後、池化層によって不要な特徴情報をフィルタリングする。なお、複数の畳み込み層を用いて畳み込み動作を行う場合、指定された大きさの視野領域が用いられ、この視野領域には複数の単語セグメントの特徴が含まれるため、テキストサンプルのグローバル表現に、隣接する単語セグメント間の組織及び相互作用情報を学習したことが実現されたということに相当し、これによって、最終的に抽出されたグローバル表現は、より合理的で正確になる。
具体的実施する場合、word2vecというツールを用いて、各単語セグメントを1つの固定長のベクトルで表すことができる。
また、テキストのグローバル表現を抽出するためのニューラルネットワークは、畳み込みニューラルネットワークであってもよく、RNN(Recurrent Neural Networks、リカレントニューラルネットワーク)であってもよい。
テキストサンプルのローカル表現は、様々な方法で抽出されてもよく、単語セグメントごとにさらに集中することができ、例えば、伝統的なTF−IDF(term frequency−inverse document frequency)表現が採用され、あるいは、Fisher Vtoctecが単語セグメントごとのベクトルまたは単語セグメントのベクトルの平均値に作用される。このような表現は、単語セグメントと単語セグメントの間の相関性を全体的に考慮することではなく、単語セグメントのそのものにより集中し、そのため、テキストのローカル表現と考えられてもよい。
以下、本願の実施例における上記マッチングモデルに基づく画像テキスト双方向検索方法について説明する。
本願の実施例によって提供される画像テキストマッチングモデルのトレーニング方法の具体的な実施例のフローチャートである図7に示すように、該方法は、以下のステップを含む。
ステップ701で、グローバル画像表現CNNに基づいて、画像サンプルのグローバル表現を抽出する。
ステップ702で、画像サンプルを所定数の画像ブロックに分割し、ローカル画像CNNに基づき各画像ブロックに対して、その画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算し、かつ、所定数の画像ブロックから各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル表現を構成する。
ステップ703で、テキストサンプルに対して単語分割を行い、各単語セグメントに対して、この単語セグメントのベクトルを決定し、ここで、異なる単語セグメントのベクトルの長さは同じであり、同一のテキストサンプルの単語セグメントのベクトルを、あらかじめ構築された、テキストのグローバル表現を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル表現を得、ここで、テキストサンプルのグローバル表現を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、その前の畳み込み層によって抽出された少なくとも2つの単語セグメントのベクトルの特徴が含まれる。
ステップ704で、テキストサンプルのローカル表現を抽出する。
ここで、ステップ701〜ステップ704の実行順序は限定されていない。
ステップ705で、画像サンプルとテキストサンプルのそれぞれのグローバル表現を、少なくとも2層の全結合層を介して所定の意味空間にマッピングし、画像サンプルとテキストサンプルとからなる異種サンプルペア(画像テキストペア)の間のグローバル表現の類似度を計算し、ここで、全結合層のパラメータは、予め設定されたターゲット関数に従ってトレーニングされて得られたものである。
ステップ706で、画像サンプルとテキストサンプルのそれぞれのローカル表現を、少なくとも2層の全結合層を介して所定の意味空間にマッピングし、異種サンプルペア(画像サンプルペア)の間のローカル表現の類似度を計算し、ここで、全結合層のパラメータは、予め設定されたターゲット関数に従ってトレーニングされて得られたものである。
ここで、ステップ705およびステップ706の実行順序は限定されていない。
なお、予め設定されたターゲット関数は、上記の実施例において説明されたが、ここでは説明されていない。
ステップ707で、グローバル表現の類似度の予め設定された重み値と、ローカル表現の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、異種サンプルペアのマッチング度を決定する。
本願の実施例において、画像ブロックによって、画像のローカル表現を抽出し、複数の畳み込み層とプーリング層によって、テキストのグローバル表現を抽出することで、テキストの単語セグメントの間の関連関係を得ることができ、これにより、抽出された特徴は、より正確で全面的になる。そして、予め設定されたターゲット関数によって、意味関連の異種サンプルペアの類似度が、非意味関連の異種サンプルペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が、異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなるようにさせ、これによって、最終的な類似度の計算をより実際のニーズに合致させ、画像とテキストのマッチングの正確度を向上させる。
上記の実施例におけるマッチングモデルに基づく画像テキスト双方向検索方法のフローチャートである図8に示すように、前記方法は、サーバ12であってもよいコンピュータによって実施され、以下のステップを含む。
ステップ801で、テキストまたは画像である参照サンプルを受信する。
ステップ802で、前記参照サンプルのグローバル特徴およびローカル特徴を抽出する。
ステップ803で、前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させ、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである。
ここで、素材ライブラリを作成することで、参照サンプルと素材ライブラリにおける各素材との間のマッチング度を計算することができる。マッチング度を具体的に計算する方法は、上記の実施例において説明されたが、ここでは説明されていない。
ステップ804で、マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択する。
本願の実施例は、グローバル表現およびローカル表現のマッチングモデルに基づいて、参照サンプルの対応する素材を検索することを実現し、これにより、最終的に得られたマッチング結果は、より正確になる。例えば、テキストにマッチングされる画像を検索したり、画像にマッチングされるテキストを検索したりする。
上述の実施例と同様な発明概念に基づいて、本願の実施例は、また、画像テキストマッチングモデルのトレーニング装置を提供し、この装置の原理および有益効果は、上記の方法の実施例で説明された内容と類似しており、ここでは説明されていない。
この装置の構成概略図である図9に示すように、前記装置は
画像サンプルのグローバル特徴およびローカル特徴を抽出するための画像特徴抽出モジュール901と、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するためのテキスト特徴抽出モジュール902と、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するトレーニングモジュール903であって、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである、トレーニングモジュール903と、を備える。
いくつかの実施例において、前記マッチングモデルによって、前記画像と前記テキストのそれぞれのグローバル特徴を所定の意味空間にマッピングして、前記画像と前記テキストとの間のグローバル特徴の類似度を計算し、および、前記画像と前記テキストのそれぞれのローカル特徴を前記所定の意味空間にマッピングして、前記画像と前記テキストとの間のローカル特徴の類似度を計算し、かつ、グローバル特徴の類似度の予め設定された重み値と、ローカル特徴の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、前記画像と前記テキストとの間の前記マッチング度を決定する。
いくつかの実施例において、前記マッチングモデルには、少なくとも2層の全結合層が含まれ、前記マッチングモデルのモデルパラメータには、前記少なくとも2層の全結合層のパラメータが含まれる。
トレーニングモジュール903は、具体的に、
前記画像サンプルと前記テキストサンプルのそれぞれのグローバル特徴を、前記少なくとも2層の全結合層を介して、所定の意味空間にマッピングするグローバルトレーニングユニット9031と、
前記画像サンプルと前記テキストサンプルのそれぞれのローカル特徴を、前記少なくとも2層の全結合層を介して、前記所定の意味空間にマッピングするローカルトレーニングユニット9032と、を備え、
マッピングの結果および予め設定されたターゲット関数に基づいて、少なくとも2層の全結合層のパラメータを決定し、ここで、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなるということを実現するために使用されるものであり、または、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを実現するために使用されるものである。
いくつかの実施例において、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなる、ということを実現するために使用されるものである。
ここで、前記マッピングの結果には、前記少なくとも2層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とが含まれる。
前記トレーニングモジュール903は、
前記少なくとも2層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを決定し、
前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを、前記予め設定されたターゲット関数に入力して、前記少なくとも2層の全結合層のパラメータを決定する。
予め設定されたターゲット関数は、意味関連の異種サンプルペアの類似度が非意味関連の異種サンプルペアの類似度よりも高くなる、ということを実現するために使用されるものであれば、この予め設定されたターゲット関数は、次式の通りである。
Figure 0006887026
ここで、L(In +,Sn +,In -,Sn -)は、予め設定されたターゲット関数を表し、In +、In -は、テキストサンプルを表し、Sn +、Sn -は、画像サンプルを表し、グローバル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル表現の類似度を表し、ローカル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル表現の類似度を表し、λおよびλは、いずれも予め設定された係数を表し、d(In +,Sn +)は、意味関連の異種サンプルペアの類似度を表し、d(In +,Sn -)およびd(In -,Sn +)は、いずれも非意味関連の異種サンプルペアの類似度を表し、u およびu は、いずれも予め設定された閾値を表す。
いくつかの実施例において、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを実現するために使用されるものであり、
ここで、前記マッピングの結果には、少なくとも2層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、少なくとも2層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とが含まれ、
前記トレーニングモジュール903は、
前記少なくとも2層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、および前記少なくとも2層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも2層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを決定し、
前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも2層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを、前記予め設定されたターゲット関数に入力し、前記少なくとも2層の全結合層のパラメータを決定する。
いくつかの実施例において、前記予め設定されたターゲット関数は、以下の1つによって決定され、即ち、次の通りである。
Figure 0006887026
ここで、
Figure 0006887026
ここで、LYは、予め設定されたターゲット関数であり、L(In +,Sn +,In -,Sn -)は、意味関連の画像テキストペアの類似度と非意味関連の画像テキストペアの類似度との間の関係を表し、L(Si,Sl,Sj)は、同一の画像サンプルに関連されるテキストサンプルの間の類似度と、異なる画像サンプルに関連されるテキストサンプルの間の類似度との間の関係を表し、In +、In -は、テキストサンプルを表し、Sn +、Sn -は、画像サンプルを表し、グローバル特徴の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル特徴の類似度を表し、ローカル特徴の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル特徴の類似度を表し、λおよびλは、いずれも予め設定された係数を表し、d(In +,Sn +)は、意味関連の異種サンプルペア(画像テキストペア)の類似度を表し、d(In +,Sn -)およびd(In -,Sn +)は、いずれも非意味関連の異種サンプルペア(画像テキストペア)の類似度を表し、uおよびuは、いずれも予め設定された閾値を表し、
ここで、
Figure 0006887026
Si,Slは、同一の画像サンプルに意味的に関連されるテキストサンプルを表し、Si,Sjは、異なる画像サンプルに関連されるテキストサンプルを表し、グローバル特徴の類似度を決定する場合、d()は、テキストサンプルの間のグローバル特徴の類似度を表し、ローカル特徴の類似度を決定する場合、d()は、テキストサンプルの間のローカル特徴の類似度を表し、uは、予め設定された閾値を表す。
いくつかの実施例において、画像特徴抽出モジュールは、具体的に、画像サンプルを所定数の画像ブロックに分割し、各画像ブロックに対して、この画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算し、かつ、
所定数の画像ブロックにおける各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル特徴を構成する。
いくつかの実施形例において、テキスト特徴抽出モジュールは、具体的に、テキストサンプルの単語分割を行い、
各単語セグメントに対して、この単語セグメントのベクトルを決定し、ここで、異なる単語セグメントのベクトルの長さは同じであり、
同一のテキストサンプルの単語セグメントのベクトルを、テキストのグローバル特徴を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル特徴を得、ここで、テキストサンプルのグローバル特徴を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、該前の畳み込み層によって抽出された少なくとも2つの単語セグメントのベクトルの特徴が含まれる。
上述の実施例と同様な発明概念に基づいて、本願の実施例は、また、画像テキスト双方向検索装置を提供し、この装置の原理および有益効果は、上記の方法の実施例で説明された内容と類似しており、ここでは説明されていない。
この装置の構成概略図である図10に示すように、前記装置は、
テキストまたは画像である参照サンプルを受信するための参照サンプル受信モジュール1001と、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するための参照サンプル特徴抽出モジュール1002と、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させる検索モジュール1003であって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである検索モジュール1003と、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択する選択モジュール1004と、を備える。
本願の実施例は、また、コンピューティングデバイスを提供し、該コンピューティングデバイスは、具体的に、デスクトップコンピュータ、携帯型コンピュータ、スマートフォン、タブレットコンピュータ、パーソナルデジタルアシスタント(Personal Digital Asistant、PDA)などであってもよい。図11に示すように、このコンピューティングデバイスには、中央プロセッサ(Center Processing Unit、CPU)1101、メモリ1102、入力デバイス1103、出力デバイス1104などが含まれてもよく、入力デバイスには、キーボード、マウス、タッチスクリーンなどが含まれてもよいし、出力デバイスには、液晶ディスプレイ(Liquid Crystal Display、LCD)、陰極線管(Cathode Ray Tube、CRT)などのような表示デバイスが含まれてもよい。
メモリは、リードオンリーメモリ(ROM)およびランダムアクセスメモリ(RAM)を含み、メモリに記憶されているプログラム命令およびデータをプロセッサに提供することができる。本願の実施例において、メモリは、画像テキストマッチングモデルのトレーニング方法および/または画像テキスト双方向検索方法のプログラム命令を記憶するために使用されてもよい。プロセッサは、メモリに記憶されているプログラム命令を呼び出すことにより、取得されたプログラム命令に従って、以下のことを実行し、即ち、画像サンプルのグローバル特徴およびローカル特徴を抽出し、かつ、テキストサンプルのグローバル特徴およびローカル特徴を抽出し、抽出された画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定し、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定する。
または、プロセッサは、メモリに記憶されているプログラム命令を呼び出すことにより、取得されたプログラム命令に従って、以下のことを実行し、即ち、テキストまたは画像である参照サンプルを受信し、前記参照サンプルのグローバル特徴およびローカル特徴を抽出し、前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照モデルと、対応する素材との間のマッチング度を計算させ、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定し、マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択する。
本願は、また、上記のコンピューティングデバイスによって使用されるコンピュータプログラム命令を記憶するためのコンピュータ記憶媒体を提供し、該コンピュータ記憶媒体は、上記画像テキストマッチングモデルのトレーニング方法および/または画像テキスト双方向検索方法を実行するためのプログラムを含む。
前記コンピュータ記憶媒体は、コンピュータがアクセスできる任意の利用可能な媒体またはデータ記憶装置であってもよいし、磁気メモリ(例えば、フロッピーディスク、ハードディスク、磁気ディスク、光磁気ディスク(MO)など)、光学メモリ(例えば、CD、DVD、BD、HVDなど)、および半導体メモリ(例えばROM、EPROM、EEPROM、不揮発性メモリ(NAND FLASH)、ソリッドステートドライブ(SSD))などを含むが、これらに限定されていない。
最後に説明すべきものとして、以上の実施例は、本願の技術的解決案を説明するためにのみ使用されるものであり、それらに限定されるものではない。本願が前述の実施例を参照しながら詳細に説明されたが、当業者は、下記のことを理解すべきであり、即ち、上記の各実施例に記載された技術的解決案が依然として修正されたり、一部の技術的特徴が均等に置換されたりすることができ、これらの修正または置換が、相応な技術的解決案の本質を本願の各実施例の技術的解決案の精神および範囲から逸脱させない。

Claims (16)

  1. コンピュータによって実施される画像テキストマッチングモデルのトレーニング方法であって、
    画像サンプルのグローバル特徴およびローカル特徴を抽出するステップと、
    テキストサンプルのグローバル特徴およびローカル特徴を抽出するステップと、
    抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するステップであって、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである、ステップと、
    を含む画像テキストマッチングモデルのトレーニング方法。
  2. 前記マッチングモデルによって前記画像と前記テキストのそれぞれのグローバル特徴を所定の意味空間にマッピングして、前記画像と前記テキストとの間のグローバル特徴の類似度を計算し、および、前記画像と前記テキストのそれぞれのローカル特徴を前記所定の意味空間にマッピングして、前記画像と前記テキストとの間のローカル特徴の類似度を計算し、かつ、グローバル特徴の類似度の予め設定された重み値と、ローカル特徴の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、前記画像と前記テキストとの間の前記マッチング度を決定するステップ、をさらに含む請求項1に記載の方法。
  3. 前記マッチングモデルには、少なくとも2層の全結合層が含まれ、前記マッチングモデルのモデルパラメータには、前記少なくとも2層の全結合層のパラメータが含まれ、
    ここで、前記抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するステップは、
    前記画像サンプルと前記テキストサンプルのそれぞれのグローバル表現を、前記少なくとも2層の全結合層を介して、所定の意味空間にマッピングし、前記画像サンプルと前記テキストサンプルのそれぞれのローカル表現を、前記少なくとも2層の全結合層を介して、所定の意味空間にマッピングするステップと、
    マッピングの結果および予め設定されたターゲット関数に基づいて、前記少なくとも2層の全結合層のパラメータを決定するステップであって、ここで、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなることを実現するために使用されるものであり、あるいは、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなることを実現するために使用されるものである、ステップと、を含む、
    請求項1に記載の方法。
  4. 前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなることを実現するために使用されるものであり、
    ここで、前記マッピングの結果には、前記少なくとも2層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とが含まれ、
    前記マッピングの結果および予め設定されたターゲット関数に基づいて、前記少なくとも2層の全結合層のパラメータを決定するステップは、
    前記少なくとも2層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを決定するステップと、
    前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを、前記予め設定されたターゲット関数に入力して、前記少なくとも2層の全結合層のパラメータを決定するステップと、を含む、
    請求項3に記載の方法。
  5. 前記予め設定されたターゲット関数は、次式であり、
    Figure 0006887026
    ここで、L(In +,Sn +,In -,Sn -)は、予め設定されたターゲット関数を表し、In +、In -は、テキストサンプルを表し、Sn +、Sn -は、画像サンプルを表し、グローバル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル表現の類似度を表し、ローカル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル表現の類似度を表し、λおよびλは、いずれも予め設定された係数を表し、d(In +,Sn +)は、意味関連の画像テキストペアの類似度を表し、d(In +,Sn -)およびd(In -,Sn +)は、いずれも非意味関連の画像テキストペアの類似度を表し、u およびu は、いずれも予め設定された閾値を表す、
    請求項4に記載の方法。
  6. 前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなることを実現するために使用されるものであり、
    ここで、前記マッピングの結果には、前記少なくとも2層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とが含まれ、
    前記マッピングの結果および予め設定されたターゲット関数に基づいて、前記少なくとも2層の全結合層のパラメータを決定することは、
    前記少なくとも2層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも2層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを決定することと、
    前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも2層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを、前記予め設定されたターゲット関数に入力し、前記少なくとも2層の全結合層のパラメータを決定することと、を含む、
    請求項3に記載の方法。
  7. 前記予め設定されたターゲット関数は、以下の1つによって決定され、
    Figure 0006887026
    ここで、
    Figure 0006887026
    ここで、LYは、予め設定されたターゲット関数であり、L(In +,Sn +,In -,Sn -)は、意味関連の画像テキストペアの類似度と非意味関連の画像テキストペアの類似度との間の関係を表し、L(Si,S1,Sj)は、同一の画像サンプルに関連されるテキストサンプルの間の類似度と、異なる画像サンプルに関連されるテキストサンプルの間の類似度との間の関係を表し、In +、In -は、テキストサンプルを表し、Sn +、Sn -は、画像サンプルを表し、グローバル特徴の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル特徴の類似度を表し、ローカル特徴の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル特徴の類似度を表し、λおよびλは、いずれも予め設定された係数を表し、d(In +,Sn +)は、意味関連の画像テキストペアの類似度を表し、d(In +,Sn -)およびd(In -,Sn +)は、いずれも非意味関連の画像テキストペアの類似度を表し、uおよびuは、いずれも予め設定された閾値を表し、
    ここで、
    Figure 0006887026
    Si,S1は、同一の画像サンプルに意味的に関連されるテキストサンプルを表し、Si,Sjは、異なる画像サンプルに関連されるテキストサンプルを表し、グローバル特徴の類似度を決定する場合、d()は、テキストサンプルの間のグローバル特徴の類似度を表し、ローカル特徴の類似度を決定する場合、d()は、テキストサンプルの間のローカル特徴の類似度を表し、uは、予め設定された閾値を表す、
    請求項6に記載の方法。
  8. 画像サンプルのローカル特徴を抽出するステップは、
    画像サンプルを所定数の画像ブロックに分割し、各画像ブロックに対して、この画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算するステップと、
    所定数の画像ブロックにおける各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル特徴を構成するステップと、を含む、
    請求項1に記載の方法。
  9. テキストサンプルのグローバル表現を抽出するステップは、
    テキストサンプルに単語分割を行うステップと、
    各単語セグメントに対して、この単語セグメントのベクトルを決定するステップであって、ここで、異なる単語セグメントのベクトルの長さは同じである、ステップと、
    同一のテキストサンプルの単語セグメントのベクトルを、テキストのグローバル特徴を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル特徴を得るステップであって、ここで、テキストサンプルのグローバル特徴を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、その前の畳み込み層によって抽出された少なくとも2つの単語セグメントのベクトルの特徴が含まれるステップと、を含む、
    請求項1に記載の方法。
  10. コンピュータによって実施される画像テキスト双方向検索方法であって、
    テキストまたは画像である参照サンプルを受信するステップと、
    前記参照サンプルのグローバル特徴およびローカル特徴を抽出するステップと、
    前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させるステップであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものであるステップと、
    マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択するステップと、
    を含む画像テキスト双方向検索方法。
  11. 画像テキストマッチングモデルのトレーニング装置であって、
    画像サンプルのグローバル特徴およびローカル特徴を抽出するための画像特徴抽出モジュールと、
    テキストサンプルのグローバル特徴およびローカル特徴を抽出するためのテキスト特徴抽出モジュールと、
    抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するためのトレーニングモジュールであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものであるトレーニングモジュールと、
    を含む画像テキストマッチングモデルのトレーニング装置。
  12. 画像テキスト双方向検索装置であって、
    テキストまたは画像である参照サンプルを受信するための参照サンプル受信モジュールと、
    前記参照サンプルのグローバル特徴およびローカル特徴を抽出するための参照サンプル特徴抽出モジュールと、
    前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させるための検索モジュールであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである検索モジュールと、
    マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択するための選択モジュールと、
    を含む画像テキスト双方向検索装置。
  13. コンピューティングデバイスであって、
    プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って、請求項1〜9のいずれか1項に記載の画像テキストマッチングモデルのトレーニング方法を実行するためのプロセッサと、
    を含むコンピューティングデバイス。
  14. コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体であって、
    前記コンピュータ実行可能な命令は、請求項1〜9のいずれか1項に記載の画像テキストマッチングモデルのトレーニング方法を前記コンピュータに実行させる、
    コンピュータ記憶媒体。
  15. コンピューティングデバイスであって、
    プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って、請求項10に記載の画像テキスト双方向検索方法を実行するためのプロセッサと、
    を含むコンピューティングデバイス。
  16. コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体であって、
    前記コンピュータ実行可能な命令は、請求項10に記載の画像テキスト双方向検索方法を前記コンピュータに実行させる、
    コンピュータ記憶媒体。
JP2019564942A 2017-09-12 2018-09-07 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置 Active JP6887026B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710817344.5 2017-09-12
CN201710817344.5A CN108288067B (zh) 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置
PCT/CN2018/104565 WO2019052403A1 (zh) 2017-09-12 2018-09-07 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Publications (2)

Publication Number Publication Date
JP2020522791A JP2020522791A (ja) 2020-07-30
JP6887026B2 true JP6887026B2 (ja) 2021-06-16

Family

ID=62831544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019564942A Active JP6887026B2 (ja) 2017-09-12 2018-09-07 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置

Country Status (6)

Country Link
US (2) US11087166B2 (ja)
EP (1) EP3683724A4 (ja)
JP (1) JP6887026B2 (ja)
KR (1) KR102235051B1 (ja)
CN (2) CN110532571B (ja)
WO (1) WO2019052403A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
CN110532571B (zh) 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
US11216512B2 (en) * 2018-10-08 2022-01-04 Fujitsu Limited Accessible machine learning backends
CN110147806B (zh) * 2018-10-08 2023-04-07 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
CN109858555B (zh) * 2019-02-12 2022-05-17 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
CN109933802B (zh) * 2019-03-25 2023-05-26 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110111885B (zh) * 2019-05-09 2023-09-19 腾讯科技(深圳)有限公司 属性预测方法、装置、计算机设备及计算机可读存储介质
CN110209859B (zh) * 2019-05-10 2022-12-27 腾讯科技(深圳)有限公司 地点识别及其模型训练的方法和装置以及电子设备
CN110134965B (zh) * 2019-05-21 2023-08-18 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110516085B (zh) 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN110598739B (zh) * 2019-08-07 2023-06-23 广州视源电子科技股份有限公司 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质
CN110532414B (zh) * 2019-08-29 2022-06-21 深圳市商汤科技有限公司 一种图片检索方法及装置
CN112528624B (zh) * 2019-09-03 2024-05-14 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN112529986B (zh) * 2019-09-19 2023-09-22 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
CN112580658B (zh) * 2019-09-29 2024-03-12 中国移动通信集团辽宁有限公司 图像语义描述方法、装置、计算设备及计算机存储介质
WO2021098585A1 (en) * 2019-11-22 2021-05-27 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image search based on combined local and global information
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
CN110991533B (zh) * 2019-12-03 2023-08-04 Oppo广东移动通信有限公司 图像识别方法、识别装置、终端设备及可读存储介质
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
CN111309950A (zh) * 2020-01-18 2020-06-19 青柠知享科技(深圳)有限公司 电商交易信息交互方法、电商平台和可读存储介质
CN111309951A (zh) * 2020-01-23 2020-06-19 北京达佳互联信息技术有限公司 广告语获取方法及其装置、存储介质
CN111626058B (zh) * 2020-04-15 2023-05-30 井冈山大学 基于cr2神经网络的图像-文本双编码实现方法及系统
CN113535829B (zh) * 2020-04-17 2022-04-29 阿里巴巴集团控股有限公司 排序模型的训练方法、装置、电子设备及存储介质
CN111666969B (zh) * 2020-04-22 2021-11-23 北京百度网讯科技有限公司 计算图文相似度的方法、装置、电子设备和可读存储介质
CN111522986B (zh) * 2020-04-23 2023-10-10 北京百度网讯科技有限公司 图像检索方法、装置、设备和介质
CN111581418B (zh) * 2020-04-29 2023-04-28 山东科技大学 一种基于图像关联人物信息的目标人员搜索方法
CN111666753B (zh) * 2020-05-11 2023-04-18 清华大学深圳国际研究生院 基于全局和局部匹配的短文本匹配方法及系统
CN111639484A (zh) * 2020-05-15 2020-09-08 北京青牛技术股份有限公司 坐席通话内容的分析方法
CN111782808A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 文档处理方法、装置、设备及计算机可读存储介质
CN112000803B (zh) * 2020-07-28 2024-05-14 北京小米松果电子有限公司 文本分类方法及装置、电子设备及计算机可读存储介质
CN112052352B (zh) * 2020-09-07 2024-04-30 北京达佳互联信息技术有限公司 视频排序方法、装置、服务器及存储介质
CN112347791B (zh) * 2020-11-06 2023-10-13 北京奇艺世纪科技有限公司 文本匹配模型的构建方法、系统、计算机设备及存储介质
CN112650867A (zh) * 2020-12-25 2021-04-13 北京中科闻歌科技股份有限公司 图片匹配方法、装置、电子设备以及存储介质
KR102311644B1 (ko) * 2021-01-29 2021-10-12 한국과학기술정보연구원 데이터분석장치 및 그 동작 방법
CN113392254A (zh) * 2021-03-29 2021-09-14 西安理工大学 一种基于上下文感知注意的图像文本检索方法
CN113221680B (zh) * 2021-04-26 2024-05-28 西北工业大学 基于文本动态引导视觉特征提炼的文本行人检索方法
CN113283497A (zh) * 2021-05-21 2021-08-20 广东博智林机器人有限公司 文本的匹配方法、装置、存储介质和处理器
CN113255667B (zh) * 2021-06-16 2021-10-08 北京世纪好未来教育科技有限公司 文本图像相似度评估方法、装置、电子设备及存储介质
CN113343664B (zh) * 2021-06-29 2023-08-08 京东科技信息技术有限公司 图像文本之间的匹配度的确定方法及装置
CN113283551B (zh) * 2021-07-22 2021-10-29 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备
CN113987115A (zh) * 2021-09-26 2022-01-28 润联智慧科技(西安)有限公司 一种文本相似度计算方法、装置、设备及存储介质
CN115909374A (zh) * 2021-09-30 2023-04-04 腾讯科技(深圳)有限公司 一种信息识别方法、装置、设备及存储介质、程序产品
CN113947700A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 模型确定方法、装置、电子设备和存储器
CN113742556B (zh) * 2021-11-03 2022-02-08 南京理工大学 一种基于全局和局部对齐的多模态特征对齐方法
CN114154512A (zh) * 2021-12-09 2022-03-08 京东科技信息技术有限公司 小样本学习处理方法、装置、设备及存储介质
US20230196732A1 (en) * 2021-12-20 2023-06-22 Kla Corporation Machine learning using a global texture characteristic for semiconductor-based applications
CN114549874B (zh) * 2022-03-02 2024-03-08 北京百度网讯科技有限公司 多目标图文匹配模型的训练方法、图文检索方法及装置
CN114782722B (zh) * 2022-04-29 2023-02-03 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备
CN114998607B (zh) * 2022-05-11 2023-01-31 北京医准智能科技有限公司 超声图像的特征提取方法、装置、电子设备及存储介质
CN114972910B (zh) * 2022-05-20 2023-05-23 北京百度网讯科技有限公司 图文识别模型的训练方法、装置、电子设备及存储介质
CN114896429B (zh) * 2022-07-12 2022-12-27 苏州浪潮智能科技有限公司 一种图文互检方法、系统、设备及计算机可读存储介质
JP7366204B1 (ja) 2022-07-21 2023-10-20 株式会社エクサウィザーズ 情報処理方法、コンピュータプログラム及び情報処理装置
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN115496140B (zh) * 2022-09-19 2023-07-25 北京邮电大学 一种多模态虚假新闻检测方法及系统
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법
CN116308221B (zh) * 2023-05-25 2023-07-21 成都信通信息技术有限公司 一种基于人工智能的低碳奖章自动生成系统
CN117591901B (zh) * 2024-01-17 2024-05-03 合肥中科类脑智能技术有限公司 绝缘子破损检测方法、装置、存储介质和电子设备

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4955060A (en) * 1987-07-02 1990-09-04 Nippon Sheet Glass Co., Ltd. Image recognition apparatus
US5491758A (en) * 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
JP2011221794A (ja) * 2010-04-09 2011-11-04 Kddi Corp 画像選定装置
CN102012939B (zh) * 2010-12-13 2012-11-14 中国人民解放军国防科学技术大学 综合颜色和局部不变特征匹配的动画场景自动标注方法
US8798362B2 (en) * 2011-08-15 2014-08-05 Hewlett-Packard Development Company, L.P. Clothing search in images
US9082035B2 (en) 2011-08-29 2015-07-14 Qualcomm Incorporated Camera OCR with context information
CN102629275B (zh) * 2012-03-21 2014-04-02 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN103353875B (zh) * 2013-06-09 2016-12-28 华中科技大学 基于可视搜索的媒体交互方法及系统
CN104036277A (zh) * 2014-06-03 2014-09-10 中国科学院电子学研究所 一种提取道路特征的方法和设备
WO2016004330A1 (en) * 2014-07-03 2016-01-07 Oim Squared Inc. Interactive content generation
CN104199826B (zh) * 2014-07-24 2017-06-30 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104376105B (zh) * 2014-11-26 2017-08-25 北京航空航天大学 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN104778242B (zh) * 2015-04-09 2018-07-13 复旦大学 基于图像动态分割的手绘草图图像检索方法及系统
CN104834747B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
US9501724B1 (en) * 2015-06-09 2016-11-22 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN106547744B (zh) * 2015-09-16 2020-11-06 杭州海康威视数字技术股份有限公司 一种图像检索方法及系统
JP6370281B2 (ja) * 2015-09-18 2018-08-08 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
WO2017113232A1 (zh) * 2015-12-30 2017-07-06 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN106095829B (zh) * 2016-06-01 2019-08-06 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
US11934450B2 (en) * 2016-06-24 2024-03-19 Skusub LLC System and method for object matching using 3D imaging
CN106295631A (zh) * 2016-07-27 2017-01-04 新疆大学 一种图像维吾尔文单词识别方法及装置
CN106503055B (zh) * 2016-09-27 2019-06-04 天津大学 一种从结构化文本到图像描述的生成方法
CN107330100B (zh) * 2017-07-06 2020-04-03 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
KR102466676B1 (ko) * 2017-08-16 2022-11-14 삼성전자주식회사 생체 센서의 성능 평가 방법, 생체 영상을 이용한 인증 방법 및 인증 방법을 적용한 전자 기기
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
US10740386B2 (en) * 2017-12-29 2020-08-11 MorphoTrak, LLC Multi-stage image matching techniques
KR102455468B1 (ko) * 2018-06-22 2022-10-19 한국전자통신연구원 객체의 3차원 모델을 복원하는 방법 및 장치
US20200293874A1 (en) * 2019-03-12 2020-09-17 Microsoft Technology Licensing, Llc Matching based intent understanding with transfer learning
US10949702B2 (en) * 2019-04-16 2021-03-16 Cognizant Technology Solutions India Pvt. Ltd. System and a method for semantic level image retrieval
CN110490946B (zh) * 2019-07-15 2023-07-04 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法

Also Published As

Publication number Publication date
CN108288067B (zh) 2020-07-24
US20200019807A1 (en) 2020-01-16
CN110532571A (zh) 2019-12-03
KR20190129110A (ko) 2019-11-19
US11699298B2 (en) 2023-07-11
EP3683724A4 (en) 2021-02-17
CN110532571B (zh) 2022-11-18
US11087166B2 (en) 2021-08-10
US20210312211A1 (en) 2021-10-07
CN108288067A (zh) 2018-07-17
JP2020522791A (ja) 2020-07-30
WO2019052403A1 (zh) 2019-03-21
EP3683724A1 (en) 2020-07-22
KR102235051B1 (ko) 2021-03-31

Similar Documents

Publication Publication Date Title
JP6887026B2 (ja) 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
AU2018214675B2 (en) Systems and methods for automatic semantic token tagging
WO2022007823A1 (zh) 一种文本数据处理方法及装置
KR102354716B1 (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
US11062095B1 (en) Language translation of text input using an embedded set for images and for multilanguage text strings
US10133729B2 (en) Semantically-relevant discovery of solutions
CN111125422B (zh) 一种图像分类方法、装置、电子设备及存储介质
CN110019732B (zh) 一种智能问答方法以及相关装置
CN110083693B (zh) 机器人对话回复方法及装置
US20230409653A1 (en) Embedding Based Retrieval for Image Search
US11740879B2 (en) Creating user interface using machine learning
US10740385B1 (en) Identifying visual portions of visual media files responsive to search queries
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
US10565317B1 (en) Apparatus for improving responses of automated conversational agents via determination and updating of intent
CN111898636A (zh) 一种数据处理方法及装置
US20230306205A1 (en) System and method for personalized conversational agents travelling through space and time
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
US11599749B1 (en) Method of and system for explainable knowledge-based visual question answering
AU2018226420A1 (en) Voice assisted intelligent searching in mobile documents
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
US20230153335A1 (en) Searchable data structure for electronic documents
CN113407806B (zh) 网络结构搜索方法、装置、设备及计算机可读存储介质
CN114116959A (zh) 方面级情感分析方法、装置以及终端
CN117743413A (zh) 电网自动化系统的运行状态确定方法、装置和计算机设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210517

R150 Certificate of patent or registration of utility model

Ref document number: 6887026

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250