JP2020522791A - 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置 - Google Patents
画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置 Download PDFInfo
- Publication number
- JP2020522791A JP2020522791A JP2019564942A JP2019564942A JP2020522791A JP 2020522791 A JP2020522791 A JP 2020522791A JP 2019564942 A JP2019564942 A JP 2019564942A JP 2019564942 A JP2019564942 A JP 2019564942A JP 2020522791 A JP2020522791 A JP 2020522791A
- Authority
- JP
- Japan
- Prior art keywords
- image
- text
- sample
- global
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 title claims abstract description 50
- 230000002452 interceptive effect Effects 0.000 title claims description 23
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 4
- 239000000523 sample Substances 0.000 claims description 185
- 239000013074 reference sample Substances 0.000 claims description 69
- 239000000463 material Substances 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 42
- 239000013598 vector Substances 0.000 claims description 36
- 238000013507 mapping Methods 0.000 claims description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 abstract description 13
- 239000000284 extract Substances 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/76—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
画像サンプルのグローバル特徴およびローカル特徴を抽出することと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出することと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定することであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものであることと、を含む。
テキストまたは画像である参照サンプルを受信することと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出することと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させることであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものであることと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択することと、を含む。
画像サンプルのグローバル特徴およびローカル特徴を抽出するための画像特徴抽出モジュールと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するためのテキスト特徴抽出モジュールと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するためのトレーニングモジュールであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものであるトレーニングモジュールと、を含む。
テキストまたは画像である参照サンプルを受信するための参照サンプル受信モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するための参照サンプル特徴抽出モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させるための検索モジュールであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである検索モジュールと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択するための選択モジュールと、を含む。
画像サンプルのグローバル特徴およびローカル特徴を抽出することと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出することと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定することであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、画像とテキストとの間のマッチング度を決定するために使用されるものであることと、を含む。
いくつかの実施例において、画像とテキストとの間のグローバル表現の類似度およびローカル表現の類似度を正確に得るために、本願の実施例では、
画像サンプルとテキストサンプルのそれぞれのグローバル表現を所定の意味空間にマッピングすることは、具体的に、
画像サンプルとテキストサンプルのそれぞれのグローバル表現を、少なくとも2層の全結合層を介して、所定の意味空間にマッピングすること、を含む。
画像サンプルとテキストサンプルのそれぞれのローカル表現を、少なくとも2層の全結合層を介して、所定の意味空間にマッピングすること、を含む。
ここで、L(In +,Sn +,In -,Sn -)は、予め設定されたターゲット関数を表し、In +およびIn -は、テキストサンプルを表し、Sn +およびSn -は、画像サンプルを表し、グローバル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのグローバル表現の類似度を表し、ローカル表現の類似度を決定する場合、d()は、テキストサンプルおよび画像サンプルのローカル表現の類似度を表し、λ1およびλ2は、いずれも予め設定された係数を表し、d(In +,Sn +)は、意味関連の異種サンプルペアの類似度を表し、d(In +,Sn -)およびd(In -,Sn +)は、いずれも非意味関連の異種サンプルペアの類似度を表し、μ1およびμ2は、いずれも予め設定された閾値を表す。
本願の実施例において、画像のグローバル特徴を抽出することについては限定されていない。例えば、画像の畳み込みニューラルネットワークの全結合層の特徴を用いて画像のグローバル表現を表し、前述のCNNのように、ここでのCNNについては、VGG(例えば、Very Deep Covolutional Networks for Large−SIcale Image Recognition、大規模画像認識の深度畳み込みネットワーク)、ResNet(Redsual Networks、残差ネットワーク)、Inception、Inception V3、Inception V4などを選択できるが、これらに限定されていない。もちろん、FCN(Fully Convolutional Networks for Semantic Segmentation、全畳み込みネットワーク)などのネットワークモデルを用いて画像のグローバル表現を抽出することもできる。
画像サンプルを所定数の画像ブロックに分割し、各画像ブロックに対して、この画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算し、
所定数の画像ブロックにおける各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル特徴を構成する。
本願の実施例において、テキストサンプルのグローバル表現をより良く抽出するために、以下のステップ、即ち、
テキストサンプルに対して単語分割を行うステップと、
各単語セグメントに対して、この単語セグメントのベクトルを決定するステップであって、ここで、異なる単語セグメントのベクトルの長さは同じであるステップと、
同一のテキストサンプルの単語セグメントのベクトルを、テキストのグローバル特徴を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル特徴を得るステップであって、ここで、テキストサンプルのグローバル特徴を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、その前の畳み込み層によって抽出された少なくとも2つの単語セグメントのベクトルの特徴が含まれるステップと、が含まれる。
画像サンプルのグローバル特徴およびローカル特徴を抽出するための画像特徴抽出モジュール901と、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するためのテキスト特徴抽出モジュール902と、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するトレーニングモジュール903であって、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである、トレーニングモジュール903と、を備える。
前記画像サンプルと前記テキストサンプルのそれぞれのグローバル特徴を、前記少なくとも2層の全結合層を介して、所定の意味空間にマッピングするグローバルトレーニングユニット9031と、
前記画像サンプルと前記テキストサンプルのそれぞれのローカル特徴を、前記少なくとも2層の全結合層を介して、前記所定の意味空間にマッピングするローカルトレーニングユニット9032と、を備え、
マッピングの結果および予め設定されたターゲット関数に基づいて、少なくとも2層の全結合層のパラメータを決定し、ここで、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなるということを実現するために使用されるものであり、または、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなる、ということを実現するために使用されるものである。
前記少なくとも2層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを決定し、
前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを、前記予め設定されたターゲット関数に入力して、前記少なくとも2層の全結合層のパラメータを決定する。
ここで、前記マッピングの結果には、少なくとも2層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、少なくとも2層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とが含まれ、
前記トレーニングモジュール903は、
前記少なくとも2層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、および前記少なくとも2層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも2層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを決定し、
前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも2層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを、前記予め設定されたターゲット関数に入力し、前記少なくとも2層の全結合層のパラメータを決定する。
ここで、
所定数の画像ブロックにおける各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル特徴を構成する。
各単語セグメントに対して、この単語セグメントのベクトルを決定し、ここで、異なる単語セグメントのベクトルの長さは同じであり、
同一のテキストサンプルの単語セグメントのベクトルを、テキストのグローバル特徴を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル特徴を得、ここで、テキストサンプルのグローバル特徴を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、該前の畳み込み層によって抽出された少なくとも2つの単語セグメントのベクトルの特徴が含まれる。
テキストまたは画像である参照サンプルを受信するための参照サンプル受信モジュール1001と、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するための参照サンプル特徴抽出モジュール1002と、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させる検索モジュール1003であって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである検索モジュール1003と、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択する選択モジュール1004と、を備える。
Claims (16)
- コンピュータによって実施される画像テキストマッチングモデルのトレーニング方法であって、
画像サンプルのグローバル特徴およびローカル特徴を抽出するステップと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するステップと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するステップであって、ここで、前記マッチングモデルは、入力された画像のグローバル特徴およびローカル特徴と、入力されたテキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものである、ステップと、
を含む画像テキストマッチングモデルのトレーニング方法。 - 前記マッチングモデルによって前記画像と前記テキストのそれぞれのグローバル特徴を所定の意味空間にマッピングして、前記画像と前記テキストとの間のグローバル特徴の類似度を計算し、および、前記画像と前記テキストのそれぞれのローカル特徴を前記所定の意味空間にマッピングして、前記画像と前記テキストとの間のローカル特徴の類似度を計算し、かつ、グローバル特徴の類似度の予め設定された重み値と、ローカル特徴の類似度の予め設定された重み値とに基づいて、重み付き加算方式を用いて、前記画像と前記テキストとの間の前記マッチング度を決定するステップ、をさらに含む請求項1に記載の方法。
- 前記マッチングモデルには、少なくとも2層の全結合層が含まれ、前記マッチングモデルのモデルパラメータには、前記少なくとも2層の全結合層のパラメータが含まれ、
ここで、前記抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するステップは、
前記画像サンプルと前記テキストサンプルのそれぞれのグローバル表現を、前記少なくとも2層の全結合層を介して、所定の意味空間にマッピングし、前記画像サンプルと前記テキストサンプルのそれぞれのローカル表現を、前記少なくとも2層の全結合層を介して、所定の意味空間にマッピングするステップと、
マッピングの結果および予め設定されたターゲット関数に基づいて、前記少なくとも2層の全結合層のパラメータを決定するステップであって、ここで、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなることを実現するために使用されるものであり、あるいは、前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなることを実現するために使用されるものである、ステップと、を含む、
請求項1に記載の方法。 - 前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなることを実現するために使用されるものであり、
ここで、前記マッピングの結果には、前記少なくとも2層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とが含まれ、
前記マッピングの結果および予め設定されたターゲット関数に基づいて、前記少なくとも2層の全結合層のパラメータを決定するステップは、
前記少なくとも2層の全結合層のパラメータによって表される前記画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表される前記テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを決定するステップと、
前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度とを、前記予め設定されたターゲット関数に入力して、前記少なくとも2層の全結合層のパラメータを決定するステップと、を含む、
請求項3に記載の方法。 - 前記予め設定されたターゲット関数は、次式であり、
請求項4に記載の方法。 - 前記予め設定されたターゲット関数は、意味関連の画像テキストペアの類似度が非意味関連の画像テキストペアの類似度よりも高くなり、かつ、同一の画像サンプルに関連されるテキストサンプルの間の類似度が異なる画像サンプルに関連されるテキストサンプルの間の類似度よりも高くなることを実現するために使用されるものであり、
ここで、前記マッピングの結果には、前記少なくとも2層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とが含まれ、
前記マッピングの結果および予め設定されたターゲット関数に基づいて、前記少なくとも2層の全結合層のパラメータを決定することは、
前記少なくとも2層の全結合層のパラメータによって表される画像サンプルのグローバル特徴およびローカル特徴と、前記少なくとも2層の全結合層のパラメータによって表されるテキストサンプルのグローバル特徴およびローカル特徴とに基づいて、前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも2層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを決定することと、
前記少なくとも2層の全結合層のパラメータによって表される意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される非意味関連の画像テキストペアの類似度と、前記少なくとも2層の全結合層のパラメータによって表される同一の画像サンプルに関連されるテキストサンプルの間の類似度と、前記少なくとも2層の全結合層のパラメータによって表される異なる画像サンプルに関連されるテキストサンプルの間の類似度とを、前記予め設定されたターゲット関数に入力し、前記少なくとも2層の全結合層のパラメータを決定することと、を含む、
請求項3に記載の方法。 - 前記予め設定されたターゲット関数は、以下の1つによって決定され、
ここで、
請求項6に記載の方法。 - 画像サンプルのローカル特徴を抽出するステップは、
画像サンプルを所定数の画像ブロックに分割し、各画像ブロックに対して、この画像ブロックに所定のカテゴリの画像情報が含まれる確率を計算するステップと、
所定数の画像ブロックにおける各所定のカテゴリの画像情報の最大確率を選択し、各所定のカテゴリの画像情報の最大確率で画像サンプルのローカル特徴を構成するステップと、を含む、
請求項1に記載の方法。 - テキストサンプルのグローバル表現を抽出するステップは、
テキストサンプルに単語分割を行うステップと、
各単語セグメントに対して、この単語セグメントのベクトルを決定するステップであって、ここで、異なる単語セグメントのベクトルの長さは同じである、ステップと、
同一のテキストサンプルの単語セグメントのベクトルを、テキストのグローバル特徴を抽出するための畳み込みニューラルネットワークに入力し、このテキストサンプルのグローバル特徴を得るステップであって、ここで、テキストサンプルのグローバル特徴を抽出するためのニューラルネットワークには、複数の畳み込み層と、複数の畳み込み層の後に接続されたプーリング層とが含まれ、かつ、前の畳み込み層の指定された大きさの視野領域は、現在の畳み込み層の入力とされ、この指定された大きさの視野領域には、その前の畳み込み層によって抽出された少なくとも2つの単語セグメントのベクトルの特徴が含まれるステップと、を含む、
請求項1に記載の方法。 - コンピュータによって実施される画像テキスト双方向検索方法であって、
テキストまたは画像である参照サンプルを受信するステップと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するステップと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させるステップであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものであるステップと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択するステップと、
を含む画像テキスト双方向検索方法。 - 画像テキストマッチングモデルのトレーニング装置であって、
画像サンプルのグローバル特徴およびローカル特徴を抽出するための画像特徴抽出モジュールと、
テキストサンプルのグローバル特徴およびローカル特徴を抽出するためのテキスト特徴抽出モジュールと、
抽出された、画像サンプルのグローバル特徴およびローカル特徴と、テキストサンプルのグローバル特徴およびローカル特徴とに基づいて、マッチングモデルをトレーニングして、前記マッチングモデルのモデルパラメータを決定するためのトレーニングモジュールであって、ここで、前記マッチングモデルは、画像のグローバル特徴およびローカル特徴と、テキストのグローバル特徴およびローカル特徴とに基づいて、前記画像と前記テキストとの間のマッチング度を決定するために使用されるものであるトレーニングモジュールと、
を含む画像テキストマッチングモデルのトレーニング装置。 - 画像テキスト双方向検索装置であって、
テキストまたは画像である参照サンプルを受信するための参照サンプル受信モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴を抽出するための参照サンプル特徴抽出モジュールと、
前記参照サンプルのグローバル特徴およびローカル特徴をマッチングモデルに入力して、前記マッチングモデルに前記参照サンプルと、対応する素材との間のマッチング度を計算させるための検索モジュールであって、ここで、前記参照サンプルがテキストであれば、前記対応する素材は画像であり、前記参照サンプルが画像であれば、前記対応する素材はテキストであり、前記マッチングモデルは、前記参照サンプルのグローバル特徴およびローカル特徴と、前記対応する素材のグローバル特徴およびローカル特徴とに基づいて、前記参照サンプルと前記対応する素材との間のマッチング度を決定できるものである検索モジュールと、
マッチング度が所定のマッチング度より大きい、対応する素材を、前記参照サンプルにマッチングされる素材として選択するための選択モジュールと、
を含む画像テキスト双方向検索装置。 - コンピューティングデバイスであって、
プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って、請求項1〜9のいずれか1項に記載の画像テキストマッチングモデルのトレーニング方法を実行するためのプロセッサと、
を含むコンピューティングデバイス。 - コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体であって、
前記コンピュータ実行可能な命令は、請求項1〜9のいずれか1項に記載の画像テキストマッチングモデルのトレーニング方法を前記コンピュータに実行させる、
コンピュータ記憶媒体。 - コンピューティングデバイスであって、
プログラム命令を記憶するためのメモリと、前記メモリに記憶されているプログラム命令を呼び出して、取得されたプログラム命令に従って、請求項10に記載の画像テキスト双方向検索方法を実行するためのプロセッサと、
を含むコンピューティングデバイス。 - コンピュータ実行可能な命令が記憶されているコンピュータ記憶媒体であって、
前記コンピュータ実行可能な命令は、請求項10に記載の画像テキスト双方向検索方法を前記コンピュータに実行させる、
コンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710817344.5 | 2017-09-12 | ||
CN201710817344.5A CN108288067B (zh) | 2017-09-12 | 2017-09-12 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
PCT/CN2018/104565 WO2019052403A1 (zh) | 2017-09-12 | 2018-09-07 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020522791A true JP2020522791A (ja) | 2020-07-30 |
JP6887026B2 JP6887026B2 (ja) | 2021-06-16 |
Family
ID=62831544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019564942A Active JP6887026B2 (ja) | 2017-09-12 | 2018-09-07 | 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11087166B2 (ja) |
EP (1) | EP3683724A4 (ja) |
JP (1) | JP6887026B2 (ja) |
KR (1) | KR102235051B1 (ja) |
CN (2) | CN110532571B (ja) |
WO (1) | WO2019052403A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7366204B1 (ja) | 2022-07-21 | 2023-10-20 | 株式会社エクサウィザーズ | 情報処理方法、コンピュータプログラム及び情報処理装置 |
KR102594547B1 (ko) * | 2022-11-28 | 2023-10-26 | (주)위세아이텍 | 멀티모달 특성 기반의 이미지 검색 장치 및 방법 |
JP7403605B2 (ja) | 2022-03-02 | 2023-12-22 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置 |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6333871B2 (ja) * | 2016-02-25 | 2018-05-30 | ファナック株式会社 | 入力画像から検出した対象物を表示する画像処理装置 |
CN110532571B (zh) | 2017-09-12 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 文本处理方法及相关装置 |
US11216512B2 (en) * | 2018-10-08 | 2022-01-04 | Fujitsu Limited | Accessible machine learning backends |
CN110147806B (zh) * | 2018-10-08 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 图像描述模型的训练方法、装置及存储介质 |
CN109858555B (zh) * | 2019-02-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于图像的数据处理方法、装置、设备及可读存储介质 |
CN109933802B (zh) * | 2019-03-25 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置及存储介质 |
CN110111885B (zh) * | 2019-05-09 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 属性预测方法、装置、计算机设备及计算机可读存储介质 |
CN110209859B (zh) * | 2019-05-10 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 地点识别及其模型训练的方法和装置以及电子设备 |
CN110134965B (zh) * | 2019-05-21 | 2023-08-18 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110516085B (zh) | 2019-07-11 | 2022-05-17 | 西安电子科技大学 | 基于双向注意力的图像文本互检索方法 |
CN110598739B (zh) * | 2019-08-07 | 2023-06-23 | 广州视源电子科技股份有限公司 | 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质 |
CN110532414B (zh) * | 2019-08-29 | 2022-06-21 | 深圳市商汤科技有限公司 | 一种图片检索方法及装置 |
CN112528624B (zh) * | 2019-09-03 | 2024-05-14 | 阿里巴巴集团控股有限公司 | 文本处理方法、装置、搜索方法以及处理器 |
CN112529986B (zh) * | 2019-09-19 | 2023-09-22 | 百度在线网络技术(北京)有限公司 | 图文相关性的计算模型建立方法、计算方法及装置 |
CN112580658B (zh) * | 2019-09-29 | 2024-03-12 | 中国移动通信集团辽宁有限公司 | 图像语义描述方法、装置、计算设备及计算机存储介质 |
WO2021098585A1 (en) * | 2019-11-22 | 2021-05-27 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Image search based on combined local and global information |
CN111091010A (zh) * | 2019-11-22 | 2020-05-01 | 京东方科技集团股份有限公司 | 相似度确定、网络训练、查找方法及装置和存储介质 |
CN110991533B (zh) * | 2019-12-03 | 2023-08-04 | Oppo广东移动通信有限公司 | 图像识别方法、识别装置、终端设备及可读存储介质 |
CN113094550B (zh) * | 2020-01-08 | 2023-10-24 | 百度在线网络技术(北京)有限公司 | 视频检索方法、装置、设备和介质 |
CN111309950A (zh) * | 2020-01-18 | 2020-06-19 | 青柠知享科技(深圳)有限公司 | 电商交易信息交互方法、电商平台和可读存储介质 |
CN111309951A (zh) * | 2020-01-23 | 2020-06-19 | 北京达佳互联信息技术有限公司 | 广告语获取方法及其装置、存储介质 |
CN111626058B (zh) * | 2020-04-15 | 2023-05-30 | 井冈山大学 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
CN113535829B (zh) * | 2020-04-17 | 2022-04-29 | 阿里巴巴集团控股有限公司 | 排序模型的训练方法、装置、电子设备及存储介质 |
CN111666969B (zh) * | 2020-04-22 | 2021-11-23 | 北京百度网讯科技有限公司 | 计算图文相似度的方法、装置、电子设备和可读存储介质 |
CN111522986B (zh) * | 2020-04-23 | 2023-10-10 | 北京百度网讯科技有限公司 | 图像检索方法、装置、设备和介质 |
CN111581418B (zh) * | 2020-04-29 | 2023-04-28 | 山东科技大学 | 一种基于图像关联人物信息的目标人员搜索方法 |
CN111666753B (zh) * | 2020-05-11 | 2023-04-18 | 清华大学深圳国际研究生院 | 基于全局和局部匹配的短文本匹配方法及系统 |
CN111639484A (zh) * | 2020-05-15 | 2020-09-08 | 北京青牛技术股份有限公司 | 坐席通话内容的分析方法 |
CN111782808A (zh) * | 2020-06-29 | 2020-10-16 | 北京市商汤科技开发有限公司 | 文档处理方法、装置、设备及计算机可读存储介质 |
CN112000803B (zh) * | 2020-07-28 | 2024-05-14 | 北京小米松果电子有限公司 | 文本分类方法及装置、电子设备及计算机可读存储介质 |
CN112052352B (zh) * | 2020-09-07 | 2024-04-30 | 北京达佳互联信息技术有限公司 | 视频排序方法、装置、服务器及存储介质 |
CN112347791B (zh) * | 2020-11-06 | 2023-10-13 | 北京奇艺世纪科技有限公司 | 文本匹配模型的构建方法、系统、计算机设备及存储介质 |
CN112650867A (zh) * | 2020-12-25 | 2021-04-13 | 北京中科闻歌科技股份有限公司 | 图片匹配方法、装置、电子设备以及存储介质 |
KR102311644B1 (ko) * | 2021-01-29 | 2021-10-12 | 한국과학기술정보연구원 | 데이터분석장치 및 그 동작 방법 |
CN113392254A (zh) * | 2021-03-29 | 2021-09-14 | 西安理工大学 | 一种基于上下文感知注意的图像文本检索方法 |
CN113221680B (zh) * | 2021-04-26 | 2024-05-28 | 西北工业大学 | 基于文本动态引导视觉特征提炼的文本行人检索方法 |
CN113283497A (zh) * | 2021-05-21 | 2021-08-20 | 广东博智林机器人有限公司 | 文本的匹配方法、装置、存储介质和处理器 |
CN113255667B (zh) * | 2021-06-16 | 2021-10-08 | 北京世纪好未来教育科技有限公司 | 文本图像相似度评估方法、装置、电子设备及存储介质 |
CN113343664B (zh) * | 2021-06-29 | 2023-08-08 | 京东科技信息技术有限公司 | 图像文本之间的匹配度的确定方法及装置 |
CN113283551B (zh) * | 2021-07-22 | 2021-10-29 | 智者四海(北京)技术有限公司 | 多模态预训练模型的训练方法、训练装置及电子设备 |
CN113987115A (zh) * | 2021-09-26 | 2022-01-28 | 润联智慧科技(西安)有限公司 | 一种文本相似度计算方法、装置、设备及存储介质 |
CN115909374A (zh) * | 2021-09-30 | 2023-04-04 | 腾讯科技(深圳)有限公司 | 一种信息识别方法、装置、设备及存储介质、程序产品 |
CN113947700A (zh) * | 2021-10-18 | 2022-01-18 | 北京百度网讯科技有限公司 | 模型确定方法、装置、电子设备和存储器 |
CN113742556B (zh) * | 2021-11-03 | 2022-02-08 | 南京理工大学 | 一种基于全局和局部对齐的多模态特征对齐方法 |
CN114154512A (zh) * | 2021-12-09 | 2022-03-08 | 京东科技信息技术有限公司 | 小样本学习处理方法、装置、设备及存储介质 |
US20230196732A1 (en) * | 2021-12-20 | 2023-06-22 | Kla Corporation | Machine learning using a global texture characteristic for semiconductor-based applications |
CN114782722B (zh) * | 2022-04-29 | 2023-02-03 | 北京百度网讯科技有限公司 | 图文相似度的确定方法、装置及电子设备 |
CN114998607B (zh) * | 2022-05-11 | 2023-01-31 | 北京医准智能科技有限公司 | 超声图像的特征提取方法、装置、电子设备及存储介质 |
CN114972910B (zh) * | 2022-05-20 | 2023-05-23 | 北京百度网讯科技有限公司 | 图文识别模型的训练方法、装置、电子设备及存储介质 |
CN114896429B (zh) * | 2022-07-12 | 2022-12-27 | 苏州浪潮智能科技有限公司 | 一种图文互检方法、系统、设备及计算机可读存储介质 |
CN115392389B (zh) * | 2022-09-01 | 2023-08-29 | 北京百度网讯科技有限公司 | 跨模态信息匹配、处理方法、装置、电子设备及存储介质 |
CN115496140B (zh) * | 2022-09-19 | 2023-07-25 | 北京邮电大学 | 一种多模态虚假新闻检测方法及系统 |
CN116308221B (zh) * | 2023-05-25 | 2023-07-21 | 成都信通信息技术有限公司 | 一种基于人工智能的低碳奖章自动生成系统 |
CN117591901B (zh) * | 2024-01-17 | 2024-05-03 | 合肥中科类脑智能技术有限公司 | 绝缘子破损检测方法、装置、存储介质和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095829A (zh) * | 2016-06-01 | 2016-11-09 | 华侨大学 | 基于深度学习与一致性表达空间学习的跨媒体检索方法 |
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
JP2017059082A (ja) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | 情報提供装置、情報提供方法および情報提供プログラム |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4955060A (en) * | 1987-07-02 | 1990-09-04 | Nippon Sheet Glass Co., Ltd. | Image recognition apparatus |
US5491758A (en) * | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
JP2011221794A (ja) * | 2010-04-09 | 2011-11-04 | Kddi Corp | 画像選定装置 |
CN102012939B (zh) * | 2010-12-13 | 2012-11-14 | 中国人民解放军国防科学技术大学 | 综合颜色和局部不变特征匹配的动画场景自动标注方法 |
US8798362B2 (en) * | 2011-08-15 | 2014-08-05 | Hewlett-Packard Development Company, L.P. | Clothing search in images |
US9082035B2 (en) | 2011-08-29 | 2015-07-14 | Qualcomm Incorporated | Camera OCR with context information |
CN102629275B (zh) * | 2012-03-21 | 2014-04-02 | 复旦大学 | 面向跨媒体新闻检索的人脸-人名对齐方法及系统 |
CN103353875B (zh) * | 2013-06-09 | 2016-12-28 | 华中科技大学 | 基于可视搜索的媒体交互方法及系统 |
CN104036277A (zh) * | 2014-06-03 | 2014-09-10 | 中国科学院电子学研究所 | 一种提取道路特征的方法和设备 |
WO2016004330A1 (en) * | 2014-07-03 | 2016-01-07 | Oim Squared Inc. | Interactive content generation |
CN104199826B (zh) * | 2014-07-24 | 2017-06-30 | 北京大学 | 一种基于关联分析的异构媒体相似性计算方法和检索方法 |
CN104376105B (zh) * | 2014-11-26 | 2017-08-25 | 北京航空航天大学 | 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法 |
CN104778242B (zh) * | 2015-04-09 | 2018-07-13 | 复旦大学 | 基于图像动态分割的手绘草图图像检索方法及系统 |
CN104834747B (zh) * | 2015-05-25 | 2018-04-27 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
US9501724B1 (en) * | 2015-06-09 | 2016-11-22 | Adobe Systems Incorporated | Font recognition and font similarity learning using a deep neural network |
CN106547744B (zh) * | 2015-09-16 | 2020-11-06 | 杭州海康威视数字技术股份有限公司 | 一种图像检索方法及系统 |
WO2017113232A1 (zh) * | 2015-12-30 | 2017-07-06 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的产品分类方法及装置 |
US11934450B2 (en) * | 2016-06-24 | 2024-03-19 | Skusub LLC | System and method for object matching using 3D imaging |
CN106295631A (zh) * | 2016-07-27 | 2017-01-04 | 新疆大学 | 一种图像维吾尔文单词识别方法及装置 |
CN106503055B (zh) * | 2016-09-27 | 2019-06-04 | 天津大学 | 一种从结构化文本到图像描述的生成方法 |
CN107330100B (zh) * | 2017-07-06 | 2020-04-03 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
KR102466676B1 (ko) * | 2017-08-16 | 2022-11-14 | 삼성전자주식회사 | 생체 센서의 성능 평가 방법, 생체 영상을 이용한 인증 방법 및 인증 방법을 적용한 전자 기기 |
CN110532571B (zh) * | 2017-09-12 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 文本处理方法及相关装置 |
US10740386B2 (en) * | 2017-12-29 | 2020-08-11 | MorphoTrak, LLC | Multi-stage image matching techniques |
KR102455468B1 (ko) * | 2018-06-22 | 2022-10-19 | 한국전자통신연구원 | 객체의 3차원 모델을 복원하는 방법 및 장치 |
US20200293874A1 (en) * | 2019-03-12 | 2020-09-17 | Microsoft Technology Licensing, Llc | Matching based intent understanding with transfer learning |
US10949702B2 (en) * | 2019-04-16 | 2021-03-16 | Cognizant Technology Solutions India Pvt. Ltd. | System and a method for semantic level image retrieval |
CN110490946B (zh) * | 2019-07-15 | 2023-07-04 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
-
2017
- 2017-09-12 CN CN201910859507.5A patent/CN110532571B/zh active Active
- 2017-09-12 CN CN201710817344.5A patent/CN108288067B/zh active Active
-
2018
- 2018-09-07 KR KR1020197030955A patent/KR102235051B1/ko active IP Right Grant
- 2018-09-07 JP JP2019564942A patent/JP6887026B2/ja active Active
- 2018-09-07 EP EP18857317.4A patent/EP3683724A4/en active Pending
- 2018-09-07 WO PCT/CN2018/104565 patent/WO2019052403A1/zh unknown
-
2019
- 2019-09-23 US US16/579,411 patent/US11087166B2/en active Active
-
2021
- 2021-06-16 US US17/349,904 patent/US11699298B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170061250A1 (en) * | 2015-08-28 | 2017-03-02 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
JP2017059082A (ja) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | 情報提供装置、情報提供方法および情報提供プログラム |
CN106095829A (zh) * | 2016-06-01 | 2016-11-09 | 华侨大学 | 基于深度学习与一致性表达空间学习的跨媒体检索方法 |
Non-Patent Citations (2)
Title |
---|
ANDREJ KARPATHY ほか: "Deep Fragment Embeddings for Bidirectional Image Sentence Mapping", ARXIV:1406.5679, vol. v1, JPN6021003841, 22 June 2014 (2014-06-22), US, pages 1 - 9, XP055246479, ISSN: 0004440139 * |
LIN MA ほか: "Multimodal Convolutional Neural Networks for Matching Image and Sentence", PROC. OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6021003844, 2015, US, pages 2623 - 2631, XP032866606, ISSN: 0004440140, DOI: 10.1109/ICCV.2015.301 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7403605B2 (ja) | 2022-03-02 | 2023-12-22 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置 |
JP7366204B1 (ja) | 2022-07-21 | 2023-10-20 | 株式会社エクサウィザーズ | 情報処理方法、コンピュータプログラム及び情報処理装置 |
KR102594547B1 (ko) * | 2022-11-28 | 2023-10-26 | (주)위세아이텍 | 멀티모달 특성 기반의 이미지 검색 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN108288067B (zh) | 2020-07-24 |
US20200019807A1 (en) | 2020-01-16 |
CN110532571A (zh) | 2019-12-03 |
JP6887026B2 (ja) | 2021-06-16 |
KR20190129110A (ko) | 2019-11-19 |
US11699298B2 (en) | 2023-07-11 |
EP3683724A4 (en) | 2021-02-17 |
CN110532571B (zh) | 2022-11-18 |
US11087166B2 (en) | 2021-08-10 |
US20210312211A1 (en) | 2021-10-07 |
CN108288067A (zh) | 2018-07-17 |
WO2019052403A1 (zh) | 2019-03-21 |
EP3683724A1 (en) | 2020-07-22 |
KR102235051B1 (ko) | 2021-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6887026B2 (ja) | 画像テキストマッチングモデルのトレーニング方法、双方向検索方法及び関連装置 | |
KR102354716B1 (ko) | 딥 러닝 모델을 이용한 상황 의존 검색 기법 | |
TWI737006B (zh) | 一種跨模態訊息檢索方法、裝置和儲存介質 | |
WO2019242297A1 (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
US10133729B2 (en) | Semantically-relevant discovery of solutions | |
CN106845411B (zh) | 一种基于深度学习和概率图模型的视频描述生成方法 | |
TW202009749A (zh) | 人機對話方法、裝置、電子設備及電腦可讀媒體 | |
CN110083693B (zh) | 机器人对话回复方法及装置 | |
US20230409653A1 (en) | Embedding Based Retrieval for Image Search | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN111125422A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
JP6361351B2 (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
WO2016025412A1 (en) | Generating and using a knowledge-enhanced model | |
CN111652378B (zh) | 学习来选择类别特征的词汇 | |
CN107077487A (zh) | 利用深度网络对个人照片加标签 | |
US10565317B1 (en) | Apparatus for improving responses of automated conversational agents via determination and updating of intent | |
WO2021212601A1 (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
JP2022158735A (ja) | 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム | |
CN113297410A (zh) | 一种图像检索方法、装置、计算机设备及存储介质 | |
US20230306205A1 (en) | System and method for personalized conversational agents travelling through space and time | |
US20220383119A1 (en) | Granular neural network architecture search over low-level primitives | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN116958852A (zh) | 视频与文本的匹配方法、装置、电子设备和存储介质 | |
WO2020151318A1 (zh) | 基于爬虫模型的语料构建方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210511 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210517 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6887026 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |