JP6893233B2 - 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム - Google Patents

画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP6893233B2
JP6893233B2 JP2019210905A JP2019210905A JP6893233B2 JP 6893233 B2 JP6893233 B2 JP 6893233B2 JP 2019210905 A JP2019210905 A JP 2019210905A JP 2019210905 A JP2019210905 A JP 2019210905A JP 6893233 B2 JP6893233 B2 JP 6893233B2
Authority
JP
Japan
Prior art keywords
text
image
matching
features
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019210905A
Other languages
English (en)
Other versions
JP2020135852A (ja
Inventor
ジアンフイ ホァン
ジアンフイ ホァン
ピンピン ホァン
ピンピン ホァン
ミン チャオ
ミン チャオ
イン リー
イン リー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020135852A publication Critical patent/JP2020135852A/ja
Application granted granted Critical
Publication of JP6893233B2 publication Critical patent/JP6893233B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Description

本出願の実施例は、コンピュータビジョン技術に関し、特に、画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラムに関する。
コンピュータビジョン技術の発展に伴い、視覚的質問回答などの画像に基づくデータ処理方法が登場しました。視覚的質問回答(Visual Question Answer、VQA)は、マルチモーダルデータをマイニングするための最先端のアプリケーションの1つであって、視覚画像の自然言語に対して質問・回答を行うことを目的とし、かつ、視覚的理解(Visual Understanding)の研究方向の1つとして、視覚と言語をつなぐものであり、ここで、VQAには、画像を理解したうえで、特定のテキストの問題に基づいて処理を行う必要がある。
従来の画像に基づくデータ処理方法では、まず、2組の異なる下位レベル表示システムを用いて、画像とテキストとの下位レベル特徴をそれぞれ抽出し、画像とテキストとの上位レベル特徴を学習し、次に、関連学習モジュールを介して、画像とテキストとの上位レベル特徴を関連付けてテキストを処理する。
従来の画像に基づくデータ処理方法には、画像特徴およびテキスト特徴に基づいて、テキストと画像内の各オブジェクトとの関連関係を学習する必要があるため、該関連関係の精度が低く、テキスト処理エラーにつなぐ可能性がある。
本出願の実施例は、テキストと画像内の各オブジェクトとの関連関係を正確に学習し、処理精度を向上させるための画像に基づくデータ処理方法、装置、デバイス、および可読記憶媒体を開示する。
第1の態様では、本出願の実施例は、画像に基づくデータ処理装置によって実行されるデータ処理方法において、画像および処理対象のテキストを取得するステップと、画像内の複数のオブジェクトの特徴および前記テキストの特徴を抽出するステップであって、前記オブジェクトの特徴は画像における注意位置及び画像内の各オブジェクトのカテゴリを含み、前記テキストの特徴は前記テキストにおける注意位置及び前記テキスト内の各オブジェクトのカテゴリを含む、ステップと、テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合するステップと、前記画像の融合特徴およびテキストの特徴に基づいて、前記テキストを処理するステップと、を含むことを特徴とする画像に基づくデータ処理方法を提供する。
第2の態様では、本出願の実施例は、画像に基づくデータ処理装置であって、画像および処理対象のテキストを取得するための取得モジュールと、画像内の複数のオブジェクトの特徴および前記テキストの特徴を抽出するための抽出モジュールであって、前記オブジェクトの特徴は画像における注意位置及び画像内の各オブジェクトのカテゴリを含み、前記テキストの特徴は前記テキストにおける注意位置及び前記テキスト内の各オブジェクトのカテゴリを含む、抽出モジュールと、テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合するための融合モジュールと、画像の融合特徴およびテキストの特徴に基づいて、前記テキストを処理するための処理モジュールと、を含むことを特徴とする画像に基づくデータ処理装置をさらに提供する。
第3の態様では、本出願の実施例は、電子機器であって、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを格納するためのメモリと、を含む電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、いずれの実施例に記載の画像に基づくデータ処理方法を実施させる電子機器をさらに提供する。
第4の態様では、本出願の実施例は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、いずれの実施例に記載の画像に基づくデータ処理方法を実施するコンピュータ可読記憶媒体をさらに提供する。
本出願の実施例では、画像および処理対象のテキストを取得し、画像内の複数のオブジェクトの特徴およびテキストの特徴を抽出し、次にテキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合し、次にテキストとオブジェクトの特徴とが関連性があるという事前知識を最大限に活用し、マッチング度に基づいて画像の特徴を調整することにより、融合特徴がテキストに強く関連付けられた部分により多くの注意を支払うようにし、注意力分布の分散化が防止され、テキストに強く関連付けられた融合特徴およびテキストの特徴に基づいて、テキストの処理精度を向上させることができる。
本出願の実施例1に係る画像に基づくデータ処理方法のフローチャートである。 本出願の実施例1に係る各オブジェクトの所在バウンディングボックスの概略図である。 本出願の実施例1に係る融合特徴に対応する画像の概略図である。 本出願の実施例2に係る画像に基づくデータ処理方法のフローチャートである。 本出願の実施例2に係るマッチングモデルによって実行されるマッチング操作のフローチャート概略図である。 本出願の実施例2に係るマッチングモデルのトレーニングのフローチャートである。 本出願の実施例2に係るマッチングモデルを用いた画像に基づくデータ処理方法のフローチャートである。 本出願の実施例3に係る画像に基づくデータ処理方法のフローチャートである。 本出願の実施例4に係る画像に基づくデータ処理装置の構造概略図である。 本出願の実施例5に係る電子機器の構造概略図である。
以下、図面および実施例を参照して本出願をさらに詳細に説明する。本明細書に記載される特定の実施例は、本出願を解釈するものにすぎず、本出願を限定するものではないことを理解されたい。なお、説明の便宜上、本出願に関連する構造のすべてではなく一部のみが図面に示されている。
実施例1
図1aは、本出願の実施例1に係る画像に基づくデータ処理方法のフローチャートであり、本実施例は、画像を認識することでテキストを処理する場合に適用可能であり、該方法は、ハードウェアおよび/またはソフトウェアで構成されてもよいが一般に電子機器に集積されている、画像に基づくデータ処理装置によって実行されてもよく、具体的には、ステップS110〜140を含む。
ステップS110:画像および処理対象のテキストを取得する。
本実施例では、処理対象のテキストは、写真、スクリーンショット、ビデオフレームなどであってもよい画像を含む自由形式のオープンな自然言語テキストである。処理対象のテキストは、真と偽の判断、テキストコンテンツの解釈など、テキストへの理解を含む。処理対象のテキストは、自然言語の問題をさらに含み、テキストで尋ねられる質問の種類は、きめ細かい認識(例えば、この女性は白色人種ですか?)、オブジェクト認識(例えば、画像にはバナナがいくつありますか?)、行動認識(例えば、この女性は泣いていますか?)、および質問に含まれるテキストへの理解を含むが、これらに限定されない。
ステップS120:画像内の複数のオブジェクトの特徴およびテキストの特徴を抽出する。
任意選択で、画像をターゲット検出モデルまたは分類モデルに入力し、画像内の複数のオブジェクトの特徴を抽出し、さらに各オブジェクトの所在バウンディングボックスの座標を抽出する。ここで、ターゲット検出モデルまたは分類モデルは、深層学習に基づくR−CNN、Fast R−CNNなどのターゲット検出モデルまたは分類モデルであってもよい。
任意選択で、抽出すべきオブジェクトの数(例えば36個、52個)を事前に設定し、ターゲット検出モデルは、事前に設定された数のオブジェクトの特徴を抽出し、各オブジェクトの所在バウンディングボックスの座標を抽出する。図1bは、本出願の実施例1に係る各オブジェクトの所在バウンディングボックスの概略図である。図1bは、バウンディングボックスを太い実線で示した熊の胴体およびバウンディングボックスを細い実線で示した熊の足という2つのオブジェクトを示している。
任意選択で、バッグ・オブ・ワーズモデル(bag of words model)またはリカレントニューラルネットワーク(Recurrent Neural Network、RNN)によってテキストの特徴を抽出する。
ステップS130:テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合する。
アテンションメカニズム(Attention Mechanism)によれば、人々は、画像を観察するとき、一度に画像全体の位置ごとのピクセルを見るわけではなく、必要に応じて画像の特定の部分、例えば人物の顔に注意を集中する場合が多い。さらに、人々は、以前に観察した画像に基づいて、観察対象の画像に注意を集中すべき位置を学習することができる。同様に、テキストの場合、テキストは画像内のオブジェクトごとに異なる注意を払っている。例えば、「あなたは、熊の足を見えますか?」には、図1bにおける熊の足に注意を集中すべき、また例えば、「熊の表情は何ですか?」には、図1bにおける熊の頭に注意を集中すべきである。
上記分析によれば、テキストがより多くの注意を集中するオブジェクトの特徴に基づいて、テキストをより正確に処理することに役立つ。本実施例では、テキストと各オブジェクトの特徴とのマッチング度は、各オブジェクトに対するテキストの注意を示すために用いられる。これに基づいて、テキストと各オブジェクトの特徴とのマッチング度に応じて、各オブジェクトの特徴を調整する。例えば、マッチング度が高いオブジェクトの特徴を強化し、マッチング度が低いオブジェクトの特徴を弱化し、次に、調整された各オブジェクトの特徴を画像の新しい特徴として融合する。説明と区別の便宜上、融合された画像の新しい特徴は、画像の融合特徴と呼ばれる。図1cは、本出願の実施例1に係る融合特徴に対応する画像の概略図である。例えば、処理対象のテキストが「あなたは、熊の足を見えますか?」である場合、テキストとオブジェクトである熊の足の特徴とのマッチング度は90%で、熊の脚の特徴とのマッチング度は50%で、他のオブジェクト(例えばオブジェクトである樹幹やオブジェクトである草叢)の特徴とのマッチング度は10%である。次に、マッチング度に基づいて、対応するオブジェクトの特徴を調整して融合し、画像の融合特徴を得る。任意選択で、マッチング度がマッチング度閾値以上であるオブジェクトの特徴を保持または強化し、マッチング度がマッチング度閾値未満であるオブジェクトの特徴を削除または弱化し、次に、保持された特徴を融合して画像の融合特徴を得る。図1cから分かるように、熊の足の特徴が強化され、熊の脚の特徴が変化せず、他のオブジェクトの特徴が弱化される。
テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合する前に、テキストと各オブジェクトの特徴とのマッチング度の計算操作をさらに含む。任意選択で、画像内における熊の足、熊の脚、樹幹、草叢などの複数のオブジェクトの特徴を抽出し、各オブジェクトのカテゴリを取得する。テキスト内の各オブジェクトのカテゴリを検索し、検索結果に基づいて、テキストと各オブジェクトの特徴とのマッチング度を確定する。例えば、「あなたは、熊の足を見えますか?」から、「熊の足」および「熊の脚」における「熊」が見つかれ、「樹幹」と「草叢」が見つかっていない。従って、テキストとオブジェクトである熊の足の特徴とのマッチング度が高、オブジェクトである熊の脚の特徴とのマッチング度が中、オブジェクトである樹幹および草叢の特徴とのマッチング度が低であると判定される。
ステップS140:画像の融合特徴およびテキストの特徴に基づいて、テキストを処理する。
任意選択で、テキストの処理操作は、真と偽の判断、テキストコンテンツの解釈など、テキストへの理解と、テキストへの回答とを含むが、これらに限定されない。
任意選択で、画像の融合特徴およびテキストの特徴を視覚的質問回答(Visual Question Answer、VQA)システムに入力して、VQAシステムが出力する回答を得る。本実施例に係るVQAシステムは、Deeper LSTM Q+norm Iモデル、VIS+LSTMモデル、2−VIS+BLSTM、IMG+BOWなどのモデルの組み合わせを含む。
本出願の実施例では、画像および処理対象のテキストを取得し、画像内の複数のオブジェクトの特徴およびテキストの特徴を抽出し、次にテキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合し、次にテキストとオブジェクトの特徴とが関連性があるという事前知識を最大限に活用し、マッチング度に基づいて画像の特徴を調整することにより、融合特徴がテキストに強く関連付けられた部分により多くの注意を支払うようにし、注意力分布の分散化が防止され、テキストに強く関連付けられた融合特徴およびテキストの特徴に基づいて、テキストの処理精度を向上させることができる。
実施例2
本実施例は、上記実施例の各代替実施形態に基づいて、さらに最適化される。任意選択で、「テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合する前」に、「各オブジェクトに対応するバウンディングボックス内の画像およびテキストをマッチングモデルに順次入力し、マッチングモデルによって出力される各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度を取得し、次に各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度に応じて、テキストと各オブジェクトの特徴とのマッチング度を取得する」というステップを追加する。図2aは、本出願の実施例2に係る画像に基づくデータ処理方法のフローチャートであり、本実施例に係る方法は、ステップS210〜S230を含む。
ステップS210:画像および処理対象のテキストを取得する。
ステップS220:画像内の複数のオブジェクトの特徴およびテキストの特徴を抽出する。
ステップS230:各オブジェクトに対応するバウンディングボックス内の画像およびテキストをマッチングモデルに順次入力し、マッチングモデルによって出力される各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度を取得する。
上記実施例の関連する説明に基づいて、各画像をターゲット検出モデルまたは分類モデルに順次入力し、画像内の複数のオブジェクトの特徴、および各オブジェクトの所在バウンディングボックスの座標を抽出する。本実施例では、各オブジェクトの所在バウンディングボックスの座標に基づいて、画像から各オブジェクトに対応するバウンディングボックス内の画像を切り取る。次に、各オブジェクトに対応するバウンディングボックス内の画像をマッチングモデルに順次入力する。最初の画像を入力するとき、テキストも入力する必要があり、テキストは1回入力されるだけでよく、後で画像を入力するとき、テキストは入力されなくてもよい。もちろん、画像を入力するたびにテキストを入力してもよい。
図2bは、本出願の実施例2に係るマッチングモデルによって実行されるマッチング操作のフローチャート概略図である。図2bを参照すると、マッチングモデルは、画像特徴抽出ステップと、テキスト特徴抽出ステップと、画像特徴次元変換ステップと、テキスト特徴次元変換ステップと、マッチングステップと、を含む。
ここで、画像特徴抽出ステップは、各オブジェクトに対応するバウンディングボックス内の画像から各オブジェクトの特徴を抽出するために用いられる。画像特徴次元変換ステップは、各オブジェクトの特徴次元を事前に設定された次元に変換するために用いられる。テキスト特徴抽出ステップは、テキスト内の各単語の特徴を抽出するために用いられる。テキスト特徴次元変換ステップは、テキスト内の各単語の特徴次元を事前に設定された次元に変換するために用いられる。マッチングステップは、次元変換後、各オブジェクトの特徴と各単語の特徴とのマッチング度を計算するために用いられる。
一般に、画像はテキストよりも多くの情報を含み、特徴抽出後、各オブジェクトの特徴次元はテキスト内の各単語の特徴次元と異なり、一例では、各オブジェクトの特徴次元が1024で、各単語の特徴次元が300である場合、各オブジェクトの特徴と各単語の特徴とのマッチング度を計算するために、両者の特徴次元を事前に設定された次元に変換する必要があり、具体的には、抽出された特徴を行列変換して、600次元の特徴などの共通次元の特徴を取得する。
次に、マッチングステップにおいて、次元変換後、各オブジェクトの特徴と各単語の特徴とのマッチング度を計算する。任意選択で、マッチングステップは、具体的には、次元変換後、各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれの距離、余弦類似度、または距離および余弦類似度を計算し、各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度を取得するために用いられる。任意選択で、距離はユークリッド距離、マハラノビス距離などを含む。距離および余弦類似度を計算してマッチング度を取得する場合には、各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれの距離および余弦類似度のうちの大きな値、小さな値、および平均値を選択して、各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度を取得することができる。
一代替実施形態では、各オブジェクトに対応するバウンディングボックス内の画像とテキストをマッチングモデルに順次入力する前に、マッチングモデルのトレーニング操作をさらに含み、図2cは、本出願の実施例2に係るマッチングモデルトレーニングのフローチャートであり、トレーニングプロセスは一般に、以下の3つのステップを含む。
ステップ1:マッチングモデルをトレーニングするためのポジティブサンプルオブジェクトに対応するバウンディングボックス内の画像、ネガティブサンプルオブジェクトに対応するバウンディングボックス内の画像、およびポジティブサンプルオブジェクトのラベルを取得する。ここで、ポジティブサンプルオブジェクトのラベル(Label)は、ポジティブサンプルオブジェクトのカテゴリである。
VGデータセット内の各画像の注釈情報は、画像内の各オブジェクト、関係および属性、並びに画像内におけるオブジェクトと属性のバウンディングボックス座標を含み、ここで、オブジェクトと対応するバウンディングボックス内の画像との間に強い関連性がある。
本実施例では、従来のVG(Visual Genome)データセットを用いて、上記画像およびラベルを取得する。具体的には、ポジティブサンプルオブジェクトをSとし、対応するラベルもSとし、ネガティブサンプルオブジェクトをnon−Sとして事前に設定する。VGデータセットでは、画像内におけるポジティブサンプルオブジェクトSのバウンディングボックス座標に基づいて、ポジティブサンプルオブジェクトに対応するバウンディングボックス内の画像を切り取り、次に、画像内におけるネガティブサンプルオブジェクトnon−Sのバウンディングボックス座標に基づいて、ネガティブサンプルオブジェクトに対応するバウンディングボックス内の画像を切り取る。図2cでは、ポジティブサンプルオブジェクトは熊の足で、ネガティブサンプルオブジェクトは熊の胴体で、対応するバウンディングボックス内の画像は実線で囲まれ、ポジティブサンプルオブジェクトのラベルは熊の足である。
ステップ2:ポジティブサンプルオブジェクトに対応するバウンディングボックス内の画像、ネガティブサンプルオブジェクトに対応するバウンディングボックス内の画像、およびラベルをマッチングモデルに入力し、ポジティブサンプルオブジェクトの特徴とラベルの特徴との第1マッチング度、およびネガティブサンプルオブジェクトの特徴とラベルの特徴との第2マッチング度を取得する。
マッチングモデルにおける画像特徴抽出ステップは、ポジティブサンプルオブジェクトに対応するバウンディングボックス内の画像からポジティブサンプルオブジェクトの特徴を抽出し、ネガティブサンプルオブジェクトに対応するバウンディングボックス内の画像からネガティブサンプルオブジェクトの特徴を抽出するために用いられ、テキスト特徴抽出ステップは、ラベルの特徴を抽出するために用いられる。次に、画像特徴次元変換ステップは、ポジティブサンプルオブジェクトの特徴次元とネガティブサンプルオブジェクトの特徴次元とを事前に設定された次元に変換するために用いられ、テキスト特徴次元変換ステップは、ラベルの特徴次元を事前に設定された次元に変換するために用いられる。マッチングステップは、次元変換後、ポジティブサンプルオブジェクトの特徴とラベルの特徴との第1マッチング度、およびネガティブサンプルオブジェクトの特徴とラベルの特徴との第2マッチング度を計算するために用いられる。第1マッチング度は、ポジティブサンプルオブジェクトの特徴とラベルの特徴との距離および/または余弦類似度であり、第2マッチング度は、ネガティブサンプルオブジェクトの特徴とラベルの特徴との距離および/または余弦類似度である。
ステップ3:第1マッチング度を最大化して第2マッチング度を最小化するか、または第1マッチング度と第2マッチング度との差を事前に設定された閾値よりも大きくするように、マッチングモデルをトレーニングする。
第1マッチング度を最大化して第2マッチング度を最小化することによって目的関数を構築するか、または第1マッチング度と第2マッチング度との差を事前に設定された閾値よりも大きくすることによって、目的関数を構築し、次に目的関数に基づいてモデル内のパラメータを反復してマッチングする。任意選択で、マッチングモデル内のステップのすべてまたは一部におけるパラメータを反復してマッチングすることができ、例えば、画像特徴抽出ステップ、テキスト特徴抽出ステップ、画像特徴次元変換ステップ、およびテキスト特徴次元変換ステップにおけるパラメータは、反復せずに経験値を採用し、マッチングステップにおけるパラメータのみは反復される。
ステップS240:各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度に応じて、テキストと各オブジェクトの特徴とのマッチング度を取得する。
任意選択で、各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれのマッチング度において、各オブジェクトの特徴に対応する最大マッチング度または平均マッチング度をテキストと各オブジェクトの特徴とのマッチング度として計算する。例えば、熊の足の特徴と、「あなたは、熊の足を見えますか?」というテキストにおける「あなた」、「熊の足」、「見」、「えます」、「か?」である特徴とのマッチング度が、それぞれ10%、90%、10%、10%、10%である場合、テキストと熊の足の特徴とのマッチング度は、最大マッチング度が90%であるか、または平均マッチング度が26%である。また例えば、草叢の特徴と、「あなたは、熊の足を見えますか?」というテキストにおける「あなた」、「熊の足」、「見」、「えます」、「か?」である特徴とのマッチング度が、それぞれ15%、10%、10%、10%、10%である場合、テキストと草叢の特徴とのマッチング度は、最大マッチング度が15%であるか、または平均マッチング度が11%である。
ステップS250:テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合する。
ステップS260:画像の融合特徴およびテキストの特徴に基づいて、テキストを処理する。
図2dは、本出願の実施例2に係るマッチングモデルを用いた画像に基づくデータ処理方法のフローチャートであり、画像に基づくデータ処理装置の入力は、「あなたは、熊の足を見えますか?」というテキスト、図1bに示された画像である。画像に基づくデータ処理装置は、一方でテキストの特徴を抽出し、一方でマッチングモデルによりマッチング度を取得し、さらにマッチング度に応じて複数のオブジェクトの特徴を画像の融合特徴として融合し、次にテキストの特徴および融合特徴を融合して分類し、テキストを処理する。
本実施例では、各オブジェクトに対応するバウンディングボックス内の画像およびテキストをマッチングモデルに順次入力することにより、マッチングモデルによって出力される各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれのマッチング度を得て、事前にトレーニングされたマッチングモデルに基づいて、オブジェクトの特徴と各単語の特徴とのそれぞれのマッチング度を直接取得し、かつ、画像の観点から、局所的特徴がテキスト内のどの単語に対応するかが反映され、テキストの観点から、画像内のどの局所的特徴が単語に対応するかが把握される。オブジェクトとテキストとのマッチング度をオブジェクトと単語ごととのマッチング度に細分化し、画像の局所的特徴と単語との細粒度を事前に学習して正確に関連付ける。
さらに、各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度に応じて、テキストと各オブジェクトの特徴とのマッチング度を取得し、次に各単語とのマッチング度に基づいて、テキストとオブジェクトとのマッチング度を包括的に取得することによって、マッチング度の精度が向上され、テキストの処理精度が向上される。
さらに、本実施例では、ポジティブサンプルおよびネガティブサンプルを用いてマッチングモデルをトレーニングすることによって、マッチングされたポジティブサンプルオブジェクトからラベルまでの距離を短縮すると同時に、マッチングされていないネガティブサンプルオブジェクトからラベルまでの距離を増大し、モデルトレーニングの精度が効果的に向上されることができ、さらに、マッチングモデルを事前にトレーニングするためのサンプルは、バウンディングボックス内の画像およびラベルのみを含み、画像、質問および回答を含むVQAデータと比べて、サンプル取得方法が多種多様で、適用シナリオが幅広く、テキストが拡張されやすい。本実施例に係るマッチングモデルを用いた画像に基づくデータ処理方法は、汎用性が高く、適用シナリオが幅広く、適用コストが低く、テキストを拡張しやすいマルチモーダル学習方法であり、マッチングモデルは、元のタスクのコンピューティングシステムプロセスがあまり変化しない場合、ほぼすべてのマルチモーダルタスクに適用できる。
さらに、本実施例では、オブジェクトのラベルとオブジェクトとの間、ラベルとテキストとの間の強い関連性を最大限に活用し、画像に基づくデータ処理装置による画像とテキストとの関連を学習するのに役立つ。
実施例3
図3は、本出願の実施例3に係る画像に基づくデータ処理方法のフローチャートである。本出願の実施例は、上記各実施例の技術的解決手段に基づいて操作を具体化する。任意選択で、「テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合する」という操作を「テキストと各オブジェクトの特徴とのマッチング度に応じて、各オブジェクトの特徴を加重合計して、画像の融合特徴を取得する」という操作に具体化する。図3に示す画像に基づくデータ処理方法は、ステップS310〜S340を含む。
ステップS310:画像および処理対象のテキストを取得する。
ステップS320:画像内の複数のオブジェクトの特徴およびテキストの特徴を抽出する。
ステップS330:テキストと各オブジェクトの特徴とのマッチング度に応じて、各オブジェクトの特徴を加重合計して、画像の融合特徴を取得する。
任意選択で、テキストと各オブジェクトの特徴とのマッチング度は、次の2つの代替実施形態により取得され得る。
1つの代替実施形態において、各オブジェクトに対応するバウンディングボックス内の画像およびテキストをマッチングモデルに順次入力し、マッチングモデルによって出力される各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれのマッチング度を取得し、次に各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度に応じて、テキストと各オブジェクトの特徴とのマッチング度を取得する。
もう1つの代替実施形態において、各オブジェクトのカテゴリを取得し、テキスト内において各オブジェクトのカテゴリを検索し、検索結果に基づいてテキストと各オブジェクトの特徴とのマッチング度を確定する。
上記の2つの代替実施形態の詳細な説明については、上記各実施例を参照することができるため、ここではその説明を省略する。
該操作では、テキストと各オブジェクトの特徴とのマッチング度を各オブジェクトの特徴の重み付け値として用いて、重み付け値に対して対応するオブジェクトの特徴を加重合計して、画像の融合特徴を取得する。例えば、「あなたは、熊の足を見えますか?」というテキストと、熊の足の特徴とのマッチング度が90%で、草叢の特徴とのマッチング度が10%で、樹幹とのマッチング度が10%で、熊の脚の特徴とのマッチング度が50%である場合、画像の融合特徴は、90%×熊の足の特徴+10%×草叢の特徴+10%×樹幹の特徴+50%×熊の脚の特徴である。
なお、オブジェクトの特徴の精度と包括性を確保するために、複数のオブジェクトの特徴を融合するとき、複数のオブジェクトの特徴には、次元変換前の特徴を用い、つまり、各オブジェクトに対応するバウンディングボックス内の画像から抽出された各オブジェクトの特徴を用いる。
ステップS340、画像の融合特徴およびテキストの特徴に基づいて、テキストを処理する。
従来技術と比べて、本実施例は、画像の融合特徴で画像の上位レベル特徴を置き換え、融合特徴は、画像の局所的特徴とテキストとのマッチング度についての事前知識を有するため、テキスト処理の精度を向上させるのに役立つことが明らかである。例えば、テキスト内の「熊の足」とオブジェクトである熊の足の特徴とのマッチング度が高い場合、画像に基づくデータ処理装置は、画像内の「熊の足」に対応する領域を正確に見つけることができ、さらに分析により正しい答えが「はい」であると取得できる。
実施例4
図4は、本出願の実施例4に係る画像に基づくデータ処理装置の構造概略図であり、本出願の実施例は、画像を認識することでテキストを処理する場合に適用可能であり、図4に示すように、画像に基づくデータ処理装置は、取得モジュール410と、抽出モジュール420と、融合モジュール430と、処理モジュール440と、を含む。
取得モジュール410は、画像および処理対象のテキストを取得するために用いられる。
抽出モジュール420は、画像内の複数のオブジェクトの特徴およびテキストの特徴を抽出するために用いられる。
融合モジュール430は、テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合するために用いられる。
処理モジュール440は、融合モジュール430によって取得された画像の融合特徴と、抽出モジュール420によって抽出されたテキストの特徴とに基づいて、テキストを処理するために用いられる。
本出願の実施例では、画像および処理対象のテキストを取得し、画像内の複数のオブジェクトの特徴と、テキストの特徴を抽出し、次にテキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合し、次にテキストとオブジェクトの特徴とが関連性があるという事前知識を最大限に活用し、マッチング度に基づいて画像の特徴を調整することにより、融合特徴がテキストに強く関連付けられた部分により多くの注意を支払うようにし、注意力分布の分散化が防止され、次にテキストに強く関連付けられた融合特徴およびテキスト特徴に基づいて、テキストの処理精度を向上させることができる。
任意選択で、該装置は、テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合する前に、各オブジェクトに対応するバウンディングボックス内の画像およびテキストをマッチングモデルに順次入力し、マッチングモデルによって出力される各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれのマッチング度を取得し、次に各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれのマッチング度に応じて、テキストと各オブジェクトの特徴とのマッチング度を取得するために用いられる第1マッチング度取得モジュール、をさらに含む。
任意選択で、マッチングモデルは、各オブジェクトに対応するバウンディングボックス内の画像から各オブジェクトの特徴を抽出するためにの画像特徴抽出ステップと、テキスト内の各単語の特徴を抽出するためのテキスト特徴抽出ステップと、各オブジェクトの特徴次元を事前に設定された次元に変換するための画像特徴次元変換ステップと、テキスト内の各単語の特徴次元を事前に設定された次元に変換するためのテキスト特徴次元変換ステップと、次元変換後、各オブジェクトの特徴と各単語の特徴とのマッチング度を計算するためのマッチングステップと、を含む。
任意選択で、マッチングステップは、具体的には、次元変換後、各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれの距離および/または余弦類似度を計算し、各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度を取得するために用いられる。
任意選択で、該装置は、各オブジェクトに対応するバウンディングボックス内の画像およびテキストをマッチングモデルに順次入力する前に、マッチングモデルをトレーニングするためのポジティブサンプルオブジェクトに対応するバウンディングボックス内の画像、ネガティブサンプルオブジェクトに対応するバウンディングボックス内の画像、およびポジティブサンプルオブジェクトのラベルを取得し、次にポジティブサンプルオブジェクトに対応するバウンディングボックス内の画像、ネガティブサンプルオブジェクトに対応するバウンディングボックス内の画像、およびラベルをマッチングモデルに入力し、ポジティブサンプルオブジェクトの特徴とラベルの特徴との第1マッチング度、およびネガティブサンプルオブジェクトの特徴とラベルの特徴との第2マッチング度を取得し、次に第1マッチング度を最大化して第2マッチング度を最小化するか、または第1マッチング度と第2マッチング度との差を事前に設定された閾値よりも大きくするように、マッチングモデルをトレーニングするためのモデルトレーニングモジュール、をさらに含む。
任意選択で、第1マッチング度取得モデルは、各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれのマッチング度に応じて、テキストと各オブジェクトの特徴とのマッチング度を取得する場合、具体的には、各オブジェクトの特徴とテキスト内の各単語の特徴とのそれぞれのマッチング度のうち、各オブジェクトの特徴に対応する最大マッチング度または平均マッチング度をテキストと各オブジェクトの特徴とのマッチング度として計算するために用いられる。
任意選択で、該装置は、テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合する前に、各オブジェクトのカテゴリを取得し、次にテキスト内の各オブジェクトのカテゴリを検索し、検索結果に基づいてテキストと各オブジェクトの特徴とのマッチング度を確定するための第2マッチング度取得モデル、をさらに含む。
任意選択で、融合モジュール430は、テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合する時、具体的には、テキストと各オブジェクトの特徴とのマッチング度に応じて、各オブジェクトの特徴を加重合計して、画像の融合特徴を取得するために用いられる。
本出願の実施例に係る画像に基づくデータ処理装置は、本出願の任意の実施例に係る画像に基づくデータ処理方法を実行することができ、該方法の実行に必要な機能モジュールおよび有益な効果を有する。
実施例5
図5は、本出願の実施例5に係る電子機器の構造概略図である。図5は、本出願の実施形態を実施するのに適用可能な例示的な電子機器12のブロック図を示している。図5に示される電子機器12は単なる一例に過ぎなく、本出願の実施例の機能および使用範囲にいかなる制限も課すべきではない。
図5に示されるように、電子機器12は、汎用コンピューティングデバイスの形態で具現化される。電子機器12のコンポーネントは、1つまたは複数のプロセッサまたは処理ユニット16と、システムメモリ28と、異なるシステムコンポーネント(システムメモリ28および処理ユニット16を含む)を接続するバス18とを含んでもよいが、これらに限定されない。
バス18は、メモリバスまたはメモリコントローラと、周辺バスと、加速式グラフィックスポートと、プロセッサと、または様々なバス構造のいずれかを使用するローカルバスとを含むいくつかのバス構造のうちの一種または複数種である。例えば、これらのアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MAC)バス、拡張ISAバス、ビデオエレクトロニクス規格協会(VESA)ローカルバス、および周辺機器コンポーネント相互接続(PCI)バスを含むが、これらに限定されない。
電子機器12は通常、様々なコンピュータシステム可読媒体を含む。これらの媒体は、揮発性および不揮発性媒体と、リムーバブルおよびノンリムーバブル媒体とを含む、電子機器からアクセスできる任意の利用可能な媒体であってもよい。
システムメモリ28は、ランダムアクセスメモリ(RAM)30および/またはキャッシュメモリ32などの揮発性メモリの形態のコンピュータシステム可読媒体を含んでもよい。電子機器12は、他のリムーバブル/ノンリムーバブルな、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含むことができる。一例のみとして、記憶システム34は、ノンリムーバブルな不揮発性磁気媒体(図5には図示せず、一般に「ハードディスクドライバ」と呼ばれる)を読み書きするために使用され得る。図5には図示されていないが、リムーバブルな不揮発性磁気ディスク(「フロッピーディスク」など)を読み書きするための磁気ディスクドライバ、およびリムーバブルな不揮発性光学ディスク(CD−ROM、DVD−ROM、またはその他の光学媒体など)を読み書きするための光学ディスクドライバを提供することができる。これらの場合、各ドライバは1つまたは複数のデータ媒体インターフェースを介してバス18に接続することができる。メモリ28は、本出願の各実施例の機能を実行するように構成された1組(例えば、少なくとも1つ)のプログラムモジュールを有する少なくとも1つのプログラム製品を含んでもよい。
1組(例えば、少なくとも1つ)のプログラムモジュール42を有するプログラム/ユーティリティツール40は、例えばメモリ28に記憶されてもよく、そのようなプログラムモジュール42は、オペレーティングシステム、1つまたは複数のアプリケーション、他のプログラムモジュール、およびプログラムデータを含むが、これらに限定されず、これらの例のそれぞれまたはいくつかの組み合わせに、ネットワーク環境の実装が含まれる場合がある。プログラムモジュール42は通常、本出願に記載の実施例の機能および/または方法を実行する。
電子機器12は、1つまたは複数の外部デバイス14(例えば、キーボード、ポインティングデバイス、ディスプレイ24、カメラなど)と通信することもでき、また、ユーザがこの電子機器12と対話することを可能にする1つまたは複数のデバイスと通信することもでき、および/またはこの電子機器12が1つまたは複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信することができる。このような通信は、入力/出力(I/O)インターフェース22を介して行うことができる。また、電子機器12は、ネットワークアダプタ20を介して1つまたは複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、および/またはインターネットなどのパブリックネットワーク)と通信することもできる。図示するように、ネットワークアダプタ20は、バス18を介して電子機器12の他のモジュールと通信する。図示されていないが、マイクロコード、デバイスドライバ、冗長処理ユニット、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライバ、およびデータバックアップ記憶システムなどを含むが、これらに限定されない他のハードウェアおよび/またはソフトウェアモジュールは、電子機器12と組み合わせて使用することが可能であることを理解されたい。
処理ユニット16は、システムメモリ28に記憶されたプログラムを実行することにより、様々な機能アプリケーションおよびデータ処理、例えば本出願の実施例に係る画像に基づくデータ処理方法を実施する。
実施例6
本出願の実施例6は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されるときに実施例のいずれかに係る画像に基づくデータ処理方法を実施するためのコンピュータ可読記憶媒体をさらに提供する。
本出願の実施例のコンピュータ記憶媒体には、1つまたは複数のコンピュータ可読媒体の任意の組み合わせを使用してもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置、またはデバイス、または上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能なプログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ(CD−ROM)、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。本明細書では、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによって使用され得るか、またはそれらと組み合わせて使用され得るプログラムを含むかまたは記憶する任意の有形媒体であってもよい。
コンピュータ可読信号媒体は、ベースバンド内で、またはコンピュータ可読プログラムコードを担持するキャリアの一部として伝搬されるデータ信号を含んでもよい。そのような伝搬されたデータ信号には、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されない様々な形態を採用してもよい。コンピュータ可読信号媒体は、命令実行システム、装置、またはデバイスによって使用されるか、またはそれらと組み合わせて使用されるプログラムを送信、伝搬、または伝送することができるコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。
コンピュータ可読媒体に含まれるプログラムコードは、無線、有線、光ファイバケーブル、RFなど、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって送信することができる。
本出願の操作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む1つまたは複数のプログラミング言語、またはそれらの組み合わせで編集することができる。プログラムコードは、完全にユーザコンピュータ上で実行され得るか、または部分的にユーザコンピュータ上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で実行され得るか、または完全にリモートコンピュータまたはサーバ上で実行され得る。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータに接続され得るか、または外部コンピュータに接続され得る(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続される)。
なお、上記は、本出願の好ましい実施例およびそれに適用した技術的原理に過ぎない。本出願が本明細書に記載の特定の実施例に限定されず、本出願の保護範囲から逸脱することなく様々な修正、変更、および置換を行うことができることを当業者にとっては理解するであろう。従って、本出願を以上の実施例により詳細に説明したが、本出願は以上の実施例に限定されず、本出願の概念から逸脱することなくより多くの他の等価実施例を含むことができ、本出願の範囲は添付の特許請求の範囲によって定められる。

Claims (12)

  1. 画像に基づくデータ処理装置によって実行されるデータ処理方法において、
    画像および処理対象のテキストを取得するステップと、
    画像内の複数のオブジェクトの特徴および前記テキストの特徴を抽出するステップであって、前記オブジェクトの特徴は画像における注意位置及び画像内の各オブジェクトのカテゴリを含み、前記テキストの特徴は前記テキストにおける注意位置及び前記テキスト内の各オブジェクトのカテゴリを含む、ステップと、
    テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合するステップと、
    前記画像の融合特徴およびテキストの特徴に基づいて、前記テキストを処理するステップと、を含むことを特徴とする画像に基づくデータ処理方法。
  2. 前記のテキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合するステップの前に、
    各オブジェクトに対応するバウンディングボックス内の画像およびテキストをマッチングモデルに順次入力し、マッチングモデルによって出力された各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度を取得するステップと、
    各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度に応じて、前記テキストと各オブジェクトの特徴とのマッチング度を取得するステップと、をさらに含むことを特徴とする請求項1に記載の方法。
  3. 前記マッチングモデルは、
    各オブジェクトに対応するバウンディングボックス内の画像から各オブジェクトの特徴を抽出するための画像特徴抽出ステップと、
    テキスト内の各単語の特徴を抽出するためのテキスト特徴抽出ステップと、
    各オブジェクトの特徴次元を事前に設定された次元に変換するための画像特徴次元変換ステップと、
    テキスト内の各単語の特徴次元を前記事前に設定された次元に変換するためのテキスト特徴次元変換ステップと、
    次元変換後、各オブジェクトの特徴と各単語の特徴とのマッチング度を計算するためのマッチングステップと、を含むことを特徴とする請求項2に記載の方法。
  4. 前記マッチングステップは、
    次元変換後、各オブジェクトの特徴とテキスト内の各単語の特徴との距離および/または余弦類似度を計算し、各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度を取得するために用いられることを特徴とする請求項3に記載の方法。
  5. 前記の各オブジェクトに対応するバウンディングボックス内の画像およびテキストをマッチングモデルに順次入力するステップの前に、
    前記マッチングモデルをトレーニングするためのポジティブサンプルオブジェクトに対応するバウンディングボックス内の画像、ネガティブサンプルオブジェクトに対応するバウンディングボックス内の画像、およびポジティブサンプルオブジェクトのラベルを取得するステップと、
    前記ポジティブサンプルオブジェクトに対応するバウンディングボックス内の画像、ネガティブサンプルオブジェクトに対応するバウンディングボックス内の画像、および前記ラベルをマッチングモデルに入力し、ポジティブサンプルオブジェクトの特徴とラベルの特徴との第1マッチング度、およびネガティブサンプルオブジェクトの特徴とラベルの特徴との第2マッチング度を取得するステップと、
    第1マッチング度を最大化して第2マッチング度を最小化するか、または第1マッチング度と第2マッチング度との差を事前に設定された閾値よりも大きくするように、前記マッチングモデルをトレーニングするステップと、をさらに含むことを特徴とする請求項2に記載の方法。
  6. 前記の各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度に応じて、前記テキストと各オブジェクトの特徴とのマッチング度を取得するステップは、
    各オブジェクトの特徴とテキスト内の各単語の特徴とのマッチング度において、各オブジェクトの特徴に対応する最大マッチング度または平均マッチング度を前記テキストと各オブジェクトの特徴とのマッチング度として計算するステップを含むことを特徴とする請求項2に記載の方法。
  7. 前記のテキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合するステップの前に、
    各オブジェクトのカテゴリを取得するステップと、
    テキスト内の各オブジェクトのカテゴリを検索し、検索結果に基づいて、テキストと各オブジェクトの特徴とのマッチング度を確定するステップと、をさらに含むことを特徴とする請求項1に記載の方法。
  8. 前記のテキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合するステップは、
    テキストと各オブジェクトの特徴とのマッチング度に応じて、各オブジェクトの特徴を加重合計して画像の融合特徴を取得することを含むことを特徴とする請求項1〜7のいずれか1項に記載の方法。
  9. 画像および処理対象のテキストを取得するための取得モジュールと、
    画像内の複数のオブジェクトの特徴および前記テキストの特徴を抽出するための抽出モジュールであって、前記オブジェクトの特徴は画像における注意位置及び画像内の各オブジェクトのカテゴリを含み、前記テキストの特徴は前記テキストにおける注意位置及び前記テキスト内の各オブジェクトのカテゴリを含む、抽出モジュールと、
    テキストと複数のオブジェクトのそれぞれの特徴とのマッチング度に応じて、複数のオブジェクトの特徴を画像の融合特徴として融合するための融合モジュールと、
    画像の融合特徴およびテキストの特徴に基づいて、前記テキストを処理するための処理モジュールと、を含むことを特徴とする画像に基づくデータ処理装置。
  10. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを格納するためのメモリと、を含む電子機器であって、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、請求項1〜8のいずれか一項に記載の画像に基づくデータ処理方法を実施させる電子機器。
  11. コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、
    該プログラムがプロセッサによって実行されると、請求項1〜8のいずれか一項に記載の画像に基づくデータ処理方法を実施することを特徴とするコンピュータ可読記憶媒体。
  12. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜8のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2019210905A 2019-02-12 2019-11-21 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム Active JP6893233B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910111412.5 2019-02-12
CN201910111412.5A CN109858555B (zh) 2019-02-12 2019-02-12 基于图像的数据处理方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
JP2020135852A JP2020135852A (ja) 2020-08-31
JP6893233B2 true JP6893233B2 (ja) 2021-06-23

Family

ID=66897798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019210905A Active JP6893233B2 (ja) 2019-02-12 2019-11-21 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム

Country Status (5)

Country Link
US (1) US11151406B2 (ja)
EP (1) EP3696729A1 (ja)
JP (1) JP6893233B2 (ja)
KR (1) KR102266529B1 (ja)
CN (1) CN109858555B (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334749B (zh) * 2019-06-20 2021-08-03 浙江工业大学 基于注意力机制的对抗攻击防御模型、构建方法及应用
CN111125422B (zh) * 2019-12-13 2024-04-02 北京达佳互联信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质
US11645505B2 (en) * 2020-01-17 2023-05-09 Servicenow Canada Inc. Method and system for generating a vector representation of an image
CN111611420B (zh) * 2020-05-26 2024-01-23 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN111782838B (zh) * 2020-06-30 2024-04-05 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN112163465B (zh) * 2020-09-11 2022-04-22 华南理工大学 细粒度图像分类方法、系统、计算机设备及存储介质
CN114969417B (zh) * 2020-09-23 2023-04-11 华为技术有限公司 图像重排序方法、相关设备及计算机可读存储介质
CN112100358A (zh) * 2020-09-27 2020-12-18 四川长虹电器股份有限公司 一种基于匹配算法的视觉问答方法及系统
CN113903432B (zh) * 2020-11-18 2024-08-27 苏州律点信息科技有限公司 影像分辨率提高方法、装置、电子设备及存储介质
CN113516143B (zh) * 2020-11-26 2024-08-27 腾讯科技(深圳)有限公司 文本图像匹配方法、装置、计算机设备及存储介质
CN112417132B (zh) * 2020-12-17 2023-11-17 南京大学 一种利用谓宾信息筛选负样本的新意图识别方法
CN112541475B (zh) * 2020-12-24 2024-01-19 北京百度网讯科技有限公司 感知数据检测方法及装置
CN112580620A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 标志图片处理方法、装置、设备和介质
CN112613293B (zh) * 2020-12-29 2024-05-24 北京中科闻歌科技股份有限公司 摘要生成方法、装置、电子设备及存储介质
KR102533775B1 (ko) * 2020-12-31 2023-05-19 중앙대학교 산학협력단 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법
KR20220098315A (ko) * 2020-12-31 2022-07-12 센스타임 인터내셔널 피티이. 리미티드. 화상 처리 방법과 장치, 전자 디바이스 및 기록 매체
CN112926586A (zh) * 2021-02-19 2021-06-08 北京大米未来科技有限公司 一种文本识别的方法、装置、可读存储介质和电子设备
CN113033307B (zh) * 2021-02-22 2024-04-02 浙江大华技术股份有限公司 对象的匹配方法、装置、存储介质及电子装置
KR102279797B1 (ko) * 2021-03-05 2021-07-21 전남대학교산학협력단 멀티모달 데이터 융합 시스템 및 방법
CN113222026B (zh) * 2021-05-18 2022-11-11 合肥工业大学 一种机务段场景视觉问答方法、系统及服务器
CN113342995B (zh) * 2021-07-05 2022-12-02 成都信息工程大学 一种基于路径语义和特征提取的负样本提取方法
CN113609279B (zh) * 2021-08-05 2023-12-08 湖南特能博世科技有限公司 一种物料型号提取方法、装置及计算机设备
CN113709548B (zh) * 2021-08-09 2023-08-25 北京达佳互联信息技术有限公司 基于图像的多媒体数据合成方法、装置、设备及存储介质
CN114329068B (zh) * 2021-08-11 2024-05-31 腾讯科技(深圳)有限公司 一种数据处理方法及装置、电子设备、存储介质
CN113792617B (zh) * 2021-08-26 2023-04-18 电子科技大学 一种结合图像信息和文本信息的图像解译方法
JPWO2023157265A1 (ja) * 2022-02-18 2023-08-24
CN114626455A (zh) * 2022-03-11 2022-06-14 北京百度网讯科技有限公司 金融信息处理方法、装置、设备、存储介质及产品
CN115690149B (zh) * 2022-09-27 2023-10-20 江苏盛利智能科技有限公司 显示器的图像融合处理系统及方法
CN115456176B (zh) * 2022-10-10 2023-07-21 延边大学 一种基于知识增强的文本匹配方法及系统
CN115661727B (zh) * 2022-12-27 2023-04-28 苏州浪潮智能科技有限公司 视频的行为定位方法、装置、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384408B2 (en) * 2011-01-12 2016-07-05 Yahoo! Inc. Image analysis system and method using image recognition and text search
US9965705B2 (en) 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US10489448B2 (en) 2016-06-02 2019-11-26 Baidu Usa Llc Method and system for dynamically ranking images to be matched with content in response to a search query
US20170364492A1 (en) * 2016-06-20 2017-12-21 Machine Learning Works, LLC Web content enrichment based on matching images to text
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
CN110532571B (zh) 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108446404B (zh) * 2018-03-30 2021-01-05 中国科学院自动化研究所 面向无约束视觉问答指向问题的检索方法及系统
CN108920587B (zh) * 2018-06-26 2021-09-24 清华大学 融合外部知识的开放域视觉问答方法及装置
CN108898185A (zh) * 2018-07-03 2018-11-27 北京字节跳动网络技术有限公司 用于生成图像识别模型的方法和装置
CN109241267B (zh) * 2018-09-27 2022-07-01 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质

Also Published As

Publication number Publication date
CN109858555A (zh) 2019-06-07
KR20200098379A (ko) 2020-08-20
US11151406B2 (en) 2021-10-19
CN109858555B (zh) 2022-05-17
US20200257922A1 (en) 2020-08-13
KR102266529B1 (ko) 2021-06-17
EP3696729A1 (en) 2020-08-19
JP2020135852A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
JP6893233B2 (ja) 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN114298121B (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN113837257B (zh) 一种目标检测方法及装置
CN110851641A (zh) 跨模态检索方法、装置和可读存储介质
CN115526259A (zh) 一种多模态预训练模型的训练方法和装置
CN110580516B (zh) 一种基于智能机器人的交互方法及装置
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN112085120A (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN112465144A (zh) 基于有限知识的多模态示范意图生成方法及装置
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
US20210271705A1 (en) Generating accurate and natural captions for figures
Farahani et al. Automatic chart understanding: a review
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
CN118350464A (zh) 基于任意粒度文本输入的对话式目标定位方法及装置
CN114911910A (zh) 问答系统、方法、电子设备及存储介质
Jambhulkar et al. Real-Time Object Detection and Audio Feedback for the Visually Impaired
CN114842482B (zh) 一种图像分类方法、装置、设备和存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
Yao et al. Decision-tree-based algorithm for 3D sign classification
CN114238587A (zh) 阅读理解方法、装置、存储介质及计算机设备
CN112801078A (zh) 兴趣点poi的匹配方法、装置、电子设备及存储介质
CN110096259A (zh) 一种Web页面元素定位方法及系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210429

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210531

R150 Certificate of patent or registration of utility model

Ref document number: 6893233

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250