JP7164729B2 - クロスモーダル情報検索方法及びその装置、並びに記憶媒体 - Google Patents

クロスモーダル情報検索方法及びその装置、並びに記憶媒体 Download PDF

Info

Publication number
JP7164729B2
JP7164729B2 JP2021547620A JP2021547620A JP7164729B2 JP 7164729 B2 JP7164729 B2 JP 7164729B2 JP 2021547620 A JP2021547620 A JP 2021547620A JP 2021547620 A JP2021547620 A JP 2021547620A JP 7164729 B2 JP7164729 B2 JP 7164729B2
Authority
JP
Japan
Prior art keywords
information
modal
feature
attentional
modal information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021547620A
Other languages
English (en)
Other versions
JP2022509327A (ja
Inventor
ズーハオ ワン
ジン シャオ
ホンション リー
ジュンジエ イエン
シアオガン ワン
リュー ション
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022509327A publication Critical patent/JP2022509327A/ja
Application granted granted Critical
Publication of JP7164729B2 publication Critical patent/JP7164729B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

(関連出願への相互参照)
本開示は、2019年1月31日に中国特許庁に提出された、出願番号が201910109983.5であり、出願名称が「クロスモーダル情報検索方法及びその装置、並びに記憶媒体」である中国特許出願に対する優先権を主張し、その全ての内容が参照により本開示に組み込まれる。
本開示は、コンピュータ技術分野に関し、特にクロスモーダル情報検索方法及びその装置、並びに記憶媒体に関する。
コンピュータネットワークの開発に伴い、ユーザは、ネットワーク上で大量の情報を取得することができる。情報量が膨大であるため、通常、ユーザは、文字又はピクチャーを入力することで、注目している情報を検索することができる。情報検索技術の継続的な最適化の過程で、クロスモーダル情報検索方法が出現する。クロスモーダル情報検索方法では、あるモーダルサンプルを使用し、およそのセマンティックを持つ他のモーダルサンプルを検索することができる。例えば、画像を使用して対応するテキストを検索するか、又はテキストを使用して対応する画像を検索する。
これに鑑み、本開示は、クロスモーダル情報検索技術的解決策を提供する。
本開示の一態様によるクロスモーダル情報検索方法は、
第一のモーダル情報と第二のモーダル情報を取得することと、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定することと、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定することと、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することと、を含む。
一つの可能な実施形態では、
前記第一のセマンティック特徴は、第一の分岐セマンティック特徴と第一の全体的セマンティック特徴を含み、前記第一の注意力特徴は、第一の分岐注意力特徴と第一の全体的注意力特徴を含み、
前記第二のセマンティック特徴は、第二の分岐セマンティック特徴と第二の全体的セマンティック特徴を含み、前記第二の注意力特徴は、第二の分岐注意力特徴と第一の全体的注意力特徴を含む。
一つの可能な実施形態では、前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定することは、
前記第一のモーダル情報を少なくとも1つの情報ユニットに分割することと、
各情報ユニットで第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を決定することと、
各前記情報ユニットの第一のモーダル特徴に基づき、セマンティック特徴空間の第一の分岐セマンティック特徴を抽出することと、
各前記情報ユニットの第一のモーダル特徴に基づき、注意力特徴空間の第一の分岐注意力特徴を抽出することと、を含む。
一つの可能な実施形態では、前記方法はさらに、
各情報ユニットの第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報の第一の全体的セマンティック特徴を決定することと、
各情報ユニットの第一の分岐注意力特徴に基づき、前記第一のモーダル情報の第一の全体的注意力特徴を決定することと、を含む。
一つの可能な実施形態では、前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定することは、
前記第二のモーダル情報を少なくとも1つの情報ユニットに分割することと、
各情報ユニットで第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を決定することと、
各情報ユニットの第二のモーダル特徴に基づき、セマンティック特徴空間の第二の分岐セマンティック特徴を抽出することと、
各情報ユニットの第二のモーダル特徴に基づき、注意力特徴空間の第二の分岐注意力特徴を抽出することと、を含む。
一つの可能な実施形態では、前記方法はさらに、
各情報ユニットの第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報の第二の全体的セマンティック特徴を決定することと、
各情報ユニットの第二の分岐注意力特徴に応じて、前記第二のモーダル情報の第二の全体的注意力特徴を決定することと、を含む。
一つの可能な実施形態では、前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することは、
前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定することと、
前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定することと、
前記第一の注意力情報と前記第二の注意力情報に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することと、を含む。
一つの可能な実施形態では、前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定することは、
前記第一のモーダル情報の第一の分岐注意力特徴と前記第二のモーダル情報の第二全体的注意力特徴に応じて、第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報を決定することと、
第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報と前記第一のモーダル情報の第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報に対する前記第二のモーダル情報の第一の注意力情報を決定することと、を含む。
一つの可能な実施形態では、前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定することは、
前記第二のモーダル情報の第二の分岐注意力特徴と前記第一のモーダル情報の第一全体的注意力特徴に応じて、前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報を決定することと、
前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報と前記第二のモーダル情報の第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報に対する前記第一のモーダル情報の第二の注意力情報を決定することと、を含む。
1つの可能な実施形態では、前記第一のモーダル情報は、第一のモーダルの検索待ち情報であり、前記第二のモーダル情報は、第二のモーダルの予め記憶された情報であり、前記方法はさらに、
前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することを含む。
1つの可能な実施形態では、前記第二のモーダル情報は複数であり、前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することは、
前記第一のモーダル情報と各第二のモーダル情報の間の類似度に応じて、複数の第二のモーダル情報をソートし、ソート結果を取得することと、
前記ソート結果に応じて、前記予め設定された条件を満たしている第二のモーダル情報を決定することと、
前記予め設定された条件を満たしている第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することと、を含む。
一つの可能な実施形態では、前記予め設定された条件は、
類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む。
1つの可能な実施形態では、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用した後、前記方法はさらに、
前記検索結果をクライアントに出力することを含む。
1つの可能な実施形態では、前記第一のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含み、前記第二のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含む。
1つの可能な実施形態では、前記第一のモーダル情報は、第一のモーダルのトレーニングサンプル情報であり、前記第二のモーダル情報は、第二のモーダルのトレーニングサンプル情報であり、各第一のモーダルのトレーニングサンプル情報と第二のモーダルのトレーニングサンプル情報は、トレーニングサンプルペアを形成する。
本開示の別の態様によるクロスモーダル情報検索装置は、
第一のモーダル情報と第二のモーダル情報を取得するように構成される取得モジュールと、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定するように構成される第一の決定モジュールと、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定するように構成される第二の決定モジュールと、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定モジュールと、を備える。
一つの可能な実施形態では、
前記第一のセマンティック特徴は、第一の分岐セマンティック特徴と第一の全体的セマンティック特徴を含み、前記第一の注意力特徴は、第一の分岐注意力特徴と第一の全体的注意力特徴を含み、
前記第二のセマンティック特徴は、第二の分岐セマンティック特徴と第二の全体的セマンティック特徴を含み、前記第二の注意力特徴は、第二の分岐注意力特徴と第二の全体的注意力特徴を含む。
一つの可能な実施形態では、前記第一の決定モジュールは、
前記第一のモーダル情報を少なくとも1つの情報ユニットに分割するように構成される第一の分割サブモジュールと、
各情報ユニットで第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を決定するように構成される第一のモーダル決定サブモジュールと、
各前記情報ユニットの第一のモーダル特徴に基づき、セマンティック特徴空間の第一の分岐セマンティック特徴を抽出するように構成される第一の分岐セマンティック抽出サブモジュールと、
各前記情報ユニットの第一のモーダル特徴に基づき、注意力特徴空間の第一の分岐注意力特徴を抽出するように構成される第一の分岐注意力抽出サブモジュールと、を含む。
一つの可能な実施形態では、前記装置はさらに、
各情報ユニットの第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報の第一の全体的セマンティック特徴を決定するように構成される第一の全体的セマンティック決定サブモジュールと、
各情報ユニットの第一の分岐注意力特徴に応じて、前記第一のモーダル情報の第一の全体的注意力特徴を決定するように構成される第一の全体的注意力決定サブモジュールと、を備える。
一つの可能な実施形態では、前記第二の決定モジュールは、
前記第二のモーダル情報を少なくとも1つの情報ユニットに分割するように構成される第二の分割サブモジュールと、
各情報ユニットで第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を決定するように構成される第二のモーダル決定サブモジュールと、
各情報ユニットの第二のモーダル特徴に基づき、セマンティック特徴空間の第二の分岐セマンティック特徴を抽出するように構成される第二の分岐セマンティック抽出サブモジュールと、
各情報ユニットの第二のモーダル特徴に基づき、注意力特徴空間の第二の分岐注意力特徴を抽出するように構成される第二の分岐注意力抽出サブモジュールと、を含む。
一つの可能な実施形態では、前記装置はさらに、
各情報ユニットの第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報の第二の全体的セマンティック特徴を決定するように構成される第二の全体的セマンティック決定サブモジュールと、
各情報ユニットの第二の分岐注意力特徴に応じて、前記第二のモーダル情報の第二の全体的注意力特徴を決定するように構成される第二の全体的注意力決定サブモジュールと、を備える。
一つの可能な実施形態では、前記類似度決定モジュールは、
前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定するように構成される第一の注意力情報決定サブモジュールと、
前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定するように構成される第二の注意力情報決定サブモジュールと、
前記第一の注意力情報と前記第二の注意力情報に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定サブモジュールと、を含む。
一つの可能な実施形態では、前記第一の注意力情報決定サブモジュールは、具体的には、
前記第一のモーダル情報の第一の分岐注意力特徴と前記第二のモーダル情報の第二全体的注意力特徴に応じて、第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報を決定し、
第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報と前記第一のモーダル情報の第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報に対する前記第二のモーダル情報の第一の注意力情報を決定するように構成される。
一つの可能な実施形態では、前記第二の注意力情報決定サブモジュールは、具体的には、
前記第二のモーダル情報の第二の分岐注意力特徴と前記第一のモーダル情報の第一全体的注意力特徴に応じて、前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報を決定し、
前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報と前記第二のモーダル情報の第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報に対する前記第一のモーダル情報の第二の注意力情報を決定するように構成される。
1つの可能な実施形態では、前記第一のモーダル情報は、第一のモーダルの検索待ち情報であり、前記第二のモーダル情報は、第二のモーダルの予め記憶された情報であり、前記装置はさらに、
前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するように構成される検索結果決定モジュールを備える。
一つの可能な実施形態では、前記第二のモーダル情報は複数であり、前記検索結果決定モジュールは、
前記第一のモーダル情報と各第二のモーダル情報の間の類似度に応じて、複数の第二のモーダル情報をソートし、ソート結果を取得するように構成されるソートサブモジュールと、
前記ソート結果に応じて、前記予め設定された条件を満たしている第二のモーダル情報を決定するように構成される情報決定サブモジュールと、
前記予め設定された条件を満たしている第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するように構成される検索結果決定サブモジュールと、を含む。
一つの可能な実施形態では、前記予め設定された条件は、
類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む。
一つの可能な実施形態では、前記装置はさらに、
前記検索結果をクライアントに出力するように構成される出力モジュールを備える。
1つの可能な実施形態では、前記第一のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含み、前記第二のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含む。
1つの可能な実施形態では、前記第一のモーダル情報は、第一のモーダルのトレーニングサンプル情報であり、前記第二のモーダル情報は、第二のモーダルのトレーニングサンプル情報であり、各第一のモーダルのトレーニングサンプル情報と第二のモーダルのトレーニングサンプル情報は、トレーニングサンプルペアを形成する。
本開示の別の態様によるクロスモーダル情報検索装置は、プロセッサと、プロセッサ実行可能命令を格納するように構成されるメモリと、を備え、前記プロセッサが上記方法を実行するように構成される。
本開示の別の態様によるコンピュータプログラム命令を記憶する不揮発性コンピュータ可読記憶媒体は、前記コンピュータプログラム命令がプロセッサに実行されると上記方法を実現する。
本開示の実施例では、第一のモーダル情報と第二のモーダル情報を取得することで、第一のモーダル情報のモーダル特徴に応じて第一のモーダル情報の第一のセマンティック特徴と第一の注意力特徴をそれぞれ決定することができ、第二のモーダル情報のモーダル特徴に応じて前記第二のモーダル情報の第二のセマンティック特徴と第二の注意力特徴をそれぞれ決定することができ、さらに第一の注意力特徴、第二の注意力特徴、第一のセマンティック特徴及び第二のセマンティック特徴に基づき、第一のモーダル情報と第二のモーダル情報の間の類似度を決定することができる。このようにして、異なるモーダル情報のセマンティック特徴と注意力特徴を利用し、異なるモーダル情報間の類似度を取得することができ、従来技術における特徴抽出の品質に対して、本開示の実施例は、異なるモーダル情報のセマンティック特徴と注意力特徴をそれぞれ処理することにより、クロスモーダル情報検索プロセスにおける特徴抽出の品質への依存度を低減することができ、且つ方法が簡単であり、時間の複雑さが低く、それによってクロスモーダル情報検索の効率を向上させることができる。
以下の図面を参照する例示的な実施例の詳細な説明によれば、本開示の他の特徴及び態様が明らかになる。
本開示の一実施例によるクロスモーダル情報検索方法を示すフローチャートである。 本開示の一実施例による第一のセマンティック特徴と第一の注意力特徴を決定することを示すフローチャートである。 本開示の一実施例によるクロスモーダル情報検索プロセスを示すブロック図である。 本開示の一実施例による第二のセマンティック特徴と第二の注意力特徴を決定することを示すフローチャートである。 本開示の一実施例による類似度に基づいて検索結果が一致であることを決定することを示すブロック図である。 本開示の一実施例によるクロスモーダル情報検索を示すフローチャートである。 本開示の一実施例によるクロスモーダル情報検索装置を示すブロック図である。 本開示の一実施例によるクロスモーダル情報検索装置を示すブロック図である。
明細書に含まれ且つ明細書の一部の図面は、明細書とともに本開示の例示的な実施例、特徴及び態様を示し、且つ本開示の原理を解釈するために使用される。
以下に図面を参照しながら本開示の様々な例示的な実施例、特徴及び態様を詳細に説明する。図面における同じ符号は、機能が同じであるか又は類似する機能素子を表す。実施例の様々な態様が図面に示されているが、特に断りのない限り、図面は必ずしも一定の縮尺で描かれているわけではない。
ここでの「例示的」という専用の単語は、「例、実施例又は例示として機能する」を意味する。ここで「例示的」として説明されるいかなる実施例は他の実施例よりも優れるか又は良いものと解釈される必要がない。
また、本開示をより良く説明するために、以下の具体的な実施形態では多くの具体的な詳細が示される。当業者は、いくつかの具体的な詳細がない場合でも本開示が実施されてもよいことを理解すべきである。いくつかの実施例では、本開示の要旨を強調するように、当業者によく知られている方法、手段、素子と回路について詳細に説明しない。
本開示の実施例における下記の方法、装置、電子機器又はコンピュータ記憶媒体は、クロスモーダル情報を検索する必要がある任意のシナリオに応用でき、例えば、検索ソフトウェア、情報位置決めなどに適用できる。本開示の実施例は、具体的な応用シナリオを限定するものではなく、本開示の実施例によって提供される方法を使用してクロスモーダル情報を検索する任意の解決策は、いずれも本開示の保護範囲内に含まれる。
本開示の実施例によるクロスモーダル情報検索方法では、第一のモーダル情報と第二のモーダル情報をそれぞれ取得し、第一のモーダル情報のモーダル特徴に応じて第一のモーダル情報の第一のセマンティック特徴と第一の注意力特徴を決定し、第二のモーダル情報のモーダル特徴に応じて第二のモーダル情報の第二のセマンティック特徴と第二の注意力特徴を決定することができ、第一のモーダル情報と第二のモーダル情報が異なるモーダル情報であるため、第一のモーダル情報及び第二のモーダル情報のセマンティック特徴と注意力特徴を並行して処理することができ、その後第一の注意力特徴、第二の注意力特徴、第一のセマンティック特徴及び第二のセマンティック特徴に基づき、第一のモーダル情報と前記第二のモーダル情報の類似度を決定することができる。このようにして、注意力特徴は、モーダル情報のセマンティック特徴からデカップリングされ、個別の特徴として処理されてもよく、同時に、第一のモーダル情報と第二のモーダル情報の間の類似度を低い時間複雑さで決定し、クロスモーダル情報検索の効率を向上させることができる。
関連技術では、通常、モーダル情報のセマンティック特徴の品質を向上させることでクロスモーダル情報検索の精度を向上させるが、特徴の類似度を最適化することでクロスモーダル情報検索の精度を向上させない。この方式は、モーダル情報から抽出された特徴の品質に依存しすぎているため、クロスモーダル情報の取得効率が低すぎる。本開示の実施例は、特徴類似度を最適化することでクロスモーダル情報検索の精度を向上させ、且つ時間複雑さが低いため、検索プロセスにクロスモーダル情報の検索精度を保証することができるだけでなく、検索効率を向上させることもできる。以下に図面を参照しながら本開示の実施によるクロスモーダル情報検索方法を詳しく説明する。
図1は本開示の一実施例によるクロスモーダル情報検索方法を示すフローチャートである。図1に示すように、当該方法は、次のステップを含む。
ステップ11において、第一のモーダル情報と第二のモーダル情報を取得する。
本開示の実施例では、検索装置(例えば、検索ソフトウェア、検索プラットフォーム、検索サーバーなどの検索装置)は、第一のモーダル情報又は第2のモーダル情報を取得することができる。例えば、検索装置は、ユーザ装置によって送信された第一のモーダル情報又は第二のモーダル情報を取得し、また、例えば、検索装置は、ユーザ操作に従って、第一のモーダル情報又は第二のモーダル情報を取得する。検索プラットフォームは、ローカルメモリ又はデータベースから第一のモーダル情報又は第二のモーダル情報を取得することもできる。ここで、第一のモーダル情報と第二のモーダル情報は、異なるモーダル情報であり、例えば、第一のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含むことができ、第二のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含むことができる。ここでの第一のモーダル情報と第二のモーダル情報は、画像情報とテキスト情報に限定されず、音声情報、ビデオ情報及び光信号情報などを含むことができる。ここでのモーダルは、情報の種類又は存在形態として理解されてもよい。第一のモーダル情報と第二のモーダル情報は、異なるモーダル情報であってもよい。
ステップ12において、前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定する。
ここで、検索装置は、第一のモーダル情報を取得した後、第一のモーダル情報のモーダル特徴を決定することができる。第一のモーダル情報のモーダル特徴は、第一のモーダル特徴ベクトルを形成することができ、次いで、第一のモーダル特徴ベクトルに基づいて第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定することができる。ここで、第一のセマンティック特徴は、第一の分岐セマンティック特徴と第一の全体的セマンティック特徴を含むことができ、第一の注意力特徴は、第一の分岐注意力特徴と第一の全体的注意力特徴を含むことができる。第一のセマンティック特徴は、第一のモーダル情報のセマンティックを示すことができ、第一の注意力特徴は、第一のモーダル情報の注意力を示すことができる。ここでの注意力は、モーダル情報を処理するときに、モーダル情報における一部の情報ユニットへ投入された処理リソースとして理解されてもよい。例えば、テキスト情報を例とすすると、「赤」や「シャツ」などのテキスト情報内の名詞は、「and」や「or」などのテキスト情報内の連語よりも多くの注意力を有することができる。
図2は本開示の一実施例による第一のセマンティック特徴と第一の注意力特徴を決定することを示すフローチャートである。一つの可能な実施形態では、第一のモーダル情報のモーダル特徴に応じて、第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定する時に、以下のステップを含むことができる。
ステップ121において、前記第一のモーダル情報を少なくとも1つの情報ユニットに分割する。
ステップ122において、各情報ユニットで第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を決定する。
ステップ123、各前記情報ユニットの第一のモーダル特徴に基づき、セマンティック特徴空間の第一の分岐セマンティック特徴を抽出する。
ステップ124、各前記情報ユニットの第一のモーダル特徴に基づき、注意力特徴空間の第一の分岐注意力特徴を抽出する。
ここで、第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定する時に、第一のモーダル情報を複数の情報ユニットに分割することができる。分割する時に、予め設定された情報ユニットのサイズに従って第一のモーダル情報を、各情報ユニットのサイズが等しくなるように分割する。又は、第一のモーダル情報をサイズが異なる複数の情報ユニットに分割する。例えば、第一のモーダル情報が画像情報である場合、1つの画像を複数の画像ユニットに分割することができる。1つのモーダル情報を複数の情報ユニットに分割した後、各情報ユニットに対して第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を取得することができる。各情報ユニットの第一のモーダル特徴は、1つの第一のモーダル特徴ベクトルを形成することができる。次に、第一のモーダル特徴ベクトルをセマンティック特徴空間の第一の分岐セマンティック特徴ベクトルに変換し、第一のモーダル特徴ベクトルを注意力空間の第一の分岐注意力特徴に変換することができる。
一つの可能な実施形態では、第一のモーダル情報の第一の分岐セマンティック特徴に応じて第一の全体的セマンティック特徴を決定し、第一のモーダル情報の第一の分岐注意力特徴に応じて第一の全体的セマンティック特徴を決定することができる。ここで、第一のモーダル情報は、複数の情報ユニットを含むことができる。第一の分岐セマンティック特徴は、第一のモーダル情報の各情報ユニットに対応するセマンティック特徴を示すことができ、第一の全体的セマンティック特徴は、第一のモーダル情報に対応するセマンティック特徴を示すことができる。第一の分岐注意力特徴は、第一のモーダル情報の各情報ユニットに対応する注意力特徴を示すことができ、第一の全体的注意力特徴は、第一のモーダル情報に対応する注意力特徴を示すことができる。
図3は本開示の一実施例によるクロスモーダル情報検索プロセスを示すブロック図である。例えば、第一のモーダル情報が画像情報であることを例とすると、検索装置は、画像情報を取得した後、画像情報を複数の画像ユニットに分割することができ、その後畳み込みニューラルネットワーク(CNN)モデルを使用して各画像ユニットの画像特徴を抽出し、各画像ユニットの画像特徴ベクトル(第一のモーダル特徴の例)を生成することができる。画像ユニットの画像特徴ベクトルは、式(1)のように表されてもよい。
Figure 0007164729000001
(1)
ここで、Rは画像ユニットの数であり、dは画像特徴ベクトルの次元であり、
Figure 0007164729000002
がi番目の画像ユニットの画像特徴ベクトルであり、
Figure 0007164729000003
が実数行列として表される。画像情報の場合、画像情報に対応する画像特徴ベクトルは、式(2)のように表されてもよい。
Figure 0007164729000004
(2)
次に、各画像ユニットの画像特徴ベクトルを線形マッピングすることで、画像情報の第一の分岐セマンティック特徴を取得することができ、それに応じて線形マッピング関数は、Wvとして表されてもよく、画像情報の第一の分岐セマンティック特徴に対応する第一の分岐セマンティック特徴ベクトルは、式(3)のように表されてもよい。
Figure 0007164729000005
(3)
それに応じて、
Figure 0007164729000006
に対して同じ線形マッピングを行った後、画像情報の第一の全体的セマンティック特徴によって形成された第一の全体的セマンティック特徴ベクトル
Figure 0007164729000007
を取得することができる。
それに応じて、検索装置は、各画像ユニットのグラフィック特徴ベクトルを線形マッピングし、画像情報の第一の分岐注意力特徴を取得することができ、注意力特徴マッピングが行われる線形関数は、Uvとして表されてもよく、画像情報の第一の分岐注意力特徴に対応する第一の分岐注意力特徴ベクトルは、式(4)のように表されてもよい。
Figure 0007164729000008
(4)。
それに応じて、
Figure 0007164729000009
に対して同じ線形マッピングを行った後、画像情報の第一の全体的注意力特徴
Figure 0007164729000010
を取得することができる。
ステップ13において、前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定する。
ここで、検索装置は、第二のモーダル情報を取得した後、第二のモーダル情報のモーダル特徴を決定することができる。第二のモーダル情報のモーダル特徴は、第二のモーダル特徴ベクトルを形成することができ、次いで、検索装置は、第二のモーダル特徴ベクトルに基づいて第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定することができる。ここで、第二のセマンティック特徴は、第二の分岐セマンティック特徴と第二の全体的セマンティック特徴を含むことができ、前記第二の注意力特徴は、第二の分岐注意力特徴と第二の全体的注意力特徴を含むことができる。第二のセマンティック特徴は、第二のモーダル情報のセマンティックを示すことができ、第二の注意力特徴は、第二のモーダル情報の注意力を示すことができる。ここで、第一のセマンティック特徴及び第二のセマンティック特徴に対応する特徴空間は同じであってもよい。
図4は本開示の一実施例による第二のセマンティック特徴と第二の注意力特徴を決定することを示すフローチャートである。一つの可能な実施形態では、第二のモーダル情報のモーダル特徴に応じて、第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定する時に、前記方法は、以下のステップを含むことができる。
ステップ131において、前記第二のモーダル情報を少なくとも1つの情報ユニットに分割する。
ステップ132において、各情報ユニットで第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を決定する。
ステップ133において、各前記情報ユニットの第二のモーダル特徴に基づき、セマンティック特徴空間の第二の分岐セマンティック特徴を抽出する。
ステップ134において、各前記情報ユニットの第二のモーダル特徴に基づき、注意力特徴空間の第二の分岐注意力特徴を抽出する。
ここで、第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定する時に、第二のモーダル情報を複数の情報ユニットに分割することができる。分割する時に、予め設定された情報ユニットのサイズに従って第二のモーダル情報を、各情報ユニットのサイズが等しくなるように分割するか、又は第二のモーダル情報をサイズが異なる複数の情報ユニットに分割することができる。例えば、第二のモーダル情報がテキスト情報である場合、1つのテキスト内の各単語を1つのテキストユニットに分割することができる。第二のモーダル情報を複数の情報ユニットに分割した後、各情報ユニットに対して第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を取得することができる。各情報ユニットの第二のモーダル特徴は、1つの第二のモーダル特徴ベクトルを形成することができる。次に、第二のモーダル特徴ベクトルをセマンティック特徴空間の第二の分岐セマンティック特徴ベクトルに変換し、第二のモーダル特徴ベクトルを注意力空間の第二の分岐注意力特徴に変換することができる。ここで、第二のセマンティック特徴に対応するセマンティック特徴空間は、第一のセマンティック特徴に対応するセマンティック特徴空間と同じであり、ここでの特徴空間が同じであることは、特徴に対応する特徴ベクトルの次元が同じであると理解されてもよい。
1つの可能な実施形態では、第二のモーダル情報の第二の分岐セマンティック特徴に応じて第二の全体的セマンティック特徴を決定し、第二のモーダル情報の第二の分岐注意力特徴に応じて第二の全体的注意力特徴を決定することができる。ここで、第二のモーダル情報は、複数の情報ユニットを含むことができる。第二の分岐セマンティック特徴は、第二のモーダル情報の各情報ユニットに対応するセマンティック特徴を示すことができ、第二の全体的セマンティック特徴は、第二のモーダル情報に対応するセマンティック特徴を示すことができる。第二の分岐注意力特徴は、第二のモーダル情報の各情報ユニットに対応する注意力特徴を示すことができ、第二の全体的注意力特徴は、第二のモーダル情報に対応する注意力特徴を示すことができる。
図3に示すように、第二のモーダル情報がテキスト情報であることを例とすると、検索装置は、テキスト情報を取得した後、テキスト情報を複数のテキストユニットに分割し、例えばテキスト情報の各単語を1つのテキストユニットとして使用することができる。次に、再帰ニューラルネットワーク(GRU)モデルを使用して各テキストユニットのテキスト特徴を抽出し、各テキストユニットのテキスト特徴ベクトル(第二のモーダル特徴の例)を生成することができる。テキストユニットのテキスト特徴ベクトルは、式(5)のように表されてもよい。
Figure 0007164729000011
(5);
ここで、Tはテキストユニットの数であり、dはテキスト特徴ベクトルの次元であり、
Figure 0007164729000012
がj番目のテキストユニットのテキスト特徴ベクトルである。テキスト情報の場合、テキスト情報全体に対応するテキスト特徴ベクトルは、式(6)のように表されてもよい。
Figure 0007164729000013
(6)
次に、各テキストユニットのテキスト特徴ベクトルを線形マッピングすることで、テキスト情報の第二の分岐セマンティック特徴を取得することができ、それに応じて線形マッピング関数は、Wsとして表されてもよく、テキスト情報の第二のセマンティック特徴の第二のセマンティック特徴ベクトルは、式(7)のように表されてもよい。
Figure 0007164729000014
(7)。
それに応じて、
Figure 0007164729000015
に対して同じ線形マッピングを行った後、テキスト情報の第二の全体的セマンティック特徴によって形成された第二の全体的セマンティック特徴ベクトル
Figure 0007164729000016
を取得することができる。
それに応じて、検索装置は、各テキストユニットのテキスト特徴ベクトルを線形マッピングし、テキスト情報の第二の分岐注意力特徴を取得することができ、注意力特徴マッピングが行われる線形関数は、Uとして表されてもよく、テキスト情報の第二の分岐注意力特徴に対応する第二の分岐注意力特徴ベクトルは、式(8)のように表されてもよい。
Figure 0007164729000017
(8)
それに応じて、
Figure 0007164729000018
に対して同じ線形マッピングを行った後、テキスト情報の第二の全体的注意力特徴によって形成された第二の全体的注意力特徴ベクトル
Figure 0007164729000019
を取得することができる。
ステップ14において、前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定する。
本開示の実施例では、検索装置は、第一のモーダル情報の第一の注意力特徴と第二のモーダル情報の第二の注意力特徴に応じて、第一のモーダル情報と第二のモーダル情報の間の相互注意の注意程度を決定することができる。次に、第一のセマンティック特徴を組み合わせると、第二モーダル情報が第一のモーダル情報に注意するセマンティック特徴を、決定することができ、第二のセマンティック特徴を組み合わせると、第一のモーダル情報が第二のモーダル情報に注意するセマンティック特徴を、決定することができる。このようにして、第二モーダル情報が第一のモーダル情報に注意するセマンティック特徴及び第一のモーダル情報が第二のモーダル情報に注意するセマンティック特徴に応じて、第一のモーダル情報と第二のモーダル情報を決定することができる。第一のモーダル情報と第二のモーダル情報の間の類似度を決定する場合、余弦距離の計算又はドット積演算によって第一のモーダル情報と第二のモーダル情報の間の類似度を決定することができる。
一つの可能な実施形態では、第一のモーダル情報と第二のモーダル情報の間の類似度を決定する場合、第一のモーダル情報の第一の分岐注意力特徴、第一の分岐セマンティック特徴及び前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定することができる。次に、第二のモーダル情報の第二の分岐注意力特徴、第二の分岐セマンティック特徴と第一のモーダル情報の第一の全体的注意力に応じて、第二の注意力情報を決定する。さらに第一の注意力情報と第二の注意力情報に基づき、第一のモーダル情報と第二のモーダル情報の間の類似度を決定する。
ここで、第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、第二のモーダル情報の第二全体的注意力特徴に応じて、第一の注意力情報を決定する場合、まず、第一のモーダル情報の第一の分岐注意力特徴と第二のモーダル情報の第二の全体的注意力特徴に応じて、第一のモーダル情報の各情報ユニットに対する第二のモーダル情報の注意力情報を決定し、次に、第一のモーダル情報の各情報ユニットに対する第二のモーダル情報の注意力情報と第一のモーダル情報の第一の分岐セマンティック特徴に応じて、第一のモーダル情報に対する第二のモーダル情報の第一の注意力情報を決定することができる。
それに応じて、第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定する場合、第二のモーダル情報の第二の分岐注意力特徴と第一のモーダル情報の第一の全体的注意力特徴に応じて、第二のモーダル情報の各情報ユニットに対する第一のモーダル情報の注意力情報を決定し、次に、第二のモーダル情報の各情報ユニットに対する第一のモーダル情報の注意力情報と第二のモーダル情報の第二の分岐セマンティック特徴に応じて、第二のモーダル情報に対する第一のモーダル情報の第二の注意力情報を決定することができる。
図3を参照し、第一のモーダル情報と第二のモーダル情報の間の類似性を決定する上記のプロセスを詳細に説明する。第一のモーダル情報が画像情報であり、第二のモーダル情報がテキスト情報であることを例とすると、画像情報の第一の分岐セマンティック特徴ベクトル
Figure 0007164729000020
、第一の全体的セマンティック特徴ベクトル
Figure 0007164729000021
、第一の分岐注意力特徴ベクトル
Figure 0007164729000022
及び第一の全体的注意力特徴ベクトル
Figure 0007164729000023
、ならびにテキスト情報の第二の分岐セマンティック特徴ベクトル
Figure 0007164729000024
、第二の全体的セマンティック特徴ベクトル
Figure 0007164729000025
、第二の分岐注意力特徴ベクトル
Figure 0007164729000026
及び第二の全体的注意力特徴ベクトル
Figure 0007164729000027
を得た後、まず、
Figure 0007164729000028

Figure 0007164729000029
を使用して画像情報の各画像ユニットに対するテキスト情報の注意力情報を決定し、次に
Figure 0007164729000030
を組み合わせ、テキストが画像情報に注意するセマンティック特徴を決定し、即ち画像情報に対するテキスト情報の第一の注意力情報を決定することができる。第一の注意力情報は、次の式(9)で表される方式によって決定されてもよい。
Figure 0007164729000031
(9)
ここで、Aは注意力操作を表すことができ、softmaxは正規化された指数関数を表すことができる。
Figure 0007164729000032
は制御パラメーターを表すことができ、注意力の大きさを制御することができる。このようにして、取得された注意力情報は、適切な大きさ範囲に配置されてもよい。
それに応じて、第二の注意力情報は、次の式(10)で示される方式によって決定されてもよい。
Figure 0007164729000033
(10);
ここで、Aは注意力操作を表すことができ、softmaxは正規化された指数関数を表すことができる。
Figure 0007164729000034
は制御パラメーターを表すことができる。
第一の注意力情報と第二の注意力情報が取得された後、画像情報とテキスト情報の間の類似度を計算することができる。類似度計算式(11)は次のように表されてもよい。
Figure 0007164729000035
(11)
ここで、
Figure 0007164729000036
であり、
Figure 0007164729000037
はノルム取得操作を表す。
上記式により、第一のモーダル情報と第二のモーダル情報の間の類似度を取得することができる。
上記クロスモーダル情報検索方式により、注意力特徴は、モーダル情報のセマンティック特徴からデカップリングされ、個別の特徴として処理されてもよく、且つ第一のモーダル情報と第二のモーダル情報の間の類似度を低い時間複雑さで決定し、クロスモーダル情報検索の効率を向上させることができる。
図5は本開示の一実施例による類似度に基づいて検索結果が一致であることを決定することを示すブロック図である。第一のモーダル情報と第二のモーダル情報は、それぞれ画像情報とテキスト情報であってもよい。クロスモーダル情報検プロセスにおける注意力メカニズムにより、クロスモーダル情報検プロセスにおいて、画像情報は、テキスト情報における対応するテキストユニットにより注意し、テキスト情報は、画像情報における対応する画像ユニットにより注意する。図5に示すように、画像情報では「女子」と「飲み物」、及び「女子」と「携帯電話」の画像ユニットが強調表示され、テキスト情報では「女子」と「飲み物」、及び「女子」と「携帯電話」のテキストユニットが強調表示されている。
上記クロスモーダル情報検索方式により、本開示の実施例は、さらにクロスモーダル情報検索の適用例を提供する。図6は本開示の一実施例によるクロスモーダル情報検索を示すフローチャートである。第一のモーダル情報は、第一のモーダルの検索待ち情報であってもよく、第二のモーダル情報は、第二のモーダルの予め記憶された情報であってもよく、当該クロスモーダル情報検索方法は、
第一のモーダル情報と第二のモーダル情報を取得するステップS61と、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定するステップS62と、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定するステップS63と、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するステップS64と、
前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するステップS65とを含むことができる。
ここで、検索装置は、ユーザによって入力された第一のモーダル情報を取得し、次に、ローカルメモリ又はデータベースから第二のモーダル情報を取得することができる。第一のモーダル情報と第二のモーダル情報の類似度が予め設定された条件を満たしていることが上記ステップにより決定された場合、第二のモーダル情報を第一のモーダル情報の検索結果として使用することができる。
1つの可能な実施形態では、第二のモーダル情報が複数であり、第二のモーダル情報を第一のモーダル情報の検索結果として使用する場合、第一のモーダル情報と各第二のモーダル情報の間の類似度に応じて、複数の第二のモーダル情報をソートし、ソート結果を取得することができる。次に、第二のモーダル情報のソート結果に応じて、類似度が予め設定された条件を満たしていることを決定することができる。次に、類似度が予め設定された条件を満たしている第二のモーダル情報を第一のモーダル情報の検索結果として使用する。
ここで、予め設定された条件は、
類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む。
例えば、第二のモーダル情報を第一のモーダル情報の検索結果として使用する場合、第一のモーダル情報と第二のモーダル情報の間の類似度が予め設定された値よりも大きいと、第二のモーダル情報を第一のモーダル情報の検索結果として使用することができる。又は、第二のモーダル情報を第一のモーダル情報の検索結果として使用する場合、第一のモーダル情報と各第二のモーダル情報との類似度に応じて、類似度の昇順に従って複数の第二のモーダル情報をソートし、ソート結果を取得し、ソート結果に応じて、順位が予め設定された順位よりも高い第二のモーダル情報を第一のモーダル情報の検索結果として使用することができる。例えば、順位が最も高い第二のモーダル情報を第一のモーダル情報の検索結果として使用する場合、類似度が最も大きい第二のモーダル情報を第一のモーダル情報の検索結果として使用することができる。ここで、検索結果は1つ又は複数であってもよい。
ここで、第二のモーダル情報を第一のモーダル情報の検索結果として使用した後、検索結果をクライアントに出力することもできる。例えば、検索結果をクライアントに送信するか、又は検索結果をディスプレイインターフェイスに表示することもできる。
上記クロスモーダル情報検索方式により、本開示の実施例は、さらにクロスモーダル情報検索のトレーニング例を提供する。第一のモーダル情報は、第一のモーダルのトレーニングサンプル情報であってもよく、第二のモーダル情報は、第二のモーダルのトレーニングサンプル情報であってもよく、各第一のモーダルのトレーニングサンプル情報と第二のモーダルのトレーニングサンプル情報は、トレーニングサンプルペアを形成する。トレーニングプロセスでは、各トレーニングサンプルペアをクロスモーダル情報検索モデルに入力することができ、畳み込みニューラルネットワーク、リカレントニューラルネットワーク又は再帰ニューラルネットワークを選択し、第一のモーダル情報又は第二のモーダル情報に対してモーダル特徴を抽出することができる。次に、クロスモーダル情報検索モデルを使用して第一のモーダル情報のモーダル特徴を線形マッピングし、第一のモーダル情報の第一のセマンティック特徴と第一の注意力特徴を取得し、第二のモーダル情報のモーダル特徴を線形マッピングし、第二のモーダル情報の第二のセマンティック特徴と第二の注意力特徴を取得する。次に、クロスモーダル情報検索モデルを使用し、第一の注意力特徴、第二の注意力特徴、第一のセマンティック特徴及び第二のセマンティック特徴から、第一のモーダル情報と第2のモーダル情報の間の類似度を取得する。複数のトレーニングサンプルペアの類似度を取得した後、損失関数、例えば比較損失関数、最も難しい負のサンプルソート損失関数などを使用してクロスモーダル情報検索モデルの損失を取得することができる。次に、得られた損失を使用してクロスモーダル情報検索モデルのモデルサンプルパラメータを調整し、クロスモーダル情報検索のためのクロスモーダル情報検索モデルを取得することができる。
上記クロスモーダル情報検索モデルトレーニングプロセスにより、注意力特徴は、モーダル情報のセマンティック特徴からデカップリングされ、個別の特徴として処理されてもよく、且つ第一のモーダル情報と第二のモーダル情報の間の類似度を低い時間複雑さで決定し、クロスモーダル情報検索の効率を向上させることができる。
図7は本開示の実施例によるクロスモーダル情報検索装置を示すブロック図である。図7に示すように、前記クロスモーダル情報検索装置は、
第一のモーダル情報と第二のモーダル情報を取得するように構成される取得モジュール71と、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定するように構成される第一の決定モジュール72と、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定するように構成される第二の決定モジュール73と、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定モジュール74とを備える。
一つの可能な実施形態では、
前記第一のセマンティック特徴は、第一の分岐セマンティック特徴と第一の全体的セマンティック特徴を含み、前記第一の注意力特徴は、第一の分岐注意力特徴と第一の全体的注意力特徴を含み、
前記第二のセマンティック特徴は、第二の分岐セマンティック特徴と第二の全体的セマンティック特徴を含み、前記第二の注意力特徴は、第二の分岐注意力特徴と第二の全体的注意力特徴を含む。
一つの可能な実施形態では、前記第一の決定モジュール72は、
前記第一のモーダル情報を少なくとも1つの情報ユニットに分割するように構成される第一の分割サブモジュールと、
各情報ユニットで第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を決定するように構成される第一のモーダル決定サブモジュールと、
各前記情報ユニットの第一のモーダル特徴に基づき、セマンティック特徴空間の第一の分岐セマンティック特徴を抽出するように構成される第一の分岐セマンティック抽出サブモジュールと、
各前記情報ユニットの第一のモーダル特徴に基づき、注意力特徴空間の第一の分岐注意力特徴を抽出するように構成される第一の分岐注意力抽出サブモジュールと、を含む。
一つの可能な実施形態では、前記装置はさらに、
各情報ユニットの第一の分岐セマンティック特徴に応じで、前記第一のモーダル情報の第一の全体的セマンティック特徴を決定するように構成される第一の全体的セマンティック決定サブモジュールと、
各情報ユニットの第一の分岐注意力特徴に応じて、前記第一のモーダル情報の第一の全体的注意力特徴を決定するように構成される第一の全体的注意力決定サブモジュールと、を備える。
一つの可能な実施形態では、前記第二の決定モジュール73は、
前記第二のモーダル情報を少なくとも1つの情報ユニットに分割するように構成される第二の分割サブモジュールと、
各情報ユニットで第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を決定するように構成される第二のモーダル決定サブモジュールと、
各情報ユニットの第二のモーダル特徴に基づき、セマンティック特徴空間の第二の分岐セマンティック特徴を抽出するように構成される第二の分岐セマンティック抽出サブモジュールと、
各情報ユニットの第二のモーダル特徴に基づき、注意力特徴空間の第二の分岐注意力特徴を抽出するように構成される第二の分岐注意力抽出サブモジュールと、を含む。
一つの可能な実施形態では、前記装置はさらに、
各情報ユニットの第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報の第二の全体的セマンティック特徴を決定するように構成される第二の全体的セマンティック決定サブモジュールと、
各情報ユニットの第二の分岐注意力特徴に応じて、前記第二のモーダル情報の第二の全体的注意力特徴を決定するように構成される第二の全体的注意力決定サブモジュールと、を備える。
一つの可能な実施形態では、前記類似度決定モジュール74は、
前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定するように構成される第一の注意力情報決定サブモジュールと、
前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定するように構成される第二の注意力情報決定サブモジュールと、
前記第一の注意力情報と前記第二の注意力情報に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定サブモジュールと、を含む。
一つの可能な実施形態では、前記第一の注意力情報決定サブモジュールは、具体的には、
前記第一のモーダル情報の第一の分岐注意力特徴と前記第二のモーダル情報の第二全体的注意力特徴に応じて、第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報を決定し、
第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報と前記第一のモーダル情報の第一の分岐セマンティック特徴に応じで、前記第一のモーダル情報に対する前記第二のモーダル情報の第一の注意力情報を決定するように構成される。
一つの可能な実施形態では、前記第二の注意力情報決定サブモジュールは、具体的には、
前記第二のモーダル情報の第二の分岐注意力特徴と前記第一のモーダル情報の第一全体的注意力特徴に応じて、前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報を決定し、
前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報と前記第二のモーダル情報の第二の分岐セマンティック特徴に基づき、前記第二のモーダル情報に対する前記第一のモーダル情報の第二の注意力情報を決定するように構成される。
1つの可能な実施形態では、前記第一のモーダル情報は、第一のモーダルの検索待ち情報であり、前記第二のモーダル情報は、第二のモーダルの予め記憶された情報であり、前記装置はさらに、
前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するように構成される検索結果決定モジュールを備える。
一つの可能な実施形態では、前記第二のモーダル情報は複数であり、前記検索結果決定モジュールは、
前記第一のモーダル情報と各第二のモーダル情報の間の類似度に応じて、複数の第二のモーダル情報をソートし、ソート結果を取得するように構成されるソートサブモジュールと、
前記ソート結果に応じて、前記予め設定された条件を満たしている第二のモーダル情報を決定するように構成される情報決定サブモジュールと、
前記予め設定された条件を満たしている第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するように構成される検索結果決定サブモジュールと、を含む。
一つの可能な実施形態では、前記予め設定された条件は、
類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む。
一つの可能な実施形態では、前記装置はさらに、
検索結果をクライアントに出力するように構成される出力モジュールを備える。
1つの可能な実施形態では、前記第一のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含み、前記第二のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含む。
1つの可能な実施形態では、前記第一のモーダル情報は、第一のモーダルのトレーニングサンプル情報であり、前記第二のモーダル情報は、第二のモーダルのトレーニングサンプル情報であり、各第一のモーダルのトレーニングサンプル情報と第二のモーダルのトレーニングサンプル情報は、トレーニングサンプルペアを形成する。
本開示で言及される上記各方法の実施例は、原理及び論理に違反することなく、いずれも互いに組み合わせられ、組み合わせられた実施例を形成することができ、紙面が限られるため、本開示で説明を省略することが理解できる。
また、本開示は、さらに上記装置、電子機器、コンピュータ可読記憶媒体、プログラムを提供する。上記はいずれも本開示で提供される任意のクロスモーダル情報検索方法を実現するために使用されてもよく、対応する技術的解決策及び説明と参照方法部分の対応する記載については、説明が省略される。
図8は一つの例示的な実施例によるクロスモーダル情報検索のためのクロスモーダル情報検索装置1900のブロックである。例えば、クロスモーダル情報検索装置1900は、サーバーとして提供されてもよい。図8を参照すると、装置1900は、1つ又は複数のプロセッサをさらに含む処理コンポーネント1922と、処理コンポーネント1922で実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932によって表されるメモリリソースとを備える。メモリ1932に記憶されたアプリケーションプログラムは、それぞれが1グループの命令に対応する1つ又は複数のモジュールを含むことができる。また、処理コンポーネント1922は、上記方法を実行するために、命令を実行するように構成される。
装置1900は、さらに装置1900の電源管理を実行するように構成された電源コンポーネント1926、装置1900をネットワークに接続するように構成された有線又は無線ネットワークインタフェース1950、及び入出力(I/O)インタフェース1958を備えることができる。装置1900は、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMなどのメモリ1932に記憶されているオペレーティングシステムに基づいて動作することができる。
例示的な実施例では、コンピュータプログラム命令を含むメモリ1932などの不揮発性コンピュータ可読記憶媒体も提供され、上記方法を完了するために、上記コンピュータプログラム命令が装置900の処理コンポーネント1922によって実行されてもよい。
本開示は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の様々な態様を実現させるためのコンピュータ可読プログラム命令がロードされているコンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行装置によって用いられる命令を維持及び記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の適切な組み合わせであってもよいがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例(網羅的ではないリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化デバイス、例えば命令が記憶されたパンチカード又は溝内突出構造、及び上記の任意の適切な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、ラジオ波又は他の自由に伝播される電磁波、導波路又は他の伝送媒体を介して伝播された電磁波(例えば光ファイバーケーブルを通る光パルス)、又は電線を介して伝播される電気信号などの瞬時信号として解釈されない。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から様々なコンピューティング/処理デバイスにダウンロードされてもよく、又はインターネット、ローカルエリアネットワーク、広域ネットワーク及び/又はワイヤレスネットワークなどのネットワークを介して外部コンピュータ又は外部記憶装置にダウンロードされてもよい。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバーを含むことができる。各コンピューティング/プロセッシングデバイスのネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、各コンピューティング/プロセッシングデバイスのコンピュータ可読記憶媒体に保存するために当該コンピュータ可読プログラム命令を転送する。
本開示の動作を実行するために使用されるコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、ステータス設定データ、又は、1つ又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードであってもよく、前記プログラミング言語は、Smalltalk(登録商標)、C++などのオブジェクト向けのプログラミング言語、及び「C」言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されたり、ユーザのコンピュータで部分的に実行されたり、1つの独立したソフトウェアパッケージとして実行されたり、ユーザのコンピュータで部分的に実行され、リモートコンピュータで部分的に実行されたり、又は完全にリモートコンピュータ又はサーバーで実行されたりすることができる。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)などの任意の種類のネットワークを介してユーザのコンピュータに接続されてもよく、又は、外部コンピュータに接続されてもよい(例えばインターネットサービスプロバイダーによってインターネットを介して接続されてもよい)。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報によってプログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブルロジックアレイ(PLA)などの電子回路をパーソナライズ及びカスタマイズし、当該電子回路がコンピュータ可読プログラム命令を実行し、本開示の各態様を実現することができる。
本明細書において、本開示の様々な態様は、本開示の実施例による方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び又はブロック図を参照して説明される。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、コンピュータ可読プログラム命令によって実現されてもよいことが理解されるべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ又は他のプログラム可能データ処理装置のプロセッサに提供されてもよく、これにより、これらの命令がコンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される時に、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現するデバイスが生成される。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶することもでき、これらの命令により、コンピュータ、プログラム可能データ処理装置及び/又は他の装置が特定の方式で動作し、これにより、命令を記憶しているコンピュータ可読媒体は、フローチャート及び/又はブロック図の1つ又は複数のブロックで規定された機能/動作を実現するための様々な態様の命令を含む1つの製造品を含む。
コンピュータ、他のプログラム可能データ処理装置又は他のデバイスにコンピュータ可読プログラム命令をロードすることもでき、これにより、一連の操作ステップをコンピュータ、他のプログラム可能データ処理装置又は他の装置で実行し、コンピュータで実現されるプロセスを生成することも可能であり、それによってコンピュータ、他のプログラム可能データ処理装置、又は他のデバイスで実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロックで規定された機能/動作を実現する。
図面のフローチャートとブロック図は、本開示の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能と動作を示している。これに関して、フローチャート又はブロック図の各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができ、前記モジュール、プログラムセグメント又は命令の一部は、規定された論理機能を実現するための1つ又は複数の機能を含む。代替としてのいくつかの実現では、ブロックでマークされた機能は、図面でマークされた順序とは異なる順序で発生することもできる。例えば、関連する機能に応じて、2つの連続するブロックを実際に並行して実行したり、逆の順序で実行したりすることができる。ブロック図及び/又はフローチャートの各ブロック、及びブロック図及び/又はフローチャートのブロックの組み合わせは、規定された機能又は動作を実行する専用のハードウェアベースのシステムによって実現されてもよく、又は専用のハードウェアとコンピュータの命令を組み合わせることで実現されてもよい。
以上に本開示の各実施例が説明されたが、上記の説明は例示的であり、網羅的ではなく、且つ開示された各実施例に限定されない。説明される実施例の範囲及び精神から逸脱することなく、多くの修正と変更は、当業者にとって明らかである。本明細書で用いられる用語の選択は、各実施例の原理、実際の応用又は市場における技術に対する技術的改善を最もよく解釈し、又は他の当業者が本明細書に開示される実施形態を理解できるようにすることを意図する。

Claims (17)

  1. 検索装置が実行するクロスモーダル情報検索方法であって、
    第一のモーダル情報と第二のモーダル情報を取得することと、
    前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定することと、
    前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定することと、
    前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することと、を含む、前記クロスモーダル情報検索方法。
  2. 前記第一のセマンティック特徴は、第一の分岐セマンティック特徴と第一の全体的セマンティック特徴を含み、前記第一の注意力特徴は、第一の分岐注意力特徴と第一の全体的注意力特徴を含み、
    前記第二のセマンティック特徴は、第二の分岐セマンティック特徴と第二の全体的セマンティック特徴を含み、前記第二の注意力特徴は、第二の分岐注意力特徴と第二の全体的注意力特徴を含むことを特徴とする
    請求項1に記載の方法。
  3. 前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定することは、
    前記第一のモーダル情報を少なくとも1つの情報ユニットに分割することと、
    各情報ユニットで第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を決定することと、
    各前記情報ユニットの第一のモーダル特徴に基づき、セマンティック特徴空間の第一の分岐セマンティック特徴を抽出することと、
    各前記情報ユニットの第一のモーダル特徴に基づき、注意力特徴空間の第一の分岐注意力特徴を抽出することと、を含むことを特徴とする
    請求項2に記載の方法。
  4. 前記方法はさらに、
    各情報ユニットの第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報の第一の全体的セマンティック特徴を決定することと、
    各情報ユニットの第一の分岐注意力特徴に応じて、前記第一のモーダル情報の第一の全体的注意力特徴を決定することと、を含むことを特徴とする
    請求項3に記載の方法。
  5. 前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定することは、
    前記第二のモーダル情報を少なくとも1つの情報ユニットに分割することと、
    各情報ユニットで第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を決定することと、
    各前記情報ユニットの第二のモーダル特徴に基づき、セマンティック特徴空間の第二の分岐セマンティック特徴を抽出することと、
    各前記情報ユニットの第二のモーダル特徴に基づき、注意力特徴空間の第二の分岐注意力特徴を抽出することと、を含むことを特徴とする
    請求項2に記載の方法。
  6. 前記方法はさらに、
    各情報ユニットの第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報の第二の全体的セマンティック特徴を決定することと、
    各情報ユニットの第二の分岐注意力特徴に応じて、前記第二のモーダル情報の第二の全体的注意力特徴を決定することと、を含むことを特徴とする
    請求項5に記載の方法。
  7. 前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することは、
    前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定することと、
    前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定することと、
    前記第一の注意力情報と前記第二の注意力情報に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することと、を含むことを特徴とする
    請求項2に記載の方法。
  8. 前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定することは、
    前記第一のモーダル情報の第一の分岐注意力特徴と前記第二のモーダル情報の第二全体的注意力特徴に応じて、第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報を決定することと、
    第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報と前記第一のモーダル情報の第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報に対する前記第二のモーダル情報の第一の注意力情報を決定することと、を含むことを特徴とする
    請求項7に記載の方法。
  9. 前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定することは、
    前記第二のモーダル情報の第二の分岐注意力特徴と前記第一のモーダル情報の第一全体的注意力特徴に応じて、前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報を決定することと、
    前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報と前記第二のモーダル情報の第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報に対する前記第一のモーダル情報の第二の注意力情報を決定することと、を特徴とする
    請求項7に記載の方法。
  10. 前記第一のモーダル情報は、第一のモーダルの検索待ち情報であり、前記第二のモーダル情報は、第二のモーダルの予め記憶された情報であり、前記方法はさらに、
    前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することを含むことを特徴とする
    請求項1~9のいずれか一項に記載の方法。
  11. 前記第二のモーダル情報は複数であり、前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することは、
    前記第一のモーダル情報と各第二のモーダル情報の間の類似度に応じて、複数の第二のモーダル情報をソートし、ソート結果を取得することと、
    前記ソート結果に応じて、前記予め設定された条件を満たしている第二のモーダル情報を決定することであって、前記予め設定された条件は、類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む、ことと、
    前記予め設定された条件を満たしている第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することと、を含むことを特徴とする
    請求項10に記載の方法。
  12. 前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用した後、前記方法はさらに、
    前記検索結果をクライアントに出力することを含むことを特徴とする
    請求項10に記載の方法。
  13. 前記第一のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含み、前記第二のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含み、
    前記第一のモーダル情報は、第一のモーダルのトレーニングサンプル情報であり、前記第二のモーダル情報は、第二のモーダルのトレーニングサンプル情報であり、各第一のモーダルのトレーニングサンプル情報と第二のモーダルのトレーニングサンプル情報は、トレーニングサンプルペアを形成することを特徴とする
    請求項1~12のいずれか一項に記載の方法。
  14. クロスモーダル情報検索装置であって、
    第一のモーダル情報と第二のモーダル情報を取得するように構成される取得モジュールと、
    前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセ
    マンティック特徴及び第一の注意力特徴を決定するように構成される第一の決定モジュールと、
    前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定するように構成される第二の決定モジュールと、
    前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定モジュールと、を備える、前記クロスモーダル情報検索装置。
  15. クロスモーダル情報検索装置であって、
    プロセッサと、
    プロセッサ実行可能命令を格納するように構成されるメモリと、を備え、
    前記プロセッサは、請求項1~13のいずれか一項に記載の方法を実現するために、メモリに記憶されたプロセッサ実行可能命令を実行するように構成される、前記クロスモーダル情報検索装置。
  16. コンピュータプログラム命令を記憶するコンピュータ可読記憶媒体であって、請求項1~13のいずれか一項に記載の方法を実現するために、前記コンピュータプログラム命令がプロセッサによって実行される、前記コンピュータ可読記憶媒体。
  17. コンピュータに、請求項1~13のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
JP2021547620A 2019-01-31 2019-04-22 クロスモーダル情報検索方法及びその装置、並びに記憶媒体 Active JP7164729B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910109983.5 2019-01-31
CN201910109983.5A CN109886326B (zh) 2019-01-31 2019-01-31 一种跨模态信息检索方法、装置和存储介质
PCT/CN2019/083725 WO2020155423A1 (zh) 2019-01-31 2019-04-22 一种跨模态信息检索方法、装置和存储介质

Publications (2)

Publication Number Publication Date
JP2022509327A JP2022509327A (ja) 2022-01-20
JP7164729B2 true JP7164729B2 (ja) 2022-11-01

Family

ID=66927971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021547620A Active JP7164729B2 (ja) 2019-01-31 2019-04-22 クロスモーダル情報検索方法及びその装置、並びに記憶媒体

Country Status (6)

Country Link
US (1) US20210240761A1 (ja)
JP (1) JP7164729B2 (ja)
CN (1) CN109886326B (ja)
SG (1) SG11202104369UA (ja)
TW (1) TWI737006B (ja)
WO (1) WO2020155423A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置
CN111914950B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112287134B (zh) * 2020-09-18 2021-10-15 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112528062B (zh) * 2020-12-03 2024-03-22 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及系统
CN112926339B (zh) * 2021-03-09 2024-02-09 北京小米移动软件有限公司 文本相似度确定方法、系统、存储介质以及电子设备
CN112905829A (zh) * 2021-03-25 2021-06-04 王芳 一种跨模态人工智能信息处理系统及检索方法
CN113240056B (zh) * 2021-07-12 2022-05-17 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113486833B (zh) * 2021-07-15 2022-10-04 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN113971209B (zh) * 2021-12-22 2022-04-19 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114841243B (zh) * 2022-04-02 2023-04-07 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN114691907B (zh) * 2022-05-31 2022-09-16 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质
CN115359383B (zh) * 2022-07-07 2023-07-25 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115909317B (zh) * 2022-07-15 2024-07-05 广州珠江在线多媒体信息有限公司 一种三维模型-文本联合表达的学习方法及系统
JP7366204B1 (ja) 2022-07-21 2023-10-20 株式会社エクサウィザーズ 情報処理方法、コンピュータプログラム及び情報処理装置
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
WO2024081455A1 (en) * 2022-10-12 2024-04-18 Innopeak Technology, Inc. Methods and apparatus for optical flow estimation with contrastive learning
CN115858847B (zh) * 2023-02-22 2023-06-23 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法
CN116912351B (zh) * 2023-09-12 2023-11-17 四川大学 基于人工智能的颅内结构成像的修正方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760507A (zh) 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN108228686A (zh) 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
GB201210661D0 (en) * 2012-06-15 2012-08-01 Qatar Foundation Unsupervised cross-media summarization from news and twitter
US9679199B2 (en) * 2013-12-04 2017-06-13 Microsoft Technology Licensing, Llc Fusing device and image motion for user identification, tracking and device association
WO2018142581A1 (ja) * 2017-02-03 2018-08-09 三菱電機株式会社 認知負荷評価装置および認知負荷評価方法
TWM543395U (zh) * 2017-03-24 2017-06-11 shi-cheng Zhuang 翻譯輔助系統
CN107273517B (zh) * 2017-06-21 2021-07-23 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107562812B (zh) * 2017-08-11 2021-01-15 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
TWM560646U (zh) * 2018-01-05 2018-05-21 華南商業銀行股份有限公司 智能語音交易系統
CN109189968B (zh) * 2018-08-31 2020-07-03 深圳大学 一种跨模态检索方法及系统
CN109284414B (zh) * 2018-09-30 2020-12-04 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760507A (zh) 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN108228686A (zh) 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备

Also Published As

Publication number Publication date
CN109886326B (zh) 2022-01-04
CN109886326A (zh) 2019-06-14
TW202030640A (zh) 2020-08-16
WO2020155423A1 (zh) 2020-08-06
US20210240761A1 (en) 2021-08-05
SG11202104369UA (en) 2021-07-29
TWI737006B (zh) 2021-08-21
JP2022509327A (ja) 2022-01-20

Similar Documents

Publication Publication Date Title
JP7164729B2 (ja) クロスモーダル情報検索方法及びその装置、並びに記憶媒体
US11023682B2 (en) Vector representation based on context
JP2022510704A (ja) クロスモーダル情報検索方法、装置及び記憶媒体
CN108629414B (zh) 深度哈希学习方法及装置
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
KR101481253B1 (ko) 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
US11682415B2 (en) Automatic video tagging
CN109241286B (zh) 用于生成文本的方法和装置
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
CN110941951A (zh) 文本相似度计算方法、装置、介质及电子设备
US11734602B2 (en) Methods and systems for automated feature generation utilizing formula semantification
JP2024502400A (ja) グラフ・ニューラル・ネットワークを用いたポータブル・ドキュメント・フォーマットの表形式データの自動描写及び抽出
US11645323B2 (en) Coarse-to-fine multimodal gallery search system with attention-based neural network models
US11347928B2 (en) Detecting and processing sections spanning processed document partitions
US10810497B2 (en) Supporting generation of a response to an inquiry
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
US9940320B2 (en) Plugin tool for collecting user generated document segmentation feedback
WO2023093259A1 (en) Iteratively updating a document structure to resolve disconnected text in element blocks
CN110929499A (zh) 文本相似度获取方法、装置、介质及电子设备
JP7476138B2 (ja) ビデオ処理方法、装置、電子機器及び記憶媒体
CN111666449B (zh) 视频检索方法、装置、电子设备和计算机可读介质
US20220309278A1 (en) Unsupervised video representation learning
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
CN109857838B (zh) 用于生成信息的方法和装置
CN111915703B (zh) 一种图像生成方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210428

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221020

R150 Certificate of patent or registration of utility model

Ref document number: 7164729

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150