JP7164729B2 - クロスモーダル情報検索方法及びその装置、並びに記憶媒体 - Google Patents
クロスモーダル情報検索方法及びその装置、並びに記憶媒体 Download PDFInfo
- Publication number
- JP7164729B2 JP7164729B2 JP2021547620A JP2021547620A JP7164729B2 JP 7164729 B2 JP7164729 B2 JP 7164729B2 JP 2021547620 A JP2021547620 A JP 2021547620A JP 2021547620 A JP2021547620 A JP 2021547620A JP 7164729 B2 JP7164729 B2 JP 7164729B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- modal
- feature
- attentional
- modal information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本開示は、2019年1月31日に中国特許庁に提出された、出願番号が201910109983.5であり、出願名称が「クロスモーダル情報検索方法及びその装置、並びに記憶媒体」である中国特許出願に対する優先権を主張し、その全ての内容が参照により本開示に組み込まれる。
第一のモーダル情報と第二のモーダル情報を取得することと、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定することと、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定することと、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することと、を含む。
前記第一のセマンティック特徴は、第一の分岐セマンティック特徴と第一の全体的セマンティック特徴を含み、前記第一の注意力特徴は、第一の分岐注意力特徴と第一の全体的注意力特徴を含み、
前記第二のセマンティック特徴は、第二の分岐セマンティック特徴と第二の全体的セマンティック特徴を含み、前記第二の注意力特徴は、第二の分岐注意力特徴と第一の全体的注意力特徴を含む。
前記第一のモーダル情報を少なくとも1つの情報ユニットに分割することと、
各情報ユニットで第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を決定することと、
各前記情報ユニットの第一のモーダル特徴に基づき、セマンティック特徴空間の第一の分岐セマンティック特徴を抽出することと、
各前記情報ユニットの第一のモーダル特徴に基づき、注意力特徴空間の第一の分岐注意力特徴を抽出することと、を含む。
各情報ユニットの第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報の第一の全体的セマンティック特徴を決定することと、
各情報ユニットの第一の分岐注意力特徴に基づき、前記第一のモーダル情報の第一の全体的注意力特徴を決定することと、を含む。
前記第二のモーダル情報を少なくとも1つの情報ユニットに分割することと、
各情報ユニットで第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を決定することと、
各情報ユニットの第二のモーダル特徴に基づき、セマンティック特徴空間の第二の分岐セマンティック特徴を抽出することと、
各情報ユニットの第二のモーダル特徴に基づき、注意力特徴空間の第二の分岐注意力特徴を抽出することと、を含む。
各情報ユニットの第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報の第二の全体的セマンティック特徴を決定することと、
各情報ユニットの第二の分岐注意力特徴に応じて、前記第二のモーダル情報の第二の全体的注意力特徴を決定することと、を含む。
前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定することと、
前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定することと、
前記第一の注意力情報と前記第二の注意力情報に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することと、を含む。
前記第一のモーダル情報の第一の分岐注意力特徴と前記第二のモーダル情報の第二全体的注意力特徴に応じて、第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報を決定することと、
第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報と前記第一のモーダル情報の第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報に対する前記第二のモーダル情報の第一の注意力情報を決定することと、を含む。
前記第二のモーダル情報の第二の分岐注意力特徴と前記第一のモーダル情報の第一全体的注意力特徴に応じて、前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報を決定することと、
前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報と前記第二のモーダル情報の第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報に対する前記第一のモーダル情報の第二の注意力情報を決定することと、を含む。
前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することを含む。
前記第一のモーダル情報と各第二のモーダル情報の間の類似度に応じて、複数の第二のモーダル情報をソートし、ソート結果を取得することと、
前記ソート結果に応じて、前記予め設定された条件を満たしている第二のモーダル情報を決定することと、
前記予め設定された条件を満たしている第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することと、を含む。
類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む。
前記検索結果をクライアントに出力することを含む。
第一のモーダル情報と第二のモーダル情報を取得するように構成される取得モジュールと、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定するように構成される第一の決定モジュールと、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定するように構成される第二の決定モジュールと、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定モジュールと、を備える。
前記第一のセマンティック特徴は、第一の分岐セマンティック特徴と第一の全体的セマンティック特徴を含み、前記第一の注意力特徴は、第一の分岐注意力特徴と第一の全体的注意力特徴を含み、
前記第二のセマンティック特徴は、第二の分岐セマンティック特徴と第二の全体的セマンティック特徴を含み、前記第二の注意力特徴は、第二の分岐注意力特徴と第二の全体的注意力特徴を含む。
前記第一のモーダル情報を少なくとも1つの情報ユニットに分割するように構成される第一の分割サブモジュールと、
各情報ユニットで第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を決定するように構成される第一のモーダル決定サブモジュールと、
各前記情報ユニットの第一のモーダル特徴に基づき、セマンティック特徴空間の第一の分岐セマンティック特徴を抽出するように構成される第一の分岐セマンティック抽出サブモジュールと、
各前記情報ユニットの第一のモーダル特徴に基づき、注意力特徴空間の第一の分岐注意力特徴を抽出するように構成される第一の分岐注意力抽出サブモジュールと、を含む。
各情報ユニットの第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報の第一の全体的セマンティック特徴を決定するように構成される第一の全体的セマンティック決定サブモジュールと、
各情報ユニットの第一の分岐注意力特徴に応じて、前記第一のモーダル情報の第一の全体的注意力特徴を決定するように構成される第一の全体的注意力決定サブモジュールと、を備える。
前記第二のモーダル情報を少なくとも1つの情報ユニットに分割するように構成される第二の分割サブモジュールと、
各情報ユニットで第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を決定するように構成される第二のモーダル決定サブモジュールと、
各情報ユニットの第二のモーダル特徴に基づき、セマンティック特徴空間の第二の分岐セマンティック特徴を抽出するように構成される第二の分岐セマンティック抽出サブモジュールと、
各情報ユニットの第二のモーダル特徴に基づき、注意力特徴空間の第二の分岐注意力特徴を抽出するように構成される第二の分岐注意力抽出サブモジュールと、を含む。
各情報ユニットの第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報の第二の全体的セマンティック特徴を決定するように構成される第二の全体的セマンティック決定サブモジュールと、
各情報ユニットの第二の分岐注意力特徴に応じて、前記第二のモーダル情報の第二の全体的注意力特徴を決定するように構成される第二の全体的注意力決定サブモジュールと、を備える。
前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定するように構成される第一の注意力情報決定サブモジュールと、
前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定するように構成される第二の注意力情報決定サブモジュールと、
前記第一の注意力情報と前記第二の注意力情報に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定サブモジュールと、を含む。
前記第一のモーダル情報の第一の分岐注意力特徴と前記第二のモーダル情報の第二全体的注意力特徴に応じて、第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報を決定し、
第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報と前記第一のモーダル情報の第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報に対する前記第二のモーダル情報の第一の注意力情報を決定するように構成される。
前記第二のモーダル情報の第二の分岐注意力特徴と前記第一のモーダル情報の第一全体的注意力特徴に応じて、前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報を決定し、
前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報と前記第二のモーダル情報の第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報に対する前記第一のモーダル情報の第二の注意力情報を決定するように構成される。
前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するように構成される検索結果決定モジュールを備える。
前記第一のモーダル情報と各第二のモーダル情報の間の類似度に応じて、複数の第二のモーダル情報をソートし、ソート結果を取得するように構成されるソートサブモジュールと、
前記ソート結果に応じて、前記予め設定された条件を満たしている第二のモーダル情報を決定するように構成される情報決定サブモジュールと、
前記予め設定された条件を満たしている第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するように構成される検索結果決定サブモジュールと、を含む。
類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む。
前記検索結果をクライアントに出力するように構成される出力モジュールを備える。
(1)
がi番目の画像ユニットの画像特徴ベクトルであり、
が実数行列として表される。画像情報の場合、画像情報に対応する画像特徴ベクトルは、式(2)のように表されてもよい。
(2)
(3)
(4)。
(5);
がj番目のテキストユニットのテキスト特徴ベクトルである。テキスト情報の場合、テキスト情報全体に対応するテキスト特徴ベクトルは、式(6)のように表されてもよい。
(6)
(7)。
(8)
、第一の全体的セマンティック特徴ベクトル
、第一の分岐注意力特徴ベクトル
及び第一の全体的注意力特徴ベクトル
、ならびにテキスト情報の第二の分岐セマンティック特徴ベクトル
、第二の全体的セマンティック特徴ベクトル
、第二の分岐注意力特徴ベクトル
及び第二の全体的注意力特徴ベクトル
を得た後、まず、
と
を使用して画像情報の各画像ユニットに対するテキスト情報の注意力情報を決定し、次に
を組み合わせ、テキストが画像情報に注意するセマンティック特徴を決定し、即ち画像情報に対するテキスト情報の第一の注意力情報を決定することができる。第一の注意力情報は、次の式(9)で表される方式によって決定されてもよい。
(9)
は制御パラメーターを表すことができ、注意力の大きさを制御することができる。このようにして、取得された注意力情報は、適切な大きさ範囲に配置されてもよい。
第一のモーダル情報と第二のモーダル情報を取得するステップS61と、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定するステップS62と、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定するステップS63と、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するステップS64と、
前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するステップS65とを含むことができる。
類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む。
第一のモーダル情報と第二のモーダル情報を取得するように構成される取得モジュール71と、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定するように構成される第一の決定モジュール72と、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定するように構成される第二の決定モジュール73と、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定モジュール74とを備える。
前記第一のセマンティック特徴は、第一の分岐セマンティック特徴と第一の全体的セマンティック特徴を含み、前記第一の注意力特徴は、第一の分岐注意力特徴と第一の全体的注意力特徴を含み、
前記第二のセマンティック特徴は、第二の分岐セマンティック特徴と第二の全体的セマンティック特徴を含み、前記第二の注意力特徴は、第二の分岐注意力特徴と第二の全体的注意力特徴を含む。
前記第一のモーダル情報を少なくとも1つの情報ユニットに分割するように構成される第一の分割サブモジュールと、
各情報ユニットで第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を決定するように構成される第一のモーダル決定サブモジュールと、
各前記情報ユニットの第一のモーダル特徴に基づき、セマンティック特徴空間の第一の分岐セマンティック特徴を抽出するように構成される第一の分岐セマンティック抽出サブモジュールと、
各前記情報ユニットの第一のモーダル特徴に基づき、注意力特徴空間の第一の分岐注意力特徴を抽出するように構成される第一の分岐注意力抽出サブモジュールと、を含む。
各情報ユニットの第一の分岐セマンティック特徴に応じで、前記第一のモーダル情報の第一の全体的セマンティック特徴を決定するように構成される第一の全体的セマンティック決定サブモジュールと、
各情報ユニットの第一の分岐注意力特徴に応じて、前記第一のモーダル情報の第一の全体的注意力特徴を決定するように構成される第一の全体的注意力決定サブモジュールと、を備える。
前記第二のモーダル情報を少なくとも1つの情報ユニットに分割するように構成される第二の分割サブモジュールと、
各情報ユニットで第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を決定するように構成される第二のモーダル決定サブモジュールと、
各情報ユニットの第二のモーダル特徴に基づき、セマンティック特徴空間の第二の分岐セマンティック特徴を抽出するように構成される第二の分岐セマンティック抽出サブモジュールと、
各情報ユニットの第二のモーダル特徴に基づき、注意力特徴空間の第二の分岐注意力特徴を抽出するように構成される第二の分岐注意力抽出サブモジュールと、を含む。
各情報ユニットの第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報の第二の全体的セマンティック特徴を決定するように構成される第二の全体的セマンティック決定サブモジュールと、
各情報ユニットの第二の分岐注意力特徴に応じて、前記第二のモーダル情報の第二の全体的注意力特徴を決定するように構成される第二の全体的注意力決定サブモジュールと、を備える。
前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定するように構成される第一の注意力情報決定サブモジュールと、
前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定するように構成される第二の注意力情報決定サブモジュールと、
前記第一の注意力情報と前記第二の注意力情報に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定サブモジュールと、を含む。
前記第一のモーダル情報の第一の分岐注意力特徴と前記第二のモーダル情報の第二全体的注意力特徴に応じて、第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報を決定し、
第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報と前記第一のモーダル情報の第一の分岐セマンティック特徴に応じで、前記第一のモーダル情報に対する前記第二のモーダル情報の第一の注意力情報を決定するように構成される。
前記第二のモーダル情報の第二の分岐注意力特徴と前記第一のモーダル情報の第一全体的注意力特徴に応じて、前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報を決定し、
前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報と前記第二のモーダル情報の第二の分岐セマンティック特徴に基づき、前記第二のモーダル情報に対する前記第一のモーダル情報の第二の注意力情報を決定するように構成される。
前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するように構成される検索結果決定モジュールを備える。
前記第一のモーダル情報と各第二のモーダル情報の間の類似度に応じて、複数の第二のモーダル情報をソートし、ソート結果を取得するように構成されるソートサブモジュールと、
前記ソート結果に応じて、前記予め設定された条件を満たしている第二のモーダル情報を決定するように構成される情報決定サブモジュールと、
前記予め設定された条件を満たしている第二のモーダル情報を前記第一のモーダル情報の検索結果として使用するように構成される検索結果決定サブモジュールと、を含む。
類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む。
検索結果をクライアントに出力するように構成される出力モジュールを備える。
Claims (17)
- 検索装置が実行するクロスモーダル情報検索方法であって、
第一のモーダル情報と第二のモーダル情報を取得することと、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定することと、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定することと、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することと、を含む、前記クロスモーダル情報検索方法。 - 前記第一のセマンティック特徴は、第一の分岐セマンティック特徴と第一の全体的セマンティック特徴を含み、前記第一の注意力特徴は、第一の分岐注意力特徴と第一の全体的注意力特徴を含み、
前記第二のセマンティック特徴は、第二の分岐セマンティック特徴と第二の全体的セマンティック特徴を含み、前記第二の注意力特徴は、第二の分岐注意力特徴と第二の全体的注意力特徴を含むことを特徴とする
請求項1に記載の方法。 - 前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセマンティック特徴及び第一の注意力特徴を決定することは、
前記第一のモーダル情報を少なくとも1つの情報ユニットに分割することと、
各情報ユニットで第一のモーダル特徴抽出を行い、各情報ユニットの第一のモーダル特徴を決定することと、
各前記情報ユニットの第一のモーダル特徴に基づき、セマンティック特徴空間の第一の分岐セマンティック特徴を抽出することと、
各前記情報ユニットの第一のモーダル特徴に基づき、注意力特徴空間の第一の分岐注意力特徴を抽出することと、を含むことを特徴とする
請求項2に記載の方法。 - 前記方法はさらに、
各情報ユニットの第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報の第一の全体的セマンティック特徴を決定することと、
各情報ユニットの第一の分岐注意力特徴に応じて、前記第一のモーダル情報の第一の全体的注意力特徴を決定することと、を含むことを特徴とする
請求項3に記載の方法。 - 前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定することは、
前記第二のモーダル情報を少なくとも1つの情報ユニットに分割することと、
各情報ユニットで第二のモーダル特徴抽出を行い、各情報ユニットの第二のモーダル特徴を決定することと、
各前記情報ユニットの第二のモーダル特徴に基づき、セマンティック特徴空間の第二の分岐セマンティック特徴を抽出することと、
各前記情報ユニットの第二のモーダル特徴に基づき、注意力特徴空間の第二の分岐注意力特徴を抽出することと、を含むことを特徴とする
請求項2に記載の方法。 - 前記方法はさらに、
各情報ユニットの第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報の第二の全体的セマンティック特徴を決定することと、
各情報ユニットの第二の分岐注意力特徴に応じて、前記第二のモーダル情報の第二の全体的注意力特徴を決定することと、を含むことを特徴とする
請求項5に記載の方法。 - 前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することは、
前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定することと、
前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定することと、
前記第一の注意力情報と前記第二の注意力情報に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定することと、を含むことを特徴とする
請求項2に記載の方法。 - 前記第一のモーダル情報の第一の分岐注意力特徴及び第一の分岐セマンティック特徴、前記第二のモーダル情報の第二の全体的注意力特徴に応じて、第一の注意力情報を決定することは、
前記第一のモーダル情報の第一の分岐注意力特徴と前記第二のモーダル情報の第二全体的注意力特徴に応じて、第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報を決定することと、
第一のモーダル情報の各情報ユニットに対する前記第二のモーダル情報の注意力情報と前記第一のモーダル情報の第一の分岐セマンティック特徴に応じて、前記第一のモーダル情報に対する前記第二のモーダル情報の第一の注意力情報を決定することと、を含むことを特徴とする
請求項7に記載の方法。 - 前記第二のモーダル情報の第二の分岐注意力特徴及び第二の分岐セマンティック特徴、前記第一のモーダル情報の第一の全体的注意力特徴に応じて、第二の注意力情報を決定することは、
前記第二のモーダル情報の第二の分岐注意力特徴と前記第一のモーダル情報の第一全体的注意力特徴に応じて、前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報を決定することと、
前記第二のモーダル情報の各情報ユニットに対する前記第一のモーダル情報の注意力情報と前記第二のモーダル情報の第二の分岐セマンティック特徴に応じて、前記第二のモーダル情報に対する前記第一のモーダル情報の第二の注意力情報を決定することと、を特徴とする
請求項7に記載の方法。 - 前記第一のモーダル情報は、第一のモーダルの検索待ち情報であり、前記第二のモーダル情報は、第二のモーダルの予め記憶された情報であり、前記方法はさらに、
前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することを含むことを特徴とする
請求項1~9のいずれか一項に記載の方法。 - 前記第二のモーダル情報は複数であり、前記類似度が予め設定された条件を満たしている場合、前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することは、
前記第一のモーダル情報と各第二のモーダル情報の間の類似度に応じて、複数の第二のモーダル情報をソートし、ソート結果を取得することと、
前記ソート結果に応じて、前記予め設定された条件を満たしている第二のモーダル情報を決定することであって、前記予め設定された条件は、類似度が予め設定された値よりも大きいこと、類似度の昇順順位が予め設定された順位よりも大きいことのいずれか1つを含む、ことと、
前記予め設定された条件を満たしている第二のモーダル情報を前記第一のモーダル情報の検索結果として使用することと、を含むことを特徴とする
請求項10に記載の方法。 - 前記第二のモーダル情報を前記第一のモーダル情報の検索結果として使用した後、前記方法はさらに、
前記検索結果をクライアントに出力することを含むことを特徴とする
請求項10に記載の方法。 - 前記第一のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含み、前記第二のモーダル情報は、テキスト情報又は画像情報のうちの1つのモーダル情報を含み、
前記第一のモーダル情報は、第一のモーダルのトレーニングサンプル情報であり、前記第二のモーダル情報は、第二のモーダルのトレーニングサンプル情報であり、各第一のモーダルのトレーニングサンプル情報と第二のモーダルのトレーニングサンプル情報は、トレーニングサンプルペアを形成することを特徴とする
請求項1~12のいずれか一項に記載の方法。 - クロスモーダル情報検索装置であって、
第一のモーダル情報と第二のモーダル情報を取得するように構成される取得モジュールと、
前記第一のモーダル情報のモーダル特徴に応じて、前記第一のモーダル情報の第一のセ
マンティック特徴及び第一の注意力特徴を決定するように構成される第一の決定モジュールと、
前記第二のモーダル情報のモーダル特徴に応じて、前記第二のモーダル情報の第二のセマンティック特徴及び第二の注意力特徴を決定するように構成される第二の決定モジュールと、
前記第一の注意力特徴、前記第二の注意力特徴、前記第一のセマンティック特徴及び前記第二のセマンティック特徴に基づき、前記第一のモーダル情報と前記第二のモーダル情報の間の類似度を決定するように構成される類似度決定モジュールと、を備える、前記クロスモーダル情報検索装置。 - クロスモーダル情報検索装置であって、
プロセッサと、
プロセッサ実行可能命令を格納するように構成されるメモリと、を備え、
前記プロセッサは、請求項1~13のいずれか一項に記載の方法を実現するために、メモリに記憶されたプロセッサ実行可能命令を実行するように構成される、前記クロスモーダル情報検索装置。 - コンピュータプログラム命令を記憶するコンピュータ可読記憶媒体であって、請求項1~13のいずれか一項に記載の方法を実現するために、前記コンピュータプログラム命令がプロセッサによって実行される、前記コンピュータ可読記憶媒体。
- コンピュータに、請求項1~13のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910109983.5 | 2019-01-31 | ||
CN201910109983.5A CN109886326B (zh) | 2019-01-31 | 2019-01-31 | 一种跨模态信息检索方法、装置和存储介质 |
PCT/CN2019/083725 WO2020155423A1 (zh) | 2019-01-31 | 2019-04-22 | 一种跨模态信息检索方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022509327A JP2022509327A (ja) | 2022-01-20 |
JP7164729B2 true JP7164729B2 (ja) | 2022-11-01 |
Family
ID=66927971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547620A Active JP7164729B2 (ja) | 2019-01-31 | 2019-04-22 | クロスモーダル情報検索方法及びその装置、並びに記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210240761A1 (ja) |
JP (1) | JP7164729B2 (ja) |
CN (1) | CN109886326B (ja) |
SG (1) | SG11202104369UA (ja) |
TW (1) | TWI737006B (ja) |
WO (1) | WO2020155423A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125457A (zh) * | 2019-12-13 | 2020-05-08 | 山东浪潮人工智能研究院有限公司 | 一种深度跨模态哈希检索方法及装置 |
CN111914950B (zh) * | 2020-08-20 | 2021-04-16 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 基于深度对偶变分哈希的无监督跨模态检索模型训练方法 |
CN112287134B (zh) * | 2020-09-18 | 2021-10-15 | 中国科学院深圳先进技术研究院 | 检索模型的训练和识别方法、电子设备及存储介质 |
CN112528062B (zh) * | 2020-12-03 | 2024-03-22 | 成都航天科工大数据研究院有限公司 | 一种跨模态武器检索方法及系统 |
CN112926339B (zh) * | 2021-03-09 | 2024-02-09 | 北京小米移动软件有限公司 | 文本相似度确定方法、系统、存储介质以及电子设备 |
CN112905829A (zh) * | 2021-03-25 | 2021-06-04 | 王芳 | 一种跨模态人工智能信息处理系统及检索方法 |
CN113240056B (zh) * | 2021-07-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 多模态数据联合学习模型训练方法及装置 |
CN113486833B (zh) * | 2021-07-15 | 2022-10-04 | 北京达佳互联信息技术有限公司 | 多模态特征提取模型训练方法、装置、电子设备 |
CN113971209B (zh) * | 2021-12-22 | 2022-04-19 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN114841243B (zh) * | 2022-04-02 | 2023-04-07 | 中国科学院上海高等研究院 | 跨模态检索模型训练方法、跨模态检索方法、设备及介质 |
CN114691907B (zh) * | 2022-05-31 | 2022-09-16 | 上海蜜度信息技术有限公司 | 一种跨模态检索的方法、设备及介质 |
CN115359383B (zh) * | 2022-07-07 | 2023-07-25 | 北京百度网讯科技有限公司 | 跨模态特征提取、检索以及模型的训练方法、装置及介质 |
CN115909317B (zh) * | 2022-07-15 | 2024-07-05 | 广州珠江在线多媒体信息有限公司 | 一种三维模型-文本联合表达的学习方法及系统 |
JP7366204B1 (ja) | 2022-07-21 | 2023-10-20 | 株式会社エクサウィザーズ | 情報処理方法、コンピュータプログラム及び情報処理装置 |
CN115392389B (zh) * | 2022-09-01 | 2023-08-29 | 北京百度网讯科技有限公司 | 跨模态信息匹配、处理方法、装置、电子设备及存储介质 |
WO2024081455A1 (en) * | 2022-10-12 | 2024-04-18 | Innopeak Technology, Inc. | Methods and apparatus for optical flow estimation with contrastive learning |
CN115858847B (zh) * | 2023-02-22 | 2023-06-23 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
CN116912351B (zh) * | 2023-09-12 | 2023-11-17 | 四川大学 | 基于人工智能的颅内结构成像的修正方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760507A (zh) | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN108228686A (zh) | 2017-06-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于实现图文匹配的方法、装置和电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130226892A1 (en) * | 2012-02-29 | 2013-08-29 | Fluential, Llc | Multimodal natural language interface for faceted search |
GB201210661D0 (en) * | 2012-06-15 | 2012-08-01 | Qatar Foundation | Unsupervised cross-media summarization from news and twitter |
US9679199B2 (en) * | 2013-12-04 | 2017-06-13 | Microsoft Technology Licensing, Llc | Fusing device and image motion for user identification, tracking and device association |
WO2018142581A1 (ja) * | 2017-02-03 | 2018-08-09 | 三菱電機株式会社 | 認知負荷評価装置および認知負荷評価方法 |
TWM543395U (zh) * | 2017-03-24 | 2017-06-11 | shi-cheng Zhuang | 翻譯輔助系統 |
CN107273517B (zh) * | 2017-06-21 | 2021-07-23 | 复旦大学 | 基于图嵌入学习的图文跨模态检索方法 |
CN107562812B (zh) * | 2017-08-11 | 2021-01-15 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN107832351A (zh) * | 2017-10-21 | 2018-03-23 | 桂林电子科技大学 | 基于深度关联网络的跨模态检索方法 |
TWM560646U (zh) * | 2018-01-05 | 2018-05-21 | 華南商業銀行股份有限公司 | 智能語音交易系統 |
CN109189968B (zh) * | 2018-08-31 | 2020-07-03 | 深圳大学 | 一种跨模态检索方法及系统 |
CN109284414B (zh) * | 2018-09-30 | 2020-12-04 | 中国科学院计算技术研究所 | 基于语义保持的跨模态内容检索方法和系统 |
-
2019
- 2019-01-31 CN CN201910109983.5A patent/CN109886326B/zh active Active
- 2019-04-22 JP JP2021547620A patent/JP7164729B2/ja active Active
- 2019-04-22 SG SG11202104369UA patent/SG11202104369UA/en unknown
- 2019-04-22 WO PCT/CN2019/083725 patent/WO2020155423A1/zh active Application Filing
- 2019-10-16 TW TW108137215A patent/TWI737006B/zh active
-
2021
- 2021-04-26 US US17/239,974 patent/US20210240761A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760507A (zh) | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN108228686A (zh) | 2017-06-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于实现图文匹配的方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109886326B (zh) | 2022-01-04 |
CN109886326A (zh) | 2019-06-14 |
TW202030640A (zh) | 2020-08-16 |
WO2020155423A1 (zh) | 2020-08-06 |
US20210240761A1 (en) | 2021-08-05 |
SG11202104369UA (en) | 2021-07-29 |
TWI737006B (zh) | 2021-08-21 |
JP2022509327A (ja) | 2022-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7164729B2 (ja) | クロスモーダル情報検索方法及びその装置、並びに記憶媒体 | |
US11023682B2 (en) | Vector representation based on context | |
JP2022510704A (ja) | クロスモーダル情報検索方法、装置及び記憶媒体 | |
CN108629414B (zh) | 深度哈希学习方法及装置 | |
CN108108342B (zh) | 结构化文本的生成方法、检索方法及装置 | |
KR101481253B1 (ko) | 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템 | |
US11682415B2 (en) | Automatic video tagging | |
CN109241286B (zh) | 用于生成文本的方法和装置 | |
CN113688310B (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN110941951A (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
US11734602B2 (en) | Methods and systems for automated feature generation utilizing formula semantification | |
JP2024502400A (ja) | グラフ・ニューラル・ネットワークを用いたポータブル・ドキュメント・フォーマットの表形式データの自動描写及び抽出 | |
US11645323B2 (en) | Coarse-to-fine multimodal gallery search system with attention-based neural network models | |
US11347928B2 (en) | Detecting and processing sections spanning processed document partitions | |
US10810497B2 (en) | Supporting generation of a response to an inquiry | |
CN112231444A (zh) | 结合rpa和ai的语料数据的处理方法、装置和电子设备 | |
US9940320B2 (en) | Plugin tool for collecting user generated document segmentation feedback | |
WO2023093259A1 (en) | Iteratively updating a document structure to resolve disconnected text in element blocks | |
CN110929499A (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
JP7476138B2 (ja) | ビデオ処理方法、装置、電子機器及び記憶媒体 | |
CN111666449B (zh) | 视频检索方法、装置、电子设备和计算机可读介质 | |
US20220309278A1 (en) | Unsupervised video representation learning | |
US20210295036A1 (en) | Systematic language to enable natural language processing on technical diagrams | |
CN109857838B (zh) | 用于生成信息的方法和装置 | |
CN111915703B (zh) | 一种图像生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210428 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221020 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7164729 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |