CN107330100A - 基于多视图联合嵌入空间的图像‑文本双向检索方法 - Google Patents
基于多视图联合嵌入空间的图像‑文本双向检索方法 Download PDFInfo
- Publication number
- CN107330100A CN107330100A CN201710545632.XA CN201710545632A CN107330100A CN 107330100 A CN107330100 A CN 107330100A CN 201710545632 A CN201710545632 A CN 201710545632A CN 107330100 A CN107330100 A CN 107330100A
- Authority
- CN
- China
- Prior art keywords
- mrow
- sentence
- msub
- picture
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000010354 integration Effects 0.000 claims abstract description 12
- 230000007935 neutral effect Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 230000014759 maintenance of location Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 9
- 238000003780 insertion Methods 0.000 description 8
- 230000037431 insertion Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010219 correlation analysis Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
- G06F18/21324—Rendering the within-class scatter matrix non-singular involving projections, e.g. Fisherface techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公布了一种基于多视图联合嵌入空间的图像‑文本双向检索方法,通过结合全局层面和局部层面的语义关联关系进行检索;先从画面‑句子视图和区域‑短语视图下分别获得全局和局部层面的语义关联关系,在画面‑句子视图中获取画面和句子全局层面子空间中的语义关联信息;在区域‑短语视图中获取区域和短语局部层面子空间中的语义关联信息;两个视图中均通过双分支的神经网络处理数据得到同构特征嵌入共同空间,在训练中使用约束条件保留数据原有的语义关系;再通过多视图融合排序方法融合两种语义关联关系得到数据之间更精准的语义相似度,使得检索结果准确度更高。
Description
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于多视图联合嵌入空间的图像-文本双向检索方法,通过学习得到多视图联合嵌入空间,实现双向图像-文本检索任务。该方法利用不同视图观察数据,获得数据在不同粒度下的语义关联关系,并通过融合排序方法进行融合,获得更精确的语义关联关系,使得检索结果更加准确。
背景技术
随着计算机视觉领域研究的不断发展,出现了大批与图像-文本相关的任务,如图片说明(image caption),图片描述(dense caption),以及视觉问题回答(visualquestion answering)等。所有这些任务都要求计算机充分理解图像和文本的语义信息,并通过学习能够将一种模态数据的语义信息翻译到另一个模态,因此,该类任务的核心问题是如何弥合两种不同模态在语义层面上的差距,找到沟通两种模态数据的方法。不同模态的数据存在于异构的空间中,因而想要直接通过计算数据之间的距离来度量它们的语义相似度是不现实的。为了解决这一问题,目前的主流方法是对两种数据进行变形得到同构的特征,从而将数据嵌入到一个共同的空间,这样它们可以直接被比较。针对使用何种特征表示数据和使用何种方法将数据嵌入到共同空间中,研究者们做了大量的工作。
考虑到一些由深度学习得到的特征在许多计算机视觉领域的任务上取得了很好的成绩,大量的研究者使用这些特征来表示图像或文本,并将它们转化成同构形式从而可以将数据映射到共同空间来完成图像-文本检索任务。然而,这些学习得到的特征仅仅提供了数据全局层面的信息而缺少局部信息的描述,因此只用这些特征来表示数据是无法挖掘更细粒度的数据之间的关联性的,比如图像的区域和文本中的短语之间的关联关系。另一类方法是将图像和文本都切分成小的部分,将它们投影到一个共同的空间,以便于从细粒度的数据中捕捉到局部语义关联信息。
尽管上述方法在某些方面已经取得了很好的表现,但仅仅从单一的视角,即局部视角或全局视角,观察语义关联是无法获得两种模态数据之间全面完整的关联关系的。亦即,同时获得上述两种视角观察得到的语义关联并加以合理利用有利于综合理解数据的语义信息并获得精确的检索结果。但目前尚无能同时获得不同视角的异构数据关联关系,并对这些关系加以融合得到数据之间最终的语义相似度的方法。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于多视图联合嵌入空间的图像-文本双向检索方法,通过结合全局层面和局部层面的信息来完成图像-文本检索任务,从画面-句子视图和区域-短语视图下观察数据,获得全局层面和局部层面的语义关联关系,然后通过融合这两种语义关联关系得到一个精准的语义理解。
本发明的原理是:现有的图像和文本语义信息的获取和理解的方法在某些方面已经取得了很好的表现,但是,现有仅仅从单一的视角观察语义关联的方法是无法获得两种模态数据之间全面完整的关联关系的。本发明通过结合全局层面和局部层面的信息来完成图像-文本检索任务,即融合上述两种视角观察得到的语义关联,获得更全面准确的语义关联关系,将有利于综合理解数据的语义信息并获得精确的检索结果。本发明提出基于多视图联合空间学习框架分成三个部分:画面-句子嵌入模块、区域-短语嵌入模块,以及多视图融合模块。在画面-句子视图嵌入模块中,将一帧图片或文本中的一个完整句子视为基本单位,通过已有的预先训练好的模型获得两种模态数据(即图像数据和文本数据)富含语义信息的特征,利用双分支神经网络学习两组特征的同构特征,这些特征向量使得图像和文本数据能够被映射到共同的空间中。与此同时,在对双分支神经网络进行训练的过程中,需要保持数据之间原有的关联关系,即语义相似度,之后尝试将这种关联关系在全局层面的子空间中通过可计算得到的距离保存下来。在区域-短语视图嵌入模块中,将每一幅画面和每一个句子分别切分成区域和短语,然后使用已有的特征提取方法提取这些局部数据包含语义信息的特征,将它们送入到另一个双分支神经网络中,同样获得保持了语义相似度的同构特征和一个嵌入了细粒度数据并可以直接计算距离的局部层面子空间,以便于探索这些细粒度数据之间的关联关系。
在这两个模块中,为了将异构数据嵌入到共同空间中,两个视图中均采用双分支的神经网络,分别用一个分支处理一个模态的数据,使其变成同构的可进行比较的特征。每一分支的神经网络分别由两层全连接层构成。两个视图中的双分支神经网络结构相同,但是针对不同训练数据训练之后,两个神经网络可以分别针对画面-句子数据,和区域-短语数据提取特征并保留不同视图下的语义关联关系。本发明使用数据向量之间的内积来计算距离,并以此表示数据之间的相似度,并且在训练期间,为了保存语义关联信息,使用了一系列的约束条件来保证语义相关的数据在这一共同空间中有着更邻近的位置关系。
在多视图融合模块中,我们通过按比例结合前两个视图中计算得到的距离来计算图像和文本数据之间在多视图联合空间中的距离。这一最终的距离能够更精确的显示出数据之间的语义相似度,并且可以作为检索任务的排序依据。需要注意的是,在执行检索任务的过程中,可以单独利用一个视图的语义关联关系进行检索,也可以使用多视图融合后的语义关联关系进行检索,在后续的实验结果中,可以说明多视图融合后得到的语义相似度更能准确的反应数据之间的语义关联关系。
本发明提供的技术方案是:
一种基于多视图联合嵌入空间的图像-文本双向检索方法,通过结合全局层面和局部层面的信息进行图像-文本双向检索;针对数据集D={D1,D2,…,D|D|},数据集中每一个文档Di包括一张图片Ii和一段相关的文本Ti,Di=(Ii,Ti),每一段文本由多个句子组成,每一个句子都独立地对相匹配的图片进行描述;在画面-句子视图中,设定fi代表训练图像Ii的一幅画面,{si1,si2,…,sik}代表Ti中的句子集合,k是文本Ti中句子的个数;在区域-短语视图中,设定rim代表画面fi提取出的第m个区域,pin代表文本Ti中的句子提取出的第n个短语;本发明方法首先从画面-句子视图和区域-短语视图下观察数据,分别获得全局层面和局部层面的语义关联关系,然后通过融合这两种语义关联关系得到一个精准的语义理解;具体包括如下步骤:
1)分别提取所有的图像的画面和所有文本中的句子,使用已有的19层VGG(VisualGeometry Group提出的神经网络结构)模型提取画面数据的CNN(Convolutional NeuralNetwork)特征,使用已有的混合高斯-拉普拉斯混合模型(HGLMM)提取句子数据的FV(Fisher vector)特征;
2)将步骤1)得到的两组特征(CNN特征和FV特征)分别送入双分支神经网络的两个分支中,经过训练得到画面和句子数据的同构特征,此时画面和句子被映射到全局层面子空间,并获得画面-句子视图下图像和文本数据的语义关联信息;
3)使用已有的Faster RCNN模型(Faster Region-based ConvolutionalNetwork)提取所有画面的区域RCNN特征,使用已有的Standford CoreNLP语法分析器提取所有句子的短语依赖关系(dependency triplet),保留含有关键信息的区域和短语特征;
4)将步骤3)得到的两组特征(RCNN特征和短语的依赖关系)分别送入另一个双分支神经网络的两个分支中,经过训练得到区域和短语数据的同构特征,此时区域和短语被映射到局部层面子空间,得到区域-短语视图下图像和文本数据的语义关联信息;
5)使用融合排序方法,将步骤2)和步骤4)得到的不同视图下图像和文本数据的语义关联信息融合起来,计算得到多视图下图像和文本数据在多视图联合空间内的距离,该距离用于度量语义相似度,在检索过程中将其作为排序标准;
6)对检索请求计算得到该检索请求数据在多视图联合空间中与数据集D中另一模态数据(图像或文本)之间的距离(即多视图下图像和文本数据在多视图联合空间内的距离),根据距离对检索结果进行排序;
由此实现基于多视图联合嵌入空间的图像-文本双向检索。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于多视图联合嵌入空间的图像-文本双向检索方法,通过学习得到多视图联合嵌入空间,实现双向图像-文本检索任务。该方法利用不同视图观察数据,获得数据在不同粒度下的语义关联关系,并通过融合排序方法进行融合,获得更精确的语义关联关系,使得检索结果更加准确。具体地,本发明使用双分支神经网络分别将图像和文本数据映射到画面-句子视图的全局层面子空间和区域-短语视图的局部层面子空间,获得全局层面和局部层面的语义关联关系,根据这两组语义关联关系可以单独完成图像-文本双向检索任务,但所得到的检索结果并不全面。本发明提出多视图融合排序方法,将两个视图下的语义关联关系融合在一起,共同计算数据之间在多视图联合空间中的距离,得到的数据之间的距离关系能够更精准的反应数据的语义相似度,使得检索结果的准确度更高。具体地,本发明具有如下技术优势:
(一)本发明从多个视图观察不同模态数据之间的高层语义关联关系,并将这些关联关系融合在一起形成多视图下的语义关联关系,而现有图像-文本检索方法没有此考虑;采用本发明方法可以学习到数据在不同粒度下存在的语义信息,从而能有效的提取更精确的语义信息,获得准确度更高的检索结果;
(二)本发明使用融合排序方法能够将不同视图的语义关联关系融合在一起,使得数据在多视图联合空间中的相对距离能够很好地综合不同视图下的语义关系,最终获得更精确的语义相似度;
(三)本发明采用双分支神经网络,其作用在于不同模态的数据其特征是异构的,无法直接进行比较或计算距离,通过双分支神经网络,每一分支处理一个模态的数据,将不同模态的数据变形成为同构特征,使异构数据同时存在于一个共同空间,可以直接计算距离;
(四)本发明采用一系列约束条件,为了获得同构特征,利用双分支神经网络对数据进行转换,但是在转换过程中,数据原有的语义关系需要得到保留;利用基于间隔的随机损失函数将语义相关数据之间的距离与语义无关数据之间的距离范围拉开间隔,确保在共同空间中数据之间的语义相似度信息得到保留。
附图说明
图1是本发明中基于多视图联合嵌入空间进行图像-文本双向检索的流程框图。
图2是本发明实施例中多视图联合嵌入空间学习过程的示意图;
其中,VGG是19层VGG模型,提取画面的CNN特征,HGLMM是混合高斯-拉普拉斯混合模型(Hybrid Gaussian-Laplacian mixture model)提取句子的Fisher Vector特征,RCNN是Faster RCNN模型提取区域的RCNN特征,Parser是Standford CoreNLP语法分析器提取短语的依赖三元组。神经网络均由两层全连接层组成,每个视图下的两个神经网络组成双分支神经网络。
图3模态间一致性与模态内一致性示意图;
其中,(a)为模态间一致性表示,(b)为模态内一致性表示。
图4是本发明实施例提供的采用本发明方法在Pascal1K数据集下得到的图像-文本检索结果。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于多视图联合嵌入空间的图像-文本双向检索方法,通过结合全局层面和局部层面的语义关联关系进行检索;先从画面-句子视图和区域-短语视图下分别获得全局和局部层面的语义关联关系,在画面-句子视图中,将画面和句子嵌入到全局层面的子空间中获取画面和句子的语义关联信息;在区域-短语视图中,提取画面的每一个区域和句子的每一个短语,嵌入到局部层面的子空间中获取区域和短语的语义关联信息;两个视图中均通过双分支的神经网络处理数据得到同构特征嵌入共同空间,在训练中使用约束条件保留数据原有的语义关系;再通过多视图融合排序方法融合两种语义关联关系得到数据之间更精准的语义相似度。
我们利用数据集D={D1,D2,…,D|D|}对图像-文本检索问题加以描述,在这一数据集中,每一个文档包括一张图片和一段相关的文本,如Di=(Ii,Ti),每一个文本由若干个句子组成,每一个句子都独立地对相匹配的图片进行描述。在画面-句子视图中,我们用fi代表训练图像Ii的一幅画面,用{si1,si2,…,sik}代表Ti中的句子集合(k是文本Ti中句子的个数)。在区域-短语视图中,我们用rim代表画面fi提取出的第m个区域,用pin代表文本Ti中的句子提取出的第n个短语。接下来我们将详细描述两个视图中使用的约束条件,以及最后多视图融合模块的融合排序方法。
1、画面-句子视图
我们将画面和句子分别送入双分支神经网络中,并且获得在全局层面子空间的同构特征。在训练神经网络的过程中,为了保留模态间一致性和模态内一致性,我们提出了基于间隔的随机损失函数。为了将数据放入画面-句子视图中进行处理,我们做了如下特征提取:
对于图像,我们使用19层VGG模型提取得到的4096维CNN特征(向量)作为画面的原始特征;对于文本,我们使用混合高斯-拉普拉斯混合模型(Hybrid Gaussian-Laplacianmixture model,HGLMM)提取得到的Fisher vector(FV)特征(向量)作为句子的原始特征,为了计算方便,我们用PCA(Principal Components Analysis,主成分分析)将最初的18000维FV特征向量降维至4999维。
1)模态间一致性
对于训练画面fi,所有的句子可以分成两个集合,一个集合包含了所有与训练画面匹配的句子,一个集合包含了所有与训练画面不匹配的句子。我们可以推测出一个合理的一致性要求,即在画面-句子视图中,画面fi和在匹配集合中的句子之间的距离必须比画面fi和在不匹配集合中的句子之间的距离小,且距离的差距需要大于间隔m。具体数学表示如式(1):
d(fi,six)+m<d(fi,sjy)if i≠j (1)
式(1)中,d(fi,six)表示画面fi与在其匹配集合中的句子six之间的距离;d(fi,sjy)表示画面fi与在其不匹配集合中的句子sjy之间的距离。
类似的约束可以应用在训练句子six上:
d(fi,six)+m<d(fj,six)if i≠j (2)
式(2)中,d(fi,six)表示句子six与在其匹配集合中的画面fi之间的距离;d(fj,six)表示句子six与在其不匹配集合中的画面fj之间的距离。
2)模态内一致性
在训练过程中,除了考虑到数据的模态间一致性,我们还需要针对数据集中同一画面伴随的若干个句子做一些约束,我们称之为模态内一致性。具体来说,对于共享相同含义即描述相同画面的句子而言,他们需要紧密的联系在一起,并且能够与其他的句子区分开来。
为了实现模态内一致性,我们使用了如下约束:
d(six,siy)+m<d(six,sjz)if i≠j (3)
式(3)中,d(six,siy)表示描述同一个画面fi的句子six与siy之间的距离;d(six,sjz)表示描述画面fi的句子six与描述画面fj的句子sjz之间的距离。
尽管我们应该对画面作出类似公式(3)的约束,即描述同一个句子的画面之间的距离应该更近,但目前我们使用的数据集中,还难以确定若干画面是否描述了相同的句子,因此我们不采用这一项约束,而只对描述同一个画面的句子之间的距离进行公式(3)的约束。
结合上述的约束条件,我们最终总结出了在画面-句子视图上的损失函数:
这里,间隔m可以根据所采用的距离作出调整,为了便于优化,在这里我们将其固定为m=0.1并将它应用在所有的训练样本中,与此同时,通过实验我们发现当λ1=2且λ2=0.2时我们能够获得最好的实验结果。
2、区域-短语视图
在这一视图中,我们希望能够挖掘存在于区域和短语之间的细粒度语义关联关系。我们通过已有的模型提取得到区域和短语特征,对于区域,我们提取画面中得分最高的19个区域的4096维RCNN特征;对于短语,我们利用语法分析器得到依赖树结构,并选择包含关键语义信息的短语。我们用1-of-k编码向量w来代表每一个单词,并将pjy用依赖关系三元组(R,w1,w2)表示的短语映射到嵌入空间中,如式(5):
式(5)中,We是一个400000×d的矩阵,用于将1-of-k向量编码成一个d维的单词向量,其中400000是字典的单词数目,这里我们设定d=200。注意每一个关系R都有单独的权重WR和偏移量bR,并且每一个句子提取的短语数是不一样的。
在这个视图中,我们利用双分支神经网络将图像和文本数据射到区域-短语视图的局部子空间中。在训练网络的过程中,我们要求在匹配的图像文本对中的区域和短语之间的距离要比在不匹配对中的区域和短语之间的距离小。在计算这一视图下的数据映射到局部层面子空间的损失函数表示如下:
ψregion-phrase=∑i,j,x,yκijmax[0,1-ηij×d(rix,pjy)] (6)
式(6)中,d(rix,pjy)表示区域rix和短语pjy之间的距离,我们定义ηij在i=j的时候等于+1,在i≠j时等于-1,常量κij用于根据ηij的正负个数进行归一化。
3、多视图融合模块
在画面-句子嵌入模块和区域-短语嵌入模块分别通过学习得到各自的嵌入空间之后,我们可以借助这两个空间中的信息来获得多视图下的数据间距离。为了获得图像Ii和文本Tj之间更精确的语义相似度,我们按比例结合前两个视图下计算得到的距离作为多视图联合空间中两个数据之间的最后距离:
dmulti-view(Ii,Tj)=dframe-sentence(Ii,Tj)+λdregion-phrase(Ii,Tj) (7)
式(7)中,dframe-sentence(Ii,Tj)表示图像Ii和文本Tj之间在画面-句子视图中的距离,dregion-phrase(Ii,Tj)表示图像Ii和文本Tj之间在区域-短语视图中的距离,dmulti-view(Ii,Tj)表示图像Ii和文本Tj之间在多视图融合后的距离。权重λ用于平衡画面-句子视图和区域-短语视图距离的比例,经过实验,我们发现λ=0.6能够产生很好的效果。
图1为多视图联合嵌入空间学习框架流程图。
图2展示了本发明提出的学习框架示意图。该框架分三个部分,画面-句子视图中,我们将画面和句子嵌入到全局层面的子空间中。在区域-短语视图中,我们提取画面和句子中小的成分,将这些成分嵌入到局部层面的子空间中。每一个视图中,我们都用双分支的神经网络处理数据以使它们变成同构特征嵌入共同空间。在多视图融合模块,提出了多视图融合排序方法来融合两个视图分析得到的语义关联信息得到数据之间最终的距离关系。
图3展示了在画面-句子视图下模态间一致性(左)和模态内一致性(右)的示意图。正方形代表画面,圆形代表句子,相同颜色的图像表示的是同一个语义信息。模态间一致性含义为在画面-句子视图中,一个画面(黑色正方形)和与其匹配的句子(黑色圆形)之间的距离必须比该画面(黑色正方形)和与其不匹配的句子(灰色圆形)之间的距离小,此约束对句子同样适用。模态内一致性含义为在画面-句子视图中,一个句子(黑色正方形)和与其语义相近的句子(其他黑色正方形)之间的距离必须比该句子(黑色正方形)和与其语义无关的句子(灰色正方形)之间的距离小。
图4展示了一个图像-文本检索的实际案例,分别给出了画面-句子视图,区域-短语视图和多视图在针对左上角图像返回的前五个句子的检索结果,正确的检索结果用加粗表示。在这个例子中,我们可以看出,画面-句子视图仅仅能检索到全局层面理解后的句子,但是由于它不能辨别区域中的内容,所以会把正确匹配的句子和一些有相似含义但并包括不正确个体的句子混淆。对于区域-短语视图,它返回了一些包含有正确的个体但个体之间关系不准确的句子。比如这一视图下的第三个句子,它可以辨认出‘a young girl’,但是却误解了女孩和自行车之间的关系是‘riding’,最终返回了一个错误的句子。但是在融合后的多视图中,它可以同时捕捉到全局层面的语义关联关系和局部层面的语义关联关系,因而多视图的检索效果是准确度最高的。
表1实施例中图像-文本双向检索结果
表1给出了本发明在在Pascal1K和Flickr8K上通过图像-文本检索和文本-图像检索进行实验验证的结果。为了评价检索效果,我们遵循了标准的排序度量标准,使用Recall@K,即正确匹配的数据排在前K(K=1,5,10)个检索结果中的概率,来对检索准确性进行度量。图中列出了本发明与其他现有先进算法的效果比较,包括SDT-RNN(SemanticDependency Trees -Recurrent Neural Networks,语义依赖树-循环神经网络),kCCA(kernel Canonical Correlation Analysis,核典型相关分析),DeViSE(Deep Visual-Semantic Embedding,深度视觉语义嵌入),DCCA(Deep Canonical CorrelationAnalysis,深度典型相关分析),VQA-A(Visual Question Answering-agnostic,视觉问题回答不可知论),DFE(Deep Fragment Embedding,深度片段嵌入)。
从表1我们可以看出,本发明方法和其他对比方法相比较而言效果更好。此外,我们还分别展示了两种单独视图的检索效果和多视图融合后的检索效果,从数据中可以看出,结合两个视图之后的多视图融合方法检索效果更好。这一结果证明了单独的两个视图之间彼此是互补的关系,所以将二者结合起来之后可以获得更精准全面的语义关联,检索效果会更好。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (8)
1.一种基于多视图联合嵌入空间的图像-文本双向检索方法,通过结合全局层面和局部层面的语义关联关系进行图像-文本双向检索;针对数据集D={D1,D2,…,D|D|},数据集中每一个文档Di包括一张图片Ii和一段相关的文本Ti,表示为Di=(Ii,Ti),每一段文本由多个句子组成,每一个句子均独立描述相匹配的图片;在画面-句子视图中,设定fi代表训练图像Ii的一幅画面,{si1,si2,…,sik}代表Ti中的句子集合,k是文本Ti中句子的个数;在区域-短语视图中,设定rim代表画面fi提取出的第m个区域,pin代表文本Ti中的句子提取出的第n个短语;所述双向检索方法首先从画面-句子视图和区域-短语视图下分别获得全局层面和局部层面的语义关联关系,然后通过融合两种语义关联关系得到一个精准的语义理解;具体包括如下步骤:
1)分别提取所有图像的画面和所有文本中的句子,分别送入模型中提取数据的特征,得到画面的CNN特征和句子的FV特征;
2)将步骤1)得到的画面的CNN特征和句子的FV特征分别送入双分支神经网络的两个分支中,经过训练得到画面和句子数据的同构特征,此时画面和句子被映射到全局层面子空间,并获得画面-句子视图下图像和文本数据的语义关联信息;
3)使用RCNN模型和语法分析器分别提取所有画面的区域RCNN特征和所有句子的短语依赖关系,保留含有关键信息的区域和短语的特征;
4)将步骤3)得到的区域和短语的特征分别送入另一个双分支神经网络的两个分支中,经过训练得到区域和短语数据的同构特征,此时区域和短语被映射到局部层面子空间,得到区域-短语视图下图像和文本数据的语义关联信息;
5)使用融合排序方法,将步骤2)和步骤4)得到的不同视图下图像和文本数据的语义关联信息进行融合,计算得到多视图下图像和文本数据在多视图联合空间内的距离,该距离用于度量语义相似度,在检索过程中作为排序标准;
6)对检索请求计算得到该检索请求数据在多视图联合空间中与数据集中另一模态数据之间的距离,根据距离对检索结果进行排序;
由此实现基于多视图联合嵌入空间的图像-文本双向检索。
2.如权利要求1所述图像-文本双向检索方法,其特征是,步骤1)提取特征具体是:对于图像,使用19层VGG模型提取得到4096维CNN特征向量,作为画面的原始特征;对于文本,使用混合高斯-拉普拉斯混合模型提取得到FV特征向量,作为句子的原始特征;并通过PCA将特征向量由18000维降维至4999维。
3.如权利要求1所述图像-文本双向检索方法,其特征是,步骤2)将特征分别送入双分支神经网络的两个分支中进行训练,得到画面和句子数据的同构特征,训练过程中设定约束条件以保留模态间一致性和模态内一致性,采用基于间隔的随机损失函数;具体包括:
A.训练画面fi:将所有句子分成匹配集合和不匹配集合,匹配集合包含所有与训练画面匹配的句子,不匹配集合包含所有与训练画面不匹配的句子;设定一致性约束要求为:在画面-句子视图中,画面fi和在匹配集合中的句子之间的距离必须比画面fi和在不匹配集合中的句子之间的距离小,且距离的差距需要大于间隔m,表示如式(1):
d(fi,six)+m<d(fi,sjy)if i≠j (1)
式(1)中,d(fi,six)表示画面fi与在其匹配集合中的句子six之间的距离;d(fi,sjy)表示画面fi与在其不匹配集合中的句子sjy之间的距离;
B.将式(2)的约束应用在训练句子six上:
d(fi,six)+m<d(fj,six)if i≠j (2)
式(2)中,d(fi,six)表示句子six与在其匹配集合中的画面fi之间的距离;d(fj,six)表示句子six与在其不匹配集合中的画面fj之间的距离;
C.针对数据集中同一画面伴随的多个句子设定约束条件,表示为式(3):
d(six,siy)+m<d(six,sjz)if i≠j (3)
式(3)中,d(six,siy)表示描述同一个画面fi的句子six与siy之间的距离;d(six,sjz)表示描述画面fi的句子six与描述画面fj的句子sjz之间的距离;
D.建立在画面-句子视图上的损失函数如式(4):
<mrow>
<mtable>
<mtr>
<mtd>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>f</mi>
<mi>r</mi>
<mi>a</mi>
<mi>m</mi>
<mi>e</mi>
<mo>-</mo>
<mi>s</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mi>e</mi>
<mi>n</mi>
<mi>c</mi>
<mi>e</mi>
</mrow>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>,</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
</mrow>
</munder>
<mi>max</mi>
<mo>&lsqb;</mo>
<mn>0</mn>
<mo>,</mo>
<mi>m</mi>
<mo>+</mo>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>j</mi>
<mi>y</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<msub>
<mi>&lambda;</mi>
<mn>1</mn>
</msub>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>,</mo>
<mi>x</mi>
</mrow>
</munder>
<mi>max</mi>
<mo>&lsqb;</mo>
<mn>0</mn>
<mo>,</mo>
<mi>m</mi>
<mo>+</mo>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<msub>
<mi>&lambda;</mi>
<mn>2</mn>
</msub>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
<mo>,</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>,</mo>
<mi>z</mi>
</mrow>
</munder>
<mi>max</mi>
<mo>&lsqb;</mo>
<mn>0</mn>
<mo>,</mo>
<mi>m</mi>
<mo>+</mo>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mi>y</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>i</mi>
<mi>x</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>j</mi>
<mi>z</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,m为间隔,可根据所采用的距离作出调整。
4.如权利要求3所述图像-文本双向检索方法,其特征是,间隔m取值为0.1;参数λ1取值为2;参数λ2取值为0.2。
5.如权利要求1所述图像-文本双向检索方法,其特征是,步骤3)通过模型提取得到区域和短语特征,具体是:
对于区域,提取画面中得分最高的19个区域的4096维RCNN特征;
对于短语,利用语法分析器得到依赖树结构,选择包含关键语义信息的短语;
用1-of-k编码向量w来代表每一个单词,并将pjy用依赖关系三元组(R,w1,w2)表示的短语映射到嵌入空间中,表示为式(5):
<mrow>
<msub>
<mi>p</mi>
<mrow>
<mi>j</mi>
<mi>y</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>R</mi>
</msub>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>W</mi>
<mi>e</mi>
</msub>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>W</mi>
<mi>e</mi>
</msub>
<msub>
<mi>w</mi>
<mn>2</mn>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>+</mo>
<msub>
<mi>b</mi>
<mi>R</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
式(5)中,We是一个400000×d的矩阵,用于将1-of-k向量编码成一个d维的单词向量,其中400000是字典的单词数目;每一个关系R均有单独的权重WR和偏移量bR,并且每一个句子提取的短语数不同。
6.如权利要求1所述图像-文本双向检索方法,其特征是,步骤4)将区域和短语的特征分别送入双分支神经网络的两个分支中进行训练,得到区域和短语数据的同构特征;具体地,在训练过程中,设定条件为:在匹配的图像文本对中的区域和短语之间的距离比在不匹配对中的区域和短语之间的距离小;通过式(6)的损失函数计算区域-短语视图下的数据并映射到局部层面子空间:
ψregion-phrase=∑i,j,x,yκijmax[0,1-ηij×d(rix,piy)] (6)
式(6)中,d(rix,pjy)表示区域rix和短语pjy之间的距离;设定ηij在i=j的时候等于+1,在i≠j时等于-1,常量κij根据ηij的正负个数进行归一化。
7.如权利要求1所述图像-文本双向检索方法,其特征是,步骤5)通过式(7)按比例结合两个视图下计算得到的距离,作为多视图联合空间中两个数据之间的距离:
dmulti-view(Ii,Tj)=dframe-sentence(Ii,Tj)+λdregion-phrase(Ii,Tj) (7)
式(7)中,dframe-sentence(Ii,Tj)表示图像Ii和文本Tj之间在画面-句子视图中的距离;dregion-phrase(Ii,Tj)表示图像Ii和文本Tj之间在区域-短语视图中的距离;dmulti-view(Ii,Tj)表示图像Ii和文本Tj之间在多视图融合后的距离;权重λ用于平衡画面-句子视图和区域-短语视图距离的比例。
8.如权利要求7所述图像-文本双向检索方法,其特征是,权重λ取值为0.6。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710545632.XA CN107330100B (zh) | 2017-07-06 | 2017-07-06 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
PCT/CN2018/074408 WO2019007041A1 (zh) | 2017-07-06 | 2018-01-29 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
US16/622,570 US11106951B2 (en) | 2017-07-06 | 2018-01-29 | Method of bidirectional image-text retrieval based on multi-view joint embedding space |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710545632.XA CN107330100B (zh) | 2017-07-06 | 2017-07-06 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107330100A true CN107330100A (zh) | 2017-11-07 |
CN107330100B CN107330100B (zh) | 2020-04-03 |
Family
ID=60195963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710545632.XA Expired - Fee Related CN107330100B (zh) | 2017-07-06 | 2017-07-06 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11106951B2 (zh) |
CN (1) | CN107330100B (zh) |
WO (1) | WO2019007041A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288067A (zh) * | 2017-09-12 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
WO2019007041A1 (zh) * | 2017-07-06 | 2019-01-10 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
CN109189930A (zh) * | 2018-09-01 | 2019-01-11 | 网易(杭州)网络有限公司 | 文本特征提取及提取模型优化方法以及介质、装置和设备 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109284414A (zh) * | 2018-09-30 | 2019-01-29 | 中国科学院计算技术研究所 | 基于语义保持的跨模态内容检索方法和系统 |
CN110245238A (zh) * | 2019-04-18 | 2019-09-17 | 上海交通大学 | 基于规则推理和句法图式的图嵌入方法及系统 |
CN111125395A (zh) * | 2019-10-29 | 2020-05-08 | 武汉大学 | 一种基于双分支深度学习的cad图纸检索方法及系统 |
CN111324752A (zh) * | 2020-02-20 | 2020-06-23 | 中国科学技术大学 | 基于图神经网络结构建模的图像与文本检索方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN111626058A (zh) * | 2020-04-15 | 2020-09-04 | 井冈山大学 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
CN111651661A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种图文跨媒体检索方法 |
CN111858882A (zh) * | 2020-06-24 | 2020-10-30 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
CN112052352A (zh) * | 2020-09-07 | 2020-12-08 | 北京达佳互联信息技术有限公司 | 视频排序方法、装置、服务器及存储介质 |
CN112100457A (zh) * | 2020-09-22 | 2020-12-18 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于元数据的多源异构数据集成方法 |
CN113742556A (zh) * | 2021-11-03 | 2021-12-03 | 南京理工大学 | 一种基于全局和局部对齐的多模态特征对齐方法 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461383B2 (en) * | 2017-09-25 | 2022-10-04 | Equifax Inc. | Dual deep learning architecture for machine-learning systems |
CN109857895B (zh) * | 2019-01-25 | 2020-10-13 | 清华大学 | 基于多环路视图卷积神经网络的立体视觉检索方法与系统 |
CN110197521B (zh) * | 2019-05-21 | 2023-03-24 | 复旦大学 | 基于语义结构表示的视觉文本嵌入方法 |
CN110298395B (zh) * | 2019-06-18 | 2023-04-18 | 天津大学 | 一种基于三模态对抗网络的图文匹配方法 |
CN110489551B (zh) * | 2019-07-16 | 2023-05-30 | 哈尔滨工程大学 | 一种基于写作习惯的作者识别方法 |
CN111753553B (zh) * | 2020-07-06 | 2022-07-05 | 北京世纪好未来教育科技有限公司 | 语句类型识别方法、装置、电子设备和存储介质 |
CN111814658B (zh) * | 2020-07-07 | 2024-02-09 | 西安电子科技大学 | 基于语义的场景语义结构图检索方法 |
CN112860847B (zh) * | 2021-01-19 | 2022-08-19 | 中国科学院自动化研究所 | 视频问答的交互方法及系统 |
CN113191375B (zh) * | 2021-06-09 | 2023-05-09 | 北京理工大学 | 一种基于联合嵌入的文本到多对象图像生成方法 |
CN113536184B (zh) * | 2021-07-15 | 2022-05-31 | 广东工业大学 | 一种基于多源信息的用户划分方法及系统 |
CN114048351A (zh) * | 2021-11-08 | 2022-02-15 | 湖南大学 | 一种基于时空关系增强的跨模态文本-视频检索方法 |
CN114048350A (zh) * | 2021-11-08 | 2022-02-15 | 湖南大学 | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 |
CN114329034B (zh) * | 2021-12-31 | 2024-08-09 | 武汉大学 | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 |
CN114612749B (zh) * | 2022-04-20 | 2023-04-07 | 北京百度网讯科技有限公司 | 神经网络模型训练方法及装置、电子设备和介质 |
CN114998607B (zh) * | 2022-05-11 | 2023-01-31 | 北京医准智能科技有限公司 | 超声图像的特征提取方法、装置、电子设备及存储介质 |
CN115033670B (zh) * | 2022-06-02 | 2024-08-02 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN116230003B (zh) * | 2023-03-09 | 2024-04-26 | 北京安捷智合科技有限公司 | 一种基于人工智能的音视频同步方法及系统 |
CN116484878B (zh) * | 2023-06-21 | 2023-09-08 | 国网智能电网研究院有限公司 | 电力异质数据的语义关联方法、装置、设备及存储介质 |
CN117520590B (zh) * | 2024-01-04 | 2024-04-26 | 武汉理工大学三亚科教创新园 | 海洋跨模态图文检索方法、系统、设备及存储介质 |
CN117874262B (zh) * | 2024-03-12 | 2024-06-04 | 北京邮电大学 | 一种基于渐进原型匹配的文本-动态图片跨模态检索方法 |
CN118069920B (zh) * | 2024-04-19 | 2024-07-09 | 湖北华中电力科技开发有限责任公司 | 一种面向海量多网络协议终端设备接入的数据采集系统 |
CN118410011A (zh) * | 2024-06-27 | 2024-07-30 | 维飒科技(西安)有限公司 | 工程文件数据自适应匹配方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278554A1 (en) * | 2013-03-14 | 2014-09-18 | Koninklijke Philips N.V. | Using image references in radiology reports to support report-to-image navigation |
CN106095829A (zh) * | 2016-06-01 | 2016-11-09 | 华侨大学 | 基于深度学习与一致性表达空间学习的跨媒体检索方法 |
CN106202413A (zh) * | 2016-07-11 | 2016-12-07 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN106777402A (zh) * | 2017-03-10 | 2017-05-31 | 山东师范大学 | 一种基于稀疏神经网络的图像检索文本方法 |
CN106886601A (zh) * | 2017-03-02 | 2017-06-23 | 大连理工大学 | 一种基于子空间混合超图学习的交叉模态检索算法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7814040B1 (en) * | 2006-01-31 | 2010-10-12 | The Research Foundation Of State University Of New York | System and method for image annotation and multi-modal image retrieval using probabilistic semantic models |
US8060513B2 (en) * | 2008-07-01 | 2011-11-15 | Dossierview Inc. | Information processing with integrated semantic contexts |
US20170330059A1 (en) * | 2016-05-11 | 2017-11-16 | Xerox Corporation | Joint object and object part detection using web supervision |
US20180373955A1 (en) * | 2017-06-27 | 2018-12-27 | Xerox Corporation | Leveraging captions to learn a global visual representation for semantic retrieval |
CN107330100B (zh) * | 2017-07-06 | 2020-04-03 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
-
2017
- 2017-07-06 CN CN201710545632.XA patent/CN107330100B/zh not_active Expired - Fee Related
-
2018
- 2018-01-29 US US16/622,570 patent/US11106951B2/en active Active
- 2018-01-29 WO PCT/CN2018/074408 patent/WO2019007041A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278554A1 (en) * | 2013-03-14 | 2014-09-18 | Koninklijke Philips N.V. | Using image references in radiology reports to support report-to-image navigation |
CN106095829A (zh) * | 2016-06-01 | 2016-11-09 | 华侨大学 | 基于深度学习与一致性表达空间学习的跨媒体检索方法 |
CN106202413A (zh) * | 2016-07-11 | 2016-12-07 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN106886601A (zh) * | 2017-03-02 | 2017-06-23 | 大连理工大学 | 一种基于子空间混合超图学习的交叉模态检索算法 |
CN106777402A (zh) * | 2017-03-10 | 2017-05-31 | 山东师范大学 | 一种基于稀疏神经网络的图像检索文本方法 |
Non-Patent Citations (1)
Title |
---|
KAIYE WANG 等: "Joint Feature Selection and Subspace Learning for Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019007041A1 (zh) * | 2017-07-06 | 2019-01-10 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
US11699298B2 (en) | 2017-09-12 | 2023-07-11 | Tencent Technology (Shenzhen) Company Limited | Training method of image-text matching model, bi-directional search method, and relevant apparatus |
CN110532571A (zh) * | 2017-09-12 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 文本处理方法及相关装置 |
CN110532571B (zh) * | 2017-09-12 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 文本处理方法及相关装置 |
CN108288067A (zh) * | 2017-09-12 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
US11087166B2 (en) | 2017-09-12 | 2021-08-10 | Tencent Technology (Shenzhen) Company Limited | Training method of image-text matching model, bi-directional search method, and relevant apparatus |
EP3683724A4 (en) * | 2017-09-12 | 2021-02-17 | Tencent Technology (Shenzhen) Company Limited | LEARNING PROCESS FOR IMAGE-TEXT MATCHING MODEL, BIDIRECTIONAL SEARCH PROCESS, AND RELATED APPARATUS |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN109189930A (zh) * | 2018-09-01 | 2019-01-11 | 网易(杭州)网络有限公司 | 文本特征提取及提取模型优化方法以及介质、装置和设备 |
CN109284414B (zh) * | 2018-09-30 | 2020-12-04 | 中国科学院计算技术研究所 | 基于语义保持的跨模态内容检索方法和系统 |
CN109284414A (zh) * | 2018-09-30 | 2019-01-29 | 中国科学院计算技术研究所 | 基于语义保持的跨模态内容检索方法和系统 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN110245238B (zh) * | 2019-04-18 | 2021-08-17 | 上海交通大学 | 基于规则推理和句法模式的图嵌入方法及系统 |
CN110245238A (zh) * | 2019-04-18 | 2019-09-17 | 上海交通大学 | 基于规则推理和句法图式的图嵌入方法及系统 |
CN111125395A (zh) * | 2019-10-29 | 2020-05-08 | 武汉大学 | 一种基于双分支深度学习的cad图纸检索方法及系统 |
CN111324752B (zh) * | 2020-02-20 | 2023-06-16 | 中国科学技术大学 | 基于图神经网络结构建模的图像与文本检索方法 |
CN111324752A (zh) * | 2020-02-20 | 2020-06-23 | 中国科学技术大学 | 基于图神经网络结构建模的图像与文本检索方法 |
CN111626058B (zh) * | 2020-04-15 | 2023-05-30 | 井冈山大学 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
CN111626058A (zh) * | 2020-04-15 | 2020-09-04 | 井冈山大学 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
CN111651661B (zh) * | 2020-06-03 | 2023-02-14 | 拾音智能科技有限公司 | 一种图文跨媒体检索方法 |
CN111651661A (zh) * | 2020-06-03 | 2020-09-11 | 拾音智能科技有限公司 | 一种图文跨媒体检索方法 |
CN111858882B (zh) * | 2020-06-24 | 2022-08-09 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
CN111858882A (zh) * | 2020-06-24 | 2020-10-30 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
CN112052352A (zh) * | 2020-09-07 | 2020-12-08 | 北京达佳互联信息技术有限公司 | 视频排序方法、装置、服务器及存储介质 |
CN112052352B (zh) * | 2020-09-07 | 2024-04-30 | 北京达佳互联信息技术有限公司 | 视频排序方法、装置、服务器及存储介质 |
CN112100457A (zh) * | 2020-09-22 | 2020-12-18 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于元数据的多源异构数据集成方法 |
CN113742556A (zh) * | 2021-11-03 | 2021-12-03 | 南京理工大学 | 一种基于全局和局部对齐的多模态特征对齐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107330100B (zh) | 2020-04-03 |
WO2019007041A1 (zh) | 2019-01-10 |
US20210150255A1 (en) | 2021-05-20 |
US11106951B2 (en) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330100A (zh) | 基于多视图联合嵌入空间的图像‑文本双向检索方法 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN110276316A (zh) | 一种基于深度学习的人体关键点检测方法 | |
CN106991092B (zh) | 基于大数据挖掘相似裁判文书的方法和设备 | |
Plummer et al. | Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models | |
CN103530281B (zh) | 一种论元抽取方法和系统 | |
CN108920544A (zh) | 一种基于知识图谱的个性化职位推荐方法 | |
CN103617280B (zh) | 一种中文事件信息挖掘方法和系统 | |
DE102016010909A1 (de) | Strukturiertes Modellieren, Extrahieren und Lokalisieren von Wissen aus Bildern | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN109558902A (zh) | 一种快速目标检测方法 | |
CN104899340B (zh) | 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法 | |
DE102016010910A1 (de) | Strukturiertes Modellieren und Extrahieren von Wissen aus Bildern | |
CN113094533B (zh) | 一种基于混合粒度匹配的图文跨模态检索方法 | |
CN105701504A (zh) | 用于零样本学习的多模态流形嵌入方法 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN103020283B (zh) | 一种基于背景知识的动态重构的语义检索方法 | |
CN106600482A (zh) | 多源社交数据融合的多角度旅游信息感知与智能推荐方法 | |
CN104850620A (zh) | 一种基于空间关系的空间场景数据检索方法 | |
Li et al. | AAFormer: Attention-Attended Transformer for Semantic Segmentation of Remote Sensing Images | |
CN103942224B (zh) | 一种获取网页分块的标注规则的方法及装置 | |
CN113592881A (zh) | 图片指代性分割方法、装置、计算机设备和存储介质 | |
CN117765177A (zh) | 一种基于大模型知识库的预案三维实战演练方法及系统 | |
CN107729821A (zh) | 一种基于一维序列学习的视频概括方法 | |
CN111860249A (zh) | 一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200403 |