CN109255047A - 基于互补语义对齐和对称检索的图像-文本互检索方法 - Google Patents
基于互补语义对齐和对称检索的图像-文本互检索方法 Download PDFInfo
- Publication number
- CN109255047A CN109255047A CN201810787435.3A CN201810787435A CN109255047A CN 109255047 A CN109255047 A CN 109255047A CN 201810787435 A CN201810787435 A CN 201810787435A CN 109255047 A CN109255047 A CN 109255047A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- feature
- retrieval
- retrieved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于计算机视觉与自然语言处理技术领域,公开了一种基于互补语义对齐和对称检索的图像‑文本互检索方法,采用卷积神经网络提取图像的深度视觉特征;利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征,确保视觉特征包含目标和场景多重互补语义信息;利用长短期记忆网络对文本进行编码,提取出对应的语义特征表示;利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中;利用k最近邻的方法,在该跨模态嵌入空间检索,得到检索的初始列表;利用基于互近邻的方法对称双向检索的邻近关系,对初始检索列表进行重排序,得到最终的检索等级列表。本发明具有准确度高的优点。
Description
技术领域
本发明属于计算机视觉与自然语言处理技术领域,尤其涉及一种基于互补语义对齐和对称检索的图像-文本互检索方法。
背景技术
目前,业内常用的现有技术是这样的:图像-语义描述互检索任务旨在给定一张检索图像在文本库中检索出与之相关的文本描述语句,或者给定一句文本描述在图片库中检索出与之对应的图像。具有重要的实际应用意义,例如帮助盲人“看清”世界等;除此之外,该任务还被视为图像理解的一个重大挑战,是计算机视觉中的一个核心问题。因此,图像-语义描述互检索任务是计算机视觉与自然语言处理领域最热门的研究之一。目前,大多数的图像-语义互检索方法主要是在实例水平上进行的,主要检索的是预先定义好的实例,除此之外,还有一些方法是基于类别标签的视觉检索。根据检索方向的不同,图像-语义描述检索主要可以分为两大类。第一类是在视觉空间的单向检索,首先在视觉空间里检索出与检索图像相似的候选图片,然后将这些候选图片对应的语义描述的句子进行重排序,进而得到最终的检索图像的语义描述的检索结果。现有技术一提出了一种基于词组重组的检索方法:给定一张检索图片,他们用分类器或者检测器判断图像中包含的内容元素,然后根据这些内容元素在数据库中检索出其对应的词组,最后用自然语言处理的方法将这些词组重组,得到最终的检索结果。现有技术二是在一个跨模态嵌入空间中实现双向检索,首先基于图像-文本数据库学习得到一个公共的跨模态嵌入空间,然后他们用在这个空间的联合特征来实现对检索样本的跨模态检索。所以跨模态检索至关重要的问题就是如何构建一个图像和文本的联合嵌入空间。近几年来,提出了很多构建联合图像-语义嵌入空间的方法,这些方法主要可以分为两个方面。第一种联合嵌入空间的构建方法是基于典型相关分析(CCA)的,主要包括归一化CCA和核CCA。最近,CCA的方法也应用到了深度学习框架中,然而,CCA方法最大的缺点就是它需要将所有的数据加载到内存中来计算协方差矩阵,所以这对内存的消耗是很大的。另一种联合嵌入的方法是基于等级损失函数的,比如很多深度学习方法,例如限制玻尔兹曼机和自编码器,都是基于等级损失函数将图像和文本映射到同一跨模态嵌入空间。WSABIE和DeVISE就是基于一个单向等级损失函数学习得到线性映射,将视觉和文本特征映射到同一嵌入空间,然而,基于单向等级损失函数的方法可能在反向检索的时候产生误差。为了解决这一问题,一些系统开始使用双向等级损失函数监督学习映射矩阵,例如,提出了一种VSE的联合嵌入空间的构建方法,VSE用一个双向等级损失函数监督学习得到对应的映射矩阵,将深度视觉特征和深度文本特征映射到同一嵌入空间。在VSE的基础上改进了双向等级函数,最终实现了图像-语义描述检索的最好结果。近几年来,显著性机制也被应用到了图像-语义描述检索的任务中,该机制选择性的关注到特定的图像区域和文本词组上,并计算它们之间的相似度。利用一个同时作用于图像和描述句子的显著性机制,来计算图像和自然语言之间的细节相似度。
然而,现有技术存在的问题是:现有方法所用到的图像特征仅仅包含图像的目标信息,忽视了图像的场景上下文信息,而在文本特征里面既包括目标信息又包括场景上下文信息,因此带图像特征和文本特征在嵌入空间对齐的时候会产生较大的偏差。除此之外,由于文本里面的信息是高度浓缩之后的语义信息,而图像特征里面包含更为丰富的语义信息,所以检索的时候会出现双向检索结果不对称的问题,例如一张图片检索出的前k个句子,对这些句子反向检索图片的时候,该图片不一定会出现在句子的前k个检索结果中,进而影响双向检索的精度。
发明内容
针对现有技术存在的问题,本发明提供了一种基于互补语义对齐和对称检索的图像-文本互检索方法。
本发明是这样实现的,一种基于互补语义对齐和对称检索的图像-文本互检索方法,所述基于互补语义对齐和对称检索的图像-文本互检索方法采用卷积神经网络提取图像的深度视觉特征;利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征,确保视觉特征包含目标和场景多重互补语义信息;利用长短期记忆网络对文本进行编码,提取出对应的语义特征表示;利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中;利用k最近邻的方法,在该跨模态嵌入空间检索,得到检索的初始列表;利用基于互近邻的方法对称双向检索的邻近关系,对初始检索列表进行重排序,得到最终的检索等级列表。
进一步,所述基于互补语义对齐和对称检索的图像-文本互检索方法包括以下步骤:
步骤一,利用多种预训练好的CNN提取多重图像视觉特征;将包含不同语义信息的多重图像视觉特征融合,得到最终的图像深度视觉特征;
步骤二,用长短期记忆网络对文本进行编码,提取文本语义特征;
步骤三,将上述得到的图像视觉特征和文本语义特征映射到同一个跨模态的嵌入空间中;
步骤四,在该跨模态嵌入空间中,进行k最近邻检索,得到初始的检索排序列表;再利用互为近邻的检索方法,对初始排序列表进行重排序,得到最终的检索结果。
进一步,所述步骤一具体包括:
(1)用目标图像数据库预训练卷积神经网络,用该卷积神经网络提取出包含图像目标信息的深度视觉特征φobj;
(2)用场景图像数据库预训练卷积神经网络,用该卷积神经网络提取出包含图像场景上下文信息的深度视觉特征φsce;
(3)可用不同的神经网络提取深度图像特征,取VGG网络FC7层的输出,ResNet152网络pool5层的输出,DenseNet161网络的normal5层输出作为视觉图像特征表示;将这两种包含不同的语义信息的图像深度视觉特征进行如下融合:
φmulti=[Norm(φobj),Norm(φsce)];
得到最终的基于多信息融合的图像视觉特征表示。
进一步,所述步骤二具体包括:
(1)构建词字典,将句子中的每个单词用独热向量表示,该独热向量设为m维;用word2vec算法将每个单词的独热向量映射成一个n维的词向量;
(2)将句子中的每个单词对应的n维词向量按顺序输入到长短期记忆网络中,取最后时刻的状态向量作为整个句子的特征表示,将句子特征向量设为i维。
进一步,所述步骤三具体包括:
(1)学习一个视觉映射矩阵,将基于多信息融合的图像视觉特征映射到一个d维的跨模态嵌入空间中,同样地,学习一个文本映射矩阵将文本语义特征映射到同一跨模态嵌入空间;在该嵌入空间中定义一个距离度量函数,来衡量文本与图像特征之间的距离关系,距离越小对应的文本和图像之间越相关;
(2)基于一个双向损失函数,用随机梯度下降法更新视觉映射矩阵、文本映射矩阵以及长短期记忆网络的参数,最终学习得到良好的视觉映射矩阵和文本映射矩阵,将视觉特征和文本特征映射到统一嵌入空间,最终在该空间中实现的视觉语义对齐;
(3)考虑到基于目标图像数据库和基于场景图像数据库预训练的卷积神经网络,不能很好的适应图像-文本检索任务,所以需要同样基于一个双向损失函数,用随机梯度下降法对上述预训练网络的参数进行微调,微调时对网络结构从后往前逐层微调其中的参数,最终将网络调到最优。
进一步,所述步骤四具体包括:
(1)利用对应的映射矩阵将给出的检索样本P映射到学习到的跨模态嵌入空间,将待检索的样本集同样用映射矩阵映射到统一嵌入空间,在该空间中,找出距离检索样本特征最近的k个待检索样本的特征,将这k个样本按照其与检索样本P距离从小到大排序,得到初始的检索等级排序列表;
(2)将初始排序列表的k个样本分别作为检索样本,按照步骤4中的检索算法得到每个待检索样本的基于k近邻的初始检索等级排序列表;
(3)对于初始检索列表中的k个待检索样本,判断检索样本P是否属于其基于k近邻的初始检索排序列表中,若属于,则该待检索样本和检索样本P在跨模态嵌入空间中属于互为近邻关系,否则为非互为近邻关系,因此检索样本P的互为近邻样本集合表达式如下:
R(P,k)={gi|(gi∈N(P,k))∧(P∈N(gi,k))};
在初始检索列表的基础上,将与检索样本P互为近邻关系的待检索样本排序等级提前,进而得到最终的检索等级排序列表。
本发明的另一目的在于提供一种应用所述基于互补语义对齐和对称检索的图像-文本互检索方法的计算机视觉处理系统。
本发明的另一目的在于提供一种应用所述基于互补语义对齐和对称检索的图像-文本互检索方法的计算机自然语言处理系统。
综上所述,本发明的优点及积极效果为:采用包含多重互补语义信息的图像特征能够使图像特征在跨模态嵌入空间中,与文本语义特征实现更好的对齐,从而实现了图像视觉特征和文本语义特征在目标物体和场景上下文两方面的对齐,构建了更加适用于图像-语义描述互检索的跨模态嵌入空间;采用基于对称检索方法,平衡图像特征和文本语义特征在跨模态嵌入空间中的邻近关系不对称性,减小这种不对称关系会给图片-语义描述互检索精度带来误差,提高互检索精度。在MSCOCO数据库上,与当前最优的算法VSE++相比,本发明在图像对句子的检索精度方面,R@1检索结果提高了4.2%,R@10检索结果提高了1.5%,在句子检索图像方面,R@1检索结果提高了15.7%,R@10检索结果提高了3.8%。
附图说明
图1是本发明实施例提供的基于互补语义对齐和对称检索的图像-文本互检索方法流程图。
图2是本发明实施例提供的基于互补语义对齐和对称检索的图像-文本互检索方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明旨在解决图像特征包含信息不全面,丢失场景上下文信息;跨模态检索时两个不同模态的特征之间存在邻近关系不对称性的问题;利用基于互近邻的方法对初始检索列表进行重排序,得到最终的检索等级排序列表。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于互补语义对齐和对称检索的图像-文本互检索方法包括以下步骤:
S101:利用多种预训练好的CNN提取多重图像视觉特征;将包含不同语义信息的多重图像视觉特征融合,得到最终的图像深度视觉特征;
S102:用长短期记忆网络对文本进行编码,提取文本语义特征;
S103:将得到的图像视觉特征和文本语义特征映射到同一个跨模态的嵌入空间中;
S104:在该跨模态嵌入空间中,进行k最近邻检索,得到初始的检索排序列表;再利用互为近邻的检索方法,对初始排序列表进行重排序,得到最终的检索结果。
在本发明的优选实施例中,步骤S101是将基于不同数据库预训练的CNN提取出的图像视觉特征融合在一起,其中包括基于目标的视觉特征和基于场景上下文的视觉特征。融合过的视觉图像特征包含更加丰富的语义信息,能够更好的对应到相应的文本特征。
下面结合附图和具体实施例,对本发明作进一步详细描述。
如图2所示,本发明实施例提供的基于互补语义对齐和对称检索的图像-文本互检索方法包括以下步骤:
步骤1,利用多种预训练好的CNN提取多重图像视觉特征;将包含不同语义信息的多重图像视觉特征融合,得到最终的图像深度视觉特征;
(1a)用目标图像数据库预训练卷积神经网络,用该卷积神经网络提取出包含图像目标信息的深度视觉特征φobj;
(1b)用场景图像数据库预训练卷积神经网络,用该卷积神经网络提取出包含图像场景上下文信息的深度视觉特征φsce;
(1c)取VGG网络FC7层的输出,作为视觉图像特征表示;将这两种包含不同的语义信息的图像深度视觉特征进行如下融合:
φmulti=[Norm(φobj),Norm(φsce)];
得到最终的基于多信息融合的图像视觉特征表示。
步骤2,用长短期记忆网络对文本进行编码,提取文本语义特征;
(2a)构建词字典,将句子中的每个单词用独热向量表示,该独热向量设为m维;用word2vec算法将每个单词的独热向量映射成一个n维的词向量;
(2b)将句子中的每个单词对应的n维词向量按顺序输入到长短期记忆网络中,取最后时刻的状态向量作为整个句子的特征表示,这里将句子特征向量设为i维。
步骤3,将上述得到的图像视觉特征和文本语义特征映射到同一个跨模态的嵌入空间中;
(3a)学习一个视觉映射矩阵,将基于多信息融合的图像视觉特征映射到一个d维的跨模态嵌入空间中,同样地,学习一个文本映射矩阵将文本语义特征映射到同一跨模态嵌入空间;在该嵌入空间中定义一个距离度量函数,来衡量文本与图像特征之间的距离关系,距离越小对应的文本和图像之间越相关;
(3b)基于一个双向损失函数,用随机梯度下降法更新视觉映射矩阵、文本映射矩阵以及长短期记忆网络的参数,最终学习得到良好的视觉映射矩阵和文本映射矩阵,将视觉特征和文本特征映射到统一嵌入空间,最终在该空间中实现的视觉语义对齐;
(3c)考虑到基于目标图像数据库和基于场景图像数据库预训练的卷积神经网络,不能很好的适应图像-文本检索任务,所以需要同样基于一个双向损失函数,用随机梯度下降法对上述预训练网络的参数进行微调,微调时对网络结构从后往前逐层微调其中的参数,最终将网络调到最优。
步骤4,在该跨模态嵌入空间中,进行k最近邻检索,得到初始的检索排序列表;再利用互为近邻的检索方法,对初始排序列表进行重排序,得到最终的检索结果;
(4a)利用对应的映射矩阵将给出的检索样本P映射到学习到的跨模态嵌入空间,将待检索的样本集同样用映射矩阵映射到统一嵌入空间,在该空间中,找出距离检索样本特征最近的k个待检索样本的特征,将这k个样本按照其与检索样本P距离从小到大排序,得到初始的检索等级排序列表;
(4b)将初始排序列表的k个样本分别作为检索样本,按照步骤4中的检索算法得到每个待检索样本的基于k近邻的初始检索等级排序列表;
(4c)对于初始检索列表中的k个待检索样本,判断检索样本P是否属于其基于k近邻的初始检索排序列表中,若属于,则该待检索样本和检索样本P在跨模态嵌入空间中属于互为近邻关系,否则为非互为近邻关系,因此检索样本P的互为近邻样本集合表达式如下:
R(P,k)={gi|(gi∈N(P,k))∧(P∈N(gi,k))};
在初始检索列表的基础上,将与检索样本P互为近邻关系的待检索样本排序等级提前,进而得到最终的检索等级排序列表。
以下结合仿真实验,对本发明的技术效果作进一步说明。
1.仿真条件和内容
仿真条件:本发明用到的编程语言为Python,深度学习框架是Pytorch,系统是Linux系统,利用GPU进行加速仿真,用到的数据库为MSCOCO数据库;
仿真内容:本发明在MSCOCO数据库上进行仿真,该数据库包含164,062张图片,每张图片对应五个描述句子,本发明用该数据库的82783张图片作为训练样本,用剩下的图片中的1000张作为验证集,另外1000张图片作为测试及进行实验。本发明首先将图片调整到256*256的大小,在用随机剪裁的方法将图片剪裁为224*224的大小,然后用VGG19的FC7层的输出作为图像视觉特征的表示,维数为4096,用长短期记忆网络提取描述句子的特征表示,维数为512,最终将视觉特征和句子特征映射为1024维。本发明的实验结果衡量标准采用Recall@K(R@K),即前K个检索结果中出现正确描述句子的测试样本的比例。
2.仿真结果分析
表格1是本发明与当前最优算法VSE++比较的结果,从表1中可以看出,本发明在图像对句子的检索精度方面,R@1检索结果提高了4.2%,R@10检索结果提高了1.5%,在句子检索图像方面,R@1检索结果提高了15.7%,R@10检索结果提高了3.8%。该结果证明了本发明在图像-句子检索任务上的适用性和优越性。
表1
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述基于互补语义对齐和对称检索的图像-文本互检索方法采用卷积神经网络提取图像的深度视觉特征;利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征,确保视觉特征包含目标和场景多重互补语义信息;利用长短期记忆网络对文本进行编码,提取出对应的语义特征表示;利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中;利用k最近邻的方法,在该跨模态嵌入空间检索,得到检索的初始列表;利用基于互近邻的方法对称双向检索的邻近关系,对初始检索列表进行重排序,得到最终的检索等级列表。
2.如权利要求1所述的基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述基于互补语义对齐和对称检索的图像-文本互检索方法包括以下步骤:
步骤一,利用多种预训练好的CNN提取多重图像视觉特征;将包含不同语义信息的多重图像视觉特征融合,得到最终的图像深度视觉特征;
步骤二,用长短期记忆网络对文本进行编码,提取文本语义特征;
步骤三,将上述得到的图像视觉特征和文本语义特征映射到同一个跨模态的嵌入空间中;
步骤四,在该跨模态嵌入空间中,进行k最近邻检索,得到初始的检索排序列表;再利用互为近邻的检索方法,对初始排序列表进行重排序,得到最终的检索结果。
3.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述步骤一具体包括:
(1)用目标图像数据库预训练卷积神经网络,用该卷积神经网络提取出包含图像目标信息的深度视觉特征φobj;
(2)用场景图像数据库预训练卷积神经网络,用该卷积神经网络提取出包含图像场景上下文信息的深度视觉特征φsce;
(3)可用不同的神经网络提取深度图像特征,取VGG网络fc7层的输出,ResNet152网络pool5层的输出,DenseNet161网络的normal5层输出作为视觉图像特征表示;将这两种包含不同的语义信息的图像深度视觉特征进行如下融合:
φmulti=[Norm(φobj),Norm(φsce)];
得到最终的基于多信息融合的图像视觉特征表示。
4.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述步骤二具体包括:
(1)构建词字典,将句子中的每个单词用独热向量表示,该独热向量设为m维;用word2vec算法将每个单词的独热向量映射成一个n维的词向量;
(2)将句子中的每个单词对应的n维词向量按顺序输入到长短期记忆网络中,取最后时刻的状态向量作为整个句子的特征表示,将句子特征向量设为i维。
5.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述步骤三具体包括:
(1)学习一个视觉映射矩阵,将基于多信息融合的图像视觉特征映射到一个d维的跨模态嵌入空间中,同样地,学习一个文本映射矩阵将文本语义特征映射到同一跨模态嵌入空间;在该嵌入空间中定义一个距离度量函数,来衡量文本与图像特征之间的距离关系,距离越小对应的文本和图像之间越相关;
(2)基于一个双向损失函数,用随机梯度下降法更新视觉映射矩阵、文本映射矩阵以及长短期记忆网络的参数,最终学习得到良好的视觉映射矩阵和文本映射矩阵,将视觉特征和文本特征映射到统一嵌入空间,最终在该空间中实现的视觉语义对齐;
(3)考虑到基于目标图像数据库和基于场景图像数据库预训练的卷积神经网络,不能很好的适应图像-文本检索任务,所以需要同样基于一个双向损失函数,用随机梯度下降法对上述预训练网络的参数进行微调,微调时对网络结构从后往前逐层微调其中的参数,最终将网络调到最优。
6.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法,其特征在于,所述步骤四具体包括:
(1)利用对应的映射矩阵将给出的检索样本P映射到学习到的跨模态嵌入空间,将待检索的样本集同样用映射矩阵映射到统一嵌入空间,在该空间中,找出距离检索样本特征最近的k个待检索样本的特征,将这k个样本按照其与检索样本P距离从小到大排序,得到初始的检索等级排序列表;
(2)将初始排序列表的k个样本分别作为检索样本,按照步骤4中的检索算法得到每个待检索样本的基于k近邻的初始检索等级排序列表;
(3)对于初始检索列表中的k个待检索样本,判断检索样本P是否属于其基于k近邻的初始检索排序列表中,若属于,则该待检索样本和检索样本P在跨模态嵌入空间中属于互为近邻关系,否则为非互为近邻关系,因此检索样本P的互为近邻样本集合表达式如下:
R(P,k)={gi|(gi∈N(P,k))∧(P∈N(gi,k))};
在初始检索列表的基础上,将与检索样本P互为近邻关系的待检索样本排序等级提前,进而得到最终的检索等级排序列表。
7.一种应用权利要求1~6任意一项所述基于互补语义对齐和对称检索的图像-文本互检索方法的计算机视觉处理系统。
8.一种应用权利要求1~6任意一项所述基于互补语义对齐和对称检索的图像-文本互检索方法的计算机自然语言处理系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810787435.3A CN109255047A (zh) | 2018-07-18 | 2018-07-18 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810787435.3A CN109255047A (zh) | 2018-07-18 | 2018-07-18 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109255047A true CN109255047A (zh) | 2019-01-22 |
Family
ID=65048640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810787435.3A Pending CN109255047A (zh) | 2018-07-18 | 2018-07-18 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255047A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163121A (zh) * | 2019-04-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN110197521A (zh) * | 2019-05-21 | 2019-09-03 | 复旦大学 | 基于语义结构表示的视觉文本嵌入方法 |
CN110298395A (zh) * | 2019-06-18 | 2019-10-01 | 天津大学 | 一种基于三模态对抗网络的图文匹配方法 |
CN110390324A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种融合视觉与文本特征的简历版面分析算法 |
CN110598739A (zh) * | 2019-08-07 | 2019-12-20 | 广州视源电子科技股份有限公司 | 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质 |
CN110688446A (zh) * | 2019-08-23 | 2020-01-14 | 重庆兆光科技股份有限公司 | 一种句义数学空间表示方法、系统、介质和设备 |
CN110706771A (zh) * | 2019-10-10 | 2020-01-17 | 复旦大学附属中山医院 | 多模态患教内容的生成方法、装置、服务器及存储介质 |
CN110990595A (zh) * | 2019-12-04 | 2020-04-10 | 成都考拉悠然科技有限公司 | 一种跨域对齐嵌入空间的零样本跨模态检索方法 |
CN111026935A (zh) * | 2019-12-05 | 2020-04-17 | 中国科学院自动化研究所 | 基于自适应度量融合的跨模态检索重排序方法 |
CN111191075A (zh) * | 2019-12-31 | 2020-05-22 | 华南师范大学 | 基于双重编码与联合的跨模态检索方法、系统及存储介质 |
CN111324752A (zh) * | 2020-02-20 | 2020-06-23 | 中国科学技术大学 | 基于图神经网络结构建模的图像与文本检索方法 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN111598155A (zh) * | 2020-05-13 | 2020-08-28 | 北京工业大学 | 一种基于深度学习的细粒度图像弱监督目标定位方法 |
CN112101358A (zh) * | 2020-11-04 | 2020-12-18 | 浙江大学 | 一种基于解耦和干预的图网络对齐短语和图片区域的方法 |
CN112256899A (zh) * | 2020-09-23 | 2021-01-22 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113254694A (zh) * | 2021-05-21 | 2021-08-13 | 中国科学技术大学 | 一种文本转图像方法和装置 |
CN113704546A (zh) * | 2021-08-23 | 2021-11-26 | 西安电子科技大学 | 基于空间时序特征的视频自然语言文本检索方法 |
CN113743544A (zh) * | 2021-11-05 | 2021-12-03 | 中科智为科技(天津)有限公司 | 一种跨模态神经网络构建方法、行人检索方法及系统 |
CN114117104A (zh) * | 2020-08-28 | 2022-03-01 | 四川大学 | 一种基于多关系感知推理的图像文本匹配方法 |
CN117573916A (zh) * | 2024-01-17 | 2024-02-20 | 武汉理工大学三亚科教创新园 | 一种海洋无人机图像文本的检索方法、设备及存储介质 |
CN117573916B (zh) * | 2024-01-17 | 2024-04-26 | 武汉理工大学三亚科教创新园 | 一种海洋无人机图像文本的检索方法、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938485A (zh) * | 2016-04-14 | 2016-09-14 | 北京工业大学 | 一种基于卷积循环混合模型的图像描述方法 |
CN107273517A (zh) * | 2017-06-21 | 2017-10-20 | 复旦大学 | 基于图嵌入学习的图文跨模态检索方法 |
CN107330444A (zh) * | 2017-05-27 | 2017-11-07 | 苏州科技大学 | 一种基于生成对抗网络的图像自动文本标注方法 |
CN107330100A (zh) * | 2017-07-06 | 2017-11-07 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像‑文本双向检索方法 |
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN107657008A (zh) * | 2017-09-25 | 2018-02-02 | 中国科学院计算技术研究所 | 基于深度判别排序学习的跨媒体训练及检索方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
US20180124331A1 (en) * | 2016-11-03 | 2018-05-03 | Nec Laboratories America, Inc. | Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation |
-
2018
- 2018-07-18 CN CN201810787435.3A patent/CN109255047A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938485A (zh) * | 2016-04-14 | 2016-09-14 | 北京工业大学 | 一种基于卷积循环混合模型的图像描述方法 |
US20180124331A1 (en) * | 2016-11-03 | 2018-05-03 | Nec Laboratories America, Inc. | Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation |
CN107330444A (zh) * | 2017-05-27 | 2017-11-07 | 苏州科技大学 | 一种基于生成对抗网络的图像自动文本标注方法 |
CN107273517A (zh) * | 2017-06-21 | 2017-10-20 | 复旦大学 | 基于图嵌入学习的图文跨模态检索方法 |
CN107330100A (zh) * | 2017-07-06 | 2017-11-07 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像‑文本双向检索方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN107657008A (zh) * | 2017-09-25 | 2018-02-02 | 中国科学院计算技术研究所 | 基于深度判别排序学习的跨媒体训练及检索方法 |
Non-Patent Citations (7)
Title |
---|
D. QIN 等: "Hello neighbor: Accurate object retrieval with k-reciprocal nearest neighbors", 《CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) 》 * |
LI X 等: "Image Captioning with both Object and Scene Information", 《PROCEEDINGS OF THE 24TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
丁勇: "基于卷积循环混合模型的图像描述", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
姜萌萌: "基于目标上下文视觉特征及跨模态近邻的图文互检索", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
张志华: "基于深度学习的情感词向量及文本情感分析的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
汤鹏杰 等: "融合图像场景及物体先验知识的图像描述生成模型", 《中国图象图形学报》 * |
陆雅: "基于卷积神经网络和空间金字塔匹配的图像排序", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163121A (zh) * | 2019-04-30 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN110163121B (zh) * | 2019-04-30 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN110197521A (zh) * | 2019-05-21 | 2019-09-03 | 复旦大学 | 基于语义结构表示的视觉文本嵌入方法 |
CN110298395A (zh) * | 2019-06-18 | 2019-10-01 | 天津大学 | 一种基于三模态对抗网络的图文匹配方法 |
CN110298395B (zh) * | 2019-06-18 | 2023-04-18 | 天津大学 | 一种基于三模态对抗网络的图文匹配方法 |
CN110390324A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种融合视觉与文本特征的简历版面分析算法 |
CN110598739A (zh) * | 2019-08-07 | 2019-12-20 | 广州视源电子科技股份有限公司 | 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质 |
CN110688446A (zh) * | 2019-08-23 | 2020-01-14 | 重庆兆光科技股份有限公司 | 一种句义数学空间表示方法、系统、介质和设备 |
CN110706771A (zh) * | 2019-10-10 | 2020-01-17 | 复旦大学附属中山医院 | 多模态患教内容的生成方法、装置、服务器及存储介质 |
CN110990595A (zh) * | 2019-12-04 | 2020-04-10 | 成都考拉悠然科技有限公司 | 一种跨域对齐嵌入空间的零样本跨模态检索方法 |
CN110990595B (zh) * | 2019-12-04 | 2023-05-05 | 成都考拉悠然科技有限公司 | 一种跨域对齐嵌入空间的零样本跨模态检索方法 |
CN111026935A (zh) * | 2019-12-05 | 2020-04-17 | 中国科学院自动化研究所 | 基于自适应度量融合的跨模态检索重排序方法 |
CN111026935B (zh) * | 2019-12-05 | 2023-03-21 | 中国科学院自动化研究所 | 基于自适应度量融合的跨模态检索重排序方法 |
CN111191075A (zh) * | 2019-12-31 | 2020-05-22 | 华南师范大学 | 基于双重编码与联合的跨模态检索方法、系统及存储介质 |
CN111191075B (zh) * | 2019-12-31 | 2023-03-31 | 华南师范大学 | 基于双重编码与联合的跨模态检索方法、系统及存储介质 |
CN111324752A (zh) * | 2020-02-20 | 2020-06-23 | 中国科学技术大学 | 基于图神经网络结构建模的图像与文本检索方法 |
CN111324752B (zh) * | 2020-02-20 | 2023-06-16 | 中国科学技术大学 | 基于图神经网络结构建模的图像与文本检索方法 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
US11341366B2 (en) | 2020-03-30 | 2022-05-24 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Cross-modality processing method and apparatus, and computer storage medium |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN111598155A (zh) * | 2020-05-13 | 2020-08-28 | 北京工业大学 | 一种基于深度学习的细粒度图像弱监督目标定位方法 |
CN114117104B (zh) * | 2020-08-28 | 2023-06-16 | 四川大学 | 一种基于多关系感知推理的图像文本匹配方法 |
CN114117104A (zh) * | 2020-08-28 | 2022-03-01 | 四川大学 | 一种基于多关系感知推理的图像文本匹配方法 |
CN112256899B (zh) * | 2020-09-23 | 2022-05-10 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN112256899A (zh) * | 2020-09-23 | 2021-01-22 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN114969417A (zh) * | 2020-09-23 | 2022-08-30 | 华为技术有限公司 | 图像重排序方法、相关设备及计算机可读存储介质 |
CN112101358B (zh) * | 2020-11-04 | 2021-02-26 | 浙江大学 | 一种基于解耦和干预的图网络对齐短语和图片区域的方法 |
CN112101358A (zh) * | 2020-11-04 | 2020-12-18 | 浙江大学 | 一种基于解耦和干预的图网络对齐短语和图片区域的方法 |
CN112966127B (zh) * | 2021-04-07 | 2022-05-20 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113254694A (zh) * | 2021-05-21 | 2021-08-13 | 中国科学技术大学 | 一种文本转图像方法和装置 |
CN113254694B (zh) * | 2021-05-21 | 2022-07-15 | 中国科学技术大学 | 一种文本转图像方法和装置 |
CN113704546A (zh) * | 2021-08-23 | 2021-11-26 | 西安电子科技大学 | 基于空间时序特征的视频自然语言文本检索方法 |
CN113704546B (zh) * | 2021-08-23 | 2024-02-13 | 西安电子科技大学 | 基于空间时序特征的视频自然语言文本检索方法 |
CN113743544A (zh) * | 2021-11-05 | 2021-12-03 | 中科智为科技(天津)有限公司 | 一种跨模态神经网络构建方法、行人检索方法及系统 |
CN117573916A (zh) * | 2024-01-17 | 2024-02-20 | 武汉理工大学三亚科教创新园 | 一种海洋无人机图像文本的检索方法、设备及存储介质 |
CN117573916B (zh) * | 2024-01-17 | 2024-04-26 | 武汉理工大学三亚科教创新园 | 一种海洋无人机图像文本的检索方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255047A (zh) | 基于互补语义对齐和对称检索的图像-文本互检索方法 | |
CN107562812B (zh) | 一种基于特定模态语义空间建模的跨模态相似性学习方法 | |
CN106295796B (zh) | 基于深度学习的实体链接方法 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
CN108319686A (zh) | 基于受限文本空间的对抗性跨媒体检索方法 | |
CN106294344B (zh) | 视频检索方法和装置 | |
CN110309514A (zh) | 一种语义识别方法及装置 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN109271539A (zh) | 一种基于深度学习的图像自动标注方法及装置 | |
CN115081437B (zh) | 基于语言学特征对比学习的机器生成文本检测方法及系统 | |
CN110490081A (zh) | 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN112580330B (zh) | 基于中文触发词指导的越南语新闻事件检测方法 | |
CN116151256A (zh) | 一种基于多任务和提示学习的小样本命名实体识别方法 | |
CN114764566B (zh) | 用于航空领域的知识元抽取方法 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112182275A (zh) | 一种基于多维度特征融合的商标近似检索系统和方法 | |
CN113378919B (zh) | 融合视觉常识和增强多层全局特征的图像描述生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190122 |