CN113742556B - 一种基于全局和局部对齐的多模态特征对齐方法 - Google Patents
一种基于全局和局部对齐的多模态特征对齐方法 Download PDFInfo
- Publication number
- CN113742556B CN113742556B CN202111291575.XA CN202111291575A CN113742556B CN 113742556 B CN113742556 B CN 113742556B CN 202111291575 A CN202111291575 A CN 202111291575A CN 113742556 B CN113742556 B CN 113742556B
- Authority
- CN
- China
- Prior art keywords
- global
- feature
- local
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 230000004931 aggregating effect Effects 0.000 claims abstract description 4
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 230000000007 visual effect Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000007634 remodeling Methods 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims 1
- 238000002474 experimental method Methods 0.000 abstract description 8
- 235000014594 pastries Nutrition 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000345998 Calamus manan Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 235000015173 baked goods and baking mixes Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 235000021185 dessert Nutrition 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 235000012950 rattan cane Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于全局和局部对齐的多模态特征对齐方法,利用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,即为文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数。使用本发明的多模态特征对齐方法在常见多模态数据集上进行检索实验,该方法检索性能优于大部分同类方法。
Description
技术领域
本发明属于计算机多模态技术领域,具体涉及一种基于全局和局部对齐的多模态特征对齐方法。
背景技术
随着移动互联网使用的持续深化,以及即时通讯工具,社交网络,网络视频等互联网应用程序的普及,人们的上网自由度也得到很大的提升,越来越多的互联网用户随时随地接入互联网,并且上传大量的照片、语音和文字等不同模态的多媒体数据。如何在海量的不同模态的数据中快速准确地检索出自己所需要的信息具有很重要的现实意义。
一方面,由于多媒体数据的爆发式增长,如何高效且准确地检索内容相关的多模态数据逐渐成为一个极具挑战的问题。传统的信息检索方法,大多是以单一模态检索方法为基础的,如关键字检索,以图搜图等。现如今,传统的单一模态的检索已经不能满足人们的日常需要,多模态之间的检索正成为未来的热门方向。以图像和文本这两个模态为例,人们经常会输入一张图片来找到图片所描述的新闻信息,或者输入一段文字来找到最能描述这段文字的图片,这也就促进多模态特征对齐问题的研究。传统的特征对齐方法往往利用手工提取的特征,将图像和文本映射到共同表示空间中,在该空间中求相似度分数进行特征对齐。近年来,由于深度学习的快速发展,越来越多的方法开始使用神经网络提取图像和文本的高层特征,并加上一些注意力模块实现多模态对齐来解决不同模态间的“异构鸿沟”和“语义鸿沟”问题,这些方法均去取得了不错的效果。但是现有方法往往只考虑了多模态间的局部对齐或者全局对齐,只有少数同时进行了局部对齐和全局对齐,但是这些方法的全局特征提取的较为简单且对齐方式不够准确,只是简单的计算两个特征间的相似度值。
发明内容
本发明解决的技术问题:提供了一种利用经典网络在大型数据集上的预训练模型来提取出更好的全局特征和局部特征,并且通过计算相似度向量而不是简单的数值进行多模态对齐,基于全局和局部对齐的多模态特征对齐方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种基于全局和局部对齐的多模态特征对齐方法,其特征在于,包括:采用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,得到文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数;具体包括以下步骤:
步骤A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,将ResNet152的输出高层特征M重塑为一组特征集F,然后将特征集F经过一个全连接层得到初步全局特征VF,使用初步全局特征VF构建视觉图卷积神经网络GF,最后经过图注意力模块的计算得到最终的图像全局特征表示;
步骤B:图像局部特征的提取:使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的关键区域,然后用ResNet101提取图像关键区域的特征向量R以及标签概率向量C,将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v 1, v 2,…v 100};
步骤C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,为文本的局部特征表示T={t 1,…t L},再通过自注意力方法计算得到文本的全局特征表示;
步骤D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征和文本全局特征间的相似度向量,使用多模态注意力模块优化图像特征,得到新的视觉特征A v ={a v 1, a v 2,…a v L},最后求出A v 和T的相似度,得到L个局部相似度向量;
步骤E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s,最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
进一步的,图像全局特征的提取具体包含以下步骤:
步骤A01,对于输入图像,使用ResNet152在ImageNet上的预训练模型,且去掉最后一个全连接层,图像经过ResNet网络得到一组高层特征M,为了后续视觉图卷积神经网络的构建,将M重塑为长度为64的特征集F={f 1, f 2,…f 64},再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集VF;
步骤A02,对于步骤A01得到的特征VF,构建全局视觉图卷积神经网络GF=(VF,EF),图的顶点由VF的特征构成,图的边集EF被定义为顶点间特征的内积;
步骤A03,对于步骤A02得到的全局视觉图卷积神经网络GF=(VF,EF),计算所有顶点间的注意力系数,并用softmax函数归一化,然后利用注意力系数加权得到图注意力模块更新后的全局特征集V* F,最后对特征集V* F取平均值,得到了最终的1024维的图像全局特征。
进一步的,步骤A03中,图注意力模块的具体计算方法为:
先计算顶点间的注意力系数,对于顶点VF中任意两个顶点v i 和v j ,系数e ij 的计算公式为:
其中,W q 和W k 都为网络学习的参数,T表示矩阵的转置,D是特征维度,得到所有系数后,用softmax函数处理得到最终的图注意力系数a ij ,再加权求和得到图注意力模块的输出V* F,具体计算方式如下:
其中,N i 表示顶点v i 的所有邻居。
进一步的,图像局部特征的提取具体包含以下步骤:
步骤B01,对于输入图像,使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual-Genome数据集预训练的ResNet101模型,得到输入图像中关键区域的特征表示R={r 1, r 2,…r 100}和标签概率向量C={c 1, c 2,…c 100};
步骤B02,对于步骤B01得到的输入图像关键区域的特征R和标签概率C,分别输入到全连接层fc1和fc2,将R和C映射到1024维空间中得到
其中,W fc1 和W fc2 分别是全连接层fc1和fc2的权重,最后将R'和C'直接按元素相加得到最终的图像局部特征V={v 1, v 2,…v 100}。
进一步的,文本局部特征和全局特征的提取具体包含以下步骤:
步骤C01,对于输入文本,其分为L个单词,再根据词汇表的对应关系将每个单词转换为对应的数字,再将每个单词嵌入到300维的向量空间中,得到初步的文本局部特征
然后将T'输入到1层双向GRU网络中,得到了文本局部特征T={t 1, t 2,…t L},其中每个单词的特征维度也是1024维;
进一步的,文本全局特征的计算方法如下:
取L个单词的平均值作为查询q
然后计算q和所有局部特征T间的点积得到L个初步权重
同样经过softmax函数后得到最终的注意力权重
所以文本全局特征的计算公式为:
进一步的,多模态间的全局和局部对齐具体包含以下步骤:
其中,x,y是需要计算相似度的两个向量,W为网络学习的参数。
步骤D02:使用多模态注意力模块得到每个图像区域关于每个单词的注意力系数β,i,j分别表示第i个区域和第j个单词,i=1,2,…,100;j=1,2,…,L;然后加权求和得到所有区域关于每个单词的视觉特征A v ={a v 1, a v 2,…a v L};
其中,第j个单词的视觉特征计算公式为
最后对每个单词的视觉特征A v 和局部特征T中的L对向量用相似度函数S求相似度表示,得到的局部相似度向量S={s 1 , s 2 ,…s L },
其中,βij表示注意力权重,v i 是步骤B中得到的图像局部特征表示,且每个向量的维度均为256。
进一步的,步骤D02中,多模态注意力模块的计算方法如下:
对于第i个区域和第j个单词,余弦相似度为
进而得到视觉特征A v ,其中,t j 是步骤C中的得到的第j个文本局部特征。
进一步的,计算最终图像文本匹配分数的具体过程如下:
将步骤D01和D02得到的全局相似度向量和局部相似度向量共L+1个向量按元素相加求均值,得到图像文本的最终256维相似度向量s,
然后将s输入到输出维度是1的全连接层fc3,得到初步相似度分数Score, Score= W fc3 *s,W fc3 是fc3的权重,最后使用sigmoid函数归一化得到最终的多模态匹配分数
有益效果:与现有技术相比,本发明具有以下优点:
本发明的基于全局和局部对齐的多模态特征对齐方法,利用了经典网络在大型数据集上的预训练模型以及相似度向量而不是简单的相似度值进行特征对齐。本发明图像全局特征的计算是在传统深度网络提取到的高层语义特征基础上增加了图注意力模块,这一模块通过像素间的语义关系来决定特征的权重,最终得到语义关系增强后的图像全局特征;此外图像局部特征的计算融合了局部的特征向量和局部的标签概率向量,得到了标签信息增强的图像局部特征;同样的在得到文本的局部特征表示后,使用了更优秀自注意力模块求出文本全局特征而不是简单的求均值。最后通过相似度向量进行多模态全局和局部对齐。通过实验对比,该方法性能优于其他同类方法。
附图说明
图1是基于全局和局部对齐的多模态特征对齐方法结构示意图;
图2是本发明试验所采用的MS-COCO的部分数据,包括图2A和图2B;
图3是本发明试验所采用的Flickr30K的部分数据,包括图3A和图3B。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
本申请的基于全局和局部对齐的多模态特征对齐方法,用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,即为文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数。
本发明的方法具体步骤包括:图像全局特征的提取,图像局部特征的提取;文本全局特征和局部特征的提取,多模态间的全局和局部对齐和计算最终图像文本匹配分数。下面分别对上述四个步骤进行详细描述:
A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,且去掉了最后一个全连接层。将ResNet152的输出高层特征M重塑为一组特征集F。然后将F经过一个全连接层得到初步全局特征VF,使用VF构建视觉图网络GF。最后经过图注意力模块的计算得到最终的图像全局特征表示,图像全局特征的提取具体包含以下步骤:
步骤A01,对于输入图像,本发明使用ResNet152在ImageNet上的预训练模型,且去掉了最后一个全连接层。图像经过ResNet网络得到一组高层特征M,为了后续图网络的构建,将一组高层特征重塑为长度为64的特征集F={f 1, f 2,…f 64}。再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集VF。
步骤A02,对于步骤A01得到的特征VF,构建全局视觉图网络GF=(VF,EF)。图的顶点由VF的特征构成,图的边集EF被定义为顶点间特征的内积。比如对于顶点v i F 和v j F ,边的长度为
T表示矩阵转置。
步骤A03,对于步骤A02得到的全局视觉图网络GF=(VF,EF),计算所有顶点间的注意力系数,并用softmax函数归一化。然后利用注意力系数加权得到图注意力模块更新后的全局特征集V* F。最后对特征集V* F取平均值,得到了最终的1024维的图像全局特征。
图注意力模块的具体计算过程为:
先计算顶点间的注意力系数,对于顶点VF中任意两个顶点v i 和v j ,系数e ij 的计算公式为:
其中,W q 和W k 都为网络学习的参数,T表示矩阵转置,D是特征维度,在本发明中为1024。得到所有系数后,用softmax函数处理得到最终的图注意力系数a ij ,再加权求和得到图注意力模块的输出V* F,具体计算方式如下:
其中,Ni表示顶点vi的所有邻居。
B:图像局部特征的提取;使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域。然后用ResNet101提取图像100个区域的特征向量R以及标签概率向量C。将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v 1, v 2,…v 100},图像局部特征的提取具体包含以下步骤:
步骤B01,对于输入图像,使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual-Genome数据集预训练的ResNet101模型,就可以得到输入图像中100个关键区域的特征表示R={r 1, r 2,… r 100}和标签概率向量C={c 1, c 2,…c 100};
步骤B02,对于步骤B01得到的输入图像关键区域的特征R和标签概率C,分别输入到全连接层fc1和fc2,将R和C映射到1024维空间中得到
其中,W fc1 和W fc2 分别是全连接层fc1和fc2的权重,最后将R'和C'直接按元素相加得到最终的图像局部特征V={v 1, v 2,…v 100}。
C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,即为文本的局部特征表示T={t 1, t 2,…t L}。再通过自注意力方法计算得到文本的全局特征表示。结合图1,文本局部特征和全局特征的提取具体包含以下步骤:
步骤C01,对于输入文本,其分为L个单词,再根据词汇表的对应关系将每个单词转换为对应的数字,再将每个单词嵌入到300维的向量空间中,得到初步的文本局部特征
然后将T'输入到1层双向GRU网络中,得到了文本局部特征T={t 1, t 2,…t L},其中每个单词的特征维度也是1024维;
文本全局特征的计算过程如下:
取L个单词的平均值作为查询q
然后计算q和所有局部特征T间的点积得到L个初步权重
同样经过softmax函数后得到最终的注意力权重:
所以文本全局特征的计算公式为:
D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征和文本全局特征间的相似度向量。使用多模态注意力模块优化图像特征,得到新的视觉特征A v ={a v 1, a v 2,…a v L}。最后求出A v 和T的相似度,得到L个局部相似度向量。多模态间的全局和局部对齐具体包含以下步骤:
其中,x,y是需要计算相似度的两个向量,W为网络学习的参数。
步骤D02:使用多模态注意力模块得到每个图像区域关于每个单词的注意力系数β,i,j分别表示第i个区域和第j个单词,i=1,2,…,100;j=1,2,…,L;然后加权求和得到所有区域关于每个单词的视觉特征A v ={a v 1, a v 2,…a v L};
其中,第j个单词的视觉特征计算公式为
最后对每个单词的视觉特征A v 和局部特征T中的L对向量用相似度函数S求相似度表示,得到的局部相似度向量S={s 1 , s 2 ,…s L },
其中,βij表示注意力权重,v i 是步骤B中得到的图像局部特征表示,且每个向量的维度均为256。
多模态注意力模块的计算过程如下:
对于第i个区域和第j个单词,余弦相似度为
进而得到视觉特征A v ,其中,t j 是步骤C中的得到的第j个文本局部特征。
E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s。最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
计算最终图像文本匹配分数的具体过程如下:
将步骤D01和D02得到的全局相似度向量和局部相似度向量共L+1个向量按元素相加求均值,得到图像文本的最终256维相似度向量s,
然后将s输入到输出维度是1的全连接层fc3,得到初步相似度分数Score, Score=Wfc3*s, Wfc3是fc3的权重,最后使用sigmoid函数归一化得到最终的多模态匹配分数
采用以下方式对本发明的方法进行验证:
MS-COCO数据集: MS-COCO数据集是十分经典的多模态图文数据集,共包括123287张图片,其中每张图片都有人工生成的5个文本描述。我们使用了113287张图片和566435个文本作为训练集,5000张图片和25000个文本为验证集,5000张图片和25000个文本为测试集。如图2所示是本发明试验所采用的MS-COCO的部分数据,其中图2A的文本描述为:1、一个配有现代木桌椅的餐厅;2、一张带藤条圆形靠背椅的长餐桌;3、一张长桌,上面有一棵植物,周围环绕着木椅;4、一张长桌,中间插花,适合开会;5、一张桌子上装饰着蓝色调的木椅;其中图2B的文本描述为:1、一个男人在覆盖着糖霜的厨房里准备甜点;2、一位厨师正在准备和装饰许多小糕点;3、面包师准备各种类型的烘焙食品;4、一个人在盒子中抓取糕点的特写;5、一个接触各种糕点的手。
Flickr30K数据集:Flickr30K数据集也是十分经典的多模态图文数据集,共包括31783张图片,其中每张图片都有人工生成的5个文本描述。我们使用了93827张图片和469135个文本作为训练集,1000张图片和5000个文本为验证集,1000张图片和5000个文本为测试集。图3是本发明试验所采用的Flickr30K的部分数据,其中图3A的文本描述为:1、两个头发蓬乱的年轻人在院子里闲逛时看着自己的手;2、两个年轻的白人男性在许多灌木丛附近;3、两个穿绿色衬衫的男人站在院子里;4、一个穿着蓝色衬衫的男人站在花园里;5、两个朋友享受在一起度过的时光。其中图3B的文本描述为:1、几个戴着安全帽的人正在操作一个巨大的滑轮系统;2、工人从上面俯视一件设备;3、两个戴着安全帽在机器上工作的男人;4、四个人站在一座高大的建筑物上;5、三个人在一个大钻机上。
实验结果
对于图像-文本检索任务,采用Recall at K(R@K)作为评价指标,R@K表示查询数据的真实返回在前K个返回数据中所占的比例。
实验结果如下表所示:
表1 本发明的方法在MS-COCO数据集和 Flickr30K数据集上的实验结果
从实验结果可以看出,本发明提出的方法再两个数据集上均取得了很好的检索效果,由其当返回数目K为10时,召回率已经接近百分之百。同样也能发现MS-COCO数据集更大,所以该方法的性能也更好,即训练的样本越多,网络学习到的模型才更好。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于全局和局部对齐的多模态特征对齐方法,其特征在于,包括:采用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,得到文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数,具体包括以下步骤:
步骤A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,将ResNet152的输出高层特征M重塑为一组特征集F,然后将特征集F经过一个全连接层得到初步全局特征VF,使用初步全局特征VF构建视觉图卷积神经网络GF,最后经过图注意力模块的计算得到最终的图像全局特征表示;
步骤B:图像局部特征的提取:使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的关键区域,然后用ResNet101提取图像关键区域的特征向量R以及标签概率向量C,将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v 1, v 2,…v 100};
步骤C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,为文本的局部特征表示T={t 1,…t L},再通过自注意力方法计算得到文本的全局特征表示;
步骤D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征和文本全局特征间的相似度向量,使用多模态注意力模块优化图像特征,得到新的视觉特征A v ={a v 1, a v 2,…a v L},最后求出A v 和T的相似度,得到L个局部相似度向量;
步骤E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s,最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
2.根据权利要求1所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:图像全局特征的提取具体包含以下步骤:
步骤A01,对于输入图像,使用ResNet152在ImageNet上的预训练模型,且去掉最后一个全连接层,图像经过ResNet网络得到一组高层特征M,为了后续图卷积神经网络的构建,所以将M重塑为长度为64的特征集F={f 1, f 2,…f 64},再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集VF;
步骤A02,对于步骤A01得到的特征VF,构建全局视觉图卷积神经网络GF=(VF,EF),图的顶点由VF的特征构成,图的边集EF被定义为顶点间特征的内积;
4.根据权利要求1所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:图像局部特征的提取具体包含以下步骤:
步骤B01,对于输入图像,使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual-Genome数据集预训练的ResNet101模型,得到输入图像中关键区域的特征表示R={r 1, r 2,…r 100}和标签概率向量C={c 1, c 2,…c 100};
步骤B02,对于步骤B01得到的输入图像关键区域的特征R和标签概率C,分别输入到全连接层fc1和fc2,将R和C映射到1024维空间中得到
其中,W fc1 和W fc2 分别是全连接层fc1和fc2的权重,最后将R'和C'直接按元素相加得到最终的图像局部特征V={v 1, v 2,…v 100}。
7.根据权利要求1所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:多模态间的全局和局部对齐具体包含以下步骤:
其中,x,y是需要计算相似度的两个向量,W为网络学习的参数;
步骤D02:使用多模态注意力模块得到每个图像区域关于每个单词的注意力系数β,i,j分别表示第i个区域和第j个单词,i=1,2,…,100;j=1,2,…,L;然后加权求和得到所有区域关于每个单词的视觉特征A v ={a v 1, a v 2,…a v L};
其中,第j个单词的视觉特征计算公式为
最后对每个单词的视觉特征A v 和局部特征T中的L对向量用相似度函数S求相似度表示,得到的局部相似度向量S={s 1 , s 2 ,…s L },
其中,β ij 表示注意力权重,v i 是步骤B中得到的图像局部特征表示,且每个向量的维度均为256。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111291575.XA CN113742556B (zh) | 2021-11-03 | 2021-11-03 | 一种基于全局和局部对齐的多模态特征对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111291575.XA CN113742556B (zh) | 2021-11-03 | 2021-11-03 | 一种基于全局和局部对齐的多模态特征对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742556A CN113742556A (zh) | 2021-12-03 |
CN113742556B true CN113742556B (zh) | 2022-02-08 |
Family
ID=78727289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111291575.XA Active CN113742556B (zh) | 2021-11-03 | 2021-11-03 | 一种基于全局和局部对齐的多模态特征对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742556B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114529456B (zh) * | 2022-02-21 | 2022-10-21 | 深圳大学 | 一种视频的超分辨率处理方法、装置、设备及介质 |
CN115082704B (zh) * | 2022-03-16 | 2024-03-05 | 西北工业大学 | 基于相关性滤波的文本行人重识别方法 |
CN116452939A (zh) * | 2023-05-11 | 2023-07-18 | 河海大学 | 基于多模态实体融合与对齐的社交媒体虚假信息检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10628533B2 (en) * | 2016-06-27 | 2020-04-21 | Faro Technologies, Inc. | Global optimization of networks of locally fitted objects |
CN107330100B (zh) * | 2017-07-06 | 2020-04-03 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
CN110532571B (zh) * | 2017-09-12 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 文本处理方法及相关装置 |
CN110490946B (zh) * | 2019-07-15 | 2023-07-04 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
CN111026894B (zh) * | 2019-12-12 | 2021-11-26 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
-
2021
- 2021-11-03 CN CN202111291575.XA patent/CN113742556B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113742556A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113742556B (zh) | 一种基于全局和局部对齐的多模态特征对齐方法 | |
CN105426850B (zh) | 一种基于人脸识别的关联信息推送设备及方法 | |
CN112182166B (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
CN110750656B (zh) | 一种基于知识图谱的多媒体检测方法 | |
US7860347B2 (en) | Image-based face search | |
CN108629338B (zh) | 一种基于lbp和卷积神经网络的人脸美丽预测方法 | |
CN100414548C (zh) | 综合利用图像及文字信息的搜索系统及搜索方法 | |
CN107862561A (zh) | 一种基于图片属性提取建立用户兴趣库的方法及设备 | |
CN109213853B (zh) | 一种基于cca算法的中文社区问答跨模态检索方法 | |
CN112395442B (zh) | 移动互联网上的低俗图片自动识别与内容过滤方法 | |
CN109993102A (zh) | 相似人脸检索方法、装置及存储介质 | |
CN114693397A (zh) | 一种基于注意力神经网络的多视角多模态商品推荐方法 | |
CN107590491A (zh) | 一种图像处理方法及装置 | |
CN112949622A (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN111160130B (zh) | 一种多平台虚拟身份账号的多维碰撞识别方法 | |
CN111985520A (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
KR20200141373A (ko) | 외형인식모델 학습용 데이터셋 구축 방법, 장치 및 프로그램 | |
CN110555132A (zh) | 一种基于注意力模型的降噪自编码器推荐方法 | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN113361387A (zh) | 人脸图像融合方法及装置、存储介质及电子设备 | |
CN108920448A (zh) | 一种基于长短期记忆网络的比较关系抽取的方法 | |
CN109446368B (zh) | 一种基于类别信息的鸟类检索方法及系统 | |
CN108628999B (zh) | 一种基于显式和隐式信息的视频推荐方法 | |
CN116758402A (zh) | 图像人物关系识别方法、系统、设备及存储介质 | |
US20220100792A1 (en) | Method, device, and program for retrieving image data by using deep learning algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |