CN113742556B - 一种基于全局和局部对齐的多模态特征对齐方法 - Google Patents

一种基于全局和局部对齐的多模态特征对齐方法 Download PDF

Info

Publication number
CN113742556B
CN113742556B CN202111291575.XA CN202111291575A CN113742556B CN 113742556 B CN113742556 B CN 113742556B CN 202111291575 A CN202111291575 A CN 202111291575A CN 113742556 B CN113742556 B CN 113742556B
Authority
CN
China
Prior art keywords
global
feature
local
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111291575.XA
Other languages
English (en)
Other versions
CN113742556A (zh
Inventor
练智超
姜铸锴
李千目
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111291575.XA priority Critical patent/CN113742556B/zh
Publication of CN113742556A publication Critical patent/CN113742556A/zh
Application granted granted Critical
Publication of CN113742556B publication Critical patent/CN113742556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于全局和局部对齐的多模态特征对齐方法,利用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,即为文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数。使用本发明的多模态特征对齐方法在常见多模态数据集上进行检索实验,该方法检索性能优于大部分同类方法。

Description

一种基于全局和局部对齐的多模态特征对齐方法
技术领域
本发明属于计算机多模态技术领域,具体涉及一种基于全局和局部对齐的多模态特征对齐方法。
背景技术
随着移动互联网使用的持续深化,以及即时通讯工具,社交网络,网络视频等互联网应用程序的普及,人们的上网自由度也得到很大的提升,越来越多的互联网用户随时随地接入互联网,并且上传大量的照片、语音和文字等不同模态的多媒体数据。如何在海量的不同模态的数据中快速准确地检索出自己所需要的信息具有很重要的现实意义。
一方面,由于多媒体数据的爆发式增长,如何高效且准确地检索内容相关的多模态数据逐渐成为一个极具挑战的问题。传统的信息检索方法,大多是以单一模态检索方法为基础的,如关键字检索,以图搜图等。现如今,传统的单一模态的检索已经不能满足人们的日常需要,多模态之间的检索正成为未来的热门方向。以图像和文本这两个模态为例,人们经常会输入一张图片来找到图片所描述的新闻信息,或者输入一段文字来找到最能描述这段文字的图片,这也就促进多模态特征对齐问题的研究。传统的特征对齐方法往往利用手工提取的特征,将图像和文本映射到共同表示空间中,在该空间中求相似度分数进行特征对齐。近年来,由于深度学习的快速发展,越来越多的方法开始使用神经网络提取图像和文本的高层特征,并加上一些注意力模块实现多模态对齐来解决不同模态间的“异构鸿沟”和“语义鸿沟”问题,这些方法均去取得了不错的效果。但是现有方法往往只考虑了多模态间的局部对齐或者全局对齐,只有少数同时进行了局部对齐和全局对齐,但是这些方法的全局特征提取的较为简单且对齐方式不够准确,只是简单的计算两个特征间的相似度值。
发明内容
本发明解决的技术问题:提供了一种利用经典网络在大型数据集上的预训练模型来提取出更好的全局特征和局部特征,并且通过计算相似度向量而不是简单的数值进行多模态对齐,基于全局和局部对齐的多模态特征对齐方法。
技术方案:为了解决上述技术问题,本发明采用的技术方案如下:
一种基于全局和局部对齐的多模态特征对齐方法,其特征在于,包括:采用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,得到文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数;具体包括以下步骤:
步骤A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,将ResNet152的输出高层特征M重塑为一组特征集F,然后将特征集F经过一个全连接层得到初步全局特征VF,使用初步全局特征VF构建视觉图卷积神经网络GF,最后经过图注意力模块的计算得到最终的图像全局特征表示
Figure 401787DEST_PATH_IMAGE001
步骤B:图像局部特征的提取:使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的关键区域,然后用ResNet101提取图像关键区域的特征向量R以及标签概率向量C,将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v 1, v 2,…v 100};
步骤C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,为文本的局部特征表示T={t 1,…t L},再通过自注意力方法计算得到文本的全局特征表示
Figure 927447DEST_PATH_IMAGE002
步骤D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征
Figure 537420DEST_PATH_IMAGE001
和文本全局特征
Figure 566555DEST_PATH_IMAGE002
间的相似度向量,使用多模态注意力模块优化图像特征,得到新的视觉特征A v ={a v 1, a v 2,…a v L},最后求出A v 和T的相似度,得到L个局部相似度向量;
步骤E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s,最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
进一步的,图像全局特征的提取具体包含以下步骤:
步骤A01,对于输入图像,使用ResNet152在ImageNet上的预训练模型,且去掉最后一个全连接层,图像经过ResNet网络得到一组高层特征M,为了后续视觉图卷积神经网络的构建,将M重塑为长度为64的特征集F={f 1, f 2,…f 64},再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集VF
步骤A02,对于步骤A01得到的特征VF,构建全局视觉图卷积神经网络GF=(VF,EF),图的顶点由VF的特征构成,图的边集EF被定义为顶点间特征的内积;
步骤A03,对于步骤A02得到的全局视觉图卷积神经网络GF=(VF,EF),计算所有顶点间的注意力系数,并用softmax函数归一化,然后利用注意力系数加权得到图注意力模块更新后的全局特征集V* F,最后对特征集V* F取平均值,得到了最终的1024维的图像全局特征
Figure 869361DEST_PATH_IMAGE001
进一步的,步骤A03中,图注意力模块的具体计算方法为:
先计算顶点间的注意力系数,对于顶点VF中任意两个顶点v i v j ,系数e ij 的计算公式为:
Figure 85579DEST_PATH_IMAGE003
其中,W q W k 都为网络学习的参数,T表示矩阵的转置,D是特征维度,得到所有系数后,用softmax函数处理得到最终的图注意力系数a ij ,再加权求和得到图注意力模块的输出V* F,具体计算方式如下:
Figure 499242DEST_PATH_IMAGE004
Figure 117305DEST_PATH_IMAGE005
其中,N i 表示顶点v i 的所有邻居。
进一步的,图像局部特征的提取具体包含以下步骤:
步骤B01,对于输入图像,使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual-Genome数据集预训练的ResNet101模型,得到输入图像中关键区域的特征表示R={r 1, r 2,…r 100}和标签概率向量C={c 1, c 2,…c 100};
步骤B02,对于步骤B01得到的输入图像关键区域的特征R和标签概率C,分别输入到全连接层fc1和fc2,将R和C映射到1024维空间中得到
Figure 591012DEST_PATH_IMAGE006
Figure 560105DEST_PATH_IMAGE007
Figure 246301DEST_PATH_IMAGE008
其中,W fc1 W fc2 分别是全连接层fc1和fc2的权重,最后将R'和C'直接按元素相加得到最终的图像局部特征V={v 1, v 2,…v 100}。
进一步的,文本局部特征和全局特征的提取具体包含以下步骤:
步骤C01,对于输入文本,其分为L个单词,再根据词汇表的对应关系将每个单词转换为对应的数字,再将每个单词嵌入到300维的向量空间中,得到初步的文本局部特征
Figure 250030DEST_PATH_IMAGE009
然后将T'输入到1层双向GRU网络中,得到了文本局部特征T={t 1, t 2,…t L},其中每个单词的特征维度也是1024维;
步骤C02,对于步骤C01得到的文本局部特征T,使用L个单词的平均特征作为自注意力机制中的query,求出每个单词的注意力系数后进行加权求和,最终得到1024维文本全局特征
Figure 629058DEST_PATH_IMAGE010
进一步的,文本全局特征的计算方法如下:
取L个单词的平均值作为查询q
Figure 85447DEST_PATH_IMAGE011
然后计算q和所有局部特征T间的点积得到L个初步权重
Figure 575335DEST_PATH_IMAGE012
同样经过softmax函数后得到最终的注意力权重
Figure 902411DEST_PATH_IMAGE013
所以文本全局特征的计算公式为:
Figure 714990DEST_PATH_IMAGE014
进一步的,多模态间的全局和局部对齐具体包含以下步骤:
步骤D01:使用相似度表示函数计算图像全局特征
Figure 393096DEST_PATH_IMAGE001
和文本全局特征
Figure 952254DEST_PATH_IMAGE015
的相似度向量,得到256维的全局相似度向量
Figure 100002_DEST_PATH_IMAGE016
;采用的相似度函数为:
Figure 930574DEST_PATH_IMAGE017
其中,xy是需要计算相似度的两个向量,W为网络学习的参数。
步骤D02:使用多模态注意力模块得到每个图像区域关于每个单词的注意力系数βij分别表示第i个区域和第j个单词,i=1,2,…,100;j=1,2,…,L;然后加权求和得到所有区域关于每个单词的视觉特征A v ={a v 1, a v 2,…a v L};
其中,第j个单词的视觉特征计算公式为
Figure 385826DEST_PATH_IMAGE018
最后对每个单词的视觉特征A v 和局部特征T中的L对向量用相似度函数S求相似度表示,得到的局部相似度向量S={s 1 , s 2 ,…s L },
其中,βij表示注意力权重,v i 是步骤B中得到的图像局部特征表示,且每个向量的维度均为256。
进一步的,步骤D02中,多模态注意力模块的计算方法如下:
对于第i个区域和第j个单词,余弦相似度为
Figure DEST_PATH_IMAGE019
然后标准化得到
Figure 318272DEST_PATH_IMAGE020
,最后求出注意力权重:
Figure DEST_PATH_IMAGE021
进而得到视觉特征A v ,其中,t j 是步骤C中的得到的第j个文本局部特征。
进一步的,计算最终图像文本匹配分数的具体过程如下:
将步骤D01和D02得到的全局相似度向量和局部相似度向量共L+1个向量按元素相加求均值,得到图像文本的最终256维相似度向量s,
Figure 477858DEST_PATH_IMAGE022
然后将s输入到输出维度是1的全连接层fc3,得到初步相似度分数Score, Score= W fc3 *s,W fc3 fc3的权重,最后使用sigmoid函数归一化得到最终的多模态匹配分数
Figure 310685DEST_PATH_IMAGE023
有益效果:与现有技术相比,本发明具有以下优点:
本发明的基于全局和局部对齐的多模态特征对齐方法,利用了经典网络在大型数据集上的预训练模型以及相似度向量而不是简单的相似度值进行特征对齐。本发明图像全局特征的计算是在传统深度网络提取到的高层语义特征基础上增加了图注意力模块,这一模块通过像素间的语义关系来决定特征的权重,最终得到语义关系增强后的图像全局特征;此外图像局部特征的计算融合了局部的特征向量和局部的标签概率向量,得到了标签信息增强的图像局部特征;同样的在得到文本的局部特征表示后,使用了更优秀自注意力模块求出文本全局特征而不是简单的求均值。最后通过相似度向量进行多模态全局和局部对齐。通过实验对比,该方法性能优于其他同类方法。
附图说明
图1是基于全局和局部对齐的多模态特征对齐方法结构示意图;
图2是本发明试验所采用的MS-COCO的部分数据,包括图2A和图2B;
图3是本发明试验所采用的Flickr30K的部分数据,包括图3A和图3B。
具体实施方式
下面结合具体实施例,进一步阐明本发明,实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
本申请的基于全局和局部对齐的多模态特征对齐方法,用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,即为文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数。
本发明的方法具体步骤包括:图像全局特征的提取,图像局部特征的提取;文本全局特征和局部特征的提取,多模态间的全局和局部对齐和计算最终图像文本匹配分数。下面分别对上述四个步骤进行详细描述:
A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,且去掉了最后一个全连接层。将ResNet152的输出高层特征M重塑为一组特征集F。然后将F经过一个全连接层得到初步全局特征VF,使用VF构建视觉图网络GF。最后经过图注意力模块的计算得到最终的图像全局特征表示
Figure 202417DEST_PATH_IMAGE001
,图像全局特征的提取具体包含以下步骤:
步骤A01,对于输入图像,本发明使用ResNet152在ImageNet上的预训练模型,且去掉了最后一个全连接层。图像经过ResNet网络得到一组高层特征M,为了后续图网络的构建,将一组高层特征重塑为长度为64的特征集F={f 1, f 2,…f 64}。再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集VF
步骤A02,对于步骤A01得到的特征VF,构建全局视觉图网络GF=(VF,EF)。图的顶点由VF的特征构成,图的边集EF被定义为顶点间特征的内积。比如对于顶点v i F v j F ,边的长度为
Figure DEST_PATH_IMAGE024
T表示矩阵转置。
步骤A03,对于步骤A02得到的全局视觉图网络GF=(VF,EF),计算所有顶点间的注意力系数,并用softmax函数归一化。然后利用注意力系数加权得到图注意力模块更新后的全局特征集V* F。最后对特征集V* F取平均值,得到了最终的1024维的图像全局特征
Figure 386274DEST_PATH_IMAGE001
图注意力模块的具体计算过程为:
先计算顶点间的注意力系数,对于顶点VF中任意两个顶点v i v j ,系数e ij 的计算公式为:
Figure 287234DEST_PATH_IMAGE025
其中,W q W k 都为网络学习的参数,T表示矩阵转置,D是特征维度,在本发明中为1024。得到所有系数后,用softmax函数处理得到最终的图注意力系数a ij ,再加权求和得到图注意力模块的输出V* F,具体计算方式如下:
Figure 443409DEST_PATH_IMAGE004
Figure 771622DEST_PATH_IMAGE005
其中,Ni表示顶点vi的所有邻居。
B:图像局部特征的提取;使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域。然后用ResNet101提取图像100个区域的特征向量R以及标签概率向量C。将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v 1, v 2,…v 100},图像局部特征的提取具体包含以下步骤:
步骤B01,对于输入图像,使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual-Genome数据集预训练的ResNet101模型,就可以得到输入图像中100个关键区域的特征表示R={r 1, r 2, r 100}和标签概率向量C={c 1, c 2,…c 100};
步骤B02,对于步骤B01得到的输入图像关键区域的特征R和标签概率C,分别输入到全连接层fc1和fc2,将R和C映射到1024维空间中得到
Figure 646037DEST_PATH_IMAGE006
Figure 350688DEST_PATH_IMAGE007
,
即,
Figure 626949DEST_PATH_IMAGE027
其中,W fc1 W fc2 分别是全连接层fc1和fc2的权重,最后将R'和C'直接按元素相加得到最终的图像局部特征V={v 1, v 2,…v 100}。
C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,即为文本的局部特征表示T={t 1, t 2,…t L}。再通过自注意力方法计算得到文本的全局特征表示
Figure DEST_PATH_IMAGE028
。结合图1,文本局部特征和全局特征的提取具体包含以下步骤:
步骤C01,对于输入文本,其分为L个单词,再根据词汇表的对应关系将每个单词转换为对应的数字,再将每个单词嵌入到300维的向量空间中,得到初步的文本局部特征
Figure 388713DEST_PATH_IMAGE009
然后将T'输入到1层双向GRU网络中,得到了文本局部特征T={t 1, t 2,…t L},其中每个单词的特征维度也是1024维;
步骤C02,对于步骤C01得到的文本局部特征T,使用L个单词的平均特征作为自注意力机制中的query,求出每个单词的注意力系数后进行加权求和,最终得到1024维文本全局特征
Figure 16003DEST_PATH_IMAGE028
文本全局特征的计算过程如下:
取L个单词的平均值作为查询q
Figure 993186DEST_PATH_IMAGE029
然后计算q和所有局部特征T间的点积得到L个初步权重
Figure 123953DEST_PATH_IMAGE012
同样经过softmax函数后得到最终的注意力权重:
Figure 793969DEST_PATH_IMAGE030
所以文本全局特征的计算公式为:
Figure 642976DEST_PATH_IMAGE031
D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征
Figure 158271DEST_PATH_IMAGE001
和文本全局特征
Figure 674703DEST_PATH_IMAGE028
间的相似度向量。使用多模态注意力模块优化图像特征,得到新的视觉特征A v ={a v 1, a v 2,…a v L}。最后求出A v 和T的相似度,得到L个局部相似度向量。多模态间的全局和局部对齐具体包含以下步骤:
步骤D01:使用相似度表示函数计算图像全局特征
Figure 250041DEST_PATH_IMAGE001
和文本全局特征
Figure 851924DEST_PATH_IMAGE028
的相似度向量,得到256维的全局相似度向量
Figure 170910DEST_PATH_IMAGE032
,相似度函数为:
Figure 541848DEST_PATH_IMAGE033
其中,xy是需要计算相似度的两个向量,W为网络学习的参数。
步骤D02:使用多模态注意力模块得到每个图像区域关于每个单词的注意力系数β,ij分别表示第i个区域和第j个单词,i=1,2,…,100;j=1,2,…,L;然后加权求和得到所有区域关于每个单词的视觉特征A v ={a v 1, a v 2,…a v L};
其中,第j个单词的视觉特征计算公式为
Figure 288087DEST_PATH_IMAGE034
最后对每个单词的视觉特征A v 和局部特征T中的L对向量用相似度函数S求相似度表示,得到的局部相似度向量S={s 1 , s 2 ,…s L },
其中,βij表示注意力权重,v i 是步骤B中得到的图像局部特征表示,且每个向量的维度均为256。
多模态注意力模块的计算过程如下:
对于第i个区域和第j个单词,余弦相似度为
Figure 111687DEST_PATH_IMAGE035
然后标准化得到
Figure 599079DEST_PATH_IMAGE036
,最后求出注意力权重:
Figure 100002_DEST_PATH_IMAGE037
进而得到视觉特征A v ,其中,t j 是步骤C中的得到的第j个文本局部特征。
E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s。最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
计算最终图像文本匹配分数的具体过程如下:
将步骤D01和D02得到的全局相似度向量和局部相似度向量共L+1个向量按元素相加求均值,得到图像文本的最终256维相似度向量s,
Figure 152420DEST_PATH_IMAGE038
然后将s输入到输出维度是1的全连接层fc3,得到初步相似度分数Score, Score=Wfc3*s, Wfc3是fc3的权重,最后使用sigmoid函数归一化得到最终的多模态匹配分数
Figure 335140DEST_PATH_IMAGE039
采用以下方式对本发明的方法进行验证:
MS-COCO数据集: MS-COCO数据集是十分经典的多模态图文数据集,共包括123287张图片,其中每张图片都有人工生成的5个文本描述。我们使用了113287张图片和566435个文本作为训练集,5000张图片和25000个文本为验证集,5000张图片和25000个文本为测试集。如图2所示是本发明试验所采用的MS-COCO的部分数据,其中图2A的文本描述为:1、一个配有现代木桌椅的餐厅;2、一张带藤条圆形靠背椅的长餐桌;3、一张长桌,上面有一棵植物,周围环绕着木椅;4、一张长桌,中间插花,适合开会;5、一张桌子上装饰着蓝色调的木椅;其中图2B的文本描述为:1、一个男人在覆盖着糖霜的厨房里准备甜点;2、一位厨师正在准备和装饰许多小糕点;3、面包师准备各种类型的烘焙食品;4、一个人在盒子中抓取糕点的特写;5、一个接触各种糕点的手。
Flickr30K数据集:Flickr30K数据集也是十分经典的多模态图文数据集,共包括31783张图片,其中每张图片都有人工生成的5个文本描述。我们使用了93827张图片和469135个文本作为训练集,1000张图片和5000个文本为验证集,1000张图片和5000个文本为测试集。图3是本发明试验所采用的Flickr30K的部分数据,其中图3A的文本描述为:1、两个头发蓬乱的年轻人在院子里闲逛时看着自己的手;2、两个年轻的白人男性在许多灌木丛附近;3、两个穿绿色衬衫的男人站在院子里;4、一个穿着蓝色衬衫的男人站在花园里;5、两个朋友享受在一起度过的时光。其中图3B的文本描述为:1、几个戴着安全帽的人正在操作一个巨大的滑轮系统;2、工人从上面俯视一件设备;3、两个戴着安全帽在机器上工作的男人;4、四个人站在一座高大的建筑物上;5、三个人在一个大钻机上。
实验结果
对于图像-文本检索任务,采用Recall at K(R@K)作为评价指标,R@K表示查询数据的真实返回在前K个返回数据中所占的比例。
实验结果如下表所示:
表1 本发明的方法在MS-COCO数据集和 Flickr30K数据集上的实验结果
Figure 911615DEST_PATH_IMAGE041
从实验结果可以看出,本发明提出的方法再两个数据集上均取得了很好的检索效果,由其当返回数目K为10时,召回率已经接近百分之百。同样也能发现MS-COCO数据集更大,所以该方法的性能也更好,即训练的样本越多,网络学习到的模型才更好。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于全局和局部对齐的多模态特征对齐方法,其特征在于,包括:采用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,得到文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数,具体包括以下步骤:
步骤A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,将ResNet152的输出高层特征M重塑为一组特征集F,然后将特征集F经过一个全连接层得到初步全局特征VF,使用初步全局特征VF构建视觉图卷积神经网络GF,最后经过图注意力模块的计算得到最终的图像全局特征表示
Figure DEST_PATH_IMAGE002
步骤B:图像局部特征的提取:使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的关键区域,然后用ResNet101提取图像关键区域的特征向量R以及标签概率向量C,将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v 1, v 2,…v 100};
步骤C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,为文本的局部特征表示T={t 1,…t L},再通过自注意力方法计算得到文本的全局特征表示
Figure DEST_PATH_IMAGE004
步骤D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征
Figure DEST_PATH_IMAGE006
和文本全局特征
Figure DEST_PATH_IMAGE007
间的相似度向量,使用多模态注意力模块优化图像特征,得到新的视觉特征A v ={a v 1, a v 2,…a v L},最后求出A v 和T的相似度,得到L个局部相似度向量;
步骤E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s,最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
2.根据权利要求1所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:图像全局特征的提取具体包含以下步骤:
步骤A01,对于输入图像,使用ResNet152在ImageNet上的预训练模型,且去掉最后一个全连接层,图像经过ResNet网络得到一组高层特征M,为了后续图卷积神经网络的构建,所以将M重塑为长度为64的特征集F={f 1, f 2,…f 64},再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集VF
步骤A02,对于步骤A01得到的特征VF,构建全局视觉图卷积神经网络GF=(VF,EF),图的顶点由VF的特征构成,图的边集EF被定义为顶点间特征的内积;
步骤A03,对于步骤A02得到的全局视觉图卷积神经网络GF=(VF,EF),计算所有顶点间的注意力系数,并用softmax函数归一化,然后利用注意力系数加权得到图注意力模块更新后的全局特征集V* F,最后对特征集V* F取平均值,得到了最终的1024维的图像全局特征
Figure DEST_PATH_IMAGE008
3.根据权利要求2所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:步骤A03中,图注意力模块的具体计算方法为:
先计算顶点间的注意力系数,对于顶点VF中任意两个顶点v i v j ,系数e ij 的计算公式为:
Figure DEST_PATH_IMAGE010
其中,W q W k 都为网络学习的参数,T表示矩阵的转置,D是特征维度,得到所有系数后,用softmax函数处理得到最终的图注意力系数a ij ,再加权求和得到图注意力模块的输出V* F,具体计算方式如下:
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
其中,N i 表示顶点v i 的所有邻居。
4.根据权利要求1所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:图像局部特征的提取具体包含以下步骤:
步骤B01,对于输入图像,使用Faster-RCNN在Visual-Genome数据集上的预训练模型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual-Genome数据集预训练的ResNet101模型,得到输入图像中关键区域的特征表示R={r 1, r 2,…r 100}和标签概率向量C={c 1, c 2,…c 100};
步骤B02,对于步骤B01得到的输入图像关键区域的特征R和标签概率C,分别输入到全连接层fc1和fc2,将R和C映射到1024维空间中得到
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
其中,W fc1 W fc2 分别是全连接层fc1和fc2的权重,最后将R'和C'直接按元素相加得到最终的图像局部特征V={v 1, v 2,…v 100}。
5.根据权利要求1所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:文本局部特征和全局特征的提取具体包含以下步骤:
步骤C01,对于输入文本,其分为L个单词,再根据词汇表的对应关系将每个单词转换为对应的数字,再将每个单词嵌入到300维的向量空间中,得到初步的文本局部特征
Figure DEST_PATH_IMAGE022
然后将T'输入到1层双向GRU网络中,得到了文本局部特征T={t 1, t 2,…t L},其中每个单词的特征维度也是1024维;
步骤C02,对于步骤C01得到的文本局部特征T,使用L个单词的平均特征作为自注意力机制中的query,求出每个单词的注意力系数后进行加权求和,最终得到1024维文本全局特征
Figure DEST_PATH_IMAGE023
6.根据权利要求5所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:文本全局特征的计算方法如下:
取L个单词的平均值作为查询q
Figure DEST_PATH_IMAGE025
然后计算q和所有局部特征T间的点积得到L个初步权重
Figure DEST_PATH_IMAGE027
同样经过softmax函数后得到最终的注意力权重
Figure DEST_PATH_IMAGE029
所以文本全局特征的计算公式为:
Figure DEST_PATH_IMAGE031
7.根据权利要求1所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:多模态间的全局和局部对齐具体包含以下步骤:
步骤D01:使用相似度表示函数计算图像全局特征
Figure DEST_PATH_IMAGE033
和文本全局特征
Figure 108944DEST_PATH_IMAGE004
的相似度向量,得到256维的全局相似度向量
Figure DEST_PATH_IMAGE035
;采用的相似度函数为:
Figure DEST_PATH_IMAGE037
其中,xy是需要计算相似度的两个向量,W为网络学习的参数;
步骤D02:使用多模态注意力模块得到每个图像区域关于每个单词的注意力系数βij分别表示第i个区域和第j个单词,i=1,2,…,100;j=1,2,…,L;然后加权求和得到所有区域关于每个单词的视觉特征A v ={a v 1, a v 2,…a v L};
其中,第j个单词的视觉特征计算公式为
Figure DEST_PATH_IMAGE039
最后对每个单词的视觉特征A v 和局部特征T中的L对向量用相似度函数S求相似度表示,得到的局部相似度向量S={s 1 , s 2 ,…s L },
其中,β ij 表示注意力权重,v i 是步骤B中得到的图像局部特征表示,且每个向量的维度均为256。
8.根据权利要求7所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:步骤D02中,多模态注意力模块的计算方法如下:
对于第i个区域和第j个单词,余弦相似度为
Figure DEST_PATH_IMAGE041
然后标准化得到
Figure DEST_PATH_IMAGE043
,最后求出注意力权重:
Figure DEST_PATH_IMAGE045
进而得到视觉特征A v ,其中,t j 是步骤C中的得到的第j个文本局部特征。
9.根据权利要求8所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:计算最终图像文本匹配分数的具体过程如下:
将步骤D01和D02得到的全局相似度向量和局部相似度向量共L+1个向量按元素相加求均值,得到图像文本的最终256维相似度向量s,
Figure DEST_PATH_IMAGE047
然后将s输入到输出维度是1的全连接层fc3,得到初步相似度分数Score, Score=W fc3 * s,W fc3 fc3的权重,最后使用sigmoid函数归一化得到最终的多模态匹配分数
Figure DEST_PATH_IMAGE049
CN202111291575.XA 2021-11-03 2021-11-03 一种基于全局和局部对齐的多模态特征对齐方法 Active CN113742556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111291575.XA CN113742556B (zh) 2021-11-03 2021-11-03 一种基于全局和局部对齐的多模态特征对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111291575.XA CN113742556B (zh) 2021-11-03 2021-11-03 一种基于全局和局部对齐的多模态特征对齐方法

Publications (2)

Publication Number Publication Date
CN113742556A CN113742556A (zh) 2021-12-03
CN113742556B true CN113742556B (zh) 2022-02-08

Family

ID=78727289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111291575.XA Active CN113742556B (zh) 2021-11-03 2021-11-03 一种基于全局和局部对齐的多模态特征对齐方法

Country Status (1)

Country Link
CN (1) CN113742556B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114529456B (zh) * 2022-02-21 2022-10-21 深圳大学 一种视频的超分辨率处理方法、装置、设备及介质
CN115082704B (zh) * 2022-03-16 2024-03-05 西北工业大学 基于相关性滤波的文本行人重识别方法
CN116452939A (zh) * 2023-05-11 2023-07-18 河海大学 基于多模态实体融合与对齐的社交媒体虚假信息检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628533B2 (en) * 2016-06-27 2020-04-21 Faro Technologies, Inc. Global optimization of networks of locally fitted objects
CN107330100B (zh) * 2017-07-06 2020-04-03 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
CN110490946B (zh) * 2019-07-15 2023-07-04 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN111026894B (zh) * 2019-12-12 2021-11-26 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法

Also Published As

Publication number Publication date
CN113742556A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN113742556B (zh) 一种基于全局和局部对齐的多模态特征对齐方法
CN105426850B (zh) 一种基于人脸识别的关联信息推送设备及方法
CN112182166B (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN110750656B (zh) 一种基于知识图谱的多媒体检测方法
US7860347B2 (en) Image-based face search
CN108629338B (zh) 一种基于lbp和卷积神经网络的人脸美丽预测方法
CN100414548C (zh) 综合利用图像及文字信息的搜索系统及搜索方法
CN107862561A (zh) 一种基于图片属性提取建立用户兴趣库的方法及设备
CN109213853B (zh) 一种基于cca算法的中文社区问答跨模态检索方法
CN112395442B (zh) 移动互联网上的低俗图片自动识别与内容过滤方法
CN109993102A (zh) 相似人脸检索方法、装置及存储介质
CN114693397A (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
CN107590491A (zh) 一种图像处理方法及装置
CN112949622A (zh) 融合文本与图像的双模态性格分类方法及装置
CN111160130B (zh) 一种多平台虚拟身份账号的多维碰撞识别方法
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
KR20200141373A (ko) 외형인식모델 학습용 데이터셋 구축 방법, 장치 및 프로그램
CN110555132A (zh) 一种基于注意力模型的降噪自编码器推荐方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN113361387A (zh) 人脸图像融合方法及装置、存储介质及电子设备
CN108920448A (zh) 一种基于长短期记忆网络的比较关系抽取的方法
CN109446368B (zh) 一种基于类别信息的鸟类检索方法及系统
CN108628999B (zh) 一种基于显式和隐式信息的视频推荐方法
CN116758402A (zh) 图像人物关系识别方法、系统、设备及存储介质
US20220100792A1 (en) Method, device, and program for retrieving image data by using deep learning algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant