CN110516085B - 基于双向注意力的图像文本互检索方法 - Google Patents

基于双向注意力的图像文本互检索方法 Download PDF

Info

Publication number
CN110516085B
CN110516085B CN201910626468.4A CN201910626468A CN110516085B CN 110516085 B CN110516085 B CN 110516085B CN 201910626468 A CN201910626468 A CN 201910626468A CN 110516085 B CN110516085 B CN 110516085B
Authority
CN
China
Prior art keywords
image
text
feature
representing
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910626468.4A
Other languages
English (en)
Other versions
CN110516085A (zh
Inventor
刘静
石雨佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910626468.4A priority Critical patent/CN110516085B/zh
Publication of CN110516085A publication Critical patent/CN110516085A/zh
Priority to US16/946,441 priority patent/US11373055B2/en
Application granted granted Critical
Publication of CN110516085B publication Critical patent/CN110516085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双向注意力的图像文本互检索方法,可用于电子文本和自然图像互相检索。本发明利用深度神经网络初步提取自然图像特征和电子文本特征,通过构建双向注意力模块,重构深度神经网络初步提取的自然图像特征和电子文本特征,重构后的特征包含更丰富的语义信息。本发明利用双向注意力模块改进传统特征提取过程,得到含有更多图像与文本语义信息的高阶特征,实现图像文本互检索。

Description

基于双向注意力的图像文本互检索方法
技术领域
本发明属于图像处理技术领域,更进一步涉及自然语言处理和计算机视觉交叉技术领域中的一种基于双向注意力的图像文本互检索方法。本发明可用于挖掘自然图像-电子文本两种不同模态的深层联系,提取自然图像特征和文本特征,利用提取的特征计算自然图像与电子文本的匹配概率,实现自然图像-电子文本两种不同模态之间的相互检索。
背景技术
图像文本互检索目前存在两种方法。一种构建相似度学习网络,一种构建特征提取网络。构建相似度学习网络是利用相似度学习网络学习两类数据相似度并生成得分,选取得分最高的一组自然图像与电子文本,完成相互检索。构建特征提取网络是利用特征提取网络分别提取自然图像和电子文本的高阶特征,使用简单的相似度计算公式计算特征间相似性,选取相似度最高的图像文本对,完成相互检索。神经网络拥有多层网络结构,能够提取出数据的高阶特征,常用于文本和图像处理。注意力能够在不同模态特征交互时捕获交互后联合特征,利用联合特征对其他特征进行加权重构,充分挖掘交互信息的作用。基于双向注意力的图像文本互检索方法的主要思想为:利用神经网络对自然图像和电子文本进行初步特征提取,构建双向注意力模块重构自然图像和电子文本特征,利用重构后的特征计算自然图像和电子文本匹配概率,完成相互检索。
腾讯科技有限公司在其在其申请的专利文献“图像文本匹配模型的训练方法、双向搜索方法及相关装置”(专利申请号:201710817344.5,公开号:CN 108288067 A)中提出了一种基于深度神经网络的自然图像与电子文本双向检索方法。该方法利用卷积神经网络模型进行图像特征提取和文本特征提取,再构建相似度衡量网络计算特征相似度。该方法虽然能够利用多层网络提取自然图像和电子文本的高阶特征,但是,该方法仍然存在的不足之处是:自然图片和电子文本属于不同模态的数据,数据的异质性使得简单的通过深度神经网络进行特征提取难以准确表达图像与文本的语义特征,进而难以衡量自然图像与电子文本高阶特征间相似性,影响检索准确率。
S.Li,T.Xiao,H.Li,B.Zhou等人在其发表的论文“Person search with naturallanguage description”(International Conference on Computer Vision and PatternRecognition,2017:1970-1979)中提出了一种基于单向注意力的图像文本检索方法。该方法利用注意力将提取到的图像特征加权到文本特征中,对文本特征进行重构,增强文本与图像之间的相似性。该方法虽然能够利用注意力重构电子文本特征,但是,该方法仍然存在的不足之处是:只是简单地在重构电子文本特征时使用自然图像对电子文本的单向注意力,由于自然图像与电子文本存在对应关系,相互对应的高阶特征间互相影响,仅仅重构电子文本特征而忽略自然图像特征,使得自然图像特征无法准确与电子文本特征对应,影响图像文本互相检索。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于双向注意力的图像文本互检索方法,解决相同语义信息的自然图像与电子文本的相互检索问题。
实现本发明目的的思路是,利用注意力能够在不同模态特征交互时捕获交互后联合特征,利用联合特征对其他特征进行加权重构,充分挖掘交互信息的作用。通过构建双向注意力模块,重构深度神经网络初步提取的自然图像特征和电子文本特征,重构后的特征包含更丰富的语义信息。
本发明具体步骤包括有如下:
(1)生成训练集和测试集:
从Flickr30k数据集中任意选取图像及其对应的文本对共25000个,将其中15000个图像文本对组成训练集,10000个图像文本对组成测试集;
(2)利用神经网络提取每个图像文本对的特征:
(2a)搭建一个14层的神经网络、设置并训练好每层参数;
(2b)将训练集输入到卷积神经网络中,输出15000个图像文本对,每个图像文本对中的图像含有100个图像特征,文本含有100个文本特征;
(3)从所有输出图像文本对中依次选取一个未选取过的图像;
(4)从所有图像文本对中随机选取一个未选过的文本;
(5)构建一个双向注意力模块:
(5a)按照下式,计算所选图像的每个图像特征与所选文本的每个文本特征特征相似度:
Figure GDA0003558541070000031
其中,Ri,k表示所选图像的第k个图像特征与所选文本的第i个文本特征的相似度,tanh表示双曲正切操作,yi表示所选文本的第i个文本特征,T表示转置操作,A表示随机生成的15000×15000维的注意力矩阵,xk表示所选图像的第k个图像特征;
(5b)构建一个由每个图像特征与每个所选文本的所有文本特征的相似度组成的图像特征相似度向量,对每个图像相似度向量进行均值池化操作;构建一个由每个文本特征与每个所选图像的所有图像特征的相似度组成的文本特征相似度向量,对每个文本相似度向量进行均值池化操作;
(5c)按照下述的软注意力公式,计算所选图像的每个图像特征在所有图像特征中的重要程度:
Figure GDA0003558541070000032
其中,ak表示所选图像的第k个图像特征在所有图像特征中的重要程度,exp表示以自然常数e为底的指数操作,uk表示均值池化操作后的第k个图像特征相似度,∑表示求和操作,n表示所选图像的图像特征相似度总数,ud表示均值池化操作后的第d个图像特征相似度,d的值从1取到n;
(5d)按照下述的软注意力公式,计算所选文本的每个文本特征在所有文本特征中的重要程度:
Figure GDA0003558541070000033
其中,bi表示所选文本的第i个文本特征在所有文本特征中的重要程度,ti表示均值池化操作后的第i个文本特征相似度,l表示所选文本的文本特征相似度总数,tm表示均值池化操作后的第m个文本特征相似度,m的值从1取到l;
(6)重构所选图像特征与所选文本特征:
(6a)将每个图像特征的重要程度与所选图像的对应图像特征相乘,得到重构后的图像特征;
(6b)将每个文本特征重要程度与所选文本的对应文本特征相乘,得到重构后的文本特征;
(7)判断是否选完所有图像文本对中的文本,若是,则执行步骤(8),否则,执行步骤(4);
(8)判断是否选完所有图像文本对中的图像,若是,则执行步骤(9),否则,执行步骤(3);
(9)计算匹配概率:
(9a)利用soft-max公式,计算每个图像与所有图像文本对中的每个文本的匹配概率;
(9b)利用soft-max公式,计算每个文本与所有图像文本对中的每个图像的匹配概率;
(10)利用交叉熵训练注意力矩阵:
(10a)利用交叉熵公式,计算每个图像与每个文本匹配概率与每个图像与每个文本的真实匹配概率之间的交叉熵;
(10b)采用梯度下降公式,用每次迭代获得的交叉熵更新注意力矩阵元素值,直到交叉熵小于0.000001为止,得到训练好的注意力矩阵;
(11)完成图像文本互检索:
(11a)将测试集中所有图像文本对输入到步骤(2)训练好的神经网络中,得到测试集中的所有图像文本对的特征;
(11b)用训练好的注意力矩阵与步骤(11a)所有图像文本对中的每个图像特征和每个文本特征相乘,接着按照如(5b)至(5d)的步骤,分别得到重构后的每个图像和每个文本的匹配概率;
(11c)从所有重构后的匹配概率中,选取最大的匹配概率,将其对应的图像文本对作为检索结果。
本发明与现有技术相比,具有以下优点:
第一,由于本发明采用双向注意力对电子文本和自然图像的不同模态特征进行交叉处理,计算每个图像特征在所有图像特征中的重要程度,每个文本特征在所有特征中的重要程度,克服了现有技术中虽然能够利用注意力,但是仅仅简单地使用自然图像对电子文本的单向注意力,由于自然图像与电子文本存在对应关系,相互对应的高阶特征间互相影响,电子文本对自然图像也有影响的问题,使得采用本发明方法有助于利用图像与文本交叉处理后的交互信息,更准确的挖掘图像语义信息与文本语义信息。
第二,由于本发明采用双向注意力得到的每个图像特征的重要程度和每个文本重要程度重构图像特征与文本特征,克服了现有技术中由于自然图片和电子文本属于不同模态的数据,数据的异质性使得简单的通过深度神经网络进行特征提取难以准确表达图像与文本的语义特征,进而难以衡量自然图像与电子文本高阶特征间相似性的问题,使得采用本发明方法有助于更准确的构建图像与文本的特征。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步的详细描述。
参照附图1,对本发明的步骤做进一步的详细描述。
步骤1,生成训练集和测试集。
从Flickr30k数据集中任意选取图像及其对应的文本对共25000个,将其中15000个图像文本对组成训练集,10000个图像文本对组成测试集。
步骤2,利用神经网络提取每个图像文本对的特征。
搭建一个14层的神经网络、设置并训练好每层参数。
所述神经网络,其结构依次为:第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层。
所述设置每层参数如下:将第一第二卷积层的卷积核大小设置为3×3,个数设置为64,将第三第四卷积层的卷积核大小设置为3×3,个数设置为128,将第五至第七卷积层的卷积核大小设置为3×3,个数设置为256,将第八至第十三卷积层的卷积核大小设置为3×3,个数设置为512;每个池化层均采用最大池化方式,每个池化层的卷积池化核大小均设置的为2×2,步长均设置为2;全连接层的输入和输出节点个数分别设置为4086和100。
将训练集输入到已训练好的卷积神经网络中,输出15000个图像文本对,每个图像文本对中的图像含有100个图像特征,文本含有100个文本特征。
步骤3,从所有输出图像文本对中依次选取一个未选取过的图像。
步骤4,从所有图像文本对中随机选取一个未选过的文本。
步骤5,构建一个双向注意力模块。
按照下式,计算所选图像的每个图像特征与所选文本的每个文本特征特征相似度:
Figure GDA0003558541070000061
其中,Ri,k表示所选图像的第k个图像特征与所选文本的第i个文本特征的相似度,tanh表示双曲正切操作,yi表示所选文本的第i个文本特征,T表示转置操作,A表示随机生成的15000×15000维的注意力矩阵,xk表示所选图像的第k个图像特征。
构建一个由每个图像特征与每个所选文本的所有文本特征的相似度组成的图像特征相似度向量,对每个图像相似度向量进行均值池化操作;构建一个由每个文本特征与每个所选图像的所有图像特征的相似度组成的文本特征相似度向量,对每个文本相似度向量进行均值池化操作。
按照下述的软注意力公式,计算所选图像的每个图像特征在所有图像特征中的重要程度:
Figure GDA0003558541070000062
其中,ak表示所选图像的第k个图像特征在所有图像特征中的重要程度,exp表示以自然常数e为底的指数操作,uk表示均值池化操作后的第k个图像特征相似度,∑表示求和操作,n表示所选图像的图像特征相似度总数,ud表示均值池化操作后的第d个图像特征相似度,d的值从1取到n。
按照下述的软注意力公式,计算所选文本的每个文本特征在所有文本特征中的重要程度:
Figure GDA0003558541070000071
其中,bi表示所选文本的第i个文本特征在所有文本特征中的重要程度,ti表示均值池化操作后的第i个文本特征相似度,l表示所选文本的文本特征相似度总数,tm表示均值池化操作后的第m个文本特征相似度,m的值从1取到l。
步骤6,重构所选图像特征与所选文本特征。
按照下式,将每个图像特征的重要程度与所选图像的对应图像特征相乘,得到重构后的图像特征[X1,...,Xk,...,Xn]。
[X1,...,Xk,...,Xn]=[a1x1,...,akxk,...,anxn]
其中,Xk=akxk,Xk表示所选图像重构后的第k个图像特征,k的值从1取到n。
按照下式,将每个文本特征重要程度与所选文本的对应文本特征相乘,得到重构后的文本特征[Y1,...,Yi,...,Yl]。
[Y1,...,Yi,...,Yl]=[b1y1,…,biyi,...,blyl]
其中,Yi=biyi,Yi表示所选文本重构后的第i个文本特征,i的值从1取到l。
步骤7,判断是否选完所有图像文本对中的文本,若是,则执行步骤8,否则,执行步骤4。
步骤8,判断是否选完所有图像文本对中的图像,若是,则执行步骤9,否则,执行步骤3。
步骤9,计算匹配概率。
利用soft-max公式,计算每个图像与所有图像文本对中的每个文本的匹配概率;所述soft-max公式如下:
Figure GDA0003558541070000081
其中,pq,j表示图像文本对中第q个图像与第j个文本的匹配概率,exp表示以自然常数e为底的指数操作,Vq表示图像文本对中重构后的第q个图像特征,T表示转置操作,Tj表示图像文本对中重构后的第j个文本特征,∑表示求和操作,Tr表示图像文本对中重构后的第r个文本特征,r的取值是从1到15000。
利用soft-max公式,计算每个文本与所有图像文本对中的每个图像的匹配概率;所述soft-max公式如下:
Figure GDA0003558541070000082
其中,pj,q表示图像文本对中重构后的第j个文本与第q个图像的匹配概率,exp表示以自然常数e为底的指数操作,Tj表示图像文本对中第j个文本特征,T表示转置操作,Vq表示图像文本对中第q个图像特征,∑表示求和操作,Vs表示图像文本对中重构后的第s个图像的特征,s的取值是从1取到15000。
步骤10,利用交叉熵训练注意力矩阵。
利用交叉熵公式,计算每个图像与每个文本匹配概率与每个图像与每个文本的真实匹配概率之间的交叉熵。
所述交叉熵公式如下:
Lj,q=yj,qln pj,q
其中,Lj,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵,yj,q表示图像文本对中第j个文本与第q个图像真实匹配概率,ln表示以自然常数e为底的对数操作,pj,q表示图像文本对中第q个图像与第j个文本的匹配概率。
采用梯度下降公式,用每次迭代获得的交叉熵更新注意力矩阵元素值,直到交叉熵小于0.000001为止,得到训练好的注意力矩阵。
所述梯度下降公式如下:
Figure GDA0003558541070000091
其中,
Figure GDA0003558541070000092
表示第s+1次迭代后的第j行第q列的注意力矩阵元素值,
Figure GDA0003558541070000093
表示第s次迭代后的第j行第q列的注意力矩阵元素值,η表示取值为0.001的学习速率,
Figure GDA0003558541070000094
表示取偏导操作,Lj,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵。
步骤11,完成图像文本互检索。
将测试集中所有图像文本对输入到步骤2训练好的神经网络中,得到测试集中的所有图像文本对的特征。
用训练好的注意力矩阵与所有图像文本对中的每个图像特征和每个文本特征相乘,接着按照如步骤5,分别得到的每个图像特征和每个文本特征在所有图像特征和文本特征中的重要程度,利用重要程度重构所有图像与文本特征,计算重构后的每个图像和每个文本的匹配概率。
从所有重构后的匹配概率中,选取最大的匹配概率,将其对应的图像文本对作为检索结果。
本发明的效果可通过以下仿真进一步说明。
1.仿真条件:
本发明的仿真实验的硬件平台为:NVIDIA GEFORCE GTX 1080GPU。
本发明的仿真实验的软件平台为:Windows10操作系统和TensorFlow1.9.0。
2.仿真内容及仿真结果分析:
本发明仿真实验中生成训练集和测试集时使用了雅虎采集的Flickr30k数据集,该数据集由31783个自然图像和电子文本对组成。本发明仿真使用的数据是从Flickr30k中的31783个自然图像和电子文本对中随机选取25000个自然图像和电子文本对,其中15000个自然图像和电子文本对作为训练数据,10000个自然图像和电子文本对作为测试数据。
本发明仿真实验是采用本发明和三个现有技术(多模型卷积循环神经网络m-CNN图像文本互检索方法、深度结构保存图像文本嵌入网络DSPE图像文本互检索方法、循环残差融合网络RRF-Net图像文本互检索方法)分别检索测试数据中10000个自然图像和电子文本对中每个图像对应的文本和每个文本对应的图像。
在仿真实验中,采用的三个现有技术是指:
现有技术多模型卷积循环神经网络m-CNN图像文本互检索方法是指,L.Ma等人在“Multimodal convolutional neural networks for matching image and sentence.In:Proceedings of the IEEE International Conference on Computer Vision,pp.2623-2631,2015”中提出的图像文本互检索方法,简称多模型卷积循环神经网络m-CNN图像文本互检索方法。
现有技术深度结构保存图像文本嵌入网络DSPE图像文本互检索方法是指,L.Wang等人在“Learning deep structure-preserving image-text embeddings,In:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.5005-5013,2016”中提出的图像文本互检索方法,简称深度结构保存图像文本嵌入网络DSPE图像文本互检索方法。
现有技术循环残差融合网络RRF-Net图像文本互检索方法是指,Y.Liu等人在“Learning a recurrent residual fusion network for multimodal matching,In:Proceedings of the IEEE International Conference on Computer Vision,pp.4107-4116,2017”中提出的图像文本互检索方法,简称循环残差融合网络RRF-Net图像文本互检索方法。
为了对本发明仿真的结果的效果进行评估,仿真结果评估标准为:Recall@1,Recall@1表示将每个图像和每个文本的匹配概率从大到小排序,@1取最大的匹配概率作为检索结果,统计正确的检索结果占全部测试数据的比例,表1如下所示。
表1仿真实验中本发明和各现有技术互检索成功率对比表
Figure GDA0003558541070000101
表1是采用现有技术基于Recall@1评估标准方法得到的仿真结果,用多模型卷积循环神经网络(m-CNN)、深度结构保存图像文本嵌入网络(DSPE)、循环残差融合网络(RRF-Net)图像文本匹配方法对比实验后,统计正确的检索结果占全部测试数据的比例得到的对比表。
从表1中可以看出本发明方法的用图像检索文本检索正确的结果占全部测试数据的比例为79.2%,用文本检索图像检索正确的结果占全部测试数据的比例为68.8%,高于3种现有技术方法,证明本方法可以更准确的实现图像与文本相互检索,表明了双向注意力模块在构建图像和文本特征时可以提取更准确的特征。

Claims (7)

1.一种基于双向注意力的图像文本互检索方法,其特征在于,利用双向注意力对电子文本和自然图像的不同模态特征进行交叉处理,利用交叉处理后的联合特征重构电子文本特征和自然图像特征,该方法的具体步骤包括如下:
(1)生成训练集和测试集:
从数据集中任意选取图像及其对应的文本对共25000个,将其中15000个图像文本对组成训练集,10000个图像文本对组成测试集;
(2)利用神经网络提取每个图像文本对的特征:
(2a)搭建一个14层的神经网络、设置并训练好每层参数;
(2b)将训练集输入到训练好的卷积神经网络中,输出15000个图像文本对,每个图像文本对中的图像含有100个图像特征,文本含有100个文本特征;
(3)从所有输出图像文本对中依次选取一个未选取过的图像;
(4)从所有图像文本对中随机选取一个未选过的文本;
(5)构建一个双向注意力模块:
(5a)按照下式,计算所选图像的每个图像特征与所选文本的每个文本特征的 特征相似度:
Figure FDA0003558541060000011
其中,Ri,k表示所选图像中第k个图像特征与所选文本中第i个文本特征的相似度,tanh表示双曲正切操作,yi表示所选文本的第i个文本特征,T表示转置操作,A表示随机生成的15000×15000维的注意力矩阵,xk表示所选图像的第k个图像特征;
(5b)构建一个由每个图像特征与每个所选文本的所有文本特征的相似度组成的图像特征相似度向量,对每个图像相似度向量进行均值池化操作;构建一个由每个文本特征与每个所选图像的所有图像特征的相似度组成的文本特征相似度向量,对每个文本相似度向量进行均值池化操作;
(5c)按照下述的软注意力公式,计算所选图像的每个图像特征在所有图像特征中的重要程度:
Figure FDA0003558541060000021
其中,ak表示所选图像的第k个图像特征在所有图像特征中的重要程度,exp表示以自然常数e为底的指数操作,uk表示均值池化操作后的第k个图像特征相似度,∑表示求和操作,n表示所选图像的图像特征相似度总数,ud表示均值池化操作后的第d个图像特征相似度,d的取值范围为[1,n];
(5d)按照下述的软注意力公式,计算所选文本的每个文本特征在所有文本特征中的重要程度:
Figure FDA0003558541060000022
其中,bi表示所选文本的第i个文本特征在所有文本特征中的重要程度,ti表示均值池化操作后的第i个文本特征相似度,l表示所选文本的文本特征相似度总数,tm表示均值池化操作后的第m个文本特征相似度,m的取值范围为[1,l];
(6)重构所选图像特征与所选文本特征:
(6a)将每个图像特征的重要程度与所选图像的对应图像特征相乘,得到重构后的图像特征;
(6b)将每个文本特征重要程度与所选文本的对应文本特征相乘,得到重构后的文本特征;
(7)判断是否选完所有图像文本对中的文本,若是,则执行步骤(8),否则,执行步骤(4);
(8)判断是否选完所有图像文本对中的图像,若是,则执行步骤(9),否则,执行步骤(3);
(9)计算匹配概率:
(9a)利用soft-max公式,计算每个图像与所有图像文本对中的每个文本的匹配概率;
(9b)利用soft-max公式,计算每个文本与所有图像文本对中的每个图像的匹配概率;
(10)利用交叉熵训练注意力矩阵:
(10a)利用交叉熵公式,计算每个图像与每个文本匹配概率与每个图像与每个文本的真实匹配概率之间的交叉熵;
(10b)采用梯度下降公式,用每次迭代获得的交叉熵更新注意力矩阵元素值,直到交叉熵小于0.000001为止,得到训练好的注意力矩阵;
(11)完成图像文本互检索:
(11a)将测试集中所有图像文本对输入到步骤(2)训练好的神经网络中,得到测试集中的所有图像文本对的特征;
(11b)用训练好的注意力矩阵与步骤(11a)所有图像文本对中的每个图像特征和每个文本特征相乘,接着按照如(5b)至(5d)的步骤,分别得到每个图像特征和每个文本特征在所有图像特征和文本特征中的重要程度,利用重要程度重构所有图像与文本特征,计算重构后的每个图像和每个文本的匹配概率;
(11c)从所有重构后的匹配概率中,选取最大的匹配概率,将其对应的图像文本对作为检索结果。
2.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(2a)中所述利用已有神经网络,其结构依次为:第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层。
3.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(2a)中所述设置每层参数如下:将第一第二卷积层的卷积核大小设置为3×3,个数设置为64,将第三第四卷积层的卷积核大小设置为3×3,个数设置为128,将第五至第七卷积层的卷积核大小设置为3×3,个数设置为256,将第八至第十三卷积层的卷积核大小设置为3×3,个数设置为512;每个池化层均采用最大池化方式,每个池化层的卷积池化核大小均设置的为2×2,步长均设置为2;全连接层的输入和输出节点个数分别设置为4086和100。
4.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(9a)中所述soft-max公式如下:
Figure FDA0003558541060000041
其中,pq,j表示图像文本对中第q个图像与第j个文本的匹配概率,exp表示以自然常数e为底的指数操作,Vq表示图像文本对中重构后的第q个图像特征,T表示转置操作,Tj表示图像文本对中重构后的第j个文本特征,∑表示求和操作,Tr表示图像文本对中重构后的第r个文本特征,r的取值范围为[1,15000]。
5.根据权利要求4所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(9b)中所述soft-max公式如下:
Figure FDA0003558541060000042
其中,pj,q表示图像文本对中重构后的第j个文本与第q个图像的匹配概率,Vs表示图像文本对中重构后的第s个图像的特征,s的取值范围为[1,15000]。
6.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(10a)中所述交叉熵公式如下:
Lj,q=yj,qlnpj,q
其中,Lj,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵,yj,q表示图像文本对中第j个文本与第q个图像真实匹配概率,ln表示以自然常数e为底的对数操作,pj,q表示图像文本对中第q个图像与第j个文本的匹配概率。
7.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(10b)中所述梯度下降公式如下:
Figure FDA0003558541060000051
其中,
Figure FDA0003558541060000052
表示第s+1次迭代后的第j行第q列的注意力矩阵元素值,
Figure FDA0003558541060000053
表示第s次迭代后的第j行第q列的注意力矩阵元素值,η表示学习速率,
Figure FDA0003558541060000054
表示对函数进行偏导操作,Lj,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵。
CN201910626468.4A 2019-07-11 2019-07-11 基于双向注意力的图像文本互检索方法 Active CN110516085B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910626468.4A CN110516085B (zh) 2019-07-11 2019-07-11 基于双向注意力的图像文本互检索方法
US16/946,441 US11373055B2 (en) 2019-07-11 2020-06-22 Bidirectional attention-based image-text cross-modal retrieval method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910626468.4A CN110516085B (zh) 2019-07-11 2019-07-11 基于双向注意力的图像文本互检索方法

Publications (2)

Publication Number Publication Date
CN110516085A CN110516085A (zh) 2019-11-29
CN110516085B true CN110516085B (zh) 2022-05-17

Family

ID=68623029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910626468.4A Active CN110516085B (zh) 2019-07-11 2019-07-11 基于双向注意力的图像文本互检索方法

Country Status (2)

Country Link
US (1) US11373055B2 (zh)
CN (1) CN110516085B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651037B2 (en) * 2019-12-20 2023-05-16 Rakuten Group, Inc. Efficient cross-modal retrieval via deep binary hashing and quantization
CN111950586B (zh) * 2020-07-01 2024-01-19 银江技术股份有限公司 一种引入双向注意力的目标检测方法
US20220043975A1 (en) * 2020-08-05 2022-02-10 Baidu Usa Llc Disentangle syntax and semantics in sentence representation with decomposable variational autoencoder
CN112597884B (zh) * 2020-12-22 2023-04-28 中国科学院计算技术研究所 手势识别模型的训练方法、手势识别方法及系统
CN112818157B (zh) * 2021-02-10 2022-09-16 浙江大学 一种基于多阶对抗特征学习的组合查询图像检索方法
CN112990297B (zh) * 2021-03-10 2024-02-02 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN113032614A (zh) * 2021-04-28 2021-06-25 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113656628B (zh) * 2021-05-24 2023-03-28 江苏省特种设备安全监督检验研究院 一种基于注意力机制和特征融合的起重机图像检索方法
CN113628294B (zh) * 2021-07-09 2023-06-20 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
CN113656539B (zh) * 2021-07-28 2023-08-18 哈尔滨工业大学 基于特征分离和重建的跨模态检索方法
WO2023004206A1 (en) * 2021-08-04 2023-01-26 Innopeak Technology, Inc. Unsupervised hashing method for cross-modal video-text retrieval with clip
CN113642332B (zh) * 2021-08-11 2023-11-14 福州大学 一种融合多级语义信息的多模态讽刺识别系统方法
CN113657380B (zh) * 2021-08-17 2023-08-18 福州大学 融合多模态注意力机制的图像美学质量评价方法
GB2612862A (en) * 2021-11-08 2023-05-17 Samsung Electronics Co Ltd Method and apparatus for real-world cross-modal retrieval problems
EP4248415A1 (en) * 2022-02-04 2023-09-27 Google LLC Automated video and audio annotation techniques
CN115909317A (zh) * 2022-07-15 2023-04-04 广东工业大学 一种三维模型-文本联合表达的学习方法及系统
CN114973294B (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 基于图文匹配方法、装置、设备及存储介质
CN114972929B (zh) * 2022-07-29 2022-10-18 中国医学科学院医学信息研究所 一种医学多模态模型的预训练方法及装置
CN115292455B (zh) * 2022-10-08 2023-03-24 有米科技股份有限公司 图文匹配模型的训练方法及装置
CN115858847B (zh) * 2023-02-22 2023-06-23 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法
CN116150418B (zh) * 2023-04-20 2023-07-07 南京邮电大学 一种基于混合聚焦注意力机制的图文匹配方法及系统
CN116186317B (zh) * 2023-04-23 2023-06-30 中国海洋大学 一种基于跨模态交叉指导的图文检索方法及系统
CN117152142B (zh) * 2023-10-30 2024-02-02 菲特(天津)检测技术有限公司 一种轴承缺陷检测模型构建方法及系统
CN117688193A (zh) * 2024-02-01 2024-03-12 湘江实验室 图文统一编码方法、装置、计算机设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162127A (ja) * 2015-02-27 2016-09-05 日本電信電話株式会社 映像検索装置、方法、及びプログラム
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532571B (zh) 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
US11151478B2 (en) * 2019-04-05 2021-10-19 Vmware, Inc. Enhanced learning with feedback loop for machine reading comprehension models
US11526692B2 (en) * 2020-02-25 2022-12-13 UST Global (Singapore) Pte. Ltd. Systems and methods for domain agnostic document extraction with zero-shot task transfer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016162127A (ja) * 2015-02-27 2016-09-05 日本電信電話株式会社 映像検索装置、方法、及びプログラム
CN107066583A (zh) * 2017-04-14 2017-08-18 华侨大学 一种基于紧凑双线性融合的图文跨模态情感分类方法
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep cross-modal projection learning for image-text matching;Zhang Y;《Proceedings of the European conference on computer vision》;20181231;全文 *

Also Published As

Publication number Publication date
US20210012150A1 (en) 2021-01-14
US11373055B2 (en) 2022-06-28
CN110516085A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110516085B (zh) 基于双向注意力的图像文本互检索方法
CN107918782B (zh) 一种生成描述图像内容的自然语言的方法与系统
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
CN105975573B (zh) 一种基于knn的文本分类方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN110427989B (zh) 汉字骨架自动合成方法及大规模中文字库自动生成方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN112580782B (zh) 基于通道增强的双注意力生成对抗网络及图像生成方法
CN107766324A (zh) 一种基于深度神经网络的文本一致性分析方法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN108846350A (zh) 容忍年龄变化的人脸识别方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN110096711A (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
CN108062421A (zh) 一种大规模图片多尺度语义检索方法
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN108447057A (zh) 基于显著性和深度卷积网络的sar图像变化检测方法
CN109255339B (zh) 基于自适应深度森林人体步态能量图的分类方法
CN112686345A (zh) 一种基于注意力机制的脱机英文手写识别方法
CN108920446A (zh) 一种工程文本的处理方法
CN112529415A (zh) 基于组合多感受野图神经网络的物品评分方法
CN113283524A (zh) 一种基于对抗攻击的深度神经网络近似模型分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant