CN110516085A - 基于双向注意力的图像文本互检索方法 - Google Patents
基于双向注意力的图像文本互检索方法 Download PDFInfo
- Publication number
- CN110516085A CN110516085A CN201910626468.4A CN201910626468A CN110516085A CN 110516085 A CN110516085 A CN 110516085A CN 201910626468 A CN201910626468 A CN 201910626468A CN 110516085 A CN110516085 A CN 110516085A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- representing
- feature
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000011176 pooling Methods 0.000 claims description 52
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000004088 simulation Methods 0.000 description 14
- 230000004927 fusion Effects 0.000 description 5
- LVNGJLRDBYCPGB-LDLOPFEMSA-N (R)-1,2-distearoylphosphatidylethanolamine Chemical compound CCCCCCCCCCCCCCCCCC(=O)OC[C@H](COP([O-])(=O)OCC[NH3+])OC(=O)CCCCCCCCCCCCCCCCC LVNGJLRDBYCPGB-LDLOPFEMSA-N 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/44—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Library & Information Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双向注意力的图像文本互检索方法,可用于电子文本和自然图像互相检索。本发明利用深度神经网络初步提取自然图像特征和电子文本特征,通过构建双向注意力模块,重构深度神经网络初步提取的自然图像特征和电子文本特征,重构后的特征包含更丰富的语义信息。本发明利用双向注意力模块改进传统特征提取过程,得到含有更多图像与文本语义信息的高阶特征,实现图像文本互检索。
Description
技术领域
本发明属于图像处理技术领域,更进一步涉及自然语言处理和计算机视觉交叉技术领域中的一种基于双向注意力的图像文本互检索方法。本发明可用于挖掘自然图像-电子文本两种不同模态的深层联系,提取自然图像特征和文本特征,利用提取的特征计算自然图像与电子文本的匹配概率,实现自然图像-电子文本两种不同模态之间的相互检索。
背景技术
图像文本互检索目前存在两种方法。一种构建相似度学习网络,一种构建特征提取网络。构建相似度学习网络是利用相似度学习网络学习两类数据相似度并生成得分,选取得分最高的一组自然图像与电子文本,完成相互检索。构建特征提取网络是利用特征提取网络分别提取自然图像和电子文本的高阶特征,使用简单的相似度计算公式计算特征间相似性,选取相似度最高的图像文本对,完成相互检索。神经网络拥有多层网络结构,能够提取出数据的高阶特征,常用于文本和图像处理。注意力能够在不同模态特征交互时捕获交互后联合特征,利用联合特征对其他特征进行加权重构,充分挖掘交互信息的作用。基于双向注意力的图像文本互检索方法的主要思想为:利用神经网络对自然图像和电子文本进行初步特征提取,构建双向注意力模块重构自然图像和电子文本特征,利用重构后的特征计算自然图像和电子文本匹配概率,完成相互检索。
腾讯科技有限公司在其在其申请的专利文献“图像文本匹配模型的训练方法、双向搜索方法及相关装置”(专利申请号:201710817344.5,公开号:CN 108288067 A)中提出了一种基于深度神经网络的自然图像与电子文本双向检索方法。该方法利用卷积神经网络模型进行图像特征提取和文本特征提取,再构建相似度衡量网络计算特征相似度。该方法虽然能够利用多层网络提取自然图像和电子文本的高阶特征,但是,该方法仍然存在的不足之处是:自然图片和电子文本属于不同模态的数据,数据的异质性使得简单的通过深度神经网络进行特征提取难以准确表达图像与文本的语义特征,进而难以衡量自然图像与电子文本高阶特征间相似性,影响检索准确率。
S.Li,T.Xiao,H.Li,B.Zhou等人在其发表的论文“Person search with naturallanguage description”(International Conference on Computer Vision and PatternRecognition,2017:1970-1979)中提出了一种基于单向注意力的图像文本检索方法。该方法利用注意力将提取到的图像特征加权到文本特征中,对文本特征进行重构,增强文本与图像之间的相似性。该方法虽然能够利用注意力重构电子文本特征,但是,该方法仍然存在的不足之处是:只是简单地在重构电子文本特征时使用自然图像对电子文本的单向注意力,由于自然图像与电子文本存在对应关系,相互对应的高阶特征间互相影响,仅仅重构电子文本特征而忽略自然图像特征,使得自然图像特征无法准确与电子文本特征对应,影响图像文本互相检索。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于双向注意力的图像文本互检索方法,解决相同语义信息的自然图像与电子文本的相互检索问题。
实现本发明目的的思路是,利用注意力能够在不同模态特征交互时捕获交互后联合特征,利用联合特征对其他特征进行加权重构,充分挖掘交互信息的作用。通过构建双向注意力模块,重构深度神经网络初步提取的自然图像特征和电子文本特征,重构后的特征包含更丰富的语义信息。
本发明具体步骤包括有如下:
(1)生成训练集和测试集:
从Flickr30k数据集中任意选取图像及其对应的文本对共25000个,将其中15000个图像文本对组成训练集,10000个图像文本对组成测试集;
(2)利用神经网络提取每个图像文本对的特征:
(2a)搭建一个14层的神经网络、设置并训练好每层参数;
(2b)将训练集输入到卷积神经网络中,输出15000个图像文本对,每个图像文本对中的图像含有100个图像特征,文本含有100个文本特征;
(3)从所有输出图像文本对中依次选取一个未选取过的图像;
(4)从所有图像文本对中随机选取一个未选过的文本;
(5)构建一个双向注意力模块:
(5a)按照下式,计算所选图像的每个图像特征与所选文本的每个文本特征特征相似度:
其中,Ri,k表示所选图像的第k个图像特征与所选文本的第i个文本特征的相似度,tanh表示双曲正切操作,yi表示所选文本的第i个文本特征,T表示转置操作,A表示随机生成的15000×15000维的注意力矩阵,xk表示所选图像的第k个图像特征;
(5b)构建一个由每个图像特征与每个所选文本的所有文本特征的相似度组成的图像特征相似度向量,对每个图像相似度向量进行均值池化操作;构建一个由每个文本特征与每个所选图像的所有图像特征的相似度组成的文本特征相似度向量,对每个图像相似度向量进行均值池化操作;
(5c)按照下述的软注意力公式,计算所选图像的每个图像特征在所有图像特征中的重要程度:
其中,ak表示所选图像的第k个图像特征在所有图像特征中的重要程度,exp表示以自然常数e为底的指数操作,uk表示均值池化操作后的第k个图像特征相似度,∑表示求和操作,n表示所选图像的图像特征相似度总数,ud表示均值池化操作后的第d个文本特征相似度,d的值从1取到n;
(5d)按照下述的软注意力公式,计算所选文本的每个文本特征在所有文本特征中的重要程度:
其中,bi表示所选文本的第i个文本特征在所有文本特征中的重要程度,ti表示均值池化操作后的第i个文本特征相似度,l表示所选文本的文本特征相似度总数,tm表示均值池化操作后的第m个文本特征相似度,m的值从1取到l;
(6)重构所选图像特征与所选文本特征:
(6a)将每个图像特征的重要程度与所选图像的对应图像特征相乘,得到重构后的图像特征;
(6b)将每个文本特征重要程度与所选文本的对应文本特征相乘,得到重构后的文本特征;
(7)判断是否选完所有图像文本对中的文本,若是,则执行步骤(8),否则,执行步骤(4);
(8)判断是否选完所有图像文本对中的图像,若是,则执行步骤(9),否则,执行步骤(3);
(9)计算匹配概率:
(9a)利用soft-max公式,计算每个图像与所有图像文本对中的每个文本的匹配概率;
(9b)利用soft-max公式,计算每个文本与所有图像文本对中的每个图像的匹配概率;
(10)利用交叉熵训练注意力矩阵:
(10a)利用交叉熵公式,计算每个图像与每个文本匹配概率与每个图像与每个文本的真实匹配概率之间的交叉熵;
(10b)采用梯度下降公式,用每次迭代获得的交叉熵更新注意力矩阵元素值,直到交叉熵小于0.000001为止,得到训练好的注意力矩阵;
(11)完成图像文本互检索:
(11a)将测试集中所有图像文本对输入到步骤(2)训练好的神经网络中,得到测试集中的所有图像文本对的特征;
(11b)用训练好的注意力矩阵与步骤(5a)所有图像文本对中的每个图像特征和每个文本图像相乘,得到重构后的每个图像和每个文本的匹配概率;
(11c)从所有重构后的匹配概率中,选取最大的匹配概率,将其对应的图像文本对作为检索结果。
本发明与现有技术相比,具有以下优点:
第一,由于本发明采用双向注意力对电子文本和自然图像的不同模态特征进行交叉处理,计算每个图像特征在所有图像特征中的重要程度,每个文本特征在所有特征中的重要程度,克服了现有技术中虽然能够利用注意力,但是仅仅简单地使用自然图像对电子文本的单向注意力,由于自然图像与电子文本存在对应关系,相互对应的高阶特征间互相影响,电子文本对自然图像也有影响的问题,使得采用本发明方法有助于利用图像与文本交叉处理后的交互信息,更准确的挖掘图像语义信息与文本语义信息。
第二,由于本发明采用双向注意力得到的每个图像特征的重要程度和每个文本重要程度重构图像特征与文本特征,克服了现有技术中由于自然图片和电子文本属于不同模态的数据,数据的异质性使得简单的通过深度神经网络进行特征提取难以准确表达图像与文本的语义特征,进而难以衡量自然图像与电子文本高阶特征间相似性的问题,使得采用本发明方法有助于更准确的构建图像与文本的特征。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步的详细描述。
参照附图1,对本发明的步骤做进一步的详细描述。
步骤1,生成训练集和测试集。
从Flickr30k数据集中任意选取图像及其对应的文本对共25000个,将其中15000个图像文本对组成训练集,10000个图像文本对组成测试集。
步骤2,利用神经网络提取每个图像文本对的特征。
搭建一个14层的神经网络、设置并训练好每层参数。
所述神经网络,其结构依次为:第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层。
所述设置每层参数如下:将第一第二卷积层的卷积核大小设置为3×3,个数设置为64,将第三第四卷积层的卷积核大小设置为3×3,个数设置为128,将第五至第七卷积层的卷积核大小设置为3×3,个数设置为256,将第八至第十三卷积层的卷积核大小设置为3×3,个数设置为512;每个池化层均采用最大池化方式,每个池化层的卷积池化核大小均设置的为2×2,步长均设置为2;全连接层的输入和输出节点个数分别设置为4086和100。
将训练集输入到已训练好的卷积神经网络中,输出15000个图像文本对,每个图像文本对中的图像含有100个图像特征,文本含有100个文本特征。
步骤3,从所有输出图像文本对中依次选取一个未选取过的图像。
步骤4,从所有图像文本对中随机选取一个未选过的文本。
步骤5,构建一个双向注意力模块。
按照下式,计算所选图像的每个图像特征与所选文本的每个文本特征特征相似度:
其中,Ri,k表示所选图像的第k个图像特征与所选文本的第i个文本特征的相似度,tanh表示双曲正切操作,yi表示所选文本的第i个文本特征,T表示转置操作,A表示随机生成的15000×15000维的注意力矩阵,xk表示所选图像的第k个图像特征。
构建一个由每个图像特征与每个所选文本的所有文本特征的相似度组成的图像特征相似度向量,对每个图像相似度向量进行均值池化操作;构建一个由每个文本特征与每个所选图像的所有图像特征的相似度组成的文本特征相似度向量,对每个图像相似度向量进行均值池化操作。
按照下述的软注意力公式,计算所选图像的每个图像特征在所有图像特征中的重要程度:
其中,ak表示所选图像的第k个图像特征在所有图像特征中的重要程度,exp表示以自然常数e为底的指数操作,uk表示均值池化操作后的第k个图像特征相似度,∑表示求和操作,n表示所选图像的图像特征相似度总数,ud表示均值池化操作后的第d个文本特征相似度,d的值从1取到n。
按照下述的软注意力公式,计算所选文本的每个文本特征在所有文本特征中的重要程度:
其中,bi表示所选文本的第i个文本特征在所有文本特征中的重要程度,ti表示均值池化操作后的第i个文本特征相似度,l表示所选文本的文本特征相似度总数,tm表示均值池化操作后的第m个文本特征相似度,m的值从1取到l。
步骤6,重构所选图像特征与所选文本特征。
按照下式,将每个图像特征的重要程度与所选图像的对应图像特征相乘,得到重构后的图像特征[X1,...,Xk,...,Xn]。
[X1,...,Xk,...,Xn]=[a1x1,...,akxk,...,anxn]
其中,Xk=akxk,Xk表示所选图像重构后的第k个图像特征,k的值从1取到n。
按照下式,将每个文本特征重要程度与所选文本的对应文本特征相乘,得到重构后的文本特征[Y1,...,Yi,...,Yl]。
[Y1,...,Yi,...,Yl]=[b1y1,...,biyi,...,blyl]
其中,Yi=biyi,Yi表示所选文本重构后的第i个文本特征,i的值从1取到l。
步骤7,判断是否选完所有图像文本对中的文本,若是,则执行步骤8,否则,执行步骤4。
步骤8,判断是否选完所有图像文本对中的图像,若是,则执行步骤9,否则,执行步骤3。
步骤9,计算匹配概率。
利用soft-max公式,计算每个图像与所有图像文本对中的每个文本的匹配概率;所述soft-max公式如下:
其中,pq,j表示图像文本对中第q个图像与第j个文本的匹配概率,exp表示以自然常数e为底的指数操作,Vq表示图像文本对中第q个图像特征,T表示转置操作,Tj表示图像文本对中第j个文本特征,∑表示求和操作,Tr表示图像文本对中第r个文本特征,r的取值是从1到15000。
利用soft-max公式,计算每个文本与所有图像文本对中的每个图像的匹配概率;所述soft-max公式如下:
其中,pj,q表示图像文本对中第j个文本与第q个图像与的匹配概率,exp表示以自然常数e为底的指数操作,Tj表示图像文本对中第j个文本特征,T表示转置操作,Vq表示图像文本对中第q个图像特征,∑表示求和操作,Vs表示图像文本对中第s个图像的特征向量,s的取值是从1取到15000。
步骤10,利用交叉熵训练注意力矩阵。
利用交叉熵公式,计算每个图像与每个文本匹配概率与每个图像与每个文本的真实匹配概率之间的交叉熵。
所述交叉熵公式如下:
Lj,q=yj,qlnpj,q
其中,Lj,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵,yj,q表示图像文本对中第j个文本与第q个图像真实匹配概率,ln表示以自然常数e为底的对数操作,pq,j表示图像文本对中第q个图像与第j个文本的匹配概率。
采用梯度下降公式,用每次迭代获得的交叉熵更新注意力矩阵元素值,直到交叉熵小于0.000001为止,得到训练好的注意力矩阵。
所述梯度下降公式如下:
其中,表示第s+1次迭代后的第j行第q列的注意力矩阵元素值,表示第s次迭代后的第j行第q列的注意力矩阵元素值,η表示取值为0.001的学习速率,表示取偏导操作,Lj,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵。
步骤11,完成图像文本互检索。
将测试集中所有图像文本对输入到步骤2训练好的神经网络中,得到测试集中的所有图像文本对的特征。
用训练好的注意力矩阵与步骤5所有图像文本对中的每个图像特征和每个文本图像相乘得到的每个图像特征和每个文本特征在所有图像特征和文本特征中的重要程度,利用重要程度重构所有图像与文本特征,计算重构后的每个图像和每个文本的匹配概率。
从所有重构后的匹配概率中,选取最大的匹配概率,将其对应的图像文本对作为检索结果。
本发明的效果可通过以下仿真进一步说明。
1.仿真条件:
本发明的仿真实验的硬件平台为:NVIDIA GEFORCE GTX 1080GPU。
本发明的仿真实验的软件平台为:Windows10操作系统和TensorFlow1.9.0。
2.仿真内容及仿真结果分析:
本发明仿真实验中生成训练集和测试集时使用了雅虎采集的Flickr30k数据集,该数据集由31783个自然图像和电子文本对组成。本发明仿真使用的数据是从Flickr30k中的31783个自然图像和电子文本对中随机选取25000个自然图像和电子文本对,其中15000个自然图像和电子文本对作为训练数据,10000个自然图像和电子文本对作为测试数据。
本发明仿真实验是采用本发明和三个现有技术(多模型卷积循环神经网络m-CNN图像文本互检索方法、深度结构保存图像文本嵌入网络DSPE图像文本互检索方法、循环残差融合网络RRF-Net图像文本互检索方法)分别检索测试数据中10000个自然图像和电子文本对中每个图像对应的文本和每个文本对应的图像。
在仿真实验中,采用的三个现有技术是指:
现有技术多模型卷积循环神经网络m-CNN图像文本互检索方法是指,L.Ma等人在“Multimodal convolutional neural networks for matching image and sentence.In:Proceedings of the IEEE International Conference on Computer Vision,pp.2623-2631,2015”中提出的图像文本互检索方法,简称多模型卷积循环神经网络m-CNN图像文本互检索方法。
现有技术深度结构保存图像文本嵌入网络DSPE图像文本互检索方法是指,L.Wang等人在“Learning deep structure-preserving image-text embeddings,In:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.5005-5013,2016”中提出的图像文本互检索方法,简称深度结构保存图像文本嵌入网络DSPE图像文本互检索方法。
现有技术循环残差融合网络RRF-Net图像文本互检索方法是指,Y.Liu等人在“Learning a recurrent residual fusion network for multimodal matching,In:Proceedings of the IEEE International Conference on Computer Vision,pp.4107-4116,2017”中提出的图像文本互检索方法,简称循环残差融合网络RRF-Net图像文本互检索方法。
为了对本发明仿真的结果的效果进行评估,仿真结果评估标准为:Recall@1,Recall@1表示将每个图像和每个文本的匹配概率从大到小排序,@1取最大的匹配概率作为检索结果,统计正确的检索结果占全部测试数据的比例,表1如下所示。
表1仿真实验中本发明和各现有技术互检索成功率对比表
表1是采用现有技术基于Recall@1评估标准方法得到的仿真结果,用多模型卷积循环神经网络(m-CNN)、深度结构保存图像文本嵌入网络(DSPE)、循环残差融合网络(RRF-Net)图像文本匹配方法对比实验后,统计正确的检索结果占全部测试数据的比例得到的对比表。
从表1中可以看出本发明方法的用图像检索文本检索正确的结果占全部测试数据的比例为79.2%,用文本检索图像检索正确的结果占全部测试数据的比例为68.8%,高于3种现有技术方法,证明本方法可以更准确的实现图像与文本相互检索,表明了双向注意力模块在构建图像和文本特征时可以提取更准确的特征。
Claims (7)
1.一种基于双向注意力的图像文本互检索方法,其特征在于,利用双向注意力对电子文本和自然图像的不同模态特征进行交叉处理,利用交叉处理后的联合特征重构电子文本特征和自然图像特征,该方法的具体步骤包括如下:
(1)生成训练集和测试集:
从数据集中任意选取图像及其对应的文本对共25000个,将其中15000个图像文本对组成训练集,10000个图像文本对组成测试集;
(2)利用神经网络提取每个图像文本对的特征:
(2a)搭建一个14层的神经网络、设置并训练好每层参数;
(2b)将训练集输入到训练好的卷积神经网络中,输出15000个图像文本对,每个图像文本对中的图像含有100个图像特征,文本含有100个文本特征;
(3)从所有输出图像文本对中依次选取一个未选取过的图像;
(4)从所有图像文本对中随机选取一个未选过的文本;
(5)构建一个双向注意力模块:
(5a)按照下式,计算所选图像的每个图像特征与所选文本的每个文本特征特征相似度:
其中,Ri,k表示所选图像中第k个图像特征与所选文本中第i个文本特征的相似度,tanh表示双曲正切操作,yi表示所选文本的第i个文本特征,T表示转置操作,A表示随机生成的15000×15000维的注意力矩阵,xk表示所选图像的第k个图像特征;
(5b)构建一个由每个图像特征与每个所选文本的所有文本特征的相似度组成的图像特征相似度向量,对每个图像相似度向量进行均值池化操作;构建一个由每个文本特征与每个所选图像的所有图像特征的相似度组成的文本特征相似度向量,对每个图像相似度向量进行均值池化操作;
(5c)按照下述的软注意力公式,计算所选图像的每个图像特征在所有图像特征中的重要程度:
其中,ak表示所选图像的第k个图像特征在所有图像特征中的重要程度,exp表示以自然常数e为底的指数操作,uk表示均值池化操作后的第k个图像特征相似度,∑表示求和操作,n表示所选图像的图像特征相似度总数,ud表示均值池化操作后的第d个文本特征相似度,d的取值范围为[1,n];
(5d)按照下述的软注意力公式,计算所选文本的每个文本特征在所有文本特征中的重要程度:
其中,bi表示所选文本的第i个文本特征在所有文本特征中的重要程度,ti表示均值池化操作后的第i个文本特征相似度,l表示所选文本的文本特征相似度总数,tm表示均值池化操作后的第m个文本特征相似度,m的取值范围为[1,l];
(6)重构所选图像特征与所选文本特征:
(6a)将每个图像特征的重要程度与所选图像的对应图像特征相乘,得到重构后的图像特征;
(6b)将每个文本特征重要程度与所选文本的对应文本特征相乘,得到重构后的文本特征;
(7)判断是否选完所有图像文本对中的文本,若是,则执行步骤(8),否则,执行步骤(4);
(8)判断是否选完所有图像文本对中的图像,若是,则执行步骤(9),否则,执行步骤(3);
(9)计算匹配概率:
(9a)利用soft-max公式,计算每个图像与所有图像文本对中的每个文本的匹配概率;
(9b)利用soft-max公式,计算每个文本与所有图像文本对中的每个图像的匹配概率;
(10)利用交叉熵训练注意力矩阵:
(10a)利用交叉熵公式,计算每个图像与每个文本匹配概率与每个图像与每个文本的真实匹配概率之间的交叉熵;
(10b)采用梯度下降公式,用每次迭代获得的交叉熵更新注意力矩阵元素值,直到交叉熵小于0.000001为止,得到训练好的注意力矩阵;
(11)完成图像文本互检索:
(11a)将测试集中所有图像文本对输入到步骤(2)训练好的神经网络中,得到测试集中的所有图像文本对的特征;
(11b)用训练好的注意力矩阵与步骤(5a)所有图像文本对中的每个图像特征和每个文本图像相乘,得到的每个图像特征和每个文本特征在所有图像特征和文本特征中的重要程度,利用重要程度重构所有图像与文本特征,计算重构后的每个图像和每个文本的匹配概率;
(11c)从所有重构后的匹配概率中,选取最大的匹配概率,将其对应的图像文本对作为检索结果。
2.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(2a)中所述利用已有神经网络,其结构依次为:第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层。
3.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(2a)中所述设置每层参数如下:将第一第二卷积层的卷积核大小设置为3×3,个数设置为64,将第三第四卷积层的卷积核大小设置为3×3,个数设置为128,将第五至第七卷积层的卷积核大小设置为3×3,个数设置为256,将第八至第十三卷积层的卷积核大小设置为3×3,个数设置为512;每个池化层均采用最大池化方式,每个池化层的卷积池化核大小均设置的为2×2,步长均设置为2;全连接层的输入和输出节点个数分别设置为4086和100。
4.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(9a)中所述soft-max公式如下:
其中,pq,j表示图像文本对中第q个图像与第j个文本的匹配概率,exp表示以自然常数e为底的指数操作,Vq表示图像文本对中第q个图像特征,T表示转置操作,Tj表示图像文本对中第j个文本特征,∑表示求和操作,Tr表示图像文本对中第r个文本特征,r的取值范围为[1,15000]。
5.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(9b)中所述soft-max公式如下:
其中,pj,q表示图像文本对中第j个文本与第q个图像与的匹配概率,exp表示以自然常数e为底的指数操作,Tj表示图像文本对中第j个文本特征,T表示转置操作,Vq表示图像文本对中第q个图像特征,∑表示求和操作,Vs表示图像文本对中第s个图像的特征向量,s的取值范围为[1,15000]。
6.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(10a)中所述交叉熵公式如下:
Lj,q=yj,qlnpj,q
其中,Lj,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵,yj,q表示图像文本对中第j个文本与第q个图像真实匹配概率,ln表示以自然常数e为底的对数操作,pq,j表示图像文本对中第q个图像与第j个文本的匹配概率。
7.根据权利要求1所述的基于双向注意力的图像文本互检索方法,其特征在于,步骤(10b)中所述梯度下降公式如下:
其中,表示第s+1次迭代后的第j行第q列的注意力矩阵元素值,表示第s次迭代后的第j行第q列的注意力矩阵元素值,η表示学习速率,表示对函数进行偏导操作,Lj,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626468.4A CN110516085B (zh) | 2019-07-11 | 2019-07-11 | 基于双向注意力的图像文本互检索方法 |
US16/946,441 US11373055B2 (en) | 2019-07-11 | 2020-06-22 | Bidirectional attention-based image-text cross-modal retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626468.4A CN110516085B (zh) | 2019-07-11 | 2019-07-11 | 基于双向注意力的图像文本互检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516085A true CN110516085A (zh) | 2019-11-29 |
CN110516085B CN110516085B (zh) | 2022-05-17 |
Family
ID=68623029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910626468.4A Active CN110516085B (zh) | 2019-07-11 | 2019-07-11 | 基于双向注意力的图像文本互检索方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11373055B2 (zh) |
CN (1) | CN110516085B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950586A (zh) * | 2020-07-01 | 2020-11-17 | 银江股份有限公司 | 一种引入双向注意力的目标检测方法 |
CN112597884A (zh) * | 2020-12-22 | 2021-04-02 | 中国科学院计算技术研究所 | 手势识别模型的训练方法、手势识别方法及系统 |
CN113516143A (zh) * | 2020-11-26 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 文本图像匹配方法、装置、计算机设备及存储介质 |
CN114973294A (zh) * | 2022-07-28 | 2022-08-30 | 平安科技(深圳)有限公司 | 基于图文匹配方法、装置、设备及存储介质 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11651037B2 (en) * | 2019-12-20 | 2023-05-16 | Rakuten Group, Inc. | Efficient cross-modal retrieval via deep binary hashing and quantization |
US12039270B2 (en) * | 2020-08-05 | 2024-07-16 | Baldu USA LLC | Disentangle syntax and semantics in sentence representation with decomposable variational autoencoder |
CN112818157B (zh) * | 2021-02-10 | 2022-09-16 | 浙江大学 | 一种基于多阶对抗特征学习的组合查询图像检索方法 |
CN112990297B (zh) * | 2021-03-10 | 2024-02-02 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
CN113032614A (zh) * | 2021-04-28 | 2021-06-25 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
CN113656628B (zh) * | 2021-05-24 | 2023-03-28 | 江苏省特种设备安全监督检验研究院 | 一种基于注意力机制和特征融合的起重机图像检索方法 |
CN113628294B (zh) * | 2021-07-09 | 2023-06-20 | 南京邮电大学 | 一种面向跨模态通信系统的图像重建方法及装置 |
US12062080B2 (en) | 2021-07-14 | 2024-08-13 | Rakuten Group, Inc. | Reducing sample selection bias in a machine learning-based recommender system |
CN113656539B (zh) * | 2021-07-28 | 2023-08-18 | 哈尔滨工业大学 | 基于特征分离和重建的跨模态检索方法 |
WO2023004206A1 (en) * | 2021-08-04 | 2023-01-26 | Innopeak Technology, Inc. | Unsupervised hashing method for cross-modal video-text retrieval with clip |
CN113642332B (zh) * | 2021-08-11 | 2023-11-14 | 福州大学 | 一种融合多级语义信息的多模态讽刺识别系统方法 |
CN113657380B (zh) * | 2021-08-17 | 2023-08-18 | 福州大学 | 融合多模态注意力机制的图像美学质量评价方法 |
GB2612862B (en) * | 2021-11-08 | 2024-07-10 | Samsung Electronics Co Ltd | Method and apparatus for real-world cross-modal retrieval problems |
CN114168784A (zh) * | 2021-12-10 | 2022-03-11 | 桂林电子科技大学 | 一种分层监督跨模态图文检索方法 |
CN114429119B (zh) * | 2022-01-18 | 2024-05-28 | 重庆大学 | 一种基于多交叉注意力的视频与字幕片段检索方法 |
WO2023149898A1 (en) * | 2022-02-04 | 2023-08-10 | Google Llc | Automated video and audio annotation techniques |
CN114743029A (zh) * | 2022-04-14 | 2022-07-12 | 北京理工大学 | 一种图像文本匹配的方法 |
CN115909317B (zh) * | 2022-07-15 | 2024-07-05 | 广州珠江在线多媒体信息有限公司 | 一种三维模型-文本联合表达的学习方法及系统 |
CN114972929B (zh) * | 2022-07-29 | 2022-10-18 | 中国医学科学院医学信息研究所 | 一种医学多模态模型的预训练方法及装置 |
CN115292455B (zh) * | 2022-10-08 | 2023-03-24 | 有米科技股份有限公司 | 图文匹配模型的训练方法及装置 |
CN116089645A (zh) * | 2022-12-23 | 2023-05-09 | 北京大学 | 一种基于层次化风格的条件文本-电商图片检索方法和系统 |
CN116150418B (zh) * | 2023-04-20 | 2023-07-07 | 南京邮电大学 | 一种基于混合聚焦注意力机制的图文匹配方法及系统 |
CN116186317B (zh) * | 2023-04-23 | 2023-06-30 | 中国海洋大学 | 一种基于跨模态交叉指导的图文检索方法及系统 |
CN117152142B (zh) * | 2023-10-30 | 2024-02-02 | 菲特(天津)检测技术有限公司 | 一种轴承缺陷检测模型构建方法及系统 |
CN117688193B (zh) * | 2024-02-01 | 2024-05-31 | 湘江实验室 | 图文统一编码方法、装置、计算机设备及介质 |
CN117992805B (zh) * | 2024-04-07 | 2024-07-30 | 武汉商学院 | 基于张量积图融合扩散的零样本跨模态检索方法、系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016162127A (ja) * | 2015-02-27 | 2016-09-05 | 日本電信電話株式会社 | 映像検索装置、方法、及びプログラム |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN108228686A (zh) * | 2017-06-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于实现图文匹配的方法、装置和电子设备 |
CN109710923A (zh) * | 2018-12-06 | 2019-05-03 | 浙江大学 | 基于跨媒体信息的跨语言实体匹配方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288067B (zh) | 2017-09-12 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
US11409749B2 (en) * | 2017-11-09 | 2022-08-09 | Microsoft Technology Licensing, Llc | Machine reading comprehension system for answering queries related to a document |
US11151478B2 (en) * | 2019-04-05 | 2021-10-19 | Vmware, Inc. | Enhanced learning with feedback loop for machine reading comprehension models |
US11526692B2 (en) * | 2020-02-25 | 2022-12-13 | UST Global (Singapore) Pte. Ltd. | Systems and methods for domain agnostic document extraction with zero-shot task transfer |
-
2019
- 2019-07-11 CN CN201910626468.4A patent/CN110516085B/zh active Active
-
2020
- 2020-06-22 US US16/946,441 patent/US11373055B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016162127A (ja) * | 2015-02-27 | 2016-09-05 | 日本電信電話株式会社 | 映像検索装置、方法、及びプログラム |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN108228686A (zh) * | 2017-06-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于实现图文匹配的方法、装置和电子设备 |
CN109710923A (zh) * | 2018-12-06 | 2019-05-03 | 浙江大学 | 基于跨媒体信息的跨语言实体匹配方法 |
Non-Patent Citations (1)
Title |
---|
ZHANG Y: "Deep cross-modal projection learning for image-text matching", 《PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950586A (zh) * | 2020-07-01 | 2020-11-17 | 银江股份有限公司 | 一种引入双向注意力的目标检测方法 |
CN111950586B (zh) * | 2020-07-01 | 2024-01-19 | 银江技术股份有限公司 | 一种引入双向注意力的目标检测方法 |
CN113516143A (zh) * | 2020-11-26 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 文本图像匹配方法、装置、计算机设备及存储介质 |
CN113516143B (zh) * | 2020-11-26 | 2024-08-27 | 腾讯科技(深圳)有限公司 | 文本图像匹配方法、装置、计算机设备及存储介质 |
CN112597884A (zh) * | 2020-12-22 | 2021-04-02 | 中国科学院计算技术研究所 | 手势识别模型的训练方法、手势识别方法及系统 |
CN114973294A (zh) * | 2022-07-28 | 2022-08-30 | 平安科技(深圳)有限公司 | 基于图文匹配方法、装置、设备及存储介质 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
Also Published As
Publication number | Publication date |
---|---|
US11373055B2 (en) | 2022-06-28 |
US20210012150A1 (en) | 2021-01-14 |
CN110516085B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516085B (zh) | 基于双向注意力的图像文本互检索方法 | |
CN107918782B (zh) | 一种生成描述图像内容的自然语言的方法与系统 | |
CN107122809B (zh) | 基于图像自编码的神经网络特征学习方法 | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN111753189A (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN108846350A (zh) | 容忍年龄变化的人脸识别方法 | |
CN110427989B (zh) | 汉字骨架自动合成方法及大规模中文字库自动生成方法 | |
CN109977199B (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN104615767A (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN109711465A (zh) | 基于mll和asca-fr的图像字幕生成方法 | |
CN103440471B (zh) | 基于低秩表示的人体行为识别方法 | |
CN107563430A (zh) | 一种基于稀疏自动编码器和灰度关联分析法的卷积神经网络算法优化方法 | |
CN112686345A (zh) | 一种基于注意力机制的脱机英文手写识别方法 | |
CN109255339B (zh) | 基于自适应深度森林人体步态能量图的分类方法 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN109889923A (zh) | 利用结合视频描述的分层自注意力网络总结视频的方法 | |
CN116343109A (zh) | 基于自监督掩码模型和跨模态码本的文本行人搜索方法 | |
CN112529415A (zh) | 基于组合多感受野图神经网络的物品评分方法 | |
CN112667797B (zh) | 自适应迁移学习的问答匹配方法、系统及存储介质 | |
CN108197320A (zh) | 一种多视图图像自动标注方法 | |
CN109815927B (zh) | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |