CN115512195A - 一种基于多交互信息融合的图像描述方法 - Google Patents

一种基于多交互信息融合的图像描述方法 Download PDF

Info

Publication number
CN115512195A
CN115512195A CN202211194469.4A CN202211194469A CN115512195A CN 115512195 A CN115512195 A CN 115512195A CN 202211194469 A CN202211194469 A CN 202211194469A CN 115512195 A CN115512195 A CN 115512195A
Authority
CN
China
Prior art keywords
image
representing
information
fusion
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211194469.4A
Other languages
English (en)
Inventor
胡荣林
张新新
张亚光
邵逸达
冯万利
张海艳
肖绍章
朱全银
强豪
王忆雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202211194469.4A priority Critical patent/CN115512195A/zh
Publication of CN115512195A publication Critical patent/CN115512195A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及计算机视觉与自然语言处理领域,公开了一种基于多交互信息融合的图像描述方法,采用目标检测模型提取预处理后训练集的图像显著区域特征,然后使用多视觉语义信息交互模块进行编码显著区域特征得到多层增强图像融合特征,通过对多层增强图像融合特征进行平均池化生成全局图像融合特征;利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系,从而得到该时间步上下文信息;再经语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。与现有技术相比,本发明能够充分捕获图像视觉信息间的交互信息以及图像视觉信息与文本语义信息间交互信息的多种互补信息,实现对图像语义更加全面的理解。

Description

一种基于多交互信息融合的图像描述方法
技术领域
本发明涉及计算机视觉与自然语言处理两大领域,具体涉及一种基于多交互信息融合的图像描述方法。
背景技术
图像描述是一种对图像中包含的对象、关系及属性等语义通过自然语言进行描述的任务。图像描述具有广泛的应用前景,在辅助视障人士生活、儿童教育、医学图像分析等方面具有很高的实用价值。现有技术中编码器-解码器是图像描述任务模型所采用的主流框架。在该框架中,编码器采用卷积神经网络(CNN)对输入图像进行编码,然后经由使用循环神经网络(RNN)的解码器进行解码,得到与输入图像相匹配的自然语言。
在图像视觉信息间的交互信息捕获方面,现有技术通过注意力机制挖掘对象间的视觉语义信息,例如授权专利:CN113378919B。虽然该方式通过建模特征向量间的关系细化了特征向量的表示,但该方式对特征向量间的关系挖掘并不充分。
在图像视觉信息与文本语义信息的交互信息捕获方面,近期的研究通常采用的是带有注意力机制的长短期记忆网络(LSTM),在每个时间步解码时进行选择性遗忘与记忆。例如授权专利:CN110991515B。然而这仅代表对图像视觉信息与文本语义信息解码的一个特定角度,因此导致模型对图像的语义信息理解相对而言较为片面。
发明内容
发明目的:针对背景技术中指出的模型对图像的语义信息理解相对而言较为片面的问题,本发明提出了一种基于多交互信息融合的图像描述方法,能够充分捕获图像视觉信息间的交互信息,以及图像视觉信息与文本语义信息间交互信息的多种互补信息,实现对图像语义更加全面的理解。
技术方案:本发明公开了一种基于多交互信息融合的图像描述方法,包括如下步骤:
步骤1:对数据集与图像真实文本描述进行预处理;
步骤2:提取数据集中图像的全局图像融合特征;
步骤3:利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系,得到该时间步的上下文信息;
步骤4:采用语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。
进一步地,所述步骤1预处理具体包括如下步骤:
步骤1.1:将数据集依次进行划分,其中92%划分为训练集,4%划分为验证集,剩余4%划分为测试集;
步骤1.2:将数据集每张图片对应的5句真实描述的文本转换为小写;
步骤1.3:对转换为小写的真实描述逐单词进行统计得到语料库,所述语料库以<UNK>为结束标志,并去除语料库中单词出现次数小于5的单词;
步骤1.4:统计每张图像的真实文本描述长度L={L1,L2,...,Li},并将每张图像的真实文本描述长度设定为argmax(L)+2,对于真实文本描述长度小于argmax(L)+2的以令牌进行填充。
进一步地,所述步骤2提取数据集中图像的全局图像融合特征,具体步骤如下:
步骤2.1:采用目标检测模型提取训练集图像的所有显著区域特征,记为v=[v1,v2,...,va},其中,va表示第a个显著区域特征;
步骤2.2:对图像的显著区域特征v分别进行三次线性映射,将得到的线性表示分别记为Q、K、V,具体公式如下:
Q=vWQ+bQ
K=vWK+bK
V=vWV+bV
其中,WQ、WK、WV表示线性变换矩阵;bQ、bK、bV表示偏置。
步骤2.3:使用多视觉语义信息交互模块建模图像显著区域特征间的关系,进而得到全局图像融合特征。
进一步地,所述步骤2.3使用多视觉语义信息交互模块建模图像显著区域特征间的关系,进而得到全局图像融合特征,具体步骤如下:
所述多视觉语义信息交互模块由3xNxR个线性层、NxR个Layer Norm层、NxR个多头注意力机制与NxR个AoA层而组成;
步骤2.3.1:采用多头注意力机制,使图像显著区域特征间相互选择性关注其他相关区域特征,从而获得局部特征关系,具体公式如下:
fmulti_head_att(Q,K,V)=Concat(head1,head2,...,headH)
Figure BDA0003869360310000031
其中,fmulti_head_att表示多头注意力函数;Concat表示向量拼接操作;headj表示第j个头注意力函数,采用缩放的点积注意力函数来实现;H表示头的数量;
Figure BDA0003869360310000032
表示缩放因子;Qj、Kj、Vj表示第j个头的线性表示;softmax表示归一化指数函数;
步骤2.3.2:利用AoA机制确定局部特征关系与图像显著区域特征的相关性,使各个图像的显著特征能够选择性关注到与之真正相关其他区域特征,具体公式如下:
Figure BDA0003869360310000033
其中,σ为sigmoid激活函数;
Figure BDA0003869360310000034
表示逐元素相乘,
Figure BDA0003869360310000035
表示线性变换矩阵;be、bj表示偏置;
步骤2.3.3:重复步骤2.3.1与步骤2.3.2N次,以此得到高级局部特征关系fAoAS
步骤2.3.4:将图像显著区域特征与高级局部特征关系进行残差连接并归一化,得到增强图像特征,具体公式如下:
v=LayerNorm(v+fAoAS(fmulti_head_att,Q,K,V))
其中,LayerNorm为层归一化函数;
步骤2.3.5:重复步骤2.3.1至步骤2.3.4R次,产生多层增强图像特征;
步骤2.3.6:采用向量拼接操作对多层增强图像特征进行融合,得到多层增强图像融合特征,具体公式如下:
Figure BDA0003869360310000036
其中,[.,.]表示向量拼接操作,v′R表示第R层增强图像特征;
Figure BDA0003869360310000037
表示多层增强图像融合特征;
步骤2.3.7:通过对多层增强图像融合特征进行平均池化生成全局图像融合特征,具体公式如下:
Figure BDA0003869360310000041
其中,
Figure BDA0003869360310000042
表示全局图像融合特征;a表示多层增强图像融合特征的通道数。
进一步地,所述步骤3中多模态交互信息网络由单个多头注意力层、AoA层、嵌入层以及U个长短期记忆网络而组成,具体包括如下步骤:
步骤3.1:将语料库中所有单词所对应的词向量∏输入词嵌入层,得到以one-hot编码来表示词嵌入向量W∏;
步骤3.2:将当前时间步的词嵌入向量、全局图像融合特征与前一个时间步的上下文信息作为U个长短期记忆网络的输入,进而得到全局图像融合特征与词嵌入向量间交互信息的多个互补信息,具体公式如下:
Figure BDA0003869360310000043
其中,
Figure BDA0003869360310000044
表示当前时间步的第U组互补信息;
Figure BDA0003869360310000045
表示当前时间步的第U组细胞状态;W表示词嵌入矩阵;Πt表示当前时间步的输入词;
Figure BDA0003869360310000046
表示前一时间步的第U组上下文信息;
Figure BDA0003869360310000047
表示前一时间步的第U组互补信息;
Figure BDA0003869360310000048
表示前一时间步的第U组细胞状态;
步骤3.3:对多个多模态交互信息进行向量拼接操作进行融合,并将其通过嵌入层映射到同一向量空间,生成多模态交互信息融合特征,具体公式如下:
Figure BDA0003869360310000049
其中,pt表示当前时间步的多模态交互信息融合特征;[.,.]表示向量拼接操作,Wh表示映射矩阵;bh表示偏置;
步骤3.4:采用多头注意力机制与AoA机制,确定多模态交互信息融合特征与图像显著区域特征的相关性,从而获得用于生成单词序列的上下文向量,具体公式如下:
Figure BDA00038693603100000410
Figure BDA00038693603100000411
Figure BDA0003869360310000051
其中,Ct表示当前时间步的上下文信息;Wp表示线性变换矩阵;
Figure BDA0003869360310000052
表示多头注意力函数;Concat表示向量拼接操作;headj表示第j个头注意力函数,采用缩放的点积注意力函数来实现;H表示头的数量;
Figure BDA0003869360310000053
表示缩放因子;Kj、Vj表示第j个头的线性表示;softmax表示归一化指数函数。
有益效果:
本发明解决了当前模型对于图像语义信息理解不够全面的问题,通过多视觉语义信息交互模块在编码器部分充分挖掘了视觉语义信息间的关系,并通过多模态交互信息网络在解码器部分充分建模了视觉语义信息与文本语义信息间的关系。通过该方法不仅能够生成与真实描述更加接近的单词,而且所生成的句子语义结构信息更能够对图像语义信息进行准确表达。
附图说明
图1为本发明基于多交互信息融合的图像描述方法的整体流程图;
图2为本发明的多视觉语义信息交互模块示意图;
图3为本发明的多模态交互信息网络示意图。
具体实施方式
下面结合附图对本发明做进一步描述,以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,本发明为了实现对图像语义更加全面的理解,提出了一种基于多交互信息融合的图像描述方法,包括如下步骤:
步骤1:对数据集与图像真实文本描述进行预处理,具体包括以下步骤:
步骤1.1:将数据集依次进行划分,其中92%划分为训练集,4%划分为验证集,剩余4%划分为测试集。
步骤1.2:将数据集每张图片对应的5句真实描述的文本转换为小写。
步骤1.3:对转换为小写的真实描述逐单词进行统计得到语料库,该语料库以<UNK>为结束标志,并去除语料库中单词出现次数小于5的单词。
步骤1.4:统计每张图像的真实文本描述长度L={L1,L2,...,Li},并将每张图像的真实文本描述长度设定为argmax(L)+2,对于真实文本描述长度小于argmax(L)+2的以令牌进行填充。
步骤2:提取数据集中图像的全局图像融合特征,具体包括以下步骤:
步骤2.1:采用Faster R-CNN提取训练集图像的所有显著区域特征,记为v=[v1,v2,...,va}。
其中,va表示第a个显著区域特征。
步骤2.2:对图像的显著区域特征v分别进行三次线性映射,将得到的线性表示分别记为Q、K、V具体公式如下:
Q=vWQ+bQ
K=vWK+bK
V=vWV+bV
其中,WQ、WK、WV表示线性变换矩阵;bQ、bK、bV表示偏置。
步骤2.3:使用多视觉语义信息交互模块建模图像显著区域特征间的关系,进而得到全局图像融合特征,具体包含如下步骤:
如图2所示,多视觉语义信息交互模块由3xNxR个线性层、NxR个Layer Norm层、NxR个多头注意力机制与NxR个AoA层而组成,在该实施例中N取6,R取1。
步骤2.3.1:采用多头注意力机制,使图像显著区域特征间相互选择性关注其他相关区域特征,从而获得局部特征关系,具体公式如下:
fmulti_head_att(Q,K,V)=Concat(head1,head2,...,headH)
Figure BDA0003869360310000061
其中,fmulti_head_att表示多头注意力函数;Concat表示向量拼接操作;headj表示第j个头注意力函数;H表示头的数量,在该实施例中H取8;采用缩放的点积注意力函数来实现
Figure BDA0003869360310000062
表示缩放因子;Qj、Kj、Vj表示第j个头的线性表示;softmax表示归一化指数函数。
步骤2.3.2:利用AoA机制确定局部特征关系与图像显著区域特征的相关性,使各个图像的显著特征能够选择性关注到与之真正相关其他区域特征,具体公式如下:
Figure BDA0003869360310000071
其中,σ为sigmoid激活函数;
Figure BDA0003869360310000072
表示逐元素相乘,
Figure BDA0003869360310000073
表示线性变换矩阵;be、bj表示偏置;
步骤2.3.3:将步骤2.3.1与步骤2.3.2重复N次,以此得到高级局部特征关系fAoAS,在该实施例中N取6。
步骤2.3.4:将图像显著区域特征与高级局部特征关系进行残差连接并归一化,得到增强图像特征,具体公式如下:
v′=LayerNorm(v+fAoAS(fmulti_head_att,Q,K,V))
其中,LayerNorm为层归一化函数。
步骤2.3.5:将步骤2.3.1、步骤2.3.2、步骤2.3.3与步骤2.3.4重复R次,产生多层增强图像特征,在该实施例中R取1。
步骤2.3.6:采用向量拼接操作对多层增强图像特征进行融合,得到多层增强图像融合特征,具体公式如下:
Figure BDA0003869360310000074
其中,[.,.]表示向量拼接操作,v′R表示第R层增强图像特征;
Figure BDA0003869360310000077
表示多层增强图像融合特征。
步骤2.3.7:通过对多层增强图像融合特征进行平均池化生成全局图像融合特征,具体公式如下:
Figure BDA0003869360310000075
其中,
Figure BDA0003869360310000076
表示全局图像融合特征,a表示多层增强图像融合特征的通道数。
步骤3:利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系,得到该时间步的上下文信息,具体包括以下步骤:
如图3所示,所述步骤3中多模态交互信息网络由单个多头注意力层、AoA层、嵌入层以及U个长短期记忆网络而组成,在该实施例中U取3。
步骤3.1:将语料库中所有单词所对应的词向量∏输入词嵌入层,得到以独热编码来表示词嵌入向量W∏。
步骤3.2:将当前时间步的词嵌入向量、全局图像融合特征与前一个时间步的上下文信息作为U个长短期记忆网络的输入,进而得到全局图像融合特征与词嵌入向量间交互信息的多个互补信息,具体公式如下:
Figure BDA0003869360310000081
其中,
Figure BDA0003869360310000082
表示当前时间步的第U组互补信息;
Figure BDA0003869360310000083
表示当前时间步的第U组细胞状态;W表示词嵌入矩阵;∏t表示当前时间步的输入词;
Figure BDA0003869360310000084
表示前一时间步的第U组上下文信息;
Figure BDA0003869360310000085
表示前一时间步的第U组互补信息;
Figure BDA0003869360310000086
表示前一时间步的第U组细胞状态。
步骤3.3:对多个多模态交互信息进行向量拼接操作进行融合,并将其通过嵌入层映射到同一向量空间,生成多模态交互信息融合特征,具体公式如下:
Figure BDA0003869360310000087
其中,pt表示当前时间步的多模态交互信息融合特征;[.,.]表示向量拼接操作,Wh表示映射矩阵;bh表示偏置。
步骤3.4:采用多头注意力机制与AoA机制,确定多模态交互信息融合特征与图像显著区域特征的相关性,从而获得用于生成单词序列的上下文向量,具体公式如下:
Figure BDA0003869360310000088
Figure BDA0003869360310000089
Figure BDA00038693603100000810
Figure BDA00038693603100000811
Figure BDA00038693603100000812
其中,Ct表示当前时间步的上下文信息;WK、WV、Wp表示线性变换矩阵;bK、bV表示偏置;
Figure BDA00038693603100000813
表示多头注意力函数;Concat表示向量拼接操作;headj表示第j个头注意力函数;H表示头的数量,在该实施例中H取8;采用缩放的点积注意力函数来实现;
Figure BDA0003869360310000091
表示缩放因子;Kj、Vj表示第j个头的线性表示;softmax表示归一化指数函数。
步骤4:采用语义解码的线性单元解码上下文信息生成输出单词序列的概率分布,具体公式如下:
yt=softmax(WCCt+bC)
其中,yt当前时间步输出单词序列的概率分布;Wc表示线性变换矩阵;bC表示偏置。
为了更好的说明本方法的有效性,对基于多交互信息融合的图像描述方法进行实验验证,实验环境如下:
硬件配置:NIADIA Geforce RTX 2080Ti显卡(11G显存)。
软件配置:Ubuntu 18.04 64位操作系统、Python 3.6、Pytorch 1.2.0和Torchversion 0.4.0深度学习框架。
本实验通过在图像描述生成领域常用的MS COCO数据集上采用主流的评价指标BLEU@N、METOR、ROUGE_L、CIDEr-D、SPICE来验证模型的有效性。将MS COCO数据集进行划分,其中113287张图片划分为训练集,5000张图片划分为验证集,剩余5000张图片划分为测试集。
采用Cross-Entropy Loss函数对模型进行训练,本发明模型与Up-Down、RFNet、AoA模型对比结果如表1所示。与AoA相比,本发明在评价指标BLEU@3、ROUGE_L上提升了0.3%,BLEU@4上提升了0.7%,METOR上提升了0.2%,在CIDEr-D上提升了1.4%。
表1交叉熵损失训练后的评价指标对比表
Figure BDA0003869360310000092
采用强化学习中的策略梯度算法SCST对模型进行训练,本文模型与Up-Down、RFNet、AoA模型经过SCST算法优化后的对比结果如表2所示。与AoA相比,本发明在评价指标BLEU@1、BLEU@2、BLEU@3、BLEU@4、ROUGE_L、CIDEr-D上均有提升,其中在CIDEr-D上提升了1%。
表2策略梯度学习后的评价指标对比表
Figure BDA0003869360310000101
由此可见,本发明在不仅能够生成与真实描述更加接近的单词,而且所生成的句子语义结构信息更能够对图像语义信息进行准确表达。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉该领域的研究人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于多交互信息融合的图像描述方法,其特征在于,包括如下步骤:
步骤1:对数据集与图像真实文本描述进行预处理;
步骤2:提取数据集中图像的全局图像融合特征;
步骤3:利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系,得到该时间步的上下文信息;
步骤4:采用语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。
2.根据权利要求1所述基于多交互信息融合的图像描述方法,其特征在于,所述步骤1预处理具体包括如下步骤:
步骤1.1:将数据集依次进行划分,其中92%划分为训练集,4%划分为验证集,剩余4%划分为测试集;
步骤1.2:将数据集每张图片对应的5句真实描述的文本转换为小写;
步骤1.3:对转换为小写的真实描述逐单词进行统计得到语料库,所述语料库以<UNK>为结束标志,并去除语料库中单词出现次数小于5的单词;
步骤1.4:统计每张图像的真实文本描述长度L={L1,L2,...,Li},并将每张图像的真实文本描述长度设定为argmax(L)+2,对于真实文本描述长度小于argmax(L)+2的以令牌进行填充。
3.根据权利要求1所述基于多交互信息融合的图像描述方法,其特征在于,所述步骤2提取数据集中图像的全局图像融合特征,具体步骤如下:
步骤2.1:采用目标检测模型提取训练集图像的所有显著区域特征,记为v={ν1,v2,...,va},其中,va表示第a个显著区域特征;
步骤2.2:对图像的显著区域特征v分别进行三次线性映射,将得到的线性表示分别记为Q、K、V,具体公式如下:
Q=vWQ+bQ
K=vWK+bK
V=vWV+bV
其中,WQ、WK、WV表示线性变换矩阵;bQ、bK、bV表示偏置。
步骤2.3:使用多视觉语义信息交互模块建模图像显著区域特征间的关系,进而得到全局图像融合特征。
4.根据权利要求3所述基于多交互信息融合的图像描述方法,其特征在于,所述步骤2.3使用多视觉语义信息交互模块建模图像显著区域特征间的关系,进而得到全局图像融合特征,具体步骤如下:
所述多视觉语义信息交互模块由3xNxR个线性层、NxR个Layer Norm层、NxR个多头注意力机制与NxR个AoA层而组成;
步骤2.3.1:采用多头注意力机制,使图像显著区域特征间相互选择性关注其他相关区域特征,从而获得局部特征关系,具体公式如下:
fmulti_head_att(Q,K,V)=Concat(head1,head2,...,headH)
Figure FDA0003869360300000021
其中,fmulti_head_att表示多头注意力函数;Concat表示向量拼接操作;headj表示第j个头注意力函数,采用缩放的点积注意力函数来实现;H表示头的数量;
Figure FDA0003869360300000022
表示缩放因子;Qj、Kj、Vj表示第j个头的线性表示;softmax表示归一化指数函数;
步骤2.3.2:利用AoA机制确定局部特征关系与图像显著区域特征的相关性,使各个图像的显著特征能够选择性关注到与之真正相关其他区域特征,具体公式如下:
Figure FDA0003869360300000023
其中,σ为sigmoid激活函数;
Figure FDA0003869360300000024
表示逐元素相乘,
Figure FDA0003869360300000025
表示线性变换矩阵;be、bj表示偏置;
步骤2.3.3:重复步骤2.3.1与步骤2.3.2N次,以此得到高级局部特征关系fAoAS
步骤2.3.4:将图像显著区域特征与高级局部特征关系进行残差连接并归一化,得到增强图像特征,具体公式如下:
v′=LayerNorm(v+fAoAS(fmulti_head_att,Q,K,V))
其中,LayerNorm为层归一化函数;
步骤2.3.5:重复步骤2.3.1至步骤2.3.4R次,产生多层增强图像特征;
步骤2.3.6:采用向量拼接操作对多层增强图像特征进行融合,得到多层增强图像融合特征,具体公式如下:
Figure FDA0003869360300000031
其中,[.,.]表示向量拼接操作,v′R表示第R层增强图像特征;
Figure FDA00038693603000000311
表示多层增强图像融合特征;
步骤2.3.7:通过对多层增强图像融合特征进行平均池化生成全局图像融合特征,具体公式如下:
Figure FDA0003869360300000032
其中,
Figure FDA0003869360300000033
表示全局图像融合特征;a表示多层增强图像融合特征的通道数。
5.根据权利要求1所述基于多交互信息融合的图像描述方法,其特征在于,所述步骤3中多模态交互信息网络由单个多头注意力层、AoA层、嵌入层以及U个长短期记忆网络而组成,具体包括如下步骤:
步骤3.1:将语料库中所有单词所对应的词向量Π输入词嵌入层,得到以one-hot编码来表示词嵌入向量WΠΠ;
步骤3.2:将当前时间步的词嵌入向量、全局图像融合特征与前一个时间步的上下文信息作为U个长短期记忆网络的输入,进而得到全局图像融合特征与词嵌入向量间交互信息的多个互补信息,具体公式如下:
Figure FDA0003869360300000034
其中,
Figure FDA0003869360300000035
表示当前时间步的第U组互补信息;
Figure FDA0003869360300000036
表示当前时间步的第U组细胞状态;WΠ表示词嵌入矩阵;Πt表示当前时间步的输入词;
Figure FDA0003869360300000037
表示前一时间步的第U组上下文信息;
Figure FDA0003869360300000038
表示前一时间步的第U组互补信息;
Figure FDA0003869360300000039
表示前一时间步的第U组细胞状态;
步骤3.3:对多个多模态交互信息进行向量拼接操作进行融合,并将其通过嵌入层映射到同一向量空间,生成多模态交互信息融合特征,具体公式如下:
Figure FDA00038693603000000310
其中,pt表示当前时间步的多模态交互信息融合特征;[.,.]表示向量拼接操作,Wh表示映射矩阵;bh表示偏置;
步骤3.4:采用多头注意力机制与AoA机制,确定多模态交互信息融合特征与图像显著区域特征的相关性,从而获得用于生成单词序列的上下文向量,具体公式如下:
Figure FDA0003869360300000041
Figure FDA0003869360300000042
Figure FDA0003869360300000043
其中,Ct表示当前时间步的上下文信息;Wp表示线性变换矩阵;
Figure FDA0003869360300000044
表示多头注意力函数;Concat表示向量拼接操作;headj表示第j个头注意力函数,采用缩放的点积注意力函数来实现;H表示头的数量;
Figure FDA0003869360300000045
表示缩放因子;Kj、Vj表示第j个头的线性表示;softmax表示归一化指数函数。
CN202211194469.4A 2022-09-28 2022-09-28 一种基于多交互信息融合的图像描述方法 Pending CN115512195A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211194469.4A CN115512195A (zh) 2022-09-28 2022-09-28 一种基于多交互信息融合的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211194469.4A CN115512195A (zh) 2022-09-28 2022-09-28 一种基于多交互信息融合的图像描述方法

Publications (1)

Publication Number Publication Date
CN115512195A true CN115512195A (zh) 2022-12-23

Family

ID=84508150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211194469.4A Pending CN115512195A (zh) 2022-09-28 2022-09-28 一种基于多交互信息融合的图像描述方法

Country Status (1)

Country Link
CN (1) CN115512195A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152623A (zh) * 2023-04-04 2023-05-23 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统
CN116185182A (zh) * 2022-12-30 2023-05-30 天津大学 一种融合眼动注意力的可控图像描述生成系统及方法
CN116612365A (zh) * 2023-06-09 2023-08-18 匀熵智能科技(无锡)有限公司 基于目标检测和自然语言处理的图像字幕生成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116185182A (zh) * 2022-12-30 2023-05-30 天津大学 一种融合眼动注意力的可控图像描述生成系统及方法
CN116185182B (zh) * 2022-12-30 2023-10-03 天津大学 一种融合眼动注意力的可控图像描述生成系统及方法
CN116152623A (zh) * 2023-04-04 2023-05-23 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统
CN116152623B (zh) * 2023-04-04 2023-07-18 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统
CN116612365A (zh) * 2023-06-09 2023-08-18 匀熵智能科技(无锡)有限公司 基于目标检测和自然语言处理的图像字幕生成方法
CN116612365B (zh) * 2023-06-09 2024-01-23 匀熵智能科技(无锡)有限公司 基于目标检测和自然语言处理的图像字幕生成方法

Similar Documents

Publication Publication Date Title
CN108733742B (zh) 全局归一化阅读器系统和方法
CN115512195A (zh) 一种基于多交互信息融合的图像描述方法
CN113792112A (zh) 视觉语言任务处理系统、训练方法、装置、设备及介质
Dilawari et al. ASoVS: abstractive summarization of video sequences
Xiao et al. Dense semantic embedding network for image captioning
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
Wu et al. Switchable novel object captioner
US20220414400A1 (en) Multi-dimensional language style transfer
CN116343190B (zh) 自然场景文字识别方法、系统、设备及存储介质
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及系统
CN114611520A (zh) 一种文本摘要生成方法
CN114943921A (zh) 一种融合多粒度视频语义信息的视频文本描述方法
CN117219067B (zh) 一种基于语音理解的短视频自动生成字幕的方法及系统
Huang et al. Sentence-embedding and similarity via hybrid bidirectional-lstm and cnn utilizing weighted-pooling attention
CN117152573A (zh) 基于Transformer和数据增强的网络媒体多模态信息抽取方法
Solomon et al. Amharic Language Image Captions Generation Using Hybridized Attention‐Based Deep Neural Networks
CN113822018B (zh) 实体关系联合抽取方法
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
Liu et al. Attention-based convolutional LSTM for describing video
Hammad et al. Characterizing the impact of using features extracted from pre-trained models on the quality of video captioning sequence-to-sequence models
CN117493608B (zh) 一种文本视频检索方法、系统及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination