CN115982629A - 一种基于语义引导的特征选择的图像描述方法 - Google Patents

一种基于语义引导的特征选择的图像描述方法 Download PDF

Info

Publication number
CN115982629A
CN115982629A CN202310098344.XA CN202310098344A CN115982629A CN 115982629 A CN115982629 A CN 115982629A CN 202310098344 A CN202310098344 A CN 202310098344A CN 115982629 A CN115982629 A CN 115982629A
Authority
CN
China
Prior art keywords
grid
image
layer
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310098344.XA
Other languages
English (en)
Inventor
孙晓帅
李毅男
纪荣嵘
纪家沂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202310098344.XA priority Critical patent/CN115982629A/zh
Publication of CN115982629A publication Critical patent/CN115982629A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于语义引导的特征选择的图像描述方法,涉及人工智能技术。针对使用网格特征的方法导致的特征零散化的缺点,步骤:1)采用卷积神经网络提取图像的网格特征;2)使用传统的自注意力编码器强化图像的网格特征;3)将步骤2)提取的网格特征通过空间关系和通道关系可感知的特征挑选层进行特征挑选;4)将步骤3)挑选得到的图像网格特征进行平均池化操作得到全局特征;5)对步骤4)的得到的全局特征进行多标签分类,判断图像中的物体是否出现在对应的描述语句中;6)将步骤4)输出的视觉特征输入到解码器中,生成图像的描述语句;7)结合分类损失和图像描述生成损失定义损失函数。充分利用文本概念,将细粒度的语义知识纳入选择过程。

Description

一种基于语义引导的特征选择的图像描述方法
技术领域
本发明涉及人工智能领域中的图像自动描述,特别是涉及基于图片用自然语言对图像客观内容进行描述的一种基于语义引导的特征选择的图像描述方法。
背景技术
图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务,旨在为给定的图像自动生成自然语言描述,在人工智能界和多媒体界引起广泛的兴趣。
随着人工智能技术尤其是计算机视觉技术的发展,完成目标分类、目标检测、语义分割和实例分割等任务已经不能满足人们的生产需求,且随着互联网和短视频的发展,对如何自动客观的对视觉内容进行自动描述有迫切的需求。和检测及分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自然准确,人类可以理解的语言进行整体而客观的描述,该任务是计算机视觉理解乃至人工智能发展的重要方向之一,被视为人工智能的一个重要标志。
较早的图像自动描述方法主要采用基于检索的方法和基于模板的方法实现。近年来受自然语言处理发展的影响,开始使用基于编码器-解码器框架的方法,通常采用预训练好的卷积神经网络(CNN)的变体作为图像编码器,同时使用递归神经网络(RNN)作为解码器。并引入注意力机制以及以强化学习为基础的目标函数,使得该任务取得极大的进展。
Xu等人[1]首次在图像描述任务中引入注意力机制,以在每个单词的生成步骤中专注于生成这个单词最相关的区域。Lu等人[2]开发自适应的注意方法来判断在每个单词的解码生成步骤中,是依赖视觉特征还是语言的前文。Rennie等人[3]将强化学习技术引入到图像描述任务中,极大的提升图像描述方法的性能。最近,Anderson等人[4]还提出自上而下和自下而上的两个注意力技术,先用目标检测器提取图像中最显著的区域,在基于这些图像的区域特征来找到每个单词最相关的显着区域来进行单词的解码生成。Huang等人[5]则首次引入自然语言处理中的transformer模型到图像描述任务中,Pan等人[6]和Cornia[7]等人都使用Transformer模型来代替递归神经网络并取得最好的性能。此外,Liu等人[8][9]和Li等人[10]使用Transformer来集成视觉信息和外部标记器提供的语义概念来完成图像描述任务。Luo等人[11]使用网格特征包含信息全面的特性,来和区域特征进行互补以提升图像描述的准确性。zhang等人[12]更进一步,只使用网格特征,并使用位置编码和语言模型来强化网格特征之间的关联以提升图像描述的性能。
然而,在这些针对图像描述任务的模型中,尤其是使用网格特征的模型中,因为网格特征的信息全面性所带来的信息冗杂和零碎性等缺点仍然没有被考虑进来。
参考文献:
[1].Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio,Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.
[2].Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.
[3].Steven J Rennie,Etienne Marcheret,Youssef Mroueh,JerretRoss,andVaibhava Goel.2017.Self-critical sequence training forimage captioning.InCVPR.
[4].Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.
[5].Huang,L.;Wang,W.;Chen,J.;andWei,X.-Y.2019.Attention on Attentionfor Image Captioning.In ICCV.
[6].Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.2020.X-linear attentionnetworks for image captioning.In CVPR.
[7].Cornia,M.;Stefanini,M.;Baraldi,L.;and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR.
[8].Fenglin Liu,Yuanxin Liu,Xuancheng Ren,Xiaodong He,and XuSun.2019.Aligning visual regions and textual concepts forsemantic-groundedimage representations.In NeurIPS.
[9].Fenglin Liu,Xian Wu,Shen Ge,Xiaoyu Zhang,Wei Fan,and YuexianZou.2020.Bridging the gap between vision and language domains for improvedimage captioning.In ACMMM.
[10].Guang Li,Linchao Zhu,Ping Liu,and YiYang.2019.Entangledtransformer for image captioning.In ICCV.
[11].Yunpeng Luo,Jiayi Ji,Xiaoshuai Sun,Liujuan Cao,Yongjian Wu,Feiyue Huang,Chia-Wen Lin and Rongrong Ji.2021.Dual-Level CollaborativeTransformer for Image Captioning.InAAAI
[12].Xuying Zhang,Xiaoshuai Sun,Yunpeng Luo,Jiayi Ji,Yiyi Zhou,Yongjian Wu,Feiyue Huang and Rongrong Ji.2021.Rstnet:Captioning with adaptiveattention on visual and non-visual words,”.InCVPR
发明内容
本发明的目的在于提供一种基于语义引导的特征选择的图像描述方法,针对使用网格特征的图像描述方法在被网格特征信息带来的噪声特征和特征零散问题,提出通过一个空间信息可感知和通道信息可感知模块进行特征挑选,同时使用一个多标签分类任务来判断该特征时候包含对应标签文本来进行语义引导的监督,从而提高生成的描述语句的准确性。
本发明包括以下步骤:
1)采用卷积神经网络提取待描述图像的网格特征V={v1,v2,...,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为网格特征的数量;
2)采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征,得到编码器最后一层的输出
Figure BDA0004072428670000031
其中,L是编码器的层数;
3)将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层进行特征挑选;
4)将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句;
5)与步骤4)同时进行,将步骤3)得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导;
6)根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数。
在步骤1)中,所述卷积神经网络的训练方法是:采用Faster-RCNN框架中的深度卷积残差网络骨干部分,首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
在步骤2)中,所述采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征的具体过程为:将网格特征V输入到编码器的自注意力层为:
针对给定的索引Q,键K,以及值V,
Figure BDA0004072428670000032
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些向量的维度都相同,softmax函数为归一化指数函数,
Figure BDA0004072428670000041
是网络的投影矩阵,d为模型的隐藏维度,h是多头注意力的头的数量。
在步骤2)中,所述自注意力层和前馈神经网络层构成的编码器层为:
针对给定的输入特征
Figure BDA0004072428670000042
Figure BDA0004072428670000043
Figure BDA0004072428670000044
FFN(x)=max(0,xW1+b1)W2+b2,
Xl+1=LayerNorm(Ol+1+FFN(Ol+1)),
Xl+1=EnLayer(Xl)
其中,l是第l层编码器层,
Figure BDA0004072428670000045
都为前馈神经网络的投影矩阵和偏置。d为模型的隐藏维度,LayerNorm是层归一化操作,这几部分联合起来,一起构成EnLayer层。
在步骤3)中,将步骤2)强化过的网格特征送入空间关系可感知的特征挑选层,即:
fθs(xi)=ReLU(BN(Wθsxi)),
fφs(xj)=ReLU(BN(Wφsxj)),
ri,j=fθs(xi)Tfφs(xj),
Figure BDA0004072428670000046
ri=[Rs(i,:),Rs(:,i)]
fψs(ri)=ReLU(Wψsri),
Figure BDA0004072428670000047
αi=Sigmoid(W2ReLU(W1ui)),
Figure BDA0004072428670000051
Figure BDA0004072428670000052
其中,X为步骤2)强化的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθs,Wφs
Figure BDA0004072428670000053
Wψs为线性变换参数矩阵,
Figure BDA0004072428670000054
是网格特征相关性的矩阵,ri,j表示xi和xj的相似度得分。ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi进行加权,SRS全称为Spatial Relation-AwareSelection,即空间关系可感知的选择,
Figure BDA0004072428670000055
是最终得到的经空间关系挑选的网格特征。
在步骤3)中,所述将步骤2)强化过的网格特征送入通道关系可感知的特征挑选层,即:
fθc(xi)=ReLU(BN(Wθcxi)),
fφc(xj)=ReLU(BN(Wφcxj)),
ri,j=fθc(xi)Tfφc(xj),
Figure BDA0004072428670000056
ri=[Rc(i,:),Rc(:,i)]
fψc(ri)=ReLU(Wψcri),
Figure BDA0004072428670000057
αi=Sigmoid(W2ReLU(W1ui)),
Figure BDA0004072428670000058
Figure BDA0004072428670000059
其中,X为步骤2)强化的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθc,Wφc
Figure BDA00040724286700000510
Wψc为线性变换参数矩阵,
Figure BDA00040724286700000511
是网格特征相关性的矩阵,C是通道数,ri,j表示xi和xj的通道相似度得分;ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi加权,CRS全称为Channel Relation-AwareSelection,即通道关系可感知的选择,
Figure BDA00040724286700000512
是最终得到的经通道关系挑选的网格特征。
在步骤3)中,所述将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层,整体流程为:
V0=WvV,
VL=Encoder(V0),
Vf=CRS(SRS(VL)),
其中,V0是卷积网络提取出的图像网格特征,Wv是嵌入层参数,Encoder是由L层EnLayer构成的整个编码器,Vf是最终得到的经过空间关系感知和通道关系感知挑选的网格特征。
在步骤4)中,将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句,定义生成句子的损失函数,具体流程为:
首先假设t为句子序列的第t个词,wt表示t时刻输入的词所对应的的词向量,由此得到解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
与编码器相同,解码器也是由L层相同的结构组成,我们定义第l+1的输入为
Figure BDA0004072428670000061
输出为
Figure BDA0004072428670000062
该层的过程定义如下:
Figure BDA0004072428670000068
Figure BDA0004072428670000063
Vg=(VL;gF),
Figure BDA0004072428670000064
Figure BDA0004072428670000065
Figure BDA0004072428670000066
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
Figure BDA0004072428670000067
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子
Figure BDA0004072428670000071
而言,其损失函数定义为:
Figure BDA0004072428670000072
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Figure BDA0004072428670000073
其中,
Figure BDA0004072428670000074
是beamsearch采样的第i个句子,b=(∑ir(Yi))/k作为基线值。
在步骤5)中,所述将步骤3)得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导,具体流程为:
Figure BDA0004072428670000075
Figure BDA0004072428670000076
Figure BDA0004072428670000077
其中,pooling是平均池化层,Sigmoid是激活函数,Wc是投影矩阵,z=[z1,z2,...,zM]是标签向量,当第j个单词出现在对应的标签文本中,zj=1,反之zj=0。pc=[pc1,pc2,...,pcM]是预测出的每个单词出现在图像中的概率,M是整个单词表的大小。
在步骤6)中,所述根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数,具体流程为:
L=L(θ)+λLs,
其中,L(θ)是图像描述的损失,Ls是多标签分类的损失,θ是编码器解码器参数的统称。
本发明的优点如下:
通过本发明所提出的方案能够获得一个基于语义引导的特征选择的图像描述方法,包括一个关系感知特征选择模块和一个细粒度语义引导策略模块。其中,关系感知特征选择(RAS)模块可以捕捉到网格特征之间更详细的互动,以选择突出的视觉信息并抑制背景信息,细粒度语义指导(FSG)策略通过端到端的多任务学习明确指导选择过程。它充分利用文本概念,将细粒度的语义知识纳入选择过程。在业界公认的基线数据集MS COCO上的实验评估表明,所提出的基于语义引导的特征选择的图像描述方法取得最先进的性能。
附图说明
图1是本发明基于语义引导的特征挑选的图像描述方法的流程图。
图2是不同的图像描述模型生成的句子对比图。其中,Transformer是对比的模型,它是一种经典的图像描述基线方法。
具体实施方式
以下将结合附图,对本发明进行详细说明。
本发明包括以下步骤:
1)采用卷积神经网络提取待描述图像的网格特征V={v1,v2,...,vN},其中vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为网格特征的数量;
2)采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征,得到编码器最后一层的输出
Figure BDA0004072428670000081
其中,L是编码器的层数;
3)将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层进行特征挑选。
4)将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句;
5)和步骤4)同时进行,将步骤3)得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导。
6)根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数。
本发明上述整体流程的流程图如图1所示。
具体的每个模块如下:
1、深度卷积特征抽取与描述数据预处理
对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到10201个单词,对数据集描述中出现次数小于五的单词进行剔除,使用“<UNK>”进行替代,同时加入开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
先使用预训练好的目标检测器提取36个固定的候选区或将图像分成7×7的特征区域,并使用残差深度卷积网络提出各个候选区相对应的特征
Figure BDA0004072428670000082
其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,k为50,d为2048。首先,查询图像和待检索图像库的图像特征抽取的形式化描述为:对于训练集中的每幅图像提取d维的特征,得到一个d×n的原始视觉特征矩阵X=[x1,x2,...,xn]∈Rd×n,其中,n表示训练集中的训练样本个数,xi为矩阵X第i列表示样本集合中第i个维度为d的特征向量。
对训练数据中的所有标签数据进行单词统计,只取出现次数排名前1000的名词动词形容词,从每个图像描述训练样本进行对应的单词抽取得到多标签分类的监督信号。
2、特征强化编码器网络:
使用特征强化编码器网络,对输入的图像特征和语义概念特征进行强化编码。针对给定的索引Q,键K,以及值V,
Figure BDA0004072428670000091
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些向量的维度都相同,softmax函数为归一化指数函数,
Figure BDA0004072428670000092
是网络的投影矩阵,d为模型的隐藏维度,h是多头注意力的头的数量。
针对给定的输入特征
Figure BDA0004072428670000093
Figure BDA0004072428670000094
Figure BDA0004072428670000095
FFN(x)=max(0,xW1+b1)W2+b2,
Xl+1=LayerNorm(Ol+1+FFN(Ol+1)),
Xl+1=EnLayer(Xl)
其中,l是第l层编码器层,
Figure BDA0004072428670000096
都为前馈神经网络的投影矩阵和偏置。d为模型的隐藏维度,LayerNorm是层归一化操作,这几部分联合起来,一起构成EnLayer层。L层EnLayer层堆叠起来,构成整个编码器网络。
3、关系可感知的特征挑选网络
3.1、空间关系可感知的特征挑选层,即:
fθs(xi)=ReLU(BN(Wθsxi)),
fφs(xj)=ReLU(BN(Wφsxj)),
ri,j=fθs(xi)Tfφs(xj),
Figure BDA0004072428670000101
ri=[Rs(i,:),Rs(:,i)]
fψs(ri)=ReLU(Wψsri),
Figure BDA0004072428670000102
αi=Sigmoid(W2ReLU(W1ui)),
Figure BDA0004072428670000103
Figure BDA0004072428670000104
其中,X输入的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθs,Wφs
Figure BDA0004072428670000105
Wψs为线性变换参数矩阵,
Figure BDA0004072428670000106
是网格特征相关性的矩阵,ri,j表示xi和xj的相似度得分。ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi进行加权,SRS全称为Spatial Relation-Aware Selection,即空间关系可感知的选择,
Figure BDA0004072428670000109
是最终得到的经空间关系挑选的网格特征。
3.2、通道关系可感知的特征挑选层,即:
fθc(xi)=ReLU(BN(Wθcxi)),
fφc(xj)=ReLU(BN(Wφcxj)),
ri,j=fθc(xi)Tfφc(xj),
Figure BDA0004072428670000107
ri=[Rc(i,:),Rc(:,i)]
fψc(ri)=ReLU(Wψcri),
Figure BDA0004072428670000108
αi=Sigmoid(W2ReLU(W1ui)),
Figure BDA0004072428670000111
Figure BDA0004072428670000112
其中,X为输入的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθc,Wφc
Figure BDA0004072428670000113
Wψc为线性变换参数矩阵,
Figure BDA0004072428670000114
是网格特征相关性的矩阵,C是通道数,ri,j表示xi和xj的通道相似度得分。ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi进行加权,CRS全称为Channel Relation-AwareSelection,即通道关系可感知的选择,
Figure BDA0004072428670000115
是最终得到的经通道关系挑选的网格特征。
3.3、关系可感知的特征挑选网络
上述空间关系和通道关系可感知的特征挑选层结合起来,即为关系可感知的特征挑选网络,即:
V0=WvV,
VL=Encoder(V0),
Vf=CRS(SRS(VL)),
其中,V0是卷积网络提取出的图像网格特征,Wv是嵌入层参数,Encoder是由L层EnLayer构成的整个编码器,Vf是最终得到的经过空间关系感知和通道关系感知挑选得到的网格特征。
4、描述语句的生成和对应的损失函数:
首先假设t为句子序列的第t个词,wt表示t时刻输入的词所对应的的词向量,由此得到解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
与编码器相同,解码器也是由L层相同的结构组成,定义第l+1的输入为
Figure BDA0004072428670000116
输出为
Figure BDA0004072428670000117
该层的过程定义如下:
Figure BDA0004072428670000118
Figure BDA0004072428670000121
Vg=(VL;gF),
Figure BDA0004072428670000122
Figure BDA0004072428670000123
Figure BDA0004072428670000124
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
Figure BDA0004072428670000125
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子
Figure BDA0004072428670000126
而言,其损失函数定义为:
Figure BDA0004072428670000127
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Figure BDA0004072428670000128
其中,
Figure BDA0004072428670000129
是beamsearch采样的第i个句子,b=(∑ir(Yi))/k作为基线值。
5、细粒度语义引导的多标签分类
将得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导,即:
Figure BDA00040724286700001210
Figure BDA00040724286700001211
Figure BDA00040724286700001212
其中,pooling是平均池化层,Sigmoid是激活函数,Wc是投影矩阵,z=[z1,z2,...,zM]是标签向量,当第j个单词出现在对应的标签文本中,zj=1,反之zj=0。pc=[pc1,pc2,...,pcM]是预测出的每个单词出现在图像中的概率,M是整个单词表的大小。
6、整体损失函数
根据生成图像的描述语句损失和多标签分类计算得到的损失定义损失函数,即:
L=L(θ)+λLs,
其中,L(θ)是图像描述的损失,Ls是多标签分类的损失,θ是编码器解码器参数的统称,整体流程由图1所示。
具体实验结果:为验证本发明提出的方法的可行性和先进性,在通用的评估图像描述方法的数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示,
表1
Figure BDA0004072428670000131
从表1可以看到,在多种评估指标上以及不同的图像特征上,本发明所提出的方法在所有的指标上都具有很高的优势。此外,如图2所示,通过可视化输入图像所生成的文本描述(示例给出的描述为英文,中文描述自动生成过程同理),可以看到由于本发明的方法采用特征挑选和语义引导,和没有使用的方法(Transformer)相比,其在图像描述上取得很明显的增强,可以准确的描述图像中所含有的各类信息,并组合成合理的自然语言。对比的基线方法,则容易忽略不显眼的物体或和背景信息混杂,生成错误的描述语句,而本发明的方法则解决网格特征信息冗杂零碎带来的问题,可以生成质量更高的描述语句。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.一种基于语义引导的特征选择的图像描述方法,其特征在于包括以下步骤:
1)采用卷积神经网络提取待描述图像的网格特征V={v1,v2,...,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为网格特征的数量;
2)采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征,得到编码器最后一层的输出
Figure FDA0004072428660000011
其中,L是编码器的层数;
3)将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层进行特征挑选;
4)将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句;
5)将步骤3)得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导;
6)根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数。
2.如权利要求1所述一种基于语义引导的特征选择的图像描述方法,其特征在于在步骤1)中,所述卷积神经网络的训练方法是:采用Faster-RCNN框架中的深度卷积残差网络骨干部分,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
3.如权利要求1所述一种基于语义引导的特征选择的图像描述方法,其特征在于在步骤2)中,所述采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征的具体过程为:将网格特征V输入到编码器的自注意力层为:
针对给定的索引Q,键K,以及值V,
Figure FDA0004072428660000012
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些向量的维度都相同,softmax函数为归一化指数函数,
Figure FDA0004072428660000013
是网络的投影矩阵,d为模型的隐藏维度,h是多头注意力的头的数量。
4.如权利要求1所述一种基于语义引导的特征选择的图像描述方法,其特征在于在步骤2)中,所述自注意力层和前馈神经网络层构成的编码器层为:
针对给定的输入特征
Figure FDA0004072428660000021
Figure FDA0004072428660000022
Figure FDA0004072428660000023
FFN(x)=max(0,xW1+b1)W2+b2,
Xl+1=LayerNorm(Ol+1+FFN(Ol+1)),
Xl+1=EnLayer(Xl)
其中,l是第l层编码器层,
Figure FDA0004072428660000024
都为前馈神经网络的投影矩阵和偏置;d为模型的隐藏维度,LayerNorm是层归一化操作,这几部分联合起来,一起构成EnLayer层。
5.如权利要求1所述一种基于语义引导的特征选择的图像描述方法,其特征在于在步骤3)中,将步骤2)强化过的网格特征送入空间关系可感知的特征挑选层,即:
fθs(xi)=ReLU(BN(Wθsxi)),
fφs(xj)=ReLU(BN(Wφsxj)),
ri,j=fθs(xi)Tfφs(xj),
Figure FDA0004072428660000025
ri=[Rs(i,:),Rs(:,i)]
fψs(ri)=ReLU(Wψsri),
Figure FDA0004072428660000026
αi=Sigmoid(W2ReLU(W1ui)),
Figure FDA0004072428660000027
Figure FDA0004072428660000028
其中,X为步骤2)强化的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθs,Wφs
Figure FDA0004072428660000031
Wψs为线性变换参数矩阵,
Figure FDA0004072428660000032
是网格特征相关性的矩阵,ri,j表示xi和xj的相似度得分;ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi进行加权,SRS全称为Spatial Relation-Aware Selection,即空间关系可感知的选择,
Figure FDA0004072428660000033
是最终得到的经空间关系挑选的网格特征。
6.如权利要求1所述一种基于语义引导的特征挑选的图像描述方法,其特征在于在步骤3)中,将步骤2)强化过的网格特征送入通道关系可感知的特征挑选层,即:
fθc(xi)=ReLU(BN(Wθcxi)),
fφc(xj)=ReLU(BN(Wφcxj)),
ri,j=fθc(xi)Tfφc(xj),
Figure FDA0004072428660000034
ri=[Rc(i,:),Rc(:,i)]
fψc(ri)=ReLU(Wψcri),
Figure FDA0004072428660000035
αi=Sigmoid(W2ReLU(W1ui)),
Figure FDA0004072428660000036
Figure FDA0004072428660000037
其中,X为步骤2)强化的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθc,Wφc
Figure FDA0004072428660000038
Wψc为线性变换参数矩阵,
Figure FDA0004072428660000039
是网格特征相关性的矩阵,C是通道数,ri,j表示xi和xj的通道相似度得分;ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi进行加权,CRS全称为Channel Relation-AwareSelection,即通道关系可感知的选择,
Figure FDA00040724286600000310
是最终得到的经通道关系挑选的网格特征。
7.如权利要求1所述一种基于语义引导的特征挑选的图像描述方法,其特征在于在步骤3)中,所述将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层,整体流程为:
V0=WvV,
VL=Encoder(V0),
Vf=CRS(SRS(VL)),
其中,V0是卷积网络提取出的图像网格特征,Wv是嵌入层参数,Encoder是由L层EnLayer构成的整个编码器,Vf是最终得到的经过空间关系感知和通道关系感知挑选得到的网格特征。
8.如权利要求1所述一种基于样本语义引导的特征挑选的图像描述方法,其特征在于在步骤4)中,将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句,定义生成句子的损失函数,具体流程为:
首先假设t为句子序列的第t个词,wt表示t时刻输入的词所对应的的词向量,由此得到解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
与编码器相同,解码器也是由L层相同的结构组成,定义第l+1的输入为
Figure FDA0004072428660000041
输出为
Figure FDA0004072428660000042
该层的过程定义如下:
Figure FDA0004072428660000043
Figure FDA0004072428660000044
Vg=(VL;gF),
Figure FDA0004072428660000045
Figure FDA0004072428660000046
Figure FDA0004072428660000047
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表;对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
Figure FDA0004072428660000048
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子
Figure FDA0004072428660000051
而言,其损失函数定义为:
Figure FDA0004072428660000052
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Figure FDA0004072428660000053
其中,
Figure FDA0004072428660000054
是beamsearch采样的第i个句子,b=(∑ir(Yi))/k作为基线值。
9.如权利要求1所述一种基于语义引导的特征挑选的图像描述方法,其特征在于在步骤5)中,所述将步骤3)得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导,具体流程为:
Figure FDA0004072428660000055
Figure FDA0004072428660000056
Figure FDA0004072428660000057
其中,pooling是平均池化层,Sigmoid是激活函数,Wc是投影矩阵,z=[z1,z2,...,zM]是标签向量,当第j个单词出现在对应的标签文本中,zj=1,反之zj=0;pc=[pc1,pc2,...,pcM]是预测出的每个单词出现在图像中的概率,M是整个单词表的大小。
10.如权利要求1所述一种基于语义引导的特征挑选的图像描述方法,其特征在于在步骤6)中,所述根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数,具体流程为:
L=L(θ)+λLs,
其中,L(θ)是图像描述的损失,Ls是多标签分类的损失,θ是编码器解码器参数的统称。
CN202310098344.XA 2023-02-10 2023-02-10 一种基于语义引导的特征选择的图像描述方法 Pending CN115982629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310098344.XA CN115982629A (zh) 2023-02-10 2023-02-10 一种基于语义引导的特征选择的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310098344.XA CN115982629A (zh) 2023-02-10 2023-02-10 一种基于语义引导的特征选择的图像描述方法

Publications (1)

Publication Number Publication Date
CN115982629A true CN115982629A (zh) 2023-04-18

Family

ID=85968124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310098344.XA Pending CN115982629A (zh) 2023-02-10 2023-02-10 一种基于语义引导的特征选择的图像描述方法

Country Status (1)

Country Link
CN (1) CN115982629A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204674A (zh) * 2023-04-28 2023-06-02 中国科学技术大学 一种基于视觉概念词关联结构化建模的图像描述方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204674A (zh) * 2023-04-28 2023-06-02 中国科学技术大学 一种基于视觉概念词关联结构化建模的图像描述方法
CN116204674B (zh) * 2023-04-28 2023-07-18 中国科学技术大学 一种基于视觉概念词关联结构化建模的图像描述方法

Similar Documents

Publication Publication Date Title
Sun et al. RpBERT: a text-image relation propagation-based BERT model for multimodal NER
CN111737511B (zh) 基于自适应局部概念嵌入的图像描述方法
Kim et al. Self-supervised pre-training and contrastive representation learning for multiple-choice video qa
CN113837233B (zh) 基于样本自适应语义引导的自注意力机制的图像描述方法
CN114998670B (zh) 多模态信息预训练方法及系统
CN116450796B (zh) 一种智能问答模型构建方法及设备
CN112819013A (zh) 基于层内层间联合全局表示的图像描述方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN114627162A (zh) 一种基于视频上下文信息融合的多模态密集视频描述方法
CN115238690A (zh) 一种基于bert的军事领域复合命名实体识别方法
CN113392265A (zh) 多媒体处理方法、装置及设备
Wu et al. Tdv2: A novel tree-structured decoder for offline mathematical expression recognition
Liu Neural question generation based on Seq2Seq
CN115982629A (zh) 一种基于语义引导的特征选择的图像描述方法
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
Liu et al. Shengyan at VQA-Med 2020: An Encoder-Decoder Model for Medical Domain Visual Question Answering Task.
CN116542234A (zh) 一种基于分治关键词和意图的细粒度文本语义匹配方法
CN113837231B (zh) 一种基于混合样本与标签的数据增强的图像描述方法
Parvin et al. Image captioning using transformer-based double attention network
Bhuiyan et al. An approach for bengali automatic question answering system using attention mechanism
Zhang et al. Effectively leveraging multi-modal features for movie genre classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination