CN115982629A - 一种基于语义引导的特征选择的图像描述方法 - Google Patents
一种基于语义引导的特征选择的图像描述方法 Download PDFInfo
- Publication number
- CN115982629A CN115982629A CN202310098344.XA CN202310098344A CN115982629A CN 115982629 A CN115982629 A CN 115982629A CN 202310098344 A CN202310098344 A CN 202310098344A CN 115982629 A CN115982629 A CN 115982629A
- Authority
- CN
- China
- Prior art keywords
- grid
- image
- layer
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000000007 visual effect Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 230000002787 reinforcement Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 229910052739 hydrogen Inorganic materials 0.000 claims description 4
- 239000001257 hydrogen Substances 0.000 claims description 4
- 125000004435 hydrogen atom Chemical class [H]* 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract 1
- 239000006185 dispersion Substances 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- VTYYLEPIZMXCLO-UHFFFAOYSA-L Calcium carbonate Chemical compound [Ca+2].[O-]C([O-])=O VTYYLEPIZMXCLO-UHFFFAOYSA-L 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
一种基于语义引导的特征选择的图像描述方法,涉及人工智能技术。针对使用网格特征的方法导致的特征零散化的缺点,步骤:1)采用卷积神经网络提取图像的网格特征;2)使用传统的自注意力编码器强化图像的网格特征;3)将步骤2)提取的网格特征通过空间关系和通道关系可感知的特征挑选层进行特征挑选;4)将步骤3)挑选得到的图像网格特征进行平均池化操作得到全局特征;5)对步骤4)的得到的全局特征进行多标签分类,判断图像中的物体是否出现在对应的描述语句中;6)将步骤4)输出的视觉特征输入到解码器中,生成图像的描述语句;7)结合分类损失和图像描述生成损失定义损失函数。充分利用文本概念,将细粒度的语义知识纳入选择过程。
Description
技术领域
本发明涉及人工智能领域中的图像自动描述,特别是涉及基于图片用自然语言对图像客观内容进行描述的一种基于语义引导的特征选择的图像描述方法。
背景技术
图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务,旨在为给定的图像自动生成自然语言描述,在人工智能界和多媒体界引起广泛的兴趣。
随着人工智能技术尤其是计算机视觉技术的发展,完成目标分类、目标检测、语义分割和实例分割等任务已经不能满足人们的生产需求,且随着互联网和短视频的发展,对如何自动客观的对视觉内容进行自动描述有迫切的需求。和检测及分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自然准确,人类可以理解的语言进行整体而客观的描述,该任务是计算机视觉理解乃至人工智能发展的重要方向之一,被视为人工智能的一个重要标志。
较早的图像自动描述方法主要采用基于检索的方法和基于模板的方法实现。近年来受自然语言处理发展的影响,开始使用基于编码器-解码器框架的方法,通常采用预训练好的卷积神经网络(CNN)的变体作为图像编码器,同时使用递归神经网络(RNN)作为解码器。并引入注意力机制以及以强化学习为基础的目标函数,使得该任务取得极大的进展。
Xu等人[1]首次在图像描述任务中引入注意力机制,以在每个单词的生成步骤中专注于生成这个单词最相关的区域。Lu等人[2]开发自适应的注意方法来判断在每个单词的解码生成步骤中,是依赖视觉特征还是语言的前文。Rennie等人[3]将强化学习技术引入到图像描述任务中,极大的提升图像描述方法的性能。最近,Anderson等人[4]还提出自上而下和自下而上的两个注意力技术,先用目标检测器提取图像中最显著的区域,在基于这些图像的区域特征来找到每个单词最相关的显着区域来进行单词的解码生成。Huang等人[5]则首次引入自然语言处理中的transformer模型到图像描述任务中,Pan等人[6]和Cornia[7]等人都使用Transformer模型来代替递归神经网络并取得最好的性能。此外,Liu等人[8][9]和Li等人[10]使用Transformer来集成视觉信息和外部标记器提供的语义概念来完成图像描述任务。Luo等人[11]使用网格特征包含信息全面的特性,来和区域特征进行互补以提升图像描述的准确性。zhang等人[12]更进一步,只使用网格特征,并使用位置编码和语言模型来强化网格特征之间的关联以提升图像描述的性能。
然而,在这些针对图像描述任务的模型中,尤其是使用网格特征的模型中,因为网格特征的信息全面性所带来的信息冗杂和零碎性等缺点仍然没有被考虑进来。
参考文献:
[1].Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio,Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.
[2].Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.
[3].Steven J Rennie,Etienne Marcheret,Youssef Mroueh,JerretRoss,andVaibhava Goel.2017.Self-critical sequence training forimage captioning.InCVPR.
[4].Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.
[5].Huang,L.;Wang,W.;Chen,J.;andWei,X.-Y.2019.Attention on Attentionfor Image Captioning.In ICCV.
[6].Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.2020.X-linear attentionnetworks for image captioning.In CVPR.
[7].Cornia,M.;Stefanini,M.;Baraldi,L.;and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR.
[8].Fenglin Liu,Yuanxin Liu,Xuancheng Ren,Xiaodong He,and XuSun.2019.Aligning visual regions and textual concepts forsemantic-groundedimage representations.In NeurIPS.
[9].Fenglin Liu,Xian Wu,Shen Ge,Xiaoyu Zhang,Wei Fan,and YuexianZou.2020.Bridging the gap between vision and language domains for improvedimage captioning.In ACMMM.
[10].Guang Li,Linchao Zhu,Ping Liu,and YiYang.2019.Entangledtransformer for image captioning.In ICCV.
[11].Yunpeng Luo,Jiayi Ji,Xiaoshuai Sun,Liujuan Cao,Yongjian Wu,Feiyue Huang,Chia-Wen Lin and Rongrong Ji.2021.Dual-Level CollaborativeTransformer for Image Captioning.InAAAI
[12].Xuying Zhang,Xiaoshuai Sun,Yunpeng Luo,Jiayi Ji,Yiyi Zhou,Yongjian Wu,Feiyue Huang and Rongrong Ji.2021.Rstnet:Captioning with adaptiveattention on visual and non-visual words,”.InCVPR
发明内容
本发明的目的在于提供一种基于语义引导的特征选择的图像描述方法,针对使用网格特征的图像描述方法在被网格特征信息带来的噪声特征和特征零散问题,提出通过一个空间信息可感知和通道信息可感知模块进行特征挑选,同时使用一个多标签分类任务来判断该特征时候包含对应标签文本来进行语义引导的监督,从而提高生成的描述语句的准确性。
本发明包括以下步骤:
1)采用卷积神经网络提取待描述图像的网格特征V={v1,v2,...,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为网格特征的数量;
3)将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层进行特征挑选;
4)将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句;
5)与步骤4)同时进行,将步骤3)得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导;
6)根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数。
在步骤1)中,所述卷积神经网络的训练方法是:采用Faster-RCNN框架中的深度卷积残差网络骨干部分,首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
在步骤2)中,所述采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征的具体过程为:将网格特征V输入到编码器的自注意力层为:
针对给定的索引Q,键K,以及值V,
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些向量的维度都相同,softmax函数为归一化指数函数,是网络的投影矩阵,d为模型的隐藏维度,h是多头注意力的头的数量。
在步骤2)中,所述自注意力层和前馈神经网络层构成的编码器层为:
FFN(x)=max(0,xW1+b1)W2+b2,
Xl+1=LayerNorm(Ol+1+FFN(Ol+1)),
Xl+1=EnLayer(Xl)
在步骤3)中,将步骤2)强化过的网格特征送入空间关系可感知的特征挑选层,即:
fθs(xi)=ReLU(BN(Wθsxi)),
fφs(xj)=ReLU(BN(Wφsxj)),
ri,j=fθs(xi)Tfφs(xj),
ri=[Rs(i,:),Rs(:,i)]
fψs(ri)=ReLU(Wψsri),
αi=Sigmoid(W2ReLU(W1ui)),
其中,X为步骤2)强化的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθs,Wφs,Wψs为线性变换参数矩阵,是网格特征相关性的矩阵,ri,j表示xi和xj的相似度得分。ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi进行加权,SRS全称为Spatial Relation-AwareSelection,即空间关系可感知的选择,是最终得到的经空间关系挑选的网格特征。
在步骤3)中,所述将步骤2)强化过的网格特征送入通道关系可感知的特征挑选层,即:
fθc(xi)=ReLU(BN(Wθcxi)),
fφc(xj)=ReLU(BN(Wφcxj)),
ri,j=fθc(xi)Tfφc(xj),
ri=[Rc(i,:),Rc(:,i)]
fψc(ri)=ReLU(Wψcri),
αi=Sigmoid(W2ReLU(W1ui)),
其中,X为步骤2)强化的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθc,Wφc,Wψc为线性变换参数矩阵,是网格特征相关性的矩阵,C是通道数,ri,j表示xi和xj的通道相似度得分;ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi加权,CRS全称为Channel Relation-AwareSelection,即通道关系可感知的选择,是最终得到的经通道关系挑选的网格特征。
在步骤3)中,所述将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层,整体流程为:
V0=WvV,
VL=Encoder(V0),
Vf=CRS(SRS(VL)),
其中,V0是卷积网络提取出的图像网格特征,Wv是嵌入层参数,Encoder是由L层EnLayer构成的整个编码器,Vf是最终得到的经过空间关系感知和通道关系感知挑选的网格特征。
在步骤4)中,将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句,定义生成句子的损失函数,具体流程为:
首先假设t为句子序列的第t个词,wt表示t时刻输入的词所对应的的词向量,由此得到解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
Vg=(VL;gF),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
在步骤5)中,所述将步骤3)得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导,具体流程为:
其中,pooling是平均池化层,Sigmoid是激活函数,Wc是投影矩阵,z=[z1,z2,...,zM]是标签向量,当第j个单词出现在对应的标签文本中,zj=1,反之zj=0。pc=[pc1,pc2,...,pcM]是预测出的每个单词出现在图像中的概率,M是整个单词表的大小。
在步骤6)中,所述根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数,具体流程为:
L=L(θ)+λLs,
其中,L(θ)是图像描述的损失,Ls是多标签分类的损失,θ是编码器解码器参数的统称。
本发明的优点如下:
通过本发明所提出的方案能够获得一个基于语义引导的特征选择的图像描述方法,包括一个关系感知特征选择模块和一个细粒度语义引导策略模块。其中,关系感知特征选择(RAS)模块可以捕捉到网格特征之间更详细的互动,以选择突出的视觉信息并抑制背景信息,细粒度语义指导(FSG)策略通过端到端的多任务学习明确指导选择过程。它充分利用文本概念,将细粒度的语义知识纳入选择过程。在业界公认的基线数据集MS COCO上的实验评估表明,所提出的基于语义引导的特征选择的图像描述方法取得最先进的性能。
附图说明
图1是本发明基于语义引导的特征挑选的图像描述方法的流程图。
图2是不同的图像描述模型生成的句子对比图。其中,Transformer是对比的模型,它是一种经典的图像描述基线方法。
具体实施方式
以下将结合附图,对本发明进行详细说明。
本发明包括以下步骤:
1)采用卷积神经网络提取待描述图像的网格特征V={v1,v2,...,vN},其中vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为网格特征的数量;
3)将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层进行特征挑选。
4)将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句;
5)和步骤4)同时进行,将步骤3)得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导。
6)根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数。
本发明上述整体流程的流程图如图1所示。
具体的每个模块如下:
1、深度卷积特征抽取与描述数据预处理
对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到10201个单词,对数据集描述中出现次数小于五的单词进行剔除,使用“<UNK>”进行替代,同时加入开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
先使用预训练好的目标检测器提取36个固定的候选区或将图像分成7×7的特征区域,并使用残差深度卷积网络提出各个候选区相对应的特征其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,k为50,d为2048。首先,查询图像和待检索图像库的图像特征抽取的形式化描述为:对于训练集中的每幅图像提取d维的特征,得到一个d×n的原始视觉特征矩阵X=[x1,x2,...,xn]∈Rd×n,其中,n表示训练集中的训练样本个数,xi为矩阵X第i列表示样本集合中第i个维度为d的特征向量。
对训练数据中的所有标签数据进行单词统计,只取出现次数排名前1000的名词动词形容词,从每个图像描述训练样本进行对应的单词抽取得到多标签分类的监督信号。
2、特征强化编码器网络:
使用特征强化编码器网络,对输入的图像特征和语义概念特征进行强化编码。针对给定的索引Q,键K,以及值V,
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些向量的维度都相同,softmax函数为归一化指数函数,是网络的投影矩阵,d为模型的隐藏维度,h是多头注意力的头的数量。
FFN(x)=max(0,xW1+b1)W2+b2,
Xl+1=LayerNorm(Ol+1+FFN(Ol+1)),
Xl+1=EnLayer(Xl)
其中,l是第l层编码器层,都为前馈神经网络的投影矩阵和偏置。d为模型的隐藏维度,LayerNorm是层归一化操作,这几部分联合起来,一起构成EnLayer层。L层EnLayer层堆叠起来,构成整个编码器网络。
3、关系可感知的特征挑选网络
3.1、空间关系可感知的特征挑选层,即:
fθs(xi)=ReLU(BN(Wθsxi)),
fφs(xj)=ReLU(BN(Wφsxj)),
ri,j=fθs(xi)Tfφs(xj),
ri=[Rs(i,:),Rs(:,i)]
fψs(ri)=ReLU(Wψsri),
αi=Sigmoid(W2ReLU(W1ui)),
其中,X输入的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθs,Wφs,Wψs为线性变换参数矩阵,是网格特征相关性的矩阵,ri,j表示xi和xj的相似度得分。ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi进行加权,SRS全称为Spatial Relation-Aware Selection,即空间关系可感知的选择,是最终得到的经空间关系挑选的网格特征。
3.2、通道关系可感知的特征挑选层,即:
fθc(xi)=ReLU(BN(Wθcxi)),
fφc(xj)=ReLU(BN(Wφcxj)),
ri,j=fθc(xi)Tfφc(xj),
ri=[Rc(i,:),Rc(:,i)]
fψc(ri)=ReLU(Wψcri),
αi=Sigmoid(W2ReLU(W1ui)),
其中,X为输入的网格特征,ReLU是激活函数,BN是批归一化,Sigmoid是激活函数,Wθc,Wφc,Wψc为线性变换参数矩阵,是网格特征相关性的矩阵,C是通道数,ri,j表示xi和xj的通道相似度得分。ri是将xi自己相关的第i行和其他网格特征关注xi的第i列的得分的拼接,αi是xi的重要性得分对xi进行加权,CRS全称为Channel Relation-AwareSelection,即通道关系可感知的选择,是最终得到的经通道关系挑选的网格特征。
3.3、关系可感知的特征挑选网络
上述空间关系和通道关系可感知的特征挑选层结合起来,即为关系可感知的特征挑选网络,即:
V0=WvV,
VL=Encoder(V0),
Vf=CRS(SRS(VL)),
其中,V0是卷积网络提取出的图像网格特征,Wv是嵌入层参数,Encoder是由L层EnLayer构成的整个编码器,Vf是最终得到的经过空间关系感知和通道关系感知挑选得到的网格特征。
4、描述语句的生成和对应的损失函数:
首先假设t为句子序列的第t个词,wt表示t时刻输入的词所对应的的词向量,由此得到解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
Vg=(VL;gF),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
5、细粒度语义引导的多标签分类
将得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导,即:
其中,pooling是平均池化层,Sigmoid是激活函数,Wc是投影矩阵,z=[z1,z2,...,zM]是标签向量,当第j个单词出现在对应的标签文本中,zj=1,反之zj=0。pc=[pc1,pc2,...,pcM]是预测出的每个单词出现在图像中的概率,M是整个单词表的大小。
6、整体损失函数
根据生成图像的描述语句损失和多标签分类计算得到的损失定义损失函数,即:
L=L(θ)+λLs,
其中,L(θ)是图像描述的损失,Ls是多标签分类的损失,θ是编码器解码器参数的统称,整体流程由图1所示。
具体实验结果:为验证本发明提出的方法的可行性和先进性,在通用的评估图像描述方法的数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示,
表1
从表1可以看到,在多种评估指标上以及不同的图像特征上,本发明所提出的方法在所有的指标上都具有很高的优势。此外,如图2所示,通过可视化输入图像所生成的文本描述(示例给出的描述为英文,中文描述自动生成过程同理),可以看到由于本发明的方法采用特征挑选和语义引导,和没有使用的方法(Transformer)相比,其在图像描述上取得很明显的增强,可以准确的描述图像中所含有的各类信息,并组合成合理的自然语言。对比的基线方法,则容易忽略不显眼的物体或和背景信息混杂,生成错误的描述语句,而本发明的方法则解决网格特征信息冗杂零碎带来的问题,可以生成质量更高的描述语句。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (10)
1.一种基于语义引导的特征选择的图像描述方法,其特征在于包括以下步骤:
1)采用卷积神经网络提取待描述图像的网格特征V={v1,v2,...,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为网格特征的数量;
3)将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层进行特征挑选;
4)将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句;
5)将步骤3)得到的网格特征进行平均池化得到全局特征,并对其进行多标签分类,判断其是否含有对应语句中的单词来对特征进行语义引导;
6)根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数。
2.如权利要求1所述一种基于语义引导的特征选择的图像描述方法,其特征在于在步骤1)中,所述卷积神经网络的训练方法是:采用Faster-RCNN框架中的深度卷积残差网络骨干部分,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
3.如权利要求1所述一种基于语义引导的特征选择的图像描述方法,其特征在于在步骤2)中,所述采用自注意力层和前馈神经网络层构成的编码器层强化待描述的图像的网格特征的具体过程为:将网格特征V输入到编码器的自注意力层为:
针对给定的索引Q,键K,以及值V,
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
5.如权利要求1所述一种基于语义引导的特征选择的图像描述方法,其特征在于在步骤3)中,将步骤2)强化过的网格特征送入空间关系可感知的特征挑选层,即:
fθs(xi)=ReLU(BN(Wθsxi)),
fφs(xj)=ReLU(BN(Wφsxj)),
ri,j=fθs(xi)Tfφs(xj),
ri=[Rs(i,:),Rs(:,i)]
fψs(ri)=ReLU(Wψsri),
αi=Sigmoid(W2ReLU(W1ui)),
6.如权利要求1所述一种基于语义引导的特征挑选的图像描述方法,其特征在于在步骤3)中,将步骤2)强化过的网格特征送入通道关系可感知的特征挑选层,即:
fθc(xi)=ReLU(BN(Wθcxi)),
fφc(xj)=ReLU(BN(Wφcxj)),
ri,j=fθc(xi)Tfφc(xj),
ri=[Rc(i,:),Rc(:,i)]
fψc(ri)=ReLU(Wψcri),
αi=Sigmoid(W2ReLU(W1ui)),
7.如权利要求1所述一种基于语义引导的特征挑选的图像描述方法,其特征在于在步骤3)中,所述将步骤2)强化得到的网格特征送入空间关系和通道关系可感知的特征挑选层,整体流程为:
V0=WvV,
VL=Encoder(V0),
Vf=CRS(SRS(VL)),
其中,V0是卷积网络提取出的图像网格特征,Wv是嵌入层参数,Encoder是由L层EnLayer构成的整个编码器,Vf是最终得到的经过空间关系感知和通道关系感知挑选得到的网格特征。
8.如权利要求1所述一种基于样本语义引导的特征挑选的图像描述方法,其特征在于在步骤4)中,将步骤3)得到的网格特征输入到解码器中,生成图像的描述语句,定义生成句子的损失函数,具体流程为:
首先假设t为句子序列的第t个词,wt表示t时刻输入的词所对应的的词向量,由此得到解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
Vg=(VL;gF),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表;对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
10.如权利要求1所述一种基于语义引导的特征挑选的图像描述方法,其特征在于在步骤6)中,所述根据步骤4)生成图像的描述语句和步骤5)多标签分类计算得到的损失定义损失函数,具体流程为:
L=L(θ)+λLs,
其中,L(θ)是图像描述的损失,Ls是多标签分类的损失,θ是编码器解码器参数的统称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310098344.XA CN115982629A (zh) | 2023-02-10 | 2023-02-10 | 一种基于语义引导的特征选择的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310098344.XA CN115982629A (zh) | 2023-02-10 | 2023-02-10 | 一种基于语义引导的特征选择的图像描述方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115982629A true CN115982629A (zh) | 2023-04-18 |
Family
ID=85968124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310098344.XA Pending CN115982629A (zh) | 2023-02-10 | 2023-02-10 | 一种基于语义引导的特征选择的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115982629A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204674A (zh) * | 2023-04-28 | 2023-06-02 | 中国科学技术大学 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
-
2023
- 2023-02-10 CN CN202310098344.XA patent/CN115982629A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204674A (zh) * | 2023-04-28 | 2023-06-02 | 中国科学技术大学 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
CN116204674B (zh) * | 2023-04-28 | 2023-07-18 | 中国科学技术大学 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | RpBERT: a text-image relation propagation-based BERT model for multimodal NER | |
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
Kim et al. | Self-supervised pre-training and contrastive representation learning for multiple-choice video qa | |
CN113837233B (zh) | 基于样本自适应语义引导的自注意力机制的图像描述方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN114998670B (zh) | 多模态信息预训练方法及系统 | |
CN112819013A (zh) | 基于层内层间联合全局表示的图像描述方法 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN116450796A (zh) | 一种智能问答模型构建方法及设备 | |
CN115238690A (zh) | 一种基于bert的军事领域复合命名实体识别方法 | |
Wu et al. | Tdv2: A novel tree-structured decoder for offline mathematical expression recognition | |
Liu | Neural question generation based on Seq2Seq | |
CN117648429A (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN116542234A (zh) | 一种基于分治关键词和意图的细粒度文本语义匹配方法 | |
CN115982629A (zh) | 一种基于语义引导的特征选择的图像描述方法 | |
Xue et al. | Lcsnet: End-to-end lipreading with channel-aware feature selection | |
Parvin et al. | Image captioning using transformer-based double attention network | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
Liu et al. | Shengyan at VQA-Med 2020: An Encoder-Decoder Model for Medical Domain Visual Question Answering Task. | |
CN117708644A (zh) | 司法裁判文书摘要生成方法及系统 | |
CN113837231B (zh) | 一种基于混合样本与标签的数据增强的图像描述方法 | |
Bhuiyan et al. | An approach for bengali automatic question answering system using attention mechanism | |
Pa et al. | Improving Myanmar Image Caption Generation Using NASNetLarge and Bi-directional LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |