CN112819013A - 基于层内层间联合全局表示的图像描述方法 - Google Patents

基于层内层间联合全局表示的图像描述方法 Download PDF

Info

Publication number
CN112819013A
CN112819013A CN202110128194.3A CN202110128194A CN112819013A CN 112819013 A CN112819013 A CN 112819013A CN 202110128194 A CN202110128194 A CN 202110128194A CN 112819013 A CN112819013 A CN 112819013A
Authority
CN
China
Prior art keywords
layer
global
intra
inter
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110128194.3A
Other languages
English (en)
Inventor
孙晓帅
纪荣嵘
纪家沂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110128194.3A priority Critical patent/CN112819013A/zh
Publication of CN112819013A publication Critical patent/CN112819013A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

基于层内层间联合全局表示的图像描述方法,涉及人工智能。步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果。利用Transformer结构的特点,显式建模层内‑层间联合全局特征,有效利用图片的全局特征,减少图像描述任务间存在的物体缺失和关系偏置,提升生成句子的准确性和全面性;具有很强的迁移性,能适用于任何一个基于Transformer结构的图像描述模型,改进模型性能;解决图像描述的目标缺失和关系偏置问题,拓展复杂多模态推理,自动生成描述,可应用在图像检索、盲人导航、医疗报告自动生成和早教领域。

Description

基于层内层间联合全局表示的图像描述方法
技术领域
本发明涉及人工智能领域中的图像自动描述,特别是涉及一种基于图片用自然语言对图像客观内容进行描述的基于层内层间联合全局表示的图像描述方法。
背景技术
图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务,它的任务是将于一张给定图像,用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求。和目标检测及语义分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
早先的图像自动描述主要采用基于模板的方法和基于检索的方法实现,直到近来受自然语言技术的启发,开始使用编码器-解码器框架,注意力机制以及以强化学习为基础的目标函数,该任务取得极大的进展。
Xu等人(Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio,Y.2015.Show,attend and tell:Neural image captiongeneration with visual attention.In ICML)首次在图片描述任务中引入了注意力机制,用来将重要的视觉属性和场景嵌入到描述生成器中。继此之后,很多工作都对注意力机制提出了改进。例如,Chen等人(Chen,L.;Zhang,H.;Xiao,J.;Nie,L.;Shao,J.;Liu,W.;andChua,T.-S.2017b.Sca-cnn:Spatial and channel-wise attention in convolutionalnetworks for image captioning.In CVPR)提出了空间和通道注意力机制,用以选择显著的区域以及显著的语义模式;Lu等人(Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel forimage captioning.In CVPR)提出了视觉哨兵的概念,用以决定下一步关注视觉信息还是文本信息,大大提高模型的精确度;Anderson等人(Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;and Zhang,L.2018.Bottom-up and top-downattention for image captioning and visual question answering.In CVPR)先通过预训练好的目标检测器获取区域然后将此加入到模型用以生成图像字幕。Huang等人(Huang,L.;Wang,W.;Chen,J.;andWei,X.-Y.2019.Attention on Attention for ImageCaptioning.In ICCV)则首次采用了transformer类的框架图像描述任务中,从此Transformer模型开始成为该任务的主流模型。Zhu等人(Zhu,X.;Li,L.;Liu,J.;Peng,H.;and Niu,X.2018.Captioning transformer with stacked attention modules.AppliedSciences)和Cornia等人(Cornia,M.;Stefanini,M.;Baraldi,L.;and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR)都使用Transformer结构代替长短时循环网络并取得了最好性能。然而,这些模型并没有考虑如何利用全局特征来引导描述生成。
发明内容
本发明的目的在于针对传统基于transformer的图像描述方法没有显性建模全局特征从而导致物体缺失和关系偏置等问题,提供通过建模一个更加综合且具有指导性的全局特征,连接不同的局部信息,从而提高生成描述准确性的基于层内层间联合全局表示的图像描述方法。
本发明包括如下步骤:
1)采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;
2)将步骤1)提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果;其中,神经网络的全局损失函数通过如下方法获得;
(1)对训练集中的文本内容进行预处理,得到句子序列;对训练集中的图像,采用目标检测器提取若干个候选区,并提取各个候选区所对应的特征V={v1,v2,…,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
(2)将特征V送入全局加强编码器,借助多头注意力机制将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征;
(3)将前述的隐藏特征加入到自适应解码器中,同时用层内-层间联合全局特征进行跨模态特征的融合,借助多头注意力机制的特性修正多模态特征,生成当前阶段的词;
(4)迭代生成整个句子,并定义生成句子的损失函数。
在步骤1中,所述目标检测器的训练方法是:目标检测器采用Faster R-CNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
在步骤(1)中,所述对训练集中的文本内容进行预处理,得到句子序列的具体过程是:首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。
在步骤(2)和(3)中,所述多头注意力机制相关过程如下:
针对给定的索引Q,键K,以及值V,
Figure BDA0002924714550000031
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些向量的维度都相同,
Figure BDA0002924714550000032
用以作为缩放因子,softmax函数为归一化指数函数。
在步骤(2)中,所述将特征V送入全局加强编码器,借助多头注意力机制将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征的相关公式如下:
Figure BDA0002924714550000033
具体步骤如下:全局加强编码器由L层相同的结构组成,定义第l+1的输入为Ol,输出为Ol+1,第一层的输入初始化为O0=[V0;g0],其中,0≤l<L,且V0=V,g0=g;
Figure BDA0002924714550000034
Figure BDA0002924714550000035
Ol+1=LayerNorm(Vl+1+FFN(Vl+1)),
其中,GEA即为定义的全局加强的注意力机制,LayerNorm为归一化层,FFN为前馈神经网络,Ol+1=[Vl+1;gl+1];借助多头注意力机制的层内特征聚集作用,gl+1建模了层内全局特征;为了进一步建模层间全局特征,采用长短时循环网络对层内全局特征进一步聚合:
hi=LSTM(gi,hi-1),gF=hL,
其中,i=1,…,L,LSTM为长短时记忆网络,由此得到了层内-层间联合全局特征gF
在步骤(3)中,所述将前述的隐藏特征加入到自适应解码器中,同时用层内-层间联合全局特征进行跨模态特征的融合,借助多头注意力机制修正多模态特征,生成当前阶段的词,其具体过程可为:
首先假设t为句子序列的第t个词,Wt表示t时刻输入的词所对应的的词向量,由此得到全局适应的解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
与编码器相同,解码器也是由L层相同的结构组成,定义第l+1的输入为
Figure BDA0002924714550000041
输出为
Figure BDA0002924714550000042
该层的过程定义如下:
Figure BDA0002924714550000043
Figure BDA0002924714550000044
Vg=(VL;gF),
Figure BDA0002924714550000045
Figure BDA0002924714550000046
Figure BDA0002924714550000047
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
在步骤(4)中,具体过程是:
对于预测的句子YT={y0,...,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
Figure BDA0002924714550000048
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子
Figure BDA0002924714550000049
而言,其损失函数定义为:
Figure BDA0002924714550000051
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Figure BDA0002924714550000052
其中,
Figure BDA0002924714550000053
是beam search采样的第i个句子,
Figure BDA0002924714550000054
作为基线值。
采用上述方案后,本发明具有以下突出优点:
(1)本发明充分利用Transformer结构的特点,显式建模层内-层间联合全局特征,有效利用图片的全局特征,大大减少图像描述任务间存在的物体缺失和关系偏置,极大提升生成句子的准确性和全面性;
(2)本发明具有很强的迁移性,能够适用于任何一个基于Transformer结构的图像描述模型,改进模型的性能;
(3)本发明解决了图像描述的目标缺失和关系偏置问题,其主要应用场景在于建模全局特征,拓展复杂的多模态推理,为其自动生成描述,在图像检索,盲人导航,医疗报告自动生成和早教领域存在大量的应用前景。
附图说明
图1是本发明实施例的流程图;
图2是不同的图像描述模型生成的句子对比图;其中,Transformer是一种经典的基线方法的名称;
图3是对解码器生成每个词时的关注区域的可视化图;
图4是三个不同层在8个头关注到每个词时关注到每个点的比例是多少其中第一列标签本方法建模的,该图显示最终每个头都实实在在关注到了全局特征;
图5是可视化高层的输出对于底层输入的相似度分析图。
具体实施方式
以下实施例将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明的目的是针对传统基于transformer的图像描述方法没有显性建模全局特征从而导致物体缺失和关系偏置的问题,提出通过建模一个更加综合且具有指导性的全局特征,连接不同的局部信息,从而提高生成描述的准确性,提供基于层内层间联合全局表示的图像描述方法。具体的方法流程如图1所示。
本发明实施例包括以下步骤:
1)对于图像库中的图像,首先使用卷积神经网络抽取相应的图像特征;
2)将特征V送入全局加强编码器,将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征;
3)将前述的隐藏特征加入到自适应解码器中,同时用层内-层间联合全局特征进行跨模态特征的融合,修正多模态特征,生成当前阶段的词;
4)迭代生成整个句子,并定义生成句子的损失函数。
具体的每个模块如下:
1、深度卷积特征抽取与描述数据预处理
对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到9487个单词,对数据集描述中出现次数小于5的单词进行了剔除,使用“<UNK>”进行替代,同时加入开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
先使用预训练好的目标检测器提取36个固定的候选区,并使用残差深度卷积网络提出各个候选区相对应的特征V={v1,v2,…,vN},其中vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,k为50,d为2048。
2、全局加强编码器
首先,全局加强编码器由L层相同的结构组成,定义第l+1的输入为Ol,输出为Ol+1,第一层的输入初始化为O0=[V0;g0],其中,0≤l<L,且V0=V,g0=g。
Figure BDA0002924714550000061
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,GEA即为定义的全局加强的注意力机制,LayerNorm为归一化层,FFN为前馈神经网络,Ol+1=[Vl+1;gl+1];借助多头注意力机制的层内特征聚集作用,gl+1建模层内全局特征;为进一步建模层间全局特征,采用长短时循环网络对层内全局特征进一步聚合,公式如下:
hi=LSTM(gi,hi-1),gF=hL,
其中,i=1,…,L,LSTM为长短时记忆网络,由此得到了层内-层间联合全局特征gF
3、全局适应解码器
如图1所示,首先假设t为句子序列的第t个词,Wt表示t时刻输入的词所对应的的词向量,由此得到全局适应的解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
与编码器相同,解码器也是由L层相同的结构组成,定义第l+1的输入为
Figure BDA0002924714550000071
输出为
Figure BDA0002924714550000072
该层的过程定义如下:
Figure BDA0002924714550000073
Figure BDA0002924714550000074
Vg=(VL;gF),
Figure BDA0002924714550000075
Figure BDA0002924714550000076
Figure BDA0002924714550000077
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
4、全局损失函数构建
对于预测的句子YT={y0,...,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
Figure BDA0002924714550000078
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子
Figure BDA0002924714550000079
而言,其损失函数定义为:
Figure BDA00029247145500000710
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Figure BDA0002924714550000081
其中,
Figure BDA0002924714550000082
是beam search采样的第i个句子,
Figure BDA0002924714550000083
作为基线值。
为了验证本发明提出的模型的可行性和先进性,在通用数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示,可以看到在多种评估指标上所提出的模型性能都具有很高的优势。另外,通过可视化输入图像所生成的文本描述,示例给出的描述为英文,中文描述自动生成过程同理(如图2所示),可以看到由于本发明的模型对全局信息显示建模以后,其在图像描述上取得了很明显的改进。图3对解码器关注区域的可视化,该结果表明本发明方法在全局特征的指导下,模型可以更准确的定位到要描述的区域。图4展示的是三个不同层在8个头关注到每个词时关注到每个点的比例是多少其中第一列标签本方法建模的,该图显示最终每个头都实实在在关注到了全局特征。该图展示了解码层生成词在每一层对于不同区域以及全局特征的关注度多少。其中每一行表示生成句子中对应的词语,每一列代表的是图片区域,其中第一列表示全局特征。将全局特征被关注的比例做了统计,并记录在每个头的上方。该图显示最终每个头都实实在在关注到了全局特征。图5则是可视化高层的输出对于底层输入的相似度,对角线颜色比较浓说明每个区域对应的高层隐藏特征还是与对应的底层隐藏特征最接近,表明现有Transformer的机制关注的依然是局部偏置的。图2~4中描述和词都以英文为例,但是该发明可以直接拓展到中文描述,机理相同。
表1本发明方法与当前最先进方法的比较
Model B-1 B-4 M R C S
LSM-A 78.6 35.5 27.3 56.8 118.3 20.8
GCN-LSTM 80.5 38.2 28.5 58.5 128.3 22.0
Stack-Cap 78.6 36.1 27.4 56.9 120.4 20.9
SGAE 80.8 38.4 28.4 58.6 127.8 22.1
Up-Down 79.8 36.3 27.7 56.9 120.1 21.4
ORT 80.5 38.6 28.7 58.4 128.3 22.6
MMT 80.8 39.1 29.2 58.6 131.2 22.6
本发明方法 81.7 39.5 29.3 58.9 131.6 22.8
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.基于层内层间联合全局表示的图像描述方法,其特征在于包括如下步骤:
1)采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;
2)将步骤1)提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果;其中,神经网络的全局损失函数通过如下方法获得;
(1)对训练集中的文本内容进行预处理,得到句子序列;对训练集中的图像,采用目标检测器提取若干个候选区,并提取各个候选区所对应的特征V={v1,v2,…,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
(2)将特征V送入全局加强编码器,借助多头注意力机制将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征;
(3)将前述的隐藏特征加入到自适应解码器中,同时用层内-层间联合全局特征进行跨模态特征的融合,借助多头注意力机制的特性修正多模态特征,生成当前阶段的词;
(4)迭代生成整个句子,并定义生成句子的损失函数。
2.如权利要求1所述基于层内层间联合全局表示的图像描述方法,其特征在于在步骤1)中,所述目标检测器的训练方法是:目标检测器采用Faster R-CNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
3.如权利要求1所述基于层内层间联合全局表示的图像描述方法,其特征在于在步骤(1)中,所述对训练集中的文本内容进行预处理,得到句子序列的具体过程是:首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。
4.如权利要求1所述基于层内层间联合全局表示的图像描述方法,其特征在于在步骤(2)和(3)中,所述多头注意力机制相关过程如下:
针对给定的索引Q,键K,以及值V,
Figure FDA0002924714540000011
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些向量的维度都相同,
Figure FDA0002924714540000021
用以作为缩放因子,softmax函数为归一化指数函数。
5.如权利要求1所述基于层内层间联合全局表示的图像描述方法,其特征在于在步骤(2)中,所述将特征V送入全局加强编码器,借助多头注意力机制将候选区特征进一步编码,得到对应的隐藏特征以及层内-层间联合全局特征的相关公式如下:
Figure FDA0002924714540000022
具体步骤为:全局加强编码器由L层相同的结构组成,定义第l+1的输入为Ol,输出为Ol +1,第一层的输入初始化为O0=[V0;g0],其中,0≤l<L,且V0=V,g0=g;
Figure FDA0002924714540000023
Figure FDA0002924714540000024
Ol+1=LayerNorm(Vl+1+FFN(Vl+1)),
其中,GEA即为定义的全局加强的注意力机制,LayerNorm为归一化层,FFN为前馈神经网络,Ol+1=[Vl+1;gl+1];借助多头注意力机制的层内特征聚集作用,gl+1建模了层内全局特征;为了进一步建模层间全局特征,采用长短时循环网络对层内全局特征进一步聚合,公式如下:
hi=LSTM(gi,hi-1),gF=hL,
其中,i=1,…,L,LSTM为长短时记忆网络,由此得到了层内-层间联合全局特征gF
6.如权利要求1所述基于层内层间联合全局表示的图像描述方法,其特征在于在步骤(3)中,所述将前述的隐藏特征加入到自适应解码器中,同时用层内-层间联合全局特征进行跨模态特征的融合,借助多头注意力机制修正多模态特征,生成当前阶段的词,其具体过程为:
首先假设t为句子序列的第t个词,Wt表示t时刻输入的词所对应的的词向量,由此得到全局适应的解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
与编码器相同,解码器也是由L层相同的结构组成,定义第l+1的输入为
Figure FDA0002924714540000031
输出为
Figure FDA0002924714540000032
该层的过程定义如下:
Figure FDA0002924714540000033
Figure FDA0002924714540000034
Vg=(VL;gF),
Figure FDA0002924714540000035
Figure FDA0002924714540000036
Figure FDA0002924714540000037
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。
7.如权利要求1所述基于层内层间联合全局表示的图像描述方法,其特征在于在步骤(4)中,具体过程是:
对于预测的句子YT={y0,...,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即:
Figure FDA0002924714540000038
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子
Figure FDA0002924714540000039
而言,其损失函数定义为:
Figure FDA00029247145400000310
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Figure FDA00029247145400000311
其中,
Figure FDA00029247145400000312
是beam search采样的第i个句子,
Figure FDA00029247145400000313
作为基线值。
CN202110128194.3A 2021-01-29 2021-01-29 基于层内层间联合全局表示的图像描述方法 Pending CN112819013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110128194.3A CN112819013A (zh) 2021-01-29 2021-01-29 基于层内层间联合全局表示的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110128194.3A CN112819013A (zh) 2021-01-29 2021-01-29 基于层内层间联合全局表示的图像描述方法

Publications (1)

Publication Number Publication Date
CN112819013A true CN112819013A (zh) 2021-05-18

Family

ID=75858378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110128194.3A Pending CN112819013A (zh) 2021-01-29 2021-01-29 基于层内层间联合全局表示的图像描述方法

Country Status (1)

Country Link
CN (1) CN112819013A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378919A (zh) * 2021-06-09 2021-09-10 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
CN113590918A (zh) * 2021-07-12 2021-11-02 电子科技大学 基于课程式学习的社交媒体舆情热度监测的框架构建方法
CN113837231A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于混合样本与标签的数据增强的图像描述方法
CN113963168A (zh) * 2021-11-15 2022-01-21 北京联合大学 一种改进的高精度端到端车辆多目标跟踪方法
CN114119977A (zh) * 2021-12-01 2022-03-01 昆明理工大学 一种基于图卷积的Transformer胃癌癌变区域图像分割方法
CN114821271A (zh) * 2022-05-19 2022-07-29 平安科技(深圳)有限公司 模型训练方法、图像描述生成方法、装置及存储介质
CN116258145A (zh) * 2023-05-06 2023-06-13 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288665A (zh) * 2019-05-13 2019-09-27 中国科学院西安光学精密机械研究所 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN111737511A (zh) * 2020-06-17 2020-10-02 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288665A (zh) * 2019-05-13 2019-09-27 中国科学院西安光学精密机械研究所 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN110598713A (zh) * 2019-08-06 2019-12-20 厦门大学 基于深度神经网络的智能图像自动描述方法
CN111737511A (zh) * 2020-06-17 2020-10-02 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIAYI JI ET AL.: "Improving Image Captioning by Leveraging Intra- and Inter-layer Global__Representation in Transformer Network", 《ARXIV》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378919A (zh) * 2021-06-09 2021-09-10 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
CN113378919B (zh) * 2021-06-09 2022-06-14 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
CN113590918A (zh) * 2021-07-12 2021-11-02 电子科技大学 基于课程式学习的社交媒体舆情热度监测的框架构建方法
CN113837231A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于混合样本与标签的数据增强的图像描述方法
CN113837231B (zh) * 2021-08-30 2024-02-27 厦门大学 一种基于混合样本与标签的数据增强的图像描述方法
CN113963168A (zh) * 2021-11-15 2022-01-21 北京联合大学 一种改进的高精度端到端车辆多目标跟踪方法
CN113963168B (zh) * 2021-11-15 2022-06-21 北京联合大学 一种改进的高精度端到端车辆多目标跟踪方法
CN114119977A (zh) * 2021-12-01 2022-03-01 昆明理工大学 一种基于图卷积的Transformer胃癌癌变区域图像分割方法
CN114821271A (zh) * 2022-05-19 2022-07-29 平安科技(深圳)有限公司 模型训练方法、图像描述生成方法、装置及存储介质
CN116258145A (zh) * 2023-05-06 2023-06-13 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN112819013A (zh) 基于层内层间联合全局表示的图像描述方法
CN111737511B (zh) 基于自适应局部概念嵌入的图像描述方法
CN108804530B (zh) 对图像的区域加字幕
Prudviraj et al. M-FFN: multi-scale feature fusion network for image captioning
Bhunia et al. Joint visual semantic reasoning: Multi-stage decoder for text recognition
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
Wang et al. Stroke constrained attention network for online handwritten mathematical expression recognition
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN113837233B (zh) 基于样本自适应语义引导的自注意力机制的图像描述方法
Wu et al. TDv2: a novel tree-structured decoder for offline mathematical expression recognition
CN117421591A (zh) 一种基于文本引导图像块筛选的多模态表征学习方法
CN113423004A (zh) 基于解耦译码的视频字幕生成方法和系统
CN114780775A (zh) 一种基于内容选择和引导机制的图像描述文本生成方法
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
CN117370498A (zh) 一种3d开放词汇检测与密集字幕生成统一的建模方法
Song et al. Exploring explicit and implicit visual relationships for image captioning
CN115982629A (zh) 一种基于语义引导的特征选择的图像描述方法
CN113837231B (zh) 一种基于混合样本与标签的数据增强的图像描述方法
Liu et al. A signer-independent sign language recognition method for the single-frequency dataset
Rafi et al. A linear sub-structure with co-variance shift for image captioning
Kumar et al. Molecular-InChI: Automated Recognition of Optical Chemical Structure
Ma et al. Scene text recognition with heuristic local attention
Huang et al. SegCTC: Offline handwritten Chinese text recognition via better fusion between explicit and implicit segmentation
Vu et al. Transformer-based method for mathematical expression recognition in document images
CN112765955B (zh) 一种中文指代表达下的跨模态实例分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210518

RJ01 Rejection of invention patent application after publication