CN113837233B

CN113837233B - 基于样本自适应语义引导的自注意力机制的图像描述方法

Info

Publication number: CN113837233B
Application number: CN202111005897.3A
Authority: CN
Inventors: 纪荣嵘; 纪家沂; 李毅男
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-11-17
Anticipated expiration: 2041-08-30
Also published as: CN113837233A

Abstract

基于样本自适应语义引导的自注意力机制的图像描述方法，属于人工智能技术领域。针对传统采用自注意力机制的方法对于每个样本参数固定的缺点，包括以下步骤：1)采用目标检测器提取待描述图像的若干个候选区对应的特征；2)采用语义概念检测器针对待描述图像提取若干个语义概念；3)将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化；4)利用步骤3)强化过后的语义概念特征和一个参数生成网络，生成一个的自注意网络的参数；5)将步骤3)强化过的视觉特征输入到生成的自注意力网络中，通过语义生成的自注意力网络来实现更好的视觉表达；6)将步骤5)输出的视觉特征输入到解码器中，生成图像的描述语句，并定义损失函数。

Description

基于样本自适应语义引导的自注意力机制的图像描述方法

技术领域

本发明涉及人工智能领域中的图像自动描述，特别是涉及用自然语言对图像客观内容进行描述的一种基于样本自适应语义引导的自注意力机制的图像描述方法。

背景技术

图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务，它的任务是将于一张给定图像，用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展，完成目标检测、识别、分割等任务已经不能满足人们的生产需求，对如何自动客观的对图像内容自动描述有迫切的需求。与目标检测及语义分割等任务不同，图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述，该任务是计算机视觉理解的重要方向之一，被视为人工智能的一个重要标志。

较早的图像自动描述方法主要采用基于模板的方法和基于检索的方法实现。近年来受自然语言处理发展的影响，开始使用基于编码器-解码器框架的方法，通常采用预训练卷积神经网络(CNN)的变体作为图像编码器，同时使用递归神经网络(RNN)作为解码器。并引入注意力机制以及以强化学习为基础的目标函数，使得该任务取得极大的进展。

Xu等人[1]首次在图像描述任务中引入注意力机制，以在每个生成步骤中专注于最相关的区域。Lu等人[2]开发自适应注意来确定在每个解码步骤中是依赖视觉特征还是语言模型状态。Rennie等人[3]将强化学习技术引入到图像描述任务中，极大的提升图像描述方法的性能。最近，Anderson等人[4]还提出自下而上的注意力技术，以基于图像的区域特征来找到最相关的显着区域。Huang等人[5]则首次引入自然语言处理中的transformer模型到图像描述任务中，Pan等人[6]和Cornia[7]等人都使用Transformer模型来代替递归神经网络并取得最好的性能。此外，Liu等人[8][9]和Li等人[10]使用Transformer来集成视觉信息和外部标记器提供的语义概念来完成图像描述任务。然而，在这些针对图像描述任务的模型中，测试阶段的模型参数是固定的，这限制模型的泛化能力。

参考文献：

[1].Xu,K.；Ba,J.；Kiros,R.；Cho,K.；Courville,A.；Salakhudinov,R.；Zemel,R.；and Bengio, Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.

[2].Lu,J.；Xiong,C.；Parikh,D.；and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.

[3].Steven J Rennie,Etienne Marcheret,Youssef Mroueh,JerretRoss,andVaibhava Goel. 2017.Self-critical sequence training forimage captioning.InCVPR.

[4].Anderson,P.；He,X.；Buehler,C.；Teney,D.；Johnson,M.；Gould,S.；andZhang,L.2018. Bottom-up and top-down attention for image captioning andvisual question answering.In CVPR.

[5].Huang,L.；Wang,W.；Chen,J.；andWei,X.-Y.2019.Attention on Attentionfor Image Captioning.In ICCV.

[6].Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.2020.X-linear attentionnetworks for image captioning.In CVPR.

[7].Cornia,M.；Stefanini,M.；Baraldi,L.；and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR.

[8].Fenglin Liu,Yuanxin Liu,Xuancheng Ren,Xiaodong He,and XuSun.2019.Aligning visual regions and textual concepts forsemantic-groundedimage representations.In NeurIPS.

[9].Fenglin Liu,Xian Wu,Shen Ge,Xiaoyu Zhang,Wei Fan,and YuexianZou.2020. Bridging the gap between vision and language domains for improvedimage captioning.In ACM MM.

[10].Guang Li,Linchao Zhu,Ping Liu,and YiYang.2019.Entangledtransformer for image captioning.In ICCV.

发明内容

本发明的目的在于针对传统基于transformer的图像描述方法在测试阶段参数固定泛化性下降的问题，以及当前使用语义信息的模型中语义噪声过大等问题，提供一种基于样本自适应语义引导的自注意力机制的图像描述方法。本发明通过一个参数生成网络，利用每一个输入样本的语义概念信息生成不同的自注意网络的参数，通过这个生成的自注意网络来用语义引导视觉特征的互相关注，加强视觉特征的语义信息，从而提高生成描述的准确性。

本发明包括以下步骤：

1)采用目标检测器随机提取待描述图像的若干个候选区和各个候选区对应的特征A＝{a₁,a₂,...,a_N}，其中，a_i∈R^d，i＝1,2,...,N,d为各个特征向量的维度，N为候选区的数量；

2)采用语义概念检测器随机提取待描述图像的若干个语义概念C＝{c₁,c₂,...,c_N}，其中， c_i∈V^d，i＝1,2,...,N,V为单词表，d为单词表中单词数，N为提取语义概念的数量；

3)将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化；

4)利用步骤3)强化过后的语义概念特征和一个参数生成自注意力网络，生成自注意力网络的参数；

5)将步骤3)强化过的视觉特征输入到步骤4)生成的自注意力网络中，提取语义引导的视觉特征；

6)将步骤5)输出的视觉特征输入到解码器中，生成图像的描述语句，并定义损失函数。

在步骤1)中，所述目标检测器的训练方法是：目标检测器采用Faster-RCNN框架，其骨架网络是深度卷积残差网络，首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练，然后在多模态数据集Visual Genome上进一步训练微调网络参数。

在步骤2)中，所述语义概念检测器的训练方法是：语义概念检测器采用框架，其骨架网络是VGG16网络，首先在ImageNet数据上对骨架网络预训练，然后再使用noise-OR版本的弱监督训练方法，在MSCOCO数据集上进行微调网络参数。

在步骤3)中，所述将步骤1和步骤2提取的特征分别通过不同的自注意力网络进行特征强化的具体过程为：将视觉特征A或者语义概念特征C输入到不同的自注意网络中进行特征强化，所使用的到的自注意网络为：

针对给定的索引Q，键K，以及值V，

MultiHead(Q,K,V)＝Concat(H₁,...,H_h)W^o,

H_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),

其中，Q是一个具有n_q个索引向量的矩阵，K和V分别是具有n_k个键向量和值向量的矩阵，这些向量的维度都相同，d为缩放因子，softmax函数为归一化指数函数。

在步骤4)中，所述将强化后的语义概念特征和一个参数生成网络，生成一个的自注意网络的参数。所述参数生成网络为：

针对给定的语义强化特征

s₁＝W₁₂ ReLU(W₁₁z)，

s₂＝W₂₂ ReLU(W₂₁z)，

其中，z为语义概念特征的平均值，都为参数生成网络的参数矩阵。d为模型的隐藏维度，s₁，s₂均为d维的向量，σ_D(x)是一个动态的激活函数，其参数v，w通过训练得到。W_DQ为最终得到的自注意网络的参数矩阵。

在步骤5)中，所述将步骤3强化过的视觉特征输入到步骤4生成的自注意力网络中，提取语义引导的视觉特征，即：

Q_D＝(X+PE)W_DQ,

K_D＝(X+PE)W_DK,

V＝XW_V，

其中，X为步骤3强化的视觉特征，PE是位置信息编码，W_DQ,W_DK,为生成的参数矩阵，W_V是一个固定参数的参数矩阵，Q,K,V是给定的索引，键，以及值，Q_D,K_D是经过参数生成网络后得到的索引和键，Ω_D是视觉特征自关注的权值，是最终得到的经语义引导的视觉特征。

在步骤6)中，将步骤5输出的视觉特征输入到解码器中，生成图像的描述语句，定义生成语句的损失函数，具体流程为：

首先假设t为句子序列的第t个词，w_t表示t时刻输入的词所对应的的词向量，由此得到解码器的词向量输入矩阵为：

W_t-1＝(w₀,w₁,...,w_t-1),

与编码器相同，解码器也是由L层相同的结构组成，定义第l+1的输入为输出为/>该层的过程定义如下：

V_g＝(V^L；g_F),

其中，W_y为待训练的参数矩阵，将隐含状态映射到词汇表。对于预测的句子 Y_T＝{y₀，…，y_T}而言，生成整个句子的概率由每个词的概率累乘得到，即

其中，T为句子长度；通过监督学习和强化学习两个阶段对模型进行训练；在监督学习阶段，采用交叉熵，对于给定的目标句子而言，其损失函数定义为：

在强化学习阶段，采用强化学习进行训练，其损失函数的梯度定义为：

其中，是beam search采样的第i个句子，b＝(∑_ir(Yⁱ))/k作为基线值。

本发明的优点如下：

通过本发明所提出的方案能够获得一个动态的，样本自适应的语义引导的图像描述方法。本发明在充满噪声的语义概念中，使用一种间接的语义引导方法，通过使用不同样本的不同语义概念来构造样本自适应的自注意网络参数，让每个样本对应的视觉特征接受对应的语义信息的引导来进行自注意，减少直接将语义概念加入到视觉自关注中造成的噪声引入而产生的精度损失。同时，本发明具有很强的迁移性，能够适用于任何一个基于Transformer 结构的图像描述模型，并可以泛化到视觉问答和视觉定位任务，取得最好的性能。

附图说明

图1是本发明基于样本自适应语义引导的自注意力机制的图像描述方法的流程图；

图2是参数生成网络的流程图；其中ReLU和Sigmoid是两种经典的激活函数的名称；

图3是传统自注意网络和本发明的样本自适应语义引导的自注意网络的对比图；

图4是不同的图像描述模型生成的句子对比图；其中Transformer是一种经典的基线方法，MIA是直接将语义概念引入自注意网络的方法，每张图的右下角为不同图的不同语义概念生成的参数矩阵的热力图；

图5是基线模型和本发明模型在生成某个单词时关注区域的可视化的对比图。

具体实施方式

以下实施例将结合附图，对本发明进行详细说明。

本发明实施例包括以下步骤：

1)对于图像库中的图像，首先使用卷积神经网络抽取相应的图像特征A；

2)对于图像库中的图像，使用语义概念提取器提取语义概念C；

3)将图像特征A和语言概念C分别送入不同的自注意网络，将特征进一步编码，得到对应的隐藏特征和/>

4)将前述的语义概念隐藏特征送入到参数生成网络中，生成自注意网络的参数W_DQ， W_DK；

5)将前述的图像隐藏特征输入到生成的自注意网络，得到语义引导的图像特征O；

6)将前述的图像隐藏特征O输入到解码器中，生成图像的描述语句，定义损失函数。

本发明上述整体流程的流程图如图1所示，方法涉及的具体模块详述如下：

1、深度卷积特征抽取与描述数据预处理

对所有训练数据中的文本内容进行去停用词处理，并将所有英文词汇进行小写化；然后对文本内容按空格进行分词，得到10201个单词，对数据集描述中出现次数小于五的单词进行剔除，使用“<UNK>”进行替代，同时加入开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。

先使用预训练好的目标检测器提取36个固定的候选区或将图像分成7×7的特征区域，并使用残差深度卷积网络提出各个候选区相对应的特征其中，v_i∈R^d， i＝1,2,...,N，d为各个特征向量的维度，k为50，d为2048。首先，查询图像和待检索图像库的图像特征抽取的形式化描述为：对于训练集中的每幅图像提取d维的特征，得到一个d×n 的原始视觉特征矩阵X＝[x₁,x₂,...,x_n]∈R^d×n,其中，n表示训练集中的训练样本个数，x_i为矩阵X第i列表示样本集合中第i个维度为d的特征向量。

再使用预训练好的语义概念检测器提取49个固定的语义概念，提取出的语义概念包括动词，名词和形容词。这些词中剔除掉'a','on','of','the','in','with','and','is', 'to','an','two','at','next','are'这些没有具体实际意义的语义概念，且提取出的语义概念只会是在数据集中出现次数前1000的词。

2、特征强化自注意网络

使用特征强化自注意网络，对输入的图像特征和语义概念特征进行强化编码。针对给定的索引Q，键K，以及值V，

MultiHead(Q,K,V)＝Concat(H₁,...,H_h)W^o,

H_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),

其中，Q是一个具有n_q个索引向量的矩阵，K和V分别是具有n_k个键向量和值向量的矩阵，这些矩阵由输入的特征X线性变换而来，这些向量的维度都相同，d为缩放因子，softmax 函数为归一化指数函数。

3、参数生成网络

针对得到的语义强化特征

s₁＝W₁₂ ReLU(W₁₁z)，

s₂＝W₂₂ ReLU(W₂₁z)，

其中，z为语义概念特征的平均值，都为参数生成网络的参数矩阵；d为模型的隐藏维度，s₁，s₂均为d维的向量，σ_D(x)是一个动态的激活函数，其参数v，w通过训练得到。W_DQ为最终得到的自注意网络的参数矩阵。网络整体结构如图2所示。

4、使用生成参数的语义引导的自注意网络

使用生成的自注意力网络，提取语义引导的视觉特征，即：

Q_D＝(X+PE)W_DQ,

K_D＝(X+PE)W_DK,

V＝XW_V，

其中，X为步骤3强化的视觉特征，PE是位置信息编码，W_DQ,W_DK,为生成的参数矩阵，W_V是一个固定参数的参数矩阵，Q,K,V是给定的索引，键，以及值，Q_D,K_D是经过参数生成网络后得到的索引和键，Ω_D是视觉特征自关注的权值，是最终得到的经语义引导的视觉特征。网络整体结构如图3-b所示。

5、描述语句的生成和损失函数

W_t-1＝(w₀,w₁,...,w_t-1),

V_g＝(V^L；g_F),

其中,W_y为待训练的参数矩阵，将隐含状态映射到词汇表。对于预测的句子 Y_T＝{y₀，…，y_T}而言，生成整个句子的概率由每个词的概率累乘得到，即

其中，是beamsearch采样的第i个句子，b＝(∑_ir(Yⁱ))/k作为基线值。

为验证本发明提出的方法的可行性和先进性，在通用的评估图像描述方法的数据集 MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示，可以看到在多种评估指标上以及不同的图像特征上，本发明所提出的方法在所有的指标上都具有很高的优势。此外，如图4所示，通过可视化输入图像所生成的文本描述(示例给出的描述为英文，中文描述自动生成过程同理)，可以看到由于本发明的方法采用语义概念引导，和没有使用语义概念的方法(Transformer)相比，其在图像描述上取得很明显的增强；和直接使用语义概念的方法(MIA)对比，本发明并不直接将语义概念加入到自注意的输入，而是构造自注意的网络参数，实现间接的语义概念引入，且由于使用的语义概念存在非常多的噪声，直接使用语义概念的方法生成的描述语句会引入噪声，而本发明的方法解决这一问题。图5为基线方法(Transformer)和本发明方法对解码器关注区域的可视化的两种方法的对比，该结果表明本发明方法在语义概念的指导下，可以更准确的定位到要描述的区域。

表1本发明方法与当前最先进方法的比较

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.基于样本自适应语义引导的自注意力机制的图像描述方法，其特征在于包括以下步骤：

2)采用语义概念检测器随机提取待描述图像的若干个语义概念C＝{c₁,c₂,...,c_N}，其中，c_i∈V^d，i＝1,2,...,N,V为单词表，d为单词表中单词数，N为提取语义概念的数量；

2.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法，其特征在于在步骤1)中，所述目标检测器的训练方法是：目标检测器采用Faster-RCNN框架，其骨架网络是深度卷积残差网络，首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练，然后在多模态数据集Visual Genome上进一步训练微调网络参数。

3.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法，其特征在于在步骤2)中，所述语义概念检测器的训练方法是：语义概念检测器采用框架，其骨架网络是VGG16网络，首先在ImageNet数据上对骨架网络预训练，然后再使用noise-OR版本的弱监督训练方法，在MSCOCO数据集上进行微调网络参数。

4.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法，其特征在于在步骤3)中，所述将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化的具体过程为：将视觉特征A或者语义概念特征C输入到不同的自注意网络中进行特征强化，所使用的到的自注意网络为：

针对给定的索引Q，键K，以及值V，

MultiHead(Q,K,V)＝Concat(H₁,...,H_h)W^o,

H_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V),

5.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法，其特征在于在步骤4)中，所述生成自注意力网络的参数如下：

针对给定的语义强化特征

s₁＝W₁₂ ReLU(W₁₁z)，

s₂＝W₂₂ ReLU(W₂₁z)，

其中，z为语义概念特征的平均值，都为参数生成网络的参数矩阵；d为模型的隐藏维度，s₁，s₂均为d维的向量，σ_D(x)是一个动态的激活函数，其参数v，w通过训练得到；W_DQ为最终得到的自注意网络的参数矩阵。

6.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法，其特征在于在步骤5)中，所述将步骤3)强化过的视觉特征输入到步骤4)生成的自注意力网络中，提取语义引导的视觉特征，具体步骤为：

Q_D＝(X+PE)W_DQ,

K_D＝(X+PE)W_DK,

V＝XW_V，

其中，X为步骤3强化的视觉特征，PE是位置信息编码，W_DQ,W_DK,为生成的参数矩阵，W_V是一个固定参数的参数矩阵，Q,K,V是给定的索引、键以及值，Q_D,K_D是经过参数生成网络后得到的索引和键，Ω_D是视觉特征自关注的权值，是最终得到的经语义引导的视觉特征。

7.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法，其特征在于在步骤6)中，所述将步骤5)输出的视觉特征输入到解码器中，生成图像的描述语句，并定义损失函数，具体步骤为：

W_t-1＝(w₀,w₁,...,w_t-1),

V_g＝(V^L；g_F),

其中，W_y为待训练的参数矩阵，将隐含状态映射到词汇表；对于预测的句子Y_T＝{y₀，…，y_T}而言，生成整个句子的概率由每个词的概率累乘得到，即