CN111160467B

CN111160467B - 一种基于条件随机场和内部语义注意力的图像描述方法

Info

Publication number: CN111160467B
Application number: CN201911394190.9A
Authority: CN
Inventors: 宋丹丹; 骆源
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-05-31
Filing date: 2019-12-30
Publication date: 2021-12-10
Anticipated expiration: 2039-12-30
Also published as: CN111160467A

Abstract

本发明涉及一种基于条件随机场和内部语义注意力的图像描述方法，属于计算机视觉与自然语言处理交叉技术领域。首先处理训练数据，然后设计网络结构模型，采用现有的卷积神经网络和目标检测网络提取图像特征，设计带有内部语义注意力机制和注意力特征残差结构的循环神经网络生成图像对应的描述；接下来采用交叉熵损失函数和条件随机场损失函数相结合的方式作为训练目标，使用处理好的训练数据训练网络模型，得到一个具有图像语义描述生成功能的网络；最后，将任意图像输入该网络，获得相应的描述。本方法相比于现有技术，既保证了生成描述句式上的准确性，又解决了生成的描述中出现的重复短语问题，使生成的描述更能捕捉到图像中的关键信息。

Description

一种基于条件随机场和内部语义注意力的图像描述方法

技术领域

本发明涉及一种基于条件随机场和内部语义注意力的图像描述方法，尤其涉及一种基于条件随机场的深度网络模型，运用特有的内部语义注意力机制结合注意力特征残差结构的网络模型来生成图像对应的语义描述，属于计算机视觉与自然语言处理交叉技术领域。

背景技术

随着互联网上图像数据的爆炸性增长，通过人工的方式进行图像语义信息识别和检索已经变得不太现实。而图像本身的数据结构较为抽象，却包含丰富的信息，通过深度学习的方法对图像生成描述、挖掘其中的语义信息在图像检索、AI问答、智能推荐等领域具有广泛的应用场景。

传统的图像语义描述方法包括基于模板填充的图像描述方法和基于检索的图像描述方法，这些方法结果不够准确，并且耗费大量时间进行额外工作。几年来，以编码器-解码器架构为主的深度学习方法也被应用到图像语义描述生成这一领域中来，而图像描述训练与生成过程的不一致问题一直使生成的图像描述过于单一，也不够准确。

为了解决这些问题，一些研究人员开始将强化学习、注意力机制等方法引入图像语义描述生成领域，尝试生成更加准确的图像描述。但是目前的方法仍不能有效的解决句式不准确，以及生成的描述中出现重复短语的问题。

发明内容

本发明的目的是为了克服现有技术的不足，提出一种基于条件随机场和内部语义注意力的图像描述方法，能够获得句式更加精准、内容更加细致的图像描述。

本发明的原理是首先处理训练数据，然后设计网络结构模型，采用现有的卷积神经网络和目标检测网络提取图像特征，设计带有内部语义注意力机制和注意力特征残差结构的循环神经网络生成图像对应的描述；接下来采用交叉熵损失函数和条件随机场损失函数相结合的方式作为训练目标，使用处理好的训练数据训练网络模型，得到一个具有图像语义描述生成功能的网络；最后，将任意图像输入该网络，获得相应的描述。

本发明的目的是通过以下技术方案实现的：

一种基于条件随机场和内部语义注意力的图像描述方法，包括以下步骤：

步骤1：处理训练数据

对图像描述数据集中所有的描述进行预处理，将所有的描述转换为预定义的形式，然后统计每个单词的个数，将出现次数高于预定义次数的单词保存进字典，并将出现次数低于预定义次数的单词以及空白位置用预设的符号代替，最终得到词典Vocab；同时，对于数据集中参考描述低于预定义句子个数的描述，通过随机复制已有参考描述的方式，使得每张图像最少拥有预定义句子个数的描述；另外，为了在后续阶段应用条件随机场损失，使用一种词性标注的方法提取图像描述中各个单词对应的词性，并记录下来；

步骤2：设计网络结构模型

网络结构模型使用传统的编码器-解码器架构；编码器为ResNet101和Faster R-CNN；解码器为经过改进的LSTM模型；

采用在ImageNet数据集上预训练的ResNet101网络最后一个卷积层提取图像中的特征，得到的特征维度为2048×14×14，记作A＝{a₁,…,a_k},

k＝196，a_i表示每个位置上的图像特征；对所有a_i取平均值得到全局特征，记作a^g；

全局特征只在t＝0的时刻传入到解码器的第一个LSTM单元中，后续时刻不再传入；

使用Faster R-CNN提取图像的局部注意力特征，记作I＝{I₁,…,I_i,…I_n},

n表示提取出来的局部注意力特征个数；

解码器以LSTM(长短期记忆网络)网络为基础，加入内部语义注意力特征和图像注意力特征，具体公式如下：

h₀＝W_ga^g+b_g (2)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f) (3)

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i) (4)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o) (5)

c_t＝i_t⊙tanh(W_zxx_t+W_zhh_t-1+W_zII_t+W_zSS_t+b_z)+f_t⊙c_t-1 (6)

h_t＝o_t⊙tanh(c_t) (7)

其中，h₀是第0时刻的隐层状态，W_g是全连接层，b_g是偏置项；f_t表示遗忘门，用于控制模型在学习的过程中需要遗忘掉的无用信息，W_fx和W_fh是全连接层，b_f是偏置项，x_t表示第t时刻的词向量输入，t为整数，且1≤t≤ENDT，ENDT是预定义的图像描述中单词的长度；i_t表示输入门，用于控制哪些新产生的信息应该写入记忆单元c_t，W_ix和W_ih是全连接层，b_i是偏置项；o_t表示输出门，用于确定在记忆单元c_t中，哪些信息能够对当前的隐层状态h_t产生影响，W_ox和W_oh是全连接层，b_o是偏置项；在这三个状态门中，σ是sigmoid函数；⊙是点乘函数；在c_t中，I_t是得到的图像注意力特征，S_t是内部语义注意力特征，W_zx，W_zh，W_zI，W_zS均为全连接层，用于将对应的特征x_t，h_t-1，I_t，S_t等映射到同一向量空间，b_z表示偏置项；图像注意力特征由如下公式得到：

Score(h_t-1,I_i)＝Wtanh(W_ahh_t-1+W_aII_i) (10)

其中

表示在解码的过程中，t时刻的局部特征注意力权重，通过相似度评分Score和softmax函数得到，在Score函数中W_ah和W_aI用于将图像特征和文本特征映射到同一个向量空间；tanh函数是激活函数；W表示全连接层；

内部语义注意力特征由如下公式得到：

Evalue(h_t,h_i)＝Wtanh(W₁h_t+W₂h_i) (13)

其中

表示在解码的过程中，t时刻对已生成的描述的注意力权重，通过相似度评分Evalue和softmax函数得到；在Evalue函数中，W₁和W₂用于将不同时刻的隐层状态映射到同一向量空间；

解码器中预测单词的结构如下：

p(y_t＝w)＝softmax(h_tV+I_tW₃+S_tW₄) (14)

其中p(y_t＝w)是一个大小为Vocab长度的向量，表示在t时刻，预测的单词y_t等于Vocab中的单词w的概率大小，V,W₃,W₄分别为隐层状态、图像注意力特征和内部语义注意力特征的映射矩阵，目的是将这三类特征映射到词典大小的向量空间；在预测时，选择概率最大的位置对应的单词作为第t时刻的预测单词；

步骤3：设计网络的损失函数

损失函数L为：

L＝γloss_CRF+βloss_XE (15)

其中loss_CRF表示条件随机场损失函数，loss_XE表示交叉熵损失函数，γ和β分别是条件随机场损失和交叉熵损失的权重；

其中为了最大化预测描述分布概率逼近与真实描述的分布概率，得到的交叉熵损失函数如下公式所示：

其中y_t表示t时刻的预测单词，y_rt表示t时刻的真实单词，p(y_t＝y_rt)表示在t时刻预测单词等于真实单词的概率；

为了使生成的描述序列能够保证句式的准确性，即给定输入的真实描述的条件下，能够输出真实的词性序列；因此定义条件随机场损失函数如公式(17)所示：

loss_CRF＝-log(p(tag|x)) (17)

其中，x表示输入的真实描述序列，tag表示x对应的真实词性序列；tags表示所有可能输出的词性序列，S表示给定描述序列和词性序列的情况下的评分函数；

P_i,i表示x中第i个词汇x_i对应到tag中第i个词性tag_i的概率，

A_i,j表示x_i对应的词性tag_i到x_i+1对应的词性tag_i+1的转移概率；

步骤4：用步骤1中处理好的训练数据和步骤2、4中定义好的模型结构和损失函数，训练网络模型，训练过程如下：

Step1：初始化模型参数：对编码器网络中的参数使用Xavier的方法进行初始化；

Step2：将图像传入到编码器网络得到图像的全局特征和局部特征并取出每张图像对应的预定义句子个数的真实描述，以及各描述对应的词性标注序列；

Step3：在解码器LSTM的初始状态，将图像的全局特征传入到第一个LSTM单元中得到第一个LSTM单元的状态向量，同时输入一个预定义的开始向量，得到第一个位置上的预测单词和预测词性，在后续时刻，对每个LSTM单元输入真实描述对应的单词向量，以及上一LSTM单元的隐层状态，更新这一时刻的LSTM单元参数，并由此预测相应的单词和词性；最后根据真实的描述和词性标注序列，由步骤3中设计好的损失函数计算得到损失；

Step4：使用优化方法，设置好初始化学习率，以及学习率衰减速率，对参数进行更新；

Step5：重复Step2-Step4，不断进行迭代，直到损失函数收敛；

经过以上训练，得到一个图像语义描述生成网络，即经训练的步骤2的编码器-解码器；

步骤5：根据图像得到对应的图像描述；

将一张待获取其描述的图像输入到步骤4中得到的图像语义描述生成网络中，即可以得到对应的自然语言描述。

有益效果

本发明方法，与现有技术相比，具有以下有益效果：

本发明设计的编码器模型使用条件随机场层对词性的约束，有效的增强输出描述前后单词之间的联系，保证了生成句式的准确性。

本发明在图像注意力机制的基础上融合了内部语义注意力机制，加强了输出描述过程中图像与语言结合共同对结果产生的影响，有效的减轻了出现重复短语的问题。

本发明采用了注意力特征残差结构，有效的使底层的抽象特征信息对高层语义产生更加持久的影响，生成的描述关注的重点更加接近人类描述。

本发明增加了条件随机场层损失函数，有效的增强输出描述前后单词之间的联系，保证了生成句式的准确性。

本发明适用于任何图片，均有较好效果，具有普适性。

附图说明

图1为本发明方法的工作流程图：

图2为本发明方法的整体网络结构图：

图3为本发明方法的加入内部语义注意力机制前后网络结构对比图：

图4为本发明方法的注意力特征残差结构图：

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

本实施例为在MS COCO数据集上进行训练并应用的过程。

一种基于条件随机场和内部语义注意力的图像描述方法，如图1所示，包括以下步骤：

步骤1：处理训练数据。使用MS COCO上用于图像描述生成的数据集作为训练集。对数据集中所有的描述进行预处理，将所有的描述转换为小写表示，然后统计每个单词的个数，将出现次数高于5次的单词保存进字典，并将出现次数低于5次的单词以及空白位置用“UNK”代替，最终得到词典Vocab。同时，对于数据集中参考描述低于5句的描述，通过随机复制已有参考描述的方式，使得每张图像最少拥有5句相应描述。再使用spaCy方法提取出图像描述中各个单词对应的词性，并记录下来。

步骤2：设计网络结构模型。图2是网络的整体结构图，其中主要包括用于提取特征的编码器：ResNet101和Faster R-CNN，以及经过改进的解码器LSTM单元。ResNet101网络需要在ImageNet数据集上经过预训练，Faster R-CNN也需要先使用在ImageNet上预训练好的ResNet101来初始化其卷积层，再在输出部分增加额外的输出层用来预测区域i的属性类别，在Visual Genome数据集上完成预训练初始化参数的过程。整体的模型中，损失函数包括交叉熵损失和条件随机场损失。ENDT设为10，即图像描述中单词个数最多为10个，该设置可以根据数据集的不同而不同。图3展示了加入内部语义注意力特征前后的LSTM结构对比图。

如图2所示，整体的网络先输入一张原图。然后分别经过ResNet101和FasterR-CNN这两个网络来提取图像的全局特征和局部特征，其中n定义为32。接着在第0时刻，向如图2所示的LSTM单元中传入图像的全局特征，以及初始化预定义的词向量<START>，得到初始时刻的LSTM隐层状态，通过隐层状态，使用全连接和softmax操作可以得到当前预测的单词。在后续时刻，往LSTM单元中传入：由公式(8)计算得到的局部图像注意力特征、由公式(11)计算得到的内部语义注意力信息、上一时刻LSTM单元的隐层状态、图像对应真实描述中该时刻对应的词向量。这样可以更新当前时刻的LSTM单元，然后通过图4所示的注意力特征残差结构以及公式(15)的计算预测单词在词典中的分布概率，将概率最大对应位置的单词作为当前时刻的预测单词。在编码器加入注意力特征残差结构，为了使低层的抽象特征信息对高层的语义信息产生更久远的影响，使用了如图4所示的注意力特征残差结构。主要通过将得到的图像注意力特征和内部语义注意力特征以及LSTM单元的隐层状态，分别通过全连接层映射到词典大小的空间后，再进行加权求和和softmax来得到预测单词在词典中的概率分布。

步骤3：设计网络的损失函数。

主要包括原始的交叉熵损失函数和本方法提出的条件随机场损失函数。其中交叉熵损失是为了保持句子的流畅度，条件随机场损失通过约束生成词性的准确性进而约束生成描述句式的准确性。

具体的，预定义次数和预定义句子个数设为5，ENDT设为20，即一个图像描述句子中由最多20个单词组成，对于输入的图像描述少于20个单词的句子，缺损的单词用预定义的符号表示。公式(15)中总体损失函数的γ和β分别设置为0.25和0.75。0.25和0.75的分配能够保证模型不会因为过分关注生成描述句式的准确性，而导致模型对当前的描述目标给予的关注变少，使得描述物体不准确的问题。

步骤4：用步骤1中处理好的训练数据和步骤2、3中定义好的模型结构和损失函数，训练网络模型。

Step1：初始化模型参数。对编码器网络中的参数使用Xavier的方法进行初始化。

Step2：按batch大小，取出所有图像在步骤1中得到的全局特征、局部特征。以及每张图像对应的5句真实描述，以及各描述对应的词性标注序列。

Step3：在初始状态，将图像的全局特征传入到我们设计的解码器网络中，得到初始LSTM单元的状态向量，并输入一个预先规定的<START>向量，得到第一个位置上的预测单词和预测词性。在后续时刻，对每个LSTM单元输入真实描述对应的单词向量以及上一LSTM单元的隐层状态，更新这一时刻的LSTM单元，并由此预测相应的单词和词性。其中，在训练时第0时刻的输入x₀是预定义的词向量<START>，第1时刻的输入x₁是图片对应真实描述第0位置的单词的词向量，以此类推，直到第ENDT时刻。并根据真实的描述和词性标注序列，由步骤4中设计好的损失函数计算得到损失。

Step4：使用Adam的优化方法，设置初始化学习率为0.0005，并且每进行三轮训练就对学习率按0.8的速率衰减，对参数进行更新。

Step5：重复Step2-Step4，不断进行迭代，直到损失函数收敛。

经过以上训练，得到一个图像语义描述生成网络。

步骤5：根据图像得到对应的图像描述。

将一张图像输入到步骤4中得到的图像语义描述生成网络中，由训练好的网络结构进行前向传播，这里与训练时刻各个LSTM单元稍有区别的是，第0时刻的输入x₀是预定义的词向量<START>，第1时刻的输入x₁是第0时刻的输出词向量y₀，第2时刻的输入x₂是第1时刻的输出词向量y₁，以此类推，直到第ENDT时刻；最后将y₁至y_ENDT依次连接即可以得到对应的自然语言描述。

实验效果

为了验证本发明方法的有效性，我们在MSCOCO caption数据集上进行了充分验证；表1是在MSCOCO数据集上的实验结果。

表1：MSCOCO数据集上的实验结果

其中SCST:Att2in是对比的基线模型：，CRFA(基于条件随机场的图像语义生成模型)是本发明方法模型。评价指标这一列中的列出7种评价指标是图像描述领域常用的评价方法，得分越高表示模型的效果越好。从实验结果可以看出，本专利中提出的模型相比于基线模型在MSCOCO数据集上的各项评分上都有较大的提升。

为了说明本发明的内容及实施方法，本说明书给出了上述具体实施例。但是，本领域技术人员应理解，本发明不局限于上述最佳实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于条件随机场和内部语义注意力的图像描述方法，其特征在于，包括以下步骤：

步骤1：处理训练数据

步骤2：设计网络结构模型

采用在ImageNet数据集上预训练的ResNet101网络最后一个卷积层提取图像中的特征，得到的特征维度为2048×14×14，记作

a_i表示每个位置上的图像特征；对所有a_i取平均值得到全局特征，记作a^g；

使用Faster R-CNN提取图像的局部注意力特征，记作