CN113918754A

CN113918754A - 基于场景图更新与特征拼接的图像字幕生成方法

Info

Publication number: CN113918754A
Application number: CN202111283716.3A
Authority: CN
Inventors: 吴春雷; 李阳; 路静; 郝宇钦; 韦学艳
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-01-11

Abstract

本发明公开了一种基于场景图更新与特征拼接的图像字幕生成方法，它解决了当前基于场景图的图像字幕模型中长短期记忆神经网络丢失先前输入的细节信息的问题，以及场景图更新机制中结点更新程度过大的问题。本发明首次提出了特征拼接网络，该网络对语言LSTM的输入变量做了改进，目的是尽可能多地保留原始输入信息，减少输入信息在计算过程中的损失。其次，本发明提出一种新的场景图更新机制来更新已访问过的结点权重，避免引起结点信息丢失的问题。同时，本发明设计了图更新系数来指导图更新，以确定更新程度的大小。本发明在官方数据集Microsoft COCO上进行了实验，在各种评估机制的实验中取得了有竞争力的结果。

Description

基于场景图更新与特征拼接的图像字幕生成方法

技术领域

本发明属于图像字幕自动生成方法，涉及计算机视觉和自然语言处理的技术领域。

背景技术

计算机根据给定的图像自动生成简短的描述图像的句子,这个任务被称为图像字幕生成。在当前的计算机视觉领域中,图像字幕生成融合了机器学习、计算机视觉等多个不同领域,是一项具有挑战性的任务。主流的图像字幕生成模型大多数采用卷积神经网络获取图像视觉特征,并对显著区域和对象施加注意力,通过递归模型生成描述。Vinyals等人采用卷积神经网络将图像视觉信息编码为固定长度向量,递归神经网络作为解码器,依次生成单词。Lu等人提出了一种自适应注意力机制,在模型生成单词时判断是否需要关注图像信息及关注的程度。随着对图像字幕生成任务的研究逐渐增多,图像的场景图被用来增强图像字幕生成模型,从而利用场景图的结构语义,如对象、关系和属性。然而当前基于场景图的图像字幕生成模型并未考虑到长短期记忆神经网络对于先前输入信息的保留,目前大部分图像字幕生成任务都是基于编码器-解码器框架结构,但解码器对于输入到LSTM中的信息经过多次计算后可能会丢失部分原始输入信息。原始输入信息中的细节能够指导句子的生成,因为对于模型生成的句子,其中每个单词的生成都要依赖于输入信息,假如丢失了先前的原始输入信息,则很难生成准确的句子。

在使用场景图生成描述的研究中,图更新机制在每一步解码后更新当前的图,改变图结点的权重以保证结点不被重复使用,但是当前的场景图更新机制中存在结点更新程度过大的问题,改变权重的方式容易丢失有效的信息，导致生成句子的准确度降低。

为了在一定程度上解决丢失原始信息和图更新程度过大的问题,本文提出了基于场景图更新与特征拼接的图像字幕生成网络,该网络改进了图更新机制及语言LSTM中的输入信息,目的是使图更新程度的大小更合理,并减少原始信息的细节损失。首先,每张图像对应一个场景图信息,网络对场景图进行编码,对编码后的场景图特征施加注意力,网络将得到的上下文特征传递给双层LSTM进行解码,其中将原始信息注入到语言LSTM中,最后通过场景图更新模块将已访问过的结点权重降低,以既可以使网络关注未关注过的结点,又尽可能保留结点的内容信息。

发明内容

本发明的目的是解决丢失原始信息和图更新程度过大的问题，在更新过程中保持删除信息和保留信息的平衡，使图更新程度的大小更合理,并减少原始信息的细节损失，从而生成与输入图像内容更匹配的句子。

本发明为解决上述技术问题采取的技术方案是：

S1.构建特征拼接网络。

S2.构建场景图更新模块。

S3.结合S1中的特征拼接网络、S2中的场景图更新模块构建基于场景图更新与特征拼接的图像字幕生成网络架构。

S4.基于场景图更新与特征拼接的图像字幕生成网络的训练和字幕生成。

本发明的特征拼接网络采用两层LSTM结构，包括注意力LSTM和语言LSTM。其中注意力LSTM表示视觉注意LSTM,作用是整合视觉信息以及隐藏层信息,并将自身计算得到的隐藏层信息作为模型注意力机制的一部分输入；语言LSTM表示用来生成语言的LSTM,实现顺序地预测单词生成的功能。全局图像特征是通过在ImageNet上预训练的ResNet152来提取的。为了充分利用视觉信息和单词嵌入信息指导句子的生成，本发明将全局图像编码嵌入、已生成的单词嵌入注入到语言LSTM中。

注意力LSTM在每个时间步中会接收输入图像的特征编码嵌入、词嵌入向量以及之前时间步的信息,注意力LSTM将以上输入的信息进行整合得到LSTM的隐藏状态,然后将输出的隐藏层信息作为注意力机制输入的一部分,计算得到上下文特征。最后,计算得出的上下文信息和注意力LSTM的隐藏状态一起作为模型语言LSTM的输入。另外,为了充分利用原始信息,本发明将全局图像编码嵌入

已生成的单词嵌入w_t-1与经过注意力LSTM所得的特征拼接后得到新特征作为语言LSTM的输入,得到语言LSTM的输出。最后,在t时刻要生成的单词y_t由模型利用语言LSTM的隐藏状态预测得到,其具体公式如下：

其中

是语言LSTM前一时刻的输出,

是注意力LSTM前一时刻的输出,Attn为注意力操作,上下文向量z_t经过Attn操作后得到。w_t-1是已生成单词的嵌入,

是全局编码嵌入,W_u是参数。在时间步长t处单词分布的概率如下：

其中W_p是学习权重,b_p是偏差。句子概率分布计算公式如下：

在每一时间步生成单词y_t后,将t时刻的结点嵌入X_t重新赋予权重,更新为下一时刻使用的X_t+1,即更新结点的访问状态。每个结点的访问强度用注意力分数α_t来表示,当t时刻某一个结点注意力高时代表已经使用过当前结点,为了不重复使用,当前结点的权重应该被更新为较低的权重,注意力分数越高的结点下一时刻权重被降低的幅度应越大。

在生成一些特殊单词如“a”和“this”时,尽管访问了图结点,但这些单词是非可视的,此时不更新结点。因此,我们采用了自适应更新机制,用来修改注意力强度,如下所示：

其中,f_vs是一个全连接网络,θ_vs是参数,该网络输出一个标量来表示当前注意的结点是否由已生成的单词表达的。

我们观察到在更新结点的过程中,结点权重有可能会直接被设置为0即完全被删除,虽然t时刻对注意力分数高的结点X_max在t₊₁时刻关注程度应降低,但X_max中的信息仍是有价值的,如果直接删除会导致结点保存的信息不能对后续生成单词起到任何指导作用。本发明设计了图更新系数GUF来指导图更新,并不会完全删除结点,仅使结点权重降低,计算公式如下：

其中e_t,i代表t时刻对第i个结点的注意力强度,取值在0-1之间,如果e_t,i取值为0代表结点在t时刻未被使用因此不应被更新,如果e_t,i取值为1代表结点需要被更新的程度最大。u_t,i是视觉哨门,控制更新的程度,在0到1之间,u_t,i的值越高代表更新的程度越大。根据对变量取值的分析,GUF的取值在0.5-1之间。

使用GUF来指导图更新,GUF的取值决定了结点下一时刻被访问的程度,从而实现场景图更新。通过以下公式来更新图结点：

x_t+1,i＝GUF·x_t,i (9)

根据对图更新系数GUF的分析,GUF的取值在0.5-1之间,即使更新程度最大,X_t+1也将更新为0.5X_t,并不会被设为0,即并不会被完全删除。因此更新的幅度比完全删除更小,结点保存的信息仍能在一定程度上起到指导句子生成的作用。通过这种方式,我们将结点嵌入X_t更新为下一个解码步骤使用的X_t+1。

本发明提出的基于场景图更新与特征拼接的图像字幕生成网络包含一个特征拼接网络和一个场景图更新模块。

最后，所述的基于场景图更新与特征拼接的图像字幕生成网络训练方法如下：

在训练阶段，迭代周期设置为100，对于语言解码器，LSTM层的单词嵌入和隐藏层大小设置为512。初始学习率为0.0001，batch size设置为128，训练采用最小化交叉熵损失。在推理单词过程中，我们使用beam search，设置beam size为5。

与现有的技术相比，本发明的有益效果是：

1.本发明提出了特征拼接网络，对基线模型中语言LSTM的输入变量做了改进,将原始特征与经过注意力LSTM所得的特征拼接后得到新特征作为语言LSTM的输入,以充分利用全局图像信息和嵌入信息来生成句子。

2.本发明提出了一种新的图更新机制,改进了现有的基于场景图的图更新方法,它可以使网络关注重要信息的同时尽可能保留原始结点的信息,我们设计了图更新系数来指导图更新,以确定更新程度的大小。

附图说明

图1为特征拼接网络示意图。

图2为场景图更新模块结点更新示意图。

图3为基于场景图更新与特征拼接的图像字幕生成网络结构示意图。

图4为单独使用特征拼接网络、单独使用场景图更新模块以及同时使用特征拼接网络和场景图更新模块的结果对比图。

图5为基于场景图更新与特征拼接的图像字幕生成网络的字幕与其他方法生成字幕的对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制。

以下结合附图和实施例对本发明做进一步的阐述。

图1为特征拼接网络结构示意图。如图1所示，本发明的特征拼接网络采用两层LSTM结构，下方为注意力LSTM，上方为语言LSTM。其中注意力LSTM表示视觉注意LSTM,作用是整合视觉信息以及隐藏层信息,并将自身计算得到的隐藏层信息作为模型注意力机制的一部分输入；语言LSTM表示用来生成语言的LSTM,实现顺序地预测单词生成的功能。将全局图像特征

和已生成的单词嵌入w_t-1与注意力LSTM隐藏层特征拼接，输入到图上方的语言LSTM中，得到语言LSTM的输出。全局图像特征是通过在ImageNet上预训练的ResNet152来提取的。

在t时刻要生成的单词y_t由模型利用语言LSTM的隐藏状态预测得到,其具体公式如下：

其中

是语言LSTM前一时刻的输出,

其中W_p是学习权重,b_p是偏差。句子概率分布计算公式如下：

图2为场景图更新模块示意图。如图2所示，

是语言LSTM的输出，更新后得到的G_m+1是下一时刻使用的场景图。在每一时间步生成单词y_t后,将t时刻的结点嵌入X_t重新赋予权重,更新为下一时刻使用的X_t+1,即更新结点的访问状态。每个结点的访问强度用注意力分数α_t来表示,当t时刻某一个结点注意力高时代表已经使用过当前结点,为了不重复使用,当前结点的权重应该被更新为较低的权重,注意力分数越高的结点下一时刻权重被降低的幅度应越大。

我们观察到在更新结点的过程中,结点权重有可能会直接被设置为0即完全被删除,虽然t时刻对注意力分数高的结点X_max在t+1时刻关注程度应降低,但X_max中的信息仍是有价值的,如果直接删除会导致结点保存的信息不能对后续生成单词起到任何指导作用。本发明设计了图更新系数GUF来指导图更新,并不会完全删除结点,仅使结点权重降低,计算公式如下：

x_t+1,i＝GUF·x_t,i (9)

根据对图更新系数GUF的分析,GUF的取值在0.5-1之间,即使更新程度最大,X_t+1也将更新为0.5X_t,并不会被设为0,即并不会被完全删除。因此更新的幅度比完全删除更小,结点保存的信息仍能在一定程度上起到指导句子生成的作用。

通过这种方式,我们将结点嵌入X_t更新为下一个解码步骤使用的X_t+1。

图3为基于场景图更新与特征拼接的图像字幕生成方法结构示意图。如图3所示，模型首先使用图卷积网络集成场景图中的信息得到G_m，经过注意力得到集成上下文信息z_t。然后将得到的集成上下文信息输入特征拼接网络进行字幕生成。特征拼接网络包括两层LSTM结构，分别用来处理注意力信息和单词信息。并且本发明将全局图像编码嵌入

已生成的单词嵌入w_t-1与经过注意力LSTM所得的特征拼接后得到新特征作为语言LSTM的输入，以充分利用全局图像信息和嵌入信息。最后，在生成单词y_t后，本发明通过图更新模块将结点嵌入X_t的权重更新，并根据本发明提出的图更新系数作为调整结点权重的依据，使下一时间步的结点X_t+1权重更为合理。

图4为单独使用特征拼接网络、单独使用场景图更新模块以及同时使用特征拼接网络和场景图更新模块的结果对比图。如图4所示，同时使用特征拼接网络和场景图更新模块对于图像字幕生成具有最好的性能,在生成语句的准确度、流畅度上的表现都得到了最高的指标值。

图5为基于场景图更新与特征拼接的图像字幕生成网络生成的字幕与其他模型生成字幕的对比图。如图5所示，基于场景图更新与特征拼接的图像字幕生成网络生成的句子要比图中其他模型更加准确。

本发明提出了一种基于场景图更新与特征拼接的图像字幕生成方法。首先，本发明提出了特征拼接网络，该网络对基线模型中语言LSTM的输入变量做了改进，目的是尽可能多地保留原始输入信息，减少输入信息在计算过程中的损失。其次，本发明提出了一种新的场景图更新机制来更新已访问过的结点权重，避免引起结点信息丢失的问题。同时，本发明设计了一个图更新系数来指导图更新，以确定更新程度的大小。有效解决了当前基于场景图的图像描述模型中长短期记忆神经网络丢失先前输入的细节信息的问题以及场景图更新机制中存在结点更新程度过大的问题。通过训练使得生成的字幕能够准确地描述图像的内容，并且语句流畅。

最后，本发明的上述示例的细节仅为解释说明本发明所做的举例，对于本领域技术人员，对上述实施例的任何修改、改进和替换等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于场景图更新与特征拼接的图像字幕生成方法，其特征在于，所述方法包括以下步骤：

S1.构建特征拼接网络。

S2.构建场景图更新模块。

2.根据权利要求1所述的构建特征拼接网络，其特征在于，所述S1的具体过程为：

首先使用在ImageNet上预训练的ResNet152来提取全局图像特征。本发明的特征拼接网络采用两层LSTM结构，包括注意力LSTM和语言LSTM。其中注意力LSTM表示视觉注意LSTM,作用是整合视觉信息以及隐藏层信息,并将自身计算得到的隐藏层信息作为模型注意力机制的一部分输入；语言LSTM表示用来生成语言的LSTM,实现顺序地预测单词生成的功能。为了充分利用视觉信息和单词嵌入信息指导句子的生成，本发明将全局图像编码嵌入、已生成的单词嵌入注入到语言LSTM中。