CN111783852B

CN111783852B - 一种基于深度强化学习自适应式生成图像描述的方法

Info

Publication number: CN111783852B
Application number: CN202010550939.0A
Authority: CN
Inventors: 李建强; 吴敬怡; 董大强; 冯慧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2024-03-12
Anticipated expiration: 2040-06-16
Also published as: CN111783852A

Abstract

一种基于深度强化学习自适应式生成图像描述的方法及图像描述技术领域，提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息；如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大，可进行自适应的比重修正。本发明使在图像描述问题中生成下一个单词时能够自适应的决策是否利用视觉信息；采用强化学习的奖励机制调整在利用注意力机制生成词语时视觉信息所占比重，使得算法具有很强的学习能力、自适应性、科学性和鲁棒性。

Description

一种基于深度强化学习自适应式生成图像描述的方法

技术领域

本发明涉及图像描述技术领域，具体是一种基于深度强化学习自适应式生成图像描述的方法。

背景技术

图像描述技术可以根据输入机器的图像自动生成人类可理解的文字描述。该技术要求模型不仅能够识别图片中的物体还要理解物体之间的关系，然后以自然语言的方式自动阐述图像特征。图像描述在标注图像、婴幼儿早教、辅助医生临床诊断等方面有重大研究意义。

早期的图像描述工作大多基于检索和语义模板的方法，人们无法有效的提取图像特征，生成的句子描述缺乏灵活性，且不能进行泛化。近些年随着计算机视觉和自然语言处理技术的不断发展，目前大多数图像描述问题基于“编码—解码”框架进行处理。JunhuaMao等人第一次将“编码—解码”框架应用于图像描述问题，通过卷积神经网络(Convolutional Neural Networks,CNN)提取图像特征，后经过递归神经网络(RecurrentNeural Network,RNN)生成图像描述；Xu等人引入注意力机制，使在生成图像描述时更关注图像显著区域来提升图像描述工作性能；Jiasen Lu等人提出一种哨兵机制使得模型在生成下一个单词时利用“哨兵”控制视觉信息和语义信息各自占的比重。

当前这些方法在生成下一个单词时不能够科学的决策是否利用视觉信息，且在利用注意力机制生成下一个单词时无法修正视觉信息的比重。

发明内容

本发明所要解决的技术问题是：提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息；如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大，可进行自适应的比重修正。

为实现上述目的，本发明采用一种基于深度强化学习自适应式生成图像描述的技术方案，具体步骤如下：

步骤1：将数据分为训练集和测试集，训练集由图像及其相应的描述组成，测试集由图像组成；

步骤2：将训练数据集的图像输入卷积神经网络提取图像特征；

步骤3：将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列；

步骤4：将步骤2、3中的图像特征向量和文本序列输入至决策模块，以控制生成下一个词语时是否利用视觉信息；

步骤5：若通过决策模块后触发不利用视觉信息的方法索引，则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory，LSTM)生成图像描述；若通过决策模块后触发利用视觉信息索引生成下一个单词，则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述；

步骤6：使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation，CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正；

步骤7：最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练；

步骤8：将测试数据集的图像分别输入到训练好的图像描述模型中得到相对应的描述语句。

作为一种优选的技术方案，为提供一种内容可控式定向生成图像描述的方法，所述步骤4中的决策模块具体实现为——令作为生成下一个单词的决策概率分布。计算如下：

g_t＝σ(W_xx_t+W_hh_t-1) (1)

s_t＝g_t⊙tanh(m_t) (2)

u_t＝softmax(W_us_t+b_u) (3)

n_t＝argmax(u_t) (4)

式(1)中g_t表示记忆控制门，W_x和W_h为要学习的权重矩阵，x_t为t时刻LSTM的输入，h_t-1为前一时刻的输出状态，σ为非线性激活函数。式(2)中s_t表示当前时刻包含的语义信息的状态，m_t为LSTM中的记忆细胞，tanh为激活函数，⊙表示元素乘积。式(3)中的u_t为生成下一个单词的决策概率分布，W_u和b_u是网络参数，softmax为激活函数。式(4)表示u_t经过argmax函数得到最高概率索引n_t。计算后，将根据最高概率索引去触发生成模块中的不同生成方法。

本发明的有益效果如下：

本发明提出了一种新的决策方式，使在图像描述问题中生成下一个单词时能够自适应的决策是否利用视觉信息；采用强化学习的奖励机制调整在利用注意力机制生成词语时视觉信息所占比重，使得算法具有很强的学习能力、自适应性、科学性和鲁棒性。

附图说明

图1是本发明总体流程图。

图2是生成模块的具体模型图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明，但实例仅用于解释本发明，并不限于此。

结合图1和图2，本实施例基于深度强化学习自适应式生成图像描述的方法由下述步骤组成：

步骤1：从MSCOCO数据集中选择82783张图像和相应描述作为训练集，并选择4000张图像作为测试集；

步骤2：将训练数据集的图像输入到卷积神经网络VGG-19提取图像特征；

本实例中的决策模块具体实现为令为生成下一个单词的决策概率分布，其中s_t为包含之前单词语义信息的参数。计算如下：

g_t＝σ(W_xx_t+W_hh_t-1) (1)

s_t＝g_t⊙tanh(m_t) (2)

u_t＝softmax(W_us_t+b_u) (3)

n_t＝argmax(u_t) (4)

步骤5：若通过决策模块后触发不利用视觉信息的方法索引，则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory，LSTM)生成图像描述，如图2中的分支一(图2上半部分)所示，此时用上一时刻的隐层状态h_t-1、当前输入x_t和当前隐层状态h_t经过多层感知机(Multilayer Perceptron，MLP)预测得到输出y_t；

若通过决策模块后触发利用视觉信息索引生成下一个单词，则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述，如图2中的分支二(图2下半部分)所示，令上下文向量：

C_t＝Atten(V,h_t-1) (5)

式(5)中V为图像特征，Atten为注意力机制的函数。此时用上下文向量C_t、上一时刻的隐层状态h_t-1、当前输入x_t和当前隐层状态h_t经过多层感知机(MultilayerPerceptron，MLP)预测得到输出y_t；

其中计算奖励过程如下：

公式(6)中y_t为当前时刻模型输出的描述，R_t(y_t)定义为当前的单词奖励，f为CIDEr评估方法，分别表示从开始到t和t-1时刻的生成描述集合，gt^s为真实描述即训练集中图像对应的描述；

应用奖励机制反馈到决策模块、生成模块的更新过程具体计算如下：

式(7)中y_t表示为t时刻模型生成的描述，R(y_t)定义为所有单词的折扣奖励，为折扣因子，表示目标最大化一个累积未来折扣回报，即希望学得一个策略(policy)，通过执行这个策略使上式最大化。式(8)中L(θ_t)定义为期望回报，θ_t为决策模块或生成模块中的所有参数，y_t与式(7)中定义相同，y_t ^*表示t时刻图像对应的真实描述，E_yt[R(y_t,y_t ^*)]表示使状态y_t转移到y_t ^*的回报。式(9)/>表示最终对θ_t求导的梯度，/>为分值函数(score function)，则/>表示为与式(8)结合并在分值函数的计算下应用奖励机制的反馈更新计算；

步骤7：最大限度的提高最终生成描述y相对于真实描述y^*的回报以对图像描述模型进行训练，损失函数为：

L(θ)＝-E_n,y[R(y,y^*)] (10)

在式(10)、(11)中θ代表整个模型的参数，n为公示(4)中的概率索引参数，y为模型最终生成描述，y^*为图像对应真实描述。式(10)中L(θ)定义为期望回报，E_n,y[R(y,y^*)]表示使状态y转移到y^*的回报。式(11)中定义为损失函数，/>为分值函数(score function)，通过与式(10)结合计算得到/>

步骤8：将测试数据集的一张图像输入到训练好的图像描述模型中得到相对应的描述语句。

Claims

1.一种基于深度强化学习自适应式生成图像描述的方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的方法，其特征在于：所述步骤4中的决策模块具体实现为——令作为生成下一个单词的决策概率分布；计算如下：

g_t＝σ(W_xx_t+W_hh_t-1) (1)

s_t＝g_t⊙tanh(m_t) (2)

u_t＝softmax(W_us_t+b_u) (3)

n_t＝argmax(u_t) (4)

式(1)中g_t表示记忆控制门，W_x和W_h为要学习的权重矩阵，x_t为t时刻LSTM的输入，h_t-1为前一时刻的输出状态，σ为非线性激活函数；式(2)中s_t表示当前时刻包含的语义信息的状态，m_t为LSTM中的记忆细胞，tanh为激活函数，⊙表示元素乘积；式(3)中的u_t为生成下一个单词的决策概率分布，W_u和b_u是网络参数，softmax为激活函数；式(4)表示u_t经过argmax函数得到最高概率索引n_t；计算后，将根据最高概率索引去触发生成模块中的不同生成方法。

3.根据权利要求1所述的方法，其特征在于：步骤5中若通过决策模块后触发不利用视觉信息的方法索引，则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory，LSTM)生成图像描述，此时用上一时刻的隐层状态h_t-1、当前输入x_t和当前隐层状态h_t经过多层感知机预测得到输出y_t；

若通过决策模块后触发利用视觉信息索引生成下一个单词，则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述，令上下文向量：

C_t＝Atten(V，h_t-1) (5)

式(5)中V为图像特征，Atten为注意力机制的函数；此时用上下文向量C_t、上一时刻的隐层状态h_t-1、当前输入x_t和当前隐层状态h_t经过多层感知机预测得到输出y_t。

4.根据权利要求1所述的方法，其特征在于：步骤6中计算奖励过程如下：

式(7)中y_t表示为t时刻模型生成的描述，R(y_t)定义为所有单词的折扣奖励，γ为折扣因子，表示目标最大化一个累积未来折扣回报，即希望学得一个策略，通过执行这个策略使上式最大化；式(8)中L(θ_t)定义为期望回报，θ_t为决策模块或生成模块中的所有参数，y_t与式(7)中定义相同，y_t ^*表示t时刻图像对应的真实描述，/>表示使状态y_t转移到y_t ^*的回报；式(9)/>表示最终对θ_t求导的梯度，/>为分值函数(score function)，则/>表示为与式(8)结合并在分值函数的计算下应用奖励机制的反馈更新计算。

5.根据权利要求1所述的方法，其特征在于：步骤7中最大限度的提高最终生成描述y相对于真实描述y^*的回报以对图像描述模型进行训练，损失函数为：

L(θ)＝-E_n，y[R(y，y^*)] (10)

在式(10)、(11)中θ代表整个模型的参数，n为公示(4)中的概率索引参数，y为模型最终生成描述，y^*为图像对应真实描述；式(10)中L(θ)定义为期望回报，E_n，y[R(y，y^*)]表示使状态y转移到y^*的回报；式(11)中定义为损失函数，/>为分值函数(score function)，通过与式(10)结合计算得到/>