CN110532555B

CN110532555B - 一种基于强化学习的语言评价生成方法

Info

Publication number: CN110532555B
Application number: CN201910794996.0A
Authority: CN
Inventors: 金鑫; 周兴晖; 吴乐; 李晓东
Original assignee: BEIJING ELECTRONIC SCIENCE AND TECHNOLOGY INSTITUTE
Current assignee: Beijing Hidden Computing Technology Co ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-12-13
Anticipated expiration: 2039-08-27
Also published as: CN110532555A

Abstract

本发明提出了一种基于强化学习的语言评价方法，此方法利用了CIDEr评价标准(Consensus‑based Image Description Evaluation)进行判断优化学习的策略。本发明借鉴基础的强化学习算法用以训练网络：通过自引导序列算法，使用贪婪搜索的策略，将搜索的最终结果作为强化学习算法中的基线，使得算法生成的结果接近贪婪搜索结果。该方法引入了自引导序列算法，同时也对传统编码器与解码器框架进行了优化，其中用于生成语言评价的解码器单元，使用了带注意力机制的长短期记忆网络。综合这两个改进，此方法在美学评论生成任务中取得了较好的效果。

Description

一种基于强化学习的语言评价生成方法

技术领域

本发明属于可视计算、计算机视觉领域，具体涉及一种基于强化学习的语言评价生成方法。

背景技术

基于强化学习的语言评价生成可用于可视计算领域中，作为图像的属性的一部分，给图像的推荐系统提供更多的应用前景。

目前语言评价生成方法可以被粗略的分为卷积神经网络和递归神经网络两类。其中卷积神经网络直接使用神经网络提取图像特征，用得到的图像特征与已知的语言评价进行配对预测，最终生成语言评价。基于递归神经网络较为复杂，可先对神经网络提取图像特征，再用递归神经网络依次预测生成的词汇。与卷积神经网络相比，递归神经网络具有两个特点：(1)生成的语言评价更为具体详细，符合语法规范；(2)算法更为复杂，需要其他方法用以辅助实施。

常见的辅助递归神经网络的算法有注意力机制、双向长短期记忆网络、门控记忆单位等，而这些方法被广泛应用于评价生成的任务中。然而对于特定的美学评价，需要使用能决定推荐词汇的算法，因此上述的方法不再适用。因此本发明使用了强化学习的技巧。

强化学习可以利用自引导序列算法对生成的语言评价提供概率最大的推荐词汇，利用行动者评价者学习技巧，寻找当前最优的词汇选择策略。因此，提出一种基于强化学习的语言评价生成方法是非常必要的。之前的发明中进行语言评价生成时效果不佳。

将强化学习运用在语言评价生成上目前的方法目前有一下三篇论文：第一篇：FAIR在ICLR(International Conference on Learning Representations)2015发表的文章《Sequence level training with recurrent neural networks》，主要方法是使用最大似然方法进行预训练，然后用强化学习进行递归神经网络模型的迁移学习，同时在计算决策函数时，未使用任何图像的实际标注信息。第二篇是Rennie、Steven J等人在CVPR(IEEEConference on Computer Vision and Pattern Recognition)2016上发表的文章《Self-critical Sequence Training for Image Captioning》，文章引入贪心搜索算法，将强化学习中策略函数的基线提高到了更高的水平，并因此获得了一定的进步。第三篇仍然是Steven J、Rennie等人的著作，发表在CVPR(IEEE Conference on Computer Vision andPattern Recognition)2019的文章《Self-critical Sequence Training for ImageCaptioning》，文章使用了模型在测试过程中生成的句子作为基线，以提高生成词汇的质量。

本发明与上述方法的区别在于，本发明通过利用自引导序列算法，同时加入行动者评价者学习技巧，对语言评价中每个词汇的产生提出了更高的基线模型。上述现有技术缺乏对数据集的评论的依赖，在进行测试时依赖模型生成的单词，而受数据集的实际标注信息的影响较小，因此生成的评论质量往往较差。本发明的优点在于自引导序列算法可较好的拟合数据集的实际标注信息，可较好的指导并输出语言评价。

发明内容

本发明要解决的技术问题为：克服现有技术的不足，提供一种基于强化学习的语言评价生成方法，该方法能够有效的提供最优的词汇选择策略，指导语言评价生成，大幅度提高美学评论生成任务中语言评价的质量。

本发明采用的技术方案为：一种基于强化学习的语言评价生成方法，其特征在于：该方法实现步骤如下：

(1)将输入数据集(包含图像及其对应语言评价)中的每一类语言评价利用WordEmbedding(词嵌入)技术生成不同属性的Word2Vec向量。同时进行分词提取和词形还原，词汇数据为英语，需要处理各种时态，进行对应的词干提取和词形还原。接下来构造词典，统计词频。该步骤需要遍历所有问题，找出所有出现过的词汇，并统计各个词汇的出现频率；

(2)对处理完毕得到的词向量和使用卷积神经网络提取到的图像卷积特征图进行线性融合，同时作为输入数据输入到基于递归神经网络的语言生成模块中；

(3)将基于递归神经网络的语言生成模块的输出，作为强化学习模块的输入，进行引导序列算法学习，对应的学习算法为行动者评价者学习算法(Actor-Critic)，学习优化的结果会动态调整注意力和语言生成的具体参数，从而利用模型损失的反向传递进行网络优化。

上述步骤作为完整过程反复进行，迭代一定轮数后，可以生成最终的图像语言评价，具体包括：用光和用色评价、构图评价、景深和聚焦评价、印象和主题评价、相机技巧评价。

其中：步骤(2)基于递归神经网络的语言生成模块包括以下步骤：

(21)构造树形结构。依照词汇的出现频率构造Huffman树，生成节点所在的二进制码。其中二进制码反映了节点在树中的位置，根据这个编码，可按照编码从根节点找到对应的叶节点。

(22)初始化各非叶节点的中间向量和叶节点中的词向量。树中的各个节点，都存储着一个长为m的向量，但叶节点和非叶节点中的向量的含义不同。其中叶节点中存储各词的词向量，作为下一步神经网络的输入，而非叶节点中存储的是中间向量，对应于神经网络中隐含层的参数，与输入一起决定分类结果。

(23)将目前得到的参数数据同之前获得的编码信息送入LSTM(长短期记忆网络)单元之中，具体每个LSTM单元工程过程包括四个步骤，第一步，根据前次工作记忆与当前输入的图像卷积特征图乘以权重矩阵，加上偏置项，使用Sigmoid激活函数，得到一个元素的输出数据。第一层决定忘记哪些、忘记多少信息；第二步，确定应当将哪些新信息存放进细胞状态中，具体的细胞状态包括:Sigmoid层，也称之为“输入门层”，决定该状态要更新哪些值，tanh层，用于创建一个新的候选值向量，tanh层的目的是计算可以从中学习的信息，即将长期记忆的候选添加入已知的记忆中。在忘记不再需要的记忆并保存从输入信息中学习的信息后，可得到更新后的长期记忆；第三步，用Dropout函数，也称之为“忘记门”，与前一次隐藏层的值相乘，得到需要忘记的前次信息，加上长期记忆的候选添加项城需要更新的值，得到新的候选值，以此更新记忆数据，也即将长期记忆聚焦到能立刻发挥作用的信息上，确定输出的数据。通过迭代以上的长短期记忆网络单元的过程，最终根据词向量输出相应的评价。

(24)该模块使用输入向量和图像卷积特征图作为输入，使用多个长短期记忆网络单元组进行处理。每个长短期记忆网络单元组包括多个长短期记忆网络单元，用以生成用光和用色评价，构图评价，景深和聚焦评价，印象和主题评价，相机技巧评价，共五个语言评价。详见附图1。

其中：步骤(3)强化学习模块包括以下步骤：

(31)构建决策函数，从状态映射到动作，该函数的形式和参数即为需要学习的部分。其中状态指的是所进行学习的图片和已生成的单词，而动作是下一个单词生成的选择，回馈信息是CIDEr评价标准(Consensus-based Image Description Evaluation)等具体指标。

(32)设计自引导序列算法，用当前模型在测试阶段生成的词的回馈作为基线，从而对梯度的形式产生影响，影响之后的具体公式为：

上式中，w代表具体参数，θ代表网络中间变量，L是损失函数，t代表时间状态，h代表隐含层，s代表环境状态，r代表回馈函数，其中

作用是在测试阶段使用贪心策略进行解码取概率最大的词汇来生成句子。而r(w^s)是通过根据概率来随机采样的词汇，如果当前概率最大的词汇的概率为90％，那就有90％的概率选到它，而不是像贪心策略编码一样必定选最大数值。

对于上述公式表达的含义，对于当前生成采样输出的单词，如果比测试阶段生成的单词好，那么在对于整体输出而言，整个式子就是负值，从表达式也可以看出，如果后项为负值，则结果为负值，通过反向传播所传导的梯度就会增加，从而提高该词汇的得分s_t；而对于其他词，后面乘积项就为正数，梯度就会下降，从而降低其他词汇的分数。

其中：步骤(3)行动者评价者学习算法包括以下步骤：

(41)行动者评价者学习算法(Actor-Critic)整合了以具体值为基础和以动作发生的概率为基础的两类强化学习算法。根据动作值函数评估应该在实际中选择执行哪个动作，该函数决定了某一个特定状态以及在该状态下采取特定动作的奖励期望值。

(42)以具体数值为基础的强化学习算法的优化目标是最大化表单函数的值。其中表单函数包含状态和动作，返回在当前状态下采取该动作的未来奖励期望。事实上，对于复杂的学习任务表单函数会给出相同的任意的设定值，用以对环境变化做出反应进行持续探索，以得到越来越好的回馈。同时这个表单中纪录了对于每个状态的最好可能动作，在这些可能的动作之中选择一个最好的来最大化其期望奖励，其中表单位某一特定状态下采取某一特定动作的具体衡量手段。

(43)行动者评价者学习算法属于增强学习中策略梯度学习算法的一种，需要将确定词汇概率的策略形式α＝p_i(s,θ)转化为概率形式：p(a)＝p_i(a|s,θ)，策略梯度学习是对参数θ求梯度的方法。

(44)为使得最后的决策能获得更高的回馈，最简单的就是使得高回馈的行为有高概率，低回馈的行为有低概率，所以强化学习的更新目标为：

其中R(a,s)是指奖励回报函数，通过目标，可以使用随机梯度下降来更新θ以获得更大的回报。然而该方法面临一个问题，训练时梯度的方差过大，导致训练不稳定，若奖励回馈函数的值在120到130之间，现有的方法虽然额能更大地提高奖励回报函数为130的行为的概率，但也还是会降低奖励回报函数的行为的概率。为克服该问题，进一步优化基于基线的强化学习算法，更新目标为：

其中b(s)是基线(baseline)，目的是通过给回馈一个基准来减少方差。假设还是120到130的回报，将基线设置为125，那么只有120回馈的行为就会被降低概率，而130回馈的行为则会被提升概率。从而神经网络就可以针对设定的强化学习具体任务进行优化，显著提升了训练结果词汇生成的丰富性。

本发明的原理在于：

根据目前语言评价生成方法，可以总结出基于强化学习的语言评价生成方法一些规则，如下所述：

(1)需要根据输出数据集统计词汇频率，构建树形结构和的词汇的信息编码；

(2)基于递归神经网络的语言生成中需要根据记忆、学习、忘记三个步骤涉及方法模型；

(3)强化学习模块需要构建决策函数，设计自引导序列算法，用当前模型在测试阶段生成的词的回馈作为基线，以梯度的形式对词汇的选择产生影响；

(4)行动者评价者学习算法将词汇的策略形式转变为概率形式，为进一步增加模型的稳定性，该概率形式引入了基线模型。

根据上述规则，本发明利用递归神经网络、强化学习模块、行动者评价者学习算法，设计了一种新的基于强化学习的语言评价生成方法。

在该方案中，自引导序列算法直接利用了CIDEr评价标准，即强化学习中的反馈，进行优化学习的策略。由于此目标函数不可微，在实验中使用了行动者评价者算法进行优化训练。实验分析表基于强化学习的语言评价生成方法，能够在图像美学语言评价领域具有较好的性能。

本发明与Steven J、Rennie等人的著作，发表在CVPR(IEEE Conference onComputer Vision and Pattern Recognition)2019的文章《Self-critical SequenceTraining for Image Captioning》相比，本发明的优点在于优化了强化学习模块中的更新目标。该文章中的更新目标表示为：

其中

是词汇的独热向量表示，该方法以大量的高维度离散信息保存数据集中的词汇，因此难以同时在多个维度上拟合数据集中的实际语言评价，对强化学习而言，缺乏一定的决策判断能力。本发明使用对多个测试结果进行对数计算可得到综合的更新目标，可实现对数据集中的评价的更好拟合。

本发明与现有的技术相比，其优点在于：

(1)方法使用递归神经网络，能较好的生成高质量的语言评价，符合语法规范；

(2)使用强化学习中的自引导序列算法和行动者评价者算法对语言评价生成进行优化，同时评价质量更好；

(3)引入基线模型可具有更强的稳定性，可应用于复杂的美学评价生成任务。

附图说明

图1是基于递归神经网络的语言生成模块流程图；

图2是本发明方法实现流程图。

具体实施方式：

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，基于递归神经网络的语言生成模块具体实现如下：

步骤1：根据输入的DPC-Captions数据集计算词向量，同时对数据集中的图像进行卷积操作，得到图像卷积特征图。将词向量和图像卷积特征图输入到长短期记忆网络(LSTM)中；

步骤2：针对不同的评价，分别使用强化学习，利用决策函数对递归网络的词汇输出进行一定的指导，根据数据集中的词汇信息预测并生成需要的词汇，重复多次预测过程，最终生成语言评价。

如图2所示，本发明方法具体实现如下：

步骤1：输入数据集中的每一类语言评价利用词嵌入技术生成不同属性的词向量；

步骤2：将图像输入卷积神经网络，得到图像卷积特征图；

步骤3：对步骤1中得到的词向量和步骤2中的图像卷积特征图进行线性融合，生成递归神经网络的输入编码，将该编码输入到递归神经网络中；

步骤4：长短期记忆网络单元根据输入预测语言评价输出，同时计算在测试集上的不同采样结果下的反馈；

步骤5：将采样结果和当前最大采样结果之间的差距作为补偿，同时判断采样结果是否大于当前最大采样结果，如果大于则不进行补偿的反向传递，如果不大于则进行补偿的反向传递；

步骤6：计算当前模型的CIDEr值，判断CIDEr是否升高，若不升高，则进行步骤4，若升高，则结束当前模型计算。

本发明所使用的强化学习算法基于行动者评价学习算法进行设计，在此基础上改变了基线的选取。具体来说，具体方法中没有使用任何函数来对基线进行建模，而是使用了贪婪策略解码的结果的回馈作为基线。之所以这样做，是因为这样做选择基线会减小梯度的方差，从而使得网络达到更好的优化效果。

本发明的强化学习所使用的基线的实际工作原理：如果采样得到句子没有贪婪策略解码的结果好，那么降低这个词句得到的概率，如果比贪婪策略解码还要好，则提高它的概率。

这个方法的避免了训练一个模型，并且这个基线也极易获得。对于本文的具体任务而言其代理(Agent)就是LSTM网络，环境(Environment)就是美学图像和每个图像的美学语言评论，动作(Action)就是所预测出的下一个单词，模型的具体参数就是整个强化学习过程中的策略(Policy)，通过这些策略利用行动者评价学习算法生成具体动作，网络状态(State)就是长短期记忆单元中的单元和隐层状态以及注意力机制中的权重，整个系统的奖励(Reward)就是自然语言处理中CIDEr指标的分数，训练的具体目标就是最小化损失期望，如以下公式所示：

上面公式展示了改进前所使用的具体优化过程，本发明所使用的强化学习算法在此基础上进行了改进，如下所示：

上式的公式中的b(s)代表基线，只要这个b(s)不依赖于网络中权重w^s，减去了基线并不改变梯度的值，可以实现正常的优化的过程。

本发明在训练阶段，使用了课程学习(Curriculum Learning)的方法，课程学习主要思想是通过模拟人类学习的特性，由简单到困难来学习课程，也就是先学习难易度较低的样本再学习难易度较高的样本。通过这种学习方法就可以使模型得到更好的局部最优解，同时加快训练的速度。

课程学习主要针对当前美学语言评价数据集存在的数据质量参差不齐的情况所使用的。它是机器学习领域中的一种训练方法，通过难度逐步提升的策略对目标函数进行优化，也就是说课程学习会对数据集中的简单样本学习出一个基本模型，再从复杂的数据样本中逐渐学习出最后的更优模型。

本发明在实验时先对最后一个词语使用CIDEr作为回馈为优化目标进行训练，前面的词则使用普通的方法进行训练，然后逐步开始提高比例，对最后两个词、三个词用CIDEr性能指标作为回馈进行训练。

总之，本发明中提出的基于强化学习的语言评价生成方法。本发明首次将强化学习引入语言评价生成任务中，提高了语言评价质量，增加模型稳定性，提高了运算效率。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.一种基于强化学习的语言评价生成方法，其特征在于，包括以下步骤：

(1)将输入数据集中的每一类语言评价利用词嵌入Word Embedding技术生成不同属性的Word2Vec向量，其生成结果中，每个词被转为一个词向量，所述数据集包含图像及其对应语言评价；同时对语言评价进行分词提取和词形还原，语言评价词汇数据为英语，根据语言的语态和时态对句子进行相应的词干抽取和词形还原；接下来构造词汇词典，词典中的键为词汇本身，值为词汇在全部语言评价中的出现频次，该步骤需要词典遍历所有的语言评价，找出所有出现过的词汇，并统计各个词汇的出现频次，图像经过卷积操作，得到尺寸较原图更小的图像卷积特征图；

(2)对步骤(1)中得到的词向量和使用卷积神经网络提取得到的图像卷积特征图进行线性融合，融合结果为字典，字典中的键为图像特征图，值为图像的五个美学属性对应的评论；图像特征图和图像评论输入到基于递归神经网络的语言生成模块中，用神经网络进行预测处理并生成图像属性评论，输出并得到评论；

(3)将基于递归神经网络的语言生成模块的单词序列输出，作为强化学习模块的输入，进行语言序列生成的学习过程，语言生成过程中使用的学习算法为行动者评价者学习算法(Actor-Critic)；强化学习模块通过决策函数对梯度下降的方向提供指导，对不同的梯度下降方向提供决策，以生成的词汇的回馈作为基线，决定梯度下降的方向；根据语言生成的结果动态调整递归神经网络中的注意力模型参数和其他涉及到语言生成的参数递归神经网络将预测单词的词向量与实际词汇的词向量间的误差，作为回归预测算法的优化损失，并进行反向传递，以达到网络优化的目的；所述其他涉及到语言生成的参数包括词向量长度、长短期记忆网络的个数参数；

(4)从单词序列的输出、动态调整参数到损失反向传导，将上述步骤(1)-(3)作为完整过程反复进行，迭代一定轮数后，生成最终的图像语言评价，图像语言评价包括：用光和用色评价、构图评价、景深和聚焦评价、印象和主题评价、相机技巧评价；

所述步骤(2)中，基于递归神经网络的语言生成模块实现如下：

(21)构造树形结构，输入为数据集中按批次大小分割好的局部依照词汇的出现频率构造Huffman树，生成节点所在的二进制码，其中二进制码反映了节点在树中的位置，根据二进制码的二进制码数值，按照编码从根节点找到对应的叶节点；

(22)初始化各非叶节点的中间向量和叶节点中的词向量，树中的各个节点，都存储着一个长为m的向量，但叶节点和非叶节点中的向量的含义不同，其中叶节点中存储输入的各个词汇的各词的词向量，作为长短期记忆网络，而非叶节点中存储的是中间向量，对应于长短期记忆网络中隐含层的参数，与输入一起决定词汇生成结果；

(23)将隐含层的参数同步骤(21)中的二进制码数值送入LSTM(长短期记忆网络)单元之中；

(24)步骤(23)的长短期记忆网络具体包括多个长短期记忆单元，每个单位为一个小的长短期记忆网络，分别用于生成一种评价，其中包括生成用光和用色评价，构图评价，景深和聚焦评价，印象和主题评价，相机技巧评价，共五个语言评价。

2.根据权利要求1所述的基于强化学习的语言评价生成方法，其特征在于：所述步骤(3)中，强化学习模块实现如下：

(31)构建决策函数：从状态映射到动作，该决策函数的形式和参数即为需要学习的部分，其中状态是指所进行学习的图片和已生成的单词，动作是下一个单词生成的选择，对于优化损失，使用的是CIDEr评价标准(Consensus-based Image Description Evaluation)具体指标；

(32)设计自引导序列算法，用长短期记忆网络模型在测试阶段生成的词的回馈作为基线，从而对梯度的形式产生影响，影响之后的具体公式为：

作用是在测试阶段使用贪心策略进行解码取概率最大的词汇来生成句子，而r(w^s)是通过根据概率来随机采样的词汇。