CN113408430A

CN113408430A - 基于多级策略和深度强化学习框架的图像中文描述系统及方法

Info

Publication number: CN113408430A
Application number: CN202110692364.0A
Authority: CN
Inventors: 王玉静; 杨凯悦; 殷楠楠; 谢金宝; 梁欣涛
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-09-17
Anticipated expiration: 2041-06-22
Also published as: CN113408430B

Abstract

本发明是一种基于多级策略和深度强化学习框架的图像中文描述系统及方法，属于计算机视觉和自然语言处理的交叉领域，图像中文描述方法针对图像中文描述中生成语句的连贯性不佳、可读性差、模型训练时间长等问题；基于RNN的模型，语言指标和视觉语义功能集成以进行优化。所提出的框架包括多级策略网络和多级奖励功能两个模块，引入ResNet152网络提取图像全局特征,通过双层门控循环单元网络(GRU)解码生成图像中文描述模型。本文使用AI Challenger全球AI挑战赛图像中文描述数据集进行实验，并针对词级策略网络和语言奖励功能的几种代表性图像文本模型实验结果表明，该框架在各种评估指标上均具有提升。

Description

基于多级策略和深度强化学习框架的图像中文描述系统及方法

技术领域

本发明涉及一种图像中文描述的方法，尤其涉及基于多级策略和深度强化学习框架的图像中文描述系统及方法，属于涉及计算机视觉和自然语言处理的交叉领域。

背景技术

对于图像中文描述方法，国内外学者已经开展了相关的研究并且取得了一定的成果。图像描述的传统方法是基于模板匹配的方法和基于检索的方法两种。虽然基于模板匹配的方法和基于检索的方法实现了输入图片生成相应的描述，但使用传统的方法生成的中文描述句子单一，不具有多样性，且依赖于大规模的训练语料。针对上述问题，目前已有很多研究者利用深度学习的方法来完成图像描述任务。Mao等人提出了多模态递归神经网络 (multimodal Recurrent R Neural Network，m-RNN)方法用于图像描述的生成。该网络包括两个子网络，深度递归神经网络用于文本的编码，深度卷积神经网络用于图像特征提取。两个子网络通过多模态层相互交互形成了整个m-RNN网络。Vinyal等人提出了一个神经图像描述NIC模型，该模型由卷积神经网络(Convolutional Neural Network，CNN) 和循环神经网络(Recursive Neural Network，RNN)构成。模型利用Google Inception网络作为图像特征提取器，同时利用长短时记忆网络(Long-Short Term Memory，LSTM) 作为文本编解码器。然而，大部分学者都把实验改进放在RNN网络的优化上，很少人能够将精力放到图像特征提取和文本预处理方面，忽略了提取的图像特征和文本向量化的好坏对最后生成的描述句子的重要影响。在文本预处理方面，针对传统向量表示方法无法表征多义性的问题，有学者提出了将预训练语言模型应用到词表示中，如Rei提出了使用词级别的语言结构来加强NER训练。Devlin等提出了采用双向Transformer语言结构来预训练模型。方法大多用中文分词工具对中文描述集进行分词，获取词语间的语义信息，无法对字的多义性建模。

图像中文是一个序列的单词预测任务。最先进的方法通常遵循编码器-解码器框架：它们使用卷积神经网络(CNN)将图像编码为视觉嵌入向量，然后使用递归神经网络(RNN)将向量解码为句子。在训练和推论过程中，他们尝试根据当前的预测上下文最大化下一个单词的概率。最近，有研究表明，强化学习(RL)适合该任务，因为RL旨在学习一种通过最大化未来累积奖励来确定顺序动作的策略。因此，RL可以帮助在句子生成过程中探索更多富有成果的语言，并且可以避免训练样本中的严重偏见。但是，现有的基于RL的图像中文方法主要依赖于单个策略网络和奖励功能，而该功能与多级(单词和句子)和多模式(视觉和视觉)的匹配度不高。

因此需要一种新颖的多级策略和用于图像中文的奖励强化学习框架，该框架可以集成基于RNN的模型，语言指标或视觉语义功能以进行优化。具体而言，多级策略网络旨在联合更新单词和句子级策略以生成单词，而多级奖励功能旨在协同利用视觉-语言和语言-语言奖励来指导策略。

发明内容

为解决目前图像转换为中文的词句匹配度不高、无法多义性建模的问题，本发明提出了基于多级策略和深度强化学习框架的图像中文描述方法；本发明的技术方案如下：

方案一：基于多级策略和深度强化学习框架的图像中文描述系统，该系统包括图像特征提取模块、多级策略网络模块、多级奖励网络模块、强化学习训练模块和语句生成模块；

其中图像特征提取模块负责预训练图像信息后传输至多级策略网络模块；

多级策略网络模块将特征向量转化为矩阵后发送至多级奖励网络模块；

多级奖励网络模块负责将图像信息深度学习后输出至强化学习训练模块；

通过强化学习训练模块将多级策略网络模块和多级奖励网络模块处理后的信息共同训练，输出至语句生成模块完成图像的中文语句描述。

进一步地，所述图像信息使用AI Challenger挑战赛所用标准图像中文描述数据集中的训练集图片。

进一步地，所述多级策略网络模块包括单词级策略和句子级策略功能。

方案二：基于多级策略和深度强化学习框架的图像中文描述方法，是根据上述系统为基础实现的，该方法具体步骤如下：

步骤一，采用ResNet152卷积神经网络提取图像特征；

步骤二，采用多级联合策略得到多级联合策略部分的图像特征映射向量；

步骤三，通过多级奖励网络计算权重并生成映射层，从而得到多级奖励部分的图像特征映射向量；

步骤四，通过强化学习训练将步骤二中和步骤三中得到的图像特征映射向量进行联合学习，生成图像的全局特征向量；

步骤五，通过语句生成模块将图像的全局特征向量生成中文语句，完成图像中文描述。

进一步地，在步骤一中，所述提取图像特征过程细化为：

步骤一一，基于ImageNet图像分类数据集对ResNet152网络进行预训练；

步骤一二，将预训练后的权重系数进行保存；

步骤一三，将训练好的权重偏置参数迁移至ResNet152网络中，

步骤一四，将训练集图片输入ResNet152网络中进行特征提取，所述训练集图片归一化为256*256*3比例；

步骤一五，ResNet152网络根据之前预训练好的权重系数对图片进行卷积池化计算，得到自适应平均池化层的输出；

步骤一六，输出2048维高级特征向量的图片。

进一步地，所述多级策略网络的参数包括单词级策略的参数和句子级策略的参数

所述单词级策略是指图像中文网络，具体步骤如下：

步骤二一，用CNN神经网络从输入图像中提取特征；

步骤二二，使用线性映射将其嵌入，单词由嵌入在与映射图像特征相同维的单向矢量表示，每个句子的开头都标有特殊的BOS令牌，每个句子的结尾都标有EOS令牌；在此策略下将生成单词；

步骤二三，将其输入回到基于RNN的模块中，其中图像特征I被视为第一个单词；最后，通过更新网络的隐藏状态和单元，基于RNN神经网络输出所有单词的分布；

所述句子级策略是一种视觉语义嵌入网络，将图像特征和句子映射到一个共同的嵌入空间中并测量之间的相似性；

最后统一图像特征向量与词语特征向量的维度，将图像2048维特征向量映射到512 维的词向量特征空间得到最终的图像特征映射向量。

进一步地，所述步骤三细化为：

步骤三一，建立视觉-语言奖励和语言-语言奖励的结合，融合单词级和句子级策略；

步骤三二，在图像中文数据集中使用图像句子对，

步骤三三，使用双向排名损失来学习RNN权重和映射层，

步骤三四，输出多级奖励网络部分的图像特征映射向量。

进一步地，在步骤四中，所述强化训练具体步骤如下：

步骤四一，通过最小化负期望组合奖励，在等式中预训练词级策略和视觉语言奖励；

步骤四二，使用等式共同训练多级策略网络的参数从而得到基线。

进一步地，所述语句生成模块是通过构建双层GRU网络模型来进行解码和生成中文语句，所述GRU网络模型是对LSTM网络改进并将忘记门和输入门进行合并；

所述GRU网络模型包括重置门和更新门，用于记录前一时刻的隐藏层状态和当前时刻的隐藏层状态，并对隐藏状态进行更新。

进一步地，步骤五中，将图像的全局特征向量生成中文语句的过程细化为：

步骤五一，通过所述重置门控制前一时刻隐藏层信息被遗忘的程度，捕捉序列数据中短期的依赖关系；

步骤五二，通过所述更新门控制前一时刻隐藏层状态信息被带入到当前时刻隐藏层的程度，捕捉序列数据中长期的依赖关系；

步骤五三，使用所述重置门对前一时刻的隐层状态信息进行过滤；

步骤五四，利用GRU网络模型的信息流向，输出图像的全局特征向量，并最终转换为中文语句。

本发明有益效果体现在：

本发明提出了一种用于图像中文文本描述的多级策略和奖励的深度强化学习框架，利用图像中文文本描述的多层次和多模式性质，多级策略网络联合更新单词和句子级策略以生成单词，并且多级奖励功能协同利用视觉语言和语言奖励来指导策略；

所提出的多级策略框架较传统的单级策略框架训练准确率提高11％左右，客观评价指标BLEU-4提高0.05，在保证生成文本语句的完整度基础上训练模型时间也缩短一半；

本发明提供的方法能够生成与图像更匹配的中文文本描述语句，实现了自动生成图像中文文本描述的功能，显著改善了生成语义效果多样性不足以及语句描述不丰富的问题，并在语句描述内容准确性上有不错的改善。

在中文文本描述方面，与传统单级策略模型相比较，本发明在训练时有更好的稳定性，模型结构简单并且由于该框架的泛化能力较强可以融合较多新算法，为图像中文文本描述以及计算机视觉的发展奠定了基础。

附图说明

图1为基于多任务学习与注意力机制的多模态融合情感识别方法模型框架图；

图2为多任务学习的参数共享机制示意图；

图3为bert提取文本语义表征示意图；

图4为注意力机制构成示意图；

图5为模态融合示意图；

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

具体实施方式

具体实施方式一：基于多级策略和深度强化学习框架的图像中文描述系统，该系统包括图像特征提取模块、多级策略网络模块、多级奖励网络模块、强化学习训练模块和语句生成模块；其中图像特征提取模块负责预训练图像信息后传输至多级策略网络模块；多级策略网络模块将特征向量转化为矩阵后发送至多级奖励网络模块；多级奖励网络模块负责将图像信息深度学习后输出至强化学习训练模块；

通过强化学习训练模块将多级策略网络模块和多级奖励网络模块处理后的信息共同训练，由语句生成模块输出语句完成图像中文描述。

优选的，图像信息使用AI Challenger挑战赛所用标准图像中文描述数据集中的训练集图片；

优选的，所述训练集图片归一化为256*256*3比例，得到每张图片2048维高级特征向量，多级策略网络模块包括单词级策略和句子级策略功能完成。

具体实施方式二：除具体实施方式一给出的系统，本实施例提供一种基于多级策略和深度强化学习框架的图像中文描述方法以及后续的实验论证，具体步骤过程如下：

1.1图像特征提取：

ResNet深度神经网络为代表的达上百层的深度卷积网络，由于残差学习使得网络深度得到加深的同时，保证网络的性能不会退化，其参数使用较少，能够加速模型的训练。本实施例在图像特征提取方面采用ResNet152卷积神经网络，参数量比VGGNet模型低，训练时间比深度神经网络快，效果也非常突出。该网络有152层网络，由152层卷积层组成，其中150层由50个3层的残差块组成，其网络结构如图1所示。

使用ResNet152网络对图像提取全局特征的过程如下：首先基于ImageNet图像分类数据集对ResNet152网络进行预训练，并将预训练好的权重系数进行保存；然后将训练好的权重偏置参数迁移至ResNet152网络中，接着将AI Challenger挑战赛所用标准图像中文描述数据集中的训练集图片送入ResNet152网络中进行特征提取，送入网络中的图片统一归一化为256*256*3。之后卷积神经网络会根据之前预训练好的权重系数对图片进行一系列卷积池化等操作计算，得到ResNet152网络最后自适应平均池化层的输出，得到每张图片的2048维高级特征向量，保存图像的高级特征向量。

1.2多级策略网络：

图像首先经过ResNet152网络进行特征提取，得到高级语义特征V。多级策略网络由单词级策略和句子级策略组成。

单词级策略是指图像中文网络，首先用CNN从输入图像中提取特征I，然后使用线性映射将其嵌入。单词由嵌入在与映射图像特征相同维的单向矢量表示。每个句子的开头都标有特殊的BOS令牌，每个句子的结尾都标有EOS令牌。在此策略下，将生成单词，然后将其输入回到基于RNN的模块中，其中图像特征I被视为第一个单词。通过更新网络的隐藏状态和单元，基于RNN的模块可输出所有单词的分布

令θ_π示词级策略的参数，

由

表示，目的是使每一步正确单词的负对数似然性的总和最小化：

句子级策略是一种视觉语义嵌入网络，已成功应用于图像分类，将图像特征I和句子 S映射到一个共同的嵌入空间中，以测量它们之间的相似性。如图2所示，给定句子S，其嵌入特征使用RNN的最后隐藏状态表示。用h_p(RNN(S))表示句子映射层，而用 f_p(I)表示图像映射层。如图1所示，句子级策略由图像特征I和单词级策略的部分生成标题

构成，它们之间的置信度由以下公式计算：

句子级别策略通过从大规模上下文中评估当前状态来提供句子置信度；

最后为了保证语句生成模型训练的正常进行，需要统一图像特征向量与词语特征向量的维度，这里采用全连接的策略将图像2048维特征向量映射到512维的词向量特征空间得到最终的图像特征映射向量，映射公式为：

y＝W^T(DCNN(I))+b (3)

式中：y是经过全连接计算后得到的512维特征向量，W是2048*512维的矩阵，I 是输入到网络中的图像，DCNN(I)是网络提取到的2048维特征向量，b是权重系数。

1.3多级奖励网络：

多级奖励功能是视觉-语言奖励和语言-语言奖励的结合。是一种视觉语义嵌入网络，其结构与句子级策略相同。但是，它们之间存在一些差异。第一个区别是视觉奖励来自图像特征I和完全生成的

而不是部分生成的，多级策略网络融合了单词级和句子级策略。它评估完全生成的上的视觉语言相关性，并定义RL优化的特定目标。

如图2所示，用f_r(I)表示句子映射层，而图像映射层用

表示图像映射层，视觉语言奖励的定义如下：

第二个区别是，为该奖励预训练了嵌入空间，而句子级策略则直接在RL框架中进行训练，令θ_π表示视觉句子奖励的参数，在图像中文数据集中使用图像句子对，并使用双向排名损失来学习RNN权重和映射层：

其中γ是交叉验证的余量，每个(I，S)表示真实图像句对，S^-表示对与I对应的图像的否定描述，I^-表示对与之相对应的图像的否定描述到S。

语言-语言奖励是指已成功应用于图像中文任务的自动评估指标。由于它是使用预定义规则计算的，因此可以稳定地评估顺序操作。使用语言-语言奖励作为视觉-语言奖励的补充，它是通过将完全生成的

与相应的真值

进行比较来计算的。

1.4强化学习训练：

强化学习中的关键问题在于联合策略部分和奖励部分以进行联合学习。由于视觉奖励部分是经真实的有效值预先训练的，因此可以作为衡量图像与句子之间相关性的标准。通过利用图像环境中的所有信息来训练强化学习框架中的句子级别策略，可以将其视为衡量图像和句子之间相似度的辅助表标准。通过最小化G，专业奖励将指导非专业策略进行优化，并进一步使双方共同学习收益最大化。令θ_π表示句子级策略的参数，用

表示多级策略网络的参数，并且通过最小化负期望组合奖励，生成的单词r_total的分布。

目标函数可以表述为：

强化训练过程包括两个步骤。

1、使用标准的监督学习，在等式中预训练词级策略θ_π和视觉语言奖励θ_r。

2、使用等式共同训练θ_π和θ_a，得到的基线RL不仅具有句子级策略，而

还具有当前模型在测试时使用的推理算法下获得的

语言-语言奖励。梯度的样本近似如下：

其中

和

用作η的组合基线和移动基线，评估中的减法会导致策略梯度中的方差估计值小得多，可以将这种梯度缩放比例视为状态s_t时动作优势的估计。

1.5语句生成模型：

本实施方式采用构建双层GRU模型来进行解码和生成中文语句，GRU神经网络对LSTM网络改进，将忘记门和输入门进行合并，GRU网络只有两个门，分别为重置门r_t和更新门z_t，h_t-1和h_t是GRU网络前一时刻的隐藏层状态和当前时刻的隐藏层状态，GRU 网络通过两个门来对隐藏状态进行更新，GRU模型结构示意图如图4所示。

h_t-1和h_t是GRU网络前一时刻的隐藏层状态和当前时刻的隐藏层状态，GRU网络通过两个门来对隐藏状态进行更新，具体步骤如下：

(1)通过重置门r_t控制前一时刻隐藏层信息被遗忘的程度，可以用来有效的捕捉序列数据中短期的依赖关系，其计算公式为：

r_t＝σ(W_r·[h_t-1，x_t]) (10)

式中：σ()是sigmoid函数，Wr是重置门层的权重系数，h_t-1是前一时刻的隐藏层状态，xt是当前时刻的输入信息。

(2)通过更新门z_t控制前一时刻隐藏层状态信息被带入到当前时刻隐藏层的程度，即前一时刻的隐层状态信息对当前时刻的隐层状态信息的影响程度，可以用来有效的捕捉序列数据中长期的依赖关系，其计算公式为：

z_t＝σ(W_z·[h_t-1，x_t]) (11)

式中：σ()是sigmoid函数，Wz是重置门层的权重系数，h_t-1是前一时刻的隐藏层状态，x_t是当前时刻的输入信息。

(3)当前时刻的隐层候选状态是待保留的隐层状态信息，它使用重置门对前一时刻的隐层状态信息进行过滤，具体表现为将重置门的值与前一时刻的隐层信息做点乘操作，重置门的值越趋近于0，代表前一时刻隐层状态信息被丢弃的越多。隐层候选状态本质上是一个经重置门过滤后的前一时刻隐层状态h_t-1与当前时刻的输入经权重系数相乘相加后利用tanh函数压缩到(-1，1)区间的值，隐层候选状态表达为：

式中：W是候选权重系数，r_t是重置门，h_t-1是前一时刻的隐藏层状态，x_t是当前时刻的输入信息。

(4)当前时刻的隐层状态r_t是GRU网络当前时刻的真实输出，它使用更新门对前一时刻的隐层状态信息和当前时刻的隐层候选状态进行更新，更新门的值越趋近于1，代表前一时刻的隐层状态信息被保留的较多，若重置门的值为1，则说明之前时刻的隐含状态将一直通过时间轴进行不衰减的保留并传递至当前时刻隐层状态表达式为：

双层GRU网络layer1的作用是对图像特征与词嵌入特征进行特征整合并输入到layer2中，layer2的作用是根据layer1的输出进行特征推断并进行解码实现词语的预测生成。模型的信息流向为：

t＝0时刻layer1中的输入分别为：

(1)经特征映射后的图像特征；

(2)对稀疏词编码进行二次编码的词嵌入特征。

t＝0时刻layer1的输出分别为：

(1)layer1在t＝1时刻的隐层输入；

(2)layer2在t＝0时刻的实际输入。

t＝0时刻layer2的输入分别为：

(1)layer1的隐层输出；

(2)layer2的隐层初始值。

t＝0时刻layer2的输出分别为：

(1)layer2在t＝0时刻的真实输出；

(2)layer2在t＝1时刻的隐层输入。

加深网络层数不仅可以使得模型学习到更深层次的文本特征，同时也可以使得序列模型可以获得更好的拟合能力从而生成更准确的语句，模型整体流程图如图4所示，对AI Challenger挑战赛图像数据集使用ResNet152网络生成图像的全局特征向量，并最终转换为中文语句。

2.实验及分析：

2.1数据集：

为了验证模型的有效性和输出语句的流畅性与连贯性，实验选取具有挑战性的AIChallenger全球AI挑战赛图像中文描述数据集作为数据集，数据集形式包含图像和对应5句中文描述，包含训练集21万张图片，每张图片对应5句中文描述，共105万句中文描述；验证集和测试集各3万张图片和15万句中文描述。

2.2实验细节

实验采用ResNet152网络中进行特征提取，送入网络中的图片统一归一化为256*256 像素大小，经过一系列卷积和最后一层自适应平均池化操作后，得到输出全局特征向量的大小为[2048，1，1]。句子级策略和视觉语言奖励都是视觉语义的嵌入网络，对它们都采用相同的架构，但是要对它们进行独立训练。使用一个具有2048-d隐藏单元的LSTM层来构造RNN，并且两个线性映射层的尺寸都设置为2048×512。

在训练过程中，单词级策略的LSTM隐藏维度、图像维度、单词维度和注意嵌入维度均固定为512。使用Adam优化器，初始学习率为5×10-5，小批量大小为64。最大纪元数为30个。等式3中的λ，等式9中的β，等式4中的γ，和等式6中的η分别设置为0.4、0.6、0.2和0.4。在测试过程中，波束搜索设置为1。所有实验均在PyTorch中实现。

模型基于Linux操作系统进行设计，使用python语言进行程序编写，采用开源深度学习框架pytorch0.4.0完成图像中文文本描述模型的构建。针对该词级策略探索了三种类型的图像中文模型即CNN-RNN，Attention和Stacked模型。

2.3实验结果对比：

本实施例在客观评价和主观评价方面都进行了实验对比，将当前实验的训练准确率结果在使用中文描述数据集上进行对比，在客观评价方面使用BLEU-4图像描述标准进行实验对比。

在客观评价指标方面，BLEU结果值越大说明效果越好，本文提出的新型模型在准确率、BLEU-4指标和训练时间与其他已提出的模型进行了对比，其效果得到明显提升，模型训练准确率对比结果如表1所示：

表1模型训练准确率对比

模型	训练准确度
		NIC	89.591％
ATT-CNN+LSTM	89.598％
		ATT-FCN	89.593％
Adaptive	90.698％
		SCST	90.723％
P-CNN-RNN	90.697％
		P-Attention	91.657％
P-Stacked	93.121％

本文中使用三个文本描述模型来构建单词级策略，分别由P-CNN-RNN，P-Attention 和P-Stacked表示，三种模型测试对比实验结果如表2所示：

表2模型测试实验对比

模型训练时间对比实验结果如表3所示：

表3模型训练时间结果对比

模型	训练时间(h)
		NIC	9
ATT-CNN+LSTM	9
		ATT-FCN	8
Adaptive	8
		SCST	6
P-CNN-RNN	8
		P-Attention	4
P-Stacked	4

在主观评价实验对比方面，利用AI Challenger全球AI挑战赛图像中文描述测试数据集，对图像中文描述模型进行测试，实验测试了本实施例提出的多级策略新框架和单级策略生成的中文语句的质量，通过分成(a)是使用多级策略深度强化学习框架生成的中文语句、(b)是使用单级策略和奖励功能生成的中文语句，进行语义对比分析，如图5所示：

其中(1)部分：(a)：房间里有一个戴帽子的女孩在和一个女孩玩，(b)：两个女孩在房间里玩；

(2)部分：(a)：操场上有一个挥着球拍跳起的女人，(b)路上有一个跳起的女人；

(3)部分：(a)：饭店里有一群人围坐在桌子上，(b)：一群人坐在桌子上；

(4)部分：(a)：湖面上停有一艘小船，(b)：水上有一艘小船；

从图5中可以看出，提出的模型生成的描述语句相比于单级策略和奖励功能生成的语句可以对语句中的错误内容就行修正，且更准确的描述出图像中的内容，多级策略生成的描述与实际情况相抗衡，而单级策略通常会丢失关键信息，此外，从图5的(4)部分中(a) 与(b)描述语句均为失败情况，所描述的语句均不符合图片显示的实际情况，可知所提供的方法在有些情况下不能完整的从嘈杂的背景中提出特定的对象。

结合以上主观和客观评价实验对比可以得出本论文提出的新的基于多级策略和深度强化学习框架的图像中文描述模型在客观评价上能够得到更好的准确率和测试值，且节约时间，在主观方面其生成的图像中文描述语句连贯性和可读性得到了提升。

具体实施方式三：实施例可以根据上述方法示例可根据说明书附图所示框图进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中；上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

具体地，系统包括处理器、存储器、总线和通信设备；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，所述处理器执行所述存储器存储的所述计算机执行指令，所述的通信设备负责与外界网络连接，进行数据的收发过程；所述处理器与存储器相连，所述的存储器包括数据库软件；

具体地，所述数据库软件为SQLServer2005以上版本的数据库，并存储在计算机可读存储介质中；所述处理器与存储器包含的若干指令用以使得个人计算机或服务器或网络设备执行本方法全部或部分步骤；所述处理器所用类型包括中央处理器、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合；所述存储介质包括U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘。

具体地，上述软件系统承载于中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。相关人员及用户通信的通信设备则可以利用收发器、收发电路或通信接口等。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.基于多级策略和深度强化学习框架的图像中文描述系统，其特征在于：该系统包括图像特征提取模块、多级策略网络模块、多级奖励网络模块、强化学习训练模块和语句生成模块；

2.根据权利要求1所述基于多级策略和深度强化学习框架的图像中文描述系统，其特征在于：所述图像信息使用AI Challenger挑战赛所用标准图像中文描述数据集中的训练集图片。

3.根据权利要求2所述基于多级策略和深度强化学习框架的图像中文描述系统，其特征在于：所述多级策略网络模块包括单词级策略和句子级策略功能。

4.基于多级策略和深度强化学习框架的图像中文描述方法，是根据权利要求1-3中任一一项所述系统为基础实现的，其特征在于：该方法具体步骤如下：

步骤一，采用ResNet152卷积神经网络提取图像特征；

5.根据权利要求4所述的基于多级策略和深度强化学习框架的图像中文描述方法，其特征在于：在步骤一中，所述提取图像特征过程细化为：

步骤一二，将预训练后的权重系数进行保存；

步骤一三，将训练好的权重偏置参数迁移至ResNet152网络中，

步骤一六，输出2048维高级特征向量的图片。

6.根据权利要求4所述的基于多级策略和深度强化学习框架的图像中文描述方法，其特征在于：所述多级策略网络的参数包括单词级策略的参数和句子级策略的参数

所述单词级策略是指图像中文网络，具体步骤如下：

步骤二一，用CNN神经网络从输入图像中提取特征；

最后统一图像特征向量与词语特征向量的维度，将图像2048维特征向量映射到512维的词向量特征空间得到最终的图像特征映射向量。

7.根据权利要求4所述的基于多级策略和深度强化学习框架的图像中文描述方法，其特征在于：所述步骤三细化为：

步骤三二，在图像中文数据集中使用图像句子对，

步骤三三，使用双向排名损失来学习RNN权重和映射层，

步骤三四，输出多级奖励网络部分的图像特征映射向量。

8.根据权利要求6的基于多级策略和深度强化学习框架的图像中文描述方法，其特征在于：在步骤四中，所述强化训练具体步骤如下：

9.根据权利要求4所述的基于多级策略和深度强化学习框架的图像中文描述方法，其特征在于：所述语句生成模块是通过构建双层GRU网络模型来进行解码和生成中文语句，所述GRU网络模型是对LSTM网络改进并将忘记门和输入门进行合并；

10.根据权利要求9所述的基于多级策略和深度强化学习框架的图像中文描述方法，其特征在于：步骤五中，将图像的全局特征向量生成中文语句的过程细化为：