CN110046226B

CN110046226B - 一种基于分布词向量cnn-rnn网络的图像描述方法

Info

Publication number: CN110046226B
Application number: CN201910306242.6A
Authority: CN
Inventors: 莫建文; 王少晖; 欧阳宁; 林乐平; 袁华; 首照宇; 张彤; 陈利霞; 肖海林
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2021-09-24
Anticipated expiration: 2039-04-17
Also published as: CN110046226A

Abstract

本发明公开了一种基于分布词向量CNN‑RNN网络的图像描述方法，其特征在于，包括如下步骤：1）分布表示词向量的生成；2）分布表示标签的生成；3）分布表示语义标签的生成；4）网络设计；5）生成图像的描述性语句。这种方法引入到原本的CNN‑RNN网络模型中使其可生成更精确的结果、使CNN子网提供给RNN子网更丰富的语义内容，使得整个CNN‑RNN网络模型依然能够保持结构化的优点，这种方法中低维稠密的分布表示可以轻松地嵌入海量词语构成完整的语义空间、视觉内容能够更好实现到语义空间的映射，基于分布表示词向量设计的监督信号能更准确的概括视觉内容和更充分的利用向量空间监督CNN优化方向。

Description

一种基于分布词向量CNN-RNN网络的图像描述方法

技术领域

本发明涉及智能图像处理技术领域，具体涉及一种基于分布词向量CNN-RNN网络的图像描述方法。

背景技术

在计算机视觉领域中，随着图像分类、目标检测、语义分割等基本视觉任务不断突破。人们的兴趣逐渐转向图像描述这个更复杂、更高级的视觉任务。图像描述的具体任务是生成图像中语义信息的描述性语句，因此，不仅仅需要识别和理解(指动作)图像中的相关内容，而且要以自然语言的形式对其描述。在盲人辅助系统、图像检索、智能交互系统等实际应用中，这种用图像生成对应自然语言描述的能力至关重要。

现今，图像描述研究工作主要基于CNN-RNN网络模型展开。CNN-RNN网络模型的网络结构由CNN子网和RNN子网组成，其中CNN(Convolutional Neural Network，简称CNN)指的一系列的卷积、池化、全连接等网络层构成的卷积神经网络；RNN(Recurrent NeuralNetwork，简称RNN)是循环神经网络，能以时间为单位展开的循环神经单元。由于RNN存在不足之处，一般可以使用其改进的LSTM(Long Short-Term Memory Networks，简称LSTM)、BLSTM(Bi-directional Long Short-term Memory，简称BLSTM)和GRU(Gated RecurrentUnit，简称GRU)等代替。在生成图像描述的网络中，CNN子网被用作编码器对图像进行编码生成固定长度的向量，再将这个向量供给RNN子网做解码实现语句的生成，这样的编码-解码模型可以端到端的训练。在近年的研究工作中主要的不同是CNN子网与RNN子网之间的连接方式，在不同的连接方式中存在一个规律：图像通过CNN子网完成内容嵌入，并由CNN子网最后一层的运算结果图像嵌入交给下一步工作使用。例如，Mao等人提出的网络呈并联结构，通过特征融合思路将图像嵌入与词嵌入融合共同完成语句构建；Vinyals等人提出的方式是将图像嵌入作为LSTM初始时刻的输入对单元进行激活从而获得LSTM单元隐含层初始状态h₀和c₀，t＝1时刻才开始语句的预测；You等人提出的方式直接将图像嵌入作为LSTM单元初始状态的输入；Liu等人的工作中提出语义规范层实现结构化训练策略能够单独的网络中的两个子网，解决了训练困难、训练时间长以及训练时噪声对CNN的干扰等问题，同时引入显示语义的概念使得网络中两个子网的任务明确，但是采用独热表示的显示语义存在着明显的不足。图像描述中涉及的词汇个数成千上万，独热表示构成的语义空间十分有限，因此独热表示构成的语义空间忽略了大量语义无法满足图像描述任务的需求。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于分布词向量CNN-RNN网络的图像描述方法。这种方法引入到原本的CNN-RNN网络模型中使其可生成更精确的结果、使CNN子网提供给RNN子网更丰富的语义内容，使得整个CNN-RNN网络模型依然能够保持结构化的优点，这种方法中低维稠密的分布表示可以轻松地嵌入海量词语构成完整的语义空间、视觉内容能够更好实现到语义空间的映射，基于分布表示词向量设计的监督信号能更准确的概括视觉内容和更充分的利用向量空间监督CNN优化方向。

实现本发明目的的技术方案是：

一种基于分布词向量CNN-RNN网络的图像描述方法，与现有技术不同处在于，包括如下步骤：

1)分布表示词向量的生成：借助分布表示词向量生成工具Word2vec，生成训练集图像的自然语句形式标签I_seq-label中所包含词汇(w₁，w₂，w₃，......)的分布表示词向量(p₁，p₂，p₃，......)，将所包含的词汇p与其对应分布式词向量w称为词表；

2)分布表示标签的生成：对整个训练集图像的自然语句形式标签进行转换操作，即图像I的自然语句形式标签I_seq-label以词为单位借助步骤1)中的词表逐一地用分布式词向量表示，并排列成分布表示标签矩阵

这里n为语句词汇组成个数，k为词汇分布表示词向量的维度；

3)分布表示语义标签的生成：图像I的分布表示语义标签的生成是在步骤2)分布表示标签矩阵P基础上，将图像I组成的分布表示标签矩阵P中分布式词向量的顺序作调整得到分布表示语义标签，过程为：结合词向量对应的词语在整个训练集合出现频率即在训练集中词语出现的次数DF，频率由高到低排序，对于重复的词向量只取一次，每张图像的描述性语句长度是不同的但是其分布式语义要求固定长度的，借助现有技术并，依据频率优先和补零策略将最优的长度定为v，将语句排列成向量，于是可以得到分布式语义标签向量

4)网络设计：网络结构采用CNN-RNN网络模型，该模型包含CNN子网和RNN子网，其中CNN为卷积神经网络设有卷积、池化、全连接网络层；RNN为循环神经网络，能以时间为单位展开的人工神经单元，将CNN与RNN连接的网络结构称为CNN-RNN网络模型，并采用步骤2)生成的分布表示标签、步骤3)生成的分布表示语义标签监督网络的学习，CNN子网的监督信号为分布表示语义标签S，RNN子网的监督信号为分布表示标签矩阵P，CNN子网与RNN子网的连接是通过CNN子网末端输出层的语义预测向量

作为RNN子网输入即生成条件实现语句序列

的预测；

5)生成图像的描述性语句：基于分布表示词向量的图像描述网络中，CNN子网将待描述的图片I经CNN前向传播计算生成预测向量

过程如下：

其中，I表示的是输入图像，CNN(·)是卷积神经网络的前向传播计算，

是输入图像I经卷积神经网络CNN前向传播计算生成的结果，RNN子网将

作为输入即生成条件生成语句序列

RNN子网具体计算使用循环神经网络，在循环神经网络0时刻分布式语义预测

作为输入激活循环神经网络从而获得隐含状态h₀，t＝1时刻将统一使用起始符号<start>作为输入经前向计算后输出层得到语句的第一个预测单词，t＝2时刻循环神经网络将t＝1时刻的输出作为输入经前向计算后输出层得到语句的第二个预测单词，同理循环计算可得t＝3，4，……n的预测单词，其中n时刻是预测单词为结束符号<end>的时刻，具体计算定义如下：

x_t＝E×p_t-1 (3)

h_t＝RNN(x_t，h_t-1) (4)

p_t＝W·h_t+b (5)

这里RNN(·)是循环神经单元的前向传播计算，h是循环神经网络的隐含状态，其中h₀分别是0时刻隐含状态，E是词嵌入矩阵，W、b分别是输出层的权重、偏置，t是循环神经网络的时刻取值为1，2，3......n。

步骤1)中所述生成工具Word2vec训练时候的语料库为整个训练集合的标签，将其以句子为单位进行训练，采用Skip-Gram模型，每个单词向量维度为50，于是每个单词对应有唯一的维度为50的分布式表示法。

步骤4)中所述监督网络的学习采用的损失函数为：CNN子网的损失函数

其中S是图像的分布式语义标签，

是对应的预测向量；RNN子网的损失函数

其中P是图像的分布表示标签，

是对应的预测向量，网络总损失函数

计算公式定义如下：

训练过程分为两个训练阶段，在第一个训练阶段的时候，两个子网单独训练的，所以有对应的损失函数，CNN子网的训练将图像作为输入，图像的分布式语义标签S作为标签进行有监督训练，RNN子网的训练将图像的分布式语义标签S作为输入，监督信号是图像的分布表示标签P；在第二阶段联合训练使用的是网络总损失函数

完成两个子网的初步训练后，通过联合训练来进一步提高性能，这时候RNN子网的输入直接使用CNN子网的预测向量

这种方法引入到原本的CNN-RNN网络模型中使其可生成更精确的结果、使CNN子网提供给RNN子网更丰富的语义内容，使得整个CNN-RNN网络模型依然能够保持结构化的优点，这种方法中低维稠密的分布表示可以轻松地嵌入海量词语构成完整的语义空间、视觉内容能够更好实现到语义空间的映射，基于分布表示词向量设计的监督信号能更准确的概括视觉内容和更充分的利用向量空间监督CNN优化方向。

附图说明

图1为实施例的方法流程示意图；

图2为实施例中生成分布表示标签、分布表示语义标签的过程示意图；

图3为实施例中生成分布表示标签、分布表示语义标签的算法流程图；

图4为实施例中的网络结构示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步的说明，但不是对本发明的限定。

实施例：

参照图1，一种基于分布词向量CNN-RNN网络的图像描述方法，包括如下步骤：

2)分布表示标签的生成：参照图2、图3，对整个训练集图像的自然语句形式标签进行转换操作，即图像I的自然语句形式标签I_seq-label以词为单位借助步骤1)中的词表逐一地用分布式词向量表示，并排列成分布表示标签矩阵

3)分布表示语义标签的生成：参照图2、图3，图像I的分布表示语义标签的生成是在步骤2)分布表示标签矩阵P基础上，将图像I组成的分布表示标签矩阵P中分布式词向量的顺序作调整得到分布表示语义标签，过程为：结合词向量对应的词语在整个训练集合出现频率即在训练集中词语出现的次数DF，频率由高到低排序，对于重复的词向量只取一次，每张图像的描述性语句长度是不同的但是其分布式语义要求固定长度的，借助现有技术并，依据频率优先和补零策略将最优的长度定为v，将语句排列成向量，于是可以得到分布式语义标签向量

4)网络设计：网络结构采用CNN-RNN网络模型，如图4所示，该模型包含CNN子网和RNN子网，其中CNN为卷积神经网络设有卷积、池化、全连接网络层；RNN为循环神经网络，能以时间为单位展开的人工神经单元，将CNN与RNN连接的网络结构称为CNN-RNN网络模型，并采用步骤2)生成的分布表示标签、步骤3)生成的分布表示语义标签监督网络的学习，CNN子网的监督信号为分布表示语义标签S，RNN子网的监督信号为分布表示标签矩阵P，CNN子网与RNN子网的连接是通过CNN子网末端输出层的语义预测向量