CN110188819A

CN110188819A - 一种基于信息增益的cnn和lstm图像高层语义理解方法

Info

Publication number: CN110188819A
Application number: CN201910459249.1A
Authority: CN
Inventors: 郝玉洁; 林劼; 崔建鹏; 杜亚伟; 党元
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-30

Abstract

本发明公开了一种基于信息增益的CNN和LSTM图像高层语义理解方法，包括构建改进的卷积神经网络、构建卷积神经网络和长短期记忆网络联合神经网络、数据预处理和图像语义解读；构建改进卷积神经网络，是利用大规模图像语义数据集构建并改进卷积神经网络；构建联合神经网络，是利用改进的卷积神经网络和长短期记忆网络构建联合神经网络；数据预处理，是将图像进行数据增强的操作，同时将场景的文本标签实现嵌入操作完成数据预处理；图像语义解读，是将图像特征输入训练完成的模型中进行图像语义解读。本发明改进了传统的图像与文本信息的图像语义理解模型，提出了一种新的卷积神经网络和长短期记忆网络的结合方法，能够显著的提升图像语义解读的效果。

Description

一种基于信息增益的CNN和LSTM图像高层语义理解方法

技术领域

本发明涉及图像语义理解领域，尤其涉及一种基于信息增益的CNN和LSTM图像高层语义理解方法。

背景技术

图像语义理解近年来已经成为计算机科学领域的热点研究领域。传统的图像语义理解是综合性的交叉学科，涉及到图像工程，计算机视觉，人工智能和认知学等领域。随着机器学习在近几年的快速发展，图像语义理解问题也从传统经典的算法也过渡到利用神经网络训练的目前主流的图像理解算法。图像语义理解，目前的方法集中在以下几个方面：

(1)基于图像分类的方法

图像分类问题需要更好的获得输入图像的特征向量，并基于特征向量学习优化。传统的算法使用常见的图像特征是HOG特征。HOG特征是将归一化的图像分割成若干个像素块，计算每个像素块的亮度梯度并将所有的像素块的亮度梯度进行串联。

(2)基于图像检索的方法

在传统的图像理解算法技术中，图像分类，相似图像索引是主要的研究方向。图像分类问题需要更好的获得输入图像的特征向量，并基于特征向量学习优化。传统的算法使用常见的图像特征是HOG特征。HOG特征是将归一化的图像分割成若干个像素块，计算每个像素块的亮度梯度并将所有的像素块的亮度梯度进行串联。

(3)基于深度学习的方法

编码器-解码器是RNN用常用来进行sequence-to-sequence学习和机器翻译的应用。近年来，该架构不再拘泥于RNN对文本信息的处理，基于CNN的编码器-解码器作为图像高层语义理解的另外一种思路。

如何准确、有效的解读输入图像中的高层语义，已经成为一个重要的研究课题。图像语义理解的重点是将图像中的特征提取、编码与循环递归网络进行解码的准确性。经过长足发展的卷积神经网络可以很好的完成图像特征提取和编码工作，具有记忆功能的LSTM网络可以胜任解码已经编码成功的图像特征。

因此，需要一种基于信息增益的CNN和LSTM图像高层语义理解方法来显著有效的解读图像中的高层语义。

发明内容

为了解决上述问题，本发明提出一种基于信息增益的CNN和LSTM图像高层语义理解方法。

一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于包括：构建改进的卷积神经网络、构建卷积神经网络和长短期记忆网络联合神经网络、数据预处理和图像语义解读；

所述构建改进卷积神经网络，是利用大规模图像语义数据集构建并改进卷积神经网络；

所述构建卷积神经网络和长短期记忆网络联合神经网络，是利用改进的卷积神经网络和长短期记忆网络构建联合神经网络；

所述数据预处理，是将图像进行数据增强的操作，同时将场景的文本标签实现嵌入操作完成数据预处理；

所述图像语义解读，是将图像特征输入训练完成的模型中进行图像语义解读。

进一步的，一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，所述构建改进卷积神经网络采用以下步骤：

S11：获取公开的大规模图像语义数据构建大规模图像语义数据集；

S12：将所述数据集处理为固定大小的224*224RGB图像，作为卷积神经网络的输入；

S13：输入图像通过5层卷积层，卷积核大小为3*3，步长为1个像素，填充为1个像素；

S14：空间池化由五个最大池化层进行，步长为2，网络最后是三个全连接层,将最后的全连接层输出1000维向量作为后续的LSTM网络的输入。

进一步的，一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，卷积神经网络中所有隐藏层都使用ReLU作为激活函数并增加Dropout随机失活。

进一步的，一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，所述构建卷积神经网络和长短期记忆网络联合神经网络，包括如下子步骤：

S21：利用卷积神经网络输出的全连接层1000维特征，作为LSTM网络的输入；

S22：使用信息增益作为模型的损失函数，联合神经网络中度量图像特征分布和语义特征分布相似程度，满足

其中，P和Q表示两种概率分布，P表示数据真实分布，Q表示数据的理论分布或者P的近似分布；

S23：损失函数计算的误差δ，经过反向传播，调节卷积神经网络中的超参数矩阵，从而得到权重的更新，更新的权重和偏移量会重新作用于卷积层，重新选择特征区域，直到图文联合分布的误差小于阈值为止；

S24：使用LSTM网络的神经单元构建语义解码网络部分，使用Softmax产生语义预测。

进一步的，一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，信息增益损失函数在LSTM网络中的反向传播过程中满足：

(1)i≠j情况下：q_j关于θ_i的偏导数经过链式法则变换得出如下公式，其中按Softmax函数的形式可以简化，其中θ表示神经网络中的参数：

(2)i＝j情况下：，q_j关于θ_i的偏导数如下所示：

将定义域全部连接可以获得推导过程如下：

进一步的，一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，对数据预处理包括以下子步骤：

S31：将训练集中的图像对应的场景进行嵌入化处理，其中词典规格为训练集中的词汇总量，每位单词向量的维度是256，同时保证场景单词向量和训练集中的图像一一对应；

S32：采用规模为5000的语义文本词典集；

S33：确定训练集中的每一张图像对应的五个参考语义，每次训练的过程选取其中一个进行对应训练。

进一步的，一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于：图像语义解读包括以下子步骤：

S41：模型建立卷积神经网络；

S42：加载训练好的模型，通过模型中的参数矩阵，选取图像特征；

S43：通过LSTM网络的语义解读部分，使用softmax函数计算最高的预测分数，用以表示图像语义。

本发明的有益效果在于：改进了传统的卷积神经网络中的特征分布相似度量的损失函数，提出了一种新的CNN和LSTM图像高层语义理解方法的方法，进而提出了一种新的神经网络模型，能够显著有效的解读图像中的高层语义。

附图说明

图1是本发明的系统结构框图；

图2为CNN和LSTM图像高层语义理解模型网络结构；

图3为改进的参数反向传播示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，如图1、图2所示，一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于包括：构建改进的卷积神经网络、构建卷积神经网络和长短期记忆网络联合神经网络、数据预处理和图像语义解读；

构建改进卷积神经网络采用以下步骤：

卷积神经网络中所有隐藏层都使用ReLU作为激活函数并增加Dropout随机失活。

构建卷积神经网络和长短期记忆网络联合神经网络，包括如下子步骤：

S23：损失函数计算的误差δ，经过反向传播，调节卷积神经网络中的超参数矩阵，从而得到权重的更新，更新的权重和偏移量会重新作用于卷积层，重新选择特征区域，直到图文联合分布的误差小于阈值为止。如图3所示，其中，λW表示卷积层中的共享权重，b表示偏移量；

S24：使用LSTM网络的神经单元构建语义解码网络部分，使用Softmax函数产生语义预测。

信息增益损失函数在LSTM网络中的反向传播过程中满足：

(2)i＝j情况下：q_j关于θ_i的偏导数如下所示：

将定义域全部连接可以获得推导过程如下：

对数据预处理包括以下子步骤：

S32：采用规模为5000的语义文本词典集；

图像语义解读包括以下子步骤：

S41：模型建立卷积神经网络；

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于包括：构建改进的卷积神经网络、构建卷积神经网络和长短期记忆网络联合神经网络、数据预处理和图像语义解读；

2.根据权利要求1所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，所述构建改进卷积神经网络采用以下步骤：

S12：将所述数据集处理为固定大小的224*224 RGB图像，作为卷积神经网络的输入；

3.根据权利要求2所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，卷积神经网络中所有隐藏层都使用ReLU作为激活函数并增加Dropout随机失活。

4.根据权利要求1所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，所述构建卷积神经网络和长短期记忆网络联合神经网络，包括如下子步骤：

5.根据权利要求4所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，信息增益损失函数在LSTM网络中的反向传播过程中满足：

(2)i＝j情况下：q_j关于θ_i的偏导数如下所示：

将定义域全部连接可以获得推导过程如下：

6.根据权利要求1所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于，对数据预处理包括以下子步骤：

S32：采用规模为5000的语义文本词典集；

7.根据权利要求1所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法，其特征在于：图像语义解读包括以下子步骤：

S41：模型建立卷积神经网络；