CN109002890A

CN109002890A - 卷积神经网络模型的建模方法及装置

Info

Publication number: CN109002890A
Application number: CN201810759256.9A
Authority: CN
Inventors: 王衍洋; 唐文忠; 史胜阳
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-12-14

Abstract

本发明实施例公开一种卷积神经网络模型的建模方法及装置，能解决全连接Dropout算法抑制过拟合效果不明显的问题。方法包括：S1、利用训练数据集对预先构建的卷积神经网络模型进行训练，得到训练好的卷积神经网络模型，其中，在构建所述卷积神经网络模型时，随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0；S2、利用测试数据集对所述训练好的卷积神经网络模型进行测试。

Description

卷积神经网络模型的建模方法及装置

技术领域

本发明实施例涉及计算机领域，具体涉及一种卷积神经网络模型的建模方法及装置。

背景技术

神经网络模型存在过拟合现象。就是说神经网络训练得到的模型过度拟合训练数据集，在测试集或其他独立数据集上的拟合效果差，泛化性能不理想。有限的训练数据集不可能涵盖所有的特征，神经网络的过拟合问题会严重影响神经网络在现实应用场景中的使用。卷积神经网络作为一种特殊的神经网络，同样存在过拟合现象。

Dropout算法是一种针对全连接神经网络提出的防止过拟合算法，该算法在防止全连接神经网络过拟合问题上效果明显。

近几年卷积神经网络在各领域应用广泛，其同样面临网络模型过拟合的问题。由于卷积神经网络一般会在网络模型最后几层使用全连接层对特征进行分类，为防止卷积神经网络过拟合，研究人员将Dropout算法应用于卷积神经网络的全连接层中。但是，这种Dropout的使用方式有时无法取得明显的防止过拟合的效果。

DeepID是香港中文大学设计的一个专门用于人脸识别的卷积神经网络模型，该模型在全连接层上使用了Dropout。DeepID由四个卷积层、三个池化层和两个全连接层组成，最后使用SoftMax分类器对数据进行分类，为防止网络模型过拟合，DeepID在第一个全连接层后使用了Dropout。申请人在实施本发明的过程中发现，Dropout算法的原理是它切断了神经元之间的固定联系，减弱了神经元之间的共适应性，使得单个神经元需要和不同的其他神经元组合一起工作，增强了单个神经元提取特征的能力，强迫模型选取鲁棒性更强的数据特征。而DeepID模型中，Dropout算法仅被应用于一个全连接层上，全连接层前面的七层网络原封不动，算法减弱神经元间共适应性的能力受到很大限制。所以在训练数据集规模较小时，网络模型依然会出现过拟合现象。

发明内容

有鉴于此，本发明实施例提供一种卷积神经网络模型的建模方法及装置，能提高卷积神经网络模型的建模的准确性以及遗传信息的利用率。

一方面，本发明实施例提出一种卷积神经网络模型的建模方法，包括：

S1、利用训练数据集对预先构建的卷积神经网络模型进行训练，得到训练好的卷积神经网络模型，其中，在构建所述卷积神经网络模型时，随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0；

S2、利用测试数据集对所述训练好的卷积神经网络模型进行测试。

另一方面，本发明实施例提出一种卷积神经网络模型的建模装置，包括：

训练单元，用于利用训练数据集对预先构建的卷积神经网络模型进行训练，得到训练好的卷积神经网络模型，其中，在构建所述卷积神经网络模型时，随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0；

测试单元，用于利用测试数据集对所述训练好的卷积神经网络模型进行测试。

第三方面，本发明实施例提供一种电子设备，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法。

本发明实施例提供的卷积神经网络模型的建模方法及装置，通过随机将卷积核中的部分参数置为0的方式，切断神经元之间的联系，削弱它们之间的共适应性，这种方式可以保证后续神经元的处理不会对算法本身的效果产生影响，通过上述方案在实现与Dropout算法相同效果的同时，保证计算结果不会受到池化层的影响，解决了Dropout算法被直接应用到卷积层时抑制过拟合效果不明显的问题。

附图说明

图1为本发明卷积神经网络模型的建模方法一实施例的流程示意图；

图2为DropoutConv原理示意图；

图3为原始DeepID模型在训练过程中正确率的变化示意图；

图4为原始DeepID模型在训练过程中损失值的变化示意图；

图5为使用了DropoutConv的DeepID模型在训练过程中正确率的变化示意图；

图6为使用了DropoutConv的DeepID模型在训练过程中损失值的变化示意图；

图7为本发明卷积神经网络模型的建模装置一实施例的结构示意图；

图8为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

参看图1，本实施例公开一种卷积神经网络模型的建模方法，包括：

本发明实施例提出了专门应用在卷积层的改进算法DropoutConv。Dropout算法的做法是随机切断神经元间的关系，削弱它们之间的共适应性。在卷积神经网络中，卷积层中的每个神经元与前一层的部分神经元通过卷积操作联系起来，卷积操作的输入参数分别为卷积核和前一层的神经元输出。DropoutConv继承Dropout的思想，将Dropout算法直接应用到卷积层，而不是在卷积层和池化层之间加上一层Dropout层，具体做法是DropoutConv通过随机将卷积核中的部分参数置为0的方式，切断神经元之间的联系。

如图2所示为DropoutConv原理示意图。图2说明了DropoutConv的工作原理，上半部分表示普通的卷积层提取特征的过程，左侧矩阵表示输入特征图，中间的矩阵表示卷积核，卷积核在特征图上滑动卷积，得到右侧的卷积结果；图的下半部分表示包含DropoutConv算法的卷积过程，左侧的输入特征图一样，DropoutConv算法对卷积核做处理，以一定概率将卷积核的参数置为0，从而切断了卷积核与对应位置神经元的联系，之后使用处理后的卷积核对输入特征图进行滑动卷积操作，获取到右侧的输出特征图。对比上下两个输出结果，两者在数值上存在较大差异，因此基于聚合统计的池化算法，不会对DropoutConv算法的效果产生减弱或者抵消。

本发明实施例提供的卷积神经网络模型的建模方法，通过随机将卷积核中的部分参数置为0的方式，切断神经元之间的联系，削弱它们之间的共适应性，这种方式可以保证后续神经元的处理不会对算法本身的效果产生影响，通过上述方案在实现与Dropout算法相同效果的同时，保证计算结果不会受到池化层的影响，解决了Dropout算法被直接应用到卷积层时抑制过拟合效果不明显的问题。

在前述方法实施例的基础上，所述卷积神经网络模型为DeepID网络模型。

在前述方法实施例的基础上，所述至少一个卷积层为所述DeepID网络模型的靠后的三个卷积层。

下面以具体例子说明DropoutConv算法在图像分类方面能够显著提升测试集的正确率。

●本发明的实例

(1)实验目的

本节通过实验，使用相同的数据集分别训练的原始的DeepID网络模型以及使用了DropoutConv算法的DeepID模型；之后分别测试了两个模型分别在训练数据集和独立疲劳数据集上的正确率，使用模型在两个数据集上正确率的差距来评价网络模型的过拟合程度。

(2)硬件平台

本文使用CPU对卷积神经网络模型进行训练和测试，平台环境如表1所示。

表1硬件环境

硬件	型号
		CPU	Intel Xeon E5626*2
内存	32GB
		硬盘	2TB

(3)网络模型与训练参数

实验分别对两个模型进行训练和测试，分别为原始的DeepID网络模型和使用了DropoutConv算法的DeepID模型。其中原始的DeepID模型有4个卷积层、3个池化层和2个全连接层，DropoutConv算法应用在了靠后的三个卷积层中。

训练过程中涉及到的主要训练参数如表2所示。

表2训练参数

参数	参数值
		base_learn_rate	0.01
momentum	0.9
		weight_decay	0.0005
max_iter	20000

其中base_learn_rate为基础学习率，在本次训练过程中每经过5000次迭代学习率降低10倍；momentum是梯度下降算法的一种加速系数，如果前后两次迭代中参数更新方向相同则增加更新幅度，否则减小更新幅度；weight_decay为权重衰减项，被作为损失函数中正则项的系数，可防止过拟合；max_iter是训练迭代次数最大值。

(4)数据集

深度学习领域的研究文献，通常会将一个数据集划分为大小两个部分，大部分数据集作为训练数据集，小部分数据集作为测试数据集。本文不使用这种方式，由于本文关注的是算法减轻过拟合现象的效果，效果的优劣通过模型的泛化能力体现。为了测试模型的泛化性能，本文首先将数据集按照9:1的比例划分为两个部分，大数据集用于模型训练，小数据集用于测试模型在测试集上的正确率；之后本文又引入了国外做疲劳驾驶检测的一个视频数据集(出处见文献Abtahi S,Omidyeganeh M,Shirmohammadi S,et al.YawDD:Ayawning detection dataset[C]//Proceedings of the 5th ACM Multimedia SystemsConference.ACM,2014:24-28.)中的部分图片数据，构成测试数据集，包含非疲劳图片1206张，疲劳图片1928张。由于训练数据集和测试数据集相互独立，网络模型在训练集和测试集上的正确率差别，就可以被用来评价网络模型泛化能力的优劣。

(5)实验结果与分析

本发明采用上述实验环境，分别对两个模型进行了训练。训练过程如图3～6所示。图3和4分别为原始DeepID模型在训练过程中正确率以及损失值的变化，图5和6分别为使用了DropoutConv的DeepID模型在训练过程中正确率以及损失值的变化，两个模型经过大量训练后都趋于收敛。模型的正确率是其在训练数据集上的正确率，原始的DeepID模型在训练集上的正确率达到了97.33％，使用了DropoutConv算法的DeepID模型正确率达到了97.27％，略低于原始DeepID模型的正确率但相差不大。

为了对比两个模型的泛化能力，本文又将两个模型在完全独立的数据集上进行了测试。独立数据集有3134张图片分别对两个模型进行测试。实验结果显示，原始的DeepID模型在完全独立的数据集上正确率可以达到69.89％，使用了DropoutConv算法的DeepID模型在完全独立的数据集上正确率达到了75.99％。表4通过数据对两个模型在两个数据集上的正确率进行了对比。

表3实验结果对比

使用了DropoutConv算法的DeepID模型对于训练集的拟合程度略差于原始DeepID(差0.06％)，但对于独立的疲劳数据集拟合程度明显高出原始的DeepID模型(提升6.1％)。

我们考查泛化能力来。原始的DeepID模型在独立数据集上的正确率相比训练数据集降低了27.44％，使用了DropoutConv算法的DeepID模型在独立数据集相比训练数据集降低了21.28％，正确率差距降低六个多百分点。以上数据说明，DropoutConv算法可以减轻模型对于训练数据集的拟合程度，增强模型对于测试数据的拟合程度，使模型的泛化性能增强。证明了DropoutConv算法减轻网络模型过拟合的有效性。

参看图7，本实施例公开一种卷积神经网络模型的建模装置，包括：

训练单元1，用于利用训练数据集对预先构建的卷积神经网络模型进行训练，得到训练好的卷积神经网络模型，其中，在构建所述卷积神经网络模型时，随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0；

测试单元2，用于利用测试数据集对所述训练好的卷积神经网络模型进行测试。

具体地，所述训练单元1利用训练数据集对预先构建的卷积神经网络模型进行训练，得到训练好的卷积神经网络模型，其中，在构建所述卷积神经网络模型时，随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0；所述测试单元2利用测试数据集对所述训练好的卷积神经网络模型进行测试。

本发明实施例提供的卷积神经网络模型的建模装置，通过随机将卷积核中的部分参数置为0的方式，切断神经元之间的联系，削弱它们之间的共适应性，这种方式可以保证后续神经元的处理不会对算法本身的效果产生影响，通过上述方案在实现与Dropout算法相同效果的同时，保证计算结果不会受到池化层的影响，解决了Dropout算法被直接应用到卷积层时抑制过拟合效果不明显的问题。

在前述装置实施例的基础上，所述卷积神经网络模型为DeepID网络模型。

在前述装置实施例的基础上，所述至少一个卷积层为所述DeepID网络模型的靠后的三个卷积层。

本实施例的卷积神经网络模型的建模装置，可以用于执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8示出了本发明实施例提供的一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序；

其中，所述处理器11，存储器12通过所述总线13完成相互间的通信；

所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法，例如包括：利用训练数据集对预先构建的卷积神经网络模型进行训练，得到训练好的卷积神经网络模型，其中，在构建所述卷积神经网络模型时，随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0；利用测试数据集对所述训练好的卷积神经网络模型进行测试。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：利用训练数据集对预先构建的卷积神经网络模型进行训练，得到训练好的卷积神经网络模型，其中，在构建所述卷积神经网络模型时，随机将所述卷积神经网络模型的至少一个卷积层的每个神经元与前一层的神经元连接所使用的卷积核的至少一个参数设置为0；利用测试数据集对所述训练好的卷积神经网络模型进行测试。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种卷积神经网络模型的建模方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型为DeepID网络模型。

3.根据权利要求2所述的方法，其特征在于，所述至少一个卷积层为所述DeepID网络模型的靠后的三个卷积层。

4.一种卷积神经网络模型的建模装置，其特征在于，包括：

5.根据权利要求4所述的装置，其特征在于，所述卷积神经网络模型为DeepID网络模型。

6.根据权利要求5所述的装置，其特征在于，所述至少一个卷积层为所述DeepID网络模型的靠后的三个卷积层。

7.一种电子设备，其特征在于，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-3中任一项所述的方法。