CN112825121A

CN112825121A - 深度卷积神经网络初始化和训练方法、装置、介质及设备

Info

Publication number: CN112825121A
Application number: CN201911138266.1A
Authority: CN
Inventors: 周军; 丁松; 王洋; 江武明
Original assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2021-05-21

Abstract

本发明公开了一种深度卷积神经网络初始化和训练方法、装置、介质及设备，属于模式识别领域。该初始化方法包括：获取DCNN、与DCNN对应的简易网络和初始训练集，初始训练集包括多个类别的样本，样本上设置有表示该样本类别的标签；使用初始训练集训练简易网络；将初始训练集的样本输入训练好的简易网络，得到每个样本在简易网络的特征层或分类层的输出；将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出，得到更新后的训练集；使用更新后的训练集预训练DCNN，完成DCNN的初始化。本发明能够使得任何结构的不易收敛的DCNN获得更好的初始化，使其更易收敛，加快训练速度。

Description

深度卷积神经网络初始化和训练方法、装置、介质及设备

技术领域

本发明涉及模式识别领域，特别是指一种深度卷积神经网络初始化和训练方法、装置、介质及设备。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)，也简称为网络，是一类模式识别方法。该方法旨在使用卷积的方法对图像等数据进行表征量化，进而完成分类或是回归任务。该方法目前在图像分类、语音识别等方向表现出了优异的性能。

近年来随着深度学习的发展，为了显著的提升模型准确率，网络的计算量和参数随之大幅增加，这种巨大的网络模型也称为深度卷积神经网络(Deep ConvolutionalNeural Network，DCNN)模型。当DCNN应用于图像识别训练时，由于网络层数很多，训练会十分困难不易收敛，需要一种合适的初始化来保证训练过程的稳定。

现有技术为基于方差不变性的高斯分布初始化方法，例如Xavierinitialization，kaiming initialization等，此类方法假设特征图的神经元间是独立同分布的，在参数初始化时，保证网络前馈各层神经元间的方差不会变化过大，反馈时各层神经元间的梯度不会过大，进而使得网络在训练时不会出现梯度发散和梯度消失。

但是，现有的基于方差不变性的高斯分布初始化方法并不能很好的解决训练会困难不易收敛的问题，即便使用BatchNorm收敛速度也比较慢。尤其是在复杂的神经网络结构中(例如googlenet,inception_resnet，mobilenet等)，现有初始化技术并不能很好解决训练困难的问题，需要凭借经验手动调节分支层高斯方差来获得更合适的初始化分布，工作量巨大且不能获得稳定的结果。

发明内容

为解决上述技术问题，本发明提供一种深度卷积神经网络初始化和训练方法、装置、介质及设备，本发明能够使得任何结构的不易收敛的DCNN获得更好的初始化，使其更易收敛，加快训练速度。

本发明提供技术方案如下：

第一方面，本发明提供一种深度卷积神经网络初始化方法，所述方法包括：

获取DCNN、与DCNN对应的简易网络和初始训练集，所述初始训练集包括多个类别的样本，所述样本上设置有表示该样本类别的标签；

使用初始训练集训练所述简易网络；

将初始训练集的样本输入训练好的简易网络，得到每个样本在简易网络的特征层或分类层的输出；

将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出，得到更新后的训练集；

使用更新后的训练集预训练DCNN，完成DCNN的初始化。

进一步的，使用初始训练集训练所述简易网络时，采用的是多分类交叉熵损失函数，使用更新后的训练集预训练DCNN时，采用的是欧几里得损失函数。

进一步的，所述DCNN和简易网络用于人脸识别，所述初始训练集的样本通过如下方法得到：

对人脸图像进行人脸检测和关键点定位，得到人脸区域和人脸关键点，所述人脸关键点包括左眼坐标和右眼坐标；

通过仿射变换将左眼坐标和右眼坐标对齐到指定坐标位置；

将人脸区域归一化为指定的大小并进行灰度化，得到样本；

为样本设置表示该样本类别的标签。

第二方面，本发明提供一种与第一方面的深度卷积神经网络初始化方法对应的深度卷积神经网络初始化装置，所述装置包括：

获取模块，用于获取DCNN、与DCNN对应的简易网络和初始训练集，所述初始训练集包括多个类别的样本，所述样本上设置有表示该样本类别的标签；

简易网络训练模块，用于使用初始训练集训练所述简易网络；

特征提取模块，用于将初始训练集的样本输入训练好的简易网络，得到每个样本在简易网络的特征层或分类层的输出；

标签替换模块，用于将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出，得到更新后的训练集；

初始化模块，用于使用更新后的训练集预训练DCNN，完成DCNN的初始化。

进一步的，所述简易网络训练模块中，使用初始训练集训练所述简易网络时，采用的是多分类交叉熵损失函数，所述初始化模块中，使用更新后的训练集预训练DCNN时，采用的是欧几里得损失函数。

进一步的，所述DCNN和简易网络用于人脸识别，所述初始训练集的样本通过如下单元得到：

人脸检测和关键点定位单元，用于对人脸图像进行人脸检测和关键点定位，得到人脸区域和人脸关键点，所述人脸关键点包括左眼坐标和右眼坐标；

对齐单元，用于通过仿射变换将左眼坐标和右眼坐标对齐到指定坐标位置；

归一化和灰度化单元，用于将人脸区域归一化为指定的大小并进行灰度化，得到样本；

标签设置单元，用于为样本设置表示该样本类别的标签。

第三方面，本发明提供一种用于深度卷积神经网络初始化的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括第一方面所述的深度卷积神经网络初始化方法的步骤。

第四方面，本发明提供一种用于深度卷积神经网络初始化的设备，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现第一方面所述的深度卷积神经网络初始化方法的步骤。

第五方面，本发明提供一种深度卷积神经网络训练方法，所述方法包括：

使用第一方面所述的深度卷积神经网络初始化方法对DCNN进行初始化；

使用所述初始训练集训练所述初始化后的DCNN。

第六方面，本发明提供一种与第五方面的深度卷积神经网络训练方法对应的深度卷积神经网络训练装置，所述装置包括：

初始化模块，用于使用第二方面所述的深度卷积神经网络初始化装置对DCNN进行初始化；

训练模块，用于使用所述初始训练集训练所述初始化后的DCNN。

第七方面，本发明提供一种用于深度卷积神经网络训练的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括第五方面所述的深度卷积神经网络训练方法的步骤。

第八方面，本发明提供一种用于深度卷积神经网络训练的设备，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现第五方面所述的深度卷积神经网络训练方法的步骤。

本发明具有以下有益效果：

本发明使用简易网络的输出代替原有的类别标签，并使用这种类别标签的数据集预训练DCNN，能够使得任何结构的不易收敛的DCNN获得更好的初始化，使其更易收敛，加快训练速度。

附图说明

图1为本发明的深度卷积神经网络初始化方法流程图；

图2为本发明的深度卷积神经网络初始化方法示意图；

图3为人脸样本的获取过程；

图4为本发明的深度卷积神经网络初始化装置示意图；

图5为本发明的深度卷积神经网络训练方法流程图；

图6为本发明的深度卷积神经网络训练装置示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明实施提供了一种深度卷积神经网络初始化方法，如图1和2所示，该方法包括：

步骤S100：获取DCNN、与DCNN对应的简易网络和初始训练集，初始训练集包括多个类别的样本，每个类别包括多个样本，样本上设置有表示该样本类别的标签。

本发明不限制DCNN的获取方式，DCNN可以是根据识别或分类需要设计结构复杂、高精度的大网络，也可以是现有的已经存在的高精度的网络，简易网络是与DCNN对应的结构简单、内存占用小的网络或者是现有技术中已存在的结构简单的网络。

本发明不限制DCNN和简易网络的结构，只要两者能够相对应即可：DCNN为结构复杂、高精度的大网络或者组合网络，简易网络为结构简单、内存占用小的小网络，DCNN和简易网络用于同样的识别或分类任务，并且DCNN的分类的类别和简易网络的分类的类别相同。

示例性的，以人脸识别为例，训练集为{I_i,j}，i＝1,2,...,C；j＝1,2,...,C_i，C为人脸id数(类别数)，C_i为第i类的样本数量。

步骤S200：使用初始训练集训练简易网络。

本步骤通过常规的方法训练简易网络，将训练集的样本输入简易网络，计算损失函数，通过反向传播训练更新简易网络的参数。

简易网络是浅层神经网络，易收敛，容易训练，训练时采用的是多分类交叉熵损失函数Softmaxloss。

步骤S300：将初始训练集的样本输入训练好的简易网络，得到每个样本在简易网络的特征层或分类层的输出。

步骤S400：将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出，得到更新后的训练集。

步骤S500：使用更新后的训练集预训练DCNN，完成DCNN的初始化。

在训练时，将更新后的训练集的样本输入DCNN，提取特征，计算损失函数，通过随机梯度下降法(Stochastic gradient descent,SGD)等方法更新DCNN的参数，采用的损失函数是欧几里得损失函数L2 loss。

现有技术中，样本标签一般是one-hot标签，这种标签中只有一个类别为1，其他类别为0，这种标签包含的信息量很低。简易网络的输出包含的类别分布信息比one-hot标签更丰富，拥有不同类别之间关系的信息。样本输入简易网络后，在简易网络的特征层或分类层会有一个输出，使用简易网络特征层或分类层的输出代替原有的类别标签，并使用这种类别标签的数据集预训练DCNN，能够使得不易收敛的DCNN获得更好的初始化，使其更易收敛，加快训练速度。

如果是将初始训练集中每个样本的标签替换为该样本在简易网络的特征层的输出，那么还要求简易网络的该特征层的输出的维数与DCNN的某一个特征层的输出的维数相同。

综上所述，本发明可以对任何结构的深度卷积神经网络进行初始化，使其更易收敛，加快训练速度。

以DCNN和简易网络用于人脸识别为例，如图3所示，初始训练集的样本通过如下方法得到：

步骤S110：对人脸图像进行人脸检测和关键点定位，得到人脸区域和人脸关键点，人脸关键点包括左眼坐标和右眼坐标。人脸检测算法优选为基于CNN的人脸检测算法。

步骤S120：通过仿射变换将左眼坐标和右眼坐标对齐到指定坐标位置。

步骤S130：将人脸区域归一化为指定的大小并进行灰度化，得到样本。

步骤S140：为样本设置表示该样本类别的标签。

示例性的，左眼坐标对齐到(30,30)坐标，右眼坐标对齐到(30,70)坐标，将人脸区域归一化为100*100的大小。

实施例2：

本发明实施例提供了一种深度卷积神经网络初始化装置，如图4所示，该装置包括：

获取模块10，用于获取DCNN、与DCNN对应的简易网络和初始训练集，初始训练集包括多个类别的样本，样本上设置有表示该样本类别的标签。

简易网络训练模块20，用于使用初始训练集训练简易网络。

特征提取模块30，用于将初始训练集的样本输入训练好的简易网络，得到每个样本在简易网络的特征层或分类层的输出。

标签替换模块40，用于将初始训练集中每个样本的标签替换为该样本在简易网络的特征层或分类层的输出，得到更新后的训练集。

初始化模块50，用于使用更新后的训练集预训练DCNN，完成DCNN的初始化。

现有技术中，样本标签一般是one-hot标签，这种标签中只有一个类别为1，其他类别为0，这种标签包含的信息量很低。简易网络的输出包含的类别分部信息比one-hot标签更丰富，拥有不同类别之间关系的信息。因此使用简易网络的输出代替原有的类别标签，并使用这种类别标签的数据集预训练DCNN，能够使得不易收敛的DCNN获得更好的初始化，使其更易收敛，加快训练速度。

在简易网络训练模块中，使用初始训练集训练简易网络时，采用的是多分类交叉熵损失函数，在初始化模块中，使用更新后的训练集预训练DCNN时，采用的是欧几里得损失函数。

以DCNN和简易网络用于人脸识别为例，初始训练集的样本通过如下单元得到：

人脸检测和关键点定位单元，用于对人脸图像进行人脸检测和关键点定位，得到人脸区域和人脸关键点，人脸关键点包括左眼坐标和右眼坐标。

对齐单元，用于通过仿射变换将左眼坐标和右眼坐标对齐到指定坐标位置。

归一化和灰度化单元，用于将人脸区域归一化为指定的大小并进行灰度化，得到样本。

标签设置单元，用于为样本设置表示该样本类别的标签。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例1相同，为简要描述，该装置实施例部分未提及之处，可参考前述方法实施例1中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的装置和单元的具体工作过程，均可以参考上述方法实施例1中的对应过程，在此不再赘述。

实施例3：

本说明书提供的上述实施例1所述的方法可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例1所描述方案的效果。因此，本发明还提供用于深度卷积神经网络初始化的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括实施例1的深度卷积神经网络初始化方法的步骤。

所述存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

上述所述的装置根据方法实施例1的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例1的描述，在此不作一一赘述。

实施例4：

本发明还提供一种用于深度卷积神经网络初始化的设备，所述的设备可以为单独的计算机，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的实际操作装置等。所述用于深度卷积神经网络初始化的设备可以包括至少一个处理器以及存储计算机可执行指令的存储器，处理器执行所述指令时实现上述任意一个或者多个实施例1中所述深度卷积神经网络初始化方法的步骤。

上述所述的设备根据方法或者装置实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例1的描述，在此不作一一赘述。

实施例5：

本发明实施例提供了一种深度卷积神经网络训练方法，如图5所示，该方法包括：

步骤S100’：使用实施例1所述的深度卷积神经网络初始化方法对DCNN进行初始化。

初始化方法参见前述的实施例1，本实施例中不再赘述。

步骤S200’：使用初始训练集训练初始化后的DCNN。

也就是说，使用带有one-hot标签的初始训练集对初始化后的DCNN进行fine-tuning，完成正常的训练，训练时采用的是多分类交叉熵损失函数Softmaxloss。

实施例6：

本发明实施例提供了一种深度卷积神经网络训练装置，如图6所示，该装置包括：

初始化模块10’，用于实施例2所述的深度卷积神经网络初始化装置对DCNN进行初始化。

初始化过程参见前述的实施例1、2，本实施例中不再赘述。

训练模块20’，用于使用初始训练集训练初始化后的DCNN。

也就是说，使用带有one-hot标签的初始训练集对初始化后的DCNN进行fine-tuning，完成正常的训练。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例5相同，为简要描述，该装置实施例部分未提及之处，可参考前述方法实施例5中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的装置和单元的具体工作过程，均可以参考上述方法实施例5中的对应过程，在此不再赘述。

实施例7：

本说明书提供的上述实施例5所述的方法可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例5所描述方案的效果。因此，本发明还提供用于深度卷积神经网络训练的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括实施例5的深度卷积神经网络训练方法的步骤。

上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例5的描述，在此不作一一赘述。

实施例8：

本发明还提供一种用于深度卷积神经网络训练的设备，所述的设备可以为单独的计算机，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的实际操作装置等。所述用于深度卷积神经网络训练的设备可以包括至少一个处理器以及存储计算机可执行指令的存储器，处理器执行所述指令时实现上述任意一个或者多个实施例5中所述深度卷积神经网络训练方法的步骤。

上述所述的设备根据方法或者装置实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例5的描述，在此不作一一赘述。

需要说明的是，本说明书上述所述的装置或者系统根据相关方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照方法实施例的描述，在此不作一一赘述。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类、存储介质+程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种深度卷积神经网络初始化方法，其特征在于，所述方法包括：

使用初始训练集训练所述简易网络；

使用更新后的训练集预训练DCNN，完成DCNN的初始化。

2.根据权利要求1所述的深度卷积神经网络初始化方法，其特征在于，使用初始训练集训练所述简易网络时，采用的是多分类交叉熵损失函数，使用更新后的训练集预训练DCNN时，采用的是欧几里得损失函数。

3.根据权利要求1或2所述的深度卷积神经网络初始化方法，其特征在于，所述DCNN和简易网络用于人脸识别，所述初始训练集的样本通过如下方法得到：

通过仿射变换将左眼坐标和右眼坐标对齐到指定坐标位置；

将人脸区域归一化为指定的大小并进行灰度化，得到样本；

为样本设置表示该样本类别的标签。

4.一种深度卷积神经网络初始化装置，其特征在于，所述装置包括：

5.根据权利要求4所述的深度卷积神经网络初始化装置，其特征在于，所述简易网络训练模块中，使用初始训练集训练所述简易网络时，采用的是多分类交叉熵损失函数，所述初始化模块中，使用更新后的训练集预训练DCNN时，采用的是欧几里得损失函数。

6.根据权利要求4或5所述的深度卷积神经网络初始化装置，其特征在于，所述DCNN和简易网络用于人脸识别，所述初始训练集的样本通过如下单元得到：

标签设置单元，用于为样本设置表示该样本类别的标签。

7.一种用于深度卷积神经网络初始化的计算机可读存储介质，其特征在于，包括用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括权利要求1-3任一所述深度卷积神经网络初始化方法的步骤。

8.一种用于深度卷积神经网络初始化的设备，其特征在于，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-3中任意一项所述深度卷积神经网络初始化方法的步骤。

9.一种深度卷积神经网络训练方法，其特征在于，所述方法包括：

使用权利要求1-3任一所述的深度卷积神经网络初始化方法对DCNN进行初始化；

使用所述初始训练集训练初始化后的DCNN。

10.一种深度卷积神经网络训练装置，其特征在于，所述装置包括：

初始化模块，用于使用权利要求4-6任一所述的深度卷积神经网络初始化装置对DCNN进行初始化；

训练模块，用于使用所述初始训练集训练初始化后的DCNN。