CN106682734A

CN106682734A - 一种提升卷积神经网络泛化能力的方法及装置

Info

Publication number: CN106682734A
Application number: CN201611261398.XA
Authority: CN
Inventors: 乔宇; 张潇
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-05-17

Abstract

本发明属于神经网络技术领域，提供了一种提升卷积神经网络泛化能力的方法及装置，所述方法包括：从训练集中读取一组图像，将所述一组图像映射为多个图像特征向量，并按照图像的类别将图像特征向量分为多个类；根据每个类内的图像特征向量计算整体的类内损失函数；根据每个类内的图像特征向量计算整体的类间损失函数；根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值；根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值；循环执行上述步骤，直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。通过本发明可保留具有长尾分布的所有数据，充分利用尾部数据丰富的类间信息，提升卷积神经网络模型的泛化能力。

Description

一种提升卷积神经网络泛化能力的方法及装置

技术领域

本发明属于神经网络技术领域，尤其涉及一种提升卷积神经网络泛化能力的方法及装置。

背景技术

卷积神经网络是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。与传统算法不同，卷积神经网络的相邻层之间的神经单元并不是全连接，而是部分连接，并且对于一个卷积核的卷积运算权值共享，从而减少了参数个数，通过多次卷积与池化过程达到特征提取的目的。

随着大批量图像数据库的日益丰富以及计算机的计算性能的不断提升，卷积神经网络在计算机视觉和模式识别领域发挥出了巨大的优势。人脸识别是卷积神经网络的一个重要应用领域，在卷积神经网络应用的过程中，一般情况下随着训练用数据的扩充，训练所得的网络模型拥有更强的泛化能力。

但是，在自然收集的数据中，其分布总是呈现长尾分布，即少量的类拥有许多的照片，而绝大部分类的照片数量很少。当训练数据呈现出带有长尾的幂指分布时，随着尾部图像数量的增多，神经网络的泛化能力降低。

现有的解决方案通常采用舍弃尾部数据的方法，这一方案造成了数据集的信息的丢失,从根本上说没有利用到更加充分的类间信息帮助卷积神经网络模型提升泛化能力。

发明内容

鉴于此，本发明提供一种提升卷积神经网络泛化能力的方法及装置，保留具有长尾分布的所有数据，充分利用尾部数据丰富的类间信息，提升卷积神经网络模型的泛化能力。

本发明的第一方面，提供一种卷积神经网络的训练方法，所述方法包括：

从训练集中读取一组图像，将所述一组图像映射为多个图像特征向量，并按照图像的类别将图像特征向量分为多个类；

根据每个类内的图像特征向量计算整体的类内损失函数；

根据每个类内的图像特征向量计算整体的类间损失函数；

根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值；

根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值；

循环执行上述步骤，直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。

本发明的第二方面，提供一种卷积神经网络的训练装置，所述装置包括：

分类模块，用于从训练集中读取一组图像，将所述一组图像映射为多个图像特征向量，并按照图像的类别将图像特征向量分为多个类；

整体的类内损失函数计算模块，用于根据所述分类模块获得的每个类内的图像特征向量计算整体的类内损失函数；

整体的类间损失函数计算模块，用于根据所述分类模块获得的每个类内的图像特征向量计算整体的类间损失函数；

整体的类内损失函数反向计算模块，用于根据整体的类内损失函数计算模块计算的整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值；

整体的类间损失函数反向计算模块，用于根据整体的类间损失函数计算模块计算的整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值；

卷积神经网络获得模块，用于循环执行上述模块，直到所述卷积神经网络在该训练集上收敛或者达到预定的循环次数。

本发明与现有技术相比存在的有益效果是：本发明从训练集中读取一组图像，将所述一组图像映射为多个图像特征向量，并按照图像的类别将图像特征向量分为多个类；根据每个类内的图像特征向量计算整体的类内损失函数；根据每个类内的图像特征向量计算整体的类间损失函数；根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值；根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值；循环执行上述步骤，直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。通过本发明构造的整体的类内损失函数和整体的类间损失函数可充分利用尾部数据丰富的类间信息，提升卷积神经网络模型的泛化能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的提升卷积神经网络泛化能力的方法的示意流程图；

图2是本发明第二实施例提供的提升卷积神经网络泛化能力的方法的示意流程图；

图3是本发明第二实施例中图像特征向量运算的示意图。

图4是本发明第三实施例提供的提升卷积神经网络泛化能力的装置的示意框图；

图5是本发明第四实施例提供的提升卷积神经网络泛化能力的装置的示意框图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

在介绍实施例前，首先需要说明的是，本发明实施例作用于卷积神经网络全连接层的损失函数部分，在训练卷积神经网络过程中只具体介绍与本发明实施例构建的损失函数相关的内容。

实施例一：

参见图1，图1是本发明实施例一提供的提升卷积神经网络泛化能力的方法的示意流程图，如图所示该方法可以包括以下步骤：

步骤S101，从训练集中读取一组图像，将所述一组图像映射为多个图像特征向量，并按照图像的类别将图像特征向量分为多个类。

在本发明实施例中，需要先构建卷积神经网络，卷积神经网络是一个多层的神经网络，每层都是一个变换(映射)，通常都包含卷积变换和池化变换，每种变换过程都是对每层输入数据的一种处理，是输入数据特征的另一种特征表达，每层由多个二维平面组成，每个平面为各层处理后的特征图。每个卷积神经网络中卷积层和池化层的个数不确定，依据具体的情况而定，在最后连接一个全连接层，即完成对训练数据的特征提取后，把特征数据进行向量化。本发明实施例中构建的卷积神经网络包括卷积层、池化层、全连接层和softmax层，而本发明实施例中的损失函数作用于全连接层。需要注意的是，所述卷积层、池化层、全连接层的个数可以是多个。

所述训练集用来训练卷积神经网络模型确定模型参数(例如卷积神经网络中各节点的权值)，训练集中包含很多不同类别的图像。对应训练集还设置有测试集，所述测试集是为了测试已经训练好的模型的泛化能力。从训练集中读取一组图像经过卷积层、池化层、全连接层映射为高维特征向量，需要说明的是，每张图像在全连接层后会映射为一个高维图像特征向量。一组图像会映射为一组高维图像特征向量，按照每个图像的类别将每个图像映射的高维图像特征向量分为多个类别。以人脸为例，不同类别的图像就是不同人的人脸图像，一个类内的所有图像特征向量都是一个人的人脸图像映射得到的高维图像特征向量，从训练集中读取的一组图像中包含多少个不同人，则分为多少个类。需要说明的是，每次读取的一组图像需要保证各个图像类别中的图像数量相同，并在尽可能使得各个类别中图像较多的同时，使类别的个数尽可能丰富。

可选的，在从训练集中读取一组图像之前，先对训练集中的图像预处理。

在本发明实施例中，需要先检测出图像中的人脸，以检测出人脸中的双眼、鼻尖、两个嘴角为基准，然后进行仿射变换，将训练集中的所有图像按照此方法进行人脸对齐矫正。所述仿射变换可以通过一系列的变换的复合来实现，包括：平移、缩放、翻转、旋转和错切。

步骤S102，根据每个类内的图像特征向量计算整体的类内损失函数。

在本发明实施例中，根据每个类内的图像特征向量计算整体的类内损失函数包括：

根据每个类内的图像特征向量计算该类中所有图像特征向量的第一数据特征作为该类的第一数据特征；

将所有类的第一数据特征求和得到整体的类内损失函数。

在本发明实施例中，所述数据特征是指一组数据中能够代表该组数据的统计值，由于类内的数据为图像特征向量，可以通过计算类内的图像特征向量的第一数据特征作为该类的第一数据特征，例如类内所有图像特征向量中距离最远的两个图像特征向量之间的距离、类内所有图像特征向量中距离最近的两个图像特征向量之间的距离等。得到所有类的第一数据特征之后，将所有类的第一数据特征求和得到整体的类内损失函数。需要说明的是，在计算整体的类内损失函数时，可以将所有类的第一数据特征求和也可以将部分类的第一数据特征求和作为整体的类内损失函数。

步骤S103，根据每个类内的图像特征向量计算整体的类间损失函数。

在本发明实施例中，根据每个类内的图像特征向量计算整体的类间损失函数包括：

根据每个类内的图像特征向量计算该类中所有图像特征向量的第二数据特征作为该类的第二数据特征；

将所有类的第二数据特征作为一组数据计算该组数据的第三数据特征作为整体的类间损失函数。

在本发明实施例中，在计算整体的类间损失函数时计算的每个类的第二数据特征和计算整体的类内损失函数时计算的每个类的第一数据特征可以相同也可以不同，在此不做限制。例如计算类内损失函数时，该类的所有图像特征向量每两个之间计算距离，最大的距离为该类的第一数据特征。计算整体的类间损失函数时计算的每个类的第二数据特征为该类的所有图像特征向量的均值或部分图像特征向量的均值。计算完每个类的第二数据特征后，将所有类的第二数据特征作为一组数据，继续计算该组数据的第三数据特征作为整体的类间损失函数。所述第三数据特征可以是该组数据的均值，还可以是该组数据中每两个数据之间计算距离后最大的距离值、最小的距离值等。

步骤S104，根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值。

在本发明实施例中，所述根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值包括：对整体的类内损失函数求导，获得参与计算整体的类内损失函数的图像特征向量对应的节点的权值，并将未参与计算整体的类内损失函数的图像特征向量对应的节点的权值设为零。

在卷积神经网络的训练过程中，通常包括向前传播阶段和向后传播阶段，向前传播阶段是从训练集中读取一组图像，所述一组图像从输入层经过逐层映射传输到输出层并计算相应的实际输出。计算实际输出与样本对应的理想输出的差值表征就是损失函数。向后传播阶段，是利用链式求导法对损失函数求导得到隐含层的节点的参数。在本发明实施例中，由于每次读取的训练集中的训练样本为多个，每个样本都会对应有自己每层的误差敏感性，并且由于在计算整体的类内损失函数时，有可能所有类的所有图像特征向量都参与计算，也有可能只是部分类的部分图像特征向量参与计算，所以在计算每个样本对应的各节点的权值时，只需计算参与了计算整体的类内损失函数的图像特征向量对应的节点的权值，未参与计算整体的类内损失函数的图像特征向量对应的节点的权值设为零。

步骤S105，根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值。

在本发明实施例中，所述根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值包括：对整体的类间损失函数求导，获得参与计算整体的类间损失函数的图像特征向量对应的节点的权值，并将未参与计算整体的类间损失函数的图像特征向量对应的节点的权值设为零。

在本发明实施例中，对整体的类间损失函数求导与对整体的类内损失函数求导一样利用反向传播算法更新各节点权值的方式，只需计算参与了计算整体的类间损失函数的图像特征向量对应的节点的权值。未参与计算整体的类间损失函数的图像特征向量的节点的权值设为零。

步骤S106，循环执行上述步骤，直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。

在本发明实施例中，当利用反向传播算法更新卷积神经网络中各节点的权值之后，继续读取一组图像，按照步骤S101至步骤S105的过程利用反向传播算法更新卷积神经网络中各节点的权值。整体的类内损失函数的计算以及反向求导的过程和整体的类间损失函数的计算以及反向求导的过程是两个相互独立的过程。所述卷积神经网络在所述训练集上收敛是指所述整体的类内损失函数和整体的类间损失函数同时收敛。

本发明实施例从训练集中读取一组图像，将所述一组图像映射为多个图像特征向量，并按照图像的类别将图像特征向量分为多个类；根据每个类内的图像特征向量计算整体的类内损失函数；根据每个类内的图像特征向量计算整体的类间损失函数；根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值；根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值；循环执行上述步骤，直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。通过本发明可保留具有长尾分布的所有数据，充分利用尾部数据丰富的类间信息，提升卷积神经网络模型的泛化能力。

实施例二：

参见图2，图2是本发明实施例二提供的一种提升卷积神经网络泛化能力的方法的示意流程图，如图所示该方法可以包括以下步骤：

步骤S201，从训练集中读取一组图像，将所述一组图像映射为多个图像特征向量，并按照图像的类别将图像特征向量分为多个类。

该步骤与步骤S101相同，具体可参见步骤S101的相关描述，在此不再赘述。

步骤S202，根据每个类内的图像特征向量计算该类中所有图像特征向量的第一数据特征作为该类的第一数据特征。

作为一个优选的实施例，所述根据每个类内的图像特征向量计算该类中所有图像特征向量的第一数据特征作为该类的第一数据特征包括：

若类内的图像特征向量个数大于或等于预设值，将类内的所有图像特征向量每两个之间计算类内距离，并记录最大的类内距离；

删除参与计算并获得最大的类内距离的两个图像特征向量，计算剩余的图像特征向量每两个之间的类内距离，并再次记录最大的类内距离；

将两次记录的最大的类内距离的调和平均值作为该类的均值；

若类内的图像特征向量的个数小于所述预设值，将类内的所有图像特征向量每两个之间计算类内距离；

选取最大的类内距离和次大的类内距离的调和平均值作为该类的均值，或者选取最大的类内距离作为该类的均值。

在本发明实施例中，先将类内的所有图像特征向量每两个之间计算类内距离，并记录最大的类内距离；删除参与计算并获得最大的类内距离的两个图像特征向量，计算剩余的图像特征向量每两个之间的类内距离，并再次记录最大的类内距离，将两次记录的最大的类内距离的调和平均值作为该类的均值，即该类的第一数据特征。由于采用上述计算类的第一数据特征的方法需要类内的图像特征向量的个数至少为4个，所以当类内的图像特征向量的个数少于4个时，需要采用过采样的方式计算，即将类内的所有图像特征向量每两个之间计算类内距离，选取最大的类内距离和次大的类内距离的调和平均值作为该类的均值，或者选取最大的类内距离作为该类的均值。

需要说明的是，采用不同的方式计算类的第一数据特征，可以设定不同的预设值，例如，当删除参与计算并获得最大的类内距离的两个图像特征向量，计算剩余的图像特征向量每两个之间的类内距离，并再次记录最大的类内距离之后，还可以按照上述方式第三次计算最大的类内距离，这时预设值可以设置为6，预设值的具体设定可以根据计算类的第一数据特征时参与计算的图像特征向量的个数设定。另外，在计算类内距离时，所述距离可以是欧氏距离、余弦距离、标准化欧氏距离等。将两次记录的最大的类内距离的调和平均值作为该类的均值，选取最大的类内距离和次大的类内距离的调和平均值作为该类的均值，所述调和平均值还可以是几何平均值、算数平均值等可以表示平均数的平均值。调和平均值还可以包括简单调和平均数和加权调和平均数，需要说明的是，调和平均值只是其中的一个实施例。

具体的，以图3为例，在实际的卷积神经网络模型中，读取的图像在全连接层会映射为高维图像特征向量，为了方面理解，在图3中用二维向量表示，假设预设值为4，总共有4个类别的图像特征向量，分别为类A、类B、类C、类D，每个类中的图像特征向量个数为6个，以类B为例，6个图像特征向量分别为：B1、B2、B3、B4、B5、B6。首先每个类内的图像特征向量的个数为6，大于预设值4，将类内的所有图像特征向量每两个之间计算类内距离，并记录最大的类内距离，所述距离为欧氏距离，在二维空间中，欧氏距离就是两点之间的实际距离。最大的距离为B1和B5之间的距离L15，然后将B1和B5删除后，计算剩余的图像特征向量每两个之间的类内距离，并再次记录最大的类内距离，在B2、B3、B4、B6这4个向量数据中，最大的类内距离为B2和B6之间的距离L26，尽管在删除B1和B5之前，B1和B6之间的距离L16大于B2和B6之间的距离L26，为了避免重复采样，选择的是删除B1和B5之后最大的类内距离，即B2和B6之间的距离L26。将两次记录的最大类内距离L15和L26的均值作为该类的均值，也就是该类的第一数据特征。

假设类内的图像特征向量的个数为3个，分别为B1、B5、B6，由于类内的图像特征向量的个数小于所述预设值4，将类内所有特征向量每两个之间计算类内距离，类内距离的大小关系L15>L16>L56，可以选取最大的类内距离L15和次大的类内距离L16的均值作为该类的均值，也可以选择最大的类内距离L15作为该类的均值，也就是该类的第一数据特征。

通过具体举例可以看出，在计算整体的类内损失函数时，并不是所有类的所有图像特征向量都参与计算。

步骤S203，将所有类的第一数据特征求和得到整体的类内损失函数。

在本发明实施例中，在计算完每个类的第一数据特征后，将所有类的数据特征求和得到整体的类内损失函数，即计算所有类的均值后，将所有类的均值相加后得到整体的类内损失函数。在本发明实施例中，将所有类的第一数据特征求和得到整体的类内损失函数只是其中一个实施例，也可以将部分类的第一数据特征求和得到整体的类内损失函数。

步骤S204，根据每个类内的图像特征向量计算该类中所有图像特征向量的第二数据特征作为该类的第二数据特征。

作为一个优选的实施例，根据每个类内的图像特征向量计算该类中所有图像特征向量的第二数据特征作为该类的第二数据特征包括：

计算每个类内所有图像特征向量的均值，并将计算结果作为该类的中心特征向量。

在本发明实施例中，所述该类中所有图像特征向量的第二数据特征为该类中所有图像特征向量的均值，所述均值包括几何均值、调和均值等可以表示平均数的均值，需要说明的是，该类中所有图像特征向量的第二数据特征可以是该类中所有图像特征向量的均值，也可以是扣除偏离较大的异常图像特征向量之外的所有图像特征向量的均值，在此并不做限制。

步骤S205，将所有类的第二数据特征作为一组数据计算该组数据的第三数据特征作为整体的类间损失函数。

作为优选的一个实施例，所述将所有类的第二数据特征作为一组数据计算该组数据的第三数据特征作为整体的类间损失函数包括：

将所有类的中心特征向量每两个之间计算类间距离；

若所有的类间距离中最小的类间距离大于阈值，则将所述最小的类间距离与所述阈值的差值作为整体的类间损失函数；

若所有的类间距离中最小的类间距离小于或等于所述阈值，则整体的类间损失值为零。

在本发明实施例中，在计算完每个类的第二数据特征后，将计算获得的所有类的第二数据特征作为一组数据继续计算该组数据的第三数据特征得到整体的类间损失函数，所述第三数据特征的计算方式为：将所有类的中心特征向量每两个之间计算类间距离，若所有类间距离中最小的类间距离大于阈值，则将所述最小的类间距离与所述阈值的差值作为整体的类间损失函数，若所有类间距离中最小的类间距离小于或等于所述阈值，则所有类的类间损失值为零。需要说明的是，在计算类间距离时，所述距离包括欧氏距离、余弦距离等可以表示距离的数据特征。

具体的，以图3为例，首先计算每个类内所有图像特征向量的均值，以二维空间中的类A为例，假设类A空间中的图像特征向量的坐标分为用(x₁，y₁)、(x₂，y₂)、(x₃，y₃)、(x₄，y₄)、(x₅，y₅)、(x₆，y₆)表示。取每个图像特征向量的X轴坐标取均值，取每个图像特征向量的Y轴坐标取均值，即得到该类的中心特征向量将每个类计算中心特征向量，就得到4个中心特征向量，将这四个中心特征向量作为一组数据，再计算这4个中心特征向量的第三数据特征，将所有类的中心特征向量每两个之间计算类间距离，所述距离为欧氏距离，以图中的类C和类D为例，类C的中心特征向量和类D的中心特征向量之间的距离为Lcd，按照同样的方式计算Lab、Lac、Lad、Lbc、Lbd，选取所有的类的中心特征向量中最小的类间距离，假设最小的类间距离为Lcd，若最小的类间距离大于阈值，则将最小的类间距离减去所述阈值作为整体的类间损失函数，若最小的类间距离小于或者等于阈值，将整体的类间损失函数设为0。

通过举例可以看出在计算整体的类间损失函数时，并不是所有类的所有图像特征向量都参与计算整体的类间损失函数，而是仅仅有两个类的所有的图像特征向量参与了整体的类间损失函数。

步骤S206，根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值。

在本发明实施例中，以预设值是4为例，由于计算整体的类内损失函数时，当类内的图像特征向量大于预设值时，实际每个类中参与计算整体的类内损失函数的图像特征向量至多有4个，那么将参与计算整体的类内损失函数的图像特征向量对应的节点的权值通过反向传播算法计算，那么其余未参与计算整体的类内损失函数的图像特征向量对应的节点的权值设置为0。

步骤S207，根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值。

在本发明实施例中，由于在计算类的中心特征向量时采用的是计算类内所有图像特征向量的均值，在计算整体的类间损失函数时，采用的是距离最小的类间距离，所以实际只有两个类中的所有图像特征向量参与了整体的类间损失函数的计算，那么对整体的类间损失函数求导，获得参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值，并将未参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值设为零。

步骤S208，循环执行上述步骤S201至步骤S207，直到所述卷积神经网络在所述训练集上收敛或者预定的循环次数。

该步骤与步骤S106相同，具体可参见步骤S106的相关描述，在此不再赘述。

本发明选择由美国马萨诸塞大学阿姆斯特分校计算机视觉实验室整理完成的LFW(Labeled Faces in the wild)数据库中的验证集进行实验，实验结果表明，与现有技术相比，使得在LFW训练集上的准确率由98.45％上升至98.63％，从而说明本发明所采用的技术方案能够消除长尾效应，提升卷积神经网络的泛化能力。

应理解，在上述实施例一和二中，各步骤的序号的大小并不意味着执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例三：

参见图5，图5是本发明实施例三提供的提升卷积神经网络泛化能力的装置的示意框图，为了便于说明，仅示出与本发明实施例相关的部分。

该提升卷积神经网络泛化能力的装置可以是内置于终端设备(例如手机、平板电脑、笔记本、计算机、服务器等)内的软件单元、硬件单元或者软硬结合的单元，也可以作为独立的挂件集成到所述终端设备中。

所述提升卷积神经网络泛化能力的装置包括：

分类模块41，用于从训练集中读取一组图像，将所述一组图像映射为多个图像特征向量，并按照图像的类别将图像特征向量分为多个类；

整体的类内损失函数计算模块42，用于根据所述分类模块41获得的每个类内的图像特征向量计算整体的类内损失函数；

整体的类间损失函数计算模块43，用于根据所述分类模块41获得的每个类内的图像特征向量计算整体的类间损失函数；

整体的类内损失函数反向计算模块44，用于根据整体的类内损失函数计算模块42计算的整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值；

整体的类间损失函数反向计算模块45，用于根据整体的类间损失函数计算模块43计算的整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值；

卷积神经网络获得模块46，用于循环执行上述模块，直到所述卷积神经网络在该训练集上收敛或者达到预定的循环次数。

可选的，所述整体的类内损失函数计算模块42具体用于：

选取最大的类内距离和次大的类内距离的调和平均值作为该类的均值，或者选取最大的类内距离作为该类的均值；

计算所有类的均值，并将所有类的均值相加后得到整体的类内损失函数。

可选的，所述整体的类间损失函数计算模块43具体用于：

计算每个类内所有图像特征向量的均值，并将计算结果作为该类的中心特征向量；

将所有类的中心特征向量每两个之间计算类间距离；

可选的，所述整体的类内损失函数反向计算模块44具体用于：

对整体的类内损失函数求导，获得参与计算整体的类内损失函数的各个图像特征向量对应的节点的权值，并将未参与计算整体的类内损失函数的图像特征向量对应的节点的权值设为零。

可选的，所述整体的类间损失函数反向计算模块45具体用于：

对整体的类间损失函数求导，获得参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值，并将未参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值设为零。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即所述装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，各功能模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中模块的具体工作过程，可以参考前述方法实施例的对应过程，在此不再赘述。

实施例四：

参见图5，图5是本发明实施例四提供的提升卷积神经网络泛化能力的装置的示意框图。如图所示的该提升卷积神经网络泛化能力的装置可以包括：一个或多个处理器501(图5中仅示出一个)；一个或多个输入设备502(图5中仅示出一个)，一个或多个输出设备503(图5中仅示出一个)和存储器504。上述处理器501、输入设备502、输出设备503和存储器504通过总线505连接。存储器504用于存储指令，处理器501用于执行存储器504存储的指令。其中：

所述处理器501，用于通过输入设备502读取一组图像，将所述一组图像映射为多个图像特征向量，并按照图像的类别将图像特征向量分为多个类；所述处理器501还用于根据每个类内的图像特征向量计算整体的类内损失函数；所述处理器501还用于根据每个类内的图像特征向量计算整体的类间损失函数；所述处理器501还用于根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值；所述处理器501还用于根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的权值；所述处理器501还用于循环执行上述步骤，直到所述卷积神经网络在所述训练集上收敛或者达到预定的循环次数。

可选的，所述处理器501用于若类内的图像特征向量个数大于或等于预设值，将类内的所有图像特征向量每两个之间计算类内距离，并记录最大的类内距离；所述处理器501还用于删除参与计算并获得最大的类内距离的两个图像特征向量，计算剩余的图像特征向量每两个之间的类内距离，并再次记录最大的类内距离；所述处理还用于将两次记录的最大的类内距离的调和平均值作为该类的均值；所述处理器501还用于若类内的图像特征向量的个数小于所述预设值，将类内的所有图像特征向量每两个之间计算类内距离；所述处理器501还用于选取最大的类内距离和次大的类内距离的调和平均值作为该类的均值，或者选取最大的类内距离作为该类的均值；所述处理器501还用于计算所有类的均值，并将所有类的均值相加后得到整体的类内损失函数。

可选的，所述处理器501用于计算每个类内所有图像特征向量的均值，并将计算结果作为该类的中心特征向量；所述处理器501还用于将所有类的中心特征向量每两个之间计算类间距离；所述处理还用于若所有的类间距离中最小的类间距离大于阈值，则将所述最小的类间距离与所述阈值的差值作为整体的类间损失函数；所述处理器501还用于若所有的类间距离中最小的类间距离小于或等于所述阈值，则整体的类间损失值为零。

可选的，所述处理器501用于对整体的类内损失函数求导，获得参与计算整体的类内损失函数的各个图像特征向量对应的节点的权值，并将未参与计算整体的类内损失函数的图像特征向量对应的节点的权值设为零。

可选的，所述处理器501用于对整体的类间损失函数求导，获得参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值，并将未参与计算整体的类间损失函数的类中各个图像特征向量对应的节点的权值设为零。

所述存储器504，用于存储软件程序、模块以及提升卷积神经网络泛化能力的装置中需要的数据信息，所述处理器501通过运行存储在所述存储器504的软件程序、模块，从而执行各种功能应用以及数据处理，提升卷积神经网络的泛化能力。

应当理解，在本发明实施例中，所称处理器501可以是图形处理器(GraphicsProcessing Unit,GPU)或中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备502可以包括触控板、指纹采集传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风、数据采集装置、数据接收装置等，输出设备403可以包括显示器(LCD等)、扬声器、数据发送装置等。

该存储器504可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器。例如，存储器504还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器501、输入设备502、输出设备503和存储器504可执行本发明实施例提供的提升卷积神经网络泛化能力的方法的实施例中所描述的实现方式，也可执行提升卷积神经网络泛化能力的装置的实施例三中所描述的实现方式，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种提升卷积神经网络泛化能力的方法，其特征在于，所述方法包括：

根据每个类内的图像特征向量计算整体的类内损失函数；

根据每个类内的图像特征向量计算整体的类间损失函数；

2.根据权利要求1所述的方法，其特征在于，所述根据每个类内的图像特征向量计算整体的类内损失函数包括：

3.根据权利要求1所述的方法，其特征在于，所述根据每个类内的图像特征向量计算整体的类间损失函数包括：

将所有类的中心特征向量每两个之间计算类间距离；

4.根据权利要求1所述的方法，其特征在于，所述根据整体的类内损失函数利用反向传播算法更新卷积神经网络中各节点的权值包括：

5.根据权利要求1所述的方法，其特征在于，所述根据整体的类间损失函数利用反向传播算法更新卷积神经网络中各节点的参数包括：

6.一种提升卷积神经网络泛化能力的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述整体的类内损失函数计算模块具体用于：

8.根据权利要求6所述的装置，其特征在于，所述整体的类间损失函数计算模块具体用于：

将所有类的中心特征向量每两个之间计算类间距离；

9.根据权利要求6所述的装置，其特征在于，所述整体的类内损失函数反向计算模块具体用于：

10.根据权利要求6所述的装置，其特征在于，所述整体的类间损失函数反向计算模块具体用于：