CN109685110A

CN109685110A - 图像分类网络的训练方法、图像分类方法及装置、服务器

Info

Publication number: CN109685110A
Application number: CN201811434398.4A
Authority: CN
Inventors: 王杰; 张默
Original assignee: Beijing Moshanghua Technology Co Ltd
Current assignee: Beijing Moshanghua Technology Co Ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2019-04-26
Anticipated expiration: 2038-11-28
Also published as: CN109685110B

Abstract

本申请公开了一种图像分类网络的训练方法、图像分类方法及装置、服务器。该训练方法包括预先准备带有标签图片的数据集作为输入；根据不同分类级别构造对应的分级神经网路结构；对每个所述分级神经网路结构分级训练，得到最大概率值对应的父类和该父类下的输入图片属于不同子类的概率值。本申请解决了由于数据集分类数据特别大，而造成全连接层出现冗余，造成过拟合的技术问题。通过本申请的训练方法，解决由于全连接层参数过多，导致网络训练速度慢，网络过拟合的现象。通过本申请的图像分类方法，由于采用层级训练，可以在父类的分类结果上，更精确的得到子类分类的结果，从而实现精确分类。

Description

图像分类网络的训练方法、图像分类方法及装置、服务器

技术领域

本申请涉及计算机视觉领域，具体而言，涉及一种图像分类网络的训练方法、图像分类方法及装置、服务器。

背景技术

对于计算机视觉任务而言，图像分类是其中的主要任务之一，比如图像识别、目标检测等，这些任务都涉及到图像分类。通常在卷积神经网络中的卷积层负责提取特征，池化层负责特征选择，全连接层起到分类器的作用。

发明人发现，在卷积神经网络中的全连接层的参数随着数据集的种类数的增加而增多，从而出现全连接层参数冗余的情况，降低了训练速度，很容易引起过拟合。

针对相关技术中由于数据集分类数据特别大，而造成全连接层出现冗余，造成过拟合的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种图像分类网络的训练方法、图像分类方法及装置、服务器，以解决由于数据集分类数据特别大，而造成全连接层出现冗余，造成过拟合的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种图像分类网络的训练方法。

根据本申请的用于图像分类网络的训练方法包括：预先准备带有标签图片的数据集作为输入，其中，所述标签至少包括：一个父类标签和子类标签；根据不同分类级别构造对应的分级神经网路结构；对每个所述分级神经网路结构分级训练，得到最大概率值对应的父类和该父类下的输入图片属于不同子类的概率值。

进一步地，根据不同分类级别构造对应的分级神经网路结构包括：用于输出不同图片属于不同父类的概率值，并得到最大概率值对应的父类别的一级网络结构；在得到的父类别的前提下，得到输入图片属于不同子类的概率值的二级网络结构。

进一步地，根据不同分类级别构造对应的分级神经网路结构包括：用于同时输出预测的父类概率以及不同父类下的子类概率的并行网络结构，并通过所述并行网络结构输出得到父类类别以及在该父类类别下的不同子类的概率。

进一步地，根据不同分类级别构造对应的分级神经网路结构包括：卷积层、池化层、多个全连接层以及激活函数层。

为了实现上述目的，根据本申请的又一个方面，提供了用于图像数据的分类方法。

根据本申请的用于图像数据的分类方法，采用所述的训练方法训练得到分级分类卷积神经网络，所述方法包括：输入带有标签的待分类图片数据集；在所述分级分类卷积神经网络中的图片子分类结果基于上一级分类父类类别；根据图片分类结果，输出图片预测的子类别。

为了实现上述目的，根据本申请的另一方面，提供了一种用于图像分类网络的训练装置。

根据本申请的用于图像分类网络的训练装置包括：数据库模块，用于预先准备带有标签图片的数据集作为输入，其中，所述标签至少包括：一个父类标签和子类标签；构造模块，用于根据不同分类级别构造对应的分级神经网路结构；分级训练模块，用于对每个所述分级神经网路结构分级训练，得到最大概率值对应的父类和该父类下的输入图片属于不同子类的概率值。

进一步地，所述构造模块包括：一级网络单元，用于用于输出不同图片属于不同父类的概率值，并得到最大概率值对应的父类别的第一级网络结构；二级网络单元，用于在得到的父类别的前提下，得到输入图片属于不同子类的概率值的第二级网络结构。

进一步地，所述构造模块包括：并行网络单元，用于同时输出预测的父类概率以及不同父类下的子类概率的并行网络结构，并通过所述并行网络结构输出得到父类类别以及在该父类类别下的不同子类的概率。

为了实现上述目的，根据本申请的再一方面，提供了一种用于图像数据的分类装置。

根据本申请的用于图像数据的分类装置，采用上述的训练装置训练得到分级分类卷积神经网络，所述装置包括：输入模块，用于输入带有标签的待分类图片数据集；分级分类模块，用于在所述分级分类卷积神经网络中的图片子分类结果基于上一级分类父类类别；输出模块，用于根据图片分类结果，输出图片预测的子类别。

此外，本申请还提供了一种服务器，包括：所述的分类装置。

在本申请实施例中，采用预先准备带有标签图片的数据集作为输入的方式，通过根据不同分类级别构造对应的分级神经网路结构，达到了对每个所述分级神经网路结构分级训练，得到最大概率值对应的父类和该父类下的输入图片属于不同子类的概率值的目的，从而实现了提高网络训练速度和减少网络过拟合的技术效果，进而解决了由于数据集分类数据特别大，而造成全连接层出现冗余，造成过拟合的问题。此外，采用层级训练，可以在父类的分类结果上，更精确的得到子类分类的结果，从而实现图像精确分类。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的图像分类网络的训练方法示意图；

图2是图1中的一种实施方式的分级神经网路结构示意图；

图3是图1中的另一种实施方式的分级神经网路结构示意图；

图4是根据本申请实施例的用于图像数据的分类方法示意图；

图5是根据本申请一实施例的图像分类网络的训练装置示意图；

图6是根据本申请一实施例中的构造模块结构示意图；

图7是根据本申请另一实施例中的构造模块结构示意图；

图8是根据本申请实施例的用于图像数据的分类装置示意图；

图9是本申请中分级卷积神经网络结构示意图；

图10是本申请中并列卷积神经网络结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

通过改变原有的用于分类的卷积神经网络的全连接层，将原本的分类网络构造成分级分类卷积神经网络，并进行分级训练。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该用于图像分类网络的训练方法包括如下的步骤S102至步骤S106：

步骤S102，预先准备带有标签图片的数据集作为输入，

在所述标签至少包括：一个父类标签和子类标签。

具体地，首先准备图片数据库，在图片数据库中的数据集中的每张图片的标注都有两个标签，分别为父类标签和子类标签。比如，在ImageNet数据集中，其子类别总数数以万计，但是其父类别数比子类别数少的多。在动物分类任务中，猫和狗分别为不同的父类标签，猫的不同品种和狗的不同品种为不同的子类标签。

步骤S104，根据不同分类级别构造对应的分级神经网路结构；

在神经网路的构建中，针对不同的分类级别构造不同的深度卷积神经网路。比如，在动物分类任务中，猫的不同品种和狗的不同品种需要构成对应的分级神经网络。

具体地，在每个分级神经网络中可以包括：一级网络结构和二级网络结构。也可以包括：经过合并后的分级网络结构。

需要注意的是，在本申请中并不对一级网络结构或二级网络结构的具体神经网络架构进行限定，本领域技术人员可以根据实际的使用场景选择使用卷积层、池化层以及激活层等。

优选地，根据不同分类级别构造对应的分级神经网路结构包括：卷积层、池化层、多个全连接层以及激活函数层。通过卷积层用于提取图像特征，在采样层用于特征图像选择，而通过多个全连接层起到分级分类器的作用。

步骤S106，对每个所述分级神经网路结构分级训练，得到最大概率值对应的父类和该父类下的输入图片属于不同子类的概率值。

根据得到的分级神经网络结构进行分级训练，得到的输出是最大概率值对应的父类别或预测的最大父类类别的概率并且得到在该父类下输入图片属于不同子类别的概率值。即输入进行训练的图片中的最终子分类结果是基于在上一级预测的父类结果上的。

从以上的描述中，可以看出，本申请实现了如下技术效果：

在本申请实施例中，采用预先准备带有标签图片的数据集作为输入的方式，通过根据不同分类级别构造对应的分级神经网路结构，达到了对每个所述分级神经网路结构分级训练，得到最大概率值对应的父类和该父类下的输入图片属于不同子类的概率值的目的，从而实现了提高网络训练速度和减少网络过拟合的技术效果，进而解决了由于数据集分类数据特别大，而造成全连接层出现冗余，造成过拟合的问题。

根据本申请实施例，作为本实施例中的优选，如图2所示，根据不同分类级别构造对应的分级神经网路结构包括：用于输出不同图片属于不同父类的概率值，并得到最大概率值对应的父类别的一级网络结构10；在得到的父类别的前提下，得到输入图片属于不同子类的概率值的二级网络结构20。

具体地，所述一级网络结构10的结构包括输入层、卷积层、池化层、输出层等结构的第一级卷积神经分类网路的结构，所述一级网络结构10的作用是经过分类激活函数的归一化作用，输出不同图片属于不同父类的概率值，得到最大概率值对应的类别。

具体地，所述二级网络结构20是基于前面所述的第一级卷积神经分类网路的结构，在此基础上增加神经网络结构，如卷积层、池化层、输出分类层等，训练后的一级网络结构10的部分参数作为下一级神经网络架构的初始参数。所述二级网络结构20的作用是在得到的大类的类别下，输入图片属于不同子类的概率值。

根据本申请实施例，作为本实施例中的优选，如图3所示，根据不同分类级别构造对应的分级神经网路结构包括：用于同时输出预测的父类概率以及不同父类下的子类概率的并行网络结构30，并通过所述网络结构输出得到父类类别以及在该父类类别下的不同子类的概率。

具体地，在所述并行网络结构30中，将两级分类结果进行合并，构造一个同时输出父类概率以及不同父类下的子类概率的网络。

在分级神经网路结构中的全连接层的最后一层的输出表示为：第一个向量表示为预测的最大父类类别的概率，其他(剩余)的向量表示为预测的此父类类别下的不同子类的概率。

需要注意的是，在卷积神经网络用于分类任务时，一般在全连接层后会有激活函数来做分类。假设这个激活函数是一个多分类softmax，则在全连接网络的作用就是将最后一层卷积得到的特征图连成向量，对这个向量做乘法，最终降低其维度，然后输入到softmax层中得到对应的每个类别的得分。

由于采用分级训练的方式，使得输入图片属于不同子类的概率值是基于上一级预测的父类结果，进而在全连接层的参数不会随着数据集的种类数的增加而增多，不会造成全连接层参数冗余的情况，保证了输入为大数据集时的训练速度，不会造成过拟合。

如图4所示，用于图像数据的分类方法，采用上述的训练方法训练得到分级分类卷积神经网络，所述方法包括：

步骤402，输入带有标签的待分类图片数据集；

在执行图像识别、目标检测等任务之前，都需要进行图像分类。首先输入带有标签的待分类图片数据集。数据集中的待分类图片至少包括了一个父类标签和一个子类标签。

步骤404，在所述分级分类卷积神经网络中的图片子分类结果基于上一级分类父类类别；

在所述分级分类卷积神经网络中的图片子分类结果基于上一级分类父类类别是指，图片数据集中输入图片的最终子分类结果，是基于在上一级预测的父类结果上的。即通过分级分类卷积神经网络在全连接层的最后一层最终预测的输入图片的类别是基于输入图片预测为父类的上一级分类网络的情况下进行的。

具体地，可以采用第一级神经网络架构和第二级神经网络架构的分级结构。通过在第一级神经网络架构输出不同图片属于不同父类的概率值，可以得到最大概率值对应的类别即最大概率值的父类别。通过在第二级神经网络架构将第一级神经网络架的输出作为输入，并输出得到的父类的类别下，输入图片属于不同子类的概率值。

步骤406，根据图片分类结果，输出图片预测的子类别。

根据图片属于不同子类的概率值，通过子类别最大概率值得到图片预测的子类别。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述用于图像分类网络的训练方法的用于图像分类网络的训练装置，如图5所示，该装置包括：数据库模块100，用于预先准备带有标签图片的数据集作为输入，其中，所述标签至少包括：一个父类标签和子类标签；构造模块200，用于根据不同分类级别构造对应的分级神经网路结构；分级训练模块300，用于对每个所述分级神经网路结构分级训练，得到最大概率值对应的父类和该父类下的输入图片属于不同子类的概率值。

在本申请实施例的数据库模块100中在所述标签至少包括：一个父类标签和子类标签。

在本申请实施例的构造模块200中在神经网路的构建中，针对不同的分类级别构造不同的深度卷积神经网路。比如，在动物分类任务中，猫的不同品种和狗的不同品种需要构成对应的分级神经网络。

在本申请实施例的分级训练模块300中根据得到的分级神经网络结构进行分级训练，得到的输出是最大概率值对应的父类别或预测的最大父类类别的概率并且得到在该父类下输入图片属于不同子类别的概率值。即输入进行训练的图片中的最终子分类结果是基于在上一级预测的父类结果上的。

根据本申请实施例，作为本实施例中的优选，如图6所示，所述构造模块包括：一级网络单元2001，用于用于输出不同图片属于不同父类的概率值，并得到最大概率值对应的父类别的第一级网络结构；二级网络单元2002，用于在得到的父类别的前提下，得到输入图片属于不同子类的概率值的第二级网络结构。

本申请实施例的一级网络单元2001中包括输入层、卷积层、池化层、输出层等第一级卷积神经分类网路的结构，所述一级网络结构的作用是经过分类激活函数的归一化作用，输出不同图片属于不同父类的概率值，得到最大概率值对应的类别。

本申请实施例的二级网络单元2002中是基于前面所述的第一级卷积神经分类网路的结构，在此基础上增加神经网络结构，如卷积层、池化层、输出分类层等，训练后的一级网络结构的部分参数作为下一级神经网络架构的初始参数。所述二级网络结构的作用是在得到的大类的类别下，输入图片属于不同子类的概率值。

根据本申请实施例，作为本实施例中的优选，如图7所示，所述构造模块包括：并行网络单元2003，用于同时输出预测的父类概率以及不同父类下的子类概率的并行网络结构，并通过所述并行网络结构输出得到父类类别以及在该父类类别下的不同子类的概率。

本申请实施例的并行网络单元2003中将两级分类结果进行合并，构造一个同时输出父类概率以及不同父类下的子类概率的网络。

根据本申请实施例，还提供了一种用于实施上述用于图像数据的分类方法的装置，如图8所示，该装置包括：输入模块1，用于输入带有标签的待分类图片数据集；分级分类模块2，用于在所述分级分类卷积神经网络中的图片子分类结果基于上一级分类父类类别；输出模块3，用于根据图片分类结果，输出图片预测的子类别。

本申请实施例的输入模块1中在执行图像识别、目标检测等任务之前，都需要进行图像分类。首先输入带有标签的待分类图片数据集。数据集中的待分类图片至少包括了一个父类标签和一个子类标签。

本申请实施例的分级分类模块2中在所述分级分类卷积神经网络中的图片子分类结果基于上一级分类父类类别是指，图片数据集中输入图片的最终子分类结果，是基于在上一级预测的父类结果上的。即通过分级分类卷积神经网络在全连接层的最后一层最终预测的输入图片的类别是基于输入图片预测为父类的上一级分类网络的情况下进行的。

本申请实施例的输出模块3中根据图片属于不同子类的概率值，通过子类别最大概率值得到图片预测的子类别。

此外，在本申请的另一实施例中还提供了一种服务器，包括：所述的分类装置，所述分类装置的实现原理和有益效果如上述，在此不再进行赘述。

本申请的实现原理：

考虑到在一些数据集的类别总数很多，比如ImageNet数据集中，其子类别总数数以万计，但是其父类别数比子类别数少的多。比如，在动物分类任务中，猫和狗分别为不同的父类，猫的不同品种和狗的不同品种为不同的子类，在本申请中利用父类和子类的关系，对全连接层最后一层做出改进，提出层级训练的思想，提供了比较有效的分类训练方式。

通过改变原有的用于分类的卷积神经网络的全连接层，将原本的分类网络构造成分级分类卷积神经网络，进行分级训练。具体地，基于深度学习的分类分级方法，具体包括：

步骤1：准备数据库，数据集的每张图片的标注都有两个标签，分别为父类标签和子类标签；

如图9所述，在步骤2中：进行网路构建时，针对不同的分类级别构造不同的深度卷积神经网路，每个所述分类网路包括二级神经网路结构，具体地分别为第一级神经网络架构和第二级神经网络架构。图9中输出概率P1以及输出概率P2分别表示输入图像经卷积神经网络分类的预测为不同父类的概率、预测为不同子类的概率。

第一级神经网路架构的结构包括输入层、卷积层、池化层、输出层等结构，其作用是经过分类激活函数的归一化作用，输出不同图片属于不同父类的概率值，得到最大概率值对应的类别；第二级结构是基于前面所述的第一级卷积神经分类网路的结构，在此基础上增加神经网络结构，如卷积层、池化层、输出分类层等，训练后的一级神经网络架构的部分参数作为下一级神经网络架构的初始参数。其作用是在得到的大类的类别下，输入图片属于不同子类的概率值。

如图10所述，在步骤3：作为可以与步骤2并行的步骤。由于在步骤2中的方法是顺序训练，其结构比较冗余复杂，可以进行如下的优化方式：

将两级分类结果进行合并，构造一个同时输出父类概率以及不同父类下的子类概率的网络。具体地，在全连接层的最后一层的输出表示为：第一个向量表示为预测的最大父类类别的概率，其他的向量表示为预测的此父类类别下的不同子类的概率。通过这种整合的方式，可以得到预测的父类类别以及在此父类基础上的不同子类的概率。图10中输出概率P1以及输出概率P2分别表示输入图像经卷积神经网络分类的预测为不同父类的概率、预测为不同子类的概率。

在上述步骤2)以及步骤3)中的两种方式的基本思想相同为：对于卷积神经网络的最终预测的输入图片的类别是基于输入图片预测为父类的上一级分类网络(或第一级分类网络)的情况下进行的。

在现有技术中其全连接层的参数随着数据集的种类数的增加而增多，从而出现全连接层参数冗余的情况，降低了训练速度，很容易引起过拟合。通过上述的分级分类的神经网络训练方法，可以减少全连接层参数的冗余情况，提高训练速度。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于图像分类网络的训练方法，其特征在于，包括：

预先准备带有标签图片的数据集作为输入，其中，所述标签至少包括：一个父类标签和子类标签；

根据不同分类级别构造对应的分级神经网路结构；

对每个所述分级神经网路结构分级训练，得到最大概率值对应的父类和该父类下的输入图片属于不同子类的概率值。

2.根据权利要求1所述的训练方法，其特征在于，根据不同分类级别构造对应的分级神经网路结构包括：

用于输出不同图片属于不同父类的概率值，并得到最大概率值对应的父类别的一级网络结构；

在得到的父类别的前提下，得到输入图片属于不同子类的概率值的二级网络结构。

3.根据权利要求1所述的训练方法，其特征在于，根据不同分类级别构造对应的分级神经网路结构包括：

用于同时输出预测的父类概率以及不同父类下的子类概率的并行网络结构，并通过所述并行网络结构输出得到父类类别以及在该父类类别下的不同子类的概率。

4.根据权利要求1所述的训练方法，其特征在于，根据不同分类级别构造对应的分级神经网路结构包括：

卷积层、池化层、多个全连接层以及激活函数层。

5.一种用于图像数据的分类方法，其特征在于，采用如权利要求1至3任一项所述的训练方法训练得到分级分类卷积神经网络，所述方法包括：

输入带有标签的待分类图片数据集；

在所述分级分类卷积神经网络中的图片子分类结果基于上一级分类父类类别；

根据图片分类结果，输出图片预测的子类别。

6.一种用于图像分类网络的训练装置，其特征在于，包括：

数据库模块，用于预先准备带有标签图片的数据集作为输入，其中，所述标签至少包括：一个父类标签和子类标签；

构造模块，用于根据不同分类级别构造对应的分级神经网路结构；

分级训练模块，用于对每个所述分级神经网路结构分级训练，得到最大概率值对应的父类和该父类下的输入图片属于不同子类的概率值。

7.根据权利要求6所述的训练装置，其特征在于，所述构造模块包括：

一级网络单元，用于用于输出不同图片属于不同父类的概率值，并得到最大概率值对应的父类别的第一级网络结构；

二级网络单元，用于在得到的父类别的前提下，得到输入图片属于不同子类的概率值的第二级网络结构。

8.根据权利要求6所述的训练装置，其特征在于，所述构造模块包括：

并行网络单元，用于同时输出预测的父类概率以及不同父类下的子类概率的并行网络结构，并通过所述并行网络结构输出得到父类类别以及在该父类类别下的不同子类的概率。

9.一种用于图像数据的分类装置，其特征在于，采用如权利要求6至8任一项所述的训练装置训练得到分级分类卷积神经网络，所述装置包括：

输入模块，用于输入带有标签的待分类图片数据集；

分级分类模块，用于在所述分级分类卷积神经网络中的图片子分类结果基于上一级分类父类类别；

输出模块，用于根据图片分类结果，输出图片预测的子类别。

10.一种服务器，其特征在于，包括：如权利要求9所述的分类装置。