CN113269229A

CN113269229A - 一种面向深度学习分类模型泛化能力增强的训练方法

Info

Publication number: CN113269229A
Application number: CN202110436714.7A
Authority: CN
Inventors: 操晓春; 袁智博; 李京知; 代朋纹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-08-17

Abstract

本发明公开了一种面向深度学习分类模型泛化能力增强的训练方法，其步骤包括：1)根据目标分类任务所定义的特征从训练数据中选取千百量级的样本数据进行初始的类别划分，得到初始训练集；2)利用初始训练集对分类模型进行训练，将困难样本的类别更改为模型所判定的类别；3)利用更新后的训练集重新训练模型；4)重复步骤2～3)多次，当识别正确率达到设定条件后，进行步骤5)；5)利用分类模型对训练数据进行分类识别标注；6)选取一部分标注样本，如果所选样本的类别标注错误，则对其类别标注更正并放入初始训练集中；7)利用更新后的初始训练集重新训练分类模型；8)重复步骤5～7)多次，当识别正确率达到设定条件后停止训练。

Description

一种面向深度学习分类模型泛化能力增强的训练方法

技术领域

本发明涉及深度学习分类模型优化训练方法，更具体地说，涉及一种基于深度学习分类模型的泛化能力提升与实践项目落地的训练方法。

背景技术

深度学习网络较深，也即表示网络需要学习更多的参数，深度学习亟待解决的问题是减少泛化误差，提高模型的泛化能力。深度学习比一般意义的机器学习模型要复杂，不再需要人工设计指定的特征，分类的特征是模型自己去学到的，而复杂模型训练不当，模型的泛化能力会显著下降，这意味着深度学习需要有更多的数据，这又是和一般意义上的机器学习有所区别的。

深度学习分类模型是基于大量数据集的神经网络(CNN)训练而得到的，目前业界在学术公开数据集上各种深度学习分类模型都有着良好的表现，但是应用到实际项目中总是碰到各种各样的问题，效果不尽人意。普遍认为大量的数据可以增强深度学习分类模型的泛化能力和实践项目落地效果。

目前深度学习分类模型的训练选择传统的人工定义分类，没有考虑模型本身，更多的在数据增强和数据增广方面进行操作。针对大数据也没有合理的的训练规划，更加偏向于耗费人力物力进行数据量的扩展。而且没有关注过图片的高低频分量对于模型和人工不同的反应所导致的预期偏差。在这样的训练方式下，模型往往不能获得较好的泛化能力，很难满足实践项目落地的需求。

发明内容

本发明针对现有深度学习分类模型训练方法考虑因素不够周全且无法效率的运用大数据资源等缺点，提出一种面向深度学习分类模型泛化能力增强的训练方法。具体地说，本发明中主要有三种递进关系方法，对于分类任务都可以直接运用该方法，对于原始训练方法可以解决的任务可以进一步提高模型的拟合程度和泛化能力，对于困难任务可以解决实践落地难的问题。

该方法的基本思路是：

1)粗分类优于细分类，对于分类任务所定义的特征，可以从多个角度出发去确定多种种类，细粒度越高，可分类种类越多，但根据粗分类优于细分类原则，在相对较低的细粒度下，将多种可融合种类定义为一个涵盖型类别，从而在分类类别较少的情况下满足分类任务的需求。人为定义的特征是从图像的低频频谱出发，而神经网络经过多次迭代所学习到的主要是图像高频频谱部分，所以除了进行必要粗分类之外，不宜进行过细分类，以免影响深度学习模型学习效果和拟合泛化能力。比如对于一个给定分类任务，首先根据分类任务将在特征层面毫不相干的种类图片分开(比如军事场景中的天空军事场景和陆地军事场景特征差别很大，我们这两种军事场景分开)，但军事场景中的丛林场景和平原场景虽是两种，在特征层面有着一定的可融合性，但是与分类任务无关，因此不再进行具体细分。

2)尊重模型，对于初始人工分类数据集，模型在训练集中经常无法达到百分百正确率，对于个别的模型无法学习到正确类别的图像，应当将其划分至当前模型所认为的种类之中(即改变了传统方法中人为认定某个图片属于某一类别)，尊重在当前数据集上已经训练好的模型的输出，然后在二次划分数据集上重新训练，从而提升模型学习效果和拟合泛化能力。

3)大数据迭代，由于深度学习是建立在数据之上，所以越大量的数据加以合理使用可以使模型的落地实践效果更好，在初步人为可操作的数据量下进行初步训练模型，并遵循上述1)，2)两点，此时我们获得已经由训练集图片数据所训练出的模型，然后使用大量的图片数据，这些数据是模型从未见过的，使用模型去识别这些数据，并保存模型所认为所有图片所属类别的结果，将模型识别错误的样本放入初始训练集中，重新进行训练，重复数次以满足当前模型在数据量仍远小于全部数据集的训练集上训练可以对全部数据集进行正确识别，该模型拥有优秀的拟合泛化能力。

本发明的技术方案为：

一种面向深度学习分类模型泛化能力增强的训练方法，其步骤包括：

1)根据目标分类任务获取训练数据，所述训练数据包括百万级或更高的样本数据；然后根据该目标分类任务所定义的特征从该训练数据中选取千百量级的样本数据进行初始的类别划分，得到初始训练集；

2)利用所述初始训练集对所选分类模型进行训练，得到初始训练集中每一样本的识别结果，并将分类模型对样本的识别结果与标注类别不一致的样本作为困难样本，将该困难样本的类别更改为该分类模型所判定的类别；

3)利用步骤2)更新后的训练集重新训练所述分类模型；

4)重复步骤2～3)多次，当所述分类模型识别正确率达到设定条件后，进行步骤5)；

5)利用训练后的所述分类模型对所述训练数据进行分类识别，并将分类模型对训练数据的识别结果作为对应训练数据的类别标注；

6)从步骤5)的标注样本中选取一部分样本，如果所选样本的类别标注错误，则对其类别标注进行更正并放入所述初始训练集中；

7)利用步骤6)更新后的所述初始训练集重新训练所述分类模型；

8)重复步骤5～7)多次，当所述分类模型对所述训练数据的识别正确率达到设定条件后停止训练。

进一步的，步骤1)中，根据该目标分类任务中正负样本的出现比例或获取所述训练数据的数据库中正负样本出现比例选择确定初始训练集中正负样本比例。

进一步的，从步骤5)的标注样本中选取一部分样本为数万级量级的样本数据。

进一步的，所述类别为场景类别。

一种图片分类识别方法，其特征在于，采用上述方法训练得到的分类模型对图片类别进行识别，得到该图片的类别信息。

一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明的积极效果为：

与现有技术相比，本发明可以通用的使得分类模型拥有更高的图片类别识别正确率，且能够对于一些识别较为困难的图片进行正确识别。并且在训练过程中，使得训练集图片的数量大幅降低，可以实现使用千百级数量图片训练模型，使得模型可以认识百万数量级级别的图片，而之前的训练方法都是尽可能地增多训练图片的数量，使用数万级数量的图片进行训练才可以使模型认识百万级数量的图片，这样可以使得模型不需要学习大量的模型所认为的重复样本，所以可以提高其泛化能力，减少过拟合，因为大量的数据要求模型复杂度更高，且容易导致过拟合，并降低识别速度。

1.在进行分类任务训练之前，根据粗分类优于细分类原则，根据任务进行合理的分类以使模型初始拟合程度更好，在此我们考虑人和机器对图像的高低频分量的不同侧重，经过大量实验证明在满足分类任务的分类种类情况下，粗分类(模糊分类，相近类别划为一类，如海陆空场景识别，将森林场景和草原场景划为一类比单独两类的训练效果要好)相较于细分类(与粗分类相对，人为的进行规定种类，将肉眼可分辨的不同种类都分为不同类别)能够使得模型获得更好的拟合程度，从而才有泛化能力的基础。

2.因为困难分类任务的主要难点还存在于模棱两可的图片数据，即肉眼无法将其准确的划分之某一类别之中，如场景中海陆交界处无法确定是海洋场景还是陆地场景，则将其判断标准交给初步训练的分类模型，从而给模型更低的损失以提高拟合程度，也既是因为模型关注图片的高频分量而人眼关注低频，通过上述方法可以使得模型不会因为人工分类过多的低频分量过度影响模型学习。

3.大数据对于深度学习是必不可少的资源，也是实现分类模型实践落地的最好的办法，但数据量往往超过了人为可控量级，所以针对大数据迭代训练，我们使用多次迭代，次次监督的方法，尽可能地以少量训练数据满足大数据的泛化要求。对于百万级数据集，我们无法以人工的方式进行数据划分，先进行千、百量级数据集训练，然后进行百万级数据集推理识别，从百万级数据集的识别结果中抽样等于或小于训练集的样本结果，将模型对于图片识别结果不为图片真实类别的图片判为错误样本，将错误分类样本放入对应真实类别的训练集中，重新进行训练，重复该步骤数次以满足，百万量级数据集抽样结果满足分类指标要求。

附图说明

图1为本发明整体框架图。

具体实施方式

本发明提出一种面向深度学习分类模型泛化能力增强的训练方法，下面结合具体实施方式对本发明作进一步的详细说明。

普通训练方法所得到的模型将具备识别输入的图片是否为目标类别图片的能力，但对于模棱两可的图片，或是出现较少的样式的图片，或是对于模型来说识别困难的图片经常会识别错误，经过该方法进行训练的模型相较于普通模型来说，不仅能提高对于普通图片识别的正确率，还能提高对上述所说的三种类型的图片的识别能力。

第一步，当已知分类任务标准的时候，进行初始的人工类别划分，去数据库或者网络上进行数据资源获取，根据资源量级情况获取千百量级数据，保证正样本各类数据量均衡，然后根据实践项目中正负样本在现实生活或所需检测数据库中出现比例选择等同于实践项目中正负样本比例制作训练集。如军事场景分类任务，根据粗分类原则，选择陆地军事场景，海洋军事场景，天空军事场景以及负样本(非上述三种种类的图片)，而不对这三大种类进行具体细分，以获得更高的拟合程度和泛化能力，考虑现实生活中该类图片出现概率较低，所以进行正负样本数量1：3甚至更低的比例进行初步训练。

第二步，在进行初步训练的时候观察训练集的正确率，一般困难任务因为困难样本无法达到百分百正确率，这时将模型对图片识别结果和训练标注类别不对的图片认为困难样本，将其自动放入到当前模型所认为的类别之中，重新进行训练，重复数次以使得正确率达到峰值。如海陆交界的正样本图片我们将其放入陆地场景类别中，在初步训练发现模型将一部分该种图片认定为海洋场景，那我们尊重模型的意愿将其放入海洋场景类别中，重新进行训练。

第三步，当我们对上述完成上述两步骤后，模型已经初步训练完成，为将其应用到实际场景中，使用百万级数据集全部进行推理，多为正样本错误识别为负样本和负样本错误识别为正样本，因为上述两个步骤，正样本之间一般不会出现分类错误。然后将错误识别的数据按正确分类归入训练集中，重新进行训练。该类现象出现多为初始训练集涵盖数据较少，学习到的特征不够充分，在这样迭代数次后模型万级数量级的数据集训练充分后即可满足百万级数据集正确分类，或达到分类指标。

以前为初始训练集三类(700+300+300张)和负样本(3000)的多次训练情况，其中一次迭代增加了正负样本约1000张，二次迭代增加了正负样本约1000张，三次迭代增加了正负困难样本约200张。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种面向深度学习分类模型泛化能力增强的训练方法，其步骤包括：

3)利用步骤2)更新后的训练集重新训练所述分类模型；

2.如权利要求1所述的方法，其特征在于，步骤1)中，根据该目标分类任务中正负样本的出现比例或获取所述训练数据的数据库中正负样本出现比例选择确定初始训练集中正负样本比例。

3.如权利要求1或2所述的方法，其特征在于，从步骤5)的标注样本中选取一部分样本为数万级量级的样本数据。

4.如权利要求1所述的方法，其特征在于，所述类别为场景类别。

5.一种图片分类识别方法，其特征在于，采用权利要求1所述方法训练得到的分类模型对图片类别进行识别，得到该图片的类别信息。

6.如权利要求5所述的方法，其特征在于，所述类别为场景类别。

7.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。