CN112966767B

CN112966767B - 一种特征提取和分类任务分离的数据不均衡处理方法

Info

Publication number: CN112966767B
Application number: CN202110293696.1A
Authority: CN
Inventors: 吴志强; 吕晨
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2022-03-22
Anticipated expiration: 2041-03-19
Also published as: CN112966767A

Abstract

本发明公开了一种特征提取和分类任务分离的数据不均衡处理方法，其特征在于，包括步骤一：准备用于模型训练的分类数据集，判定数据是否存在长尾分布；步骤二：利用深度神经网络训练一个包含两个分支网络的模型，模型将表征特征与分类特征动态融合，并进行分类；步骤三：通过测试数据集对模型评估分析，在测试数据集上计算模型的准确率和召回率，通过准确率和召回率的值来判定模型的性能；步骤四：对验证测试好的模型进行部署测试，在真实的场景中，对抓取的类别图片进行分析，统计分析分类的效果。达到在不改变原始数据分布的情况下，很好的解决分类任务中长尾分布的问题的效果。

Description

一种特征提取和分类任务分离的数据不均衡处理方法

技术领域

本发明涉及计算机深度学习领领域，特别是涉及一种特征提取和分类任务分离的数据不均衡处理方法。

背景技术

自然界中存在着比正太分布还要广泛的一种随机变量的分布——长尾分布。例如在做动物分类的时候，猫狗等常见的数据可以比较轻松的获得，考虑到数据的均衡，一些比较稀有的动物数据采集将变得非常困难，采样结果往往与稀有度呈现指数分布，越稀有的物种数量也越少。在现实情形中，大多数情况下统计的数据都会呈现为长尾分布。深度学习的训练是基于数据来驱动的，因此在训练过程中，如果能很好的解决数据中存在的长尾问题，不仅能够提升模型的稳定性，也对模型的性能有着显著的提升。

在实际的模型训练过程中，如果数据中存在着长尾分布，通常有两种解决方案，一种是数据的采样，另外一种是损失函数的设计。重采样主要是在模型训练过程中，对于数据量少的样本重复采样，这样可以保证每个类别的样本数量相同。损失函数的设计主要是通过控制损失的权重来实现的，例如数据量少的类损失权重相对比较大。这两种方式都可以在一定程度上解决长尾分布的问题。但是针对于更加一般的场景上述两种方式不能很好的解决长尾分布。

因此，需要一种特征提取和分类任务分离的数据不均衡处理方法。

发明内容

本发明的一种特征提取和分类任务分离的数据不均衡处理方法，针对数据集中存在的长尾问题进行了分析和方法的设计，通过对训练数据集中样本数量的统计分析，利用神经网络训练出一个表征学习和分类学习分离的模型。这个模型可以在不改变原始数据分布的情况下，很好的解决分类任务中长尾分布的问题。模型在特征提取部分共享权重，然后针对表征任务和分类任务设计不同的网络结构来抽象特征，最后将两部分特征进行融合，提升模型最后的性能。

本发明所要解决的技术问题是克服现有技术的不足，提供一种特征提取和分类任务分离的数据不均衡处理方法。

为解决上述技术问题，本发明提供一种特征提取和分类任务分离的数据不均衡处理方法，其特征在于，包括如下步骤：

步骤一：准备用于模型训练的分类数据集，对分类数据集统计分析，可视化数据的分布，判定数据是否存在长尾分布；对于采集均衡的数据集可以按着一般的分类模型定义思路来训练模型，如果可视化的分布结果有着明显的倾斜呈长尾分布可以按第二步的思路来做。

步骤二：利用深度神经网络训练一个包含两个分支网络的模型，其中，分支网络一用于学习图片的表征特征，分支网络二用于学习图片的分类特征，整个模型的后半部分将表征特征与分类特征动态融合，并进行分类；在两个分支网络的训练过程中，分支网络一接受原始采样分布的数据作为输入，分支网络二接受原始数据反比的采样分布作为输入；

步骤三：通过测试数据集对模型评估分析，在测试数据集上计算模型的准确率和召回率，通过准确率和召回率的值来判定模型的性能；

步骤四：对验证测试好的模型进行部署测试，在真实的场景中，对抓取的类别图片进行分析，统计分析分类的效果。

所述步骤一中包括，对分类数据集进行采集、标注和统计，所述采集指针对特定分类数据集的采集，每个类别的数据集中的图片数量在5张以上，为图片进行标注，所述标注是按照类别目录对图片进行归类，使相同类别的图片在同一个文件夹下，得到的标注信息为

其中，k表示为图片的编号，c表示为图片的类别，所述统计是指分析数据样本是否存在长尾分布，所述长尾分布的概率密度函数为y＝cx^-r,其中所述x指稀有度，y指样本的数量，x,y是正的随机变量，c,r均为大于零的常数。根据分析的结果来决定是否继续第二步骤的操作。

所述步骤二中，利用深度神经网络训练一个包含两个分支网络的模型具体包括：

步骤2-1：根据实际的样本数据选择预训练模型作为backbone，所述预训练模型可以为ResNet或EfficientNet，为模型的特征提取模块设定卷积层数，模型对特征的融合按循环的迭代次数选择不同的权重来进行叠加；

步骤2-2：表征特征的提取，分支网络一采样正常分布的数据，得到原始数据分布下数据的特征，提取表征特征使得

其中F₁是表征特征的分支，

为提取的图片k的表征特征，其中k＝1,2,3…,n；

步骤2-3：分类特征的提取，分支网络二按照样本个数的反比例对图片进行采样学习，这部分主要是为了得到数据的分类特征，因为正常情况下模型会更倾向于预测样本比较多的数据，所以这部分用来训练分类特征，

其中F₂是分类特征的分支，

为图片k的分类特征，其中k＝1,2,3…,n。

步骤2-4，将提取的表征特征与分类特征进行融合，所述融合按比例系数α来进行，这样进行最后分类的特征，既拥有按正常数据采样训练的表征特征，又拥有按着呈反比的方式采样训练的分类特征，得到组后的模型分类的特征

其中，feature_k是模型最后进行分类的特征，α为特征融合时提取的系数，所述α的数学表达式为：

其中，T为模型当前训练的轮数，T_max为模型训练的总的轮数；在开始的阶段模型的表征特征的参数会相对的较小，随着模型的迭代，分类特征占的比例会相对的比较高。前期主要是为了拟合自然场景下特征的分布，模型训练后期主要是为了解决分类的不均衡提取更多的类别特征，最后用融合的特征做模型的预测。

步骤2-5：模型的预测，根据步骤2-4得到的融合的特征进行模型的预测，

模型的预测阶段用上述两部分融合的特征来进行分类预测。

所述步骤2-1中，用VGG作为网络模型的backbone，模型的特征提取模块的卷积层数设定为5，获取第5个卷积层后的特征，其它模型也可以根据情况适当调整。

所述步骤三中，准确率P的公式为

召回率R的公式为

其中TP为把正类预测为正类，FP为将负类预测为正类，FN为将正类预测为负类，在模型评估过程中，当准确率和召回率达到0.9时，判定模型的性能满足应用需求。

本发明所达到的有益效果:本发明针对数据集中存在的长尾问题进行了分析和方法的设计，通过对训练数据集中样本数量的统计分析，利用神经网络训练一个表征学习和分类学习分离的模型。这个模型可以在不改变原始数据分布的情况下，很好的解决分类任务中长尾分布的问题。模型在特征提取部分共享权重，然后针对表征和分类设计不同的网络结构来抽象特征，最后将两部分特征进行融合，提升模型的分类性能。

针对自然场景下的长尾分布的数据，利用表征特征和分类特征分离训练的方式得到一个稳定的分类模型。避免了在正常采样情况下训练的模型存在样本不均衡的问题，这种方式对解决数据的不均衡提供了一个比较通用的方法。

附图说明

图1为本发明的示例性实施例中的方法流程示意图；

图2为本发明的示例性实施例中的模块结构示意图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示，本发明公开一种特征提取和分类任务分离的数据不均衡处理方法，包括：

步骤11：准备模型训练的分类数据集，并对数据进行标注获得标注信息。

所述步骤11中，针对特定的场景采集模型训练所需要的数据集，经过人工筛选得到按照类别文件夹存放的训练数据集，每个类别目录下的图片数据最少5张，数据类别根据实际的情况来决定，如果数据量太少训练的模型稳定性存在问题，所以在数据收集的时候应该尽可能多的收集数据。对收集到的数据进行统计分析得到数据的分布，如果数据并没有存在长尾分布可以按照正常的训练策略，在预训练好的模型上微调得到泛化好的模型。如果数据中存在比较明显的长尾分布可以按着此方法来进行模型的训练。

步骤12：根据准备的标注好的分类数据集，利用神经网络来训练分类模型，模型的backbone作为公共的特征提取模块，在此基础之上构建表征特征提取模块和分类特征提取模块，最后动态的将这两部分特征融合得到最终的分类特征。通过上述方式训练出一个可以有效解决长尾分布的模型。

所述步骤12中：利用表征提取的模块提取表征特征，表征模块的输入数据是按着正常的采样方式进行采样的，采样的个数与数据量的大小成正比；利用分类提取模块提取分类特征处理长尾分布中存在的不均衡问题，分类模块输入数据的采样方式与训练数据的数量成反比；特征融合模块将产生的表征特征和分类特征进行动态融合得到模型分类所需要的特征，特征的融合过程是动态的，在训练初期表征特征会占据融合特征的绝大部分，在训练后期表征特征的权重逐渐减少，分类特征会占据主要的部分，动态融合使得提取出的特征更加具有稳定性，更能表征数据；最后将上述融合的特征进行模型训练，得到最后的分类模型，整个训练过程是端到端的。

步骤13：对按着正常的微调方式训练的模型和按着上述方式训练的模型进行对比，在测试集上测试模型的准确率和召回率，判定模型的泛化性和稳定性，选择出最优的模型。理论上模型训练的准确率和召回率越高越好，但是经过实践当准确率和召回率达到0.9时，模型的性能满足应用需求，且继续优化已经不能显著提升性能，达到最佳的投入产出比。

步骤14：将上述训练验证好的模型进行部署，在实际场景中对图片数据进行预测分析，分析分类的效果，如果存在问题，可以对存在问题的照片重新标注迭代到步骤12得到泛化性更好的模型。

该方法能够对存在长尾分布的数据集快速构建一个分类模型，通过对比试验来分析模型的有效性，得到一个泛化性能好的模型。

如图2所示，本发明公开一种特征提取和分类任务分离的数据不均衡处理方法，主要包括：依次相连的数据预处理模块21、模型训练模块22和模型评估部署模块23。

所述数据预处理模块21，主要是用来搜集数据，对数据集进行标注，然后统计分析数据中是否存在长尾分布，根据数据集的情况来决定是否进行下面的操作。

所述的模型训练模块22，主要是训练模型中的两个分支，一个分支用来进行表征特征的提取，另外一个分支用来进行模型分类的均衡。然后对两个分支提取的特征进行动态的融合做模型的分类。

所述的模型评估部署模块23，主要用来对模型的预测结果进行评估分析，分析模型的有效性，然后对模型进行部署。

本发明主要提出了一种特征表征和分类表征分离的分类方法，该方法主要是用来解决分类任务中存在长尾分布的问题。模型在训练中获得两种特征，一种是按着正常分布采样得到的表征特征，另一种是按着与样本数量成反比的方式采样得到的分类特征。最后将分类特征和表征特征进行融合得到最后的分类模型。整个过程中模型的训练是端到端的完成的，该方法对解决长尾分布提供了一种高效的解决方法。

本发明针对数据集中存在的长尾问题进行了分析和方法的设计，通过对训练数据集中样本数量的统计分析，利用神经网络训练一个表征学习和分类学习分离的模型。这个模型可以在不改变原始数据分布的情况下，很好的解决分类任务中长尾分布的问题。模型在特征提取部分共享权重，然后针对表征和分类设计不同的网络结构来抽象特征，最后将两部分特征进行融合，提升模型的分类性能。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种特征提取和分类任务分离的数据不均衡处理方法，其特征在于，包括如下步骤：

步骤一：准备用于模型训练的分类数据集，对分类数据集统计分析，可视化数据的分布，判定数据是否存在长尾分布；

步骤二：利用深度神经网络训练一个包含两个分支网络的模型，其中，分支网络一用于学习图片的表征特征，分支网络二用于学习图片的分类特征，模型将表征特征与分类特征动态融合，并进行分类；在两个分支网络的训练过程中，分支网络一接受原始采样分布的数据作为输入，分支网络二接受原始数据反比的采样分布作为输入；

步骤2-1：根据实际的样本数据选择预训练模型作为backbone，为模型的特征提取模块设定卷积层数，模型对特征的融合按循环的迭代次数选择不同的权重来进行叠加；

步骤2-2：表征特征的提取，分支网络一采样正常分布的数据，提取表征特征使得

其中F₁是表征特征的分支，

为提取的图片k的表征特征，其中k＝1,2,3…,n；

步骤2-3：分类特征的提取，分支网络二按照样本个数的反比例对图片进行采样学习，用来训练分类特征，

其中F₂是分类特征的分支，

为图片k的分类特征，其中k＝1,2,3…,n；

步骤2-4，将提取的表征特征与分类特征进行融合，所述融合按比例系数α来进行，得到组后的模型分类的特征

其中，T为模型当前训练的轮数，T_max为模型训练的总的轮数；

模型的预测阶段用上述两部分融合的特征来进行分类预测；

2.如权利要求1所述的一种特征提取和分类任务分离的数据不均衡处理方法，其特征在于：所述步骤一中包括，对分类数据集进行采集、标注和统计，所述采集指针对特定分类数据集的采集，每个类别的数据集中的图片数量在5张以上，为图片进行标注，所述标注是按照类别目录对图片进行归类，使相同类别的图片在同一个文件夹下，得到的标注信息为

其中，k表示为图片的编号，c表示为图片的类别，所述统计是指分析数据样本是否存在长尾分布，所述长尾分布的概率密度函数为y＝cx^-r,其中所述x指稀有度，y指样本的数量，x,y是正的随机变量，c,r均为大于零的常数。

3.如权利要求2所述的一种特征提取和分类任务分离的数据不均衡处理方法，其特征在于：所述步骤2-1中，用VGG作为网络模型的backbone，模型的特征提取模块的卷积层数设定为5，获取第5个卷积层后的特征。

4.如权利要求3所述的一种特征提取和分类任务分离的数据不均衡处理方法，其特征在于：所述步骤三中，准确率P的公式为

召回率R的公式为

其中TP为将正类预测为正类，FP为将负类预测为正类，FN为将正类预测为负类，在模型评估过程中，当准确率和召回率达到0.9时，判定模型的性能满足应用需求。