CN111652384A

CN111652384A - 一种数据量分布的平衡方法及数据处理方法

Info

Publication number: CN111652384A
Application number: CN201910241989.8A
Authority: CN
Inventors: 熊杰成
Original assignee: Shanghai Re Sr Information Technology Co ltd
Current assignee: Shanghai Re Sr Information Technology Co ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-09-11
Anticipated expiration: 2039-03-27
Also published as: CN111652384B

Abstract

本发明涉及机器学习领域，提出了一种数据量分布的平衡方法，包括：提供一原始数据量分布的第一不平衡度，建立平衡度处理模型，所述平衡度处理模型给出针对原始数据量分布的平衡策略和衡量该平衡策略的第二不平衡度，所述第二平衡度至少小于第一平衡度；给出所述平衡度处理模型中满足所述第二不平衡度的最大类别数据量和最小类别数据量，基于所述平衡策略和所述最大类别数据量和最小类别数据量，对原始数据量分布进行平衡处理，得到平衡后的新数据量分布。本发明还提出了一种数据处理方法。根据本发明可根据原始数据量分布生成一个新的数据量分布，该新的分布能够最大化地保持部分原始分布统计特征的同时满足指定的不平衡度。

Description

一种数据量分布的平衡方法及数据处理方法

技术领域

本发明涉及机器学习领域，尤其涉及一种数据量分布的平衡方法及数据处理方法。

背景技术

数据不平衡在分类任务中是一个典型存在的问题，其定义可以简单的描述为：数据集中每个类别下的样本数量存在着很大的差异。假设一个数据集中的最大类别的数据量为N_max，最小类别的数据量为N_min，那么对该数据集的不平衡度量则可定义为：

IR＝N_max/N_min (1)

IR的值越大表明数据集内的类别样本数量的分布越不平衡。

数据集的不平衡对于分类任务会造成什么问题呢？对于一般的机器学习方法而言，其最基本的一个原理是以降低整体分类精度为目标，将所有样本同等对待。因此，这将造成分类器在数量比较多的类别上的分类精度较高，而在数量少的类别上的分类精度较低。以一个二分类问题为例，假设正负样本的不平衡度量IR的值为M，分类器选择基于BP(Back Propagation，反向传播)的神经网络方法。在训练阶段，每一次的反向传播过程向后传递的误差中，包含正样本的误差M份，而负样本的误差则有1份。显然，当M很大的时候，正样本的误差则会将负样本的误差覆盖掉，这便导致分类器根本无法学习到负样本的分布，进而降低了对负样本分类的精度。同时，在测试阶段，假设分类器将测试样本全部预测为正，此时的准确率为

P＝M/M+1 (2)

显然，当M越大时，准确率P的值越接近于1，而这样的测试结果基本忽略掉了负样本。

为了解决上述由数据不平衡所造成的问题，研究者提出了很多的方案，主要分为两个方面：

1)一方面是从数据本身的角度出发，基于数据抽样，通过不同的策略，让数据量的分布相对更为均衡。这类方法有：随机采样、过采样技术(synthetic minorityoversampling technique)、下采样技术(easy ensemble,balance cascade)等。简单描述也就是，如果数据量比较小那么就增加一些样本，反之如果类别下的数据量比较大那么就删除一些样本。如中国专利申请CN201010530912中，就是利用一定的策略扩充数据样本集中的少数类来达到数据平衡。这与数据增广方法就有了一些交集，增加数据可被认为是正增广，删除数据则可被认为是负增广。

2)另一方面是从学习算法的角度出发，通过考虑不同类别下的错误分类样本的代价的不同而对算法进行优化。简单的可以描述为对数据量大的类别的代价进行抑制，对数据量小的类别的代价进行增强，进而使得学习算法在数据集不平衡的情况下也能够很好的学习到数据的分布。

然而这些方法依然存在缺点。首先，基于数据抽样的方法着重强调过采样或下采样技术，这类方法的一个前提是需要一个可信的依据，对类别下的样本进行过采样或下采样等后的数据量分布进行描述，也就是需要提前合理的确定处理后的数据集的数量的一个分布。然而，如何确定这个合理的分布，仍然缺乏相关的理论基础且没有一个统一的标准。其次，基于错误分类样本代价的方法，需要融合到学习算法当中，这在一定程度上增加了训练分类器的时间成本，同时由于耦合度较高而不便与不同的学习算法进行结合。

发明内容

本发明的目的在于通过给定一个数据量的不平衡度量值，从数据的原始分布出发，自动化的生成一个新的数据量分布，该新的分布能够最大化的保持部分原始分布统计特征的同时满足指定的不平衡度量，进而达到为后续的数据抽样或数据增广方法提供相关的数据量分布平衡的理论依据的目的。

按照本发明的目的提出的一种数据量分布的平衡方法，包括步骤：

提供一原始数据量分布的第一不平衡度，建立平衡度处理模型，所述平衡度处理模型给出针对原始数据量分布的平衡策略和衡量该平衡策略的第二不平衡度，所述第二平衡度至少小于第一平衡度；

给出所述平衡度处理模型中满足所述第二不平衡度的最大类别数据量和最小类别数据量，基于所述平衡策略和所述最大类别数据量和最小类别数据量，对原始数据量分布进行平衡处理，得到平衡后的新数据量分布。

优选的，所述平衡度处理模型表达为

其中，C表示类别数量，c表示第c个类别，x_c和x_c′分别表示原始数据量分布X和新数据量分布X′中类别c下的样本数据量，N'_max和N'_min分别表示为新数据量分布X′中的最大类别的数据量和最小类别的数据量。

优选的，还包括建立一优化模型，所述优化模型给出在满足所述第二不平衡度下的最优所述最大类别数据量和最小类别数据量。

优选的，所述优化模型为

其中μ为原始数据量分布的均值，μ′为新数据量分布的均值，N'_max和N'_min分别表示为新数据量分布X′中的最大类别的数据量和最小类别的数据量，所述第二模型的自然语言描述可以表达为，通过优化找到一对满足指定的

N'_max/N'_min＝IR’条件的N'_max和N'_min，使得原始数据量分布的均值μ与新数据量分布的均值μ′之间的差值最小。

优选的，还包括对新数据量分布下的标准差进行评估，判断是否小于原始数据量分布下的标准差，以判断所述平衡策略是否成功。

根据本发明的目的提出的另一种数据量分布的平衡方法，该方法对一原始数据量分布平衡后形成一新数据量分布，所述原始数据量分布具有一第一不平衡度，所述方法包括：

指定一第二不平衡度，所述第二不平衡度至少小于所述第一不平衡度；

根据所述第二不平衡度，生成所述新数据量分布中的最大类别数据量和最小类别数据量，所述最大类别数据量和最小类别数据量使得第一数据量分布的均值与所述新数据量分布的均值之间的差值最小；

根据所述最大类别数据量和最小类别数据量，通过一平衡处理模型生成所述新数据量分布。

优选的，所述新数据量分布中的最大类别数据量和最小类别数据量，与所述第二不平衡度之间的关系为：

N'_max/N'_min＝IR’

其中，N'_max表示最大类别数据量，N'_min表示最小类别数据量，IR’表示第二不平衡度。

优选的，所述平衡处理模型为：

其中，C表示类别数量，c表示第c个类别，xc和xc′分别表示原始数据量分布X和新数据量分布X′中类别c下的样本数据量，Nmax′和Nmin′分别表示为新数据量分布X′中的最大类别的数据量和最小类别的数据量。

最后，本发明还提出一种数据处理方法，包括：

提供一具有原始数据量分布的原始数据集；

对所述原始数据集按照上述的数据量分布的平衡方法进行平衡，得到新数据量分布；

基于所述新数据量分布，对所述原始数据集机型数据抽样或数据增广，得到新数据集。

本发明在一个给定的数据量的不平衡度量值的条件下，基于数据的原始分布，自动化的生成一个新的数据量分布。该新的分布能够最大化的保持部分原始分布统计特征的同时满足指定的不平衡度量，进而能够为后续基于平衡后的分布的数据采样(DS，datasampling)或数据增广(DA,data augmentation)提供相关的数据量分布平衡的理论依据。优点：

(1)仅需指定一个不平衡度量值就能够自动化的生成新的数据量分布。

(2)本方案能够在满足指定的不平衡度量值的条件下，最大化的保留原始数据量分布中的部分信息。

(3)为数据采样或数据增广提供了有关数据量分布平衡的理论依据。

(4)本方案与数据抽样或数据增广方法的耦合度很低，可适用于任何的数据抽样或数据增广方法。

附图说明

图1是本发明的数据量分布平衡方法的流程示意图。

图2是本发明第一实施方式下菜品图像集的原始数据量分布可视化视图。

图3是本发明第一实施方式下菜品图像集的新数据量分布可视化视图。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述，但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

请参见图1，图1是本发明的数据量分布平衡方法的流程示意图，如图所示，该方法步骤步骤：

S1、基于不平衡度量的数据量分布平衡。提供一原始数据量分布，具有第一不平衡度，步骤S1通过建立一个平衡度处理模型，该平衡度处理模型能够给出针对原始数据量分布的平衡策略和衡量该平衡策略的第二不平衡度，所述第二平衡度至少小于第一平衡度。

在该步骤中，提供的原始数据集中的数据量分布有一定的不平衡性，比如该原始数据集中某一个分类下的数据量很大，而另一个分类下的数据量特别小，这样按照式(1)计算出来的不平衡度就会显得很大，这样的数据集在机器训练过程中会导致部分分类下的训练精度不高。

数据的不平衡度的定义如式(1)所示，对于一个特定的IR，我们需要知道数据集中的最大类别的数据量N_max，以及最小类别的数据量N_min，才能够确定出该IR的值。现假设，我们需要对一个数据量分布不平衡且具有C个类别的数据集X进行数据量分布平衡的处理，该数据集经平衡处理后的新数据集X′的不平衡度量需要满足为IR′，此时新的最大类别的数据量为N_max′，新的最小类别的数据量为N_min′，那么对原数据集中不同类别的数据量的平衡处理可表达为

其中x_c和x_c′分别表示数据集X和新数据集X′中类别c下的样本数据量。

对于式(3)中建立的数据量平衡处理的策略，我们应该如何对其进行量化评估呢？首先基于模型(3)完成数据量平衡处理后，我们能够得到一个新的数据集X′的数据量分布。而反映一个数据量分布的特征的有效方法是对它的统计量进行分析。例如，数据量分布的均值：

可以直观的反映出分布的集中性或代表性，而数据量分布的标准差：

则可与分布的不平衡度量相对应，一个数据量分布的平衡处理，将直接的反映到数据量分布的标准差的变化上面。通常，一个分布的IR值越低，其标准差则也可能比较低。

S2、基于不平衡度量的数据量分布的自动化平衡。给出所述平衡度处理模型中满足所述第二不平衡度的最大类别数据量和最小类别数据量，基于所述平衡策略和所述最大类别数据量和最小类别数据量，对原始数据量分布进行平衡处理，得到平衡后的新数据量分布。

具体来说，基于S1中提出的评价平衡策略的相关指标，以及指定的数据不平衡的度量指标，构成相关约束条件，进一步在S1中建立的平衡策略的基础上进行进一步发展，建立一个优化模型形成数据量平衡策略的理论解释。而后基于优化模型的解，利用S1中的平衡处理模型生成新的数据量分布。

进一步的，在S1中通过式(3)建立了对数据集进行平衡处理处理的模型，但是模型中的参数N′_max以及N′_min是如何根据指定的IR′而求解出来并未给出相应的方法。

一种简单的方法，可以在原始数据量的分布中选择两个数据量值作为N′_max以及N′_min的值以满足指定的IR′，而后通过比较原始数据量分布和新数据量分布的均值μ以及标准差σ，对选择的N′_max以及N′_min的值的合理性进行评估。但是，这种方法最明显的缺点是随机性太强，纵使经过多次的实验也无法保证在选择出的最优的N′_max以及N′_min能够在全局也保持相对最优。

在本节的内容中，我们希望在指定IR′的条件下建立一个模型，能够通过优化求解出全局相对最优的N′_max以及N′_min，以达到降低数据量分布的标准差σ的目的。于是，建立优化模型

其中μ为原始数据量分布的均值，μ′为新数据量分布的均值。自然语言描述可以表达为，模型(6)的目标是通过优化找到一对满足指定的N'_max/N'_min＝IR’条件的N'_max和N'_min，使得原始数据量分布的均值μ与基于N′_max以及N′_min采用式(1)而得到的新数据量分布的均值μ′之间的差值最小。

模型(6)中选择均值间的差异作为优化目标的一个统计意义上的原因是均值可以反应出分布的集中性或代表性，这样便可以在一定程度上保证新的数据量分布不至于为了满足指定的IR′条件，而过多的丢失了原始数据量分布中的部分信息。因此，以均值间的差异为优化目标，可以保证新的数据量分布在指定的IR′条件下最大化的保留原始分布中的集中性统计特征。

通过迭代的方式对模型(6)进行求解，得到一对N'_max和N'_min值，而后基于模型(3)可完成对原始数据量分布X的平衡处理得到新的数据量分布X′。在一个数据量平衡的需求中，一般而言对于IR′值的指定需要满足IR′<IR，因此对新数据量分布下的标准差进行评估，判断是否小于原始数据量分布下的标准差，以判断所述平衡策略是否成功。如得到的新的数据量分布X′的标准差σ′比原始数据量分布X的标准差σ要小，就意味着新的数据量的分布表现更为平衡。

S3、基于新数据量分布的数据处理。基于S2中模型生成的新的数据量分布的依据，利用数据抽样或数据增广方法生成具有新分布的数据集，进而有利于完成后续相关的分类任务。

基于S2中提供的理论依据，以新的数据量分布为基础，利用不同的数据抽样或数据增广方法生成具有新分布的数据集，进而有利于完成后续相关的分类任务。由于新数据量分布的生成与数据抽样或数据增广方法的耦合度很低，因此本技术方案能够为任何的数据抽样或数据增广方法提供相应的理论依据。

需要注意的是，步骤S2中的优化模型，可以通过迭代的方式寻找到满足指定的第二不平衡度IR′的最优N'_max和N'_min，实现自动化平衡数据量分布。在实际操作中，步骤S1和S2是互相嵌套的，即先给出第二不平衡度IR′，再计算最优N'_max和N'_min，再用步骤S1的模型计算新的数据量分布。因此，本发明的数据量分布平衡方法还可以表述为：

S1′.提供一原始数据量分布的第一不平衡度，建立平衡度处理模型，所述平衡度处理模型给出针对原始数据量分布的平衡策略和衡量该平衡策略的第二不平衡度，所述第二平衡度至少小于第一平衡度；

S2′.给出所述平衡度处理模型中满足所述第二不平衡度的最大类别数据量和最小类别数据量，基于所述平衡策略和所述最大类别数据量和最小类别数据量，对原始数据量分布进行平衡处理，得到平衡后的新数据量分布。

S3′.基于新数据量分布的数据处理。基于S2中模型生成的新的数据量分布的依据，利用数据抽样或数据增广方法生成具有新分布的数据集，进而有利于完成后续相关的分类任务

实施方式一

下面基于一个963类菜品图像集的数据量分布平衡为例，做详细的说明。

首先将963类菜品图像集的数据量的分布可视化如图2所示

此时的IR值约等于14(N_max＝2043，N_min＝151)，我们认为该IR值较高表面数据量的分布不太平衡，并希望新的数据量分布的IR′值约等于2。于是通过利用优化模型(6)，计算出满足IR′值约等于2条件的最优的N'_max和N'_min为

N'_max＝999和N'_min＝499

基于N'_max和N'_min，利用模型(3)对原始数据量分布进行平衡处理，得到的新的数据量的分布如图3所示。对比图2和图3可以看出，原始数据量的分布相对离散，而新数据量的分布则相对集中。

有了新的数据量的分布后，接下来我们可以依据式(4)和式(5)定义的量化指标对其进行评价。我们对原始数据量分布于新数据量分布的均值μ以及标准差σ进行了统计对比，如表1所示。

表1.原始与新数据量分布的统计特征对比

Distribution	μ	σ
			Original	692	323
Balanced	691	182

从表1中可以看到，平衡处理后的数据量分布的均值为691与原始数据量分布的均值692非常接近，结合我们在上文中的理论分析可以知道，这实际上表明了处理后的数据量分布在一定程度上最大化的保留原了始分布中的集中性统计特征。同时，由于指定的IR′的值为2比原始数据量的IR值14要小得多，这种差异也表现在了两种分布的标准差上，处理后的数据量分布的标准差为182比原始数据量分布分的标准差323要小得多。因此，处理后的数据量的分布更为平衡，与我们在上文中的相关理论分析符合，能够为任何的数据抽样或数据增广方法提供相应的理论依据。

最后，基于新的数据量分布，通过利用数据抽样或数据增广方法生成具有新分布的数据集，进而有利于完成后续相关的数据分类任务。

尽管为示例目的，已经公开了本发明的优选实施方式，但是本领域的普通技术人员将意识到，在不脱离由所附的权利要求书公开的本发明的范围和精神的情况下，各种改进、增加以及取代是可能的。

Claims

1.一种数据量分布的平衡方法，其特征在于，包括步骤：

基于不平衡度量的数据量分布平衡，包括：提供一原始数据量分布的第一不平衡度，建立平衡度处理模型，所述平衡度处理模型给出针对原始数据量分布的平衡策略和衡量该平衡策略的第二不平衡度，所述第二平衡度至少小于第一平衡度；

基于不平衡度量的数据量分布的自动化平衡，包括：给出所述平衡度处理模型中满足所述第二不平衡度的最大类别数据量和最小类别数据量，基于所述平衡策略和所述最大类别数据量和最小类别数据量，对原始数据量分布进行平衡处理，得到平衡后的新数据量分布。

2.如权利要求1所述的数据量分布的平衡方法，其特征在于，所述平衡度处理模型表达为

其中，C表示类别数量，c表示第c个类别，x_c和x_c′分别表示原始数据量分布X和新数据量分布X′中类别c下的样本数据量，N_max′和N_min′分别表示为新数据量分布X′中的最大类别的数据量和最小类别的数据量。

3.如权利要求1所述的数据量分布的平衡方法，其特征在于，还包括：建立一优化模型，所述优化模型给出在满足所述第二不平衡度下的最优所述最大类别数据量和最小类别数据量。

4.如权利要求1所述的数据量分布的平衡方法，其特征在于，所述优化模型为

其中μ为原始数据量分布的均值，μ′为新数据量分布的均值，N'_max和N'_min分别表示为新数据量分布X′中的最大类别的数据量和最小类别的数据量，所述第二模型的自然语言描述可以表达为，通过优化找到一对满足指定的N′_max/N′_min＝IR’条件的N'_max和N'_min，使得原始数据量分布的均值μ与新数据量分布的均值μ′之间的差值最小。

5.如权利要求1所述的数据量分布的平衡方法，其特征在于，还包括：对新数据量分布下的标准差进行评估，判断是否小于原始数据量分布下的标准差，以判断所述平衡策略是否成功。

6.一种数据量分布的平衡方法，该方法对一原始数据量分布平衡后形成一新数据量分布，所述原始数据量分布具有一第一不平衡度，其特征在于，所述方法包括：

7.如权利要求6所述的数据量分布的平衡方法，其特征在于，所述新数据量分布中的最大类别数据量和最小类别数据量，与所述第二不平衡度之间的关系为：

N′_max/N'_min＝IR’

8.如权利要求6所述的数据量分布的平衡方法，其特征在于，所述平衡处理模型为：

9.如权利要求6所述的数据量分布的平衡方法，其特征在于，还包括：对新数据量分布下的标准差进行评估，判断是否小于原始数据量分布下的标准差，以判断所述平衡策略是否成功。

10.一种数据处理方法，其特征在于，包括：

提供一具有原始数据量分布的原始数据集；

对所述原始数据集按照权利要求1至9任一项所述的数据量分布的平衡方法进行平衡，得到新数据量分布；