CN110969260A

CN110969260A - 不平衡数据过采样方法、装置及存储介质

Info

Publication number: CN110969260A
Application number: CN201911007816.6A
Authority: CN
Inventors: 乔少杰; 刘定祥; 孙科; 韩楠; 魏军林; 张永清; 许源平; 彭珍妮; 王伟; 元昌安; 冉先进; 范勇强; 彭京; 周凯; 黄萍; 郑皎凌; 何晓曦; 李斌勇; 覃晓; 张吉烈
Original assignee: Luzhou City Investment Intelligent Technology Development Co Ltd; Chengdu University of Information Technology
Current assignee: Luzhou City Investment Intelligent Technology Development Co Ltd; Chengdu University of Information Technology
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-04-07

Abstract

本发明涉及机器学习技术领域，提供了一种不平衡数据过采样方法，基于三角形重心特点，包括：S1、获取样本集，并对所述样本集进行正负样本划分，得到正样本集和负样本集；S2、获取正样本集坐标点位信息，根据所述正样本集坐标点位信息生成均值中心点；S3、识别所述正样本集中每一正样本到均值中心点的马氏距离，按马氏距离大小对所述正样本进行排序得到正样本序列；S4、根据所述正样本序列对正样本集进行分组生成正样本组，识别所述正样本组的重心，将所述重心位置标记为新正样本；S5、将所述新正样本并入至正样本集得到新正样本集，重复步骤S2‑S4，得到与负样本数量相平衡的正样本数量；通过上述方法，本发明解决了机器学习中的过拟合现象。

Description

不平衡数据过采样方法、装置及存储介质

技术领域

本发明涉及机器学习技术领域，具体涉及一种不平衡数据过采样方法、装置及存储介质。

背景技术

在机器学习领域中，分类问题一直尤为突出，导致分类效果不佳的主要原因是不平衡的训练集，不平衡训练集是指：数据集中正负样本数量分布比例不平衡，其中：数量多的样本称为负样本，数量少的样本称为正样本。而现阶段大多数的分类器均采用了梯度下降或者梯度上升的原理对分类器的参数进行训练，这一特点使得分类器在训练过程中，对负样本的训练次数要远多于正样本，分类器对负样本训练较为充分，对正样本训练不足，这直接造成的结果是：分类器能够较为准确的识别负样本但却不能够准确的识别正样本，导致分类效果不佳。

解决数据集不平衡，提升分类效果最简单直接的方法是人为使数据集平衡，以达到提升分类效果的目的。最简单的方法就是丢弃一部分负样本，使得正负样本数量平衡，这种方法被称为欠采样；其次是通过模型对正样本进行生成，增加正样本的数量，这种方法成为过采样。两种方法的目的都是使数据集正负样本达到数量上的平衡，提升分类效果。欠采样由于丢失了大量的负样本，虽然正负样本达到平衡，正样本的分类正确率有一定的提高，但是负样本大量丢失造成负样本分类正确率会大幅度下降，所以欠采样对总体的分类效果提升并不显著，甚至在某些数据集上会出现分类效果下降的情况。而过采样则是对正样本进行生成，达到正负样本数量平衡的目的，由于负样本全部保留，所以分类器对负样本的分类正确率不会有大幅度的下降，并且对正样本的分类正确率也有较大幅度的提高。最简单的过采样方法就是随机对正样本进行复制生成所需要的正样本数量，称为随机过采样，由于生成的新样本和原来的一样，新样本不具有多样性，虽然随机过采样在一定程度上提升了正样本的分类正确率，但是生成的新样本多数都是和原来一样的，所以会产生过拟合现象，不能有效地提升分类正确率。所以过采样方法的分类正确率取决于正样本的生成方法，不同样本生成方法会直接影响最后的分类正确率。两种采样方法中欠采样分类正确率提升有限，好的过采样方法能够有效地提升分类正确率，所以现阶段大多数解决不平衡问题的方法都是通过研究过采样。

现阶段过采样算法的不足：现阶段的过采样算法大多是基于K邻近的算法进行样本生成的，其基本思路是：在当前选取的样本和其K邻近样本中的某一个样本的连线上随机选取一个点，作为新生成的样本。由于样本生成时只考虑了K邻近，所以生成的新样本存在以下缺点：

(1)新生成的正样本会跨越样本的边界，样本边界是指某一类样本所在的样本空间的边缘部分。

(2)现阶段的过采样方法生成的样本大多都是在两个样本的连线的线段之间随机选取一个点作为新生成的样本。该方法虽然增加了样本生成的随机性，但是经过该方法后，生成的新样本的分布有可能偏离原来的分布，比如密度，因为生成的新样本是两个样本连线之间的随机值。所以有可能会使得样本生成后出现过于集中于某一个区域或者在某个区域过于稀疏，导致新生成的样本分布和原来的分布不一致。

(3)按照现有技术的思想进行的样本生成方案使得新生成的样本只能是在两个样本之间的连线上，虽然生成的样本和原来的样本不同，但是新样本的多样性并不丰富，新生成的样本只能是在两个样本的连线上，不能生成两个样本连线之外的新样本，新样本的多样性不足。

基于上述三个方面关于生成的新样本存在的缺点，将会导致不平衡数据的分类正确率大大降低，使得对数据的历史规律预测不准确。

发明内容

为了解决上述现有技术所存在的问题，本发明提供了一种不平衡数据过采样方法、装置及存储介质。

第一方面，本发明提供了一种不平衡数据过采样方法，基于三角形重心特点，包括：

S1、获取样本集，并对所述样本集进行正负样本划分，得到正样本集和负样本集；

S2、获取正样本集坐标点位信息，根据所述正样本集坐标点位信息生成均值中心点；

S3、识别所述正样本集中每一正样本到均值中心点的马氏距离，按马氏距离大小对所述正样本进行排序得到正样本序列；

S4、根据所述正样本序列对正样本集进行分组生成正样本组，识别所述正样本组的重心，将所述重心位置标记为新正样本；

S5、将所述新正样本并入至正样本集得到新正样本集，重复步骤S2-S4，得到与负样本数量相平衡的正样本数量。

进一步地，所述获取正样本集坐标点位信息具体包括：各样本多维属性信息。

进一步地，所述生成均值中心点的方法具体包括：对正样本集坐标点位信息中各属性值进行求均值操作。

进一步地，所述按马氏距离大小对所述正样本进行排序得到正样本序列中排序方式包括：按照马氏距离从小到大排序或按照马氏距离从大到小排序。

进一步地，所述根据正样本序列对正样本集进行分组生成正样本组还包括：将所述正样本集中所有正样本以三个为一组进行分组，余下部分不进行样本生成。

本发明第二方面提供了一种不平衡数据过采样装置，包括：

获取模块，用于获取样本集，并对所述样本集进行正负样本划分，得到正样本集和负样本集。

处理模块，用于对正样品集进行排序、分组、标记操作。

整理模块，用于将新正样本并入至正样本集得到新正样本集。

识别输出模块，用于识别新正样品集中正样本的数量，若所述正样本数量小于负样本数量，则与处理模块通信，重复上述处理模块及整理模块工作；若所述正样本数量等于负样本数量，则对结果进行输出。

进一步地，所述处理模块包括：

排列子模块，用于对所述正样本集按马氏距离从大到小或从小到大顺序进行排列。

分组子模块，用于对排序后正样品以三个为一组进行分组得到正样本组，分组完成后余下部分不进行样本生成。

标记子模块，用于识别所述正样本组的重心，并将所述重心位置标记为新正样本。

进一步地，所述整理模块还包括：用于对所述新正样本和所述正样本集中各正样本，基于每个样本的维度信息及近邻样本信息，生成新正样本集。

本发明第三方面提供了一种存储介质，所述存储介质包括储存的程序，其中，所述程序运行时执行第一方面中任一项所述的方法。

本发明第四方面提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行第一方面中任一项所述的方法。

本发明的有益效果在于：

(1)新生成样本是三角形的重心，由于三角形重心的性质是不会在三角形的外部，所以新生成的样本不会跨越样本的边界。

(2)新样本在三个样本构成的三角形的重心，经过多次迭代生成后，不会造成新的样本分布和原来的分布严重不一致的问题，在增加样本的数量的基础上，新样本分布和原来样本分布具有一定的一致性。

(3)生成的新样本具有丰富的多样性，一定程度上解决了机器学习中的过拟合现象。

附图说明

图1为本发明一种不平衡数据过采样方法的流程示意图；

图2为本发明基于三角形重心的过采样方法生成示意图；

图3为本发明一种不平衡数据过采样装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好的理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互利用。

本发明的第一实施方式涉及一种不平衡数据过采样方法。其流程图如图1所示，具体如下：

S1、获取样本集D，并对所述样本集进行正负样本划分，得到正样本集P和负样本集N，N的数量＞P的数量。

例如：样本集D可以为疑似患病人群的集合，则正样本集P为已经确诊患病人群的集合，负样本集N为未确诊患病人群的集合。

又例如：样本集D可以为疑似垃圾信息邮件的集合，则正样本集P为已经判定为垃圾信息邮件的集合，负样本集N为未被判定为垃圾信息邮件的集合。

又例如：样本集D可以为疑似存在缺陷软件的集合，则正样本集P为已经判定为缺陷软件的集合，负样本集N为未被判定为缺陷软件的集合。

又例如：样本集D可以为疑似极端天气的集合，则正样本集P为已经判定为极端天气的集合，负样本集N为未被判定为极端天气的集合。

S2、获取正样本集坐标点位信息，根据所述正样本集坐标点位信息生成均值中心点：

其中，坐标点位信息包括各样本多维属性信息，具体地：对于第i个样本(x_i1,x_i2,x_i3,…,x_ij)∈P，其中x_ij代表第i个样本的第j维属性，P为正样本集，所以

为正样本集的均值中心，其中，m代表正样本的个数，n代表样本的维度大小，S_mean代表正样本集的均值中心。

其中，生成均值中心点的方法包括：对正样本集坐标点位信息中各属性值进行求均值操作，具体地：计算所有正样本的均值中心，正样本集P＝[(x₁，y₁，…，z₁)，(x₂，y₂，…，z₂)，…，(x_n，y_n，…，z_n)]，通过公式

分别求出均值

均值

均值

所得点

即为所有正样本的均值中心点。

S3、识别所述正样本集中每一正样本到均值中心点的马氏距离，按马氏距离大小对所述正样本进行排序得到正样本序列：

其中，按马氏距离大小对正样本进行排序得到正样本序列中排序方式包括：按照马氏距离从小到大排序或按照马氏距离从大到小排序，具体地：通过公式

分别计算每一个正样本到均值中心点的距离，按从小到大或者从大到小的顺序排列后从中找到距离中心点距离最远的样本S。

其中，x，y代表两个正样本向量，Σ^-1为样本协方差矩阵的逆矩阵，Γ(x,y)为两个样本之间的马氏距离。将所有样本和中心均值样本之间的马氏距离进行排序得到距离样本中心最远的样本S。计算样本S和所有正样本(包括S本身，不包括均值中心)之间的马氏距离，并按照该马氏距离从小到大或从大到小的顺序进行排序，得到正样本序列D。

S4、根据所述正样本序列对正样本集进行分组生成正样本组，识别所述正样本组的重心，将所述重心位置标记为新正样本，其过程可参见图2：

其中，对正样本集进行分组生成正样本组包括：将所述正样本集中所有正样本以三个为一组进行分组，余下部分不进行样本生成，具体地：根据公式X_new＝αX_m+(1-α)X_n、

计算每一组中三个样本的重心，将计算出的结果标记为新正样本。其中，X_new代表新生成样本的坐标，X_m、X_n分别为原样本的坐标，α代表随机(0,1)之间的取值。

S5、将所述新正样本并入至正样本集得到新正样本集，重复步骤S2-S4，得到与负样本数量相等的正样本数量。

本发明的第二实施方式涉及一种不平衡数据过采样装置。其结构框图可参见图3，包括：

处理模块，用于对正样本集进行排序、分组、标记操作。

识别输出模块，用于识别新正样本集中正样本的数量，若所述正样本数量小于负样本数量，则与处理模块通信，重复上述处理模块及整理模块工作；若所述正样本数量等于负样本数量，则对结果进行输出。

其中，处理模块包括：

排列子模块，用于对所述正样本集按马氏距离从大到小或从小到大顺序进行排列；

分组子模块，用于对排序后正样品以三个为一组进行分组得到正样本组，分组完成后余下部分不进行样本生成；

其中，整理模块还包括：用于对所述新正样本和所述正样本集中各正样本，基于每个样本的维度信息及近邻样本信息，生成新正样本集。

不难发现，本实施方式为与第一实施方式相对应的装置实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中所提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第三方面提供了一种存储介质及服务器。该服务器包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；以及，与扫描装置通信连接的通信组件，通信组件在处理器的控制下接收和发送数据；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行以实现。

具体地，该服务器包括：一个或多个处理器以及存储器。处理器、存储器可以通过总线或者其他方式连接，以通过总线连接为例。存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述样本采样方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

Claims

1.一种不平衡数据过采样方法，其特征在于，包括：

2.根据权利要求1所述的过采样方法，其特征在于，所述正样本集坐标点位信息具体包括：各样本多维属性信息。

3.根据权利要求1所述的过采样方法，其特征在于，所述生成均值中心点的方法具体包括：对正样本集坐标点位信息中各属性值进行求均值操作。

4.根据权利要求1所述的过采样方法，其特征在于，所述按马氏距离大小对所述正样本进行排序得到正样本序列中排序方式，包括：按照马氏距离从小到大排序或按照马氏距离从大到小排序。

5.根据权利要求1所述的过采样方法，其特征在于，所述根据正样本序列对正样本集进行分组生成正样本组，还包括：将所述正样本集中所有正样本以三个为一组进行分组，余下部分不进行样本生成。

6.一种不平衡数据过采样装置，其特征在于，包括：

获取模块，用于获取样本集，并对所述样本集进行正负样本划分，得到正样本集和负样本集；

处理模块，用于对正样本集进行排序、分组、标记操作；

整理模块，用于将新正样本并入至正样本集得到新正样本集；

7.根据权利要求6所述的装置，其特征在于，所述处理模块包括：

8.根据权利要求6所述的装置，其特征在于，所述整理模块还包括：

用于对所述新正样本和所述正样本集中各正样本，基于每个样本的维度信息及近邻样本信息，生成新正样本集。

9.一种存储介质，其特征在于，所述存储介质包括储存的程序，其中，所述程序运行时执行权利要求1至5中任一项所述的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任一项所述的方法。