CN109272056A

CN109272056A - 基于伪负样本的数据平衡方法及提高数据分类性能的方法

Info

Publication number: CN109272056A
Application number: CN201811280097.0A
Authority: CN
Inventors: 乔少杰; 张永清; 韩楠; 周激流; 卢荣钊; 刘定祥; 温敏; 魏军林; 袁犁
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-01-25
Anticipated expiration: 2038-10-30
Also published as: CN109272056B

Abstract

本发明公开了一种基于伪负样本的数据平衡方法及提高数据分类性能的方法，包括步骤：步骤1：正负样本分离，得到正样本集和负样本集；步骤2：计算得到负样本皮尔逊相关系数集合；步骤3：将伪负样本集和被挑选样本集初始化；步骤4：使用最大相关‑最小冗余方法计算权重，得到权重集合；步骤5：挑选出最大权重，更新伪负样本集和被挑选样本集；步骤6：重复步骤4和步骤5，直到挑选出伪负样本集；步骤7：将挑选出的伪负样本集并入正样本集，同时，从所述负样本集中剔除挑选出的伪负样本集；本发明首次提出并定义了伪负样本的概念，提出的算法可提高数据分类准确性，进而提高分类器性能，特别是在处理不平衡的生物信息数据方面优势明显。

Description

基于伪负样本的数据平衡方法及提高数据分类性能的方法

技术领域

本发明涉及信息处理技术领域，特别是涉及基于伪负样本的数据平衡方法及提高数据分类性能的方法。

背景技术

随着数据量的快速增长，例如生物信息，机器学习技术被普遍应用于生物信息领域，因为机器学习可以从大规模的生物数据中发现重要信息从而帮助人们理解复杂的生物过程。然而，类别不平衡问题的普遍存在会使机器学习性能大幅下降，理论上，有限的正样本是无法实现数据挖掘的，因此对许多生物数据的学习都需要解决类别不平衡问题，比如，基因表达数据，蛋白质-DNA结合数据，预测小分子核糖核酸数据等。

已经提出的用来降低不平衡数据的影响的方法可以分为数据层面方法和算法层面方法。

对于数据层面的方法，一般采用再采样技术来平衡数据集的样本空间，以减少学习过程中样本偏态分布的负面影响。再采样方法是非常常用的方法，因为它们独立于分类器。再采样技术可以分为三类，分别是(1)过采样：通过生成新的少数类样本来平衡正负样本比例。常用方法有随机过采样和SMOTE。(2)降采样：通过丢弃多数类样本来平衡正负样本比例。常用方法有随机降采样(3)混合采样，这种方法是上述两种方法的结合。对于算法层面的方法，可以采用代价敏感和集成学习的方法减少不平衡数据带来的影响。

然而，随机降采样往往会丢失一些重要的分类信息，而随机过采样则耗时较长，也容易导致过拟合。因此，有必要提出一种先进的数据采样方法来平衡正负样本比例，从而提高数据分类的准确性。

发明内容

为了解决上述问题，本发明提供基于伪负样本的数据平衡方法及提高数据分类性能的方法，可以从负样本中找出正样本(伪负样本)并加入到正样本中从而平衡正负样本比例，达到对不平衡数据的学习，从而解决了现有方法丢失一些重要的分类信息，耗时较长，容易导致过拟合，造成数据分类准确性低的问题。

为此，本发明采用的技术方案是：

提供一种基于伪负样本的数据平衡方法，该方法包括以下步骤：

步骤1：将待处理的数据集进行正负样本分离，得到正样本集和负样本集；

作为本领域的普通技术人员，悉知，这里的正负样本是根据样本标签进行正负分类形成正负样本集的，但负样本集中很可能存在一些未被检测出的正样本。

步骤2：计算所述负样本集中每个负样本与所述正样本集中全部正样本的皮尔逊相关系数，得到负样本皮尔逊相关系数集合；

步骤3：将伪负样本集初始化为空集，并将被挑选样本集初始化为负样本集；

被挑选样本集即设定的一个集合，用于挑选伪负样本的集合，因此命名为被挑选样本集，这里初始化为负样本集后，负样本集即为被挑选样本集。

步骤4：使用负样本遍历被挑选样本集，使用最大相关-最小冗余方法计算出负样本集中所有负样本的权重，得到权重集合；

步骤5：从所述权重集合中挑选出最大权重，并将所述最大权重加入伪负样本集，同时，从被挑选样本集中剔除所述最大权重；

步骤6：重复步骤4和步骤5，直到挑选出伪负样本集，最终挑选出的伪负样本集中样本数量为所述正样本集中样本数量的10％～100％；

步骤7：将挑选出的伪负样本集并入所述正样本集，形成新的正样本集，同时，从所述负样本集中剔除挑选出的伪负样本集，形成新的负样本集。

进一步的是，在步骤2中，用每个负样本与全部正样本的皮尔逊相关系数的平均值来表示每个负样本的皮尔逊相关系数，其计算公式为：

其中，m表示正样本集中正样本的数量，表示负样本的皮尔逊相关系数，其计算公式为：

其中，表示负样本，表示正样本，j＝{1,2,3,…,n}，i＝{1,2,3,…,m}，n表示负样本集中负样本的数量。

进一步的是，在步骤4中，所述权重的计算公式为：

其中，l表示伪负样本的数量；表示负样本集中除以外的所有负样本,k＝{1,2,3,…,m}，n表示负样本集中负样本的数量。

本发明还提供了一种提高数据分类性能的方法，使用所述新的正样本集和新的负样本集在分类器上进行训练，以提高分类器的分类性能，提高分类准确性。

进一步的是，所述分类器包括随机森林、AdaBoost、神经网络和/或鉴别分析。

本发明方法的理论过程如下：

在数据信息处理领域，尤其是在生物信息学中，经常遇到分类不平衡问题：负样本数量远远多于正样本数量的情况。认为可以通过伪负样本(那些与正样本相关性最大同时与负样本冗余性最小的负样本)来预测样本类别。研究发现，由于实验次数的限制，生物学家们不可能检测所有样本，而未检测的样本全都归为负样本，这就意味着在负样本中，很可能存在一些未被检测出的正样本，此方法的目的就是找出这些在负样本中的正样本(伪负样本)，从而平衡正负样本比例。

伪负样本抽样方法的关键是如何定义伪负样本，下面给出伪负样本的定义:

假设待处理的数据有正样本集和负样本集然后定义伪负样本集其中，m表示正样本数量，n表示负样本数量，m＜＜n，l表示伪负样本数量。我们的目的就是确定伪负样本集其中包含l个样本。

我们使用增量搜索方法作为寻找伪负样本的方法。为了实现增量搜索，首先定义伪负样本集和相似性评价指标使用公式(1)来定量评价和S^*′的相似性：

其中S^*′表示潜在的伪负样本，表示伪负样本集(K代表搜索次数)。在这里，使用皮尔逊(Pearson)相关系数定义样本间相关性，因此公式(1)可变形为公式(2)：

每次搜索将S^*′加入到如公式(3)所示

其中

权重计算公式的推导过程如下：

使用“最大相关-最小冗余(MAXR-MINR)”的方法。

其中，最大相关性的计算公式如(5)和(6)所示：

其中，表示正样本，表示负样本，j＝{1,2,3,…,n}，i＝{1,2,3,…,m}，n为负样本数量，m为正样本数量，为负样本的皮尔逊相关系数。最小冗余性的计算公式如(7)和(8)所示：

S_min＝argmin{R} (8)

其中，其中，l表示伪负样本的数量；表示负样本集中除以外的所有负样本,k＝{1,2,3,…,m}，n表示负样本集中负样本的数量；

由此，在增量搜索中，定义一个优化方程来优化“最大相关-最小冗余”，如公式11所示：

Ψ(D,R)＝D-R (9)

因此，的权重S_j的计算方法可定义为公式12：

采用本技术方案的有益效果：

1.与现有技术相比，本发明首次提出并定义了伪负样本的概念，为了找到最优的伪负样本，同时考虑了正负样本，并利用提取伪负样本的方法实现数据平衡。

2.采用增量搜索法计算正、负样本的系数，避免了伪负样本子集挑选时的大量计算。

3.本发明方法可提高数据分类准确性，进而提高分类器性能，特别是在处理不平衡的生物信息数据方面优势明显。

附图说明

图1是本发明方法的数据平衡方法流程图；

图2是本发明方法的实施例中不同伪负样本率下的PDNA-543数据集的分类性能图；

图3是本发明方法的实施例中不同伪负样本率下的PDNA-316数据集的分类性能图；

图4是本发明方法的实施例中不同伪负样本率下的SNP数据集的分类性能图；

图5是本发明方法(MMPCC)与MAXR和MINR算法在RF和NN分类器上使用Acc指标的性能比较图；

图6是本发明方法(MMPCC)与MAXR和MINR算法在RF和NN分类器上使用MCC指标的性能比较图；

图7是本发明方法(MMPCC)与MAXR和MINR算法在RF和NN分类器上使用Sen指标的性能比较图；

图8是本发明方法(MMPCC)与MAXR和MINR算法在RF和NN分类器上使用Spe指标的性能比较图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明作进一步阐述。

实施步骤：

一种基于伪负样本的数据平衡方法，该方法包括以下步骤：

其中，正样本集为负样本集为则就是j＝{1,2,3,…,n}，就是i＝{1,2,3,…,m}。

负样本皮尔逊相关系数集合为P＝{p₁，p₂，，p₃，…，p_n}；

用每个负样本与全部正样本的皮尔逊相关系数的平均值来表示每个负样本的皮尔逊相关系数，其计算公式为：

其中，m表示正样本集中正样本的数量，表示负样本的皮尔逊相关系数，，其计算公式为：

其中，表示负样本，表示正样本，j＝{1，2，3,…,n}，i＝{1，2，3，…，m}，n表示负样本集中负样本的数量，m表示正样本集中正样本的数量。

步骤3：将伪负样本集S^*初始化为空集，即并将被挑选样本集初始化为负样本集，即

步骤4：使用负样本遍历被挑选样本集使用最大相关-最小冗余方法计算出所有负样本的权重S_j′，j′＝{1，2，3,…,α}，表示负样本位置，得到权重集合S_j′＝{S₁,S₂,S₃,…,S_α}；

所述权重的计算公式为：

具体的，记最大权重并更新伪负样本集

步骤6：重复步骤4和步骤5，直到挑选出l个伪负样本集l的取值为10％～100％的正样本数量；

步骤7：将挑选出的伪负样本集并入所述正样本集，形成新的正样本集，同时，从所述负样本集中剔除挑选出的伪负样本集，形成新的负样本集；

具体的，记新的正样本集S^+′＝S⁺∪S^*,新的负样本集S^-′＝S^--S^*。

一种提高数据分类性能的方法，使用所述新的正样本集和新的负样本集在分类器上进行训练。

所述分类器包括随机森林、AdaBoost、神经网络和鉴别分析。

下面以具体的实施例来做进一步的说明。

为了验证本发明的有效性，将本发明得到的新的数据集进行5倍交叉验证，使用不同分类器进行分类训练，并使用敏感性Sensitivity(Sen)，特异性Specificity(Spe)，准确性Accuracy(Acc)，和Mathew’s Correlation Coefficient(MCC)评估五次交叉验证的结果，并将其平均值作为该分类器输出结果。

Sen，Spe，Acc，MCC评估方法的计算方法如下：

其中，TP表示真正例的数量，FP表示假正例的数量，TN表示真反例的数量，FN表示假反例的数量。

实施例所使用的待处理的数据集：

数据集详细信息如表1所示。

表1数据集概况

待处理的数据集	正样本数量	负样本数量	比率
				CMC	333	1140	3.4
Haberman	81	225	2.7
				PDNA-543	9549	134995	14.1
PDNA-316	5609	67109	11.9
				SNP	183	2891	15.7

在表1中，比率由以下公式得到：

比率＝正样本数量/负样本数量

其中，CMC包括333个正样本和1140个负样本，每个样本有9个属性。Haberman包括81个正样本和225个负样本，每个样本有3个属性。SNP包括183个正样本和2891个负样本，每个样本有25个属性。PDNA-543包括9549个正样本和134995个负样本，每个样本有180个属性。PDNA-316包括5609个正样本和67109个负样本，每个样本有180个属性。SNP包括183个正样本和2891个负样本，每个样本有25个属性。

实验时，我们使用5倍交叉验证来划分数据集，并且使用4种分类器(随机森林，AdaBoost，神经网络和鉴别分析)。

实施例1

本实施例中，使用本发明的数据平衡方法，在CMC和Haberman数据集上按照不同伪负样本率(即伪负样本数量在正样本数量的占比)挑选出伪负样本，并利用4种分类器进行数据分类及分类性能评估。

设置伪负样本率从0％到50％，0％表示没有挑选伪负样本。CMC上挑选结果如表2所示。可以看到，伪负样本的百分比越大，性能越好，当伪负样本占比分别为0％、10％、20％、30％、40％和50％时，随机森林的Sen为28.19％、39.22％、43.94％、50.87％、56.45％和62％，Acc值分别为78.2％、78.75％、78.41％、78.48％、79.57％和79.63％，MCC值分别为0.27、0.369、0.404、0.448、0.505和0.532。不同评价指标的性能呈现出随伪负样本百分比增加而增加的趋势，这与实际情况是相符的，那就是:如果添加更多的正样本，可以获得更好的分类性能。

同时，在伪负样本占比分别为0％、10％、20％、30％、40％、50％的情况下，神经网络的Sen分别达到27.01％、40.92％、47.28％、53.39％、54.94％和61.02％，MCC分别达到0.161、0.302、0.368、0.439、0.439、0.505。在判别分析方法中，不同百分比的伪负样本的Sen值分别是9.38％、17.6％、37.35％、52.46％、59.46％和66.78％，MCC值分别是0.156、0.198、0.351、0.438、0.485和0.530。同样，AdaBoost的Sen与MCC也得到了提高，这些结果充分证明了该方法的有效性。Haberman的结果如表3所示，其结果与表2具有相同的趋势。

表2CMC数据中不同比例伪负样本下分类器性能比较

表3Haberman数据中不同比例伪负样本下分类器性能比较

实施例2

本实施例验证了本发明方法在真实生物数据上的有效性。数据集包括PDNA-316，PDNA-543，SNP。

图2显示了不同伪负样本率下的PDNA-543数据集的分类性能，其中RF-Sen和NN-Sen分别代表RF(神经网络)和NN(鉴别分析)分类器的Sen(灵敏度值)，RF-MCC和NN-MCC分别代表RF和NN分类器的MCC值。可以看到神经网络的Sen和MCC度量随着伪负样本百分比从0％到50％的增加而增加，而当伪负样本百分比从0％变化到30％时，随机森林的Sen和MCC保持不变，并且当伪负样本的百分比超过30％时，随着百分比增加，RF却拥有更好的表现。

图3显示了不同伪负样本率下的PDNA-316数据集的分类性能。当负样本率为0％、％10时，RF的Sen和MCC优于NN，当百分比大于20％时，NN的性能显著提高进而超过RF，说明添加更多的伪负样本可以大大提高分类器的性能。观察可知，RF的性能几乎没有变化，这是因为伪负样本对RF算法影响不大。

图4显示了不同伪负样本率下的SNP数据集的分类性能，在不同伪负样本率之间，NN的Sen变化很大，同时MCC的值在百分比从0％到30％的过程中也是快速提高，但从40％到50％时，基本保持稳定。同时，随着伪负样本的百分比逐渐增加，RF的Sen和MCC也逐渐增加。

实施例3

使用PDNA-316数据将MMPCC算法和MAXR算法与MINR算法进行比较。其中MMPCC为本发明的算法的简称。

在实施例3中，依然使用五倍交叉验证来评估提出的算法在这四个指标上的预测性能。使用PDNA-316数据集对MMPCC算法，MAXR(max-relevance)算法和MINR(min-redundancy)算法进行分类性能的比较，比较结果如图5-8所示。

根据图5-8，我们不难发现，在RF和NN分类器中，MMPCC无论在RF分类器还是NN分类器都优于MAXR和MINR方法。从图5可以看出，伪负样本对Sen值的影响较大。当NN作为分类器时，MMPCC的Sen值明显优于MAXR和MINR，对于RF分类器，当加入更多的伪负样本时，MAXR就是最好的。由图6可知，随着伪负样本百分比的增加，MMPCC的Sen值在RF和NN上都非常稳定。从图7可以看出，在RF分类器中，MMPCC方法是ACC最稳定的方法。从图8可以看出MMPCC的MCC值明显优于MAXR和MINR方法。实验结果表明，MMPCC利用了更有代表性的样本，从大多数的负样本中找到伪负样本(可以看作是阳性样本)。

图5-8中，MMPCC-RF表示本发明方法对RF分类器的ACC值，其它依次类推。

结合三次实验，可以证明伪负样本是相当重要的，可以用来提高分类器性能。

实施例4

在本实施例中，使用PDNA-316数据将MMPCC算法与经典采样算法SMOTE方法进行比较。在SMOTE方法中，少数类通过创建“合成”示例而不是通过替换的方法进行过采样。比较结果如下图所示。

表4本发明算法与SMOTE算法在不同比例伪负样本下的性能比较

从表4可以看出，MMPCC在所有评价指标上都优于SMOTE方法。以MCC为例，不同伪负样本百分比下NN分类器的MMPCC值分别为0.312、0.405、0.464、0.513和0.543，与SMOTE法相比，改进分别为0.152、0.205、0.248、0.27和0.277。对于其他三个评价指标，MMPCC方法也优于SMOTE采样方法。对于RF分类器，MMPCC的性能同样优于SMOTE方法。随着百分比的增加，RF分类器中MMPCC的MCC值分别为0.333、0.337、0.351、0.363和0.367，与SMOTE法相比分别提高了0.098、0.091、0.101、0.105和0.109。

这是由于SMOTE对大规模不平衡数据的过采样技术引入了一些重复的或人工的样本，但是MMPCC却没有人为的重复数据。伪负采样技术有助于从负类中识别出更多有用的样本，因此它的性能优于SMOTE采样方法。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于伪负样本的数据平衡方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的数据平衡方法，其特征在于，在步骤2中，用每个负样本与全部正样本的皮尔逊相关系数的平均值来表示每个负样本的皮尔逊相关系数，其计算公式为：

3.根据权利要求1所述的数据平衡方法，其特征在于，在步骤4中，所述权重的计算公式为：

其中，l表示伪负样本的数量；表示负样本集中除S_j ^-以外的所有负样本，k＝{1,2,3,…,m}，n表示负样本集中负样本的数量。

4.利用权利要求1-3的任一项所述的数据平衡方法实现的一种提高数据分类性能的方法，其特征在于，使用所述新的正样本集和新的负样本集在分类器上进行训练。

5.根据权利要求4所述的一种提高数据分类性能的方法，其特征在于，所述分类器包括随机森林、AdaBoost、神经网络和/或鉴别分析。