CN109272056A - 基于伪负样本的数据平衡方法及提高数据分类性能的方法 - Google Patents
基于伪负样本的数据平衡方法及提高数据分类性能的方法 Download PDFInfo
- Publication number
- CN109272056A CN109272056A CN201811280097.0A CN201811280097A CN109272056A CN 109272056 A CN109272056 A CN 109272056A CN 201811280097 A CN201811280097 A CN 201811280097A CN 109272056 A CN109272056 A CN 109272056A
- Authority
- CN
- China
- Prior art keywords
- negative
- negative sample
- samples
- sample set
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000000926 separation method Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 20
- 238000005070 sampling Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种基于伪负样本的数据平衡方法及提高数据分类性能的方法,包括步骤:步骤1:正负样本分离,得到正样本集和负样本集;步骤2:计算得到负样本皮尔逊相关系数集合;步骤3:将伪负样本集和被挑选样本集初始化;步骤4:使用最大相关‑最小冗余方法计算权重,得到权重集合;步骤5:挑选出最大权重,更新伪负样本集和被挑选样本集;步骤6:重复步骤4和步骤5,直到挑选出伪负样本集;步骤7:将挑选出的伪负样本集并入正样本集,同时,从所述负样本集中剔除挑选出的伪负样本集;本发明首次提出并定义了伪负样本的概念,提出的算法可提高数据分类准确性,进而提高分类器性能,特别是在处理不平衡的生物信息数据方面优势明显。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及基于伪负样本的数据平衡方法及提高数据分类性能的方法。
背景技术
随着数据量的快速增长,例如生物信息,机器学习技术被普遍应用于生物信息领域,因为机器学习可以从大规模的生物数据中发现重要信息从而帮助人们理解复杂的生物过程。然而,类别不平衡问题的普遍存在会使机器学习性能大幅下降,理论上,有限的正样本是无法实现数据挖掘的,因此对许多生物数据的学习都需要解决类别不平衡问题,比如,基因表达数据,蛋白质-DNA结合数据,预测小分子核糖核酸数据等。
已经提出的用来降低不平衡数据的影响的方法可以分为数据层面方法和算法层面方法。
对于数据层面的方法,一般采用再采样技术来平衡数据集的样本空间,以减少学习过程中样本偏态分布的负面影响。再采样方法是非常常用的方法,因为它们独立于分类器。再采样技术可以分为三类,分别是(1)过采样:通过生成新的少数类样本来平衡正负样本比例。常用方法有随机过采样和SMOTE。(2)降采样:通过丢弃多数类样本来平衡正负样本比例。常用方法有随机降采样(3)混合采样,这种方法是上述两种方法的结合。对于算法层面的方法,可以采用代价敏感和集成学习的方法减少不平衡数据带来的影响。
然而,随机降采样往往会丢失一些重要的分类信息,而随机过采样则耗时较长,也容易导致过拟合。因此,有必要提出一种先进的数据采样方法来平衡正负样本比例,从而提高数据分类的准确性。
发明内容
为了解决上述问题,本发明提供基于伪负样本的数据平衡方法及提高数据分类性能的方法,可以从负样本中找出正样本(伪负样本)并加入到正样本中从而平衡正负样本比例,达到对不平衡数据的学习,从而解决了现有方法丢失一些重要的分类信息,耗时较长,容易导致过拟合,造成数据分类准确性低的问题。
为此,本发明采用的技术方案是:
提供一种基于伪负样本的数据平衡方法,该方法包括以下步骤:
步骤1:将待处理的数据集进行正负样本分离,得到正样本集和负样本集;
作为本领域的普通技术人员,悉知,这里的正负样本是根据样本标签进行正负分类形成正负样本集的,但负样本集中很可能存在一些未被检测出的正样本。
步骤2:计算所述负样本集中每个负样本与所述正样本集中全部正样本的皮尔逊相关系数,得到负样本皮尔逊相关系数集合;
步骤3:将伪负样本集初始化为空集,并将被挑选样本集初始化为负样本集;
被挑选样本集即设定的一个集合,用于挑选伪负样本的集合,因此命名为被挑选样本集,这里初始化为负样本集后,负样本集即为被挑选样本集。
步骤4:使用负样本遍历被挑选样本集,使用最大相关-最小冗余方法计算出负样本集中所有负样本的权重,得到权重集合;
步骤5:从所述权重集合中挑选出最大权重,并将所述最大权重加入伪负样本集,同时,从被挑选样本集中剔除所述最大权重;
步骤6:重复步骤4和步骤5,直到挑选出伪负样本集,最终挑选出的伪负样本集中样本数量为所述正样本集中样本数量的10%~100%;
步骤7:将挑选出的伪负样本集并入所述正样本集,形成新的正样本集,同时,从所述负样本集中剔除挑选出的伪负样本集,形成新的负样本集。
进一步的是,在步骤2中,用每个负样本与全部正样本的皮尔逊相关系数的平均值来表示每个负样本的皮尔逊相关系数,其计算公式为:
其中,m表示正样本集中正样本的数量,表示负样本的皮尔逊相关系数,其计算公式为:
其中,表示负样本,表示正样本,j={1,2,3,…,n},i={1,2,3,…,m},n表示负样本集中负样本的数量。
进一步的是,在步骤4中,所述权重的计算公式为:
其中,l表示伪负样本的数量;表示负样本集中除以外的所有负样本,k={1,2,3,…,m},n表示负样本集中负样本的数量。
本发明还提供了一种提高数据分类性能的方法,使用所述新的正样本集和新的负样本集在分类器上进行训练,以提高分类器的分类性能,提高分类准确性。
进一步的是,所述分类器包括随机森林、AdaBoost、神经网络和/或鉴别分析。
本发明方法的理论过程如下:
在数据信息处理领域,尤其是在生物信息学中,经常遇到分类不平衡问题:负样本数量远远多于正样本数量的情况。认为可以通过伪负样本(那些与正样本相关性最大同时与负样本冗余性最小的负样本)来预测样本类别。研究发现,由于实验次数的限制,生物学家们不可能检测所有样本,而未检测的样本全都归为负样本,这就意味着在负样本中,很可能存在一些未被检测出的正样本,此方法的目的就是找出这些在负样本中的正样本(伪负样本),从而平衡正负样本比例。
伪负样本抽样方法的关键是如何定义伪负样本,下面给出伪负样本的定义:
假设待处理的数据有正样本集和负样本集 然后定义伪负样本集其中,m表示正样本数量,n表示负样本数量,m<<n,l表示伪负样本数量。我们的目的就是确定伪负样本集其中包含l个样本。
我们使用增量搜索方法作为寻找伪负样本的方法。为了实现增量搜索,首先定义伪负样本集和相似性评价指标使用公式(1)来定量评价和S*′的相似性:
其中S*′表示潜在的伪负样本,表示伪负样本集(K代表搜索次数)。在这里,使用皮尔逊(Pearson)相关系数定义样本间相关性,因此公式(1)可变形为公式(2):
每次搜索将S*′加入到如公式(3)所示
其中
权重计算公式的推导过程如下:
使用“最大相关-最小冗余(MAXR-MINR)”的方法。
其中,最大相关性的计算公式如(5)和(6)所示:
其中,表示正样本,表示负样本,j={1,2,3,…,n},i={1,2,3,…,m},n为负样本数量,m为正样本数量,为负样本的皮尔逊相关系数。最小冗余性的计算公式如(7)和(8)所示:
Smin=argmin{R} (8)
其中,其中,l表示伪负样本的数量;表示负样本集中除以外的所有负样本,k={1,2,3,…,m},n表示负样本集中负样本的数量;
由此,在增量搜索中,定义一个优化方程来优化“最大相关-最小冗余”,如公式11所示:
Ψ(D,R)=D-R (9)
因此,的权重Sj的计算方法可定义为公式12:
其中,l表示伪负样本的数量;表示负样本集中除以外的所有负样本,k={1,2,3,…,m},n表示负样本集中负样本的数量。
采用本技术方案的有益效果:
1.与现有技术相比,本发明首次提出并定义了伪负样本的概念,为了找到最优的伪负样本,同时考虑了正负样本,并利用提取伪负样本的方法实现数据平衡。
2.采用增量搜索法计算正、负样本的系数,避免了伪负样本子集挑选时的大量计算。
3.本发明方法可提高数据分类准确性,进而提高分类器性能,特别是在处理不平衡的生物信息数据方面优势明显。
附图说明
图1是本发明方法的数据平衡方法流程图;
图2是本发明方法的实施例中不同伪负样本率下的PDNA-543数据集的分类性能图;
图3是本发明方法的实施例中不同伪负样本率下的PDNA-316数据集的分类性能图;
图4是本发明方法的实施例中不同伪负样本率下的SNP数据集的分类性能图;
图5是本发明方法(MMPCC)与MAXR和MINR算法在RF和NN分类器上使用Acc指标的性能比较图;
图6是本发明方法(MMPCC)与MAXR和MINR算法在RF和NN分类器上使用MCC指标的性能比较图;
图7是本发明方法(MMPCC)与MAXR和MINR算法在RF和NN分类器上使用Sen指标的性能比较图;
图8是本发明方法(MMPCC)与MAXR和MINR算法在RF和NN分类器上使用Spe指标的性能比较图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明作进一步阐述。
实施步骤:
一种基于伪负样本的数据平衡方法,该方法包括以下步骤:
步骤1:将待处理的数据集进行正负样本分离,得到正样本集和负样本集;
其中,正样本集为负样本集为则就是j={1,2,3,…,n},就是i={1,2,3,…,m}。
步骤2:计算所述负样本集中每个负样本与所述正样本集中全部正样本的皮尔逊相关系数,得到负样本皮尔逊相关系数集合;
负样本皮尔逊相关系数集合为P={p1,p2,,p3,…,pn};
用每个负样本与全部正样本的皮尔逊相关系数的平均值来表示每个负样本的皮尔逊相关系数,其计算公式为:
其中,m表示正样本集中正样本的数量,表示负样本的皮尔逊相关系数,,其计算公式为:
其中,表示负样本,表示正样本,j={1,2,3,…,n},i={1,2,3,…,m},n表示负样本集中负样本的数量,m表示正样本集中正样本的数量。
步骤3:将伪负样本集S*初始化为空集,即并将被挑选样本集初始化为负样本集,即
步骤4:使用负样本遍历被挑选样本集使用最大相关-最小冗余方法计算出所有负样本的权重Sj′,j′={1,2,3,…,α},表示负样本位置,得到权重集合Sj′={S1,S2,S3,…,Sα};
所述权重的计算公式为:
其中,l表示伪负样本的数量;表示负样本集中除以外的所有负样本,k={1,2,3,…,m},n表示负样本集中负样本的数量。
步骤5:从所述权重集合中挑选出最大权重,并将所述最大权重加入伪负样本集,同时,从被挑选样本集中剔除所述最大权重;
具体的,记最大权重并更新伪负样本集
步骤6:重复步骤4和步骤5,直到挑选出l个伪负样本集l的取值为10%~100%的正样本数量;
步骤7:将挑选出的伪负样本集并入所述正样本集,形成新的正样本集,同时,从所述负样本集中剔除挑选出的伪负样本集,形成新的负样本集;
具体的,记新的正样本集S+′=S+∪S*,新的负样本集S-′=S--S*。
一种提高数据分类性能的方法,使用所述新的正样本集和新的负样本集在分类器上进行训练。
所述分类器包括随机森林、AdaBoost、神经网络和鉴别分析。
下面以具体的实施例来做进一步的说明。
为了验证本发明的有效性,将本发明得到的新的数据集进行5倍交叉验证,使用不同分类器进行分类训练,并使用敏感性Sensitivity(Sen),特异性Specificity(Spe),准确性Accuracy(Acc),和Mathew’s Correlation Coefficient(MCC)评估五次交叉验证的结果,并将其平均值作为该分类器输出结果。
Sen,Spe,Acc,MCC评估方法的计算方法如下:
其中,TP表示真正例的数量,FP表示假正例的数量,TN表示真反例的数量,FN表示假反例的数量。
实施例所使用的待处理的数据集:
数据集详细信息如表1所示。
表1数据集概况
待处理的数据集 | 正样本数量 | 负样本数量 | 比率 |
CMC | 333 | 1140 | 3.4 |
Haberman | 81 | 225 | 2.7 |
PDNA-543 | 9549 | 134995 | 14.1 |
PDNA-316 | 5609 | 67109 | 11.9 |
SNP | 183 | 2891 | 15.7 |
在表1中,比率由以下公式得到:
比率=正样本数量/负样本数量
其中,CMC包括333个正样本和1140个负样本,每个样本有9个属性。Haberman包括81个正样本和225个负样本,每个样本有3个属性。SNP包括183个正样本和2891个负样本,每个样本有25个属性。PDNA-543包括9549个正样本和134995个负样本,每个样本有180个属性。PDNA-316包括5609个正样本和67109个负样本,每个样本有180个属性。SNP包括183个正样本和2891个负样本,每个样本有25个属性。
实验时,我们使用5倍交叉验证来划分数据集,并且使用4种分类器(随机森林,AdaBoost,神经网络和鉴别分析)。
实施例1
本实施例中,使用本发明的数据平衡方法,在CMC和Haberman数据集上按照不同伪负样本率(即伪负样本数量在正样本数量的占比)挑选出伪负样本,并利用4种分类器进行数据分类及分类性能评估。
设置伪负样本率从0%到50%,0%表示没有挑选伪负样本。CMC上挑选结果如表2所示。可以看到,伪负样本的百分比越大,性能越好,当伪负样本占比分别为0%、10%、20%、30%、40%和50%时,随机森林的Sen为28.19%、39.22%、43.94%、50.87%、56.45%和62%,Acc值分别为78.2%、78.75%、78.41%、78.48%、79.57%和79.63%,MCC值分别为0.27、0.369、0.404、0.448、0.505和0.532。不同评价指标的性能呈现出随伪负样本百分比增加而增加的趋势,这与实际情况是相符的,那就是:如果添加更多的正样本,可以获得更好的分类性能。
同时,在伪负样本占比分别为0%、10%、20%、30%、40%、50%的情况下,神经网络的Sen分别达到27.01%、40.92%、47.28%、53.39%、54.94%和61.02%,MCC分别达到0.161、0.302、0.368、0.439、0.439、0.505。在判别分析方法中,不同百分比的伪负样本的Sen值分别是9.38%、17.6%、37.35%、52.46%、59.46%和66.78%,MCC值分别是0.156、0.198、0.351、0.438、0.485和0.530。同样,AdaBoost的Sen与MCC也得到了提高,这些结果充分证明了该方法的有效性。Haberman的结果如表3所示,其结果与表2具有相同的趋势。
表2CMC数据中不同比例伪负样本下分类器性能比较
表3Haberman数据中不同比例伪负样本下分类器性能比较
实施例2
本实施例验证了本发明方法在真实生物数据上的有效性。数据集包括PDNA-316,PDNA-543,SNP。
图2显示了不同伪负样本率下的PDNA-543数据集的分类性能,其中RF-Sen和NN-Sen分别代表RF(神经网络)和NN(鉴别分析)分类器的Sen(灵敏度值),RF-MCC和NN-MCC分别代表RF和NN分类器的MCC值。可以看到神经网络的Sen和MCC度量随着伪负样本百分比从0%到50%的增加而增加,而当伪负样本百分比从0%变化到30%时,随机森林的Sen和MCC保持不变,并且当伪负样本的百分比超过30%时,随着百分比增加,RF却拥有更好的表现。
图3显示了不同伪负样本率下的PDNA-316数据集的分类性能。当负样本率为0%、%10时,RF的Sen和MCC优于NN,当百分比大于20%时,NN的性能显著提高进而超过RF,说明添加更多的伪负样本可以大大提高分类器的性能。观察可知,RF的性能几乎没有变化,这是因为伪负样本对RF算法影响不大。
图4显示了不同伪负样本率下的SNP数据集的分类性能,在不同伪负样本率之间,NN的Sen变化很大,同时MCC的值在百分比从0%到30%的过程中也是快速提高,但从40%到50%时,基本保持稳定。同时,随着伪负样本的百分比逐渐增加,RF的Sen和MCC也逐渐增加。
实施例3
使用PDNA-316数据将MMPCC算法和MAXR算法与MINR算法进行比较。其中MMPCC为本发明的算法的简称。
在实施例3中,依然使用五倍交叉验证来评估提出的算法在这四个指标上的预测性能。使用PDNA-316数据集对MMPCC算法,MAXR(max-relevance)算法和MINR(min-redundancy)算法进行分类性能的比较,比较结果如图5-8所示。
根据图5-8,我们不难发现,在RF和NN分类器中,MMPCC无论在RF分类器还是NN分类器都优于MAXR和MINR方法。从图5可以看出,伪负样本对Sen值的影响较大。当NN作为分类器时,MMPCC的Sen值明显优于MAXR和MINR,对于RF分类器,当加入更多的伪负样本时,MAXR就是最好的。由图6可知,随着伪负样本百分比的增加,MMPCC的Sen值在RF和NN上都非常稳定。从图7可以看出,在RF分类器中,MMPCC方法是ACC最稳定的方法。从图8可以看出MMPCC的MCC值明显优于MAXR和MINR方法。实验结果表明,MMPCC利用了更有代表性的样本,从大多数的负样本中找到伪负样本(可以看作是阳性样本)。
图5-8中,MMPCC-RF表示本发明方法对RF分类器的ACC值,其它依次类推。
结合三次实验,可以证明伪负样本是相当重要的,可以用来提高分类器性能。
实施例4
在本实施例中,使用PDNA-316数据将MMPCC算法与经典采样算法SMOTE方法进行比较。在SMOTE方法中,少数类通过创建“合成”示例而不是通过替换的方法进行过采样。比较结果如下图所示。
表4本发明算法与SMOTE算法在不同比例伪负样本下的性能比较
从表4可以看出,MMPCC在所有评价指标上都优于SMOTE方法。以MCC为例,不同伪负样本百分比下NN分类器的MMPCC值分别为0.312、0.405、0.464、0.513和0.543,与SMOTE法相比,改进分别为0.152、0.205、0.248、0.27和0.277。对于其他三个评价指标,MMPCC方法也优于SMOTE采样方法。对于RF分类器,MMPCC的性能同样优于SMOTE方法。随着百分比的增加,RF分类器中MMPCC的MCC值分别为0.333、0.337、0.351、0.363和0.367,与SMOTE法相比分别提高了0.098、0.091、0.101、0.105和0.109。
这是由于SMOTE对大规模不平衡数据的过采样技术引入了一些重复的或人工的样本,但是MMPCC却没有人为的重复数据。伪负采样技术有助于从负类中识别出更多有用的样本,因此它的性能优于SMOTE采样方法。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种基于伪负样本的数据平衡方法,其特征在于,包括以下步骤:
步骤1:将待处理的数据集进行正负样本分离,得到正样本集和负样本集;
步骤2:计算所述负样本集中每个负样本与所述正样本集中全部正样本的皮尔逊相关系数,得到负样本皮尔逊相关系数集合;
步骤3:将伪负样本集初始化为空集,并将被挑选样本集初始化为负样本集;
步骤4:使用负样本遍历被挑选样本集,使用最大相关-最小冗余方法计算出负样本集中所有负样本的权重,得到权重集合;
步骤5:从所述权重集合中挑选出最大权重,并将所述最大权重加入伪负样本集,同时,从被挑选样本集中剔除所述最大权重;
步骤6:重复步骤4和步骤5,直到挑选出伪负样本集,最终挑选出的伪负样本集中样本数量为所述正样本集中样本数量的10%~100%;
步骤7:将挑选出的伪负样本集并入所述正样本集,形成新的正样本集,同时,从所述负样本集中剔除挑选出的伪负样本集,形成新的负样本集。
2.根据权利要求1所述的数据平衡方法,其特征在于,在步骤2中,用每个负样本与全部正样本的皮尔逊相关系数的平均值来表示每个负样本的皮尔逊相关系数,其计算公式为:
其中,m表示正样本集中正样本的数量,表示负样本的皮尔逊相关系数,其计算公式为:
其中,表示负样本,表示正样本,j={1,2,3,…,n},i={1,2,3,…,m},n表示负样本集中负样本的数量。
3.根据权利要求1所述的数据平衡方法,其特征在于,在步骤4中,所述权重的计算公式为:
其中,l表示伪负样本的数量;表示负样本集中除Sj -以外的所有负样本,k={1,2,3,…,m},n表示负样本集中负样本的数量。
4.利用权利要求1-3的任一项所述的数据平衡方法实现的一种提高数据分类性能的方法,其特征在于,使用所述新的正样本集和新的负样本集在分类器上进行训练。
5.根据权利要求4所述的一种提高数据分类性能的方法,其特征在于,所述分类器包括随机森林、AdaBoost、神经网络和/或鉴别分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811280097.0A CN109272056B (zh) | 2018-10-30 | 2018-10-30 | 基于伪负样本的数据平衡方法及提高数据分类性能的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811280097.0A CN109272056B (zh) | 2018-10-30 | 2018-10-30 | 基于伪负样本的数据平衡方法及提高数据分类性能的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109272056A true CN109272056A (zh) | 2019-01-25 |
CN109272056B CN109272056B (zh) | 2021-09-21 |
Family
ID=65191651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811280097.0A Active CN109272056B (zh) | 2018-10-30 | 2018-10-30 | 基于伪负样本的数据平衡方法及提高数据分类性能的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109272056B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781922A (zh) * | 2019-09-27 | 2020-02-11 | 北京淇瑀信息科技有限公司 | 用于机器学习模型的样本数据生成方法、装置及电子设备 |
CN110796482A (zh) * | 2019-09-27 | 2020-02-14 | 北京淇瑀信息科技有限公司 | 用于机器学习模型的金融数据分类方法、装置及电子设备 |
CN110889747A (zh) * | 2019-12-02 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 商品推荐方法、装置、系统、计算机设备及存储介质 |
CN112749719A (zh) * | 2019-10-31 | 2021-05-04 | 北京沃东天骏信息技术有限公司 | 一种用于样本均衡分类的方法和装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133434A1 (en) * | 2004-11-12 | 2008-06-05 | Adnan Asar | Method and apparatus for predictive modeling & analysis for knowledge discovery |
CN102521656A (zh) * | 2011-12-29 | 2012-06-27 | 北京工商大学 | 非平衡样本分类的集成迁移学习方法 |
CN103605721A (zh) * | 2013-11-13 | 2014-02-26 | 燕山大学 | 一种心理压力评估中针对个体差异的分类方法 |
US20160068915A1 (en) * | 2013-03-15 | 2016-03-10 | Veracyte, Inc. | Methods and compositions for classification of samples |
CN106250442A (zh) * | 2016-07-26 | 2016-12-21 | 新疆大学 | 一种网络安全数据的特征选择方法及系统 |
CN106599615A (zh) * | 2016-11-30 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种预测miRNA靶基因的序列特征分析方法 |
CN106778853A (zh) * | 2016-12-07 | 2017-05-31 | 中南大学 | 基于权重聚类和欠抽样的不平衡数据分类方法 |
CN107340492A (zh) * | 2017-05-31 | 2017-11-10 | 国网上海市电力公司 | 基于大数据挖掘和场景预判的电能计量装置故障分析方法 |
CN107909299A (zh) * | 2017-12-11 | 2018-04-13 | 凯泰铭科技(北京)有限公司 | 人伤理赔数据风险检测方法和系统 |
CN108229507A (zh) * | 2016-12-14 | 2018-06-29 | 中国电信股份有限公司 | 数据分类方法以及装置 |
US20180235487A1 (en) * | 2017-02-23 | 2018-08-23 | Tata Consultancy Services Limited | Method and system for cuffless blood pressure estimation using photoplethysmogram features and pulse transit time |
-
2018
- 2018-10-30 CN CN201811280097.0A patent/CN109272056B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133434A1 (en) * | 2004-11-12 | 2008-06-05 | Adnan Asar | Method and apparatus for predictive modeling & analysis for knowledge discovery |
CN102521656A (zh) * | 2011-12-29 | 2012-06-27 | 北京工商大学 | 非平衡样本分类的集成迁移学习方法 |
US20160068915A1 (en) * | 2013-03-15 | 2016-03-10 | Veracyte, Inc. | Methods and compositions for classification of samples |
CN103605721A (zh) * | 2013-11-13 | 2014-02-26 | 燕山大学 | 一种心理压力评估中针对个体差异的分类方法 |
CN106250442A (zh) * | 2016-07-26 | 2016-12-21 | 新疆大学 | 一种网络安全数据的特征选择方法及系统 |
CN106599615A (zh) * | 2016-11-30 | 2017-04-26 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种预测miRNA靶基因的序列特征分析方法 |
CN106778853A (zh) * | 2016-12-07 | 2017-05-31 | 中南大学 | 基于权重聚类和欠抽样的不平衡数据分类方法 |
CN108229507A (zh) * | 2016-12-14 | 2018-06-29 | 中国电信股份有限公司 | 数据分类方法以及装置 |
US20180235487A1 (en) * | 2017-02-23 | 2018-08-23 | Tata Consultancy Services Limited | Method and system for cuffless blood pressure estimation using photoplethysmogram features and pulse transit time |
CN107340492A (zh) * | 2017-05-31 | 2017-11-10 | 国网上海市电力公司 | 基于大数据挖掘和场景预判的电能计量装置故障分析方法 |
CN107909299A (zh) * | 2017-12-11 | 2018-04-13 | 凯泰铭科技(北京)有限公司 | 人伤理赔数据风险检测方法和系统 |
Non-Patent Citations (4)
Title |
---|
JIN XU ET AL.: ""Semisupervised Feature Selection Based on Relevance and Redundancy Criteria"", 《IEEE TRANSACTION ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
李扬等: ""基于改进最大相关最小冗余判据的暂态稳定评估特征选择"", 《中国电机工程学报》 * |
杨峻山: ""生物组学数据的集成特征选择研究"", 《中国博士学位论文全文数据库 基础科学辑》 * |
石丽: ""基于机器学习的microRNA预测"", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781922A (zh) * | 2019-09-27 | 2020-02-11 | 北京淇瑀信息科技有限公司 | 用于机器学习模型的样本数据生成方法、装置及电子设备 |
CN110796482A (zh) * | 2019-09-27 | 2020-02-14 | 北京淇瑀信息科技有限公司 | 用于机器学习模型的金融数据分类方法、装置及电子设备 |
CN112749719A (zh) * | 2019-10-31 | 2021-05-04 | 北京沃东天骏信息技术有限公司 | 一种用于样本均衡分类的方法和装置 |
CN110889747A (zh) * | 2019-12-02 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 商品推荐方法、装置、系统、计算机设备及存储介质 |
CN110889747B (zh) * | 2019-12-02 | 2023-05-09 | 腾讯科技(深圳)有限公司 | 商品推荐方法、装置、系统、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109272056B (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109272056B (zh) | 基于伪负样本的数据平衡方法及提高数据分类性能的方法 | |
US9659145B2 (en) | Classification of nucleotide sequences by latent semantic analysis | |
Gałan et al. | Host taxon predictor-a tool for predicting taxon of the host of a newly discovered virus | |
Elworth et al. | To petabytes and beyond: recent advances in probabilistic and signal processing algorithms and their application to metagenomics | |
CN110674846A (zh) | 基于遗传算法和k-means聚类的不平衡数据集过采样方法 | |
Kamath et al. | An evolutionary algorithm approach for feature generation from sequence data and its application to DNA splice site prediction | |
Lamba et al. | Feature Selection of Micro-array expression data (FSM)-A Review | |
CN107194207A (zh) | 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法 | |
CN107992722A (zh) | 基于对称不确定性和信息交互增益的特征选择方法 | |
Han et al. | Feature selection by recursive binary gravitational search algorithm optimization for cancer classification | |
Fujimoto et al. | Detecting false positive sequence homology: a machine learning approach | |
CN107423580A (zh) | 基于邻域粗糙集的宏基因组片段属性约简及分类方法 | |
Baten et al. | Fast splice site detection using information content and feature reduction | |
CN113823356A (zh) | 一种甲基化位点识别方法及装置 | |
Shivakumar et al. | Sigmoni: classification of nanopore signal with a compressed pangenome index | |
Athilakshmi et al. | Fusion feature selection: new insights into feature subset detection in biological data mining | |
Liang et al. | ASE: Anomaly Scoring Based Ensemble Learning for Imbalanced Datasets | |
Liu et al. | Recognizing ion ligand–binding residues by random forest algorithm based on optimized dihedral angle | |
Rouhi et al. | A hybrid-ensemble based framework for microarray data gene selection | |
Shanan et al. | Using alignment-free methods as preprocessing stage to classification whole genomes | |
CN111755074B (zh) | 一种酿酒酵母菌中dna复制起点的预测方法 | |
Sengupta et al. | A scoring scheme for online feature selection: Simulating model performance without retraining | |
Roux et al. | Hybrid MM/SVM structural sensors for stochastic sequential data | |
Azevedo et al. | Deep learning applied to the SARS-CoV-2 classification | |
Chin et al. | Handling leukaemia imbalanced data using synthetic minority oversampling technique (SMOTE) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |