CN104766098A - 一种分类器的构建方法 - Google Patents

一种分类器的构建方法 Download PDF

Info

Publication number
CN104766098A
CN104766098A CN201510213464.5A CN201510213464A CN104766098A CN 104766098 A CN104766098 A CN 104766098A CN 201510213464 A CN201510213464 A CN 201510213464A CN 104766098 A CN104766098 A CN 104766098A
Authority
CN
China
Prior art keywords
training sample
class
minority class
construction method
sorter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510213464.5A
Other languages
English (en)
Inventor
余翔湛
叶麟
张伟哲
何慧
张宏莉
丛小亮
王岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201510213464.5A priority Critical patent/CN104766098A/zh
Publication of CN104766098A publication Critical patent/CN104766098A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种分类器的构建方法,该构建方法包括:利用欠采样方法来去除训练样本集中的部分多数类训练样本,并用欠采样处理后的训练样本集更新当前的训练样本集,其中训练样本集包括多数类训练样本和少数类训练样本,且训练样本集中的每个训练样本均已知类别;以及对训练样本集中的少数类训练样本进行过采样,以利用经过过采样处理后的训练样本集构建分类器。本发明的一种分类器的构建方法,有效去除训练样本中的噪声,能够有效地改善数据不平衡的问题,大大提高对训练样本数据分类的准确率,而且计算量较小、方法简单。

Description

一种分类器的构建方法
技术领域
本发明涉及数据处理领域,具体涉及一种分类器的构建方法。
背景技术
基于机器学习的流量识别方法中,在流量数据集中会出现噪声数据,这种数据对于不平衡数据中的小样本数据的识别影响尤为巨大,所以对网络流量进行数据清理去噪对于分类的准确性有着重要的意义。针对网络流量分类的机器学习方法,由于在流量识别中可能同时存在小部分的噪声流量以及小部分需要获取的有用的流量。
目前,现有的用于例如流量数据等数据的识别或分类技术,分类的准确率较低,而且计算量大、方法复杂,过于耗时。
发明内容
本发明提供一种分类器的构建方法,其目的是解决现有的用于例如流量数据等数据的识别或分类技术分类的准确率较低的问题。
为了实现上述发明目的,本发明采取的技术方案如下:
一种分类器的构建方法,该构建方法包括:利用欠采样方法来去除训练样本集中的部分多数类训练样本,并用欠采样处理后的训练样本集更新当前的训练样本集,其中训练样本集包括多数类训练样本和少数类训练样本,且训练样本集中的每个训练样本均已知类别;以及对训练样本集中的少数类训练样本进行过采样,以利用经过过采样处理后的训练样本集构建分类器。
优选地,在对训练样本集中的少数类训练样本进行过采样的步骤之后还包括:利用Tomek links方法对当前的训练样本集进行清理。
优选地,对训练样本集中的少数类训练样本进行过采样的步骤包括:确定少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本;以及对孤立训练样本、边界训练样本和中心训练样本分别采用对应的倍率进行过采样。
优选地,确定少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本的步骤包括:设当前训练样本集包括至少一个少数类子集和至少一个多数类子集,针对每一个少数类子集中的每个少数类训练样本执行如下处理:计算该少数类训练样本与其他子集中各个样本之间的距离,以在其他子集中确定该少数类训练样本的K最近邻,k为正整数,计算多数类训练样本在该少数类训练样本的K最近邻中所占比值,若该比值为100%,则将该少数类训练样本确定为孤立训练样本,若该比值大于或等于0且小于预定值,则将该少数类训练样本确定为中心训练样本,其中预定值大于0且小于100%,以及若该比值大于或等于预定值,则将该少数类训练样本确定为边界训练样本。
优选地,对孤立训练样本、边界训练样本和中心训练样本分别采用对应的倍率进行过采样的步骤包括:对于中心训练样本,按照第一倍率在该中心训练样本的K最近邻所包括的少数类训练样本与该中心训练样本之间进行随机线性插值;以及对于边界训练样本,按照第二倍率在该边界训练样本的K最近邻与该边界训练样本之间进行随机线性插值。
优选地,第一倍率大于第二倍率。
优选地,利用欠采样方法来去除训练样本集中的部分多数类训练样本的步骤包括:假设训练样本集为,选择一个多数类训练样本(例如训练样本集中的任一个多数类训练样本),将所选的一个多数类训练样本和训练样本集中所有的少数类训练样本所构成的集合作为待处理子集;根据1-NN(1 NearestNeighbor,即K最近邻(kNN,k-Nearest Neighbor)分类算法中的k为1)方法,反复利用待处理子集对训练样本进行分类,将误分类的样本加入到待处理子集中以更新待处理子集,直至待处理子集不变为止;以及将当前的待处理子集作为经过欠采样处理后的训练样本集。
优选地,利用经过过采样处理后的训练样本集构建分类器的步骤包括:利用最佳优先(BestFirst)算法对经过过采样处理后的训练样本集进行特征选择,以降低该训练样本集的维度;对当前的训练样本集的各个维度进行离散化处理;以及根据朴素贝叶斯、支持向量机和C4.5决策树算法中任一种方法,利用离散化处理后的训练样本集构建分类器。
优选地,分类器的构建方法应用于网络流量识别。
本发明和现有技术相比,具有如下有益效果:
上述根据本发明实施例的一种分类器的构建方法,能够有效去除训练样本中的噪声,能够有效地改善数据不平衡的问题,大大提高对训练样本数据分类的准确率,而且计算量较小、方法简单,耗时较短。该方法对少数类的识别率相对现有技术提高较大(误报率降低),准确率能够达到98%。
附图说明
图1A是本发明实施例的一种分类器的构建方法的一个示例的流程图;
图1B是本发明实施例的一种分类器的构建方法的另一个示例的流程图;
图2A是欠抽样处理前的训练样本集;
图2B是欠抽样处理后的训练样本集;
图2C是利用传统Smote方法进行过采样所得到的训练样本集;
图2D是利用本发明的分类器的构建方法进行过采样所得到的训练样本集;
图2E是利用Tomek links进行清理的训练样本集。
具体实施方式
为使本发明的发明目的、技术方案和有益效果更加清楚明了,下面结合附图对本发明的实施例进行说明,需要说明的是,在不冲突的情况下,本申请中的实施例和实施例中的特征可以相互任意组合。
本发明的实施例提供了一种分类器的构建方法,该构建方法包括:利用欠采样方法来去除训练样本集中的部分多数类训练样本,并用欠采样处理后的训练样本集更新当前的训练样本集,其中训练样本集包括多数类训练样本和少数类训练样本,且训练样本集中的每个训练样本均已知类别;以及对训练样本集中的少数类训练样本进行过采样,以利用经过过采样处理后的训练样本集构建分类器。
图1A示出了根据本发明实施例的一种分类器的构建方法的一个示例处理的流程图。如图1A所示,该处理流程开始之后,首先执行步骤S110。
在步骤S110中,利用欠采样方法来去除训练样本集中的部分多数类训练样本,并用欠采样处理后的训练样本集更新当前的训练样本集,其中训练样本集包括多数类训练样本和少数类训练样本,且训练样本集中的每个训练样本均已知类别。然后,执行步骤S120。
由此,通过步骤S110中的欠采样处理,能够去除掉训练样本集中一些不重要的样本,从而达到压缩样本空间的目的。
其中,上述训练样本集可以包括多个类别,该多个类别可以包括至少一个少数类和至少一个多数类,并且,每个类别都分别对应地包括一个或多个训练样本。例如,假设训练样本集包括三类,即第一类、第二类和第三类,其中第一类和第二类是多数类,而第三类是少数类,第一类中包括多个样本(作为该类别下的多数类样本的示例),第二类中包括多个样本(作为该类别下的多数类样本的示例),而第三类中也包括多个样本(作为该类别下的少数类样本的示例)。
在步骤S120中,对训练样本集中的少数类训练样本进行过采样,以利用经过过采样处理后的训练样本集构建分类器。然后,结束处理。
这样,通过步骤S120中的过采样处理,能够减少少数类训练样本中的噪声对分类学习的不利影响,使得所构建的分类器能够更准确地识别测试样本的类别。
优选地,步骤S110中利用欠采样方法来去除训练样本集中的部分多数类训练样本的步骤可以包括:选择一个多数类训练样本,将所选的一个多数类训练样本和所有的少数类训练样本所构成的集合作为待处理子集;根据1-NN方法,反复利用待处理子集对训练样本进行分类,将误分类的样本加入到待处理子集中以更新待处理子集,直至待处理子集不变为止;以及将当前的待处理子集作为经过欠采样处理后的训练样本集。
优选地,步骤S120中对训练样本集中的少数类训练样本进行过采样的步骤可以包括:确定少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本;以及对孤立训练样本、边界训练样本和中心训练样本分别采用对应的倍率进行过采样。
优选地,确定少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本的步骤可以包括:设当前训练样本集包括至少一个少数类子集和至少一个多数类子集,针对每一个少数类子集中的每个少数类训练样本执行如下处理:计算该少数类训练样本与其他子集中各个样本之间的距离,以在其他子集中确定该少数类训练样本的K最近邻,k为正整数(k例如为5),计算多数类训练样本在该少数类训练样本的K最近邻中所占比值,若该比值为100%,则将该少数类训练样本确定为孤立训练样本,若该比值大于或等于0且小于预定值(预定值例如可以为50%),则将该少数类训练样本确定为中心训练样本,其中预定值大于0且小于100%,以及若该比值大于或等于预定值,则将该少数类训练样本确定为边界训练样本。其中,预定值例如可以根据经验值来设定,或者也可以通过试验的方法来确定,这里不再详述
其中,每个少数类子集即该少数类下的所有训练样本所构成的集合,而每个多数类子集即该多数类下的所有训练样本所构成的集合。例如,假设当前训练样本集中包括如上所述的第一类(多数类)、第二类(多数类)和第三类(少数类),则当前训练样本集的所有子集包括两个多数类子集和一个少数类子集。
此外,上述“计算该少数类训练样本与其他子集中各个样本之间的距离”中所述的“其他子集”是指在当期训练样本集的所有子集中除了“该少数类训练样本”所属子集之外的其他各个子集。例如,假设“该少数类训练样本”为第一类所对应的多数类子集中的一个训练样本,则“计算该少数类训练样本与其他子集中各个样本之间的距离”,也即,计算该少数类训练样本与第二类所对应的多数类子集中每个训练样本之间的距离,以及计算该少数类训练样本与第三类所对应的少数类子集中每个训练样本之间的距离。
优选地,对孤立训练样本、边界训练样本和中心训练样本分别采用对应的倍率进行过采样的步骤可以包括:对于中心训练样本,按照第一倍率在该中心训练样本的K最近邻所包括的少数类训练样本与该中心训练样本之间进行随机线性插值;以及对于边界训练样本,按照第二倍率在该边界训练样本的K最近邻与该边界训练样本之间进行随机线性插值。其中,在上述过采样步骤中,对于孤立训练样本不进行处理。
优选地,第一倍率可以大于第二倍率。其中,第一倍率和第二倍率例如可以根据经验值来设定,或者也可以通过试验的方法来确定,这里不再详述。
上述对于中心训练样本或边界训练样本所进行的随机线性插值例如可以根据如下公式一来进行。
公式一:xnew=x+rand(0,1)*(yi-x)
其中,xnew为构造的新样本,x为少数类中的样本x,rand()为random(随机)函数,rand(0,1)取0-1间的随机数,yi为x的k邻近少数类样本。
优选地,利用经过过采样处理后的训练样本集构建分类器的步骤包括:利用最佳优先算法对经过过采样处理后的训练样本集进行特征选择,以降低该训练样本集的维度;对当前的训练样本集的各个维度进行离散化处理;以及根据朴素贝叶斯、支持向量机和C4.5决策树算法中任一种方法,利用离散化处理后的训练样本集构建分类器。
优选地,分类器的构建方法应用于网络流量识别。
根据一种实现方式,如图1B所示,在上述步骤S120中,当执行完对训练样本集中的少数类训练样本所进行的过采样之后,还可以利用Tomek links方法对当前的训练样本集进行清理,然后利用清理后的训练样本集构建分类器。
这样,通过Tomek links方法的清理处理,能够消除孤立点(即噪声)对分类学习的影响,进一步优化训练样本集。
在步骤S120中,对于训练样本集中每个类别中的每个样本,在其他各个类别中,分别找到与该样本之间距离最小的那个匹配样本,这样,该样本就与所找到的各个匹配样本之间分别构成Tomek links。例如,对于训练样本集中的上述三个类,假设样本x1为第一类中的任一个训练样本,在第二类中,假设在第二类所有训练样本之中找到样本x2与样本x1之间的距离d(x2,x1)最小,也即,第二类中不存在其他样本x使得该样本x到样本x1之间的距离d(x,x1)<d(x2,x1),并且,在第一类中也不存在其他样本x’使得该样本x’到样本x2之间的距离d(x’,x2)<d(x2,x1),这样,样本对(x2,x1)构成一个Tomek links;此外,在第三类中,假设在第三类所有训练样本之中找到样本x3与样本x1之间的距离d(x3,x1)最小,则样本对(x3,x1)构成一个Tomek links。
由此,对于所得到的每个Tomek links,如果该Tomek links对应的样本对中的至少一个样本为噪点、或者其对应的两个样本在其对应两类的边界上,则将该Tomek links对应的样本对中的两个样本全部从当前的训练样本集中删除,由此可将分错的训练样本去除。
下面描述根据本发明实施例的一种分类器的构建方法的应用示例。
首先采用欠抽样算法去除不重要的多数类样本,压缩样本空间。图2A为欠抽样(即欠采样)处理前的训练样本集,图2B为欠抽样处理后的训练样本集。由图2A和图2B可以看出,例如上述欠抽样处理可以去除大量不重要的多数类训练样本。对于整个训练样本空间E,需要寻找一个不变的子集F。首先,随机挑选一个多数类训练样本和所有少数类训练样本加入F。然后使用1-NN(1Nearest Neighbor,即K最近邻(kNN,k-Nearest Neighbor)分类算法中的k为1)方法用F中的训练样本对E进行分类,将错误分类的训练样本加入F,重复迭代这一过程直到F不变。就得到了欠抽样后的训练样本集F,并利用F设置训练样本的线性搜索器,用于后面Tomek links算法。由于后续需要多次计算样本的k邻近这种需要高计算能力的操作,在压缩后的数据集上能大大减少这方面的需求。如图2A-2D所示,在该应用示例中,训练样本集中共包括两个类别,即圆形样本所表示的多数类训练样本、以及三角形样本所表示的少数类训练样本。此外,在图2C和图2D中,方形样本表示过抽样处理所得的少数类训练样本。
接着对数据集进行过采样:
1)对于原始数据集S,S0为少数类训练样本集,S1为多数类训练样本集。为了找到S0中的边界训练样本集S00,对S0中的每个训练样本x,计算其到其它训练样本集中每个训练样本的距离。获得其k个最近邻,一般k=5。Y为x的K最近邻中的少数类训练样本,y∈Y。Z为x的K最近邻样本,z∈Z。
2)对于K最近邻中的多数类训练样本所占比率V,若V=1,则确定该训练样本为孤立点,不处理。
3)若0<=V<V0(一般V0=50%),则确定该训练样本为安全样本(即中心训练样本),按倍率n(作为第一倍率的示例),在x与y之间进行随机线性插值,插入上述公式一。
4)若V0<=V,则确定该训练样本为边界样本,按倍率m(m<n)(m作为第二倍率的示例),在x与z之间进行随机线性插值,公式同公式一。
如图2A所示,少数类训练样本存在噪点。如果利用传统的Smote方法处理,其对所有少数类训练样本均按相同倍率进行了过采样,会造成更多的噪声数据,如图2C所示,从而影响少数类的分类效果。而利用本发明的上述方法在过抽样过程中,就对少数类中孤立、边界及中心的训练样本分别进行不同倍率的过抽样处理来平衡数据集,尽可能地减少了少数类中噪声对过抽样的影响,所得处理后的训练样本集如图2D所示。
然后,对于上述处理后的当前训练样本集,再使用Tomek links进行清理。对于不属于同一个类的两个训练样本(xi,xj),它们间的距离为d(xi,xj)。若不存在其他训练样本x,使得d(xi,x)<d(xi,xj)或d(x,xj)<d(xi,xj),则样本对(xi,xj)构成一个Tomek links。那么(xi,xj)中的某个训练样本为噪点或者(xi,xj)在这两个类的边界上,样本(xi,xj)都将被删除。这样,可以得到如图2E所示的训练样本集。
以上就完成了训练数据集的预处理工作。接着采用Bayes朴素贝叶斯、SVM支持向量机或C4.5决策树算法,使用经过上述去噪平衡处理后的训练集(图2E所示)得出的分类器,对测试集进行分类。其中,采用Bayes朴素贝叶斯、SVM支持向量机或C4.5决策树算法、利用训练集得到分类器的过程对于本领域技术人员来说是公知的,这里不再详述。
在该应用示例中,采用由加拿大达尔豪斯大学(Dalhousie University)NIMS实验室采集的网络流量数据集(https://projects.cs.dal.ca/projectx/Download.html),每个样本集包含500001条数据实例,其中少数类样本数约为几百到几千,比重不到1%。经过实验验证,对符合条件的数据集(不平衡且含有噪声的网络流量数据集),经过本发明的方法处理后的训练集得出的分类器,对少数类的识别率相对现有技术提高较大(误报率降低),准确率能够达到98%。
通过以上描述可知,上述根据本发明实施例的一种分类器的构建方法,其能够有效去除训练样本中的噪声,能够有效地改善数据不平衡的问题,大大提高对训练样本数据分类的准确率,而且计算量较小、方法简单,耗时较短。上述分类器的构建方法,充分考虑了网络流量数据可能存在的不平衡性以及噪声问题,针对不平衡的网络流量数据并且少数类和多数类均含有噪声数据的训练样本进行预处理后,能为监督学习的机器学习算法训练出更为准确(误报率降低)的分类器。
虽然本发明所揭示的实施方式如上,但其内容只是为了便于理解本发明的技术方案而采用的实施方式,并非用于限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭示的核心技术方案的前提下,可以在实施的形式和细节上做任何修改与变化,但本发明所限定的保护范围,仍须以所附的权利要求书限定的范围为准。

Claims (9)

1.一种分类器的构建方法,其特征在于,所述分类器的构建方法包括:
利用欠采样方法来去除训练样本集中的部分多数类训练样本,并用欠采样处理后的训练样本集更新当前的训练样本集,其中所述训练样本集包括多数类训练样本和少数类训练样本,且所述训练样本集中的每个训练样本均已知类别;以及
对训练样本集中的少数类训练样本进行过采样,以利用经过所述过采样处理后的训练样本集构建分类器。
2.根据权利要求1所述的分类器的构建方法,其特征在于,在所述对训练样本集中的少数类训练样本进行过采样的步骤之后还包括:
利用Tomek links方法对当前的所述训练样本集进行清理。
3.根据权利要求1或2所述的分类器的构建方法,其特征在于,所述对训练样本集中的少数类训练样本进行过采样的步骤包括:
确定所述少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本;以及
对所述孤立训练样本、所述边界训练样本和所述中心训练样本分别采用对应的倍率进行过采样。
4.根据权利要求3所述的分类器的构建方法,其特征在于,所述确定所述少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本的步骤包括:
设当前所述训练样本集包括至少一个少数类子集和至少一个多数类子集,针对每一个少数类子集中的每个少数类训练样本执行如下处理:
计算该少数类训练样本与其他子集中各个样本之间的距离,以在所述其他子集中确定该少数类训练样本的K最近邻,k为正整数,
计算多数类训练样本在该少数类训练样本的K最近邻中所占比值,
若该比值为100%,则将该少数类训练样本确定为孤立训练样本,
若该比值大于或等于0且小于预定值,则将该少数类训练样本确定为中心训练样本,其中所述预定值大于0且小于100%,以及
若该比值大于或等于所述预定值,则将该少数类训练样本确定为边界训练样本。
5.根据权利要求4所述的分类器的构建方法,其特征在于,所述对所述孤立训练样本、所述边界训练样本和所述中心训练样本分别采用对应的倍率进行过采样的步骤包括:
对于所述中心训练样本,按照第一倍率在该中心训练样本的K最近邻所包括的少数类训练样本与该中心训练样本之间进行随机线性插值;以及
对于所述边界训练样本,按照第二倍率在该边界训练样本的K最近邻与该边界训练样本之间进行随机线性插值。
6.根据权利要求5所述的分类器的构建方法,其特征在于,所述第一倍率大于所述第二倍率。
7.根据权利要求1或2所述的分类器的构建方法,其特征在于,所述利用欠采样方法来去除训练样本集中的部分多数类训练样本的步骤包括:
选择一个多数类训练样本,将所选的一个多数类训练样本和所有的少数类训练样本所构成的集合作为待处理子集;
根据1-NN方法,反复利用所述待处理子集对所述训练样本进行分类,将误分类的样本加入到所述待处理子集中以更新所述待处理子集,直至所述待处理子集不变为止;以及
将当前的待处理子集作为经过欠采样处理后的训练样本集。
8.根据权利要求1或2所述的分类器的构建方法,其特征在于,所述利用经过所述过采样处理后的训练样本集构建分类器的步骤包括:
利用最佳优先算法对经过所述过采样处理后的训练样本集进行特征选择,以降低该训练样本集的维度;
对当前的训练样本集的各个维度进行离散化处理;以及
根据朴素贝叶斯、支持向量机和C4.5决策树算法中任一种方法,利用离散化处理后的训练样本集构建分类器。
9.根据权利要求1或2所述的分类器的构建方法,其特征在于,所述分类器的构建方法应用于网络流量识别。
CN201510213464.5A 2015-04-30 2015-04-30 一种分类器的构建方法 Pending CN104766098A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510213464.5A CN104766098A (zh) 2015-04-30 2015-04-30 一种分类器的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510213464.5A CN104766098A (zh) 2015-04-30 2015-04-30 一种分类器的构建方法

Publications (1)

Publication Number Publication Date
CN104766098A true CN104766098A (zh) 2015-07-08

Family

ID=53647912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510213464.5A Pending CN104766098A (zh) 2015-04-30 2015-04-30 一种分类器的构建方法

Country Status (1)

Country Link
CN (1) CN104766098A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069473A (zh) * 2015-08-05 2015-11-18 广东工业大学 面向在线不确定图像识别的多示例加权包学习方法
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法
CN106201897A (zh) * 2016-07-26 2016-12-07 南京航空航天大学 基于主成分分布函数的软件缺陷预测不平衡数据处理方法
CN106487535A (zh) * 2015-08-24 2017-03-08 中兴通讯股份有限公司 一种网络流量数据的分类方法及装置
CN107195020A (zh) * 2017-05-25 2017-09-22 清华大学 一种面向列车自动驾驶模式学习的列车运行记录数据处理方法
CN109033976A (zh) * 2018-06-27 2018-12-18 北京中科天合科技有限公司 过采样处理方法和系统
CN109361617A (zh) * 2018-09-26 2019-02-19 中国科学院计算机网络信息中心 一种基于网络包载荷的卷积神经网络流量分类方法及系统
CN109948414A (zh) * 2018-12-29 2019-06-28 中国科学院遥感与数字地球研究所 基于LiDAR点云特征的电力走廊场景分类方法
WO2020029032A1 (zh) * 2018-08-06 2020-02-13 高维度(深圳)生物信息智能应用有限公司 一种信号处理方法、系统及计算机存储介质
CN111461855A (zh) * 2019-01-18 2020-07-28 同济大学 基于欠采样的信用卡欺诈检测方法及系统、介质、设备
CN111598116A (zh) * 2019-02-21 2020-08-28 杭州海康威视数字技术股份有限公司 数据分类方法、装置、电子设备及可读存储介质
CN112183604A (zh) * 2020-09-22 2021-01-05 国网江苏省电力有限公司营销服务中心 一种基于决策树的电能计量装置选型方法和系统
CN112749719A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种用于样本均衡分类的方法和装置
CN112766394A (zh) * 2021-01-26 2021-05-07 维沃移动通信有限公司 建模样本生成方法及装置
CN113194094A (zh) * 2021-04-29 2021-07-30 哈尔滨工程大学 一种基于神经网络的异常流量检测方法
CN113866684A (zh) * 2021-11-14 2021-12-31 广东电网有限责任公司江门供电局 一种基于混合采样和代价敏感的配电变压器故障诊断方法
CN114431878A (zh) * 2020-11-02 2022-05-06 哈尔滨理工大学 一种基于多尺度注意力残差网络的脑电睡眠分期方法
WO2023173543A1 (zh) * 2022-03-14 2023-09-21 平安科技(深圳)有限公司 数据分类模型的训练方法、分类方法、装置、设备和介质

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069473B (zh) * 2015-08-05 2019-07-23 广东工业大学 面向在线不确定图像识别的多示例加权包学习方法
CN105069473A (zh) * 2015-08-05 2015-11-18 广东工业大学 面向在线不确定图像识别的多示例加权包学习方法
CN106487535A (zh) * 2015-08-24 2017-03-08 中兴通讯股份有限公司 一种网络流量数据的分类方法及装置
CN106487535B (zh) * 2015-08-24 2020-04-28 中兴通讯股份有限公司 一种网络流量数据的分类方法及装置
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法
CN106201897B (zh) * 2016-07-26 2018-08-24 南京航空航天大学 基于主成分分布函数的软件缺陷预测不平衡数据处理方法
CN106201897A (zh) * 2016-07-26 2016-12-07 南京航空航天大学 基于主成分分布函数的软件缺陷预测不平衡数据处理方法
CN107195020A (zh) * 2017-05-25 2017-09-22 清华大学 一种面向列车自动驾驶模式学习的列车运行记录数据处理方法
CN109033976B (zh) * 2018-06-27 2022-05-20 北京中科天合科技有限公司 异常肌肉检测方法和系统
CN109033976A (zh) * 2018-06-27 2018-12-18 北京中科天合科技有限公司 过采样处理方法和系统
WO2020029032A1 (zh) * 2018-08-06 2020-02-13 高维度(深圳)生物信息智能应用有限公司 一种信号处理方法、系统及计算机存储介质
CN109361617A (zh) * 2018-09-26 2019-02-19 中国科学院计算机网络信息中心 一种基于网络包载荷的卷积神经网络流量分类方法及系统
CN109948414A (zh) * 2018-12-29 2019-06-28 中国科学院遥感与数字地球研究所 基于LiDAR点云特征的电力走廊场景分类方法
CN111461855A (zh) * 2019-01-18 2020-07-28 同济大学 基于欠采样的信用卡欺诈检测方法及系统、介质、设备
CN111598116B (zh) * 2019-02-21 2024-01-23 杭州海康威视数字技术股份有限公司 数据分类方法、装置、电子设备及可读存储介质
CN111598116A (zh) * 2019-02-21 2020-08-28 杭州海康威视数字技术股份有限公司 数据分类方法、装置、电子设备及可读存储介质
CN112749719A (zh) * 2019-10-31 2021-05-04 北京沃东天骏信息技术有限公司 一种用于样本均衡分类的方法和装置
CN112183604A (zh) * 2020-09-22 2021-01-05 国网江苏省电力有限公司营销服务中心 一种基于决策树的电能计量装置选型方法和系统
CN112183604B (zh) * 2020-09-22 2024-05-28 国网江苏省电力有限公司营销服务中心 一种基于决策树的电能计量装置选型方法和系统
CN114431878A (zh) * 2020-11-02 2022-05-06 哈尔滨理工大学 一种基于多尺度注意力残差网络的脑电睡眠分期方法
CN112766394A (zh) * 2021-01-26 2021-05-07 维沃移动通信有限公司 建模样本生成方法及装置
CN112766394B (zh) * 2021-01-26 2024-03-12 维沃移动通信有限公司 建模样本生成方法及装置
CN113194094A (zh) * 2021-04-29 2021-07-30 哈尔滨工程大学 一种基于神经网络的异常流量检测方法
CN113194094B (zh) * 2021-04-29 2022-07-15 哈尔滨工程大学 一种基于神经网络的异常流量检测方法
CN113866684A (zh) * 2021-11-14 2021-12-31 广东电网有限责任公司江门供电局 一种基于混合采样和代价敏感的配电变压器故障诊断方法
CN113866684B (zh) * 2021-11-14 2024-05-31 广东电网有限责任公司江门供电局 一种基于混合采样和代价敏感的配电变压器故障诊断方法
WO2023173543A1 (zh) * 2022-03-14 2023-09-21 平安科技(深圳)有限公司 数据分类模型的训练方法、分类方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN104766098A (zh) 一种分类器的构建方法
CN104699772B (zh) 一种基于云计算的大数据文本分类方法
Triguero et al. Evolutionary undersampling for extremely imbalanced big data classification under apache spark
EP3540652A1 (en) Method, device, chip and system for training neural network model
Edla et al. A prototype-based modified DBSCAN for gene clustering
Xie et al. A synthetic minority oversampling method based on local densities in low-dimensional space for imbalanced learning
Zhou et al. A clustering-Based KNN improved algorithm CLKNN for text classification
CN104573013A (zh) 结合类别权重的集成学习分类方法
CN104991974A (zh) 一种基于粒子群算法的多标签分类方法
CN105426426A (zh) 一种基于改进的K-Medoids的KNN文本分类方法
WO2018134248A1 (en) Classifying data
Triguero et al. A first attempt on global evolutionary undersampling for imbalanced big data
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
Solanki et al. Spam filtering using hybrid local-global Naive Bayes classifier
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
Hassanat et al. Magnetic force classifier: a Novel Method for Big Data classification
CN115812210A (zh) 用于增强机器学习分类任务的性能的方法和设备
CN107169020B (zh) 一种基于关键字的定向网页采集方法
Jivani The novel k nearest neighbor algorithm
Salehi et al. Enhanced genetic algorithm for spam detection in email
CN110825873B (zh) 用于对日志异常分类规则进行扩充的方法及装置
CN104391902A (zh) 一种基于最大熵话题模型的在线文档分类方法及装置
CN106844533A (zh) 一种数据分组聚集方法及装置
JP6279964B2 (ja) 多クラス識別器構築装置、方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150708

RJ01 Rejection of invention patent application after publication