CN111401391B - 一种数据挖掘方法、装置及计算机可读存储介质 - Google Patents
一种数据挖掘方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111401391B CN111401391B CN201910000466.4A CN201910000466A CN111401391B CN 111401391 B CN111401391 B CN 111401391B CN 201910000466 A CN201910000466 A CN 201910000466A CN 111401391 B CN111401391 B CN 111401391B
- Authority
- CN
- China
- Prior art keywords
- sample
- classifiers
- positive
- data mining
- precision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000007418 data mining Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000005065 mining Methods 0.000 claims abstract description 16
- 238000013145 classification model Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000003066 decision tree Methods 0.000 claims description 12
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 12
- 230000001360 synchronised effect Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据挖掘方法、装置及计算机可读存储介质,所述方法包括:对样本容量为S的样本集进行n次放回抽样,得到n个样本容量为a的训练样本集;对每一个所述训练样本集建立一个分类模型,得到n个分类器;将待检测样本分别输入所述n个分类器,得到n个判决结果;基于所述n个判决结果,确定有数量大于或等于第一阈值的所述分类器判定所述第一样本为正样本时,将所述第一样本加入挖掘结果;其中,S、n、a和所述第一阈值均为正整数。
Description
技术领域
本发明涉及数据挖掘技术,尤其涉及一种数据挖掘方法、装置及计算机可读存储介质。
背景技术
现有技术中,在数据挖掘领域,从混有很多负类的样本中找出少量正类,是最为常见的挖掘类型。如通信网络的故障检测,在所有移动通信用户中预测出发生投诉的用户、从所有网店中找到有洗钱倾向的网店,以及诈骗侦测、入侵检测等。在建立判别模型时,通常会遇到以下两个样本问题:
第一,样本中的负类远多于正类,有严重的信息湮没情况,即类别不平衡。此时,往往出现以下的两难情况:若某模型挖掘结果的查出率(RPP-Rate of positivepredictions)过高,则判别标准过于松弛,使得大量与正类特征接近的负类混入查出结果中,造成模型的查准率(PPV-Positive predictive value)过低;若某模型挖掘结果的查出率过低,则标准过于严格,使得大量特征不明显的正类未被查出,造成模型的查全率(TPR-True positive rate)过低。上述情况在两类样本的特征区别不明显的情况下更加严重。
目前,解决这个问题主要有三种技术途径。第一种是对样本的不平衡性进行处理,如对小类样本进行上采样或通过对大类样本进行下采样或同时使用两种策略,使原本不平衡的样本趋于平衡,代表算法有SMOTE、Tomk-links、邻域清理法等;第二种是通过调整分类器的错分代价矩阵、样本空间的初始分布或受试者工作曲线(ROC曲线)来解决;第三种是通过集成框架(如adaboost) 建立并整合多个模型,通过优化各模型的权重来解决。
第二,很多情况下,训练样本的容量是很有限的,可能只有几百或几千个,使用这样的小样本建立的模型很容易产生偏见,即出现过拟合的情况,挖掘结果的可信度难以确定。目前,解决这个问题有两种技术途径。第一种是通过上采样算法将这些样本进行扩充;第二种是对原始样本进行多轮抽样,获得多个训练样本,再分别对这些样本进行建模获得多个分类器,最后对这些分类器进行整合。第二种方法的实施流程为:
1、使用bootstrap方法对原始样本进行抽样并生成多个训练样本;
2、如图1所示,使用bagging策略对这些训练样本依照相同的弱分类器模板建立多个分类器;
3、每个弱分类器在建立时使用相同的先决条件。假如弱学习器为决策树,则所有决策树应有相同的最小叶节点和分裂规则;
4、如图2所示,对于新样本,对所有决策树的结果按照少数服从多数的原则判定其类别。
使用现有技术同时解决不平衡分类问题和小样本决策问题时,会有以下不足:
1、通过对样本集的全部或某一类进行上采样或扩充,以解决样本数过小或数据不平衡,会主观构造出很多原本不存在的个体,使得训练集失真。使用失真的样本集进行建模所得的模型很可能并不适用于测试集。
2、通过对样本中的大类进行的下采样方法以解决数据不平衡问题,会使得原本就不多的训练样本集变得更小,所建立的模型更加不可靠。
3、为了得到特性更好的分类器,需要反复调整参数并建模,很多情况下需要同时使用遗传算法、粒子群算法、模拟退火算法等方法进行寻优,过程十分复杂,对实施者的技术水平要求也很高;除此以外,如果建立的是单个分类器模型,很难避免不出现过拟合。
4、一般的集成模型都是固定模型,即在各个子分类器确定后,集成模型的各个参数也就确定了。如果模型的特性不佳,需要重新对各个子分类器建模。例如在bagging算法中,当各子分类器建立后,模型也就确定了,建成后的模型很难再动态调整以改变其性能。
发明内容
为解决上述技术问题,本发明实施例提供了一种数据挖掘方法、装置及计算机可读存储介质。
本发明实施例提供的数据挖掘方法包括:
对样本容量为S的样本集进行n次放回抽样,得到n个样本容量为a的训练样本集;
对每一个所述训练样本集建立一个分类模型,得到n个分类器;
将待检测样本分别输入所述n个分类器,得到n个判决结果;
基于所述n个判决结果,确定有数量大于或等于第一阈值的所述分类器判定所述第一样本为正样本时,将所述第一样本加入挖掘结果;
其中,S、n、a和所述第一阈值均为正整数。
其中,所述方法还包括:
调节所述第一阈值,以使所述数据挖掘方法对应模型的查准率以及查全率满足预设条件。
其中,所述对每一个所述训练样本集建立一个分类模型包括:
对每一个所述训练样本集使用相同或不同的建模方法。
其中,所述建模方法至少包括以下内容项之一:决策树、支持向量机、逻辑回归、朴素贝叶斯、判别分析、adaboost、随机森林算法。
本发明实施例提供一种数据挖掘装置,所述装置包括:
抽样模块,用于对样本容量为S的样本集进行n次放回抽样,得到n个样本容量为a的训练样本集;
建立模块,用于对每一个所述训练样本集建立一个分类模型,得到n个分类器;
判决模块,用于将待检测样本分别输入所述n个分类器,得到n个判决结果;
确定模块,用于基于所述n个判决结果,确定有数量大于或等于第一阈值的所述分类器判定所述第一样本为正样本;
输出模块,用于将所述第一样本加入挖掘结果。
其中,S、n、a和所述第一阈值均为正整数。
其中,所述装置中还包括调节模块:
所述调节模块,用于调节所述第一阈值,以使所述数据挖掘方法对应模型的查准率以及查全率满足预设条件。
其中,所述建立模块中,所述对每一个所述训练样本集建立一个分类模型包括:
对每一个所述训练样本集使用相同或不同的建模方法。
其中,所述建立模块中,所述建模方法至少包括以下内容项之一:决策树、支持向量机、逻辑回归、朴素贝叶斯、判别分析、adaboost、随机森林算法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述数据挖掘方法中任一项步骤。
本发明实施例的技术方案中,对样本容量为S的样本集进行n次放回抽样,得到n个样本容量为a的训练样本集;对每一个所述训练样本集建立一个分类模型,得到n个分类器;将待检测样本分别输入所述n个分类器,得到n个判决结果;基于所述n个判决结果,确定有数量大于或等于第一阈值的所述分类器判定所述第一样本为正样本时,将所述第一样本加入挖掘结果;其中,S、n、 a和所述第一阈值均为正整数。如此,避免了改变原始样本集,不会因为主观调整样本集造成模型过拟合或出现偏差;避免使用复杂的优化策略对某个单独模型进行过度优化的情况;不同于bagging算法,本发明实施例的第一阈值可调,另外建立的n个分类器不必使用相同模板,因此,可以实现选择最适用于当前训练样本集的分类模型建立分类器,并能通过调整第一阈值,实现对所述数据挖掘方法对应的模型的性能进行动态调整。
附图说明
附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例;
图1为使用bagging策略建立多个分类器的流程示意图;
图2为使用bagging策略的投票判决的流程示意图;
图3为本发明实施例的一种数据挖掘方法的流程示意图;
图4为本发明实施例的一种样本产生和建模过程示意图;
图5为本发明实施例的一种模型整合策略示意图;
图6为本发明实施例的一种模型整合效果示意图;
图7为本发明实施例的p、P1、P-1与查准率的关系示意图;
图8为本发明实施例的p、P1、P-1与查全率的关系示意图;
图9为本发明实施例的各弱分类器的性能示意图;
图10为本发明实施例的对未知数据的测试性能与投票数p的关系示意图;
图11为本发明实施例的一种数据挖掘装置的结构示意图;
图12为本发明实施例的一种数据挖掘装置的结构示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
图3为本发明实施例提供一种数据挖掘方法的流程示意图,如图3所示,所述方法包括以下步骤:
步骤301,对样本容量为S的样本集进行n次放回抽样,得到n个样本容量为a的训练样本集。
具体地,可选择使用bootstrap(有放回随机抽样)对样本容量为S的样本集进行n次抽样,抽样数为a,抽样后得到n个样本容量为a的训练样本集。
步骤302,对每一个所述训练样本集建立一个分类模型,得到n个分类器。
本发明实施例的样本产生和建模过程(步骤301-302)如图4所示。
在一个实施例中,所述对每一个所述训练样本集建立一个分类模型包括:对每一个所述训练样本集使用相同或不同的建模方法。如此,使用了更优的而非一致的建模方法获得分类器。每个分类器对其相应训练样本的分类性能要优于使用同一模板建立的模型。
在一个实施例中,所述建模方法至少包括以下内容项之一:决策树、支持向量机、逻辑回归、朴素贝叶斯、判别分析、adaboost、随机森林算法。
步骤303,将待检测样本分别输入所述n个分类器,得到n个判决结果。
步骤304,基于所述n个判决结果,确定有数量大于或等于第一阈值的所述分类器判定所述第一样本为正样本时,将所述第一样本加入挖掘结果;其中, S、n、a和所述第一阈值均为正整数。
步骤303-步骤304为本发明实施例对步骤302得到的n个分类器的整合过程,模型整合策略如图5所示。具体地,假定有n个分类器,对各个分类器的判定结果进行投票表决。投票规则不是少数服从多数,而是设定一个可调节的阈值p,即所述第一阈值,其中p为1至n的正整数。当有不少于p个分类器判定某样本为正类,即判定为正样本时,则将该样本加入挖掘结果,否则不将其加入挖掘结果。如图6所示,灰度越大的部分,正类的比例越高。可见,当p较小时,模型选出的正类样本较多,但查准率较低;当p较大时,模型选出的正类样本较少,但查准率较高。
在一个实施例中,调节所述第一阈值,以使所述数据挖掘方法对应模型的查准率以及查全率满足预设条件。如此,通过设定最低选定计数的第一阈值,可将正样本的选出规则从严到宽进行调节,使得模型在查准率和查全率可以调节,更具灵活性。这种方法对于不平衡小样本具有良好的分类效果。
下面对本发明实施例的数据挖掘方法进行进一步证明:
步骤S1,构建子分类器。
使用差异性的训练集或差异性的建模方法,建立n个分类器,其中每个分类器均应满足以下条件:
且有:
其中,P1为正类样本被正确划分的概率,P-1为负类样本被正确划分的概率,为正类样本在样本空间中的占比,Pout为整体精度,Pout1为预测结果为正类的精度,即查准率,Fout1为查全率。
步骤S2,按照上述方案构造多分类器的系统。
对某个未知样本,使用该n个分类器进行投票,将至少p个分类器投票为正样本的样本输出为正样本。为简化问题,假定所有分类器的正、负类分类正确率均为P1、P-1,则按照上述方案构造后的系统的查准率和查全率为:
下边对该系统进行数值仿真。
假设当前有n=10个互相独立的子分类器,每个子分类器的正类精度为P1,负类精度为P-1,训练集中的正样本占比为则p、P1、P-1三者与预测正类精度/>之间的关系如图7所示;p、P1、P-1与正类查全率/>之间的关系如图8所示。
参考图7、图8,并经分析计算,可发现p、P1、P-1与之间有如下规律:
1)P1、P-1与正相关。这是显而易见的,模型正、负样本分类精度提升,必然使得模型的输出正类精度提升;
2)当且仅当P-1+P1>1时,
3)当P-1=1且P1≠0时,
4)当P-1+P1>1时,p与正相关,且存在一个p1,使得当p≥p1时,有
5)当P-1+P1<1时,p与负相关;
6)P1与正相关。这是显而易见的,模型正类样本分类精度提升,必然使得正类查全率提升;
7)p与负相关,且对于任意一个P1,存在一个p2,使得当p≤p2时,有
因此,一组弱分类器若满足以下条件:
1)各弱分类器间互相独立或近似互相独立;
2)各弱分类器指标近似相等,且满足:
3)满足阈值条件:p1<p2。
综上所述,本发明实施例的数据挖掘方法对于任意的弱分类器数 p1<p<p2,因此本发明实施例的数据挖掘方法对于正类预测的精度和查全率优于各子分类器。
实施例一
实际应用中,对于移动运营商的宽带业务来说,需要重点关注用户投诉,特别是针对网络质量的投诉,譬如网络速度慢、频繁掉线、视频卡顿、连不上网等问题。因此,通过从BOM三域(B域-业务支撑域;O域-网络支撑域;M 域-管理信息域)数据里获得用户的网络性能数据,分析用户投诉问题的原因,以利用这些实时数据提前预测用户的投诉倾向,成为关系移动运营商网络服务质量的关键问题。
步骤S1,可以获得的数据为一定时间内(如3天)的(1)经分数据:包含用户的个人信息(年龄、性别、籍贯等);(2)DPI数据:包含用户访问网络时全量业务话单数据(包含与网络质量相关的指标,比如TCP上行重传率、TCP 下行重传率、TCP上行乱序率、TCP下行乱序率、TCP/UDP会话成功率、DNS 请求成功率、单请求响应成功率、单请求显示成功率、页面响应成功率、页面显示成功率等);(3)用户投诉数据:包含调查问卷、投诉工单(含投诉问题、处理建议、处理流程)、报障单、离网用户,离网时间等。这些数据首先进行预处理,将与网络质量有关的DPI字段与用户个人信息、投诉信息进行关联,形成一个大表。以上数据对应前述实施例中的样本集以理解。
从该训练数据集使用bootstrap对样本容量为S的样本集(即3天内的DPI 数据、用户投诉数据、用户个人信息)进行n次抽样,抽样数a为一个可调值,抽样后得到n个样本容量为a的训练样本集。
步骤S2,如图4所示,分别对每个训练样本集建立一个分类器,得到n个分类器。具体地,可对每个训练样本集建立ID3、C4.5、CART决策树、朴素贝叶斯、判别分析、支持向量分类机、adaboost、随机森林模型。对于每个分类器,正样本为最近3天内有过投诉的人群,负样本为最近3天没有投诉的人群。该步骤的输出为各分类器模型,如ID3、C4.5、CART决策树、朴素贝叶斯、判别分析、支持向量分类机、adaboost、随机森林。
步骤S3,如图5所示,对所生成的多个模型进行整合,输出为用户类别(是否投诉)。图5中的新样本,即待检测样本,可视为训练样本,字段与原训练样本一致,包含用户的个人信息、与网络质量相关的DPI数据、投诉数据。假定有n个分类器,对各个分类器的判定结果进行投票表决。投票规则为:设定一个可调节的阈值p,其中p为1~n的正整数。当有不少于p个分类器判定某样本为正类,则将该样本加入挖掘结果,否则不将其加入挖掘结果。如图6所示,灰度越大的部分,正类的比例越高。可见,当p较小时,模型选出的正类样本较多,但查准率较低;当p较大时,模型选出的正类样本较少,但查准率较高。通过调节p值,模型可在查准率和查全率上进行调整,以获得最佳效果。本发明实施例的方法针对投诉用户远小于全量用户这种样本分布极不平衡的情况,在准确率和召回率上做了平衡。步骤S3的输出为用户类别(是否投诉)。
通过步骤S1-S3得到的集成学习机,即可用来对用户是否投诉进行预测。
在本实施例中,采用差异化算法、差异化数据集、差异化变量等方式,独立生成了9个弱分类器模型。其中,决策树模型4个,随机森林模型3个,朴素贝叶斯模型2个。各弱分类器测试性能如下图所示:
图9为各弱分类器对于自然分布条件下测试数据和未知新数据的性能测试结果,包含查准率和查全率。对于新数据,其中精度约为7%~15%,查全率约为23%~53%。
根据本发明实施例提供的数据挖掘方法对上述9个模型进行整合,并使用全新的数据对整合结果进行检测,可以得到如图10所示的结果。
如图10所示,模型的查全率与判定通过的弱分类器数负相关,但模型的精度与判定通过的弱分类器数不完全正相关。由上图可见,当p为8时,其精度 86%最大,大于p为5时的精度,但查全率有所下降。可根据查准率与查全率的要求自行调节p值。同时也可以看出,随着p的变化,所提方案的查全率与查准率比原模型均有提升。
图11为本发明实施例提供了一种数据挖掘装置,如图11所示,数据挖掘装置1100包括:
抽样模块1101,用于对样本容量为S的样本集进行n次放回抽样,得到n 个样本容量为a的训练样本集;
建立模块1102,用于对每一个所述训练样本集建立一个分类模型,得到n 个分类器;
判决模块1103,用于将待检测样本分别输入所述n个分类器,得到n个判决结果;
确定模块1104,用于基于所述n个判决结果,确定有数量大于或等于第一阈值的所述分类器判定所述第一样本为正样本;
输出模块1105,用于将所述第一样本加入挖掘结果;
其中,S、n、a和所述第一阈值均为正整数。
在一个实施例中,数据挖掘装置1100中还包括调节模块1106:
调节模块1106,用于调节所述第一阈值,以使所述数据挖掘方法对应模型的查准率以及查全率满足预设条件。
在一个实施例中,建立模块1102中,所述对每一个所述训练样本集建立一个分类模型包括:对每一个所述训练样本集使用相同或不同的建模方法。
在一个实施例中,建立模块1102中,所述建模方法包括以下内容项之一:决策树、支持向量机、逻辑回归、朴素贝叶斯、判别分析、adaboost、随机森林算法等。
本领域技术人员应当理解,图11所示的数据挖掘装置1100中的各模块的实现功能可参照前述数据挖掘方法的相关描述而理解。图11所示的数据挖掘装置1100各模块的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
图12是本发明实施例的一种数据挖掘装置的结构示意图,图12所示的数据挖掘装置1200设置在所述终端上,包括:至少一个处理器1201、存储器1202、用户接口1203、至少一个网络接口1204。构建数据挖掘装置1200中的各个组件通过总线系统1205耦合在一起。可理解,总线系统1205用于实现这些组件之间的连接通信。总线系统1205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图12中将各种总线都标为总线系统1205。
其中,用户接口1203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
本发明实施例中的存储器1202用于存储各种类型的数据以支持数据挖掘装置1200的操作。这些数据的示例包括:用于在数据挖掘装置1200上操作的任何计算机程序,如操作系统12021和应用程序12022;其中,操作系统12021 包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序12022可以包含各种应用程序,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序12022中。
上述本发明实施例揭示的方法可以应用于处理器1201中,或者由处理器 1201实现。处理器1201可能是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法的各步骤可以通过处理器1201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1201可以是通用处理器、数字信号处理器,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器1201可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器1202,处理器1201读取存储器1202中的信息,结合其硬件完成前述方法的步骤。
可以理解,存储器1202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM, Read OnlyMemory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可评论显示可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可评论显示可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM, ferromagnetic random access memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM, Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器 (DRRAM,Direct Rambus Random AccessMemory)。本发明实施例描述的存储器1202旨在包括但不限于这些和任意其它适合类型的存储器。
基于本申请各实施例提供的数据挖掘方法,本申请还提供一种计算机可读存储介质,参照图12所示,所述计算机可读存储介质可以包括:用于存储计算机程序的存储器1202,上述计算机程序可由数据挖掘装置1200的处理器1201 执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、 PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM 等存储器。
需要说明的是:本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种数据挖掘方法,其特征在于,所述方法包括:
对样本容量为S的样本集进行n次放回抽样,得到n个样本容量为a的训练样本集;
对每一个所述训练样本集建立一个分类模型,得到n个分类器;所述每一个训练样本集对应不同的建模方法;
将待检测样本分别输入所述n个分类器,得到n个判决结果;所述待检测样本为不平衡小样本;
基于所述n个判决结果,确定有数量大于或等于第一阈值的所述分类器判定第一样本为正样本时,将所述第一样本加入挖掘结果;
其中,S、n、a和所述第一阈值均为正整数;
所述方法还包括:
调节所述第一阈值,以使所述n个分类器中的每一个分类器的查准率以及查全率满足预设条件,所述第一阈值为1至n的正整数;
其中,所述n个分类器中的每一个分类器的查准率以及查全率满足预设条件,包括:
;
且有:;
其中,为正类样本被正确划分的概率,/>为负类样本被正确划分的概率,/>为正类样本在样本空间中的占比,/>为整体精度,/>为预测结果为正类的精度,即查准率,/>为查全率。
2.根据权利要求1所述的数据挖掘方法,其特征在于,所述对每一个所述训练样本集建立一个分类模型包括:
对每一个所述训练样本集使用相同或不同的建模方法。
3.根据权利要求2所述的数据挖掘方法,其特征在于,所述建模方法包括至少以下内容项之一:决策树、支持向量机、逻辑回归、朴素贝叶斯、判别分析、adaboost、随机森林算法。
4.一种数据挖掘装置,其特征在于,所述装置包括:
抽样模块,用于对样本容量为S的样本集进行n次放回抽样,得到n个样本容量为a的训练样本集;
建立模块,用于对每一个所述训练样本集建立一个分类模型,得到n个分类器;所述每一个训练样本集对应不同的建模方法;
判决模块,用于将待检测样本分别输入所述n个分类器,得到n个判决结果;所述待检测样本为不平衡小样本;
确定模块,用于基于所述n个判决结果,确定有数量大于或等于第一阈值的所述分类器判定第一样本为正样本;
输出模块,用于将所述第一样本加入挖掘结果;
其中,S、n、a和所述第一阈值均为正整数;
所述装置还包括调节模块:
所述调节模块,用于调节所述第一阈值,以使所述n个分类器中的每一个分类器的查准率以及查全率满足预设条件,所述第一阈值为1至n的正整数;
其中,所述n个分类器中的每一个分类器的查准率以及查全率满足预设条件,包括:
;
;
其中,为正类样本被正确划分的概率,/>为负类样本被正确划分的概率,/>为正类样本在样本空间中的占比,/>为整体精度,/>为预测结果为正类的精度,即查准率,/>为查全率。
5.根据权利要求4所述的数据挖掘装置,其特征在于,所述建立模块中,所述对每一个所述训练样本集建立一个分类模型包括:
对每一个所述训练样本集使用相同或不同的建模方法。
6.根据权利要求5所述的数据挖掘装置,其特征在于,所述建立模块中,所述建模方法至少包括以下内容项之一:决策树、支持向量机、逻辑回归、朴素贝叶斯、判别分析、adaboost、随机森林算法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至3任一项所述数据挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910000466.4A CN111401391B (zh) | 2019-01-02 | 2019-01-02 | 一种数据挖掘方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910000466.4A CN111401391B (zh) | 2019-01-02 | 2019-01-02 | 一种数据挖掘方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401391A CN111401391A (zh) | 2020-07-10 |
CN111401391B true CN111401391B (zh) | 2024-05-07 |
Family
ID=71431987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910000466.4A Active CN111401391B (zh) | 2019-01-02 | 2019-01-02 | 一种数据挖掘方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401391B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962392B (zh) * | 2020-07-15 | 2024-10-15 | 复旦大学附属华山医院 | 确定判定结果的实现方法、系统、介质及终端 |
CN111914253B (zh) * | 2020-08-10 | 2022-05-17 | 中国海洋大学 | 一种入侵检测的方法、系统、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105577660A (zh) * | 2015-12-22 | 2016-05-11 | 国家电网公司 | 基于随机森林的dga域名检测方法 |
CN106228389A (zh) * | 2016-07-14 | 2016-12-14 | 武汉斗鱼网络科技有限公司 | 基于随机森林算法的网络潜力用户挖掘方法及系统 |
CN106416183A (zh) * | 2014-05-12 | 2017-02-15 | 思科技术公司 | 使用分布式分类器的投票策略优化 |
CN109086791A (zh) * | 2018-06-25 | 2018-12-25 | 阿里巴巴集团控股有限公司 | 一种二分类器的训练方法、装置、及计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021489A1 (en) * | 2003-07-22 | 2005-01-27 | Microsoft Corporation | Data mining structure |
-
2019
- 2019-01-02 CN CN201910000466.4A patent/CN111401391B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106416183A (zh) * | 2014-05-12 | 2017-02-15 | 思科技术公司 | 使用分布式分类器的投票策略优化 |
CN105577660A (zh) * | 2015-12-22 | 2016-05-11 | 国家电网公司 | 基于随机森林的dga域名检测方法 |
CN106228389A (zh) * | 2016-07-14 | 2016-12-14 | 武汉斗鱼网络科技有限公司 | 基于随机森林算法的网络潜力用户挖掘方法及系统 |
CN109086791A (zh) * | 2018-06-25 | 2018-12-25 | 阿里巴巴集团控股有限公司 | 一种二分类器的训练方法、装置、及计算机设备 |
Non-Patent Citations (1)
Title |
---|
基于Weka的冲击地压预测方法分析;石永奎等;《煤炭技术》(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111401391A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240087009A1 (en) | Data reconciliation based on computer analysis of data | |
De Jongh et al. | The impact of pre-selected variance in ation factor thresholds on the stability and predictive power of logistic regression models in credit scoring | |
Cappellari et al. | Estimating low pay transition probabilities accounting for endogenous selection mechanisms | |
Quiroz et al. | Speeding up MCMC by delayed acceptance and data subsampling | |
US20210133258A1 (en) | Rapid online clustering | |
US20210287119A1 (en) | Systems and methods for mitigation bias in machine learning model output | |
US20200327549A1 (en) | Robust and Adaptive Artificial Intelligence Modeling | |
US12050972B2 (en) | Preservation of causal information for machine learning | |
CN111401391B (zh) | 一种数据挖掘方法、装置及计算机可读存储介质 | |
CN110069545B (zh) | 一种行为数据评估方法及装置 | |
US20210312086A1 (en) | Apparatus and method for recommending user privacy control | |
CN110288459A (zh) | 贷款预测方法、装置、设备及存储介质 | |
US11615332B2 (en) | Telephone call assessment using artificial intelligence | |
US20170337627A1 (en) | Information distribution apparatus for switching structure of data for digital screen display, method, and non-transitory computer readable storage medium | |
Kozodoi et al. | Shallow self-learning for reject inference in credit scoring | |
CN114218077A (zh) | 一种软件的质量评价方法、装置、设备及可读存储介质 | |
Idowu | Debiasing Education Algorithms | |
Hou et al. | A Trial of Student Self‐Sponsored Peer‐to‐Peer Lending Based on Credit Evaluation Using Big Data Analysis | |
Guo et al. | Fair learning to rank with distribution-free risk control | |
Brachtendorfab et al. | Approximating the standard essentiality of patents–a semantics-based analysis | |
Harikrishna et al. | Credit scoring using support vector machine: a comparative analysis | |
Song et al. | Estimation and inference on treatment effects under treatment-based sampling designs | |
CN117217828B (zh) | 验证转化回传数据方法、装置、计算机设备和存储介质 | |
US20240013295A1 (en) | Explaining adverse actions in credit decisions using shapley decomposition | |
Cooney et al. | Sampling and Weighting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |