CN111127184B - 一种分布式组合信用评估方法 - Google Patents

一种分布式组合信用评估方法 Download PDF

Info

Publication number
CN111127184B
CN111127184B CN201911061595.0A CN201911061595A CN111127184B CN 111127184 B CN111127184 B CN 111127184B CN 201911061595 A CN201911061595 A CN 201911061595A CN 111127184 B CN111127184 B CN 111127184B
Authority
CN
China
Prior art keywords
credit
value
attribute
clustering
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911061595.0A
Other languages
English (en)
Other versions
CN111127184A (zh
Inventor
张鹏
丁海洋
顾宁
卢暾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201911061595.0A priority Critical patent/CN111127184B/zh
Publication of CN111127184A publication Critical patent/CN111127184A/zh
Application granted granted Critical
Publication of CN111127184B publication Critical patent/CN111127184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Finance (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信用评估技术领域,具体为一种分布式组合信用评估方法。本发明方法包括:通过分布式二分均值聚类算法,分析属性的对信用评估的重要性,并在计算样本间距离时通过加权的方式考虑属性重要性的不同,有效地将用户划分到信用类似的类簇中;采用基于变量加权聚类的组合技术,对用户特征数据进行建模,具体是将用户按相似性划分到不同聚簇,然后训练多个不同类别间任意两个聚簇的判别分类器,并通过加权的策略组合它们的分类结果,从而构建用户信用评估模型;然后,利用该模型依据用户特征数据自动地对其信用状况作出判别。本发明大大提升了信用评估方法的计算效率和可扩展性,也提高了在大数据信用评估应用中的适用性。

Description

一种分布式组合信用评估方法
技术领域
本发明属于信用评估技术领域,具体涉及一种分布式组合信用评估方法。
背景技术
随着经济水平的增长,人们消费观念的转变,以及互联网金融的发展,越来越多的用户选择使用白条、借呗等信用产品。信用产品和服务的涌现极大地便利了人们的生活,然而其所带来的信用违约、金融欺诈也日益增多。传统的基于信用评估专家逐一审核的方式,存在周期长、成本高等问题,已很难适应当前信用需求的快速发展。基于数据分析、机器挖掘等理论和技术的自动化信用评估方法,为这些风险的应对提供了有效的解决思路。然而,当前信用消费的高速增长对信用评估技术提出了新的要求,一方面信用产品的特殊性要求信用评估方法具有较高的准确度,以降低信用违约的风险;另一方面基于互联网的服务场景要求其具有较高的效率,以缩短用户的等待时间。
针对信用评估所面临的问题与挑战,本发明提出了一种分布式组合信用评估方法,该方法能通过对用户特征数据的自主学习生成信用评估模型,实现对用户信用的自动判别,同时该方法能通过增加用于计算过程的计算节点数目,实现在大数据场景下的高效评估。
发明内容
为了解决信用评估所面临的准确度相对较低和评估效率不足的问题,本发明改进了基于聚类的组合信用评估方法及其实现技术,提出一种分布式的组合信用评估方法。
本发明提出的分布式的组合信用评估方法,主要包含两个部分:一是分布式聚类,用于划分训练模型所需的数据集,二是组合,用于生成评估信用好坏的分类模型。
本发明的核心要点如下:
(一)分布式聚类
采用基于变量加权的分布式二分均值聚类方法,划分训练模型所需的数据集;具体是通过分布式二分均值聚类算法,分析属性的对信用评估的重要性,并在计算样本间距离时通过加权的方式考虑属性重要性的不同,有效地将用户划分到信用类似的类簇中。
聚类是一种样本划分、聚簇发现方法,多用于无监督的分类任务中。均值聚类技术采用欧几里得距离度量样本间相似性,并用簇内样本均值作为类簇的中心,对于给定的样本集合D,均值聚类通过寻找一组D的划分C={C1,C2,…,Ck},使得簇内样本到簇中心的距离尽可能地近,同时距其它簇中心尽可能地远,即使得所得划分的簇内平方和误差之和最小化,其可以形式化地表示为:
Figure BDA0002258113960000021
其中,x∈D表示数据集中样本,d(·,·)为欧几里得距离。
在传统的均值聚类中,假定所有的属性对样本间距离的度量都同等重要,然而在信用评分领域,这种假设很难成立。因而,在本发明中,依据属性重要性的不同对其赋予了不同的权重系数,从而将样本间距离定义为:
Figure BDA0002258113960000022
其中,wi为属性的重要性加权系数,其定义如下:
Figure BDA0002258113960000023
其中Nc为标称属性i的取值总个数,Nn表示数值属性j的取值总个数,IV(·)表示属性的信息值,其值越大表示该属性所含有的信息量越大,即越重要,其计算方式为:
Figure BDA0002258113960000024
其中,nc为属性i取值为c的总个数,nc,+、nc,-分别表示正、负样本中属性i取值为c的个数,WOEc为标称属性值c证据权重,定义如下:
Figure BDA0002258113960000025
F(·)表示属性的F-score值,度量了特征取值在正负样本上的差异程度,F-score值越大表明特征取值在正负样本上的差异度越大,即特征越重要,其计算方式为:
Figure BDA0002258113960000026
其中,
Figure BDA0002258113960000027
为数值属性i的均值,/>
Figure BDA0002258113960000028
Figure BDA0002258113960000029
分别表示为数值属性i在正负样本中的均值,n+、n-分别表示正、负样本的个数。
本发明利用上述加权距离度量方法,分布式地实现了二分均值聚类过程,从而实现了样本数据集的高效划分。具体过程如附图1、附图2所示,并行化的二分均值聚类主要包含以下步骤:
步骤1:将样本数据均匀地分布于P个计算节点上,初始时所有样本属于同一个簇;
步骤2:使用并行K-均值聚类过程,将簇内误差平方和最大的簇分裂为两个子簇,具体地:
步骤2.1:计算数据分片中样本所属的类簇,并生成簇中心-簇样本集合映射表;
步骤2.2:合并来自不同计算节点的同一簇中心对应的样本集合,计算其均值并更新簇中心;
步骤3:重复步骤2I次,从中选取最优的分裂结果;
步骤4:重复步骤2和步骤3,直至满足停止条件。
(二)组合,生成评估信用分类模型。
采用基于变量加权聚类的组合技术,对用户特征数据进行建模;具体是将用户按相似性划分到不同聚簇,然后训练多个不同类别间任意两个聚簇的判别分类器,并通过加权的策略组合它们的分类结果,从而构建用户信用评估模型;然后,利用该模型依据用户特征数据自动地对其信用状况作出判别。
基于变量加权聚类的组合技术的具体步骤如下(见附图3所示):
步骤一:基本模型训练
基本分类器的性能以及它们之间的相关性是影响组合模型的性能的两个关键因素,在基于聚类的组合模型中,通过对样本聚类,然后在生成的簇上训练最优基本模型的方法,可以提高基础模型间的差离性,进而提高组合模型的性能。
基本模型的训练过程如下:
步骤1.1:原始数据集DT按照类别标签不同,划分为正样本数据集
Figure BDA0002258113960000032
负样本数据集/>
Figure BDA0002258113960000033
步骤1.2:使用K-means算法分别在正、负样本数据集上聚类,得到正样本簇集合:
Figure BDA0002258113960000034
负样本簇集合:/>
Figure BDA0002258113960000035
步骤1.3:来自正、负样本的簇两两组合,从而形成NT=K+×K-个训练子集,对每一个训练子集:
步骤1.3.1:采用Subagging抽样方法,每次都强制选择全部的少数类样本,然后以不放回抽样随机抽取等量的多数类别样本;
步骤1.3.2:对每一个抽样结果使用单分类器生成算法,训练生成一个最优分类器;
步骤1.3.3:重复步骤1.3.1、步骤1.3.2T次,得到一组分类器:Mi Subbaging={m1,m2,…,mT},其中,T由多数类别中的样本被抽中的概率为p决定,T=(ln(1-p))/(ln(1-n_minority/n_majority)),其中,n_minority为少数类别样本个数,n_majority为多数类别样本个数;
步骤1.4:得到基本分类器集合:
Figure BDA0002258113960000031
步骤二:组合预测
在使用组合模型对信用未知用户进行评估时,主要包含两个阶段,首先对于基本分类器组中的分类器依次计算其对用户发生违约概率的预测值,其次组合这些预测值形成最终的预测结果,具体过程如下:
步骤2.1:对于在第i个训练子集上生成的第j个基本分类器计算其对用户x发生信用违约的概率的预测值Predicti,j(x);
步骤2.2:对于在第i个训练子集上生成基本分类器组,计算其组内模型输出值的均值Predicti(x);
步骤2.3:通过线性系数WT组合不同训练子集上得到的预测均值:
Figure BDA0002258113960000041
其中,WT通过梯度下降法求得;
步骤2.4:通过logistic函数将组合值映射到(0,1)范围内:
Figure BDA0002258113960000042
当P(xP)高于0.5时,输出评估结果为“违约”,否则输出“不违约”。
本发明的有益效果是:
本发明结合信用评估数据的特点,通过加权距离度量方法,改进了传统的聚类过程,使得聚类结果与实际信用情况更加一致,基于此聚类过程和线性加权组合策略提升了信用评估的准确度;将计算过程分布于多个计算节点,大大提升了信用评估方法的计算效率和可扩展性,提高了其在大数据信用评估应用中的适用性。
附图说明
图1为并行化K-均值聚类过程。
图2为并行化二分均值聚类过程。
图3为组合模型训练和预测过程。
图4为计算集群拓扑图。
图5为训练过程加速比。
图6为训练过程可扩展性。
图7为预测过程加速比。
图8为预测过程可扩展性。
具体实施方式
以Spark分布式计算平台为例,其计算集群拓扑如附图4所示,该部分给出了并行化K-均值聚类伪代码、并行化二分均值聚类伪代码以及模型训练和预测过程的伪代码,见附录1、附录2、附录3、附录4。PAKDD2010是金融机构为PAKDD 2010数据挖掘挑战赛提供的在私有标签信用卡申请数据上做信用评估的数据集,其汇总情况见表1所示。将PAKDD 2010数据集随机等分为5份,以逻辑回归模型作为基础分类器,5轮交叉验证实验的平均准确度(ACC)和受试者工作特性曲线下面积指标(AUC),见表2所示,本发明达到了良好的分类性能。从PAKDD2010数据集中随机有放回地抽取5万、10万、15万和20万条记录分别用D-5,D-10,D-15以及D-20表示,用作不同规模的训练数据集,通过记录模型训练过程开始和完成之间的时间间隔,其加速比、可扩展性统计结果如图5,图6所示。通过图5、图6可以看出,随着节点数目的增加,加速比呈现上升趋势,可扩展性系数随着计算节点数目的增多,呈现先下降后趋于稳定的趋势,这表明增加用于训练过程的计算节点数目,可以有效减少训练过程的耗时,且数据规模越大,计算过程的可扩展性越好。通过D-5数据集训练生成组合模型,然后通过统计其对不同规模数据集预测过程的耗时,其加速比及可扩展性实验结果如图7,图8所示。通过图7、图8可以看出,对于规模较大的数据集,预测过程的加速比呈现线性上升趋势,计算过程具有线性的可扩展性,这表明本发明在大规模数据下具有良好的适用性。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的原则和精神之内所作的任何修改、等同替换和改进等,均就包含在本发明的保护范围之内。
表1.PAKDD 2010数据集统计汇总情况
Figure BDA0002258113960000051
表2.算法性能指标
Figure BDA0002258113960000052
附录1.并行化K-均值聚类
Figure BDA0002258113960000053
Figure BDA0002258113960000061
附录2.并行化二分均值聚类
Figure BDA0002258113960000062
Figure BDA0002258113960000071
附录3.基本模型训练
Figure BDA0002258113960000072
附录4.预测过程
Figure BDA0002258113960000073
Figure BDA0002258113960000081
/>

Claims (3)

1.一种分布式的组合信用评估方法,其特征在于,主要包含两个部分:一是分布式聚类,用于划分训练模型所需的数据集,二是组合,用于生成评估信用好坏的分类模型;其中:
(一)分布式聚类,划分训练模型所需的数据集
采用基于变量加权的分布式二分均值聚类方法,划分训练模型所需的数据集;具体是通过分布式二分均值聚类算法,分析属性的对信用评估的重要性,并在计算样本间距离时通过加权的方式考虑属性重要性的不同,有效地将用户划分到信用类似的类簇中;
(二)通过组合,生成评估信用分类模型
采用基于变量加权聚类的组合技术,对用户特征数据进行建模;具体是将用户按相似性划分到不同聚簇,然后训练多个不同类别间任意两个聚簇的判别分类器,并通过加权的策略组合它们的分类结果,从而构建用户信用评估模型;然后,利用该模型依据用户特征数据自动地对其信用状况作出判别;
所述分布式聚类,划分训练模型所需的数据集的具体过程为:
对于给定的样本集合D,均值聚类通过寻找一组D的划分C={C1,C2,…,Ck},使得簇内样本到簇中心的距离尽可能地近,同时距其它簇中心尽可能地远,即使得所得划分的簇内平方和误差之和最小化,其形式化地表示为:
Figure FDA0004142939900000011
其中,x∈D表示数据集中样本,d(·,·)为距离;
依据属性重要性的不同,对距离赋予不同的权重系数,从而将样本间距离定义为:
Figure FDA0004142939900000012
其中,wi为属性的重要性加权系数,其定义如下:
Figure FDA0004142939900000013
其中Nc为标称属性i的取值总个数,Nn表示数值属性j的取值总个数,IV(·)表示属性的信息值,其值越大表示该属性所含有的信息量越大,即越重要,其计算方式为:
Figure FDA0004142939900000014
其中,nc为属性i取值为c的总个数,nc,+、nc,-分别表示正、负样本中属性i取值为c的个数,WOEc为标称属性值c证据权重,定义如下:
Figure FDA0004142939900000021
F(·)表示属性的F-score值,度量特征取值在正负样本上的差异程度,F-score值越大表明特征取值在正负样本上的差异度越大,即特征越重要,其计算方式为:
Figure FDA0004142939900000022
其中,
Figure FDA0004142939900000023
为数值属性i的均值,/>
Figure FDA0004142939900000024
分别表示为数值属性i在正负样本中的均值,n+、n-分别表示正、负样本的个数;/>
利用上述加权距离度量方法,分布式地实现二分均值聚类过程,从而实现样本数据集的高效划分。
2.根据权利要求1所述的分布式的组合信用评估方法,其特征在于,所述二分均值聚类的步骤:
步骤1:将样本数据均匀地分布于P个计算节点上,初始时所有样本属于同一个簇;
步骤2:使用并行K-均值聚类过程,将簇内误差平方和最大的簇分裂为两个子簇,具体地:
步骤2.1:计算数据分片中样本所属的类簇,并生成簇中心-簇样本集合映射表;
步骤2.2:合并来自不同计算节点的同一簇中心对应的样本集合,计算其均值并更新簇中心;
步骤3:重复步骤2I次,从中选取最优的分裂结果;
步骤4:重复步骤2和步骤3,直至满足停止条件。
3.根据权利要求2所述的分布式的组合信用评估方法,其特征在于,所述通过组合,生成评估信用分类模型的具体步骤为:
步骤一:基本模型训练
训练过程如下:
步骤1.1:原始数据集DT按照类别标签不同,划分为正样本数据集
Figure FDA0004142939900000025
负样本数据集/>
Figure FDA0004142939900000026
步骤1.2:使用K-means算法分别在正、负样本数据集上聚类,得到正样本簇集合:
Figure FDA0004142939900000027
负样本簇集合:/>
Figure FDA0004142939900000028
步骤1.3:来自正、负样本的簇两两组合,从而形成NT=K+×K-个训练子集,对每一个训练子集:
步骤1.3.1:采用Subagging抽样方法,每次都强制选择全部的少数类样本,然后以不放回抽样随机抽取等量的多数类别样本;
步骤1.3.2:对每一个抽样结果使用单分类器生成算法,训练生成一个最优分类器;
步骤1.3.3:重复步骤1.3.1、步骤1.3.2T次,得到一组分类器:Mi Subbaging={m1,m2,…,mT},其中,T由多数类别中的样本被抽中的概率为p决定,T=(ln(1-p))/(ln(1-n_minority/n_majority)),其中,n_minority为少数类别样本个数,n_majority为多数类别样本个数;
步骤1.4:得到基本分类器集合:
Figure FDA0004142939900000033
步骤二:组合预测
在使用组合模型对信用未知用户进行评估时,包含两个阶段,首先对于基本分类器组中的分类器依次计算其对用户发生违约概率的预测值,其次组合这些预测值形成最终的预测结果,具体过程如下:
步骤2.1:对于在第i个训练子集上生成的第j个基本分类器计算其对用户x发生信用违约的概率的预测值Predicti,j(x);
步骤2.2:对于在第i个训练子集上生成基本分类器组,计算其组内模型输出值的均值Predicti(x);
步骤2.3:通过线性系数WT组合不同训练子集上得到的预测均值:
Figure FDA0004142939900000031
/>
Figure FDA0004142939900000032
其中,WT通过梯度下降法求得;
步骤2.4:通过logistic函数将组合值映射到(0,1)范围内:
Figure FDA0004142939900000034
当P(xP)高于0.5时,输出评估结果为“违约”,否则输出“不违约”。/>
CN201911061595.0A 2019-11-01 2019-11-01 一种分布式组合信用评估方法 Active CN111127184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911061595.0A CN111127184B (zh) 2019-11-01 2019-11-01 一种分布式组合信用评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911061595.0A CN111127184B (zh) 2019-11-01 2019-11-01 一种分布式组合信用评估方法

Publications (2)

Publication Number Publication Date
CN111127184A CN111127184A (zh) 2020-05-08
CN111127184B true CN111127184B (zh) 2023-05-30

Family

ID=70496114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911061595.0A Active CN111127184B (zh) 2019-11-01 2019-11-01 一种分布式组合信用评估方法

Country Status (1)

Country Link
CN (1) CN111127184B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926989B (zh) * 2021-03-22 2023-09-05 华南理工大学 一种基于多视图集成学习的银行贷款风险评估方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN109345368A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 基于大数据的信用评估方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814063A (zh) * 2010-05-24 2010-08-25 天津大学 基于距离权重的全局k-均值聚类算法
CN104821580B (zh) * 2015-05-08 2017-01-11 杭州沃瑞电力科技有限公司 一种基于无功源聚类分析的三阶段无功控制分区方法
CN106714220B (zh) * 2017-01-06 2019-05-17 江南大学 一种基于mea-bp神经网络wsn异常检测方法
CN106897918A (zh) * 2017-02-24 2017-06-27 上海易贷网金融信息服务有限公司 一种混合式机器学习信用评分模型构建方法
CN108550077A (zh) * 2018-04-27 2018-09-18 信雅达系统工程股份有限公司 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN109345368A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 基于大数据的信用评估方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多分类器的组合算法在个人信用评估中的应用;汪洋;金骏时;孙美凤;彭艳兵;;信息化建设(第06期);全文 *
客户信用评估半监督协同训练模型研究;肖进;薛书田;黄静;谢玲;顾新;;中国管理科学(第06期);全文 *

Also Published As

Publication number Publication date
CN111127184A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN104881706B (zh) 一种基于大数据技术的电力系统短期负荷预测方法
Xu et al. An improved random forest classifier for image classification
Aliniya et al. A novel combinatorial merge-split approach for automatic clustering using imperialist competitive algorithm
CN107292350A (zh) 大规模数据的异常检测方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN110008983A (zh) 一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN112926645B (zh) 一种基于边缘计算的窃电检测方法
CN116049412B (zh) 文本分类方法、模型训练方法、装置及电子设备
CN107480441B (zh) 一种儿童脓毒性休克预后预测的建模方法及系统
CN111444937B (zh) 一种基于集成tsk模糊分类器的众包质量提升的方法
Wang et al. A novel two-step job runtime estimation method based on input parameters in HPC system
CN108595909A (zh) 基于集成分类器的ta蛋白靶向预测方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN111127184B (zh) 一种分布式组合信用评估方法
CN111309577A (zh) 一种面向Spark的批处理应用执行时间预测模型构建方法
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
CN112418987A (zh) 交通运输单位信用评级方法、系统、电子设备及存储介质
Zhang et al. Improved deep classwise hashing with centers similarity learning for image retrieval
Kumar et al. Review of gene subset selection using modified k-nearest neighbor clustering algorithm
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
Yang et al. Diagnosis of diabetes based on improved Support Vector Machine and Ensemble Learning
CN114117040A (zh) 基于标签特定特征和相关性的文本数据多标签分类方法
CN113723514A (zh) 一种基于混合采样的安全接入日志数据平衡处理方法
Ding et al. Credit scoring using ensemble classification based on variable weighting clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant