CN108596758A - 一种基于归类规则分类器的信用评级方法 - Google Patents
一种基于归类规则分类器的信用评级方法 Download PDFInfo
- Publication number
- CN108596758A CN108596758A CN201810414526.2A CN201810414526A CN108596758A CN 108596758 A CN108596758 A CN 108596758A CN 201810414526 A CN201810414526 A CN 201810414526A CN 108596758 A CN108596758 A CN 108596758A
- Authority
- CN
- China
- Prior art keywords
- ripper
- rule
- rating
- credit
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于归类规则分类器的信用评级方法,步骤包括:S1.获取用于模型训练的用户信用信息集,分别提取用户信用信息集中各信息对应的特征属性构成训练集,并使用RIPPER分类器进行训练,得到RIPPER评级模型;S2.输入待评估用户的信用信息并提取对应的特征属性,将提取到的特征属性输入至RIPPER评级模型中进行分类,得到信用评级结果输出。本发明具有实现方法简单、评级性能好、评级效率高,且可方便获取评级规则以及规则易于理解等优点。
Description
技术领域
本发明涉及信用评估技术领域,尤其涉及一种基于归类规则分类器的信用评级方法。
背景技术
信用评级是指由独立的第三方信用评级中介机构对债务人如期足额偿还债务本息的能力和意愿进行评价,并用简单的评级符号表示其违约风险和损失的严重程度,广义的信用评级则是对评级对象履行相关合同和经济承诺的能力和意愿的总体评价。授信机构接受客户信用申请时,利用客户提交的申请表中的特征变量建立评分模型得到申请者的一个信用值,将该值与事先设定的标准值相比,判断该借款人逾期的可能性,从而决定是否授出信用及授信额度,该类信用评分即为申请评分。申请评分的评分方法主要依据为客户个人信息,主要分为四个部分:一是个人的基本信息,主要包括客户的姓名、工作情况、居住地址、教育程度等;二是个人的交易记录,主要是客户与金融机构的业务发生情况;三是客户的个人信用历史,主要是工人从金融机构贷款情况、偿还贷款情况等;四是公开记录情况,主要是法院关于客户的公开判决或破产情况等。在获取个人信用信息之后,授信机构通过建立个人信用评分模型得到客户的信用评分,信用评分表明了客户相应的信用等级,而授信机构则依据此信用评分给与客户不同的授信额度。
对新提交申请的用户,需要根据提供的相关信息来对用户进行信用评级,目前对用户的信用评级主要都是使用信用评分卡或者机器学习两种方式,但是基于评分卡的评级方式太过于泛化,对于个体的评分精度效果较差,而基于机器学习的评级方式则存在解释困难,决策者难以直观的理解其中的规则,导致决策难的问题,因此亟需提供一种信用评级方法,以使得能够提高个体评级性能,同时可获取易于用户理解的评级规则。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、评级性能好、评级效率高,且可方便获取评级规则以及规则易于理解的基于归类规则分类器的信用评级方法。
为解决上述技术问题,本发明提出的技术方案为:
一种基于归类规则分类器的信用评级方法,其特征在于,步骤包括:
S1.RIPPER(For Repeated Incremental Pruning to Produce ErrorReduction)评级模型训练:获取用于模型训练的用户信用信息集,分别提取所述用户信用信息集中各信息对应的特征属性构成训练集,并使用RIPPER分类器进行训练,得到RIPPER评级模型;
S2.信用评级:输入待评估用户的信用信息并提取对应的特征属性,将提取到的特征属性输入至所述RIPPER评级模型中进行分类,得到信用评级结果输出。
作为本发明的进一步改进,所述步骤S1中的具体步骤为:
S11.提取所述用户信用信息集中各原始信用信息对应的特征属性,得到属性数据集,对所述属性数据集进数据预处理后输出;
S12.将步骤S11输出的属性数据集进行属性筛选,将筛选后不同的离散属性进行统一后输出;
S13.将所述步骤S12输出的属性数据集进行分类评级后构成训练集;
S14.将所述步骤S13得到的训练集使用RIPPER分类器进行训练,得到RIPPER评级模型。
作为本发明的进一步改进,所述步骤S11进行数据预处理时,具体包括将所述属性数据集中缺失值进行填充处理,所述属性数据集中冗余值、异常值进行删除处理;所述缺失值进行填充处理时,具体对集中型缺失值使用中位数、众数或拉格朗日插值中的一种填充方式,对离散型缺失值使用上下文填充方式。
作为本发明的进一步改进:所述步骤S14中具体将所述训练集随机打乱分配后进行训练。
作为本发明的进一步改进,所述步骤S1中使用RIPPER分类器进行训练时,具体将包含用户信用特征属性的训练集中不属于规则的数据项随机的分为增长集和缩减集两个子集,对所述增长集执行规则的扩张过程时,初始把规则的条件置空,再反复的加入如下公式条件,以使得信息增益Gain(D,At)达到更大的值,并提高规则对数据项的覆盖面,直到规则涵盖了增长数据集中的所有数据项;
Ad=v,An≤θ或An≥θ
其中,Ad是字符型的属性,v是Ad的一个有效值;An是实数型的变量,θ是在训练集中出现的An的有效值;
对所述缩减集执行规则缩减过程时,依次从规则的条件中剔除最后一个条件,使函数值v达到最大,函数v的表达式为:
其中,Rule为训练规则;PrunePos为正例修剪集;PruneNeg为负例修剪集,p裁剪集中被规则覆盖的肯定的样本数;n裁剪集中被规则覆盖的否定的样本数;
重复执行上述过程直到通过缩减条件和删除规则无法使v的值增大为止,生成RIPPER评级模型及分类规则。
作为本发明的进一步改进,所述步骤S1中进行训练时具体使用十折交叉验证方式以避免模型过拟合,即将训练集分为10份,将其中9份作为训练数据、其余一份作为测试数据,经过多次迭代后,选取在不同测试集上分类精度均达到指定阈值所对应的模型作为所需的所述RIPPER评级模型。
作为本发明的进一步改进:所述步骤S1中还包括使用ROC曲线对得到的所述RIPPER评级模型进行评估,若所述RIPPER评级模型对应计算到的ROC曲线下的面积在预设范围内,输出最终的RIPPER评级模型,否则重新进行训练。
作为本发明的进一步改进:所述用户信用信息包括用户基础信息、用户借款信息、用户负债信息、用户历史指定时间段内还款逾期信息、用户未来指定之间段内需还款信息、用户投标信息以及用户负债信息中一种或多种。
作为本发明的进一步改进:所述步骤S2中将提取到的特征属性输入至所述RIPPER评级模型中进行分类时,具体由所述RIPPER评级模型输出初始信用评级结果,根据所述初始信用评级结果以及所述RIPPER评级模型在进行分类过程中的分类规则得到最终的评级结果输出。
作为本发明的进一步改进:所述步骤S1中RIPPER评级模型具体基于Adaboost(AdaptiveBoostin,自适应增强)算法使用多个RIPPER分类器作为弱分类器训练得到,且每个RIPPER分类器训练时,选择部分训练集样本以及上一个RIPPER分类器得到的部分错误样本组合构成最终的训练样本,由训练完成后的各弱分类器得到ADB强分类器并作为最终的RIPPER评级模型
与现有技术相比,本发明的优点在于:
1)本发明基于归类规则分类器的信用评级方法,充分利用RIPPER的伸缩性、规则化特性,通过提取用户信用信息的特征属性进行训练,构建RIPPER评级模型,再使用该RIPPER评级模型对新用户的信用进行评级,评级效率高、评级性能好,相比于传统的评分卡方式,可针对不同个体给出精确的评级,且相比于传统的机器学习评级方式,实现复杂度低,在使用RIPPER评级模型对新用户进行评级时,基于RIPPER分类还可以方便的获取其中的分类规则且该分类规则易于理解,从而便于决策者给出最终决策。
2)本发明基于归类规则分类器的信用评级方法,结合RIPPER分类能够实现性能良好的信用评级,且分类过程中的分类规则易于理解,在使用RIPPER评级模型获得初始评级结果后,结合RIPPER分类规则生成最终的评级结果,能够利用RIPPER分类的特性实现最佳的信用评级。
3)本发明基于归类规则分类器的信用评级方法,进一步使用十折交叉验证方式进行训练,由于测试集是采用原数据的一部分,并不是训练集的一部分,含有很多不确定性,相比于传统的直接使用全部训练集数据进行训练再用一部分已经训练过的数据作为测试集,可以有效避免模型过拟合。
4)本发明基于归类规则分类器的信用评级方法,进一步使用ROC曲线进行对得到的RIPPER评级模型进行评估,可以确保RIPPER评级模型的性能,且评估方法简单、有效。
附图说明
图1是本实施例基于归类规则分类器的信用评级方法的实现流程示意图。
图2是本实施例采用的RIPPER分类算法中建立决策树的原理示意图。
图3是本实施例采用的RIPPER分类算法中进行规则删减的原理示意图。
图4是本发明具体实施例中计算得到的RIPPER评级模型的ROC曲线示意图。
图5是本发明具体实施例中基于Ripper-ADB组合分类训练RIPPER评级模型的实现原理示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例基于归类规则分类器的信用评级方法,步骤包括:
S1.RIPPER评级模型训练:获取用于模型训练的用户信用信息集,分别提取用户信用信息集中各信息对应的特征属性构成训练集,并使用RIPPER分类器进行训练,得到RIPPER评级模型;
S2.信用评级:输入待评估用户的信用信息并提取对应的特征属性,将提取到的特征属性输入至RIPPER评级模型中进行分类,得到信用评级结果输出。
RIPPER(规则归纳学习)为基于规则的分类算法,分类所建立的决策树如图2所示,可以从叶节点逐条找寻根节点的规则,如图3所示,如果对图3(a)所示的规则进行冗余性删减,根据规则的规模序(把最高优先权赋予具有“最苛刻”要求的被触发的规则),当判断完第一条规则不符合时,去掉第二条规则的humidity=normal,同理可以去掉第四条、第五条规则中的outlook=rainy、outlook=rainy and windy=true,结果如图3(b)所示。RIPPER中每条RIPPER规则由一些规则前件组成,包括了更好的剪枝和停止准则以及对规则集合后的处理,即是采用递增减少误差修剪算法,将训练集的实例分为两个数据集:成长集和修剪集,成长集用于产生规则,增加条件直到规则符合要求,修剪集用于修建规则,删除规则中的条件,直到得到更好的规则;然后对规则价值进行评价,移除最后条件看价值是否变化,如果没有变化,就继续移除条件,直到得到最好的分类器版本。
RIPPER的准确度高、规则创建性能好,且RIPPER算法的效率和训练数据集的样本个数成线性,其时间复杂度为O(nlog2n),更重要的是可以在包含几十万噪声数据的测试集上仍然保持很高的效率,同时RIPPER分类的决策规则是面向用户的,分类器能够产生分类规则,且产生的分类规则对用户而言是较易于理解的,即RIPPER分类算法具有伸缩性、规则化特性。本实施例充分利用RIPPER的上述伸缩性、规则化等特性,通过基于用户信用信息的特征属性进行训练,构建RIPPER评级模型,再使用该RIPPER评级模型对新用户的信用进行评级,评级效率高、评级性能好,相比于传统的评分卡方式,可针对不同个体给出精确的评级,且相比于传统的机器学习评级方式,实现复杂度低,在使用RIPPER评级模型对新用户进行评级时,还可以方便的获取其中的分类规则且该分类规则易于理解,从而便于决策者给出最终决策。
本实施例中,步骤S1中的具体步骤为:
S11.提取用户信用信息集中各原始信用信息对应的特征属性,得到属性数据集,对属性数据集进数据预处理后输出;
S12.将步骤S11输出的属性数据集进行属性筛选,将筛选后不同的离散属性进行统一后输出;
S13.将步骤S12输出的属性数据集进行分类评级后构成训练集;
S14.将步骤S13得到的训练集使用RIPPER分类器进行训练,得到RIPPER评级模型。
本实施例从原始用户数据库中提取用户关于信用信息的数据后,首先提取各项信用信息对应的特征属性,即表征各信用信息的特征值,将特征属性按照预设规则进行筛选后,然后将不同的离散属性进行统一,再对特征属性集的分类标签进行分类评级标注,如使用AA,A,B,C,D,E,F作为分类评级标注不同等级用户,构成符合RIPPER评级模型需求的训练集,然后将训练集随机打乱分配后使用RIPPER分类器对训练集进行训练,得到所需RIPPER评级模型,后续由该RIPPER评级模型即可对新用户进行信用评级,无需再重新训练模型。
本实施例中,用户信用信息具体包括用户基础信息、借款信息、用户历史指定时间段内还款逾期信息、用户未来指定之间段内还款信息、用户投标信息、用户负债信息等,基础信息包括姓名、性别、文化程度等还款信息包括成功还款次数、正常还清次数、逾期指定天数内的还清次数、逾期超过指定天数的还清次数等,借款信息包括成功借款次数、第一次成功借款时间、累计借款金额,待还金额、单笔最高借款金额等,负债信息包括历史最高负债信息等,用户信用信息具体可根据实际需求提取各类可表征用户信用的信息数据。
本实施例中,步骤S11进行数据预处理时,具体包括将属性数据集中缺失值进行填充处理,属性数据集中冗余值、异常值进行删除处理,缺失值进行填充处理时,具体对集中型缺失值使用中位数、众数或拉格朗日插值等填充方式,对离散型缺失值使用上下文填充等方式,当然还可以根据实际需求采用其他填充处理方式。
本实施例中,步骤S1中使用RIPPER分类器进行训练时,具体将包含用户信用特征属性的训练集中不属于规则的数据项随机的分为增长集和缩减集两个子集,对增长集执行规则的扩张过程时,初始把规则的条件置空,再反复的加入如下公式(1)的条件,以使得信息增益Gain(D,At)达到更大的值,并提高规则对数据项的覆盖面,直到规则涵盖了增长数据集中的所有数据项;
Ad=v,An≤θ或An≥θ (1)
其中Ad为字符型的属性,v为Ad的一个有效值,An为实数型的变量,θ为在训练集中出现An的有效值。
对缩减集执行规则缩减过程时,依次从规则的条件中剔除最后一个条件,使函数值v达到最大,函数v的表达式为:
其中,Rule为训练规则;PrunePos为正例修剪集;PruneNeg为负例修剪集,p为裁剪集中被规则覆盖的肯定样本数,n为裁剪集中被规则覆盖的否定样本数。
重复执行上述式(2)过程直到通过缩减条件和删除规则无法使v的值增大为止,生成最终的RIPPER评级模型及分类规则。
本实施例通过结合用户信用评级以及RIPPER分类规则的特性,通过对用户的信用信息使用RIPPER分类器构建评级模型,利用RIPPER分类过程将用户信用特征属性分为增长集、缩减集,对增长集执行规则的扩张,直至规则涵盖了增长数据集中的所有数据项,对缩减集执行规则缩减,直至规则最佳,分类性能好,结合RIPPER分类能够实现性能良好的信用评级,且分类过程中的分类规则易于理解,从而能够充分利用RIPPER分类的特性最终实现更为合理的评级。
本实施例中,步骤S1中进行训练时具体使用十折交叉验证方式以避免模型过拟合,即将训练集分为10份,将其中9份作为训练数据、其余一份作为测试数据,经过多次迭代后,选取在不同测试集上分类精度均达到指定阈值所对应的模型作为所需的RIPPER评级模型。如在具体实施例中,将训练集的数据分为a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,其中a1,a2,a3,a4,a5,a6,a7,a8,a9作为训练数据,a10作为测试集,或者其他组合方式,经过多次迭代后,选取在不同测试集上都表现良好的模型作为最终模型。通过使用十折交叉验证方式,由于测试集是采用原数据的一部分,并不是训练集的一部分,含有很多不确定性,相比于传统的直接使用全部训练集数据进行训练再用一部分已经训练过的数据作为测试集,可以有效避免模型过拟合。
本实施例中,步骤S1中还包括使用ROC曲线对得到的RIPPER评级模型进行评估,若RIPPER评级模型对应计算到的ROC曲线下的面积在预设范围内,输出最终的RIPPER评级模型,否则重新进行训练。使用ROC曲线可以有效反映模型的性能,ROC曲线下的面积越大,对应的模型性能越好,本实施例在初始训练得到RIPPER评级模型后,计算模型的ROC曲线,再使用ROC曲线对模型进行评估,在具体应用实施例中计算得到的ROC曲线如图4所示,ROC曲线下的面积AUC为0.9403,符合模型性能需求,即通过ROC曲线进行模型评估,实现方法简单有效,可以确保RIPPER评级模型的性能。
本实施例中,步骤S2中将提取到的特征属性输入至RIPPER评级模型中进行分类时,具体由RIPPER评级模型输出初始信用评级结果,根据初始信用评级结果以及RIPPER评级模型在进行分类过程中的分类规则得到最终的评级结果输出。由于RIPPER分类过程中的分类规则易于理解,本实施例在使用RIPPER评级模型获得初始评级结果后,结合RIPPER分类规则生成最终的评级结果,能够结合RIPPER分类实现最佳的信用评级。
本实施例中,RIPPER评级模型具体基于Adaboost算法使用多个RIPPER分类器作为弱分类器训练得到,且每个RIPPER分类器训练时,选择部分训练集样本以及上一个RIPPER分类器得到的部分错误样本组合构成最终的训练样本,由训练完成后的各弱分类器得到ADB强分类器并作为最终的RIPPER评级模型。Adaboost算法具有很强强循环学习能力,能够较好的把弱分类器进行组合加强,本实施例通过结合Adaboost算法与框架RIPPER分类器训练分类模型,实现Ripper-ADB的组合分类方法,使得能够兼具Adaboost算法与RIPPER分类器的性能优势,进一步提高分类评级性能,同时训练时只选择部分训练子集样本以及上一个弱分类器得到的部分错误样本组合构成最终的训练样本进行训练,可以实现循环叠加样本的训练方式,由于每次只选择部分等分样本进行训练,使得扩充的错误样本是定值,不会成倍数增长,且由于全部数据进行等分后,每一份数据都会进行叠加训练,不会遗漏抽样数据,可以确保训练完整,同时每次进行错误样本扩充时,不仅对错误数据起到了累积训练的作用,而且由于新样本的加入,可以避免反复错误的数据过分的训练。本实施例上述过程具体采用NSL-KDD数据集(KDD CUP数据挖掘比赛1999年数据集的改进版)进行实现。
如图5所示,在具体应用实施例中基于Ripper-ADB组合分类训练RIPPER评级模型的具体流程为:
①首先按照迭代次数将训练集样本进行等分,得到N份训练子集样本S1,S2,Sn;
②将第一份训练样本S1使用Ripper算法进行分类训练,得到分类器a1、错误样本R1;
③对a1的分类结果进行统计计算,得到a1分类器的权重w1;
④将a1错分的样本R1按照与等份样本相同的量级(50%)进行重复抽样扩充,得到扩充的错误样本R1p;
⑤将扩充的错误样本R1p添加到第二份训练样本S2中,得到新的样本S2R;
⑥对新样本S2R再进行Ripper算法的分类训练,产生分类器a2、错误样本w2;
⑦对分类器a2的分类结果进行统计计算,得到a2分类器的权重w2。
⑧重复上述步骤直到所有样本训练完毕;
⑨将所有训练的加权分类器进行叠加,构成最终的强分类器Ripper-ADB,得到最终的RIPPER评级模型。
在具体应用实施例中,采用本实施例上述方法实现信用评级的详细步骤为:
步骤1:将指定数据库中所有关于用户信息的数据进行提取,等待预处理。
步骤2:将不同的表之间的数据用唯一关键字用户ID相关联,如可先将所要整合的数据表读入内存中,建立数据表的数组后,循环遍历数组,按照用户ID进行关联合并操作;
步骤3:将步骤2处理后的数据中数值缺失值进行填充处理,对于集中型缺失值使用中位数、众数或拉格朗日插值方式处理,对于离散型缺失值使用上下文填充等方法处理。
步骤4:将不同的离散属性单位进行统一,如贷款期限属性中的数值不统一,包含有多少个月和多少个天两种,需要均转化为统一格式(如月为单位):遍历该期限属性中的每一个数值,如果数字后面是‘个月’则去掉数值后面的文字:‘个月’,如果是“天”则转化为以月为单位的数值进行保存输出。
步骤5:将数据集使用AA,A,B,C,D,E,F分类标签进行评级标注,构成所需训练集。
步骤6:使用RIPPER分类器对训练集进行训练,将数据集进行随机打乱分配准备进行训练,同时使用十折交叉验证方式以避免模型过拟合,得到RIPPER评级模型。
步骤7:使用ROC曲线进行对步骤7得到的RIPPER评级模型进行评估,直至得到最终的RIPPER评级模型,该RIPPER评级模型包括代码模型以及RIPPER规则。
步骤8:将待评估的新用户信息输入至步骤7得到的RIPPER评级模型中,输出评级结果。
步骤9:决策者根据步骤8的评级结果给出最终的评级决策,完成用户的信用评级。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。
Claims (10)
1.一种基于归类规则分类器的信用评级方法,其特征在于,步骤包括:
S1.RIPPER评级模型训练:获取用于模型训练的用户信用信息集,分别提取所述用户信用信息集中各信息对应的特征属性构成训练集,并使用RIPPER分类器进行训练,得到RIPPER评级模型;
S2.信用评级:输入待评估用户的信用信息并提取对应的特征属性,将提取到的特征属性输入至所述RIPPER评级模型中进行分类,得到信用评级结果输出。
2.根据权利要求1所述的基于归类规则分类器的信用评级方法,其特征在于,所述步骤S1中的具体步骤为:
S11.提取所述用户信用信息集中各原始信用信息对应的特征属性,得到属性数据集,对所述属性数据集进数据预处理后输出;
S12.将所述步骤S11输出的属性数据集进行属性筛选,将筛选后不同的离散属性进行统一后输出;
S13.将所述步骤S12输出的属性数据集进行分类评级后构成训练集;
S14.将所述步骤S13得到的训练集使用RIPPER分类器进行训练,得到RIPPER评级模型。
3.根据权利要求2所述的基于归类规则分类器的信用评级方法,其特征在于:所述步骤S11进行数据预处理时,具体包括将所述属性数据集中缺失值进行填充处理,所述属性数据集中冗余值、异常值进行删除处理;所述缺失值进行填充处理时,具体对集中型缺失值使用中位数、众数或拉格朗日插值中的一种填充方式,对离散型缺失值使用上下文填充方式。
4.根据权利要求3所述的基于归类规则分类器的信用评级方法,其特征在于,所述步骤S14中具体将所述训练集随机打乱分配后进行训练。
5.根据权利要求1~4中任意一项所述的基于归类规则分类器的信用评级方法,其特征在于,所述步骤S1中使用RIPPER分类器进行训练时,具体将包含用户信用特征属性的训练集中不属于规则的数据项随机的分为增长集和缩减集两个子集,对所述增长集执行规则的扩张过程时,初始把规则的条件置空,再反复的加入如下公式条件,以使得信息增益Gain(D,At)达到更大的值,并提高规则对数据项的覆盖面,直到规则涵盖了增长数据集中的所有数据项;
Ad=v,An≤θ或An≥θ
其中,Ad是字符型的属性,v是Ad的一个有效值;An是实数型的变量,θ是在训练集中出现的An的有效值;
对所述缩减集执行规则缩减过程时,依次从规则的条件中剔除最后一个条件,使函数值v达到最大,函数v的表达式为:
其中,Rule为训练规则;PrunePos为正例修剪集;PruneNeg为负例修剪集,p裁剪集中被规则覆盖的肯定的样本数;n裁剪集中被规则覆盖的否定的样本数;
重复执行上述过程直到通过缩减条件和删除规则无法使v的值增大为止,生成最终的RIPPER评级模型及分类规则。
6.根据权利要求1~4中任意一项所述的基于归类规则分类器的信用评级方法,其特征在于:所述步骤S1中进行训练时具体使用十折交叉验证方式以避免模型过拟合,即将训练集分为10份,将其中9份作为训练数据、其余一份作为测试数据,经过多次迭代后,选取在不同测试集上分类精度均达到指定阈值所对应的模型作为所需的所述RIPPER评级模型。
7.根据权利要求1~4中任意一项所述的基于归类规则分类器的信用评级方法,其特征在于:所述步骤S1中还包括使用ROC曲线对得到的所述RIPPER评级模型进行评估,若所述RIPPER评级模型对应计算到的ROC曲线下的面积在预设范围内,输出最终的RIPPER评级模型,否则重新进行训练。
8.根据权利要求1~4中任意一项所述的基于归类规则分类器的信用评级方法,其特征在于:所述用户信用信息包括用户基础信息、用户借款信息、用户负债信息、用户历史指定时间段内还款逾期信息、用户未来指定之间段内需还款信息、用户投标信息以及用户负债信息中一种或多种。
9.根据权利要求1~4中任意一项所述的基于归类规则分类器的信用评级方法,其特征在于:所述步骤S2中将提取到的特征属性输入至所述RIPPER评级模型中进行分类时,具体由所述RIPPER评级模型输出初始信用评级结果,根据所述初始信用评级结果以及所述RIPPER评级模型在进行分类过程中的分类规则得到最终的评级结果输出。
10.根据权利要求1~4中任意一项所述的基于归类规则分类器的信用评级方法,其特征在于:所述步骤S1中RIPPER评级模型具体基于Adaboost算法使用多个RIPPER分类器作为弱分类器训练得到,且每个RIPPER分类器训练时,选择部分训练集样本以及上一个RIPPER分类器得到的部分错误样本组合构成最终的训练样本,由训练完成后的各弱分类器得到ADB强分类器并作为最终的RIPPER评级模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810414526.2A CN108596758A (zh) | 2018-05-03 | 2018-05-03 | 一种基于归类规则分类器的信用评级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810414526.2A CN108596758A (zh) | 2018-05-03 | 2018-05-03 | 一种基于归类规则分类器的信用评级方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108596758A true CN108596758A (zh) | 2018-09-28 |
Family
ID=63619635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810414526.2A Pending CN108596758A (zh) | 2018-05-03 | 2018-05-03 | 一种基于归类规则分类器的信用评级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596758A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060144A (zh) * | 2019-03-18 | 2019-07-26 | 平安科技(深圳)有限公司 | 额度模型训练方法、额度评估方法、装置、设备及介质 |
CN110223162A (zh) * | 2019-05-24 | 2019-09-10 | 东方银谷(北京)科技发展有限公司 | 基于数据集优化的信用评估方法及装置 |
CN110413658A (zh) * | 2019-07-23 | 2019-11-05 | 中经柏诚科技(北京)有限责任公司 | 一种基于关联规则的事实证据链构建方法 |
CN110472817A (zh) * | 2019-07-03 | 2019-11-19 | 西北大学 | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 |
CN111078749A (zh) * | 2019-11-28 | 2020-04-28 | 北京明略软件系统有限公司 | 一种训练模型的方法、装置、实现信息排查及装置 |
WO2020177477A1 (zh) * | 2019-03-07 | 2020-09-10 | 阿里巴巴集团控股有限公司 | 一种信用服务推荐方法、装置及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893766A (zh) * | 2016-04-06 | 2016-08-24 | 成都数联易康科技有限公司 | 基于数据挖掘的分级诊疗评估方法 |
-
2018
- 2018-05-03 CN CN201810414526.2A patent/CN108596758A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893766A (zh) * | 2016-04-06 | 2016-08-24 | 成都数联易康科技有限公司 | 基于数据挖掘的分级诊疗评估方法 |
Non-Patent Citations (2)
Title |
---|
任铮: "基于数据挖掘和规划识别的入侵检测技术的应用和研究", 《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》 * |
赵月爱 等: "AdaBoost 算法在网络入侵检测中的实验研究", 《计算机应用与软件》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020177477A1 (zh) * | 2019-03-07 | 2020-09-10 | 阿里巴巴集团控股有限公司 | 一种信用服务推荐方法、装置及设备 |
CN110060144A (zh) * | 2019-03-18 | 2019-07-26 | 平安科技(深圳)有限公司 | 额度模型训练方法、额度评估方法、装置、设备及介质 |
CN110060144B (zh) * | 2019-03-18 | 2024-01-30 | 平安科技(深圳)有限公司 | 额度模型训练方法、额度评估方法、装置、设备及介质 |
CN110223162A (zh) * | 2019-05-24 | 2019-09-10 | 东方银谷(北京)科技发展有限公司 | 基于数据集优化的信用评估方法及装置 |
CN110472817A (zh) * | 2019-07-03 | 2019-11-19 | 西北大学 | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 |
CN110413658A (zh) * | 2019-07-23 | 2019-11-05 | 中经柏诚科技(北京)有限责任公司 | 一种基于关联规则的事实证据链构建方法 |
CN111078749A (zh) * | 2019-11-28 | 2020-04-28 | 北京明略软件系统有限公司 | 一种训练模型的方法、装置、实现信息排查及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108335200A (zh) | 一种基于特征选取的信用评级方法 | |
CN108596758A (zh) | 一种基于归类规则分类器的信用评级方法 | |
CN110009479A (zh) | 信用评价方法及装置、存储介质、计算机设备 | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN109409677A (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
CN108648074A (zh) | 基于支持向量机的贷款评估方法、装置及设备 | |
Koh et al. | A two-step method to construct credit scoring models with data mining techniques | |
CN109492945A (zh) | 企业风险识别监控方法、装置、设备及存储介质 | |
CN110322085A (zh) | 一种客户流失预测方法和装置 | |
US10521748B2 (en) | Retention risk determiner | |
CN108564466A (zh) | 一种信用评级方法 | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
CN108491511A (zh) | 基于图数据的数据挖掘方法和装置、模型训练方法和装置 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN112559900B (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
AU2018101523A4 (en) | A personal credit scoring model based on machine learning method | |
CN103839183A (zh) | 智能授信方法及智能授信装置 | |
CN111062834A (zh) | 纠纷案件实体识别方法、装置、计算机设备及存储介质 | |
Cao et al. | Bond rating using support vector machine | |
CN110232154A (zh) | 基于随机森林的产品推荐方法、装置及介质 | |
CN104732246B (zh) | 一种半监督协同训练高光谱图像分类方法 | |
Daneshmandi et al. | A hybrid data mining model to improve customer response modeling in direct marketing | |
CN114092215B (zh) | 一种出口退税贷款的审核方法及系统 | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
Oyewola et al. | Comparative analysis of linear, non-linear and ensemble machine learning algorithms for credit worthiness of consumers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200515 Address after: Guanxi Town, Dingcheng District, Changde, Hunan Province Applicant after: Hunan Huda Jinke Technology Development Co., Ltd Address before: Yuelu District City, Hunan province 410082 Changsha Lushan South Road, Hunan University College of information science and Engineering Applicant before: HUNAN University |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |
|
RJ01 | Rejection of invention patent application after publication |