CN108564466A - 一种信用评级方法 - Google Patents
一种信用评级方法 Download PDFInfo
- Publication number
- CN108564466A CN108564466A CN201810415695.8A CN201810415695A CN108564466A CN 108564466 A CN108564466 A CN 108564466A CN 201810415695 A CN201810415695 A CN 201810415695A CN 108564466 A CN108564466 A CN 108564466A
- Authority
- CN
- China
- Prior art keywords
- ripper
- characteristic attribute
- rating
- classification
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种信用评级方法,步骤包括:S1.获取用户信用信息集,提取各信息的特征属性构成特征属性集;S2.对特征属性集执行多次RIPPER分类,每次RIPPER分类后对特征属性进行筛选,重新进行RIPPER分类,直至得到所需的特征属性集;S3.对特征属性集进行二次筛选,得到最终的特征属性集并进行RIPPER分类,输出最终的RIPPER评级模型;S4.输入待评估用户的信用信息并提取特征属性,输入至RIPPER评级模型中进行分类,得到信用评级结果。本发明结合RIPPER分类以及两次特征筛选构建评级模型,实现方法简单,可便于获取易于理解的评级规则,且可以极大的减少数据处理量,提高评级效率及性能。
Description
技术领域
本发明涉及信用评估技术领域,尤其涉及一种信用评级方法。
背景技术
信用评级即是由独立的第三方信用评级中介机构对债务人如期足额偿还债务本息的能力和意愿进行评价,并用简单的评级符号表示其违约风险和损失的严重程度,或者对评级对象履行相关合同和经济承诺的能力和意愿的总体评价。授信机构接受客户信用申请时,利用客户提交的申请表中的特征变量建立评分模型得到申请者的一个信用值,将该值与事先设定的标准值相比,判断该借款人逾期的可能性,从而决定是否授出信用及授信额度,该类信用评分即为申请评分。申请评分的评分方法主要依据为客户个人信息,主要分为四个部分:一是个人的基本信息,主要包括客户的姓名、工作情况、居住地址、教育程度等;二是个人的交易记录,主要是客户与金融机构的业务发生情况;三是客户的个人信用历史,主要是个人从金融机构贷款情况、偿还贷款情况等;四是公开记录情况,主要是法院关于客户的公开判决或破产情况等。在获取个人信用信息之后,授信机构通过建立个人信用评分模型得到客户的信用评分,信用评分表明了客户相应的信用等级,而授信机构则依据此信用评分给与客户不同的授信额度。
对新提交申请的用户,需要根据提供的相关信息来对用户进行信用评级,目前对用户的信用评级主要都是使用信用评分卡或者机器学习两种方式,但是基于评分卡的评级方式太过于泛化,对于个体的评分精度效果较差,而基于机器学习的评级方式则存在解释困难,决策者难以直观的理解其中的规则,导致决策难的问题,且通常都是采用经验型人工特征选取方式或简单的特征选取算法,一个分类任务的输入数据集合的大小可以由两个参数来描述:特征数N和实例数P,分析的数据往往N和P都很大,N和P的过大会造成“维数灾难”和“组合爆炸”,上述特征选取方式对于多维特征属性,会导致任务量大、分类算法实现复杂、依赖性强且不够灵活等问题,从而降低分类效率,不适用于实时性要求较高的信用评级应用中。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、应用灵活、可便于获取易于理解的评级规则且数据处理量小、评级效率及精度高的信用评级方法。
为解决上述技术问题,本发明提出的技术方案为:
一种信用评级方法,步骤包括:
S1.特征提取:获取用于模型训练的用户信用信息集,分别提取所述用户信用信息集中各信息对应的特征属性构成特征属性集;
S2.一次分类:对所述特征属性集执行多次RIPPER(规则归纳学习)分类,每次RIPPER分类后根据分类结果对特征属性集中特征属性进行筛选,将筛选后的特征属性集重新进行RIPPER分类,直至生成所需的RIPPER模型,得到所需的特征属性集输出;
S3.二次筛选:根据各特征属性对违约发生率的贡献程度,对所述步骤S2输出的特征属性集进行二次筛选,得到最终的特征属性集并进行RIPPER分类,输出最终的RIPPER评级模型;
S4.信用评级:输入待评估用户的信用信息并提取对应的特征属性,将提取到的特征属性输入至所述RIPPER评级模型中进行分类,得到信用评级结果输出。
作为本发明的进一步改进:所述步骤S2中具体通过每次RIPPER分类后删除出现次数小于指定阈值的特征属性,得到筛选后的特征属性集重新进行RIPPER分类,直至生成的RIPPER评级模型的精度或特征数量达到预设要求,得到所需的RIPPER模型输出。
作为本发明的进一步改进,所述步骤S2中生成所需的RIPPER模型的具体步骤为:
S21.对当前特征属性集使用RIPPER分类器进行分类,根据分类结果中每个特征属性出现的次数统计各特征属性的权重,并按照统计的权重对各特征属性进行排序,得到排序后特征属性集;
S22.将所述排序后特征属性集中出现次数小于预设阈值的特征属性删除,得到更新后的特征属性集;
S23.将所述步骤S22得到的更新后的特征属性集进行RIPPER分类,判断当前得到的RIPPER评级模型的精度或特征数量是否达到预设要求,如果是,得到所需的RIPPER模型输出,否则返回执行步骤S21。
作为本发明的进一步改进:所述步骤S3中采用PCA特征选取方法进行二次筛选,以按照重要程度选取出指定的特征属性来代表整个特征属性集。
作为本发明的进一步改进,所述采用PCA(主成分分析)特征选取方法进行二次筛选时,具体分别计算特征属性集中两两特征属性之间的协方差,得到协方差矩阵,根据所述协方差矩阵计算对应的特征值、特征向量,并选取最大的指定个特征值对应的特征向量构成最终的特征属性集。
作为本发明的进一步改进:所述步骤S2中具体使用十折交叉验证方式进行训练以避免模型过拟合,即将训练集分为10份,将其中9份作为训练数据、另一份作为测试数据,经过多次迭代后,选取在不同测试集上分类精度均达到指定阈值所对应的模型作为当前训练得到的所述RIPPER评级模型输出。
作为本发明的进一步改进:所述步骤S2中还包括使用ROC曲线进行对得到的所述RIPPER评级模型进行评估,若所述RIPPER评级模型对应计算到的ROC曲线下的面积在预设范围内,输出最终的RIPPER评级模型,否则重新进行训练。
作为本发明的进一步改进,所述步骤S1中的具体步骤为:
S11.提取所述用户信用信息集中各原始信用信息对应的特征属性,得到特征属性集,对所述特征属性集进数据预处理后输出;
S12.将所述特征属性集中不同的离散属性进行统一后输出;
S13.将所述步骤S12输出的特征属性集进行分类评级后构成训练集输出。
作为本发明的进一步改进:所述步骤S4中将提取到的特征属性输入至所述RIPPER评级模型中进行分类时,具体由所述RIPPER评级模型输出初始信用评级结果,根据所述初始信用评级结果以及所述RIPPER评级模型在进行分类过程中的分类规则得到最终的评级结果输出。
作为本发明的进一步改进:所述步骤S2中生成RIPPER模型时,具体基于Adaboost(Adaptive Boostin,自适应增强)算法使用多个RIPPER分类器作为弱分类器训练得到,且每个RIPPER分类器训练时,选择部分训练集样本以及上一个RIPPER分类器得到的部分错误样本组合构成最终的训练样本,由训练完成后的各弱分类器得到ADB强分类器并作为最终的RIPPER模型
与现有技术相比,本发明的优点在于:
1)本发明信用评级方法,充分利用RIPPER的伸缩性、规则化等特性,通过构建RIPPER评级模型对新用户的信用进行评级,评级效率高、评级性能好,相比于传统的评分卡方式,可针对不同个体给出精确的评级,且相比于传统的机器学习评级方式,在使用RIPPER评级模型对新用户进行评级时,基于RIPPER分类可以方便的获取其中的分类规则且该分类规则易于用户理解,从而便于决策者给出最终决策,同时结合RIPPER分类与两次特征筛选实现评级模型的构建,能够极大的减少多维特征训练的任务量,提高模型评级效率及精度。
2)本发明信用评级方法,构建RIP评级模型时使用两次特征选取,在每次执行RIPPER分类后根据分类结果进行特征属性一次筛选,再由对违约发生率的贡献程度对进行特征属性二次筛选,能够基于特征属性与RIPPER分类器本身的特性选取有效特征,实现智能、精确的有效特征选取,从而最大限度的减少多维特征训练的任务量,提高模型评级效率及性能。
3)本发明信用评级方法,通过在每次RIPPER分类后删除出现次数小于指定阈值的特征属性,可以去除不相关和冗余特征使特征数减少,由于特征数的减少,还可以去掉重复的实例,从而可以有效地避免“维数灾难”和“组合爆炸”,同时由于特征数和实例的减小,可以减少模型学习的时间,从而进一步提高评级效率。
4)本发明信用评级方法,通过在基于RIPPER分类进行一次特征选取的基础上,再采用PCA特征选取方法来判别各个特征属性对违约发生率的贡献程度,以实现二次筛选,实现方法简单,可以进一步有效减小模型训练任务量,提高模型评级效率。
附图说明
图1是本实施例信用评级方法的实现流程示意图。
图2是本实施例采用的RIPPER分类算法中建立决策树的原理示意图。
图3是本实施例采用的RIPPER分类算法中进行规则删减的原理示意图。
图4是本发明具体实施例中实现信用评级的详细流程示意图。
图5是本发明具体实施例中得到的ROC曲线示意图。
图6是本发明具体实施例中基于Ripper-ADB组合分类训练RIPPER评级模型的实现原理示意图。
图7是本发明具体实施例中与传统评分卡的准确率对比曲线示意图。
图8是本发明具体实施例中与逻辑回归学习算法的准确率对比曲线示意图。
图9是具体实施例中三种评分方法的准确率对比曲线示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例信用评级方法步骤包括:
S1.特征提取:获取用于模型训练的用户信用信息集,分别提取用户信用信息集中各信息对应的特征属性构成特征属性集;
S2.一次分类:对特征属性集执行多次RIPPER分类,每次RIPPER分类后根据分类结果对特征属性集中特征属性进行筛选,将筛选后的特征属性集重新进行RIPPER分类,直至生成所需的RIPPER模型,得到所需的特征属性集输出;
S3.二次筛选:根据各特征属性对违约发生率的贡献程度,对步骤S2输出的特征属性集进行二次筛选,得到最终的特征属性集并进行RIPPER分类,输出最终的RIPPER评级模型;
S4.信用评级:输入待评估用户的信用信息并提取对应的特征属性,将提取到的特征属性输入至RIPPER评级模型中进行分类,得到信用评级结果输出。
RIPPER为基于规则的分类算法,分类所建立的决策树如图2所示,可以从叶节点逐条找寻根节点的规则,如图3所示,如果对图3(a)所示的规则进行冗余性删减,根据规则的规模序(把最高优先权赋予具有“最苛刻”要求的被触发的规则),当判断完第一条规则不符合时,去掉第二条规则的humidity=normal,同理可以去掉第四条、第五条规则中的outlook=rainy、outlook=rainy and windy=true,结果如图3(b)所示。RIPPER中每条RIPPER规则由一些规则前件组成,包括了更好的剪枝和停止准则以及对规则集合后的处理,即是采用递增减少误差修剪算法,将训练集的实例分为两个数据集:成长集和修剪集,成长集用于产生规则,增加条件直到规则符合要求,修剪集用于修建规则,删除规则中的条件,直到得到更好的规则;然后对规则价值进行评价,移除最后条件看价值是否变化,如果没有变化,就继续移除条件,直到得到最好的分类器版本。
RIPPER的准确度高、规则创建性能好,具有伸缩性、规则化特性,且RIPPER算法的效率和训练数据集的样本个数成线性,其时间复杂度为O(nlog2n),更重要的是可以在包含几十万噪声数据的测试集上仍然保持很高的效率,同时RIPPER分类的决策规则是面向用户的,分类器能够产生分类规则,且产生的分类规则对用户而言是较易于理解的,即RIPPER算法具有伸缩性、规则化特性。
本实施例充分利用RIPPER的伸缩性、规则化等特性,通过提取用户信用信息的特征属性,使用RIPPER分类器进行多次分类以构建RIPPER评级模型,再使用该RIPPER评级模型对新用户的信用进行评级,评级效率高、评级性能好,相比于传统的评分卡方式,可针对不同个体给出精确的评级,且相比于传统的机器学习评级方式,在使用RIPPER评级模型对新用户进行评级时,可以方便的获取其中的分类规则且该分类规则易于理解,从而便于决策者给出最终决策,同时在每次执行RIPPER分类后根据分类结果筛选特征属性,再得到所需模型后再由对违约发生率的贡献程度进行二次筛选,能够基于特征属性与RIPPER分类器本身的特性实现智能、精确的有效特征选取,结合RIPPER分类与两次特征筛选实现评级模型的构建,能够极大的减少多维特征训练的任务量,提高模型评级效率及精度。
本实施例中,步骤S1中的具体步骤为:
S11.提取用户信用信息集中各原始信用信息对应的特征属性,得到特征属性集,对特征属性集进数据预处理后输出;
S12.将特征属性集中不同的离散属性进行统一后输出;
S13.将步骤S12输出的特征属性集进行分类评级后构成训练集输出。
本实施例从原始用户数据库中提取用户关于信用信息的数据后,首先提取各项信用信息对应的特征属性,即表征各信用信息的特征值,构成特征属性集,将特征属性集进行数据预处理后,将不同的离散属性进行统一,然后对特征属性集的分类标签进行分类评级标注,如使用AA,A,B,C,D,E,F作为评级标注,构成符合RIPPER评级模型需求的训练集,将训练集随机打乱分配后后续再使用RIPPER分类器对训练集进行多次分类迭代,每次分类后根据分类结果将特征属性进行筛选,直到得到所需RIPPER评级模型。
本实施例中,用户信用信息具体包括用户基础信息、借款信息、用户历史指定时间段内还款逾期信息、用户未来指定之间段内还款信息、用户投标信息、用户负债信息等,基础信息包括姓名、性别、文化程度等还款信息包括成功还款次数、,正常还清次数、逾期指定天数内的还清次数、逾期超过指定天数的还清次数等,借款信息包括成功借款次数、第一次成功借款时间、累计借款金额,待还金额、单笔最高借款金额等,负债信息包括历史最高负债信息等,用户信用信息具体可根据实际需求提取各类可表征用户信用的信息数据。
本实施例中,步骤S11进行数据预处理时,具体包括将特征属性集中缺失值进行填充处理,特征属性集中冗余值、异常值进行删除处理,缺失值进行填充处理时,具体对集中型缺失值使用中位数、众数或拉格朗日插值等填充方式,对离散型缺失值使用上下文填充等方式,当然还可以根据实际需求采用其他填充处理方式。
本实施例中,步骤S2中具体通过每次RIPPER分类后删除出现次数小于指定阈值的特征属性,得到筛选后的特征属性集重新进行RIPPER分类,直至生成的RIPPER评级模型的精度或特征数量达到预设要求,得到所需的RIPPER模型输出。本实施例通过在每次RIPPER分类后删除出现次数小于指定阈值的特征属性,即删除不出现或出现次数较少的特征属性,以去除不相关和冗余特征使特征数减少,即特征数N的值变小,由于特征数的减少,还可以去掉一些重复的实例,使实例数P也减小,从而可以有效地避免“维数灾难”和“组合爆炸”,同时由于N和P的减小,可以减少算法学习的时间,从而进一步提高评级效率。
本实施例中,RIPPER评级模型生成时,具体当生成的RIPPER评级模型的精度(准确度)不再发生变化,或特征属性个数达到预设数量时,得到最终的RIPPER评级模型输出,即将模型的精度或特征属性个数作为模型训练完成的判断标准。
本实施例中,步骤S2中生成RIPPER评级模型的具体步骤为:
S21.对当前特征属性集使用RIPPER分类器进行分类,根据分类结果中每个特征属性出现的次数统计各特征属性的权重,并按照统计的权重对各特征属性进行排序,得到排序后特征属性集;
S22.将排序后特征属性集中出现次数小于预设阈值的特征属性删除,得到更新后的特征属性集;
S23.将步骤S22得到的更新后的特征属性集进行RIPPER分类,判断当前得到的RIPPER评级模型的精度或特征数量是否达到预设要求,如果是,得到最终的RIPPER评级模型输出,否则返回执行步骤S21。
本实施例实现基于特征提取训练RIPPER评级模型时,具体首先根据RIPPER分类将所有特征属性集数据进行训练,如当用户信用信息判断为均满足指定条件时评级结果为AA级别等;
再在每次RIPPER分类后,使用python等方式统计RIPPER分类规则中每个特征属性的权重,即特征属性出现的次数,将在所有出现的规则中没有出现或者出现次数较少的特征属性删除,得到新的特征属性集重新进行RIPPER分类,判断此次分类的准确率是否比上一次的准确率高,如果是,则保留当前的属性,否则重置属性,并重新挑选出现次数较少的属性作为删除候选项,重复执行以上步骤直到准确率无法更新或者达到所需要的特征数量,完成模型的训练,输出最终所需的RIPPER模型,能够确保RIPPER模型的性能,同时减少训练任务量及复杂度。
在具体应用实施例中,进行特征选取时,可先定义原始特征属性集D、所要保留的属性个数K以及筛选后的特征属性集S,构建Si个属性RIPPER分类器,得出分类规则结果Ci,完成分类后统计每个属性的权重,生成字典Di,如果目标属性的出现次数小于给定阈值,删除该属性,直至筛选得到K个属性,得到筛选后的特征属性集S。
本实施例进行一次特征选取时,通过结合数据集中特征属性与RIPPER分类器选取特征,能够从分类器及数据集本身特性出发实现特征选取,使得可以极大的减少RIPPER评级模型的训练任务量,同时不会影响模型的性能。
本实施例通过RIPPER分类对特征属性集进行一次筛选后再进行二次筛选,以进一步减小模型训练任务量。步骤S3中进行二次筛选时,具体采用PCA特征选取方法进行二次筛选,以按照重要程度选取出指定的特征属性来代表整个特征属性集,本实施例在一次特征选取基础上,再采用PCA特征选取方法判别各个备选指标变量对解释借款人违约发生率的贡献程度,从而达到对指标变量进行二次筛选的目的,PCA算法通过降维对特征属性进行分析,可以把最重要的特征属性筛选出来代表整个数据集,可以减少维数多带来的运算复杂度,从而可以最大限度的减少模型训练任务量,提高模型的效率。
本实施例中,采用PCA特征选取方法进行二次筛选时,具体分别计算特征属性集中两两特征属性之间的协方差,计算公式即为:
其中Xi为某个属性的数据值;为该字段的均值;Yi为另一个属性的数据值;为该字段的均值。
得到协方差矩阵:
矩阵C中的第(i,j)个元素是特征属性集中第i个和第j个元素的协方差。
根据协方差矩阵C分别计算各矩阵元素对应的特征值、特征向量,并选取最大的指定个特征值对应的特征向量构成最终的特征属性集,得到的协方差矩阵。
协方差是度量两个变量的变动的同步程度,也就是度量两个变量线性相关性程度,如果两个变量的协方差为0,则统计学上认为二者线性无关,如果协方差大于0表示一个变量增大是另一个变量也会增大,即正相关,协方差小于0表示一个变量增大时另一个变量会减小,即负相关,则由两两特征属性之间协方差的大小可以表示属性之间的相关性,则选取最大k个特征值对应的特征属性,可以保留相关性最大的特征属性。
本实施例中,步骤S2中进行训练时具体使用十折交叉验证方式以避免模型过拟合,即将训练集分为10份,将其中9份作为训练数据、另一份作为测试数据,经过多次迭代后,选取在不同测试集上分类精度均达到指定阈值所对应的模型作为所需的RIPPER评级模型。如在具体实施例中,将训练集的数据分为a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,其a1,a2,a3,a4,a5,a6,a7,a8,a9作为训练数据,a10作为测试集,或者其他组合方式,经过多次迭代后,选取在不同测试集上都表现良好的模型作为最终模型。通过使用十折交叉验证方式,由于测试集是采用原数据的一部分,并不是训练集的一部分,含有很多不确定性,相比于传统的直接使用全部训练集数据进行训练,再用一部分已经训练过的数据作为测试集,可以避免模型过拟合。
本实施例中,步骤S2中还包括使用ROC曲线进行对得到的RIPPER评级模型进行评估,若RIPPER评级模型对应计算到的ROC曲线下的面积在预设范围内,输出最终的RIPPER评级模型,否则重新进行训练。使用ROC曲线可以有效反映模型的性能,ROC曲线下的面积越大,对应的模型性能越好,本实施例在初始训练得到RIPPER评级模型后,计算模型的ROC曲线,再使用ROC曲线对模型进行评估,在具体应用实施例中计算得到的ROC曲线如图4所示,ROC曲线下的面积AUC为0.9403,符合模型性能需求,即通过ROC曲线进行模型评估,实现方法简单有效,可以确保RIPPER评级模型的性能。
本实施例步骤S2中使用RIPPER分类器进行分类时,具体将包含用户信用特征属性的训练集中不属于规则的数据项随机的分为增长集和缩减集两个子集,对增长集执行规则的扩张过程时,初始把规则的条件置空,再反复的加入如下公式(1)的条件,以使得信息增益Gain(D,At)达到更大的值,并提高规则对数据项的覆盖面,直到规则涵盖了增长数据集中的所有数据项,At为树的每个节点;
Ad=v,An≤θ或An≥θ (1)
Ad是字符型的属性,v是Ad的一个有效值;An是实数型的变量,θ是在训练集中出现的An的有效值。
对缩减集执行规则缩减过程时,依次从规则的条件中剔除最后一个条件,使函数值v达到最大,函数v的表达式为:
p裁剪集中被规则覆盖的肯定的样本数;n裁剪集中被规则覆盖的否定的样本数。
重复执行上述式(2)过程直到通过缩减条件和删除规则无法使v的值增大为止,生成RIPPER评级模型及分类规则。
本实施例中,步骤S4中将提取到的属性值输入至RIPPER评级模型中进行分类时,具体由RIPPER评级模型输出初始信用评级结果,根据初始信用评级结果以及RIPPER评级模型在进行分类过程中的分类规则得到最终的评级结果输出。由于RIPPER分类过程中的分类规则易于理解,本实施例在使用RIPPER评级模型获得初始评级结果后,结合RIPPER分类规则生成最终的评级结果,能够结合RIPPER分类实现更为合理的评级。
如图5所示,本实施例首先由模型生成模块获取用户信用信息集进行模型训练,提取用户信用信息集中特征属性得到特征属性数据集后,对特征属性集进行预处理,使用RIPPER分类器对特征属性数据集进行分类,每次分类后判断分类效果是否满足要求,如果为否,对产生的分类规则进行权重统计,即统计各特征属性出现的次数,若特征属性的权重小于等于预设阈值,删除该属性,得到新的特征属性数据集重新进行RIPPER分类器,直至分类结果满足要求,完成一次特征选取;然后再进一步提取上述得到的特征属性数据集的IV值,IV值表示了信息的价值,用来衡量变量的预测能力,如果一个变量蕴含的信息越多,那么它对于判断结果的贡献度就越大,删除IV值小于预设阈值的属性,生成最终的评级模型及规则;对新用户进行信用评级时,将新用户信息输入至模型生成模块生成的评级模型及规则中,输出评级结果,决策者根据模型的评级结果以及规则生成最终的评级结果,完成用户的信用评级。
本实施例中,生成RIPPER模型时,具体基于Adaboost算法使用多个RIPPER分类器作为弱分类器训练得到,且每个RIPPER分类器训练时,选择部分训练集样本以及上一个RIPPER分类器得到的部分错误样本组合构成最终的训练样本,由训练完成后的各弱分类器得到ADB强分类器并作为最终的RIPPER模型。Adaboost算法具有很强强循环学习能力,能够较好的把弱分类器进行组合加强,本实施例通过结合Adaboost算法与框架RIPPER分类器训练分类模型,实现Ripper-ADB的组合分类方法,使得能够兼具Adaboost算法与RIPPER分类器的性能优势,进一步提高分类评级性能,同时训练时只选择部分训练子集样本以及上一个弱分类器得到的部分错误样本组合构成最终的训练样本进行训练,可以实现循环叠加样本的训练方式,由于每次只选择部分等分样本进行训练,使得扩充的错误样本是定值,不会成倍数增长,且由于全部数据进行等分后,每一份数据都会进行叠加训练,不会遗漏抽样数据,可以确保训练完整,同时每次进行错误样本扩充时,不仅对错误数据起到了累积训练的作用,而且由于新样本的加入,可以避免反复错误的数据过分的训练。
如图6所示,在具体应用实施例中基于Ripper-ADB组合分类训练RIPPER评级模型的具体流程为:
①首先按照迭代次数将训练集样本进行等分,得到N份训练子集样本S1,S2,…Sn;
②将第一份训练样本S1使用Ripper算法进行分类训练,得到分类器a1、错误样本R1;
③对a1的分类结果进行统计计算,得到a1分类器的权重w1;
④将a1错分的样本R1按照与等份样本相同的量级(50%)进行重复抽样扩充,得到扩充的错误样本R1p;
⑤将扩充的错误样本R1p添加到第二份训练样本S2中,得到新的样本S2R;
⑥对新样本S2R再进行Ripper算法的分类训练,产生分类器a2、错误样本w2;
⑦对分类器a2的分类结果进行统计计算,得到a2分类器的权重w2。
⑧重复上述步骤直到所有样本训练完毕;
⑨将所有训练的加权分类器进行叠加,构成最终的强分类器Ripper-ADB,得到最终的RIPPER评级模型。
以下以应用本发明上述方法对指定数据库中用户信息进行信用评级对本发明进行进一步说明,详细步骤为:
步骤1:将指定数据库中关于用户信息的数据提取,提取特征属性后进行属性预处理。
步骤2:将不同的表之间的数据用唯一关键字用户ID相关联,如可先将所要整合的数据表读入内存中,建立数据表的数组后,循环遍历数组,按照用户ID进行关联合并操作。
步骤3:将步骤2处理后的数据中数值缺失值进行填充处理,对于集中型缺失值使用中位数、众数或拉格朗日插值方式处理,对于离散型缺失值使用上下文填充等方法处理。
步骤4:将不同的离散属性单位进行统一,如贷款期限属性中的数值不统一,包含有多少个月和多少个天两种,需要均转化为统一格式(如月为单位):遍历该期限属性中的每一个数值,如果数字后面是‘个月’则去掉数值后面的文字:‘个月’,如果是“天”则转化为以月为单位的数值进行保存输出。
步骤5:将数据集使用AA,A,B,C,D,E,F分类标签进行评级标注,得到特征属性集。
步骤6:使用RIPPER分类器对特征属性集进行RIPPER分类,得到分类结果;
步骤7:根据分类结果(规则)统计各特征属性的权重,并进行属性权重排序,删除权重较小的特征属性后重新进行RIPPER分类;
步骤8:重复执行步骤6,7,并判断分类准确率是否变化或者是否达到想要的特征属性个数,直至得到所需的RIPPER评级模型;
步骤9:再对步骤8得到的特征属性计算IV值以进行二次筛选,将二次筛选后得到的最终特征属性集进行RIPPER分类,生成最终RIPPER评级模型;
步骤10:使用ROC曲线进行对步骤9得到的RIPPER评级模型进行评估,该RIPPER评级模型包括代码模型以及RIPPER规则;
步骤11:将待评估的新用户信息输入至步骤9得到的RIPPER评级模型中,输出评级结果,决策者根据评级结果给出最终的评级。
为验证本发明上述信用评级方法的有效性,分别采用传统的信用评分卡、基于逻辑回归模型的评分方法以及本发明方法对同一数据库中各用户的信用进行评级,采用本发明评级方法在不同特征数量时与评分卡得到的结果对比如表1所示,得到的准确率对比曲线如图7所示。
表1:与评分卡的评分结果对比。
从表1、图7中可以看出,由于评分卡的特征属性是稳定不变的固定量,因而使用评分卡的准确率基本稳定在87%左右,而采用本发明上述评级方法,由于是根据数据本身的特点结合分类器的性能进行特征属性筛选,能够更加智能、贴切、准确的做出筛选判断,在筛选到大于54个特征属性后准确率高于评分卡,且随着筛选的特征属性量的增大,评分也更为准确,当属性接近于30时,分类趋于稳定,再通过IV值特征选取时,达到最后27个属性的,分类准确率能够达到91.45的良好评级系统。
采用本发明评级方法在不同特征数量时与评分卡得到的结果对比如表2所示,得到的准确率对比曲线如图8所示:
表2:与逻辑回归的评分结果对比。
逻辑回归机器学习算法即是单一采用IV值进行特征选取,由于IV值方法没有考虑特征属性对于不同分类器的影响效果,其只对于数据负责。从表2、图8中可以看出,本发明评级方法与逻辑回归机器学习算法对比,随着特征属性的筛选,本发明评级方法具有更高的评分精度。分别采用传统的信用评分卡、基于逻辑回归模型的评分方法以及本发明方法得到的准确度对比结果如图9所示,从图中可以看出,无论是相比于传统的信用评分卡,还是基于逻辑回归模型的评分方法,本发明都具有更好的评分性能。采用本发明信用评级方法,不仅能够在大数据下有很好的伸缩性,采用两次筛选的特征选取方法也能够贴合分类器的算法特性,从而有效的提高分类器的分类准确率。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。
Claims (10)
1.一种信用评级方法,其特征在于,步骤包括:
S1.特征提取:获取用于模型训练的用户信用信息集,分别提取所述用户信用信息集中各信息对应的特征属性构成特征属性集;
S2.一次分类:对所述特征属性集执行多次RIPPER分类,每次RIPPER分类后根据分类结果对特征属性集中特征属性进行筛选,将筛选后的特征属性集重新进行RIPPER分类,直至生成所需的RIPPER模型,得到所需的特征属性集输出;
S3.二次筛选:根据各特征属性对违约发生率的贡献程度,对所述步骤S2输出的特征属性集进行二次筛选,得到最终的特征属性集并进行RIPPER分类,输出最终的RIPPER评级模型;
S4.信用评级:输入待评估用户的信用信息并提取对应的特征属性,将提取到的特征属性输入至所述RIPPER评级模型中进行分类,得到信用评级结果输出。
2.根据权利要求1所述的信用评级方法,其特征在于,所述步骤S2中具体通过每次RIPPER分类后删除出现次数小于指定阈值的特征属性,得到筛选后的特征属性集重新进行RIPPER分类,直至生成的RIPPER评级模型的精度或特征数量达到预设要求,得到所需的RIPPER模型输出。
3.根据权利要求2所述的信用评级方法,其特征在于,所述步骤S2中生成所需的RIPPER模型的具体步骤为:
S21.对当前特征属性集使用RIPPER分类器进行分类,根据分类结果中每个特征属性出现的次数统计各特征属性的权重,并按照统计的权重对各特征属性进行排序,得到排序后特征属性集;
S22.将所述排序后特征属性集中出现次数小于预设阈值的特征属性删除,得到更新后的特征属性集;
S23.将所述步骤S22得到的更新后的特征属性集进行RIPPER分类,判断当前得到的RIPPER评级模型的精度或特征数量是否达到预设要求,如果是,得到所需的RIPPER模型输出,否则返回执行步骤S21。
4.根据权利要求1~3中任意一项所述的信用评级方法,其特征在于,所述步骤S3中采用PCA特征选取方法进行二次筛选,以按照重要程度选取出指定的特征属性来代表整个特征属性集。
5.根据权利要求4所述的信用评级方法,其特征在于,所述采用PCA特征选取方法进行二次筛选时,具体分别计算特征属性集中两两特征属性之间的协方差,得到协方差矩阵,根据所述协方差矩阵计算对应的特征值、特征向量,并选取最大的指定个特征值对应的特征向量构成最终的特征属性集。
6.根据权利要求1~3中任意一项所述的信用评级方法,其特征在于,所述步骤S2中具体使用十折交叉验证方式进行训练以避免模型过拟合,即将训练集分为10份,将其中9份作为训练数据、另一份作为测试数据,经过多次迭代后,选取在不同测试集上分类精度均达到指定阈值所对应的模型作为当前训练得到的所述RIPPER评级模型输出。
7.根据权利要求1~3中任意一项所述的信用评级方法,其特征在于,所述步骤S2中还包括使用ROC曲线进行对得到的所述RIPPER评级模型进行评估,若所述RIPPER评级模型对应计算到的ROC曲线下的面积在预设范围内,输出最终的RIPPER评级模型,否则重新进行训练。
8.根据权利要求1~3中任意一项所述的信用评级方法,其特征在于,所述步骤S1中的具体步骤为:
S11.提取所述用户信用信息集中各原始信用信息对应的特征属性,得到特征属性集,对所述特征属性集进数据预处理后输出;
S12.将所述特征属性集中不同的离散属性进行统一后输出;
S13.将所述步骤S12输出的特征属性集进行分类评级后构成训练集输出。
9.根据权利要求1~3中任意一项所述的信用评级方法,其特征在于,所述步骤S4中将提取到的特征属性输入至所述RIPPER评级模型中进行分类时,具体由所述RIPPER评级模型输出初始信用评级结果,根据所述初始信用评级结果以及所述RIPPER评级模型在进行分类过程中的分类规则得到最终的评级结果输出。
10.根据权利要求1~3中任意一项所述的信用评级方法,其特征在于,所述步骤S2中生成RIPPER模型时,具体基于Adaboost算法使用多个RIPPER分类器作为弱分类器训练得到,且每个RIPPER分类器训练时,选择部分训练集样本以及上一个RIPPER分类器得到的部分错误样本组合构成最终的训练样本,由训练完成后的各弱分类器得到ADB强分类器并作为最终的RIPPER模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810415695.8A CN108564466A (zh) | 2018-05-03 | 2018-05-03 | 一种信用评级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810415695.8A CN108564466A (zh) | 2018-05-03 | 2018-05-03 | 一种信用评级方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108564466A true CN108564466A (zh) | 2018-09-21 |
Family
ID=63537504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810415695.8A Pending CN108564466A (zh) | 2018-05-03 | 2018-05-03 | 一种信用评级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564466A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245879A (zh) * | 2019-07-02 | 2019-09-17 | 中国农业银行股份有限公司 | 一种风险评级方法及装置 |
WO2020077888A1 (zh) * | 2018-10-16 | 2020-04-23 | 深圳壹账通智能科技有限公司 | 贷款用户信用评分的计算方法、装置和计算机设备 |
CN111161013A (zh) * | 2019-12-09 | 2020-05-15 | 武汉达梦数据库有限公司 | 一种信用评估方法和装置 |
CN113610636A (zh) * | 2021-08-12 | 2021-11-05 | 百融云创科技股份有限公司 | 一种迭代特征筛选方法及系统 |
-
2018
- 2018-05-03 CN CN201810415695.8A patent/CN108564466A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020077888A1 (zh) * | 2018-10-16 | 2020-04-23 | 深圳壹账通智能科技有限公司 | 贷款用户信用评分的计算方法、装置和计算机设备 |
CN110245879A (zh) * | 2019-07-02 | 2019-09-17 | 中国农业银行股份有限公司 | 一种风险评级方法及装置 |
CN111161013A (zh) * | 2019-12-09 | 2020-05-15 | 武汉达梦数据库有限公司 | 一种信用评估方法和装置 |
CN111161013B (zh) * | 2019-12-09 | 2023-04-21 | 武汉达梦数据库股份有限公司 | 一种信用评估方法和装置 |
CN113610636A (zh) * | 2021-08-12 | 2021-11-05 | 百融云创科技股份有限公司 | 一种迭代特征筛选方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108335200A (zh) | 一种基于特征选取的信用评级方法 | |
CN108596758A (zh) | 一种基于归类规则分类器的信用评级方法 | |
Jin et al. | A data-driven approach to predict default risk of loan for online peer-to-peer (P2P) lending | |
CN108564466A (zh) | 一种信用评级方法 | |
CN110009479A (zh) | 信用评价方法及装置、存储介质、计算机设备 | |
CN110322085A (zh) | 一种客户流失预测方法和装置 | |
Koh et al. | A two-step method to construct credit scoring models with data mining techniques | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
Alsubaie et al. | Cost-sensitive prediction of stock price direction: Selection of technical indicators | |
Gahlaut et al. | Prediction analysis of risky credit using Data mining classification models | |
AU2018101523A4 (en) | A personal credit scoring model based on machine learning method | |
CN103839183A (zh) | 智能授信方法及智能授信装置 | |
CN110599336A (zh) | 一种金融产品购买预测方法及系统 | |
Abdou et al. | Prediction of financial strength ratings using machine learning and conventional techniques | |
Cao et al. | Bond rating using support vector machine | |
CN112116448A (zh) | 一种面向三农客户画像的精准营销构建方法 | |
CN111340102B (zh) | 评估模型解释工具的方法和装置 | |
Calvet Liñán et al. | Statistical and machine learning approaches for the minimization of trigger errors in earthquake catastrophe bonds | |
CN110232154A (zh) | 基于随机森林的产品推荐方法、装置及介质 | |
Oyewola et al. | Comparative analysis of linear, non-linear and ensemble machine learning algorithms for credit worthiness of consumers | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
Soni et al. | A novel optimized classifier for the loan repayment capability prediction system | |
Marikkannu et al. | Classification of customer credit data for intelligent credit scoring system using fuzzy set and MC2—Domain driven approach | |
Balaniuk et al. | Corruption risk analysis using semi–supervised naïve Bayes classifiers | |
Campos et al. | Financial credit risk measurement prediction using innovative soft-computing techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200514 Address after: Guanxi Town, Dingcheng District, Changde, Hunan Province Applicant after: Hunan Huda Jinke Technology Development Co.,Ltd. Address before: Yuelu District City, Hunan province 410082 Changsha Lushan South Road, Hunan University College of information science and Engineering Applicant before: HUNAN University |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180921 |
|
RJ01 | Rejection of invention patent application after publication |