CN116051268A - 个人信用评价方法、系统、可读存储介质及计算机设备 - Google Patents

个人信用评价方法、系统、可读存储介质及计算机设备 Download PDF

Info

Publication number
CN116051268A
CN116051268A CN202310064111.8A CN202310064111A CN116051268A CN 116051268 A CN116051268 A CN 116051268A CN 202310064111 A CN202310064111 A CN 202310064111A CN 116051268 A CN116051268 A CN 116051268A
Authority
CN
China
Prior art keywords
data
personal credit
data set
missing
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310064111.8A
Other languages
English (en)
Inventor
黄轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Finance and Economics
Original Assignee
Jiangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Finance and Economics filed Critical Jiangxi University of Finance and Economics
Priority to CN202310064111.8A priority Critical patent/CN116051268A/zh
Publication of CN116051268A publication Critical patent/CN116051268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种个人信用评价方法、系统、可读存储介质及计算机设备,该方法包括:获取个人信用评价数据集,并对个人信用评价数据集进行数据预处理得到第一数据集;计算出第一数据集的特征重要度及信息价值,并根据特征重要度和信息价值对第一数据集进行特征筛选得到优化后的特征变量集;将优化后的特征变量集划分为训练集和验证集,并将训练集输入至信用评分模型中进行模型训练得到个人信用评价模型;构建评分转换规则,并利用评分转换规则和个人信用评价模型对待评价数据进行信用评价。本发明一方面扩展机器学习算法在金融风控领域的应用,另一方面完善了现有的个人用户信用评分理论和方法,为金融机构对个人用户风险评分提供了理论支持。

Description

个人信用评价方法、系统、可读存储介质及计算机设备
技术领域
本发明涉及数字处理技术领域,特别涉及一种个人信用评价方法、系统、可读存储介质及计算机设备。
背景技术
早期银行采用的信用评分方法主要为专家法和统计分析方法,例如Logistic回归和线性判别分析(LDA)。专家法是由专业的信用审核专家依据一些要素决定申请人是否合格,最早出现的专家法为“5C”判别法,即品德与声望(character)、资格与能力(capacity)、资金实力(capital or cash)、担保(collateral)、经营条件或商业周期(condition)。此外还有“5W”判别法、“5P”判别法等。专家法虽然能一定程度的降低金融风险,达到信用评级的目的,但是太过依赖专家的主观判断,不同专家间或许难以达成共识。随着风控研究的发展,研究人员逐渐将特征进行量化,统计分析方法应用到了信用评分领域。
国内外关于信用评分方法的研究大致经历了专家审核、统计学方法和人工智能模型三个阶段。专家法出现在早期的研究中,虽然能一定程度的降低金融风险,达到信用评级的目的,但太过依赖专家的主观判断,不同专家间或许难以达成共识。以Logistics回归、LDA等为代表的统计学方法开始逐渐替代专家法,这种方法优点是可解释性强。但该类方法对数据集的分布和质量要求严格,如果分布不符合前置假设则会造成模型预测精度偏低,从而达不到预计的效果。随着机器学习算法取得越来越好的效果,信用评分方法来到了人工智能模型阶段。
现阶段使用方法以单一模型为主,大多是从模型优化的角度对信用评分模型提出了改进思路。虽然这些模型都有着较好的性能,但单一模型即使算法参数最优,也可能达到预测性能上限。近年来,越来越多的集成模型被应用到信用评分领域,许多研究都证明集成学习算法的优异性能。除此之外,信贷数据往往都存在质量不高、特征维度高的问题。目前从数据处理和特征选择角度对信用评分模型优化的研究较少,大多是从模型和算法角度进行优化。
发明内容
基于此,本发明的目的是提供一种个人信用评价方法、系统、可读存储介质及计算机设备,以至少解决上述技术中的不足。
本发明提出一种个人信用评价方法,包括:
获取个人信用评价数据集,并对所述个人信用评价数据集进行数据预处理,以得到第一数据集;
计算出所述第一数据集的特征重要度以及信息价值,并根据所述特征重要度和所述信息价值对所述第一数据集进行特征筛选,以得到优化后的特征变量集;
将所述优化后的特征变量集划分为训练集和验证集,并将所述训练集输入至信用评分模型中进行模型训练,以得到个人信用评价模型;
构建评分转换规则,并利用所述评分转换规则和所述个人信用评价模型对待评价数据进行信用评价。
进一步的,对所述个人信用评价数据集进行数据预处理的步骤包括:
解析出所述个人信用评价数据集中存在缺失的缺失数据,并计算出所述缺失数据在所述个人信用评价数据集中的缺失比例;
将所述缺失比例大于第一比例阈值以及所述缺失比例小于第二比例阈值的缺失数据删除,并将所述缺失比例处于所述第一比例阈值和所述第二比例阈值之间的缺失数据作为目标标签,所述第一比例阈值大于所述第二比例阈值;
解析出所述个人信用评价数据集中不存在缺失的特征数据,并利用所述特征数据对所述缺失数据进行数据处理。
进一步的,对所述个人信用评价数据集进行数据预处理的步骤包括:
解析出所述个人信用评价数据集中存在异常的异常数据,并采用单变量离群检测法对所述异常数据进行箱线图的绘制;
将所述箱线图按照上下限、上下四分位、中位数以及异常点进行切割,并基于切割结果对所述异常数据进行数据处理。
进一步的,计算出所述第一数据集的特征重要度以及信息价值的步骤包括:
构建梯度下降树模型,并将所述第一数据集输入至所述梯度下降树模型中,以得到所述第一数据集的特征重要度;
利用预设分箱策略对所述第一数据集进行分箱处理,以得到分箱WOE值;
利用所述分箱WOE值和信息价值计算公式计算出所述第一数据集的信息价值。
进一步的,根据所述特征重要度和所述信息价值对所述第一数据集进行特征筛选,以得到优化后的特征变量集的步骤包括:
对所述特征重要度和所述信息价值进行归一化处理,以得到对应的特征重要得分以及信息价值得分;
根据所述特征重要得分以及所述信息价值得分得到对应的综合得分,并根据所述综合得分和预设累计贡献度阈值对所述第一数据集进行特征筛选,以得到优化后的特征变量集。
本发明还提出一种个人信用评价系统,包括:
数据预处理模块,用于获取个人信用评价数据集,并对所述个人信用评价数据集进行数据预处理,以得到第一数据集;
特征筛选模块,用于计算出所述第一数据集的特征重要度以及信息价值,并根据所述特征重要度和所述信息价值对所述第一数据集进行特征筛选,以得到优化后的特征变量集;
模型构建模块,用于将所述优化后的特征变量集划分为训练集和验证集,并将所述训练集输入至信用评分模型中进行模型训练,以得到个人信用评价模型;
信用评分模块,用于构建评分转换规则,并利用所述评分转换规则和所述个人信用评价模型对待评价数据进行信用评价。
进一步的,所述数据预处理模块包括:
缺失数据解析单元,用于解析出所述个人信用评价数据集中存在缺失的缺失数据,并计算出所述缺失数据在所述个人信用评价数据集中的缺失比例;
缺失数据处理单元,用于将所述缺失比例大于第一比例阈值以及所述缺失比例小于第二比例阈值的缺失数据删除,并将所述缺失比例处于所述第一比例阈值和所述第二比例阈值之间的缺失数据作为目标标签,所述第一比例阈值大于所述第二比例阈值;
特征数据解析单元,用于解析出所述个人信用评价数据集中不存在缺失的特征数据,并利用所述特征数据对所述缺失数据进行数据处理。
进一步的,所述数据预处理模块包括:
异常数据解析单元,用于解析出所述个人信用评价数据集中存在异常的异常数据,并采用单变量离群检测法对所述异常数据进行箱线图的绘制;
异常数据处理单元,用于将所述箱线图按照上下限、上下四分位、中位数以及异常点进行切割,并基于切割结果对所述异常数据进行数据处理。
进一步的,所述特征筛选模块包括:
特征重要度计算单元,用于构建梯度下降树模型,并将所述第一数据集输入至所述梯度下降树模型中,以得到所述第一数据集的特征重要度;
分箱处理单元,用于利用预设分箱策略对所述第一数据集进行分箱处理,以得到分箱WOE值;
信息价值计算单元,用于利用所述分箱WOE值和信息价值计算公式计算出所述第一数据集的信息价值。
进一步的,所述特征筛选模块还包括:
归一化处理单元,用于对所述特征重要度和所述信息价值进行归一化处理,以得到对应的特征重要得分以及信息价值得分;
特征筛选单元,用于根据所述特征重要得分以及所述信息价值得分得到对应的综合得分,并根据所述综合得分和预设累计贡献度阈值对所述第一数据集进行特征筛选,以得到优化后的特征变量集。
本发明还提出一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的个人信用评价方法。
本发明还提出一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的个人信用评价方法。
本发明当中的个人信用评价方法、系统、可读存储介质及计算机设备,通过对数据集进行数据预处理,降低数据本身质量对模型效果的影响;通过特征重要度以及信息价值对数据集进行特征筛选,利用特征筛选对模型进行优化;通过将数据划分为训练集和验证集,并根据训练集训练得到个人信用评价模型,并基于构建的评分转换规则和个人信用评价模型对待评价数据进行信用评价,为信用评价提供依据,一方面扩展机器学习算法在金融风控领域的应用,另一方面完善了现有的个人用户信用评分理论和方法,为金融机构对个人用户风险评分提供了理论支持。
附图说明
图1为本发明第一实施例中个人信用评价方法的流程图;
图2为图1中步骤S101的第一种实施方式的详细流程图;
图3为图1中步骤S101的第二种实施方式的详细流程图;
图4为本发明第一实施例中箱线图的示意图;
图5中步骤S102的详细流程图;
图6为本发明第一实施例中传统Stacking算法训练示意图;
图7为本发明第一实施例中改进的Stacking算法训练示意图;
图8为本发明第一实施例中个人信用评分模型的结构示意图;
图9为本发明第二实施例中个人信用评价系统的结构框图;
图10为本发明第三实施例中的计算机设备的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参阅图1,所示为本发明第一实施例中的个人信用评价方法,所述个人信用评价方法具体包括步骤S101至S104:
S101,获取个人信用评价数据集,并对所述个人信用评价数据集进行数据预处理,以得到第一数据集;
进一步的,请参阅图2,所述步骤S101具体包括步骤S1011~S1013:
S1011,解析出所述个人信用评价数据集中存在缺失的缺失数据,并计算出所述缺失数据在所述个人信用评价数据集中的缺失比例;
S1012,将所述缺失比例大于第一比例阈值以及所述缺失比例小于第二比例阈值的缺失数据删除,并将所述缺失比例处于所述第一比例阈值和所述第二比例阈值之间的缺失数据作为目标标签,所述第一比例阈值大于所述第二比例阈值;
S1013,解析出所述个人信用评价数据集中不存在缺失的特征数据,并利用所述特征数据对所述缺失数据进行数据处理。
在具体实施时,针对个人信用数据集普遍质量不高的现实问题,从缺失值、异常值、数据归一化、类别不平衡问题等方面进行分析和处理,形成了完整的数据处理方案。
将上述的个人信用评价数据集进行数据预处理,其中,数据预处理指的是在建模前对数据进行的预先处理,在本实施例中包含多个方面的处理。例如:将“脏”数据清洗为“干净”的数据,“脏”数据表现在形式上的“脏”和内容上的“脏”,形式上的“脏”如缺失值处理,内容上的“脏”如异常值处理。除此之外,根据所涉及的场景不同,还有对数据变换和类别不平衡的处理,目的将原数据转换为合适的形式,来满足后续模型输入和分析的需要。在建模过程中通常耗时最长的是数据处理阶段,因为获取数据时可能包含了大量的缺失值、噪音、人工录入错误导致的异常点等存在,这些数据非常不利于算法模型的训练。在数据预处理阶段将数据转化为标准、干净的数据,不仅有利于变量分析,同时保证了模型运行的有效性和准确性。
本实施例所获取的数据集为个人信用评分数据集,该数据质量不高,存在缺失值和异常值。并且一般情况下非违约客户远多于违约客户,导致数据集存在严重的类别不平衡。因此,本实施例将从缺失值、异常值、数据归一化、类别不平衡四个方面对个人信用评分数据集进行处理。
缺失值指的是由于原始数据中缺少某些数据信息而导致的数据聚类、分组和截断,这意味着当前数据集中的某个特征或某些特征的部分值缺失。产生缺失值的因素可能有很多,大体上可分为机械原因和人为原因。
机械原因指的是,在数据搜集或存储阶段由于存储设备破损、由于外因导致设备在某个时间段出现故障等一系列的非人为因素而造成数据不完整的情况。人为原因指的是因人的主观性、历史方面的原因、人为刻意隐瞒等人为因素导致数据的损坏,比如在通过调查访问手机数据时受访者不愿回答某部分问题、回答的是没有意义的答案、由于数据收集者粗心遗漏某些数据等情况。
传统对于缺失值的处理根据缺失情况的不同有删除、填充、不处理三种,当缺失值比例较高时,为避免引入大量噪声值,通常进行删除处理。当缺失值比例适中时,通常进行填充处理,一般采取均值、中位数、众数等样本统计量填充。当缺失值比例较少时,可以选择不处理。
由于信贷场景中的特征来自对申请贷款客户信息的描述,同一样本各特征之间存在一定的关联性。传统缺失值处理中使用统计量进行填充的方法可能会抹去单个样本之间的差异,无法体现个人信息的独特性。基于此,本实施例采取以下缺失值处理方法:对于缺失值比例极高和极低的的特征进行删除操作;对于缺失值适中的特征,将缺失特征作为目标标签,用未缺失特征作为变量训练随机森林模型来预测缺失特征值,将该预测值进行填充。
进一步的,为了加快后续模型的收敛,方便归纳统一样本的统计分布性。采用Min-Max方法,将变量原始数值转换成[0,1]标准化数值。定义如公式(1)所示,假设
Figure BDA0004062119220000082
表示第i个用户在第j个特征变量上的标准化数值,
Figure BDA0004062119220000083
表示第i个用户在第j个特征变量上的取值,M表示用户总数。
Figure BDA0004062119220000081
具体的,针对数据集的类别不平衡的问题,其中,类别不平衡问题指的是训练模型的数据集中类别分布不均匀,比如在一个二分类问题上比较理想的情况是正类负类样本数量一样多,这样训练模型时能更好的提取两个类别的特征信息,不容易使得训练出来的模型偏向某一类结果。例如某一数据集中总样本量为100,其中正类样本占95个,负类样本占5个,这样就属于类别不平衡。采样和代价敏感学习是解决类别不平衡问题的最常用策略,代价敏感学习是用加权损失函数替换原损失函数,使得放大了判断为某一类的代价,削弱类别不平衡对于模型的影响。采样又分为过采样和欠采样,前者是样本量少的类别进行多采样处理,后者则是针对样本量多的类别少采样处理,通过解决样本量来解决不平衡问题。
通常对于银行和金融机构来说,非违约样本远多于违约样本,因此信用评分领域所获得的数据会经常遇见该问题。本实施例采用SMOTE采样法来解决类别不平衡问题,该方法属于过采样算法,思想是通过一定的方式生成少数类别的样本对训练集进行填充。设训练集中少数类别的样本量为T,该算法最终将为少数类别合成NT个样本,其中N为整数。采样步骤如下:
(1)假设某一少数类别样本i,其特征向量为xii∈{1,2,3,…,T}。
(2)找到T个样本中xi的k个近邻,记为xt(near),i∈{1,2,3,…,k}。
(3)从k个近邻中随机选择一个样本xi(nn),并生成随机数r,从而根据下式合成一个新样本xi1。xij=xi+r·(xi(nn)-xi)
(4)将步骤2重复N次,得到N个新样本xij,j∈{1,2,3,…,N}。
请参阅图3,在一些可选实施例中,所述步骤S101具体包括步骤S1111~S1112:
S1111,解析出所述个人信用评价数据集中存在异常的异常数据,并采用单变量离群检测法对所述异常数据进行箱线图的绘制;
S1112,将所述箱线图按照上下限、上下四分位、中位数以及异常点进行切割,并基于切割结果对所述异常数据进行数据处理。
具体的,异常值是指样本中数值明显偏离其它样本的个别值,异常值的处理包含了分析和处理这两个过程,先是辨别出哪些是异常值,再根据实际情况去处理异常值,通常数据中会存在两类异常值,一类是伪异常,比如由于特定场景产生的。另一种是真异常,这类异常并非是在特定场景中存在的,而是客观反应数据本身存在异常的分布。
对于异常值的分析本实施例采用单变量离群检测法,对特征变量进行箱线图的绘制。本实施例所绘制箱线图将数据按照上下限、上下四分位数、中位数、异常点四部分进行切割,如图4所示。
根据箱线图可以直观的了解到变量的分布情况,结合变量的意义及类型可进一步对该特征变量异常值进行处理。例如:在风控数据集中,用户年龄大于100或小于10时一般情况下认为该值为异常值。
S102,计算出所述第一数据集的特征重要度以及信息价值,并根据所述特征重要度和所述信息价值对所述第一数据集进行特征筛选,以得到优化后的特征变量集;
进一步的,请参阅图5,所述步骤S102具体包括步骤S1021~S1025:
S1021,构建梯度下降树模型,并将所述第一数据集输入至所述梯度下降树模型中,以得到所述第一数据集的特征重要度;
S1022,利用预设分箱策略对所述第一数据集进行分箱处理,以得到分箱WOE值;
S1023,利用所述分箱WOE值和信息价值计算公式计算出所述第一数据集的信息价值。
S1024,对所述特征重要度和所述信息价值进行归一化处理,以得到对应的特征重要得分以及信息价值得分;
S1025,根据所述特征重要得分以及所述信息价值得分得到对应的综合得分,并根据所述综合得分和预设累计贡献度阈值对所述第一数据集进行特征筛选,以得到优化后的特征变量集。
在具体实施时,特征筛选是特征工程中一个重要的问题,其目的是寻找最优特征子集。特征筛选一方面是为了剔除不相关或是冗余的特征,从而减少特征的个数,提升模型的精度,减少模型的训练时间。另一方面是过拟合问题,过拟合的表现是模型参数太贴合训练集数据,存在高方差,模型在训练集上效果很好但是在测试集上表现不好,也就是泛化能力较弱,而特征筛选对数据降维有效缓解了这个问题。
特征筛选的方法有很多,一般可分为三类。第一类为过滤法,按照特征的发散性或相关性指标对各个特征进行评分,设定评分阈值或者待选择阈值的个数,选择合适的特征,例如相关系数、假设检验、互信息法就是三种常见的过滤法;第二类是包装法,根据目标函数,通常是预测效果评分,每次选择部分特征或者排除部分特征,最终得到最优特征集;第三类是嵌入法,这类方法先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据该系数从大到小来选择特征。
传统在信用评分问题上,大多使用一些统计学指标来判断特征的优劣,但是该方法依赖于数据分布以及人工所选择分箱策略的好坏。数据和特征决定机器学习的上限,而模型和算法只是逼近这个上限,因此为得到最适合的特征变量,本实施例采用了一种精细化特征选择方法。通过对特征重要度和IV值的综合计算,从模型和统计的角度对特征变量进行打分削弱数据分布对特征筛选的影响,筛选出预测能力较强的特征。具体筛选如下所示。
1、特征重要度计算
梯度下降树(GBDT)由多个CART回归树构成,通过拟合前一棵树的残差得到最终模型。GBDT在训练过程中会将特征在CART回归树结点分裂后的增益累计求和后对所有树进行综合评价,在不改变原始特征的前提下,通过最大相关性和最小冗余性来选择特征子集。
基于此将数据集输入GBDT模型中进行训练,获取各特征在模型角度的评分。定义X=(x1,x2,x3,......,xn}为经过缺失值和异常值处理后的特征变量集,将X输入GBDT模型中,根据公式得到在GBDT中各个特征变量的重要度得分cj,j∈{1,2,...n}。
2、特征IV值计算
IV(Informatiion Value)又称信息价值,用以描述各特征的重要性贡献,他可以根据特征的重要性对特征集进行排序。IV值的计算依赖于WOE(Weight Of Evident)值,因此首先对WOE值进行计算,过程如下:
WOE值又称证据权重,是对原始自变量的一种编码形式,计算之前需要对特征进行分箱处理来将特征离散化,离散化的特征变量也具有更好的稳定性,降低过拟合的风险。常用的分箱方法有卡方分箱、频率分箱、指定阈值分箱、最优化分箱等。本实施例采取频率分箱和指定阈值分箱结合策略,对连续变量采取频率分箱,对其它变量指定阈值进行分箱。
分箱后的数据集计算每组的WOE值,计算公式定义如下:
Figure BDA0004062119220000111
Badi表示当前变量第组标签为不合格样本的数量,BadT表示为标签为不合格样本的总数量。Goodi表示为第i组标签为合格样本的数量,GoodT表示为标签为合格样本的总数量。WOE值表示当前组内好样本在所有好样本的占比与当前组内坏样本在所有坏样本占比的比例,即当前组内违约用户占比和非违约用户占比的比值,当WOE值越大时表明变量当前取值对判断用户是否违约起到反作用,即特征值在经过WOE变换后代表的不仅仅是一个分类,而且代表这个分类的权重。
在得到分箱WOE值后,定义如下公式计算IV值:
Figure BDA0004062119220000112
IV值在WOE值的基础上保证了结果非负,根据变量在各分组上的IV值,得到整个变量的IV值为:
Figure BDA0004062119220000113
当IV值越大时代表此变量对于区分违约和非违约用户的作用越大,预测能力也越强,常用的区分标准如下表1所示。
表1 IV值区分
Figure BDA0004062119220000121
根据公式(3)和公式(4)计算出各个特征变量的IV值,定义为Dj,j∈{1,2,...,n}。
3、特征变量的具体筛选策略
为了消除数值度量的影响,需要将特征重要度Cj和特征IV值Dj代入公式(5)进行Min-Max归一化处理,得到特征j的特征重要度得分S(Cj)和IV值得分S(Dj),将两者相加得到该变量的综合得分Fi
本实施例采用综合得分累计贡献度大于85%作为特征筛选标准,即在n个特征构成的数据集X={x1,x2,x3,......,xn}中,有k个特征组成的特征子集X′={x1,x2,x3,......,xk}使得公式(6)中F大于85%成立,则为优化后的特征变量集。
Figure BDA0004062119220000122
Figure BDA0004062119220000123
S103,将所述优化后的特征变量集划分为训练集和验证集,并将所述训练集输入至信用评分模型中进行模型训练,以得到个人信用评价模型;
在具体实施时,目前大多评分卡模型都采用单一模型来进行学习,然而单一模型大多存在性能上限。为了获得泛化性能优良的模型,可以通过训练多个单一模型加以集成算法,最终得到一个强学习器。常用的集成算法有Boosting、Bagging、Stacking,本实施例依据信用评分问题对Stacking集成算法进行改进,并基于此完成集成模型构建和训练。
1、传统Stacking算法
Stacking是一种分层的模型融合算法,第一层由多个基学习器组成,第二层由一个元学习器。传统的Stacking训练如图6所示,过程如下:
(1)对于每一个基学习器进行K折交叉验证,首先依据输入的训练集和测试集,将训练集进行K折划分。其中K-1份数据进行训练,1份数据进行预测。
(2)重复K次步骤(1),得到K个训练后的基学习器和K份预测数据。将K份预测结果进行组合,得到元学习器训练集。
(3)使用步骤(2)得到的K个基学习器预测测试集,得到K份测试集预测结果。将该预测结果进行算数平均,得到元学习器测试集。
(4)元学习器对步骤(2)得到的训练集进行训练后,对步骤(3)得到的测试集进行预测,得到最终预测结果。
传统Stacking算法有着多层延伸和异构集成的高拓展性优势,但是观察上述步骤可以发现,经K折交叉验证得到的多个基学习器由于训练集不同,在预测性能上可能存在差异。步骤(3)在构建元学习测试集时采取算数平均可能使得性能较好的基学习器掩盖了性能较差的基学习器。
2、Stacking算法的改进及模型建立
在信用评分领域,非违约样本远多于违约样本,而信用评分模型更需要的是对违约样本的区分。构建Stacking信用评分模型的过程中,需要体现出基学习器对个人信用数据集的区分能力,对区分能力更强的基学习器产生的特征赋予更高的权重。KS值是信用评分模型区分能力强弱的重要指标。
基于此,本实施例针对信用评分问题对Stacking算法提出如下改进:在第一层学习器进行K折交叉验证生成第二层训练集和测试集过程中,计算每一折模型对验证集的KS值,将该KS值作为权值对验证集和测试集的预测结果进行加权,形成经过区分度加权的第二层数据集。同时,为防止过拟合对第二层输入特征进行扩展,将原始特征与经过区分度加权的特征相结合作为第二层元学习器的输入,提升模型的泛化能力。改进的Stacking模型训练过程如下:
Step1.第一层模型构建与训练
对于第一层N个基学习器都进行k次训练,每次训练使用k-1份数据作为训练集,剩余的1份数据作为验证集。模型每完成一次训练都对验证集和测试集进行预测,验证集预测结果记为pi,i∈{1,2,...,k},验证集预测结果的KS值记为ωi,i∈{1,2,...,k},测试集结果记为Ri,i∈{1,2,...,k}。将每个验证集上的经过加权预测结果整合成新的训练样本,即P-{p11,p22,...,pkk}。接着将k份测试集预测结果进行加权平均值,即
Figure BDA0004062119220000141
由此转化成新的测试集样本。
Step2.第二层模型构建与训练
将元学习器训练样本P输入第二层元学习器中进行训练,训练后的元学习器对测试集R进行预测,得到结果记为M(R)。该结果为Stacking对原始测试集的预测结果,性能分析也将基于M(R)进行。改进的Stacking算法训练示意图如图7所示,伪代码如下:
算法1改进的Stacking算法
Figure BDA0004062119220000142
Figure BDA0004062119220000151
本实施例基于改进的Stacking算法建立了个人信用评分模型,在经过数据处理及特征筛选后,可以得到由优化后特征变量构成的数据集,将数据集按照7∶3的比例进行划分,得到训练集和测试集。
对于改进Stacking集成算法模型选择,第一层基学习器选取预测能力强的集成模型XGBoost和随机森林。第二层选取结构简单、解释能力强的Logistics回归减少模型过拟合,提升泛化能力。由于所选模型超参数较多,使用网格搜索对上述学习器进行参数优化,确定一组在五折交叉验证下,使得上述两个模型AUC值最高的参数组合。整体结构如下图8所示。
S104,构建评分转换规则,并利用所述评分转换规则和所述个人信用评价模型对待评价数据进行信用评价。
在具体实施时,在个人信用评价模型对所有样本进行拟合后可以得到每个样本的预测值,该预测值是一个概率值,在本实施例中该预测值即为用户违约概率,由于最后输出模型是Logistics回归模型,根据Logistics回归模型的基本原理,设用户违约概率为p,则用户不违约的概率为1 p,定义非违约样本和违约样本的比率Odds为:
Figure BDA0004062119220000152
那么用户的违约概率可以转化为:
Figure BDA0004062119220000153
由此定义评分卡的模型的映射公式,用比率对数的线性表达式来表示分值,并基于此设置评分卡的分值刻度,即:
Score=A-Bln(Odds)    (9)
其中A和B是常数,上式表示当违约率越低时,所得分数越高,即高分高信用低风险。通过已知的数据可以计算得出,计算过程确定两个假设即可:(1)给定一个特定的分值p0,对应一个特定的比率Odds0。(2)比率翻倍的分数的变动值PDO。
将值代入上式可得:
Figure BDA0004062119220000161
解得:
Figure BDA0004062119220000162
得到常数A和B的值后,对于任何给定的违约概率,都可以计算出用户违约概率和非违约概率的比值Odds,进而求得其在信用评分卡上的结果。
本实施例通过对Logistics回归、随机森林、XGBoost模型、传统Stacking模型以及改进的Stacking模型在个人信用数据集上进行实验和分析,本实施例基于信用评分问题所构建的改进Stacking模型在AUC指标上超过上述模型的平均值,准确率和KS值两个指标上相较于其他模型有着不同程度的提升。综合来看,改进的Stacking模型对比传统Stacking模型以及单一模型性能有所提升,区分度较好。
综上,本发明上述实施例中的个人信用评价方法,通过对数据集进行数据预处理,降低数据本身质量对模型效果的影响;通过特征重要度以及信息价值对数据集进行特征筛选,利用特征筛选对模型进行优化;通过将数据划分为训练集和验证集,并根据训练集训练得到个人信用评价模型,并基于构建的评分转换规则和个人信用评价模型对待评价数据进行信用评价,为信用评价提供依据,一方面扩展机器学习算法在金融风控领域的应用,另一方面完善了现有的个人用户信用评分理论和方法,为金融机构对个人用户风险评分提供了理论支持。
实施例二
本发明另一方面还提出一种个人信用评价系统,请查阅图9,所示为本发明第二实施例中的个人信用评价系统,所述系统包括:
数据预处理模块11,用于获取个人信用评价数据集,并对所述个人信用评价数据集进行数据预处理,以得到第一数据集;
进一步的,所述数据预处理模块11包括:
缺失数据解析单元,用于解析出所述个人信用评价数据集中存在缺失的缺失数据,并计算出所述缺失数据在所述个人信用评价数据集中的缺失比例;
缺失数据处理单元,用于将所述缺失比例大于第一比例阈值以及所述缺失比例小于第二比例阈值的缺失数据删除,并将所述缺失比例处于所述第一比例阈值和所述第二比例阈值之间的缺失数据作为目标标签,所述第一比例阈值大于所述第二比例阈值;
特征数据解析单元,用于解析出所述个人信用评价数据集中不存在缺失的特征数据,并利用所述特征数据对所述缺失数据进行数据处理。
在一些可选实施例中,所述数据预处理模块11包括:
异常数据解析单元,用于解析出所述个人信用评价数据集中存在异常的异常数据,并采用单变量离群检测法对所述异常数据进行箱线图的绘制;
异常数据处理单元,用于将所述箱线图按照上下限、上下四分位、中位数以及异常点进行切割,并基于切割结果对所述异常数据进行数据处理。
特征筛选模块12,用于计算出所述第一数据集的特征重要度以及信息价值,并根据所述特征重要度和所述信息价值对所述第一数据集进行特征筛选,以得到优化后的特征变量集;
进一步的,所述特征筛选模块12包括:
特征重要度计算单元,用于构建梯度下降树模型,并将所述第一数据集输入至所述梯度下降树模型中,以得到所述第一数据集的特征重要度;
分箱处理单元,用于利用预设分箱策略对所述第一数据集进行分箱处理,以得到分箱WOE值;
信息价值计算单元,用于利用所述分箱WOE值和信息价值计算公式计算出所述第一数据集的信息价值。
进一步的,所述特征筛选模块12还包括:
归一化处理单元,用于对所述特征重要度和所述信息价值进行归一化处理,以得到对应的特征重要得分以及信息价值得分;
特征筛选单元,用于根据所述特征重要得分以及所述信息价值得分得到对应的综合得分,并根据所述综合得分和预设累计贡献度阈值对所述第一数据集进行特征筛选,以得到优化后的特征变量集。
模型构建模块13,用于将所述优化后的特征变量集划分为训练集和验证集,并将所述训练集输入至信用评分模型中进行模型训练,以得到个人信用评价模型;
信用评分模块14,用于构建评分转换规则,并利用所述评分转换规则和所述个人信用评价模型对待评价数据进行信用评价。
上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
本发明实施例所提供的个人信用评价系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,系统实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例三
本发明还提出一种计算机设备,请参阅图10,所示为本发明第三实施例中的计算机设备,包括存储器10、处理器20以及存储在所述存储器10上并可在所述处理器20上运行的计算机程序30,所述处理器20执行所述计算机程序30时实现上述的个人信用评价方法。
其中,存储器10至少包括一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器10在一些实施例中可以是计算机设备的内部存储单元,例如该计算机设备的硬盘。存储器10在另一些实施例中也可以是外部存储装置,例如插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器10还可以既包括计算机设备的内部存储单元也包括外部存储装置。存储器10不仅可以用于存储安装于计算机设备的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
其中,处理器20在一些实施例中可以是电子控制单元(Electronic ControlUnit,简称ECU,又称行车电脑)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器10中存储的程序代码或处理数据,例如执行访问限制程序等。
需要指出的是,图10示出的结构并不构成对计算机设备的限定,在其它实施例当中,该计算机设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提出一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的个人信用评价方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种个人信用评价方法,其特征在于,包括:
获取个人信用评价数据集,并对所述个人信用评价数据集进行数据预处理,以得到第一数据集;
计算出所述第一数据集的特征重要度以及信息价值,并根据所述特征重要度和所述信息价值对所述第一数据集进行特征筛选,以得到优化后的特征变量集;
将所述优化后的特征变量集划分为训练集和验证集,并将所述训练集输入至信用评分模型中进行模型训练,以得到个人信用评价模型;
构建评分转换规则,并利用所述评分转换规则和所述个人信用评价模型对待评价数据进行信用评价。
2.根据权利要求1所述的个人信用评价方法,其特征在于,对所述个人信用评价数据集进行数据预处理的步骤包括:
解析出所述个人信用评价数据集中存在缺失的缺失数据,并计算出所述缺失数据在所述个人信用评价数据集中的缺失比例;
将所述缺失比例大于第一比例阈值以及所述缺失比例小于第二比例阈值的缺失数据删除,并将所述缺失比例处于所述第一比例阈值和所述第二比例阈值之间的缺失数据作为目标标签,所述第一比例阈值大于所述第二比例阈值;
解析出所述个人信用评价数据集中不存在缺失的特征数据,并利用所述特征数据对所述缺失数据进行数据处理。
3.根据权利要求1所述的个人信用评价方法,其特征在于,对所述个人信用评价数据集进行数据预处理的步骤包括:
解析出所述个人信用评价数据集中存在异常的异常数据,并采用单变量离群检测法对所述异常数据进行箱线图的绘制;
将所述箱线图按照上下限、上下四分位、中位数以及异常点进行切割,并基于切割结果对所述异常数据进行数据处理。
4.根据权利要求1所述的个人信用评价方法,其特征在于,计算出所述第一数据集的特征重要度以及信息价值的步骤包括:
构建梯度下降树模型,并将所述第一数据集输入至所述梯度下降树模型中,以得到所述第一数据集的特征重要度;
利用预设分箱策略对所述第一数据集进行分箱处理,以得到分箱WOE值;
利用所述分箱WOE值和信息价值计算公式计算出所述第一数据集的信息价值。
5.根据权利要求4所述的个人信用评价方法,其特征在于,根据所述特征重要度和所述信息价值对所述第一数据集进行特征筛选,以得到优化后的特征变量集的步骤包括:
对所述特征重要度和所述信息价值进行归一化处理,以得到对应的特征重要得分以及信息价值得分;
根据所述特征重要得分以及所述信息价值得分得到对应的综合得分,并根据所述综合得分和预设累计贡献度阈值对所述第一数据集进行特征筛选,以得到优化后的特征变量集。
6.一种个人信用评价系统,其特征在于,包括:
数据预处理模块,用于获取个人信用评价数据集,并对所述个人信用评价数据集进行数据预处理,以得到第一数据集;
特征筛选模块,用于计算出所述第一数据集的特征重要度以及信息价值,并根据所述特征重要度和所述信息价值对所述第一数据集进行特征筛选,以得到优化后的特征变量集;
模型构建模块,用于将所述优化后的特征变量集划分为训练集和验证集,并将所述训练集输入至信用评分模型中进行模型训练,以得到个人信用评价模型;
信用评分模块,用于构建评分转换规则,并利用所述评分转换规则和所述个人信用评价模型对待评价数据进行信用评价。
7.根据权利要求6所述的个人信用评价系统,其特征在于,所述数据预处理模块包括:
缺失数据解析单元,用于解析出所述个人信用评价数据集中存在缺失的缺失数据,并计算出所述缺失数据在所述个人信用评价数据集中的缺失比例;
缺失数据处理单元,用于将所述缺失比例大于第一比例阈值以及所述缺失比例小于第二比例阈值的缺失数据删除,并将所述缺失比例处于所述第一比例阈值和所述第二比例阈值之间的缺失数据作为目标标签,所述第一比例阈值大于所述第二比例阈值;
特征数据解析单元,用于解析出所述个人信用评价数据集中不存在缺失的特征数据,并利用所述特征数据对所述缺失数据进行数据处理。
8.根据权利要求6所述的个人信用评价系统,其特征在于,所述数据预处理模块包括:
异常数据解析单元,用于解析出所述个人信用评价数据集中存在异常的异常数据,并采用单变量离群检测法对所述异常数据进行箱线图的绘制;
异常数据处理单元,用于将所述箱线图按照上下限、上下四分位、中位数以及异常点进行切割,并基于切割结果对所述异常数据进行数据处理。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一所述的个人信用评价方法。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一所述的个人信用评价方法。
CN202310064111.8A 2023-01-17 2023-01-17 个人信用评价方法、系统、可读存储介质及计算机设备 Pending CN116051268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310064111.8A CN116051268A (zh) 2023-01-17 2023-01-17 个人信用评价方法、系统、可读存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310064111.8A CN116051268A (zh) 2023-01-17 2023-01-17 个人信用评价方法、系统、可读存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN116051268A true CN116051268A (zh) 2023-05-02

Family

ID=86125346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310064111.8A Pending CN116051268A (zh) 2023-01-17 2023-01-17 个人信用评价方法、系统、可读存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN116051268A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874654A (zh) * 2024-03-13 2024-04-12 杭州小策科技有限公司 基于随机森林算法的风险监控方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874654A (zh) * 2024-03-13 2024-04-12 杭州小策科技有限公司 基于随机森林算法的风险监控方法及系统
CN117874654B (zh) * 2024-03-13 2024-05-24 杭州小策科技有限公司 基于随机森林算法的风险监控方法及系统

Similar Documents

Publication Publication Date Title
CN102567464B (zh) 基于扩展主题图的知识资源组织方法
CN108459955B (zh) 基于深度自编码网络的软件缺陷预测方法
KR101964412B1 (ko) 이동통신데이터 처리시스템의 이상로그 발생을 진단하는 방법 및 그 시스템
CN108427720A (zh) 系统日志分类方法
CN111785329A (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
CN105677791A (zh) 用于分析风力发电机组的运行数据的方法和系统
CN111680856A (zh) 电力监控系统用户行为安全预警方法和系统
CN112001788B (zh) 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN114037478A (zh) 广告异常流量检测方法、系统、电子设备及可读存储介质
CN112149909A (zh) 船舶油耗预测方法、装置、计算机设备和存储介质
CN111557011A (zh) 企业破产预测系统及其运行方法
CN116051268A (zh) 个人信用评价方法、系统、可读存储介质及计算机设备
CN112085111B (zh) 一种负荷辨识方法和装置
CN114266421B (zh) 基于复合气象特征构建与选择的新能源功率预测方法
CN106846170B (zh) 一种发电机组跳闸监测方法及其监测装置
CN117556369B (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及系统
CN113836806A (zh) 一种phm模型构建方法、系统、存储介质及电子设备
Abu-Soud A novel approach for dealing with missing values in machine learning datasets with discrete values
CN101078931A (zh) 一种分布式双层实时压缩方法及系统
CN111144604B (zh) 海上风电场的运维交通方案的推荐方法和设备
CN115293827A (zh) 一种助力企业精细化运营的模型可解释性分析新方法
Zhang Research on credit risk forecast model based on data mining technology
Yan et al. Fault Diagnosis of Rolling Bearing with Small Samples Based on Wavelet Packet Theory and Random Forest
Bouyer et al. A new hybrid model using case-based reasoning and decision tree methods for improving speedup and accuracy
CN112183861A (zh) 基于lasso回归预测治疗费用的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination