CN112634022A - 基于不平衡数据处理的信贷风险评估方法与系统 - Google Patents
基于不平衡数据处理的信贷风险评估方法与系统 Download PDFInfo
- Publication number
- CN112634022A CN112634022A CN202011565846.1A CN202011565846A CN112634022A CN 112634022 A CN112634022 A CN 112634022A CN 202011565846 A CN202011565846 A CN 202011565846A CN 112634022 A CN112634022 A CN 112634022A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- data
- credit
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 title claims abstract description 51
- 238000013210 evaluation model Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000010801 machine learning Methods 0.000 claims description 23
- 238000004140 cleaning Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 17
- 238000003672 processing method Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 14
- 238000007477 logistic regression Methods 0.000 claims description 8
- 101000774651 Naja atra Zinc metalloproteinase-disintegrin-like kaouthiagin-like Proteins 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000007635 classification algorithm Methods 0.000 description 6
- 238000007418 data mining Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于不平衡数据处理的信贷风险评估方法与系统,方法包括:在接收到用户通过客户端发起的申请信贷请求时,获取用户填写的客户信息;根据客户信息,获取用户的信用数据中的特征变量;将特征变量输入训练完成的基于不平衡数据处理的信贷风险评估模型;根据信贷风险评估模型输出的预测结果,判断是否通过用户的信贷请求,并将判断结果返回至客户端。通过本发明的技术方案,解决了信贷数据集不平衡类别分类的问题,避免出现对少数类样本预测精度较差的情况,提升了信贷风险评估模型对违约客户的识别准确度。
Description
技术领域
本发明涉及风险评估技术领域,尤其涉及一种基于不平衡数据处理的信贷风险评估方法和一种基于不平衡数据处理的信贷风险评估系统。
背景技术
信贷风险评估方法,是根据客户的信用属性等数据进行特征处理,然后采用特定的方法对客户进行信用评估,据此决定是否给予授信,从而识别和减少在金融交易中存在的风险。
在传统的信贷风险评估方法中,特征处理部分往往依靠专家的知识和经验为准,采用传统客户基本信息,结合一般性的统计方法进行较为主观的判断,对信贷风险评估能力较低,不能有效识别违约客户。
现行的基于机器学习的信贷风险评估方法:根据客户的信用属性等数据,利用数据预处理方法对样本数据进行数据清洗,将样本数据转换成可以建模的数据。然后,根据特征重要性进行特征选取,利用机器学习算法构建信贷风险评估分类器,对客户进行信用评估。传统分类问题基于两种假设:(1)各类别间数目大致均等;(2)各种类别错分的代价相同。但不平衡数据中的少数样本发生的概率低于多数类样本,且代价明显高于多数类样本,若采用传统分类器的以提高总体分类精度为目标,容易造成少数类的分类错误。
其中,不平衡数据集指的是数据集各个类别的样本数目相差巨大。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,这种情况下的数据称为不平衡数据,在信贷数据集中,不平衡数据集往往表示违约数据集样本个数远远小于未违约数据集样本个数,而这种现象会导致机器学习分类效果下降,从而不能有效识别出违约客户。
现行的基于机器学习的信贷风险评估方法忽略了数据集类别的不平衡特性,清洗后的不平衡类别数据集输入到构建好的机器学习分类器中进行训练,造成少数类样本即违约客户的识别程度低的结果。
发明内容
针对上述问题,本发明提供了一种基于不平衡数据处理的信贷风险评估方法与系统,通过数据挖掘和机器学习方法,基于不平衡数据处理方法对信贷客户的不平衡类别数据进行均衡,训练得到信贷风险评估模型,解决了信贷数据集不平衡类别分类的问题,避免出现对少数类样本预测精度较差的情况,提升了信贷风险评估模型对违约客户的识别准确度。
为实现上述目的,本发明提供了一种基于不平衡数据处理的信贷风险评估方法,包括:在接收到用户通过客户端发起的申请信贷请求时,获取所述用户填写的客户信息;根据所述客户信息,获取所述用户的信用数据中的特征变量;将所述特征变量输入训练完成的基于不平衡数据处理的信贷风险评估模型;根据所述信贷风险评估模型输出的预测结果,判断是否通过所述用户的信贷请求,并将判断结果返回至所述客户端。
在上述技术方案中,优选地,所述基于不平衡数据处理的信贷风险评估模型的训练方法包括:获取客户信用数据样本集,并对所述信用数据样本集进行数据清洗;利用随机森林方法对数据清洗后的所述信用数据样本集进行特征筛选,获得特征数据集;利用不平衡数据处理方法对所述特征数据集进行类别平衡,得到训练数据集;基于逻辑回归算法和xgboost机器学习算法构建集成分类器;将所述训练数据集输入所述集成分类器对训练数据进行机器学习,在损失函数达到最小值时得到训练完成的所述信贷风险评估模型。
在上述技术方案中,优选地,所述利用不平衡数据处理方法对所述特征数据集进行类别平衡的具体过程包括:针对所述特征数据集计算多数类样本中心和少数类样本中心;为靠近所述多数类样本中心的父样本增加过采样权重;选取靠近所述少数类样本中心的近邻样本作为过采样的辅助样本;根据每个所述父样本的过采样数量,在所述父样本和所述辅助样本之间插值生成相应数量的新样本,并将所述新样本与所述特征数据集进行融合,生成均衡后的数据集并输出。
在上述技术方案中,优选地,所述计算多数类样本中心和少数类样本中心的具体过程包括:对所述特征数据集中的数据进行归一化处理;将归一化处理后的所述特征数据集划分为多数类数据集和少数类数据集;计算所述多数类数据集的样本数量、所述少数类数据集的样本数量以及待生成少数类样本的个数;根据所述多数类数据集和样本数量计算得到多数类样本中心,根据所述少数类数据集和样本数量计算得到少数类样本中心。
在上述技术方案中,优选地,所述为靠近所述多数类样本中心的父样本增加过采样权重具体包括:选取所述少数类数据集中的样本作为父样本,并添加至父样本集合中;遍历所述父样本集合,并计算得到每个所述父样本到所述多数类样本中心的欧氏距离;根据所述欧氏距离计算得到每个所述父样本的过采样权重,并添加至权重集合中;遍历所述权重集合,根据所述过采样权重与所述待生成少数类样本的个数的乘积计算每个所述父样本的过采样数量。
在上述技术方案中,优选地,所述选取靠近所述少数类样本中心的近邻样本作为过采样的辅助样本的具体过程包括:利用KNN算法获取所述父样本的少数类K近邻集合;遍历所述K近邻集合,计算所述K近邻集合中每个样本达到所述少数类样本中心的欧氏距离,并添加至距离集合中;对所述距离集合进行由小到大排序,选取所述距离集合中最小的欧氏距离对应的样本作为辅助样本。
在上述技术方案中,优选地,所述信用数据集包括特征变量和目标变量,所述特征变量为信贷用户与信用相关的数据,所述目标变量为表征所述信贷用户是否违约的值。
本发明还提出一种基于不平衡数据处理的信贷风险评估系统,应用上述技术方案中任一项提出的基于不平衡数据处理的信贷风险评估方法,包括:客户端和服务器端,所述客户端包括信贷申请模块和结果输出模块,所述服务器端包括信息获取模块、信贷风险评估模型和结果预测模块;所述信贷申请模块用于接收用户的申请信贷请求和获取用户填写的客户信息,并将所述客户信息发送至所述服务器端;所述信息获取模块根据所述客户信息获取所述用户的信用数据中的特征变量,并将所述特征变量输入至所述信贷风险评估模型;所述信贷风险评估模型根据所述特征变量输出所述用户的信贷风险概率;所述结果预测模块根据所述信贷风险概率,判断是否通过所述用户的信贷请求,并将判断结果发送至所述结果输出模块。
在上述技术方案中,优选地,所述信贷风险评估模型的构建系统包括:数据清洗模块、特征筛选模块、不平衡分类处理模块和模型构建模块;所述数据清洗模块用于获取客户信用数据样本集,并对所述信用数据样本集进行数据清洗,处理缺失值;所述特征筛选模块用于选取数据清洗后的所述信用数据样本集中的重要特征作为入模特征,得到特征数据集;所述不平衡分类处理模块对所述特征数据集利用不平衡数据处理方法进行类别平衡,得到训练数据集;所述模型构建模块基于逻辑回归算法和xgboost机器学习算法构造集成分类器,并将所述训练数据集输入所述集成分类器进行训练学习,得到所述信贷风险评估模型。
在上述技术方案中,优选地,所述不平衡分类处理模块具体用于:
对所述特征数据集中的数据进行归一化处理;将归一化处理后的所述特征数据集划分为多数类数据集和少数类数据集;计算所述多数类数据集的样本数量、所述少数类数据集的样本数量以及待生成少数类样本的个数;根据所述多数类数据集和样本数量计算得到多数类样本中心,根据所述少数类数据集和样本数量计算得到少数类样本中心;
选取所述少数类数据集中的样本作为父样本,并添加至父样本集合中;遍历所述父样本集合,并计算得到每个所述父样本到所述多数类样本中心的欧氏距离;根据所述欧氏距离计算得到每个所述父样本的过采样权重,并添加至权重集合中;遍历所述权重集合,根据所述过采样权重与所述待生成少数类样本的个数的乘积计算每个所述父样本的过采样数量;
利用KNN算法获取所述父样本的少数类K近邻集合;遍历所述K近邻集合,计算所述K近邻集合中每个样本达到所述少数类样本中心的欧氏距离,并添加至距离集合中;对所述距离集合进行由小到大排序,选取所述距离集合中最小的欧氏距离对应的样本作为辅助样本;
根据每个所述父样本的过采样数量,在所述父样本和所述辅助样本之间插值生成相应数量的新样本,并将所述新样本与所述特征数据集进行融合,生成均衡后的数据集并输出。
与现有技术相比,本发明的有益效果为:通过数据挖掘和机器学习方法,基于不平衡数据处理方法对信贷客户的不平衡类别数据进行均衡,训练得到信贷风险评估模型,解决了信贷数据集不平衡类别分类的问题,避免出现对少数类样本预测精度较差的情况,提升了信贷风险评估模型对违约客户的识别准确度。
附图说明
图1为本发明一种实施例公开的基于不平衡数据处理的信贷风险评估方法的流程示意图;
图2为本发明一种实施例公开的基于不平衡数据处理的信贷风险评估模型的训练方法流程图;
图3为本发明一种实施例公开的不平衡数据处理方法的流程示意图;
图4为本发明一种实施例公开的基于不平衡数据处理的信贷风险评估模型的结构示意图;
图5为本发明一种实施例公开的信贷风险评估模型的训练系统的结构示意图。
图中,各组件与附图标记之间的对应关系为:
1、客户端;11、信贷申请模块;12、结果输出模块;2、服务器端;21、信息获取模块;22、信贷风险评估模型;23、结果预测模块;31、数据清洗模块;32、特征筛选模块;33、不平衡分类处理模块;34、模型构建模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,根据本发明提供的一种基于不平衡数据处理的信贷风险评估方法,包括:在接收到用户通过客户端发起的申请信贷请求时,获取用户填写的客户信息;根据客户信息,获取用户的信用数据中的特征变量;将特征变量输入训练完成的基于不平衡数据处理的信贷风险评估模型;根据信贷风险评估模型输出的预测结果,判断是否通过用户的信贷请求,并将判断结果返回至客户端。
在该实施例中,通过数据挖掘和机器学习方法,基于不平衡数据处理方法对信贷客户的不平衡类别数据进行均衡,训练得到信贷风险评估模型,解决了信贷数据集不平衡类别分类的问题,避免出现对少数类样本预测精度较差的情况,提升了信贷风险评估模型对违约客户的识别准确度。
具体地,该方法基于数据挖掘技术和机器学习分类算法构建信贷风险评估模型,客户端向信贷风险评估模型发送客户信用数据,信贷风险评估模型返回给客户端该信贷客户贷款的违约概率。
如图2所示,在上述实施例中,优选地,基于不平衡数据处理的信贷风险评估模型的训练方法包括:获取客户信用数据样本集,并对信用数据样本集进行数据清洗;利用随机森林方法对数据清洗后的信用数据样本集进行特征筛选,获得特征数据集;利用不平衡数据处理方法对特征数据集进行类别平衡,得到训练数据集;基于逻辑回归算法和xgboost机器学习算法构建集成分类器;将训练数据集输入集成分类器对训练数据进行机器学习,在损失函数达到最小值时得到训练完成的信贷风险评估模型。
具体地,针对获取到的信贷数据集进行数据清洗,防止不干净的数据导致分析过程中的错误以及结果的错误。然后进行特征筛选过程,使用随机森林方法筛选出对模型预测结果具有显著性影响的特征。然后进行不平衡分类处理过程,采用基于样本空间中心的不平衡分类处理方法进行类别均衡,从而获取均衡后的数据集。构建基于逻辑回归和xgboost机器学习算法的集成分类器,将数据集作为训练数据输入到集成分类器进行学习,最后获得训练好的信贷风险评估模型。其中,将不平衡分类算法加入到信贷风险评估模型的数据预处理阶段提高了机器学习模型的准确度,在数据预处理阶段将数据类别进行均衡,使模型对于不同类别的数据具有相似的分类效果,从而避免出现对少数类样本预测精度较差的情况。此外,不平衡数据处理方法即基于样本空间中心的带权过采样算法,将少数类样本中心和多数类样本中心加入Smote不平衡分类算法,用于解决影响着Smote方法精度的少数类样本空间可能存在的类别重叠和小析取项等分布。
如图3所示,在上述实施例中,优选地,利用不平衡数据处理方法对特征数据集进行类别平衡的具体过程包括:基于Smote算法的改进,针对特征数据集计算多数类样本中心和少数类样本中心;为靠近多数类样本中心的父样本(Smote算法中用于合成新样本的少数类样本)增加过采样权重;选取靠近少数类样本中心的近邻样本(Smote算法中父样本的k近邻样本)作为辅助样本(Smote算法中用于与父样本合成新样本的少数类样本);根据每个父样本的过采样数量,在父样本和辅助样本之间插值生成相应数量的新样本,并将新样本与特征数据集进行融合,生成均衡后的数据集并输出。
具体地,首先,由于算法过程在避免样本减少的情况下生成新样本,避免了因删除样本导致的信息丢失。其次,由于边界样本识别难度大,因此,为靠近多数类样本中心的父样本赋予更大的过采样权重,增加边界少数类样本个数,可以增加对少数类样本的识别程度。然后,由于考虑少数类集群中的边界样本和小析取项样本作为辅助样本生成的新样本容易落在多数类样本区域中,并且少数类样本中边界样本和小析取项样本距离少数类样本中心距离相对其他少数类样本远,因此选取靠近少数类样本中心的近邻样本作为辅助样本,从而避免了选取边界样本和小析取项样本作为辅助样本的可能,避免合成噪声样本,提升了合成样本的质量。
在上述实施例中,优选地,计算多数类样本中心和少数类样本中心的具体过程包括:对特征数据集中的数据进行归一化处理;将归一化处理后的特征数据集划分为多数类数据集和少数类数据集;计算多数类数据集的样本数量、少数类数据集的样本数量以及待生成少数类样本的个数;根据多数类数据集和样本数量计算得到多数类样本中心,根据少数类数据集和样本数量计算得到少数类样本中心。
在上述实施例中,优选地,为靠近多数类样本中心的父样本增加过采样权重具体包括:选取少数类数据集中的样本作为父样本,并添加至父样本集合中;遍历父样本集合,并计算得到每个父样本到多数类样本中心的欧氏距离;根据欧氏距离计算得到每个父样本的过采样权重,并添加至权重集合中;遍历权重集合,根据过采样权重与待生成少数类样本的个数的乘积计算每个父样本的过采样数量。
在上述实施例中,优选地,选取靠近少数类样本中心的近邻样本作为辅助样本的具体过程包括:利用KNN算法获取父样本的少数类K近邻集合;遍历K近邻集合,计算K近邻集合中每个样本达到少数类样本中心的欧氏距离,并添加至距离集合中;对距离集合进行由小到大排序,选取距离集合中最小的欧氏距离对应的样本作为辅助样本。
在上述实施例中,优选地,信贷数据集是信用样本的集合,以表格形式存在。每一行都对应于某一信贷客户的信贷样本,每一列代表一个特定变量。信用数据集包括特征变量和目标变量两种,特征变量为信贷用户与信用相关的各种数据,目标变量只有一个,即为表征信贷样本用户是否违约的值。根据目标变量样本是否违约可以将样本分为两种,目标变量的值为违约则样本是违约样本,目标变量的值为没有违约则样本是未违约样本。
如图4所示,本发明还提出一种基于不平衡数据处理的信贷风险评估系统,应用上述实施例中任一项提出的基于不平衡数据处理的信贷风险评估方法,包括:客户端1和服务器端2,客户端1包括信贷申请模块11和结果输出模块12,服务器端2包括信息获取模块21、信贷风险评估模型22和结果预测模块23;信贷申请模块11用于接收用户的申请信贷请求和获取用户填写的客户信息,并将客户信息发送至服务器端2;信息获取模块21根据客户信息获取用户的信用数据中的特征变量,并将特征变量输入至信贷风险评估模型22;信贷风险评估模型22根据特征变量输出用户的信贷风险概率;结果预测模块23根据信贷风险概率,判断是否通过用户的信贷请求,并将判断结果发送至结果输出模块12。
在该实施例中,通过数据挖掘和机器学习方法,基于不平衡数据处理方法对信贷客户的不平衡类别数据进行均衡,训练得到信贷风险评估模型22,基于该信贷风险评估模型22对用户的信用数据进行预测,提升了信贷风险评估模型22对违约客户的识别准确度。具体地,该系统基于数据挖掘技术和机器学习分类算法构建信贷风险评估模型22,客户端1向信贷风险评估模型22发送客户信用数据,信贷风险评估模型22返回给客户端1该信贷客户贷款的违约概率。
如图5所示,在上述实施例中,优选地,信贷风险评估模型22的构建系统包括:数据清洗模块31、特征筛选模块32、不平衡分类处理模块33和模型构建模块34;数据清洗模块31用于获取客户信用数据样本集,并对信用数据样本集进行数据清洗,处理缺失值;特征筛选模块32用于选取数据清洗后的信用数据样本集中的重要特征作为入模特征,得到特征数据集;不平衡分类处理模块33对特征数据集利用不平衡数据处理方法进行类别平衡,得到训练数据集;模型构建模块34基于逻辑回归算法和xgboost机器学习算法构造集成分类器,并将训练数据集输入集成分类器进行训练学习,得到信贷风险评估模型22。
具体地,针对获取到的信贷数据集进行数据清洗,防止不干净的数据导致分析过程中的错误以及结果的错误。然后进行特征筛选过程,使用随机森林方法筛选出对模型预测结果具有显著性影响的特征。然后进行不平衡分类处理过程,采用基于样本空间中心的不平衡分类处理方法进行类别均衡,从而获取均衡后的数据集。构建基于逻辑回归和xgboost机器学习算法的集成分类器,将数据集作为训练数据输入到集成分类器进行学习,最后获得训练好的信贷风险评估模型22。其中,将不平衡分类算法加入到信贷风险评估模型22的数据预处理阶段提高了机器学习模型的准确度,在数据预处理阶段将数据类别进行均衡,使模型对于不同类别的数据具有相似的分类效果,从而避免出现对少数类样本预测精度较差的情况。此外,不平衡数据处理方法即基于样本空间中心的带权过采样算法,将少数类样本中心和多数类样本中心加入Smote不平衡分类算法,用于解决影响着Smote方法精度的少数类样本空间可能存在的类别重叠和小析取项等分布。
在上述实施例中,优选地,不平衡分类处理模块33具体用于:
对特征数据集中的数据进行归一化处理;将归一化处理后的特征数据集划分为多数类数据集和少数类数据集;计算多数类数据集的样本数量、少数类数据集的样本数量以及待生成少数类样本的个数;根据多数类数据集和样本数量计算得到多数类样本中心,根据少数类数据集和样本数量计算得到少数类样本中心;
选取少数类数据集中的样本作为父样本,并添加至父样本集合中;遍历父样本集合,并计算得到每个父样本到多数类样本中心的欧氏距离;根据欧氏距离计算得到每个父样本的过采样权重,并添加至权重集合中;遍历权重集合,根据过采样权重与待生成少数类样本的个数的乘积计算每个父样本的过采样数量;
利用KNN算法获取父样本的少数类K近邻集合;遍历K近邻集合,计算K近邻集合中每个样本达到少数类样本中心的欧氏距离,并添加至距离集合中;对距离集合进行由小到大排序,选取距离集合中最小的欧氏距离对应的样本作为辅助样本;
根据每个父样本的过采样数量,在父样本和辅助样本之间插值生成相应数量的新样本,并将新样本与特征数据集进行融合,生成均衡后的数据集并输出。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于不平衡数据处理的信贷风险评估方法,其特征在于,包括:
在接收到用户通过客户端发起的申请信贷请求时,获取所述用户填写的客户信息;
根据所述客户信息,获取所述用户的信用数据中的特征变量;
将所述特征变量输入训练完成的基于不平衡数据处理的信贷风险评估模型;
根据所述信贷风险评估模型输出的预测结果,判断是否通过所述用户的信贷请求,并将判断结果返回至所述客户端。
2.根据权利要求1所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述基于不平衡数据处理的信贷风险评估模型的训练方法包括:
获取客户信用数据样本集,并对所述信用数据样本集进行数据清洗;
利用随机森林方法对数据清洗后的所述信用数据样本集进行特征筛选,获得特征数据集;
利用不平衡数据处理方法对所述特征数据集进行类别平衡,得到训练数据集;
基于逻辑回归算法和xgboost机器学习算法构建集成分类器;
将所述训练数据集输入所述集成分类器对训练数据进行机器学习,在损失函数达到最小值时得到训练完成的所述信贷风险评估模型。
3.根据权利要求2所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述利用不平衡数据处理方法对所述特征数据集进行类别平衡的具体过程包括:
针对所述特征数据集计算多数类样本中心和少数类样本中心;
为靠近所述多数类样本中心的父样本增加过采样权重;
选取靠近所述少数类样本中心的近邻样本作为过采样的辅助样本;
根据每个所述父样本的过采样数量,在所述父样本和所述辅助样本之间插值生成相应数量的新样本,并将所述新样本与所述特征数据集进行融合,生成均衡后的数据集并输出。
4.根据权利要求3所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述计算多数类样本中心和少数类样本中心的具体过程包括:
对所述特征数据集中的数据进行归一化处理;
将归一化处理后的所述特征数据集划分为多数类数据集和少数类数据集;
计算所述多数类数据集的样本数量、所述少数类数据集的样本数量以及待生成少数类样本的个数;
根据所述多数类数据集和样本数量计算得到多数类样本中心,根据所述少数类数据集和样本数量计算得到少数类样本中心。
5.根据权利要求4所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述为靠近所述多数类样本中心的父样本增加过采样权重具体包括:
选取所述少数类数据集中的样本作为父样本,并添加至父样本集合中;
遍历所述父样本集合,并计算得到每个所述父样本到所述多数类样本中心的欧氏距离;
根据所述欧氏距离计算得到每个所述父样本的过采样权重,并添加至权重集合中;
遍历所述权重集合,根据所述过采样权重与所述待生成少数类样本的个数的乘积计算每个所述父样本的过采样数量。
6.根据权利要求5所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述选取靠近所述少数类样本中心的近邻样本作为过采样的辅助样本的具体过程包括:
利用KNN算法获取所述父样本的少数类K近邻集合;
遍历所述K近邻集合,计算所述K近邻集合中每个样本达到所述少数类样本中心的欧氏距离,并添加至距离集合中;
对所述距离集合进行由小到大排序,选取所述距离集合中最小的欧氏距离对应的样本作为辅助样本。
7.根据权利要求2至6中任一项所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,所述信用数据集包括特征变量和目标变量,所述特征变量为信贷用户与信用相关的数据,所述目标变量为表征所述信贷用户是否违约的值。
8.一种基于不平衡数据处理的信贷风险评估系统,应用权利要求1至7中任一项所述的基于不平衡数据处理的信贷风险评估方法,其特征在于,包括:客户端和服务器端,所述客户端包括信贷申请模块和结果输出模块,所述服务器端包括信息获取模块、信贷风险评估模型和结果预测模块;
所述信贷申请模块用于接收用户的申请信贷请求和获取用户填写的客户信息,并将所述客户信息发送至所述服务器端;
所述信息获取模块根据所述客户信息获取所述用户的信用数据中的特征变量,并将所述特征变量输入至所述信贷风险评估模型;
所述信贷风险评估模型根据所述特征变量输出所述用户的信贷风险概率;
所述结果预测模块根据所述信贷风险概率,判断是否通过所述用户的信贷请求,并将判断结果发送至所述结果输出模块。
9.根据权利要求8所述的基于不平衡数据处理的信贷风险评估系统,其特征在于,所述信贷风险评估模型的构建系统包括:数据清洗模块、特征筛选模块、不平衡分类处理模块和模型构建模块;
所述数据清洗模块用于获取客户信用数据样本集,并对所述信用数据样本集进行数据清洗,处理缺失值;
所述特征筛选模块用于选取数据清洗后的所述信用数据样本集中的重要特征作为入模特征,得到特征数据集;
所述不平衡分类处理模块对所述特征数据集利用不平衡数据处理方法进行类别平衡,得到训练数据集;
所述模型构建模块基于逻辑回归算法和xgboost机器学习算法构造集成分类器,并将所述训练数据集输入所述集成分类器进行训练学习,得到所述信贷风险评估模型。
10.根据权利要求9所述的基于不平衡数据处理的信贷风险评估系统,其特征在于,所述不平衡分类处理模块具体用于:
对所述特征数据集中的数据进行归一化处理;
将归一化处理后的所述特征数据集划分为多数类数据集和少数类数据集;
计算所述多数类数据集的样本数量、所述少数类数据集的样本数量以及待生成少数类样本的个数;
根据所述多数类数据集和样本数量计算得到多数类样本中心,根据所述少数类数据集和样本数量计算得到少数类样本中心;
选取所述少数类数据集中的样本作为父样本,并添加至父样本集合中;
遍历所述父样本集合,并计算得到每个所述父样本到所述多数类样本中心的欧氏距离;
根据所述欧氏距离计算得到每个所述父样本的过采样权重,并添加至权重集合中;
遍历所述权重集合,根据所述过采样权重与所述待生成少数类样本的个数的乘积计算每个所述父样本的过采样数量;
利用KNN算法获取所述父样本的少数类K近邻集合;
遍历所述K近邻集合,计算所述K近邻集合中每个样本达到所述少数类样本中心的欧氏距离,并添加至距离集合中;
对所述距离集合进行由小到大排序,选取所述距离集合中最小的欧氏距离对应的样本作为辅助样本;
根据每个所述父样本的过采样数量,在所述父样本和所述辅助样本之间插值生成相应数量的新样本,并将所述新样本与所述特征数据集进行融合,生成均衡后的数据集并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011565846.1A CN112634022A (zh) | 2020-12-25 | 2020-12-25 | 基于不平衡数据处理的信贷风险评估方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011565846.1A CN112634022A (zh) | 2020-12-25 | 2020-12-25 | 基于不平衡数据处理的信贷风险评估方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112634022A true CN112634022A (zh) | 2021-04-09 |
Family
ID=75325044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011565846.1A Pending CN112634022A (zh) | 2020-12-25 | 2020-12-25 | 基于不平衡数据处理的信贷风险评估方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634022A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113870013A (zh) * | 2021-10-14 | 2021-12-31 | 浙江孚临科技有限公司 | 基于不平衡数据的信贷违约预测方法 |
CN115797044A (zh) * | 2022-11-15 | 2023-03-14 | 东方微银科技股份有限公司 | 基于聚类分析的信贷风控预警方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN107194803A (zh) * | 2017-05-19 | 2017-09-22 | 南京工业大学 | 一种p2p网贷借款人信用风险评估的装置 |
-
2020
- 2020-12-25 CN CN202011565846.1A patent/CN112634022A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN107194803A (zh) * | 2017-05-19 | 2017-09-22 | 南京工业大学 | 一种p2p网贷借款人信用风险评估的装置 |
Non-Patent Citations (3)
Title |
---|
T. HUANG ET AL: "Over-Sampling from an Auxiliary Domain", 《NEURAL INFORMATION PROCESSING.ICONIP 2012》, 31 December 2012 (2012-12-31), pages 576 * |
刘树栋 等: "类别不均衡学习中的抽样策略研究", 《计算机工程与应用》, 24 September 2019 (2019-09-24), pages 1 - 12 * |
赵清华 等: "改进SMOTE的非平衡数据集分类算法研究", 《计算机工程与应用》, 24 August 2017 (2017-08-24), pages 168 - 173 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113870013A (zh) * | 2021-10-14 | 2021-12-31 | 浙江孚临科技有限公司 | 基于不平衡数据的信贷违约预测方法 |
CN115797044A (zh) * | 2022-11-15 | 2023-03-14 | 东方微银科技股份有限公司 | 基于聚类分析的信贷风控预警方法及系统 |
CN115797044B (zh) * | 2022-11-15 | 2024-03-29 | 东方微银科技股份有限公司 | 基于聚类分析的信贷风控预警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2017204144B2 (en) | Rules suggestion engine | |
WO2017143919A1 (zh) | 一种建立数据识别模型的方法及装置 | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN109583966B (zh) | 一种高价值客户识别方法、系统、设备及存储介质 | |
US11315196B1 (en) | Synthesized invalid insurance claims for training an artificial intelligence / machine learning model | |
US20070010966A1 (en) | System and method for mining model accuracy display | |
WO2021164232A1 (zh) | 用户识别方法、装置、设备及存储介质 | |
US8001060B2 (en) | Classification for small collections of high-value entities | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
US20220253856A1 (en) | System and method for machine learning based detection of fraud | |
CN112001788B (zh) | 一种基于rf-dbscan算法的信用卡违约欺诈识别方法 | |
CN112634022A (zh) | 基于不平衡数据处理的信贷风险评估方法与系统 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
CN113256409A (zh) | 基于机器学习的银行零售客户流失预测方法 | |
KR101999765B1 (ko) | 데이터마이닝 기술을 이용한 금융 사기 대출 패턴화 분석 시스템 및 방법 | |
JP2016522933A (ja) | 債務不履行となる企業の蓋然性の計算 | |
CN114819777A (zh) | 一种基于数字孪生技术的企业销售业务分析管理系统 | |
JP2021135611A (ja) | 流用設計支援システム及び流用設計支援方法 | |
CN113034264A (zh) | 客户流失预警模型的建立方法、装置、终端设备及介质 | |
US20090259614A1 (en) | Method and expert system for valuating an object | |
CN110913033A (zh) | 基于cnn卷积神经网络学习的idcip地址分配方法 | |
CN110895564A (zh) | 一种潜在客户数据处理方法和装置 | |
JP2004206167A (ja) | 事例予測装置および事例予測方法 | |
CN114757723B (zh) | 用于资源要素交易平台的数据分析模型构建系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |