CN110807700A - 一种基于政府数据的无监督融合模型个人信用评分方法 - Google Patents

一种基于政府数据的无监督融合模型个人信用评分方法 Download PDF

Info

Publication number
CN110807700A
CN110807700A CN201911071614.8A CN201911071614A CN110807700A CN 110807700 A CN110807700 A CN 110807700A CN 201911071614 A CN201911071614 A CN 201911071614A CN 110807700 A CN110807700 A CN 110807700A
Authority
CN
China
Prior art keywords
personal
scoring
data
credit
square
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911071614.8A
Other languages
English (en)
Inventor
崔光裕
郭宏毅
崔乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN201911071614.8A priority Critical patent/CN110807700A/zh
Publication of CN110807700A publication Critical patent/CN110807700A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明特别涉及一种基于政府数据的无监督融合模型个人信用评分方法。该基于政府数据的无监督融合模型个人信用评分方法,先建立信用风险指标库,然后构建基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型,最后基于融合模型进行个人信用评分。该基于政府数据的无监督融合模型个人信用评分方法,解决了金融科技领域个人信用状况难以准确评估、个人信用标签难以获得的问题,利用多模型融合技术极大地提升了结果的准确性,同时以评分形式展现的对个人的信用风险量化评价,能够为金融机构提供可靠地个人信用评价。

Description

一种基于政府数据的无监督融合模型个人信用评分方法
技术领域
本发明涉及个人信用评分技术领域,特别涉及一种基于政府数据的无监督融合模型个人信用评分方法。
背景技术
金融机构从产生至今,仍然面临的、无法改变的风险就是信用风险,也是最根本、最重要的风险之一。个人贷款申请者的信用风险通常来源于以下几个方面:
(1)个人的收入对市场环境和突发事件比较敏感,这两个因素在很大程度上决定了个人贷款的高风险;
(2)针对个人的小额贷款业务基本上都是靠信用办理,不需要贷款人做任何担保或者抵押,贷款机构对违约行为缺乏有效约束措施,造成了很大的信用风险;
(3)在缺乏有效个人信用信息数据的情况下,贷款机构作为资金融出方对于借款人的信息没有一个很好的获取途径,无法真实而全面的了解对方的信息,使得贷款机构明显处于劣势地步,这极不利于它们进行果断而正确的决策。
(4)专业化贷款机构采集信用信息记录具有周期性,并且依赖于金融机构及时信息看反馈,导致一定程度上的个人信用信息滞后。
因此,建立完整的个人风险指标体系、运用信用评价模型规范贷款机构对于个人贷款者的信用评价方法、增强金融机构批量处理信贷申请的能力,能够帮助金融机构妥善应对个人借款者信用风险的同时,提高信贷服务效率。
在信用评价模型选用方面,由于很多借款者缺乏历史信贷数据,或仅有信用卡等非同类产品的历史信贷数据,传统的基于用户标签的有监督算法将不再适用。为解决该问题,徐临,郭亚涛,李吉栋在《基于AHP-DEA模型的小额贷款公司风险评价研究》(2017.03)中提供了一种在缺乏标签的情况下运用AHP构建风险评价指标体系,对小额贷款公司的风险进行比较准确、有效的评价的方法,并通过实证分析展示了该方法的较强的适用性与可靠性。但该方法在评价指标选取上依赖专家经验与主观判断,需要进一步论证评价指标的选取具有科学性与可靠性。
在个人信用评价指标选取方面,目前基于个人互联网行为的个人信用行为弱相关指标丰富繁杂,涉及网上购物、社交网络等平台,数据来源十分广泛。这些数据在金融机构用于评价个人信用时存在难以稳定获取、质量难以验证、安全难以保障、效果难以评估等问题。因此,在进行贷前个人信用评价时需要引入可靠、安全、与个人信用行为强相关的数据。王语奇在《住房公积金贷款的信用风险及对策——以北京为例》(2016.06)中,将基于政府数据的个人基本信息与公积金缴存信息(包括性别、贷款时年龄、是否本地人、学历、单位性质、婚姻状况、月收入、公积金缴存状态等)作为个人贷款信用评价指标,并通过Logistic模型验证了选用指标的实际业务有效性。
由于个人信用评价结果直接关系着获贷额度,因此是否能够对个人信用进行准确地评价十分关键。
基于上述情况,本发明提出了一种基于政府数据的无监督融合模型个人信用评分方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于政府数据的无监督融合模型个人信用评分方法。
本发明是通过如下技术方案实现的:
一种基于政府数据的无监督融合模型个人信用评分方法,其特征在于,包括以下步骤:
第一步,建立信用风险指标库
采用数据采集与处理技术收集通过授权调用的政府数据,并将脱敏后的政府数据保存于关系型数据库中;筛选关系型数据库中可以列入信用风险指标库的表格及字段,对数据进行预处理、融合和去重,基于关系型数据库建立信用风险指标库;
第二步,建立个人信用风险评价模型
筛选信用风险指标库中可以列入信用评分样本库的相关表格及字段,基于筛选出的样本构建基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型;
第三步,基于融合模型进行个人信用评分
将基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型的评分结果相融合,从而形成针对申贷个人的信用评分。
所述第一步中,建立信用风险指标库,包括以下步骤:
(1)数据的获取、处理及存储
基于申贷个人用户授权调用政府数据库中的个人信息,包括个人基本信息、公积金缴纳信息和社保缴纳信息,对数据进行脱敏处理,并保存于关系型数据库中;
(2)信用风险指标库入库数据处理
筛选关系型数据库中入选信用风险指标库的相关表格及入库字段,并根据业务需求与建模需求对数据进行特征工程处理,形成能够直观反映信用风险的特征;
(3)信用评分样本库对象筛选
基于建立个人信用评分这一业务目标与特定的产品需求,筛选信用风险指标库中入选信用评分样本库的相关表格及入库字段;
(4)入库数据去重处理
针对选取的入库数据进行数据去重,用脱敏后的身份证号唯一标识申贷个人对象。
所述步骤(2)中,筛选数据库中与个人信用风险密切相关的特征字段,包括个人身份、单位性质、性别、民族、公积金历史缴纳记录、养老保险历史缴纳记录、医疗保险历史缴纳记录和医疗保险账户消费记录字段,并运用特征加工技术形成个人公积金连续缴纳月数、养老保险连续缴纳月数及医疗保险连续缴纳月数特征;
通过数据处理的技术将个人敏感信息进行脱敏,所述步骤(4)中,根据脱敏后的人名与身份证号对数据进行去重;已经入库的个人信用风险指标依照贷款循环周期进行重新授权调用处理,并对指标库中对应身份的个人进行数据更新。
所述第二步中,建立个人信用风险评价模型,包括以下步骤:
(1)筛选建模特征,构建层次结构图
筛选出的建模特征包含个人身份信息、个人公积金与社保连续缴纳月份、个人公积金与社保月缴额、个人公积金与社保缴纳基数和个人公积金与社保缴纳比例;运用筛选出的建模特征根据其内在联系与业务关联,构建目标层、准则层与方案层之间的层次结构图;
(2)层次分析法权重赋值与评分计算
根据层次关系图构建对比判断矩阵,通过综合多位专家打分结果赋予个人信用风险特征不同权重,对特征进行基于分位数的区间划分与原始赋分,形成基于层次分析法的个人信用评分模型;
(3)卡方分箱法区间划分与评分计算
将个人身份作为目标变量根据卡方分箱法对样本集缴纳公积金、社保金额以及三年内缴纳月数进行总体区间划分,并对所得区间进行赋分,形成基于卡方分箱法的个人信用评分模型。
所述步骤(2)中,构建基于层次分析法的个人信用评分模型,包括以下步骤:
(A)基于层次结构图,各评分专家对每层各个因素之间的相对重要性给出数量化的主观判断;然后把这些数量化的分数按照一定的规则形成矩阵的形式,即对比判断矩阵;判断矩阵的含义即表示本层次的主要元素两两比较相对于上一层次元素的重要性;对比判断矩阵的具体数值采用1到9标度方法,将不同专家的评分进行加权平均,得到判断数值,并基于得出各层次的对比判断矩阵,进而计算出各个指标的权重;
(B)在得出各指标权重后,运用方根法要对判断结果进行一致性的检验,检验判断结果前后是否存在逻辑方面的偏误,并在发生逻辑偏误时对标度进行调整,重新确定权重;
(C)对选用的数值型个人信用风险特征进行分布描述,并通过平方根转换法将特征转换为类似正态分布;
(D)对转换后的风险特征按照四分位点进行区间划分,并依据专家意见对每个区间进行初始赋分;
(E)对于样本集中的每个样本,首先按照所落入的区间赋予每个样本风险特征初始分数,其次将特征初始分数乘以特征对应权重得到特征得分,最后将所有特征的得分加总形成这个样本基于层次分析法的信用评分。
所述步骤(3)中,构建基于卡方分箱法的个人信用评分模型,包括以下步骤:
(A)预先设定一个卡方的阈值,并以这个阈值为标准,对数据进行卡方检验,将通过显著性水平和自由度计算出数据的卡方值(即数据对应的卡方值)与预设的阈值进行比较;卡方分箱的过程使用ChiMerge算法,将置信度设为95%,自由度为4;
(B)对数据进行初始化,根据要离散化的数据对实例进行排序,每个实例属于一个区间;
(C)计算每一个对相邻区间的卡方值,并将卡方值最小的一对区间合并;在这一过程中,对最终的分箱个数结果进行限制,每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并,直到分箱个数达到限制条件为止;同时按照预设卡方阈值对分箱结果进行检验,根据自由度和显著性水平得到对应的卡方阈值,如果分箱的各区间最小卡方值小于卡方阈值,则继续合并,直到最小卡方值超过设定阈值为止;
(D)检查分箱结果,减少类别样本数为0的分箱;
分箱之后,某些箱区间里类别分布比例极不均匀,甚至可能出现某个类别样本数为0的极端结果,这是不合理的,因此需要进一步减少分箱数量;
(E)依据专家意见对卡方分箱后所得区间结果进行赋分;
(F)针对每个样本,获取其所在的卡方分箱结果区间,并为其赋予相应的分值,形成这个样本基于卡方分箱法的信用评分。
所述第三步中,基于融合模型进行个人信用评分,包括以下步骤:
(1)模型加权融合
分别计算出两个信用评分模型评分结果,对标准化至同一区间的结果进行加权求和;
(2)评分区间调整与转换
对加权求和后的个人信用评分结果运用数据转换的方法进行区间调整与正态化变换,获得最终的样本集整体评分分布。
所述步骤(1)中,为保证加权求和结果的可对比性,通过最大-最小值法将两组评分结果标准化,均映射到[0,1]区间;对卡方分箱评分结果赋予权重30%,对层次分析法评分结果赋予权重70%,采用加权求和的方式得出最终评分。
所述步骤(2)中,为使评分结果根据普适性,并且符合行业通用标准,通过分数乘以缩放系数的方式调整到千分制分数区间上;为了结果的泛化性,需要对打分结果进行正态化调整,由于总体评分结果中不包含0值,选用Box-Cox方法进行变换,使评分结果转换为类似正态分布。
本发明的有益效果是:该基于政府数据的无监督融合模型个人信用评分方法,解决了金融科技领域个人信用状况难以准确评估、个人信用标签难以获得的问题,利用多模型融合技术极大地提升了结果的准确性,同时以评分形式展现的对个人的信用风险量化评价,能够为金融机构提供可靠地个人信用评价。
附图说明
附图1为本发明基于政府数据的无监督融合模型个人信用评分方法示意图。
附图2为本发明基于政府数据的无监督融合模型个人信用评分具体流程示意图。
附图3为本发明基于政府数据的无监督融合模型个人信用评分方法应用场景示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于政府数据的无监督融合模型个人信用评分方法,包括以下步骤:
第一步,建立信用风险指标库
采用数据采集与处理技术收集通过授权调用的政府数据,并将脱敏后的政府数据保存于关系型数据库中;筛选关系型数据库中可以列入信用风险指标库的表格及字段,对数据进行预处理、融合和去重,基于关系型数据库建立信用风险指标库;
第二步,建立个人信用风险评价模型
筛选信用风险指标库中可以列入信用评分样本库的相关表格及字段,基于筛选出的样本构建基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型;
第三步,基于融合模型进行个人信用评分
将基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型的评分结果相融合,从而形成针对申贷个人的信用评分。
所述第一步中,建立信用风险指标库,包括以下步骤:
(1)数据的获取、处理及存储
基于申贷个人用户授权调用政府数据库中的个人信息,包括个人基本信息、公积金缴纳信息和社保缴纳信息,对数据进行脱敏处理,并保存于关系型数据库中;
(2)信用风险指标库入库数据处理
筛选关系型数据库中入选信用风险指标库的相关表格及入库字段,并根据业务需求与建模需求对数据进行特征工程处理,形成能够直观反映信用风险的特征;
(3)信用评分样本库对象筛选
基于建立个人信用评分这一业务目标与特定的产品需求,筛选信用风险指标库中入选信用评分样本库的相关表格及入库字段;
(4)入库数据去重处理
针对选取的入库数据进行数据去重,用脱敏后的身份证号唯一标识申贷个人对象。
所述步骤(2)中,筛选数据库中与个人信用风险密切相关的特征字段,包括个人身份、单位性质、性别、民族、公积金历史缴纳记录、养老保险历史缴纳记录、医疗保险历史缴纳记录和医疗保险账户消费记录字段,并运用特征加工技术形成个人公积金连续缴纳月数、养老保险连续缴纳月数及医疗保险连续缴纳月数特征;
通过数据处理的技术将个人敏感信息进行脱敏,所述步骤(4)中,根据脱敏后的人名与身份证号对数据进行去重;已经入库的个人信用风险指标依照贷款循环周期进行重新授权调用处理,并对指标库中对应身份的个人进行数据更新。
在进行信用风险建模分析时,基于业务场景与特定需求,会从信用风险指标库中按照预设逻辑提取符合信用风险评价建模需求的样本,统一存入信用评分样本库,并按照评分模型迭代需求定期对样本库进行更新。
所述第二步中,建立个人信用风险评价模型,包括以下步骤:
(1)筛选建模特征,构建层次结构图
筛选出的建模特征包含个人身份信息、个人公积金与社保连续缴纳月份、个人公积金与社保月缴额、个人公积金与社保缴纳基数和个人公积金与社保缴纳比例;运用筛选出的建模特征根据其内在联系与业务关联,构建目标层、准则层与方案层之间的层次结构图;
(2)层次分析法权重赋值与评分计算
根据层次关系图构建对比判断矩阵,通过综合多位专家打分结果赋予个人信用风险特征不同权重,对特征进行基于分位数的区间划分与原始赋分,形成基于层次分析法的个人信用评分模型;
(3)卡方分箱法区间划分与评分计算
将个人身份作为目标变量根据卡方分箱法对样本集缴纳公积金、社保金额以及三年内缴纳月数进行总体区间划分,并对所得区间进行赋分,形成基于卡方分箱法的个人信用评分模型。
层次分析法(AHP)以其独特的定性与定量相结合的分析法而著称,被广泛应用于金融界对信用风险的评估,它对比传统的基于经验评分法有无法替代的优点。首先,AHP模型能够一定程度上融入专家对于信用特征与时俱进的认识变化,不再拘泥于过往给定的相应特征对应的系数;其次,该模型能够比传统基于经验的模型引入更多的特征,并且在特征体系丰富的基础上给出当客户申请贷款时,仍然给出客观统一的评价;最后,在几乎没有标签数据,无法进行有监督的机器学习的情况下,AHP模型能够给出具有较高参考价值的结果。
所述步骤(1)中,在选用入模特征时,基于对个人信贷业务的理解,为了平衡模型的复杂性与包含信息的有效程度,使评分结果有好的区分度,删除缺失率或同值率过大的部分字段,保留公积金、养老保险与医疗保险缴纳信息相关数值字段,着重于量化这三个维度信息反映出的潜在信用风险;
构建层次关系图时,首先把业务目标问题分成几个较为重要的元素,然后把这些元素按不同的属性分成若干组,以便形成不同的层次;同时这些元素又受到上一个层次元素的支配,这种自上而下的支配关系就构成了一个递阶层次;将决策的目标、考虑的元素(决策准则)和决策对象按它们之间的相互关系分为目标层、准则层和方案层,形成个人信用风险指标层次结构图。
所述步骤(2)中,构建基于层次分析法的个人信用评分模型,包括以下步骤:
(A)基于层次结构图,各评分专家对每层各个因素之间的相对重要性给出数量化的主观判断;然后把这些数量化的分数按照一定的规则形成矩阵的形式,即对比判断矩阵;判断矩阵的含义即表示本层次的主要元素两两比较相对于上一层次元素的重要性;对比判断矩阵的具体数值采用1到9标度方法,将不同专家的评分进行加权平均,得到判断数值,并基于得出各层次的对比判断矩阵,进而计算出各个指标的权重;
(B)在得出各指标权重后,运用方根法要对判断结果进行一致性的检验,检验判断结果前后是否存在逻辑方面的偏误,并在发生逻辑偏误时对标度进行调整,重新确定权重;
(C)对选用的数值型个人信用风险特征进行分布描述,并通过平方根转换法将特征转换为类似正态分布;
(D)对转换后的风险特征按照四分位点进行区间划分,并依据专家意见对每个区间进行初始赋分;
(E)对于样本集中的每个样本,首先按照所落入的区间赋予每个样本风险特征初始分数,其次将特征初始分数乘以特征对应权重得到特征得分,最后将所有特征的得分加总形成这个样本基于层次分析法的信用评分。
在做数据挖掘模型时,我们有时会需要把连续型变量转型离散变量,这种转换的过程就是数据离散化,分箱就是离散化常用的一种方法。在评分卡建模过程中,为使模型结果更加稳定、具有更强泛化性,对变量进行分箱是一个必不可少的过程。卡方分箱是自底向上的数据离散化方法。它依赖于卡方检验,将具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。运用卡方分箱进行数据离散化时,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。
所述步骤(3)中,构建基于卡方分箱法的个人信用评分模型,包括以下步骤:
(A)预先设定一个卡方的阈值,并以这个阈值为标准,对数据进行卡方检验,将通过显著性水平和自由度计算出数据的卡方值(即数据对应的卡方值)与预设的阈值进行比较;卡方分箱的过程使用ChiMerge算法,将置信度设为95%,自由度为4;
(B)对数据进行初始化,根据要离散化的数据对实例进行排序,每个实例属于一个区间;
(C)计算每一个对相邻区间的卡方值,并将卡方值最小的一对区间合并;在这一过程中,对最终的分箱个数结果进行限制,每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并,直到分箱个数达到限制条件为止;同时按照预设卡方阈值对分箱结果进行检验,根据自由度和显著性水平得到对应的卡方阈值,如果分箱的各区间最小卡方值小于卡方阈值,则继续合并,直到最小卡方值超过设定阈值为止;
(D)检查分箱结果,减少类别样本数为0的分箱;
分箱之后,某些箱区间里类别分布比例极不均匀,甚至可能出现某个类别样本数为0的极端结果,这是不合理的,因此需要进一步减少分箱数量;
(E)依据专家意见对卡方分箱后所得区间结果进行赋分;
(F)针对每个样本,获取其所在的卡方分箱结果区间,并为其赋予相应的分值,形成这个样本基于卡方分箱法的信用评分。
所述第三步中,基于融合模型进行个人信用评分,包括以下步骤:
(1)模型加权融合
分别计算出两个信用评分模型评分结果,对标准化至同一区间的结果进行加权求和;
(2)评分区间调整与转换
对加权求和后的个人信用评分结果运用数据转换的方法进行区间调整与正态化变换,获得最终的样本集整体评分分布。
层次分析法评分模型着重于考察申请人每个特征在总体中的分布情况并单独赋分后进行加总,卡方分箱评分模型着重于针对分箱目标全局考虑申请人的所有特征,最终形成综合的分组结果。因此,将两个模型融合能够提升模型的丰富性。在融合两个评分模型之前,先对两个模型的整体结果进行相关性检查。根据皮尔森线性相关系数的结果,两个模型的现象相关系数为0.55,p-value为0.2,相关系数结果显著。因此,两个评分模型结果具有一定的相关性,但其结果有所差异,选择融合会提升整体的模型效果。
所述步骤(1)中,卡方分箱评分结果与层次分析法评分结果区间相差较远,为保证加权求和结果的可对比性,通过最大-最小值法将两组评分结果标准化,均映射到[0,1]区间;对卡方分箱评分结果赋予权重30%,对层次分析法评分结果赋予权重70%,采用加权求和的方式得出最终评分。
所述步骤(2)中,由于最大-最小值法转换得到的分数非常小,为使评分结果根据普适性,并且符合行业通用标准,通过分数乘以缩放系数的方式调整到千分制分数区间上;为了结果的泛化性,需要对打分结果进行正态化调整,由于总体评分结果中不包含0值,选用Box-Cox方法进行变换,使评分结果转换为类似正态分布。
与现有技术相比,该基于政府数据的无监督融合模型个人信用评分方法,具有以下特点:
1、相较于传统基于人工处理的信用审核方法,运用具有可靠数据的标准化的信用评分模型统一对申贷个人进行评估,克服了人工处理的主观性与易错性,使流程更加规范化,增强了线上批量处理申请的能力;
2、区别于基于个别专家的基于过往经验设立的信用评价规则与指标权重,运用层次分析法模型时结合了多位专家意见,能够处理更丰富地维度,并且所有专家所得出的经验必须通过一致性检验,保障了结果的可靠性;
3、在个人信用评分维度上选用了来自于政府的更加稳定、可靠、强相关的个人公积金、社保、基本信息数据,增强了评分结果的业务可解释性;
4、更适用于个人无历史贷款信贷记录、首次提出申贷请求的场景,在无标签的情况下对个人信用行为进行预测与评价;
5、运用融合评分模型的方法,结合两种不同的分箱赋分方式,提高了评分模型结果的可泛化性,能够在更丰富场景下进行应用;
5、伴随后期标签数据的引进、个人历史信息的不断丰富以及多种算法的融合,本发明提出的方法会在保证业务可解释性与可操作性的前提下更加准确地对申贷个人进行评价,应用前景十分广阔。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种基于政府数据的无监督融合模型个人信用评分方法,其特征在于,包括以下步骤:
第一步,建立信用风险指标库
采用数据采集与处理技术收集通过授权调用的政府数据,并将脱敏后的政府数据保存于关系型数据库中;筛选关系型数据库中可以列入信用风险指标库的表格及字段,对数据进行预处理、融合和去重,基于关系型数据库建立信用风险指标库;
第二步,建立个人信用风险评价模型
筛选信用风险指标库中可以列入信用评分样本库的相关表格及字段,基于筛选出的样本构建基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型;
第三步,基于融合模型进行个人信用评分
将基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型的评分结果相融合,从而形成针对申贷个人的信用评分。
2.根据权利要求1所述的基于政府数据的无监督融合模型个人信用评分方法,其特征在于:所述第一步中,建立信用风险指标库,包括以下步骤:
(1)数据的获取、处理及存储
基于申贷个人用户授权调用政府数据库中的个人信息,包括个人基本信息、公积金缴纳信息和社保缴纳信息,对数据进行脱敏处理,并保存于关系型数据库中;
(2)信用风险指标库入库数据处理
筛选关系型数据库中入选信用风险指标库的相关表格及入库字段,并根据业务需求与建模需求对数据进行特征工程处理,形成能够直观反映信用风险的特征;
(3)信用评分样本库对象筛选
基于建立个人信用评分这一业务目标与特定的产品需求,筛选信用风险指标库中入选信用评分样本库的相关表格及入库字段;
(4)入库数据去重处理
针对选取的入库数据进行数据去重,用脱敏后的身份证号唯一标识申贷个人对象。
3.根据权利要求2所述的基于政府数据的无监督融合模型个人信用评分方法,其特征在于:所述步骤(2)中,筛选数据库中与个人信用风险密切相关的特征字段,包括个人身份、单位性质、性别、民族、公积金历史缴纳记录、养老保险历史缴纳记录、医疗保险历史缴纳记录和医疗保险账户消费记录字段,并运用特征加工技术形成个人公积金连续缴纳月数、养老保险连续缴纳月数及医疗保险连续缴纳月数特征;
通过数据处理的技术将个人敏感信息进行脱敏,所述步骤(4)中,根据脱敏后的人名与身份证号对数据进行去重;已经入库的个人信用风险指标依照贷款循环周期进行重新授权调用处理,并对指标库中对应身份的个人进行数据更新。
4.根据权利要求1所述的基于政府数据的无监督融合模型个人信用评分方法,其特征在于:所述第二步中,建立个人信用风险评价模型,包括以下步骤:
(1)筛选建模特征,构建层次结构图
筛选出的建模特征包含个人身份信息、个人公积金与社保连续缴纳月份、个人公积金与社保月缴额、个人公积金与社保缴纳基数和个人公积金与社保缴纳比例;运用筛选出的建模特征根据其内在联系与业务关联,构建目标层、准则层与方案层之间的层次结构图;
(2)层次分析法权重赋值与评分计算
根据层次关系图构建对比判断矩阵,通过综合多位专家打分结果赋予个人信用风险特征不同权重,对特征进行基于分位数的区间划分与原始赋分,形成基于层次分析法的个人信用评分模型;
(3)卡方分箱法区间划分与评分计算
将个人身份作为目标变量根据卡方分箱法对样本集缴纳公积金、社保金额以及三年内缴纳月数进行总体区间划分,并对所得区间进行赋分,形成基于卡方分箱法的个人信用评分模型。
5.根据权利要求4所述的基于政府数据的无监督融合模型个人信用评分方法,其特征在于:所述步骤(2)中,构建基于层次分析法的个人信用评分模型,包括以下步骤:
(A)基于层次结构图,各评分专家对每层各个因素之间的相对重要性给出数量化的主观判断;然后把这些数量化的分数按照一定的规则形成矩阵的形式,即对比判断矩阵;判断矩阵的含义即表示本层次的主要元素两两比较相对于上一层次元素的重要性;对比判断矩阵的具体数值采用1到9标度方法,将不同专家的评分进行加权平均,得到判断数值,并基于得出各层次的对比判断矩阵,进而计算出各个指标的权重;
(B)在得出各指标权重后,运用方根法要对判断结果进行一致性的检验,检验判断结果前后是否存在逻辑方面的偏误,并在发生逻辑偏误时对标度进行调整,重新确定权重;
(C)对选用的数值型个人信用风险特征进行分布描述,并通过平方根转换法将特征转换为类似正态分布;
(D)对转换后的风险特征按照四分位点进行区间划分,并依据专家意见对每个区间进行初始赋分;
(E)对于样本集中的每个样本,首先按照所落入的区间赋予每个样本风险特征初始分数,其次将特征初始分数乘以特征对应权重得到特征得分,最后将所有特征的得分加总形成这个样本基于层次分析法的信用评分。
6.根据权利要求4所述的基于政府数据的无监督融合模型个人信用评分方法,其特征在于:所述步骤(3)中,构建基于卡方分箱法的个人信用评分模型,包括以下步骤:
(A)预先设定一个卡方的阈值,并以这个阈值为标准,对数据进行卡方检验,将通过显著性水平和自由度计算出数据的卡方值(即数据对应的卡方值)与预设的阈值进行比较;卡方分箱的过程使用ChiMerge算法,将置信度设为95%,自由度为4;
(B)对数据进行初始化,根据要离散化的数据对实例进行排序,每个实例属于一个区间;
(C)计算每一个对相邻区间的卡方值,并将卡方值最小的一对区间合并;在这一过程中,对最终的分箱个数结果进行限制,每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并,直到分箱个数达到限制条件为止;同时按照预设卡方阈值对分箱结果进行检验,根据自由度和显著性水平得到对应的卡方阈值,如果分箱的各区间最小卡方值小于卡方阈值,则继续合并,直到最小卡方值超过设定阈值为止;
(D)检查分箱结果,减少类别样本数为0的分箱;
分箱之后,某些箱区间里类别分布比例极不均匀,甚至可能出现某个类别样本数为0的极端结果,这是不合理的,因此需要进一步减少分箱数量;
(E)依据专家意见对卡方分箱后所得区间结果进行赋分;
(F)针对每个样本,获取其所在的卡方分箱结果区间,并为其赋予相应的分值,形成这个样本基于卡方分箱法的信用评分。
7.根据权利要求1所述的基于政府数据的无监督融合模型个人信用评分方法,其特征在于:所述第三步中,基于融合模型进行个人信用评分,包括以下步骤:
(1)模型加权融合
分别计算出两个信用评分模型评分结果,对标准化至同一区间的结果进行加权求和;
(2)评分区间调整与转换
对加权求和后的个人信用评分结果运用数据转换的方法进行区间调整与正态化变换,获得最终的样本集整体评分分布。
8.根据权利要求7所述的基于政府数据的无监督融合模型个人信用评分方法,其特征在于:所述步骤(1)中,为保证加权求和结果的可对比性,通过最大-最小值法将两组评分结果标准化,均映射到[0,1]区间;对卡方分箱评分结果赋予权重30%,对层次分析法评分结果赋予权重70%,采用加权求和的方式得出最终评分。
9.根据权利要求7所述的基于政府数据的无监督融合模型个人信用评分方法,其特征在于:所述步骤(2)中,为使评分结果根据普适性,并且符合行业通用标准,通过分数乘以缩放系数的方式调整到千分制分数区间上;为了结果的泛化性,需要对打分结果进行正态化调整,由于总体评分结果中不包含0值,选用Box-Cox方法进行变换,使评分结果转换为类似正态分布。
CN201911071614.8A 2019-11-05 2019-11-05 一种基于政府数据的无监督融合模型个人信用评分方法 Withdrawn CN110807700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911071614.8A CN110807700A (zh) 2019-11-05 2019-11-05 一种基于政府数据的无监督融合模型个人信用评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911071614.8A CN110807700A (zh) 2019-11-05 2019-11-05 一种基于政府数据的无监督融合模型个人信用评分方法

Publications (1)

Publication Number Publication Date
CN110807700A true CN110807700A (zh) 2020-02-18

Family

ID=69501243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911071614.8A Withdrawn CN110807700A (zh) 2019-11-05 2019-11-05 一种基于政府数据的无监督融合模型个人信用评分方法

Country Status (1)

Country Link
CN (1) CN110807700A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311128A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于第三方数据的消费金融信用评分卡开发方法
CN111552703A (zh) * 2020-05-25 2020-08-18 支付宝(杭州)信息技术有限公司 一种数据处理方法及装置
CN112017063A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 基于综合风险评分的资源分配方法、装置及电子设备
CN112016791A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 资源分配方法、装置及电子设备
CN112017040B (zh) * 2020-10-16 2021-01-29 银联商务股份有限公司 信用评分模型训练方法、评分方法及系统、设备及介质
CN112734555A (zh) * 2020-12-31 2021-04-30 南京视察者智能科技有限公司 一种基于大数据的个人信用风险评估模型的设计方法
CN112989791A (zh) * 2021-03-30 2021-06-18 北京拓普丰联信息工程有限公司 一种基于文本信息抽取结果的去重方法、系统以及介质
CN112990487A (zh) * 2021-05-13 2021-06-18 上海冰鉴信息科技有限公司 一种快速卡方分箱的方法及装置
WO2021189694A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 用户智能化分层方法、装置、电子设备及可读存储介质
CN113487410A (zh) * 2021-07-06 2021-10-08 建信金融科技有限责任公司 一种授信管理方法、装置、电子设备及计算机可读介质
CN113626415A (zh) * 2021-08-27 2021-11-09 天元大数据信用管理有限公司 一种信用数据输出方法、设备及介质
CN114841802A (zh) * 2022-07-04 2022-08-02 天津金城银行股份有限公司 一种复合周期信贷风控策略生成方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021189694A1 (zh) * 2020-03-25 2021-09-30 平安科技(深圳)有限公司 用户智能化分层方法、装置、电子设备及可读存储介质
CN111311128A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于第三方数据的消费金融信用评分卡开发方法
CN111552703B (zh) * 2020-05-25 2023-11-21 支付宝(杭州)信息技术有限公司 一种数据处理方法及装置
CN111552703A (zh) * 2020-05-25 2020-08-18 支付宝(杭州)信息技术有限公司 一种数据处理方法及装置
CN112017063A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 基于综合风险评分的资源分配方法、装置及电子设备
CN112016791A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 资源分配方法、装置及电子设备
CN112016791B (zh) * 2020-07-15 2024-04-26 北京淇瑀信息科技有限公司 资源分配方法、装置及电子设备
CN112017063B (zh) * 2020-07-15 2024-04-26 北京淇瑀信息科技有限公司 基于综合风险评分的资源分配方法、装置及电子设备
CN112017040B (zh) * 2020-10-16 2021-01-29 银联商务股份有限公司 信用评分模型训练方法、评分方法及系统、设备及介质
CN112734555A (zh) * 2020-12-31 2021-04-30 南京视察者智能科技有限公司 一种基于大数据的个人信用风险评估模型的设计方法
CN112989791A (zh) * 2021-03-30 2021-06-18 北京拓普丰联信息工程有限公司 一种基于文本信息抽取结果的去重方法、系统以及介质
CN112990487B (zh) * 2021-05-13 2021-08-03 上海冰鉴信息科技有限公司 一种快速卡方分箱的方法及装置
CN112990487A (zh) * 2021-05-13 2021-06-18 上海冰鉴信息科技有限公司 一种快速卡方分箱的方法及装置
CN113487410B (zh) * 2021-07-06 2023-03-24 建信金融科技有限责任公司 一种授信管理方法、装置、电子设备及计算机可读介质
CN113487410A (zh) * 2021-07-06 2021-10-08 建信金融科技有限责任公司 一种授信管理方法、装置、电子设备及计算机可读介质
CN113626415A (zh) * 2021-08-27 2021-11-09 天元大数据信用管理有限公司 一种信用数据输出方法、设备及介质
CN113626415B (zh) * 2021-08-27 2024-02-23 天元大数据信用管理有限公司 一种信用数据输出方法、设备及介质
CN114841802A (zh) * 2022-07-04 2022-08-02 天津金城银行股份有限公司 一种复合周期信贷风控策略生成方法和装置

Similar Documents

Publication Publication Date Title
CN110807700A (zh) 一种基于政府数据的无监督融合模型个人信用评分方法
US7930242B2 (en) Methods and systems for multi-credit reporting agency data modeling
Bravo et al. Granting and managing loans for micro-entrepreneurs: New developments and practical experiences
CN111861698B (zh) 一种基于贷款多头数据的贷前审批预警方法及系统
US20230351396A1 (en) Systems and methods for outlier detection of transactions
CN112990386B (zh) 用户价值聚类方法、装置、计算机设备和存储介质
CN112232950A (zh) 针对借贷风险的评估方法及装置、设备、计算机可读存储介质
Mukherjee et al. Detection of defaulters in P2P lending platforms using unsupervised learning
Chen Prediction and analysis of financial default loan behavior based on machine learning model
Mu et al. Internet financial interest rate risk measure based on genetic rough set reduction
CN115689713A (zh) 异常风险数据处理方法、装置、计算机设备和存储介质
CN115063143A (zh) 账户数据处理方法、装置、计算机设备和存储介质
Lee et al. Application of machine learning in credit risk scorecard
Kriksciuniene et al. Research of customer behavior anomalies in big financial data
Kulothungan Loan Forecast by Using Machine Learning
CN113822751A (zh) 一种线上贷款的风险预测方法
YESHAMBEL A LOAN DEFAULT PREDICTION MODEL FOR ACSI: A DATA MINING APPROACH
Chen et al. Construction of Bank Credit White List Access System Based on Grey Clustering Algorithm
CN117764692A (zh) 一种用于预测信用风险违约概率的方法
CN118333739A (zh) 构建零售信用风险预测模型的方法和零售信贷业务Scoremult模型
CN117994016A (zh) 构建零售信用风险预测模型的方法和消费信贷业务Scorebeta模型
CN118071482A (zh) 构建零售信用风险预测模型的方法和消费信贷业务Scorebetad模型
Danenas et al. Intelligent techniques and systems in credit risk analysis and forecasting: a review of patents
Ertuğrul Customer Transaction Predictive Modeling via Machine Learning Algorithms
CN118333738A (zh) 构建零售信用风险预测模型的方法和信用卡业务Scorealpha模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200218

WW01 Invention patent application withdrawn after publication