CN110232405A - 用于个人信用评估的方法及装置 - Google Patents

用于个人信用评估的方法及装置 Download PDF

Info

Publication number
CN110232405A
CN110232405A CN201910441661.0A CN201910441661A CN110232405A CN 110232405 A CN110232405 A CN 110232405A CN 201910441661 A CN201910441661 A CN 201910441661A CN 110232405 A CN110232405 A CN 110232405A
Authority
CN
China
Prior art keywords
credit
prediction
training
prediction model
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910441661.0A
Other languages
English (en)
Inventor
王宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oriental Silver Valley (beijing) Technology Development Co Ltd
Original Assignee
Oriental Silver Valley (beijing) Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oriental Silver Valley (beijing) Technology Development Co Ltd filed Critical Oriental Silver Valley (beijing) Technology Development Co Ltd
Priority to CN201910441661.0A priority Critical patent/CN110232405A/zh
Publication of CN110232405A publication Critical patent/CN110232405A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种用于个人信用评估的方法及装置。该方法包括用于个人信用评估的方法,其特征在于,包括:获取用户数据集;通过所述用户数据集,训练有监督信用第一预测模型;对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果;根据所述信用一致性预测结果,得到个人信用评估结果。本申请解决了个人信用评估效果不佳的技术问题。通过本申请有效的风险管控,同时得到对于信用评估的更加客观、准确的结果。

Description

用于个人信用评估的方法及装置
技术领域
本申请涉及金融领域,具体而言,涉及一种用于个人信用评估的方法及装置。
背景技术
个人信用评估是客户贷款时征信审核和授信流程的第一步,也是金融科技企业控制风险的关键环节。
发明人发现,对于个人信用评估成本较高,且存在风险。
针对相关技术中个人信用评估效果不佳的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于个人信用评估的方法及装置,以解决个人信用评估效果不佳的问题。
为了实现上述目的,根据本申请的第一方面,提供了一种用于个人信用评估的方法。
根据本申请的用于个人信用评估的方法包括:获取用户数据集;通过所述用户数据集,训练有监督信用第一预测模型;对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果;根据所述信用一致性预测结果,得到个人信用评估结果。
进一步地,通过所述用户数据集,训练有监督信用第一预测模型包括:分别建立多个单分类器预测模型;根据预设性能指标,比较多个所述单分类器预测模型的性能。
进一步地,通过所述用户数据集,训练有监督信用第一预测模型时,还包括:根据预设比例划分所述所述用户数据集得到训练集和测试集;采用预设校验规则作为所述训练集内部参数寻优的策略,并使用获取的最优参数模型预测测试集。
进一步地,通过所述用户数据集,训练有监督信用第一预测模型时,还包括:采用Sigmoid函数对所建立的多个单分类器预测模型的概率输出结果进行校准,并将校准后的概率转化为信用评分分数。
进一步地,通过所述用户数据集,训练有监督信用第一预测模型包括:通过所述用户数据集划分得到训练集样本数据和测试集样本数据;根据所述训练集样本数据训练有监督第一信用预测模型;通过预测所述测试集样本数据,验证所述有监督第一信用预测模型的预测结果。
进一步地,对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果包括:对所述有监督信用预测模型的输出结果,采用无监督预测模型建立信用评分一致性模型。
为了实现上述目的,根据本申请的第二方面,提供了一种用于个人信用评估的装置。
根据本申请的用于个人信用评估的装置包括:获取模块,用于获取用户数据集;有监督训练模块,用于通过所述用户数据集,训练有监督信用第一预测模型;一致性预测模块,用于对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果;评估模块,用于根据所述信用一致性预测结果,得到个人信用评估结果。
进一步地,所述有监督训练模块包括:第一处理单元,用于分别建立多个单分类器预测模型;第二处理单元,用于根据预设比例划分所述所述用户数据集得到训练集和测试集。
进一步地,所述有监督训练模块还括:第三处理单元,用于采用预设校验规则作为所述训练集内部参数寻优的策略,并使用获取的最优参数模型预测测试集;第四处理单元,用于根据预设比例划分所述所述用户数据集得到训练集和测试集;第五处理单元,用于采用预设校验规则作为所述训练集内部参数寻优的策略,并使用获取的最优参数模型预测测试集;第六处理单元,用于采用Sigmoid函数对所建立的多个单分类器预测模型的概率输出结果进行校准,并将校准后的概率转化为信用评分分数。
进一步地,所述一致性预测模块,还用于对所述有监督信用预测模型的输出结果,采用无监督预测模型建立信用评分一致性模型。
为了实现上述目的,根据本申请的第三方面,本申请提供一种用于个人信用评估的设备,该设备包括处理器、显示器、存储器、网络接口和总线系统,其中,处理器、显示器、存储器、网络接口通过总线系统相互连接。该存储器用于存储指令,该处理器用于执行该存储器存储的指令,当该指令被执行时,该处理器通过该网络接口执行第一方面或第一方面的任意可能的实现方式中的方法。
为了实现上述目的,根据本申请的第四方面,本申请提供一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行用于个人信用评估的方法的指令。
在本申请实施例中用于个人信用评估的方法及装置,采用获取用户数据集;通过所述用户数据集,训练有监督信用第一预测模型的方式,通过对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果,达到了根据所述信用一致性预测结果,得到个人信用评估结果的目的,从而实现了有效的风险管控和信用评估的客观、准确的技术效果,进而解决了个人信用评估效果不佳的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的用于个人信用评估的方法流程示意图;
图2是根据本申请第二实施例的用于个人信用评估的方法流程示意图;
图3是根据本申请第三实施例的用于个人信用评估的方法流程示意图;
图4是根据本申请第四实施例的用于个人信用评估的方法流程示意图;
图5是根据本申请第五实施例的用于个人信用评估的方法流程示意图;
图6是根据本申请第六实施例的用于个人信用评估的方法流程示意图;
图7是根据本申请第一实施例的用于个人信用评估的装置结构示意图;
图8是根据本申请第二实施例的用于个人信用评估的装置结构示意图;
图9是本申请的实现原理示意图;
图10是无监督与有监督学习相融合流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请中的用于个人信用评估的方法,采用无监督学习与有监督学习相融合的方式进行集成学习。以多种元分类器输出所属类别可能性作为输入值,采用自组织神经网络进行无监督学习式地聚类,建立一致性模型实现次级分类器的集成学习。
如图1所示,该方法包括如下的步骤S102至步骤S108:
步骤S102,获取用户数据集;
通过收集用户个人信用、用户行为、用户消费数据来全面地刻画用户特征,并建立用户数据集。
需要注意的是,获取所述用户数据集的方式在本申请的实施例中并不进行限定,只要能够满足建立数据集的要求即可。此外,通过对用户个人信贷数据集进行全面的风险面统计,可以包括常用的风险指标计算、风险整体趋势分析,数据集中的数据可以用于全方位解析金融科技企业在个人信贷业务中所面临的风险及预测发展趋势。
步骤S104,通过所述用户数据集,训练有监督信用第一预测模型;
通过所述用户数据集,训练有监督的信用预测模型。
需要注意的是,练有监督的信用预测模型可以包括多个单分类器预测模型,通过将不同类型的单分类器预测模型组合,使得来自不同类型的单分类器预测模型涉及不同的偏差,该些偏差不仅能产生多样化的输出,并且整合不同类型的基学习器将对各种数据输入更具弹性,且整合一些准确且多样化的基础学习器可以获得更好的分类性能。
优选地,训练有监督的信用预测模型,包括:随机森林(random forest,简称RF模型)、支持向量机(support vector machines,简称SVM模型)、梯度提升决策树(gradientboosting decision trees,简称GBDT模型)、决策树(decision tree,简称DT模型)、人工神经网络(artificial neural network,简称ANN模型)、k近邻(k-nearest neighbours,简称kNN模型)。可以分别建立上述单分类器预测模型,并比较各算法的性能。
步骤S106,对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果;
对所述有监督信用预测模型的输出结果,进行次级分类器的集成学习。通过采用无监督预测模型,得到个人信用评分一致性模型进行信用一致性预测。
采用无监督学习与有监督学习相融合的方式进行集成学习,使两种类型的学习算法优势互补,采用有监督式学习算法虽然可以取得较高的精准度,却很可能出现过拟合的问题;而无监督式学习可以有效避免过拟合的问题。
具体地,通过采用无监督学习与有监督学习相融合的方式进行集成学习,以无监督学习得到的多个单分类器输出所属类别可能性作为输入值,采用相关神经网络进行无监督学习式地聚类,从而建立一致性模型。
步骤S108,根据所述信用一致性预测结果,得到个人信用评估结果。
所述信用一致性预测结果输出的包括判断用户是否是“好”或“坏”的属性,进而得到个人信用评估结果。
具体地,以个人借贷时的信用评估为例,根据所述信用一致性预测结果中判断当前用户是否能够通过个人信用评估,如果能够通过个人信用评估则认为是风险低、可进行个人借贷的用户。如果不能够通过个人信用评估则认为是风险低、不建议进行个人借贷的用户。
本申请的方法中,采用无监督学习与有监督学习相融合的方式进行集成学习,使两种类型的学习算法优势互补:采用有监督式学习算法虽然可以取得较高的精准度,却很可能出现过拟合的问题;而无监督式学习可以有效避免过拟合的问题。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用获取用户数据集;通过所述用户数据集,训练有监督信用第一预测模型的方式,通过对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果,达到了根据所述信用一致性预测结果,得到个人信用评估结果的目的,从而实现了有效的风险管控和信用评估的客观、准确的技术效果,进而解决了个人信用评估效果不佳的技术问题。
根据本申请实施例,作为本实施例中的优选,如图2所示,通过所述用户数据集,训练有监督信用第一预测模型包括:
步骤S202,分别建立多个单分类器预测模型;
步骤S204,根据预设性能指标,比较多个所述单分类器预测模型的性能。
如图9-10所示,具体地,可以采用六种机器学习算法,包括随机森林(randomforest,简称RF模型)、支持向量机(support vector machines,简称SVM模型)、梯度提升决策树(gradient boosting decision trees,简称GBDT模型)、决策树(decision tree,简称DT模型)、人工神经网络(artificial neural network,简称ANN模型)、k近邻(k-nearestneighbours,简称kNN模型),分别建立单分类器预测模型,并比较各算法模型的性能。
在比较所述算法模型的性时,采用正确率(accuracy)、准确率(precision)、召回率(recall)、马修斯相关系数(Matthews correlation coefficient,简称MCC)和KS值(Kolmogorov-Smirnov)作为模型性能衡量指标,并绘制操作者曲线(receiver operatingcharacteristic curve,简称ROC曲线)计算该曲线下面积(area under the curve,简称AUC),多维度比较模型性能。
需要注意的是,上述仅为优选实施方式,并不作为限定本申请的保护范围,本领域技术人员可以根据不同使用场景选择不同的性能指标进行算法模型性能比较。
还需要注意的是,上述仅为优选实施方式,并不作为限定本申请的保护范围,本领域技术人员可以根据不同使用场景选择基分类器的集成学习方式。
根据本申请实施例,作为本实施例中的优选,如图3所示,通过所述用户数据集,训练有监督信用第一预测模型时,还包括:
步骤S302,根据预设比例划分所述所述用户数据集得到训练集和测试集;
步骤S304,采用预设校验规则作为所述训练集内部参数寻优的策略,并使用获取的最优参数模型预测测试集。
具体地,可以优选地采用类似于逻辑回归模型的处理方式,按照7:3的比例划分训练集和测试集,并采用5重交互检验(5-cross validation,简称5-CV)作为训练集内部参数寻优的策略,使用最优参数模型预测测试集。
根据本申请实施例,作为本实施例中的优选,如图4所示,通过所述用户数据集,训练有监督信用第一预测模型时,还包括:
步骤S402,采用Sigmoid函数对所建立的多个单分类器预测模型的概率输出结果进行校准,并将校准后的概率转化为信用评分分数。
具体地,为了把多个基分离器机器学习模型输出的预测概率值校准到逻辑回归模型输出的预测概率值的同一水平上,可以优选地采用采用Sigmoid函数对所建立的机器学习模型的概率输出做校准,并将校准后的概率转化为信用评分分数。
根据本申请实施例,作为本实施例中的优选,如图5所示,通过所述用户数据集,训练有监督信用第一预测模型包括:
步骤S502,通过所述用户数据集划分得到训练集样本数据和测试集样本数据;
步骤S504,根据所述训练集样本数据训练有监督第一信用预测模型;
步骤S506,通过预测所述测试集样本数据,验证所述有监督第一信用预测模型的预测结果。
具体地,训练有监督信用第一预测模型时可按照下述方式建立:
建立常规个人信用评分模型按7:3的比例划分训练集和测试集,采用逻辑回归算法,基于训练集建立个人信用预测模型,用来预测测试集样本,以验证模型预测效果。模型输出好坏客户的预测结果,并同时输出属于该类别客户的可能性值,通过此值转化得到相应的信用评分分数,分数越高,意味着客户信用越好。划分分数区段,不同区段的客户具有不同的风险等级,以此指导征信审核业务。
根据本申请实施例,作为本实施例中的优选,如图6所示,对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果包括:
步骤S602,对所述有监督信用预测模型的输出结果,采用无监督预测模型建立信用评分一致性模型。
如图9-10所示,具体地,基于无监督算法作为次级分类器的集成学习。Kohonen’s自组织神经网络的无监督式学习。本申请的实施例中优选采用Kohonen’s自组织神经网络的算法建立个人信用评分一致性模型,此方法相比于简单的投票法,具有更高的精准度。具体做法是:首先,使用通过有监督学习训练得到的多种元分类器比如,LR、SVM、RF、ANN、kNN、GBDT、DT等分别输出所属类别可能性,以该些可能性值作为Kohonen’s自组织神经网络模型的输入,从而建立一致性模型。
通过采用无监督学习与有监督学习相融合的方式进行集成学习,以七种元分类器比如,LR、SVM、RF、ANN、kNN、GBDT、DT输出所属类别可能性作为输入值,采用Kohonen’s自组织神经网络进行无监督学习式地聚类,从而建立一致性模型。
由上述方法可知,该方法不仅组合了不同类型的基础学习器,如SVM,DT和ANN。从而通过来自不同类型的基学习器涉及不同的偏差,这些偏差不仅能产生多样化的输出。并且该方法还整合不同类型的基学习器将对各种数据输入更具弹性,且整合一些准确且多样化的基础学习器可以获得更好的分类性能。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的用于个人信用评估的装置,如图7所示,该装置包括:获取模块10,用于获取用户数据集;有监督训练模块20,用于通过所述用户数据集,训练有监督信用第一预测模型;一致性预测模块30,用于对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果;评估模块40,用于根据所述信用一致性预测结果,得到个人信用评估结果。
本申请实施例的获取模块10中通过收集用户个人信用、用户行为、用户消费数据来全面地刻画用户特征,并建立用户数据集。
需要注意的是,获取所述用户数据集的方式在本申请的实施例中并不进行限定,只要能够满足建立数据集的要求即可。此外,通过对用户个人信贷数据集进行全面的风险面统计,可以包括常用的风险指标计算、风险整体趋势分析,数据集中的数据可以用于全方位解析金融科技企业在个人信贷业务中所面临的风险及预测发展趋势。
本申请实施例的有监督训练模块20中通过所述用户数据集,训练有监督的信用预测模型。
需要注意的是,练有监督的信用预测模型可以包括多个单分类器预测模型,通过将不同类型的单分类器预测模型组合,使得来自不同类型的单分类器预测模型涉及不同的偏差,该些偏差不仅能产生多样化的输出,并且整合不同类型的基学习器将对各种数据输入更具弹性,且整合一些准确且多样化的基础学习器可以获得更好的分类性能。
如图9-10所示,优选地,训练有监督的信用预测模型,包括:随机森林(randomforest,简称RF模型)、支持向量机(support vector machines,简称SVM模型)、梯度提升决策树(gradient boosting decision trees,简称GBDT模型)、决策树(decision tree,简称DT模型)、人工神经网络(artificial neural network,简称ANN模型)、k近邻(k-nearestneighbours,简称kNN模型)。可以分别建立上述单分类器预测模型,并比较各算法的性能。
本申请实施例的一致性预测模块30中对所述有监督信用预测模型的输出结果,进行次级分类器的集成学习。通过采用无监督预测模型,得到个人信用评分一致性模型进行信用一致性预测。
采用无监督学习与有监督学习相融合的方式进行集成学习,使两种类型的学习算法优势互补,采用有监督式学习算法虽然可以取得较高的精准度,却很可能出现过拟合的问题;而无监督式学习可以有效避免过拟合的问题。
具体地,通过采用无监督学习与有监督学习相融合的方式进行集成学习,以无监督学习得到的多个单分类器输出所属类别可能性作为输入值,采用相关神经网络进行无监督学习式地聚类,从而建立一致性模型。
本申请实施例的评估模块40中所述信用一致性预测结果输出的包括判断用户是否是“好”或“坏”的属性,进而得到个人信用评估结果。
具体地,以个人借贷时的信用评估为例,根据所述信用一致性预测结果中判断当前用户是否能够通过个人信用评估,如果能够通过个人信用评估则认为是风险低、可进行个人借贷的用户。如果不能够通过个人信用评估则认为是风险低、不建议进行个人借贷的用户。
本申请的模块中,采用无监督学习与有监督学习相融合的方式进行集成学习,使两种类型的学习算法优势互补:采用有监督式学习算法虽然可以取得较高的精准度,却很可能出现过拟合的问题;而无监督式学习可以有效避免过拟合的问题。
根据本申请实施例,作为本实施例中的优选,如图8所示,所述有监督训练模块20包括:第一处理单元201,用于分别建立多个单分类器预测模型;第二处理单元202,用于根据预设比例划分所述所述用户数据集得到训练集和测试集。
本申请的实施例中如图9-10所示,具体地,可以采用六种机器学习算法,包括随机森林(random forest,简称RF模型)、支持向量机(support vector machines,简称SVM模型)、梯度提升决策树(gradient boosting decision trees,简称GBDT模型)、决策树(decision tree,简称DT模型)、人工神经网络(artificial neural network,简称ANN模型)、k近邻(k-nearest neighbours,简称kNN模型),分别建立单分类器预测模型,并比较各算法模型的性能。
在比较所述算法模型的性时,采用正确率(accuracy)、准确率(precision)、召回率(recall)、马修斯相关系数(Matthews correlation coefficient,简称MCC)和KS值(Kolmogorov-Smirnov)作为模型性能衡量指标,并绘制操作者曲线(receiver operatingcharacteristic curve,简称ROC曲线)计算该曲线下面积(area under the curve,简称AUC),多维度比较模型性能。
需要注意的是,上述仅为优选实施方式,并不作为限定本申请的保护范围,本领域技术人员可以根据不同使用场景选择不同的性能指标进行算法模型性能比较。
还需要注意的是,上述仅为优选实施方式,并不作为限定本申请的保护范围,本领域技术人员可以根据不同使用场景选择基分类器的集成学习方式。
根据本申请实施例,作为本实施例中的优选,如图8所示,所述有监督训练模块还括:第三处理单元203,用于采用预设校验规则作为所述训练集内部参数寻优的策略,并使用获取的最优参数模型预测测试集;第四处理单元204,用于根据预设比例划分所述所述用户数据集得到训练集和测试集;第五处理单元205,用于采用预设校验规则作为所述训练集内部参数寻优的策略,并使用获取的最优参数模型预测测试集;第六处理单元206,用于采用Sigmoid函数对所建立的多个单分类器预测模型的概率输出结果进行校准,并将校准后的概率转化为信用评分分数。
本申请的实施例中具体地,可以优选地采用类似于逻辑回归模型的处理方式,按照7:3的比例划分训练集和测试集,并采用5重交互检验(5-cross validation,简称5-CV)作为训练集内部参数寻优的策略,使用最优参数模型预测测试集。
本申请的实施例中具体地,为了把多个基分离器机器学习模型输出的预测概率值校准到逻辑回归模型输出的预测概率值的同一水平上,可以优选地采用采用Sigmoid函数对所建立的机器学习模型的概率输出做校准,并将校准后的概率转化为信用评分分数。
本申请的实施例中具体地,训练有监督信用第一预测模型时可按照下述方式建立:
建立常规个人信用评分模型按7:3的比例划分训练集和测试集,采用逻辑回归算法,基于训练集建立个人信用预测模型,用来预测测试集样本,以验证模型预测效果。模型输出好坏客户的预测结果,并同时输出属于该类别客户的可能性值,通过此值转化得到相应的信用评分分数,分数越高,意味着客户信用越好。划分分数区段,不同区段的客户具有不同的风险等级,以此指导征信审核业务。
根据本申请实施例,作为本实施例中的优选,如图8所示,所述一致性预测模块30,还用于对所述有监督信用预测模型的输出结果,采用无监督预测模型建立信用评分一致性模型。
如图9-10所示,具体地,基于无监督算法作为次级分类器的集成学习。Kohonen’s自组织神经网络的无监督式学习。本申请的实施例中优选采用Kohonen’s自组织神经网络的算法建立个人信用评分一致性模型,此方法相比于简单的投票法,具有更高的精准度。具体做法是:首先,使用通过有监督学习训练得到的多种元分类器比如,LR、SVM、RF、ANN、kNN、GBDT、DT等分别输出所属类别可能性,以该些可能性值作为Kohonen’s自组织神经网络模型的输入,从而建立一致性模型。
通过采用无监督学习与有监督学习相融合的方式进行集成学习,以七种元分类器比如,LR、SVM、RF、ANN、kNN、GBDT、DT输出所属类别可能性作为输入值,采用Kohonen’s自组织神经网络进行无监督学习式地聚类,从而建立一致性模型。
由上述模块可知,该模块不仅组合了不同类型的基础学习器,如SVM,DT和ANN。从而通过来自不同类型的基学习器涉及不同的偏差,这些偏差不仅能产生多样化的输出。并且该方法还整合不同类型的基学习器将对各种数据输入更具弹性,且整合一些准确且多样化的基础学习器可以获得更好的分类性能。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种用于个人信用评估的方法,其特征在于,包括:
获取用户数据集;
通过所述用户数据集,训练有监督信用第一预测模型;
对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果;
根据所述信用一致性预测结果,得到个人信用评估结果。
2.根据权利要求1所述的方法,其特征在于,通过所述用户数据集,训练有监督信用第一预测模型包括:
分别建立多个单分类器预测模型;
根据预设性能指标,比较多个所述单分类器预测模型的性能。
3.根据权利要求2所述的方法,其特征在于,通过所述用户数据集,训练有监督信用第一预测模型时,还包括:
根据预设比例划分所述所述用户数据集得到训练集和测试集;
采用预设校验规则作为所述训练集内部参数寻优的策略,并使用获取的最优参数模型预测测试集。
4.根据权利要求2所述的方法,其特征在于,通过所述用户数据集,训练有监督信用第一预测模型时,还包括:
采用Sigmoid函数对所建立的多个单分类器预测模型的概率输出结果进行校准,并将校准后的概率转化为信用评分分数。
5.根据权利要求1所述的方法,其特征在于,通过所述用户数据集,训练有监督信用第一预测模型包括:
通过所述用户数据集划分得到训练集样本数据和测试集样本数据;
根据所述训练集样本数据训练有监督第一信用预测模型;
通过预测所述测试集样本数据,验证所述有监督第一信用预测模型的预测结果。
6.根据权利要求1所述的方法,其特征在于,对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果包括:
对所述有监督信用预测模型的输出结果,采用无监督预测模型建立信用评分一致性模型。
7.一种用于个人信用评估的装置,其特征在于,包括:
获取模块,用于获取用户数据集;
有监督训练模块,用于通过所述用户数据集,训练有监督信用第一预测模型;
一致性预测模块,用于对所述有监督信用预测模型的输出结果,采用无监督预测模型得到信用一致性预测结果;
评估模块,用于根据所述信用一致性预测结果,得到个人信用评估结果。
8.根据权利要求7所述的装置,其特征在于,所述有监督训练模块包括:
第一处理单元,用于分别建立多个单分类器预测模型;
第二处理单元,用于根据预设比例划分所述所述用户数据集得到训练集和测试集。
9.根据权利要求9述的装置,其特征在于,所述有监督训练模块还括:
第三处理单元,用于采用预设校验规则作为所述训练集内部参数寻优的策略,并使用获取的最优参数模型预测测试集;
第四处理单元,用于根据预设比例划分所述所述用户数据集得到训练集和测试集;
第五处理单元,用于采用预设校验规则作为所述训练集内部参数寻优的策略,并使用获取的最优参数模型预测测试集;
第六处理单元,用于采用Sigmoid函数对所建立的多个单分类器预测模型的概率输出结果进行校准,并将校准后的概率转化为信用评分分数。
10.根据权利要求7所述的装置,其特征在于,所述一致性预测模块,还用于对所述有监督信用预测模型的输出结果,采用无监督预测模型建立信用评分一致性模型。
CN201910441661.0A 2019-05-24 2019-05-24 用于个人信用评估的方法及装置 Pending CN110232405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910441661.0A CN110232405A (zh) 2019-05-24 2019-05-24 用于个人信用评估的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910441661.0A CN110232405A (zh) 2019-05-24 2019-05-24 用于个人信用评估的方法及装置

Publications (1)

Publication Number Publication Date
CN110232405A true CN110232405A (zh) 2019-09-13

Family

ID=67861075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910441661.0A Pending CN110232405A (zh) 2019-05-24 2019-05-24 用于个人信用评估的方法及装置

Country Status (1)

Country Link
CN (1) CN110232405A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062444A (zh) * 2019-12-21 2020-04-24 湖南大学 信用风险预测方法、系统、终端及存储介质
CN111192121A (zh) * 2019-12-17 2020-05-22 航天信息股份有限公司 一种基于ann的风险纳税人自动预警方法及系统
CN112686749A (zh) * 2020-12-31 2021-04-20 上海竞动科技有限公司 一种基于逻辑回归技术的信用风险评估方法及装置
CN113011966A (zh) * 2021-03-18 2021-06-22 中国光大银行股份有限公司 基于深度学习的信用评分方法及装置
CN113642618A (zh) * 2021-07-27 2021-11-12 上海展湾信息科技有限公司 一种用于螺杆装置状态预测模型训练的方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874922A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 一种确定业务参数的方法及装置
CN107766418A (zh) * 2017-09-08 2018-03-06 广州汪汪信息技术有限公司 一种基于融合模型的信用评估方法、电子设备和存储介质
CN108388929A (zh) * 2018-03-27 2018-08-10 四川大学 基于代价敏感和半监督分类的客户分类方法及装置
CN108596757A (zh) * 2018-04-23 2018-09-28 大连火眼征信管理有限公司 一种智能组合的个人信用评估方法及系统
CN109034209A (zh) * 2018-07-03 2018-12-18 阿里巴巴集团控股有限公司 主动风险实时识别模型的训练方法和装置
CN109598300A (zh) * 2018-11-30 2019-04-09 成都数联铭品科技有限公司 一种评估系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874922A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 一种确定业务参数的方法及装置
CN107766418A (zh) * 2017-09-08 2018-03-06 广州汪汪信息技术有限公司 一种基于融合模型的信用评估方法、电子设备和存储介质
CN108388929A (zh) * 2018-03-27 2018-08-10 四川大学 基于代价敏感和半监督分类的客户分类方法及装置
CN108596757A (zh) * 2018-04-23 2018-09-28 大连火眼征信管理有限公司 一种智能组合的个人信用评估方法及系统
CN109034209A (zh) * 2018-07-03 2018-12-18 阿里巴巴集团控股有限公司 主动风险实时识别模型的训练方法和装置
CN109598300A (zh) * 2018-11-30 2019-04-09 成都数联铭品科技有限公司 一种评估系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐胡鑫 等: "《网站运营与数据分析》", 31 December 2016 *
张珑 等: "《发音质量自动评测技术》", 30 June 2015 *
马飒飒 等: "《物联网基础技术及应用》", 31 January 2018 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192121A (zh) * 2019-12-17 2020-05-22 航天信息股份有限公司 一种基于ann的风险纳税人自动预警方法及系统
CN111062444A (zh) * 2019-12-21 2020-04-24 湖南大学 信用风险预测方法、系统、终端及存储介质
CN111062444B (zh) * 2019-12-21 2023-12-08 湖南大学 信用风险预测方法、系统、终端及存储介质
CN112686749A (zh) * 2020-12-31 2021-04-20 上海竞动科技有限公司 一种基于逻辑回归技术的信用风险评估方法及装置
CN112686749B (zh) * 2020-12-31 2021-09-17 上海竞动科技有限公司 一种基于逻辑回归技术的信用风险评估方法及装置
CN113011966A (zh) * 2021-03-18 2021-06-22 中国光大银行股份有限公司 基于深度学习的信用评分方法及装置
CN113642618A (zh) * 2021-07-27 2021-11-12 上海展湾信息科技有限公司 一种用于螺杆装置状态预测模型训练的方法及设备
CN113642618B (zh) * 2021-07-27 2024-03-01 上海展湾信息科技有限公司 一种用于螺杆装置状态预测模型训练的方法及设备

Similar Documents

Publication Publication Date Title
CN110232405A (zh) 用于个人信用评估的方法及装置
CN111614491B (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
CN109583468A (zh) 训练样本获取方法,样本预测方法及对应装置
CN106067088A (zh) 电子银行访问行为的检测方法和装置
CN108319974A (zh) 数据处理方法、装置、存储介质和电子装置
CN109816233A (zh) 用于电网的用户标签模型生成方法及装置
CN108304853A (zh) 游戏相关度的获取方法、装置、存储介质和电子装置
CN109711424A (zh) 一种基于决策树的行为规则获取方法、装置及设备
CN111444075B (zh) 一种自动发现关键影响力指标的方法
CN113125903A (zh) 线损异常检测方法、装置、设备及计算机可读存储介质
CN109800782A (zh) 一种基于模糊knn算法的电网故障检测方法及装置
CN108197280A (zh) 一种基于工业设备数据的可挖掘性评估方法
CN110152302A (zh) 牌类游戏的手牌生成和聚类方法、设备以及处理器
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN110245826A (zh) 一种数据分析方法及装置
Reif et al. Meta2-features: Providing meta-learners more information
Li et al. Learning, analyzing and predicting object roles on dynamic networks
Pietsch et al. Memory capacity and intelligence: Novel techniques for evaluating rival models of a fundamental information-processing mechanism
CN114912510B (zh) 一种线上调研样本质量评估系统
CN110533341A (zh) 一种基于bp神经网络的城市宜居性评价方法
Giampieri et al. A supervised classification system based on evolutive multi-agent clustering for smart grids faults prediction
KR101462858B1 (ko) 기업의 해외 진출 역량 평가 방법
CN110096708A (zh) 一种定标集确定方法及装置
CN114417884A (zh) 一种用于信息技术咨询服务的智能展示装置及方法
CN104636636B (zh) 蛋白质远程同源性检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190913