CN117216584A - 信用评价模型的生成方法、装置、设备和介质 - Google Patents

信用评价模型的生成方法、装置、设备和介质 Download PDF

Info

Publication number
CN117216584A
CN117216584A CN202311101861.4A CN202311101861A CN117216584A CN 117216584 A CN117216584 A CN 117216584A CN 202311101861 A CN202311101861 A CN 202311101861A CN 117216584 A CN117216584 A CN 117216584A
Authority
CN
China
Prior art keywords
sample
samples
target
class
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311101861.4A
Other languages
English (en)
Inventor
伏峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202311101861.4A priority Critical patent/CN117216584A/zh
Publication of CN117216584A publication Critical patent/CN117216584A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种信用评价模型的生成方法、装置、设备和介质,其中,方法包括:获取多数类样本集、少数类样本集和参考信用评价模型;采用参考信用评价模型分别对各第一样本和各第二样本进行信用预测,以根据预测结果,从多数类样本集中确定并删除第一目标样本;对各第二样本进行聚类,得到多个类簇,并根据多个类簇生成至少一个第二目标样本,以将第二目标样本添加至少数类样本集中;根据更新后的多数类样本集和更新后的少数类样本集,生成目标信用评价模型。由此,可以避免目标信用评价模型发生过拟合的情况,提升目标信用评价模型的泛化性能。

Description

信用评价模型的生成方法、装置、设备和介质
技术领域
本公开涉及人工智能和风控技术领域,尤其涉及信用评价模型的生成方法、装置、设备和介质。
背景技术
在客户申请金融机构(比如银行)的业务产品(如贷款产品)时,可以采用信用评价模型对客户进行筛选和违约风险判断,比如,采用信用评价模型对与客户关联的业务数据进行信用预测,得到的预测概率可用于指示客户的信用状况,比如,当预测概率相对较低时,表明客户的信用较低,即客户可能存在较高的违约风险(如还款能力较低等)。
目前,信用评价模型可以根据业务产品申请通过的接受样本和业务产品申请未通过的拒绝样本生成,但是,在接受样本和拒绝样本的数量差距较大时,信用评价模型的预测结果的准确性难以保障,比如,信用评价模型对多数类样本的识别精度较好,而对少数类样本的识别精度较差。
相关技术中,采用随机法,平衡两个类别的样本数量,即,可以从多数类样本集中随机删除部分样本,或者,向少数类样本集中随机新增部分样本。然而,随机法容易产生模型过拟合的问题,使得模型学习到的信息过于特别而不够泛化。
发明内容
本公开提供一种信用评价模型的生成方法、装置、设备和介质,以至少在一定程度上解决相关技术中的技术问题之一。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种信用评价模型的生成方法,包括:获取多数类样本集、少数类样本集和参考信用评价模型;其中,所述参考信用评价模型是根据所述多数类样本集中各第一样本和对应的第一标签,及所述少数类样本集中各第二样本和对应的第二标签生成的;采用所述参考信用评价模型分别对各所述第一样本和各所述第二样本进行信用预测,以根据预测结果,从所述多数类样本集中确定并删除第一目标样本;对各所述第二样本进行聚类,得到多个类簇,并根据所述多个类簇生成至少一个第二目标样本,以将所述第二目标样本添加至所述少数类样本集中;根据所述更新后的多数类样本集和更新后的少数类样本集,生成目标信用评价模型。
根据本公开实施例的第二方面,提供一种信用评价模型的生成装置,包括:获取模块,用于获取多数类样本集、少数类样本集和参考信用评价模型;其中,所述参考信用评价模型是根据所述多数类样本集中各第一样本和对应的第一标签,及所述少数类样本集中各第二样本和对应的第二标签生成的;第一处理模块,用于采用所述参考信用评价模型分别对各所述第一样本和各所述第二样本进行信用预测,以根据预测结果,从所述多数类样本集中确定并删除第一目标样本;第二处理模块,用于对各所述第二样本进行聚类,得到多个类簇,并根据所述多个类簇生成至少一个第二目标样本,以将所述第二目标样本添加至所述少数类样本集中;生成模块,用于根据所述更新后的多数类样本集和更新后的少数类样本集,生成目标信用评价模型。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如本公开上述实施例所述的信用评价模型的生成方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本公开上述实施例所述的信用评价模型的生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括:计算机程序,所述计算机程序被处理器执行时实现如本公开上述实施例所述的信用评价模型的生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过根据所有样本和对应的样本标签,构建参考信用评价模型,并基于参考信用评价模型对多数类样本集中各第一样本进行信用预测得到的预测结果,来确定多数类样本集中待删除的第一目标样本,而非随机删除多数类样本集中的部分样本,可以避免模型发生过拟合的情况,提升模型的泛化性能,并且,对少数类样本集中各第二样本进行聚类,并基于聚类得到的各个类簇,来生成待添加至该少数类样本集中的第二目标样本,而非随机向少数类样本集中添加部分样本,可以进一步提升最终生成或构建的目标信用评价模型的泛化能力,降低目标信用评价模型发生过拟合的概率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是本公开第一实施例所示出的信用评价模型的生成方法的流程示意图。
图2是本公开第二实施例所示出的信用评价模型的生成方法的流程示意图。
图3是本公开第三实施例所示出的信用评价模型的生成方法的流程示意图。
图4是本公开第四实施例所示出的信用评价模型的生成方法的流程示意图;
图5是本公开第五实施例所示出的信用评价模型的生成方法的流程示意图;
图6是本公开第六实施例所示出的信用评价模型的应用方法的流程示意图;
图7是本公开实施例所示出的以类簇中心为中心,最大半径作为半径所画的圆示意图;
图8为本公开实施例所示出的同心圆示意图;
图9是本公开第七实施例所示出的信用评价模型的生成装置的结构示意图。
图10是本公开一示例性实施例所示出的电子设备的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定,且不违背公序良俗。
在实际的训练场景中,用于对信用评价模型进行训练的接受样本和拒绝样本的数量往往是不平衡的,可以使用欠采样或者过采样方法,来处理训练样本。其中,欠采样方法,是指从多数类样本中删除部分样本,过采样方法,是指向少数类样本中新增部分样本。
目前,常用的过采样和欠采样方法包括以下两种:
第一种,SMOTE(Synthetic Minority Oversampling Technique,合成少数类过采样技术)方法。其中,SMOTE方法是过采样方法中的一种,主要基于距离度量选择少数类样本中的两个或者更多的相似样本,然后选择相似样本中的一个样本,并随机选择一定数量的邻居样本,这样就构造了更多的新生数据。优点是相当于合理地对小样本的分类平面进行一定程度的外扩,也相当于对小类错分进行加权惩罚。
第二种,随机法。采用随机简单复制样本的策略来增加少数类样本,或者随机简单删除样本的策略来减少多数类样本。
然而上述第一种方式,SMOTE方法容易产生分布边缘化问题,由于少数类样本的分布决定了其可选择的近邻,如果所选择的少数类样本处在少数类样本集的分布边缘,则由该少数类样本和相邻样本(或邻居样本)产生的新增样本也会处在这个边缘,从而模糊了多数类样本和少数类样本的边界,这种边界模糊性加大了分类算法进行分类的难度。
上述第二种方式,随机法容易产生模型过拟合的问题,使得模型学习到的信息过于特别而不够泛化。
为了解决上述存在的至少一种问题,本公开提出一种信用评价模型的生成方法、装置、设备和介质。
下面参考附图描述本公开实施例的信用评价模型的生成方法、装置、设备和介质。在具体描述本公开实施例之前,为了便于理解,首先对常用技术词进行介绍:
聚类(Clustering),是指按照某个特定标准(如距离)将一个数据集分割为不同的类或簇(本公开中记为类簇),使得同一个簇(或类簇)内的各数据对象之间的相似性尽可能地大,同时使得不在同一个簇(或类簇)中的数据对象之间的差异性也尽可能地大。即,聚类后,使得属于同一类的数据对象尽可能地聚集到一起,不同类的数据对象尽量分离。
簇的中心(本公开中记为类簇中心)是指簇中最具代表性的点,其可以使得簇中的任何对象比其他簇的中心更接近该簇的中心。例如,类簇中心可以为簇中所有点的平均值或中心点等。
图1是本公开第一实施例所示出的信用评价模型的生成方法的流程示意图。
本公开实施例以该信用评价模型的生成方法被配置于信用评价模型的生成装置中来举例说明,该信用评价模型的生成装置可以应用于任一电子设备中,以使该电子设备可以执行信用评价模型的生成功能。
其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该信用评价模型的生成方法可以包括以下步骤S11-步骤S14。
在步骤S11中,获取多数类样本集、少数类样本集和参考信用评价模型。
其中,多数类样本集中包含的第一样本(或称为多数类样本)的数量大于少数类样本集中包含的第二样本(或称为少数类样本)的数量。
比如,当第一样本包括与第一业务产品关联且审批通过的第一业务数据,即第一样本为通过样本或接受样本时,第二样本可以包括与第二业务产品关联且审批未通过的第二业务数据,即第二样本为未通过样本或拒绝样本,此时,多数类样本集可以称为通过样本集或接受样本集,少数类样本集可以称为未通过样本集或拒绝样本集。
或者,当第二样本包括与第一业务产品关联且审批通过的第一业务数据,即第二样本为通过样本或接受样本时,第一样本可以包括与第二业务产品关联且审批未通过的第二业务数据,即第一样本为未通过样本或拒绝样本,此时,多数类样本集可以称为未通过样本集或拒绝样本集,少数类样本集可以称为通过样本集或接受样本集。
其中,第一业务产品和第二业务产品可以为同一业务产品,或者,第一业务产品和第二业务产品也可以为不同的业务产品,本公开实施例对此并不作限制。比如,以该方法应用于金融机构(比如银行)的贷款业务场景进行示例性说明,第一业务产品可以为个人贷、第二业务产品可以为小额贷,或者,第一业务产品可以为出口贷,第二业务产品可以为进口贷,等等,在此不一一列举。
其中,第一业务数据中可以包括但不限于:申请第一业务产品的客户的基本信息(如性别、年龄、学历、姓名等)、征信记录、存款余额、外部数据等信息,相应的,第二业务数据中可以包括但不限于:申请第二业务产品的客户的基本信息、征信记录、存款余额、外部数据等信息。
其中,第一样本的样本标签(本公开中记为第一标签),用于指示第一样本所属的第一类别。其中,第一类别用于指示第一样本是否通过审批,比如,当第一标签为0时,第一样本可为通过审批的接受样本,当第一标签为1时,第一样本可为未通过审批的拒绝样本,或者,当第一标签为1时,第一样本可为未通过审批的拒绝样本,当第一标签为0时,第一样本可为通过审批的接受样本。应当理解的是,上述第一标签的取值仅为示例性说明,实际应用时,第一标签也可以设置为其他取值,本公开对此并不作限制。
同理,第二样本的样本标签(本公开中记为第二标签),用于指示第二样本所属的第二类别。其中,第二类别用于指示第二样本是否通过审批,且第二类别与第一类别不同。例如,当第一类别指示审批通过时,第二类别指示审批未通过,或者,当第一类别指示审批未通过时,第二类别指示审批通过。
在本公开实施例中,对多数类样本集和少数类样本集的获取方式不作限制,比如,可以从现有的训练集获取,或者,可以在线采集,或者,可以从实际的业务场景中采集,等等,本公开对此并不做限制。
在本公开实施例中,可以根据多数类样本集中各第一样本和各第一样本的第一标签,以及根据少数类样本集中各第二样本和各第二样本的第二标签,生成或构建参考信用评价模型。
在步骤S12中,采用参考信用评价模型分别对各第一样本和各第二样本进行信用预测,以根据预测结果,从多数类样本集中确定并删除第一目标样本。
在本公开实施例中,可以采用参考信用评价模型分别对多数类样本集中的各个第一样本进行信用预测(或信用评价),以及分别对少数类样本集中各个第二样本进行信用预测,得到预测结果,其中,预测结果中可以包括各个第一样本和各个第二样本属于第一标签的第一预测概率,以及包括各个第一样本和各个第二样本属于第二标签的第二预测概率。其中,对于同一样本(包括第一样本或第二样本)而言,该同一样本属于第一标签的第一预测概率与该同一样本属于第二标签的第二预测概率之和,等于1。
在本公开实施例中,可以根据预测结果,从多数类样本集中确定第一目标样本,并删除该第一目标样本。
在步骤S13中,对各第二样本进行聚类,得到多个类簇,并根据多个类簇生成至少一个第二目标样本,以将第二目标样本添加至少数类样本集中。
在本公开实施例中,可以采样聚类算法(如k均值聚类算法(k-means clusteringalgorithm)、基于密度的聚类算法(Density-Based Spatial Clustering ofApplications with Noise,简称DBSCAN)等),对少数类样本集中的各个第二样本进行聚类,得到多个类簇(或称为聚簇),并根据多个类簇,生成至少一个第二目标样本,并将各第二目标样本添加至少数类样本集中。
在步骤S14中,根据更新后的多数类样本集和更新后的少数类样本集,生成目标信用评价模型。
在本公开实施例中,可以根据更新后的多数类样本集和更新后的少数类样本集,生成目标信用评价模型,其中,目标信用评价模型的生成方式与参考信用评价模型的生成方式类似,即,可以根据更新后的多数类样本集中各个样本和对应的第一标签,以及根据更新后的少数类样本集中各个样本和对应的第二标签,生成目标信用评价模型。
本公开实施例的信用评价模型的生成方法,根据所有样本和对应的样本标签,构建参考信用评价模型,并基于参考信用评价模型对多数类样本集中各第一样本进行信用预测得到的预测结果,来确定多数类样本集中待删除的第一目标样本,而非随机删除多数类样本集中的部分样本,可以避免模型发生过拟合的情况,提升模型的泛化性能,并且,对少数类样本集中各第二样本进行聚类,并基于聚类得到的各个类簇,来生成待添加至该少数类样本集中的第二目标样本,而非随机向少数类样本集中添加部分样本,可以进一步提升最终生成或构建的目标信用评价模型的泛化能力,降低目标信用评价模型发生过拟合的概率。
为了清楚说明本公开上述实施例中是如何采用参考信用评价模型分别对各第一样本和各第二样本进行信用预测,以根据预测结果,从多数类样本集中确定并删除第一目标样本的,本公开还提出一种信用评价模型的生成方法。
图2是本公开第二实施例所示出的信用评价模型的生成方法的流程示意图。
如图2所示,该信用评价模型的生成方法可以包括以下步骤S21-步骤S28。
在步骤S21中,获取多数类样本集、少数类样本集和参考信用评价模型。
其中,参考信用评价模型是根据多数类样本集中各第一样本和对应的第一标签,及少数类样本集中各第二样本和对应的第二标签生成的。
其中,第一标签用于指示第一样本所属的第一类别,第二标签用于指示第二样本所属的第二类别。
步骤S21的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
在步骤S22中,采用参考信用评价模型分别对各第一样本和各第二样本进行信用预测,得到的预测结果包括各第一样本和各第二样本属于第一标签的第一预测概率。
在本公开实施例中,可以采用参考信用评价模型分别对各个第一样本进行信用预测,得到各个第一样本属于第一标签的第一预测概率,并且,还可以采用参考信用评价模型分别对各个第二样本进行信用预测,得到各个第二样本属于第一标签的第一预测概率。
在步骤S23中,根据各第一样本和各第二样本分别对应的第一预测概率,对各第一样本和第二样本进行分箱,以得到多个第一分箱。
在本公开实施例中,可以根据各个第一样本和各个第二样本分别对应的第一预测概率,对各个第一样本和各个第二样本进行分箱,以得到多个第一分箱。
作为一种示例,可以将各第一样本和各第二样本,按照对应的第一预测概率的取值由大至小(或由小至大)排序,得到排序序列,之后,可以根据设定数量,对排序序列中的各个样本进行等频分箱,得到多个第一分箱。
由此,可以实现基于各个样本的第一预测概率,对各个样本进行划分,将第一预测概率相近的各个样本划分至同一个第一分箱中,可以提升分箱效果。
在步骤S24中,针对任一第一分箱,统计任一第一分箱中包含的样本总数量、第一样本的第一数量以及第二样本的第二数量。
在本公开实施例中,针对任意一个第一分箱,可以统计该第一分箱中包含的样本总数量,并统计该第一分箱中包含的第一样本的数量(本公开中记为第一数量),以及统计该第一分箱中的第二样本的数量(本公开中记为第二数量)。
其中,样本总数量=第一数量+第二数量。
在步骤S25中,根据第一数量,以及第二数量与样本总数量的第一占比,确定任一第一分箱中待删除的第一目标样本的第三数量。
在本公开实施例中,可以根据第一数量,以及根据第二数量与样本总数量的第一占比,确定上述第一分箱中待删除的第一目标样本的第三数量。
作为一种示例,标记第i个第一分箱中包含的样本总数量为countAi,第i个第一分箱中包含的第一样本的第一数量为countBi,第i个第一分箱中包含的第二样本的第二数量为countCi,第i个第一分箱中包含的第一目标样本的第三数量为countDi,则有:
countDi=w1*countBi*(countCi/countAi); (1)
其中,i为正整数,countAi=countBi+countCi,w1为预先设定的可调整系数,取值范围0≤w1≤1。
在步骤S26中,从任一第一分箱中确定并删除第三数量的第一目标样本,以得到第二分箱。
在本公开实施例中,可以从上述第一分箱中确定第三数量的第一目标样本,并从该第一分箱中删除第三数量的第一目标样本。
在步骤S27中,对各第二样本进行聚类,得到多个类簇,并根据多个类簇生成至少一个第二目标样本,以将第二目标样本添加至少数类样本集中。
在步骤S28中,根据各第二分箱中的第一样本和对应的第一标签,以及根据更新后的少数类样本集,生成目标信用评价模型。
在本公开实施例中,可以根据各第二分箱中的第一样本和对应的第一标签,以及根据更新后的少数类样本集中各样本和对应的第二标签,生成目标信用评价模型。
步骤S27至S28的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
本公开实施例的信用评价模型的生成方法,通过对各样本进行分箱,并基于每个分箱中少数类样本的占比,从每个分箱中确定待删除的多数类样本(本公开中记为第一目标样本)的第三数量,可以使得更新后的多数类样本集中的样本数量与少数类样本集中的样本数量均衡,提升最终生成的目标信用评价模型的预测精度。
为了清楚说明本公开任一实施例中是如何从任一第一分箱中确定第三数量的第一目标样本的,本公开还提出一种信用评价模型的生成方法。
图3是本公开第三实施例所示出的信用评价模型的生成方法的流程示意图。
如图3所示,该信用评价模型的生成方法可以包括以下步骤S301-步骤S311。
在步骤S301中,获取多数类样本集、少数类样本集和参考信用评价模型。
在步骤S302中,采用参考信用评价模型分别对各第一样本和各第二样本进行信用预测,得到的预测结果包括各第一样本和各第二样本属于第一标签的第一预测概率。
在步骤S303中,根据各第一样本和各第二样本分别对应的第一预测概率,对各第一样本和各第二样本进行分箱,以得到多个第一分箱。
在步骤S304中,针对任一第一分箱,统计任一第一分箱中包含样本总数量、第一样本的第一数量以及第二样本的第二数量。
在步骤S305中,根据第一数量,以及第二数量与样本总数量的第一占比,确定任一第一分箱中待删除的第一目标样本的第三数量。
步骤S301至S305的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
在步骤S306中,从任一第一分箱中确定第一样本子集和第二样本子集。
在本公开实施例中,针对任意一个第一分箱,可以从该第一分箱中确定第一样本子集和第二样本子集,其中,第一样本子集中包括该第一分箱中的各个第一样本,第二样本子集中包括该第一分箱中的各个第二样本。
在步骤S307中,针对第一样本子集中的任一第一样本,确定任一第一样本与第二样本子集中各第二样本之间的距离。
在本公开实施例中,针对第一样本子集中的任意一个第一样本,可以计算该第一样本与第二样本子集中的各个第二样本之间的距离。
作为一种示例,可以分别对该第一样本和第二样本子集中的各个第二样本进行特征提取,得到该第一样本的特征向量和第二样本子集中的各个第二样本的特征向量,并基于距离计算算法(如欧式距离(也称为欧几里得距离)法),根据该第一样本的特征向量和第二样本子集中的各个第二样本的特征向量,计算该第一样本与第二样本子集中的各个第二样本之间的距离。
在步骤S308中,根据任一第一样本与第二样本子集中各第二样本之间的距离,确定任一第一样本与第二样本子集之间的相似度。
在本公开实施例中,可以根据上述第一样本与第二样本子集中各第二样本之间的距离,确定该第一样本与第二样本子集之间的相似度。
在本公开实施例的一种可能的实现方式中,针对步骤S302,参考信用评价模型输出的预测结果还可以包括:各个第一样本属于第二标签的第二预测概率,以及各个第二样本属于第二标签的第二预测概率。
其中,对于同一样本(包括第一样本或第二样本)而言,该同一样本属于第一标签的第一预测概率与该同一样本属于第二标签的第二预测概率之和,等于1。
此时,第一样本与第二样本子集之间的相似度的计算方式,例如可以为:
首先,针对第二样本子集中的任意一个第二样本,可以根据上述第一样本和该第二样本之间的距离与该第二样本的第二预测概率的乘积,确定该第二样本对应的第一中间系数,之后,可以根据第二样本子集中各第二样本的第一中间系数之和,确定第二中间系数,从而本公开中,可以根据第二中间系数与上述第一样本的第二预测概率的乘积,确定该第一样本与第二样本子集之间的相似度。
作为一种示例,标记第i个第一分箱中的任意一个第一样本与第i个第一分箱中的第j个第二样本之间的距离为disi,j,第i个第一分箱中的第j个第二样本的第二预测概率为cProbCj,第i个第一分箱中的该任意一个第一样本的第二预测概率为bProbCi,则有:
disBi=bProbCi*∑ j(cProbCj*disi,j); (2)
其中,j为正整数,j=1,2,…,n,n是指第二样本子集中包含的第二样本的数量,disBi是指第i个第一分箱中的任意一个第一样本与第i个第一分箱中的第二样本子集之间的相似度。
在步骤S309中,基于第一样本子集中的各第一样本与第二样本子集之间的相似度,从第一样本子集中确定第三数量的第一目标样本,并删除任一第一分箱中的第一目标样本,以得到第二分箱。
在本公开实施例中,可以根据第一样本子集中的各第一样本与第二样本子集之间的相似度,从第一样本子集中确定第三数量的第一目标样本。
作为一种可能的实现方式,第一目标样本的确定方式,例如为:将第一样本子集中的各第一样本,按照对应相似度的取值由大至小进行排序,以得到排序序列,并从排序序列中,选择排序在前的第三数量的第一样本,并作为第一目标样本。
由此,可以实现将每个第一分箱中,与少数类样本(本公开中记为第二样本)具有一定相似性的多数类样本(本公开中记为第一样本),作为待删除的第一目标样本,可以降低后续构建的目标信用评价模型的预测误差。
在本公开实施例中,在确定各个第一目标样本后,可以从上述第一分箱中删除各个第一目标样本,以得到第二分箱。
在步骤S310中,对各第二样本进行聚类,得到多个类簇,并根据多个类簇生成至少一个第二目标样本,以将第二目标样本添加至少数类样本集中。
在步骤S311中,根据各第二分箱中的第一样本和对应的第一标签,以及根据更新后的少数类样本集,生成目标信用评价模型。
在本公开实施例中,可以根据各第二分箱中的第一样本和对应的第一标签,以及根据更新后的少数类样本集中各样本和对应的第二标签,生成目标信用评价模型。
步骤S310至S311的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
本公开实施例的信用评价模型的生成方法,可以实现将每个第一分箱中与第二样本高度相似的第一样本,作为待删除的第一目标样本,可以降低后续构建的目标信用评价模型的预测误差。
为了清楚说明本公开任一实施例中是如何对各第二样本进行聚类,得到多个类簇,并根据多个类簇生成至少一个第二目标样本的,本公开还提出一种信用评价模型的生成方法。
图4是本公开第四实施例所示出的信用评价模型的生成方法的流程示意图。
如图4所示,在图1至图3任一所示实施例的基础上,步骤S13可以包括以下步骤S41-步骤S45。
在步骤S41中,针对任一第二分箱,对任一第二分箱中的各第二样本进行聚类,得到至少一个类簇。
在本公开实施例中,针对任意一个第二分箱,可以采样聚类算法(如k均值聚类算法、DBSCAN等),对该第二分箱中的各个第二样本进行聚类,得到至少一个类簇。
在步骤S42中,针对至少一个类簇中的任一类簇,获取任一类簇对应的类簇中心、最小半径和最大半径。
在本公开实施例中,针对至少一个类簇中的任意一个类簇,可以获取该类簇对应的类簇中心、最小半径和最大半径,其中,最小半径用于指示该类簇中的各个第二样本与类簇中心之间的距离中的最小值,最大半径用于指示该类簇中的各个第二样本与类簇中心之间的距离中的最大值。
在步骤S43中,根据任一类簇对应的类簇中心、最小半径和最大半径,从任一第二分箱中确定位于任一类簇中的第一样本。
在本公开实施例中,可以根据上述类簇对应的类簇中心、最小半径和最大半径,从任一第二分箱中确定位于该类簇中的第一样本。即,位于该类簇中的第一样本与该类簇对应的类簇中心之间的距离,大于或等于该类簇的最小半径,且小于或等于该类簇的最大半径。
在步骤S44中,根据位于至少一个类簇中的第一样本的第四数量,从至少一个类簇中确定目标类簇。
在本公开实施例中,可以统计位于各个类簇中的第一样本的数量(本公开中记为第四数量),并根据位于上述至少一个类簇中的第一样本的第四数量,从至少一个类簇中确定目标类簇。
在本公开的任意一个实施例之中,目标类簇的确定方式,例如为:
首先,针对至少一个类簇中的任意类簇,可以统计位于该任意类簇中的第二样本的数量(本公开中记为第七数量),之后,可以计算位于该任意类簇中的第一样本的第四数量与第七数量的占比(本公开中记为第二占比),接着,可以判断第二占比是否小于设定占比阈值,若第二占比小于设定占比阈值,则可以将该任意类簇作为目标类簇,若第二占比大于或等于设定占比阈值,则可以无需将该任意类簇作为目标类簇。
在步骤S45中,根据目标类簇对应的类簇中心、最小半径和最大半径,生成至少一个第二目标样本,并将第二目标样本添加至任一第二分箱中。
在本公开实施例中,可以根据目标类簇对应的类簇中心、最小半径和最大半径,生成至少一个第二目标样本。例如,第二目标样本与目标类簇的类簇中心之间的距离小于目标类簇的最大半径,且大于目标类簇的最小半径。
在本公开的任意一个实施例之中,第二目标样本的生成方式,例如为:
首先,可以获取设定比例,其中,设定比例(还可以称为期望比例)用于指示更新后的多数类样本集中包含的样本数量与更新后的少数类样本集中包含的样本数量的占比。之后,可以根据设定比例和更新后的多数类样本集中包含的样本数量,确定更新后的少数类样本集中包含的样本数量。
接着,可以根据更新后的少数类样本集中包含的样本数量和少数类样本集中包含的第二样本的第五数量,确定第二目标样本的第六数量,即,第二数量为更新后的少数类样本集中包含的样本数量与第五数量之差。
从而本公开中,可以根据目标类簇对应的类簇中心、最小半径和最大半径,生成第六数量的第二目标样本;其中,第二目标样本与目标类簇的类簇中心之间的距离小于目标类簇的最大半径,且大于目标类簇的最小半径,并且,第二目标样本与各个第一样本不重合。
在本公开实施例中,可以将生成的第二目标样本添加至上述任一第二分箱中,从而针对步骤S104,可以根据更新后的第二分箱中的各第一样本和对应的第一标签,以及根据更新后的第二分箱中除第一样本之外的其余样本和对应的第二标签,生成目标信用评价模型。
本公开实施例的信用评价模型的生成方法,可以实现通过聚类的方式,对少数类样本进行扩展,以提升最终生成的目标信用评价模型的泛化能力。
为了清楚说明本公开任一实施例中是如何根据各第一样本和各第一样本的第一标签,以及根据各第二样本和各第二样本的第二标签,生成参考信用评价模型的,本公开还提出一种信用评价模型的生成方法。
图5是本公开第五实施例所示出的信用评价模型的生成方法的流程示意图。
如图5所示,该信用评价模型的生成方法可以包括以下步骤S51-步骤S58。
在步骤S51中,获取多数类样本集和少数类样本集。
步骤S51的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
在步骤S52中,分别获取多数类样本集中各第一样本和少数类样本集中各第二样本在多个特征维度的特征值。
在本公开实施例中,针对多数类样本集中的任意的一个第一样本,可以对该第一样本进行特征提取,以得到该第一样本在多个特征维度的特征值。
同理,针对少数类样本集中的任意的第二样本,可以对该第二样本进行特征提取,以得到该第二样本在多个特征维度的特征值。
在步骤S53中,针对多个特征维度中的任一特征维度,根据各第一样本和各第二样本在任一特征维度的特征值,生成任一特征维度的自变量。
在本公开实施例中,针对多个特征维度中的任意一个特征维度,可以根据多数类样本集中各第一样本在该特征维度的特征值,以及根据少数类样本集中各第二样本在该特征维度的特征值,生成该特征维度的自变量。即,自变量为一个特征向量,该特征向量中包括各个第一样本和各个第二样本在该特征维度的特征值。
在步骤S54中,根据各第一样本的第一标签和各第二样本的第二标签,生成因变量。
其中,第一标签用于指示第一样本所属的第一类别,第二标签用于指示第二样本所属的第二类别。
在本公开实施例中,可以根据各个第一样本的第一标签和各个第二样本的第二标签,生成因变量。即,因变量为一个特征向量,该特征向量中包括各个第一样本的第一标签以及各个第二样本的第二标签。
在步骤S55中,基于多个特征维度的自变量和因变量,生成参考信用评价模型。
在本公开实施例中,可以采用分类算法(例如常用的有监督分类算法,如逻辑回归算法、随机森林算法、梯度提升树算法等),基于多个特征维度的自变量和因变量,生成参考信用评价模型。
在步骤S56中,采用参考信用评价模型分别对各第一样本和各第二样本进行信用预测,以根据预测结果,从多数类样本集中确定并删除第一目标样本。
在步骤S57中,对各第二样本进行聚类,得到多个类簇,并根据多个类簇生成至少一个第二目标样本,以将第二目标样本添加至少数类样本集中。
在步骤S58中,根据更新后的多数类样本集和更新后的少数类样本集,生成目标信用评价模型。
步骤S56至S58的解释说明可以参见本公开任一实施例中的相关描述,在此不做赘述。
本公开实施例的信用评价模型的生成方法,可以实现根据各第一样本在多个特征维度的特征值和各第一样本的第一标签,以及根据各第二样本在多个特征维度的特征值和各第二样本的第二标签,生成参考信用评价模型,提升参考信用评价模型生成的有效性。
上述为目标信用评价模型的生成或构建方法,本公开还提出一种目标信用评价模型的应用方法。
图6是本公开第六实施例所示出的信用评价模型的应用方法的流程示意图。
如图6所示,该信用评价模型的应用方法可以包括以下步骤S61-步骤S68。
在步骤S61中,获取待审批的与目标业务产品关联的目标业务数据。
其中,目标业务产品与第一业务产品和第二业务产品可以为同一业务产品,或者也可以为不同的业务产品,本公开对此并不做限制。
其中,目标业务数据中可以包括但不限于:申请目标业务产品的客户(本公开中记为目标对象)的基本信息(如性别、年龄、学历、姓名等)、征信记录、存款余额、外部数据等信息。
在本公开实施例中,目标业务数据可以为相关人员提供的,或者,可以从实际的业务场景中获取目标业务数据。
在步骤S62中,采用目标信用评价模型对目标业务数据进行信用预测,以得到目标业务数据属于第一标签的第三预测概率和属于第二标签的第四预测概率。
在本公开实施例中,可以采用目标信用评价模型对目标业务数据进行信用预测,以得到该目标业务数据属于第一标签的第三预测概率,以及该目标对象属于第二标签的第四预测概率。
其中,第三预测概率+第四预测概率=1。
在步骤S63中,根据第三预测概率和第四预测概率,确定目标业务数据是否通过目标业务产品的审批,若是,则执行步骤S64,若否,则执行该步骤S65。
在本公开实施例中,可以根据第三预测概率和第四预测概率,确定目标业务数据是否通过目标业务产品的审批,若是,则执行步骤S64,若否,则执行该步骤S65。
需要说明的是,步骤S64与步骤S65为并列的两种实现方式,实际应用时,仅需择一执行。
在本公开的任意一个实施例之中,在第三预测概率大于第四预测概率的情况下,可以根据第一类别或第一标签,确定目标业务数据是否通过目标业务产品的审批。比如,当第一类别或第一标签指示审批通过时,则可确定目标业务数据通过目标业务产品的审批,而当第一类别或第一标签指示审批未通过时,则可确定目标业务数据未通过目标业务产品的审批。
在本公开的任意一个实施例之中,在第三预测概率小于或等于第四预测概率的情况下,可以根据第二类别或第二标签,确定目标业务数据是否通过目标业务产品的审批。比如,当第二类别或第二标签指示审批通过时,则可确定目标业务数据通过目标业务产品的审批,而当第二类别或第二标签指示审批未通过时,则可确定目标业务数据未通过目标业务产品的审批。
在步骤S64中,允许与目标业务数据关联的目标对象执行目标业务产品对应的业务。
在本公开实施例中,在目标业务数据通过目标业务产品的审批的情况下,可以允许与目标业务数据关联的目标对象执行目标业务产品对应的业务。比如,当目标业务产品为贷款产品时,可以允许目标对象执行贷款业务,即允许目标对象申请贷款,或允许向目标对象发放贷款。
在步骤S65中,在目标业务数据未通过目标业务产品的审批的情况下,禁止目标对象执行目标业务产品对应的业务。
在本公开实施例中,在目标业务数据未通过目标业务产品的审批的情况下,可以禁止目标对象执行目标业务产品对应的业务。比如,当目标业务产品为贷款产品时,可以禁止目标对象执行贷款业务,即禁止目标对象申请贷款,或禁止向目标对象发放贷款。
本公开实施例的信用评价模型的生成方法,可以实现将目标信用评价模型应用于实际的业务场景,对实际的业务产品的申请信息进行审批,以满足业务场景的应用需求。
在本公开的任意一个实施例之中,本公开提供一种结合欠采样和过采样的抽样方法,以解决相关技术中存在的两类问题(即SMOTE方法容易产生分布边缘化问题、随机法容易产生模型过拟合的问题),主要包括以下两个步骤:
首先,可以定义以下参数:{AS}表示所有样本所形成的样本集合;{BS}表示{AS}中的多数类样本集;{CS}表示{AS}中的少数类样本集;其中,{AS}={BS}∪{CS}且
FLAG:表示样本集合{AS}中的多数类样本(本公开中记为第一样本)的第一标签和少数类样本(本公开中记为第二样本)的第二标签,如果样本为多数类样本,那么FLAG=0,如果样本为少数类样本,那么FLAG=1。
步骤1,欠采样初抽样。
该步骤的主要目的是:从多数类样本集中删除部分样本,且删除的部分样本与少数类样本具有一定的相似性,可能为后续相关模型的构建产生“误差”,具体可以包括以下子步骤:
步骤1.1,参考信用评价模型(或称为基础信用评价模型)的构建。
首先,可以基于样本集合{AS},结合样本特征以及多数类样本和少数类样本的FLAG,形成如表1所示的宽表。
表1样本宽表
其中,si表示样本集合{AS}中的样本,特征维度j表示样本对应的第j个特征维度,fi,j为样本si在特征维度j的特征值,n1为特征维度的数量。
之后,可以将特征维度j上的各个特征值,作为自变量,将多数类样本和少数类样本的FLAG作为因变量,利用常用的有监督分类算法(例如逻辑回归算法、随机森林算法、梯度提升树算法等),构建参考信用评价模型base_model,其中,base_model用来计算样本分别属于多数类(本公开中记为第一类别)和少数类(本公开中记为第二类别)的预测概率。
作为一种示例,base_model=f(x1,x2,…,xi,…,xn2),xi表示模型最终的入模特征,且n2≤n1。
步骤1.2,等频分箱。
利用参考信用评价模型base_model计算样本集合{AS}中所有样本的预测概率(或称为分类概率),如表2所示,并且,将所有样本按照属于多数类(即第一类别)的预测概率的取值从大到小排序,排序后再进行等频分箱,分箱结果如表3所示。
表2样本的预测概率
其中,0≤probBi≤1,0≤probCi≤1,probBi+probCi=1。
表3样本等频分箱
分箱序号 分箱区间 样本集合
1 [prob1,+∞) {AS1}
2 [prob2,prob1) {AS2}
3 [prob3,prob2) {AS3}
i [probi,probi-1) {ASi}
k (-∞,probk-1) {ASk}
其中,probi表示等频分箱后的分箱区间的上下边界对应的多数类(即第一类别)的预测概率,{ASi}表示第i个分箱对应的样本集合,并且{AS}={AS1}∪{AS2}∪{AS3}∪…∪{ASi}∪…∪{ASk}。
步骤1.3,确定欠采样删除的样本个数。
首先,可以在样本等频分箱的基础上进行相关统计,具体如表4所示。
表4基于分箱的相关统计
其中,{BSi}表示第i个分箱中的多数类样本集(本公开中记为第一样本子集),并且{BS}={BS1}∪{BS2}∪{BS3}∪…∪{BSi}∪…∪{BSk},{CSi}表示第i个分箱中的少数类样本集(本公开中记为第二样本子集),并且{CS}={CS1}∪{CS2}∪{CS3}∪…∪{CSi}∪…∪{CSk},{ASi}={BSi}∪{CSi}。
其中,countAi表示{ASi}中包含的样本数量,countBi表示{BSi}中包含的样本数量,countCi表示{CSi}中包含的样本数量,并且countAi=countBi+countCi
之后,可以采用下述公式,确定每个分箱中需要删除的多数类样本的数量(本公开中记为第三数量):
countDi=w1*countBi*(countCi/countAi); (1)
其中,w1为预先设定的可调整系数,取值范围0≤w1≤1。
因此,欠采样删除的样本总数为:其中,k为分箱数量。
步骤1.4,确定欠采样删除的第一目标样本。
可以根据每个分箱中需要删除的多数类样本的数量countDi,确定每个分箱中具体需要删除的多数类样本,以第i个分箱为例,第i个分箱对应的样本集合为{ASi},对应的多数类样本集为{BSi},对应的少数类样本集为{CSi},具体过程如下:
1)可以构建多数类样本与少数类样本的相似度矩阵,具体如表5所示。
表5多数类样本与少数类样本的相似度矩阵
sC1 sC2 sC3 sCj sCn3
sB1 dis1,1 dis1,2 dis1,3 dis1,j dis1,n3
sB2 dis2,1 dis2,2 dis2,3 dis2,j dis2,n3
sB3 dis31 dis32 dis33 dis3j dis3n3
sBi disi1 disi2 disi3 disij disin3
sBm dism,1 dism,2 dism,3 dism,j dism,n3
其中,sBi为第i个分箱中多数类样本集{BSi}中的样本,sCj为第i个分箱中少数类样本集{CSi}中的样本,利用base_model入模变量分别矢量化sBi与sCj,再计算相似度disi,j,disi,j为sBi与sCj之间的欧式距离。n3为{CSi}中包含的样本数量,m为{BSi}中包含的样本数量。
2)可以计算多数类样本sBi到少数类样本集{CSi}中所有样本的综合相似度disBi,计算公式如下:
disBi=bProbCi*∑ j(cProbCj*disi,j); (2)
其中,disi,j为表5中多数类样本sBi与少数类样本sCj之间的相似度,cProbCj为表2中少数类样本sCj对应的属于少数类(即第二类别)的预测概率,bProbCi为表2中多数类样本sBi对应的属于少数类(即第二类别)的预测概率。
3)将第i个分箱中的多数类样本集{BSi}中所有的多数类样本按照综合相似度disBi的取值从大到小进行排序,并且选取排序在前的countDi个样本作为第i个分箱中待删除的多数类样本(本公开中记为第一目标样本),记为集合{DelBSi}。
4)最终可确定欠采样删除的样本集合为{DelBS},其中,{DelBS}={DelBS1}∪{DelBS2}∪{DelBS3}∪…∪{DelBSi}∪…∪{DelBSk},其中,k为分箱数量。
步骤2,过采样复抽样。
该步骤的主要功能是在上述欠采样初抽样的基础上,对少数类样本进行扩展,具体可以包括以下子步骤:
步骤2.1,删除欠采样确定的样本集合{DelBS},可得到如表6所示的更新后的分箱结果。
表6删除欠采样待删除的样本后的等频分箱统计结果
其中,{NASi}={ASi}-{DelBSi},{NBSi}={BSi}-{DelBSi},countNAi=countAi-countDi,countNBi=countBi-countDi
步骤2.2,对少数类样本进行聚类。
对每个分箱中的少数类样本集{CSi}中的样本进行聚类,具体操作如下:
1)利用上述参考信用评价模型base_model对应的入模变量,矢量化{CSi}中的少数类样本,少数类样本对应的入模变量值如表7所示。
表7少数类样本的入模变量值
少数类样本 入模变量1 入模变量2 入模变量j 入模变量n2
s1 x1,1 x1,2 x1,j x1,n2
s2 x2,1 x2,2 x2,j x2,n2
s3 x3,1 x3,2 x3,j x3,n2
si xi,1 xi,2 xi,j xi,n2
sm xm,1 xm,2 xm,j xm,n2
矢量化少数类样本,即si对应的矢量化结果(即特征向量Embedding)为<xi,1,xi,2,…,xi,j,…,xi,n2>。
2)基于矢量化结果,利用常用的无监督聚类算法构建聚类模型,最后分箱中的少数类样本集{CSi}对应的聚类结果如表8所示。
表8少数类样本集对应的聚类结果
类簇序号 类簇样本集合
类簇1 {cluster_1}
类簇2 {cluster_2}
类簇i {cluster_i}
类簇t {cluster_t}
其中,t为类簇数量,{CSi}={cluster_1}∪{cluster_2}∪…∪{cluster_i}∪…∪{cluster_t},并且任意两个类簇的交集为空,即
步骤2.3,计算少数类样本集{CSi}中各类簇对应的类簇中心、最大半径及最小半径。在上述聚类结果的基础上,计算各类簇对应的类簇中心、最大半径和最小半径,结果如表9所示。
表9类簇中心和最大半径、最小半径
其中,<avg_xi,1,avg_xi,2,…,avg_xi,j,…,avg_xi,n2>表示类簇{cluster_i}的中心点(本公开中记为类簇中心),即类簇{cluster_i}中所有样本对应矢量值si=<xi,1,xi,2,…,xi,j,…,xi,n2>的平均值,即,avg_xi,1=AVG(xi,1),avg_xi,2=AVG(xi,2),…,avg_xi,j=AVG(xi,j),…,avg_xi,n=AVG(xi,n)。
计算类簇中心<avg_xi,1,avg_xi,2,…,avg_xi,j,…,avg_xi,n>到同类簇中其他样本的欧式距离dis,取最大的欧式距离dis作为该类簇的最大半径max_ri=Max(dis),取最小的欧式距离dis作为该类簇的最小半径min_ri=Min(dis)。
步骤2.4,过滤类簇。
以类簇中心为中心,最大半径max_ri作为半径画圆,统计每个圆内多数类样本的数量和少数类样本的数量,标记圆内多数类样本的数量为circleCountB,少数类样本的数量为circleCountC,如果circleCountB/circleCountC≤w2(w2为可调整参数,0<w2≤1),那么保留该类簇中心对应的类簇,否则,删除该类簇中心对应的类簇。
如图7所示,圆点表示少数类样本,共计11个,“*”表示多数类样本,共计8个,假设w2=1。由于8/11=0.73,且0.73小于1,则可以保留该类簇中心对应的类簇。
步骤2.5,生成新的少数类样本。
假设类簇{filter_cluster_i}为过滤后得到的类簇(本公开中记为目标类簇)之一,该类簇对应的类簇中心为<favg_xi,1,favg_xi,2,…,favg_xi,j,…,favg_xi,n>,最大半径为fmax_ri,最小半径为fmin_ri
以<favg_xi,1,favg_xi,2,…,favg_xi,j,…,favg_xi,n>为中心,再分别以fmax_ri和fmin_ri作为半径画两个同心圆,具体如图8所示。其中,图8中的点为类簇{filter_cluster_i}已有的少数类样本,再在“小圆”的外面和“大圆”的里面的交集处随机生成新的点(如图8中的*所示),需要说明的是,新生成的点(即新生成的少数类样本)不能与多数类样本重合。
所有分箱的类簇以此类推,最终,可通过“欠采样初抽样”和“过采样复抽样”相结合方式,生成期望比例(本公开中记为设定比例)的多数类样本和少数类样本,并采用设定比例的多数类样本和少数类样本,生成最终的目标信用评价模型。
综上,可以解决样本数据分布边缘性问题,从而降低分类算法的分类难度,以及减少过拟合问题,提升模型的泛化能力。
与上述图1至图6实施例提供的信用评价模型的生成方法相对应,本公开还提供一种信用评价模型的生成装置,由于本公开实施例提供的信用评价模型的生成装置与上述图1至图6实施例提供的信用评价模型的生成方法相对应,因此在信用评价模型的生成方法的实施方式也适用于本公开实施例提供的信用评价模型的生成装置,在本公开实施例中不再详细描述。
图9是本公开第七实施例所示出的信用评价模型的生成装置的结构示意图。
参照图9,该信用评价模型的生成装置900可以包括:获取模块910、第一处理模块920、第二处理模块930以及生成模块940。
其中,获取模块910,用于获取多数类样本集、少数类样本集和参考信用评价模型;其中,参考信用评价模型是根据多数类样本集中各第一样本和对应的第一标签,及少数类样本集中各第二样本和对应的第二标签生成的。
其中,第一标签用于指示第一样本所属的第一类别,第二标签用于指示第二样本所属的第二类别。
第一处理模块920,用于采用参考信用评价模型分别对各第一样本和各第二样本进行信用预测,以根据预测结果,从多数类样本集中确定并删除第一目标样本。
第二处理模块930,用于对各第二样本进行聚类,得到多个类簇,并根据多个类簇生成至少一个第二目标样本,以将第二目标样本添加至少数类样本集中。
生成模块940,用于根据更新后的多数类样本集和更新后的少数类样本集,生成目标信用评价模型。
在本公开实施例的一种可能的实现方式中,第一处理模块920,具体用于:采用参考信用评价模型分别对各第一样本和各第二样本进行信用预测,得到的预测结果包括各第一样本和各第二样本属于第一标签的第一预测概率;根据各第一样本和各第二样本分别对应的第一预测概率,对各第一样本和各第二样本进行分箱,以得到多个第一分箱;针对任一第一分箱,统计任一第一分箱中包含样本总数量、第一样本的第一数量以及第二样本的第二数量;根据第一数量,以及第二数量与样本总数量的第一占比,确定任一第一分箱中待删除的第一目标样本的第三数量,以从任一第一分箱中确定并删除第三数量的第一目标样本,得到第二分箱。
在本公开实施例的一种可能的实现方式中,第一处理模块920,具体用于:从任一第一分箱中确定第一样本子集和第二样本子集,其中,第一样本子集中包括任一第一分箱中的各第一样本,第二样本子集中包括任一第一分箱中的各第二样本;针对第一样本子集中的任一第一样本,确定任一第一样本与第二样本子集中各第二样本之间的距离;根据任一第一样本与第二样本子集中各第二样本之间的距离,确定任一第一样本与第二样本子集之间的相似度;基于第一样本子集中的各第一样本与第二样本子集之间的相似度,从第一样本子集中确定第三数量的第一目标样本,并删除任一第一分箱中的第一目标样本,以得到第二分箱。
在本公开实施例的一种可能的实现方式中,第一处理模块920,具体用于:将第一样本子集中的各第一样本,按照对应相似度由大至小进行排序,得到排序序列;从排序序列中,选择排序在前的第三数量的第一样本,并作为第一目标样本。
在本公开实施例的一种可能的实现方式中,预测结果还包括:各第一样本和各第二样本属于第二标签的第二预测概率;第一处理模块920,具体用于:针对第二样本子集中的任一第二样本,根据任一第一样本和任一第二样本之间的距离与任一第二样本的第二预测概率的乘积,确定任一第二样本对应的第一中间系数;根据第二样本子集中各第二样本的第一中间系数之和,确定第二中间系数;根据第二中间系数与任一第一样本的第二预测概率的乘积,确定任一第一样本与第二样本子集之间的相似度。
在本公开实施例的一种可能的实现方式中,第二处理模块930,具体用于:针对任一第二分箱,对任一第二分箱中的各第二样本进行聚类,得到至少一个类簇;针对至少一个类簇中的任一类簇,获取任一类簇对应的类簇中心、最小半径和最大半径;其中,最小半径用于指示任一类簇中的各第二样本与类簇中心之间的距离中的最小值,最大半径用于指示任一类簇中的各第二样本与类簇中心之间的距离中的最大值;根据任一类簇对应的类簇中心、最小半径和最大半径,从任一第二分箱中确定位于任一类簇中的第一样本;根据位于至少一个类簇中的第一样本的第四数量,从至少一个类簇中确定目标类簇;根据目标类簇对应的类簇中心、最小半径和最大半径,生成至少一个第二目标样本。
在本公开实施例的一种可能的实现方式中,第二处理模块930,具体用于:根据设定比例和更新后的多数类样本集中包含的样本数量,确定更新后的少数类样本集中包含的样本数量;其中,设定比例用于指示更新后的多数类样本集中包含的样本数量与更新后的少数类样本集中包含的样本数量的占比;根据更新后的少数类样本集中包含的样本数量和少数类样本集中包含的第二样本的第五数量,确定第二目标样本的第六数量;根据目标类簇对应的类簇中心、最小半径和最大半径,生成第六数量的第二目标样本;其中,第二目标样本与目标类簇的类簇中心之间的距离小于目标类簇的最大半径,且大于目标类簇的最小半径。
在本公开实施例的一种可能的实现方式中,第二处理模块930,具体用于:针对至少一个类簇中的任意类簇,统计位于任意类簇中的第二样本的第七数量;确定任意类簇对应的第四数量与第七数量的第二占比;在第二占比小于设定占比阈值的情况下,将任意类簇作为目标类簇。
在本公开实施例的一种可能的实现方式中,获取模块910,具体用于:分别获取多数类样本集中各第一样本和少数类样本集中各第二样本在多个特征维度的特征值;针对多个特征维度中的任一特征维度,根据各第一样本和各第二样本在任一特征维度的特征值,生成任一特征维度的自变量;根据各第一样本的第一标签和各第二样本的第二标签,生成因变量;基于多个特征维度的自变量和因变量,生成参考信用评价模型。
在本公开实施例的一种可能的实现方式中,获取模块,还用于:获取待审批的与目标业务产品关联的目标业务数据。
该信用评价模型的生成装置900还可以包括:
预测模块,用于采用目标信用评价模型对目标业务数据进行信用预测,以得到目标业务数据属于第一类别的第三预测概率和属于第二类别的第四预测概率。
确定模块,用于根据第三预测概率和第四预测概率,确定目标业务数据是否通过目标业务产品的审批。
允许模块,用于在目标业务数据通过目标业务产品的审批的情况下,允许与目标业务数据关联的目标对象执行目标业务产品对应的业务。
禁止模块,用于在目标业务数据未通过目标业务产品的审批的情况下,禁止目标对象执行目标业务产品对应的业务。
在本公开实施例的一种可能的实现方式中,第一标签用于指示审批通过和审批未通过中的其中一项,第二标签用于指示审批通过和审批未通过中的另一项;确定模块,具体用于:在第三预测概率大于第四预测概率的情况下,根据第一标签确定目标业务数据是否通过目标业务产品的审批;在第三预测概率小于或等于第四预测概率的情况下,根据第二标签确定目标业务数据是否通过目标业务产品的审批。
本公开实施例的信用评价模型的生成装置,通过根据所有样本和对应的样本标签,构建参考信用评价模型,并基于参考信用评价模型对多数类样本集中各第一样本进行信用预测得到的预测结果,来确定多数类样本集中待删除的第一目标样本,而非随机删除多数类样本集中的部分样本,可以避免模型发生过拟合的情况,提升模型的泛化性能,并且,对少数类样本集中各第二样本进行聚类,并基于聚类得到的各个类簇,来生成待添加至该少数类样本集中的第二目标样本,而非随机向少数类样本集中添加部分样本,可以进一步提升最终生成或构建的目标信用评价模型的泛化能力,避免目标信用评价模型发生过拟合的情况。
在示例性实施例中,还提出了一种电子设备。
其中,电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现如前述任一实施例提出的信用评价模型的生成方法。
作为一种示例,图10是本公开一示例性实施例所示出的电子设备1000的结构示意图,如图10所示,上述电子设备1000,还可以包括:
存储器1010及处理器1020,连接不同组件(包括存储器1010和处理器1020)的总线1030,存储器1010存储有计算机程序,当处理器1020执行所述程序时实现本公开实施例所述的信用评价模型的生成方法。
总线1030表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备1000典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备1000访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器1010还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)1040和/或高速缓存存储器1050。服务器1000可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统1060可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线1030相连。存储器1010可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块1070的程序/实用工具1080,可以存储在例如存储器1010中,这样的程序模块1070包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块1070通常执行本公开所描述的实施例中的功能和/或方法。
电子设备1000也可以与一个或多个外部设备1090(例如键盘、指向设备、显示器1091等)通信,还可与一个或者多个使得用户能与该电子设备1000交互的设备通信,和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1092进行。并且,电子设备1000还可以通过网络适配器1093与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1093通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器1020通过运行存储在存储器1010中的程序,从而执行各种功能应用以及数据处理。
需要说明的是,本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的信用评价模型的生成方法的解释说明,此处不再赘述。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成上述任一实施例提出的方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现上述任一实施例提出的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (15)

1.一种信用评价模型的生成方法,其特征在于,包括:
获取多数类样本集、少数类样本集和参考信用评价模型;其中,所述参考信用评价模型是根据所述多数类样本集中各第一样本和对应的第一标签,及所述少数类样本集中各第二样本和对应的第二标签生成的;
采用所述参考信用评价模型分别对各所述第一样本和各所述第二样本进行信用预测,以根据预测结果,从所述多数类样本集中确定并删除第一目标样本;
对各所述第二样本进行聚类,得到多个类簇,并根据所述多个类簇生成至少一个第二目标样本,以将所述第二目标样本添加至所述少数类样本集中;
根据所述更新后的多数类样本集和更新后的少数类样本集,生成目标信用评价模型。
2.根据权利要求1所述的方法,其特征在于,所述采用所述参考信用评价模型分别对各所述第一样本和各所述第二样本进行信用预测,以根据预测结果,从所述多数类样本集中确定并删除第一目标样本,包括:
采用所述参考信用评价模型分别对各所述第一样本和各所述第二样本进行信用预测,得到的预测结果包括各所述第一样本和各所述第二样本属于所述第一标签的第一预测概率;
根据各所述第一样本和各所述第二样本分别对应的第一预测概率,对各所述第一样本和各所述第二样本进行分箱,以得到多个第一分箱;
针对任一所述第一分箱,统计所述任一第一分箱中包含的样本总数量、所述第一样本的第一数量以及所述第二样本的第二数量;
根据所述第一数量,以及所述第二数量与所述样本总数量的第一占比,确定所述任一第一分箱中待删除的第一目标样本的第三数量,以从所述任一第一分箱中确定并删除所述第三数量的第一目标样本,得到第二分箱。
3.根据权利要求2所述的方法,其特征在于,所述从所述任一第一分箱中确定并删除所述第三数量的第一目标样本,得到第二分箱,包括:
从所述任一第一分箱中确定第一样本子集和第二样本子集,其中,所述第一样本子集中包括所述任一第一分箱中的各第一样本,所述第二样本子集中包括所述任一第一分箱中的各第二样本;
针对所述第一样本子集中的任一第一样本,确定所述任一第一样本与所述第二样本子集中各所述第二样本之间的距离;
根据所述任一第一样本与所述第二样本子集中各所述第二样本之间的距离,确定所述任一第一样本与所述第二样本子集之间的相似度;
基于所述第一样本子集中的各所述第一样本与所述第二样本子集之间的相似度,从所述第一样本子集中确定所述第三数量的第一目标样本,并删除所述任一第一分箱中的所述第一目标样本,以得到第二分箱。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一样本子集中的各所述第一样本与所述第二样本子集之间的相似度,从所述第一样本子集中确定所述第三数量的第一目标样本,包括:
将所述第一样本子集中的各所述第一样本,按照对应相似度由大至小进行排序,得到排序序列;
从所述排序序列中,选择排序在前的所述第三数量的第一样本,并作为所述第一目标样本。
5.根据权利要求3所述的方法,其特征在于,所述预测结果还包括:各所述第一样本和各所述第二样本属于所述第二标签的第二预测概率;
所述根据所述任一第一样本与所述第二样本子集中各所述第二样本之间的距离,确定所述任一第一样本与所述第二样本子集之间的相似度,包括:
针对所述第二样本子集中的任一第二样本,根据所述任一第一样本和所述任一第二样本之间的距离与所述任一第二样本的第二预测概率的乘积,确定所述任一第二样本对应的第一中间系数;
根据所述第二样本子集中各所述第二样本的第一中间系数之和,确定第二中间系数;
根据所述第二中间系数与所述任一第一样本的第二预测概率的乘积,确定所述任一第一样本与所述第二样本子集之间的相似度。
6.根据权利要求2所述的方法,其特征在于,所述对各所述第二样本进行聚类,得到多个类簇,并根据所述多个类簇生成至少一个第二目标样本,包括:
针对任一第二分箱,对所述任一第二分箱中的各第二样本进行聚类,得到至少一个类簇;
针对所述至少一个类簇中的任一类簇,获取所述任一类簇对应的类簇中心、最小半径和最大半径;其中,所述最小半径用于指示所述任一类簇中的各第二样本与所述类簇中心之间的距离中的最小值,所述最大半径用于指示所述任一类簇中的各第二样本与所述类簇中心之间的距离中的最大值;
根据所述任一类簇对应的类簇中心、最小半径和最大半径,从所述任一第二分箱中确定位于所述任一类簇中的第一样本;
根据位于所述至少一个类簇中的第一样本的第四数量,从所述至少一个类簇中确定目标类簇;
根据所述目标类簇对应的类簇中心、最小半径和最大半径,生成至少一个第二目标样本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标类簇对应的类簇中心、最小半径和最大半径,生成至少一个第二目标样本,包括:
根据设定比例和所述更新后的多数类样本集中包含的样本数量,确定所述更新后的少数类样本集中包含的样本数量;其中,设定比例用于指示所述更新后的多数类样本集中包含的样本数量与所述更新后的少数类样本集中包含的样本数量的占比;
根据所述更新后的少数类样本集中包含的样本数量和所述少数类样本集中包含的第二样本的第五数量,确定所述第二目标样本的第六数量;
根据所述目标类簇对应的类簇中心、最小半径和最大半径,生成所述第六数量的第二目标样本;
其中,所述第二目标样本与所述目标类簇的类簇中心之间的距离小于所述目标类簇的最大半径,且大于所述目标类簇的最小半径。
8.根据权利要求6所述的方法,其特征在于,所述根据位于所述至少一个类簇中的第一样本的第四数量,从所述至少一个类簇中确定目标类簇,包括:
针对所述至少一个类簇中的任意类簇,统计位于所述任意类簇中的第二样本的第七数量;
确定所述任意类簇对应的第四数量与第七数量的第二占比;
在所述第二占比小于设定占比阈值的情况下,将所述任意类簇作为所述目标类簇。
9.根据权利要求1-8中任一项所述的方法,其特征在于,获取参考信用评价模型,包括:
分别获取所述多数类样本集中各所述第一样本和所述少数类样本集中各所述第二样本在多个特征维度的特征值;
针对所述多个特征维度中的任一特征维度,根据各所述第一样本和各所述第二样本在所述任一特征维度的特征值,生成所述任一特征维度的自变量;
根据各所述第一样本的第一标签和各所述第二样本的第二标签,生成因变量;
基于所述多个特征维度的自变量和所述因变量,生成所述参考信用评价模型。
10.根据权利要求1-8中任一项所述的方法,其特征在于,所述方法还包括:
获取待审批的与目标业务产品关联的目标业务数据;
采用所述目标信用评价模型对所述目标业务数据进行信用预测,以得到与所述目标业务数据属于所述第一标签的第三预测概率和属于所述第二标签的第四预测概率;
根据所述第三预测概率和所述第四预测概率,确定所述目标业务数据是否通过所述目标业务产品的审批;
在所述目标业务数据通过所述目标业务产品的审批的情况下,允许与所述目标业务数据关联的目标对象执行所述目标业务产品对应的业务;
在所述目标业务数据未通过所述目标业务产品的审批的情况下,禁止所述目标对象执行所述目标业务产品对应的业务。
11.根据权利要求10所述的方法,其特征在于,所述第一标签用于指示审批通过和审批未通过中的其中一项,所述第二标签用于指示审批通过和审批未通过中的另一项;
所述根据所述第三预测概率和所述第四预测概率,确定所述目标业务数据是否通过所述目标业务产品的审批,包括:
在所述第三预测概率大于所述第四预测概率的情况下,根据所述第一标签确定所述目标业务数据是否通过所述目标业务产品的审批;
在所述第三预测概率小于或等于所述第四预测概率的情况下,根据所述第二标签确定所述目标业务数据是否通过所述目标业务产品的审批。
12.一种信用评价模型的生成装置,其特征在于,包括:
获取模块,用于获取多数类样本集、少数类样本集和参考信用评价模型;其中,所述参考信用评价模型是根据所述多数类样本集中各第一样本和对应的第一标签,及所述少数类样本集中各第二样本和对应的第二标签生成的;
第一处理模块,用于采用所述参考信用评价模型分别对各所述第一样本和各所述第二样本进行信用预测,以根据预测结果,从所述多数类样本集中确定并删除第一目标样本;
第二处理模块,用于对各所述第二样本进行聚类,得到多个类簇,并根据所述多个类簇生成至少一个第二目标样本,以将所述第二目标样本添加至所述少数类样本集中;
生成模块,用于根据所述更新后的多数类样本集和更新后的少数类样本集,生成目标信用评价模型。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至11中任一项所述的信用评价模型的生成方法。
14.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至11中任一项所述的信用评价模型的生成方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的信用评价模型的生成方法。
CN202311101861.4A 2023-08-29 2023-08-29 信用评价模型的生成方法、装置、设备和介质 Pending CN117216584A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311101861.4A CN117216584A (zh) 2023-08-29 2023-08-29 信用评价模型的生成方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311101861.4A CN117216584A (zh) 2023-08-29 2023-08-29 信用评价模型的生成方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN117216584A true CN117216584A (zh) 2023-12-12

Family

ID=89045345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311101861.4A Pending CN117216584A (zh) 2023-08-29 2023-08-29 信用评价模型的生成方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN117216584A (zh)

Similar Documents

Publication Publication Date Title
Zheng et al. A comparative study of class rebalancing methods for security bug report classification
CN109739844B (zh) 基于衰减权重的数据分类方法
CN110008259A (zh) 可视化数据分析的方法及终端设备
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
CN111325248A (zh) 降低贷前业务风险的方法及系统
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN113807940B (zh) 信息处理和欺诈行为识别方法、装置、设备及存储介质
CN110930218A (zh) 一种识别欺诈客户的方法、装置及电子设备
CN114781611A (zh) 自然语言处理方法、语言模型训练方法及其相关设备
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN111353607A (zh) 一种量子态判别模型的获得方法、装置
CN110348516A (zh) 数据处理方法、装置、存储介质及电子设备
US20220207420A1 (en) Utilizing machine learning models to characterize a relationship between a user and an entity
CN111639688B (zh) 一种基于线性核svm的物联网智能模型的局部解释方法
CN111582313B (zh) 样本数据生成方法、装置及电子设备
CN112949954B (zh) 基于识别学习建立财务欺诈识别模型的方法
CN115587884A (zh) 一种基于改进的极限学习机的用户贷款违约预测方法
CN117216584A (zh) 信用评价模型的生成方法、装置、设备和介质
Jafari et al. An interpretable machine learning Framework for customer churn Prediction: A Case Study in the Telecommunications Industry
WO2022183019A9 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
CN114360653A (zh) 一种基于数据遗传变异的样本生成及生存评估方法、装置
CN107480687A (zh) 信息处理装置和信息处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination