CN115907972B - 基于双重自步学习的不平衡征信数据风险评估方法及系统 - Google Patents

基于双重自步学习的不平衡征信数据风险评估方法及系统 Download PDF

Info

Publication number
CN115907972B
CN115907972B CN202310067258.2A CN202310067258A CN115907972B CN 115907972 B CN115907972 B CN 115907972B CN 202310067258 A CN202310067258 A CN 202310067258A CN 115907972 B CN115907972 B CN 115907972B
Authority
CN
China
Prior art keywords
sample
risk
samples
low
credit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310067258.2A
Other languages
English (en)
Other versions
CN115907972A (zh
Inventor
管红娇
董祥军
陈川
赵龙
任晓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202310067258.2A priority Critical patent/CN115907972B/zh
Publication of CN115907972A publication Critical patent/CN115907972A/zh
Application granted granted Critical
Publication of CN115907972B publication Critical patent/CN115907972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了基于双重自步学习的不平衡征信数据风险评估方法及系统,涉及数据评估领域,对原始征信样本集进行样本难度计算,进而得到样本难度的概率密度函数;根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集;基于多个征信样本集,训练多个基分类器,将基分类器融合得到风险评估模型;通过风险评估模型对待评估的征信数据进行风险类型预测,以生成并输出风险类型;本发明采用自步上采样和自步下采样分别处理高风险和低风险征信样本,得到平衡征信样本集,训练最终的风险评估模型,用于评估某个征信用户为高风险或低风险,提高对不平衡的征信数据的分类准确率。

Description

基于双重自步学习的不平衡征信数据风险评估方法及系统
技术领域
本发明属于数据评估领域,尤其涉及基于双重自步学习的不平衡征信数据风险评估方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
征信信息能反映企业和个人的信用风险状况,银行系统可以根据征信信息评估企业或个人的信用风险,从而进行相应的信贷管理;通常情况下,高风险征信用户(少数类样本)远远少于低风险征信用户(多数类样本),即两种类别征信数据的样本数量是不平衡的;同时把高风险征信用户评估为低风险的损失远远高于相反情况;因此,对不平衡的两类征信数据进行有效分类,对征信风险进行正确评估是十分必要的。
不平衡的征信数据分类的主要困难在于传统分类方法会偏向样本多的一类,即低风险用户,导致高风险用户被错误评估为低风险,容易造成重大经济损失;基于重采样的集成方法是一种常用的处理不平衡征信数据的方法,这类方法通过SMOTE上采样或随机下采样得到样本量平衡的样本子集,训练并集成多个基分类器,得到最终的集成分类器,可对用户的征信数据进行风险评估;尽管解决了样本数量不平衡的问题,但主要存在两个问题,一是SMOTE上采样时未考虑高风险(少数类)样本的分布,二是随机下采样时未考虑低风险(多数类)样本中噪声的干扰,这使得不平衡征信数据的分类性能欠佳。
发明内容
为克服上述现有技术的不足,本发明提供了基于双重自步学习的不平衡征信数据风险评估方法及系统,采用自步上采样和自步下采样分别处理高风险和低风险征信样本,得到多个平衡子集并建立基分类器,融合多个基分类器得到最终的集成分类器,用于评估某个征信用户为高风险或低风险,提高对不平衡的征信数据的分类准确率。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了基于双重自步学习的不平衡征信数据风险评估方法;
基于双重自步学习的不平衡征信数据风险评估方法,包括:
对采集到的原始征信样本集进行样本难度计算,基于样本难度得到样本难度的概率密度函数,其中,所述原始征信样本集包含两种风险类型的样本:高风险样本和低风险样本;
根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集;
基于多个征信样本集中的样本数据及对应的风险类型,训练多个基分类器,将基分类器融合得到风险评估模型;
通过训练后的风险评估模型对待评估的征信数据进行风险类型预测,以生成并输出所述征信数据的风险类型。
进一步的,所述样本难度计算,包括:
对于高风险样本,分别计算每个高风险样本到最近的两类样本的距离均值,两个距离均值的倒数之和为该高风险样本的样本难度;
对于低风险样本,分别计算每个低风险样本到最近的两类样本的距离均值,计算两个距离均值的倒数之和,1除以倒数之和为该低风险样本的样本难度。
进一步的,所述基于样本难度得到样本难度的概率密度函数,具体为:
对于高风险样本,该高风险样本的样本难度除以所有高风险样本的样本难度之和,得到高风险样本难度的概率密度函数;
对于低风险样本,该低风险样本的样本难度除以所有低风险样本的样本难度之和,得到低风险样本难度的概率密度函数;
进一步的,所述自步上采样,具体为:
根据高风险样本难度的概率密度函数,对高风险样本进行预设次数的抽样,基于抽样得到的样本,利用上采样方法SMOTE生成新的高风险样本,原始高风险样本与新生成的高风险样本构成高风险样本子集。
进一步的,所述自步下采样,具体为:
根据低风险样本难度的概率密度函数,对低风险样本进行抽样,抽样次数与高风险样本子集中的样本数量相同,抽样得到的低风险样本构成低风险样本子集。
进一步的,所述样本数量平衡的征信样本集,包括高风险样本子集和低风险样本子集。
进一步的,所述风险评估模型,是利用多数投票机制融合多个基分类器得到的。
本发明第二方面提供了基于双重自步学习的不平衡征信数据风险评估系统。
基于双重自步学习的不平衡征信数据风险评估系统,包括函数计算模块、样本构建模块、模型训练模块和风险评估模块:
函数计算模块,被配置为:对采集到的原始征信样本集进行样本难度计算,基于样本难度得到样本难度的概率密度函数,其中,所述原始征信样本集包含两种风险类型的样本:高风险样本和低风险样本;
样本构建模块,被配置为:根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集;
模型训练模块,被配置为:基于多个征信样本集中的样本数据及对应的风险类型,训练多个基分类器,将基分类器融合得到风险评估模型;
风险评估模块,被配置为:通过训练后的风险评估模型对待评估的征信数据进行风险类型预测,以生成并输出所述征信数据的风险类型。
本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于双重自步学习的不平衡征信数据风险评估方法中的步骤。
本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于双重自步学习的不平衡征信数据风险评估方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
本发明对高风险样本进行上采样时,是根据高风险样本难度的概率密度函数选择的高风险样本,该密度函数的特点是样本分类难度越大,样本选择的概率越大,因此分类相对困难的高风险样本被优先选择进行上采样,这有利于强化对不安全的高风险样本的学习,改善属于少数类的高风险样本的分布。
本发明对低风险样本进行下采样时,是根据低风险样本难度的概率密度函数选择的低风险样本,该密度函数的特点是样本分类难度越小,样本选择的概率越大,因此分类相对容易的低风险样本被优先选择,这有利于缓解低风险样本中的噪声干扰,增强属于多数类的低风险样本对噪声的鲁棒性。
本发明采用双重自步机制分别处理不平衡的征信数据中的高风险样本和低风险样本,克服了以前不平衡分类方法存在的未考虑样本分布和未考虑噪声影响的问题,能够提高不平衡征信数据的分类性能。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图。
图2为第二个实施例的系统结构图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
实施例一
本实施例公开了基于双重自步学习的不平衡征信数据风险评估方法;
如图1所示,基于双重自步学习的不平衡征信数据风险评估方法,包括:
步骤S101:对采集到的原始征信样本集进行样本难度计算,基于样本难度得到样本难度的概率密度函数。
所述原始征信样本集包含两种风险类型的样本:高风险样本和低风险样本,原始征信样本集中的全部高风险样本组成原始高风险样本集,原始征信样本集中的全部低风险样本组成原始低风险样本集。
本实施例采用风险评估模型对待评估的征信数据进行风险类型预测,为了提高风险评估模型对风险类型的预测精度,需要构建包含高风险样本和低风险样本这两种风险类型的征信样本集,用于训练风险评估模型。
征信样本集是采集的银行征信数据,具体包括:信贷历史状况、现有账户状况、贷款目的、信用额度、雇佣状态、担保人、目前居住地、财产状况、年龄、工作类型等;构建的原始征信样本集,两种类型的样本数量是不平衡的,影响风险评估模型的训练效果,本实施例通过概率密度函数和双重自步采样来解决征信样本集的不平衡问题。
概率密度函数,是先计算样本难度,归一化后得到样本难度的概率密度函数,具体为:
对于高风险样本,首先,计算每个高风险样本xi(i=1,2,...,p,Np为原始高风险样本集的样本数量)分别到k个欧式距离最小的高风险样本和低风险样本的平均距离,记为hp和hn
其中,xm(m=1,2,...,k)为到xi的欧式距离最小的k个高风险样本,d(xi,xm)表示高风险样本xi到其他高风险样本xm的欧式距离,xn(n=1,2,...,k)为到xi的欧式距离最小的k个低风险样本,d(xi,xn)表示高风险样本xi到低风险样本xn的欧式距离;k为超参数,本实施例中,k=5;
其次,计算高风险样本xi的样本难度s(xi):
最后,归一化得到高风险样本难度的概率密度函数
对于低风险样本,首先,计算每个低风险样本xj(j=1,2,...,Nn,Nn为原始低风险样本集的样本数量)分别到k个欧式距离最小的高风险样本和低风险样本的平均距离,记为hp和hn:
其中,xm(m=1,2,...,k)为到xj的欧式距离最小的k个高风险样本,d(xj,xm)表示低风险样本xj到高风险样本xm的欧式距离,xn(n=1,2,...,k)为到xj的欧式距离最小的k个低风险样本,d(xj,xn)表示低风险样本xj到其他低风险样本xn的欧式距离;k为超参数,本实施例中,k=5;
其次,计算低风险样本xj的样本难度p(xj):
最后,归一化得到低风险样本难度的概率密度函数
步骤S102:根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集。
假设要生成T个样本数量平衡的征信样本集,则执行T次自步上采样和自步下采样,每次生成的高风险样本子集和低风险样本子集构成一个样本数量平衡的征信样本集,从而得到T个样本数量平衡的征信样本集。
每次生成的高风险样本子集,包括两部分样本:
第一部分是迭代样本集中的全部高风险样本,其中,迭代样本集是上次生成的高风险样本子集,而第一次的迭代样本集是原始高风险样本集。
第二部分是根据高风险样本难度的概率密度函数,对高风险样本进行自步上采样,生成的新的高风险样本,其中,第二部分的高风险样本的生成方法为:
(1)根据高风险样本难度的概率密度函数从Np个原始高风险样本中选择N1个高风险样本,N1的具体计算公式为:
N1=(Nn-Np)/T
其中,Nn为原始低风险样本集的样本个数,Np为原始高风险样本集的样本个数,T是要生成的征信样本集的个数。
重复执行以下过程N1次,每次从Np个原始高风险样本中选择1个高风险样本:
利用随机数生成器生成一个正随机数r1,利用r1从Np个原始高风险样本中选出1个高风险样本满足以下条件:
其中,为高风险样本xi的概率密度函数,/>为选出的高风险样本,t1∈{1,2,...,Np}。
(2)以选出的每个高风险样本为种子点,利用上采样方法SMOTE,产生一个新的高风险样本,则选出的N1个高风险样本,总共产生N1个新的高风险样本。
每次生成的低风险样本子集,是根据低风险样本难度的概率密度函数,对低风险样本进行自步下采样得到的,具体为:
根据低风险样本难度的概率密度函数从Nn个原始低风险样本中选择N2个低风险样本,N2为当前新生成的高风险样本子集中高风险样本的个数。
重复执行以下过程N2次,每次从Nn个原始低风险样本中选择1个低风险样本:
利用随机数生成器生成一个正随机数r2,利用r2从Nn个原始低风险样本中选出1个低风险样本满足以下条件:
其中,为低风险样本xj的概率密度函数,/>为选出的低风险样本,t2∈{1,2,...,Nn}。
新选出来的N2个低风险样本构成低风险样本子集。
高风险样本子集与低风险样本子集构成样本数量平衡的征信样本集。
步骤S103:基于多个征信样本集中的样本数据及对应的风险类型,训练多个基分类器,将基分类器融合得到风险评估模型。
具体的,通过步骤S3得到T个征信样本集,利用每个征信样本集,训练一个基分类器,得到T个训练好的基分类器hi(i=1,2,...,T),利用多数投票(majority voting)机制,融合多个基分类器,得到最终的风险评估模型H=F(h1,...,hT),F表示融合函数,即按照“少数服从多数”规则,以至少T/2的预测结果作为风险评估模型的预测结果。
常用的基分类器有支持向量机、决策树等。
步骤S104:通过训练后的风险评估模型对待评估的征信数据x进行风险类型预测,以生成并输出所述征信数据的风险类型。
实施例二
本实施例公开了基于双重自步学习的不平衡征信数据风险评估系统;
如图2所示,基于双重自步学习的不平衡征信数据风险评估系统,包括函数计算模块、样本构建模块、模型训练模块和风险评估模块:
函数计算模块,被配置为:对采集到的原始征信样本集进行样本难度计算,基于样本难度得到样本难度的概率密度函数,其中,所述原始征信样本集包含两种风险类型的样本:高风险样本和低风险样本;
样本构建模块,被配置为:根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集;
模型训练模块,被配置为:基于多个征信样本集中的样本数据及对应的风险类型,训练多个基分类器,将基分类器融合得到风险评估模型;
风险评估模块,被配置为:通过训练后的风险评估模型对待评估的征信数据进行风险类型预测,以生成并输出所述征信数据的风险类型。
实施例三
本实施例的目的是提供计算机可读存储介质。
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例一所述的基于双重自步学习的不平衡征信数据风险评估方法中的步骤。
实施例四
本实施例的目的是提供电子设备。
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例一所述的基于双重自步学习的不平衡征信数据风险评估方法中的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.基于双重自步学习的不平衡征信数据风险评估方法,其特征在于,包括:
基于待计算样本到最近的两类样本的距离均值,对采集到的原始征信样本集进行样本难度计算,基于样本难度得到样本难度的概率密度函数,其中,所述原始征信样本集包含两种风险类型的样本:高风险样本和低风险样本;
根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集;
基于多个征信样本集中的样本数据及对应的风险类型,训练多个基分类器,将基分类器融合得到风险评估模型;
通过训练后的风险评估模型对待评估的征信数据进行风险类型预测,以生成并输出所述征信数据的风险类型;
所述生成多个样本数量平衡的征信样本集,具体为:
假设要生成T个样本数量平衡的征信样本集,则执行T次自步上采样和自步下采样,每次生成的高风险样本子集和低风险样本子集构成一个样本数量平衡的征信样本集,从而得到T个样本数量平衡的征信样本集;
每次生成的高风险样本子集,包括两部分样本:
第一部分是迭代样本集中的全部高风险样本,其中,迭代样本集是上次生成的高风险样本子集,而第一次的迭代样本集是原始高风险样本集;
第二部分是根据高风险样本难度的概率密度函数,对高风险样本进行自步上采样,生成的新的高风险样本,其中,第二部分的高风险样本的生成方法为:
(1)根据高风险样本难度的概率密度函数从Np个原始高风险样本中选择N1个高风险样本,N1的具体计算公式为:
N1=(Nn-Np)/T
其中,Nn为原始低风险样本集的样本个数,Np为原始高风险样本集的样本个数,T是要生成的征信样本集的个数;
重复执行以下过程N1次,每次从Np个原始高风险样本中选择1个高风险样本:
利用随机数生成器生成一个正随机数r1,利用r1从Np个原始高风险群样
本中选出1个高风险样本 满足以下条件:
其中,为高风险样本xi的概率密度函数,/>为选出的高风险样本,t1∈{1,2,...,Np};
(2)以选出的每个高风险样本为种子点,利用上采样方法SMOTE,产生一个新的高风险样本,则选出的N1个高风险样本,总共产生N1个新的高风险样本;
每次生成的低风险样本子集,是根据低风险样本难度的概率密度函数,对低风险样本进行自步下采样得到的,具体为:
根据低风险样本难度的概率密度函数从Nn个原始低风险样本中选择N2个低风险样本,N2为当前新生成的高风险样本子集中高风险样本的个数;
重复执行以下过程N2次,每次从Nn个原始低风险样本中选择1个低风险样本:
利用随机数生成器生成一个正随机数r2,利用r2从Nn个原始低风险样本中选出1个低风险样本 满足以下条件:
其中,为低风险样本xj的概率密度函数,/>为选出的低风险样本,t2∈{1,2,...,Nn};
新选出来的N2个低风险样本构成低风险样本子集;
高风险样本子集与低风险样本子集构成样本数量平衡的征信样本集。
2.如权利要求1所述的基于双重自步学习的不平衡征信数据风险评估方法,其特征在于,所述样本难度计算,包括:
对于高风险样本,分别计算每个高风险样本到最近的两类样本的距离均值,两个距离均值的倒数之和为该高风险样本的样本难度;
对于低风险样本,分别计算每个低风险样本到最近的两类样本的距离均值,计算两个距离均值的倒数之和,1除以倒数之和为该低风险样本的样本难度。
3.如权利要求1所述的基于双重自步学习的不平衡征信数据风险评估方法,其特征在于,所述基于样本难度得到样本难度的概率密度函数,具体为:
对于高风险样本,该高风险样本的样本难度除以所有高风险样本的样本难度之和,得到高风险样本难度的概率密度函数;
对于低风险样本,该低风险样本的样本难度除以所有低风险样本的样本难度之和,得到低风险样本难度的概率密度函数。
4.如权利要求1所述的基于双重自步学习的不平衡征信数据风险评估方法,其特征在于,所述风险评估模型,是利用多数投票机制融合多个基分类器得到的。
5.基于双重自步学习的不平衡征信数据风险评估系统,其特征在于,包括函数计算模块、样本构建模块、模型训练模块和风险评估模块:
函数计算模块,被配置为:基于待计算样本到最近的两类样本的距离均值,对采集到的原始征信样本集进行样本难度计算,基于样本难度得到样本难度的概率密度函数,其中,所述原始征信样本集包含两种风险类型的样本:高风险样本和低风险样本;
样本构建模块,被配置为:根据样本难度的概率密度函数,分别对高风险样本和低风险样本进行多次自步上采样和自步下采样,生成多个样本数量平衡的征信样本集;
模型训练模块,被配置为:基于多个征信样本集中的样本数据及对应的风险类型,训练多个基分类器,将基分类器融合得到风险评估模型;
风险评估模块,被配置为:通过训练后的风险评估模型对待评估的征信数据进行风险类型预测,以生成并输出所述征信数据的风险类型;
所述生成多个样本数量平衡的征信样本集,具体为:
假设要生成T个样本数量平衡的征信样本集,则执行T次自步上采样和自步下采样,每次生成的高风险样本子集和低风险样本子集构成一个样本数量平衡的征信样本集,从而得到T个样本数量平衡的征信样本集;
每次生成的高风险样本子集,包括两部分样本:
第一部分是迭代样本集中的全部高风险样本,其中,迭代样本集是上次生成的高风险样本子集,而第一次的迭代样本集是原始高风险样本集;
第二部分是根据高风险样本难度的概率密度函数,对高风险样本进行自步上采样,生成的新的高风险样本,其中,第二部分的高风险样本的生成方法为:
(1)根据高风险样本难度的概率密度函数从Np个原始高风险样本中选择N1个高风险样本,N1的具体计算公式为:
N1=(Nn-Np)/T
其中,Nn为原始低风险样本集的样本个数,Np为原始高风险样本集的样本个数,T是要生成的征信样本集的个数;
重复执行以下过程N1次,每次从Np个原始高风险样本中选择1个高风险样本:
利用随机数生成器生成一个正随机数r1,利用r1从Np个原始高风险样本中选出1个高风险样本 满足以下条件:
其中,为高风险样本xi的概率密度函数,/>为选出的高风险样本,t1∈{1,2,...,Np};
(2)以选出的每个高风险样本为种子点,利用上采样方法SMOTE,产生一个新的高风险样本,则选出的N1个高风险样本,总共产生N1个新的高风险样本;
每次生成的低风险样本子集,是根据低风险样本难度的概率密度函数,对低风险样本进行自步下采样得到的,具体为:
根据低风险样本难度的概率密度函数从Nn个原始低风险样本中选择N2个低风险样本,N2为当前新生成的高风险样本子集中高风险样本的个数;
重复执行以下过程N2次,每次从Nn个原始低风险样本中选择1个低风险样本:
利用随机数生成器生成一个正随机数r2,利用r2从Nn个原始低风险样本中选出1个低风险样本 满足以下条件:
其中,为低风险样本xj的概率密度函数,/>为选出的低风险样本,t2∈{1,2,...,Nn};
新选出来的N2个低风险样本构成低风险样本子集;
高风险样本子集与低风险样本子集构成样本数量平衡的征信样本集。
6.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-4任一项所述的方法。
7.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-4任一项所述方法的指令。
CN202310067258.2A 2023-01-16 2023-01-16 基于双重自步学习的不平衡征信数据风险评估方法及系统 Active CN115907972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310067258.2A CN115907972B (zh) 2023-01-16 2023-01-16 基于双重自步学习的不平衡征信数据风险评估方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310067258.2A CN115907972B (zh) 2023-01-16 2023-01-16 基于双重自步学习的不平衡征信数据风险评估方法及系统

Publications (2)

Publication Number Publication Date
CN115907972A CN115907972A (zh) 2023-04-04
CN115907972B true CN115907972B (zh) 2023-09-12

Family

ID=86486748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310067258.2A Active CN115907972B (zh) 2023-01-16 2023-01-16 基于双重自步学习的不平衡征信数据风险评估方法及系统

Country Status (1)

Country Link
CN (1) CN115907972B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910660B (zh) * 2023-09-07 2024-01-23 山东省计算中心(国家超级计算济南中心) 面向不平衡数据的自步半监督集成分类器训练方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766418A (zh) * 2017-09-08 2018-03-06 广州汪汪信息技术有限公司 一种基于融合模型的信用评估方法、电子设备和存储介质
CN111612626A (zh) * 2020-05-28 2020-09-01 深圳博普科技有限公司 一种债券评估数据预处理方法和装置
CN112364942A (zh) * 2020-12-09 2021-02-12 润联软件系统(深圳)有限公司 信贷数据样本均衡方法、装置、计算机设备及存储介质
CN113962275A (zh) * 2020-07-15 2022-01-21 微软技术许可有限责任公司 样本评估
CN114463848A (zh) * 2022-01-28 2022-05-10 浙江大学 一种基于记忆增强的渐进式学习步态识别方法
CN114676932A (zh) * 2022-04-18 2022-06-28 工银瑞信基金管理有限公司 基于类别不平衡机器学习框架的债券违约预测方法和装置
KR20220102961A (ko) * 2021-01-14 2022-07-21 사단법인 한국신용정보원 신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1471449A1 (en) * 2003-04-23 2004-10-27 Sap Ag Credit authorisation system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766418A (zh) * 2017-09-08 2018-03-06 广州汪汪信息技术有限公司 一种基于融合模型的信用评估方法、电子设备和存储介质
CN111612626A (zh) * 2020-05-28 2020-09-01 深圳博普科技有限公司 一种债券评估数据预处理方法和装置
CN113962275A (zh) * 2020-07-15 2022-01-21 微软技术许可有限责任公司 样本评估
CN112364942A (zh) * 2020-12-09 2021-02-12 润联软件系统(深圳)有限公司 信贷数据样本均衡方法、装置、计算机设备及存储介质
KR20220102961A (ko) * 2021-01-14 2022-07-21 사단법인 한국신용정보원 신용정보를 활용한 인공 지능 모형 기반 개인사업자 부도율 예측 방법 및 장치
CN114463848A (zh) * 2022-01-28 2022-05-10 浙江大学 一种基于记忆增强的渐进式学习步态识别方法
CN114676932A (zh) * 2022-04-18 2022-06-28 工银瑞信基金管理有限公司 基于类别不平衡机器学习框架的债券违约预测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于特征选择和集成算法的个人信用评估研究";林卫明;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;J159-28 *

Also Published As

Publication number Publication date
CN115907972A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
CN109934293B (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
US10943186B2 (en) Machine learning model training method and device, and electronic device
CN107766929B (zh) 模型分析方法及装置
CN112150298B (zh) 数据处理方法、系统、设备及可读介质
WO2021257395A1 (en) Systems and methods for machine learning model interpretation
CN115907972B (zh) 基于双重自步学习的不平衡征信数据风险评估方法及系统
CN111062806B (zh) 个人金融信用风险评价方法、系统和存储介质
CN113807353B (zh) 图像转换模型训练方法、装置、设备及存储介质
CN109948735A (zh) 一种多标签分类方法、系统、装置及存储介质
CN108228622A (zh) 业务问题的分类方法及装置
CN109726918A (zh) 基于生成式对抗网络和半监督学习的个人信用确定方法
CN112365007B (zh) 模型参数确定方法、装置、设备及存储介质
CN107203772B (zh) 一种用户类型识别方法及装置
CN111327480B (zh) 移动边缘环境下的Web服务多元QoS监控方法
US20190139144A1 (en) System, method and computer-accessible medium for efficient simulation of financial stress testing scenarios with suppes-bayes causal networks
CN115718826A (zh) 图结构数据中的目标节点分类方法、系统、设备及介质
Ravi et al. Detection and classification of power quality disturbances using stock well transform and improved grey wolf optimization-based kernel extreme learning machine
Xiu et al. Variational disentanglement for rare event modeling
CN110363534B (zh) 用于识别异常交易的方法及装置
CN115482084A (zh) 用于生成风控规则集的方法及装置
CN112905166B (zh) 人工智能编程系统、计算机设备、计算机可读存储介质
CN116508035A (zh) 将经训练的人工智能模型转换为可信赖的人工智能模型
CN111159397A (zh) 文本分类方法和装置、服务器
CN118260683B (zh) 一种基于大数据的反欺诈模型训练方法及系统
CN114418752B (zh) 无类型标签用户数据的处理方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant