CN115375456A - 用于信贷风险评估的数据处理方法、装置、设备及介质 - Google Patents
用于信贷风险评估的数据处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115375456A CN115375456A CN202211031839.2A CN202211031839A CN115375456A CN 115375456 A CN115375456 A CN 115375456A CN 202211031839 A CN202211031839 A CN 202211031839A CN 115375456 A CN115375456 A CN 115375456A
- Authority
- CN
- China
- Prior art keywords
- credit
- reduction
- credit risk
- attribute
- rating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种用于信贷风险评估的数据处理方法、装置、设备及介质,所述方法包括:基于原始数据确定信用评级数据集、信贷风险因素属性集和决策属性集,并确定评级决策表;将信用评级数据集划分为个评级数据子集;分别计算各个评级数据子集的所有信贷记录样本在所有信贷风险因素下的全局等价类,获取得到与信用评级数据集对应的全局等价类集合;基于全局等价类集合融合嵌套等价类方法对评级决策表中的信贷风险因素属性集进行属性约简操作,以得到用于对用户进行信贷风险评估的约简决策表。本发明能够有效提高用户信贷风险评估的准确性及计算效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用于信贷风险评估的数据处理方法、装置、电子设备和存储介质。
背景技术
随着互联网金融的兴起,小额信贷的普及与渗透,国内信贷交易量大幅上涨。不同金融机构在该风口获得利润的同时,也带来了一定的信贷风险。信贷风险会带来潜在的巨额损失,因此,客观科学的评估信贷风险平衡贷款营收与风险至关重要。然而,传统银行对客户信贷风险的评估方式往往采用专家分析法,信用评级法等此类主观方法,根据贷款者信息进行主观判断是否提供贷款,用该方法处理大额度贷款等低频业务存在一定的适用性,但随着市场经济的快速发展与互联网技术的发展,对于越来越多的信贷需求,传统的人工审核方式耗时耗力。
目前,已有学者对信贷风险因素识别与评估方法进行了探索,通过建立财务指标、融合金融理论和数学工具对其进行分析,并取得了一定的成果。例如,构建了基础年龄、婚姻状况、受教育程度、个人月收入、职务、贷款年限、贷款金额、还款方式、担保方式九个指标上的Logistics回归模型,通过指标的权值对个人信贷风险进行识别。Feng XUE引入了粗糙集理论属性处理信贷风险预测任务中,通过将过去的财务业绩数据反馈到粗糙集方法和神经网络中来预测五类风险等级,使用粗糙集方法在不损失信息的情况下对属性进行约简,然后将约简后的信息用于制定分类规则和训练Elman神经网络。
上述研究为识别评估信贷风险因素问题提供了较好的思路与支撑,但现有方法仍旧存在以下三个问题:
1:许多研究引入了粗糙集理论的属性约简方法对风险因素进行降维,现有方法一般仅能处理静态数据,当关键风险因素随时间和环境动态变化,静态算法需要使用所有历史数据和新数据,计算效率低下,造成响应速度缓慢;
2:现有研究中基于粗糙集理论的降维方法一般只能获得一组固定指标对风险进行评估,缺乏足够灵活性,当评估数据不实或缺失,可能使结果具有较大偏差,导致后续更高的信贷风险;
3:现实场景中,评估信贷风险数据是典型的大规模高维数据,识别关键风险指标,有助于简化信贷风险评估过程,现有方法计算的效率极其低下。
发明内容
基于此,本发明提出了一种用于信贷风险评估的数据处理方法、装置、电子设备和存储介质,用以提高信贷风险评估的准确性和计算效率。
本发明提出一种用于信贷风险评估的数据处理方法,包括:
获取原始数据,基于所述原始数据确定信用评级数据集U、信贷风险因素属性集C和决策属性集D,并确定评级决策表DT=(U,C∪D);
将所述信用评级数据集U划分为t个评级数据子集Uk;其中,k∈{1,2,3,..,t};
进一步地,所述获取原始数据,基于所述原始数据确定信用评级数据集U、信贷风险因素属性集C和决策属性集D,并确定评级决策表DT=(U,C∪D),包括:
获取原始数据,基于所述原始数据确定用户信用评级决策系统;其中,所述用户信用评级决策系统包括信用评级数据集U、信贷风险因素属性集C和决策属性集D;
通过预设的离散算法或预设的经验方法将所述信贷风险因素属性集C进行离散化处理,并基于所述用户信用评级决策系统确定评级决策表DT=(U,C∪D)。
通过等价关系对各个所述评级数据子集Uk进行论域划分,并分别对各个所述评级数据子集Uk中的信贷记录样本在所有信贷风险因素C下的知识进行抽取,将知识抽取后形成的所有新论域作为与所述信用评级数据集U对应的全局等价类集合
当确定当前约简操作方式为通过启发式算法求解单个约简的方式时,所述属性约简操作包括:
初始化约简red,基于嵌套等价类方法计算所述信贷风险因素属性集C中每一属性相对于决策属性集D的属性重要度增益;
根据所述属性重要度增益将满足预设条件的属性进行添加,获取得到与所述信贷风险因素属性集C对应的约简red。
当确定当前约简操作方式为基于群智能算法求解多个约简并从中进行筛选作为最终约简集合时,所述属性约简操作包括:
基于预设的群智能算法生成多个候选解;
基于预设的进化算法分别对所述多个候选解计算适应度并进行演化以获得多个候选约简解;
基于属性的知识粒度计算预设目标函数的取值,并根据取值对所述多个候选约简解进行筛选以获得候选约简集合reds;
在当前的评级数据子集Uk中对所述候选约简集合reds的元素分别作为分类属性输入分类模型中进行分类,并基于分类效果和分类属性获取难易程度对所述候选约简集合reds的元素进行筛选,获取得到与所述信贷风险因素属性集C对应的约简集合。
进一步地,所述基于所述全局等价类集合Uke融合嵌套等价类方法对所述评级决策表DT中的信贷风险因素属性集C进行属性约简操作,以得到用于对用户进行信贷风险评估的约简决策表,包括:
对上一轮的约简red,计算当前回合的全局等价类集合在当前约简回合上的嵌套等价类集合,将当前回合的嵌套等价类集合与上一轮的嵌套等价类集合进行合并,并判断所述嵌套等价类集合是否存在目标类型的嵌套等价类;
若是,则继续进行约简计算;
若否,则将上一轮的约简集合作为当前回合的约简。
进一步地,所述信贷风险因素属性集C的属性包括收入、工龄、教育和负债率中的至少一种。
本发明还提供一种用于信贷风险评估的数据处理装置,包括:
数据获取模块,用于获取原始数据,基于所述原始数据确定信用评级数据集U、信贷风险因素属性集C和决策属性集D,并确定评级决策表DT=(U,C∪D);
数据划分模块,用于将所述信用评级数据集U划分为t个评级数据子集Uk;其中,k∈{1,2,3,...,t};
本发明还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述用于信贷风险评估的数据处理方法。
本发明还提出一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述用于信贷风险评估的数据处理方法。
采用本发明实施例,具有如下有益效果:
1、通过在原始数据集中过滤掉无用样本,通过缩减的论域获得相同的约简,减少了不必要的存储空间与计算资源,提高了效率,适用于大规模真实数据下的信贷风险因素识别任务;
2、通过基于进化算法的粗糙集约简算法求解多个风险因素指标集合,提供更多选择供进行信用评估,缓解了由于数据缺失或失真造成的影响;
3、通过增量式依赖计算策略用于处理新增的动态数据,在原有约简的基础上在新数据集上继续求解新的约简,减少了重新计算的成本能够以较小的成本动态更新约简从而动态进行信贷风险因素识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的用于信贷风险评估的数据处理方法的流程示意图;
图2是本发明实施例提供的用于信贷风险评估的数据处理装置的结构示意图;
图3是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,鉴于背景技术中提出的问题,为弥补现有研究的不足,本发明提出了一种基于粗糙集增量特征选择方法用于处理顺序到达的新增数据或划分为多组子集的大型数据集,进而动态更新信贷风险因素以提高在大规模数据集下的计算效率。在本发明方法中,提出了嵌套等价类,对信贷指标形成的决策系统中的知识进行抽取,从而获得压缩计算域,然后基于三种嵌套等价类设计两类算法,其一是求单一约简的启发算法,其二是融合进化算法求解获得多个约简信贷指标集合,最后通过一种面向动态数据的依赖计算策略处理动态数据新增数据更新约简中的信贷风险关键因素。
为了弥补现有技术中动态信贷风险因素识别方法的三点不足,本发明实施例分别提出了针对策略:
1.在现实场景中,信贷关键风险因素会随时间和环境动态变化,因此本发明设计了一种面向新增动态数据的计算策略用于处理新增动态数据,在保留部分历史数据的条件下更新信贷关键风险因素集合。
2.现实中用户提供的信息中许多指标存在着数值缺失以及虚假值的情况,导致识别出的风险因素指标集合不能正常使用,而本发明基于进化算法的粗糙集约简算法求解多个风险因素指标集合,提供更多选择供进行信用评估,使应用场景更加灵活多样,缓解由于数据缺失或失真造成的影响。
3.信贷数据通常是大规模真实数据集,传统粗糙集方法难以进行处理,然而大规模数据中存在着许多无用样本,本发明通过设计了一种论域压缩策略,通过在原始数据集中过滤掉无用样本,并在理论上证明可以通过缩减的论域获得相同的约简,减少了不必要的存储空间与计算资源,提高了效率。
请参见图1,本发明提供了一种用于信贷风险评估的数据处理方法,可以包括步骤:
S1、获取原始数据,基于所述原始数据确定信用评级数据集U、信贷风险因素属性集C和决策属性集D,并确定评级决策表DT=(U,C∪D);进一步地,所述信贷风险因素属性集C的属性包括收入、工龄、教育和负债率中的至少一种。
S2、将所述信用评级数据集U划分为t个评级数据子集Uk;其中,k∈{1,2,3,...,t};若数据是动态增加,则数据子集按实际总量进行计算,或者将新增数据集划分为小数据集;
在本发明实施例中,进一步地,步骤S1可以包括:
获取原始数据,基于所述原始数据确定用户信用评级决策系统;其中,所述用户信用评级决策系统包括信用评级数据集U、信贷风险因素属性集C和决策属性集D;
通过预设的离散算法或预设的经验方法将所述信贷风险因素属性集C进行离散化处理,并基于所述用户信用评级决策系统确定评级决策表DT=(U,C∪D)。
在本发明实施例中,进一步地,步骤S3可以包括:
通过等价关系对各个所述评级数据子集Uk进行论域划分,并分别对各个所述评级数据子集Uk中的信贷记录样本在所有信贷风险因素C下的知识进行抽取,将知识抽取后形成的所有新论域作为与所述信用评级数据集U对应的全局等价类集合
在本发明实施例中,进一步地,步骤S4可以包括:
当确定当前约简操作方式为通过启发式算法求解单个约简的方式时,所述属性约简操作包括:
初始化约简red,基于嵌套等价类方法计算所述信贷风险因素属性集C中每一属性相对于决策属性集D的属性重要度增益;
根据所述属性重要度增益将满足预设条件的属性进行添加,获取得到与所述信贷风险因素属性集C对应的约简red。
在本发明实施例中,进一步地,步骤S4还可以包括:
当确定当前约简操作方式为基于群智能算法求解多个约简并从中进行筛选作为最终约简集合时,所述属性约简操作包括:
基于预设的群智能算法生成多个候选解;
基于预设的进化算法分别对所述多个候选解计算适应度并进行演化以获得多个候选约简解;
基于属性的知识粒度计算预设目标函数的取值,并根据取值对所述多个候选约简解进行筛选以获得候选约简集合reds;
在当前的评级数据子集Uk中对所述候选约简集合reds的元素分别作为分类属性输入分类模型中进行分类,并基于分类效果和分类属性获取难易程度对所述候选约简集合reds的元素进行筛选,获取得到与所述信贷风险因素属性集C对应的约简集合。
在本发明实施例中,进一步地,步骤S4还可以包括:
对上一轮的约简red,计算当前回合的全局等价类集合在当前约简回合上的嵌套等价类集合,将当前回合的嵌套等价类集合与上一轮的嵌套等价类集合进行合并,并判断所述嵌套等价类集合是否存在目标类型的嵌套等价类;
若是,则继续进行约简计算以更新约简;
若否,则将上一轮的约简作为当前回合的约简。
基于上述方案,为便于更好的理解本发明实施例提供的用于信贷风险评估的数据处理方法,以下进行详细说明:
本发明实施例可以基于以下步骤实现:
S1,获取原始数据,获取用户信用评级与用户信用相关特征,离散化信用特征,建立信用评级决策表DT=(U,C∪D)。
S2,根据实际情况将信用评级信息数据集U划分为t份子集,增量输入算法中;
S4融合嵌套等价类方法对信贷风险因素进行属性约简操作,包括两种约简操作:1.通过启发式算法求解单个约简;2.基于群智能算法求解多个约简并通过分类模型与具体需求挑选j个解。根据对约简数量与实际应用的要求自行选择,具体操作分别如S5.1和S5.2所示:
S5.2基于群智能的算法:首先通过智能算法生成解决方案sf={sf1,sf2,…,sfk},其次对智能算法搜索到的解基于IPDC策略计算适应度并进行演化获得候选约简解reds={red1,red2,....,redn},接着基于知识粒度计算目标函数J(redi)的取值进行筛选进而获得约简集合reds={redi|argmaxJ(redi)},最后在当前数据集Uk中对所有redi∈reds分别作为分类属性输入分类模型中进行分类,基于分类效果、属性获取难易程度及实际需要挑选单个或多个约简。
进一步的,为了更好的实现本发明方法,所述S1,具体为:
S1.1确定用户信用评级决策系统,确定每条信用记录的用户信用评级r个信用等级D={d1,d2,...,dr},确定信用评级决策表DT=(U,C∪D),包括收入、工龄、教育、负债率等信贷风险影响因素集合。
S1.2通过MDLP算法将信贷风险影响因素进行离散。
进一步的,为了更好的实现本发明,所述S3和S6中全局等价类计算方法的具体为:
S3.2通过全局等价关系RC划分论域Uk,获得全局等价类集合其中全局等价关系RC={(x,y)∈U1×U1|C(x)=C(y)},C(x)和C(y)分别表示在所有信贷风险因素C下x和y的记录的值。其中每个等价类ei代表一条由多条信贷记录压缩后形成的知识,ei包含了三个属性,分别为:记录数量、决策属性和一致性。
对Uk e在属性a上的划分本发明称为等价嵌套类集合其中每个嵌套等价类Ej是对在属性a上进一步压缩形成的知识,包括记录数量(count)、决策属性(dec)、全局等价类集合(e-set)和当嵌套等价类所属的TNEC类型(type),TNEC分成三种类型的TNEC,分别是1-TNEC:若e-set中所有全局ei的一致性属性均为True并且决策属性都等于同一个值;-1-TNEC:e-set中存在一致性为False的等价类;0-TNEC:其它情况。
进一步地,为了更好的实现本发明,所述S5.1的具体为:
S5.1.1初始化约简red={}
进一步地,为了更好的实现本发明,所述S5.2的具体为:
S5.2.1基于遗传算法生成多个候选解sf={sf1,sf2,…,sfk}。
S5.2.2对于进化算法获得的每个候选解sfi计算对应的适应度,初始化约简red={}。每个候选解计算适应度的具体过程如S5.2.2.1—S5.2.2.4所述:
S5.2.2.1从某一个候选解sfi中抽取pconf*len(sfi)个属性,其中pconf∈[0,1],代表每次循环中从现有候选解抽取属性的比例,len(sfi)代表当前候选解的长度。sfi'设置为空。
S5.2.2.3从当前候选解sfi删除抽取过的属性sfi',即sfi–sfi'。
S5.2.3进化算法根据所有解决方案的适用性对候选解集合sf进行演化。
S5.2.4重复S5.2.2—S5.2.3,直至进化算法收敛,以最终演化后的候选解集合sf作为约简解集合reds={red1,red2,....,redn}。
S5.2.5在约简解集合中进行选择,减少多余的解,具体步骤如下所示:
S 5.2.5.1遍历redi∈reds={red1,red2,....,redn}
S 5.2.5.2.对redi计算目标函数J(S)的取值,令属性集合S=redi,目标函数计算公式为:
其中aj是一个属性,D是决策属性。
GP(B|A)=GP(A)-GP(A∪B)即属性A相对于属性B的粒度。
按目标函数取值从大到小排序并根据需要选取约简。
进一步的,为了更好的实现本发明,在当前数据集Uk中对所有redi∈reds分别作为分类属性输入分类模型中进行分类,基于分类效果、属性获取难易程度及实际需要挑选单个或多个约简。
进一步的为了更好的实现本发明,所述S6的具体为:
S6.2对上一轮约简red(若有多个约简则根据S5.2方法取最优约简)计算在当前约简上的嵌套等价类集合并与上轮嵌套等价类合并,与,如果中不存在0-TNEC,则结束运算,当前约简集合等于上一轮约简集合。否则执行S6.3。
S6.3转步骤S4,更新当前约简集合,直至计算完U={U1,U2,…,Ut}。
与现有技术相比,本发明实施例具有如下有益效果:
1.本发明基于嵌套等价类(TNEC)设计一种论域压缩策略。通过在原始数据集中过滤掉无用样本,并在理论上证明可以通过缩减的论域获得相同的约简,减少了不必要的存储空间与计算资源,提高了效率,适用于大规模真实数据下的信贷风险因素识别任务。
2.本发明通过基于进化算法的粗糙集约简算法求解多个风险因素指标集合,提供更多选择供进行信用评估,缓解由于数据缺失或失真造成的影响。
3.本发明通过一种增量式依赖计算(IPDC)策略用于处理新增的动态数据,在原有约简的基础上在新数据集上继续求解新的约简,减少了重新计算的成本,为不断增加的信用记录样本的处理提供了一种新思路,能够以较小的成本动态更新约简从而动态进行信贷风险因素识别。
以下对本发明方案列举具体实例进行说明:
在本发明实施例中,首先定义信息系统。信息系统是一个四元组IS=(U,A,V,f),在给定的信息系统中IS=(U,A,V,f),U是对象的非空有限集,称为论域,如U={x1,x2,...,xn}是一个具有n条信用记录的实值集;A是特征或属性的非空有限集,使得a:U→Va对于每个a∈A,其中Va是特征a可以采用的一组值。和f:U×A=V作为一个函数f(x,a)∈Va表示对象x相对于属性a的值,通常用a(x)表示。当系统中存在一个决策属性集D时,信息系统就变成了一个决策表,其格式为DT=(U,A=C∪D,V,f),其中C是一组条件属性,D是决策属性集。假设合,C={a1,a2,...,am}是信用信息系统的指标集,主要包括收入、工龄、教育、负债率等m个指标。D={d1,d2,...,dr}是决策表的r个用户信用等级。设将U的决策划分为U/D={[x]D:x∈U},其中[x]D={y∈U:d(x)=d(y)}是信用记录x的决策类。以下为计算实例:
步骤1获取原始数据,获取用户信用评级与用户信用相关特征,离散化信用特征,建立信用评级决策表DT=(U,C∪D)。
步骤1.1.确定用户信用评级决策系统,确定每条信用记录的信用用户信用评级r个信用等级D={d1,d2,...,dr},确定信用评级决策表DT=(U,C∪D),包括收入、工龄、教育、负债率等信贷风险影响因素集合。
步骤1.2通过离散算法或经验方法将信贷风险影响因素进行离散。
步骤2,根据实际情况将信用评级信息数据集U划分为t份子集,增量输入算法中。
步骤3.2遍历实例xi∈Uk,其中索引key=C(x)。执行步骤3.3-3.4,直至遍历完Uk。
步骤4融合嵌套等价类方法对信贷风险因素进行属性约简操作,包括两种约简操作:1.通过启发式算法求解单个约简;2.基于群智能算法求解多个约简并通过分类模型与具体需求挑选j个解。根据对约简数量与实际应用的要求自行选择,具体操作分别如步骤5.1和步骤5.2所示:
步骤5.1.1初始化约简red={}。
步骤5.2首先通过进化算法生成解决方案sf={sf1,sf2,…,sfk},其次对智能算法搜索到的解基于IPDC策略计算适应度并进行演化获得候选约简解reds={red1,red2,....,redn},接着基于知识粒度计算目标函数J(redi)的取值进行筛选,挑选目标函数值为前m大对应的约简作为约简集合reds,其中m根据具体需求确认,最后在当前数据集Uk中对所有redi∈reds分别作为分类属性输入分类模型中进行分类,基于分类效果、属性获取难易程度及实际需要挑选单个或多个约简。
步骤5.2.1采用遗传算法进行搜索,其中各参数设置如下所示。群体大小:100;交叉方法:基于适应度排序的染色体,依赖值最高的染色体与依赖值次高的染色体交叉使用90%的基因创建新染色体,适应度最低的5%的种群被新染色体替换;突变:染色体的每个基因以0.1%的概率发生突变;停止条件:连续30次下相同解或最大迭代600次;染色体初始长度:随机选择所有特征的1%。
步骤5.2.2在候选属性集合范围内选择属性初始化群体作为候选解集合sf={sf1,sf2,…,sfk}。
步骤5.2.3.1从某一个候选解sfi中抽取pconf*len(sfi)个属性,其中pconf∈[0,1],代表每次循环中从现有候选解抽取属性的比例,len(sfi)代表当前候选解的长度。sfi'设置为空。
步骤5.2.3.3从当前候选解sfi删除抽取过的属性sfi',即sfi–sfi'。
步骤5.2.4遗传算法根据所有解决方案sf的适应度进行演化。
步骤5.2.5重复S3.2—S3.3,直至满足遗传算法停止条件,以当前演化后的候选解sf作为约简解reds={red1,red2,....,redn}。
步骤5.2.6选择约简解,具体步骤如下所示:
步骤5.2.6.4计算J(S):
步骤5.2.6.5根据目标函数取值排序并根据需要选取约简,其中目标函数值最大的解保留。
与现有技术相比,本发明实施例具有以下有益效果:
本实例借助粗糙集模型处理信用记录数据集,通过属性约简的方式进行特征选择,从各种指标中识别信贷风险因素,保留了原有数据的信息量,避免了一定的信息损失,并缓解了指标的收集压力。然后,通过基于嵌套等价类的加速策略通过在原始数据集中过滤掉无用样本,并通过缩减的论域获得相同的约简,适用于大规模真实数据下的信贷风险因素识别任务。接着,基于增量学习理论,本发明通过一种基于增量分区的依赖计算(IPDC)策略用于处理新增的动态数据,在原有约简的基础上在新数据集上继续求解新的约简,能够以较小的成本动态更新约简从而动态进行信贷风险因素识别。
请参见图2,本发明还提出一种用于信贷风险评估的数据处理装置,包括:
数据获取模块1,用于获取原始数据,基于所述原始数据确定信用评级数据集U、信贷风险因素属性集C和决策属性集D,并确定评级决策表DT=(U,C∪D);
数据划分模块2,用于将所述信用评级数据集U划分为t个评级数据子集Uk;其中,k∈{1,2,3,..,t};
进一步地,数据获取模块1具体用于:
获取原始数据,基于所述原始数据确定用户信用评级决策系统;其中,所述用户信用评级决策系统包括信用评级数据集U、信贷风险因素属性集C和决策属性集D;
通过预设的离散算法或预设的经验方法将所述信贷风险因素属性集C进行离散化处理,并基于所述用户信用评级决策系统确定评级决策表DT=(U,C∪D)。
进一步地,等价计算模块3具体用于:
通过等价关系对各个所述评级数据子集Uk进行论域划分,并分别对各个所述评级数据子集Uk中的信贷记录样本在所有信贷风险因素C下的知识进行抽取,将知识抽取后形成的所有新论域作为与所述信用评级数据集U对应的全局等价类集合
进一步地,属性约简模块4具体用于:
当确定当前约简操作方式为通过启发式算法求解单个约简的方式时,所述属性约简操作包括:
初始化约简red,基于嵌套等价类方法计算所述信贷风险因素属性集C中每一属性相对于决策属性集D的属性重要度增益;
根据所述属性重要度增益将满足预设条件的属性进行添加,获取得到与所述信贷风险因素属性集C对应的约简red。
进一步地,属性约简模块4具体用于:
当确定当前约简操作方式为基于群智能算法求解多个约简并从中进行筛选作为最终约简集合时,所述属性约简操作包括:
基于预设的群智能算法生成多个候选解;
基于预设的进化算法分别对所述多个候选解计算适应度并进行演化以获得多个候选约简解;
基于属性的知识粒度计算预设目标函数的取值,并根据取值对所述多个候选约简解进行筛选以获得候选约简集合reds;
在当前的评级数据子集Uk中对所述候选约简集合reds的元素分别作为分类属性输入分类模型中进行分类,并基于分类效果和分类属性获取难易程度对所述候选约简集合reds的元素进行筛选,获取得到与所述信贷风险因素属性集C对应的约简集合。
进一步地,属性约简模块4具体用于:
对上一轮的约简red,计算当前回合的全局等价类集合在当前约简回合上的嵌套等价类集合,将当前回合的嵌套等价类集合与上一轮的嵌套等价类集合进行合并,并判断所述嵌套等价类集合是否存在目标类型的嵌套等价类;
若是,则继续进行约简计算;
若否,则将上一轮的约简集合作为当前回合的约简。
进一步地,所述信贷风险因素属性集C的属性包括收入、工龄、教育和负债率中的至少一种。
图3示出了一个实施例中电子设备的内部结构图。该电子设备具体可以是终端,也可以是服务器。如图3所示,该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该电子设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现所述用于信贷风险评估的数据处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行所述用于信贷风险评估的数据处理方法。本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置:
在一个实施例中,提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述用于信贷风险评估的数据处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
2.根据权利要求1所述的用于信贷风险评估的数据处理方法,其特征在于,所述获取原始数据,基于所述原始数据确定信用评级数据集U、信贷风险因素属性集C和决策属性集D,并确定评级决策表DT=(U,C∪D),包括:
获取原始数据,基于所述原始数据确定用户信用评级决策系统;其中,所述用户信用评级决策系统包括信用评级数据集U、信贷风险因素属性集C和决策属性集D;
通过预设的离散算法或预设的经验方法将所述信贷风险因素属性集C进行离散化处理,并基于所述用户信用评级决策系统确定评级决策表DT=(U,C∪D)。
5.根据权利要求1所述的用于信贷风险评估的数据处理方法,其特征在于,所述基于所述全局等价类集合融合嵌套等价类方法对所述评级决策表DT中的信贷风险因素属性集C进行属性约简操作,以得到用于对用户进行信贷风险评估的约简决策表,包括:
当确定当前约简操作方式为基于群智能算法求解多个约简并从中进行筛选作为最终约简集合时,所述属性约简操作包括:
基于预设的群智能算法生成多个候选解;
基于预设的进化算法分别对所述多个候选解计算适应度并进行演化以获得多个候选约简解;
基于属性的知识粒度计算预设目标函数的取值,并根据取值对所述多个候选约简解进行筛选以获得候选约简集合reds;
在当前的评级数据子集Uk中对所述候选约简集合reds的元素分别作为分类属性输入分类模型中进行分类,并基于分类效果和分类属性获取难易程度对所述候选约简集合reds的元素进行筛选,获取得到与所述信贷风险因素属性集C对应的约简集合。
7.根据权利要求1-6任一项所述的用于信贷风险评估的数据处理方法,其特征在于,所述信贷风险因素属性集C的属性包括收入、工龄、教育和负债率中的至少一种。
8.一种用于信贷风险评估的数据处理装置,其特征在于,包括:
数据获取模块,用于获取原始数据,基于所述原始数据确定信用评级数据集U、信贷风险因素属性集C和决策属性集D,并确定评级决策表DT=(U,C∪D);
数据划分模块,用于将所述信用评级数据集U划分为t个评级数据子集Uk;其中,k∈{1,2,3,..,t};
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述用于信贷风险评估的数据处理方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述用于信贷风险评估的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211031839.2A CN115375456B (zh) | 2022-08-26 | 2022-08-26 | 用于信贷风险评估的数据处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211031839.2A CN115375456B (zh) | 2022-08-26 | 2022-08-26 | 用于信贷风险评估的数据处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115375456A true CN115375456A (zh) | 2022-11-22 |
CN115375456B CN115375456B (zh) | 2023-08-08 |
Family
ID=84067247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211031839.2A Active CN115375456B (zh) | 2022-08-26 | 2022-08-26 | 用于信贷风险评估的数据处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115375456B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111585A (zh) * | 2023-09-08 | 2023-11-24 | 广东工业大学 | 基于容差子关系粗糙集的数控机床健康状态预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706883A (zh) * | 2009-11-09 | 2010-05-12 | 北京航空航天大学 | 数据挖掘方法和装置 |
CN107169059A (zh) * | 2017-04-28 | 2017-09-15 | 北京理工大学 | 一种基于相似变精度粗糙集模型的知识推送规则提取方法 |
CN107578165A (zh) * | 2017-08-31 | 2018-01-12 | 齐鲁工业大学 | 基于粗糙集中简约算法的银行营销管理方法及系统 |
CN111832949A (zh) * | 2020-07-17 | 2020-10-27 | 中国人民解放军战略支援部队航天工程大学 | 一种装备作战试验鉴定指标体系构建方法 |
CN112102073A (zh) * | 2020-09-27 | 2020-12-18 | 长安汽车金融有限公司 | 信贷风险控制方法及系统、电子设备及可读存储介质 |
-
2022
- 2022-08-26 CN CN202211031839.2A patent/CN115375456B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706883A (zh) * | 2009-11-09 | 2010-05-12 | 北京航空航天大学 | 数据挖掘方法和装置 |
CN107169059A (zh) * | 2017-04-28 | 2017-09-15 | 北京理工大学 | 一种基于相似变精度粗糙集模型的知识推送规则提取方法 |
CN107578165A (zh) * | 2017-08-31 | 2018-01-12 | 齐鲁工业大学 | 基于粗糙集中简约算法的银行营销管理方法及系统 |
CN111832949A (zh) * | 2020-07-17 | 2020-10-27 | 中国人民解放军战略支援部队航天工程大学 | 一种装备作战试验鉴定指标体系构建方法 |
CN112102073A (zh) * | 2020-09-27 | 2020-12-18 | 长安汽车金融有限公司 | 信贷风险控制方法及系统、电子设备及可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111585A (zh) * | 2023-09-08 | 2023-11-24 | 广东工业大学 | 基于容差子关系粗糙集的数控机床健康状态预测方法 |
CN117111585B (zh) * | 2023-09-08 | 2024-02-09 | 广东工业大学 | 基于容差子关系粗糙集的数控机床健康状态预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115375456B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160473A (zh) | 一种分类标签的特征挖掘方法及装置 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN112381154A (zh) | 预测用户概率的方法、装置和计算机设备 | |
CN113837859B (zh) | 一种小微企业画像构建方法 | |
CN110609904A (zh) | 图数据库数据处理方法、装置、电子设备及存储介质 | |
CN114187120A (zh) | 一种车险理赔欺诈风险识别方法及装置 | |
CN110634060A (zh) | 一种用户信用风险的评估方法、系统、装置及存储介质 | |
CN111738762A (zh) | 不良资产回收价的确定方法、装置、设备和存储介质 | |
CN110796485A (zh) | 一种提高预测模型的预测精度的方法及装置 | |
CN113052225A (zh) | 基于聚类算法和时序关联规则的报警收敛方法及装置 | |
CN110609870A (zh) | 分布式数据处理方法、装置、电子设备及存储介质 | |
CN113537960A (zh) | 一种异常资源转移链路的确定方法、装置和设备 | |
CN115375456A (zh) | 用于信贷风险评估的数据处理方法、装置、设备及介质 | |
CN112184412A (zh) | 一种信用评分卡模型的建模方法、装置、介质及电子设备 | |
CN111652430A (zh) | 一种互联网金融平台违约率的预测方法及系统 | |
Wu et al. | An uncertainty-oriented cost-sensitive credit scoring framework with multi-objective feature selection | |
CN113656707A (zh) | 一种理财产品推荐方法、系统、存储介质及设备 | |
CN112801784A (zh) | 一种数字货币交易所的比特币地址挖掘方法及装置 | |
CN117437001A (zh) | 目标对象的指标数据处理方法、装置及计算机设备 | |
Liu et al. | Multiangle p2p borrower characterization analytics by attributes partition considering business process | |
CN115619539A (zh) | 贷前风险评价方法以及装置 | |
CN115860924A (zh) | 供应链金融信用风险预警方法及相关设备 | |
CN115345248A (zh) | 一种面向深度学习的数据去偏方法及装置 | |
Himani et al. | A comparative study on machine learning based prediction of citations of articles | |
JP2022154862A (ja) | 情報処理方法、プログラム及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |