CN112396507A

CN112396507A - 基于阴影划分的集成svm个人信用评估方法

Info

Publication number: CN112396507A
Application number: CN202010903303.XA
Authority: CN
Inventors: 张清华; 陈于思; 艾志华; 高满; 赵凡; 张沫
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2021-02-23

Abstract

本发明涉及信用监测技术领域，具体涉及一种基于阴影划分的集成SVM个人信用评估方法，包括：对训练数据进行预处理，进行特征选择，识别边界样本并对样本空间进行阴影划分，对训练数据进行采样，形成多组训练集以训练集成SVM模型，将待预测样本输入到训练好的集成SVM预测模型中，训练好的集成SVM预测模型通过m个基分类器投票的方式对待预测样本进行分类，每个基分类器投1票，所有基分类器投票完毕后，将待预测样本分到投票数最多的类中，输出信用评级，同时将数据存入数据库中。本发明对用户的信用评分进行科学的预测与评估，通过有效特征与样本的提取和筛选，有效提高用户信用监测的精度，有利于有效降低信贷或金融企业的信贷风险。

Description

基于阴影划分的集成SVM个人信用评估方法

技术领域

本发明涉及信用监测技术领域，具体涉及一种基于阴影划分的集成SVM个人信用评估方法。

背景技术

近两年信贷类业务发展迅猛，P2P网贷为投资者和筹资者提供了便捷的信息平台，得到巨大发展。但是，信贷行业中存在着借款方因各种原因不愿或无力履行合同条件而构成违约，致使银行、投资者或交易对方遭受损失的可能性，存在一定信用风险。因此，信用风险管理逐渐成为各大金融机构研究的一大热点，良好的信用评估方法是其避免信用风险，得以进一步发展的保证。

目前，通过智能数据挖掘算法对信用数据进行处理从而得到用评估是现在及未来的发展方向。数据挖掘中有两种通用的分类方法。第一种分类方法是基于实例的惰性学习，例如k最近邻(KNN)。这种懒惰的学习没有训练阶段。简单地将新实例与现有实例进行比较，并选择k个最近的邻居进行分类。这种方法的模型储存需求较大。另一种是基于模型的学习，例如决策树、规则集、神经网络和支持向量机(SVM)。这些方法在训练集上建立分类器，在忽略训练集的同时使用该分类器对新实例进行分类。基于模型的学习的优点包括模型的存储需求低和分类的时间复杂度低，但其需要额外的训练时间。支持向量机(SVM)通过对分类器进行集成，其分类精度可以得到额外提升，将SVM应用于信用风险评价中相比于其他模型,该方法分类性能具有一定优越性，但对于SVM而言，此类算法训练时间较长，如何提高基于SVM的集成分类模型的训练效率同时保留其对信用评分数据的分类精度甚至提高其分类精度是一个重要研究点。

发明内容

为了解决上述问题，本发明提供一种基于阴影划分的集成SVM个人信用评估方法。

一种基于阴影划分的集成SVM个人信用评估方法，包括以下步骤：

将待预测样本输入到训练好的SVM预测模型中，训练好的SVM预测模型通过m个基分类器投票的方式对待预测样本进行分类，每个基分类器投1票，所有基分类器投票完毕后，将待预测样本分到投票数最多的类中，输出信用评级，同时将数据存入数据库中；

其中训练好的SVM预测模型采用以下方式获取：

S1、获取原始数据，从原始数据中选择对预测有关联的特征，得到特征集合；

S2、对特征集合进行预处理，得到预处理后的特征集合；

S3、使用基于邻域粗糙集的特征选择算法从预处理后的特征集合中选择最优特征子集；

S4、构建邻域粗糙隶属度函数；

S5、通过邻域粗糙隶属度函数计算每个类簇中对应对象的隶属度值，将每个类簇中的对象的隶属状态模糊化，在模糊化后，每个类簇都会形成一个模糊集，然后根据模糊集构建阴影集；

S6、通过阴影集映射的方式将每个类簇划分为三个不相交区域，分别为 elevated域、reduced域和shadow域；

S7、通过从elevated域、reduced域和shadow域中采样获取m个训练集，将 m个训练集分别输入SVM预测模型进行训练，训练结束后，得到训练好的SVM 预测模型，训练好的SVM预测模型中包括m个基分类器{s₁,s₂,...,s_m}。

进一步的，基于邻域粗糙集的特征选择算法的步骤包括：

S31、在训练集上计算每个特征的重要度，并对每个特征的重要度排序，得到特征重要度序列；

S32、从特征重要度序列中选择最大值；

S33、判断：若特征重要度序列中的最大值SIG(a,reduct,D)大于设定的阈值ε，即SIG(a,reduct,D)＞ε，则将该特征重要度最大值SIG(a,reduct,D)从特征重要度序列中删除，并将特征重要度最大值所对应的特征a筛选出来放入已选择的特征集合中，即令reduct＝a∪reduct，返回执行步骤S31-S33；若特征重要度序列中的最大值SIG(a，reduct，D)小于设定的阈值ε，则结束算法；其中，a为本轮中特征重要度最大的特征，reduct为已选择特征的集合。

进一步的，通过阴影集映射的方式将每个类簇划分为三个不相交区域，分别为elevated域、reduced域和shadow域，具体包括：给定一个类簇X_l，l为由决策属性值(标签)决定的类别，d_l为类别l的样本的决策属性值。类簇X_l中的对象集合为X_l＝{x₁，x₂，...x_n}，对于任一对象x_i∈X_l，判断x_i属于类X_l的隶属度

若

则将对象x_i划分到类簇X_l的elevated域，若

则对象x_i被划分到类簇X_l的reduced域，若

则对象x_i被划分到类簇X_l的 shadow域，划分表达式如下所示：

其中，(α，β)为一对阈值，且满足β＝1-α，SP_α(x_i)表示对x_i的阴影划分，

为x_i属于类簇X_l的隶属度，当

时其隶属度会被映射为1，当

时其隶属度会被映射为0，当

时其隶属度会被映射为一个区间值[0，1]。进一步的，从elevated域、reduced域和shadow域中选取m 个训练集包括：将每个类簇的shadow域取并集作为shadow域训练集X^shadow；对每个类簇的elevated域进行随机抽样，从每个类簇的elevated域中随机抽取

个样本，并将从各个类簇的elevated域中抽样所得的样本取并集，得到随机样本集合X^elevated，其中s^*为采样数，

表示类别为l的样本集合的elevated域，

表示各个类簇elevated域的并集的样本数，L为由决策属性(标签)决定的类别数，k∈[0，1]为采样率，若该类簇的样本数不足s^*，则取该类簇的所有样本；从随机样本集合X^elevated中进行m次有放回的随机抽样，得到elevated域训练集{X^elevated_1，X^elevated_2，...，X^elevated_m}，其中X^elevated_m表示第m次随机抽样所得的elevated域训练集子集；将elevated域训练集中的每个子集分别与shadow域训练集X^shadow求并集，得到m个训练集，表达式如下所示：

其中，

表示第1个训练集，

表示第m个训练集。

进一步的，邻域粗糙隶属函数的表达式如下：

其中，

为样本x_i属于类簇X_l的隶属度，X_l为决策属性为d_l的所有样本的集合，δ_B(x_i)为对象x_i的邻域，I(X_l，δ_B(x_i))为邻域δ_B(x_i)在X_l中的包含度。

进一步的，包含度的计算公式如下：

其中，

分别为两个样本集合，Card(X₁)表示集合X₁中样本的个数，I(X₁，X₂)表示X₁在X₂中的包含度，

表示空集。

有益效果：

1、本发明方法对用户的信用评分进行科学的预测与评估，通过有效特征的提取和筛选，有效提高用户信用监测的精度，有利于有效降低信贷或金融企业的信贷风险。

2、本发明使用基于阴影划分算法，识别边界样本，生成多个样本子集作为训练集，将该训练集用于基分类器的训练，基分类器输出分类结果，最后将分类结果进行集成，结合来自不同侧面的信息可以显著提升分类算法的分类精度。

3、本发明使用基于阴影划分算法，不仅减少了训练集的规模提升了训练效率，还去除了部分噪声数据提升了算法稳定性。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明，附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明实施例的一种基于阴影划分的集成SVM个人信用评估方法流程图；

图2为本发明实施例的一种基于阴影划分的集成SVM个人信用评估方法的 SVM预测模型训练流程图；

图3为本发明实施例的一种基于阴影划分的集成SVM个人信用评估方法 SVM预测模型测试流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于阴影划分的集成SVM个人信用评估方法，包括但不限于如下过程：

信用评分系统的主要功能是实现信用评分的高度自动化和标准化，实现对客户基本信息和信用评估信息的维护，方便用户随时在线申请信用评估；由此该信用评分系统的基本流程可以描述为：申请者将个人基本信息及相关证明材料等提交给业务部门，业务部门对申请者提交的信息进行核实，如情况属实，则将信息移交到评估部门，否则退回申请者并说明情况。评估部门将上报的数据录入企业数据库中，信用评分系统从企业数据库中获取原始数据，并综合各方面评级因素生成评估结论，反馈至申请者和业务部门。

获取数据：信用评分系统从企业数据库中采集数据，并选择对预测有关联的特征，对预测有关联的特征包括：现有账户状况、支票账户持续时间、信贷历史、贷款金额、在职时间、分期偿付占其可支配收入的百分比、性别及婚姻状况、现居住地以及居住时间、资产情况、年龄、其他分期付款情况、住房情况、本银行信贷次数、家庭成员收入情况、是否为外国人等，收集对预测有关联的特征，得到特征集合。

如图2所示，将特征集合进行预处理，即将不同属性指标下所得到的数值型特征值进行标准化归一处理，从而使得不同属性指标下的数值量纲相同，并对有缺失值的训练样本进行删除操作，得到预处理后的特征集合。

使用基于邻域粗糙集的特征选择算法从预处理后的特征集合中出选择出最优特征子集。

在一个实施例中，基于邻域粗糙集的特征选择算法的步骤包括：

(1)在训练集上计算每个待选特征的重要度，并对每个待选特征的重要度进行排序，得到特征重要度序列；

(2)从特征重要度序列中选择最大值SIG(a，reduct，D)；

(3)判断：若特征重要度序列中的最大值SIG(a，reduct，D)大于设定的阈值ε，即SIG(a，reduct，D)＞ε，则将该特征重要度最大值SIG(a，reduct，D)从特征重要度序列中删除，并将特征重要度最大值所对应的特征a筛选出来放入已选择的特征集合中，即令reduct＝a∪reduct，返回执行上述步骤(1)(2)(3)；若特征重要度序列中的最大值小于设定的阈值，则结束算法。其中，a为本轮中特征重要度最大的特征，reduct为已选择特征的集合。

进一步的，在一个实施例中，在特征集合B下决策D的上下近似集分别为：

其中，N_B D表示在特征集合B下决策D的下近似集，

表示在特征集合B 下决策D的上近似集，N_B X表示在特征集合B下集合X的下近似集，且

U为论域，

表示在特征集合B下集合X的上近似集，且

δ_B(x_i)为在特征集合B下样本x_i的邻域，X表示一个样本集合，且

表示各个类的下近似集的并。

通过计算决策D对条件属性的依赖度，可以为计算属性重要度提供支持，决策D对条件属性B的依赖度计算方法如下：

其中，γ(B，D)表示决策D对条件属性B的依赖度，U表示论域，|U|表示论域中样本的个数，L表示类的个数，N_B X_i表示类X_i的下近似集，

表示各个类的下近似集的并。

决策D对条件属性B的重要度的计算：

SIG(a，B，D)＝γ_B∪a(D)-γ_B(D)

其中，SIG(a，B，D)表示待选属性a在已有属性集合B的条件下对决策D的重要度，a表示待选属性，D为决策，B为已选择的条件属性的子集，γ_B∪a(D)表示在已有属性集合B的基础上加入属性a后决策D对所选择的条件属性集合B∪a的依赖程度，γ_B(D)表示决策D对已有属性集合B的依赖程度，γ_B∪a(D)-γ_B(D)越大说明待选属性a的重要程度越高。

构建邻域粗糙隶属度函数：样本对于一个类有不同程度的隶属程度。为了寻找一个类中样本之间的差异，首先需要使用隶属度函数对类成员进行映射，将类成员属于某个类的程度从0或1映射到[0，1]，以完成模糊化，将类的清晰表示转化为模糊表示。本发明创造中一个对象属于某个类簇的隶属度由包含度决定，例如：给定一个X_l为决策属性值为d_l的样本的集合，一个对象x_i及其邻域 δ_B(x_i)，则对象x_i隶属于类簇X_l的程度则为X_l包含δ_B(x_i)的程度，包含程度越高 x_i隶属于类X^l的程度越大。

邻域粗糙隶属函数定义如下：

其中，

为样本x_i属于类簇X_l的隶属度，X_l为决策属性值为d_l的所有样本的集合，δ_B(x_i)为对象x_i的邻域，I(X_l，δ_B(x_i))为邻域δ_B(x_i)在X_l中的包含度。

包含度的计算公式如下：

其中，

分别为两个样本集合，Card(Ω)表示集合Ω中样本的个数，集合Ω为X₁∩X₂或X₁，I(X₁，X₂)表示X₁在X₂中的包含度，

表示空集。

将各类簇中的对象进行模糊化：通过上述邻域粗糙隶属度函数计算每个类簇中所有对象属于该类簇的隶属度值，计算后对象隶属于某个类簇不再是映射前的非0即1的表达形式了，而是以一个属于0到1之间的具体数值进行表示，以此种方式将每个类簇中对象的隶属度映射到μ∈[0，1]，这时一个类簇中的对象间的差异性则被刻画出来。在模糊化后，每个类簇都会形成一个模糊集，根据模糊集的隶属度函数集合，使用下文将提到的映射函数进行映射，隶属度从多值映射到三值{0，[0，1]，1}以形成阴影集。

通过阴影集映射的方式将每个类簇进行阴影划分：每个类簇的样本被模糊化后，为了更方便决策，将各类簇中的对象进行阴影表示，根据训练集中每个类簇中对象隶属于该类的隶属度对每个类簇进行阴影划分。例如给定一个类簇 X_l，类簇X_l中的对象集合为X_l＝{x₁，x₂，...x_n}，对于任一对象x_i∈X_l，判断x_i属于类 X_l的隶属度

若

则将对象x_i划分到类簇X_l的elevated域，若

则对象x_i被划分到类簇X_l的reduced域，若β＜μ_A(x_i)＜α，则对象x_i被划分到类簇X_l的shadow域。为了方便我们假设α+β＝1。

对一个类簇进行阴影划分的映射函数如下：

为x_i属于类X_l的隶属度，当

时其隶属度会被映射为1，当

时其隶属度会被映射为0，当

时其隶属度会被映射为一个区间值[0，1]。

对于任意一个类簇，通过阴影集映射的方式将一个类簇划分为三个不可相交区域，分别为elevated域、reduced域和shadow域。elevated域中的样本离决策边界较远，对训练SVM的超平面贡献程度有限，可能只有较少的支持向量会从中产生，故对elevated域中的样本进行有放回的随机抽样，生成多组样本集。 reduced域中的样本离类簇中心较远，有很大可能为噪声点，故也不加入SVM 的训练过程。shadow域中对象处于决策边界附近，这部分样本将全部用于进行支持向量机的训练，这样可以大幅减少训练时间同时对支持向量机的分类性能不产生太大影响，并且在有噪声数据环境下，其分类性能相较使用原始数据，更具有优越性。

阈值对(α，1-α)的求解可以转化为对一个目标函数的优化问题，即对如下公式进行求解：

其中，

表示用阴影集对模糊集映射后熵产生的变化，

为x_i属于类簇X_l的隶属度，e^*(EVT)表示elevated域的熵的变化，e^*(RDU)表示reduced 域的熵的变化，e^*(SHD)表示shadow域的熵的变化，η为一个可调参数参数，控制shadow域对象数量，η越大shadow域对象数量越少，η越小shadow域对象数量越多。通过上述方法将各个类簇的三个域求出，将各个类簇的shadow域取并集作为shadow域训练集X^shadow；对每个类簇的elevated域进行随机抽样，从每个类簇的elevated域中随机抽取

个样本，并将从各个类簇的 elevated域中抽样所得的样本取并集，得到随机样本集合X^elevated，其中s^*为采样数，

表示类别为l的样本集合的elevated域，

表示各个类簇 elevated域的并集的样本数，L为由决策属性决定的类别数(在本实施例中类别数为2)，k∈[0,1]为采样率，若该类簇的样本数不足s^*，则取该类簇的所有样本；从随机样本集合X^elevated中进行m次有放回的随机抽样，得到elevated域训练集 {X^elevated_1,X^elevated_2,...,X^elevated_m}，其中X^elevated_m表示第m次随机抽样所得的 elevated域训练集子集；将elevated域训练集中的每个子集分别与shadow域训练集X^shadow求并集，得到m个训练集，表达式如下所示：

其中，

表示第1个训练集，

表示第m个训练集。

使用生成的m个训练集

分别输入SVM预测模型中进行训练，最后得到训练好的SVM预测模型，训练好的SVM预测模型中包括m个基分类器{s₁，δ₂，...，s_m}。

如图3所示，将待预测样本分别输入训练好的m个基分类器{s₁，s₂，...，s_m}中，通过投票完成最后的分类，每个基分类器有1票，所有基分类器决策完毕后，将待分类样本分到票数最多的类中，在本发明的信用评级为好或坏，预测结果用于做出决策，同时存入数据库。

当介绍本申请的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述” 都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于阴影划分的集成SVM个人信用评估方法，其特征在于，包括以下步骤：

其中训练好的SVM预测模型采用以下方式获取：

获取原始数据，从原始数据中选择对预测有关联的特征，得到特征集合；

对特征集合进行预处理，得到预处理后的特征集合；

使用基于邻域粗糙集的特征选择算法从预处理后的特征集合中选择最优特征子集；

构建邻域粗糙隶属度函数；

通过邻域粗糙隶属度函数计算每个类簇中对应对象的隶属度值，将每个类簇中的对象的隶属状态模糊化，在模糊化后，每个类簇都会形成一个模糊集，然后根据模糊集构建阴影集；

通过阴影集映射的方式将每个类簇划分为三个不相交区域，分别为elevated域、reduced域和shadow域；

通过从elevated域、reduced域和shadow域中采样获取m个训练集，将m个训练集分别输入SVM预测模型进行训练，训练结束后，得到训练好的SVM预测模型，训练好的SVM预测模型中包括m个基分类器{s₁,s₂,...,s_m}。

2.根据权利要求1所述的一种基于阴影划分的集成SVM个人信用评估方法，其特征在于，基于邻域粗糙集的特征选择算法的步骤包括：

S32、从特征重要度序列中选择最大值；

S33、判断：若特征重要度序列中的最大值SIG(a,reduct,D)大于设定的阈值ε，即SIG(a,reduct,D)＞ε，则将该特征重要度最大值SIG(a,reduct,D)从特征重要度序列中删除，并将特征重要度最大值所对应的特征a筛选出来放入已选择的特征集合中，即令reduct＝a∪reduct，返回执行步骤S31-S33；若特征重要度序列中的最大值SIG(a,reduct,D)小于设定的阈值ε，则结束算法；其中，a为本轮中特征重要度最大的特征，reduct为已选择特征的集合。

3.根据权利要求1所述的一种基于阴影划分的集成SVM个人信用评估方法，其特征在于，通过阴影集映射的方式将每个类簇划分为三个不相交区域，分别为elevated域、reduced域和shadow域，具体包括：给定一个类簇X_l，l为由决策属性值决定的类别，d_l为类别l的样本的决策属性值，类簇X_l中的对象集合为X_l＝{x₁,x₂,...x_n}，对于任一对象x_i∈X_l，判断x_i属于类X_l的隶属度

若

则将对象x_i划分到类簇A的elevated域，若

则对象x_i被划分到类簇X_l的reduced域，若

则对象x_i被划分到类簇X_l的shadow域，划分表达式如下所示：

为x_i属于类簇X_l的隶属度，当

时其隶属度会被映射为1，当

时其隶属度会被映射为0，当

时其隶属度会被映射为一个区间值[0,1]。

4.根据权利要求1所述的一种基于阴影划分的集成SVM个人信用评估方法，其特征在于，从elevated域、reduced域和shadow域中选取m个训练集包括：将每个类簇的shadow域取并集作为shadow域训练集X^shadow；对每个类簇的elevated域进行随机抽样，从每个类簇的elevated域中随机抽取

表示类别为l的样本集合的elevated域，

表示各个类簇elevated域的并集的样本数，L为由决策属性决定的类别数，k∈[0,1]为采样率，若该类簇的样本数不足s^*，则取该类簇的所有样本；从随机样本集合X^elevated中进行m次有放回的随机抽样，得到elevated域训练集{X^elevated ^_1,X^elevated_2,...,X^elevated_m}，其中X^elevated_m表示第m次随机抽样所得的elevated域训练集子集；将elevated域训练集中的每个子集分别与shadow域训练集X^shadow求并集，得到m个训练集，表达式如下所示：

其中，

表示第1个训练集，

表示第m个训练集。

5.根据权利要求1所述的一种基于阴影划分的集成SVM个人信用评估方法，其特征在于，邻域粗糙隶属函数的表达式如下：

μ_Xl(x_i)＝I(X_l,δ_B(x_i))

其中，μ_Xl(x_i)为样本x_i属于类簇X_l的隶属度，X_l为决策属性为d_l的所有样本的集合，δ_B(x_i)为对象x_i的邻域，I(X_l,δ_B(x_i))为邻域δ_B(x_i)在X_l中的包含度。

6.根据权利要求5所述的一种基于阴影划分的集成SVM个人信用评估方法，其特征在于，包含度的计算公式如下：

其中，

分别为两个样本集合，Card(X₁)表示集合X₁中样本的个数，I(X₁,X₂)表示X₁在X₂中的包含度，

表示空集。