CN112396507A - 基于阴影划分的集成svm个人信用评估方法 - Google Patents

基于阴影划分的集成svm个人信用评估方法 Download PDF

Info

Publication number
CN112396507A
CN112396507A CN202010903303.XA CN202010903303A CN112396507A CN 112396507 A CN112396507 A CN 112396507A CN 202010903303 A CN202010903303 A CN 202010903303A CN 112396507 A CN112396507 A CN 112396507A
Authority
CN
China
Prior art keywords
shadow
class
feature
samples
elevated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010903303.XA
Other languages
English (en)
Inventor
张清华
陈于思
艾志华
高满
赵凡
张沫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010903303.XA priority Critical patent/CN112396507A/zh
Publication of CN112396507A publication Critical patent/CN112396507A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信用监测技术领域,具体涉及一种基于阴影划分的集成SVM个人信用评估方法,包括:对训练数据进行预处理,进行特征选择,识别边界样本并对样本空间进行阴影划分,对训练数据进行采样,形成多组训练集以训练集成SVM模型,将待预测样本输入到训练好的集成SVM预测模型中,训练好的集成SVM预测模型通过m个基分类器投票的方式对待预测样本进行分类,每个基分类器投1票,所有基分类器投票完毕后,将待预测样本分到投票数最多的类中,输出信用评级,同时将数据存入数据库中。本发明对用户的信用评分进行科学的预测与评估,通过有效特征与样本的提取和筛选,有效提高用户信用监测的精度,有利于有效降低信贷或金融企业的信贷风险。

Description

基于阴影划分的集成SVM个人信用评估方法
技术领域
本发明涉及信用监测技术领域,具体涉及一种基于阴影划分的集成SVM个 人信用评估方法。
背景技术
近两年信贷类业务发展迅猛,P2P网贷为投资者和筹资者提供了便捷的信息 平台,得到巨大发展。但是,信贷行业中存在着借款方因各种原因不愿或无力 履行合同条件而构成违约,致使银行、投资者或交易对方遭受损失的可能性, 存在一定信用风险。因此,信用风险管理逐渐成为各大金融机构研究的一大热 点,良好的信用评估方法是其避免信用风险,得以进一步发展的保证。
目前,通过智能数据挖掘算法对信用数据进行处理从而得到用评估是现在 及未来的发展方向。数据挖掘中有两种通用的分类方法。第一种分类方法是基 于实例的惰性学习,例如k最近邻(KNN)。这种懒惰的学习没有训练阶段。简 单地将新实例与现有实例进行比较,并选择k个最近的邻居进行分类。这种方 法的模型储存需求较大。另一种是基于模型的学习,例如决策树、规则集、神 经网络和支持向量机(SVM)。这些方法在训练集上建立分类器,在忽略训练集 的同时使用该分类器对新实例进行分类。基于模型的学习的优点包括模型的存 储需求低和分类的时间复杂度低,但其需要额外的训练时间。支持向量机(SVM)通过对分类器进行集成,其分类精度可以得到额外提升,将SVM应用于信用风 险评价中相比于其他模型,该方法分类性能具有一定优越性,但对于SVM而言, 此类算法训练时间较长,如何提高基于SVM的集成分类模型的训练效率同时保 留其对信用评分数据的分类精度甚至提高其分类精度是一个重要研究点。
发明内容
为了解决上述问题,本发明提供一种基于阴影划分的集成SVM个人信用评 估方法。
一种基于阴影划分的集成SVM个人信用评估方法,包括以下步骤:
将待预测样本输入到训练好的SVM预测模型中,训练好的SVM预测模型 通过m个基分类器投票的方式对待预测样本进行分类,每个基分类器投1票, 所有基分类器投票完毕后,将待预测样本分到投票数最多的类中,输出信用评 级,同时将数据存入数据库中;
其中训练好的SVM预测模型采用以下方式获取:
S1、获取原始数据,从原始数据中选择对预测有关联的特征,得到特征集 合;
S2、对特征集合进行预处理,得到预处理后的特征集合;
S3、使用基于邻域粗糙集的特征选择算法从预处理后的特征集合中选择最 优特征子集;
S4、构建邻域粗糙隶属度函数;
S5、通过邻域粗糙隶属度函数计算每个类簇中对应对象的隶属度值,将每 个类簇中的对象的隶属状态模糊化,在模糊化后,每个类簇都会形成一个模糊 集,然后根据模糊集构建阴影集;
S6、通过阴影集映射的方式将每个类簇划分为三个不相交区域,分别为 elevated域、reduced域和shadow域;
S7、通过从elevated域、reduced域和shadow域中采样获取m个训练集,将 m个训练集分别输入SVM预测模型进行训练,训练结束后,得到训练好的SVM 预测模型,训练好的SVM预测模型中包括m个基分类器{s1,s2,...,sm}。
进一步的,基于邻域粗糙集的特征选择算法的步骤包括:
S31、在训练集上计算每个特征的重要度,并对每个特征的重要度排序,得 到特征重要度序列;
S32、从特征重要度序列中选择最大值;
S33、判断:若特征重要度序列中的最大值SIG(a,reduct,D)大于设定的阈值ε, 即SIG(a,reduct,D)>ε,则将该特征重要度最大值SIG(a,reduct,D)从特征重要度序列 中删除,并将特征重要度最大值所对应的特征a筛选出来放入已选择的特征集合 中,即令reduct=a∪reduct,返回执行步骤S31-S33;若特征重要度序列中的最大 值SIG(a,reduct,D)小于设定的阈值ε,则结束算法;其中,a为本轮中特征重要度 最大的特征,reduct为已选择特征的集合。
进一步的,通过阴影集映射的方式将每个类簇划分为三个不相交区域,分 别为elevated域、reduced域和shadow域,具体包括:给定一个类簇Xl,l为由 决策属性值(标签)决定的类别,dl为类别l的样本的决策属性值。类簇Xl中的 对象集合为Xl={x1,x2,...xn},对于任一对象xi∈Xl,判断xi属于类Xl的隶属度
Figure BDA0002660511830000038
Figure BDA0002660511830000039
则将对象xi划分到类簇Xl的elevated域,若
Figure BDA0002660511830000037
则对象xi被划分到类簇Xl的reduced域,若
Figure BDA00026605118300000310
则对象xi被划分到类簇Xl的 shadow域,划分表达式如下所示:
Figure BDA0002660511830000031
其中,(α,β)为一对阈值,且满足β=1-α,SPα(xi)表示对xi的阴影划分,
Figure BDA00026605118300000311
为xi属于类簇Xl的隶属度,当
Figure BDA00026605118300000312
时其隶属度会被映射为1,当
Figure BDA00026605118300000313
时其隶属度会被映射为0,当
Figure BDA00026605118300000314
时其隶属度会被映射 为一个区间值[0,1]。进一步的,从elevated域、reduced域和shadow域中选取m 个训练集包括:将每个类簇的shadow域取并集作为shadow域训练集Xshadow;对 每个类簇的elevated域进行随机抽样,从每个类簇的elevated域中随机抽取
Figure BDA0002660511830000032
个样本,并将从各个类簇的elevated域中抽样所得的样本取并 集,得到随机样本集合Xelevated,其中s*为采样数,
Figure BDA0002660511830000033
表示类别为l的样本集 合的elevated域,
Figure BDA0002660511830000034
表示各个类簇elevated域的并集的样本数,L为由决策属性(标签)决定的类别数,k∈[0,1]为采样率,若该类簇的样本数不足s*, 则取该类簇的所有样本;从随机样本集合Xelevated中进行m次有放回的随机抽样, 得到elevated域训练集{Xelevated_1,Xelevated_2,...,Xelevated_m},其中Xelevated_m表示第m次 随机抽样所得的elevated域训练集子集;将elevated域训练集中的每个子集分别 与shadow域训练集Xshadow求并集,得到m个训练集,表达式如下所示:
Figure BDA0002660511830000041
其中,
Figure BDA0002660511830000042
表示第1个训练集,
Figure BDA0002660511830000043
表示第m个训练集。
进一步的,邻域粗糙隶属函数的表达式如下:
Figure BDA0002660511830000045
其中,
Figure BDA0002660511830000046
为样本xi属于类簇Xl的隶属度,Xl为决策属性为dl的所有样 本的集合,δB(xi)为对象xi的邻域,I(Xl,δB(xi))为邻域δB(xi)在Xl中的包含度。
进一步的,包含度的计算公式如下:
Figure BDA0002660511830000044
其中,
Figure BDA0002660511830000047
分别为两个样本集合,Card(X1)表示集合X1中样本的 个数,I(X1,X2)表示X1在X2中的包含度,
Figure BDA0002660511830000048
表示空集。
有益效果:
1、本发明方法对用户的信用评分进行科学的预测与评估,通过有效特征的 提取和筛选,有效提高用户信用监测的精度,有利于有效降低信贷或金融企业 的信贷风险。
2、本发明使用基于阴影划分算法,识别边界样本,生成多个样本子集作为 训练集,将该训练集用于基分类器的训练,基分类器输出分类结果,最后将分 类结果进行集成,结合来自不同侧面的信息可以显著提升分类算法的分类精度。
3、本发明使用基于阴影划分算法,不仅减少了训练集的规模提升了训练效 率,还去除了部分噪声数据提升了算法稳定性。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明,附图仅用于 示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明实施例的一种基于阴影划分的集成SVM个人信用评估方法流 程图;
图2为本发明实施例的一种基于阴影划分的集成SVM个人信用评估方法的 SVM预测模型训练流程图;
图3为本发明实施例的一种基于阴影划分的集成SVM个人信用评估方法 SVM预测模型测试流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于阴影划分的集成SVM个人信用评估方法,包括但不 限于如下过程:
信用评分系统的主要功能是实现信用评分的高度自动化和标准化,实现对 客户基本信息和信用评估信息的维护,方便用户随时在线申请信用评估;由此 该信用评分系统的基本流程可以描述为:申请者将个人基本信息及相关证明材 料等提交给业务部门,业务部门对申请者提交的信息进行核实,如情况属实, 则将信息移交到评估部门,否则退回申请者并说明情况。评估部门将上报的数 据录入企业数据库中,信用评分系统从企业数据库中获取原始数据,并综合各 方面评级因素生成评估结论,反馈至申请者和业务部门。
获取数据:信用评分系统从企业数据库中采集数据,并选择对预测有关联 的特征,对预测有关联的特征包括:现有账户状况、支票账户持续时间、信贷 历史、贷款金额、在职时间、分期偿付占其可支配收入的百分比、性别及婚姻 状况、现居住地以及居住时间、资产情况、年龄、其他分期付款情况、住房情 况、本银行信贷次数、家庭成员收入情况、是否为外国人等,收集对预测有关 联的特征,得到特征集合。
如图2所示,将特征集合进行预处理,即将不同属性指标下所得到的数值 型特征值进行标准化归一处理,从而使得不同属性指标下的数值量纲相同,并 对有缺失值的训练样本进行删除操作,得到预处理后的特征集合。
使用基于邻域粗糙集的特征选择算法从预处理后的特征集合中出选择出最 优特征子集。
在一个实施例中,基于邻域粗糙集的特征选择算法的步骤包括:
(1)在训练集上计算每个待选特征的重要度,并对每个待选特征的重要度进 行排序,得到特征重要度序列;
(2)从特征重要度序列中选择最大值SIG(a,reduct,D);
(3)判断:若特征重要度序列中的最大值SIG(a,reduct,D)大于设定的阈值ε, 即SIG(a,reduct,D)>ε,则将该特征重要度最大值SIG(a,reduct,D)从特征重要度序列 中删除,并将特征重要度最大值所对应的特征a筛选出来放入已选择的特征集合 中,即令reduct=a∪reduct,返回执行上述步骤(1)(2)(3);若特征重要度序 列中的最大值小于设定的阈值,则结束算法。其中,a为本轮中特征重要度最大 的特征,reduct为已选择特征的集合。
进一步的,在一个实施例中,在特征集合B下决策D的上下近似集分别为:
Figure BDA0002660511830000061
Figure BDA0002660511830000062
其中,NB D表示在特征集合B下决策D的下近似集,
Figure RE-GDA0002879002860000063
表示在特征集合B 下决策D的上近似集,NB X表示在特征集合B下集合X的下近似集,且
Figure RE-GDA0002879002860000064
U为论域,
Figure RE-GDA0002879002860000065
表示在特征集合B下集合X的上近 似集,且
Figure RE-GDA0002879002860000066
δB(xi)为在特征集合B下样本xi的邻域,X表示一个样本集合,且
Figure RE-GDA0002879002860000071
表示各个类的下近似集的并。
通过计算决策D对条件属性的依赖度,可以为计算属性重要度提供支持,决 策D对条件属性B的依赖度计算方法如下:
Figure BDA0002660511830000072
其中,γ(B,D)表示决策D对条件属性B的依赖度,U表示论域,|U|表示论 域中样本的个数,L表示类的个数,NB Xi表示类Xi的下近似集,
Figure BDA0002660511830000073
表示 各个类的下近似集的并。
决策D对条件属性B的重要度的计算:
SIG(a,B,D)=γB∪a(D)-γB(D)
其中,SIG(a,B,D)表示待选属性a在已有属性集合B的条件下对决策D的重要 度,a表示待选属性,D为决策,B为已选择的条件属性的子集,γB∪a(D)表示在 已有属性集合B的基础上加入属性a后决策D对所选择的条件属性集合B∪a的 依赖程度,γB(D)表示决策D对已有属性集合B的依赖程度,γB∪a(D)-γB(D)越大 说明待选属性a的重要程度越高。
构建邻域粗糙隶属度函数:样本对于一个类有不同程度的隶属程度。为了 寻找一个类中样本之间的差异,首先需要使用隶属度函数对类成员进行映射, 将类成员属于某个类的程度从0或1映射到[0,1],以完成模糊化,将类的清晰表 示转化为模糊表示。本发明创造中一个对象属于某个类簇的隶属度由包含度决 定,例如:给定一个Xl为决策属性值为dl的样本的集合,一个对象xi及其邻域 δB(xi),则对象xi隶属于类簇Xl的程度则为Xl包含δB(xi)的程度,包含程度越高 xi隶属于类Xl的程度越大。
邻域粗糙隶属函数定义如下:
Figure BDA0002660511830000075
其中,
Figure BDA0002660511830000076
为样本xi属于类簇Xl的隶属度,Xl为决策属性值为dl的所有 样本的集合,δB(xi)为对象xi的邻域,I(Xl,δB(xi))为邻域δB(xi)在Xl中的包含度。
包含度的计算公式如下:
Figure BDA0002660511830000081
其中,
Figure BDA0002660511830000083
分别为两个样本集合,Card(Ω)表示集合Ω中样本的 个数,集合Ω为X1∩X2或X1,I(X1,X2)表示X1在X2中的包含度,
Figure BDA0002660511830000084
表示空集。
将各类簇中的对象进行模糊化:通过上述邻域粗糙隶属度函数计算每个类 簇中所有对象属于该类簇的隶属度值,计算后对象隶属于某个类簇不再是映射 前的非0即1的表达形式了,而是以一个属于0到1之间的具体数值进行表示, 以此种方式将每个类簇中对象的隶属度映射到μ∈[0,1],这时一个类簇中的对象 间的差异性则被刻画出来。在模糊化后,每个类簇都会形成一个模糊集,根据 模糊集的隶属度函数集合,使用下文将提到的映射函数进行映射,隶属度从多 值映射到三值{0,[0,1],1}以形成阴影集。
通过阴影集映射的方式将每个类簇进行阴影划分:每个类簇的样本被模糊 化后,为了更方便决策,将各类簇中的对象进行阴影表示,根据训练集中每个 类簇中对象隶属于该类的隶属度对每个类簇进行阴影划分。例如给定一个类簇 Xl,类簇Xl中的对象集合为Xl={x1,x2,...xn},对于任一对象xi∈Xl,判断xi属于类 Xl的隶属度
Figure BDA0002660511830000085
Figure BDA0002660511830000086
则将对象xi划分到类簇Xl的elevated域,若
Figure BDA0002660511830000087
则对象xi被划分到类簇Xl的reduced域,若β<μA(xi)<α,则对象xi被划分到类簇Xl的shadow域。为了方便我们假设α+β=1。
对一个类簇进行阴影划分的映射函数如下:
Figure BDA0002660511830000082
其中,(α,β)为一对阈值,且满足β=1-α,SPα(xi)表示对xi的阴影划分,
Figure BDA0002660511830000093
为xi属于类Xl的隶属度,当
Figure BDA0002660511830000094
时其隶属度会被映射为1,当
Figure BDA0002660511830000095
时其隶属度会被映射为0,当
Figure BDA0002660511830000096
时其隶属度会被映射 为一个区间值[0,1]。
对于任意一个类簇,通过阴影集映射的方式将一个类簇划分为三个不可相 交区域,分别为elevated域、reduced域和shadow域。elevated域中的样本离决 策边界较远,对训练SVM的超平面贡献程度有限,可能只有较少的支持向量会 从中产生,故对elevated域中的样本进行有放回的随机抽样,生成多组样本集。 reduced域中的样本离类簇中心较远,有很大可能为噪声点,故也不加入SVM 的训练过程。shadow域中对象处于决策边界附近,这部分样本将全部用于进行 支持向量机的训练,这样可以大幅减少训练时间同时对支持向量机的分类性能 不产生太大影响,并且在有噪声数据环境下,其分类性能相较使用原始数据, 更具有优越性。
阈值对(α,1-α)的求解可以转化为对一个目标函数的优化问题,即对如下公式 进行求解:
Figure BDA0002660511830000091
Figure BDA0002660511830000092
其中,
Figure RE-GDA0002879002860000097
表示用阴影集对模糊集映射后熵产生的变化,
Figure RE-GDA0002879002860000098
为xi属于类簇Xl的隶属度,e*(EVT)表示elevated域的熵的变化,e*(RDU)表示reduced 域的熵的变化,e*(SHD)表示shadow域的熵的变化,η为一个可调参数参数,控 制shadow域对象数量,η越大shadow域对象数量越少,η越小shadow域对象数 量越多。通过上述方法将各个类簇的三个域求出,将各个类簇的shadow域取并 集作为shadow域训练集Xshadow;对每个类簇的elevated域进行随机抽样,从每 个类簇的elevated域中随机抽取
Figure RE-GDA0002879002860000101
个样本,并将从各个类簇的 elevated域中抽样所得的样本取并集,得到随机样本集合Xelevated,其中s*为采样 数,
Figure RE-GDA0002879002860000102
表示类别为l的样本集合的elevated域,
Figure RE-GDA0002879002860000103
表示各个类簇 elevated域的并集的样本数,L为由决策属性决定的类别数(在本实施例中类别 数为2),k∈[0,1]为采样率,若该类簇的样本数不足s*,则取该类簇的所有样本; 从随机样本集合Xelevated中进行m次有放回的随机抽样,得到elevated域训练集 {Xelevated_1,Xelevated_2,...,Xelevated_m},其中Xelevated_m表示第m次随机抽样所得的 elevated域训练集子集;将elevated域训练集中的每个子集分别与shadow域训 练集Xshadow求并集,得到m个训练集,表达式如下所示:
Figure BDA0002660511830000104
其中,
Figure BDA0002660511830000105
表示第1个训练集,
Figure BDA0002660511830000106
表示第m个训练集。
使用生成的m个训练集
Figure BDA0002660511830000107
分别输入SVM预测模型中进行 训练,最后得到训练好的SVM预测模型,训练好的SVM预测模型中包括m个 基分类器{s1,δ2,...,sm}。
如图3所示,将待预测样本分别输入训练好的m个基分类器{s1,s2,...,sm}中, 通过投票完成最后的分类,每个基分类器有1票,所有基分类器决策完毕后, 将待分类样本分到票数最多的类中,在本发明的信用评级为好或坏,预测结果 用于做出决策,同时存入数据库。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述” 都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意 味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全 部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序 可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法 实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相 似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。 尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较 简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅 仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不 是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元 和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动 的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术 人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例 进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物 限定。

Claims (6)

1.一种基于阴影划分的集成SVM个人信用评估方法,其特征在于,包括以下步骤:
将待预测样本输入到训练好的SVM预测模型中,训练好的SVM预测模型通过m个基分类器投票的方式对待预测样本进行分类,每个基分类器投1票,所有基分类器投票完毕后,将待预测样本分到投票数最多的类中,输出信用评级,同时将数据存入数据库中;
其中训练好的SVM预测模型采用以下方式获取:
获取原始数据,从原始数据中选择对预测有关联的特征,得到特征集合;
对特征集合进行预处理,得到预处理后的特征集合;
使用基于邻域粗糙集的特征选择算法从预处理后的特征集合中选择最优特征子集;
构建邻域粗糙隶属度函数;
通过邻域粗糙隶属度函数计算每个类簇中对应对象的隶属度值,将每个类簇中的对象的隶属状态模糊化,在模糊化后,每个类簇都会形成一个模糊集,然后根据模糊集构建阴影集;
通过阴影集映射的方式将每个类簇划分为三个不相交区域,分别为elevated域、reduced域和shadow域;
通过从elevated域、reduced域和shadow域中采样获取m个训练集,将m个训练集分别输入SVM预测模型进行训练,训练结束后,得到训练好的SVM预测模型,训练好的SVM预测模型中包括m个基分类器{s1,s2,...,sm}。
2.根据权利要求1所述的一种基于阴影划分的集成SVM个人信用评估方法,其特征在于,基于邻域粗糙集的特征选择算法的步骤包括:
S31、在训练集上计算每个特征的重要度,并对每个特征的重要度排序,得到特征重要度序列;
S32、从特征重要度序列中选择最大值;
S33、判断:若特征重要度序列中的最大值SIG(a,reduct,D)大于设定的阈值ε,即SIG(a,reduct,D)>ε,则将该特征重要度最大值SIG(a,reduct,D)从特征重要度序列中删除,并将特征重要度最大值所对应的特征a筛选出来放入已选择的特征集合中,即令reduct=a∪reduct,返回执行步骤S31-S33;若特征重要度序列中的最大值SIG(a,reduct,D)小于设定的阈值ε,则结束算法;其中,a为本轮中特征重要度最大的特征,reduct为已选择特征的集合。
3.根据权利要求1所述的一种基于阴影划分的集成SVM个人信用评估方法,其特征在于,通过阴影集映射的方式将每个类簇划分为三个不相交区域,分别为elevated域、reduced域和shadow域,具体包括:给定一个类簇Xl,l为由决策属性值决定的类别,dl为类别l的样本的决策属性值,类簇Xl中的对象集合为Xl={x1,x2,...xn},对于任一对象xi∈Xl,判断xi属于类Xl的隶属度
Figure FDA0002660511820000022
Figure FDA0002660511820000023
则将对象xi划分到类簇A的elevated域,若
Figure FDA0002660511820000024
则对象xi被划分到类簇Xl的reduced域,若
Figure FDA0002660511820000025
则对象xi被划分到类簇Xl的shadow域,划分表达式如下所示:
Figure FDA0002660511820000021
其中,(α,β)为一对阈值,且满足β=1-α,SPα(xi)表示对xi的阴影划分,
Figure FDA0002660511820000026
为xi属于类簇Xl的隶属度,当
Figure FDA0002660511820000029
时其隶属度会被映射为1,当
Figure FDA0002660511820000027
时其隶属度会被映射为0,当
Figure FDA0002660511820000028
时其隶属度会被映射为一个区间值[0,1]。
4.根据权利要求1所述的一种基于阴影划分的集成SVM个人信用评估方法,其特征在于,从elevated域、reduced域和shadow域中选取m个训练集包括:将每个类簇的shadow域取并集作为shadow域训练集Xshadow;对每个类簇的elevated域进行随机抽样,从每个类簇的elevated域中随机抽取
Figure FDA0002660511820000031
个样本,并将从各个类簇的elevated域中抽样所得的样本取并集,得到随机样本集合Xelevated,其中s*为采样数,
Figure FDA0002660511820000032
表示类别为l的样本集合的elevated域,
Figure FDA0002660511820000033
表示各个类簇elevated域的并集的样本数,L为由决策属性决定的类别数,k∈[0,1]为采样率,若该类簇的样本数不足s*,则取该类簇的所有样本;从随机样本集合Xelevated中进行m次有放回的随机抽样,得到elevated域训练集{Xelevated _1,Xelevated_2,...,Xelevated_m},其中Xelevated_m表示第m次随机抽样所得的elevated域训练集子集;将elevated域训练集中的每个子集分别与shadow域训练集Xshadow求并集,得到m个训练集,表达式如下所示:
Figure FDA0002660511820000034
其中,
Figure FDA0002660511820000035
表示第1个训练集,
Figure FDA0002660511820000036
表示第m个训练集。
5.根据权利要求1所述的一种基于阴影划分的集成SVM个人信用评估方法,其特征在于,邻域粗糙隶属函数的表达式如下:
μXl(xi)=I(XlB(xi))
其中,μXl(xi)为样本xi属于类簇Xl的隶属度,Xl为决策属性为dl的所有样本的集合,δB(xi)为对象xi的邻域,I(XlB(xi))为邻域δB(xi)在Xl中的包含度。
6.根据权利要求5所述的一种基于阴影划分的集成SVM个人信用评估方法,其特征在于,包含度的计算公式如下:
Figure FDA0002660511820000037
其中,
Figure FDA0002660511820000039
分别为两个样本集合,Card(X1)表示集合X1中样本的个数,I(X1,X2)表示X1在X2中的包含度,
Figure FDA0002660511820000038
表示空集。
CN202010903303.XA 2020-09-01 2020-09-01 基于阴影划分的集成svm个人信用评估方法 Pending CN112396507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010903303.XA CN112396507A (zh) 2020-09-01 2020-09-01 基于阴影划分的集成svm个人信用评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010903303.XA CN112396507A (zh) 2020-09-01 2020-09-01 基于阴影划分的集成svm个人信用评估方法

Publications (1)

Publication Number Publication Date
CN112396507A true CN112396507A (zh) 2021-02-23

Family

ID=74595744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010903303.XA Pending CN112396507A (zh) 2020-09-01 2020-09-01 基于阴影划分的集成svm个人信用评估方法

Country Status (1)

Country Link
CN (1) CN112396507A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266277A (zh) * 2021-12-27 2022-04-01 四川大学 一种电能质量扰动分类方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120008021A1 (en) * 2010-07-06 2012-01-12 Gm Global Technology Operations, Inc. Shadow Removal in an Image Captured by a Vehicle-Based Camera for Clear Path Detection
US20120185728A1 (en) * 2010-12-24 2012-07-19 Commonwealth Scientific And Industrial Research Organisation System and method for detecting and/or diagnosing faults in multi-variable systems
CN104751182A (zh) * 2015-04-02 2015-07-01 中国人民解放军空军工程大学 基于ddag的svm多类分类主动学习算法
CN105760888A (zh) * 2016-02-23 2016-07-13 重庆邮电大学 一种基于属性聚类的邻域粗糙集集成学习方法
CN106651574A (zh) * 2016-12-30 2017-05-10 苏州大学 一种个人信用评估方法及装置
CN109657721A (zh) * 2018-12-20 2019-04-19 长沙理工大学 一种结合模糊集和随机森林树的多类别决策方法
CN111401324A (zh) * 2020-04-20 2020-07-10 Oppo广东移动通信有限公司 图像质量评估方法、装置、存储介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120008021A1 (en) * 2010-07-06 2012-01-12 Gm Global Technology Operations, Inc. Shadow Removal in an Image Captured by a Vehicle-Based Camera for Clear Path Detection
US20120185728A1 (en) * 2010-12-24 2012-07-19 Commonwealth Scientific And Industrial Research Organisation System and method for detecting and/or diagnosing faults in multi-variable systems
CN104751182A (zh) * 2015-04-02 2015-07-01 中国人民解放军空军工程大学 基于ddag的svm多类分类主动学习算法
CN105760888A (zh) * 2016-02-23 2016-07-13 重庆邮电大学 一种基于属性聚类的邻域粗糙集集成学习方法
CN106651574A (zh) * 2016-12-30 2017-05-10 苏州大学 一种个人信用评估方法及装置
CN109657721A (zh) * 2018-12-20 2019-04-19 长沙理工大学 一种结合模糊集和随机森林树的多类别决策方法
CN111401324A (zh) * 2020-04-20 2020-07-10 Oppo广东移动通信有限公司 图像质量评估方法、装置、存储介质及电子设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
XIAODONG YUE: "Shadowed Neighborhoods Based on Fuzzy Rough Transformation for Three-Way Classification", 《IEEE TRANSACTIONS ON FUZZY SYSTEMS》 *
ZHAOFAN等: "Evaluationand Analysis of Typical DiseaseRiskMatrix of Concrete Slab Beam Bridge", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 *
张清华等: "基于区间阴影集的密度峰值聚类算法", 《模式识别与人工智能》 *
苏小红等: "阴影集的模糊支持向量机样本选择方法", 《哈尔滨工业大学学报》 *
谢佳: "基于PSO-SVM的互联网金融个人信用风险评估模型研究", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》 *
郭永济: "P2P网络借贷的借款人信用评价研究", 《中国优秀博硕士学位论文全文数据库(博士)经济与管理科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266277A (zh) * 2021-12-27 2022-04-01 四川大学 一种电能质量扰动分类方法

Similar Documents

Publication Publication Date Title
Faris et al. Improving financial bankruptcy prediction in a highly imbalanced class distribution using oversampling and ensemble learning: a case from the Spanish market
Sensini Selection of Determinants in Corporate Financial Distress
Harris Credit scoring using the clustered support vector machine
Li et al. Efficiency analysis of machine learning intelligent investment based on K-means algorithm
Zelenkov Example-dependent cost-sensitive adaptive boosting
Utari et al. Implementation of data mining for drop-out prediction using random forest method
Doumpos et al. Model combination for credit risk assessment: A stacked generalization approach
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
Hájek Credit rating analysis using adaptive fuzzy rule-based systems: an industry-specific approach
CN111062806B (zh) 个人金融信用风险评价方法、系统和存储介质
Chen et al. A novel differential evolution-clustering hybrid resampling algorithm on imbalanced datasets
Ziemba et al. Client evaluation decision models in the credit scoring tasks
Chen et al. An extended study of the K-means algorithm for data clustering and its applications
CN111612519A (zh) 一种识别金融产品潜在客户的方法、装置及存储介质
CN112949954A (zh) 基于识别学习建立财务欺诈识别模型的方法
CN112396507A (zh) 基于阴影划分的集成svm个人信用评估方法
Javadpour et al. Improving the efficiency of customer's credit rating with machine learning in big data cloud computing
Arutjothi et al. Assessment of probability defaults using K-means based multinomial logistic regression
Baruque et al. Hybrid classification ensemble using topology-preserving clustering
Chen et al. A stable credit rating model based on learning vector quantization
Li et al. Exploratory methods for imbalanced data classification in online recruitment fraud detection: A comparative analysis
Chen et al. Evaluation of customer behaviour with machine learning for churn prediction: The case of bank customer churn in europe
Yu et al. Designing a hybrid intelligent mining system for credit risk evaluation
Almas et al. Enhancing the performance of decision tree: A research study of dealing with unbalanced data
Limam et al. A new hybrid multiclass approach based on KNN and SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210223

RJ01 Rejection of invention patent application after publication