CN112288571B - 一种基于快速构建邻域覆盖的个人信用风险评估方法 - Google Patents

一种基于快速构建邻域覆盖的个人信用风险评估方法 Download PDF

Info

Publication number
CN112288571B
CN112288571B CN202011329953.4A CN202011329953A CN112288571B CN 112288571 B CN112288571 B CN 112288571B CN 202011329953 A CN202011329953 A CN 202011329953A CN 112288571 B CN112288571 B CN 112288571B
Authority
CN
China
Prior art keywords
neighborhood
center
sample
risk assessment
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011329953.4A
Other languages
English (en)
Other versions
CN112288571A (zh
Inventor
张清华
艾志华
肖嘉瑜
陈于思
支学超
吴成英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Zhaofu Information Technology Co.,Ltd.
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011329953.4A priority Critical patent/CN112288571B/zh
Publication of CN112288571A publication Critical patent/CN112288571A/zh
Application granted granted Critical
Publication of CN112288571B publication Critical patent/CN112288571B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机科学与技术领域,具体涉及一种基于快速构建邻域覆盖的个人信用风险评估方法,该方法包括:获取贷款人的个人信息数据,对该信息数据进行预处理;采用K‑means聚类算法对预处理后的数据进行聚类,构建邻域覆盖序列;计算邻域覆盖序列中的邻域中心局部密度和相对距离;根据邻域中心的局部密度和相对距离对邻域进行排序;对排序后的邻域进行选择,并对选择的邻域进行风险评估预测,得到预测结果;根据风险评估结果确定是否对贷款人进行贷款;本发明通过邻域中心的局部密度与相对距离的乘积对邻域进行选择,能够更好的评估邻域的分类能力,使得在更少的邻域下得到更高的精度。

Description

一种基于快速构建邻域覆盖的个人信用风险评估方法
技术领域
本发明属于计算机科学与技术领域,具体涉及一种基于快速构建邻域覆盖的个人信用风险评估方法。
背景技术
随着信贷产业不断的发展,信贷数据量呈现爆炸式的增长,仅通过专业人员对贷款人的个人属性确定贷款人的信用好坏,不但会大量消耗人力物力,同时效率低下,甚至无法完成对贷款人评估。其次,贷款人的信息属性不仅多样化,而且属性之间往往具有一定的关联性。而粗糙集理论等数据挖掘方法可应用于个人信用风险评估中,能快速有效挖掘出贷款人的信息属性的关联性,达到较好的个人信用风险评估效果。
粗糙集是由Pawlak教授于1982提出的一种处理不精确、不一致、不完全信息和知识的重要数学工具,已经被广泛应用于机器学习、知识发现、数据挖掘、决策支持与分析等邻域。但是Pawlak粗糙集只适用于处理离散型数据,而天津大学胡清华教授提出了基于邻域粒化的邻域粗糙集模型,实际上,邻域粗糙集提供了一种构造数据空间的近似方法。从拓扑学的角度,证明了邻域空间比数据空间的概念更一般化,这表明将原始数据空间转化为邻域空间有助于数据的泛化。
现有技术中对个人信用风险评估的方法中包括5C要素分析法、财务比率综合分析法、多变量信用风险判别模型等等;例如多变量信用风险判别模型是以特征财务比率为解释变量,运用数量统计方法推导建立的标准模型。运用此模型预测某种性质事件发生的可能性,及时发现信用危机信号,使用户能及早的预防。但是上述方法中,需要大量的数据对模型进行训练,且由于训练的数据存在重叠,使得对模型的训练时间较长,消耗的能耗较多,训练得到的结果准确度低;因此,急需一种能提高检测效率的个人信用风险评估方法。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于快速构建邻域覆盖的个人信用风险评估方法,该方法包括:获取贷款人的个人信息数据,将该信息数据输入到训练好的个人信用风险评估模型中进行风险评估,根据风险评估结果确定是否对贷款人进行贷款;
对个人信用风险评估模型进行训练的过程包括:
S1:获取贷款人的原始个人信息数据,将原始个人信息数据转化为决策信息表;
S2:对决策信息表中的数据进行预处理;
S3:采用K-means聚类算法对预处理后的数据进行聚类,构建邻域覆盖序列;
S4:计算邻域覆盖序列中的邻域中心局部密度和相对距离;根据邻域中心的局部密度和相对距离对邻域进行排序;
S5:对排序后的邻域进行选择,并对选择的邻域进行风险评估预测,得到预测结果。
优选的,获取贷款人的个人信息数据包括账户状况、信贷历史、贷款金额、资产情况、住房情况、本银行信贷次数以及家庭成员收入情况。
优选的,对决策信息表中的数据进行预处理的过程包括:采用当前数据属性均值对缺失的数据进行数据填充处理,将填充后的数据信息进行归一化处理。
优选的,构建邻域覆盖序列的过程包括:
S31:确定K个初始聚类中心;
S32:根据初始聚类中心和K-means算法对样本数据进行聚类,得到K个类簇;
S33:对得到的所有类簇进行初始化;计算所有的样本数据到初始聚类中心的距离;
S34:根据计算的距离找到距离样本最近的聚类中心,并根据该聚类中心更新类簇;
S35:根据更新后的类簇重新计算聚类中心,若计算后K个聚类中心不变,则输出K个类簇和聚类中心集合,否则返回步骤S33;
S36:根据K个类簇和聚类中心集合计算聚类中心对应的邻域半径,根据邻域半径构建邻域。
进一步的,重新计算聚类中心的公式为:
Figure BDA0002795478160000031
进一步的,邻域的公式为:
O(vi)={xj∈cli|Δ(xj,vi)≤r(vi)}
优选的,邻域中心vi的局部密度为:
ρi=|O(vi)|
邻域中心vi的相对距离为:
δi=min{Δ(vi,vj)|ρj>ρi,O(vj)∈O}
优选的,对选择的邻域进行风险评估预测的过程包括:
若样本x仅处于单个邻域之中,则将该邻域的类别分配给样本x;
若样本x处于多个邻域之中,设这多个邻域
Figure BDA0002795478160000032
计算邻域集合Oinner中邻域中心与x的距离,选择邻域中心到样本x最近的邻域,将最近的邻域的类别分配给样本x;
若样本x不处于任意邻域之中,计算所有邻域中心与x的距离,选择邻域中心到样本x最近的邻域,将此邻域的类别分配给样本x。
本发明的优点:
1、通过采用本发明使用的方法,工作人员可根据预测结果辅助判断贷款人是否存在信用风险,能够极大的提高工作效率与服务质量;
2、在传统基于邻域覆盖的规则学习方法中,需要计算所有样本的半径,从而得到初始邻域覆盖,进而通过邻域覆盖约简剔除冗余的邻域,整个过程需要大量的训练时间;本发明使用K-means算法形成邻域覆盖,从而减少邻域之间的重叠,能够达到线性的时间复杂度,大幅度减少模型的训练时间,且提出的半径能够规避离群样本的影响;
3、通过邻域中心的局部密度与相对距离的乘积对邻域进行选择,能够更好的评估邻域的分类能力,使得在更少的邻域(规则)下得到更高的精度。
附图说明
图1为本发明的个人信用风险评估方法流程图;
图2为本发明的第一次聚类的结果图;
图3为本发明的在进行邻域覆盖时的结果图;
图4为本发明的一种实施例的邻域覆盖结果图;
图5为本发明的一种实施例的用户预测结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于快速构建邻域覆盖的个人信用风险评估方法,如图1所示,该方法包括:获取贷款人的个人信息数据,将该信息数据输入到训练好的个人信用风险评估模型中进行风险评估,根据风险评估结果确定是否对贷款人进行贷款。
对个人信用风险评估模型进行训练的过程包括:
S1:获取贷款人的原始个人信息数据,将原始个人信息数据转化为决策信息表;
S2:对决策信息表中的数据进行预处理;
S3:采用K-means聚类算法对预处理后的数据进行聚类,构建邻域覆盖序列;
S4:计算邻域覆盖序列中的邻域中心局部密度和相对距离;根据邻域中心的局部密度和相对距离对邻域进行排序;
S5:对排序后的邻域进行选择,并对选择的邻域进行风险评估预测,得到预测结果。
从企业数据库中采集贷款人的个人信息数据,其个人信息数据包括:账户状况、信贷历史、贷款金额、资产情况、住房情况、本银行信贷次数、家庭成员收入情况等属性。将上述个人信息数据转化为决策信息表<U,A,D>,其中,U={x1,x2,...,xn}为样本集合,A={a1,a2,...,am}为条件属性集合,D为决策属性集。
一种将个人信息数据转化为决策信息表的实施,其转换结果如表1所示,本实施例选取两列数据进行分析,其中U={x1,x2,...x16},A={a1,a2},D={d}={0,1};若d=1,则代表该贷款人高风险;若d=0,则代表该贷款人低风险。
表1.决策信息表
Figure BDA0002795478160000051
在对决策信息表中的数据进行分类预测中,把样本集合分割为训练数据集Utrain,验证数据集Uver和测试数据集Utest。训练数据集用于模型训练,验证数据集用于寻找模型的最优参数,测试数据集用于评估模型;表1中“?”即为需要预测的样本;本实施例中,将U分为:Utrain={x1,x2,...,x10},Uver={x11,x12,x13}和Utest={x14,x15,x16}。
对决策信息表中的数据进行预处理的过程包括:采用当前数据属性均值对缺失的数据进行数据填充处理,将填充后的数据信息进行归一化处理;对数据进行归一化处理的公式为:
Figure BDA0002795478160000061
其中,xij表示第i个样本的第j个属性的值,min(xj)表示第j个属性的最小值,max(xj)表示第j个属性的最大值。
对表1中的数据进行归一化处理后,得到的数据如表2所示:
表2.归一化后的决策信息表
Figure BDA0002795478160000062
根据归一化后的决策信息表构建邻域覆盖序列。在构建邻域覆盖序列过程中,计算样本与样本之间的距离,本发明采用欧式距离公式计算各个样本之间的距离,并通过欧式距离来判断样本之间的相似程度。欧式距离越大,则样本间的相似度越低。其中,对于任意的样本xi和xj,即
Figure BDA0002795478160000063
xi与xj的欧式距离定义为:
Figure BDA0002795478160000064
其中,xik表示第i个样本下第k个属性的属性值。
本发明采用K-means聚类算法构建邻域。确定K-means聚类算法的参数K值,本发明中K的参数值为K=|D|,其中|·|表示集合的势(样本个数);本发明中的K个聚类中心为相同类别样本的属性均值,在决策属性d下对给定的决策信息表<Utrain,A,D>和Utrain进行划分,划分的表达式为:
Utrain/{d}={X1,X2,...XK}
其中,d表示决策属性,XK表示Utrain中第K个类别的样本集合。
建邻域覆盖序列的过程包括:
S31:确定K个初始聚类中心;初始聚类中心的公式为:
Figure BDA0002795478160000071
其中,vi表示聚类中心,cli表示第i个类簇,xj表示类簇cli中第j个样本,|Xi|表示类簇中样本的个数,K表示类簇的数量。
根据初始聚类中心的公式得到K个聚类中心V={v1,v2,...vK},其中,vK表示第K个聚类中心。
S32:根据初始聚类中心和K-means聚类算法对样本数据进行聚类,得到K个类簇。所示K个类簇为CL={cl1,cl2,...,clK};其中clK表示第K个簇。
S33:对得到的所有类簇进行初始化,即
Figure BDA0002795478160000072
计算所有的样本数据到初始聚类中心的距离Δ(xi,vj)。
S34:找出所有样本距离自身最近的聚类中心,并根据该聚类中心更新类簇。对类簇进行更新的公式为:
clj=clj∪{xi}
其中,∪表示对数据进行求并运算,{xi}表示Utrain中第i个样本形成的集合。
S35:根据更新后的类簇重新计算聚类中心,若计算后K个聚类中心不变,则输出K个类簇和聚类中心集合,否则返回步骤S33。
重新计算聚类中心的公式为:
Figure BDA0002795478160000073
其中,vi表示聚类中心,cli表示第i个类簇,xj表示类簇cli中第j个样本,|cli|表示类簇cli中样本的个数,K表示类簇的数量。
S36:采用K个类簇和聚类中心集合构建邻域。
对于
Figure BDA0002795478160000074
Figure BDA0002795478160000075
形成的邻域可以定义为:
O(vi)={xj∈cli|Δ(xj,vi)≤r(vi)}
其中,O(vi)表示覆盖的邻域,r(vi)表示中心vi的距离阈值,且r(vi)的计算公式为:
r(vi)=min(max{Δ(vi,xj)|xj∈cli},min{Δ(vi,vj)|vj≠i∈V})
为了使形成的邻域中包含所有的样本,首先计算类簇中样本与中心最远的距离值,但是直接取最大值,会被离群样本影响,导致邻域间出现过多的重叠部分。因此,在本发明中,计算出中心之间的距离,在类簇中样本与中心最远的距离值和中心之间的距离值选择最小的距离形成半径,既能尽可能包含更多的样本,又能避免离群样本的影响。且由于半径的选取,可能导致部分样本不存在任一邻域之中,但是此种样本往往是离群样本,因此直接设置该样本形成的邻域的中心即为本身,半径设为0,此时形成的邻域集合O={O(vi)|i=1,2,...,l}为数据样本U上的一个覆盖。
由于在邻域集合O中存在部分邻域中有异类样本,那么对于有异类样本的邻域继续进行聚类,聚类方式以及邻域形成与上述一致,直到邻域集合O中所有邻域中均为同类样本时停止聚类。
在第一次聚类中,时间复杂度为K-means聚类所产生的时间复杂度O(n),在后续聚类中,仅需要分批对邻域中存在不同种类的样本进行聚类,时间复杂度远低于O(n),且在计算出邻域半径时,需要构建邻域,这一步骤的时间复杂度为O(n)。因此,本发明构建邻域覆盖的时间复杂度为O(n)。
一种构建邻域覆盖序列的具体实施例,对表2中的数据集Utrain={x1,x2,...,x10}构建邻域覆盖序列。首先通过决策属性对Utrain进行划分,得到Utrain/{d}={X1,X2},其中X1={x1,x2,x3,x4,x5},X2={x6,x7,x8,x9,x10}。计算得出初始聚类中心为v1=(0.38,0.44),v2=(0.7,0.66),通过K-means算法得到cl1={x1,x2,x3,x4},cl2={x5,x6,x7,x8,x9,x10};v1=(0.3,0.45),v2=(0.7,0.62);并计算出r(v1)=0.18,r(v2)=0.22。因此,可以得到邻域O(v1)={x1,x2,x3,x4}和O(v2)={x5,x6,x7,x8,x9,x10}。第一轮聚类后邻域产生的图像如图2所示。
从图2中可知邻域O(v2)中出现不同类的样本,只需对O(v2)中的样本继续聚类,步骤与第一轮相同。最终得到样本集合U上的一个覆盖O={O(v1),O(v2),O(v3)},其中O(v1)={x1,x2,x3,x4},r(v1)=0.18;O(v2)={x6,x7,x8,x9,x10},r(v2)=0.12;O(v3)={x5},r(v3)=0。覆盖O所形成的结果如图3所示。
为了同时刻画邻域的分类能力以及邻域之间的多样性,本发明通过邻域中心的局部密度和邻域中心的相对距离的乘积对邻域进行排序。对于
Figure BDA0002795478160000091
邻域中心vi的局部密度为:
ρi=|O(vi)|
其中,|·|表示集合的势(样本个数)。
邻域O(vi)的局部密度即为O(vi)中的样本个数,邻域中心vi的相对距离公式为:
δi=min{Δ(vi,vj)|ρj>ρi,O(vj)∈O}
其中,ρi表示邻域中心vi的局部密度,ρj表示邻域中心vj的局部密度。若在所有邻域中心中vi的局部密度最大,则δi=max{Δ(vi,vj)|O(vj)∈O}。
根据邻域中心的局部密度以及相对距离,本发明采用综合变量γ对所有邻域进行从大到小的排序,综合变量计算公式为:
γi=ρii
以表2中的数据作为本发明排序的一种实施例,根据综合变量计算公式可以得到γ1=1.72,γ2=2.15,γ3=0.22,根据γ值对邻域进行从大到小的排序,得到排序后的邻域集合Or={O(v2),O(v1),O(v3)}。
由于邻域中所有的样本都是同类的,因此每个邻域对应一个分类规则,可用于对测试数据集的分类(个人信用风险评估)。但是,如果将所有邻域形成的规则对测试数据集中的样本进行预测,容易受到噪声样本以及离群样本的影响。因此,本发明通过验证数据集选择前h邻域,在通过这前h邻域对测试数据集进行预测评估。设待评估样本为x,预测的规则为:
(1)若样本x仅处于单个邻域之中,则将该邻域的类别分配给样本x。
(2)若样本x处于多个邻域之中,设这多个邻域
Figure BDA0002795478160000101
计算邻域集合Oinner中邻域中心与x的距离,选择邻域中心到样本x最近的邻域,将最近的邻域的类别分配给样本x。
(3)若样本x不处于任意邻域之中,计算所有邻域中心与x的距离,选择邻域中心到样本x最近的邻域,将此邻域的类别分配给样本x。
一种对选择的邻域进行风险评估预测的实施例,根据邻域集合Or={O(v2),O(v1),O(v3)}与验证数据集Uver得出如图4所示的结果。根据上述预测规则可以得出,当h=1时,预测精度为33%;当h=2时,预测精度为100%;当h=3时,预测精度为100%。因此,选择前h=2个邻域,即
Figure BDA0002795478160000102
根据邻域集合
Figure BDA0002795478160000103
和验证数据集Utest得到如图5所示的结果图,从图5中可以看出样本x14,x15均不处于任意邻域,则通过规则(3)进行分配,得出样本x14的类别为1,因此样本x14为高风险用户;样本x15的类别为0,因此样本x15为低风险用户;对于样本x16处于单个邻域O(v2)中,则通过规则(1),得出x16的类别为0,因此样本x16为低风险用户。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,包括:获取贷款人的个人信息数据,将该信息数据输入到训练好的个人信用风险评估模型中进行风险评估,根据风险评估结果确定是否对贷款人进行贷款;
对个人信用风险评估模型进行训练的过程包括:
S1:获取贷款人的原始个人信息数据,将原始个人信息数据转化为决策信息表;
S2:对决策信息表中的数据进行预处理;
S3:采用K-means聚类算法对预处理后的数据进行聚类,构建邻域覆盖序列;
S31:确定K个初始聚类中心;
S32:根据初始聚类中心和K-means聚类算法对样本数据进行聚类,得到K个类簇;
S33:对得到的所有类簇进行初始化;计算所有的样本数据到初始聚类中心的距离;
S34:根据计算的距离找到距离样本最近的聚类中心,并根据该聚类中心更新类簇;
S35:根据更新后的类簇重新计算聚类中心,若计算后K个聚类中心不变,则输出K个类簇和聚类中心集合,否则返回步骤S33;
S36:根据K个类簇和聚类中心集合计算聚类中心对应的邻域半径,根据邻域半径构建邻域;
S4:计算邻域覆盖序列中的邻域中心局部密度和相对距离;根据邻域中心的局部密度和相对距离对邻域进行排序;
S5:对排序后的邻域进行选择,并对选择的邻域进行风险评估预测,得到预测结果;
对选择的邻域进行风险评估预测的过程包括:若样本x仅处于单个邻域之中,则将该邻域的类别分配给样本x;
若样本x处于多个邻域之中,设这多个邻域为
Figure FDA0003618424640000021
计算邻域集合Oinner中邻域中心与x的距离,选择邻域中心到样本x最近的邻域,将最近的邻域的类别分配给样本x;
Figure FDA0003618424640000022
表示排序后的邻域集合,Δ(vi,x)表示中心vi与样本x的欧式距离,r(vi)表示中心vi的距离阈值;O(vi)表示覆盖的邻域,其中心为vi
若样本x不处于任意邻域之中,计算所有邻域中心与x的距离,选择邻域中心到样本x最近的邻域,将此邻域的类别分配给样本x。
2.根据权利要求1所述的一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,所述获取贷款人的个人信息数据包括账户状况、信贷历史、贷款金额、资产情况、住房情况、本人银行信贷次数以及家庭成员收入情况。
3.根据权利要求1所述的一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,对决策信息表中的数据进行预处理的过程包括:采用当前数据属性均值对缺失的数据进行数据填充处理,将填充后的数据信息进行归一化处理。
4.根据权利要求1所述的一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,重新计算聚类中心的公式为:
Figure FDA0003618424640000023
其中,vi表示聚类中心,cli表示第i个类簇,xj表示类簇cli中第j个样本,|cli|表示类簇cli中样本的个数,K表示类簇的数量。
5.根据权利要求1所述的一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,邻域的公式为:
O(vi)={xj∈cli|Δ(xj,vi)≤r(vi)}
其中,cli表示第i个类簇,Δ(xj,vi)表示样本xj与中心vi之间的欧式距离。
6.根据权利要求1所述的一种基于快速构建邻域覆盖的个人信用风险评估方法,其特征在于,邻域中心vi的局部密度为:
ρi=|O(vi)|
邻域中心vi的相对距离为:
δi=min{Δ(vi,vj)|ρj>ρi,O(vj)∈O}
其中,ρi表示中心vi的局部密度,|O(vi)|表示邻域O(vi)中样本的个数,δi表示中心vi的相对距离,O表示邻域覆盖序列,Δ(vi,vj)表示中心vi和中心vj的欧式距离;O(vj)表示覆盖的邻域,其中心为vj;ρj表示中心vj的局部密度。
CN202011329953.4A 2020-11-24 2020-11-24 一种基于快速构建邻域覆盖的个人信用风险评估方法 Active CN112288571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011329953.4A CN112288571B (zh) 2020-11-24 2020-11-24 一种基于快速构建邻域覆盖的个人信用风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011329953.4A CN112288571B (zh) 2020-11-24 2020-11-24 一种基于快速构建邻域覆盖的个人信用风险评估方法

Publications (2)

Publication Number Publication Date
CN112288571A CN112288571A (zh) 2021-01-29
CN112288571B true CN112288571B (zh) 2022-06-10

Family

ID=74425327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011329953.4A Active CN112288571B (zh) 2020-11-24 2020-11-24 一种基于快速构建邻域覆盖的个人信用风险评估方法

Country Status (1)

Country Link
CN (1) CN112288571B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983981B (zh) * 2023-01-04 2023-08-22 深圳市新联鑫网络科技有限公司 一种基于金融数据分析的信用风险评估系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102028A (zh) * 2018-08-20 2018-12-28 南京邮电大学 基于改进的快速密度峰值聚类和lof离群点检测算法
CN109271427A (zh) * 2018-10-17 2019-01-25 辽宁大学 一种基于近邻密度和流形距离的聚类方法
CN111833175A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN111898758A (zh) * 2020-09-29 2020-11-06 苏宁金融科技(南京)有限公司 一种用户异常行为识别方法、装置及计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ572036A (en) * 2008-10-15 2010-03-26 Nikola Kirilov Kasabov Data analysis and predictive systems and related methodologies
JP5642190B2 (ja) * 2009-11-24 2014-12-17 ザイムワークス,インコーポレイテッド 多次元データのための密度ベースのクラスタ化
US20150269669A1 (en) * 2014-03-21 2015-09-24 Xerox Corporation Loan risk assessment using cluster-based classification for diagnostics

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102028A (zh) * 2018-08-20 2018-12-28 南京邮电大学 基于改进的快速密度峰值聚类和lof离群点检测算法
CN109271427A (zh) * 2018-10-17 2019-01-25 辽宁大学 一种基于近邻密度和流形距离的聚类方法
CN111833175A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN111898758A (zh) * 2020-09-29 2020-11-06 苏宁金融科技(南京)有限公司 一种用户异常行为识别方法、装置及计算机可读存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Differential Privacy-Preserving Density Peaks Clustering Based on Shared Near Neighbors Similarity;Liping Sun 等;《IEEE Access》;20190708;第7卷;89427-89440 *
The Uncertainty Analysis of Vague Sets in Rough Approximation Spaces;Q. Zhang 等;《IEEE Access》;20181207;第7卷;383-395 *
基于最佳距离度量近邻法的邻域风险最小化方法;杞娴 等;《云南大学学报(自然科学版)》;20040910(第05期);373-377 *
基于邻域的高效分类算法及其应用研究;陈于思;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20220315(第03期);I138-823 *
基于邻域粗糙集和距离判别的信用风险评级;郭春花;《重庆理工大学学报(自然科学)》;20130215;第27卷(第02期);130-134 *

Also Published As

Publication number Publication date
CN112288571A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN108898479B (zh) 信用评价模型的构建方法及装置
US6636862B2 (en) Method and system for the dynamic analysis of data
Lingras et al. Rough cluster quality index based on decision theory
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
US6026397A (en) Data analysis system and method
Sarlin et al. Visual predictions of currency crises using self-organizing maps
CN110866819A (zh) 一种基于元学习的自动化信贷评分卡生成方法
US20100057773A1 (en) Fuzzy tagging method and apparatus
CN111612261B (zh) 基于区块链的金融大数据分析系统
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN112001788B (zh) 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN109726918A (zh) 基于生成式对抗网络和半监督学习的个人信用确定方法
CN110634060A (zh) 一种用户信用风险的评估方法、系统、装置及存储介质
CN111539451A (zh) 样本数据优化方法、装置、设备及存储介质
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN117593597A (zh) 一种地形图像自动分类方法及系统
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN112288571B (zh) 一种基于快速构建邻域覆盖的个人信用风险评估方法
CN111683141B (zh) 一种面向用户需求的动态QoS服务选择方法及其系统
CN115481844A (zh) 基于特征提取和改进的svr模型的配网物资需求预测系统
CN112861956A (zh) 基于数据分析的水污染模型构建方法
CN115271442A (zh) 基于自然语言评估企业成长性的建模方法及系统
CN113988149A (zh) 一种基于粒子群模糊聚类的服务聚类方法
CN112836926B (zh) 基于电力大数据的企业经营状况评估方法
CN113657106B (zh) 基于归一化词频权重的特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240508

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Dayu Chuangfu Technology Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240530

Address after: Room 1707, Building 4, Sports Apartment, No. 200, Section 2, Furong Middle Road, Tianxin District, Changsha City, Hunan Province, 410004

Patentee after: Changsha Zhaofu Information Technology Co.,Ltd.

Country or region after: China

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Guangzhou Dayu Chuangfu Technology Co.,Ltd.

Country or region before: China