CN110111192A - 多过滤器结合nsd指标的信贷客户特征选择方法和系统 - Google Patents

多过滤器结合nsd指标的信贷客户特征选择方法和系统 Download PDF

Info

Publication number
CN110111192A
CN110111192A CN201910124047.1A CN201910124047A CN110111192A CN 110111192 A CN110111192 A CN 110111192A CN 201910124047 A CN201910124047 A CN 201910124047A CN 110111192 A CN110111192 A CN 110111192A
Authority
CN
China
Prior art keywords
sample
feature
credit customer
credit
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910124047.1A
Other languages
English (en)
Inventor
冯宏伟
李霜
田梦允
冯筠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201910124047.1A priority Critical patent/CN110111192A/zh
Publication of CN110111192A publication Critical patent/CN110111192A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于多过滤器结合NSD指标的信贷客户特征选择方法,首先用多个过滤器分别对信贷客户的所有特征进行度量,构成特征排序矩阵;然后对特征排序矩阵进行搜索,产生多个候选的信贷客户特征子集;最后用NSD评价指标对所有候选的信贷客户特征子集进行评估,选出最优的适用于信贷风险评估的特征。本发明方法结合了多个过滤器式的特征选择机制,实现了从多个角度共同对信贷客户所有特征进行评估和选择,解决了信贷客户的最优特征子集选择不合理的问题;相比于用单一过滤器进行特征选择,多个过滤器结合选出的最优信贷客户特征子集能有效提升信贷风险评估的精确率。

Description

多过滤器结合NSD指标的信贷客户特征选择方法和系统
技术领域
本发明属于金融业信用风险管理领域,涉及一种信贷风险评估中的信贷客户特征选择方法,具体涉及一种基于多过滤器结合NSD指标的信贷客户特征选择方法。
背景技术
随着互联网金融的快速发展,许多银行机构和网络借贷平台暴露出越来越多的信用风险。信贷风险评估作为一种有效的工具,可以利用客户的信息和客户的活动数据来识别潜在的风险,在金融机构中发挥着越来越重要的作用。然而,由于信贷客户数据海量且高维的特性,信贷风险评估模型的建立面临着巨大的挑战。一方面,海量的信贷客户数据不断涌现,直接使用原始数据对客户进行信贷风险评估已变得十分困难。另一方面,信贷客户数据中通常包含很多特征,究竟哪些特征更容易导致客户发生违约,哪些特征在信贷风险评估中是无关且冗余的,这都是不容易被识别的。因此,采用特征选择的方法对原始的信贷客户数据进行分析,并从中选择出更适用于信贷风险评估的信贷客户特征是很有必要的。这将有利于信贷风险评估模型的建立,以提高金融机构对潜在违约客户识别的精确率。
目前,信贷客户特征选择的方法主要分为两大类:1)基于过滤器的特征选择方法。这种方法通常采用某一统计学的度量,对每一维信贷客户特征的重要程度进行计算,然后将所有信贷客户特征按照度量的结果进行排序,最后选择出排序靠前的几维信贷客户特征作为最优的特征子集。2)基于包装器的特征方法。这种方法通常包括三个要素:搜索策略、评价函数和性能函数。首先,利用某一搜索策略搜索整个信贷客户特征空间,产生多个候选的信贷客户特征子集。然后,利用评价函数对所有候选的信贷客户特征子集进行评估。通常,这种方法中的评价函数都设置为某一特定的分类器。经过对分类器不断地训练和测试,实现所有候选的信贷客户特征子集的评估。最后,根据性能函数的表现,选择出最优的信贷客户特征子集。
尽管上述的两种特征选择算法都存在各自的特点。然而,在使用基于过滤器的方法对信贷客户进行特征选择时,只使用单一的过滤器对所有的信贷客户特征进行度量,就只能从单一的视角去关注所有信贷客户特征的重要程度,这就可能会忽略掉特征所包含的其他方面信息,导致最优信贷客户特征子集的选择不合理。此外,在使用基于包装器的方法对信贷客户数据进行特征选择时,由于这种方法必须基于某一特定分类器的训练和测试过程,才能实现对所有候选的信贷客户特征子集的评估。因此,当海量且高维的信贷客户数据用这种方法进行特征选择时,所有候选的信贷客户特征子集的评估过程会呈现出很大的计算开销,并且随着特征维数的增加,这种方法在实际信贷风险评估中并不适用。
发明内容
为解决现有技术中存在的不足,本发明提供了一种多过滤器结合NSD指标的信贷客户特征选择方法和系统,解决现有方法中单一过滤器进行特征选择时,信贷客户最优特征子集选择不合理的问题,以及用包装器对高维且海量的信贷客户数据进行特征选择时,计算开销过大的问题。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
本发明公开的多过滤器结合NSD指标的信贷客户特征选择方法,该方法用于对信贷客户数据集中的信贷客户特征进行选择,其中,信贷客户数据集中的信贷客户的特征被标记有不同类型的标签;该方法包括以下步骤:
步骤一:使用N个不同种类的过滤器分别对信贷客户的M个特征的重要程度进行度量,获得度量结果R:
步骤1.1:使用第n种过滤器对所有信贷客户的第m个特征的重要程度进行度量,获得度量结果n=1,2,...,N;m=1,2,...,M;N表示过滤器的个数,M表示特征的个数,N≥2,M≥1;
步骤1.2:依据上述步骤1.1,使用第n种过滤器对所有特征的重要程度进行度量,获得度量结果
步骤1.3:依照上述步骤1.1至步骤1.2,使用所有不同种类的过滤器对所有特征的重要程度进行度量,获得度量结果R;
步骤二:按照步骤1.3中度量结果的大小对每个度量结果对应的特征进行排序,构成信贷客户的特征排序矩阵[P]m×n
步骤三:对信贷客户特征排序矩阵[P]m×n进行搜索,产生多个候选特征子集A1,A2,...,Ak,...,AK,其中,Ak表示信贷客户的第k个候选特征子集,Ak=[ak1,...,aks,...,akS],aks表示第k个候选特征子集Ak中的第s个特征;K表示候选特征子集的个数;
步骤四:计算每一个候选特征子集的NSD值;
步骤4.1:根据信贷客户数据集中不同类型的标签将特征ak1,..,aks,...,akS建立为不同类别的样本,然后将这些样本合并为一个信贷客户样本空间Ok
步骤4.2:通过下式(1)计算候选特征子集Ak的NSDk值;
其中,表示样本空间Ok中第i类信贷客户样本的样本数,表示样本空间Ok中第j类信贷客户样本中的样本数,i=1,2,…,Lk,j=1,2,…,Lk,i≠j,Lk表示样本空间Ok中的样本类别数;表示样本空间Ok中第i类的信贷客户样本的样本中心;表示样本空间Ok中第j类的信贷客户样本的样本中心;表示样本空间Ok中第i类信贷客户样本中的第t个样本;表示样本空间Ok中第j类信贷客户样本中的第t个样本;表示样本空间Ok中距离第i类信贷客户样本中心最近的第j类信贷客户样本;表示样本空间Ok中距离第j类信贷客户样本中心最近的第i类信贷客户样本;
步骤4.3:依照上述步骤4.1至4.2,得到每一个候选信贷客户特征子集对应的NSD值;
步骤五:对步骤四获得的所有候选信贷客户特征子集的NSD值进行比较,选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。
具体的,所述的步骤三包括:
步骤3.1,设置一个阈值T,并将其初始化为0;
步骤3.2,初始化一个用于存放所有候选特征子集的集合C;
步骤3.3,按照Tg+1=Tg+1增加阈值,其中Tg表示第g个阈值,T0=0,搜索阈值为Tg+1时信贷客户特征排序矩阵前Tg+1行中的所有信贷客户特征,并将每一列都存在的共同特征选出,作为一个候选特征子集,加入到集合C中;
步骤3.4:重复上述步骤3.3,直至阈值等于信贷客户特征排序矩阵P的行数M,得到的集合C为候选特征集,C=A1,A2,...,Ak,...,AK
本发明还公开了一种多过滤器结合NSD指标的信贷客户特征选择系统,该系统用于对信贷客户数据集中的信贷客户的特征进行选择,其中,信贷客户数据集中的信贷客户特征被标记有不同类型的标签,该系统包括:
基于多过滤器的信贷客户特征度量模块,用于使用N个不同种类的过滤器分别对信贷客户的M个特征的重要程度进行度量,获得度量结果R,具体为:
首先,使用第n种过滤器对所有信贷客户的第m个特征的重要程度进行度量,输出度量结果n=1,2,...,N;m=1,2,...,M;N表示过滤器的个数,M表示特征的个数,N≥2,M≥1;N种过滤器的种类不同;
然后,依据上述过程,使用第n种过滤器对所有特征的重要程度进行度量,获得度量结果为
最后,依照前两个过程,使用所有不同种类的过滤器对所有特征的重要程度进行度量,获得度量结果矩阵R;
特征排序模块,用于按照基于多过滤器的信贷客户特征度量模块中的度量结果的大小对每个度量结果对应的特征进行排序,构成信贷客户的特征排序矩阵[P]m×n
特征搜索模块,用于对信贷客户特征排序矩阵[P]m×n进行搜索,产生多个候选特征子集A1,A2,...,Ak,...,AK,其中,Ak表示信贷客户的第k个候选特征子集,Ak=[ak1,...,aks,...,akS],aks表示第k个候选特征子集Ak中的第s个特征;K表示候选特征子集的个数;
NSD值计算模块,用于计算每一个候选特征子集的NSD值,具体包括:
首先,根据信贷客户数据集中不同类型的标签将特征ak1,..,aks,…,akS建立为不同类别的样本,然后将这些样本合并为一个信贷客户样本空间Ok
然后,通过下式(1)计算候选特征子集Ak的NSDk值;
其中,表示样本空间Ok中第i类信贷客户样本的样本数,表示样本空间Ok中第j类信贷客户样本中的样本数,i=1,2,…,L,j=1,2,…,L,i≠j,Lk表示样本空间Ok中的样本类别数;表示样本空间Ok中第i类的信贷客户样本的样本中心;表示样本空间Ok中第j类的信贷客户样本的样本中心;表示样本空间Ok中第i类信贷客户样本中的第t个样本;表示样本空间Ok中第j类信贷客户样本中的第t个样本;表示样本空间Ok中距离第i类信贷客户样本中心最近的第j类信贷客户样本;表示样本空间Ok中距离第j类信贷客户样本中心最近的第i类信贷客户样本;
最后,依照上述过程,计算每一个候选信贷客户特征子集对应的NSD值;
NSD值比较模块,用于对NSD值计算模块获得的所有候选信贷客户特征子集的NSD值进行比较,选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。
具体的,所述的特征搜索模块包括:
首先,设置一个阈值T,并将其初始化为0;
其次,初始化一个用于存放所有候选特征子集的集合C;
然后,按照Tg+1=Tg+1增加阈值,其中Tg表示第g个阈值,T0=0,搜索阈值为Tg+1时信贷客户特征排序矩阵前Tg+1行中的所有信贷客户特征,并将每一列都存在的共同特征选出,作为一个候选特征子集,加入到集合C中;
最后,重复上述增加阈值的过程,直至阈值等于信贷客户特征排序矩阵P的行数M,得到的集合C为候选特征集,C=A1,A2,...,Ak,...,AK
与现有技术相比,本发明的有益效果是:
(1)本发明基于多过滤器结合NSD指标的信贷客户特征选择方法,通过使用多个过滤器对所有信贷客户特征的重要程度进行度量,解决了单一过滤器进行特征选择时,信贷客户特征的其他多方面信息容易被忽略的问题。同时,实现了从多个角度共同对信贷客户所有特征进行评估和选择,解决了信贷客户的最优特征子集选择不合理的问题。
(2)在对整个特征空间的搜索阶段,本发明结合了多个过滤器对信贷客户特征度量的排序结果,通过设置不同的阈值,较合理地选取了重要性综合排名更靠前的信贷客户特征集合,产生了所有的候选信贷客户特征子集。相比于用单一过滤器进行特征选择,多个过滤器结合选出的最优信贷客户特征子集能有效提升信贷风险评估的精确率。
(3)本发明提供了一种评估不同类别间信贷客户样本的可分离程度的NSD指标,对所有候选特征子集进行评估,用于对最终信贷客户特征子集的选取提供依据。相比于用传统的包装器方法进行特征选择,使用NSD指标对候选信贷客户特征子集进行评估,能够有效替代特定分类器的反复训练和测试过程,极大地降低了信贷客户特征选择过程中的计算开销,提升了信贷客户特征选择的时间效率。
附图说明
图1是本发明方法的流程图。
图2是实施例中使用多个过滤器对信贷客户所有特征进行度量并排序的过程示意图;(A)表示用“F-score”过滤器对特征进行度量的过程及排序结果;(B)表示用“Pearson相关系数”过滤器对特征进行度量的过程及排序结果;(C)表示用“Relief”过滤器对特征进行度量的过程及排序结果。
图3是实施例中使用多个过滤器对信贷客户所有特征进行度量后得到的特征排序矩阵M。
图4是实施例中对特征排序矩阵M进行搜索产生候选特征子集的过程示意图。
图5是信贷客户样本空间O的空间分布示意图。
图6是用NSD指标对所有的候选特征子集进行评估并选出最优特征子集的过程示意图。
图7是本发明方法(MFNS)与其他四种基于单一过滤器的方法以及SFS_LW特征选择方法的实验结果对比图;(A)是在German credit data数据集上的实验结果;(B)是在Australia credit data数据集上的实验结果;
图8是本发明方法(MFNS)与其他两种使用包装器的特征选择方法的实验结果对比图;(A)是在German credit data数据集上的实验结果;(B)是在Australia credit data数据集上的实验结果。
具体实施方式
在本发明中,所述的“过滤器”是指一些可用于进行特征选择的统计学度量方法,如F-score、Pearson相关系数、Information Gain(IG)、Relief、χ2检验等。这些用于特征选择的方法,按照不同的度量标准,对于每一维信贷客户特征都分别可得到不同的分数。因此,在用不同的过滤器对信贷客户的所有特征进行度量时,每一维特征在不同过滤器中的表现并不同,所体现出的重要程度也不同。本发明中采用的“不同种类的过滤器”是指通过上述不同的度量方法对特征的重要程度进行度量。
本发明中使用NSD指标作为计算不同类别样本间可分离程度的指标。当NSD指标越大,说明不同类别样本间的可分离程度越强。进而选用NSD指标最大的特征子集对所有的样本进行分类时,能够取得更好的分类效果。并且在信贷风险评估的过程中,只有不同类别的信贷客户被很好地分离开,并且取得更好的分类效果时,信贷风险评估的精确率才会越高。
对于一个信贷客户数据集,包含有多个信贷客户,每个信贷客户具有多个特征(如客户的学历、教育水平、职务、收入、借款情况等很多信息),其中的信贷客户特征被标记有不同类型的标签,这些标签将信贷客户分为不同的类型,如违约、不违约等。本发明公开的一种基于多过滤器结合NSD指标的信贷客户特征选择方法,对信贷客户数据集中的信贷客户特征进行选择,该方法具体包括以下步骤:
步骤一:使用N个不同种类的过滤器分别对信贷客户的M个特征的重要程度进行度量,获得度量结果R,具体过程为:
步骤1.1:使用第n种过滤器对所有信贷客户的第m个特征的重要程度进行度量,对于同一特征,每个过滤器会对所有客户的该特征综合处理后输出一个度量结果,即n=1,2,...,N;m=1,2,...,M;N表示过滤器的个数,M表示特征的个数,N≥2,M≥1;
步骤1.2:依据上述步骤1.1,使用第n种过滤器对所有特征的重要程度进行度量,获得度量结果为
步骤1.3:依照上述步骤1.1至步骤1.2,使用所有不同种类的过滤器对所有特征的重要程度进行度量,获得度量结果矩阵R;
步骤二:不同的过滤器处理后的分数高低可能不同,按照步骤1.3中度量结果的大小对每个度量结果对应的特征进行降序排序,构成信贷客户的特征排序矩阵[P]m×n
步骤三:对信贷客户特征排序矩阵[P]m×n进行搜索,产生多个候选特征子集A1,A2,...,Ak,...,AK,其中,Ak表示信贷客户的第k个候选特征子集,K表示候选特征子集的个数,具体包括:
步骤3.1,设置一个阈值T,并将其初始化为0;
步骤3.2,初始化一个用于存放所有候选特征子集的集合C;
步骤3.3,按照Tg+1=Tg+1增加阈值,其中Tg表示第g个阈值,T0=0,搜索阈值为Tg+1时信贷客户特征排序矩阵前Tg+1行中的所有信贷客户特征,并将每一列都存在的共同特征选出,作为一个候选特征子集,加入到集合C中;
步骤3.4:重复上述步骤3.3,直至阈值Tg+1等于信贷客户特征排序矩阵P的行数M,得到的集合C为候选特征集,C=A1,A2,...,Ak,...,AK
步骤四:计算每一个候选特征子集的NSDk值,具体包括:
步骤4.1:对于第k个候选特征子集Ak,Ak=[ak1,...,aks,…,akS],aks表示第k个特征子集Ak中的第s个特征。首先根据不同类型的标签将特征ak1,..,aks,…,akS建立为不同类别的样本,其中,所有样本中都包含ak1,..,aks,...,akS这几维特征;然后将这些不同类别的样本合并为一个新的信贷客户样本空间Ok
统计信贷客户样本空间Ok中的样本类别数,记为Lk,样本类别数Lk就等于原始数据集中的标签类别;统计样本空间Ok中每个类别对应的信贷客户样本的信贷客户样本数,记为i和j均表示信贷客户样本的样本类别。通过公式(2)和(3)可分别计算出样本空间O中,每个类别的信贷客户样本的样本中心;
其中,表示样本空间Ok中第i类信贷客户样本的样本数,表示样本空间Ok中第j类信贷客户样本中的样本数,i=1,2,…,Lk,j=1,2,…,Lk,i≠j;表示样本空间Ok中第i类的信贷客户样本的样本中心;表示样本空间Ok中第j类的信贷客户样本的样本中心;表示第i类信贷客户样本中的第t个样本;表示第j类信贷客户样本中的第t个样本;
步骤4.2:分别计算第i类的样本中心与其他每个类别(如j类)中所有样本之间的距离,并找出各个类别中距离第i类样本中心最近的样本,将其记为Q1_nearesti(ak1,..,aks,..,akS),..,Qj_nearesti(ak1,..,aks,..,akS),..,QL-1_nearesti(ak1,..,aks,..,akS),j≠i,Qj_nearesti(ak1,..,aks,..,akS)表示样本空间Ok中距离第i类信贷客户样本中心最近的第j类信贷客户样本。通过下式(1)计算候选特征子集Ak的NSD值;
其中,表示样本空间Ok中距离第i类信贷客户样本中心最近的第j类信贷客户样本;表示样本空间Ok中距离第j个信贷客户样本中心最近的第i类信贷客户样本;
步骤4.3:依照上述步骤4.1至4.2,得到每一个候选信贷客户特征子集对应的NSD值;
步骤五:对步骤四获得的所有候选信贷客户特征子集的NSD进行比较,选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。
本发明还给出一种基于多过滤器结合NSD指标的信贷客户特征选择系统,同样,本发明的系统也是对信贷客户数据集中的信贷客户特征进行选择,该系统包括:
基于多过滤器的信贷客户特征度量模块,用于使用N个不同种类的过滤器分别对信贷客户的M个特征的重要程度进行度量,获得度量结果R,具体为:
首先,使用第n种过滤器对所有信贷客户的第m个特征的重要程度进行度量,输出度量结果n=1,2,...,N;m=1,2,...,M;N表示过滤器的个数,M表示特征的个数,N≥2,M≥1;N种过滤器的种类不同;
然后,依据上述过程,使用第n种过滤器对所有特征的重要程度进行度量,获得度量结果为
最后,依照前两个过程,使用所有不同种类的过滤器对所有特征的重要程度进行度量,获得度量结果矩阵R;
特征排序模块,用于按照基于多过滤器的信贷客户特征度量模块中的度量结果的大小对每个度量结果对应的特征进行排序,构成信贷客户的特征排序矩阵[P]m×n
特征搜索模块,用于特征排序矩阵[P]m×n进行搜索,产生多个候选特征子集A1,A2,...,Ak,...,AK,其中,Ak表示信贷客户的第k个候选特征子集,Ak=[ak1,...,aks,...,akS],aks表示第k个候选特征子集Ak中的第s个特征;K表示候选特征子集的个数;具体包括以下过程:
首先,设置一个阈值T,并将其初始化为0;
其次,初始化一个用于存放所有候选特征子集的集合C;
然后,按照Tg+1=Tg+1增加阈值,其中Tg表示第g个阈值,T0=0,搜索阈值为Tg+1时信贷客户特征排序矩阵前Tg+1行中的所有信贷客户特征,并将每一列都存在的共同特征选出,作为一个候选特征子集,加入到集合C中;
最后,重复上述增加阈值的过程,直至阈值等于信贷客户特征排序矩阵P的行数M,得到的集合C为候选特征集,C=A1,A2,...,Ak,...,AK
NSD值计算模块,用于计算每一个候选特征子集的NSD值,具体包括:
首先,根据原始信贷客户数据集中不同类型的标签将特征ak1,..,aks,...,akS建立为不同类别的样本,其中,每个样本中均包括特征ak1,..,aks,...,akS,然后将这些样本合并为一个信贷客户样本空间Ok
然后,通过下式(1)计算候选特征子集Ak的NSD值;
其中,表示样本空间Ok中第i类信贷客户样本的样本数,表示样本空间Ok中第j类信贷客户样本中的样本数,i=1,2,…,Lk,j=1,2,…,Lk,i≠j,Lk表示样本空间Ok中的样本类别数;表示样本空间Ok中第i类的信贷客户样本的样本中心;表示样本空间Ok中第j类的信贷客户样本的样本中心;表示样本空间Ok中第i类信贷客户样本中的第t个样本;表示样本空间Ok中第j类信贷客户样本中的第t个样本;表示样本空间Ok中距离第i类信贷客户样本中心最近的第j类信贷客户样本;表示样本空间Ok中距离第j类信贷客户样本中心最近的第i类信贷客户样本;
最后,依照上述过程,计算每一个候选信贷客户特征子集对应的NSD值;
NSD值比较模块,用于对NSD值计算模块获得的所有候选信贷客户特征子集的NSD值进行比较,选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。
下面给出本发明的具体实施例,进一步阐述本发明方法的具体实施过程,以验证本发明的有益效果。
实施例
现有一个信贷客户数据集D共有1000个客户,且每一位客户都包含10维特征信息。
步骤一:本实施例选用了3个单一的过滤器F-score、Pearson相关系数和Relief分别对客户所有的特征进行度量,并将所有的特征按照度量评分进行排序的结果如图2所示。图2中(A)、(B)和(C)分别表示了用3个不同的单一过滤器对10维特征的度量情况。首先,计算了各个过滤器对10维特征重要程度的评分,然后将各个特征按照评分的大小进行了降序排序。特征排序矩阵P的大小为10*3,如图3所示。
步骤二:对特征排序矩阵P进行搜索,具体为:
步骤2.1,设置一个阈值T,并将其初始化为0;
步骤2.2,初始化一个用于存放所有候选特征子集的集合C;
步骤2.3,按照Tg+1=Tg+1增加阈值,其中Tg表示第g个阈值,T0=0,搜索阈值为Tg+1时信贷客户特征排序矩阵前Tg+1行中的所有信贷客户特征,并将每一列都存在的共同特征选出,作为一个候选特征子集,加入到集合C中;
步骤2.4:重复上述步骤2.3,直至阈值Tg+1等于信贷客户特征排序矩阵P的行数M,得到的集合C为候选特征集,C=A1,A2,...,Ak,...,AK。Ak=[ak1,...,aks,...,akS],aks表示第k个特征子集Ak中的第s个特征。
本实施例通过依次变换阈值Tg+1的大小,对步骤1中产生的特征排序矩阵P进行了搜索,并依次记录每一阈值T下所产生的候选特征子集,组成了一个候选特征集合C。具体实施过程如图4所示,当阈值T1=1时,搜索特征排序矩阵P的第一行,矩阵对应的3列中不存在共同特征,故此时的候选特征子集为φ,记为null。接着,阈值T依次递增,每次继续搜索特征排序矩阵P中的前Tg+1行,记录下矩阵中每一列都存在的共同特征,组成一个候选特征子集,并将其添加到候选特征集合中。
步骤三:使用评价指标NSD对每一个候选特征子集进行评估,具体为:
提取信贷客户样本中的特征ak1,..,aks,...,akS,根据不同的标签建立不同的样本,将这些样本合并为一个新的信贷客户样本空间Ok
如图5所示,提取信贷客户样本中的特征ak1,..,aks,...,akS,根据不同的标签建立不同的样本,将这些样本合并为一个新的信贷客户样本空间Ok
步骤3.2:通过下式(1)计算候选特征子集Ak的NSDk值;
其中,表示样本空间Ok中第i类信贷客户样本的样本数,表示样本空间Ok中第j类信贷客户样本中的样本数,i=1,2,…,Lk,j=1,2,…,Lk,i≠j,Lk表示样本空间Ok中的样本类别数;表示样本空间Ok中第i类的信贷客户样本的样本中心;表示样本空间Ok中第j类的信贷客户样本的样本中心;表示样本空间Ok中第i类信贷客户样本中的第t个样本;表示样本空间Ok中第j类信贷客户样本中的第t个样本;表示样本空间Ok中距离第i类信贷客户样本中心最近的第j类信贷客户样本;表示样本空间Ok中距离第j类信贷客户样本中心最近的第i类信贷客户样本。本实施例中的样本类别L=2。
步骤4.3:依照上述步骤4.1至4.2,得到每一个候选信贷客户特征子集对应的NSD值。
步骤五:对步骤四获得的所有候选信贷客户特征子集的NSD进行比较,选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。如图6所示,在所有的候选特征子集中,{4 5 6 7 9}这一特征子集拥有最大的NSD值。即当样本空间中所有的样本都只包含4、5、6、7、9这几维特征时,样本之间可被分离的程度最强。所以{4 5 6 7 9}为选出的最优特征集合。
为了验证本发明方法的有效性,本发明选取了UCI公开数据库中的两个信贷数据集German credit data和Australia credit data进行了实验验证:
首先,为了验证本发明提出的基于多过滤器结合NSD指标的信贷客户特征选择方法在信贷风险评估中的效果,选取了四种不同的过滤器(F-score、Pearson相关系数、Information Gain(IG)、Relief)进行结合,用本发明的方法对信贷客户特征进行了选择。然后,分别选取上述四种单一的过滤器,依旧结合NSD指标进行了特征选择。最后,将本发明的方法与四种单一过滤器结合NSD指标的方法,以及现有的SFS_LW特征选择方法进行了比较。用SVM分类器和决策树C4.5分类器分别对各个方法选出的信贷客户特征子集进行训练和测试,并将两种信贷风险评估模型的分类精确率作为评价准则。实验结果如图7所示,图7(A)是在German credit data数据集上的实验结果;图7(B)是在Australia credit data数据集上的实验结果。实验结果表明,本发明提出的方法在进行特征选择时,所选信贷客户特征的分类精确率明显要高于其他使用单一过滤器的方法,也明显高于SFS_LW方法,在信贷风险评估的过程中具有明显的优势。
然后,为了验证本发明提出的基于多过滤器结合NSD指标的信贷客户特征选择方法在面对海量的信贷客户数据时,特征选择的过程更具有高效性,本方案依旧选取了四种不同的过滤器(F-score、Pearson相关系数、Information Gain(IG)、Relief),并将其按照不同组合方式进行结合,通过对所有信贷客户特征进行度量,产生了多个候选的信贷客户特征子集。然后,在对候选信贷客户特征子集进行评估的阶段,将本发明中基于NSD指标的候选特征子集评估方法与其他两种使用分类器的候选特征子集评估方法进行了比较,计算了各个特征选择方法在信贷风险评估过程中的运行时间。实验结果如图8所示,图8(A)是在German credit data数据集上的实验结果;图8(B)是在Australia credit data数据集上的实验结果。实验结果表明,本发明提出的方法在进行特征选择时,运行的时间基本能够控制在1秒以内,而其他两种方法在Australia credit data数据集上的运行时间几乎是它的好几倍,而在German credit data数据集上的运行时间甚至是它的几十倍还不止。由此可知,本发明提出的方法在对海量的信贷客户数据进行特征选择时具有明显的优势,能够大大提升信贷风险评估过程中的时间效率。
需要说明的是,本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。

Claims (4)

1.多过滤器结合NSD指标的信贷客户特征选择方法,该方法用于对信贷客户数据集中的信贷客户特征进行选择,其中,信贷客户数据集中的信贷客户的特征被标记有不同类型的标签;
其特征在于,该方法包括以下步骤:
步骤一:使用N个不同种类的过滤器分别对信贷客户的M个特征的重要程度进行度量,获得度量结果R:
步骤1.1:使用第n种过滤器对所有信贷客户的第m个特征的重要程度进行度量,获得度量结果n=1,2,...,N;m=1,2,...,M;N表示过滤器的个数,M表示特征的个数,N≥2,M≥1;
步骤1.2:依据上述步骤1.1,使用第n种过滤器对所有特征的重要程度进行度量,获得度量结果
步骤1.3:依照上述步骤1.1至步骤1.2,使用所有不同种类的过滤器对所有特征的重要程度进行度量,获得度量结果R;
步骤二:按照步骤1.3中度量结果的大小对每个度量结果对应的特征进行排序,构成信贷客户的特征排序矩阵[P]m×n
步骤三:对信贷客户特征排序矩阵[P]m×n进行搜索,产生多个候选特征子集A1,A2,...,Ak,...,AK,其中,Ak表示信贷客户的第k个候选特征子集,Ak=[ak1,...,aks,…,akS],aks表示第k个候选特征子集Ak中的第s个特征;K表示候选特征子集的个数;
步骤四:计算每一个候选特征子集的NSD值;
步骤4.1:根据信贷客户数据集中不同类型的标签将特征ak1,..,aks,…,akS建立为不同类别的样本,然后将这些样本合并为一个信贷客户样本空间Ok
步骤4.2:通过下式(1)计算候选特征子集Ak的NSDk值;
其中,表示样本空间Ok中第i类信贷客户样本的样本数,表示样本空间Ok中第j类信贷客户样本中的样本数,i=1,2,…,Lk,j=1,2,…,Lk,i≠j,Lk表示样本空间Ok中的样本类别数;表示样本空间Ok中第i类的信贷客户样本的样本中心;表示样本空间Ok中第j类的信贷客户样本的样本中心;表示样本空间Ok中第i类信贷客户样本中的第t个样本;表示样本空间Ok中第j类信贷客户样本中的第t个样本;表示样本空间Ok中距离第i类信贷客户样本中心最近的第j类信贷客户样本;表示样本空间Ok中距离第j类信贷客户样本中心最近的第i类信贷客户样本;
步骤4.3:依照上述步骤4.1至4.2,得到每一个候选信贷客户特征子集对应的NSD值;
步骤五:对步骤四获得的所有候选信贷客户特征子集的NSD值进行比较,选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。
2.如权利要求1所述的多过滤器结合NSD指标的信贷客户特征选择方法,其特征在于,所述的步骤三包括:
步骤3.1,设置一个阈值T,并将其初始化为0;
步骤3.2,初始化一个用于存放所有候选特征子集的集合C;
步骤3.3,按照Tg+1=Tg+1增加阈值,其中Tg表示第g个阈值,T0=0,搜索阈值为Tg+1时信贷客户特征排序矩阵前Tg+1行中的所有信贷客户特征,并将每一列都存在的共同特征选出,作为一个候选特征子集,加入到集合C中;
步骤3.4:重复上述步骤3.3,直至阈值等于信贷客户特征排序矩阵P的行数M,得到的集合C为候选特征集,C=A1,A2,...,Ak,...,AK
3.多过滤器结合NSD指标的信贷客户特征选择系统,该系统用于对信贷客户数据集中的信贷客户的特征进行选择,其中,信贷客户数据集中的信贷客户特征被标记有不同类型的标签,其特征在于,该系统包括:
基于多过滤器的信贷客户特征度量模块,用于使用N个不同种类的过滤器分别对信贷客户的M个特征的重要程度进行度量,获得度量结果R,具体为:
首先,使用第n种过滤器对所有信贷客户的第m个特征的重要程度进行度量,输出度量结果n=1,2,...,N;m=1,2,...,M;N表示过滤器的个数,M表示特征的个数,N≥2,M≥1;N种过滤器的种类不同;
然后,依据上述过程,使用第n种过滤器对所有特征的重要程度进行度量,获得度量结果为
最后,依照前两个过程,使用所有不同种类的过滤器对所有特征的重要程度进行度量,获得度量结果矩阵R;
特征排序模块,用于按照基于多过滤器的信贷客户特征度量模块中的度量结果的大小对每个度量结果对应的特征进行排序,构成信贷客户的特征排序矩阵[P]m×n
特征搜索模块,用于对信贷客户特征排序矩阵[P]m×n进行搜索,产生多个候选特征子集A1,A2,...,Ak,...,AK,其中,Ak表示信贷客户的第k个候选特征子集,Ak=[ak1,...,aks,...,akS],aks表示第k个候选特征子集Ak中的第s个特征;K表示候选特征子集的个数;
NSD值计算模块,用于计算每一个候选特征子集的NSD值,具体包括:
首先,根据信贷客户数据集中不同类型的标签将特征ak1,..,aks,…,akS建立为不同类别的样本,然后将这些样本合并为一个信贷客户样本空间Ok
然后,通过下式(1)计算候选特征子集Ak的NSDk值;
其中,表示样本空间Ok中第i类信贷客户样本的样本数,表示样本空间Ok中第j类信贷客户样本中的样本数,i=1,2,…,L,j=1,2,…,L,i≠j,Lk表示样本空间Ok中的样本类别数;表示样本空间Ok中第i类的信贷客户样本的样本中心;表示样本空间Ok中第j类的信贷客户样本的样本中心;表示样本空间Ok中第i类信贷客户样本中的第t个样本;表示样本空间Ok中第j类信贷客户样本中的第t个样本;表示样本空间Ok中距离第i类信贷客户样本中心最近的第j类信贷客户样本;表示样本空间Ok中距离第j类信贷客户样本中心最近的第i类信贷客户样本;
最后,依照上述过程,计算每一个候选信贷客户特征子集对应的NSD值;
NSD值比较模块,用于对NSD值计算模块获得的所有候选信贷客户特征子集的NSD值进行比较,选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。
4.如权利要求3所述的多过滤器结合NSD指标的信贷客户特征选择系统,其特征在于,所述的特征搜索模块包括:
首先,设置一个阈值T,并将其初始化为0;
其次,初始化一个用于存放所有候选特征子集的集合C;
然后,按照Tg+1=Tg+1增加阈值,其中Tg表示第g个阈值,T0=0,搜索阈值为Tg+1时信贷客户特征排序矩阵前Tg+1行中的所有信贷客户特征,并将每一列都存在的共同特征选出,作为一个候选特征子集,加入到集合C中;
最后,重复上述增加阈值的过程,直至阈值等于信贷客户特征排序矩阵P的行数M,得到的集合C为候选特征集,C=A1,A2,...,Ak,...,AK
CN201910124047.1A 2019-02-19 2019-02-19 多过滤器结合nsd指标的信贷客户特征选择方法和系统 Pending CN110111192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910124047.1A CN110111192A (zh) 2019-02-19 2019-02-19 多过滤器结合nsd指标的信贷客户特征选择方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910124047.1A CN110111192A (zh) 2019-02-19 2019-02-19 多过滤器结合nsd指标的信贷客户特征选择方法和系统

Publications (1)

Publication Number Publication Date
CN110111192A true CN110111192A (zh) 2019-08-09

Family

ID=67484161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910124047.1A Pending CN110111192A (zh) 2019-02-19 2019-02-19 多过滤器结合nsd指标的信贷客户特征选择方法和系统

Country Status (1)

Country Link
CN (1) CN110111192A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928893A (zh) * 2019-11-18 2020-03-27 中国建设银行股份有限公司 一种标签查询方法、装置、设备和存储介质
CN112308703A (zh) * 2020-11-02 2021-02-02 创新奇智(重庆)科技有限公司 用户分群方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137909A (en) * 1995-06-30 2000-10-24 The United States Of America As Represented By The Secretary Of The Navy System and method for feature set reduction
US20040250131A1 (en) * 2003-06-06 2004-12-09 Microsoft Corporation Method for managing network filter based policies
JP2011113550A (ja) * 2009-11-30 2011-06-09 Canon Inc 情報処理装置、情報処理方法、情報処理システム、プログラム及びデータ構造
CN105046497A (zh) * 2007-11-14 2015-11-11 潘吉瓦公司 评估供应交易的公共记录
CN106228027A (zh) * 2016-08-26 2016-12-14 西北大学 一种多视角数据的半监督特征选择方法
CN107346434A (zh) * 2017-05-03 2017-11-14 上海大学 一种基于多特征及支持向量机的植物病虫害检测方法
WO2018041168A1 (zh) * 2016-08-31 2018-03-08 腾讯科技(深圳)有限公司 信息推送方法、存储介质和服务器
CN108446635A (zh) * 2018-03-19 2018-08-24 西北大学 一种利用脑电信号辅助偏好获取协同过滤推荐系统及方法
CN108984802A (zh) * 2018-08-22 2018-12-11 成都安恒信息技术有限公司 一种在运维审计系统中的设备分类查找方法
CN109272037A (zh) * 2018-09-17 2019-01-25 江南大学 一种应用于红外火焰识别的自组织ts型模糊网络建模方法
CN109325844A (zh) * 2018-06-25 2019-02-12 南京工业大学 多维数据下的网贷借款人信用评价方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137909A (en) * 1995-06-30 2000-10-24 The United States Of America As Represented By The Secretary Of The Navy System and method for feature set reduction
US20040250131A1 (en) * 2003-06-06 2004-12-09 Microsoft Corporation Method for managing network filter based policies
CN105046497A (zh) * 2007-11-14 2015-11-11 潘吉瓦公司 评估供应交易的公共记录
JP2011113550A (ja) * 2009-11-30 2011-06-09 Canon Inc 情報処理装置、情報処理方法、情報処理システム、プログラム及びデータ構造
CN106228027A (zh) * 2016-08-26 2016-12-14 西北大学 一种多视角数据的半监督特征选择方法
WO2018041168A1 (zh) * 2016-08-31 2018-03-08 腾讯科技(深圳)有限公司 信息推送方法、存储介质和服务器
CN107346434A (zh) * 2017-05-03 2017-11-14 上海大学 一种基于多特征及支持向量机的植物病虫害检测方法
CN108446635A (zh) * 2018-03-19 2018-08-24 西北大学 一种利用脑电信号辅助偏好获取协同过滤推荐系统及方法
CN109325844A (zh) * 2018-06-25 2019-02-12 南京工业大学 多维数据下的网贷借款人信用评价方法
CN108984802A (zh) * 2018-08-22 2018-12-11 成都安恒信息技术有限公司 一种在运维审计系统中的设备分类查找方法
CN109272037A (zh) * 2018-09-17 2019-01-25 江南大学 一种应用于红外火焰识别的自组织ts型模糊网络建模方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴云峰等: "基于多分类器的迁移Bagging习题推荐", 《计算机应用》 *
夏道平等: "分散矩阵特征选择方法改进及在高光谱影像植被分类中的应用", 《农业工程学报》 *
孙霞等: "Hadoop框架下的多标签传播算法", 《西安交通大学学报》 *
胡素君等: "排序特征子集选取方法研究", 《计算机技术与发展》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928893A (zh) * 2019-11-18 2020-03-27 中国建设银行股份有限公司 一种标签查询方法、装置、设备和存储介质
CN110928893B (zh) * 2019-11-18 2022-10-21 中国建设银行股份有限公司 一种标签查询方法、装置、设备和存储介质
CN112308703A (zh) * 2020-11-02 2021-02-02 创新奇智(重庆)科技有限公司 用户分群方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108388927A (zh) 基于深度卷积孪生网络的小样本极化sar地物分类方法
CN112257647A (zh) 基于注意力机制的人脸表情识别方法
Feng et al. Multiple kernel learning based on discriminative kernel clustering for hyperspectral band selection
CN111914728B (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
CN110580268A (zh) 一种基于深度学习的信用评分集成分类系统和方法
CN105897517A (zh) 一种基于svm的网络流量异常检测方法
CN112700325A (zh) 一种基于Stacking集成学习的网贷回头客预测的方法
CN102799635A (zh) 一种用户驱动的图像集合排序方法
Blumenstein et al. The 4NSigComp2010 off-line signature verification competition: Scenario 2
Li et al. DeepHSV: User-independent offline signature verification using two-channel CNN
CN113489685A (zh) 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
CN106960387A (zh) 个人信用风险评估方法及系统
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN108830312A (zh) 一种基于样本自适应扩充的集成学习方法
CN103336942A (zh) 一种基于Radon BEMD变换的国画鉴定方法
CN108629373A (zh) 一种图像分类方法、系统、设备及计算机可读存储介质
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN110111192A (zh) 多过滤器结合nsd指标的信贷客户特征选择方法和系统
CN109800790A (zh) 一种面向高维数据的特征选择方法
CN104966075A (zh) 一种基于二维判别特征的人脸识别方法与系统
CN109347719A (zh) 一种基于机器学习的图像垃圾邮件过滤方法
CN109063773B (zh) 一种利用图像特征提高激光探针分类精度的方法
Katterbauer et al. A robo-advisory framework for Islamic and Environmental, Social and Governance (ESG) compliance–A benchmark study on the S&P 500 stock index
CN108776809A (zh) 一种基于Fisher核的双重采样集成分类模型
Kang et al. Hyperspectral image classification: A benchmark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230721