CN110111192A

CN110111192A - 多过滤器结合nsd指标的信贷客户特征选择方法和系统

Info

Publication number: CN110111192A
Application number: CN201910124047.1A
Authority: CN
Inventors: 冯宏伟; 李霜; 田梦允; 冯筠
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-08-09

Abstract

本发明公开了一种基于多过滤器结合NSD指标的信贷客户特征选择方法，首先用多个过滤器分别对信贷客户的所有特征进行度量，构成特征排序矩阵；然后对特征排序矩阵进行搜索，产生多个候选的信贷客户特征子集；最后用NSD评价指标对所有候选的信贷客户特征子集进行评估，选出最优的适用于信贷风险评估的特征。本发明方法结合了多个过滤器式的特征选择机制，实现了从多个角度共同对信贷客户所有特征进行评估和选择，解决了信贷客户的最优特征子集选择不合理的问题；相比于用单一过滤器进行特征选择，多个过滤器结合选出的最优信贷客户特征子集能有效提升信贷风险评估的精确率。

Description

多过滤器结合NSD指标的信贷客户特征选择方法和系统

技术领域

本发明属于金融业信用风险管理领域，涉及一种信贷风险评估中的信贷客户特征选择方法，具体涉及一种基于多过滤器结合NSD指标的信贷客户特征选择方法。

背景技术

随着互联网金融的快速发展，许多银行机构和网络借贷平台暴露出越来越多的信用风险。信贷风险评估作为一种有效的工具，可以利用客户的信息和客户的活动数据来识别潜在的风险，在金融机构中发挥着越来越重要的作用。然而，由于信贷客户数据海量且高维的特性，信贷风险评估模型的建立面临着巨大的挑战。一方面，海量的信贷客户数据不断涌现，直接使用原始数据对客户进行信贷风险评估已变得十分困难。另一方面，信贷客户数据中通常包含很多特征，究竟哪些特征更容易导致客户发生违约，哪些特征在信贷风险评估中是无关且冗余的，这都是不容易被识别的。因此，采用特征选择的方法对原始的信贷客户数据进行分析，并从中选择出更适用于信贷风险评估的信贷客户特征是很有必要的。这将有利于信贷风险评估模型的建立，以提高金融机构对潜在违约客户识别的精确率。

目前，信贷客户特征选择的方法主要分为两大类：1)基于过滤器的特征选择方法。这种方法通常采用某一统计学的度量，对每一维信贷客户特征的重要程度进行计算，然后将所有信贷客户特征按照度量的结果进行排序，最后选择出排序靠前的几维信贷客户特征作为最优的特征子集。2)基于包装器的特征方法。这种方法通常包括三个要素：搜索策略、评价函数和性能函数。首先，利用某一搜索策略搜索整个信贷客户特征空间，产生多个候选的信贷客户特征子集。然后，利用评价函数对所有候选的信贷客户特征子集进行评估。通常，这种方法中的评价函数都设置为某一特定的分类器。经过对分类器不断地训练和测试，实现所有候选的信贷客户特征子集的评估。最后，根据性能函数的表现，选择出最优的信贷客户特征子集。

尽管上述的两种特征选择算法都存在各自的特点。然而，在使用基于过滤器的方法对信贷客户进行特征选择时，只使用单一的过滤器对所有的信贷客户特征进行度量，就只能从单一的视角去关注所有信贷客户特征的重要程度，这就可能会忽略掉特征所包含的其他方面信息，导致最优信贷客户特征子集的选择不合理。此外，在使用基于包装器的方法对信贷客户数据进行特征选择时，由于这种方法必须基于某一特定分类器的训练和测试过程，才能实现对所有候选的信贷客户特征子集的评估。因此，当海量且高维的信贷客户数据用这种方法进行特征选择时，所有候选的信贷客户特征子集的评估过程会呈现出很大的计算开销，并且随着特征维数的增加，这种方法在实际信贷风险评估中并不适用。

发明内容

为解决现有技术中存在的不足，本发明提供了一种多过滤器结合NSD指标的信贷客户特征选择方法和系统，解决现有方法中单一过滤器进行特征选择时，信贷客户最优特征子集选择不合理的问题，以及用包装器对高维且海量的信贷客户数据进行特征选择时，计算开销过大的问题。

为了解决上述技术问题，本发明采用如下技术方案予以实现：

本发明公开的多过滤器结合NSD指标的信贷客户特征选择方法，该方法用于对信贷客户数据集中的信贷客户特征进行选择，其中，信贷客户数据集中的信贷客户的特征被标记有不同类型的标签；该方法包括以下步骤：

步骤一：使用N个不同种类的过滤器分别对信贷客户的M个特征的重要程度进行度量，获得度量结果R：

步骤1.1：使用第n种过滤器对所有信贷客户的第m个特征的重要程度进行度量，获得度量结果n＝1,2,...,N；m＝1，2,...,M；N表示过滤器的个数，M表示特征的个数，N≥2，M≥1；

步骤1.2：依据上述步骤1.1，使用第n种过滤器对所有特征的重要程度进行度量，获得度量结果

步骤1.3：依照上述步骤1.1至步骤1.2，使用所有不同种类的过滤器对所有特征的重要程度进行度量，获得度量结果R；

步骤二：按照步骤1.3中度量结果的大小对每个度量结果对应的特征进行排序，构成信贷客户的特征排序矩阵[P]_m×n；

步骤三：对信贷客户特征排序矩阵[P]_m×n进行搜索，产生多个候选特征子集A₁,A₂,...,A_k,...,A_K，其中，A_k表示信贷客户的第k个候选特征子集，A_k＝[a_k1,...,a_ks,...,a_kS]，a_ks表示第k个候选特征子集A_k中的第s个特征；K表示候选特征子集的个数；

步骤四：计算每一个候选特征子集的NSD值；

步骤4.1：根据信贷客户数据集中不同类型的标签将特征a_k1,..,a_ks,...,a_kS建立为不同类别的样本，然后将这些样本合并为一个信贷客户样本空间O_k；

步骤4.2：通过下式(1)计算候选特征子集A_k的NSD_k值；

其中，表示样本空间O_k中第i类信贷客户样本的样本数，表示样本空间O_k中第j类信贷客户样本中的样本数，i＝1,2,…,L_k，j＝1,2,…,L_k，i≠j，L_k表示样本空间O_k中的样本类别数；表示样本空间O_k中第i类的信贷客户样本的样本中心；表示样本空间O_k中第j类的信贷客户样本的样本中心；表示样本空间O_k中第i类信贷客户样本中的第t个样本；表示样本空间O_k中第j类信贷客户样本中的第t个样本；表示样本空间O_k中距离第i类信贷客户样本中心最近的第j类信贷客户样本；表示样本空间O_k中距离第j类信贷客户样本中心最近的第i类信贷客户样本；

步骤4.3：依照上述步骤4.1至4.2，得到每一个候选信贷客户特征子集对应的NSD值；

步骤五：对步骤四获得的所有候选信贷客户特征子集的NSD值进行比较，选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。

具体的，所述的步骤三包括：

步骤3.1，设置一个阈值T，并将其初始化为0；

步骤3.2，初始化一个用于存放所有候选特征子集的集合C；

步骤3.3，按照T_g+1＝T_g+1增加阈值，其中T_g表示第g个阈值，T₀＝0，搜索阈值为T_g+1时信贷客户特征排序矩阵前T_g+1行中的所有信贷客户特征，并将每一列都存在的共同特征选出，作为一个候选特征子集，加入到集合C中；

步骤3.4：重复上述步骤3.3，直至阈值等于信贷客户特征排序矩阵P的行数M，得到的集合C为候选特征集，C＝A₁,A₂,...,A_k,...,A_K。

本发明还公开了一种多过滤器结合NSD指标的信贷客户特征选择系统，该系统用于对信贷客户数据集中的信贷客户的特征进行选择，其中，信贷客户数据集中的信贷客户特征被标记有不同类型的标签，该系统包括：

基于多过滤器的信贷客户特征度量模块，用于使用N个不同种类的过滤器分别对信贷客户的M个特征的重要程度进行度量，获得度量结果R，具体为：

首先，使用第n种过滤器对所有信贷客户的第m个特征的重要程度进行度量，输出度量结果n＝1,2,...,N；m＝1，2,...,M；N表示过滤器的个数，M表示特征的个数，N≥2，M≥1；N种过滤器的种类不同；

然后，依据上述过程，使用第n种过滤器对所有特征的重要程度进行度量，获得度量结果为

最后，依照前两个过程，使用所有不同种类的过滤器对所有特征的重要程度进行度量，获得度量结果矩阵R；

特征排序模块，用于按照基于多过滤器的信贷客户特征度量模块中的度量结果的大小对每个度量结果对应的特征进行排序，构成信贷客户的特征排序矩阵[P]_m×n；

特征搜索模块，用于对信贷客户特征排序矩阵[P]_m×n进行搜索，产生多个候选特征子集A₁,A₂,...,A_k,...,A_K，其中，A_k表示信贷客户的第k个候选特征子集，A_k＝[a_k1,...,a_ks,...,a_kS]，a_ks表示第k个候选特征子集A_k中的第s个特征；K表示候选特征子集的个数；

NSD值计算模块，用于计算每一个候选特征子集的NSD值，具体包括：

首先，根据信贷客户数据集中不同类型的标签将特征a_k1,..,a_ks,…,a_kS建立为不同类别的样本，然后将这些样本合并为一个信贷客户样本空间O_k；

然后，通过下式(1)计算候选特征子集A_k的NSD_k值；

其中，表示样本空间O_k中第i类信贷客户样本的样本数，表示样本空间O_k中第j类信贷客户样本中的样本数，i＝1,2,…,L，j＝1,2,…,L，i≠j，L_k表示样本空间O_k中的样本类别数；表示样本空间O_k中第i类的信贷客户样本的样本中心；表示样本空间O_k中第j类的信贷客户样本的样本中心；表示样本空间O_k中第i类信贷客户样本中的第t个样本；表示样本空间O_k中第j类信贷客户样本中的第t个样本；表示样本空间O_k中距离第i类信贷客户样本中心最近的第j类信贷客户样本；表示样本空间O_k中距离第j类信贷客户样本中心最近的第i类信贷客户样本；

最后，依照上述过程，计算每一个候选信贷客户特征子集对应的NSD值；

NSD值比较模块，用于对NSD值计算模块获得的所有候选信贷客户特征子集的NSD值进行比较，选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。

具体的，所述的特征搜索模块包括：

首先，设置一个阈值T，并将其初始化为0；

其次，初始化一个用于存放所有候选特征子集的集合C；

然后，按照T_g+1＝T_g+1增加阈值，其中T_g表示第g个阈值，T₀＝0，搜索阈值为T_g+1时信贷客户特征排序矩阵前T_g+1行中的所有信贷客户特征，并将每一列都存在的共同特征选出，作为一个候选特征子集，加入到集合C中；

最后，重复上述增加阈值的过程，直至阈值等于信贷客户特征排序矩阵P的行数M，得到的集合C为候选特征集，C＝A₁,A₂,...,A_k,...,A_K。

与现有技术相比，本发明的有益效果是：

(1)本发明基于多过滤器结合NSD指标的信贷客户特征选择方法，通过使用多个过滤器对所有信贷客户特征的重要程度进行度量，解决了单一过滤器进行特征选择时，信贷客户特征的其他多方面信息容易被忽略的问题。同时，实现了从多个角度共同对信贷客户所有特征进行评估和选择，解决了信贷客户的最优特征子集选择不合理的问题。

(2)在对整个特征空间的搜索阶段，本发明结合了多个过滤器对信贷客户特征度量的排序结果，通过设置不同的阈值，较合理地选取了重要性综合排名更靠前的信贷客户特征集合，产生了所有的候选信贷客户特征子集。相比于用单一过滤器进行特征选择，多个过滤器结合选出的最优信贷客户特征子集能有效提升信贷风险评估的精确率。

(3)本发明提供了一种评估不同类别间信贷客户样本的可分离程度的NSD指标，对所有候选特征子集进行评估，用于对最终信贷客户特征子集的选取提供依据。相比于用传统的包装器方法进行特征选择，使用NSD指标对候选信贷客户特征子集进行评估，能够有效替代特定分类器的反复训练和测试过程，极大地降低了信贷客户特征选择过程中的计算开销，提升了信贷客户特征选择的时间效率。

附图说明

图1是本发明方法的流程图。

图2是实施例中使用多个过滤器对信贷客户所有特征进行度量并排序的过程示意图；(A)表示用“F-score”过滤器对特征进行度量的过程及排序结果；(B)表示用“Pearson相关系数”过滤器对特征进行度量的过程及排序结果；(C)表示用“Relief”过滤器对特征进行度量的过程及排序结果。

图3是实施例中使用多个过滤器对信贷客户所有特征进行度量后得到的特征排序矩阵M。

图4是实施例中对特征排序矩阵M进行搜索产生候选特征子集的过程示意图。

图5是信贷客户样本空间O的空间分布示意图。

图6是用NSD指标对所有的候选特征子集进行评估并选出最优特征子集的过程示意图。

图7是本发明方法(MFNS)与其他四种基于单一过滤器的方法以及SFS_LW特征选择方法的实验结果对比图；(A)是在German credit data数据集上的实验结果；(B)是在Australia credit data数据集上的实验结果；

图8是本发明方法(MFNS)与其他两种使用包装器的特征选择方法的实验结果对比图；(A)是在German credit data数据集上的实验结果；(B)是在Australia credit data数据集上的实验结果。

具体实施方式

在本发明中，所述的“过滤器”是指一些可用于进行特征选择的统计学度量方法，如F-score、Pearson相关系数、Information Gain(IG)、Relief、χ²检验等。这些用于特征选择的方法，按照不同的度量标准，对于每一维信贷客户特征都分别可得到不同的分数。因此，在用不同的过滤器对信贷客户的所有特征进行度量时，每一维特征在不同过滤器中的表现并不同，所体现出的重要程度也不同。本发明中采用的“不同种类的过滤器”是指通过上述不同的度量方法对特征的重要程度进行度量。

本发明中使用NSD指标作为计算不同类别样本间可分离程度的指标。当NSD指标越大，说明不同类别样本间的可分离程度越强。进而选用NSD指标最大的特征子集对所有的样本进行分类时，能够取得更好的分类效果。并且在信贷风险评估的过程中，只有不同类别的信贷客户被很好地分离开，并且取得更好的分类效果时，信贷风险评估的精确率才会越高。

对于一个信贷客户数据集，包含有多个信贷客户，每个信贷客户具有多个特征(如客户的学历、教育水平、职务、收入、借款情况等很多信息)，其中的信贷客户特征被标记有不同类型的标签，这些标签将信贷客户分为不同的类型，如违约、不违约等。本发明公开的一种基于多过滤器结合NSD指标的信贷客户特征选择方法，对信贷客户数据集中的信贷客户特征进行选择，该方法具体包括以下步骤：

步骤一：使用N个不同种类的过滤器分别对信贷客户的M个特征的重要程度进行度量，获得度量结果R，具体过程为：

步骤1.1：使用第n种过滤器对所有信贷客户的第m个特征的重要程度进行度量，对于同一特征，每个过滤器会对所有客户的该特征综合处理后输出一个度量结果，即n＝1,2,...,N；m＝1，2,...,M；N表示过滤器的个数，M表示特征的个数，N≥2，M≥1；

步骤1.2：依据上述步骤1.1，使用第n种过滤器对所有特征的重要程度进行度量，获得度量结果为

步骤1.3：依照上述步骤1.1至步骤1.2，使用所有不同种类的过滤器对所有特征的重要程度进行度量，获得度量结果矩阵R；

步骤二：不同的过滤器处理后的分数高低可能不同，按照步骤1.3中度量结果的大小对每个度量结果对应的特征进行降序排序，构成信贷客户的特征排序矩阵[P]_m×n；

步骤三：对信贷客户特征排序矩阵[P]_m×n进行搜索，产生多个候选特征子集A₁,A₂,...,A_k,...,A_K，其中，A_k表示信贷客户的第k个候选特征子集，K表示候选特征子集的个数，具体包括：

步骤3.1，设置一个阈值T，并将其初始化为0；

步骤3.2，初始化一个用于存放所有候选特征子集的集合C；

步骤3.4：重复上述步骤3.3，直至阈值T_g+1等于信贷客户特征排序矩阵P的行数M，得到的集合C为候选特征集，C＝A₁,A₂,...,A_k,...,A_K。

步骤四：计算每一个候选特征子集的NSD_k值，具体包括：

步骤4.1：对于第k个候选特征子集A_k，A_k＝[a_k1,...,a_ks,…,a_kS]，a_ks表示第k个特征子集A_k中的第s个特征。首先根据不同类型的标签将特征a_k1,..,a_ks,…,a_kS建立为不同类别的样本，其中，所有样本中都包含a_k1,..,a_ks,...,a_kS这几维特征；然后将这些不同类别的样本合并为一个新的信贷客户样本空间O_k；

统计信贷客户样本空间O_k中的样本类别数，记为L_k，样本类别数L_k就等于原始数据集中的标签类别；统计样本空间O_k中每个类别对应的信贷客户样本的信贷客户样本数，记为i和j均表示信贷客户样本的样本类别。通过公式(2)和(3)可分别计算出样本空间O中，每个类别的信贷客户样本的样本中心；

其中，表示样本空间O_k中第i类信贷客户样本的样本数，表示样本空间O_k中第j类信贷客户样本中的样本数，i＝1,2,…,L_k，j＝1,2,…,L_k，i≠j；表示样本空间O_k中第i类的信贷客户样本的样本中心；表示样本空间O_k中第j类的信贷客户样本的样本中心；表示第i类信贷客户样本中的第t个样本；表示第j类信贷客户样本中的第t个样本；

步骤4.2：分别计算第i类的样本中心与其他每个类别(如j类)中所有样本之间的距离，并找出各个类别中距离第i类样本中心最近的样本，将其记为Q_{1_nearesti}(a_k1,..,a_ks,..,a_kS),..,Q_{j_nearesti}(a_k1,..,a_ks,..,a_kS),..,Q_{L-1_nearesti}(a_k1,..,a_ks,..,a_kS)，j≠i，Q_{j_nearesti}(a_k1,..,a_ks,..,a_kS)表示样本空间O_k中距离第i类信贷客户样本中心最近的第j类信贷客户样本。通过下式(1)计算候选特征子集A_k的NSD值；

其中，表示样本空间O_k中距离第i类信贷客户样本中心最近的第j类信贷客户样本；表示样本空间O_k中距离第j个信贷客户样本中心最近的第i类信贷客户样本；

步骤五：对步骤四获得的所有候选信贷客户特征子集的NSD进行比较，选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。

本发明还给出一种基于多过滤器结合NSD指标的信贷客户特征选择系统，同样，本发明的系统也是对信贷客户数据集中的信贷客户特征进行选择，该系统包括：

特征搜索模块，用于特征排序矩阵[P]_m×n进行搜索，产生多个候选特征子集A₁,A₂,...,A_k,...,A_K，其中，A_k表示信贷客户的第k个候选特征子集，A_k＝[a_k1,...,a_ks,...,a_kS]，a_ks表示第k个候选特征子集A_k中的第s个特征；K表示候选特征子集的个数；具体包括以下过程：

首先，设置一个阈值T，并将其初始化为0；

其次，初始化一个用于存放所有候选特征子集的集合C；

首先，根据原始信贷客户数据集中不同类型的标签将特征a_k1,..,a_ks,...,a_kS建立为不同类别的样本，其中，每个样本中均包括特征a_k1,..,a_ks,...,a_kS，然后将这些样本合并为一个信贷客户样本空间O_k；

然后，通过下式(1)计算候选特征子集A_k的NSD值；

下面给出本发明的具体实施例，进一步阐述本发明方法的具体实施过程，以验证本发明的有益效果。

实施例

现有一个信贷客户数据集D共有1000个客户，且每一位客户都包含10维特征信息。

步骤一：本实施例选用了3个单一的过滤器F-score、Pearson相关系数和Relief分别对客户所有的特征进行度量，并将所有的特征按照度量评分进行排序的结果如图2所示。图2中(A)、(B)和(C)分别表示了用3个不同的单一过滤器对10维特征的度量情况。首先，计算了各个过滤器对10维特征重要程度的评分，然后将各个特征按照评分的大小进行了降序排序。特征排序矩阵P的大小为10*3，如图3所示。

步骤二：对特征排序矩阵P进行搜索，具体为：

步骤2.1，设置一个阈值T，并将其初始化为0；

步骤2.2，初始化一个用于存放所有候选特征子集的集合C；

步骤2.3，按照T_g+1＝T_g+1增加阈值，其中T_g表示第g个阈值，T₀＝0，搜索阈值为T_g+1时信贷客户特征排序矩阵前T_g+1行中的所有信贷客户特征，并将每一列都存在的共同特征选出，作为一个候选特征子集，加入到集合C中；

步骤2.4：重复上述步骤2.3，直至阈值T_g+1等于信贷客户特征排序矩阵P的行数M，得到的集合C为候选特征集，C＝A₁,A₂,...,A_k,...,A_K。A_k＝[a_k1,...,a_ks,...,a_kS]，a_ks表示第k个特征子集A_k中的第s个特征。

本实施例通过依次变换阈值T_g+1的大小，对步骤1中产生的特征排序矩阵P进行了搜索，并依次记录每一阈值T下所产生的候选特征子集，组成了一个候选特征集合C。具体实施过程如图4所示，当阈值T₁＝1时，搜索特征排序矩阵P的第一行，矩阵对应的3列中不存在共同特征，故此时的候选特征子集为φ，记为null。接着，阈值T依次递增，每次继续搜索特征排序矩阵P中的前T_g+1行，记录下矩阵中每一列都存在的共同特征，组成一个候选特征子集，并将其添加到候选特征集合中。

步骤三：使用评价指标NSD对每一个候选特征子集进行评估，具体为：

提取信贷客户样本中的特征a_k1,..,a_ks,...,a_kS，根据不同的标签建立不同的样本，将这些样本合并为一个新的信贷客户样本空间O_k。

如图5所示，提取信贷客户样本中的特征a_k1,..,a_ks,...,a_kS，根据不同的标签建立不同的样本，将这些样本合并为一个新的信贷客户样本空间O_k；

步骤3.2：通过下式(1)计算候选特征子集A_k的NSD_k值；

其中，表示样本空间O_k中第i类信贷客户样本的样本数，表示样本空间O_k中第j类信贷客户样本中的样本数，i＝1,2,…,L_k，j＝1,2,…,L_k，i≠j，L_k表示样本空间O_k中的样本类别数；表示样本空间O_k中第i类的信贷客户样本的样本中心；表示样本空间O_k中第j类的信贷客户样本的样本中心；表示样本空间O_k中第i类信贷客户样本中的第t个样本；表示样本空间O_k中第j类信贷客户样本中的第t个样本；表示样本空间O_k中距离第i类信贷客户样本中心最近的第j类信贷客户样本；表示样本空间O_k中距离第j类信贷客户样本中心最近的第i类信贷客户样本。本实施例中的样本类别L＝2。

步骤4.3：依照上述步骤4.1至4.2，得到每一个候选信贷客户特征子集对应的NSD值。

步骤五：对步骤四获得的所有候选信贷客户特征子集的NSD进行比较，选出NSD值最大时的候选特征子集作为最终的信贷客户特征子集。如图6所示，在所有的候选特征子集中，{4 5 6 7 9}这一特征子集拥有最大的NSD值。即当样本空间中所有的样本都只包含4、5、6、7、9这几维特征时，样本之间可被分离的程度最强。所以{4 5 6 7 9}为选出的最优特征集合。

为了验证本发明方法的有效性，本发明选取了UCI公开数据库中的两个信贷数据集German credit data和Australia credit data进行了实验验证：

首先，为了验证本发明提出的基于多过滤器结合NSD指标的信贷客户特征选择方法在信贷风险评估中的效果，选取了四种不同的过滤器(F-score、Pearson相关系数、Information Gain(IG)、Relief)进行结合，用本发明的方法对信贷客户特征进行了选择。然后，分别选取上述四种单一的过滤器，依旧结合NSD指标进行了特征选择。最后，将本发明的方法与四种单一过滤器结合NSD指标的方法，以及现有的SFS_LW特征选择方法进行了比较。用SVM分类器和决策树C4.5分类器分别对各个方法选出的信贷客户特征子集进行训练和测试，并将两种信贷风险评估模型的分类精确率作为评价准则。实验结果如图7所示，图7(A)是在German credit data数据集上的实验结果；图7(B)是在Australia credit data数据集上的实验结果。实验结果表明，本发明提出的方法在进行特征选择时，所选信贷客户特征的分类精确率明显要高于其他使用单一过滤器的方法，也明显高于SFS_LW方法，在信贷风险评估的过程中具有明显的优势。

然后，为了验证本发明提出的基于多过滤器结合NSD指标的信贷客户特征选择方法在面对海量的信贷客户数据时，特征选择的过程更具有高效性，本方案依旧选取了四种不同的过滤器(F-score、Pearson相关系数、Information Gain(IG)、Relief)，并将其按照不同组合方式进行结合，通过对所有信贷客户特征进行度量，产生了多个候选的信贷客户特征子集。然后，在对候选信贷客户特征子集进行评估的阶段，将本发明中基于NSD指标的候选特征子集评估方法与其他两种使用分类器的候选特征子集评估方法进行了比较，计算了各个特征选择方法在信贷风险评估过程中的运行时间。实验结果如图8所示，图8(A)是在German credit data数据集上的实验结果；图8(B)是在Australia credit data数据集上的实验结果。实验结果表明，本发明提出的方法在进行特征选择时，运行的时间基本能够控制在1秒以内，而其他两种方法在Australia credit data数据集上的运行时间几乎是它的好几倍，而在German credit data数据集上的运行时间甚至是它的几十倍还不止。由此可知，本发明提出的方法在对海量的信贷客户数据进行特征选择时具有明显的优势，能够大大提升信贷风险评估过程中的时间效率。

需要说明的是，本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

Claims

1.多过滤器结合NSD指标的信贷客户特征选择方法，该方法用于对信贷客户数据集中的信贷客户特征进行选择，其中，信贷客户数据集中的信贷客户的特征被标记有不同类型的标签；

其特征在于，该方法包括以下步骤：

步骤三：对信贷客户特征排序矩阵[P]_m×n进行搜索，产生多个候选特征子集A₁,A₂,...,A_k,...,A_K，其中，A_k表示信贷客户的第k个候选特征子集，A_k＝[a_k1,...,a_ks,…,a_kS]，a_ks表示第k个候选特征子集A_k中的第s个特征；K表示候选特征子集的个数；

步骤四：计算每一个候选特征子集的NSD值；

步骤4.1：根据信贷客户数据集中不同类型的标签将特征a_k1,..,a_ks,…,a_kS建立为不同类别的样本，然后将这些样本合并为一个信贷客户样本空间O_k；

步骤4.2：通过下式(1)计算候选特征子集A_k的NSD_k值；

2.如权利要求1所述的多过滤器结合NSD指标的信贷客户特征选择方法，其特征在于，所述的步骤三包括：

步骤3.1，设置一个阈值T，并将其初始化为0；

步骤3.2，初始化一个用于存放所有候选特征子集的集合C；

3.多过滤器结合NSD指标的信贷客户特征选择系统，该系统用于对信贷客户数据集中的信贷客户的特征进行选择，其中，信贷客户数据集中的信贷客户特征被标记有不同类型的标签，其特征在于，该系统包括：

然后，通过下式(1)计算候选特征子集A_k的NSD_k值；

4.如权利要求3所述的多过滤器结合NSD指标的信贷客户特征选择系统，其特征在于，所述的特征搜索模块包括：

首先，设置一个阈值T，并将其初始化为0；

其次，初始化一个用于存放所有候选特征子集的集合C；