CN112073147B

CN112073147B - 一种基于网络结构特征选择的信用卡违约预测方法

Info

Publication number: CN112073147B
Application number: CN202010269692.5A
Authority: CN
Inventors: 胡艳梅; 多滨
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2022-08-19
Anticipated expiration: 2040-04-08
Also published as: CN112073147A

Abstract

本发明涉及分类、预测任务领域，是指一种基于网络结构特征选择的信用卡违约预测方法，解决了现有技术中特征之间复杂关系考虑不够的问题。本发明包括以下步骤：A构建特征网络；C构建特征选择器；D选择特征子集。本发明通过特征网络的构建和基于其上的特征组划分，充分挖掘了特征之间的复杂关系；本发明中的特征选择器综合考虑了特征网络的网络结构和特征在网络结构上的位置，在选择过程中充分利用了特征之间的复杂关系，解决现有技术中特征选择过程未充分考虑特征间的复杂关联关系导致结果不能满足模型需求的问题。

Description

一种基于网络结构特征选择的信用卡违约预测方法

技术领域

本发明涉及分类、预测任务领域，特别是指一种基于网络结构特征选择的信用卡违约预测方法。

背景技术

分类和预测任务广泛存在各个领域，目前有很成熟的机器学习技术，如逻辑斯蒂回归、支持向量机等，但在特征数据维度高时，现有的技术无法满足需求，如高维度的特征导致分类和预测时间复杂度高，特征之间的复杂关系导致分类和预测结果不尽人意。

在分类和预测之前选取恰当的特征集，可提高分类和预测结果的性能，现有的特征选择方法大致可分为以下三类：

1、过滤式方法：先直接依照数据的分布给特征打分，然后选取分值较高的特征。该类方法独立于模型本身，简单且时间复杂度较低，但选择效果一般不能满足模型需求；

2、包裹式方法：首先输入每一个待选的特征子集分别训练模型，然后选择使得模型效果最好的特征子集，但这类方法依赖于具体的模型，因此容易出现过拟合且时间复杂度高；

3、嵌入式方法：将特征选择作为学习模型的一部分，在模型的学习过程中会对每个特征进行度量，然后依照指标值和模型效果选取特征。该类方法折中了前两类方法，能在相对较低的时间复杂度内取得一定的效果，但由于未考虑特征之间的复杂关系，其结果仍然需要进一步提升以满足应用需求。

虽然第三类方法相较前两类有显著的优势，但该类方法存在如下缺点：在训练学习模型前要么未考虑特征之间的关联关系，要么简单地将特征按照功能或区域划分成不同的组，比如，相同功能的蛋白质是一组，照片中眼睛部位的像素是一组。然而，在许多实际应用中，特征之间的关联关系是复杂且隐式的，尤其是在特征维度较高的情况下。由于现有的特征选择方法均未挖掘特征之间的潜在复杂关系并将其有效地应用于特征选择过程中，它们已不能满足实际应用需求。

亟待出现一种可解决上述问题的新型的特征选择方法。

发明内容

本发明提出一种基于网络结构特征选择的信用卡违约预测方法，解决了现有技术中信用卡违约预测不准确的问题。

本发明的技术方案是这样实现的：一种基于网络结构特征选择的信用卡违约预测方法，包括以下步骤：

A构建特征网络：1)为每个特征创建一个节点；2)添加节点之间的边：计算矩阵中每两列之间的相关性系数，若计算出的相关性系数的绝对值大于给定阈值，则在相应的两节点之间添加一条边，且该边的权值为计算出的相关性系数的绝对值；给定含n个样本的数据集T＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，其中

为样本或记录x_i在d个特征上的取值组成的d维特征向量，y_i∈{0,1}为样本x_i的标签，由所有的x_i组成一个n×d的矩阵X；X_i,j表示矩阵X的第i行和第j列的元素，X_*,j表示矩阵X的第j列；

C构建特征选择器：1)：采用逻辑斯蒂回归模型作为分类或预测模型，即：

其中w＝(w₁,w₂,…,w_d)称为权值向量，w_i表示第i个特征对应的权值，b称为偏置，w^T·x为w和x的内积；2)：运用“极大似然法”估计参数w和b；给定训练数据集T＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，似然函数为：

3)：将扩展后的稀疏组作为惩罚项，即：

其中D是对角矩阵，对角线上的元素值分别为相应特征节点的加权度，||D^-1w||₁为权值向量w的受特征节点加权度限制的L₁范数，控制特征层面的选择，

是特征组上的L_2,1范数且

控制特征组层面的选择，而λ₁,λ₂≥0；特征选择器具体为：

D选择特征子集。

优选地，在步骤A和步骤C之间还设置有步骤B：特征组划分：1)社区结构发现；2)将属于同一个社区的特征组成一个特征组。

进一步地，步骤D具体的是采用梯度下降法作为基本求解方法，并在每一次迭代求解过程中运用近似算子和Moreau-Yosida正则化求解。

进一步地，步骤A中的相关性系数具体的为：皮尔逊相关性系数、斯皮尔曼相关性系数和余弦相似性，具体的为：

其中1≤i,j,k≤n，X_i,j表示矩阵X中第i行和第j列的元素，X_*,j表示矩阵X的第j列,

为X_*,j中所有元素的平均值，r_ij为X_i,j在X_*,j中的等级，

为X_*,j中所有元素的平均等级。

进一步地，步骤D具体的是：1)：初始化参数值w₁＝w₀＝0，α_-1＝0，α₀＝1，L₁＝1；设定最大迭代次数为T，i＝1；2)：令

s_i＝w_i+β_i(w_i-w_i-1)，求得损失函数l(w)在s_i处的梯度G；循环执行以下内容：

如果

则令L_i＝2*L_i，否则，结束循环；3)：判断是否达到算法终止条件：达到最大迭代次数，即：i＝T；相邻两次迭代得到的函数值相差不到10^-5，即：|F(w_i-1)-F(w_i)|＜10^-5；如果达到，则令w＝w_i+1并结束算法；如果未达到，则令i＝i+1，

L_i＝L_i-1，并回到第二步继续执行。

进一步地，所述步骤D中第2)步的近似算子具体的是：(1)令u为与v具有相同维度的向量，且u＝0；(2)对于u中的每一元素u_j，令

得到

(3)对

进行Moreau-Yosida正则化求得w：a)令w＝u；b)对于每一个特征组C_g，令norm_g＝||w_Cg||₁；c)对于每一个特征组C_g中的每个特征j∈C_g，令

本发明公开的一种基于网络结构特征选择的信用卡违约预测方法，通过特征网络的构建和基于其上的特征组划分，充分挖掘了特征之间的复杂关系；本发明中的特征选择器综合考虑了特征网络的网络结构和特征在网络结构上的位置，在选择过程中充分利用了特征之间的复杂关系，解决现有技术中特征选择过程未充分考虑特征间的复杂关联关系导致结果不能满足模型需求的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1：本发明提出的特征选择方法的整体框架；

图2：用于基于特征网络结构的特征选择方法的数据集示例X；

图3：基于X构建的特征网络；

图4：基于X构建的特征网络上的社区结构；

图5：基于网络结构的特征选择方法选择出的特征子集f及基于此重构的数据集X_f

图6：基于数据集Credit构建的特征网络的部分可视化结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开的一种基于网络结构特征选择的信用卡违约预测方法，包括以下步骤：

3)：将扩展后的稀疏组作为惩罚项，即：

是特征组上的L_2,1范数且

D选择特征子集。

为X_*,j中所有元素的平均值，r_ij为X_i,j在X_*,j中的等级，

为X_*,j中所有元素的平均等级。

进一步地，步骤D具体的是：1)：w₁＝w₀＝0，α_-1＝0，α₀＝1，L₁＝1；设定最大迭代次数为T，i＝1；2)：令

如果

则令L_i＝2*L_i，否则，结束循环；3)：判断是否达到算法终止条件：达到最大迭代次数，即：即：i＝T；相邻两次迭代得到的函数值相差不到10^-5，即：|F(w_i-1)-F(w_i)|＜10^-5；如果达到，则令w＝w_i+1并结束算法；如果未达到，则令i＝i+1，

L_i＝L_i-1，并回到第二步继续执行。

得到

(3)对

本发明中的基于网络结构的特征选择方法可以应用于多个领域，如金融领域的信用卡违约预测、医疗领域的癌症诊断、气象领域的天气预测、交通领域的拥堵预测等等。下面以信用卡违约预测和癌症智能诊断为例，对该特征选择方法的应用进行说明。

具体实施方式一信用卡违约预测上的应用

每张信用卡关联着多个属性，如卡号、开卡日期、最近消费额度，日均消费额、夜消费额、最高消费额等，它们之间呈现出复杂的关联关系，如图6所示，特征网络呈现出明显的社区结构，相同灰度的节点可以看作属于同一个社区，节点上的字符串是对应的特征名，节点大小与加权度成正比。如何从这些关系复杂的属性中选取合适的特征子集对后续预测模型的性能至关重要。本发明提出的特征选择方法便可解决该问题。具体如下：首先，在信用卡违约预测的数据集X上按照步骤A-D选择特征子集f；其次，根据选择出的特征子集f重新构建数据集X_f；接着，运用机器学习模型，如逻辑斯蒂回归模型、支持向量机等，在X_f上训练出信用卡违约预测模型；最后，对于新的信用卡样本x，只取在特征子集f中出现的特征所对应的特征值，得到简化的样本x_f输入到上一步训练好的信用卡违约预测模型中，即可预测出x是否会出现违约。

具体实施方式二癌症智能诊断上的应用

每个患者对应着众多的健康指标，如血压、心率、精神状态、食欲、睡眠状况以及血液和影像学检查结果等等。疾病通常有早期或本身的特征性标志，同时许多症状或表征是高度相关的并呈现出复杂的关联关系。发现与癌症紧密相关的早期症状或表征以及它们之间的复杂关联关系，将有效地推进癌症智能诊断，本发明提出的特征选择方法便可解决该问题。具体如下：首先，在癌症诊断的数据集X上按照步骤A-D选择特征子集f；其次，根据选择出的特征子集f重新构建数据集X_f；接着，运用机器学习模型(如逻辑斯蒂回归模型、支持向量机等)在X_f上训练出癌症诊断模型；最后，对于新的患者样本x，只取在特征子集f中出现的特征所对应的特征值，得到简化的样本x_f输入到上一步训练好的癌症诊断模型中，即可诊断出x是否会患癌。

下面通过仿真实验对本特征选择方法进行测试。数据集采用信用卡违约预测数据集Credit和癌症智能诊断数据集Arcene，其基本信息如表1所示。

表1数据集统计信息

对于每个数据集，随机抽取70％作为训练集，剩下的30％作为测试集。用于构建特征网络的阈值δ＝0.8，用于训练信用卡违约预测模型和癌症智能诊断模型的机器学习模型为逻辑斯蒂回归模型，评价指标采用准确度accuracy、精确度precision、召回率recall和F1-score，并以应用最为广泛的嵌入式特征选择方法Lasso作为对比方法。Lasso方法是在特征层面做选择，而忽略特征组这个层面且不考虑每个特征与其他特征之间的关联关系，即相当于F(w,b)＝l(w,b)+λ₁||w||₁。

表2显示了不同特征选择方法独立实验10次的平均结果。

表2本发明提出的特征选择方法与Lasso的对比结果

进一步地，为了测试本特征选择方法的健壮性，对参数λ₁,λ₂的不同取值进行了实验。具体地，λ₁的取值范围为{0.1,0.5,1,5}；当λ₁取值为0.1和0.5时，λ₂的取值为1.0±i*0.5；当λ₁取值为1.0和5.0时,λ₂的取值为10±i*5；i∈{0,1,2}。从表中的结果可以看出，本特征选择方法在绝大多数情况下都优于对比方法。进一步地可以看出，本特征选择方法在不同的参数取值下其结果的波动较小。具体地，在Credit数据集上，四个指标的值范围分别是[0.557,0.572]、[0.558,0.586]、[0.479,0.583]和[0.511,0.564]，若以最小值作为参考点，则它们的波动范围分别不超过2.7％、5.0％、21.7％和10.4％；在癌症智能诊断数据集Arcene数据集上，四个指标的值范围则是[0.656,0.711]、[0.631,0.729]、[0.718,0.800]和[0.673,0.726]，且以最小值作为参考点时，它们的波动范围分别在8.4％、15.5％、11.4％和7.9％以内。从分析结果可知，在大多数情况下本特征方法针对不同的参数值其结果变化都较小。虽然在信用卡违约预测数据集Credit数据集上，recall的波动范围达到了21.7％，但这是因为λ₁＝0.1产生的结果较明显地好于其他情况，但当固定λ₁时，recall的波动范围就很小了；在癌症智能诊断数据集Arcene数据集上，precision的波动范围达到了15.5％，这是因为λ₁＝1，λ₂＝15产生了较高的结果。另外，此处的波动范围是基于最小值和最大值而计算的。因此，本特征方法对参数的敏感程度是较低的。综上所述，本发明提出的特征选择方法表现优异。

当然，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员应该可以根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于网络结构特征选择的信用卡违约预测方法，其特征在于：包括以下步骤：

A构建特征网络：1)为每张信用卡的每个属性各创建一个特征节点，包括：卡号、开卡日期、最近消费额度，日均消费额、夜消费额、最高消费额；2)添加节点之间的边：计算矩阵中每两列之间的相关性系数，若计算出的相关性系数的绝对值大于给定阈值，则在相应的两节点之间添加一条边，且该边的权值为计算出的相关性系数的绝对值；

给定含n个样本的数据集T＝{(x₁，y₁)，(x₂，y₂)，…，(x_n，y_n)}，其中

为样本或记录x_i在d个特征上的取值组成的d维特征向量，y_i∈{0，1}为样本x_i的标签，由所有的x_i组成一个n×d的矩阵X；X_i，j表示矩阵X的第i行和第j列的元素，X_*，j表示矩阵X的第j列；

步骤B：特征组划分：1)通过可视化结果图进行社区结构发现；2)将属于同一个社区的特征组成一个特征组；

C构建特征选择器：

1)：采用逻辑斯蒂回归模型作为分类或预测模型，

即：

其中w＝(w₁，w₂，…，w_d)称为权值向量，w_i表示第i个特征对应的权值，b称为偏置，w^T·x为w和x的内积；

2)：运用“极大似然法”估计参数w和b；

给定训练数据集T＝{(x₁，y₁)，(x₂，y₂)，…，(x_n，y_n)}，似然损失函数为：

3)：将扩展后的稀疏组作为惩罚项，即：

是特征组上的L_2，1范数且

控制特征组层面的选择，其中K指从特征网络中发现的特征组总个数，C_g指第g个特征组，而λ₁，λ₂≥0；特征选择器具体为：

D选择特征子集：根据步骤C选出信用卡违约特征子集；

E预测违约几率；将新的信用卡样本，只取步骤D中的对应的特征值的数据。

2.根据权利要求1所述的一种基于网络结构特征选择的信用卡违约预测方法，其特征在于：步骤D具体的是采用梯度下降法作为基本求解方法，并在每一次迭代求解过程中运用近似算子和Moreau-Yosida正则化求解。

3.根据权利要求2所述的一种基于网络结构特征选择的信用卡违约预测方法，其特征在于：步骤A中的相关性系数具体的为：皮尔逊相关性系数、斯皮尔曼相关性系数和余弦相似性，具体的为：

其中1≤i，j，k≤n，X_i，j表示矩阵X中第i行和第j列的元素，X_*，j表示矩阵X的第j列，

为X_*，j中所有元素的平均值，r_ij为X_i，j在X_*，j中的等级，

为X_*，j中所有元素的平均等级，pc(j，k)指X_*，j和X_*，k的皮尔逊相关性系数，rc(j，k)指X_*，j和X_*，k的斯皮尔曼相关性系数，cc(j，k)指X_*，j和X_*，k的余弦相似性。

4.根据权利要求3所述的一种基于网络结构特征选择的信用卡违约预测方法，其特征在于：步骤D具体的是：

1)：初始化参数值w₁＝w₀＝0，α_-1＝0，α₀＝1，L₁＝1；设定最大迭代次数为Gm，i＝1；

2)：令

s_i＝w_i+β_i(w_i-w_i-1)，b′_i＝b_i+β_i(b_i-b_i-1)，s_i和b′_i分别指w_i+1和b_i+1的搜索点，由步骤C求得似然损失函数l(w，b)在(s_i，b′_i)处的梯度(G_s，G_b)；循环执行以下内容：

为v的近似算子，如果

则令L_i＝2*L_i，其中

是梯度下降步长，否则，结束循环；

3)：判断是否达到算法终止条件：达到最大迭代次数，即：i＝T；相邻两次迭代得到的函数值相差不到10^-5，即：|F(w_i+1，b_i+1)-F(w_i，b_i)|＜10^-5，F(w_i，b_i)指第i次迭代得到的特征选择器对应的函数值；如果达到，则令w＝w_i+1，b＝b_i+1，并结束算法；如果未达到，则令i＝i+1，

L_i＝L_i-1，其中i指迭代次数，且1≤i≤Gm，并回到第二步继续执行。

5.根据权利要求4所述的一种基于网络结构特征选择的信用卡违约预测方法，其特征在于：所述步骤D中第2)步的近似算子具体的是：

(1)令u为与v具有相同维度的向量，且u＝0；

(2)对于u中的每一元素u_j，令

得到

其中f(w)指正则化目标函数；

(3)对

进行Moreau-Yosida正则化求得w：

a)令w＝u；

b)对于每一个特征组C_g，令norm_g＝||w_Cg||₁；

c)对于每一个特征组C_g中的每个特征j∈C_g，令