CN112073147B - 一种基于网络结构特征选择的信用卡违约预测方法 - Google Patents

一种基于网络结构特征选择的信用卡违约预测方法 Download PDF

Info

Publication number
CN112073147B
CN112073147B CN202010269692.5A CN202010269692A CN112073147B CN 112073147 B CN112073147 B CN 112073147B CN 202010269692 A CN202010269692 A CN 202010269692A CN 112073147 B CN112073147 B CN 112073147B
Authority
CN
China
Prior art keywords
feature
credit card
correlation coefficient
network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010269692.5A
Other languages
English (en)
Other versions
CN112073147A (zh
Inventor
胡艳梅
多滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Univeristy of Technology
Original Assignee
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Univeristy of Technology filed Critical Chengdu Univeristy of Technology
Priority to CN202010269692.5A priority Critical patent/CN112073147B/zh
Publication of CN112073147A publication Critical patent/CN112073147A/zh
Application granted granted Critical
Publication of CN112073147B publication Critical patent/CN112073147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0056Systems characterized by the type of code used
    • H04L1/0057Block codes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0056Systems characterized by the type of code used

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及分类、预测任务领域,是指一种基于网络结构特征选择的信用卡违约预测方法,解决了现有技术中特征之间复杂关系考虑不够的问题。本发明包括以下步骤:A构建特征网络;C构建特征选择器;D选择特征子集。本发明通过特征网络的构建和基于其上的特征组划分,充分挖掘了特征之间的复杂关系;本发明中的特征选择器综合考虑了特征网络的网络结构和特征在网络结构上的位置,在选择过程中充分利用了特征之间的复杂关系,解决现有技术中特征选择过程未充分考虑特征间的复杂关联关系导致结果不能满足模型需求的问题。

Description

一种基于网络结构特征选择的信用卡违约预测方法
技术领域
本发明涉及分类、预测任务领域,特别是指一种基于网络结构特征选择的信用卡违约预测方法。
背景技术
分类和预测任务广泛存在各个领域,目前有很成熟的机器学习技术,如逻辑斯蒂回归、支持向量机等,但在特征数据维度高时,现有的技术无法满足需求,如高维度的特征导致分类和预测时间复杂度高,特征之间的复杂关系导致分类和预测结果不尽人意。
在分类和预测之前选取恰当的特征集,可提高分类和预测结果的性能,现有的特征选择方法大致可分为以下三类:
1、过滤式方法:先直接依照数据的分布给特征打分,然后选取分值较高的特征。该类方法独立于模型本身,简单且时间复杂度较低,但选择效果一般不能满足模型需求;
2、包裹式方法:首先输入每一个待选的特征子集分别训练模型,然后选择使得模型效果最好的特征子集,但这类方法依赖于具体的模型,因此容易出现过拟合且时间复杂度高;
3、嵌入式方法:将特征选择作为学习模型的一部分,在模型的学习过程中会对每个特征进行度量,然后依照指标值和模型效果选取特征。该类方法折中了前两类方法,能在相对较低的时间复杂度内取得一定的效果,但由于未考虑特征之间的复杂关系,其结果仍然需要进一步提升以满足应用需求。
虽然第三类方法相较前两类有显著的优势,但该类方法存在如下缺点:在训练学习模型前要么未考虑特征之间的关联关系,要么简单地将特征按照功能或区域划分成不同的组,比如,相同功能的蛋白质是一组,照片中眼睛部位的像素是一组。然而,在许多实际应用中,特征之间的关联关系是复杂且隐式的,尤其是在特征维度较高的情况下。由于现有的特征选择方法均未挖掘特征之间的潜在复杂关系并将其有效地应用于特征选择过程中,它们已不能满足实际应用需求。
亟待出现一种可解决上述问题的新型的特征选择方法。
发明内容
本发明提出一种基于网络结构特征选择的信用卡违约预测方法,解决了现有技术中信用卡违约预测不准确的问题。
本发明的技术方案是这样实现的:一种基于网络结构特征选择的信用卡违约预测方法,包括以下步骤:
A构建特征网络:1)为每个特征创建一个节点;2)添加节点之间的边:计算矩阵中每两列之间的相关性系数,若计算出的相关性系数的绝对值大于给定阈值,则在相应的两节点之间添加一条边,且该边的权值为计算出的相关性系数的绝对值;给定含n个样本的数据集T={(x1,y1),(x2,y2),…,(xn,yn)},其中
Figure GDA0003361073120000021
为样本或记录xi在d个特征上的取值组成的d维特征向量,yi∈{0,1}为样本xi的标签,由所有的xi组成一个n×d的矩阵X;Xi,j表示矩阵X的第i行和第j列的元素,X*,j表示矩阵X的第j列;
C构建特征选择器:1):采用逻辑斯蒂回归模型作为分类或预测模型,即:
Figure GDA0003361073120000022
Figure GDA0003361073120000023
其中w=(w1,w2,…,wd)称为权值向量,wi表示第i个特征对应的权值,b称为偏置,wT·x为w和x的内积;2):运用“极大似然法”估计参数w和b;给定训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)},似然函数为:
Figure GDA0003361073120000024
Figure GDA0003361073120000031
3):将扩展后的稀疏组作为惩罚项,即:
Figure GDA0003361073120000032
其中D是对角矩阵,对角线上的元素值分别为相应特征节点的加权度,||D-1w||1为权值向量w的受特征节点加权度限制的L1范数,控制特征层面的选择,
Figure GDA0003361073120000033
是特征组上的L2,1范数且
Figure GDA0003361073120000034
控制特征组层面的选择,而λ12≥0;特征选择器具体为:
Figure GDA0003361073120000035
D选择特征子集。
优选地,在步骤A和步骤C之间还设置有步骤B:特征组划分:1)社区结构发现;2)将属于同一个社区的特征组成一个特征组。
进一步地,步骤D具体的是采用梯度下降法作为基本求解方法,并在每一次迭代求解过程中运用近似算子和Moreau-Yosida正则化求解。
进一步地,步骤A中的相关性系数具体的为:皮尔逊相关性系数、斯皮尔曼相关性系数和余弦相似性,具体的为:
Figure GDA0003361073120000036
Figure GDA0003361073120000037
Figure GDA0003361073120000038
其中1≤i,j,k≤n,Xi,j表示矩阵X中第i行和第j列的元素,X*,j表示矩阵X的第j列,
Figure GDA0003361073120000039
为X*,j中所有元素的平均值,rij为Xi,j在X*,j中的等级,
Figure GDA00033610731200000310
为X*,j中所有元素的平均等级。
进一步地,步骤D具体的是:1):初始化参数值w1=w0=0,α-1=0,α0=1,L1=1;设定最大迭代次数为T,i=1;2):令
Figure GDA0003361073120000041
si=wii(wi-wi-1),求得损失函数l(w)在si处的梯度G;循环执行以下内容:
Figure GDA0003361073120000042
Figure GDA0003361073120000043
如果
Figure GDA0003361073120000044
Figure GDA0003361073120000045
则令Li=2*Li,否则,结束循环;3):判断是否达到算法终止条件:达到最大迭代次数,即:i=T;相邻两次迭代得到的函数值相差不到10-5,即:|F(wi-1)-F(wi)|<10-5;如果达到,则令w=wi+1并结束算法;如果未达到,则令i=i+1,
Figure GDA0003361073120000046
Li=Li-1,并回到第二步继续执行。
进一步地,所述步骤D中第2)步的近似算子具体的是:(1)令u为与v具有相同维度的向量,且u=0;(2)对于u中的每一元素uj,令
Figure GDA0003361073120000047
得到
Figure GDA0003361073120000048
(3)对
Figure GDA0003361073120000049
进行Moreau-Yosida正则化求得w:a)令w=u;b)对于每一个特征组Cg,令normg=||wCg||1;c)对于每一个特征组Cg中的每个特征j∈Cg,令
Figure GDA00033610731200000410
本发明公开的一种基于网络结构特征选择的信用卡违约预测方法,通过特征网络的构建和基于其上的特征组划分,充分挖掘了特征之间的复杂关系;本发明中的特征选择器综合考虑了特征网络的网络结构和特征在网络结构上的位置,在选择过程中充分利用了特征之间的复杂关系,解决现有技术中特征选择过程未充分考虑特征间的复杂关联关系导致结果不能满足模型需求的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1:本发明提出的特征选择方法的整体框架;
图2:用于基于特征网络结构的特征选择方法的数据集示例X;
图3:基于X构建的特征网络;
图4:基于X构建的特征网络上的社区结构;
图5:基于网络结构的特征选择方法选择出的特征子集f及基于此重构的数据集Xf
图6:基于数据集Credit构建的特征网络的部分可视化结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开的一种基于网络结构特征选择的信用卡违约预测方法,包括以下步骤:
A构建特征网络:1)为每个特征创建一个节点;2)添加节点之间的边:计算矩阵中每两列之间的相关性系数,若计算出的相关性系数的绝对值大于给定阈值,则在相应的两节点之间添加一条边,且该边的权值为计算出的相关性系数的绝对值;给定含n个样本的数据集T={(x1,y1),(x2,y2),…,(xn,yn)},其中
Figure GDA0003361073120000061
为样本或记录xi在d个特征上的取值组成的d维特征向量,yi∈{0,1}为样本xi的标签,由所有的xi组成一个n×d的矩阵X;Xi,j表示矩阵X的第i行和第j列的元素,X*,j表示矩阵X的第j列;
C构建特征选择器:1):采用逻辑斯蒂回归模型作为分类或预测模型,即:
Figure GDA0003361073120000062
Figure GDA0003361073120000063
其中w=(w1,w2,…,wd)称为权值向量,wi表示第i个特征对应的权值,b称为偏置,wT·x为w和x的内积;2):运用“极大似然法”估计参数w和b;给定训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)},似然函数为:
Figure GDA0003361073120000064
3):将扩展后的稀疏组作为惩罚项,即:
Figure GDA0003361073120000065
其中D是对角矩阵,对角线上的元素值分别为相应特征节点的加权度,||D-1w||1为权值向量w的受特征节点加权度限制的L1范数,控制特征层面的选择,
Figure GDA0003361073120000066
是特征组上的L2,1范数且
Figure GDA0003361073120000067
控制特征组层面的选择,而λ12≥0;特征选择器具体为:
Figure GDA0003361073120000068
D选择特征子集。
优选地,在步骤A和步骤C之间还设置有步骤B:特征组划分:1)社区结构发现;2)将属于同一个社区的特征组成一个特征组。
进一步地,步骤D具体的是采用梯度下降法作为基本求解方法,并在每一次迭代求解过程中运用近似算子和Moreau-Yosida正则化求解。
进一步地,步骤A中的相关性系数具体的为:皮尔逊相关性系数、斯皮尔曼相关性系数和余弦相似性,具体的为:
Figure GDA0003361073120000071
Figure GDA0003361073120000072
Figure GDA0003361073120000073
其中1≤i,j,k≤n,Xi,j表示矩阵X中第i行和第j列的元素,X*,j表示矩阵X的第j列,
Figure GDA0003361073120000074
为X*,j中所有元素的平均值,rij为Xi,j在X*,j中的等级,
Figure GDA0003361073120000075
为X*,j中所有元素的平均等级。
进一步地,步骤D具体的是:1):w1=w0=0,α-1=0,α0=1,L1=1;设定最大迭代次数为T,i=1;2):令
Figure GDA0003361073120000076
si=wii(wi-wi-1),求得损失函数l(w)在si处的梯度G;循环执行以下内容:
Figure GDA0003361073120000077
Figure GDA0003361073120000078
如果
Figure GDA0003361073120000079
则令Li=2*Li,否则,结束循环;3):判断是否达到算法终止条件:达到最大迭代次数,即:即:i=T;相邻两次迭代得到的函数值相差不到10-5,即:|F(wi-1)-F(wi)|<10-5;如果达到,则令w=wi+1并结束算法;如果未达到,则令i=i+1,
Figure GDA0003361073120000081
Li=Li-1,并回到第二步继续执行。
进一步地,所述步骤D中第2)步的近似算子具体的是:(1)令u为与v具有相同维度的向量,且u=0;(2)对于u中的每一元素uj,令
Figure GDA0003361073120000082
得到
Figure GDA0003361073120000083
(3)对
Figure GDA0003361073120000084
进行Moreau-Yosida正则化求得w:a)令w=u;b)对于每一个特征组Cg,令normg=||wCg||1;c)对于每一个特征组Cg中的每个特征j∈Cg,令
Figure GDA0003361073120000085
本发明中的基于网络结构的特征选择方法可以应用于多个领域,如金融领域的信用卡违约预测、医疗领域的癌症诊断、气象领域的天气预测、交通领域的拥堵预测等等。下面以信用卡违约预测和癌症智能诊断为例,对该特征选择方法的应用进行说明。
具体实施方式一信用卡违约预测上的应用
每张信用卡关联着多个属性,如卡号、开卡日期、最近消费额度,日均消费额、夜消费额、最高消费额等,它们之间呈现出复杂的关联关系,如图6所示,特征网络呈现出明显的社区结构,相同灰度的节点可以看作属于同一个社区,节点上的字符串是对应的特征名,节点大小与加权度成正比。如何从这些关系复杂的属性中选取合适的特征子集对后续预测模型的性能至关重要。本发明提出的特征选择方法便可解决该问题。具体如下:首先,在信用卡违约预测的数据集X上按照步骤A-D选择特征子集f;其次,根据选择出的特征子集f重新构建数据集Xf;接着,运用机器学习模型,如逻辑斯蒂回归模型、支持向量机等,在Xf上训练出信用卡违约预测模型;最后,对于新的信用卡样本x,只取在特征子集f中出现的特征所对应的特征值,得到简化的样本xf输入到上一步训练好的信用卡违约预测模型中,即可预测出x是否会出现违约。
具体实施方式二癌症智能诊断上的应用
每个患者对应着众多的健康指标,如血压、心率、精神状态、食欲、睡眠状况以及血液和影像学检查结果等等。疾病通常有早期或本身的特征性标志,同时许多症状或表征是高度相关的并呈现出复杂的关联关系。发现与癌症紧密相关的早期症状或表征以及它们之间的复杂关联关系,将有效地推进癌症智能诊断,本发明提出的特征选择方法便可解决该问题。具体如下:首先,在癌症诊断的数据集X上按照步骤A-D选择特征子集f;其次,根据选择出的特征子集f重新构建数据集Xf;接着,运用机器学习模型(如逻辑斯蒂回归模型、支持向量机等)在Xf上训练出癌症诊断模型;最后,对于新的患者样本x,只取在特征子集f中出现的特征所对应的特征值,得到简化的样本xf输入到上一步训练好的癌症诊断模型中,即可诊断出x是否会患癌。
下面通过仿真实验对本特征选择方法进行测试。数据集采用信用卡违约预测数据集Credit和癌症智能诊断数据集Arcene,其基本信息如表1所示。
表1数据集统计信息
Figure GDA0003361073120000091
Figure GDA0003361073120000101
对于每个数据集,随机抽取70%作为训练集,剩下的30%作为测试集。用于构建特征网络的阈值δ=0.8,用于训练信用卡违约预测模型和癌症智能诊断模型的机器学习模型为逻辑斯蒂回归模型,评价指标采用准确度accuracy、精确度precision、召回率recall和F1-score,并以应用最为广泛的嵌入式特征选择方法Lasso作为对比方法。Lasso方法是在特征层面做选择,而忽略特征组这个层面且不考虑每个特征与其他特征之间的关联关系,即相当于F(w,b)=l(w,b)+λ1||w||1
表2显示了不同特征选择方法独立实验10次的平均结果。
表2本发明提出的特征选择方法与Lasso的对比结果
Figure GDA0003361073120000102
Figure GDA0003361073120000111
进一步地,为了测试本特征选择方法的健壮性,对参数λ12的不同取值进行了实验。具体地,λ1的取值范围为{0.1,0.5,1,5};当λ1取值为0.1和0.5时,λ2的取值为1.0±i*0.5;当λ1取值为1.0和5.0时,λ2的取值为10±i*5;i∈{0,1,2}。从表中的结果可以看出,本特征选择方法在绝大多数情况下都优于对比方法。进一步地可以看出,本特征选择方法在不同的参数取值下其结果的波动较小。具体地,在Credit数据集上,四个指标的值范围分别是[0.557,0.572]、[0.558,0.586]、[0.479,0.583]和[0.511,0.564],若以最小值作为参考点,则它们的波动范围分别不超过2.7%、5.0%、21.7%和10.4%;在癌症智能诊断数据集Arcene数据集上,四个指标的值范围则是[0.656,0.711]、[0.631,0.729]、[0.718,0.800]和[0.673,0.726],且以最小值作为参考点时,它们的波动范围分别在8.4%、15.5%、11.4%和7.9%以内。从分析结果可知,在大多数情况下本特征方法针对不同的参数值其结果变化都较小。虽然在信用卡违约预测数据集Credit数据集上,recall的波动范围达到了21.7%,但这是因为λ1=0.1产生的结果较明显地好于其他情况,但当固定λ1时,recall的波动范围就很小了;在癌症智能诊断数据集Arcene数据集上,precision的波动范围达到了15.5%,这是因为λ1=1,λ2=15产生了较高的结果。另外,此处的波动范围是基于最小值和最大值而计算的。因此,本特征方法对参数的敏感程度是较低的。综上所述,本发明提出的特征选择方法表现优异。
本发明公开的一种基于网络结构特征选择的信用卡违约预测方法,通过特征网络的构建和基于其上的特征组划分,充分挖掘了特征之间的复杂关系;本发明中的特征选择器综合考虑了特征网络的网络结构和特征在网络结构上的位置,在选择过程中充分利用了特征之间的复杂关系,解决现有技术中特征选择过程未充分考虑特征间的复杂关联关系导致结果不能满足模型需求的问题。
当然,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员应该可以根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种基于网络结构特征选择的信用卡违约预测方法,其特征在于:包括以下步骤:
A构建特征网络:1)为每张信用卡的每个属性各创建一个特征节点,包括:卡号、开卡日期、最近消费额度,日均消费额、夜消费额、最高消费额;2)添加节点之间的边:计算矩阵中每两列之间的相关性系数,若计算出的相关性系数的绝对值大于给定阈值,则在相应的两节点之间添加一条边,且该边的权值为计算出的相关性系数的绝对值;
给定含n个样本的数据集T={(x1,y1),(x2,y2),…,(xn,yn)},其中
Figure FDA0003567248520000011
为样本或记录xi在d个特征上的取值组成的d维特征向量,yi∈{0,1}为样本xi的标签,由所有的xi组成一个n×d的矩阵X;Xi,j表示矩阵X的第i行和第j列的元素,X*,j表示矩阵X的第j列;
步骤B:特征组划分:1)通过可视化结果图进行社区结构发现;2)将属于同一个社区的特征组成一个特征组;
C构建特征选择器:
1):采用逻辑斯蒂回归模型作为分类或预测模型,
即:
Figure FDA0003567248520000012
其中w=(w1,w2,…,wd)称为权值向量,wi表示第i个特征对应的权值,b称为偏置,wT·x为w和x的内积;
2):运用“极大似然法”估计参数w和b;
给定训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)},似然损失函数为:
Figure FDA0003567248520000013
3):将扩展后的稀疏组作为惩罚项,即:
Figure FDA0003567248520000014
其中D是对角矩阵,对角线上的元素值分别为相应特征节点的加权度,||D-1w||1为权值向量w的受特征节点加权度限制的L1范数,控制特征层面的选择,
Figure FDA0003567248520000021
是特征组上的L2,1范数且
Figure FDA0003567248520000022
控制特征组层面的选择,其中K指从特征网络中发现的特征组总个数,Cg指第g个特征组,而λ1,λ2≥0;特征选择器具体为:
Figure FDA0003567248520000023
D选择特征子集:根据步骤C选出信用卡违约特征子集;
E预测违约几率;将新的信用卡样本,只取步骤D中的对应的特征值的数据。
2.根据权利要求1所述的一种基于网络结构特征选择的信用卡违约预测方法,其特征在于:步骤D具体的是采用梯度下降法作为基本求解方法,并在每一次迭代求解过程中运用近似算子和Moreau-Yosida正则化求解。
3.根据权利要求2所述的一种基于网络结构特征选择的信用卡违约预测方法,其特征在于:步骤A中的相关性系数具体的为:皮尔逊相关性系数、斯皮尔曼相关性系数和余弦相似性,具体的为:
Figure FDA0003567248520000024
Figure FDA0003567248520000025
Figure FDA0003567248520000026
其中1≤i,j,k≤n,Xi,j表示矩阵X中第i行和第j列的元素,X*,j表示矩阵X的第j列,
Figure FDA0003567248520000027
为X*,j中所有元素的平均值,rij为Xi,j在X*,j中的等级,
Figure FDA0003567248520000028
为X*,j中所有元素的平均等级,pc(j,k)指X*,j和X*,k的皮尔逊相关性系数,rc(j,k)指X*,j和X*,k的斯皮尔曼相关性系数,cc(j,k)指X*,j和X*,k的余弦相似性。
4.根据权利要求3所述的一种基于网络结构特征选择的信用卡违约预测方法,其特征在于:步骤D具体的是:
1):初始化参数值w1=w0=0,α-1=0,α0=1,L1=1;设定最大迭代次数为Gm,i=1;
2):令
Figure FDA0003567248520000031
si=wii(wi-wi-1),b′i=bii(bi-bi-1),si和b′i分别指wi+1和bi+1的搜索点,由步骤C求得似然损失函数l(w,b)在(si,b′i)处的梯度(Gs,Gb);循环执行以下内容:
Figure FDA0003567248520000032
为v的近似算子,如果
Figure FDA0003567248520000033
Figure FDA0003567248520000034
则令Li=2*Li,其中
Figure FDA0003567248520000035
是梯度下降步长,否则,结束循环;
3):判断是否达到算法终止条件:达到最大迭代次数,即:i=T;相邻两次迭代得到的函数值相差不到10-5,即:|F(wi+1,bi+1)-F(wi,bi)|<10-5,F(wi,bi)指第i次迭代得到的特征选择器对应的函数值;如果达到,则令w=wi+1,b=bi+1,并结束算法;如果未达到,则令i=i+1,
Figure FDA0003567248520000036
Li=Li-1,其中i指迭代次数,且1≤i≤Gm,并回到第二步继续执行。
5.根据权利要求4所述的一种基于网络结构特征选择的信用卡违约预测方法,其特征在于:所述步骤D中第2)步的近似算子具体的是:
(1)令u为与v具有相同维度的向量,且u=0;
(2)对于u中的每一元素uj,令
Figure FDA0003567248520000041
得到
Figure FDA0003567248520000042
其中f(w)指正则化目标函数;
(3)对
Figure FDA0003567248520000043
进行Moreau-Yosida正则化求得w:
a)令w=u;
b)对于每一个特征组Cg,令normg=||wCg||1
c)对于每一个特征组Cg中的每个特征j∈Cg,令
Figure FDA0003567248520000044
CN202010269692.5A 2020-04-08 2020-04-08 一种基于网络结构特征选择的信用卡违约预测方法 Active CN112073147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010269692.5A CN112073147B (zh) 2020-04-08 2020-04-08 一种基于网络结构特征选择的信用卡违约预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010269692.5A CN112073147B (zh) 2020-04-08 2020-04-08 一种基于网络结构特征选择的信用卡违约预测方法

Publications (2)

Publication Number Publication Date
CN112073147A CN112073147A (zh) 2020-12-11
CN112073147B true CN112073147B (zh) 2022-08-19

Family

ID=73658644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010269692.5A Active CN112073147B (zh) 2020-04-08 2020-04-08 一种基于网络结构特征选择的信用卡违约预测方法

Country Status (1)

Country Link
CN (1) CN112073147B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205344A (zh) * 2015-05-18 2015-12-30 上海交通大学 基于多目标蚁群优化算法的基因位点挖掘方法
CN106529729A (zh) * 2016-11-18 2017-03-22 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN110110981A (zh) * 2019-04-26 2019-08-09 重庆第二师范学院 一种信用评级违约概率测度与风险预警方法
CN110162014A (zh) * 2019-05-29 2019-08-23 上海理工大学 一种集成多种智能算法的制冷系统故障诊断方法
CN110348528A (zh) * 2019-07-16 2019-10-18 成都威嘉软件有限公司 基于多维数据挖掘的用户信用确定方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205344A (zh) * 2015-05-18 2015-12-30 上海交通大学 基于多目标蚁群优化算法的基因位点挖掘方法
CN106529729A (zh) * 2016-11-18 2017-03-22 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN110110981A (zh) * 2019-04-26 2019-08-09 重庆第二师范学院 一种信用评级违约概率测度与风险预警方法
CN110162014A (zh) * 2019-05-29 2019-08-23 上海理工大学 一种集成多种智能算法的制冷系统故障诊断方法
CN110348528A (zh) * 2019-07-16 2019-10-18 成都威嘉软件有限公司 基于多维数据挖掘的用户信用确定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Feature Selection Based on Network Structure for Credit Card Default Prediction;Yanmei Hu,Yuchun Ren,Qiucheng Wang;《Part of the Communications in Computer and Information Science book series》;20191114;全文 *
Community-based feature selection for credit card default prediction;Yanmei Hu 等;《 International Workshop on Complex Networks and their Applications》;20180131;全文 *

Also Published As

Publication number Publication date
CN112073147A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN110957015B (zh) 电子医疗记录数据的缺失值填充方法
CN111653359B (zh) 一种出血性疾病的智能预测模型构建方法和预测系统
CN110969626A (zh) 基于3d神经网络的人脑核磁共振影像的海马体提取方法
CN108763590B (zh) 一种基于双变加权核fcm算法的数据聚类方法
CN111090764B (zh) 基于多任务学习和图卷积神经网络的影像分类方法及装置
CN108090498A (zh) 一种基于深度学习的纤维识别方法及装置
CN106874862B (zh) 基于子模技术和半监督学习的人群计数方法
Ramathilagam et al. Extended Gaussian kernel version of fuzzy c-means in the problem of data analyzing
CN111598871B (zh) 多特征融合辅助检测肺部磨玻璃影结节系统及介质
Zeng et al. Identification of maize leaf diseases by using the SKPSNet-50 convolutional neural network model
CN112529063B (zh) 一种适用于帕金森语音数据集的深度域适应分类方法
CN109948703A (zh) 基于深度学习的基因图像处理估计方法、系统、介质及设备
CN116612307A (zh) 一种基于迁移学习的茄科病害等级识别方法
CN114463605A (zh) 基于深度学习的持续学习图像分类方法及装置
CN110766082B (zh) 一种基于迁移学习的植物叶片病虫害程度分类方法
He et al. A selective overview of feature screening methods with applications to neuroimaging data
CN113486876A (zh) 一种高光谱影像波段选择方法、装置及系统
CN112073147B (zh) 一种基于网络结构特征选择的信用卡违约预测方法
Preston et al. Redefining class definitions using constraint-based clustering: an application to remote sensing of the earth's surface
CN116383441A (zh) 社群检测方法、装置、计算机设备和存储介质
CN115098699A (zh) 一种基于知识图谱嵌入模型的链路预测方法
CN113378946A (zh) 一种考虑特征标签依赖度的鲁棒多标签特征选择方法
CN108304546B (zh) 一种基于内容相似度和Softmax分类器的医学图像检索方法
Suesse et al. Spatial linear discriminant analysis approaches for remote-sensing classification
Rong et al. Exploring network behavior using cluster analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant