CN106651574A - 一种个人信用评估方法及装置 - Google Patents
一种个人信用评估方法及装置 Download PDFInfo
- Publication number
- CN106651574A CN106651574A CN201611264984.XA CN201611264984A CN106651574A CN 106651574 A CN106651574 A CN 106651574A CN 201611264984 A CN201611264984 A CN 201611264984A CN 106651574 A CN106651574 A CN 106651574A
- Authority
- CN
- China
- Prior art keywords
- credit
- attribute
- training
- optimal
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 156
- 238000012706 support-vector machine Methods 0.000 claims abstract description 44
- 238000013145 classification model Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 40
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 12
- 239000006185 dispersion Substances 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 7
- 230000011664 signaling Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种个人信用评估方法及装置,其中该方法包括:获取训练样本集,训练样本集包括具有信用标签及多个信用属性的训练样本,信用标签为对对应训练样本的信用进行评估得到的标签;选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集,将每个训练样本中包含的最优信用属性集之外的信用属性去掉,得到对应的最优训练样本集;采用支持向量机对最优训练样本集建模,得到支持向量机分类模型;获取未知信用标签且仅具有最优信用属性的待测样本并作为支持向量机分类模型的输入,得到待测样本的信用标签。由此,避免了现有技术中因为专家的主观性及随机性导致分类精度较低的问题,且具有较高的分类精度。
Description
技术领域
本发明涉及信用评估技术领域,更具体地说,涉及一种个人信用评估方法及装置。
背景技术
随着人工智能的发展,计算机技术被广泛地应用于各种领域,个人信用评估问题也包含在内。个人信用评估问题就是将贷款申请人分为还款可能性大的好客户(信用较好)和还款可能性小的坏客户(信用较差),批准好客户的贷款请求,拒绝坏客户的贷款请求。个人信用评估问题从实质上讲就是一个分类问题,分类的精度很大程度上决定了银行的贷款风险大小。
现有技术中主要采用专家评分模型解决个人信用评估问题,具体来说,由专家基于其经验判断每个贷款申请人的信用好坏,进而确定贷款请求的批准与否,但是,这种方式容易因为专家的主观性及随机性,导致分类精度较低。
综上所述,如何提供一种分类精度较高的个人信用评估技术方案,是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种个人信用评估方法及装置,达到分类精度较高的目的。
为了实现上述目的,本发明提供如下技术方案:
一种个人信用评估方法,包括:
获取训练样本集,所述训练样本集包括具有信用标签及多个信用属性的训练样本,所述信用标签为对对应训练样本的信用进行评估得到的标签;
选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集,将每个训练样本中包含的所述最优信用属性集之外的信用属性去掉,得到对应的最优训练样本集;
采用支持向量机对所述最优训练样本集建模,得到支持向量机分类模型;
获取未知信用标签且仅具有所述最优信用属性的待测样本并作为所述支持向量机分类模型的输入,得到所述待测样本的信用标签。
优选的,选取出分类效果最好的信用属性作为最优信用属性,包括:
获取与所述多个信用属性对应的权重向量,并对所述多个信用属性按照所述权重向量中对应权重由大至小进行排序;
对进行排序后的多个信用属性,利用支持向量机分类器在所述训练样本集上进行10折交叉验证,得到所述最优信用属性。
优选的,获取与所述多个信用属性对应的权重向量,包括:
步骤1:将权重向量表示为wt=[w1,w2,…,wI]T∈RI,令t=0且设置对应的初始的权重向量为w0=[1/I,1/I,…,1/I]T,I为所述信用属性的数量;
步骤2:最大化来求得权重向量wt+1,其中:
其中,和分别是训练样本xi在与其信用标签不同的异类样本以及训练标签相同的同类样本中的近邻样本矩阵,k是先验设置的近邻个数,N为训练样本的数量;
求解下面的优化问题得到αi:
求解下面的优化问题得到βi:
其中,λ为控制稀疏项稀疏程度的超参数;
步骤3:判断||wt+1-wt||是否小于或等于第一预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则令t=t+1,返回执行步骤2。
优选的,判断出||wt+1-wt||大于所述第一预设值之后,还包括:
判断t是否等于第二预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则执行所述令t=t+1,返回执行步骤2的步骤。
优选的,获取所述训练样本集之后,还包括:
对每个所述训练样本按照下列转换函数进行离差标准化处理:
i=1,…,N,
j=1,…,I,
其中,xij表示第i个训练样本第j个信用属性的属性值,表示所有训练样本中信用属性j的最大值,表示所有训练样本中信用属性j的最小值;
对应的,获取所述待测样本之后,还包括:
对所述待测样本按照下列转换函数进行离差标准化处理:
其中,xj表示所述待测样本第j个信用属性的属性值。
一种个人信用评估装置,包括:
获取模块,用于获取训练样本集,所述训练样本集包括具有信用标签及多个信用属性的训练样本,所述信用标签为对对应训练样本的信用进行评估得到的标签;
选取模块,用于选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集,将每个训练样本中包含的所述最优信用属性集之外的信用属性去掉,得到对应的最优训练样本集;
构建模块,用于采用支持向量机对所述最优训练样本集建模,得到支持向量机分类模型;
分类模块,用于获取未知信用标签且仅具有所述最优信用属性的待测样本并作为所述支持向量机分类模型的输入,得到所述待测样本的信用标签。
优选的,所述选取模块包括:
选取单元,用于:获取与所述多个信用属性对应的权重向量,并对所述多个信用属性按照所述权重向量中对应权重由大至小进行排序;对进行排序后的多个信用属性,利用支持向量机分类器在所述训练样本集上进行10折交叉验证,得到所述最优信用属性。
优选的,所述选取单元包括:
选取子单元,用于执行以下操作:
步骤1:将权重向量表示为wt=[w1,w2,…,wI]T∈RI,令t=0且设置对应的初始的权重向量为w0=[1/I,1/I,…,1/I]T,I为所述信用属性的数量;
步骤2:最大化来求得权重向量wt+1,其中:
其中,和分别是训练样本xi在与其信用标签不同的异类样本以及训练标签相同的同类样本中的近邻样本矩阵,k是先验设置的近邻个数,N为训练样本的数量;
求解下面的优化问题得到αi:
求解下面的优化问题得到βi:
其中,λ为控制稀疏项稀疏程度的超参数;
步骤3:判断||wt+1-wt||是否小于或等于第一预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则令t=t+1,返回执行步骤2。
优选的,所述选取子单元还包括:
判断子单元,用于判断t是否等于第二预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则执行所述令t=t+1,返回执行步骤2的步骤。
优选的,还包括:
标准化处理模块,用于获取所述训练样本集之后,对每个所述训练样本按照下列转换函数进行离差标准化处理:
元=1,…,N,
j=1,…,I,
其中,xij表示第i个训练样本第j个信用属性的属性值,表示所有训练样本中信用属性j的最大值,表示所有训练样本中信用属性j的最小值;
以及用于获取所述待测样本之后,对所述待测样本按照下列转换函数进行离差标准化处理:
其中,xj表示所述待测样本第j个信用属性的属性值。
本发明提供了一种个人信用评估方法及装置,其中该方法包括:获取训练样本集,所述训练样本集包括具有信用标签及多个信用属性的训练样本,所述信用标签为对对应训练样本的信用进行评估得到的标签;选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集,将每个训练样本中包含的所述最优信用属性集之外的信用属性去掉,得到对应的最优训练样本集;采用支持向量机对所述最优训练样本集建模,得到支持向量机分类模型;获取未知信用标签且仅具有所述最优信用属性的待测样本并作为所述支持向量机分类模型的输入,得到所述待测样本的信用标签。本申请公开的技术方案中,首先获取具有信用标签及多个信用属性的训练样本,将每个训练样本包含的分类效果最好的最优信用属性集之外的其他信用属性去掉,得到对应的最优训练集,进而采用支持向量机对该最优训练集建模得到支持向量机分类模型,以确定未知信用标签且仅具有所述最优信用属性的待测样本的信用标签,即确定该待测样本的信用情况。由此,通过构建支持向量机分类模型实现自动分类的方式避免了现有技术中因为专家的主观性及随机性导致分类精度较低的问题,且实验证明本申请公开的上述技术方案具有较高的分类精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种个人信用评估方法的流程图;
图2为本发明实施例提供的一种个人信用评估装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,为本发明实施例提供的一种个人信用评估方法的流程图,可以包括:
S11:获取训练样本集,训练样本集包括具有信用标签及多个信用属性的训练样本,信用标签为对对应训练样本的信用进行评估得到的标签。
训练样本集可以表示为其中xi∈RI,R表示实数集,yi∈{-1,+1}是xi的信用标签,表明xi的信用类别,如:如果yi=1,表示的xi信用好,如果yi=-1,表示的xi信用差。N是训练样本的总个数,I是训练样本的维数,即训练样本包含的信用属性的个数,需要说明的是每个训练样本包含的信用属性是相同的,而对应每个信用属性的属性值可能相同也可能不同;具体来说,训练样本包含的信用属性可以包括信用历史、资金使用目的、银行账号状态等,当然还可以根据实际需要进行其他设定,均在本发明的保护范围之内。另外,训练样本集中包括多个训练样本,而训练样本的具体数量可以根据实际需要进行设定。
S12:选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集,将每个训练样本中包含的最优信用属性集之外的信用属性去掉,得到对应的最优训练样本集。
由全部信用属性中选取出分类效果最好的最优信用属性组成最优信用属性集,从而基于该最优信用属性集获得特征选取后的最优训练样本集,也即将每个训练样本包含的除最优信用属性集之外的其他信用属性去掉,从而得到仅仅保留有最优信用属性集的训练样本组成的集合。
S13:采用支持向量机对最优训练样本集建模,得到支持向量机分类模型。
支持向量机是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以求获得最好的推广能力。本申请中采用支持向量机对最优训练样本集建模得到对应的支持向量机分类模型,该模型具有较优的分类精度。
S14:获取未知信用标签且仅具有最优信用属性的待测样本并作为支持向量机分类模型的输入,得到待测样本的信用标签。
待测样本包括的信用属性可以包括最优信用属性及其他信用属性,而在对待测样本进行分类时,只需将其他信用属性去掉而仅仅保留最优信用属性即可。将仅包含最优先用属性的待测样本输入分类器,得到对应的输出即为待测样本的信用标签,由该信用标签可以获知待测样本的信用情况,如信用好或者信用差。
本申请公开的技术方案中,首先获取具有信用标签及多个信用属性的训练样本,将每个训练样本包含的分类效果最好的最优信用属性集之外的其他信用属性去掉,得到对应的最优训练集,进而采用支持向量机对该最优训练集建模得到支持向量机分类模型,以确定未知信用标签且仅具有最优信用属性的待测样本的信用标签,即确定该待测样本的信用情况。由此,通过构建支持向量机分类模型实现自动分类的方式避免了现有技术中因为专家的主观性及随机性导致分类精度较低的问题,且实验证明本申请公开的上述技术方案具有较高的分类精度。
具体来说,本发明在German Credit数据集上进行了测试,并将该数据集的原始版本的数据经过编辑形成了属性权威数值型变量的版本。该数据集共有1000个样本,每个样本有24个信用属性以及1个信用标签(信用好和信用差),其中有700个信用好的样本和300个信用差的样本。由中选取出训练样本集,该训练样本集中包含500个训练样本,其中350个是信用好的训练样本,其余150个样品信用差的训练样本。相应地,有350个信用好的样本及150个信用差的样本作为待测样本放入在测试样本集中。通过本申请公开的技术方案基于训练样本集构建对应的支持向量机分类模型,并利用该分类模型对每个待测样本进行分类,得到其对应的信用标签,通过该分类模型得到的信用标签与已知的待测样本的信用标签进行比对,得到对应识别率高达76.20%,可见本申请公开的技术方案的分类精度较高。
本发明实施例提供的一种个人信用评估方法,选取出分类效果最好的信用属性作为最优信用属性,可以包括:
获取与多个信用属性对应的权重向量,并对多个信用属性按照权重向量中对应权重由大至小进行排序;
对进行排序后的多个信用属性,利用支持向量机分类器在训练样本集上进行10折交叉验证,得到最优信用属性。
需要说明的是,权重向量中包括各个信用属性的权重,且各个信用属性的权重的总和为1,权重越大说明其对应信用属性越重要,因此对多个信用属性按照权重向量中对应权重由大至小进行排序也即对信用属性的重要性进行排序,进而基于该排序得到最优信用属性,从而保证了得到的最优信用属性为分类效果最好的信用属性,进一步保证了本申请公开的技术方案的分类精度。另外,对进行排序后的多个信用属性,利用支持向量机分类器在训练样本集上进行10折交叉验证,得到最优信用属性具体可以包括:将训练样本集利用10折交叉再次划分为训练集和测试集,在训练集上依次选取排序好的信用属性,并基于对应选取的信用属性的训练集采用支持向量机方法训练对应的支持向量机分类器,然后利用该支持向量机分类器对测试集中的训练样本进行分类,最后得到使得测试集的平均分类准确率最高的信用属性子集即为最优信用属性的集合。
本发明实施例提供的一种个人信用评估方法,获取与多个信用属性对应的权重向量,可以包括:
S121:将权重向量表示为wt=[w1,w2,…,wI]T∈RI,令t=0且设置对应的初始的权重向量为w0=「1/I,1/I,…,1/I]T,I为信用属性的数量。
t=0时对应的权重向量w0为初始权重向量,此时可以设置每个信用属性的重要性相同,也即每个信用属性的权重均为1/I,当然也可以根据实际需要进行其他分配,均在本发明的保护范围之内。
S122:最大化来求得权重向量wt+1,其中:
其中,和分别是训练样本xi在与其信用标签不同的异类样本以及训练标签相同的同类样本中的近邻样本矩阵,具体来说,与训练样本xi具有不同信用标签的训练样本为其异类样本,与训练样本xi具有相同信用标签的训练样本为其同类样本,通过计算训练样本xi与每个异类样本的距离,进而从中选取出k个最小的距离对应的异类样本组成异类样本的近邻样本矩阵,同理,通过计算训练样本xi与每个同类样本的距离,进而从中选取出k个最小的距离对应的同类样本组成同类样本的近邻样本矩阵,其中计算的距离具体可以是欧式距离;k是先验设置的近邻个数,N为训练样本的数量;
求解下面的优化问题得到αi:
求解下面的优化问题得到βi:
其中,λ为控制稀疏项稀疏程度的超参数;
S123:判断||wt+1-wt||是否小于或等于第一预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则令t=t+1,返回执行S122。
其中,第一预设值可以根据实际需要进行设定,通常需要设置的比较小,如0.01。通过上述步骤,使得每个训练样本的近邻表示尽量系数,从而避免噪声数据对近邻表示的影响,进一步保证了本发明公开的技术方案的分类精度。
本发明实施例提供的一种个人信用评估方法,判断出||wt+1-wt||大于第一预设值之后,还可以包括:
判断t是否等于第二预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则执行令t=t+1,返回执行S122的步骤。
其中第二预设值可以根据实际需要进行设定,如t=10。如果||wt+1-wt||始终无法小于或等于第一预设值,那么不停重复上述步骤是没有实质意义的,因此,设定第二预设值,只要t达到第二预设值,则停止循环,并确定wt+1为最终得到的权重向量,从而保证了权重向量的快速获取。
本发明实施例提供的一种个人信用评估方法,获取训练样本集之后,还可以包括:
对每个训练样本按照下列转换函数进行离差标准化处理:
i=1,…,N,
j=1,…,I,
其中,xij表示第i个训练样本第j个信用属性的属性值,表示所有训练样本中信用属性j的最大值,表示所有训练样本中信用属性j的最小值;
对应的,获取待测样本之后,还包括:
对待测样本按照下列转换函数进行离差标准化处理:
其中,xj表示待测样本第j个信用属性的属性值。
通过上述处理,能够使得训练样本及待测样本对应的信用属性的属性值均处于一定的范围内,进而便于实现后续的步骤,加速了分类器的构建及基于分类器实现的分类。
本发明实施例还提供了一种个人信用评估装置,如图2所示,可以包括:
获取模块11,用于获取训练样本集,训练样本集包括具有信用标签及多个信用属性的训练样本,信用标签为对对应训练样本的信用进行评估得到的标签;
选取模块12,用于选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集,将每个训练样本中包含的最优信用属性集之外的信用属性去掉,得到对应的最优训练样本集;
构建模块13,用于采用支持向量机对最优训练样本集建模,得到支持向量机分类模型;
分类模块14,用于获取未知信用标签且仅具有最优信用属性的待测样本并作为支持向量机分类模型的输入,得到待测样本的信用标签。
本发明实施例提供的一种个人信用评估装置,选取模块可以包括:
选取单元,用于:获取与多个信用属性对应的权重向量,并对多个信用属性按照权重向量中对应权重由大至小进行排序;对进行排序后的多个信用属性,利用支持向量机分类器在训练样本集上进行10折交叉验证,得到最优信用属性。
本发明实施例提供的一种个人信用评估装置,选取单元可以包括:
选取子单元,用于执行以下操作:
步骤1:将权重向量表示为wt=[w1,w2,…,wI]T∈RI,令t=0且设置对应的初始的权重向量为w0=[1/I,1/I,…,1/I]T,I为信用属性的数量;
步骤2:最大化来求得权重向量wt+1,其中:
其中,和分别是训练样本xi在与其信用标签不同的异类样本以及训练标签相同的同类样本中的近邻样本矩阵,k是先验设置的近邻个数,N为训练样本的数量;
求解下面的优化问题得到αi:
求解下面的优化问题得到βi:
其中,λ为控制稀疏项稀疏程度的超参数;
步骤3:判断||wt+1-wt||是否小于或等于第一预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则令t=t+1,返回执行步骤2。
本发明实施例提供的一种个人信用评估装置,选取子单元还可以包括:
判断子单元,用于判断t是否等于第二预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则执行令t=t+1,返回执行步骤2的步骤。
本发明实施例提供的一种个人信用评估装置,还可以包括:
标准化处理模块,用于获取训练样本集之后,对每个训练样本按照下列转换函数进行离差标准化处理:
i=1,…,N,
j=1,…,I,
其中,xij表示第i个训练样本第j个信用属性的属性值,表示所有训练样本中信用属性j的最大值,表示所有训练样本中信用属性j的最小值;
以及用于获取待测样本之后,对待测样本按照下列转换函数进行离差标准化处理:
其中,xj表示待测样本第j个信用属性的属性值。
本发明实施例提供的一种个人信用评估装置中相关部分的说明请参见本发明实施例提供的一种个人信用评估方法中对应部分的详细说明,在此不再赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种个人信用评估方法,其特征在于,包括:
获取训练样本集,所述训练样本集包括具有信用标签及多个信用属性的训练样本,所述信用标签为对对应训练样本的信用进行评估得到的标签;
选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集,将每个训练样本中包含的所述最优信用属性集之外的信用属性去掉,得到对应的最优训练样本集;
采用支持向量机对所述最优训练样本集建模,得到支持向量机分类模型;
获取未知信用标签且仅具有所述最优信用属性的待测样本并作为所述支持向量机分类模型的输入,得到所述待测样本的信用标签。
2.根据权利要求1所述的方法,其特征在于,选取出分类效果最好的信用属性作为最优信用属性,包括:
获取与所述多个信用属性对应的权重向量,并对所述多个信用属性按照所述权重向量中对应权重由大至小进行排序;
对进行排序后的多个信用属性,利用支持向量机分类器在所述训练样本集上进行10折交叉验证,得到所述最优信用属性。
3.根据权利要求2所述的方法,其特征在于,获取与所述多个信用属性对应的权重向量,包括:
步骤1:将权重向量表示为wt=[w1,w2,…,wI]T∈RI,令t=0且设置对应的初始的权重向量为w0=[1/I,1/I,…,1/I]T,I为所述信用属性的数量;
步骤2:最大化来求得权重向量wt+1,其中:
其中,和分别是训练样本xi在与其信用标签不同的异类样本以及训练标签相同的同类样本中的近邻样本矩阵,k是先验设置的近邻个数,N为训练样本的数量;
求解下面的优化问题得到αi:
求解下面的优化问题得到βi:
其中,λ为控制稀疏项稀疏程度的超参数;
步骤3:判断||wt+1-wt||是否小于或等于第一预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则令t=t+1,返回执行步骤2。
4.根据权利要求3所述的方法,其特征在于,判断出||wt+1-wt||大于所述第一预设值之后,还包括:
判断t是否等于第二预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则执行所述令t=t+1,返回执行步骤2的步骤。
5.根据权利要求1所述的方法,其特征在于,获取所述训练样本集之后,还包括:
对每个所述训练样本按照下列转换函数进行离差标准化处理:
i=1,…,N,
j=1,…,I,
其中,xij表示第i个训练样本第j个信用属性的属性值,表示所有训练样本中信用属性j的最大值,表示所有训练样本中信用属性j的最小值;
对应的,获取所述待测样本之后,还包括:
对所述待测样本按照下列转换函数进行离差标准化处理:
其中,xj表示所述待测样本第j个信用属性的属性值。
6.一种个人信用评估装置,其特征在于,包括:
获取模块,用于获取训练样本集,所述训练样本集包括具有信用标签及多个信用属性的训练样本,所述信用标签为对对应训练样本的信用进行评估得到的标签;
选取模块,用于选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集,将每个训练样本中包含的所述最优信用属性集之外的信用属性去掉,得到对应的最优训练样本集;
构建模块,用于采用支持向量机对所述最优训练样本集建模,得到支持向量机分类模型;
分类模块,用于获取未知信用标签且仅具有所述最优信用属性的待测样本并作为所述支持向量机分类模型的输入,得到所述待测样本的信用标签。
7.根据权利要求6所述的装置,其特征在于,所述选取模块包括:
选取单元,用于:获取与所述多个信用属性对应的权重向量,并对所述多个信用属性按照所述权重向量中对应权重由大至小进行排序;对进行排序后的多个信用属性,利用支持向量机分类器在所述训练样本集上进行10折交叉验证,得到所述最优信用属性。
8.根据权利要求7所述的装置,其特征在于,所述选取单元包括:
选取子单元,用于执行以下操作:
步骤1:将权重向量表示为wt=[w1,w2,…,wI]T∈RI,令t=0且设置对应的初始的权重向量为w0=[1/I,1/I,…,1/I]T,I为所述信用属性的数量;
步骤2:最大化来求得权重向量wt+1,其中:
其中,和分别是训练样本xi在与其信用标签不同的异类样本以及训练标签相同的同类样本中的近邻样本矩阵,k是先验设置的近邻个数,N为训练样本的数量;
求解下面的优化问题得到αi:
求解下面的优化问题得到βi:
其中,λ为控制稀疏项稀疏程度的超参数;
步骤3:判断||wt+1-wt||是否小于或等于第一预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则令t=t+1,返回执行步骤2。
9.根据权利要求8所述的装置,其特征在于,所述选取子单元还包括:
判断子单元,用于判断t是否等于第二预设值,如果是,则确定wt+1为最终得到的权重向量,如果否,则执行所述令t=t+1,返回执行步骤2的步骤。
10.根据权利要求6所述的装置,其特征在于,还包括:
标准化处理模块,用于获取所述训练样本集之后,对每个所述训练样本按照下列转换函数进行离差标准化处理:
i=1,…,N,
j=1,…,I,
其中,xij表示第i个训练样本第j个信用属性的属性值,表示所有训练样本中信用属性j的最大值,表示所有训练样本中信用属性j的最小值;
以及用于获取所述待测样本之后,对所述待测样本按照下列转换函数进行离差标准化处理:
其中,xj表示所述待测样本第j个信用属性的属性值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611264984.XA CN106651574A (zh) | 2016-12-30 | 2016-12-30 | 一种个人信用评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611264984.XA CN106651574A (zh) | 2016-12-30 | 2016-12-30 | 一种个人信用评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106651574A true CN106651574A (zh) | 2017-05-10 |
Family
ID=58838030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611264984.XA Pending CN106651574A (zh) | 2016-12-30 | 2016-12-30 | 一种个人信用评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106651574A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180234A (zh) * | 2017-06-01 | 2017-09-19 | 四川新网银行股份有限公司 | 基于人脸表情识别和人脸特征提取的信用风险预测方法 |
CN107993140A (zh) * | 2017-11-22 | 2018-05-04 | 深圳市耐飞科技有限公司 | 一种个人信贷风险评估方法及系统 |
CN108960505A (zh) * | 2018-05-31 | 2018-12-07 | 试金石信用服务有限公司 | 个人金融信用的量化评估方法、装置、系统及存储介质 |
CN109670940A (zh) * | 2018-11-12 | 2019-04-23 | 深圳壹账通智能科技有限公司 | 基于机器学习的信用风险评估模型生成方法及相关设备 |
CN111709832A (zh) * | 2020-06-16 | 2020-09-25 | 中国银行股份有限公司 | 黑名单设置方法、装置、可读介质以及设备 |
CN111709833A (zh) * | 2020-06-16 | 2020-09-25 | 中国银行股份有限公司 | 用户信用的评估方法及装置 |
CN111709834A (zh) * | 2020-06-16 | 2020-09-25 | 中国银行股份有限公司 | 黑名单的设置方法及装置、电子设备、计算机存储介质 |
CN112396507A (zh) * | 2020-09-01 | 2021-02-23 | 重庆邮电大学 | 基于阴影划分的集成svm个人信用评估方法 |
WO2021093320A1 (zh) * | 2019-11-13 | 2021-05-20 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN113591932A (zh) * | 2021-07-06 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 基于一类支持向量机的用户异常行为处理方法和装置 |
CN113962568A (zh) * | 2021-10-26 | 2022-01-21 | 天元大数据信用管理有限公司 | 基于支持向量机的模型标签标注方法、设备及介质 |
CN113971604A (zh) * | 2020-07-22 | 2022-01-25 | 中移(苏州)软件技术有限公司 | 数据处理方法、装置和存储介质 |
CN114490786A (zh) * | 2021-12-28 | 2022-05-13 | 马上消费金融股份有限公司 | 数据排序方法及装置 |
-
2016
- 2016-12-30 CN CN201611264984.XA patent/CN106651574A/zh active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180234A (zh) * | 2017-06-01 | 2017-09-19 | 四川新网银行股份有限公司 | 基于人脸表情识别和人脸特征提取的信用风险预测方法 |
CN107993140A (zh) * | 2017-11-22 | 2018-05-04 | 深圳市耐飞科技有限公司 | 一种个人信贷风险评估方法及系统 |
CN108960505A (zh) * | 2018-05-31 | 2018-12-07 | 试金石信用服务有限公司 | 个人金融信用的量化评估方法、装置、系统及存储介质 |
CN109670940A (zh) * | 2018-11-12 | 2019-04-23 | 深圳壹账通智能科技有限公司 | 基于机器学习的信用风险评估模型生成方法及相关设备 |
WO2021093320A1 (zh) * | 2019-11-13 | 2021-05-20 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN111709832A (zh) * | 2020-06-16 | 2020-09-25 | 中国银行股份有限公司 | 黑名单设置方法、装置、可读介质以及设备 |
CN111709834A (zh) * | 2020-06-16 | 2020-09-25 | 中国银行股份有限公司 | 黑名单的设置方法及装置、电子设备、计算机存储介质 |
CN111709833A (zh) * | 2020-06-16 | 2020-09-25 | 中国银行股份有限公司 | 用户信用的评估方法及装置 |
CN111709832B (zh) * | 2020-06-16 | 2023-07-14 | 中国银行股份有限公司 | 黑名单设置方法、装置、可读介质以及设备 |
CN111709834B (zh) * | 2020-06-16 | 2023-07-28 | 中国银行股份有限公司 | 黑名单的设置方法及装置、电子设备、计算机存储介质 |
CN111709833B (zh) * | 2020-06-16 | 2023-10-31 | 中国银行股份有限公司 | 用户信用的评估方法及装置 |
CN113971604A (zh) * | 2020-07-22 | 2022-01-25 | 中移(苏州)软件技术有限公司 | 数据处理方法、装置和存储介质 |
CN112396507A (zh) * | 2020-09-01 | 2021-02-23 | 重庆邮电大学 | 基于阴影划分的集成svm个人信用评估方法 |
CN113591932A (zh) * | 2021-07-06 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 基于一类支持向量机的用户异常行为处理方法和装置 |
CN113962568A (zh) * | 2021-10-26 | 2022-01-21 | 天元大数据信用管理有限公司 | 基于支持向量机的模型标签标注方法、设备及介质 |
CN114490786A (zh) * | 2021-12-28 | 2022-05-13 | 马上消费金融股份有限公司 | 数据排序方法及装置 |
CN114490786B (zh) * | 2021-12-28 | 2023-01-31 | 马上消费金融股份有限公司 | 数据排序方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106651574A (zh) | 一种个人信用评估方法及装置 | |
CN113792825B (zh) | 一种用电信息采集设备故障分类模型训练方法及装置 | |
CN111914090B (zh) | 一种企业行业分类识别及其特征污染物识别的方法及装置 | |
EP3719704A1 (en) | Feature interpretation method and device for gbdt model | |
CN105069470A (zh) | 分类模型训练方法及装置 | |
CN109891508A (zh) | 单细胞类型检测方法、装置、设备和存储介质 | |
CN107203467A (zh) | 一种分布式环境下监督学习算法的基准测试方法和装置 | |
CN106326913A (zh) | 一种洗钱账户的确定方法及装置 | |
CN111105041B (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN111343147B (zh) | 一种基于深度学习的网络攻击检测装置及方法 | |
CN109345050A (zh) | 一种量化交易预测方法、装置及设备 | |
CN111046930A (zh) | 一种基于决策树算法的供电服务满意度影响因素识别方法 | |
CN107016416A (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
CN111860698A (zh) | 确定学习模型的稳定性的方法和装置 | |
CN111815209A (zh) | 应用于风控模型的数据降维方法及装置 | |
CN112686312A (zh) | 一种数据分类方法、装置及系统 | |
US20150242676A1 (en) | Method for the Supervised Classification of Cells Included in Microscopy Images | |
CN111414930B (zh) | 深度学习模型训练方法及装置、电子设备及存储介质 | |
CN115271442A (zh) | 基于自然语言评估企业成长性的建模方法及系统 | |
CN106203520A (zh) | 基于深度相关向量机的sar图像分类方法 | |
CN115186776B (zh) | 一种红宝石产地分类的方法、装置及存储介质 | |
CN113393023B (zh) | 模具质量评估方法、装置、设备及存储介质 | |
CN116778210A (zh) | 教学影像评价系统以及教学影像评价方法 | |
CN114155412A (zh) | 深度学习模型迭代方法、装置、设备及存储介质 | |
CN108053093A (zh) | 一种基于平均影响值数据变换的k-近邻故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |
|
RJ01 | Rejection of invention patent application after publication |