CN114818900A - 一种半监督特征提取方法及用户信用风险评估方法 - Google Patents
一种半监督特征提取方法及用户信用风险评估方法 Download PDFInfo
- Publication number
- CN114818900A CN114818900A CN202210417139.0A CN202210417139A CN114818900A CN 114818900 A CN114818900 A CN 114818900A CN 202210417139 A CN202210417139 A CN 202210417139A CN 114818900 A CN114818900 A CN 114818900A
- Authority
- CN
- China
- Prior art keywords
- feature
- constraint
- category
- score
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012502 risk assessment Methods 0.000 title claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 56
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 239000010754 BS 2869 Class F Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种半监督特征提取方法及用户信用风险评估方法。先对带标签的样本生成约束对集合;计算每个类别的假设间隔,以得到每个类别的特征间隔分数;再计算每个类别的特征约束分数,利用特征间隔分数和特征约束分数确定每个类别特征得分,选择得分最低类别的特征生成目标特征子集;再计算剩余每个类别的特征并到目标特征子集时的特征约束分数,以计算剩余每个类别的特征得分,选择得分最低类别的特征更新目标特征子集,不断重复计算直至目标特征子集中的特征类别个数等于设定阈值。本发明通过迭代计算特征约束分数,并且在迭代中考虑特征间隔分数,充分考虑到特征之间的关联性和特征的判别性,使得所提取出的特征更具代表性、更具判别能力。
Description
技术领域
本发明涉及计算机技术领域,尤其是指一种半监督特征提取方法及用户信用风险评估方法。
背景技术
特征提取是机器学习、数据挖掘、模式识别等各种领域的研究内容之一。从是否使用监督信息的角度,可以将其分为监督特征提取、半监督特征提取、无监督特征提取。在实际处理过程中,大量数据都是没有标签的,如果要对所有的数据都添加标签,费事费力,成本高,代价大。但若是只采用无监督的方式学习,虽然学习速度很快,则可能导致提取的特征产生误差,影响性能。半监督特征提取方式可以同时处理有标签数据和无标签数据。基于此,会选择花费少量代价给部分数据贴上标签,利用已有标签的数据增强分类效果或特征提取准确率。针对半监督特征提取,基于约束评分的特征选择方法已经被提出,该方法使用成对约束来评估特征的重要性,但该方法没有考虑特征之间的关联性,同时也没有完全考虑特征的判别能力。
针对上述问题也衍生出一些改进方法,例如Csimba算法利用约束对计算了假设间隔,将其作为特征的权重进行特征选择,选择权重较大的特征作为特征子集,考虑到特征的判别能力,同时一定程度上降低了算法复杂度,提高了算法效率,但是没有考虑特征之间的相关性,因此导致所选择的特征可能会存在一定冗余。例如ICS算法,该方法不断迭代计算每个特征分数,直至特征集为空,逐步选择使新的特征子集最有效的特征,进而得到一个有效的特征序列,该方法通过迭代选择考虑到了特征之间的关联性,但缺少对特征判别能力的考虑。此外还产生一种ICSMI算法,该方法利用每个特征的约束分数同时还引入互信息来进行迭代选择特征,该方法利用约束分数和互信息充分考虑了特征之间的相关性,但是仍不能保证所选择的特征是最典型特征,没有考虑到不同类别特征的判别能力,导致选择的特征子集并不全是最具代表性的特征,继而影响后续利用提取的特征子集进行分类的精度。
因此,现有技术在基于成对约束下的半监督特征提取,已经充分考虑道了特征之间的相关性或关联性,实现摒弃部分无关紧要特征,以达到所提取的特征子集具有一定代表性;而特征的选取除了需要考虑特征之间的关联性,还应该考虑到特征的判别能力,这样才能保证所选择的特征对于某一应用(例如图像分类),在不同类别下时其判别能力越强,对于某一类别的分类结果更精准。
综上所述,在特征提取过程中如何兼顾特征之间的关联性和特征的判别能力是目前有待解决的问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中基于约束评分的特征选择无法有效兼顾特征之间的关联性和特征的判别能力的问题。
为解决上述技术问题,本发明提供了一种半监督特征提取方法:
1)获取样本数据集,对每个样本的特征进行数值化,得到不同类别的特征集合;根据所述样本数据集建立样本对,并对有标签的样本对建立约束对集合,所述约束对集合包括必须连接约束对集合和不能连接约束对集合;
2)利用所述不能连接约束对计算每个类别内的假设间隔,对所述每个类别内的假设间隔引入设定参数计算每个类别的特征间隔分数;
3)根据预设的每个样本对在必须连接约束和不能连接约束下的权重值,计算每个类别的特征约束分数,根据预设的特征约束分数和特征间隔分数的权值,对所述每个类别的特征约束分数和特征间隔分数赋予权值,对赋予权值的特征约束分数和特征间隔分数求和,得到每个类别的特征得分;
5)根据预设的每个样本对在必须连接约束和不能连接约束下的权重值,分别计算所述候选特征子集中每一个类别的特征合并到所述目标特征子集A时,所述候选特征子集中每一个类别的特征约束分数,再根据预设的特征约束分数和特征间隔分数的权值,计算所述候选特征子集中每一个类别的特征得分;
在本发明的一个实施例中,所述对有标签的样本对建立约束对集合包括:
在所有样本对(xi,xj)中提取有标签l的样本对作为约束对,xi∈X,xj∈X,i=1,2,…,n,j=1,2,…,n,X={x1,x2,...,xn}为样本数据集,l=1,2,…,c,c为类别总数;
提取所有约束对中样本标签l相同的约束对构建必须连接约束对集合:
M={(xi,xj)|lxi=lxj};
提取所有约束对中样本标签l不同的约束对构建不能连接约束对集合:
C={(xi,xj)|lxi≠lxj}。
在本发明的一个实施例中,所述利用不能连接约束对计算每个类别内的假设间隔包括:
寻找每个不能连接约束对(xi,xj)的最近邻样本H(xi)和H(xj),计算在第k个类别下每个约束对中的样本xi和H(xi)、H(xj)的样本间隔差ρk:
ρk=|xik-H(xjk)|-|xik-H(xik)|,k=1,..,d
式中,xik为样本xi的第k个类别的特征,H(xik)和H(xjk)分别为样本H(xi)和H(xj)的第k个类别的特征,d为特征类别的个数;
对第k个类别下所有约束对得到的样本间隔差ρk求和,得到第k个类别的间隔差Zk:
式中,ρsk为第s个约束对下的ρk,S为不能连接约束对的总个数;
将大于0的Zk作为第k个类别的特征间隔差,将小于0的Zk替换成0值作为第k个类别的特征间隔差,根据每个类别的特征间隔差生成共d个类别的特征间隔差集合(z)+:
(z)+=[max(z1,0),...,max(zd,0)]T
计算第k个类别的特征间隔差,基于所有类别特征间隔差下的假设间隔,得到第k个类别的假设间隔wk:
式中,||(z)+||2代表(z)+的L2范数。
在本发明的一个实施例中,所述每个类别的特征得分的计算公式为:
式中,Jk为第k个类别的特征得分,为第k个类别的特征约束分数,fk为第k个类别的特征向量,LM为必须连接约束对集合的拉普拉斯矩阵,即所有样本对在必须连接约束下的权重值矩阵,LC为不能连接约束对集合的拉普拉斯矩阵,即所有样本对在不能连接约束下的权重值矩阵,λ为特征约束分数的权值,为第k个类别的特征间隔分数,wk为第k个类别的假设间隔,δ为设定参数,(1-λ)为特征间隔分数的权值,F为所有类别的特征集合。
将所述候选特征子集中第m个类别特征合并到所述目标特征子集时,候选特征子集中第m个类别的特征得分的计算公式为:
式中,Jm为候选特征子集中第m个类别特征合并到目标特征子集时,第m个类别的特征得分,为候选特征子集中第m个类别特征合并到目标特征子集时的特征约束分数,代表在第m个类别的特征向量合并到目标特征子集的特征矩阵,|·|是取集合元素个数的函数,trace(·)是求矩阵对角线元素之和的函数,为候选特征子集,F为所有类别的特征集合,A为目标特征子集,fm为候选特征子集中第m个类别的特征向量,LM为必须连接约束对集合的拉普拉斯矩阵,即所有样本对在必须连接约束下的权重值矩阵,LC为不能连接约束对集合的拉普拉斯矩阵,即所有样本对在不能连接约束下的权重值矩阵,λ为特征约束分数的权值,wm为候选特征子集中第m个类别的假设间隔,为第m个类别的特征间隔分数,(1-λ)为特征间隔分数的权值,δ为设定参数。
在本发明的一个实施例中,所述必须连接约束对集合的拉普拉斯矩阵LM的计算包括:
确定必须连接约束对集合的连接矩阵WM:
式中,M代表必须连接约束对集合,代表连接矩阵WM中第i行第j列的元素,当样本对(xi,xj)属于必须连接约束对集合时,WM中第i行第j列的元素为1,当样本对(xi,xj)不属于必须连接约束对集合时,WM中第i行第j列的元素为0;
计算每个约束对在必须连接约束下的权重值,生成每个样本对在必须连接约束下的权重值矩阵即为必须连接约束对集合的拉普拉斯矩阵LM:
LM=DM-WM
在本发明的一个实施例中,所述不能连接约束对集合的拉普拉斯矩阵LC的计算包括:
确定不能连接约束对集合的连接矩阵:
式中,C为不能连接约束对集合,WC为不能连接约束对集合的连接矩阵,代表连接矩阵WC中第i行第j列的元素,当样本对(xi,xj)属于不能连接约束对集合时,WC中第i行第j列的元素为1,当样本对(xi,xj)不属于不能连接约束对集合时,WC中第i行第j列的元素为0;
计算每个样本对在不能连接约束下的权重值,生成每个样本对在不能连接约束下的权重值矩阵即为不能连接约束对集合的拉普拉斯矩阵LC:
LC=DC-WC
本发明还提供了一种基于半监督特征提取的用户信用风险评估方法,该方法采用如上述的半监督特征提取方法实现特征选择,利用所选特征训练分类器,通过训练好的分类器对待评估用户样本特征进行分类,实现待评估用户的信用风险评估。
本发明还提供了一种半监督特征提取设备,该设备包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时实现上述一种半监督特征提取方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种半监督特征提取方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的半监督特征提取方法,利用已有标签用户特征构建必须连接约束对集合和不能连接约束对集合;计算每个类别的假设间隔,并根据每个类别的假设间隔计算每个类别的特征间隔分数;在选择目标特征类别时,考虑不同样本之间的关联性,利用每个样本对在必须连接约束和不能连接约束下的权重值,计算每个类别下的特征约束分数,以此考虑同一类别下不同样本之间的特征关联性和不同类别下各样本之间的特征关联性;利用设定的特征约束分数和特征间隔分数的权值,计算每个类别下的特征得分,明确在计算特征得分时特征约束分数和特征间隔分数的相对重要程度,选择得分最小的类别特征生成目标特征子集,剩余类别特征作为候选特征子集;然后计算候选特征子集中每个类别特征合并到目标特征子集中每个类别的特征得分,选择得分最小的类别特征更新目标特征子集,通过不断迭代计算的方式直至最终目标特征子集的类别个数等于设定阈值。本发明充分考虑了特征之间的关联性,避免特征之间的依赖性过强而影响后续分类效果;每一次迭代计算中引入特征间隔差,又增强了对每个特征判别能力的考虑,使得提取的特征更具有代表性、更典型;并通过特征约束分数与特征间隔分数的权比,更有效地兼顾特征之间的关联性和特征的判别能力的相对重要程度;相比于现有技术,本发明在提取特征子集的过程中,兼顾了特征之间的关联性和特征的判别能力,使得所提取的特征更典型、突出,有助于不同应用场景下的准确分类。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明一种实施例中基于半监督特征提取的用户信用风险评估的具体流程图;
图2是本发明一种实施例中利用提出的半监督特征提取方法与现有约束评分方法提取特征的个数与信用评估正确率的对比关系图;
图3是本发明一种实施例中λ不同取值下的分类准确率对比图;
图4是本发明一种实施例中δ不同取值下的分类准确率对比图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提出的一种半监督特征提取方法,可以应用在不同分类场景的特征提取中,例如图像分类、环境音分类、用户信用风险评估等。这些场景下,特征提取方法的具体过程是一样的,在具体应用实施过程中,采用通过本发明方法提取的所需特征来训练分类模型,然后利用训练好的分类模型对待分类目标进行分类,以此实现不同场景应用。本发明提出的半监督特征提取方法,首先对已获取的样本特征进行数值化,并对已有标签的的样本生成必须连接约束对集合和不能连接约束对集合;计算每个类别的特征间隔分数和特征约束分数,再基于特征约束分数和特征间隔分数不断迭代计算特征得分,每一次都选择最小得分的类别特征计入目标特征子集,直至最终提取特征类别个数等于设定阈值。
下面以对一种基于半监督特征提取的用户信用风险评估为例进行具体阐述,采用本发明所提出的半监督特征提取方法实现特征提取,基于提取出的特征训练分类器,利用训练好的分类器对待评估用户样本特征进行分类,实现用户信用风险评估。请参照图1,图1为基于半监督特征提取的用户信用风险评估的具体实施过程:
S1:用户特征数值化及生成约束对集合;
对已有用户样本信息进行数值化并生成样本数据集,将样本数据集表示为X={x1,x2,...,xn},xi表示第i个用户样本,n代表已有用户总数。其中,xi=[xi1,xi2,…,xid]T∈Rd,d为特征类别的个数,即每个用户都有d个特征。用Z=[f1,f2,...,fd]∈Rn×d表示用户特征,其中fk=[x1k,x2k,...,xnk]T为每个用户样本的第k个特征向量且被归一化到[0,1]区间。
根据样本数据集X={x1,x2,...,xn}中的两两样本建立样本对(xi,xj),提取有标签l的样本对作为约束对,其中,xinX,xj∈X,i=1,2,…,n,j=1,2,…,n;
提取所有约束对中样本标签l相同的约束对构建必须连接约束对集合M:
M={(xi,xj)|lxi=lxj}
提取所有约束对中样本标签l不同的约束对构建不能连接约束对集合C:
C={(xi,xj)|lxi≠lxj}
在本实施中,样本的标签l为用户信用良好和用户信用不良(l=1,2),用1代表该用户信用良好,2代表该用户信用不良,必须连接约束对是指两个用户样本的标签一致(标签同为1或同为2),不能连接约束对是指两个用户样本的标签不一样(一个用户标签为1,一个用户标签为2);在建立必须连接约束对集合M和不能连接约束对集合C时,也可以仅提取所有约束对中的部分约束对来构建,具体数量可以根据有标签的用户样本数量来确定。
S2:计算每个类别的特征间隔分数;
首先计算每个类别的假设间隔,然后对每个类别的假设间隔引入设定参数得到每个类别的特征间隔分数。
S201:计算每个类别的假设间隔;
1)在获取的用户样本X={x1,x2,...,xn}中分别寻找每一个不能连接约束对(xi,xj)的最近邻样本H(xi)和H(xj);H(xi)代表不能连接约束对中xi的最近邻样本,H(xj)代表不能连接约束对中xj的最近邻样本;最近邻样本H(xi)是指H(xi)的特征值和xi的特征值最相近。
2)计算在第k个类别下每个约束对中的样本xi和H(xi)、H(xj)的样本间隔差ρk:
ρk=|xik-H(xjk)|-|xik-H(xik)|,k=1,..,d
式中,xik为样本xi的第k个类别的特征,H(xik)和H(xjk)分别为样本H(xi)和H(xj)的第k个类别的特征,d为特征类别的个数;
3)对第k个类别下所有约束对得到的样本间隔差ρk求和,得到第k个类别的间隔差Zk:
式中,ρsk为第s个约束对下的ρk,S为不能连接约束对的总个数;
将大于0的Zk作为第k个类别的特征间隔差,将小于0的Zk替换成0值作为第k个类别的特征间隔差;根据每个类别的特征间隔差生成共d个类别的特征间隔差集合(z)+:
(z)+=[max(z1,0),…,max(zd,0)]T
4)计算第k个类别的特征间隔差基于所有类别特征间隔差下的假设间隔,得到第k个类别的假设间隔wk:
式中,||(z)+||2代表(z)+的L2范数。
以此可以计算出共d个类别的假设间隔。
步骤S202:计算每个类别的特征间隔分数;
利用计算得到的每个类别的假设间隔,引入设定参数计算得到每个类别的特征间隔分数Jwk:
式中,δ为设定参数,引入δ的目的是为了当wk为0时,保障计算过程中的分母不为0,本实施例中δ设置为0.1。
S3:计算特征集合F中的每个特征类别的特征得分;
已有用户样本所有特征集合为F={f1,f2,...,fd},为确定目标特征类别,计算特征集合F中每个类别的特征得分,首先根据预设的每个样本对在必须连接约束和不能连接约束下的权重值,计算每个类别的特征约束分数;再根据预设的特征约束分数和特征间隔分数的权值,对所述每个类别的特征约束分数和特征间隔分数赋予权值,对赋予权值的特征约束分数和特征间隔分数求和,得到每个类别的特征得分;具体选择步骤如下:
1)由必须连接约束对集合M和不能连接约束对集合C可以分别生成两个连接矩阵WM和WC,矩阵中的具体元素构造如下:
其中,代表连接矩阵WM中第i行第j列的元素,当样本对(xi,xj)属于必须连接约束对集合时,WM中第i行第j列的元素为1,当样本对(xi,xj)不属于必须连接约束对集合时,WM中第i行第j列的元素为0;
其中,代表连接矩阵WC中第i行第j列的元素,当样本对(xi,xj)属于不能连接约束对集合时,WC中第i行第j列的元素为1,当样本对(xi,xj)不属于不能连接约束对集合时,WC中第i行第j列的元素为0。
2)计算每个样本对在必须连接约束下的权重值,生成每个样本对在必须连接约束下的权重值矩阵,即必须连接约束对集合的拉普拉斯矩阵LM:
LM=DM-WM
式中,DM为对角矩阵,为DM的对角线元素的值,即DM的第i行第i列的元素值为WM中第i行所有元素之和,n为样本对中的样本总数,LM中第i行第j列的元素值即为样本对(xi,xj)在必须连接约束下的权重值;
计算每个样本对在不能连接约束下的权重值,生成每个约束对在不能连接约束下的权重值矩阵,即为不能连接约束对集合的拉普拉斯矩阵LC:
LC=DC-WC
3)计算特征集合F下每个类别的特征约束分数Jak:
4)利用预设的特征约束分数和特征间隔分数的权值,计算特征集合F中每个类别的特征得分Jk:
式中,λ和(1-λ)分别为预设的特征约束分数和特征间隔分数的权值;
在本实施例中,λ设置为0.3,δ设置为0.1,针对于不同应用场景或不同样本数据,λ和δ的数值可以根据实际情况进行调整。
在实际实施过程中,λ和δ是根据实验确定的,针对于本实施例下,设置参数λ的取值在集合{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}中,设置参数的取值在集合{10,1,0.1,0.01,0.001}中,通过不同取值下的准确率确定最优取值。
选择特征得分最小的特征类别f*,利用特征集合F中类别f*的特征构建目标特征子集A;
根据计算出的特征得分,选择得分最小的特征类别,例如共计算了5个类别的特征得分(贷款余额、信用额度、逾期次数、提前还款次数、担保人),最终“贷款余额”这一类别的特征得分最小,选择这一类别下的所有特征更新目标特征子集,即A=A∪{f*};此时,目标特征子集中仅含有一个类别特征,即“贷款余额”;
S6:更新目标特征子集和候选特征子集;
1)选择特征得分最小的特征类别f*:
2)更新目标特征子集A,即A=A∪{f*};
通过不断迭代计算的方式,充分考虑了特征之间的相关性,并且在每一次迭代过程中考虑到类别下特征的间隔差,又增强了对每个特征判别能力的考虑,使得提取的特征更具有代表性、更典型。
S8:用户信用评估。
利用生成的目标特征子集对未知风险用户进行信用评估。首先将未知风险用户的信息进行数值化,生成未知风险用户样本数据集,根据输出的目标特征子集A中的特征类别对未知用户样本数据集进行特征选择,生成待测样本数据集。采用机器学习的方法,利用输出的目标特征子集A训练分类模型,用训练好的分类模型来评估未知用户是否存在风险。最终,分类结果显示为1的用户为信用良好用户,分类结果显示为2的用户为信用不良用户。
为了进一步说明本发明方法的实用性和可靠性,利用本发明方法在UCI数据集GermanCredit上进行了测试,通过对用户信用特征的提取和分析,来判断用户是否有良好的信用风险。该数据集是德国信贷数据集,数据集一共包含1000个数据样本,每个样本包含24个特征。每一个数据样本都代表一个用户的24个特征,其中有影响个人信用的特征如信贷账户数目增减、信贷余额变化、信用额度、拖延付款时间等,也有与用户信用无关的特征如借款用途、担保人、现居地等,通过对这些特征进行分析,将每个样本的特征数值化。
本实施例在GermanCredit数据集上进行,新用户的个数为100个,重复风险评估100次,获得风险评估结果。采用10次交叉验证方法,取十轮实验的平均值作为实验结果。通过本发明与现有约束评分方法选择的特征个数与评估正确率关系的对比结果,如图2所示,可以看出本发明方法在提取特征数量小于21个时,本发明方法用户风险评估准确率均要高于现有的约束评分方法;表1分别给出了本发明与基于约束评分的特征提取方法识别用户信用结果的最高精度与标准差。本发明与约束评分相比,能在相同数量的特征下,考虑了特征之间的相关性和特征的判别能力,获得了更高的分类精度。
表1:
通过对本实施例提取到的特征进行分析。在十轮实验过程中,多轮实验都提取到了账户余额、其他分期付款计划、目前就业情况、信用历史、还款记录、分期付款额占可支配收入的百分比等特征,可以看出,这些特征对于分析用户的信用是有效的。且多轮实验都未提取到用户的借贷用途、担保人、现居地、婚姻情况等特征,这些特征是与信用评估无关的。由上述分析可知,本发明对评估用户的信用风险是有效可行的。
在此过程中,为了确定参数λ和δ,设置参数λ的取值在集合{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}中,设置参数δ的取值在集合{10,1,0.1,0.01,0.001}中,通过在UCI的Wine数据集上的实验验证,如图3和图4所示,当δ取值0.1时,不同λ取值在不同特征个数下的准确率如图3,当λ取值0.3时,不同δ取值在不同特征个数下的准确率如图4所示。从图3可以看出,当λ等于0.3时,曲线的分类正确率最高,并且当λ等于0和λ等于1的这两条曲线的正确率低于其他曲线,表明当利用迭代约束或仅利用特征间隔(假设间隔)评分提取的特征,得到的分类精度并不是最优的,因此进一步说明了本发明方法有效地将假设间隔和迭代约束评分结合起来,能得到良好的效果。
从图4可以看出,无论δ的取值是多少,采用本发明方法得到的正确率都高于现有约束评分。并且,当δ的取值较大在{10,1}并且选择特征的数量较少时,这两条曲线高于其他曲线;而当δ的取值较小在{0.01,0.001}并且选择特征的数量较多时,曲线的正确率较高。而δ=0.1时的曲线平稳且正确率较高。
本发明还提出一种特征提取设备,该设备包括处理器和存储器,存储器用于存储计算机程序;处理器用于执行计算机程序时实现上述一种半监督特征提取方法的步骤。
本发明还提出一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述一种半监督特征提取方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种半监督特征提取方法,其特征在于:包括
1)获取样本数据集,对每个样本的特征进行数值化,得到不同类别的特征集合;根据所述样本数据集建立样本对,并对有标签的样本对建立约束对集合,所述约束对集合包括必须连接约束对集合和不能连接约束对集合;
2)利用所述不能连接约束对计算每个类别内的假设间隔,对所述每个类别内的假设间隔引入设定参数计算每个类别的特征间隔分数;
3)根据预设的每个样本对在必须连接约束和不能连接约束下的权重值,计算每个类别的特征约束分数,根据预设的特征约束分数和特征间隔分数的权值,对所述每个类别的特征约束分数和特征间隔分数赋予权值,对赋予权值的特征约束分数和特征间隔分数求和,得到每个类别的特征得分;
5)根据预设的每个样本对在必须连接约束和不能连接约束下的权重值,分别计算所述候选特征子集中每一个类别的特征合并到所述目标特征子集A时,所述候选特征子集中每一个类别的特征约束分数,再根据预设的特征约束分数和特征间隔分数的权值,计算所述候选特征子集中每一个类别的特征得分;
2.根据权利要求1所述的半监督特征提取方法,其特征在于:所述对有标签的样本对建立约束对集合包括:
在所有样本对(xi,xj)中提取有标签l的样本对作为约束对,xi∈X,xj∈X,i=1,2,…,n,j=1,2,…,n,X={x1,x2,...,xn}为样本数据集,l=1,2,…,c,c为类别总数;
提取所有约束对中样本标签l相同的约束对构建必须连接约束对集合:
M={(xi,xj)|lxi=lxj};
提取所有约束对中样本标签l不同的约束对构建不能连接约束对集合:
C={(xi,xj)|lxi≠lxj}。
3.根据权利要求2所述的半监督特征提取方法,其特征在于:所述利用不能连接约束对计算每个类别内的假设间隔包括:
寻找每个不能连接约束对(xi,xj)的最近邻样本H(xi)和H(xj),计算在第k个类别下每个约束对中的样本xi和H(xi)、H(xj)的样本间隔差ρk:
ρk=|xik-H(xjk)|-|xik-H(xik)|,k=1,..,d
式中,xik为样本xi的第k个类别的特征,H(xik)和H(xjk)分别为样本H(xi)和H(xj)的第k个类别的特征,d为特征类别的个数;
对第k个类别下所有约束对得到的样本间隔差ρk求和,得到第k个类别的间隔差Zk:
式中,ρsk为第s个约束对下的ρk,S为不能连接约束对的总个数;
将大于0的Zk作为第k个类别的特征间隔差,将小于0的Zk替换成0值作为第k个类别的特征间隔差,根据每个类别的特征间隔差生成共d个类别的特征间隔差集合(z)+:
(z)+=[max(z1,0),...,max(zd,0)]T
计算第k个类别的特征间隔差,基于所有类别特征间隔差下的假设间隔,得到第k个类别的假设间隔wk:
式中,||(z)+||2代表(z)+的L2范数。
将所述候选特征子集中第m个类别特征合并到所述目标特征子集时,候选特征子集中第m个类别的特征得分的计算公式为:
式中,Jm为候选特征子集中第m个类别特征合并到目标特征子集时,第m个类别的特征得分,为候选特征子集中第m个类别特征合并到目标特征子集时的特征约束分数,代表在第m个类别的特征向量合并到目标特征子集的特征矩阵,|·|是取集合元素个数的函数,trace(·)是求矩阵对角线元素之和的函数,为候选特征子集,F为所有类别的特征集合,A为目标特征子集,fm为候选特征子集中第m个类别的特征向量,LM为必须连接约束对集合的拉普拉斯矩阵,即所有样本对在必须连接约束下的权重值矩阵,LC为不能连接约束对集合的拉普拉斯矩阵,即所有样本对在不能连接约束下的权重值矩阵,λ为特征约束分数的权值,wm为候选特征子集中第m个类别的假设间隔,为第m个类别的特征间隔分数,(1-λ)为特征间隔分数的权值,δ为设定参数。
6.根据权利要求4或5所述的半监督特征提取方法,其特征在于:所述必须连接约束对集合的拉普拉斯矩阵LM的计算包括:
确定必须连接约束对集合的连接矩阵WM:
式中,M代表必须连接约束对集合,代表连接矩阵WM中第i行第j列的元素,当样本对(xi,xj)属于必须连接约束对集合时,WM中第i行第j列的元素为1,当样本对(xi,xj)不属于必须连接约束对集合时,WM中第i行第j列的元素为0;
计算每个约束对在必须连接约束下的权重值,生成每个样本对在必须连接约束下的权重值矩阵即为必须连接约束对集合的拉普拉斯矩阵LM:
LM=DM-WM
7.根据权利要求4或5所述的半监督特征提取方法,其特征在于:所述不能连接约束对集合的拉普拉斯矩阵LC的计算包括:
确定不能连接约束对集合的连接矩阵:
式中,C为不能连接约束对集合,WC为不能连接约束对集合的连接矩阵,代表连接矩阵WC中第i行第j列的元素,当样本对(xi,xj)属于不能连接约束对集合时,WC中第i行第j列的元素为1,当样本对(xi,xj)不属于不能连接约束对集合时,WC中第i行第j列的元素为0;
计算每个样本对在不能连接约束下的权重值,生成每个样本对在不能连接约束下的权重值矩阵即为不能连接约束对集合的拉普拉斯矩阵LC:
LC=DC-WC
8.一种基于半监督特征提取的用户信用风险评估方法,其特征在于,该方法采用如上述权利要求1-7任一项所述的半监督特征提取方法实现特征选择,利用所选特征训练分类器,通过训练好的分类器对待评估用户样本特征进行分类,实现待评估用户的信用风险评估。
9.一种半监督特征提取设备,其特征在于:该设备包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时实现上述权利要求1-7任一项所述的一种半监督特征提取方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-7任一项所述的一种半监督特征提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210417139.0A CN114818900A (zh) | 2022-04-20 | 2022-04-20 | 一种半监督特征提取方法及用户信用风险评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210417139.0A CN114818900A (zh) | 2022-04-20 | 2022-04-20 | 一种半监督特征提取方法及用户信用风险评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114818900A true CN114818900A (zh) | 2022-07-29 |
Family
ID=82506276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210417139.0A Pending CN114818900A (zh) | 2022-04-20 | 2022-04-20 | 一种半监督特征提取方法及用户信用风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818900A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239485A (zh) * | 2022-08-16 | 2022-10-25 | 苏州大学 | 基于前向迭代约束评分特征选择的信用评估方法及系统 |
-
2022
- 2022-04-20 CN CN202210417139.0A patent/CN114818900A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239485A (zh) * | 2022-08-16 | 2022-10-25 | 苏州大学 | 基于前向迭代约束评分特征选择的信用评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491817B (zh) | 一种事件检测模型训练方法、装置以及事件检测方法 | |
CN110267119B (zh) | 视频精彩度的评价方法及相关设备 | |
CN114398961B (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
CN108345587B (zh) | 一种评论的真实性检测方法与系统 | |
CN111881671B (zh) | 一种属性词提取方法 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN112100387A (zh) | 用于文本分类的神经网络系统的训练方法及装置 | |
CN113657425A (zh) | 基于多尺度与跨模态注意力机制的多标签图像分类方法 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN113449012A (zh) | 基于大数据预测的互联网服务挖掘方法及大数据预测系统 | |
CN113449011A (zh) | 基于大数据预测的信息推送更新方法及大数据预测系统 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN111401105A (zh) | 一种视频表情识别方法、装置及设备 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN112819024A (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN114818900A (zh) | 一种半监督特征提取方法及用户信用风险评估方法 | |
CN113837266A (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN113420117A (zh) | 一种基于多元特征融合的突发事件分类方法 | |
CN113536784A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
Dong et al. | Scene-oriented hierarchical classification of blurry and noisy images | |
CN115204301A (zh) | 视频文本匹配模型训练、视频文本匹配方法和装置 | |
CN114882409A (zh) | 一种基于多模态特征融合的智能暴力行为检测方法及装置 | |
CN113761126A (zh) | 文本内容的识别方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220729 |