CN112131600B

CN112131600B - 差分隐私下基于svm的信用违约预测方法

Info

Publication number: CN112131600B
Application number: CN202010996203.6A
Authority: CN
Inventors: 刘西蒙; 蔡剑平; 李家印; 李小燕; 郭文忠
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2022-06-03
Anticipated expiration: 2040-09-21
Also published as: CN112131600A

Abstract

本发明公开了信用违约技术领域的差分隐私下基于SVM的信用违约预测方法，包括如下步骤：S1：数据预处理；S2：变量选择；S3：根据差分隐私串行组合性质，设计差分隐私下加权SVM优化模型，本发明为数据不平衡下的差分隐私SVM学习问题提供了有效的解决方案，该解决方案能够针对性地解决使用差分隐私SVM学习预测客户违约时面临的数据不平衡问题，适用于包括信用卡违约预测在内的存在数据不平衡的应用场景，如灾害预测，医疗诊断等领域也适用于本发明的技术方案。

Description

差分隐私下基于SVM的信用违约预测方法

技术领域

本发明涉及信用违约技术领域，具体为差分隐私下基于SVM的信用违约预测方法。

背景技术

随着社会经济的快速发展，越来越多人使用信用卡实现超前消费。在人们享受信用卡带来的消费便利的同时，越来越多的信用卡债务问题也随之产生。一部分人由于无法及时偿还信用卡债务导致信用卡违约，使得金融机构和消费者遭受巨大经济损失，严重破坏了现有金融秩序，打击了消费者金融信息。如何有效识别潜在的信用卡违约客户，减少信用卡违约的现象是金融机构进行风险控制和管理过程中面临的巨大挑战。作为一种经典的机器学习方法，SVM学习靠着强大的数据拟合能力备受科研人员青睐。该技术基于坚实的数学理论基础，能够高效、稳定地完成学习过程，并且训练后的模型具有良好的鲁棒性。为减少信用卡金融交易的损失和不确定性，本发明将采用SVM学习预测潜在的信用卡违约客户。

对于任何金融机构而言，保护客户个人隐私安全是其最基本的义务。然而，在使用机器学习建立金融预测模型的过程中需要涉及客户数据的使用，存在客户个人隐私泄露的风险，尤其是当预测模型被提供给不被信任的第三方时。如图1所示，银行A利用自己客户的信息训练了预测模型，然后将该模型提供给第三方机构B用于帮助他们预测自己的客户是否具有违约倾向。此时，若第三方机构B存在恶意窃取银行A客户隐私的动机，则可能导致银行A的客户隐私泄露。

为了保护个人隐私，DWork等人提出了差分隐私保护技术，该技术基于严格的数学分析提供强大的个人隐私保护，保证了无论攻击者具有任何背景知识，都难以有效获取个人隐私信息。为解决机器学习中的隐私问题，Benjamin等人首次提出了差分隐私保护的SVM学习方法。其工作内容在于建立差分隐私SVM模型，然后分析数据敏感性，判断需要添加多少噪声才能有效保证SVM学习满足ε-差分隐私，并运用了适当的数据变换提升了SVM学习的精确性。该技术采用输出扰动技术实现差分隐私，有效避免了基于迭代算法的机器学习隐私预算快速消耗的问题，从理论角度解决一般场景下差分隐私的SVM学习问题。不过该技术在提出过程中并未充分考虑具体应用场景下的SVM学习问题，其技术方案偏理论。

差分隐私SVM学习技术的提出促进了隐私安全的智能技术发展，保证了金融、医疗等机构运用数据分析创造价值过程中用户的数据安全，为这些机构的数据分析行为提供了道德和法律的正当性。同时，SVM学习的隐私安全性也促使了人们更愿意许可涉及自身的数据被用于正当的数据分析用途，客观上也促进了智能技术本身的发展。

由于上述技术侧重于差分隐私SVM学习在一般场景下的技术问题，因此将其应用于信用卡违约预测的场景难以实现有效的预测。其原因在于信用卡违约客户的数据是一类严重不平衡的数据，不平衡性体现在客户数据的贡献度不平衡以及决策变量类别的不平衡两个方面。在实际应用中，所提供的客户数据维度非常多，但它们并非都对于预测客户违约有帮助，有些数据的使用所提升的预测能力可以忽略不计，但在差分隐私技术下，这些贡献度非常有限的变量的使用却依然要求增加相应噪声才能保证ε-差分隐私，预测能力提升极小却增加了SVM学习结果的偏差，结果反而获得更差的SVM学习结果。此外，实际数据中只有少部分客户是违约客户，违约客户数量与未违约客户数量的比例严重不平衡，现有的差分隐私SVM学习技术在该应用场景下倾向于将客户预测为未违约客户，甚至将几乎所有客户都判断为未违约客户，此时预测结果就失去其应有的价值。在常规的机器学习中，解决这类问题的主要方法是为不同类别的变量添加适当的权值，但在差分隐私背景下，若在现有的差分隐私SVM学习方法中直接拓展至加权SVM学习会破坏隐私安全性，使得SVM学习不满足ε-差分隐私。因此，现有的差分隐私SVM学习技术无法有效解决信用卡违约预测场景下的学习问题，甚至导致ε-差分隐私得不到保证是当前差分隐私SVM学习方法存在的主要缺陷。

存在上述问题的主要原因在于差分隐私机器学习技术的研究目前仍处于理论发展阶段，大量的研究资源用于解决如何在保证ε-差分隐私的前提下提升机器学习的有效性，目前尚缺乏针对具体应用场景中面临技术难题的技术研究。而本发明所关注的信用卡违约预测场景中的数据不平衡问题正是在相关基础理论研究过程中容易忽略，但信用违约预测问题中必须要解决一个应用问题。并且在差分隐私背景下，现有理论在解决这类问题时存在ε-差分隐私不满足的缺陷，无法通过简单的理论拓展直接应用于解决数据不平衡问题。该技术缺陷是差分隐私SVM学习技术从理论研究向实际应用发展过程中面临的阶段性问题。

基于此，本发明设计了差分隐私下基于SVM的信用违约预测方法，以解决上述提到的问题。

发明内容

本发明的目的在于提供差分隐私下基于SVM的信用违约预测方法，以解决上述提到的问题。

为实现上述目的，本发明提供如下技术方案：差分隐私下基于SVM的信用违约预测方法，包括如下步骤：

S1：数据预处理：通过归一化方法将隐私数据库D的数据映射到区间[-1，1]内，所述隐私数据库D的数据类型分为代表类别的离散型变量和代表数量的连续型变量；

S2：变量选择：将S1处理后的数据进行变量贡献度分析，选用贡献度最大的k_Discrete个离散型变量和k_Continuity个连续型变量；

S3：建立模型：根据差分隐私串行组合性质，设计差分隐私下加权SVM优化模型。

优选的，在所述步骤S1中，对于所述离散型变量，通过数据平移、缩放的方法将数值均匀地映射到[0，1]之间；对于所述连续型变量，按照一定比例缩放，然后采用数值截断的方法将数值进行映射。

优选的，在所述步骤S2中，

对于所述离散型变量，贡献度最大的k_Discrete个离散型变量采用信息增益比衡量，信息增益比IGR(A)的表达式如下：

其中，Ent_D(A)表示对于变量A关于隐私数据库D的信息熵，Ent_D(Y)表示对于变量Y关于隐私数据库D的信息熵，D_A＝ν表示由D中满足筛选条件A＝ν的样例所构成的子集，

对于所述连续型变量，贡献度最大的k_Continuity个连续型变量采用Jaccard距离衡量，Jaccard距离JacDis的表达式如下：

其中，S₁表示被标记为1的分布曲线所围成的曲面面积，S_-1表示被标记为-1的分布曲线所围成的曲面面积。

优选的，对于所述连续型变量，利用了核概率密度估计方法对违约客户和未违约客户变量分布进行比较，所述核概率密度估计方法采用Epanechnikov核估计变量的概率密度函数，表达式如下：

优选的，在所述步骤S3中，加权SVM优化模型如下：

其中，

是待求解法向量，F为维度，n是数据样例个数，C＞0是损失函数

的惩罚系数，ω是惩罚参数强化系数，D_y＝1表示由D中满足筛选条件y＝1的样例所构成的子集，D_y＝-1表示由D中满足筛选条件y＝-1的样例所构成的子集。

优选的，所述加权SVM优化模型实现ε-差分隐私，需要分配一部分隐私预算ε₁＝ρε使得ω的计算过程满足ε₁-差分隐私，其余的隐私预算ε₂＝(1-ρ)ε用于保证加权SVM优化模型求解过程满足ε₂-差分隐私。

优选的，差分隐私下ω的表达式如下：

其中，n_-1＝|D_y＝-1|，n₁＝|D_y＝1|，|D_y＝-1|和|D_y＝1|分别为被标记为-1的样例与被标记为1的样例数量，

为满足拉普拉斯分布的随机数，ε₁＝ρε。

优选的，求解差分隐私下加权SVM优化模型步骤为：

根据表达式

实现ε₂-差分隐私，

其中，Lap^F(λ)为添加的噪声，

ε₂＝(1-ρ)ε，

其中，由于SVM模型采用hinge-loss函数，该函数是1-Lipschitz，因此L为1；κ表示Epanechnikov核函数k(x,x)的上限，满足：

κ＝sup_x(k(x,x))＝sup_x(<φ(x),φ(x)>)。

与现有技术相比，本发明的有益效果是：本发明为数据不平衡下的差分隐私SVM学习问题提供了有效的解决方案，该解决方案能够针对性地解决使用差分隐私SVM学习预测客户违约时面临的数据不平衡问题。

通过信息增益比和Jaccard距离衡量变量的贡献度能够有效地对变量贡献度进行排序，进而选择贡献度最高的若干个变量用于训练SVM模型，从而使得SVM模型的训练结果得到整体最优。并且，针对违约客户与未违约客户的数量不平衡问题，本发明所设计的差分隐私加权SVM实现方案能够有效保持不同类别的整体权重均衡，避免了基于SVM模型的预测结果倾向于预测数量更多的类别。

在设计该方案的过程中，本发明根据了差分隐私的原理设计了隐私预算划分，数理分析等手段保证了隐私有效性，保证了应用本发明技术方案时的个人隐私安全性。由于本技术方案能够解决不平衡数据下个人隐私安全的SVM学习问题，因此本技术方案适用于包括信用卡违约预测在内的存在数据不平衡的应用场景。如灾害预测，医疗诊断等领域也适用于本发明的技术方案。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明现有技术中向第三方提供预测模型示意图；

图2为本发明流程框图；

图3为本发明核概率密度估计示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图2，本发明提供一种技术方案：差分隐私下基于SVM的信用违约预测方法，包括如下步骤：

其中，变量选择技术主要用于解决数据集中多个变量贡献度不平衡的问题，加权SVM学习方法解决了决策变量类别分布不平衡的问题。

由于采用了差分隐私技术，数据敏感度决定了需要添加噪声的大小，敏感度越大则需要添加的噪声越多。而数据敏感度和核函数k(x,x)的取值上限相关。因此本发明在数据预处理过程中通过归一化手段将数据映射到区间[-1,1]内以达到控制噪声添加的目的。由于常见的数据类型主要分为代表类别的离散型变量和代表数量的数值型变量。对于离散型变量，可通过数据平移、缩放的方法将数值均匀地映射到0-1之间。如关于学历的变量由低到高分别有类别{小学文化，初中文化，高中文化，本科学历，硕士学历，博士及以上学历}共6个类别，并被依次对应到数字1-6。在预处理过程中，可将这些类别映射为{小学文化:0，初中文化:0.2，高中文化:0.4，本科学历:0.6，硕士学历:0.8，博士及以上学历:1}，实现数据归一化。不过，由于连续型变量的取值范围可能无限大，预处理时需要事先约定缩放比例，并采用数值截断的方法才能将数值映射到。值得注意的是，实现约定的缩放比例应参考自公认信息或公开的数据渠道，不能参考自数据集本身，否则会导致数据隐私遭破坏。例如，关于年龄数据的取值范围理论上可以是任意非负数，然而实际上年龄超过100的可能性显然微乎其微。在数据预处理时，一种可行的归一化方法是将年龄除以100实现归一化，同时考虑到年龄可能超过100的极小可能性，采用数值截断的方法把大于1的数字处理为1。

虽然普通的机器学习算法在数据集特征维度越高的时候预测能力越强。然而，通过现有差分隐私SVM学习技术的研究，高维数据在提升机器学习模型预测能力的同时也导致了更大的数据敏感度，需要添加更多数据扰动才能满足ε-差分隐私，反而影响了预测效果。因此差分隐私下，机器学习倾向于选用较低维的学习数据。为此，本发明提出了变量贡献度分析方法，优先选择对于判断客户是否违约贡献度较高的变量参与学习，在提供足够有效信息的同时有效降低数据敏感度。变量贡献度的计算同样分别对于离散型变量和连续型变量采用不同的方法。

其中，对于所述离散型变量，贡献度最大的k_Discrete个离散型变量采用信息增益比衡量，信息增益比IGR(A)的表达式如下：

虽然信息增益比能够有效衡量离散变量的贡献程度，但无法应用于连续型变量。对于连续型变量，本文利用了核概率密度估计方法对违约客户和未违约客户变量分布进行比较。本文认为，贡献度越高的变量，数据发布的差异性越大，越有利于判断客户是否将违约。由于Epanechnikov核已被证明在均方误差意义下是最优的并且效率损失也很小，本发明选用Epanechnikov核估计变量的概率密度函数。表达式如下：

以归一化后的信用卡额度为例，利用Epanechnikov核估计变量可以估计出违约客户的信用卡额度分布以及未违约客户的信用卡额度的分布，如图3所示。图中S₁表示被标记为1(违约客户)的蓝色分布曲线所围成的曲面，S_-1表示被标记为-1(未违约客户)的蓝色分布曲线所围成的曲面。根据概率密度函数的定义，显然|S₁|＝|S_-1|＝1。

为了计算连续型变量的贡献程度，本发明采用Jaccard距离衡量变量分布的差异性，一般而言，变量分布的差异性越大表明变量对于决策的贡献度越大。

其中，为了避免决策变量分布不平衡导致的预测失败，一种常见的方法是在损失函数中对样本数量较少的类别加大惩罚系数，使得各类样本达到整体“均衡”状态。根据该思路，本文设计了如下的加权SVM优化模型。

加权SVM优化模型如下：

其中，

的惩罚系数，ω是惩罚参数强化系数，D_y＝1表示由D中满足筛选条件y＝1的样例所构成的子集，D_y＝-1表示由D中满足筛选条件y＝-1的样例所构成的子集。为了实现加权SVM，本发明引入参数ω，它是惩罚参数强化系数，一般取值为

即被标记为-1的样例与被标记为1的样例之比。然而，由于ω的计算过程涉及了隐私数据，存在个人隐私泄露风险。根据差分隐私串行组合性质[9]，需要在ω的计算过程中提供差分隐私。设加权SVM优化模型实现了ε-差分隐私，则需要分配一部分隐私预算ε₁＝ρε使得ω的计算过程满足ε₁-差分隐私，其余的隐私预算ε₂＝(1-ρ)ε将用于保证加权SVM求解过程满足ε₂-差分隐私。不过，当数据量很大时，噪声对于ω的计算结果非常小，因此只需要为ε₁分配极小的比例即可满足计算的需求。在实践过程中，当n达到10000时，ε＝1，ρ只需要0.01即可保证求解的有效性。

差分隐私下ω的表达式如下：

为满足拉普拉斯分布的随机数，ε₁＝ρε。

由于Benjamin等在设计差分隐私SVM算法的过程中并未考虑数据加权问题，将剩下的ε₂作为参数隐私预算应用于现有技术并不能保证ε₂-差分隐私。因此，本发明提出了定理1重新定义了λ以保证ε₂-差分隐私。

定理1在加权SVM模型中，可根据表达式

添加噪声实现ε₂-差分隐私。其中，

由于几乎所有SVM模型都采用hinge-loss函数，该函数是1-Lipschitz，因此L通常取1；κ表示核函数k(x,x)的上限，满足κ＝sup_x(k(x,x))＝sup_x(<φ(x),φ(x)>)。由定理1可知，λ决定了向SVM模型添加误差的大小，λ越大则添加的噪声越多，模型分析结果的偏差也就越大。

综合上述分析，本发明提出的技术实现方案如下：

差分隐私下加权SVM模型求解方案：

输入：数据集D^(org)，C，k_Continuity，k_Discrete，ε，ρ，

输出：加权特征向量

1、对D^(org)预处理得到D:<x_i,y_i>，满足x_ij∈[-1,1]。

2、筛选IGR最大的k_Discrete个离散变量和杰卡德距离最大的k_Continuity个连续变量。

3、统计n_-1＝|D_Y＝-₁|，生成随机数

然后求

4、代入

求解优化表达式(8)求得w。

5、

对于类别数量不平衡的数据下的SVM学习问题，已有相关文献论证了加权SVM能够有效避免数据不平衡导致的预测错误问题。因此，本发明采用加权SVM模型解决该问题具有充分的理论依据。而对于差分隐私下SVM学习的隐私性问题，本发明已提出了定理1分析了隐私安全性，并论证了本发明所解决的差分隐私加权SVM问题应当添加的噪声大小。为说明该定理的正确性，本发明将通过以下理论分析过程加以论证：

设加权SVM模型在实现差分隐私的过程中添加的噪声为Lap^F(λ)。根据文献的定理可知：

对于数据集D_y＝-1，实现的隐私保护等级ε^(-1)与λ满足

则

由于数据集D_y＝1增加了惩罚参数，因此可将ωC作为整体，求出关于D_y＝1的隐私保护等级ε⁽¹⁾与λ满足

则

根据差分隐私并行组合性质，可得整体的隐私保护等级ε满足以下表达式：

代入ε₂可得，

证毕。

该定理的证明为本发明所提出解决方案的隐私安全性提供了有效保证，因此该方案能够有效解决数据不平衡问题中决策变量类别分布不均的问题。

由该定理可知，κ表示核函数k(x,x)的上限，κ的大小直接决定了模型偏差的大小。因此，κ值越小越好。

由于在预处理时已将变量映射到区间[-1,1]，因此-1≤x_i≤1。以SVM模型采用多项式核为例，设

是一个F维特征向量，有k(x,x)＝(γx^Tx+β)^p，分析可得以下不等式成立：

根据上述分析可知，除了可设定的参数γ,β,p以外，κ的取值取决于x的维度F。显然，降低x的维度F能够有效降低需要添加的噪声。该结论为本发明设计的变量选择技术提供了充足的理论依据。而在变量选择过程中，本文针对离散型变量采用的信息增益比衡量贡献度的方法已有相关的理论支撑，并且被广泛应用于决策树等技术中。Epanechnikov核已被证明能够有效估计数值分布，根据图3可知，若不同类别的数值分布差异越大则表明该变量对于决策变量的判断提供了更多贡献，根据Jaccard距离的定义，Jaccard距离能够很好地反映数值分布的差异。信息增益比和Jaccard距离均能有效地反映变量贡献度。因此，本发明所设计的变量选择技术能够有效地筛选出贡献度高的变量，减少SVM学习算法使用的变量数量，同时也降低了差分隐私技术引起的加权SVM模型的偏差。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。