CN112418520A

CN112418520A - 一种基于联邦学习的信用卡交易风险预测方法

Info

Publication number: CN112418520A
Application number: CN202011315912.XA
Authority: CN
Inventors: 李莉; 樊宇曦; 林国义
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-11-22
Filing date: 2020-11-22
Publication date: 2021-02-26
Anticipated expiration: 2040-11-22
Also published as: CN112418520B

Abstract

本发明涉及一种基于联邦学习的信用卡交易风险预测方法，包括以下步骤：1)获取作为不同本地客户端的各个银行中，关于客户信用卡交易特征数据的数据集；2)采用局部敏感哈希算法搜索各银行数据集中的相似实例；3)采用串行联邦学习环境中GBDT算法构建组合特征；4)根据组合特征和原始特征构建新的训练特征，各本地客户端以此扩展并构建新的数据集；5)各本地客户端分别采用相同的神经网络模型进行训练，并将训练好的模型参数上传到云端，云端将模型参数聚合更新后返回各本地客户端后开始下一次的训练，直至训练过程收敛，得到最终的神经网络模型完成信用卡交易风险预测结果。与现有技术相比，本发明具有隐私保护、结果准确、适用范围广等优点。

Description

一种基于联邦学习的信用卡交易风险预测方法

技术领域

本发明涉及金融数据安全领域，尤其是涉及一种基于联邦学习的信用卡交易风险预测方法。

背景技术

近年来，联邦学习作为一种新兴的人工智能基础技术正蓬勃发展。“联邦学习”的概念最早于2016年由谷歌研究科学家H.Brendan McMahan等提出。它是指多个客户(如移动设备、机构、组织等)在一个或多个中央服务器协作下协同进行去中心化机器学习的设置。在去中心化机器学习的过程中，联邦学习能够保证每个客户的隐私数据不出本地，从而降低了传统中心化机器学习带来的隐私泄露风险和因数据泄露带来的相应成本。另外，根据近年来的银行年报来看，信用卡的不良率及贷款坏账率都有提升，并且受疫情影响，生产工作都放缓了脚步，伴随着收入的暂停，但是仍然需要生活必须消费。而信用社会的信用卡制度，超前消费，提前预支未来收入越来越被大家所接受，疫情期间，不良贷款率以及坏账率都在增加，银行体系由于贷款增加了不少风险杠杆，一旦杠杆继续加大，将造成很严重的后果，因此，发展及时检测信用卡交易潜在风险的技术迫在眉睫。

在过去，数据动模型不动，也就是说可以从各地来购买数据，或移动数据到一个中心点，在中心点建立模型。而碍于法律法规的影响，各银行间难以跨越法律壁垒来进行联合建模，并且由于信用卡不良率与合法交易数据的比例严重失衡导致单一银行的数据库缺乏不良样本，因此希望通过联邦学习进行银行间的联合建模来改善现有的预测模型。

本发明主要应用于缺乏有效不良交易的标签的信用卡交易风险预测应用。在现实场景中，公开可用的信用卡交易数据集非常稀缺，从而为信用卡交易风险预测模型的提升带来了巨大的挑战，通过分析梯度提升决策树与逻辑回归两种模型的优缺点和互补性可以知道，逻辑回归线性模型处理速度快、对全局把握性好但是对特征要求比较高。梯度提升决策树适合处理非线性数据，其思想可以用来构造组合特征，充分挖掘数据信息，然而却不能并行进行不适合处理数据量大的数据集。

目前，在信用卡风险检测领域，还没有对如何在保护数据隐私的前提下而进行跨机构间联合建模进行相关研究工作，仅有少量研究针对如何利用单一银行数据集进行了一定的探索，Soemers等提出了一种结合决策树与上下文多臂赌博机来构建动态欺诈检测模型；Bian等人提出将Bagging与Boosting算法结合而形成一种有监督的欺诈检测模型；Meng提出基于GBDT和LR的个人信用评估模型，结果准确性相较于单一模型有显著提高。Yang等人提出了基于联邦学习和差分隐私的信用卡欺诈检测系统。但是这些研究工作仍存在着许多不足：

首先，这些工作所带来的提升都较为有限，因为所用的数据都来自单一机构，没有打破机构间的数据壁垒，从而无法达到机构间合作共赢的效果；

其次，有些工作为了保护数据隐私，应用了差分隐私方法，在训练过程中引入噪声，可能会加入了一些较为不稳定的模块，使得整个模型难以训练或是训练时间过长，降低了训练准确度，不适用于实际场景；

最后，有些工作只利用现有的单一特征，而忽略了组合特征的重要性，对模型的训练结果有一定的影响。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于联邦学习的信用卡交易风险预测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于联邦学习的信用卡交易风险预测方法，包括以下步骤：

1)获取作为不同本地客户端的各个银行中，关于客户信用卡交易特征数据的数据集，每个银行数据集中每条实例对应的原始特征的维度相同；

2)采用局部敏感哈希算法搜索各银行数据集中的相似实例；

3)采用串行联邦学习环境中GBDT算法构建组合特征；

4)根据组合特征和原始特征构建新的训练特征，各本地客户端以此扩展并构建新的数据集；

5)各本地客户端分别采用相同的神经网络模型进行训练，并将训练好的模型参数上传到第三方云端，云端将模型参数聚合更新后返回各本地客户端后开始下一次的训练，直至训练过程收敛，得到最终的神经网络模型完成信用卡交易风险预测结果。

所述的步骤1)中，每条实例的特征包括基础字段、信用字段和交易字段，所述的基础字段包括性别、年龄、婚姻状况和地区以及学历数据，所述的信用字段包括账户信用等级评定、是否通过交易密码验证、是否通过短信身份验证以及是否通过人脸识别验证数据，所述的交易字段包括交易金额、是否分期、交易手续费、交易时间和交易笔数数据。

所述的步骤2)具体包括以下步骤：

21)给定L个随机生成的p稳定哈希函数，每个本地客户端，即数据拥有方，根据生成的p稳定哈希函数获取其所有实例对应的哈希值；

22)以每个实例的ID及其哈希值作为输入，采用AllReduce运算构建L个全局哈希表并广播；

23)各数据拥有方根据广播的全局哈希表获得数据集中的相似实例。

所述的步骤23)中，通过Reduce操作将拥有相同的哈希值实例的ID进行合并，对于数据拥有方P_m的给定实例

另一数据拥有方P_j中的相似实例为具有相同哈希值最高计数的实例。

所述的步骤3)中，当一个实例与多个其他实例相似时，该实例重要性较高，则采用梯度表示该实例的重要性。

所述的步骤3)中，在每个本地客户端进行GBDT模型训练时，采用加权梯度进行训练，具体包括以下步骤：

31)每个数据拥有方更新本地实例的梯度，当数据拥有方P_m在第t次迭代中构建新树时，加权梯度提升决策树最小化目标函数为：

其中，

为第t次迭代中的目标，

为数据拥有方P_m的第q个实例，I_m为数据拥有方P_m的实例集合，G_mq和H_mq分别为与实例

处相似实例在该损失函数处的一阶与二阶梯度之和，且包含该实例本身的梯度，Ω(f_t)为对模型的正则化惩罚项，γ和λ均为超参数，

对应一颗决策树，

为包含在客户端n的实例里与实例

相似的所有实例ID的集合，

为第n个客户端的第i个节点在该损失函数上的一阶梯度信息，

为第n个客户端的第i个节点在该损失函数上的二阶梯度信息，T_l为叶子节点的总数，w为叶子节点的权重；

32)对于数据拥有方P_m的每个实例，其他各数据拥有方将发送对应相似实例的聚合梯度到数据拥有方P_m；

33)数据拥有方P_m在接收到聚合梯度后进行加权求和得到加权梯度，并根据该加权梯度训练构建一棵决策树，由此获取组合特征。

所述的步骤33)中，GBDT模型训练的终止条件根据每棵决策树最大叶子节点数目以及决策树个数决定，训练好的GBDT模型叶子节点的输出即为组合特征向量。

所述的步骤4)中，新的训练特征由组合特征和原始特征合并形成。

所述的步骤5)中，云端将模型参数采用加权的方式聚合更新后返回各本地客户端后开始下一次的训练。

所述的步骤33)中，梯度信息汇总时各客户端的模型比重按照各本地模型训练的精度来设置，具体公式如下：

其中，w_t+1为全局模型第t轮的训练后的最新梯度信息，w_t为全局模型上一轮的训练结果，n_c为客户端c拥有的实例数，n为所有客户端拥有的实例总数，

为客户端c在本轮训练的步长，

为客户端c在第t轮进行本地训练时得到的本地更新梯度信息，C为客户端总数。

与现有技术相比，本发明具有以下优点：

一、隐私保护性：研究了一种具有宽松隐私限制的实用环境，运用局部敏感哈希算法，并且只传输模型的梯度信息，而具有隐私的双重保护性，在这种环境下，好奇的参与端可能会获得有关另一方数据的某些信息，但是不诚实的一方仍然无法获得其他方的实际原始数据。

二、结果准确性：研究了如何在联邦学习环境中训练GBDT构造组合特征，GBDT是一种非线性模型，其学习器为决策树模型，决策树的叶子能够直接当作特征，因此GBDT在构造出有效的特征、特征组合方面具有天然的优势，利用GBDT可以构造新的特征，首先利用原始特征训练GBDT模型，然后用GBDT学习得到的决策树学习得到新的特征向量，GBDT每颗决策树的每个叶子节点都是新的特征向量的一个维度，利用构造的新特征结合旧特征一同训练，扩充了特征维度，从而提高了模型的准确性，除此之外，运用局部敏感哈希在捕捉相似样本的同时，保护了隐私，而非使用同态加密或者秘密共享等对训练结果有损的加密方法，使训练模型的准确性有了提升。

三、适用范围广：本发明不仅可用于信用卡交易风险预测，同时可应用于小微企业贷款风险预测、保险个性化定价、个性化推荐等金融领域场景，同时，由于其隐私保护的特性，使得该发明可以同时应用于工业、医疗领域的科学研究工作中。

附图说明

图1为本发明的方法流程图。

图2为给样本进行哈希编码的示意图。

图3为预处理过程哈希广播图。

图4为特征构造阶段示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

当中国的土地、劳动力、资本纷纷通过要素化而驱动经济增长之后，下一步的增长点是数据，但是，使用数据的前提是打破数据孤岛，这也就解释了为何推动数据融合至关重要，因为，在提升人工智能和机器学习金融商业落地的能力过程中，数据是这个升级过程中的唯一主轴。人工智能井喷式发展，但我们周围日常的生活，有的却是小数据，像在金融里面有很多的数据，其实是黑天鹅现象，比方说在信用卡交易风险检测应用中用于模型训练的盗刷案例，其实数量并没有想象中那么多，还是属于少数现象，就拿银行的信用卡业务来说，存量博弈的现实，决定了银行要对客户有更深一层的认识，如果还像以前那样通过简单的几条规则，把很多客户申请拒掉，营销成本浪费非常之大，同样的，即便是针对逾期90天的客户，在很多银行避之不及的情况，一些风险判断能力高的银行也能沙中淘金，受此启发，我们希望能将银行间的数据实现互通，从而解决信用卡交易中缺乏反面样本案例的情况，使银行间实现联合建模，互利共赢的局面。

在实践中，如图2所示，需要对银行中的每个信用卡交易数据所涉及到的客户信息以及交易特征进行哈希编码行成哈希值，之后如图3所示，各个银行间需要根据拥有的实例样本生成的哈希值(Hash Values)，广播(All Reduce)哈希表，从而寻找不同银行间的相似样本，行成一个相似度(Similarity)矩阵，在完成前述预训练阶段后，可以按照图4所示在银行之间串行优化梯度提升决策树，即银行1(bank)先根据boosting算法生成树1(Tree1)，该生成树模型将分享(sharing)传递给其余的银行进行新的模型训练从而构造组合特征，接着利用这些组合特征与旧特征一起进行联邦环境中的分类训练。

如图1所示，本发明提供的一种基于联邦学习的信用卡交易风险预测方法，包括以下步骤：

步骤S1：获取相互独立的N个数据集；其中，数据集来自不同的银行，每个数据集代表一个银行，每个银行作为一个客户端，拥有独立的数据集，且数据集的特征维度相同，便于进行联合训练，它们都用来描述信用卡交易中的客户信息以及交易方式交易时间等相关信息，每条数据都有对应的分类标签，表征该交易是否合法；

步骤S2：预处理阶段，基于局部敏感哈希算法，对数据样本进行哈希编码后在不暴露原始数据的情况下寻找各客户端间的相似样本，行成一个相似度矩阵；

步骤S21：给定L个随机生成的p稳定哈希函数，每个数据拥有方首先根据生成的哈希函数计算其所有实例对应的哈希值；

步骤S22：使用AllReduce运算构建L个全局哈希表，这里，AllReduce的输入是各方的实例ID及其哈希值；

步骤S23：Reduce操作是将拥有相同的哈希值实例的ID进行合并。广播哈希表后，各方可以计算相似度信息，具体而言，在一方P_m中，给定实例X^m _i，另一方P_j中的相似实例是具有相同哈希值最高计数的实例，如果存在多个具有相同最高计数的实例，则随机选择一个作为相似实例。

步骤S3：使用联邦学习环境中的GBDT算法构建训练特征，在训练阶段，每一数据拥有方都按串行顺序训练梯度提升决策树，当数据方P_m训练一棵树时，为了保护其他数据方的实例记录，仅使用本地实例集合I_m来学习这棵决策树，在训练过程中，学习到的决策树在各方之间共享，来构建加权梯度增强决策树法，具体包括以下按步骤

步骤S31：首先，各数据参与方根据以下公式更新本地实例的梯度，实例X^m _q∈I_m，令G_mq和H_mq分别表示实例

处与该实例相似的所有实例的损失函数的一阶和二阶梯度之和，例如，现有两个客户端Pa和Pb，当计算Pa的相似度信息时，发现对于Pa中的实例

和

的相似实例都是

那么当利用Pb中的实例构建决策树时，对于实例

使用的梯度更新信息将是

这三个梯度信息之和，而不是仅仅只使用

的梯度信息，当P_m在第t次迭代中构建新树时，加权梯度提升决策树会最小化以下目标函数：

步骤S32：对于P_m的每个实例，其他各方将计算并发送相似实例的聚合梯度来代替直接发送每个梯度，在本地的这种聚合可以降低通信成本并保护各个梯度。

步骤S33：在计算所有聚合梯度并将其发送到P_m之后，可以通过对聚合梯度求和轻松地计算出加权梯度。然后，我们可以基于这些加权梯度的和构建一棵决策树。

步骤S4：重复步骤S3，直到达到任务设置或性能标准；

步骤S5：将联邦环境中GBDT模型构造的新的组合特征向量与原始数据特征组合合并，得到新的数据，再将新的数据样本用于联邦环境中的神经网络模型进行分类训练，得到最终的预测模型。

步骤S51：将前一步中得出的组合特征与旧特征作为新的数据样本输入本地端的神经网络模型，每个参与方拥有相同的模型，进行多次本地训练。

步骤S52：不同的本地模型参数将同时上传到云端，云端将完成模型参数的聚合与更新，并且将更新好的参数返回到参与方的终端，各个终端开始下一次的迭代。以上的程序会一直重复，直到整个训练过程的收敛，其中，梯度信息汇总时各客户端的模型比重按照各本地模型训练的精度来设置，具体公式如下：

Claims

1.一种基于联邦学习的信用卡交易风险预测方法，其特征在于，包括以下步骤：

2)采用局部敏感哈希算法搜索各银行数据集中的相似实例；

3)采用串行联邦学习环境中GBDT算法构建组合特征；

2.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法，其特征在于，所述的步骤1)中，每条实例的特征包括基础字段、信用字段和交易字段，所述的基础字段包括性别、年龄、婚姻状况和地区以及学历数据，所述的信用字段包括账户信用等级评定、是否通过交易密码验证、是否通过短信身份验证以及是否通过人脸识别验证数据，所述的交易字段包括交易金额、是否分期、交易手续费、交易时间和交易笔数数据。

3.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法，其特征在于，所述的步骤2)具体包括以下步骤：

4.根据权利要求3所述的一种基于联邦学习的信用卡交易风险预测方法，其特征在于，所述的步骤23)中，通过Reduce操作将拥有相同的哈希值实例的ID进行合并，对于数据拥有方P_m的给定实例

5.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法，其特征在于，所述的步骤3)中，当一个实例与多个其他实例相似时，该实例重要性较高，则采用梯度表示该实例的重要性。

6.根据权利要求5所述的一种基于联邦学习的信用卡交易风险预测方法，其特征在于，所述的步骤3)中，在每个本地客户端进行GBDT模型训练时，采用加权梯度进行训练，具体包括以下步骤：

其中，

为第t次迭代中的目标，

对应一颗决策树，

为包含在客户端n的实例里与实例

相似的所有实例ID的集合，

7.根据权利要求6所述的一种基于联邦学习的信用卡交易风险预测方法，其特征在于，所述的步骤33)中，GBDT模型训练的终止条件根据每棵决策树最大叶子节点数目以及决策树个数决定，训练好的GBDT模型叶子节点的输出即为组合特征向量。

8.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法，其特征在于，所述的步骤4)中，新的训练特征由组合特征和原始特征合并形成。

9.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法，其特征在于，所述的步骤5)中，云端将模型参数采用加权的方式聚合更新后返回各本地客户端后开始下一次的训练。

10.根据权利要求6所述的一种基于联邦学习的信用卡交易风险预测方法，其特征在于，所述的步骤33)中，梯度信息汇总时各客户端的模型比重按照各本地模型训练的精度来设置，具体公式如下：

为客户端c在本轮训练的步长，