CN116186629B - 基于个性化联邦学习的金融客户分类及预测方法、装置 - Google Patents
基于个性化联邦学习的金融客户分类及预测方法、装置 Download PDFInfo
- Publication number
- CN116186629B CN116186629B CN202310465451.1A CN202310465451A CN116186629B CN 116186629 B CN116186629 B CN 116186629B CN 202310465451 A CN202310465451 A CN 202310465451A CN 116186629 B CN116186629 B CN 116186629B
- Authority
- CN
- China
- Prior art keywords
- financial institution
- node
- aggregation server
- client
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 56
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000002776 aggregation Effects 0.000 claims description 84
- 238000004220 aggregation Methods 0.000 claims description 84
- 238000003066 decision tree Methods 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 50
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于个性化联邦学习的金融客户分类及预测方法、装置,该方法使用自适应差分隐私,目前差分隐私和联邦学习结合的方案中,每次添加噪声都是使用相同的隐私预算,本方案在模型初期使用更少的隐私预算(较大噪声)趋于收敛时使用更大的隐私预算(较小噪声),通过合理的分配隐私预算,可有效提高模型准确率;在得到总体模型后,根据训练过程中的数据对客户端进行分类,使得相似客户端被分到同一类,接着在总体模型的基础上训练出属于这一类客户端的子模型,该子模型既有总体模型的泛化能力,又适配该类客户端的数据特点,相比于总体模型具有更高的准确率。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及基于个性化联邦学习的金融客户分类及预测方法、装置。
背景技术
差分隐私(differential privacy)是一个数据共享手段,背后的直观想法是:如果随机修改数据库中的一个记录造成的影响足够小,求得的统计特征就不能被用来反推出单一记录的内容;这一特性可以被用来保护隐私。在联邦学习的训练过程中,客户端发送给服务器的参数可以认为是一次查询,通过对该查询添加噪声可以有效保护客户端的隐私。
基于机器学习的金融领域所涉及的数据是多方面的,但由于各个金融客户端之间存在数据隐私、数据孤岛、数据安全法律法规等问题,数据都无法进行完备的整合。为此现有技术提出了联邦学习框架,当前的联邦学习技术框架虽然能一定程度上解决金融机构数据孤岛的问题,但是在面对数据异质性问题时,由于“客户端偏移”的问题,会导致模型准确度较低。此外,目前主流的联邦学习结合差分隐私的方案中,每次添加噪声时都是使用平均的隐私预算,即ε保持不变,但事实上,模型训练初期和末期具有较大的模型差异,全程使用相同的隐私预算会导致模型收敛误差较大,使得准确率降低。
发明内容
本申请实施例的目的是提供基于个性化联邦学习的金融客户分类及预测方法、装置,以解决相关技术中存在的总体模型准确率低和均匀添加噪声带来的准确率下降的技术问题。
根据本申请实施例的第一方面,提供一种基于个性化联邦学习的金融客户分类及预测方法,包括:
步骤S1:各金融机构客户端根据本地数据和聚合服务器发送的划分点,计算得到训练参数并将所述训练参数加上自适应噪声后发送至聚合服务器;
步骤S2:聚合服务器得到添加噪声的训练参数后计算最大增益,并选择当前结点的最优划分点,并计算得到两个子结点,其中所述当前结点为当前正在训练的结点;
步骤S3:重复步骤S1和S2直至当前结点为叶子结点,通过将损失函数泰勒展开计算叶子结点的值,从而得到一棵决策树;
步骤S4:聚合服务器将训练后的决策树发送给各个金融机构客户端,各个金融机构客户端用本地数据计算当前的预测准确率,若所述预测准确率在连续三棵决策树上增大,则减少下一棵决策树生成时添加的自适应噪声;
步骤S5:重复步骤S1-步骤S4,直至决策树的生成数量达到预定数量,得到XGBoost模型;
步骤S6:各金融机构客户端根据各自持有的XGBoost模型中本地数据划分到各叶子结点的比例,得到样本分布向量并将该样本分布向量扰乱后发送至所述聚合服务器;
步骤S7:聚合服务器使用聚类算法对得到的向量进行分类,从而将金融机构客户端分成不同的类别;
步骤S8:对于每一个类别,在各金融机构客户端各自持有的XGBoost模型的基础上,重复步骤S1-S4,得到属于该类别的子模型,以使得金融机构客户端接收交易请求后根据自身持有的子模型预测所述交易请求是否会违约。
进一步地,各金融机构客户端的本地数据为已进行标签进行统一化处理和特征对齐的数据,以标签0表示该笔交易没有违约,标签1表示该笔交易违约。
进一步地,所述噪声Y~Lap(△f/ε)分布,其中ε为差分隐私参数,△f为敏感度。
进一步地,通过增大差分隐私参数的值减少下一棵决策树生成时添加的自适应噪声。
进一步地,若满足以下条件,则当前结点为叶子结点:
所述当前结点所在树的层数达到设定的树的最大深度;或者,
所述当前结点的聚合样本数目小于设定的最小分裂阈值,其中,所述聚合样本数目是由所述聚合服务器对各所述金融机构客户端发送的所述当前结点的样本数目聚合得到;或者,
所述当前结点的最大分裂增益小于设定的最小分裂增益,其中,所述最大分裂增益根据所述训练参数计算得到,且所述最大分裂增益与所述最优划分对应;或者,
在所述当前结点的最大分裂增益大于设定的最小分裂增益的情况下,根据所述最优划分将所述当前结点试划分为左子结点和右子结点,试划分得到的左子结点或右子结点的聚合样本数目小于设定的叶子结点最小样本数目阈值,其中,所述试划分得到的各子结点的聚合样本数目是由所述聚合服务器对各所述金融机构客户端发送的试划分的各子结点样本数目分别聚合得到。
进一步地,对所述样本分布向量进行扰乱的过程为:
聚合服务器指定一个金融机构客户端作为扰乱客户端,所述扰乱客户端在本地生成随机种子后将该随机种子用其他金融机构客户端的公钥进行加密,将加密后的种子发送给聚合服务器,由聚合服务器分发给其他金融机构客户端;
其他金融机构客户端收到加密的随机种子后利用各自的私钥进行解密得到随机种子;
每个金融机构客户端使用各自持有的随机种子生成一个扰乱向量,根据所述扰乱向量去打乱各自的样本分布向量,将扰乱后的样本分布向量发送给所述聚合服务器。
根据本申请实施例的第二方面,提供一种基于个性化联邦学习的金融客户分类及预测装置,包括:
噪声添加模块,用于各金融机构客户端根据本地数据和聚合服务器发送的划分点,计算得到训练参数并将所述训练参数加上自适应噪声后发送至聚合服务器;
结点分裂模块,用于聚合服务器得到添加噪声的训练参数后计算最大增益,并选择当前结点的划分点,并计算得到两个子结点,其中所述当前结点为当前正在训练的结点;
计算模块,用于重复步骤噪声添加模块和结点分裂模块的过程直至当前结点为叶子结点,通过将损失函数泰勒展开计算叶子结点的值,从而得到一棵决策树;
噪声调整模块,用于聚合服务器将训练后的决策树发送给各个金融机构客户端,各个金融机构客户端用本地数据计算当前的预测准确率,若所述预测准确率在连续三棵决策树上增大,则减少下一棵决策树生成时添加的自适应噪声;
总体模型生成模块,用于重复步骤S1-步骤S4,直至决策树的生成数量达到预定数量,得到XGBoost模型;
扰乱模块,用于各金融机构客户端根据各自持有的XGBoost模型中本地数据划分到各叶子结点的比例,得到样本分布向量并将该样本分布向量扰乱后发送至所述聚合服务器;
分类模块,用于聚合服务器使用聚类算法对得到的向量进行分类,从而将金融机构客户端分成不同的类别;
子模型生成模块,用于对于每一个类别,在各金融机构客户端各自持有的XGBoost模型的基础上,重复步骤噪声添加模块-噪声调整模块的过程,得到属于该类别的子模型,以使得金融机构客户端接收交易请求后根据自身持有的子模型预测所述交易请求是否会违约。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本申请实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
(1)使用自适应差分隐私,目前差分隐私和联邦学习结合的方案中,每次添加噪声都是使用相同的隐私预算,本方案在模型初期使用更少的隐私预算(较大噪声)趋于收敛时使用更大的隐私预算(较小噪声),通过合理的分配隐私预算,可有效提高模型准确率。
(2)在得到总体模型后,根据训练过程中的数据对金融机构客户端进行分类,使得相似金融机构客户端被分到同一类,接着在总体模型的基础上训练处属于这一类金融机构客户端的子模型,该子模型既有总体模型的泛化能力,又适配该类金融机构客户端的数据特点,因此在预测某一金融机构客户端接收的交易请求是否会违规时相比于总体模型具有更高的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种基于个性化联邦学习的金融客户分类及预测方法的流程图。
图2是根据一示例性实施例示出的一种基于个性化联邦学习的金融客户分类及预测装置的框图。
图3是根据一示例性实施例示出的一种电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
根据各个客户端服务器的数据分布的特点,知识联邦可分为跨特征联邦、跨样本联邦以及复合型联邦,其中,跨特征联邦是指不同客户端服务器中有很多共同的用户样本,但样本特征数据分布不同,可能只有一方是有标签数据;跨样本联邦是指每个客户端服务器的样本数据具有相同的特征分布,但各方的样本数据是独立的,而且每个客户端服务器都有自己样本对应的标签数据;复合型联邦是指同时涉及跨样本联邦和跨特征联邦,只有小部分的样本或特征是参与各方的交集,其他数据无论是特征分布或样本分布都是不相同的。
图1是根据一示例性实施例示出的一种基于个性化联邦学习的金融客户分类及预测方法的流程图,如图1所示,该方法应用于终端中,可以包括以下步骤:
步骤S1:各金融机构客户端根据本地数据和聚合服务器发送的划分点,计算得到训练参数并将所述训练参数加上自适应噪声后发送至聚合服务器;
步骤S2:聚合服务器得到添加噪声的训练参数后计算最大增益,并选择当前结点的划分点,并计算得到两个子结点,其中所述当前结点为当前正在训练的结点;
步骤S3:重复步骤S1和S2直至当前结点为叶子结点,通过将损失函数泰勒展开计算叶子结点的值,从而得到一棵决策树;
步骤S4:聚合服务器将训练后的决策树发送给各个金融机构客户端,各个金融机构客户端用本地数据计算当前的预测准确率,若所述预测准确率在连续三棵决策树上增大,则减少下一棵决策树生成时添加的自适应噪声;
步骤S5:重复步骤S1-步骤S4,直至决策树的生成数量达到预定数量,得到XGBoost模型;
步骤S6:各金融机构客户端根据各自持有的XGBoost模型中本地数据划分到各叶子结点的比例,得到样本分布向量并将该样本分布向量扰乱后发送至所述聚合服务器;
步骤S7:聚合服务器使用聚类算法对得到的向量进行分类,从而将金融机构客户端分成不同的类别;
步骤S8:对于每一个类别,在各金融机构客户端各自持有的XGBoost模型的基础上,重复步骤S1-S4,得到属于该类别的子模型,以使得金融机构客户端接收交易请求后根据自身持有的子模型预测所述交易请求是否会违约。
由上述实施例可知,本申请使用自适应差分隐私,目前差分隐私和联邦学习结合的方案中,每次添加噪声都是使用相同的隐私预算,本方案在模型初期使用更少的隐私预算(较大噪声)趋于收敛时使用更大的隐私预算(较小噪声),通过合理的分配隐私预算,可有效提高模型准确率;在得到总体模型后,根据训练过程中的数据对金融机构客户端进行分类,使得相似金融机构客户端被分到同一类,接着在总体模型的基础上训练出属于这一类金融机构客户端的子模型,该子模型既有总体模型的泛化能力,又适配该类金融机构客户端的数据特点,因此在预测某一金融机构客户端接收的交易请求是否会违规时相比于总体模型具有更高的准确率。
本申请实施例涉及的XGBoost是Boosting中的经典算法。Boosting算法的原理是将多个弱分类的结果集成在一起,形成一个强分类器。XGBoost延续Boosting算法的原理,将多棵树模型集成在一起,其核心思想是通过不断拟合前面树的预测结果与真实标签之间的残差,从而使最终的预测结果尽可能接近真实标签。在XGBoost中,需要不断地添加树,每棵树以看作一个弱分类器。每新增一棵树,树的结点会根据样本特征的划分点将结点分裂成左右子结点,以结点分裂增益最大的划分点来进行结点分裂,从而逐步形成一棵树。树的结点分裂增益计算公式如下所示:
其中训练参数,/>,/>,为上一棵决策树的预测结果,在第一棵树的构建过程中将/>赋值为0.
L、R分别代表结点按某一特征划分点分裂后落在左子结点及右子结点的上的样本,GL为左子结点中样本的g值之和,GR、HL、HR同理;gi、hi为样本i的对应损失函数的一阶导值和二阶导值,λ,γ为训练超参数。通过遍历所有特征的特征划分点,求得最大分裂增益,最大分裂增益所对应的特征以及该特征划分点即为最优分裂。当结点的分裂增益小于设定的最小分裂增益时或结点所在层数达到树的最大深度或结点上的样本数目过小时结点不再进一步分裂,即对应该结点为叶子结点,且叶子结点j的权重值计算公式如下所示
Ij为落在叶子结点j上的样本。落在叶子结点上的样本对应预测输出即为该叶子结点的权重值。假设XGBoost总共训练生成了T棵树,当对一个新样本进行预测,其实就是根据该样本的特征数据以及每个非叶子结点的最优划分,看预测样本最终落在哪个叶子结点上,该叶子结点的权重值即为对应该棵树对样本的预测输出,最后将T棵树对应的预测输出加起来即为该样本最终预测值。样本预测结果如下所示
其中是第t棵树对样本xi的预测结果。
以下例举在一应用场景中实施本申请的基于个性化联邦学习的金融客户分类及预测方法。本实施例中,共有10家金融机构(简称金融机构A至金融机构J)各自有一些信用卡交易信息,它们均需要对信用卡交易数据进行建模,用模型来帮助在后续的交易中哪些交易存在潜在的违约行为。由于各个金融机构存在违约行为的数据样本数量均有限,期望进行跨样本联邦的XGBoost树模型建模型,从而获取一个比仅仅使用本地数据训练的模型效果更优的联邦模型,并且在这个过程中,各个金融机构都不能容忍客户隐私的泄露。
以下结合该实施例对本方法进行详细说明。
步骤S1:各金融机构客户端根据本地数据和聚合服务器发送的划分点,计算得到训练参数并将所述训练参数加上自适应噪声后发送至聚合服务器;
具体地,各金融机构客户端的本地数据分为分布相似或相同的训练集和数据集,划分点可由聚合服务器随机生成或各金融机构客户端根据训练集数据生成后发送至聚合服务器再由聚合服务器进行处理得到,本实施例中采用聚合服务器随机生成的方式。需要说明的是,各金融机构客户端的本地数据为已进行标签进行统一化处理的数据,以标签0表示该笔交易没有违约,标签1表示该笔交易违约,且各金融机构客户端各自对本方的交易数据集中的特征数据进行特征对齐,即所有银行都对数据需按照统一的特征意义进行列排序;聚合服务器可由第三方机构提供。
所述聚合服务器需配置好训练中的各种参数,如损失函数,树最大深度,叶子结点最小样本数,初始差分隐私ε的值,差分隐私参数变化率α(α>1)等,并将参数同步给各个金融机构客户端。初始时所有样本在根结点中。金融机构客户端收到划分点后,根据各自的训练集数据分别计算出划分之后的G和H值,然后对G和H值添加噪声后发送给服务器,噪声服从Y~Lap(△f/ε)分布,其中ε为差分隐私,并使用组合定理计算目前总体隐私损失(计算总体隐私损失可以使得客户端知道在训练出所有模型后满足什么差分隐私)。比如需要说明的是,在模型构建初期各金融机构客户端采用相同的自适应噪声,本申请所用的差分隐私不局限于拉普拉斯差分隐私,同时包括高斯差分隐私,指数差分隐私等,所使用的组合定理包括串行组合,并行组合,moments account,瑞丽差分隐私等,本申请将以拉普拉斯差分隐私和串行组合为例,介绍具体过程。对于串行组合,总体的隐私损失等于单次隐私损失之和,即只需要将ε相加即可;△f是敏感度,相邻数据集指的是在两个数据集中只有一条记录不同,则他们为相邻数据集,假设存在两个相邻数据集D和D’,如果用一个函数f对这两个数据集分别做一次查询,则得到的结果f(D)和f(D’)之间的最大差距就是函数f的敏感度△f,对于二分类任务,损失函数一般为交叉熵, 在每个金融客户端计算单个样本的g和h值时,他们的敏感度分别为2和1/4。
步骤S2:聚合服务器得到添加噪声的训练参数后计算最大增益,并选择当前结点的划分点,并计算得到两个子结点,其中所述当前结点为当前正在训练的结点;
步骤S3:重复步骤S1和S2直至当前结点为叶子结点,通过泰勒展开计算叶子结点的值,从而得到一个决策树模型;
在步骤S2和步骤S3的具体实施中,所述聚合服务器在每个训练阶段中根据训练参数判断当前结点是否为叶子结点,并将判断结果发送至各所述金融机构客户端;若所述当前结点为非叶子结点,则各金融机构客户端根据所述聚合服务器发送的最优划分对所述当前结点进行分裂,并将所述当前结点更新为分裂后的结点,其中,根据所述训练参数计算得到所述最优划分;若所述当前结点为叶子结点,则停止对所述当前结点的分裂;直到所有的结点均为叶子结点,生成一棵树模型;当生成预设数目的所述树模型时,停止训练,得到跨样本的联邦XGBoost树模型。
在具体实施中,在每个训练阶段中根据所述训练参数判断当前结点为叶子结点的依据可以包括: ①所述当前结点所在树的层数达到设定的树的最大深度;或者,
②所述当前结点的聚合样本数目小于设定的最小分裂阈值,其中,所述聚合样本数目是由所述聚合服务器对各所述金融机构客户端发送的所述当前结点的样本数目聚合得到;或者,
③所述当前结点的最大分裂增益小于设定的最小分裂增益,其中,所述最大分裂增益根据所述训练参数计算得到,且所述最大分裂增益与所述最优划分对应;或者,
④在所述当前结点的最大分裂增益大于设定的最小分裂增益的情况下,根据所述最优划分将所述当前结点试划分为左子结点和右子结点,试划分得到的左子结点或右子结点的聚合样本数目小于设定的叶子结点最小样本数目阈值,其中,所述试划分得到的各子结点的聚合样本数目是由所述聚合服务器对各所述金融机构客户端发送的试划分的各子结点样本数目分别聚合得到。
在具体实施中,所述的根据所述训练参数计算得到所述最优划分包括:各所述金融机构客户端对所述当前结点统计所有维特征的特征划分候选点集合并发送至所述聚合服务器进行聚合,统计过程中可以通过安全多方计算来避免隐私泄露,其中,所述聚合服务器将每一维特征聚合后的特征划分候选点集合发送给所有金融机构客户端; 各所述金融机构客户端根据每一维特征聚合后的特征划分候选点集合进行样本划分,对每一维特征对应的所述样本划分内的样本数据进行一阶导累和及二阶导累和,并将得到的所有维特征对应一阶导累和集合和二阶导累和集合加上噪声后发送给所述聚合服务器进行聚合,其中,所述聚合服务器根据聚合后的每一维特征所对应的一阶导累和集合以及二阶导累和集合,求左子结点和右子结点上样本的一阶导累和值及二阶导累和值,计算最大分裂增益和最优划分,所述最优划分为所述最大分裂增益所对应的特征数据和该特征划分候选点。
在具体实施中,所述的各所述金融机构客户端对所述当前结点统计所有维特征的特征划分候选点集合并发送至所述聚合服务器进行聚合可以包括: 各所述金融机构客户端对所述当前结点统计所有维特征的特征划分候选点集合; 将统计的所有维特征的特征划分候选点集合发送至所述聚合服务器,其中,所述聚合服务器对每一维特征的特征划分候选点集合进行求并集操作,得到每一维特征聚合后的特征划分点集合。
步骤S4:聚合服务器将训练后的决策树发送给各个金融机构客户端,各个金融机构客户端用本地数据计算当前的预测准确率,若所述预测准确率在连续三棵决策树上增大,则减少下一棵决策树生成时添加的自适应噪声;
具体地,各金融机构客户端采用测试集数据和这棵决策树进行预测,得到这个金融机构客户端的数据在叶子结点的分布情况和平均准确率。本申请提出了一种根据训练时的状态来动态调整噪声尺度即ε的值的方案:模型训练初期,可以使用较大的噪声,即较小的ε;如果平均准确率已经连续三次增大,可以认为模型正趋于收敛,此时添加较小的噪声会有利于最终模型的准确率,因此使εi+1=αεi,增大ε的值,即减小之后添加的噪声尺度。最终的隐私损失是所有的εi的和。
基于步骤S1-S4,本申请对客户端的梯度进行添加噪声,防止恶意服务器根据梯度信息得到客户端的数据信息,并且设计一种自适应差分隐私的方案,在训练过程中自适应的调整噪声尺度,合理分配隐私预算,在总隐私预算相同的情况下,对比平均分配隐私预算的方案可以得到更高的准确率。
步骤S5:重复步骤S1-步骤S4,直至决策树的生成数量达到预定数量,得到XGBoost模型;
在具体实施中,在生成的所述树模型的数目小于预设数目的情况下,若得到的模型达到预设效果,则通过设定的早停规则终止训练,将得到的模型作为总体的XGBoost模型。需要说明的是,每棵树的叶子结点数量不是固定的。
步骤S6:各金融机构客户端根据各自持有的XGBoost模型中本地数据划分到各叶子结点的比例,得到样本分布向量并将该样本分布向量扰乱后发送至所述聚合服务器;
具体地,所述XGBoost模型中包含多棵决策树,每棵决策树包含多个叶子结点,对于每一棵决策树,金融机构客户端的样本会被划分到多个叶子结点中,将结点进行编号,并统计每个金融机构客户端数据划分到这个叶子结点的比例,假设有T棵决策树,每棵决策树有ai个叶子结点,则对于每个金融机构客户端可以得到一个a1+a2+…+aT长度的向量,将此向量扰乱后发送给聚合服务器;比如第i棵树有4个叶子结点,则某一个客户端在通过这个决策树预测时,有10%的样本被划分到第一个叶子结点,有20%的样本被划分到第二个叶子结点,有30%的样本被划分到第三个叶子结点,有40%的样本被划分到第四个叶子结点,则可以得到一个值为(0.1, 0.2, 0.3, 0.4)的向量。假设共有T棵树,则可以得到T个向量,将T个向量横向拼接为一个向量,则该向量可以代表该客户端的样本分布情况。
扰乱的过程具体为:
聚合服务器指定一个金融机构客户端作为扰乱客户端,所述扰乱客户端在本地生成随机种子后将该随机种子用其他金融机构客户端的公钥进行加密,将加密后的种子发送给服务器,由服务器分发给其他金融机构客户端;其他金融机构客户端收到加密的随机种子后利用各自的私钥进行解密得到随机种子,使用该随机种子生成一个扰乱向量,每个金融机构客户端根据所述扰乱向量去打乱各自的样本分布向量,将扰乱后的样本分布向量发送给所述聚合服务器。
在上述扰乱过程中,因为所有金融机构客户端用的同一个随机种子,所以他们得到的扰乱向量也相同。
步骤S7:聚合服务器使用聚类算法对得到的向量进行分类,从而将金融机构客户端分成不同的类别;
具体地,所述聚类算法包括但不限于k-means。
步骤S8:对于每一个类别,在各金融机构客户端各自持有的XGBoost模型的基础上,重复步骤S1-S4,得到属于该类别的子模型,以使得金融机构客户端接收交易请求后根据自身持有的子模型预测所述交易请求是否会违约。
具体地,如果子模型中决策树的数量达到预设值,则停止训练。因为客户端数据分布具有异质性,使用所有客户端数据训练出一个总体模型可能会出现“客户端偏移”问题,即客户端数据分布和其余客户端数据分布差异较大,使用总体模型无法得到良好的准确率,因此本方案针对这一问题提出了个性化联邦学习,客户端可以在总体模型上继续训练得到一个子模型,该子模型具有良好的泛化能力,也有较高的准确率。当训练结束后,所有客户端服务器都可获得所属类别的XGBoost模型。在预测过程中,任意客户端可在无需与其他客户端通信的情况下利用得到的子模型进行本地预测。
各客户端在接收新的交易请求后,可以根据自身持有的子模型预测所述交易请求是否会违约,若预测结果为会违约,则说明该交易违约的概率较大,客户端可选择拒绝该交易请求。基于上述步骤S1-S8,可以通过自适应差分隐私的方式保护隐私,并且可以在不暴露本身数据的前提下训练总体模型,在训练得到总体模型后,可以根据客户端样本特征继续训练得到各类别的子模型,该子模型既有一定的泛化能力,也具有较高的准确率。
与前述的基于个性化联邦学习的金融客户分类及预测方法的实施例相对应,本申请还提供了基于个性化联邦学习的金融客户分类及预测装置的实施例。
图2是根据一示例性实施例示出的一种基于个性化联邦学习的金融客户分类及预测装置框图。参照图2,该装置可以包括:
噪声添加模块21,用于各金融机构客户端根据本地数据和聚合服务器发送的划分点,计算得到训练参数并将所述训练参数加上自适应噪声后发送至聚合服务器;
结点分裂模块22,用于聚合服务器得到添加噪声的训练参数后计算最大增益,并选择当前结点的划分点,并计算得到两个子结点,其中所述当前结点为当前正在训练的结点;
计算模块23,用于重复步骤噪声添加模块和结点分裂模块的过程直至当前结点为叶子结点,通过泰勒展开计算叶子结点的值,从而得到一棵决策树;
噪声调整模块24,用于聚合服务器将训练后的决策树发送给各个金融机构客户端,各个金融机构客户端用本地数据计算当前的预测准确率,若所述预测准确率在连续三棵决策树上增大,则减少下一棵决策树生成时添加的自适应噪声;
总体模型生成模块25,用于重复步骤S1-步骤S4,直至决策树的生成数量达到预定数量,得到XGBoost模型;
扰乱模块26,用于各金融机构客户端根据各自持有的XGBoost模型中本地数据划分到各叶子结点的比例,得到样本分布向量并将该样本分布向量扰乱后发送至所述聚合服务器;
分类模块27,用于聚合服务器使用聚类算法对得到的向量进行分类,从而将金融机构客户端分成不同的类别;
子模型生成模块28,用于对于每一个类别,在各金融机构客户端各自持有的XGBoost模型的基础上,重复步骤噪声添加模块-噪声调整模块的过程,得到属于该类别的子模型,以使得金融机构客户端接收交易请求后根据自身持有的子模型预测所述交易请求是否会违约。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于个性化联邦学习的金融客户分类及预测方法。如图3所示,为本发明实施例提供的一种基于个性化联邦学习的金融客户分类及预测方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的基于个性化联邦学习的金融客户分类及预测方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (9)
1.一种基于个性化联邦学习的金融客户分类及预测方法,其特征在于,包括:
步骤S1:各金融机构客户端根据本地数据和聚合服务器发送的划分点,计算得到训练参数并将所述训练参数加上自适应噪声后发送至聚合服务器,其中所述本地数据为信用卡交易数据;
步骤S2:聚合服务器得到添加噪声的训练参数后计算最大增益,并选择当前结点的最优划分点,并计算得到两个子结点,其中所述当前结点为当前正在训练的结点;
步骤S3:重复步骤S1和S2直至当前结点为叶子结点,通过将损失函数泰勒展开计算叶子结点的值,从而得到一棵决策树;
步骤S4:聚合服务器将训练后的决策树发送给各个金融机构客户端,各个金融机构客户端用本地数据计算当前的预测准确率,若所述预测准确率在连续三棵决策树上增大,则减少下一棵决策树生成时添加的自适应噪声,其中所述预测为预测交易请求是否会违约;
步骤S5:重复步骤S1-步骤S4,直至决策树的生成数量达到预定数量,得到XGBoost模型;
步骤S6:各金融机构客户端根据各自持有的XGBoost模型中本地数据划分到各叶子结点的比例,得到样本分布向量并将该样本分布向量扰乱后发送至所述聚合服务器,其中根据每棵决策树中本地数据划分到各叶子结点的比例得到对应的向量,将所有决策树对应的向量横向拼接得到所述样本分布向量;
步骤S7:聚合服务器使用聚类算法对得到的向量进行分类,从而将金融机构客户端分成不同的类别;
步骤S8:对于每一个类别,在各金融机构客户端各自持有的XGBoost模型的基础上,重复步骤S1-S4,得到属于该类别的子模型,以使得金融机构客户端接收交易请求后根据自身持有的子模型预测所述交易请求是否会违约。
2.根据权利要求1所述的方法,其特征在于,各金融机构客户端的本地数据为已进行标签进行统一化处理和特征对齐的数据,以标签0表示该笔交易没有违约,标签1表示该笔交易违约。
3.根据权利要求1所述的方法,其特征在于,所述噪声Y~Lap(△f/ε)分布,其中ε为差分隐私参数,△f为敏感度。
4.根据权利要求3所述的方法,其特征在于,通过增大差分隐私参数的值减少下一棵决策树生成时添加的自适应噪声。
5.根据权利要求1所述的方法,其特征在于,若满足以下条件,则当前结点为叶子结点:
所述当前结点所在树的层数达到设定的树的最大深度;或者,
所述当前结点的聚合样本数目小于设定的最小分裂阈值,其中,所述聚合样本数目是由所述聚合服务器对各所述金融机构客户端发送的所述当前结点的样本数目聚合得到;或者,
所述当前结点的最大分裂增益小于设定的最小分裂增益,其中,所述最大分裂增益根据所述训练参数计算得到,且所述最大分裂增益与所述最优划分对应;或者,
在所述当前结点的最大分裂增益大于设定的最小分裂增益的情况下,根据所述最优划分将所述当前结点试划分为左子结点和右子结点,试划分得到的左子结点或右子结点的聚合样本数目小于设定的叶子结点最小样本数目阈值,其中,所述试划分得到的各子结点的聚合样本数目是由所述聚合服务器对各所述金融机构客户端发送的试划分的各子结点样本数目分别聚合得到。
6.根据权利要求1所述的方法,其特征在于,对所述样本分布向量进行扰乱的过程为:
聚合服务器指定一个金融机构客户端作为扰乱客户端,所述扰乱客户端在本地生成随机种子后将该随机种子用其他金融机构客户端的公钥进行加密,将加密后的种子发送给聚合服务器,由聚合服务器分发给其他金融机构客户端;
其他金融机构客户端收到加密的随机种子后利用各自的私钥进行解密得到随机种子;
每个金融机构客户端使用各自持有的随机种子生成一个扰乱向量,根据所述扰乱向量去打乱各自的样本分布向量,将扰乱后的样本分布向量发送给所述聚合服务器。
7.一种基于个性化联邦学习的金融客户分类及预测方法,其特征在于,包括:
噪声添加模块,用于各金融机构客户端根据本地数据和聚合服务器发送的划分点,计算得到训练参数并将所述训练参数加上自适应噪声后发送至聚合服务器,其中所述本地数据为信用卡交易数据;
结点分裂模块,用于聚合服务器得到添加噪声的训练参数后计算最大增益,并选择当前结点的划分点,并计算得到两个子结点,其中所述当前结点为当前正在训练的结点;
计算模块,用于重复噪声添加模块和结点分裂模块的过程直至当前结点为叶子结点,通过将损失函数泰勒展开计算叶子结点的值,从而得到一棵决策树;
噪声调整模块,用于聚合服务器将训练后的决策树发送给各个金融机构客户端,各个金融机构客户端用本地数据计算当前的预测准确率,若所述预测准确率在连续三棵决策树上增大,则减少下一棵决策树生成时添加的自适应噪声,其中所述预测为预测交易请求是否会违约;
总体模型生成模块,用于重复噪声添加模块至噪声调整模块的过程,直至决策树的生成数量达到预定数量,得到XGBoost模型;
扰乱模块,用于各金融机构客户端根据各自持有的XGBoost模型中本地数据划分到各叶子结点的比例,得到样本分布向量并将该样本分布向量扰乱后发送至所述聚合服务器,其中根据每棵决策树中本地数据划分到各叶子结点的比例得到对应的向量,将所有决策树对应的向量横向拼接得到所述样本分布向量;
分类模块,用于聚合服务器使用聚类算法对得到的向量进行分类,从而将金融机构客户端分成不同的类别;
子模型生成模块,用于对于每一个类别,在各金融机构客户端各自持有的XGBoost模型的基础上,重复噪声添加模块-噪声调整模块的过程,得到属于该类别的子模型,以使得金融机构客户端接收交易请求后根据自身持有的子模型预测所述交易请求是否会违约。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310465451.1A CN116186629B (zh) | 2023-04-27 | 2023-04-27 | 基于个性化联邦学习的金融客户分类及预测方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310465451.1A CN116186629B (zh) | 2023-04-27 | 2023-04-27 | 基于个性化联邦学习的金融客户分类及预测方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116186629A CN116186629A (zh) | 2023-05-30 |
CN116186629B true CN116186629B (zh) | 2023-08-01 |
Family
ID=86434847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310465451.1A Active CN116186629B (zh) | 2023-04-27 | 2023-04-27 | 基于个性化联邦学习的金融客户分类及预测方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186629B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821838B (zh) * | 2023-08-31 | 2023-12-29 | 浙江大学 | 一种隐私保护的异常交易检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146307A (zh) * | 2022-05-18 | 2022-10-04 | 西安电子科技大学 | 一种用于隐私保护的联邦学习方法、装置及介质 |
CN115935407A (zh) * | 2022-09-22 | 2023-04-07 | 华东桐柏抽水蓄能发电有限责任公司 | 一种面向联邦学习的自适应差分隐私保护方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11941520B2 (en) * | 2020-01-09 | 2024-03-26 | International Business Machines Corporation | Hyperparameter determination for a differentially private federated learning process |
US12010128B2 (en) * | 2020-12-17 | 2024-06-11 | Mcafee, Llc | Methods, systems, articles of manufacture and apparatus to build privacy preserving models |
US12008125B2 (en) * | 2021-04-05 | 2024-06-11 | Microsoft Technology Licensing, Llc | Privacy filters and odometers for deep learning |
US20230052231A1 (en) * | 2021-07-30 | 2023-02-16 | Oracle International Corporation | Subject-Level Granular Differential Privacy in Federated Learning |
CN114897837A (zh) * | 2022-05-16 | 2022-08-12 | 华北电力大学(保定) | 基于联邦学习与自适应差分的电力巡检图像缺陷检测方法 |
CN115481441A (zh) * | 2022-09-23 | 2022-12-16 | 广东省农村信用社联合社 | 面向联邦学习的差分隐私保护方法及装置 |
CN115952532A (zh) * | 2022-10-26 | 2023-04-11 | 北京理工大学 | 一种基于联盟链联邦学习的隐私保护方法 |
-
2023
- 2023-04-27 CN CN202310465451.1A patent/CN116186629B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146307A (zh) * | 2022-05-18 | 2022-10-04 | 西安电子科技大学 | 一种用于隐私保护的联邦学习方法、装置及介质 |
CN115935407A (zh) * | 2022-09-22 | 2023-04-07 | 华东桐柏抽水蓄能发电有限责任公司 | 一种面向联邦学习的自适应差分隐私保护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116186629A (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240281782A1 (en) | Apparatus for cryptographic resource transfer based on quantitative assessment regarding non-fungible tokens | |
US20220230071A1 (en) | Method and device for constructing decision tree | |
CN111681091B (zh) | 基于时间域信息的金融风险预测方法、装置及存储介质 | |
CN109639479B (zh) | 基于生成对抗网络的网络流量数据增强方法及装置 | |
CN112799708B (zh) | 联合更新业务模型的方法及系统 | |
CN114841364A (zh) | 一种满足个性化本地差分隐私需求的联邦学习方法 | |
US20210174367A1 (en) | System and method including accurate scoring and response | |
CN115065458B (zh) | 一种数据加密传输的电子商务交易系统 | |
CN116186629B (zh) | 基于个性化联邦学习的金融客户分类及预测方法、装置 | |
Zhang et al. | A fast online learning algorithm for distributed mining of bigdata | |
CN112671746B (zh) | 一种基于区块链的联邦学习模型中毒检测方法 | |
CN113628049B (zh) | 一种基于群体智能的区块链智能合约的冲突裁决方法 | |
CN114930357A (zh) | 经由梯度提升的隐私保护机器学习 | |
CN113298121A (zh) | 基于多数据源建模的消息发送方法、装置和电子设备 | |
Woubie et al. | Federated learning for privacy-preserving speaker recognition | |
CN115484026A (zh) | 一种金融科技中基于区块链多维信任体系结构 | |
CN117932577B (zh) | 一种互联网数据的处理方法及系统 | |
CN117521117A (zh) | 一种医疗数据应用安全与隐私保护方法及系统 | |
CN114970886A (zh) | 一种基于聚类的自适应鲁棒协作学习方法和装置 | |
CN114374520B (zh) | 一种可信安全的轻量级区块链实现系统和方法 | |
CN110166415A (zh) | 基于匿名网络和机器学习的信誉数据处理方法 | |
Zewoudie et al. | Federated Learning for Privacy Preserving On-Device Speaker Recognition | |
Yang et al. | FraudMemory: Explainable memory-enhanced sequential neural networks for financial fraud detection | |
US20230368208A1 (en) | System and method for generating a contention scheme | |
CN113626854A (zh) | 一种基于本地化差分隐私的图像数据隐私保护方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |