CN112418520A - 一种基于联邦学习的信用卡交易风险预测方法 - Google Patents

一种基于联邦学习的信用卡交易风险预测方法 Download PDF

Info

Publication number
CN112418520A
CN112418520A CN202011315912.XA CN202011315912A CN112418520A CN 112418520 A CN112418520 A CN 112418520A CN 202011315912 A CN202011315912 A CN 202011315912A CN 112418520 A CN112418520 A CN 112418520A
Authority
CN
China
Prior art keywords
training
data
credit card
model
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011315912.XA
Other languages
English (en)
Other versions
CN112418520B (zh
Inventor
李莉
樊宇曦
林国义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202011315912.XA priority Critical patent/CN112418520B/zh
Publication of CN112418520A publication Critical patent/CN112418520A/zh
Application granted granted Critical
Publication of CN112418520B publication Critical patent/CN112418520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于联邦学习的信用卡交易风险预测方法,包括以下步骤:1)获取作为不同本地客户端的各个银行中,关于客户信用卡交易特征数据的数据集;2)采用局部敏感哈希算法搜索各银行数据集中的相似实例;3)采用串行联邦学习环境中GBDT算法构建组合特征;4)根据组合特征和原始特征构建新的训练特征,各本地客户端以此扩展并构建新的数据集;5)各本地客户端分别采用相同的神经网络模型进行训练,并将训练好的模型参数上传到云端,云端将模型参数聚合更新后返回各本地客户端后开始下一次的训练,直至训练过程收敛,得到最终的神经网络模型完成信用卡交易风险预测结果。与现有技术相比,本发明具有隐私保护、结果准确、适用范围广等优点。

Description

一种基于联邦学习的信用卡交易风险预测方法
技术领域
本发明涉及金融数据安全领域,尤其是涉及一种基于联邦学习的信用卡交易风险预测方法。
背景技术
近年来,联邦学习作为一种新兴的人工智能基础技术正蓬勃发展。“联邦学习”的概念最早于2016年由谷歌研究科学家H.Brendan McMahan等提出。它是指多个客户(如移动设备、机构、组织等)在一个或多个中央服务器协作下协同进行去中心化机器学习的设置。在去中心化机器学习的过程中,联邦学习能够保证每个客户的隐私数据不出本地,从而降低了传统中心化机器学习带来的隐私泄露风险和因数据泄露带来的相应成本。另外,根据近年来的银行年报来看,信用卡的不良率及贷款坏账率都有提升,并且受疫情影响,生产工作都放缓了脚步,伴随着收入的暂停,但是仍然需要生活必须消费。而信用社会的信用卡制度,超前消费,提前预支未来收入越来越被大家所接受,疫情期间,不良贷款率以及坏账率都在增加,银行体系由于贷款增加了不少风险杠杆,一旦杠杆继续加大,将造成很严重的后果,因此,发展及时检测信用卡交易潜在风险的技术迫在眉睫。
在过去,数据动模型不动,也就是说可以从各地来购买数据,或移动数据到一个中心点,在中心点建立模型。而碍于法律法规的影响,各银行间难以跨越法律壁垒来进行联合建模,并且由于信用卡不良率与合法交易数据的比例严重失衡导致单一银行的数据库缺乏不良样本,因此希望通过联邦学习进行银行间的联合建模来改善现有的预测模型。
本发明主要应用于缺乏有效不良交易的标签的信用卡交易风险预测应用。在现实场景中,公开可用的信用卡交易数据集非常稀缺,从而为信用卡交易风险预测模型的提升带来了巨大的挑战,通过分析梯度提升决策树与逻辑回归两种模型的优缺点和互补性可以知道,逻辑回归线性模型处理速度快、对全局把握性好但是对特征要求比较高。梯度提升决策树适合处理非线性数据,其思想可以用来构造组合特征,充分挖掘数据信息,然而却不能并行进行不适合处理数据量大的数据集。
目前,在信用卡风险检测领域,还没有对如何在保护数据隐私的前提下而进行跨机构间联合建模进行相关研究工作,仅有少量研究针对如何利用单一银行数据集进行了一定的探索,Soemers等提出了一种结合决策树与上下文多臂赌博机来构建动态欺诈检测模型;Bian等人提出将Bagging与Boosting算法结合而形成一种有监督的欺诈检测模型;Meng提出基于GBDT和LR的个人信用评估模型,结果准确性相较于单一模型有显著提高。Yang等人提出了基于联邦学习和差分隐私的信用卡欺诈检测系统。但是这些研究工作仍存在着许多不足:
首先,这些工作所带来的提升都较为有限,因为所用的数据都来自单一机构,没有打破机构间的数据壁垒,从而无法达到机构间合作共赢的效果;
其次,有些工作为了保护数据隐私,应用了差分隐私方法,在训练过程中引入噪声,可能会加入了一些较为不稳定的模块,使得整个模型难以训练或是训练时间过长,降低了训练准确度,不适用于实际场景;
最后,有些工作只利用现有的单一特征,而忽略了组合特征的重要性,对模型的训练结果有一定的影响。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于联邦学习的信用卡交易风险预测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于联邦学习的信用卡交易风险预测方法,包括以下步骤:
1)获取作为不同本地客户端的各个银行中,关于客户信用卡交易特征数据的数据集,每个银行数据集中每条实例对应的原始特征的维度相同;
2)采用局部敏感哈希算法搜索各银行数据集中的相似实例;
3)采用串行联邦学习环境中GBDT算法构建组合特征;
4)根据组合特征和原始特征构建新的训练特征,各本地客户端以此扩展并构建新的数据集;
5)各本地客户端分别采用相同的神经网络模型进行训练,并将训练好的模型参数上传到第三方云端,云端将模型参数聚合更新后返回各本地客户端后开始下一次的训练,直至训练过程收敛,得到最终的神经网络模型完成信用卡交易风险预测结果。
所述的步骤1)中,每条实例的特征包括基础字段、信用字段和交易字段,所述的基础字段包括性别、年龄、婚姻状况和地区以及学历数据,所述的信用字段包括账户信用等级评定、是否通过交易密码验证、是否通过短信身份验证以及是否通过人脸识别验证数据,所述的交易字段包括交易金额、是否分期、交易手续费、交易时间和交易笔数数据。
所述的步骤2)具体包括以下步骤:
21)给定L个随机生成的p稳定哈希函数,每个本地客户端,即数据拥有方,根据生成的p稳定哈希函数获取其所有实例对应的哈希值;
22)以每个实例的ID及其哈希值作为输入,采用AllReduce运算构建L个全局哈希表并广播;
23)各数据拥有方根据广播的全局哈希表获得数据集中的相似实例。
所述的步骤23)中,通过Reduce操作将拥有相同的哈希值实例的ID进行合并,对于数据拥有方Pm的给定实例
Figure BDA0002791403880000031
另一数据拥有方Pj中的相似实例为具有相同哈希值最高计数的实例。
所述的步骤3)中,当一个实例与多个其他实例相似时,该实例重要性较高,则采用梯度表示该实例的重要性。
所述的步骤3)中,在每个本地客户端进行GBDT模型训练时,采用加权梯度进行训练,具体包括以下步骤:
31)每个数据拥有方更新本地实例的梯度,当数据拥有方Pm在第t次迭代中构建新树时,加权梯度提升决策树最小化目标函数为:
Figure BDA0002791403880000032
Figure BDA0002791403880000033
Figure BDA0002791403880000034
Figure BDA0002791403880000035
其中,
Figure BDA0002791403880000041
为第t次迭代中的目标,
Figure BDA0002791403880000042
为数据拥有方Pm的第q个实例,Im为数据拥有方Pm的实例集合,Gmq和Hmq分别为与实例
Figure BDA0002791403880000043
处相似实例在该损失函数处的一阶与二阶梯度之和,且包含该实例本身的梯度,Ω(ft)为对模型的正则化惩罚项,γ和λ均为超参数,
Figure BDA0002791403880000044
对应一颗决策树,
Figure BDA0002791403880000045
为包含在客户端n的实例里与实例
Figure BDA0002791403880000046
相似的所有实例ID的集合,
Figure BDA0002791403880000047
为第n个客户端的第i个节点在该损失函数上的一阶梯度信息,
Figure BDA0002791403880000048
为第n个客户端的第i个节点在该损失函数上的二阶梯度信息,Tl为叶子节点的总数,w为叶子节点的权重;
32)对于数据拥有方Pm的每个实例,其他各数据拥有方将发送对应相似实例的聚合梯度到数据拥有方Pm
33)数据拥有方Pm在接收到聚合梯度后进行加权求和得到加权梯度,并根据该加权梯度训练构建一棵决策树,由此获取组合特征。
所述的步骤33)中,GBDT模型训练的终止条件根据每棵决策树最大叶子节点数目以及决策树个数决定,训练好的GBDT模型叶子节点的输出即为组合特征向量。
所述的步骤4)中,新的训练特征由组合特征和原始特征合并形成。
所述的步骤5)中,云端将模型参数采用加权的方式聚合更新后返回各本地客户端后开始下一次的训练。
所述的步骤33)中,梯度信息汇总时各客户端的模型比重按照各本地模型训练的精度来设置,具体公式如下:
Figure BDA0002791403880000049
其中,wt+1为全局模型第t轮的训练后的最新梯度信息,wt为全局模型上一轮的训练结果,nc为客户端c拥有的实例数,n为所有客户端拥有的实例总数,
Figure BDA00027914038800000410
为客户端c在本轮训练的步长,
Figure BDA00027914038800000411
为客户端c在第t轮进行本地训练时得到的本地更新梯度信息,C为客户端总数。
与现有技术相比,本发明具有以下优点:
一、隐私保护性:研究了一种具有宽松隐私限制的实用环境,运用局部敏感哈希算法,并且只传输模型的梯度信息,而具有隐私的双重保护性,在这种环境下,好奇的参与端可能会获得有关另一方数据的某些信息,但是不诚实的一方仍然无法获得其他方的实际原始数据。
二、结果准确性:研究了如何在联邦学习环境中训练GBDT构造组合特征,GBDT是一种非线性模型,其学习器为决策树模型,决策树的叶子能够直接当作特征,因此GBDT在构造出有效的特征、特征组合方面具有天然的优势,利用GBDT可以构造新的特征,首先利用原始特征训练GBDT模型,然后用GBDT学习得到的决策树学习得到新的特征向量,GBDT每颗决策树的每个叶子节点都是新的特征向量的一个维度,利用构造的新特征结合旧特征一同训练,扩充了特征维度,从而提高了模型的准确性,除此之外,运用局部敏感哈希在捕捉相似样本的同时,保护了隐私,而非使用同态加密或者秘密共享等对训练结果有损的加密方法,使训练模型的准确性有了提升。
三、适用范围广:本发明不仅可用于信用卡交易风险预测,同时可应用于小微企业贷款风险预测、保险个性化定价、个性化推荐等金融领域场景,同时,由于其隐私保护的特性,使得该发明可以同时应用于工业、医疗领域的科学研究工作中。
附图说明
图1为本发明的方法流程图。
图2为给样本进行哈希编码的示意图。
图3为预处理过程哈希广播图。
图4为特征构造阶段示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
当中国的土地、劳动力、资本纷纷通过要素化而驱动经济增长之后,下一步的增长点是数据,但是,使用数据的前提是打破数据孤岛,这也就解释了为何推动数据融合至关重要,因为,在提升人工智能和机器学习金融商业落地的能力过程中,数据是这个升级过程中的唯一主轴。人工智能井喷式发展,但我们周围日常的生活,有的却是小数据,像在金融里面有很多的数据,其实是黑天鹅现象,比方说在信用卡交易风险检测应用中用于模型训练的盗刷案例,其实数量并没有想象中那么多,还是属于少数现象,就拿银行的信用卡业务来说,存量博弈的现实,决定了银行要对客户有更深一层的认识,如果还像以前那样通过简单的几条规则,把很多客户申请拒掉,营销成本浪费非常之大,同样的,即便是针对逾期90天的客户,在很多银行避之不及的情况,一些风险判断能力高的银行也能沙中淘金,受此启发,我们希望能将银行间的数据实现互通,从而解决信用卡交易中缺乏反面样本案例的情况,使银行间实现联合建模,互利共赢的局面。
在实践中,如图2所示,需要对银行中的每个信用卡交易数据所涉及到的客户信息以及交易特征进行哈希编码行成哈希值,之后如图3所示,各个银行间需要根据拥有的实例样本生成的哈希值(Hash Values),广播(All Reduce)哈希表,从而寻找不同银行间的相似样本,行成一个相似度(Similarity)矩阵,在完成前述预训练阶段后,可以按照图4所示在银行之间串行优化梯度提升决策树,即银行1(bank)先根据boosting算法生成树1(Tree1),该生成树模型将分享(sharing)传递给其余的银行进行新的模型训练从而构造组合特征,接着利用这些组合特征与旧特征一起进行联邦环境中的分类训练。
如图1所示,本发明提供的一种基于联邦学习的信用卡交易风险预测方法,包括以下步骤:
步骤S1:获取相互独立的N个数据集;其中,数据集来自不同的银行,每个数据集代表一个银行,每个银行作为一个客户端,拥有独立的数据集,且数据集的特征维度相同,便于进行联合训练,它们都用来描述信用卡交易中的客户信息以及交易方式交易时间等相关信息,每条数据都有对应的分类标签,表征该交易是否合法;
步骤S2:预处理阶段,基于局部敏感哈希算法,对数据样本进行哈希编码后在不暴露原始数据的情况下寻找各客户端间的相似样本,行成一个相似度矩阵;
步骤S21:给定L个随机生成的p稳定哈希函数,每个数据拥有方首先根据生成的哈希函数计算其所有实例对应的哈希值;
步骤S22:使用AllReduce运算构建L个全局哈希表,这里,AllReduce的输入是各方的实例ID及其哈希值;
步骤S23:Reduce操作是将拥有相同的哈希值实例的ID进行合并。广播哈希表后,各方可以计算相似度信息,具体而言,在一方Pm中,给定实例Xm i,另一方Pj中的相似实例是具有相同哈希值最高计数的实例,如果存在多个具有相同最高计数的实例,则随机选择一个作为相似实例。
步骤S3:使用联邦学习环境中的GBDT算法构建训练特征,在训练阶段,每一数据拥有方都按串行顺序训练梯度提升决策树,当数据方Pm训练一棵树时,为了保护其他数据方的实例记录,仅使用本地实例集合Im来学习这棵决策树,在训练过程中,学习到的决策树在各方之间共享,来构建加权梯度增强决策树法,具体包括以下按步骤
步骤S31:首先,各数据参与方根据以下公式更新本地实例的梯度,实例Xm q∈Im,令Gmq和Hmq分别表示实例
Figure BDA0002791403880000071
处与该实例相似的所有实例的损失函数的一阶和二阶梯度之和,例如,现有两个客户端Pa和Pb,当计算Pa的相似度信息时,发现对于Pa中的实例
Figure BDA0002791403880000072
Figure BDA0002791403880000073
的相似实例都是
Figure BDA0002791403880000074
那么当利用Pb中的实例构建决策树时,对于实例
Figure BDA0002791403880000075
使用的梯度更新信息将是
Figure BDA0002791403880000076
这三个梯度信息之和,而不是仅仅只使用
Figure BDA0002791403880000077
的梯度信息,当Pm在第t次迭代中构建新树时,加权梯度提升决策树会最小化以下目标函数:
Figure BDA0002791403880000078
步骤S32:对于Pm的每个实例,其他各方将计算并发送相似实例的聚合梯度来代替直接发送每个梯度,在本地的这种聚合可以降低通信成本并保护各个梯度。
步骤S33:在计算所有聚合梯度并将其发送到Pm之后,可以通过对聚合梯度求和轻松地计算出加权梯度。然后,我们可以基于这些加权梯度的和构建一棵决策树。
步骤S4:重复步骤S3,直到达到任务设置或性能标准;
步骤S5:将联邦环境中GBDT模型构造的新的组合特征向量与原始数据特征组合合并,得到新的数据,再将新的数据样本用于联邦环境中的神经网络模型进行分类训练,得到最终的预测模型。
步骤S51:将前一步中得出的组合特征与旧特征作为新的数据样本输入本地端的神经网络模型,每个参与方拥有相同的模型,进行多次本地训练。
步骤S52:不同的本地模型参数将同时上传到云端,云端将完成模型参数的聚合与更新,并且将更新好的参数返回到参与方的终端,各个终端开始下一次的迭代。以上的程序会一直重复,直到整个训练过程的收敛,其中,梯度信息汇总时各客户端的模型比重按照各本地模型训练的精度来设置,具体公式如下:
Figure BDA0002791403880000081

Claims (10)

1.一种基于联邦学习的信用卡交易风险预测方法,其特征在于,包括以下步骤:
1)获取作为不同本地客户端的各个银行中,关于客户信用卡交易特征数据的数据集,每个银行数据集中每条实例对应的原始特征的维度相同;
2)采用局部敏感哈希算法搜索各银行数据集中的相似实例;
3)采用串行联邦学习环境中GBDT算法构建组合特征;
4)根据组合特征和原始特征构建新的训练特征,各本地客户端以此扩展并构建新的数据集;
5)各本地客户端分别采用相同的神经网络模型进行训练,并将训练好的模型参数上传到第三方云端,云端将模型参数聚合更新后返回各本地客户端后开始下一次的训练,直至训练过程收敛,得到最终的神经网络模型完成信用卡交易风险预测结果。
2.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤1)中,每条实例的特征包括基础字段、信用字段和交易字段,所述的基础字段包括性别、年龄、婚姻状况和地区以及学历数据,所述的信用字段包括账户信用等级评定、是否通过交易密码验证、是否通过短信身份验证以及是否通过人脸识别验证数据,所述的交易字段包括交易金额、是否分期、交易手续费、交易时间和交易笔数数据。
3.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤2)具体包括以下步骤:
21)给定L个随机生成的p稳定哈希函数,每个本地客户端,即数据拥有方,根据生成的p稳定哈希函数获取其所有实例对应的哈希值;
22)以每个实例的ID及其哈希值作为输入,采用AllReduce运算构建L个全局哈希表并广播;
23)各数据拥有方根据广播的全局哈希表获得数据集中的相似实例。
4.根据权利要求3所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤23)中,通过Reduce操作将拥有相同的哈希值实例的ID进行合并,对于数据拥有方Pm的给定实例
Figure FDA0002791403870000021
另一数据拥有方Pj中的相似实例为具有相同哈希值最高计数的实例。
5.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤3)中,当一个实例与多个其他实例相似时,该实例重要性较高,则采用梯度表示该实例的重要性。
6.根据权利要求5所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤3)中,在每个本地客户端进行GBDT模型训练时,采用加权梯度进行训练,具体包括以下步骤:
31)每个数据拥有方更新本地实例的梯度,当数据拥有方Pm在第t次迭代中构建新树时,加权梯度提升决策树最小化目标函数为:
Figure FDA0002791403870000022
Figure FDA0002791403870000023
Figure FDA0002791403870000024
Figure FDA0002791403870000025
其中,
Figure FDA0002791403870000026
为第t次迭代中的目标,
Figure FDA0002791403870000027
为数据拥有方Pm的第q个实例,Im为数据拥有方Pm的实例集合,Gmq和Hmq分别为与实例
Figure FDA0002791403870000028
处相似实例在该损失函数处的一阶与二阶梯度之和,且包含该实例本身的梯度,Ω(ft)为对模型的正则化惩罚项,γ和λ均为超参数,
Figure FDA0002791403870000029
对应一颗决策树,
Figure FDA00027914038700000210
为包含在客户端n的实例里与实例
Figure FDA00027914038700000211
相似的所有实例ID的集合,
Figure FDA00027914038700000212
为第n个客户端的第i个节点在该损失函数上的一阶梯度信息,
Figure FDA00027914038700000213
为第n个客户端的第i个节点在该损失函数上的二阶梯度信息,Tl为叶子节点的总数,w为叶子节点的权重;
32)对于数据拥有方Pm的每个实例,其他各数据拥有方将发送对应相似实例的聚合梯度到数据拥有方Pm
33)数据拥有方Pm在接收到聚合梯度后进行加权求和得到加权梯度,并根据该加权梯度训练构建一棵决策树,由此获取组合特征。
7.根据权利要求6所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤33)中,GBDT模型训练的终止条件根据每棵决策树最大叶子节点数目以及决策树个数决定,训练好的GBDT模型叶子节点的输出即为组合特征向量。
8.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤4)中,新的训练特征由组合特征和原始特征合并形成。
9.根据权利要求1所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤5)中,云端将模型参数采用加权的方式聚合更新后返回各本地客户端后开始下一次的训练。
10.根据权利要求6所述的一种基于联邦学习的信用卡交易风险预测方法,其特征在于,所述的步骤33)中,梯度信息汇总时各客户端的模型比重按照各本地模型训练的精度来设置,具体公式如下:
Figure FDA0002791403870000031
其中,wt+1为全局模型第t轮的训练后的最新梯度信息,wt为全局模型上一轮的训练结果,nc为客户端c拥有的实例数,n为所有客户端拥有的实例总数,
Figure FDA0002791403870000032
为客户端c在本轮训练的步长,
Figure FDA0002791403870000033
为客户端c在第t轮进行本地训练时得到的本地更新梯度信息,C为客户端总数。
CN202011315912.XA 2020-11-22 2020-11-22 一种基于联邦学习的信用卡交易风险预测方法 Active CN112418520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011315912.XA CN112418520B (zh) 2020-11-22 2020-11-22 一种基于联邦学习的信用卡交易风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011315912.XA CN112418520B (zh) 2020-11-22 2020-11-22 一种基于联邦学习的信用卡交易风险预测方法

Publications (2)

Publication Number Publication Date
CN112418520A true CN112418520A (zh) 2021-02-26
CN112418520B CN112418520B (zh) 2022-09-20

Family

ID=74777854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011315912.XA Active CN112418520B (zh) 2020-11-22 2020-11-22 一种基于联邦学习的信用卡交易风险预测方法

Country Status (1)

Country Link
CN (1) CN112418520B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033712A (zh) * 2021-05-21 2021-06-25 华中科技大学 一种基于联邦学习的多用户协同训练人流统计方法及系统
CN113362160A (zh) * 2021-06-08 2021-09-07 南京信息工程大学 一种用于信用卡反欺诈的联邦学习方法和装置
CN113571169A (zh) * 2021-09-23 2021-10-29 杭州医康慧联科技股份有限公司 医疗数据管理方法、装置、电子设备和存储介质
CN114785810A (zh) * 2022-03-31 2022-07-22 海南师范大学 一种适用于联邦学习的树状广播数据同步算法
CN115203487A (zh) * 2022-09-15 2022-10-18 深圳市洞见智慧科技有限公司 基于多方安全图的数据处理方法及相关装置
WO2022237194A1 (zh) * 2021-05-10 2022-11-17 深圳前海微众银行股份有限公司 联邦学习系统中账户的异常检测方法、装置及电子设备
CN116341684A (zh) * 2023-05-26 2023-06-27 蓝象智联(杭州)科技有限公司 提高模型泛化性能的正则惩罚施加方法、装置及存储介质
CN116776386A (zh) * 2023-07-05 2023-09-19 深圳钰丰信息技术有限公司 一种云服务数据信息安全管理方法及系统
CN117333310A (zh) * 2023-09-27 2024-01-02 中国人寿保险股份有限公司山东省分公司 基于联邦学习的保险行业潜在客户挖掘方法、装置及设备

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715021A (zh) * 2015-02-27 2015-06-17 南京邮电大学 一种基于哈希方法的多标记学习的设计方法
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109447273A (zh) * 2018-09-30 2019-03-08 深圳市元征科技股份有限公司 模型训练方法、广告推荐方法、相关装置、设备及介质
US20190197429A1 (en) * 2016-12-12 2019-06-27 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training classification model, and method and apparatus for classifying data
CN110046180A (zh) * 2019-01-10 2019-07-23 阿里巴巴集团控股有限公司 一种用于定位相似实例的方法、装置和电子设备
US20190370684A1 (en) * 2018-06-01 2019-12-05 Sas Institute Inc. System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model
CN110688433A (zh) * 2019-12-10 2020-01-14 银联数据服务有限公司 一种基于路径的特征生成方法及装置
CN110991563A (zh) * 2019-12-23 2020-04-10 青岛大学 一种基于特征融合的胶囊网络随机路由算法
CN111178639A (zh) * 2019-12-31 2020-05-19 北京明略软件系统有限公司 一种基于多模型融合实现预测的方法及装置
CN111291900A (zh) * 2020-03-05 2020-06-16 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法及装置
CN111325619A (zh) * 2018-12-15 2020-06-23 深圳先进技术研究院 一种基于联合学习的信用卡欺诈检测模型更新方法及装置
CN111368901A (zh) * 2020-02-28 2020-07-03 深圳前海微众银行股份有限公司 基于联邦学习的多方联合建模方法、设备和介质
CN111461874A (zh) * 2020-04-13 2020-07-28 浙江大学 一种基于联邦模式的信贷风险控制系统及方法
CN111652710A (zh) * 2020-06-03 2020-09-11 北京化工大学 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法
CN111768285A (zh) * 2019-04-01 2020-10-13 杭州金智塔科技有限公司 信贷风控模型构建系统、方法、风控系统及存储介质
CN111860865A (zh) * 2020-07-23 2020-10-30 中国工商银行股份有限公司 模型构建和分析的方法、装置、电子设备和介质
CN111935156A (zh) * 2020-08-12 2020-11-13 科技谷(厦门)信息技术有限公司 一种联邦学习的数据隐私保护方法
CN111932367A (zh) * 2020-08-13 2020-11-13 中国银行股份有限公司 贷前信用评估方法及装置

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715021A (zh) * 2015-02-27 2015-06-17 南京邮电大学 一种基于哈希方法的多标记学习的设计方法
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统
US20190197429A1 (en) * 2016-12-12 2019-06-27 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training classification model, and method and apparatus for classifying data
US20190370684A1 (en) * 2018-06-01 2019-12-05 Sas Institute Inc. System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109447273A (zh) * 2018-09-30 2019-03-08 深圳市元征科技股份有限公司 模型训练方法、广告推荐方法、相关装置、设备及介质
CN111325619A (zh) * 2018-12-15 2020-06-23 深圳先进技术研究院 一种基于联合学习的信用卡欺诈检测模型更新方法及装置
CN110046180A (zh) * 2019-01-10 2019-07-23 阿里巴巴集团控股有限公司 一种用于定位相似实例的方法、装置和电子设备
CN111768285A (zh) * 2019-04-01 2020-10-13 杭州金智塔科技有限公司 信贷风控模型构建系统、方法、风控系统及存储介质
CN110688433A (zh) * 2019-12-10 2020-01-14 银联数据服务有限公司 一种基于路径的特征生成方法及装置
CN110991563A (zh) * 2019-12-23 2020-04-10 青岛大学 一种基于特征融合的胶囊网络随机路由算法
CN111178639A (zh) * 2019-12-31 2020-05-19 北京明略软件系统有限公司 一种基于多模型融合实现预测的方法及装置
CN111368901A (zh) * 2020-02-28 2020-07-03 深圳前海微众银行股份有限公司 基于联邦学习的多方联合建模方法、设备和介质
CN111291900A (zh) * 2020-03-05 2020-06-16 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法及装置
CN111461874A (zh) * 2020-04-13 2020-07-28 浙江大学 一种基于联邦模式的信贷风险控制系统及方法
CN111652710A (zh) * 2020-06-03 2020-09-11 北京化工大学 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法
CN111860865A (zh) * 2020-07-23 2020-10-30 中国工商银行股份有限公司 模型构建和分析的方法、装置、电子设备和介质
CN111935156A (zh) * 2020-08-12 2020-11-13 科技谷(厦门)信息技术有限公司 一种联邦学习的数据隐私保护方法
CN111932367A (zh) * 2020-08-13 2020-11-13 中国银行股份有限公司 贷前信用评估方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴俊杰等: "数据智能:趋势与挑战", 《系统工程理论与实践》 *
胡海峰等: "哈希快速多标记学习算法", 《信号处理》 *
陈荣荣等: "基于XGBoost算法模型的信用卡交易欺诈预测研究", 《计算机应用研究》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022237194A1 (zh) * 2021-05-10 2022-11-17 深圳前海微众银行股份有限公司 联邦学习系统中账户的异常检测方法、装置及电子设备
CN113033712B (zh) * 2021-05-21 2021-09-14 华中科技大学 一种基于联邦学习的多用户协同训练人流统计方法及系统
CN113033712A (zh) * 2021-05-21 2021-06-25 华中科技大学 一种基于联邦学习的多用户协同训练人流统计方法及系统
CN113362160A (zh) * 2021-06-08 2021-09-07 南京信息工程大学 一种用于信用卡反欺诈的联邦学习方法和装置
CN113362160B (zh) * 2021-06-08 2023-08-22 南京信息工程大学 一种用于信用卡反欺诈的联邦学习方法和装置
CN113571169A (zh) * 2021-09-23 2021-10-29 杭州医康慧联科技股份有限公司 医疗数据管理方法、装置、电子设备和存储介质
CN114785810B (zh) * 2022-03-31 2023-05-16 海南师范大学 一种适用于联邦学习的树状广播数据同步方法
CN114785810A (zh) * 2022-03-31 2022-07-22 海南师范大学 一种适用于联邦学习的树状广播数据同步算法
CN115203487A (zh) * 2022-09-15 2022-10-18 深圳市洞见智慧科技有限公司 基于多方安全图的数据处理方法及相关装置
CN115203487B (zh) * 2022-09-15 2022-12-20 深圳市洞见智慧科技有限公司 基于多方安全图的数据处理方法及相关装置
CN116341684A (zh) * 2023-05-26 2023-06-27 蓝象智联(杭州)科技有限公司 提高模型泛化性能的正则惩罚施加方法、装置及存储介质
CN116776386A (zh) * 2023-07-05 2023-09-19 深圳钰丰信息技术有限公司 一种云服务数据信息安全管理方法及系统
CN116776386B (zh) * 2023-07-05 2023-11-17 深圳钰丰信息技术有限公司 一种云服务数据信息安全管理方法及系统
CN117333310A (zh) * 2023-09-27 2024-01-02 中国人寿保险股份有限公司山东省分公司 基于联邦学习的保险行业潜在客户挖掘方法、装置及设备
CN117333310B (zh) * 2023-09-27 2024-05-17 中国人寿保险股份有限公司山东省分公司 基于联邦学习的保险行业潜在客户挖掘方法、装置及设备

Also Published As

Publication number Publication date
CN112418520B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN112418520B (zh) 一种基于联邦学习的信用卡交易风险预测方法
TWI712981B (zh) 風險辨識模型訓練方法、裝置及伺服器
US11263644B2 (en) Systems and methods for detecting unauthorized or suspicious financial activity
CN110717816A (zh) 一种基于人工智能技术的全域金融风险知识图谱构建方法
CN109977151A (zh) 一种数据分析方法及系统
CN113362160A (zh) 一种用于信用卡反欺诈的联邦学习方法和装置
CN110427406A (zh) 组织机构相关人员关系的挖掘方法及装置
CN114358912A (zh) 一种基于联邦学习的风险权重融合的异常检测方法
CN108876193A (zh) 一种基于信用分的风控模型构建方法
CN113902037A (zh) 非正常银行账户识别方法、系统、电子设备及存储介质
CN114998005A (zh) 一种基于联邦图神经网络技术的比特币异常交易识别方法
CN116541755A (zh) 一种基于时序图表征学习的金融行为模式分析预测方法
CN115687758A (zh) 一种用户分类模型训练方法、用户检测方法
Li et al. A time attention based fraud transaction detection framework
CN115080868A (zh) 产品推送方法、装置、计算机设备、存储介质和程序产品
CN116993490A (zh) 一种基于人工智能的银行场景自动处理方法及系统
CN116680633A (zh) 基于多任务学习的异常用户检测方法、系统及存储介质
CN114863191A (zh) 基于区块链的防伪信息识别与传输方法
CN115907968A (zh) 一种基于人行征信的风控拒绝推断方法及设备
Siddhartha Digit recognition of MNIST handwritten using convolutional neural networks (CNN)
CN114723012A (zh) 基于分布式训练系统的计算方法和装置
Zhai et al. Enterprise electricity consumption forecasting method based on federated learning
Zheng GRU-GAT Model for Blockchain Bitcoin Abnormal Transaction Detection
Zhu et al. Enabling Fraud Prediction on Preliminary Data Through Information Density Booster
Lv et al. An interactive system for unfair rating detection models in a customized perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant