CN109598385A - 反洗钱联合学习方法、装置、设备、系统及存储介质 - Google Patents

反洗钱联合学习方法、装置、设备、系统及存储介质 Download PDF

Info

Publication number
CN109598385A
CN109598385A CN201811493254.6A CN201811493254A CN109598385A CN 109598385 A CN109598385 A CN 109598385A CN 201811493254 A CN201811493254 A CN 201811493254A CN 109598385 A CN109598385 A CN 109598385A
Authority
CN
China
Prior art keywords
money laundering
model
gradient value
working node
encrypted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811493254.6A
Other languages
English (en)
Inventor
谭辉
范涛
李元
汪亚男
邱毅
马国强
刘洋
陈天健
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201811493254.6A priority Critical patent/CN109598385A/zh
Publication of CN109598385A publication Critical patent/CN109598385A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种反洗钱联合学习方法,该方法包括:获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值;对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛。本发明还公开了一种反洗钱联合学习装置、设备、系统和一种存储介质。本发明能够在不看到其他银行数据的前提下实现样本共享,从而提高机器学习反洗钱模型的精确率和召回率。

Description

反洗钱联合学习方法、装置、设备、系统及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及反洗钱联合学习方法、装置、设备、系统及存储介质。
背景技术
金融系统在使用机器学习时,对坏样本的质量和数量极度依赖。在反洗钱领域,各家银行的坏样本(具有洗钱风险的样本)成本很高,因此坏样本一般都不是特别多,尤其对于中小银行。样本的缺失,导致在中小银行的反洗钱系统应用机器学习,往往得不到很好的效果。
目前,对于坏样本数量少的情况,大部分都是通过手工制造一些坏样本来进行补充计算,这会导致机器学习模型的精确率和召回率不高,在实际上线运行时,反到不能帮助业务人员提高工作效率。
发明内容
本发明的主要目的在于提出一种反洗钱联合学习方法、装置、设备、系统及存储介质,旨在在不看到其他银行数据的前提下实现样本共享,从而提高机器学习反洗钱模型的精确率和召回率。
为实现上述目的,本发明提供一种反洗钱联合学习方法,所述反洗钱联合学习方法包括如下步骤:
优选地,获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,所述加密梯度值由所述远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到;
对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;
将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛。
优选地,所述获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值的步骤之前,还包括:
获取第一反洗钱训练样本;
采用预设的机器学习算法对所述第一反洗钱训练样本进行训练,得到第一反洗钱模型;
将所述第一反洗钱模型进行保存。
优选地,所述对所述加密梯度值进行解密的步骤包括:
当所述加密梯度值是根据预设公钥加密得到时,根据所述本地工作节点保存的与所述公钥对应的私钥,对所述加密梯度值进行解密。
优选地,所述第一反洗钱模型和所述第二反洗钱模型均为逻辑回归模型,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤包括:
将所述聚合梯度值代入[[W]]=η*▽L([[W]])中进行迭代运算,直至所述第一反洗钱模型收敛;
其中,[[W]]为权重值,η为随机值,▽L([[W]])为逻辑回归模型的梯度函数。
优选地,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤之后,还包括:
获取待进行反洗钱风险预测的样本,将所述待进行反洗钱风险预测的样本输入至收敛的所述第一反洗钱模型中进行运算,得到反洗钱风险预测结果;
将所述反洗钱风险预测结果反馈至web前端进行显示。
优选地,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤之后,所述方法还包括:
在接收到所述远程工作节点发送的待进行反洗钱风险预测的样本时,将所述待进行反洗钱风险预测的样本输入至收敛的所述第一反洗钱模型中进行运算,得到反洗钱风险预测结果;
将反洗钱风险预测结果反馈至所述远程工作节点。
优选地,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤之后,所述方法还包括:
将收敛的所述第一反洗钱模型进行加密后同步给所述远程工作节点,以便所述远程工作节点基于收敛的所述第一反洗钱模型对待进行反洗钱风险预测的样本进行预测。
此外,为实现上述目的,本发明还提供一种反洗钱联合学习装置,所述反洗钱联合学习装置包括:
获取模块,用于获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,所述加密梯度值由所述远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到;
聚合模块,用于对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;
迭代模块,用于将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛。
此外,为实现上述目的,本发明还提供一种反洗钱联合学习设备,所述反洗钱联合学习设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的反洗钱联合学习程序,所述反洗钱联合学习程序被所述处理器执行时实现如上所述的反洗钱联合学习方法的步骤。
此外,为实现上述目的,本发明还提供一种反洗钱联合学习系统,所述反洗钱联合学习系统包括本地工作节点和远程工作节点;其中,
所述本地工作节点为如上所述的反洗钱联合学习设备;
所述远程工作节点,用于获取其本地保存的第二反洗钱模型的梯度值,并通过同态加密算法对所述第二反洗钱模型的梯度值进行加密,得到加密梯度值,将所述加密梯度值发送至所述本地工作节点。
优选地,所述远程工作节点,还用于获取第二反洗钱训练样本,采用预设的机器学习算法对所述第二反洗钱训练样本进行训练,得到第二反洗钱模型,将所述第二反洗钱模型进行保存。
优选地,所述远程工作节点,还用于从所述本地工作节点同步加密后的所述收敛的第一反洗钱模型,并根据加密后的所述收敛的第一反洗钱模型进行反洗钱风险预测,得到加密的反洗钱风险预测结果;
所述远程工作节点,还用于将所述加密的反洗钱风险预测结果发送给所述本地工作节点进行解密,并接收所述本地工作节点发送的解密后的反洗钱风险预测结果。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有反洗钱联合学习程序,所述反洗钱联合学习程序被处理器执行时实现如上所述的反洗钱联合学习方法的步骤。
本发明获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,所述加密梯度值由所述远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到;对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛。通过上述方式,本发明可以在不看到其他银行数据的前提下,利用对方的坏样本来共同训练模型,从而提高机器学习反洗钱模型的精确率和召回率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明反洗钱联合学习方法第一实施例的流程示意图;
图3为本发明实施例中分布式联合学习平台的框架示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,所述加密梯度值由所述远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到;对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛。
金融系统在使用机器学习时,对坏样本的质量和数量极度依赖。目前,对于坏样本数量少的情况,大部分都是通过手工制造一些坏样本来进行补充计算,这会导致机器学习模型的精确率和召回率不高,在实际上线运行时,反到不能帮助业务人员提高工作效率。
本发明通过上述方式,可以在不看到其他银行数据的前提下,利用对方的坏样本来共同训练模型,从而提高机器学习反洗钱模型的精确率和召回率。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例反洗钱联合学习设备可以是PC机或服务器。
如图1所示,该反洗钱联合学习设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及反洗钱联合学习程序。
在图1所示的终端中,网络接口1004主要用于连接联合学习平台,与联合学习平台进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的反洗钱联合学习程序,并执行下述反洗钱联合学习方法各个实施例中的操作。
基于上述硬件结构,提出本发明反洗钱联合学习方法各个实施例。
参照图2,图2为本发明反洗钱联合学习方法第一实施例的流程示意图,所述方法包括:
步骤S10,获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,所述加密梯度值由所述远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到;
在本实施例中,本地工作节点和远程工作节点上均搭载有联合学习平台,该联合学习平台上运行有通过机器学习而得到的反洗钱模型,该反洗钱模型用于对样本进行反洗钱风险预测。其中,本地工作节点上的联合学习平台和远程工作节点上的联合学习平台共同构成了一个分布式联合学习平台框架。
参照图3,图3为本发明实施例中分布式联合学习平台的框架示意图。平台可以在不泄露己方数据给他方的同时,使用所有数据样本中相同含义特征来共同训练模型,是一套分布式系统。对于各方拥有的数据,首先每方对数据进行随机切分,切分若干份保存便于后续的训练并行。训练采用参数服务器的框架,从所有的数据拥有方中选出一方(如图中数据拥有方A)作为服务器节点所在,仅服务器节点拥有模型参数。每个数据拥有方的每份数据均对应于一个工作节点(worker1,…,worker k),其中服务器节点对应的数据拥有方,其各份数据对应的工作节点,称为本地工作节点,其他数据拥有方的工作节点称为远程工作节点。根据实际业务需求,一个本地数据拥有方可以对应一个或多个远程数据拥有方,本地数据拥有方的服务器节点负责收集各远程数据拥有方的模型梯度并更新模型,梯度和损失函数计算交给本地工作节点。
对于一个机器学习算法,想要评价其是否是比较好的算法,需要提前定义一个损失函数,来判断这个算法是否是最优的,而后面不断的优化求梯度下降,使得损失函数最小,也是为了让算法达到意义上的最优。
本实施例应用于本地工作节点。在该本地工作节点作为模型聚合点,其上运行有第一反洗钱模型,而远程工作节点上运行有第二反洗钱模型,第一反洗钱模型和第二反洗钱模型分别具有一个对应的模型梯度值。首先,本地工作节点获取自身保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,该加密梯度值由远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到。所谓同态加密,是一种基于数学难题的计算复杂性理论的密码学技术,同态加密提供了一种对加密数据进行处理的功能。也就是说,其他人可以对加密数据进行处理,但是处理过程不会泄露任何原始内容,同时,拥有密钥的用户对处理过的数据进行解密后,得到的正好是处理后的结果。比如加法同态性可以表示为:[[U]]+[[V]]=[[U+V]],数乘同态性可以表示为X*[[U]]=[[X*U]]。
进一步地,上述步骤S10之前,还可以包括:获取第一反洗钱训练样本;采用预设的机器学习算法对所述第一反洗钱训练样本进行训练,得到第一反洗钱模型;将所述第一反洗钱模型进行保存。
本实施例中,本地工作节点可以预先通过特征工具获取第一反洗钱训练样本,特征工具包含两部分:1、模型训练;2、预测服务。特征工具的功能点包括:1、特征计算的脚本;2、对输入表进行清洗;3、输出为特征值文件。通过使用特征工具,不需要用很多的工作量,就可以得到相应的特征值,进而得到一系列的特征向量作为反洗钱训练样本。
之后,采用预设的机器学习算法对获取到的第一反洗钱训练样本进行训练,得到第一反洗钱模型,然后将该第一反洗钱模型进行保存,以供后续使用。其中,机器学习算法可以采用现有技术中的机器学习算法,比如决策树、聚类、贝叶斯分类、支持向量机等,本实施例对此不做限定。
步骤S20,对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;
该步骤中,不妨设第一反洗钱模型的梯度值为local_grad,加密梯度值为[[remote_grad]],对该加密梯度值进行解密,即可以得到第二反洗钱模型的梯度值remote_grad,此时将该解密得到的梯度值与第一反洗钱模型的梯度值进行求和,即得到聚合梯度值:local_grad+remote_grad。
进一步地,所述对所述加密梯度值进行解密的步骤可以包括:当所述加密梯度值是根据预设公钥加密得到时,根据所述本地工作节点保存的与所述公钥对应的私钥,对所述加密梯度值进行解密。
具体地,为保证数据传输的安全性,本地工作节点可以预先生成一密钥对,并将其中的公钥发送给远程工作节点,远程工作节点使用公钥对第二反洗钱模型的梯度值进行加密得到加密梯度值,那么本地工作节点在获取该加密梯度值后,可以通过对应的私钥对该加密梯度值进行解密,从而得到第二反洗钱模型的梯度值。
步骤S30,将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛;
在得到聚合梯度值后,将该聚合梯度值代入第一反洗钱模型中进行迭代运算,以更新模型参数,判断模型是否收敛(每次迭代结果都趋于一致,就判断为收敛,本实施例中,设定迭代结果趋于一致的次数达到预设次数时,判定为收敛),如果收敛说明模型达到了理论最优,此时结束训练。
根据上述描述,机器学习在反洗钱中的应用,可以提升业务人员效率,尤其对中小银行。然而中小银行由于本身样本太少,如果单独训练模型,效果不会好。如果把N家中小银行集结起来,大家都贡献自己的坏样本,同时所有银行都只能看到自家数据的前提下,进行训练模型,训练好的模型同时提供给各家银行使用,这样能够实现在样本有限的情况下,提高机器学习反洗钱模型的精确率和召回率,从而很好的使用机器学习进行反洗钱应用。
需要说明的是,上述精确率和召回率是评价机器学习模型的好坏的指标。召回率:10个真实为可疑案例,预测为可疑的有8个,8/10=0.8,有两个没有预测出来,则召回率为0.8;精确率:总共预测为可疑案例是12个,真实可疑是10个,10/12=0.83,有两个误判为可疑。精确率为0.83。
在反洗钱领域,传统规则系统每天都会产生可疑案例,比如每天产生100个案例,业务人员需要分析这100个案例,目前银行业界最大召回率10%左右,也就是说大概10个案例上报,其他90个案例都可以排除,业务人员仅仅需要处理10个案例,如此提升了业务人员工作效率。
本实施例获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,所述加密梯度值由所述远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到;对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛。通过上述方式,本实施例可以在不看到其他银行数据的前提下,利用对方的坏样本来共同训练模型,从而提高机器学习反洗钱模型的精确率和召回率。
进一步地,基于上述第一实施例,提出本发明反洗钱联合学习方法第二实施例。
在本实施例中,上述第一反洗钱模型和第二反洗钱模型均为逻辑回归模型,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤包括:将所述聚合梯度值代入 中进行迭代运算,直至所述第一反洗钱模型收敛;其中,[[W]]为权重值,η为随机值,为逻辑回归模型的梯度函数。
以损失函数为logLoss损失为例,其逻辑回归公式为:
其中,y为预测结果(0到1之间),x为样本特征,W为权重,α为偏离值。
对应的梯度函数为:
则将[[W]]代入上述公式中,得到:
本实施例中,将聚合梯度值代入中进行迭代运算,使模型梯度值不断被更新,直至第一反洗钱模型收敛,其中,[[W]]为权重值,η为随机值,为逻辑回归模型的梯度函数。
通过上述方式,实现了结合远程工作节点发送的加密梯度值进行模型训练,该方式不会泄露远程工作节点的样本数据,且能够提升模型的训练效果。
进一步地,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤之后,还可以包括:获取待进行反洗钱风险预测的样本,将所述待进行反洗钱风险预测的样本输入至收敛的所述第一反洗钱模型中进行运算,得到反洗钱风险预测结果;将所述反洗钱风险预测结果反馈至web前端进行显示。
本实施例中,可以通过上述训练好的第一反洗钱模型进行反洗钱风险预测。具体地,可以通过特征工具获取待进行反洗钱风险预测的样本,然后将样本输入至上述收敛的第一反洗钱模型中进行运算,得到反洗钱风险预测结果,该反洗钱风险预测结果可以包括是否可疑、重要特征及与坏样本的相似性。其中,重要特征指的是对客户预测为可疑贡献最大的特征集,与坏样本的相似性反映了样本之间的相似程度,比如A客户是涉嫌非法的地下钱庄,B客户的相关样本(包含很多特征)算出和A客户的相关距离(比如欧氏距离),如果相似性接近于1,就认为B客户也是涉嫌非法地下钱庄。
之后,将反洗钱风险预测结果反馈至web前端进行显示,以供业务人员进行查看分析。由于收敛的第一反洗钱模型是通过结合各数据方的数据训练得到的,因此根据其得到的反洗钱风险预测结果会更加准确,从而能够提高业务人员的工作效率。
进一步地,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤之后,所述反洗钱联合学习方法还包括:在接收到所述远程工作节点发送的待进行反洗钱风险预测的样本时,将所述待进行反洗钱风险预测的样本输入至收敛的所述第一反洗钱模型中进行运算,得到反洗钱风险预测结果;将反洗钱风险预测结果反馈至所述远程工作节点。
具体地,当本地工作节点接收到远程工作节点发送的待进行反洗钱风险预测的样本时,可以将该待进行反洗钱风险预测的样本输入至收敛的第一反洗钱模型中进行运算,从而得到反洗钱风险预测结果,之后再将该反洗钱风险预测结果反馈至远程工作节点,由此实现了本地工作节点根据本地保存的第一反洗钱模型对远程工作节点的样本进行预测,提高了反洗钱风险预测的灵活性。
进一步地,基于上述实施例,提出本发明反洗钱联合学习方法第三实施例。
在本实施例中,所述反洗钱联合学习方法还可以包括:将收敛的所述第一反洗钱模型进行加密后同步给所述远程工作节点,以便所述远程工作节点基于收敛的所述第一反洗钱模型对待进行反洗钱风险预测的样本进行预测。
本实施例中,本地工作节点将上述收敛的第一反洗钱模型进行加密,具体可以是使用预设公钥进行加密,也可以是其他加密方式;之后,将加密后的模型同步给远程工作节点,如此实现了本地工作节点和远程工作节点之间的模型共享,且共享的模型由于是根据各数据拥有方的坏样本训练得到的,因此模型具有较高的精确率和召回率,因而根据该模型进行洗钱风险预测,能够达到比较好的预测效果,有利于提高双方业务人员的工作效率。
本发明还提供一种反洗钱联合学习装置。本发明反洗钱联合学习装置包括:
获取模块,用于获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,所述加密梯度值由所述远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到;
聚合模块,用于对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;
迭代模块,用于将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛。
上述各程序模块所实现的方法可参照本发明反洗钱联合学习方法实施例,此处不再赘述。
本发明还提供一种反洗钱联合学习系统。
在本发明反洗钱联合学习系统实施例中,该系统包括本地工作节点和远程工作节点;其中,
所述本地工作节点为如上文所述的反洗钱联合学习设备;
所述远程工作节点,用于获取其本地保存的第二反洗钱模型的梯度值,并通过同态加密算法对所述第二反洗钱模型的梯度值进行加密,得到加密梯度值,将所述加密梯度值发送至所述本地工作节点。
在本实施例中,本地工作节点作为模型聚合点,其上运行有第一反洗钱模型,而远程工作节点上运行有第二反洗钱模型,第一反洗钱模型和第二反洗钱模型分别具有一个对应的模型梯度值。
对于远程工作节点,其获取本地保存的第二反洗钱模型的梯度值,并通过同态加密算法对该第二反洗钱模型的梯度值进行加密,得到加密梯度值,将该加密梯度值发送至本地工作节点,以供本地工作节点根据该加密梯度值进行反洗钱联合学习。本地工作节点进行反洗钱联合学习的具体方法可以参照上述反洗钱联合学习方法实施例,此处不作赘述。
通过上述方式,本实施例可以在不看到其他银行数据的前提下,利用对方的坏样本来共同训练模型,从而提高机器学习反洗钱模型的精确率和召回率,提升双方业务人员的工作效率。
进一步地,所述远程工作节点,还用于获取第二反洗钱训练样本,采用预设的机器学习算法对所述第二反洗钱训练样本进行训练,得到第二反洗钱模型,将所述第二反洗钱模型进行保存。
与本地工作节点类似,远程工作节点可以预先通过特征工具获取第二反洗钱训练样本,然后采用和本地工作节点相同的机器学习算法对获取到的第二反洗钱训练样本进行训练,得到第二反洗钱模型,然后将该第二反洗钱模型进行保存。
进一步地,所述远程工作节点,还用于从所述本地工作节点同步加密后的所述收敛的第一反洗钱模型,并根据加密后的所述收敛的第一反洗钱模型进行反洗钱风险预测,得到加密的反洗钱风险预测结果;所述远程工作节点,还用于将所述加密的反洗钱风险预测结果发送给所述本地工作节点进行解密,并接收所述本地工作节点发送的解密后的反洗钱风险预测结果。
远程工作节点还可以从本地工作节点同步加密后的收敛的第一反洗钱模型,并根据该加密模型进行反洗钱风险预测,得到加密的反洗钱风险预测结果,然后,将加密的反洗钱风险预测结果发送给本地工作节点进行解密,并接收所述本地工作节点发送的解密后的反洗钱风险预测结果,该反洗钱风险预测结果中包括是否可疑、重要特征等信息。此外,远程工作节点还可以根据反洗钱风险预测结果中的可疑客户标识在本地获得与坏样本的相似性,然后将是否可疑、重要特征以及与坏样本的相似性等信息反馈至web前端进行显示,以供业务人员查看分析。
通过上述方式,实现了本地工作节点和远程工作节点之间的模型共享,且共享的模型由于是根据各数据拥有方的坏样本训练得到的,因此模型具有较高的精确率和召回率,因而根据该模型进行洗钱风险预测,能够达到比较好的预测效果,有利于提高双方业务人员的工作效率。
本发明还提供一种存储介质。
本发明存储介质上存储有反洗钱联合学习程序,所述反洗钱联合学习程序被处理器执行时实现如上所述的反洗钱联合学习方法的步骤。
其中,在所述处理器上运行的反洗钱联合学习程序被执行时所实现的方法可参照本发明反洗钱联合学习方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (13)

1.一种反洗钱联合学习方法,其特征在于,所述反洗钱联合学习方法包括如下步骤:
获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,所述加密梯度值由所述远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到;
对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;
将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛。
2.如权利要求1所述的反洗钱联合学习方法,其特征在于,所述获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值的步骤之前,还包括:
获取第一反洗钱训练样本;
采用预设的机器学习算法对所述第一反洗钱训练样本进行训练,得到第一反洗钱模型;
将所述第一反洗钱模型进行保存。
3.如权利要求1所述的反洗钱联合学习方法,其特征在于,所述对所述加密梯度值进行解密的步骤包括:
当所述加密梯度值是根据预设公钥加密得到时,根据所述本地工作节点保存的与所述公钥对应的私钥,对所述加密梯度值进行解密。
4.如权利要求1至3中任一项所述的反洗钱联合学习方法,其特征在于,所述第一反洗钱模型和所述第二反洗钱模型均为逻辑回归模型,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤包括:
将所述聚合梯度值代入[[W]]=η*▽L([[W]])中进行迭代运算,直至所述第一反洗钱模型收敛;
其中,[[W]]为权重值,η为随机值,▽L([[W]])为逻辑回归模型的梯度函数。
5.如权利要求4所述的反洗钱联合学习方法,其特征在于,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤之后,还包括:
获取待进行反洗钱风险预测的样本,将所述待进行反洗钱风险预测的样本输入至收敛的所述第一反洗钱模型中进行运算,得到反洗钱风险预测结果;
将所述反洗钱风险预测结果反馈至web前端进行显示。
6.如权利要求4所述的反洗钱联合学习方法,其特征在于,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤之后,所述方法还包括:
在接收到所述远程工作节点发送的待进行反洗钱风险预测的样本时,将所述待进行反洗钱风险预测的样本输入至收敛的所述第一反洗钱模型中进行运算,得到反洗钱风险预测结果;
将反洗钱风险预测结果反馈至所述远程工作节点。
7.如权利要求1至3中任一项所述的反洗钱联合学习方法,其特征在于,所述将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛的步骤之后,所述方法还包括:
将收敛的所述第一反洗钱模型进行加密后同步给所述远程工作节点,以便所述远程工作节点基于收敛的所述第一反洗钱模型对待进行反洗钱风险预测的样本进行预测。
8.一种反洗钱联合学习装置,其特征在于,所述反洗钱联合学习装置包括:
获取模块,用于获取本地工作节点保存的第一反洗钱模型的梯度值,并接收远程工作节点发送的加密梯度值,所述加密梯度值由所述远程工作节点将其本地保存的第二反洗钱模型的梯度值通过同态加密算法进行加密而得到;
聚合模块,用于对所述加密梯度值进行解密,并将解密得到的梯度值与所述第一反洗钱模型的梯度值进行求和,得到聚合梯度值;
迭代模块,用于将所述聚合梯度值代入所述第一反洗钱模型中进行迭代运算,直至所述第一反洗钱模型收敛。
9.一种反洗钱联合学习设备,其特征在于,所述反洗钱联合学习设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的反洗钱联合学习程序,所述反洗钱联合学习程序被所述处理器执行时实现如权利要求1至7中任一项所述的反洗钱联合学习方法的步骤。
10.一种反洗钱联合学习系统,其特征在于,所述反洗钱联合学习系统包括本地工作节点和远程工作节点;其中,
所述本地工作节点为如权利要求9所述的反洗钱联合学习设备;
所述远程工作节点,用于获取其本地保存的第二反洗钱模型的梯度值,并通过同态加密算法对所述第二反洗钱模型的梯度值进行加密,得到加密梯度值,将所述加密梯度值发送至所述本地工作节点。
11.如权利要求10所述的反洗钱联合学习系统,其特征在于,
所述远程工作节点,还用于获取第二反洗钱训练样本,采用预设的机器学习算法对所述第二反洗钱训练样本进行训练,得到第二反洗钱模型,将所述第二反洗钱模型进行保存。
12.如权利要求10所述的反洗钱联合学习系统,其特征在于,
所述远程工作节点,还用于从所述本地工作节点同步加密后的所述收敛的第一反洗钱模型,并根据加密后的所述收敛的第一反洗钱模型进行反洗钱风险预测,得到加密的反洗钱风险预测结果;
所述远程工作节点,还用于将所述加密的反洗钱风险预测结果发送给所述本地工作节点进行解密,并接收所述本地工作节点发送的解密后的反洗钱风险预测结果。
13.一种存储介质,其特征在于,所述存储介质上存储有反洗钱联合学习程序,所述反洗钱联合学习程序被处理器执行时实现如权利要求1至7中任一项所述的反洗钱联合学习方法的步骤。
CN201811493254.6A 2018-12-07 2018-12-07 反洗钱联合学习方法、装置、设备、系统及存储介质 Pending CN109598385A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811493254.6A CN109598385A (zh) 2018-12-07 2018-12-07 反洗钱联合学习方法、装置、设备、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811493254.6A CN109598385A (zh) 2018-12-07 2018-12-07 反洗钱联合学习方法、装置、设备、系统及存储介质

Publications (1)

Publication Number Publication Date
CN109598385A true CN109598385A (zh) 2019-04-09

Family

ID=65961350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811493254.6A Pending CN109598385A (zh) 2018-12-07 2018-12-07 反洗钱联合学习方法、装置、设备、系统及存储介质

Country Status (1)

Country Link
CN (1) CN109598385A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955907A (zh) * 2019-12-13 2020-04-03 支付宝(杭州)信息技术有限公司 一种基于联邦学习的模型训练方法
CN111143878A (zh) * 2019-12-20 2020-05-12 支付宝(杭州)信息技术有限公司 一种基于隐私数据进行模型训练的方法及系统
CN111353167A (zh) * 2020-02-26 2020-06-30 深圳前海微众银行股份有限公司 基于多提供方的数据判别方法、装置、设备及存储介质
CN111383096A (zh) * 2020-03-23 2020-07-07 中国建设银行股份有限公司 欺诈检测及其模型训练方法、装置、电子设备及存储介质
CN111429282A (zh) * 2020-03-27 2020-07-17 中国工商银行股份有限公司 基于反洗钱模型迁移的交易反洗钱方法及装置
CN112383396A (zh) * 2021-01-08 2021-02-19 索信达(北京)数据技术有限公司 一种联邦学习模型训练方法及系统
CN112749812A (zh) * 2019-10-29 2021-05-04 华为技术有限公司 一种联合学习系统、训练结果聚合的方法及设备
CN113094407A (zh) * 2021-03-11 2021-07-09 广发证券股份有限公司 一种基于横向联邦学习的反洗钱识别方法、装置及系统
CN113240505A (zh) * 2021-05-10 2021-08-10 深圳前海微众银行股份有限公司 图数据的处理方法、装置、设备、存储介质及程序产品
CN113362163A (zh) * 2021-06-29 2021-09-07 中国农业银行股份有限公司 预警方法、装置和服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170039487A1 (en) * 2014-04-11 2017-02-09 Hitachi, Ltd. Support vector machine learning system and support vector machine learning method
US20170310643A1 (en) * 2014-10-24 2017-10-26 National Ict Australia Limited Gradients over distributed datasets
CN108154237A (zh) * 2016-12-06 2018-06-12 华为技术有限公司 一种数据处理系统及方法
CN108197561A (zh) * 2017-12-29 2018-06-22 北京智慧眼科技股份有限公司 人脸识别模型优化控制方法、装置、设备及存储介质
CN108712260A (zh) * 2018-05-09 2018-10-26 曲阜师范大学 云环境下保护隐私的多方深度学习计算代理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170039487A1 (en) * 2014-04-11 2017-02-09 Hitachi, Ltd. Support vector machine learning system and support vector machine learning method
US20170310643A1 (en) * 2014-10-24 2017-10-26 National Ict Australia Limited Gradients over distributed datasets
CN108154237A (zh) * 2016-12-06 2018-06-12 华为技术有限公司 一种数据处理系统及方法
CN108197561A (zh) * 2017-12-29 2018-06-22 北京智慧眼科技股份有限公司 人脸识别模型优化控制方法、装置、设备及存储介质
CN108712260A (zh) * 2018-05-09 2018-10-26 曲阜师范大学 云环境下保护隐私的多方深度学习计算代理方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749812A (zh) * 2019-10-29 2021-05-04 华为技术有限公司 一种联合学习系统、训练结果聚合的方法及设备
CN110955907A (zh) * 2019-12-13 2020-04-03 支付宝(杭州)信息技术有限公司 一种基于联邦学习的模型训练方法
CN111143878B (zh) * 2019-12-20 2021-08-03 支付宝(杭州)信息技术有限公司 一种基于隐私数据进行模型训练的方法及系统
CN111143878A (zh) * 2019-12-20 2020-05-12 支付宝(杭州)信息技术有限公司 一种基于隐私数据进行模型训练的方法及系统
CN111353167A (zh) * 2020-02-26 2020-06-30 深圳前海微众银行股份有限公司 基于多提供方的数据判别方法、装置、设备及存储介质
CN111383096A (zh) * 2020-03-23 2020-07-07 中国建设银行股份有限公司 欺诈检测及其模型训练方法、装置、电子设备及存储介质
CN111429282A (zh) * 2020-03-27 2020-07-17 中国工商银行股份有限公司 基于反洗钱模型迁移的交易反洗钱方法及装置
CN111429282B (zh) * 2020-03-27 2023-08-25 中国工商银行股份有限公司 基于反洗钱模型迁移的交易反洗钱方法及装置
CN112383396A (zh) * 2021-01-08 2021-02-19 索信达(北京)数据技术有限公司 一种联邦学习模型训练方法及系统
CN112383396B (zh) * 2021-01-08 2021-05-04 索信达(北京)数据技术有限公司 一种联邦学习模型训练方法及系统
CN113094407A (zh) * 2021-03-11 2021-07-09 广发证券股份有限公司 一种基于横向联邦学习的反洗钱识别方法、装置及系统
CN113240505A (zh) * 2021-05-10 2021-08-10 深圳前海微众银行股份有限公司 图数据的处理方法、装置、设备、存储介质及程序产品
CN113240505B (zh) * 2021-05-10 2024-05-24 深圳前海微众银行股份有限公司 图数据的处理方法、装置、设备、存储介质及程序产品
CN113362163A (zh) * 2021-06-29 2021-09-07 中国农业银行股份有限公司 预警方法、装置和服务器

Similar Documents

Publication Publication Date Title
CN109598385A (zh) 反洗钱联合学习方法、装置、设备、系统及存储介质
WO2020015478A1 (zh) 基于模型的预测方法和装置
CN109189825B (zh) 横向数据切分联邦学习建模方法、服务器及介质
WO2021092977A1 (zh) 纵向联邦学习优化方法、装置、设备及存储介质
CN110851869B (zh) 敏感信息处理方法、设备及可读存储介质
CN107145791B (zh) 一种具有隐私保护的K-means聚类方法及系统
CN111340247B (zh) 纵向联邦学习系统优化方法、设备及可读存储介质
WO2015155896A1 (ja) サポートベクトルマシン学習システムおよびサポートベクトルマシン学習方法
CN113949531B (zh) 一种恶意加密流量检测方法及装置
WO2016120975A1 (ja) データ集計分析システム及びその方法
CN110851786A (zh) 纵向联邦学习优化方法、装置、设备及存储介质
CN111984960B (zh) 一种基于同态加密的隐私保护设备识别模型设计及使用方法
US20090138698A1 (en) Method of searching encrypted data using inner product operation and terminal and server therefor
CN113688999A (zh) 一种横向联邦xgboost决策树的训练方法
CN111767411B (zh) 知识图谱表示学习优化方法、设备及可读存储介质
CN111741020B (zh) 基于数据隐私保护的公共数据集确定方法、装置及系统
US12045340B2 (en) Method for updating a neural network, terminal apparatus, computation apparatus, and program
US20190097787A1 (en) Secure remote aggregation
Shu et al. Secure task recommendation in crowdsourcing
CN113935050B (zh) 基于联邦学习的特征提取方法和装置、电子设备、介质
CN116681141A (zh) 隐私保护的联邦学习方法、终端及存储介质
CN116502732A (zh) 基于可信执行环境的联邦学习方法以及系统
US11816212B2 (en) Large scale zero trust malware detection
CN113239401A (zh) 一种基于电力物联网的大数据分析系统、方法及计算机存储介质
Segal et al. Privacy-Preserving Lawful Contact Chaining: [Preliminary Report]

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190409

RJ01 Rejection of invention patent application after publication