CN114742239A - 基于联邦学习的金融保险理赔风险模型训练方法及装置 - Google Patents

基于联邦学习的金融保险理赔风险模型训练方法及装置 Download PDF

Info

Publication number
CN114742239A
CN114742239A CN202210225096.6A CN202210225096A CN114742239A CN 114742239 A CN114742239 A CN 114742239A CN 202210225096 A CN202210225096 A CN 202210225096A CN 114742239 A CN114742239 A CN 114742239A
Authority
CN
China
Prior art keywords
party
model
parameters
participant
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210225096.6A
Other languages
English (en)
Other versions
CN114742239B (zh
Inventor
付海燕
李宇航
李祎
郭艳卿
刘航
王波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210225096.6A priority Critical patent/CN114742239B/zh
Publication of CN114742239A publication Critical patent/CN114742239A/zh
Application granted granted Critical
Publication of CN114742239B publication Critical patent/CN114742239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种基于联邦学习的金融保险理赔风险模型训练方法及装置,方法包括:中心节点生成同态加密的公钥,并发送给第一参与方P1和第二参与方Pi;第二参与方Pi计算加密聚合参数并发送至第一参与方P1;第一参与方P1计算聚合参数并发送给各第二参与方Pi;第一参与方P1和第二参与方Pi计算各自的参数梯度更新式并发送给中心节点进行解密并回传;第一参与方P1和第二参与方Pi在预先设定的学习率下进行模型参数更新,各参与方根据更新后的模型参数计算新的传播参数;迭代直至达到模型收敛条件。本发明考虑到金融风险评估应该考虑到用户多方面行为的特点,使用多方数据集联合训练模型,从而能够达到更好的模型训练效果。

Description

基于联邦学习的金融保险理赔风险模型训练方法及装置
技术领域
本发明涉及金融科技技术领域,具体而言,尤其涉及一种基于联邦学习的金融保险理赔风险模型训练方法及装置。
背景技术
金融保险理赔风险预测评估领域中,数据集的隐私性以及特征稀缺性限制了训练模型的评估效果。当前,国际与国内形势无时无刻不在发生着巨大变化,世界金融经济体系也在不断地调整。中国国内经济的迅速腾飞给企业、个体用户带来了许许多多的机遇,在这样的背景下,金融行业中的贷款业务也在迅速发展,在其中需要大量评估借贷企业、个体用户的资产风险,根据其风险评估结果给予同等的贷款金额。然而,金融部门在训练评估模型时候只能使用其获取到的有限的用户的信息,例如资产情况、有无信用违约记录等等。事实上,借贷用户的其他信息更能够评估其金融违约的风险。考虑到金融数据的隐私性。如何在保护用户隐私的前提下,获取到用户来自其他企业的数据,来联合训练用户金融保险理赔风险模型,是领域内技术发展亟待攻克的难关。
发明内容
为了解决多参与方共同学习金融保险理赔风险模型所产生的隐私泄露的技术问题,本发明提供一种基于联邦学习的金融保险理赔风险模型训练方法及装置。本发明将多方的模型进行融合优化,各参与方无需传递和共享原始数据,在数据不出本地的情况下,即可进行数据的联合训练和应用,建立合法合规的金融保险理赔风险模型。
本发明采用的技术手段如下:
本发明公开了一种基于联邦学习的金融保险理赔风险模型训练方法,应用于分布式网络系统,所述分布式网络系统包括m个金融企业参与方以及一个中心节点,所述m个参与方包括第一参与方P1和第二参与方Pi,其中i=2,3,...,m-1,m,所述第一参与方P1持有数据标签,第二参与方Pi不持有数据标签;
所述方法包括以下步骤:
S1、中心节点生成同态加密的公钥,并将所述公钥分别发送给第一参与方P1和第二参与方Pi
S2、所述第二参与方Pi基于自有训练数据计算模型传播参数后,对得到的模型传播参数进行加密得到模型加密聚合参数,并将所述模型加密聚合参数发送至第一参与方P1
S3、所述第一参与方P1基于接收到的所有模型加密聚合参数计算模型聚合参数,再将所述模型聚合参数发送给各第二参与方Pi
S4、所述第一参与方P1和第二参与方Pi基于模型聚合参数计算各自的参数梯度更新式,并将计算得到的参数梯度更新式发送给中心节点进行解密得到解密后的参数梯度数据,将解密后的参数梯度数据分别回传给第一参与方P1和第二参与方Pi
S5、所述第一参与方P1和第二参与方Pi在预先设定的学习率下进行金融保险理赔风险模型参数更新,各参与方根据更新后的模型参数计算新的传播参数;
S6、反复执行S2-S5,直至达到模型收敛条件则终止迭代。
本发明还公开了一种基于联邦学习的金融保险理赔风险模型训练装置,包括m个金融企业参与方以及一个中心服务器,所述m个参与方包括第一参与方P1和第二参与方Pi,其中i=2,3,...,m-1,m,所述第一参与方P1持有数据标签,第二参与方Pi不持有数据标签;
所述装置包括:
公钥生成单元,其用于通过中心节点生成同态加密的公钥,并将所述公钥分别发送给第一参与方P1和第二参与方Pi
模型加密聚合参数计算单元,其用于通过所述第二参与方Pi基于自有训练数据计算模型传播参数后,对得到的模型传播参数进行加密得到模型加密聚合参数,并将所述模型加密聚合参数发送至第一参与方P1
模型聚合参数计算单元,其用于通过所述第一参与方P1基于接收到的所有模型加密聚合参数计算模型聚合参数,再将所述模型聚合参数发送给各第二参与方Pi
参数梯度数据获取单元,其用于通过所述第一参与方P1和第二参与方Pi基于模型聚合参数计算各自的参数梯度更新式,并将计算得到的参数梯度更新式发送给中心节点进行解密得到解密后的参数梯度数据,将解密后的参数梯度数据分别回传给第一参与方P1和第二参与方Pi
模型参数更新单元,其用于通过所述第一参与方P1和第二参与方Pi在预先设定的学习率下进行金融保险理赔风险模型参数更新,各参与方根据更新后的模型参数计算新的传播参数。
较现有技术相比,本发明具有以下优点:
传统的金融风险评估方法往往只使用单一企业用户数据进行评估,忽略了用户的其他行为对金融风险的产生起到重大的影响。相比之下,本发明考虑到金融风险评估应该考虑到用户多方面行为的特点,使用多方数据集联合训练模型的方式构建一种更科学、高效的金融风险评估方法。能够提到风险预测及理赔金额的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于联邦学习的金融保险理赔风险模型训练方法流程图。
图2为联邦学习原理图。
图3为纵向联邦学习基本框架。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
联邦学习技术的理念旨在解决存在数据孤岛、隐私泄露情况下多方联合训练模型的问题。联邦学习和分布式计算类似,其本质是一种分布式的机器学习技术,其原理图如图2,联邦学习框架由中心服务器节点和多个客户端节点组成。中心服务器节点负责生成加密秘钥、模型加权聚合工作,各客户端可以是任意的有计算能力的设备(如手机、电脑及物联网设备)。各客户端在中心服务器节点的协助下通过多次迭代得到最优的全局模型。在以上过程中可以应用多种加密技术来保证各客户端的数据不被泄露出去。
纵向联邦学习作为联邦学习的重要分支,主要用于应对各参与方的用户ID重叠较多而属性特征重叠较少的情况。典型的应用是保险理赔、信誉评级等金融特征预测模型。联邦学习结合机器学习的研究多集中在分类问题中。代表性的联邦机器学习算法有在加密方式和是否是去中心的架构上做出改进。对于联邦逻辑回归模型,其工作采用中心化的结构框架,使用同态加密方式进行隐私保护,并且使用迭代方式对模型梯度进行更新。
为了解决数据孤岛问题,联邦学习提出“数据不动模型动”的思想,将多方的模型进行融合优化。各参与方无需传递和共享原始数据,在数据不出本地的情况下,即可进行数据的联合训练和应用,建立合法合规的机器学习模型。为了解决多参与方共同学习金融保险理赔风险模型所产生的隐私泄露问题,本发明研究纵向联邦学习中金融保险理赔风险模型的建立以及参数更新方法。
基于上述研发背景,本发明公开了一种基于联邦学习的金融保险理赔风险模型训练方法。本发明方法应用于分布式网络系统,所述分布式网络系统包括m个参与方以及一个中心节点,所述m个参与方包括第一参与方P1和第二参与方Pi,其中i=2,3,...,m-1,m,所述第一参与方P1持有数据标签,第二参与方Pi不持有数据标签。在本发明优选的实施例中,第一参与方P1代表银行风险评估部门,第二参与方Pi代表其他企业参与方。
具体来说,假设有n个样本
Figure BDA0003538896360000051
每个样本的属性特征
Figure BDA0003538896360000052
被分配给m个参与方(P1,Pi),每个参与方拥有的数据
Figure BDA0003538896360000053
互不重复。且仅参与方P1拥有标签属性
Figure BDA0003538896360000054
联邦学习的目的是在m个参与方(P1,Pi)配合下进行模型的联合训练。由于每个参与方所拥有的属性特征互不相同,而在进行模型训练之前需要通过加密算法进行用户集合对齐,所以每个参与方所拥有的样本索引id是相同的。
本发明针对金融保险理赔风险模型设计,在本发明实施例中,优选将Gamma回归方法应用于金融保险理赔风险模型训练中。金融保险理赔风险模型隶属于的广义线性模型通常假设因变量Y服从指数型分布,并且Y的方差随均值而变化,自变量X通过非线性变换影响因变量Y的期望值。广义线性模型包括三个部分:随机成分、系统成分和连接函数。
随机成分是因变量Y的分布函数,因变量Y的每个观察值yi之间相互独立且服从指数分布族中的一个分布。公式可以表示为:
Figure BDA0003538896360000055
其中θi为观察参数,φ与观察值的方差有关。b(·)和c(·)根据指数族函数而定。
系统成分η是自变量X与模型参数β的线性组合,可以表示为
Figure BDA0003538896360000056
Figure BDA0003538896360000057
连接函数g(.)具有单调性和可导性,用来表示随机成分和系统成分之间的关系:g(E[Yi])=g(μi)=ηi,由此可见广义线性模型中,因变量的预测值并没有直接等于自变量的线性组合,而是在自变量的线性组合的基础上进行了一个函数变换。综上所述,广义线性模型的一般表达式为:
Figure BDA0003538896360000058
广义线性模型中连接函数能够代表某种回归模型,如果将Gamma分布函数与广义线性模型中概率密度函数进行转换,就可以得到金融保险理赔风险模型的连接函数。
将Gamma分布函数变换为广义线性模型中分布函数的标准形式,设置观察参数为1,并利用极大似然估计方法,得到Gamma分布的对数似然函数公式为:
Figure BDA0003538896360000061
选择g(μ)=log(μ)作为连接函数,代入到公式(2)中得:
Figure BDA0003538896360000062
将式(4)代入到公式(3)中得到
Figure BDA0003538896360000063
由于该函数是凹函数,通过取反将其变为凸函数再对参数β求导得到梯度更新式:
Figure BDA0003538896360000064
本发明提供了一种基于联邦学习方式通过分布式学习更新参数
Figure BDA0003538896360000065
的方案,从而优化Gamma回归方法,解决数据孤岛问题。具体来说,该方法包括以下步骤:
S1、中心节点生成同态加密的公钥,并将所述公钥分别发送给第一参与方P1和第二参与方Pi。在本实施例中,第一参与方P1代表银行风险评估部门,第二参与方Pi代表其他企业参与方。
具体来说,中心节点作为可信的第三方,其职责是向所有参与方P1,...,Pm发送同态加密所需的公钥Key,并设置迭代轮次计数器Iter自增。
S2、所述第二参与方Pi基于自有训练数据计算传播参数
Figure BDA0003538896360000066
后,对得到的传播参数进行加密得到加密聚合参数
Figure BDA0003538896360000067
并将所述加密聚合参数
Figure BDA0003538896360000068
发送至第一参与方P1
具体来说,对于第j批训练数据batchj,每个第二参与方Pi均根据以下公式计算各自的传播参数:
Figure BDA0003538896360000069
其中,
Figure BDA00035388963600000610
表示对于第j批训练数据batchj由第二参与方Pi计算得到的传播参数,
Figure BDA00035388963600000611
表示第二参与方Pi的第j个属性特征,
Figure BDA00035388963600000612
表示第二参与方Pi的第j个属性特征系数。
由于使用了同态加密算法,所以虽然第一参与方P1得到了其他参与方的加密参数数据,但不会从加密参数中推导得到他们的真实数据,故不会造成数据泄露问题。
S3、所述第一参与方P1基于接收到的所有加密聚合参数
Figure BDA0003538896360000071
计算聚合参数
Figure BDA0003538896360000072
在将所述聚合参数
Figure BDA0003538896360000073
发送给各第二参与方Pi,其中所述第一参与方P1根据以下公式计算聚合参数
Figure BDA0003538896360000074
Figure BDA0003538896360000075
其中,
Figure BDA0003538896360000076
表示聚合参数,Y1表示第一参与方P1的标签特征,
Figure BDA0003538896360000077
表示加密聚合参数,
Figure BDA0003538896360000078
表示第一参与方P1的第j个属性特征,
Figure BDA0003538896360000079
表示第一参与方P1的标签特征;
S4、所述第一参与方P1和第二参与方Pi基于聚合参数
Figure BDA00035388963600000710
计算各自的参数
Figure BDA00035388963600000711
梯度更新式,并将计算得到的梯度更新式发送给中心节点Center进行解密得到解密后的梯度数据,将解密后的梯度数据分别回传给第一参与方P1和第二参与方Pi
为了计算主动方与自参与方的梯度表达式,让P1和各参与方Pi使用聚合参数
Figure BDA00035388963600000712
与各自的第j批数据
Figure BDA00035388963600000713
相乘得到式
Figure BDA00035388963600000714
同时加入L1正则项来约束参数大小得各方的参数
Figure BDA00035388963600000715
梯度更新式。具体来说:
第一参与方P1根据以下计算获取参数
Figure BDA00035388963600000716
梯度更新式:
Figure BDA00035388963600000717
其中,
Figure BDA00035388963600000718
表示第一参与方P1的参数
Figure BDA00035388963600000719
梯度更新式,
Figure BDA00035388963600000720
表示第一参与方P1的第j个属性特征,
Figure BDA00035388963600000721
表示第一参与方P1的标签特征,
第二参与方Pi根据以下计算获取参数
Figure BDA00035388963600000722
梯度更新式:
Figure BDA00035388963600000723
其中,
Figure BDA00035388963600000724
表示第二参与方Pi的参数
Figure BDA00035388963600000725
梯度更新式,
Figure BDA00035388963600000726
表示第二参与方Pi的第j个属性特征,
Figure BDA00035388963600000727
表示第二参与方Pi的第j个属性特征系数;
S5、各参与方P1,…,Pm将各自加密的梯度数据
Figure BDA00035388963600000728
发送给中心节点Center进行解密得到
Figure BDA00035388963600000729
然后Center将
Figure BDA00035388963600000730
回传给P1,…,Pm,让他们在设置的学习率α下进行模型参数更新:
Figure BDA00035388963600000731
然后各参与方根据
Figure BDA00035388963600000732
计算新的传播参数
Figure BDA00035388963600000733
S6、反复执行S2-S5,直至达到模型收敛条件则终止迭代。具体地,将新的传播参数加密后发给第一参与方P1,所述第一参与方P1根据持有的标签计算模型的加密损失函数,再将所述加密损失函数加密后发送给中心节点;再由中心节点对所述加密损失函数进行解密得到损失函数,并根据损失函数判断当前轮次是否达到模型收敛条件。
具体来说,将
Figure BDA0003538896360000081
Figure BDA0003538896360000082
加密后发给第一参与方P1,由第一参与方P1计算损失函数:
Figure BDA0003538896360000083
P1将
Figure BDA0003538896360000084
发送给中心节点Center,Center解密得到Lossj,并根据Lossj判断当前轮次是否达到模型收敛条件。如果没有达到模型收敛条件,则继续进行下一轮迭代;如果达到了模型收敛条件,则终止算法迭代。
在多方安全计算场景中,如果需要训练一个机器学习方法中的回归模型,那么需要大量的数据集供机器学习模型进行训练。考虑到每个用户的数据是私有的不能够共享的,那么就需要一个能够在保护数据隐私的前提下进行模型训练的算法,本发明就是考虑这样的场景,解决的多方联合建模过程中隐私泄露问题,同时建立起来的回归模型具有良好的数据拟合效果。
如图3所示,参与方A和参与方B都具有各自的私有数据,并且因为数据隐私保护法律法规的约束,他们之间不能够进行数据共享。当参与方A和参与方B都使用各自数据学习到模型A和模型B以后,可以考虑使用模型A和模型B的加权联邦模型来学习到参与方A和参与方B数据集的知识。这样的多方联合训练结构能够保证数据隐私的前提下使用各方的数据知识得到一个更优的模型。
本算法用于数据孤岛状态下多方联合进行金融保险理赔风险模型训练。该算法首先应用迭代法推导出纵向联邦金融保险理赔风险模型的对数似然估计式,然后并结合实际工程确定模型的连接函数,将连接函数与对数似然估计式联立进而构建的梯度更新策略,最后对同态加密的各方参数进行融合更新,得到联邦金融保险理赔风险模型。
本发明还公开了一种基于联邦学习的金融保险理赔风险模型训练装置,包括m个金融企业参与方以及一个中心服务器,所述m个参与方包括第一参与方P1和第二参与方Pi,其中i=2,3,...,m-1,m,所述第一参与方P1持有数据标签,第二参与方Pi不持有数据标签;
所述装置包括:
公钥生成单元,其用于通过中心节点生成同态加密的公钥,并将所述公钥分别发送给第一参与方P1和第二参与方Pi
模型加密聚合参数计算单元,其用于通过所述第二参与方Pi基于自有训练数据计算模型传播参数后,对得到的模型传播参数进行加密得到模型加密聚合参数,并将所述模型加密聚合参数发送至第一参与方P1
模型聚合参数计算单元,其用于通过所述第一参与方P1基于接收到的所有模型加密聚合参数计算模型聚合参数,再将所述模型聚合参数发送给各第二参与方Pi
参数梯度数据获取单元,其用于通过所述第一参与方P1和第二参与方Pi基于模型聚合参数计算各自的参数梯度更新式,并将计算得到的参数梯度更新式发送给中心节点进行解密得到解密后的参数梯度数据,将解密后的参数梯度数据分别回传给第一参与方P1和第二参与方Pi
模型参数更新单元,其用于通过所述第一参与方P1和第二参与方Pi在预先设定的学习率下进行金融保险理赔风险模型参数更新,各参与方根据更新后的模型参数计算新的传播参数。
对于本发明实施例的而言,由于其与上面实施例中的相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
在本申请所提供的实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种基于联邦学习的金融保险理赔风险模型训练方法,其特征在于,应用于分布式网络系统,所述分布式网络系统包括m个金融企业参与方以及一个中心节点,所述m个参与方包括第一参与方P1和第二参与方Pi,其中i=2,3,...,m-1,m,所述第一参与方P1持有数据标签,第二参与方Pi不持有数据标签;
所述方法包括以下步骤:
S1、中心节点生成同态加密的公钥,并将所述公钥分别发送给第一参与方P1和第二参与方Pi
S2、所述第二参与方Pi基于自有训练数据计算模型传播参数后,对得到的模型传播参数进行加密得到模型加密聚合参数,并将所述模型加密聚合参数发送至第一参与方P1
S3、所述第一参与方P1基于接收到的所有模型加密聚合参数计算模型聚合参数,再将所述模型聚合参数发送给各第二参与方Pi
S4、所述第一参与方P1和第二参与方Pi基于模型聚合参数计算各自的参数梯度更新式,并将计算得到的参数梯度更新式发送给中心节点进行解密得到解密后的参数梯度数据,将解密后的参数梯度数据分别回传给第一参与方P1和第二参与方Pi
S5、所述第一参与方P1和第二参与方Pi在预先设定的学习率下进行金融保险理赔风险模型参数更新,各参与方根据更新后的模型参数计算新的传播参数;
S6、反复执行S2-S5,直至达到模型收敛条件则终止迭代。
2.根据权利要求1所述的一种基于联邦学习的金融保险理赔风险模型训练方法,其特征在于,S6中达到模型收敛条件包括:
将新的传播参数加密后发给第一参与方P1,所述第一参与方P1根据持有的标签计算模型的加密损失函数,再将所述加密损失函数加密后发送给中心节点;
所述中心节点对所述加密损失函数进行解密得到损失函数,并根据损失函数判断当前轮次是否达到模型收敛条件。
3.根据权利要求1所述的一种基于联邦学习的金融保险理赔风险模型训练方法,其特征在于,在S2中所述模型传播参数根据以下公式计算各自的传播参数:
Figure FDA0003538896350000021
其中,
Figure FDA0003538896350000022
表示对于第j批训练数据batchj由第二参与方Pi计算得到的传播参数,
Figure FDA0003538896350000023
表示第二参与方Pi的第j个属性特征,
Figure FDA0003538896350000024
表示第二参与方Pi的第j个属性特征系数。
4.根据权利要求1所述的一种基于联邦学习的金融保险理赔风险模型训练方法,其特征在于,在S3中第一参与方P1根据以下公式计算模型聚合参数:
Figure FDA0003538896350000025
其中,
Figure FDA0003538896350000026
表示聚合参数,Y1表示第一参与方P1的标签特征,
Figure FDA0003538896350000027
表示加密聚合参数,
Figure FDA0003538896350000028
表示第一参与方P1的第j个属性特征,
Figure FDA0003538896350000029
表示第一参与方P1的第j个属性特征系数。
5.根据权利要求1所述的一种基于联邦学习的金融保险理赔风险模型训练方法,其特征在于,在S4中第一参与方P1根据以下计算获取参数
Figure FDA00035388963500000221
梯度更新式:
Figure FDA00035388963500000210
其中,
Figure FDA00035388963500000211
表示第一参与方P1的参数
Figure FDA00035388963500000212
梯度更新式,
Figure FDA00035388963500000213
表示第一参与方P1的第j个属性特征,
Figure FDA00035388963500000214
表示第一参与方P1的第j个属性特征系数;
第二参与方Pi根据以下计算获取参数
Figure FDA00035388963500000215
梯度更新式:
Figure FDA00035388963500000216
其中,
Figure FDA00035388963500000217
表示第二参与方Pi的参数
Figure FDA00035388963500000218
梯度更新式,
Figure FDA00035388963500000219
表示第二参与方Pi的第j个属性特征,
Figure FDA00035388963500000220
表示第二参与方Pi的第j个属性特征系数。
6.一种基于联邦学习的金融保险理赔风险模型训练装置,其特征在于,包括m个金融企业参与方以及一个中心服务器,所述m个参与方包括第一参与方P1和第二参与方Pi,其中i=2,3,...,m-1,m,所述第一参与方P1持有数据标签,第二参与方Pi不持有数据标签;
所述装置包括:
公钥生成单元,其用于通过中心节点生成同态加密的公钥,并将所述公钥分别发送给第一参与方P1和第二参与方Pi
模型加密聚合参数计算单元,其用于通过所述第二参与方Pi基于自有训练数据计算模型传播参数后,对得到的模型传播参数进行加密得到模型加密聚合参数,并将所述模型加密聚合参数发送至第一参与方P1
模型聚合参数计算单元,其用于通过所述第一参与方P1基于接收到的所有模型加密聚合参数计算模型聚合参数,再将所述模型聚合参数发送给各第二参与方Pi
参数梯度数据获取单元,其用于通过所述第一参与方P1和第二参与方Pi基于模型聚合参数计算各自的参数梯度更新式,并将计算得到的参数梯度更新式发送给中心节点进行解密得到解密后的参数梯度数据,将解密后的参数梯度数据分别回传给第一参与方P1和第二参与方Pi
模型参数更新单元,其用于通过所述第一参与方P1和第二参与方Pi在预先设定的学习率下进行金融保险理赔风险模型参数更新,各参与方根据更新后的模型参数计算新的传播参数。
CN202210225096.6A 2022-03-09 2022-03-09 基于联邦学习的金融保险理赔风险模型训练方法及装置 Active CN114742239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210225096.6A CN114742239B (zh) 2022-03-09 2022-03-09 基于联邦学习的金融保险理赔风险模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210225096.6A CN114742239B (zh) 2022-03-09 2022-03-09 基于联邦学习的金融保险理赔风险模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN114742239A true CN114742239A (zh) 2022-07-12
CN114742239B CN114742239B (zh) 2024-09-27

Family

ID=82274838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210225096.6A Active CN114742239B (zh) 2022-03-09 2022-03-09 基于联邦学习的金融保险理赔风险模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN114742239B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409613A (zh) * 2022-09-13 2022-11-29 中债金科信息技术有限公司 债券风险检测模型训练方法和债券风险检测方法
CN115439219A (zh) * 2022-09-13 2022-12-06 中债金科信息技术有限公司 违约风险检测模型的训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112383396A (zh) * 2021-01-08 2021-02-19 索信达(北京)数据技术有限公司 一种联邦学习模型训练方法及系统
CN112446791A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 基于联邦学习的车险评分方法、装置、设备及存储介质
WO2021120888A1 (zh) * 2019-12-20 2021-06-24 支付宝(杭州)信息技术有限公司 一种基于隐私数据进行模型训练的方法及系统
CN113487423A (zh) * 2021-07-29 2021-10-08 中国银行股份有限公司 个人信贷风险预测模型训练方法及装置
WO2022016964A1 (zh) * 2020-07-23 2022-01-27 深圳前海微众银行股份有限公司 纵向联邦建模优化方法、设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021120888A1 (zh) * 2019-12-20 2021-06-24 支付宝(杭州)信息技术有限公司 一种基于隐私数据进行模型训练的方法及系统
WO2022016964A1 (zh) * 2020-07-23 2022-01-27 深圳前海微众银行股份有限公司 纵向联邦建模优化方法、设备及可读存储介质
CN112446791A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 基于联邦学习的车险评分方法、装置、设备及存储介质
CN112383396A (zh) * 2021-01-08 2021-02-19 索信达(北京)数据技术有限公司 一种联邦学习模型训练方法及系统
CN113487423A (zh) * 2021-07-29 2021-10-08 中国银行股份有限公司 个人信贷风险预测模型训练方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409613A (zh) * 2022-09-13 2022-11-29 中债金科信息技术有限公司 债券风险检测模型训练方法和债券风险检测方法
CN115439219A (zh) * 2022-09-13 2022-12-06 中债金科信息技术有限公司 违约风险检测模型的训练方法及装置

Also Published As

Publication number Publication date
CN114742239B (zh) 2024-09-27

Similar Documents

Publication Publication Date Title
WO2022206510A1 (zh) 联邦学习的模型训练方法、装置、设备及存储介质
US20230028606A1 (en) Method and apparatus for vertical federated learning
WO2021022707A1 (zh) 一种混合联邦学习方法及架构
WO2021114911A1 (zh) 用户风险评估方法及装置、电子设备、存储介质
CN112183730A (zh) 一种基于共享学习的神经网络模型的训练方法
CN114742239B (zh) 基于联邦学习的金融保险理赔风险模型训练方法及装置
Fritchman et al. Privacy-preserving scoring of tree ensembles: A novel framework for AI in healthcare
Xie et al. An efficient learning framework for federated XGBoost using secret sharing and distributed optimization
CN112039702B (zh) 基于联邦学习和相互学习的模型参数训练方法及装置
CN113689003A (zh) 一种安全的去除第三方的混合联邦学习框架及方法
Narayana et al. Avoiding Interoperability and Delay in Healthcare Monitoring System Using Block Chain Technology.
George et al. Data sharing made easy by technology trends: New data sharing and privacy preserving technologies that bring in a new era of data monetization
Zhang et al. SABlockFL: a blockchain-based smart agent system architecture and its application in federated learning
CN114676849A (zh) 基于联邦学习进行模型参数更新的方法及系统
Zhao et al. Secure outsourced NB: Accurate and efficient privacy-preserving Naive Bayes classification
Das et al. A secure softwarized blockchain-based federated health alliance for next generation IoT networks
Wang et al. Blockchain user digital identity big data and information security process protection based on network trust
Khan et al. Vertical federated learning: A structured literature review
Jia et al. Privacy‐Preserving Blockchain‐Based Nonlinear SVM Classifier Training for Social Networks
CN113792890A (zh) 一种基于联邦学习的模型训练方法及相关设备
Tran et al. A comprehensive survey and taxonomy on privacy-preserving deep learning
CN113051608A (zh) 一种联邦学习的虚拟化共享模型传输方法
Sheeba et al. Digital Hash Data Encryption for IoT Financial Transactions using Blockchain Security in the Cloud
CN116975918A (zh) 基于隐私保护的模型训练方法及装置
CN115130568A (zh) 支持多参与方的纵向联邦Softmax回归方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant