CN116362343A - 一种基于区块链的模型应用方法及系统 - Google Patents

一种基于区块链的模型应用方法及系统 Download PDF

Info

Publication number
CN116362343A
CN116362343A CN202111614560.2A CN202111614560A CN116362343A CN 116362343 A CN116362343 A CN 116362343A CN 202111614560 A CN202111614560 A CN 202111614560A CN 116362343 A CN116362343 A CN 116362343A
Authority
CN
China
Prior art keywords
learning
blockchain
member object
federation
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111614560.2A
Other languages
English (en)
Inventor
刘静
赵东明
田雷
陈萍
李承鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Tianjin Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Tianjin Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202111614560.2A priority Critical patent/CN116362343A/zh
Publication of CN116362343A publication Critical patent/CN116362343A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种基于区块链的模型应用方法及系统。方法包括:联邦学习的成员对象基于私有数据,对本地的联邦学习模型进行训练,得到本地的联邦学习模型的训练结果。以及,所述联邦学习的成员对象通过第一类型区块链交易,将本地的联邦学习模型的训练结果发送至所述区块链,以调用所述区块链部署的联邦学习智能合约提供目标训练结果,其中,所述联邦学习智能合约用于对至少两个成员对象提供的训练结果进行整合,得到所述目标训练结果。所述联邦学习的成员对象基于所述目标训练结果对本地的学习模型进行调整。本申请的方案能够基于去中心化的联邦学习实现模型应用。

Description

一种基于区块链的模型应用方法及系统
技术领域
本文件属于信息处理技术领域,尤其涉及一种基于区块链的模型应用方法及系统。
背景技术
联邦学习又称联邦机械学习,是一种多机构遵守用户隐私保护和政府法规的要求下,进行联合建模的机器学习框架。作为联邦学习成员对象的机构需要按照多方安全计算协议将自身私有数据作为模型训练样本发送至联邦学习的集中计算平台,由集中计算平台完成模型训练。在多方安全计算协议下,私有数据经加密后实现隐私保护,并依然具有明文时的数学计算效力,不会对模型训练造成影响。
可以看出,上述联邦学习是由集中计算平台中心化完成训练的,这就存在机构对集中计算平台不信任的问题,导致目前联邦学习的应用不是十分普及。为此,当前亟需一种去中心化的基于联邦学习的模型应用方案。
发明内容
本申请实施例目的是提供一种基于区块链的模型应用方法及系统,能够基于去中心化的联邦学习实现模型应用。
为了实现上述目的,本申请实施例是这样实现的:
第一方面,提供了一种基于区块链的模型应用方法,包括:
联邦学习的成员对象基于私有数据,对本地的联邦学习模型进行训练,得到本地的联邦学习模型的训练结果;以及,
所述联邦学习的成员对象通过第一类型区块链交易,将本地的联邦学习模型的训练结果发送至所述区块链,以调用所述区块链部署的联邦学习智能合约提供目标训练结果,其中,所述联邦学习智能合约用于对至少两个成员对象提供的训练结果进行整合,得到所述目标训练结果;
所述联邦学习的成员对象基于所述目标训练结果对本地的学习模型进行调整。
第二方面,提供了一种模型应用系统,包括:联邦学习的成员对象设备和区块链;其中:
联邦学习的成员对象设备基于私有数据,对本地的联邦学习模型进行训练,得到本地的联邦学习模型的训练结果;以及,
所述联邦学习的成员对象设备通过第一类型区块链交易,将本地的联邦学习模型的训练结果发送至所述区块链,以调用所述区块链部署的联邦学习智能合约提供目标训练结果,其中,所述联邦学习智能合约用于对至少两个成员对象设备提供的训练结果进行整合,得到所述目标训练结果;
所述联邦学习的成员对象设备基于所述目标训练结果对本地的学习模型进行调整。
本申请实施例的方案在区块链中部署联邦学习智能合约,联邦学习的成员对象通过发起区块链交易,将本地的联邦学习模型的训练结果上传至区块链,以调用联邦学习智能合约对至少两个成员对象提供的训练结果进行整合,提供整合得到的目标训练结果,从而使联邦学习的成员对象基于目标训练结果对本地的学习模型进行优化。可以看出,整个方案利用区块链来完成训练结果的收集和整合工作,实现去中心化;此外,通过区块链交易上传训练结果也会被区块链记录在区块中,从而给联邦学习的训练提供回溯,比如审计的成员对象的训练贡献度,或,检测成员对象提供的违规训练结果等。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通相关负责人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于区块链的模型应用方法的第一种流程示意图。
图2为本申请实施例提供的模型应用方法的第二种流程示意图。
图3为本申请实施例提供的模型应用方法在实际应用场景的流程示意图。
图4为本申请实施例提供的模型应用方法中反诈识别系统IV值计算与上链的流程示意图。
图5为本申请实施例提供的模型应用方法中一次模型训练及区块上链的流程示意图。
图6为本申请实施例提供的模型应用方法中结合区块链发起推理请求的流程示意图。
图7为本申请实施例提供的模型应用方法中结合区块链实现推理结果计算的流程示意图。
图8为本申请实施例提供的模型应用方法中对区块回溯和审计细的流程示意图。
图9为本申请实施例提供的模型应用方法中模型训练后的指标示意图。
图10为本申请实施例提供的模型应用系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通相关负责人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
如前所述,目前联邦学习的方案是各成员对象(机构)将私有数据提供至集中计算平台,以由集中计算平台完成训练的。集中计算平台的高度中心化必然会引起机构的不信任,导致参与情绪不高,致使目前联邦学习相关应用不是十分普及。为此,本申请旨在提出一种基于去中心化的联邦学习的模型应用方案,能够消除各机构对联邦学习不信任的问题。
图1是本申请模型实施例提供的一种基于区块链的模型应用方法的流程图,包括如下步骤:
S102,联邦学习的成员对象基于私有数据,对本地的联邦学习模型进行训练,得到本地的联邦学习模型的训练结果。
本申请实施例中,联邦学习的各成员对象使用各自收集到的相同客户的私有数据对联邦学习模型进行训练。这里,成员对象可以基于RSA(R、S、A为创始人的姓氏开头字母)算法的私有集交集协议,获取联邦学习的其他成员对象的用户信息,以从本地的用户信息和其他成员对象的用户信息中,确定出交集用户。其中,私有集交集协议是一种对数据脱敏后,以密文形式计算交集的方法,能够保证各成员对象不将自己的用户信息直接暴露给其他成员对象,即可确定交集用户。
在确定出交集用户后,联邦学习的成员对象还可以基于信息值算法(InformationValue,IV),计算交集用户的私有数据中各特征维度的预测相关度,预测相关度可以表征特征维度在所述场景中对于预测结果的影响程度。显然,影响程度越大,则说明特征维度对预测越重要。联邦学习的成员对象基于计算得到的各特征维度的预测相关度可以执行:
1)过滤掉交集用户的私有数据中对应目标特征维度下的特征数据,目标特征维度是指预测相关度未达到预设标准的特征维度。也就是基于各特征维度的IV值(预测相关度),对交集用户的私有数据进行训练前的预处理,过滤掉低价值的特征数据。
2)选择预测相关度达到预设标准的特征维度构建本地的联邦学习模型的特维向量。也就是有倾向性地选取高IV值的特征维度来作为联邦学习模型的特维向量,低IV值的特征维度可以选择忽视,从而对联邦学习模型进行简化。
此外,应理解的是,这里所述的训练结果属于联邦学习模型训练过程中得到的汇总知识数据,并非高敏感的用户信息。作为示例性介绍,训练结果可以但不限于是:联邦学习模型的梯度数据或联邦学习模型的特征向量权重数据,这里本文不作具体限定。
S104,联邦学习的成员对象通过第一类型区块链交易,将本地的联邦学习模型的训练结果发送至区块链,以调用区块链部署的联邦学习智能合约提供目标训练结果,其中,联邦学习智能合约用于对至少两个成员对象提供的训练结果进行整合,得到目标训练结果。
应理解,区块链是实质上是一种去中心化的分布式数据库,具有对存储信息“不可伪造”“全程留痕”“可以追溯”“公开透明”“集体维护”等优点。智能合约是一种计算机执行程序,通过在区块链部署具有整合训练结果所需信息和逻辑的联邦学习智能合约,能够使区块链具有对各成员对象提供的训练结果进行整合的能力,也就是让区块链代替传统联邦学习中的集中计算平台执行联邦学习的工作。需要说明的是,训练结果的整合方式并不唯一,这里本文不作具体限定。作为示例性介绍,可以通过加权求和的方式,对训练结果中同类别的参数进行整合,得到目标训练结果。
此外,本申请实施例中,联邦学习的成员对象提交的第一类型区块链交易中需要携带自身的数字签名。区块链在执行完成第一类型区块链交易后,会生成第一类型区块链交易的区块,区块记录有对应成员对象的数字签名和该成员对象提供的本地的联邦学习模型的训练结果。也就是说,一旦成员对象通过第一类型区块链交易将自己本地的训练结果提交至区块链,会被区块链记录下来,因此通过第一类型区块链交易的区块可以对联邦学习的训练进行回溯,比如:审计联邦学习的成员对象的训练贡献度,或,检测联邦学习的成员对象提供的违规训练结果。因此,基于这种设计,能够鼓励更多机构参与到联邦学习的训练中,同时也杜绝了一些机构提供不属实的模型训练结果,以恶意干扰联邦学习的训练效果。
在实际应用中,联邦学习智能合约可以从区块链针对所述联邦学习的成员对象生成的第一类型区块链交易的区块中获取成员对象提供的训练结果;或者,区块链在接收到联邦学习的成员对象发送的第一类型区块链交易后,将成员对象通过第一类型区块链交易提供的训练结果进行持久化,联邦学习智能合约可以从区块链的持久化数据中获取联邦学习的成员对象提供的训练结果。
S106,联邦学习的成员对象基于目标训练结果对本地的学习模型进行调整。
应理解,目标训练结果是权衡各成员对象本地的训练结果得到的,相对于某一个成员对象而言,目标训练结果具有较高价值的参考意义,因此基于目标训练结果对本地的学习模型进行调整,可以实现优化目的。这里,本文不对调整方式作具体限定,作为示例性介绍,如果目标训练结果是联邦学习模型的梯度数据,则成员对象可以直接按照该梯度数据,继续对本地的联邦学习模型进行训练;如果目标训练结果是联邦学习模型的特征向量权重数据,则可以只将该特征向量权重数据导入至本地的联邦学习模型后直接进行投用。
基于上述内容可以知道,本申请实施例的方法在区块链中部署联邦学习智能合约,联邦学习的成员对象通过发起区块链交易,将本地的联邦学习模型的训练结果上传至区块链,以调用联邦学习智能合约对至少两个成员对象提供的训练结果进行整合,提供整合得到的目标训练结果,从而使联邦学习的成员对象基于目标训练结果对本地的学习模型进行优化。可以看出,整个方案利用区块链来完成训练结果的收集和整合工作,实现去中心化;此外,通过区块链交易上传训练结果也会被区块链记录在区块中,从而给联邦学习的训练提供回溯,比如审计的成员对象的训练贡献度,或,检测成员对象提供的违规训练结果等。
此外,联邦学习的成员对象在完成联邦学习模型训练后,还可以利用区块链作为平台,基于本地的联邦学习模型参与实际应用中。图2是本申请实施例成员对象基于本地的联邦学习模型参与应用的流程示意图包括:
S202,联邦学习的成员对象轮询监听区块链执行第二类型区块链交易后所生成的区块,并在监听到区块链执行第二类型区块链交易所最新生成的目标区块后,向区块链获取目标区块中记录的目标预测服务请求,其中,区块链基于第二类型区块链交易受理预测服务请求,预测服务请求包含有待预测对象的特征数据。
在本申请实施例中,区块链的任何客户端都可以通过第二类型区块链交易,向区块链发起预测服务请求,这其中可以包括联邦学习的成员对象。同理,区块链在处理第二类型区块链交易后会生成对应的区块,也就是以区块的形式,将预测服务请求发布出去,由监听的成员对象进行本地预测。
目标区块S204,联邦学习的成员对象将目标预测服务请求中的目标特征数据输入至本地的联邦学习模型,以进行预测。
本步骤中,联邦学习的成员对象当监听到区块链执行第二类型区块链交易后所最新生成的区块,可以先根据区块的目标预测服务请求,判断本地的联邦学习模型是否适用于目标预测服务请求的预测场景,如果适用,则再将标预测服务请求中的目标特征数据输入至本地的联邦学习模型,以进行预测。如果不适用,则忽略该目标区块,继续监听后续生成的第二类型区块链交易的区块。
S206,联邦学习的成员对象通过第三类型区块链交易,将本地的联邦学习模型输出的目标预测服务请求的预测结果发送至区块链,以调用区块链部署的预测智能合约向目标预测服务请求的发起端提供目标预测结果,其中,预测学习智能合约用于对至少一个成员对象提供的目标预测服务请求的预测结果进行整合,得到目标预测结果。
应理解,目标预测结果是权衡各成员对象本地的预测结果得到的,相对于某一家成员对象的预测结果而言,目标训练结果更具有参考意义,因此,采用多成员对象通过区块链协同参与预测的方式,可以向目标预测服务请求的发起端提供更为准确的预测服务。
同理,第三类型区块链交易携带有对应成员对象的数字签名,区块链在执行完成第三类型区块链交易后,生成第三类型区块链交易的区块。第三类型区块链交易的区块记录有对应成员对象的数字签名和该成员对象提供的本地的联邦学习模型的预测结果,以用于对预测服务进行回溯,包括:审计联邦学习的成员对象的预测贡献度,或,检测联邦学习的成员对象提供的违规预测结果
在实际应用中,预测智能合约从区块链针对所述联邦学习的成员对象生成的第三类型区块链交易的区块中获取成员对象提供的预测结果;或者,预测智能合约从区块链的持久化数据中获取联邦学习的成员对象提供的预测结果,其中,区块链在接收到联邦学习的成员对象发送的第三类型区块链交易后,将成员对象通过第三类型区块链交易提供的预测结果进行持久化。
下面对结合实际的应用场景,本申请实施例的方法进行详细介绍。
目前,电信反欺诈识别场景仅能做到联合移动方和公安方数据进行潜在欺诈的预测,联邦学习基于第三方中心节点,不能解决企业之间的信任问题,这样后期的审计、贡献度确定成为模糊地带。本应用场景将区块链和联邦学习的技术融合,打造了基于运营商和公安数据融合的欺诈识别系统。其中,联邦学习平台采用惠计算的善数系统,区块链平台采用CMBaaS平台。
本应用场景构建联邦学习和区块链融合的主要阶段分为:用户信息ID对齐、建模前特征筛选、结合区块链的模型训练、结合区块链的模型推理和区块回溯和审计。
参考图3,在建模前的特征筛选阶段,采用IV计算本地用户数据的特征维度IV值,筛选高IV值的特征维度进行联邦建模。之后移动和公安双方本地模型训练,模型梯度进行数据上链,在智能合约中,聚合双方梯度,并返回梯度参数迭代优化,更新模型参数,直到所有联邦参与方均达到模型预设收敛条件。在模型推理阶段,公安方发起模型推理请求,区块服务进行推理请求上链,智能合约及共识算法进行数据验证并生成区块,其他参与方监测新区块生成,判断推理请求是否与自身相关,双方分别进行局部模型推理解密,智能合约进行双方推理结果合并,请求方获得最终模型推理结果,返回业务系统。在区块回溯和审计阶段,对参与方的链上数据进行调用和查询。由第三方审计系统发起审计请求,区块服务返回,获取时间段内的所有区块数据,并按照审计要求对区块数据进行解析,用于后续审计操作。
下面分别对用户信息ID对齐、建模前特征筛选、结合区块链的模型训练、结合区块链的模型推理、区块回溯和审计这几个阶段进行详细介绍。
一、用户信息ID对齐
移动与公安双方,以手机号码作为用户ID,采用RSA算法+哈希算法的私有集交集协议,确定双方共有的用户群体。其中,移动与公安各的用户信息符合各自业务的特点。移动侧的用户信息可以包括主叫人次数、主叫次数……、网龄等特征维度。公安侧的用户信息可以包括年龄、性别、Y(是否欺诈)等特征维度。
具体确定共有的用户群体的过程如下:
1)公安B方通过RSA算法产生公私钥(n,e,d),并将公钥(n,e)发送给移动A方。
2)移动A方对自己的样本ui用公钥和随机数加第一把锁,并发送给B方。具体为:针对每条样本ui产生随机数ri,进行随机数公钥加密,得到ri e%n;同时,对每个样本ui进行哈希计算,得到H(ui),并进行公钥加密,得到H(ui)%n;,并将二者相乘得到H(ui)*ri e%n,记为YA
3)公安B方将移动A方传回的数据YA,进行私钥加第二把锁,并发给移动A方;同时,将自己的样本进行哈希与私钥加锁,发给移动A方。具体为:B方将移动A方传回的数据YA取d次幂,根据RSA中算法的性质,化简得到{(ri eH(ui))d%n=ri*H(ui)d%n|ui∈XA}记为Y′A;同时,公安B方将自身的样本取哈希后进行私钥加密H(uj)d%n,再取一遍哈希,得到{H((H(uj))d%n)|uj∈XB}记为TB
4)移动A方,对回传的Y′A解密,并与回传的TB进行取交集,获得二者样本交集数据,随后将交集结果传输至公安B方。具体为:移动A方对Y′A除以自身生成的随机数后,去除随机数影响,再取一遍哈希值,获得与TB相同的加密方式,得到{H(H(ui))d/%n|ui∈XA}记T′A,将T′A∩TB获得共同的样本。
5)公安B方接收到交集结果后,存储双方数据对齐表,也就是交集用户信息。
二、建模前特征筛选
采用上文提到的IV算法计算特征维度的IV值,并筛选高IV值的特征维度进行建模。同时,IV值可以标榜联邦参与双方的模型贡献度,本应用场景将标榜双方贡献度的IV值上区块链,解决激励不足的问题。即:将标榜双方贡献度的IV值通过区块链上链服务进行数据上链,经过CMBaaS的智能合约判断,并通过区块链共识算法后,生成新的区块。
基于全国分布式网络,中国移动建设了区块链服务(China Mobile Blockchainas a Service,CMBaaS)平台,为全网用户提供可信、可靠、高效的区块链服务。
其中,公安B方具备目标变量Y(Y为是否欺诈的标签),计算IV值可以在公安B方本地进行。而移动A方不具备目标变量Y,需要加密引入公安方的Y值,用于计算移动A方的XA特征的IV值。这里以计算“年龄标签”的IV举例,反诈识别系统IV值计算与上链流程如图4所示,包括:
1)公安B方将“手机号码”、“是否欺诈”的同态加密值{idi,En(yi),En(1-yi)}发送给移动A方。
2)以移动A方,将“年龄标签”进行k个分组,并针对每个分组进行本地编码例如:“set2:19-30岁”后为Encode(set2)。
3)以移动A方,计算该分组中的En(yi)求和,得到{Encode(setk),sum(En(yi)),sum(En(1-yi))},发送至公安B方。
4)公安B方进行同态解密,得到k分箱目标Y取值正样本与负样本之和,即:{Encode(setk),sum(yi),sum(1-yi)},并以此,计算IV值。
dispos_i=npos_i/pos_total,disneg_i=nneg_i/neg_total
Woe_i=100*log(dispos_i/disneg_i)
Figure BDA0003436576000000081
5)IV值汇总后,同态加密上传至区块链中心,利用同态加密加法的性质,可以进行移动A方与公安B贡献度分配。传输至区块服务进行数据持久化,创建数据交易请求,并对交易进行签名。
6)区块服务调用区块链平台的智能合约服务进行数据验证,区块链平台通过智能合约对数据进行共识判断,如果成功则对数据进行出块服务。
三、结合区块链的模型训练
针对运营商反欺诈识别的联邦模型训练流程,主要是:联邦参与方进行数据特征提取和本地模型训练,模型参数通过区块链上链服务进行数据上链,经过CMBaaS的智能合约判断,并通过区块链共识算法后,生成新的区块。其他参与方的区块消费服务检测发现新区块的生成,获取到区块数据后进行自己模型的参数迭代优化,更新参数,直到所有联邦参与方均达到模型预设收敛条件。
本联邦建模选用的为逻辑回归模型,联邦建模迭代思路:由损失函数l(w)求梯度
Figure BDA0003436576000000091
由梯度/>
Figure BDA0003436576000000092
迭代求模型参数w,通过参数不断更新,梯度为0时,损失参数取得极值,模型迭代结束。针对标签y∈{-1,1}的逻辑回归,损失函数/>
Figure BDA0003436576000000093
梯度
Figure BDA0003436576000000094
同时,为保护公安与移动双方的数据隐私性,在逻辑回归基础上,叠加同态加密技术。同态加密是指这样一种加密函数,对明文进行环上的加法和乘法运算再加密,与加密后对密文进行相应的运算,结果是等价的。具有同态性质的加密函数是指两个明文a、b满足
Figure BDA0003436576000000095
的加密函数,其中En是加密运算,Dec是解密运算,⊙、/>
Figure BDA0003436576000000096
分别对应明文和密文域上的运算。
因同态加密对加法与乘法有效,故,对损失函数在x=0点进行二阶泰勒展开,得到损失函数:
Figure BDA0003436576000000097
损失函数的梯度:
Figure BDA0003436576000000098
参数迭代方式:
Figure BDA0003436576000000099
模型迭代涉及的中间结果:
模型参数局部结果:UA=wA*xAUB=wB*xBU=wA*xA+wB*xB
梯度中间值:
Figure BDA00034365760000000910
局部梯度:
Figure BDA00034365760000000911
图5是一次模型训练及区块的上链流程,包括:
1)首先联邦参与移动A方、公安B方,分别通过自有数据进行模型训练,得到一次加密的模型训练梯度En(gA)、En(gB),包括:
移动A方、公安B方,分别利用自有数据与初始权重wA、wB,计算中间结果UA、UB
移动A将UA、UB同态加密结果En(UA)和En(UA 2)传至公安B方。
公安B方将En(UA)和En(UB)进行聚合,获得全局中间结果En(U),由此计算梯度中间值En(d),并传送给移动A方。
移动A方,公安B方,将En(d)分别乘以各自本地的数据,可以获得双方的局部梯度En(gA)、En(gB)。
2)移动A方、公安B方,分别将加密后的局部梯度数据En(gA)、En(gB),传输至区块服务进行数据持久化,创建数据交易请求,并对交易进行签名。
3)区块服务调用区块链平台的智能合约服务进行数据验证,区块链平台通过智能合约对数据进行共识判断,如果成功则对数据进行出块服务。同时,智能合约聚合加密的梯度数据En(gA)、En(gB),并解密,形成总梯度,
Figure BDA0003436576000000101
4)区块服务获得上链成功的总梯度g,将总梯度g传输至联邦参与移动A方、公安B方,完成梯度更新,辅助本地模型进行模型训练。
5)多次轮询上述流程,直至双方模型均达到预设收敛条件。
6)在模型收敛后,对全部参与方模型参数入区块操作,对最终模型的贡献度进行量化判断。
四、结合区块链的模型推理
模型预测(也称模型推理),主要是联邦模型根据联邦方发起的推理请求进行欺诈用户识别,并将模型推理参数通过区块链进行存储、计算、利益运算的过程。中国移动及公安方发起模型推理请求,区块服务进行数据上链,智能合约及共识算法进行数据验证并生成区块,其他参与方监测新区块生成,判断推理请求是否与自身相关,进行共同推理解密,请求方获得最终模型推理结果,返回业务系统。
图6是推理请求发起的流程图,包括:
1)公安B方发起推理请求。
2)公安B对推理请求发起区块服务的上链流程,将推理请求进行数据上链。
3)移动A方对区块链平台进行轮询,获取到新生成的推理请求服务区块。
进一步地,图7是推理结果计算的流程图,包括:
4)移动A方进行本地模型推理,得到中国移动方本地计算结果,并上传区块服务。
5)公安B方进行本地模型推理,得到公安方本地计算结果,并上传区块服务。
6)区块服务调用智能合约,对双方模型推理结果进行合并计算,并通过共识判断,生成推理区块。
7)公安B方轮询检索推理请求结果,从区块中获取最终推理结果,并返回业务系统。
五、区块回溯和审计
联邦学习模型的联邦中心必须接收必要的审计,以确保数据安全可信,本应用场景通过区块链可追溯、不可逆、不可篡改的优势替代联邦中心的审计模块,确保跨行业数据融通的绝对安全。
整个平台架构使用区块链进行数据的可信存储,审计可溯源使用Merkle Tree叠加记录相同对象的交易,同时对数据分配权属,可以做到过程监管、读写留痕,杜绝了数据滥用与违规。参与方对链上数据的使用和查询,均会留痕,防范数据盗用的风险,对上链的用户、产品每笔数据的操作与查询使用均可追溯,确保数据的结果与历史可信,打消数据上链的疑虑,同时满足第三方对系统的监管要求。
图7是区块回溯及审计的详细流程图,包括:
1)第三方审计系统发起审计请求,区块服务接收请求,准备获取相应区块内容。
2)区块服务根据审计要求,获取时间段内的所有区块数据,包括:IV值区块、模型训练参数区块、模型推理请求区块、模型推理结果区块。
3)区块服务按照审计要求对区块数据进行解析。
4)区块服务将区块时间、区块内容、区块上传人等信息返回审计系统进行后续审计操作。
下面对“联邦学习+区块链”的电信反欺诈模型构建实例及数据说明。
本应用场景关注的主要是反欺诈识别,数据来源于公安系统和电信运营商,由于属地在天津,因此主要建模的欺诈行为数据来自天津移动和天津公安。其中,欺诈标识作为正样本由公安方提供。因参与双方的用户存在交集,特征不同,适用于纵向联邦学习。联邦学习平台采用惠计算的善数系统,区块链平台采用CMBaaS平台。
天津移动其他正常用户作为负样本。因正负样本比例不平衡,本文采用2021年1-7月的累计涉案号码作为正样本,合计3880户,随机抽取天津移动号码34458户作为负样本。
特征选取时间周期:欺诈正样本为公安涉案号码,且一旦发现涉案,天津移动进行停机处理,采取涉案号码离网前一月的通信行为数据,作为模型输入特征。
其中,天津移动的侧的输入数据特征如下表所示:
Figure BDA0003436576000000111
Figure BDA0003436576000000121
用户属性信息:网龄、年龄、身份证归属地、星级、月停机次数、终端imei使用时长、终端合约标识、紧急开机标识
通信行为信息:月呼出通话次数、月呼出计费时长、月呼入通话次数、月呼叫转移次数、月不重复呼入通话对端数、月不重复呼出通话对端数、月不重复通话对端数、月国际长途呼出次数、月国际长途呼入次数、上网天数、月总使用流量、月普通短信发送量、月活跃天数、月省际漫游流量天数、月省际漫游流量次数、月省际漫游语音通话天数、月省际漫游语音通话次数
用户特征信息:疑似养卡标识、业务异常用户标识、流失预警级别、高价值客户流失风险级别、是否跨地域疑似流出、亲情网标识、集团V网标识、
常住地信息:工作地经度、工作地纬度、居住地经度、居住地纬度、
费用信息:月充值次数、月缴费金额、月用户积分余额、月积分使用次数、月积分使用量、截至月欠费总金额、截至月坏账金额
反欺诈识别实例的具体过程为:
1)特征筛选
在建模过程中,初始纳入66个标签特征,经过IV算法筛选后,选取TOP16个特征进行模型构建,确保稀疏度适中,得出影响欺诈最重要的特征。筛选特征过程如下:
移动侧输入变量的IV值如下,停机次数,当月不重复呼入通话对端数、网龄(入网日期)等作为显著性的字段。
2)模型迭代
选择逻辑回归算法,迭代训练30次,逐渐逼近收敛状态。
3)模型表现
如图9所示的KS(Kolmogorov-Smirnov)曲线。其横轴是阈值,纵轴是TPR(上面那条)与FPR(下面那条)的值。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。KS的取值范围是[0,1],值越大,表示模型能够将正、负客户区分开的程度越大。本系统KS值超过84.57%,说明正负样本区分度很好。
AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,AUC越接近1.0,检测方法真实性越高;本系统AUC超过0.96,说明该方法真实性高,模型可用。
4)模型推理
输出全量用户的欺诈概率与欺诈得分,并输得分小于400分可视为欺诈用户。
欺诈名单通进行重点监控与停机处理,输出列包含手机号sid,是否欺诈label、欺诈概率probability、欺诈得分score。数据结果示例如下表示所示:
Figure BDA0003436576000000131
/>
Figure BDA0003436576000000141
实际欺诈号码客户监控效果:自2021年8月起,在天津一线电信诈骗号码关停工作中已正式应用,正式应用的模型查准率达85%,查全率达63%,已执行了0.12万名用户的停机处理,失误停机率12%,传统失误停机率32%,失误率降低1.6倍,年减少经济损失超150万元。
综上所述,本应用场景实现以下技术效果:
1)更有效的联邦建模信任机制:由联盟链代替第三方协调方,使得联邦双方的模型局部参数加密上联盟链,借助联盟链去中心化特征,节点们在该点对点网络下进行通信,摆脱了对中心节点的依赖。
2)更安全的模型推理机制:中国移动及公安方发起模型推理请求,区块服务进行数据上链,智能合约及共识算法进行数据验证并生成区块,其他参与方监测新区块生成,判断推理请求是否与自身相关,进行共同推理解密,请求方获得最终模型推理结果,返回业务系统。
3)更清晰的参与方的贡献确定机制:联邦双方的模型贡献度,以IV特征可计算获得,双方贡献上联盟链,解决激励不足的问题。
4)解决单点欺诈问题:区块链的不可篡改特性与模型梯度存储于区块链,使得用户和服务器对数据进行的操作会被诚实记录,参与方的一切恶意行为可以被事后追索,各参与方只有在如实报告自身数据信息的情况下,才能够获得最大收益,从而保证数据的安全性,防止用户方通过恶意调整本地模型对全局模型产生不利影响。
对于图1所示的方法,本申请实施例还提供一种模型应用系统。图10是本申请实施例模型应用系统1000的结构示意图,该包括:联邦学习的成员对象设备1010和区块链1020;其中:
所述联邦学习的成员对象设1010备通过第一类型区块链交易,将本地的联邦学习模型的训练结果发送至所述区块链1020,以调用所述区块链部署的联邦学习智能合约提供目标训练结果,其中,所述联邦学习智能合约用于对至少两个成员对象设备1010提供的训练结果进行整合,得到所述目标训练结果;
所述联邦学习的成员对象设备1010基于所述目标训练结果对本地的学习模型进行调整。
本申请实施例的系统在区块链中部署联邦学习智能合约,联邦学习的成员对象通过发起区块链交易,将本地的联邦学习模型的训练结果上传至区块链,以调用联邦学习智能合约对至少两个成员对象提供的训练结果进行整合,提供整合得到的目标训练结果,从而使联邦学习的成员对象基于目标训练结果对本地的学习模型进行优化。可以看出,整个方案利用区块链来完成训练结果的收集和整合工作,实现去中心化;此外,通过区块链交易上传训练结果也会被区块链记录在区块中,从而给联邦学习的训练提供回溯,比如审计的成员对象的训练贡献度,或,检测成员对象提供的违规训练结果等。
可选地,第一类型区块链交易携带有对应成员对象的数字签名,所述区块链在执行完成第一类型区块链交易后,生成第一类型区块链交易的区块,其中,第一类型区块链交易的区块记录有对应成员对象的数字签名和该成员对象提供的本地的联邦学习模型的训练结果,以用于对所述联邦学习的训练进行回溯,对所述联邦学习的训练进行回溯包括:审计所述联邦学习的成员对象的训练贡献度,或,检测所述联邦学习的成员对象提供的违规训练结果。
可选地,所述联邦学习智能合约从所述区块链针对所述联邦学习的成员对象生成的第一类型区块链交易的区块中获取成员对象提供的训练结果;或者,所述联邦学习智能合约从所述区块链的持久化数据中获取所述联邦学习的成员对象提供的训练结果,其中,所述区块链在接收到所述联邦学习的成员对象发送的第一类型区块链交易后,将成员对象通过第一类型区块链交易提供的训练结果进行持久化。
可选地,在所述联邦学习的成员对象基于所述目标训练结果对本地的学习模型进行调整后,还包括:所述联邦学习的成员对象轮询监听所述区块链执行第二类型区块链交易后所生成的区块,并在监听到所述区块链执行第二类型区块链交易所最新生成的目标区块后,向所述区块链获取所述目标区块中记录的目标预测服务请求,其中,所述区块链基于第二类型区块链交易受理预测服务请求,预测服务请求包含有待预测对象的特征数据;所述联邦学习的成员对象将所述目标预测服务请求中的目标特征数据输入至本地的联邦学习模型,以进行预测;所述联邦学习的成员对象通过第三类型区块链交易,将本地的联邦学习模型输出的所述目标预测服务请求的预测结果发送至所述区块链,以调用所述区块链部署的预测智能合约向所述目标预测服务请求的发起端提供目标预测结果,其中,所述预测学习智能合约用于对至少一个成员对象提供的所述目标预测服务请求的预测结果进行整合,得到所述目标预测结果。
可选地,第三类型区块链交易携带有对应成员对象的数字签名,所述区块链在执行完成第三类型区块链交易后,生成第三类型区块链交易的区块,其中,第三类型区块链交易的区块记录有对应成员对象的数字签名和该成员对象提供的本地的联邦学习模型的预测结果,以用于对预测服务进行回溯,其中,对预测服务进行回溯包括:审计所述联邦学习的成员对象的预测贡献度,或,检测所述联邦学习的成员对象提供的违规预测结果。
可选地,所述预测智能合约从所述区块链针对所述联邦学习的成员对象生成的第三类型区块链交易的区块中获取成员对象提供的预测结果;或者,所述预测智能合约从所述区块链的持久化数据中获取所述联邦学习的成员对象提供的预测结果,其中,所述区块链在接收到所述联邦学习的成员对象发送的第三类型区块链交易后,将成员对象通过第三类型区块链交易提供的预测结果进行持久化。
所述联邦学习的成员对象通过第一类型区块链交易,将本地的联邦学习模型的训练结果发送至所述区块链,包括:所述联邦学习的成员对象基于所述联邦学习规定的多方安全计算协议,对本地的联邦学习模型的训练结果进行同态加密;以及,所述联邦学习的成员对象通过第一类型区块链交易,将同态加密的本地的联邦学习模型的训练结果发送至所述区块链,其中,所述联邦学习智能合约配置有所述同态加密相对应的数据解析逻辑。
可选地,在联邦学习的成员对象基于私有数据,对本地的联邦学习模型进行训练前,还包括:联邦学习的成员对象基于RSA算法的私有集交集协议,获取所述联邦学习的其他成员对象的用户信息,以从本地的用户信息和其他成员对象的用户信息中,确定出交集用户;其中,联邦学习的成员对象基于交集用户的私有数据,对本地的联邦学习模型进行训练。
可选地,所述联邦学习的成员对象得到的本地的联邦学习模型的训练结果包括:联邦学习模型的梯度数据或联邦学习模型的特征向量权重数据。
可选地,在联邦学习的成员对象确定出交集用户后,还可以基于信息值算法,计算所述交集用户的私有数据中各特征维度的预测相关度;以及,基于计算得到的各特征维度的预测相关度执行以下至少一者:
过滤掉所述交集用户的私有数据中对应目标特征维度下的特征数据,所述目标特征维度是指预测相关度未达到预设标准的特征维度;
选择预测相关度达到预设标准的特征维度构建本地的联邦学习模型的特维向量。
显然,本实施例的模型应用系统作为图1所示方法的执行主体,可以实现图1所示方法的步骤和功能,具体包括图3至图7所示的实施例。
本领域相关负责人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域相关负责人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。此外,本领域普通相关负责人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。

Claims (10)

1.一种模型应用方法,其特征在于,包括:
联邦学习的成员对象基于私有数据,对本地的联邦学习模型进行训练,得到本地的联邦学习模型的训练结果;以及,
所述联邦学习的成员对象通过第一类型区块链交易,将本地的联邦学习模型的训练结果发送至所述区块链,以调用所述区块链部署的联邦学习智能合约提供目标训练结果,其中,所述联邦学习智能合约用于对至少两个成员对象提供的训练结果进行整合,得到所述目标训练结果;
所述联邦学习的成员对象基于所述目标训练结果对本地的学习模型进行调整。
2.根据权利要求1所述的方法,其特征在于,
第一类型区块链交易携带有对应成员对象的数字签名,所述区块链在执行完成第一类型区块链交易后,生成第一类型区块链交易的区块,其中,第一类型区块链交易的区块记录有对应成员对象的数字签名和该成员对象提供的本地的联邦学习模型的训练结果,以用于对所述联邦学习的训练进行回溯,对所述联邦学习的训练进行回溯包括:审计所述联邦学习的成员对象的训练贡献度,或,检测所述联邦学习的成员对象提供的违规训练结果。
3.根据权利要求2所述的方法,其特征在于,
所述联邦学习智能合约从所述区块链针对所述联邦学习的成员对象生成的第一类型区块链交易的区块中获取成员对象提供的训练结果;或者,所述联邦学习智能合约从所述区块链的持久化数据中获取所述联邦学习的成员对象提供的训练结果,其中,所述区块链在接收到所述联邦学习的成员对象发送的第一类型区块链交易后,将成员对象通过第一类型区块链交易提供的训练结果进行持久化。
4.根据权利要求1所述的方法,其特征在于,
在所述联邦学习的成员对象基于所述目标训练结果对本地的学习模型进行调整后,还包括:
所述联邦学习的成员对象轮询监听所述区块链执行第二类型区块链交易后所生成的区块,并在监听到所述区块链执行第二类型区块链交易所最新生成的目标区块后,向所述区块链获取所述目标区块中记录的目标预测服务请求,其中,所述区块链基于第二类型区块链交易受理预测服务请求,预测服务请求包含有待预测对象的特征数据;
所述联邦学习的成员对象将所述目标预测服务请求中的目标特征数据输入至本地的联邦学习模型,以进行预测;
所述联邦学习的成员对象通过第三类型区块链交易,将本地的联邦学习模型输出的所述目标预测服务请求的预测结果发送至所述区块链,以调用所述区块链部署的预测智能合约向所述目标预测服务请求的发起端提供目标预测结果,其中,所述预测学习智能合约用于对至少一个成员对象提供的所述目标预测服务请求的预测结果进行整合,得到所述目标预测结果。
5.根据权利要求4所述的方法,其特征在于,
第三类型区块链交易携带有对应成员对象的数字签名,所述区块链在执行完成第三类型区块链交易后,生成第三类型区块链交易的区块,其中,第三类型区块链交易的区块记录有对应成员对象的数字签名和该成员对象提供的本地的联邦学习模型的预测结果,以用于对预测服务进行回溯,其中,对预测服务进行回溯包括:审计所述联邦学习的成员对象的预测贡献度,或,检测所述联邦学习的成员对象提供的违规预测结果。
6.根据权利要求5所述的方法,
所述预测智能合约从所述区块链针对所述联邦学习的成员对象生成的第三类型区块链交易的区块中获取成员对象提供的预测结果;或者,所述预测智能合约从所述区块链的持久化数据中获取所述联邦学习的成员对象提供的预测结果,其中,所述区块链在接收到所述联邦学习的成员对象发送的第三类型区块链交易后,将成员对象通过第三类型区块链交易提供的预测结果进行持久化。
7.根据权利要求1所述的方法,
在联邦学习的成员对象基于私有数据,对本地的联邦学习模型进行训练前,还包括:
联邦学习的成员对象基于RSA算法的私有集交集协议,获取所述联邦学习的其他成员对象的用户信息,以从本地的用户信息和其他成员对象的用户信息中,确定出交集用户;其中,联邦学习的成员对象基于交集用户的私有数据,对本地的联邦学习模型进行训练。
8.根据权利要求1所述的方法,
在联邦学习的成员对象基于RSA算法的私有集交集协议,获取所述联邦学习的其他成员对象的用户信息,以从本地的用户信息和其他成员对象的用户信息中,确定出交集用户后,还包括:
所述联邦学习的成员对象基于信息值算法,计算所述交集用户的私有数据中各特征维度的预测相关度;以及,
所述联邦学习的成员对象基于计算得到的各特征维度的预测相关度执行以下至少一者:
过滤掉所述交集用户的私有数据中对应目标特征维度下的特征数据,所述目标特征维度是指预测相关度未达到预设标准的特征维度;
选择预测相关度达到预设标准的特征维度构建本地的联邦学习模型的特维向量。
9.根据权利要求1所述的方法,
所述联邦学习的成员对象得到的本地的联邦学习模型的训练结果包括:联邦学习模型的梯度数据或联邦学习模型的特征向量权重数据。
10.一种模型应用系统,其特征在于,包括:联邦学习的成员对象设备和区块链;其中:
联邦学习的成员对象设备基于私有数据,对本地的联邦学习模型进行训练,得到本地的联邦学习模型的训练结果;以及,
所述联邦学习的成员对象设备通过第一类型区块链交易,将本地的联邦学习模型的训练结果发送至所述区块链,以调用所述区块链部署的联邦学习智能合约提供目标训练结果,其中,所述联邦学习智能合约用于对至少两个成员对象设备提供的训练结果进行整合,得到所述目标训练结果;
所述联邦学习的成员对象设备基于所述目标训练结果对本地的学习模型进行调整。
CN202111614560.2A 2021-12-27 2021-12-27 一种基于区块链的模型应用方法及系统 Pending CN116362343A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111614560.2A CN116362343A (zh) 2021-12-27 2021-12-27 一种基于区块链的模型应用方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111614560.2A CN116362343A (zh) 2021-12-27 2021-12-27 一种基于区块链的模型应用方法及系统

Publications (1)

Publication Number Publication Date
CN116362343A true CN116362343A (zh) 2023-06-30

Family

ID=86914421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111614560.2A Pending CN116362343A (zh) 2021-12-27 2021-12-27 一种基于区块链的模型应用方法及系统

Country Status (1)

Country Link
CN (1) CN116362343A (zh)

Similar Documents

Publication Publication Date Title
Kondor et al. Towards matching user mobility traces in large-scale datasets
CN112132198B (zh) 数据处理方法、装置、系统和服务器
CN103338188B (zh) 一种适用于移动云的客户端动态认证方法
CN109711836A (zh) 一种交易的存储方法、存储网络和电子设备
CN112185395B (zh) 一种基于差分隐私的联邦声纹识别方法
US20200143242A1 (en) System and method for creating and providing crime intelligence based on crowdsourced information stored on a blockchain
CN111247511A (zh) 用于聚合认证确定的客户数据和网络数据的系统和方法
CN112365001B (zh) 模型的生成方法、装置和服务器
US11727149B2 (en) System and method for providing anonymous validation of a query among a plurality of nodes in a network
CN113515760A (zh) 横向联邦学习方法、装置、计算机设备和存储介质
CN113011632B (zh) 企业风险评估方法、装置、设备及计算机可读存储介质
US11689660B2 (en) Methods and systems for detecting disinformation and blocking robotic calls
US20190311277A1 (en) Dynamic conditioning for advanced misappropriation protection
Rebahi et al. A survey on fraud and service misuse in voice over IP (VoIP) networks
CN116828453B (zh) 基于自适应非线性函数的无人机边缘计算隐私保护方法
CN117151736A (zh) 反电诈管理预警方法及系统
Alraouji et al. International call fraud detection systems and techniques
Mollah et al. Proposed e-police system for enhancement of e-government services of Bangladesh
CN116821952A (zh) 基于区块链共识机制的隐私数据计算可追溯系统及方法
CN116506206A (zh) 基于零信任网络用户的大数据行为分析方法及系统
CN116362343A (zh) 一种基于区块链的模型应用方法及系统
Mollah et al. E-police system for improved e-government services of developing countries
CN115840965A (zh) 一种信息安全保障模型训练方法和系统
CN114692201A (zh) 一种多方安全计算方法及系统
Xu et al. Fraud detection in telecommunication: a rough fuzzy set based approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination