CN114818011B - 一种适用碳信用评价的联邦学习方法、系统及电子设备 - Google Patents

一种适用碳信用评价的联邦学习方法、系统及电子设备 Download PDF

Info

Publication number
CN114818011B
CN114818011B CN202210733412.0A CN202210733412A CN114818011B CN 114818011 B CN114818011 B CN 114818011B CN 202210733412 A CN202210733412 A CN 202210733412A CN 114818011 B CN114818011 B CN 114818011B
Authority
CN
China
Prior art keywords
target
federal
model
participating
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210733412.0A
Other languages
English (en)
Other versions
CN114818011A (zh
Inventor
石聪聪
黄秀丽
费稼轩
翟雨佳
于鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Smart Grid Research Institute Co ltd
Original Assignee
State Grid Smart Grid Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Smart Grid Research Institute Co ltd filed Critical State Grid Smart Grid Research Institute Co ltd
Priority to CN202210733412.0A priority Critical patent/CN114818011B/zh
Publication of CN114818011A publication Critical patent/CN114818011A/zh
Application granted granted Critical
Publication of CN114818011B publication Critical patent/CN114818011B/zh
Priority to PCT/CN2023/113983 priority patent/WO2024002389A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种适用碳信用评价的联邦学习方法、系统及电子设备,方法包括:获取目标参与节点的目标联邦子模型,目标联邦子模型是由联邦模型拆分后得到的,联邦模型包括至少3个联邦子模型,目标联邦子模型包括模型参数以及目标参与节点的目标特征;获取当前网络时延以及目标特征的预设优化次数;基于当前网络时延与预设优化次数对应的预设网络时延的差异,确定当前优化次数;根据当前优化次数对目标特征进行本地优化;将目标特征的优化结果与其他参与节点进行加密交互,以对模型参数进行优化确定目标联邦子模型的目标模型参数。本技术方案提升了多方数据交互时的安全性。

Description

一种适用碳信用评价的联邦学习方法、系统及电子设备
技术领域
本发明涉及信息安全领域,具体涉及一种适用碳信用评价的联邦学习方法、系统及电子设备。
背景技术
区块链技术是一种去中心化的分布式数据库技术,具有去中心化以及难以篡改等特点,区块链所记录的信息更加真实可靠,随着网络技术的快速发展,区块链的相关技术日渐完善成熟。
联邦学习是在保障大数据交换时的信息安全、保护终端数据以及个人数据隐私、保证合法合规的前提下,在多参与方或多计算节点之间开展高效率的机器学习的一种新兴人工智能基础技术,采用一种去中心化分布系统保证用户的隐私安全。区块链作为一个去中心化、数据加密、不可篡改的分布式共享数据库,可以为联邦学习的数据交换提供数据保密性,从而保证各参与方之间的数据安全。
出于数据隐私保护法律法规的日趋完善,当需要多方数据参与时,通过数据集中和数据交换整合不同行业的数据资源面临越来越多的限制和风险,在这个过程中需要满足多方数据的隐私保护。
发明内容
有鉴于此,本发明实施例提供了一种适用碳信用评价的联邦学习方法、系统、电子设备及存储介质,以解决多方数据交互时的隐私安全性不足的问题。
根据第一方面,本发明实施例提供了一种适用碳信用评价的联邦学习方法,包括:
获取所述目标参与节点的目标联邦子模型,所述目标联邦子模型是由联邦模型拆分后得到的,所述联邦模型包括至少3个联邦子模型,所述目标联邦子模型包括模型参数以及所述目标参与节点的目标特征;
获取当前网络时延以及目标特征的预设优化次数;
基于所述当前网络时延与所述预设优化次数对应的预设网络时延的差异,确定当前优化次数;
根据当前优化次数对所述目标特征进行本地优化;
将所述目标特征的优化结果与其他参与节点进行加密交互,以对模型参数进行优化确定所述目标联邦子模型的目标模型参数。
本发明实施例提供的适用碳信用评价的联邦学习方法,将联邦子模型分发至对应的各参与节点,目标参与节点基于网络时延以及对目标特征的预设优化次数确定当前优化次数,并在参与节点之间进行加密交互计算前基于当前优化次数在本地进行优化,在进行加密交互计算后确定目标联邦子模型的目标模型参数,提升了多方参与模型的安全性。
在一个实施方式中,当前优化次数采用如下公式计算得到:
Figure 57217DEST_PATH_IMAGE001
式中,
Figure 212867DEST_PATH_IMAGE002
表示预设优化次数,
Figure 504171DEST_PATH_IMAGE003
表示当前优化次数,
Figure 630259DEST_PATH_IMAGE004
表示预设优化次数对应 的预设网络时延,
Figure 298001DEST_PATH_IMAGE005
表示当前网络时延。
在一个实施方式中,所述将所述目标特征的优化结果与其他参与节点进行加密交互,包括:
基于同态加密算法计算公钥和私钥,并将所述公钥发送给其他参与节点;
计算目标联邦子模型对应的模型参数与目标特征的乘积,以及模型参数与目标特征的乘积的平方项,并将所述乘积以及乘积的平方项发送给其他参与节点;
将采用指定其他参与节点的公钥加密的密文梯度发送给对应的其他所有参与节点。
在一个实施方式中,在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之前,还包括:
接收其他参与节点采用所述指定参与节点的公钥加密后的模型参数与对应目标特征的乘积,以及模型参数与对应目标特征的乘积的平方项;
基于所述接收的其他参与节点发送的乘积以及乘积的平方项,确定密文目标函数;
基于所述密文目标函数计算所述目标参与节点的密文梯度,所述密文梯度采用指定参与节点的公钥加密,所述密文目标函数采用如下公式计算得到:
Figure 701300DEST_PATH_IMAGE006
所述目标参与节点的密文梯度为:
Figure 304451DEST_PATH_IMAGE007
式中,L表示所述密文目标函数,y i 表示全局模型预测值,
Figure 793201DEST_PATH_IMAGE008
表示参与节点对应的 联邦子模型的模型参数,
Figure 999055DEST_PATH_IMAGE009
表示参与节点对应的目标特征,
Figure 381494DEST_PATH_IMAGE010
Figure 545760DEST_PATH_IMAGE011
表示所述目标联邦子 模型的模型参数,
Figure 521806DEST_PATH_IMAGE012
表示所述目标参与节点的目标特征,
Figure 141137DEST_PATH_IMAGE013
表示所述采用指定参 与节点的公钥加密的密文梯度。
在一个实施方式中,在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之后,还包括:
接收所述其他参与节点对所述目标参与节点的密文梯度解密后的梯度结果,以确定所述目标联邦子模型的目标模型参数。
本发明实施例提供的适用碳信用评价的联邦学习方法,采用同态加密算法进行参与节点之间的加密交互,利用加法和乘法在密文下进行运算,保障了参与节点之间进行数据交互过程中的安全性,且通过该训练方法得到联邦子模型中的参数。
在一个实施方式中,在获取所述目标参与节点的目标联邦子模型之前,所述方法还包括:
从数据集中提取数据特征,作为数据原始特征;
计算所述数据特征的信息熵,并基于所述信息熵计算数据特征的属性重要度,以实现对所述数据特征的优化,得到数据深度特征;
对所述数据原始特征和所述数据深度特征进行融合,得到所述目标参与节点的目标特征。
在一个实施方式中,信息熵采用如下公式计算得到:
Figure 519029DEST_PATH_IMAGE014
式中,
Figure 588616DEST_PATH_IMAGE015
表示每个离散消息发生的概率,
Figure 51958DEST_PATH_IMAGE016
Figure 724248DEST_PATH_IMAGE017
,表 示最大信息熵;
所述属性重要度采用如下公式计算得到:
Figure 956646DEST_PATH_IMAGE018
式中,
Figure 462714DEST_PATH_IMAGE019
表示属性重要度,
Figure 757560DEST_PATH_IMAGE020
表示最大信息熵,
Figure 374486DEST_PATH_IMAGE021
表示属性信息 熵。
在一个实施方式中,所述方法还包括:
向所述其他参与节点发出加密后的所述联邦子模型授权请求;
基于智能合约验证所述其他参与节点并判断是否授权,基于判断结果向所述其他参与节点发送授权令牌;
接收所述其他参与节点的授权令牌,以完成联邦子模型的上链授权。
根据第二方面,本发明实施例提供了一种联邦学习系统,包括:
至少三个参与节点,所述参与节点用于执行第一方面或第一方面的任意一种实施方式中所述的适用碳信用评价的联邦学习方法。
根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的适用碳信用评价的联邦学习方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的适用碳信用评价的联邦学习方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的联邦学习方法的流程图;
图2是根据本发明实施例的确定目标特征的流程图;
图3是根据本发明实施例的加密交互的方法的流程图;
图4是根据本发明实施例的加密交互的方法的流程图;
图5是根据本发明实施例的联邦学习方法的流程图;
图6是根据本发明实施例的联邦学习方法的流程图;
图7是根据本发明实施例的联邦学习方法的流程图;
图8是根据本发明实施例的碳信用评价的联邦系统示意图;
图9是根据本发明实施例的基于碳信用评价的联邦平台装置的结构示意图;
图10是根据本发明实施例的电子设备的硬件结构示意图;
图11是根据本发明实施例的联邦学习系统的结构示意图;
图12是根据本发明实施例的适用碳信用评价的联邦学习系统的功能模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图11所示,根据本发明实施例,提供了一种适用碳信用评价的联邦学习系统,包括至少三个参与节点,参与节点用于执行联邦学习方法。碳信用是指经过联合国或联合国认可的减排组织认证的条件下,国家或企业以增加能源使用效率、减少污染或减少开发等方式减少碳排放,因此得到可以进入碳交易市场的碳排放计量单位,联邦学习系统中的参与节点可以包括能源企业、环保部门以及金融企业。适用碳信用评价的联邦学习系统包括如图12所示的功能模块,具体见下文实施例。
根据本发明实施例,提供了一种联邦学习方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种适用碳信用评价的联邦学习方法,可用于如手机、电脑、平板电脑等,图1是根据本发明实施例的联邦学习方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取目标参与节点的目标联邦子模型。
根据需求构建多方联邦模型,联邦模型是基于联邦学习的模型,联邦模型通常包含多方参与节点,参与节点即参与该联邦模型的业务机构,通常联邦学习包括水平联邦学习和纵向联邦学习,其中纵向联邦学习对应于两个以上的不同机构。对联邦模型进行拆分可以得到与每个参与节点对应的联邦子模型,本方案的联邦学习方法中的联邦模型中可以包括至少3个联邦子模型。
目标参与节点为多各参与节点中的其中一个,目标联邦子模型为该目标参与节点对应的联邦子模型目标联邦子模型包括模型参数以及目标参与节点的目标特征,通过对参与节点的数据属性进行筛选和处理可以得到目标特征,不同的参与节点有其对应的目标特征。需要说明的是,对其他参与节点对应的联邦模型也采用一样的计算方法。
S12,获取当前网络时延以及目标特征的预设优化次数。
S13,基于当前网络时延与预设优化次数对应的预设网络时延的差异,确定当前优化次数。
在联邦学习系统中,各个参与节点获取各自对应的联邦子模型后需要对联邦子模型进行训练,训练过程中需要与其他参与节点进行交互以获取需要的数据,而联邦模型的各个参与节点可能分布在各个地方,因此,网络中的通信效率会对整体速度产生较大的影响。若通信网络的速度较为缓慢,为了提升交互的效率,可以适当减少参与节点之间的交互频次,调整对目标特征的预设优化次数,即在本次交互计算前在本地的优化次数,得到当前优化次数。
在一个实施方式中,当前优化次数采用如下公式计算得到:
Figure 461391DEST_PATH_IMAGE022
式中,
Figure 262994DEST_PATH_IMAGE023
表示预设优化次数,
Figure 435349DEST_PATH_IMAGE024
表示当前优化次数,
Figure 324808DEST_PATH_IMAGE025
表示预设优化次数对应 的预设网络时延,
Figure 138656DEST_PATH_IMAGE026
表示当前网络时延。
S14,根据当前优化次数对目标特征进行本地优化。
在确定当前优化次数后对参与节点对应的目标特征进行优化。
S15,将目标特征的优化结果与其他参与节点进行加密交互,以对模型参数进行优化确定目标联邦子模型的目标模型参数。
基于得到的对目标特征的优化,联邦学习的本质是安全的跨域联合建模,因此需要对参与节点进行加密交互计算,以保护各参与节点的隐私,加密交互计算可采用同态加密、差分隐私、不经意传输等。基于加密交互计算,得到联邦子模型参数的梯度,梯度可以表示联邦子模型中的模型参数的优化方向,确认优化较好的梯度后即可确定目标联邦子模型的目标模型参数,从而完成对联邦子模型的训练。
联邦子模型参数的梯度采用如下公式计算得到:
Figure 986526DEST_PATH_IMAGE027
式中,L为联合目标函数,
Figure 505232DEST_PATH_IMAGE028
为全局模型预测值。
Figure 463961DEST_PATH_IMAGE029
Figure 259878DEST_PATH_IMAGE030
Figure 888437DEST_PATH_IMAGE031
式中,
Figure 35384DEST_PATH_IMAGE032
Figure 797804DEST_PATH_IMAGE033
分别表示各联邦子模型的模型参数,
Figure 572862DEST_PATH_IMAGE034
分别表示各联邦子 模型的目标特征,目标特征即特征向量。
本发明实施例提供的适用碳信用评价的联邦学习方法,将联邦子模型分发至对应的各参与节点,目标参与节点基于网络时延以及对目标特征的预设优化次数确定当前优化次数,并在参与节点之间进行加密交互计算前基于当前优化次数在本地进行优化,在进行加密交互计算后确定目标联邦子模型的目标模型参数,提升了多方参与模型的安全性。
在本实施例中提供了确定目标特征的方法,用于在获取目标参与节点的目标联邦子模型之前,即,对应于图1所示实施例中的S11,图2是根据本发明实施例的确定目标特征的方法的流程图,如图2所示,该流程包括如下步骤:
S21,从数据集中提取数据特征,作为数据原始特征。
基于所需要构建的联邦模型的需求,参与节点选取数据特征构建数据集,每个参与节点有其对应的数据集,从该数据集中提取数据特征作为该参与节点的数据原始特征,其中数据特征可以为数据的属性。
S22,计算数据特征的信息熵,并基于信息熵计算数据特征的属性重要度,以实现对数据特征的优化,得到数据深度特征。
对数据特征进行信息熵计算,基于得到的信息熵度量各数据特征的重要程度,从而实现对数据特征的属性优化,避免不重要的特征参与深度特征合成。之后通过特征处理可以生成数据深度特征,特征处理包括了特征增强、特征转换、特征降维、特征选择和特征标准化等。
在一个实施方式中,信息熵采用如下公式计算得到:
Figure 496956DEST_PATH_IMAGE035
式中,
Figure 865620DEST_PATH_IMAGE036
表示每个离散消息发生的概率,
Figure 775939DEST_PATH_IMAGE037
Figure 546448DEST_PATH_IMAGE038
,表 示最大信息熵;
所述属性重要度采用如下公式计算得到:
Figure 546503DEST_PATH_IMAGE039
式中,
Figure 995939DEST_PATH_IMAGE040
表示属性重要度,
Figure 100161DEST_PATH_IMAGE041
表示最大信息熵,
Figure 355473DEST_PATH_IMAGE042
表示属性信 息熵。
S23,对数据原始特征和数据深度特征进行融合,得到目标参与节点的目标特征。
将得到的数据原始特征和数据深度特征进行融合,构成数据特征空间,即,目标参与节点的目标特征。需要说明的是,其他参与节点也采用同样的方式确定对应的目标特征。
在本实施例中提供了加密交互的方法,即,对应于图1所示实施例中的S15,图3是根据本发明实施例的加密交互的方法的流程图,如图3所示,该流程包括如下步骤:
S31,基于同态加密算法计算公钥和私钥,并将公钥发送给其他参与节点。
S32,计算目标联邦子模型对应的模型参数与目标特征的乘积,以及模型参数与目标特征的乘积的平方项,并将乘积以及乘积的平方项发送给其他参与节点。
S33,将采用指定其他参与节点的公钥加密的密文梯度发送给对应的其他所有参与节点。
指定其他参与节点可以由目标参与节点进行指定,即可以为其他任一参与节点,此时目标参与节点为加密交互的主导方。当目标参与节点为加密交互的参与方时,可以采用主导方参与节点的公钥对目标参与节点以及其他参与方节点的梯度进行加密。
在S33之前还包括如图4所示的流程,该流程包括如下步骤:
S41,接收其他参与节点采用所述指定参与节点的公钥加密后的模型参数与对应目标特征的乘积,以及模型参数与对应目标特征的乘积的平方项。
S42,基于接收的其他参与节点发送的乘积以及乘积的平方项,确定密文目标函数。
S43,基于密文目标函数计算所述目标参与节点的密文梯度。
密文梯度采用指定参与节点的公钥加密,所述密文目标函数采用如下公式计算得到:
Figure 621369DEST_PATH_IMAGE043
所述目标参与节点的密文梯度为:
Figure 89259DEST_PATH_IMAGE044
式中,L表示所述密文目标函数,y i 表示全局模型预测值,
Figure 731593DEST_PATH_IMAGE045
表示参与节点对应的联 邦子模型的模型参数,
Figure 476695DEST_PATH_IMAGE046
表示参与节点对应的目标特征,
Figure 54438DEST_PATH_IMAGE047
Figure 619412DEST_PATH_IMAGE048
表示所述目标联邦子 模型的模型参数,
Figure 65437DEST_PATH_IMAGE049
表示所述目标参与节点的目标特征,
Figure 789679DEST_PATH_IMAGE050
表示所述采用指定参 与节点的公钥加密的密文梯度。
在一个实施例中,在S33之后,还包括:接收所述其他参与节点对目标参与节点的密文梯度解密后的梯度结果,以确定目标联邦子模型的目标模型参数。
下面对上述加密交互的方法进行具体描述,该加密交互的方法可以采用Paillier 同态加密隐私安全交互算法,以联邦模型包括3个联邦子模型为例,假设逻辑回归模型参数 为为
Figure 397378DEST_PATH_IMAGE051
Figure 715227DEST_PATH_IMAGE052
分别为第一参与节点、第二参与节点和第三参与节点的模型参 数,则总的线性模型,即,联邦模型为:
Figure 574729DEST_PATH_IMAGE053
式中,
Figure 28845DEST_PATH_IMAGE054
表示目标特征。
逻辑回归将联邦模型产生的预测值通过激活函数映射到0~1之间,激活函数如下:
Figure 73024DEST_PATH_IMAGE055
Figure 2803DEST_PATH_IMAGE056
得到联合目标函数为:
Figure 525051DEST_PATH_IMAGE057
通过最小化联合目标函数即可得到模型参数
Figure 99252DEST_PATH_IMAGE058
由于同态加密只能计算多项式函数,故使用泰勒公式在0点展开,则联合目标函数近似模拟为:
Figure 924119DEST_PATH_IMAGE059
因此,对第一参与节点、第二参与节点和第三参与节点三方来说,其本地子模型参数的梯度即为:
Figure 950981DEST_PATH_IMAGE060
Figure 401554DEST_PATH_IMAGE061
Figure 830261DEST_PATH_IMAGE062
在纵向联邦学习的计算中,安全计算出梯度信息,寻找到目标函数的收敛值即完成了模型的训练。Paillier同态加密满足密文的加法与数乘,三方的加密交互流程如下:
(1)三方分别生成同态加密的公私钥对,并将公钥发给其他两方。
(2)无标签方A计算
Figure 950664DEST_PATH_IMAGE063
Figure 337259DEST_PATH_IMAGE064
,用A的公钥加密将
Figure 466889DEST_PATH_IMAGE065
Figure 750102DEST_PATH_IMAGE066
发送给C, 将
Figure 431620DEST_PATH_IMAGE067
Figure 167494DEST_PATH_IMAGE068
发送给B。
(3)无标签方B计算
Figure 976182DEST_PATH_IMAGE069
Figure 113902DEST_PATH_IMAGE070
,用A的公钥加密将
Figure 841686DEST_PATH_IMAGE071
Figure 455070DEST_PATH_IMAGE072
发送给C,将
Figure 926503DEST_PATH_IMAGE073
Figure 184309DEST_PATH_IMAGE074
发送给A。
(4)有标签方C计算
Figure 958361DEST_PATH_IMAGE075
Figure 668828DEST_PATH_IMAGE076
,用C的公钥加密将
Figure 943952DEST_PATH_IMAGE077
Figure 321843DEST_PATH_IMAGE078
发送给A 和B。
(5)有标签方C利用A和B发送的
Figure 516064DEST_PATH_IMAGE079
Figure 713827DEST_PATH_IMAGE080
Figure 527063DEST_PATH_IMAGE081
Figure 634827DEST_PATH_IMAGE082
,计算密文 目标函数
Figure 875316DEST_PATH_IMAGE083
同时并计算本地梯度
Figure 825954DEST_PATH_IMAGE084
(6)有标签方C,选择随机掩码
Figure 301935DEST_PATH_IMAGE085
,将
Figure 388839DEST_PATH_IMAGE086
发送给A。
(7)A解密得到
Figure 65808DEST_PATH_IMAGE087
,发送给C。
(8)C得到
Figure 238164DEST_PATH_IMAGE088
,更新本地参数。
(9)无标签方A利用B和C发送的
Figure 265638DEST_PATH_IMAGE089
Figure 207049DEST_PATH_IMAGE090
Figure 789340DEST_PATH_IMAGE091
Figure 573626DEST_PATH_IMAGE092
,计算密 文目标函数
Figure 532354DEST_PATH_IMAGE093
(10)无标签方A,选择随机掩码
Figure 593851DEST_PATH_IMAGE094
,将
Figure 222410DEST_PATH_IMAGE095
发送给C。
(11)有标签方C解密得到
Figure 369357DEST_PATH_IMAGE096
发送给A。
(12)A得到
Figure 866198DEST_PATH_IMAGE097
,更新本地参数。
(13)无标签方B利用A和C发送的
Figure 782201DEST_PATH_IMAGE098
Figure 830929DEST_PATH_IMAGE099
Figure 465172DEST_PATH_IMAGE100
Figure 765704DEST_PATH_IMAGE101
,计算密 文目标函数
Figure 411580DEST_PATH_IMAGE102
(14)无标签方B,选择随机掩码
Figure 772154DEST_PATH_IMAGE103
,将
Figure 893694DEST_PATH_IMAGE104
发送给C。
(15)有标签方C解密得到
Figure 591391DEST_PATH_IMAGE105
发送给B。
(16)B得到
Figure 481987DEST_PATH_IMAGE106
,更新本地参数。
(17)重复上述步骤(1)-(16),直至模型收敛。
本发明实施例提供的联邦学习方法,采用同态加密算法进行参与节点之间的加密交互,利用加法和乘法在密文下进行运算,保障了参与节点之间进行数据交互过程中的安全性,且通过该训练方法得到联邦子模型中的参数。
在本实施例中提供的联邦学习方法,用于在对联邦模型进行训练之前,图5是根据本发明实施例的联邦学习方法的流程图,如图5所示,该流程包括如下步骤:
S51,向其他参与节点发出加密后的联邦子模型授权请求。
S52,基于智能合约验证其他参与节点并判断是否授权,基于判断结果向其他参与节点发送授权令牌。
S53,接收其他参与节点的授权令牌,以完成联邦子模型的上链授权。
在联邦学习中引入区块链技术,通过区块链智能合约实现各参与节点数据的授权管理,通过训练参数上链实现联邦模型训练过程的审计追溯,以及通过联邦模型的链上发布实现了模型的使用审计。
在联邦模型训练前,需要对各参与节点对应的联邦子模型以及对应的特征进行授 权,可以采用智能合约进行授权,具体为:当目标参与节点
Figure 13462DEST_PATH_IMAGE107
向其他参与节点
Figure 356719DEST_PATH_IMAGE108
请求使用时,节点
Figure 139998DEST_PATH_IMAGE108
首先查验节点
Figure 619521DEST_PATH_IMAGE107
身份,然后智能合约根据访问约束条件(例 如子模型授权范围、时效、次数等),查验节点
Figure 321898DEST_PATH_IMAGE107
访问合法性,返回授权令牌或拒绝消息。 节点
Figure 277085DEST_PATH_IMAGE107
获取
Figure 457530DEST_PATH_IMAGE108
的授权令牌后,通过联邦学习开始进行联邦子模型的训练,加密交 互过程中的梯度、参数经过链上共识后存入区块中。
下面以碳信用评价为例对本发明提供的联邦学习方法进行具体说明,如图8所示,其为碳信用评价的联邦系统示意图。随着低碳经济发展逐渐被引起重视,节约能源和实现可持续发展成为国家计划的一个重要部分。政策要求发展低碳经济,倡导企业节能减排,银行信贷支持企业节能减排,碳信用评价就是能源企业和金融企业在配合国家政策的情况下,对企业制定的一些鼓励其节能减排、绿色低碳发展的信贷措施,通过低碳经济激励,促进金融与绿色低碳经济循环发展。
碳信用评价是能源数据赋能绿色金融场景,根据国家绿色金融业务要求,碳信用评价要考虑企业能耗情况、环保情况和金融情况等多方因素,综合评估企业的贷款申请,因此碳信用评价的决策过程中就需要能源企业、环保部门、金融企业等多方数据的协同分析。
请参阅图6以及图7,基于碳信用评价的联邦学习过程具体如下文描述:
构建碳信用评价业务数据空间构建,数据空间即目标特征,数据空间构造是通过深入分析碳信用评价业务数据语义、业务逻辑和业务目标,从业务数据中选取与碳信用评价具有紧耦合关系的数据集,碳信用评价属于能源数据赋能绿色金融、绿色金融反促绿色能源的双碳经济发展业务,根据国家双碳政策和绿色金融要求,通过对企业能源数据、金融数据和环保数据的综合评价,衡量企业的碳信用评价情况。碳信用评价数据空间的具体构造如下:
(1)能源数据:由于碳信用评价业务衡量的对象是企业的能源消耗情况、能耗产值情况和碳排放情况,因此碳信用评价模型的能源数据集主要包含了企业的电、气、煤、油等能源能耗数据、企业生产总值、企业碳排放权等数据,能源数据集表示如下:
Figure 322718DEST_PATH_IMAGE109
Figure 195996DEST_PATH_IMAGE110
(2)金融数据:碳信用评价业务在金融方面衡量因素和其他金融贷相同,主要是衡量企业碳信用评价额度、利率、期限等本次申请数据和累计贷款额、信用记录等历史金融记录,金融数据集表示如下:
Figure 120702DEST_PATH_IMAGE111
Figure 104839DEST_PATH_IMAGE112
(3)环保数据:碳信用评价业务在环保方面衡量的是企业对环境的影响,主要分水质监测和烟气监测两大类。水质监测中主要针对大小污水处理厂的化学需氧量COD、氨氮、pH值、流量、浊度等,烟气监测主要针对于电厂和化工厂的二氧化硫、一氧化氮和氧气的含量控制。对于碳信用评价业务来说,主要考量企业环保的资质类型和资质等级,环保数据集表示如下:
Figure 824533DEST_PATH_IMAGE113
环评等级}
特征空间构建是将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能的过程,具体包括特征构造和特征处理。
构造碳信用评价业务深度特征构造,深度特征构造主要是基于碳信用评价的数据属性采用深度特征生成算法进行更深入数据特征挖掘,在深度特征挖掘过程中计算属性信息熵衡量属性重要度,防止不重要特征参与深度特征合成。
信息熵采用如下公式计算得到:
Figure 993346DEST_PATH_IMAGE114
式中,
Figure 798491DEST_PATH_IMAGE115
表示每个离散消息发生的概率,
Figure 320740DEST_PATH_IMAGE116
Figure 770307DEST_PATH_IMAGE117
,表 示最大信息熵。
其中,
Figure 985387DEST_PATH_IMAGE118
Figure 12249DEST_PATH_IMAGE119
。根据最大信息熵定力,当信源X中包含 n个不同离散消息时,信源熵
Figure 462822DEST_PATH_IMAGE120
Figure 891529DEST_PATH_IMAGE121
,当且仅当X中各个消息出现的概 率全相等时,有
Figure 277511DEST_PATH_IMAGE122
Figure 667035DEST_PATH_IMAGE123
属性重要度采用如下公式计算得到:
Figure 796665DEST_PATH_IMAGE124
式中,
Figure 79879DEST_PATH_IMAGE125
表示属性重要度,
Figure 761396DEST_PATH_IMAGE126
表示最大信息熵,
Figure 497271DEST_PATH_IMAGE127
表示属性信息 熵。
属性重要度的取值范围为
Figure 978062DEST_PATH_IMAGE128
,其值越小预示着属性越重要。若属性熵值 越大,其与最大离散熵之间的距离越接近,得到重要度的值越小,说明该属性越重要,反之, 则非重要。最大离散熵是属性不确定性最大的评价指标,这类属性价值是很大的,预示着这 类属性的重要程度极高。根据属性熵与最大离散熵之间的距离可以确定属性的重要程度大 小,若它们之间的距离越接近,则预示着该属性越重要,反之越不重要。可以设置属性重要 度阈值,低于阈值的属性认定为不重要属性,筛选出不重要属性。
在深度特征挖掘过程中,对计算特征所采用方法的复合数量进行限制,将特征深度阈值设置为2,避免深度特征生成算法面临的特征庞大和冗余问题。在能源数据特征挖掘中,深度特征生成算法通过属性重要度计算获取能耗品种、能耗值、碳排放权、生产总值等优选属性,然后将电力、天然气、煤气、原煤、汽油、柴油等多种类能源数据表中的能耗数据通过分组统计、线性组合、数据运算等聚合操作生成综合能耗值、月均能耗值、绿色能耗占比等一系列能源消耗特征,同时深度关联生产总值等能耗企业经济数据表通过聚合操作生成单位能耗生产值、绿色能耗生产值占比等能源经济特征。在金融数据特征挖掘中,客户贷款信息表格中每个客户可能会有涉及多类贷款业务的多项贷款,深度特征生成算法使用一对多的关联来对观测值分组然后计算统计量,具体实施中通过关联聚合计算客户的多项贷款情况,获取每个客户贷款的平均值、最大值和最小值等统计量。
特征处理主要包括了特征增强、特征转换、特征降维、特征选择和特征标准化等步骤,特征增强通过对数据审查和校验进行格式内容清洗、逻辑错误清洗、异常值清洗和缺失值清洗等操作,实现数据一致性。特征转换包括了采用数据手段对特征通过实施对数变换、指数变换等操作实现样本分布的优化,也包括了对离散数值的one-hot编码变换、虚拟编码变换和效果编码变换,由于虚拟编码没有冗余且具有可解释性,本发明对能耗数据中的能耗品种、采集类型和环保数据中的环境信用等级等离散类别数据采用虚拟编码变换。特征降维采用PCA算法将特征维度从一个维度空间映射到另一个维度空间,特征数量不改变,在映射的过程中特征值会相应的变化,有效解决特征矩阵过大导致计算量大、训练时间过长的问题。特征选择采用Filter方法在不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强等条件下,从特征空间中选取最优特征子集,提高学习算法的运行时间,增加模型的可解释性。特征标准化中采用标准化缩放方法进行特征归一化处理,缩小能耗值、能耗系数、贷款额度、贷款利率等不同种类数据量级间的巨大差距,统一数据尺度,使特征值适应对输入特征尺度重要的联邦模型。
根据碳信用评价协同需求,构建三方联邦模型,进行逻辑回归子模型拆分,采用同态加密算法和通信状态动态调整的高效协同机制,构建能源、金融和环保三方安全高效协同的联邦逻辑回归模型。
假设联邦逻辑回归模型参数为
Figure 378432DEST_PATH_IMAGE129
Figure 371796DEST_PATH_IMAGE130
分别为能源数据中心、环保数 据中心和金融数据中心的模型参数,则总的线性模型,即,联邦模型为:
Figure 329387DEST_PATH_IMAGE131
式中,
Figure 676186DEST_PATH_IMAGE132
表示目标特征。
逻辑回归将联邦模型产生的预测值通过激活函数映射到0~1之间,激活函数如下:
Figure 933992DEST_PATH_IMAGE133
Figure 832678DEST_PATH_IMAGE134
得到联合目标函数为:
Figure 667779DEST_PATH_IMAGE135
通过最小化联合目标函数即可得到模型参数
Figure 942903DEST_PATH_IMAGE129
由于同态加密只能计算多项式函数,故使用泰勒公式在0点展开,则联合目标函数近似模拟为:
Figure 55215DEST_PATH_IMAGE136
因此,对第一参与节点、第二参与节点和第三参与节点三方来说,其本地子模型参数的梯度即为:
Figure 265748DEST_PATH_IMAGE137
Figure 197932DEST_PATH_IMAGE138
Figure 276746DEST_PATH_IMAGE139
在纵向联邦学习的计算中,安全计算出梯度信息,寻找到目标函数的收敛值即完成了模型的训练。Paillier同态加密满足密文的加法与数乘,三方的加密交互流程如下:
(1)三方分别生成同态加密的公私钥对,并将公钥发给其他两方。
(2)无标签方A计算
Figure 633778DEST_PATH_IMAGE140
Figure 608687DEST_PATH_IMAGE141
,用A的公钥加密将
Figure 559326DEST_PATH_IMAGE142
Figure 51618DEST_PATH_IMAGE143
发送给C, 将
Figure 138523DEST_PATH_IMAGE144
Figure 549913DEST_PATH_IMAGE145
发送给B。
(3)无标签方B计算
Figure 581322DEST_PATH_IMAGE146
Figure 1940DEST_PATH_IMAGE147
,用A的公钥加密将
Figure 943351DEST_PATH_IMAGE148
Figure 398078DEST_PATH_IMAGE149
发送给C, 将
Figure 57730DEST_PATH_IMAGE150
Figure 16459DEST_PATH_IMAGE151
发送给A。
(4)有标签方C计算
Figure 937010DEST_PATH_IMAGE152
Figure 955782DEST_PATH_IMAGE153
,用C的公钥加密将
Figure 837150DEST_PATH_IMAGE154
Figure 209357DEST_PATH_IMAGE155
发送给A 和B。
(5)有标签方C利用A和B发送的
Figure 125360DEST_PATH_IMAGE156
Figure 315033DEST_PATH_IMAGE157
Figure 808331DEST_PATH_IMAGE158
Figure 108862DEST_PATH_IMAGE159
,计算密文 目标函数
Figure 879372DEST_PATH_IMAGE160
同时并计算本地梯度
Figure 849733DEST_PATH_IMAGE161
(6)有标签方C,选择随机掩码
Figure 705694DEST_PATH_IMAGE162
,将
Figure 809916DEST_PATH_IMAGE163
发送给A。
(7)A解密得到
Figure 559566DEST_PATH_IMAGE164
,发送给C。
(8)C得到
Figure 91042DEST_PATH_IMAGE165
,更新本地参数。
(9)无标签方A利用B和C发送的
Figure 434299DEST_PATH_IMAGE166
Figure 686419DEST_PATH_IMAGE167
Figure 431522DEST_PATH_IMAGE168
Figure 133898DEST_PATH_IMAGE169
,计算密 文目标函数
Figure 964451DEST_PATH_IMAGE170
(10)无标签方A,选择随机掩码
Figure 535110DEST_PATH_IMAGE171
,将
Figure 134718DEST_PATH_IMAGE172
发送给C。
(11)有标签方C解密得到
Figure 7996DEST_PATH_IMAGE173
发送给A。
(12)A得到
Figure 932703DEST_PATH_IMAGE174
,更新本地参数。
(13)无标签方B利用A和C发送的
Figure 916839DEST_PATH_IMAGE175
Figure 636533DEST_PATH_IMAGE176
Figure 805347DEST_PATH_IMAGE177
Figure 79333DEST_PATH_IMAGE178
,计算密 文目标函数
Figure 867161DEST_PATH_IMAGE179
(14)无标签方B,选择随机掩码
Figure 316728DEST_PATH_IMAGE180
,将
Figure 531808DEST_PATH_IMAGE181
发送给C。
(15)有标签方C解密得到
Figure 824249DEST_PATH_IMAGE182
发送给B。
(16)B得到
Figure 9243DEST_PATH_IMAGE183
,更新本地参数。
(17)重复上述步骤(1)-(16),直至模型收敛。
通信状态动态调整的公式如下:
Figure 703530DEST_PATH_IMAGE184
式中,
Figure 89512DEST_PATH_IMAGE185
表示预设优化次数,
Figure 603669DEST_PATH_IMAGE186
表示当前优化次数,
Figure 608666DEST_PATH_IMAGE187
表示预设优化次数对应的 预设网络时延,
Figure 157459DEST_PATH_IMAGE188
表示当前网络时延。
网络时延动态变化是一热高低起伏的过程,当网络速度很快,时延变小的情况下, 时延的变化
Figure 448763DEST_PATH_IMAGE189
是负值,这时节点本地优化次数是下降趋势,即梯度交互的频次获得 相应的提升;当网络速度缓慢的情况下,时延的变化
Figure 574851DEST_PATH_IMAGE189
是正值,这时节点本地优化次 数是上升趋势,即梯度交互的频次获得相应的降低。网络通信效率影响的是模型训练的速 度,梯度交互频次影响的模型训练的精度,基于网络通信状态的梯度交互频次动态调整能 够在模型训练过程中兼顾模型训练速度和准确度的平衡。通过实时监控梯度交互的网络通 信时延,动态调整联邦节点本地的优化次数,可提升联邦通信的效率。
各个参与节点的样本数据集中每一类对应的样本的个数不同,而且差别较大,即,存在样本不均衡问题,这样的不均衡样本往往使机器学习算法的表现变得比较差。在样本不均衡的情况模型的准确率指标就失去了意义,因为如果模型在训练过程中追求最大的准确率作为指标,当模型将小部分的样本分到大样本里面,最终也能能达到大样本的比例样的准确率。电力数据和金融数据中具有较明显的数据不均衡特点,即正常数据远大于异常数据,负样本状态数据较少。目前常用的样本不均衡优化的方法有抽样、权重调整、核函数修正、模型修正和少数类合成过采样技术,其中抽样方法容易丢失数据信息或者导致较少样本共线性,权重调整方法无法控制合适的权重比需要多次尝试,核函数修正方法核函数调整代价高并且使用场景局限,模型修正方法由于实际规律比较难发现实现难度较高。因此本发明采用少数类合成过采样技术SMOTE对少数类数据集进行优化,避免碳信用评价数据集在分类模型上产生过拟合问题,高效地缓解少数类样本不平衡的问题,具体过程如下:
(1)随机选定N个少数类样本组成样本集
Figure 508172DEST_PATH_IMAGE190
(2)利用采样最邻近算法,计算出每个少数类样本的K个近邻,如下式:
Figure 911471DEST_PATH_IMAGE191
上式中,
Figure 639256DEST_PATH_IMAGE192
代表从少数类样本近邻中选择的邻居样本集合,
Figure 737793DEST_PATH_IMAGE193
表示少数类样 本的分布,其中采用kNN算法从少数类样本分布
Figure 474805DEST_PATH_IMAGE193
中选择邻居。
(3)从K个近邻中随机挑选N个样本进行随机线性插值,构造新的少数类样本,如下式:
Figure 732611DEST_PATH_IMAGE194
上式中
Figure 755930DEST_PATH_IMAGE195
是人为指定的参数,
Figure 466397DEST_PATH_IMAGE196
(4)将合成的新样本放入原始少数类样本集,形成新的少数类样本集合如下:
Figure 741521DEST_PATH_IMAGE197
少数类合成过采样技术SMOTE考虑到少数类样本的特征向量与其最近邻的差值, 将这个差乘以0和1之间的一个随机数,并将其加到考虑的特征向量中。从几何上看,该算法 沿着两个特定样本特征之间的直线上选择了一个随机点,这种随机选择少数类样本点的方 法能够有效使少数类样本的决策区域变得更加泛化,其具体操作是在少数类样本及其邻居 少数类样本之间在高维空间中的连线上,随机取一个新的少数类样本
Figure 460691DEST_PATH_IMAGE198
,然后将
Figure 530278DEST_PATH_IMAGE198
放进 之前的少数类样本集合
Figure 321516DEST_PATH_IMAGE199
中,就得到了一个接近平衡状态的少数类样本数据集。
在得到联邦模型后,需要对模型进行评估,在模型评估过程中,由于每个指标只能反映模型的一个方面的特点,因此不同模型在不同应用场景需要使用针对性的指标进行评估,合理地运用评估指标组合,可以实现模型对业务场景的精准分析。常见的模型评估指标包括准确度Accuracy、精确率Precision、真阳性率TPR(即召回率Recall)、假阳性率FPR、P-R曲线、F1-Score、ROC曲线等指标。准确度可依反映模型整体上的分类准确程度,但是无法在细节上区分正负样本的具体识别情况。精确率和真阳性率(召回率)反映的是正样本识别的细节情况,假阳性率反映的是负样本识别的细节情况。上述指标中,由于精确率和真阳性率(召回率)是一对即矛盾又统一的两个指标,为了提高精确率,模型需要在更有把握时才认定为正样本,但此时却会因为保守而漏掉很正样本,降低真阳性率(召回率),因此P-R曲线、F1-Score是通过平衡精准率和真阳性率(召回率)综合反映模型预测性能的指标。ROC曲线则是综合考量真阳性率(召回率)和假阳性率反映模型性能的指标。
在碳信用评价业务中,金融风险控制是业务的重要核心目标之一,风控密切关系着金融企业的安危问题,因为在电力、金融、医学等领域分类模型把负例错误分类为正例比把正例错误分类为负例的代价要高得多,因此风控是碳信用评价预测模型的重要评估因素。碳信用评价风控的关键在于对用户资格的严格审查,防止对不合格用户的审批通过,对应到碳信用评价预测模型评估中,就是假阳性率指标,因此本发明将假阳性率FPR作为模型性能的重要评估指标。除了风控,碳信用评价预测模型的另外一个重要评估因素是符合碳信用评价用户的挖掘,对应到碳信用评价预测模型评估中,就是真阳性率(召回率)指标,因此本发明将真阳性率(召回率)指标作为模型性能的重要评估指标,同时将综合反映真阳性率(召回率)和假阳性率指标的ROC曲线也作为模型性能的评估指标。此外,出于模型性能的多维度全面评估需求,将准确度和精确度作为碳信用评价预测模型的辅助评估指标,同时鉴于P-R曲线在正负样本发生变化时会随之发生剧烈的变化,选择将F1-Score作为模型的辅助评估指标。
对于碳信用评价业务来讲,上述评估指标的业务含义和计算公式如下:
(1)假阳性率的含义是实际不符合碳信用评价资格的用户中被误审批通过的比例,它反映了错误审批的程度,其计算公式如下:
Figure 400331DEST_PATH_IMAGE200
(2)真阳性率(召回率)的含义是实际符合碳信用评价资格的用户中被正确审批通过的比例,它反映了实际有碳信用评价资格用户的识别能力,其计算公式如下:
Figure 976937DEST_PATH_IMAGE201
(3)准确率的含义是所有碳信用评价申请用户中正确审批的比例,其计算公式如下:
Figure 217425DEST_PATH_IMAGE202
(4)精准度的含义是审批通过的用户中实际拥有碳信用评价资格的用户比例,其计算公式如下:
Figure 27118DEST_PATH_IMAGE203
(5)F1-Score是精准度和真阳性率(召回率)的调和平均值,其计算公式如下:
Figure 644044DEST_PATH_IMAGE204
在上述公式中,TP(True Positives)表示实际为正例且被分类器判定为正例的样本数,FP(False Positives)表示实际为负例且被分类器判定为正例的样本数,FN(FalseNegatives)表示实际为正例但被分类器判定为负例的样本数,TN(True Negatives)表示实际为负例且被分类器判定为负例的样本数。
在模型优化过程中,需要运用算法调参、特征组合和迭代更新等方式进行模型的优化与重构。模型参数优化旨在寻找使得机器学习算法在验证数据集上表现性能最佳的参数,参数的设置对于模型性能有着直接影响。根据碳信用评价预测模型业务特点,选取有效性评估和优化方法,将模型评价结果用于模型的优化与重构,可以持续提升模型的精度。
在参数调优上,依靠人工试错法手动对超参数进行调参优化,通过经验判断超参数如何进行设置能够获得更高的模型准确性,但这种方法依赖大量的经验,并且比较耗时。目前常见的自动化超参数优化方法有网格化寻优、随机寻优、贝叶斯优化方法、基于梯度的优化方法和进化寻优。由于贝叶斯优化方法会限制模型训练评估的计算次数,基于梯度的优化方法具有非凸性质的缺点,进化算法由于太耗时并且计算资源占用很大经常被用来寻找其他技术不易求解的近似解,目前用的比较多的是网络化寻优和随机寻优。鉴于随机寻优的快速性,本发明中碳信用评价业务联邦模型采用随机寻优方法,通过随机搜索在超参数网格的基础上选择随机的组合来进行模型训练,随机寻优可以控制组合的数量,基于时间和计算资源的情况,选择合理的计算次数,实现更快速准确地确定某些重要的超参数的最佳值。
碳信用评价业务联邦模型属于纵向联邦学习,能源数据中心、金融数据中心和环保数据中心的数据样本空间有较大重叠,但特征空间不同,即各数据方可以使用相同样本的所有特征来训练模型,即用相同用户的能源数据、金融数据和环保数据等不同维度特征进行联合训练。在此情形下,各数据方分别拥有部分样本数据和自身特征空间相关的模型,因而模型的训练和预测服务需要各方线上及时授权才能完成,针对这个问题,通过智能合约约束各个联邦子模型的访问,可以从时间维度和空间维度设置访问控制策略。采用智能合约实现对节点资源的自动化、可信的访问控制,无需安全管理员人为参与,基于资源拥有者发布的策略进行访问控制,判决过程公开透明。
模型训练过程可能存在恶意节点上传虚假参数或低质量模型,影响聚合过程与模型质量,本发明利用区块链记录模型训练过程的中间参数作为审计追溯证据,并激励协作节点进行模型参数验证,惩罚上传虚假参数或低质量模型的参与节点,以约束节点自利性,提高模型聚合的质量。
联邦模型训练完成之后,每个节点的自有模型都会对应很多模型使用者即模型用户,需要解决模型和用户之前的访问控制问题,本发明通过智能合约实现模型的发布和访问控制,在完成模型发布和使用的同时,实现模型使用的链上审计,支撑基于模型使用记录的模型使用权有偿兑现业务。
通过智能合约对节点样本和子模型访问进行权限控制的主要方式包括两种,分别为基于时间维度的访问权限控制以及基于空间维度的访问权限控制。基于时间维度的访问权限控制是指通过智能合约约束了资源的生命周期,以及在智能合约中规定了该资源的可访问时间区间,在时间区间内时数据资源是对外开放的,而超出规定时间区间时数据资源对外不可见,通过在智能合约中部署按照时间进行触发的事件,数据资源的时效性得到了有效保障。基于空间维度的访问权限控制则是通过在智能合约约束用户的访问范围,当智能合约收到私钥签名的查询报文时,检验其访问样本或子模型对象是否在访问空间范围内,根据验证结果为其返回访问令牌或拒绝信息。
一个使用智能合约实施碳信用评价节点样本和子模型授权的场景主要包括以下 流程:当节点
Figure 465370DEST_PATH_IMAGE205
向节点
Figure 17705DEST_PATH_IMAGE206
请求使用时,节点
Figure 190060DEST_PATH_IMAGE206
首先查验节点
Figure 345098DEST_PATH_IMAGE207
身 份,然后智能合约根据访问约束条件(例如样本或子模型授权范围、时效、次数等),查验节 点
Figure 411143DEST_PATH_IMAGE205
访问合法性,返回授权令牌或拒绝消息。节点
Figure 727855DEST_PATH_IMAGE208
获取
Figure 262873DEST_PATH_IMAGE206
的授权令牌后,通 过联邦学习平台与节点
Figure 221601DEST_PATH_IMAGE206
开展安全协同训练,协同过程中的梯度信息、参数信息 经过链上共识后存入区块中。训练结束后,节点
Figure 17519DEST_PATH_IMAGE205
发布模型调用接口通过智能合约在链 上发布模型API信息。
具体实施流程如下:
(1)协同样本/子模型请求。节点
Figure 895345DEST_PATH_IMAGE205
向节点
Figure 42293DEST_PATH_IMAGE206
访问控制智能合约发出 用加密并签名后的节点样本或子模型授权请求
Figure 804713DEST_PATH_IMAGE209
,请求中包含资源访问目的、时 间和次数等信息。
Figure 163511DEST_PATH_IMAGE210
Figure 353184DEST_PATH_IMAGE211
(2)智能合约授权。智能合约查验节点
Figure 721848DEST_PATH_IMAGE212
身份后,针对节点
Figure 22379DEST_PATH_IMAGE212
的访问约束条件 Constrainsts进行查验,决定是否授权访问,并把这些条件和被访问资源对应的令牌
Figure 183102DEST_PATH_IMAGE213
发 送给
Figure 278097DEST_PATH_IMAGE212
Figure 134058DEST_PATH_IMAGE214
Figure 113646DEST_PATH_IMAGE215
(3)协同样本训练/子模型预测。节点
Figure 4242DEST_PATH_IMAGE205
收到授权令牌
Figure 535717DEST_PATH_IMAGE216
Figure 738029DEST_PATH_IMAGE217
后,利用联邦学习平台通过各节点样本和子模型对碳信用评价模型开展训练和预测工作。
(4)协同过程上链。联邦学习的每一轮计算过程中交互的梯度信息,通过链上共识节点的共识后,存入区块中,区块上链时,通过计算本区块的数据内容弄获得当前区块的哈希值,计算方法为:
Figure 380363DEST_PATH_IMAGE218
为了便于存储,将区块中的所有交易组织成一棵默克尔树,并在区块头中存储默克尔树根的哈希值。区块生成者利用自己的私钥对当前区块的哈希值签名,防止区块在网络传播过程中被篡改,接收到新区块的节点可以通过该签名认证区块生成者的生成以及区块哈希值是否被篡改。
(5)全局模型链上发布。模型训练完成后,模型入参参数和出参参数以API接口的形式通过智能合约在链上发布,并设置权限策略对API用户进行访问控制,API请求信息格式如下:
Figure 125465DEST_PATH_IMAGE219
在联邦学习协同框架引入区块链技术,通过区块链智能合约实现协作各方样本的授权管理,通过训练参数上链实现碳信用评价模型训练过程的审计追溯,以及,通过联邦全局模型链上发布实现了碳信用评价模型的使用审计。
如图9所示,此为基于碳信用评价的联邦平台装置的结构示意图,该装置包括至少一个通信服务组件用于远程联邦学习网络通信和协议交互,至少一个代理组件用于本地用户的访问操作任务分发,至少一个建模工作台用于多方安全计算和联邦学习等功能的可视化操作,至少一个机器学习服务组件提供多种多方安全计算和联邦学习算法,至少一个API服务组件用于多方安全计算和联邦学习模型发布为用户提供即时的数据服务,至少一个存储服务组件,用于存储多方安全计算和联邦学习过程数据和模型参数,至少一个上链服务组件,用于本地样本/子模型授权策略上链和全局模型链上发布。
其中通信服务组件包括gRPC、HTTP和网关服务,为了能尽可能少地向对方暴露服务信息,以及简便性调用训练服务,需要引入网关服务实现服务路由,对外暴露gRPC接口以及HTTP接口,外部系统的所有请求都将委托给网关服务进行请求转发。代理组件可以采用Nginx实现,负责用户任务调度,负责解析配置参数,以及进行整个训练任务的调度,可以利用设计模式中的责任链模式,按照指定的组件运行顺序,将一个训练任务转化成一条责任链,并提交给任务线程池去执行。建模工作台可以通过可视化的界面,灵活调用组配建模组件,设计建模流程。API服务组件可以通过SDK形式发布API调用接口,外部系统可以通过服务发现获取接口地址加以调用,开展预测任务。存储服务组件可以采用HDFS、Mysql、Redis及其他方式实现,通过将每次预测的结果存储起来以满足业务的需求,同时也需要将模型存储起来,不需要每次发起推理请求时都从分布式存储系统中加载模型,从而保证安全也提高了效率。
本方案结合绿色金融政策要求和碳信用评价业务逻辑构建碳信用评价数据空间,实现了碳信用评价业务决策要素的精准定位。通过在深度特征挖掘过程中计算属性信息熵衡量属性重要度,采用属性优选的深度特征构造方法,防止不重要特征参与深度特征合成,避免了深度特征生成算法面临的特征庞大和冗余问题。设计三方协同的联邦逻辑回归模型,在模型交互过程中引入同态加密隐私机制,利用加法和乘法同态加密保证在交互中不能获取对方的敏感信息,同时构建了基于通信状态变化对节点迭代次数进行动态调整的策略方法,通过节点迭代次数实现交互频次的增减控制,提升模型训练效率。结合碳信用评价风控需求特点选取最佳评估指标,并设置满足业务需求的指标阈值,能够实现碳信用评价的最优预测。设计节点样本/子模型链上智能合约授权机制,能够基于发布的策略实现对节点资源的自动化、可信的访问控制。采用的模型交互过程链上存证技术,利用区块链记录模型训练过程的中间参数作为审计追溯证据,可以约束节点自利性,提高模型聚合的质量。通过智能合约进行模型的发布和访问控制,可以实现模型使用的链上使用和审计,同时也可以支撑基于模型使用记录进一步开展的模型有偿使用业务。
请参阅图10,图10是本发明可选实施例提供的一种电子设备的结构示意图,如图10所示,该电子设备可以包括:至少一个处理器601,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口603,存储器604,至少一个通信总线602。其中,通信总线602用于实现这些组件之间的连接通信。其中,通信接口603可以包括显示屏(Display)、键盘(Keyboard),可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图9所描述的装置,存储器604中存储应用程序,且处理器601调用存储器604中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线602可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器604可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器604还可以包括上述种类的存储器的组合。
其中,处理器601可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic, 缩写:GAL)或其任意组合。
可选地,存储器604还用于存储程序指令。处理器601可以调用程序指令,实现如本申请实施例中所示的适用碳信用评价的联邦学习方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的联邦学习方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种适用碳信用评价的联邦学习方法,其特征在于,应用于目标参与节点,所述方法包括:
获取所述目标参与节点的目标联邦子模型,所述目标联邦子模型是由联邦模型拆分后得到的,所述联邦模型包括至少3个联邦子模型,所述目标联邦子模型包括模型参数以及所述目标参与节点的目标特征;
获取当前网络时延以及目标特征的预设优化次数;
基于所述当前网络时延与所述预设优化次数对应的预设网络时延的差异,确定当前优化次数;
所述当前优化次数采用如下公式计算得到:
Figure 464443DEST_PATH_IMAGE001
式中,
Figure 584846DEST_PATH_IMAGE002
表示预设优化次数,
Figure 630163DEST_PATH_IMAGE003
表示当前优化次数,
Figure 727169DEST_PATH_IMAGE004
表示预设优化次数对应的预 设网络时延,
Figure 807121DEST_PATH_IMAGE005
表示当前网络时延;
根据当前优化次数对所述目标特征进行本地优化;
将所述目标特征的优化结果与其他参与节点进行加密交互,以对模型参数进行优化确定所述目标联邦子模型的目标模型参数。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标特征的优化结果与其他参与节点进行加密交互,包括:
基于同态加密算法计算公钥和私钥,并将所述公钥发送给其他参与节点;
计算目标联邦子模型对应的模型参数与目标特征的乘积,以及模型参数与目标特征的乘积的平方项,并将所述乘积以及乘积的平方项发送给其他参与节点;
将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点。
3.根据权利要求2所述的方法,其特征在于,在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之前,还包括:
接收其他参与节点采用所述指定参与节点的公钥加密后的模型参数与对应目标特征的乘积,以及模型参数与对应目标特征的乘积的平方项;
基于所述接收的其他参与节点发送的乘积以及乘积的平方项,确定密文目标函数;
基于所述密文目标函数计算所述目标参与节点的密文梯度,所述密文梯度采用指定参与节点的公钥加密,所述密文目标函数采用如下公式计算得到:
Figure 832846DEST_PATH_IMAGE006
所述目标参与节点的密文梯度为:
Figure 365458DEST_PATH_IMAGE007
式中,L表示所述密文目标函数,y i 表示全局模型预测值,
Figure 767621DEST_PATH_IMAGE008
表示参与节点对应的联邦子 模型的模型参数,
Figure 702079DEST_PATH_IMAGE009
表示参与节点对应的目标特征,
Figure 898705DEST_PATH_IMAGE010
Figure 653034DEST_PATH_IMAGE011
表示所述目标联邦 子模型的模型参数,
Figure 655625DEST_PATH_IMAGE012
表示所述目标参与节点的目标特征,
Figure 382273DEST_PATH_IMAGE013
表示所述采用指 定参与节点的公钥加密的密文梯度。
4.根据权利要求3所述的方法,其特征在于,在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之后,还包括:
接收所述其他参与节点对所述目标参与节点的密文梯度解密后的梯度结果,以确定所述目标联邦子模型的目标模型参数。
5.根据权利要求1所述的方法,其特征在于,在获取所述目标参与节点的目标联邦子模型之前,所述方法还包括:
从数据集中提取数据特征,作为数据原始特征;
计算所述数据特征的信息熵,并基于所述信息熵计算数据特征的属性重要度,以实现对所述数据特征的优化,得到数据深度特征;
对所述数据原始特征和所述数据深度特征进行融合,得到所述目标参与节点的目标特征。
6.根据权利要求5所述的方法,其特征在于,所述信息熵采用如下公式计算得到:
Figure 77696DEST_PATH_IMAGE014
式中,
Figure 522584DEST_PATH_IMAGE015
表示每个离散消息发生的概率,
Figure 63287DEST_PATH_IMAGE016
,表示 最大信息熵;
所述属性重要度采用如下公式计算得到:
Figure 910020DEST_PATH_IMAGE017
式中,
Figure 510766DEST_PATH_IMAGE018
表示属性重要度,
Figure 442950DEST_PATH_IMAGE019
表示最大信息熵,
Figure 787343DEST_PATH_IMAGE020
表示属性信息熵。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向所述其他参与节点发出加密后的所述联邦子模型授权请求;
基于智能合约验证所述其他参与节点并判断是否授权,基于判断结果向所述其他参与节点发送授权令牌;
接收所述其他参与节点的授权令牌,以完成联邦子模型的上链授权。
8.一种适用碳信用评价的联邦学习系统,其特征在于,包括:
至少三个参与节点,所述参与节点用于执行权利要求1-7中任一项所述的适用碳信用评价的联邦学习方法。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的适用碳信用评价的联邦学习方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的适用碳信用评价的联邦学习方法。
CN202210733412.0A 2022-06-27 2022-06-27 一种适用碳信用评价的联邦学习方法、系统及电子设备 Active CN114818011B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210733412.0A CN114818011B (zh) 2022-06-27 2022-06-27 一种适用碳信用评价的联邦学习方法、系统及电子设备
PCT/CN2023/113983 WO2024002389A1 (zh) 2022-06-27 2023-08-21 一种适用碳信用评价的联邦学习方法、系统、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210733412.0A CN114818011B (zh) 2022-06-27 2022-06-27 一种适用碳信用评价的联邦学习方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN114818011A CN114818011A (zh) 2022-07-29
CN114818011B true CN114818011B (zh) 2022-09-27

Family

ID=82522610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210733412.0A Active CN114818011B (zh) 2022-06-27 2022-06-27 一种适用碳信用评价的联邦学习方法、系统及电子设备

Country Status (2)

Country Link
CN (1) CN114818011B (zh)
WO (1) WO2024002389A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818011B (zh) * 2022-06-27 2022-09-27 国网智能电网研究院有限公司 一种适用碳信用评价的联邦学习方法、系统及电子设备
CN115185543B (zh) * 2022-09-09 2022-11-25 腾讯科技(深圳)有限公司 模型部署方法、打包方法、装置、设备及存储介质
CN115187151B (zh) * 2022-09-13 2022-12-09 北京锘崴信息科技有限公司 基于联邦学习的排放可信分析方法及金融信息评价方法
WO2024062400A1 (en) * 2022-09-21 2024-03-28 Genxt Ltd Mediation systems and methods for a federated confidential computing environment
CN116341684B (zh) * 2023-05-26 2023-08-04 蓝象智联(杭州)科技有限公司 提高模型泛化性能的正则惩罚施加方法、装置及存储介质
CN117371025B (zh) * 2023-09-18 2024-04-16 泉城省实验室 一种去中心化机器学习模型训练方法及系统
CN117786354A (zh) * 2023-12-26 2024-03-29 国网上海市电力公司 基于联邦学习的电力数据风控方法、设备和介质
CN117938355B (zh) * 2024-03-21 2024-06-25 中国信息通信研究院 一种基于区块链的联合预测方法、介质及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113992694A (zh) * 2021-10-01 2022-01-28 浙商银行股份有限公司 一种基于联邦学习的区块链节点集群监控方法及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001502B (zh) * 2020-08-24 2022-06-21 平安科技(深圳)有限公司 高延时网络环境鲁棒的联邦学习训练方法及装置
CN112668128B (zh) * 2020-12-21 2024-05-28 国网辽宁省电力有限公司物资分公司 联邦学习系统中终端设备节点的选择方法及装置
CN112994981B (zh) * 2021-03-03 2022-05-10 上海明略人工智能(集团)有限公司 时延数据的调整方法和装置、电子设备和存储介质
CN114818011B (zh) * 2022-06-27 2022-09-27 国网智能电网研究院有限公司 一种适用碳信用评价的联邦学习方法、系统及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113992694A (zh) * 2021-10-01 2022-01-28 浙商银行股份有限公司 一种基于联邦学习的区块链节点集群监控方法及设备

Also Published As

Publication number Publication date
WO2024002389A1 (zh) 2024-01-04
CN114818011A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114818011B (zh) 一种适用碳信用评价的联邦学习方法、系统及电子设备
US20220230071A1 (en) Method and device for constructing decision tree
Witt et al. Decentral and incentivized federated learning frameworks: A systematic literature review
CN108681966A (zh) 一种基于区块链的信息监管方法及装置
Lei et al. A renewable energy microgrids trading management platform based on permissioned blockchain
CN111459461A (zh) 基于物联网和区块链技术的用能权核定及交易系统和方法
CN112380572B (zh) 一种多方数据协同场景下的隐私保护量化评估方法和系统
Zhang et al. FedSky: An efficient and privacy-preserving scheme for federated mobile crowdsensing
US11954174B2 (en) Sharing financial crime knowledge
CN111091467A (zh) 基于区块链与深度学习的股权交易管理计算机仿真系统
Yang et al. An explainable federated learning and blockchain-based secure credit modeling method
CN115563859A (zh) 一种基于分层联邦学习的电力负荷预测方法、装置及介质
Dong Application of Big Data Mining Technology in Blockchain Computing
Zhao et al. Privacy-preserving electricity theft detection based on blockchain
He et al. Smart grid nontechnical loss detection based on power gateway consortium blockchain
Tang et al. A Survey on Blockchain-Based Federated Learning: Categorization, Application and Analysis.
CN117335960B (zh) 一种零信任网络中基于区块链的碳数据共享访问方法及装置
US20230162203A1 (en) Emissions records ledger for correlated emission analytics
CN117726421B (zh) 一种应用于银行的权益管理方法
US11756040B2 (en) System and method for generating a contention scheme
US20230267453A1 (en) Apparatuses and methods for calculating foreign exchange advantages
Chen Enterprise Financial Data Sharing Based on Information Fusion Cloud Computing Environment
Marx et al. WW-FL: Secure and Private Large-Scale Federated Learning
US20220318648A1 (en) Artificial intelligence (ai)-based blockchain management
Yang Development and supervision of financial technology based on blockchain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant