CN114818011A

CN114818011A - 一种适用碳信用评价的联邦学习方法、系统及电子设备

Info

Publication number: CN114818011A
Application number: CN202210733412.0A
Authority: CN
Inventors: 石聪聪; 黄秀丽; 费稼轩; 翟雨佳; 于鹏飞
Original assignee: State Grid Smart Grid Research Institute of SGCC
Current assignee: State Grid Smart Grid Research Institute of SGCC
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-07-29
Anticipated expiration: 2042-06-27
Also published as: US20240281745A1; CN114818011B; WO2024002389A1

Abstract

本发明公开了一种适用碳信用评价的联邦学习方法、系统及电子设备，方法包括：获取目标参与节点的目标联邦子模型，目标联邦子模型是由联邦模型拆分后得到的，联邦模型包括至少3个联邦子模型，目标联邦子模型包括模型参数以及目标参与节点的目标特征；获取当前网络时延以及目标特征的预设优化次数；基于当前网络时延与预设优化次数对应的预设网络时延的差异，确定当前优化次数；根据当前优化次数对目标特征进行本地优化；将目标特征的优化结果与其他参与节点进行加密交互，以对模型参数进行优化确定目标联邦子模型的目标模型参数。本技术方案提升了多方数据交互时的安全性。

Description

一种适用碳信用评价的联邦学习方法、系统及电子设备

技术领域

本发明涉及信息安全领域，具体涉及一种适用碳信用评价的联邦学习方法、系统及电子设备。

背景技术

区块链技术是一种去中心化的分布式数据库技术，具有去中心化以及难以篡改等特点，区块链所记录的信息更加真实可靠，随着网络技术的快速发展，区块链的相关技术日渐完善成熟。

联邦学习是在保障大数据交换时的信息安全、保护终端数据以及个人数据隐私、保证合法合规的前提下，在多参与方或多计算节点之间开展高效率的机器学习的一种新兴人工智能基础技术，采用一种去中心化分布系统保证用户的隐私安全。区块链作为一个去中心化、数据加密、不可篡改的分布式共享数据库，可以为联邦学习的数据交换提供数据保密性，从而保证各参与方之间的数据安全。

出于数据隐私保护法律法规的日趋完善，当需要多方数据参与时，通过数据集中和数据交换整合不同行业的数据资源面临越来越多的限制和风险，在这个过程中需要满足多方数据的隐私保护。

发明内容

有鉴于此，本发明实施例提供了一种适用碳信用评价的联邦学习方法、系统、电子设备及存储介质，以解决多方数据交互时的隐私安全性不足的问题。

根据第一方面，本发明实施例提供了一种适用碳信用评价的联邦学习方法，包括：

获取所述目标参与节点的目标联邦子模型，所述目标联邦子模型是由联邦模型拆分后得到的，所述联邦模型包括至少3个联邦子模型，所述目标联邦子模型包括模型参数以及所述目标参与节点的目标特征；

获取当前网络时延以及目标特征的预设优化次数；

基于所述当前网络时延与所述预设优化次数对应的预设网络时延的差异，确定当前优化次数；

根据当前优化次数对所述目标特征进行本地优化；

将所述目标特征的优化结果与其他参与节点进行加密交互，以对模型参数进行优化确定所述目标联邦子模型的目标模型参数。

本发明实施例提供的适用碳信用评价的联邦学习方法，将联邦子模型分发至对应的各参与节点，目标参与节点基于网络时延以及对目标特征的预设优化次数确定当前优化次数，并在参与节点之间进行加密交互计算前基于当前优化次数在本地进行优化，在进行加密交互计算后确定目标联邦子模型的目标模型参数，提升了多方参与模型的安全性。

在一个实施方式中，当前优化次数采用如下公式计算得到：

式中，

表示预设优化次数，

表示当前优化次数，

表示预设优化次数对应的预设网络时延，

表示当前网络时延。

在一个实施方式中，所述将所述目标特征的优化结果与其他参与节点进行加密交互，包括：

基于同态加密算法计算公钥和私钥，并将所述公钥发送给其他参与节点；

计算目标联邦子模型对应的模型参数与目标特征的乘积，以及模型参数与目标特征的乘积的平方项，并将所述乘积以及乘积的平方项发送给其他参与节点；

将采用指定其他参与节点的公钥加密的密文梯度发送给对应的其他所有参与节点。

在一个实施方式中，在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之前，还包括：

接收其他参与节点采用所述指定参与节点的公钥加密后的模型参数与对应目标特征的乘积，以及模型参数与对应目标特征的乘积的平方项；

基于所述接收的其他参与节点发送的乘积以及乘积的平方项，确定密文目标函数；

基于所述密文目标函数计算所述目标参与节点的密文梯度，所述密文梯度采用指定参与节点的公钥加密，所述密文目标函数采用如下公式计算得到：

所述目标参与节点的密文梯度为：

式中，L表示所述密文目标函数，y _i表示全局模型预测值，

表示参与节点对应的联邦子模型的模型参数，

表示参与节点对应的目标特征，

，

表示所述目标联邦子模型的模型参数，

表示所述目标参与节点的目标特征，

表示所述采用指定参与节点的公钥加密的密文梯度。

在一个实施方式中，在所述将采用指定参与节点的公钥加密的密文梯度发送给其他所有参与节点之后，还包括：

接收所述其他参与节点对所述目标参与节点的密文梯度解密后的梯度结果，以确定所述目标联邦子模型的目标模型参数。

本发明实施例提供的适用碳信用评价的联邦学习方法，采用同态加密算法进行参与节点之间的加密交互，利用加法和乘法在密文下进行运算，保障了参与节点之间进行数据交互过程中的安全性，且通过该训练方法得到联邦子模型中的参数。

在一个实施方式中，在获取所述目标参与节点的目标联邦子模型之前，所述方法还包括：

从数据集中提取数据特征，作为数据原始特征；

计算所述数据特征的信息熵，并基于所述信息熵计算数据特征的属性重要度，以实现对所述数据特征的优化，得到数据深度特征；

对所述数据原始特征和所述数据深度特征进行融合，得到所述目标参与节点的目标特征。

在一个实施方式中，信息熵采用如下公式计算得到：

式中，

表示每个离散消息发生的概率，

为

，表示最大信息熵；

所述属性重要度采用如下公式计算得到：

式中，

表示属性重要度，

表示最大信息熵，

表示属性信息熵。

在一个实施方式中，所述方法还包括：

向所述其他参与节点发出加密后的所述联邦子模型授权请求；

基于智能合约验证所述其他参与节点并判断是否授权，基于判断结果向所述其他参与节点发送授权令牌；

接收所述其他参与节点的授权令牌，以完成联邦子模型的上链授权。

根据第二方面，本发明实施例提供了一种联邦学习系统，包括：

至少三个参与节点，所述参与节点用于执行第一方面或第一方面的任意一种实施方式中所述的适用碳信用评价的联邦学习方法。

根据第三方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的适用碳信用评价的联邦学习方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的适用碳信用评价的联邦学习方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的联邦学习方法的流程图；

图2是根据本发明实施例的确定目标特征的流程图；

图3是根据本发明实施例的加密交互的方法的流程图；

图4是根据本发明实施例的加密交互的方法的流程图；

图5是根据本发明实施例的联邦学习方法的流程图；

图6是根据本发明实施例的联邦学习方法的流程图；

图7是根据本发明实施例的联邦学习方法的流程图；

图8是根据本发明实施例的碳信用评价的联邦系统示意图；

图9是根据本发明实施例的基于碳信用评价的联邦平台装置的结构示意图；

图10是根据本发明实施例的电子设备的硬件结构示意图；

图11是根据本发明实施例的联邦学习系统的结构示意图；

图12是根据本发明实施例的适用碳信用评价的联邦学习系统的功能模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图11所示，根据本发明实施例，提供了一种适用碳信用评价的联邦学习系统，包括至少三个参与节点，参与节点用于执行联邦学习方法。碳信用是指经过联合国或联合国认可的减排组织认证的条件下，国家或企业以增加能源使用效率、减少污染或减少开发等方式减少碳排放，因此得到可以进入碳交易市场的碳排放计量单位，联邦学习系统中的参与节点可以包括能源企业、环保部门以及金融企业。适用碳信用评价的联邦学习系统包括如图12所示的功能模块，具体见下文实施例。

根据本发明实施例，提供了一种联邦学习方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种适用碳信用评价的联邦学习方法，可用于如手机、电脑、平板电脑等，图1是根据本发明实施例的联邦学习方法的流程图，如图1所示，该流程包括如下步骤：

S11，获取目标参与节点的目标联邦子模型。

根据需求构建多方联邦模型，联邦模型是基于联邦学习的模型，联邦模型通常包含多方参与节点，参与节点即参与该联邦模型的业务机构，通常联邦学习包括水平联邦学习和纵向联邦学习，其中纵向联邦学习对应于两个以上的不同机构。对联邦模型进行拆分可以得到与每个参与节点对应的联邦子模型，本方案的联邦学习方法中的联邦模型中可以包括至少3个联邦子模型。

目标参与节点为多各参与节点中的其中一个，目标联邦子模型为该目标参与节点对应的联邦子模型目标联邦子模型包括模型参数以及目标参与节点的目标特征，通过对参与节点的数据属性进行筛选和处理可以得到目标特征，不同的参与节点有其对应的目标特征。需要说明的是，对其他参与节点对应的联邦模型也采用一样的计算方法。

S12，获取当前网络时延以及目标特征的预设优化次数。

S13，基于当前网络时延与预设优化次数对应的预设网络时延的差异，确定当前优化次数。

在联邦学习系统中，各个参与节点获取各自对应的联邦子模型后需要对联邦子模型进行训练，训练过程中需要与其他参与节点进行交互以获取需要的数据，而联邦模型的各个参与节点可能分布在各个地方，因此，网络中的通信效率会对整体速度产生较大的影响。若通信网络的速度较为缓慢，为了提升交互的效率，可以适当减少参与节点之间的交互频次，调整对目标特征的预设优化次数，即在本次交互计算前在本地的优化次数，得到当前优化次数。

在一个实施方式中，当前优化次数采用如下公式计算得到：

式中，

表示预设优化次数，

表示当前优化次数，

表示预设优化次数对应的预设网络时延，

表示当前网络时延。

S14，根据当前优化次数对目标特征进行本地优化。

在确定当前优化次数后对参与节点对应的目标特征进行优化。

S15，将目标特征的优化结果与其他参与节点进行加密交互，以对模型参数进行优化确定目标联邦子模型的目标模型参数。

基于得到的对目标特征的优化，联邦学习的本质是安全的跨域联合建模，因此需要对参与节点进行加密交互计算，以保护各参与节点的隐私，加密交互计算可采用同态加密、差分隐私、不经意传输等。基于加密交互计算，得到联邦子模型参数的梯度，梯度可以表示联邦子模型中的模型参数的优化方向，确认优化较好的梯度后即可确定目标联邦子模型的目标模型参数，从而完成对联邦子模型的训练。

联邦子模型参数的梯度采用如下公式计算得到：

，

式中，L为联合目标函数，

为全局模型预测值。

式中，

，

分别表示各联邦子模型的模型参数，

分别表示各联邦子模型的目标特征，目标特征即特征向量。

在本实施例中提供了确定目标特征的方法，用于在获取目标参与节点的目标联邦子模型之前，即，对应于图1所示实施例中的S11，图2是根据本发明实施例的确定目标特征的方法的流程图，如图2所示，该流程包括如下步骤：

S21，从数据集中提取数据特征，作为数据原始特征。

基于所需要构建的联邦模型的需求，参与节点选取数据特征构建数据集，每个参与节点有其对应的数据集，从该数据集中提取数据特征作为该参与节点的数据原始特征，其中数据特征可以为数据的属性。

S22，计算数据特征的信息熵，并基于信息熵计算数据特征的属性重要度，以实现对数据特征的优化，得到数据深度特征。

对数据特征进行信息熵计算，基于得到的信息熵度量各数据特征的重要程度，从而实现对数据特征的属性优化，避免不重要的特征参与深度特征合成。之后通过特征处理可以生成数据深度特征，特征处理包括了特征增强、特征转换、特征降维、特征选择和特征标准化等。

在一个实施方式中，信息熵采用如下公式计算得到：

式中，

表示每个离散消息发生的概率，

为

，表示最大信息熵；

所述属性重要度采用如下公式计算得到：

式中，

表示属性重要度，

表示最大信息熵，

表示属性信息熵。

S23，对数据原始特征和数据深度特征进行融合，得到目标参与节点的目标特征。

将得到的数据原始特征和数据深度特征进行融合，构成数据特征空间，即，目标参与节点的目标特征。需要说明的是，其他参与节点也采用同样的方式确定对应的目标特征。

在本实施例中提供了加密交互的方法，即，对应于图1所示实施例中的S15，图3是根据本发明实施例的加密交互的方法的流程图，如图3所示，该流程包括如下步骤：

S31，基于同态加密算法计算公钥和私钥，并将公钥发送给其他参与节点。

S32，计算目标联邦子模型对应的模型参数与目标特征的乘积，以及模型参数与目标特征的乘积的平方项，并将乘积以及乘积的平方项发送给其他参与节点。

S33，将采用指定其他参与节点的公钥加密的密文梯度发送给对应的其他所有参与节点。

指定其他参与节点可以由目标参与节点进行指定，即可以为其他任一参与节点，此时目标参与节点为加密交互的主导方。当目标参与节点为加密交互的参与方时，可以采用主导方参与节点的公钥对目标参与节点以及其他参与方节点的梯度进行加密。

在S33之前还包括如图4所示的流程，该流程包括如下步骤：

S41，接收其他参与节点采用所述指定参与节点的公钥加密后的模型参数与对应目标特征的乘积，以及模型参数与对应目标特征的乘积的平方项。

S42，基于接收的其他参与节点发送的乘积以及乘积的平方项，确定密文目标函数。

S43，基于密文目标函数计算所述目标参与节点的密文梯度。

密文梯度采用指定参与节点的公钥加密，所述密文目标函数采用如下公式计算得到：

所述目标参与节点的密文梯度为：

式中，L表示所述密文目标函数，y _i表示全局模型预测值，

表示参与节点对应的联邦子模型的模型参数，

表示参与节点对应的目标特征，

，

表示所述目标联邦子模型的模型参数，

表示所述目标参与节点的目标特征，

表示所述采用指定参与节点的公钥加密的密文梯度。

在一个实施例中，在S33之后，还包括：接收所述其他参与节点对目标参与节点的密文梯度解密后的梯度结果，以确定目标联邦子模型的目标模型参数。

下面对上述加密交互的方法进行具体描述，该加密交互的方法可以采用Paillier 同态加密隐私安全交互算法，以联邦模型包括3个联邦子模型为例，假设逻辑回归模型参数为为

，

分别为第一参与节点、第二参与节点和第三参与节点的模型参数，则总的线性模型，即，联邦模型为：

式中，

表示目标特征。

逻辑回归将联邦模型产生的预测值通过激活函数映射到0~1之间，激活函数如下：

令

得到联合目标函数为：

通过最小化联合目标函数即可得到模型参数

。

由于同态加密只能计算多项式函数，故使用泰勒公式在0点展开，则联合目标函数近似模拟为：

因此，对第一参与节点、第二参与节点和第三参与节点三方来说，其本地子模型参数的梯度即为：

在纵向联邦学习的计算中，安全计算出梯度信息，寻找到目标函数的收敛值即完成了模型的训练。Paillier同态加密满足密文的加法与数乘，三方的加密交互流程如下：

（1）三方分别生成同态加密的公私钥对，并将公钥发给其他两方。

（2）无标签方Ａ计算

和

，用A的公钥加密将

和

发送给C，将

和

发送给B。

（3）无标签方B计算

和

，用A的公钥加密将

和

发送给C，将

和

发送给A。

（4）有标签方C计算

和

，用C的公钥加密将

和

发送给A 和B。

（5）有标签方C利用A和B发送的

、

、

、

，计算密文目标函数

同时并计算本地梯度

（6）有标签方C，选择随机掩码

，将

发送给A。

（7）A解密得到

，发送给C。

（8）C得到

，更新本地参数。

（9）无标签方Ａ利用B和C发送的

、

、

、

，计算密文目标函数

（10）无标签方A，选择随机掩码

，将

发送给C。

（11）有标签方C解密得到

发送给A。

（12）A得到

，更新本地参数。

（13）无标签方B利用A和C发送的

、

、

、

，计算密文目标函数

（14）无标签方B，选择随机掩码

，将

发送给C。

（15）有标签方C解密得到

发送给B。

（16）B得到

，更新本地参数。

（17）重复上述步骤（1）-（16），直至模型收敛。

本发明实施例提供的联邦学习方法，采用同态加密算法进行参与节点之间的加密交互，利用加法和乘法在密文下进行运算，保障了参与节点之间进行数据交互过程中的安全性，且通过该训练方法得到联邦子模型中的参数。

在本实施例中提供的联邦学习方法，用于在对联邦模型进行训练之前，图5是根据本发明实施例的联邦学习方法的流程图，如图5所示，该流程包括如下步骤：

S51，向其他参与节点发出加密后的联邦子模型授权请求。

S52，基于智能合约验证其他参与节点并判断是否授权，基于判断结果向其他参与节点发送授权令牌。

S53，接收其他参与节点的授权令牌，以完成联邦子模型的上链授权。

在联邦学习中引入区块链技术，通过区块链智能合约实现各参与节点数据的授权管理，通过训练参数上链实现联邦模型训练过程的审计追溯，以及通过联邦模型的链上发布实现了模型的使用审计。

在联邦模型训练前，需要对各参与节点对应的联邦子模型以及对应的特征进行授权，可以采用智能合约进行授权，具体为：当目标参与节点

向其他参与节点

请求使用时，节点

首先查验节点

身份，然后智能合约根据访问约束条件（例如子模型授权范围、时效、次数等），查验节点

访问合法性，返回授权令牌或拒绝消息。节点

获取

的授权令牌后，通过联邦学习开始进行联邦子模型的训练，加密交互过程中的梯度、参数经过链上共识后存入区块中。

下面以碳信用评价为例对本发明提供的联邦学习方法进行具体说明，如图8所示，其为碳信用评价的联邦系统示意图。随着低碳经济发展逐渐被引起重视，节约能源和实现可持续发展成为国家计划的一个重要部分。政策要求发展低碳经济，倡导企业节能减排，银行信贷支持企业节能减排，碳信用评价就是能源企业和金融企业在配合国家政策的情况下，对企业制定的一些鼓励其节能减排、绿色低碳发展的信贷措施，通过低碳经济激励，促进金融与绿色低碳经济循环发展。

碳信用评价是能源数据赋能绿色金融场景，根据国家绿色金融业务要求，碳信用评价要考虑企业能耗情况、环保情况和金融情况等多方因素，综合评估企业的贷款申请，因此碳信用评价的决策过程中就需要能源企业、环保部门、金融企业等多方数据的协同分析。

请参阅图6以及图7，基于碳信用评价的联邦学习过程具体如下文描述：

构建碳信用评价业务数据空间构建，数据空间即目标特征，数据空间构造是通过深入分析碳信用评价业务数据语义、业务逻辑和业务目标，从业务数据中选取与碳信用评价具有紧耦合关系的数据集，碳信用评价属于能源数据赋能绿色金融、绿色金融反促绿色能源的双碳经济发展业务，根据国家双碳政策和绿色金融要求，通过对企业能源数据、金融数据和环保数据的综合评价，衡量企业的碳信用评价情况。碳信用评价数据空间的具体构造如下：

（1）能源数据：由于碳信用评价业务衡量的对象是企业的能源消耗情况、能耗产值情况和碳排放情况，因此碳信用评价模型的能源数据集主要包含了企业的电、气、煤、油等能源能耗数据、企业生产总值、企业碳排放权等数据，能源数据集表示如下：

（2）金融数据：碳信用评价业务在金融方面衡量因素和其他金融贷相同，主要是衡量企业碳信用评价额度、利率、期限等本次申请数据和累计贷款额、信用记录等历史金融记录，金融数据集表示如下：

（3）环保数据：碳信用评价业务在环保方面衡量的是企业对环境的影响，主要分水质监测和烟气监测两大类。水质监测中主要针对大小污水处理厂的化学需氧量COD、氨氮、pH值、流量、浊度等，烟气监测主要针对于电厂和化工厂的二氧化硫、一氧化氮和氧气的含量控制。对于碳信用评价业务来说，主要考量企业环保的资质类型和资质等级，环保数据集表示如下：

环评等级}

特征空间构建是将数据转换为能更好地表示潜在问题的特征，从而提高机器学习性能的过程，具体包括特征构造和特征处理。

构造碳信用评价业务深度特征构造，深度特征构造主要是基于碳信用评价的数据属性采用深度特征生成算法进行更深入数据特征挖掘，在深度特征挖掘过程中计算属性信息熵衡量属性重要度，防止不重要特征参与深度特征合成。

信息熵采用如下公式计算得到：

式中，

表示每个离散消息发生的概率，

为

，表示最大信息熵。

其中，

，

。根据最大信息熵定力，当信源X中包含 n个不同离散消息时，信源熵

有

，当且仅当X中各个消息出现的概率全相等时，有

即

。

属性重要度采用如下公式计算得到：

式中，

表示属性重要度，

表示最大信息熵，

表示属性信息熵。

属性重要度的取值范围为

，其值越小预示着属性越重要。若属性熵值越大，其与最大离散熵之间的距离越接近，得到重要度的值越小，说明该属性越重要，反之，则非重要。最大离散熵是属性不确定性最大的评价指标，这类属性价值是很大的，预示着这类属性的重要程度极高。根据属性熵与最大离散熵之间的距离可以确定属性的重要程度大小，若它们之间的距离越接近，则预示着该属性越重要，反之越不重要。可以设置属性重要度阈值，低于阈值的属性认定为不重要属性，筛选出不重要属性。

在深度特征挖掘过程中，对计算特征所采用方法的复合数量进行限制，将特征深度阈值设置为2，避免深度特征生成算法面临的特征庞大和冗余问题。在能源数据特征挖掘中，深度特征生成算法通过属性重要度计算获取能耗品种、能耗值、碳排放权、生产总值等优选属性，然后将电力、天然气、煤气、原煤、汽油、柴油等多种类能源数据表中的能耗数据通过分组统计、线性组合、数据运算等聚合操作生成综合能耗值、月均能耗值、绿色能耗占比等一系列能源消耗特征，同时深度关联生产总值等能耗企业经济数据表通过聚合操作生成单位能耗生产值、绿色能耗生产值占比等能源经济特征。在金融数据特征挖掘中，客户贷款信息表格中每个客户可能会有涉及多类贷款业务的多项贷款，深度特征生成算法使用一对多的关联来对观测值分组然后计算统计量，具体实施中通过关联聚合计算客户的多项贷款情况，获取每个客户贷款的平均值、最大值和最小值等统计量。

特征处理主要包括了特征增强、特征转换、特征降维、特征选择和特征标准化等步骤，特征增强通过对数据审查和校验进行格式内容清洗、逻辑错误清洗、异常值清洗和缺失值清洗等操作，实现数据一致性。特征转换包括了采用数据手段对特征通过实施对数变换、指数变换等操作实现样本分布的优化，也包括了对离散数值的one-hot编码变换、虚拟编码变换和效果编码变换，由于虚拟编码没有冗余且具有可解释性，本发明对能耗数据中的能耗品种、采集类型和环保数据中的环境信用等级等离散类别数据采用虚拟编码变换。特征降维采用PCA算法将特征维度从一个维度空间映射到另一个维度空间，特征数量不改变，在映射的过程中特征值会相应的变化，有效解决特征矩阵过大导致计算量大、训练时间过长的问题。特征选择采用Filter方法在不显著降低分类精度、不影响分类分布以及特征子集应具有稳定、适应性强等条件下，从特征空间中选取最优特征子集，提高学习算法的运行时间，增加模型的可解释性。特征标准化中采用标准化缩放方法进行特征归一化处理，缩小能耗值、能耗系数、贷款额度、贷款利率等不同种类数据量级间的巨大差距，统一数据尺度，使特征值适应对输入特征尺度重要的联邦模型。

根据碳信用评价协同需求，构建三方联邦模型，进行逻辑回归子模型拆分，采用同态加密算法和通信状态动态调整的高效协同机制，构建能源、金融和环保三方安全高效协同的联邦逻辑回归模型。

假设联邦逻辑回归模型参数为

，

分别为能源数据中心、环保数据中心和金融数据中心的模型参数，则总的线性模型，即，联邦模型为：

式中，

表示目标特征。

令

得到联合目标函数为：

通过最小化联合目标函数即可得到模型参数

。

（2）无标签方Ａ计算

和

，用A的公钥加密将

和

发送给C，将

和

发送给B。

（3）无标签方B计算

和

，用A的公钥加密将

和

发送给C，将

和

发送给A。

（4）有标签方C计算

和

，用C的公钥加密将

和

发送给A 和B。

（5）有标签方C利用A和B发送的

、

、

、

，计算密文目标函数

同时并计算本地梯度

（6）有标签方C，选择随机掩码

，将

发送给A。

（7）A解密得到

，发送给C。

（8）C得到

，更新本地参数。

（9）无标签方Ａ利用B和C发送的

、

、

、

，计算密文目标函数

（10）无标签方A，选择随机掩码

，将

发送给C。

（11）有标签方C解密得到

发送给A。

（12）A得到

，更新本地参数。

（13）无标签方B利用A和C发送的

、

、

、

，计算密文目标函数

（14）无标签方B，选择随机掩码

，将

发送给C。

（15）有标签方C解密得到

发送给B。

（16）B得到

，更新本地参数。

（17）重复上述步骤（1）-（16），直至模型收敛。

通信状态动态调整的公式如下：

式中，

表示预设优化次数，

表示当前优化次数，

表示预设优化次数对应的预设网络时延，

表示当前网络时延。

网络时延动态变化是一热高低起伏的过程，当网络速度很快，时延变小的情况下，时延的变化

是负值，这时节点本地优化次数是下降趋势，即梯度交互的频次获得相应的提升；当网络速度缓慢的情况下，时延的变化

是正值，这时节点本地优化次数是上升趋势，即梯度交互的频次获得相应的降低。网络通信效率影响的是模型训练的速度，梯度交互频次影响的模型训练的精度，基于网络通信状态的梯度交互频次动态调整能够在模型训练过程中兼顾模型训练速度和准确度的平衡。通过实时监控梯度交互的网络通信时延，动态调整联邦节点本地的优化次数，可提升联邦通信的效率。

各个参与节点的样本数据集中每一类对应的样本的个数不同，而且差别较大，即，存在样本不均衡问题，这样的不均衡样本往往使机器学习算法的表现变得比较差。在样本不均衡的情况模型的准确率指标就失去了意义，因为如果模型在训练过程中追求最大的准确率作为指标，当模型将小部分的样本分到大样本里面，最终也能能达到大样本的比例样的准确率。电力数据和金融数据中具有较明显的数据不均衡特点，即正常数据远大于异常数据，负样本状态数据较少。目前常用的样本不均衡优化的方法有抽样、权重调整、核函数修正、模型修正和少数类合成过采样技术，其中抽样方法容易丢失数据信息或者导致较少样本共线性，权重调整方法无法控制合适的权重比需要多次尝试，核函数修正方法核函数调整代价高并且使用场景局限，模型修正方法由于实际规律比较难发现实现难度较高。因此本发明采用少数类合成过采样技术SMOTE对少数类数据集进行优化，避免碳信用评价数据集在分类模型上产生过拟合问题，高效地缓解少数类样本不平衡的问题，具体过程如下：

（1）随机选定N个少数类样本组成样本集

。

（2）利用采样最邻近算法，计算出每个少数类样本的K个近邻，如下式：

上式中，

代表从少数类样本近邻中选择的邻居样本集合，

表示少数类样本的分布，其中采用kNN算法从少数类样本分布

中选择邻居。

（3）从K个近邻中随机挑选N个样本进行随机线性插值，构造新的少数类样本，如下式：

上式中

是人为指定的参数，

，

（4）将合成的新样本放入原始少数类样本集，形成新的少数类样本集合如下：

。

少数类合成过采样技术SMOTE考虑到少数类样本的特征向量与其最近邻的差值，将这个差乘以0和1之间的一个随机数，并将其加到考虑的特征向量中。从几何上看，该算法沿着两个特定样本特征之间的直线上选择了一个随机点，这种随机选择少数类样本点的方法能够有效使少数类样本的决策区域变得更加泛化，其具体操作是在少数类样本及其邻居少数类样本之间在高维空间中的连线上，随机取一个新的少数类样本

，然后将

放进之前的少数类样本集合

中，就得到了一个接近平衡状态的少数类样本数据集。

在得到联邦模型后，需要对模型进行评估，在模型评估过程中，由于每个指标只能反映模型的一个方面的特点，因此不同模型在不同应用场景需要使用针对性的指标进行评估，合理地运用评估指标组合，可以实现模型对业务场景的精准分析。常见的模型评估指标包括准确度Accuracy、精确率Precision、真阳性率TPR（即召回率Recall）、假阳性率FPR、P-R曲线、F1-Score、ROC曲线等指标。准确度可依反映模型整体上的分类准确程度，但是无法在细节上区分正负样本的具体识别情况。精确率和真阳性率（召回率）反映的是正样本识别的细节情况，假阳性率反映的是负样本识别的细节情况。上述指标中，由于精确率和真阳性率（召回率）是一对即矛盾又统一的两个指标，为了提高精确率，模型需要在更有把握时才认定为正样本，但此时却会因为保守而漏掉很正样本，降低真阳性率（召回率），因此P-R曲线、F1-Score是通过平衡精准率和真阳性率（召回率）综合反映模型预测性能的指标。ROC曲线则是综合考量真阳性率（召回率）和假阳性率反映模型性能的指标。

在碳信用评价业务中，金融风险控制是业务的重要核心目标之一，风控密切关系着金融企业的安危问题，因为在电力、金融、医学等领域分类模型把负例错误分类为正例比把正例错误分类为负例的代价要高得多，因此风控是碳信用评价预测模型的重要评估因素。碳信用评价风控的关键在于对用户资格的严格审查，防止对不合格用户的审批通过，对应到碳信用评价预测模型评估中，就是假阳性率指标，因此本发明将假阳性率FPR作为模型性能的重要评估指标。除了风控，碳信用评价预测模型的另外一个重要评估因素是符合碳信用评价用户的挖掘，对应到碳信用评价预测模型评估中，就是真阳性率（召回率）指标，因此本发明将真阳性率（召回率）指标作为模型性能的重要评估指标，同时将综合反映真阳性率（召回率）和假阳性率指标的ROC曲线也作为模型性能的评估指标。此外，出于模型性能的多维度全面评估需求，将准确度和精确度作为碳信用评价预测模型的辅助评估指标，同时鉴于P-R曲线在正负样本发生变化时会随之发生剧烈的变化，选择将F1-Score作为模型的辅助评估指标。

对于碳信用评价业务来讲，上述评估指标的业务含义和计算公式如下：

（1）假阳性率的含义是实际不符合碳信用评价资格的用户中被误审批通过的比例，它反映了错误审批的程度，其计算公式如下：

（2）真阳性率（召回率）的含义是实际符合碳信用评价资格的用户中被正确审批通过的比例，它反映了实际有碳信用评价资格用户的识别能力，其计算公式如下：

（3）准确率的含义是所有碳信用评价申请用户中正确审批的比例，其计算公式如下：

（4）精准度的含义是审批通过的用户中实际拥有碳信用评价资格的用户比例，其计算公式如下：

（5）F1-Score是精准度和真阳性率（召回率）的调和平均值，其计算公式如下：

在上述公式中，TP（True Positives）表示实际为正例且被分类器判定为正例的样本数，FP（False Positives）表示实际为负例且被分类器判定为正例的样本数，FN（FalseNegatives）表示实际为正例但被分类器判定为负例的样本数，TN（True Negatives）表示实际为负例且被分类器判定为负例的样本数。

在模型优化过程中，需要运用算法调参、特征组合和迭代更新等方式进行模型的优化与重构。模型参数优化旨在寻找使得机器学习算法在验证数据集上表现性能最佳的参数，参数的设置对于模型性能有着直接影响。根据碳信用评价预测模型业务特点，选取有效性评估和优化方法，将模型评价结果用于模型的优化与重构，可以持续提升模型的精度。

在参数调优上，依靠人工试错法手动对超参数进行调参优化，通过经验判断超参数如何进行设置能够获得更高的模型准确性，但这种方法依赖大量的经验，并且比较耗时。目前常见的自动化超参数优化方法有网格化寻优、随机寻优、贝叶斯优化方法、基于梯度的优化方法和进化寻优。由于贝叶斯优化方法会限制模型训练评估的计算次数，基于梯度的优化方法具有非凸性质的缺点，进化算法由于太耗时并且计算资源占用很大经常被用来寻找其他技术不易求解的近似解，目前用的比较多的是网络化寻优和随机寻优。鉴于随机寻优的快速性，本发明中碳信用评价业务联邦模型采用随机寻优方法，通过随机搜索在超参数网格的基础上选择随机的组合来进行模型训练，随机寻优可以控制组合的数量，基于时间和计算资源的情况，选择合理的计算次数，实现更快速准确地确定某些重要的超参数的最佳值。

碳信用评价业务联邦模型属于纵向联邦学习，能源数据中心、金融数据中心和环保数据中心的数据样本空间有较大重叠，但特征空间不同，即各数据方可以使用相同样本的所有特征来训练模型，即用相同用户的能源数据、金融数据和环保数据等不同维度特征进行联合训练。在此情形下，各数据方分别拥有部分样本数据和自身特征空间相关的模型，因而模型的训练和预测服务需要各方线上及时授权才能完成，针对这个问题，通过智能合约约束各个联邦子模型的访问，可以从时间维度和空间维度设置访问控制策略。采用智能合约实现对节点资源的自动化、可信的访问控制，无需安全管理员人为参与，基于资源拥有者发布的策略进行访问控制，判决过程公开透明。

模型训练过程可能存在恶意节点上传虚假参数或低质量模型，影响聚合过程与模型质量，本发明利用区块链记录模型训练过程的中间参数作为审计追溯证据，并激励协作节点进行模型参数验证，惩罚上传虚假参数或低质量模型的参与节点，以约束节点自利性，提高模型聚合的质量。

联邦模型训练完成之后，每个节点的自有模型都会对应很多模型使用者即模型用户，需要解决模型和用户之前的访问控制问题，本发明通过智能合约实现模型的发布和访问控制，在完成模型发布和使用的同时，实现模型使用的链上审计，支撑基于模型使用记录的模型使用权有偿兑现业务。

通过智能合约对节点样本和子模型访问进行权限控制的主要方式包括两种，分别为基于时间维度的访问权限控制以及基于空间维度的访问权限控制。基于时间维度的访问权限控制是指通过智能合约约束了资源的生命周期，以及在智能合约中规定了该资源的可访问时间区间，在时间区间内时数据资源是对外开放的，而超出规定时间区间时数据资源对外不可见，通过在智能合约中部署按照时间进行触发的事件，数据资源的时效性得到了有效保障。基于空间维度的访问权限控制则是通过在智能合约约束用户的访问范围，当智能合约收到私钥签名的查询报文时，检验其访问样本或子模型对象是否在访问空间范围内，根据验证结果为其返回访问令牌或拒绝信息。

一个使用智能合约实施碳信用评价节点样本和子模型授权的场景主要包括以下流程：当节点

向节点

请求使用时，节点

首先查验节点

身份，然后智能合约根据访问约束条件（例如样本或子模型授权范围、时效、次数等），查验节点

访问合法性，返回授权令牌或拒绝消息。节点

获取

的授权令牌后，通过联邦学习平台与节点

开展安全协同训练，协同过程中的梯度信息、参数信息经过链上共识后存入区块中。训练结束后，节点

发布模型调用接口通过智能合约在链上发布模型API信息。

具体实施流程如下：

（1）协同样本/子模型请求。节点

向节点

访问控制智能合约发出用加密并签名后的节点样本或子模型授权请求

，请求中包含资源访问目的、时间和次数等信息。

（2）智能合约授权。智能合约查验节点

身份后，针对节点

的访问约束条件 Constrainsts进行查验，决定是否授权访问，并把这些条件和被访问资源对应的令牌

发送给

。

（3）协同样本训练/子模型预测。节点

收到授权令牌

、

后，利用联邦学习平台通过各节点样本和子模型对碳信用评价模型开展训练和预测工作。

（4）协同过程上链。联邦学习的每一轮计算过程中交互的梯度信息，通过链上共识节点的共识后，存入区块中，区块上链时，通过计算本区块的数据内容弄获得当前区块的哈希值，计算方法为：

为了便于存储，将区块中的所有交易组织成一棵默克尔树，并在区块头中存储默克尔树根的哈希值。区块生成者利用自己的私钥对当前区块的哈希值签名，防止区块在网络传播过程中被篡改，接收到新区块的节点可以通过该签名认证区块生成者的生成以及区块哈希值是否被篡改。

（5）全局模型链上发布。模型训练完成后，模型入参参数和出参参数以API接口的形式通过智能合约在链上发布，并设置权限策略对API用户进行访问控制，API请求信息格式如下：

在联邦学习协同框架引入区块链技术，通过区块链智能合约实现协作各方样本的授权管理，通过训练参数上链实现碳信用评价模型训练过程的审计追溯，以及，通过联邦全局模型链上发布实现了碳信用评价模型的使用审计。

如图9所示，此为基于碳信用评价的联邦平台装置的结构示意图，该装置包括至少一个通信服务组件用于远程联邦学习网络通信和协议交互，至少一个代理组件用于本地用户的访问操作任务分发，至少一个建模工作台用于多方安全计算和联邦学习等功能的可视化操作，至少一个机器学习服务组件提供多种多方安全计算和联邦学习算法，至少一个API服务组件用于多方安全计算和联邦学习模型发布为用户提供即时的数据服务，至少一个存储服务组件，用于存储多方安全计算和联邦学习过程数据和模型参数，至少一个上链服务组件，用于本地样本/子模型授权策略上链和全局模型链上发布。

其中通信服务组件包括gRPC、HTTP和网关服务，为了能尽可能少地向对方暴露服务信息，以及简便性调用训练服务，需要引入网关服务实现服务路由，对外暴露gRPC接口以及HTTP接口，外部系统的所有请求都将委托给网关服务进行请求转发。代理组件可以采用Nginx实现，负责用户任务调度，负责解析配置参数，以及进行整个训练任务的调度，可以利用设计模式中的责任链模式，按照指定的组件运行顺序，将一个训练任务转化成一条责任链，并提交给任务线程池去执行。建模工作台可以通过可视化的界面，灵活调用组配建模组件，设计建模流程。API服务组件可以通过SDK形式发布API调用接口，外部系统可以通过服务发现获取接口地址加以调用，开展预测任务。存储服务组件可以采用HDFS、Mysql、Redis及其他方式实现，通过将每次预测的结果存储起来以满足业务的需求，同时也需要将模型存储起来，不需要每次发起推理请求时都从分布式存储系统中加载模型，从而保证安全也提高了效率。

本方案结合绿色金融政策要求和碳信用评价业务逻辑构建碳信用评价数据空间，实现了碳信用评价业务决策要素的精准定位。通过在深度特征挖掘过程中计算属性信息熵衡量属性重要度，采用属性优选的深度特征构造方法，防止不重要特征参与深度特征合成，避免了深度特征生成算法面临的特征庞大和冗余问题。设计三方协同的联邦逻辑回归模型，在模型交互过程中引入同态加密隐私机制，利用加法和乘法同态加密保证在交互中不能获取对方的敏感信息，同时构建了基于通信状态变化对节点迭代次数进行动态调整的策略方法，通过节点迭代次数实现交互频次的增减控制，提升模型训练效率。结合碳信用评价风控需求特点选取最佳评估指标，并设置满足业务需求的指标阈值，能够实现碳信用评价的最优预测。设计节点样本/子模型链上智能合约授权机制，能够基于发布的策略实现对节点资源的自动化、可信的访问控制。采用的模型交互过程链上存证技术，利用区块链记录模型训练过程的中间参数作为审计追溯证据，可以约束节点自利性，提高模型聚合的质量。通过智能合约进行模型的发布和访问控制，可以实现模型使用的链上使用和审计，同时也可以支撑基于模型使用记录进一步开展的模型有偿使用业务。

请参阅图10，图10是本发明可选实施例提供的一种电子设备的结构示意图，如图10所示，该电子设备可以包括：至少一个处理器601，例如CPU（Central Processing Unit，中央处理器），至少一个通信接口603，存储器604，至少一个通信总线602。其中，通信总线602用于实现这些组件之间的连接通信。其中，通信接口603可以包括显示屏（Display）、键盘（Keyboard），可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器（Random Access Memory，易挥发性随机存取存储器），也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图9所描述的装置，存储器604中存储应用程序，且处理器601调用存储器604中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线602可以是外设部件互连标准（peripheral componentinterconnect，简称PCI）总线或扩展工业标准结构（extended industry standardarchitecture，简称EISA）总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器604可以包括易失性存储器（英文：volatile memory），例如随机存取存储器（英文：random-access memory，缩写：RAM）；存储器也可以包括非易失性存储器（英文：non-volatile memory），例如快闪存储器（英文：flash memory），硬盘（英文：hard diskdrive，缩写：HDD）或固态硬盘（英文：solid-state drive，缩写：SSD）；存储器604还可以包括上述种类的存储器的组合。

其中，处理器601可以是中央处理器（英文：central processing unit，缩写：CPU），网络处理器（英文：network processor，缩写：NP）或者CPU和NP的组合。

其中，处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路（英文：application-specific integrated circuit，缩写：ASIC），可编程逻辑器件（英文：programmable logic device，缩写：PLD）或其组合。上述PLD可以是复杂可编程逻辑器件（英文：complex programmable logic device，缩写：CPLD），现场可编程逻辑门阵列（英文：field-programmable gate array，缩写：FPGA），通用阵列逻辑（英文：generic arraylogic, 缩写：GAL）或其任意组合。

可选地，存储器604还用于存储程序指令。处理器601可以调用程序指令，实现如本申请实施例中所示的适用碳信用评价的联邦学习方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的联邦学习方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（Random Access Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard DiskDrive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。