CN115392531A

CN115392531A - 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统

Info

Publication number: CN115392531A
Application number: CN202210751534.2A
Authority: CN
Inventors: 毛正雄; 李辉; 黄祖源; 田园; 陆光前; 耿贞伟; 张航; 保富; 原野
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-11-25

Abstract

本发明公开了一种基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统，利用秘密共享技术保护了电网和工信局联合风险预测时的数据隐私安全，并实现了集中式训练级别的模型效用性。通过使用秘密共享技术取代同态加密技术，有效降低了整体的计算复杂度与高昂的通信成本，并可满足实际场景中处理大体量数据的需求。通过使用秘密共享技术取代差分隐私技术，可有效提升模型精准度，并满足实际风险预测场景中的精准预测。

Description

基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统

技术领域

本发明属于数据安全领域，涉及一种基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统。

背景技术

用电企业欠费风险是指因用电企业关停、破产、重组、转制，用户经营不良，用户流动资金紧缺，用户转租，社会稳定等原因，引起电费不能及时缴纳等风险。用电企业电费缴纳风险预测方法是通过建立风险评价指标体系、利用机器学习技术建立风险评估模型来定量、有效地进行风险界定的智能化预测方法。联邦学习是一种新兴的隐私保护机器学习范式，其可以基于各方拥有的分散的数据训练模型，同时保证数据隐私。基于纵向联邦逻辑回归的用电企业电费缴纳风险预测能够有效结合电网的企业用电数据以及工信局的企业运营相关数据进行联合预测，提高电费回收风险评估精度，同时保证电网和工信局数据不被泄露。隐私计算技术是实现联邦过程数据隐私保护的关键技术，但目前纵向逻辑回归方案主要通过使用同态加密或差分隐私技术实现隐私保护，因此以往的方案常常表现为计算复杂度高或模型精度受损，从而难以支撑大规模电网数据集上精准的用电企业缴费风险预测。为解决该问题，已有研究提出结合同态加密与秘密共享的大规模稀疏逻辑回归模型以同时保证效率和安全性，但由于算法过程繁琐、通信轮次较多，计算过程中仍会产生大量的同态加密的中间结果，从而产生大量的通信和计算开销。考虑到实际智能电网场景中通常数据量巨大、安全性要求高，因此，设计安全高效无损的纵向联邦用电企业电费缴纳风险预测方法具有重要的现实意义。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统，能够保证发起方与参与方在不泄露自己数据隐私的情况下，联合建立纵向联邦逻辑回归模型，用于实现精准的用电企业电费缴纳风险预测。

为达到上述目的，本发明采用以下技术方案予以实现：

基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，包括：

步骤1、样本对齐；输入预测模型训练所需的数据集，并调用加密隐私求交协议进行数据的ID求交和对齐；

步骤2、参数初始化；初始化预测模型，最大迭代次数T，学习率α，学习终止条件和纵向逻辑回归模型的模型参数θ_A和θ_B；

步骤3、秘密份额安全交互；基于纵向逻辑回归模型的模型参数、样本对齐后的数据，获取逻辑回归模型的中间参数；基于逻辑回归模型的中间参数和生成随机秘密份额，获取中间参数秘密份额和数据标签秘密份额；

步骤4、计算模型损失；基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额；

步骤5、计算梯度信息；基于共享误差的秘密份计算模型误差，并计算模型梯度信息；

步骤6、更新模型参数；利用模型梯度信息及初始化设置的学习率更新模型参数；

步骤7、完成模型训练；迭代步骤3至步骤7，直至达到学习中止条件或给定的最大迭代次数T，完成训练。

本发明的进一步改进在于：

步骤1、步骤3、步骤4、步骤5和到步骤6为发起方和参与方共同参与的工作；步骤2为发起方单独参与的工作。

采集输入预测模型训练所需的数据集，并调用加密隐私求交协议进行数据的ID求交和对齐；具体为：

发起方与参与方输入预测模型训练所需的数据集(X_A,Y)、X_B，并调用加密隐私求交协议进行数据ID的求交和对齐，确定双方数据中可以用来进行模型训练的交集部分并形成ID一一对齐的联合数据表，此时双方的交集数据仍然分别存储在各自的本地空间，分别表示为(X′_A,Y′)、X′_B。

随机秘密份额为参与方和发起方随机生成；发起方生成随机秘密份额

参与方生成随机秘密份额

基于纵向逻辑回归模型的模型参数、样本对齐后的数据，获取逻辑回归模型的中间参数；基于逻辑回归模型的中间参数和生成随机秘密份额，获取中间参数秘密份额和数据标签秘密份额；具体为：

发起方基于样本对齐后的己方数据(X′_A,Y′)中的数据X′_A计算逻辑回归模型的中间参数u_A，并计算应属于参与方的中间参数秘密份额<u_A>^B、应属于发起方的中间参数秘密份额<u_A>^A，基于样本对齐后的己方数据(X′_A,Y′)中的标签数据y′计算应属于参与方的数据标签秘密份额<Y′>^B，以及应属于发起方的数据标签秘密份额<Y′>^A，并将秘密份额<u_A>^B、<Y′>^B发送给参与方；参与方基于样本对齐后的己方数据X′_B计算逻辑回归模型的中间参数u_B，计算发起方的中间参数秘密份额为<u_B>^A，参与方的秘密份额<u_B>^B，并将秘密份额<u_B>^A发送发起方。

步骤3的具体为推到过程为：

步骤3.1、建立纵向逻辑回归损失函数的优化问题

其中，θ∈Rⁿ为模型参数，n为模型参数的维度，同时为数据的特征维度，x_i表示数据集X′∈R^m×n中第i个数据样本，X′表示联合数据表X′_A||X′_B，m为交集数据的样本数目，y_i为x_i对应的标签；

对数似然函数为

I(θ；x_i；y_i)＝log(1+exp(y_iθ^Tx_i))

假设发起方和参与方分别持有各自特征对应的模型参数

和

其中n_A为发起方模型参数θ_A的维度，n_B为参与方模型参数θ_B的维度，满足n_A+n_B＝n,θ＝θ_A||θ_B，||表示矩阵或向量的拼接；

将逻辑回归算法与加性秘密共享技术相结合，其中log(1+e^-z)的Taylor展开形式：

基于此得到以上优化问题的二阶近似：

其中θ^T表示参数向量θ的转置；

发起方的优化问题为：

参与方的优化问题为：

其中，

和

分别表示发起方和参与方模型参数θ_A和θ_B的转置；

步骤3.2、使用梯度下降法求解步骤3.1中的优化问题，计算中间数据以便后续求解模型参数；

发起方计算中间参数

为与参与方进行协作计算模型梯度，将中间参数u_A拆分为两个秘密份额；其中，属于发起方的秘密份额为

属于参与方的秘密份额

将标签信息y拆分为两个秘密份额，其中，属于发起方的秘密份额为

属于参与方的秘密份额

参与方计算中间参数

为与发起方进行协作计算模型梯度，将中间参数u_B拆分为两个秘密份额；其中，计算属于发起方的秘密份额为

属于参与方的秘密份额

步骤3.3、发起方及参与方将属于各方的秘密份额分享出去。

基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额，具体为：

发起方根据持有的中间数据秘密份额计算模型误差<d>^A，并将其作为模型误差的秘密份额之一发送给参与方；参与方根据持有的中间数据秘密份额计算共享误差<d>^B，并将其作为模型误差的秘密份额之一发送给发起方；

步骤4.1、推导模型梯度信息的相关计算公式，考虑步骤3.1中优化问题的二阶近似：

上述目标函数的梯度直接计算求得：

其中，模型在样本(x_i,y_i)上的误差

在样本集(X′,Y′)上的误差向量d＝[d₁,...,d_m]^T；

步骤4.2、发起方及参与方计算共享误差的秘密份额；

发起方持有的秘密份额为＜u_B>^A、<u_A>^A和<Y′>^A，计算属于发起方的共享误差的秘密份额为

参与方持有的秘密份额为<u_A>^B、<u_B>^B和<Y′>^B，计算属于参与方的共享误差的秘密份额为

步骤4.3、发起方及参与方将属于各方的秘密份额分享出去。

基于共享误差的秘密份计算模型误差，并计算模型梯度信息，具体为：发起方根据持有的模型误差秘密份额计算模型误差<d>，并计算模型梯度信息

参与方根据持有的模型误差秘密份额计算模型误差<d>，并计算模型梯度信息

步骤5.1、发起方及参与方根据已有的共享误差的秘密份额计算模型误差<d>＝<d>^A+<d>^B；

步骤5.2、发起方及参与方根据模型误差计算模型梯度信息；

发起方模型梯度为

参与方模型梯度为

利用模型梯度信息及初始化设置的学习率更新模型参数；具体为：发起方利用模型梯度信息

以及初始化设置的学习率α更新模型参数θ_A；参与方利用模型梯度信息

以及初始化设置的学习率α更新模型参数θ_B；

步骤6.1，发起方进行梯度更新：

步骤6.2，参与方进行梯度更新：

基于纵向联邦逻辑回归的企业电费缴纳风险预测系统，包括：

样本对齐模块；所述样本对齐模块用于采集输入预测模型训练所需的数据集，并调用加密隐私求交协议进行数据的ID求交和对齐；

参数初始化模块；所述参数初始化模块用于初始化预测模型，最大迭代次数T，学习率α，学习终止条件和纵向逻辑回归模型的模型参数；

秘密份额安全交互模块；所述秘密份额安全交互模块基于纵向逻辑回归模型的模型参数、样本对齐后的数据，获取逻辑回归模型的中间参数；基于逻辑回归模型的中间参数和生成随机秘密份额，获取中间参数秘密份额和数据标签秘密份额；

计算模型损失模块；所述计算模型损失模块基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额；

计算梯度信息模块；所述计算梯度信息模块基于共享误差的秘密份计算模型误差，并计算模型梯度信息；

更新模型参数模块；所述更新模型参数模块利用模型梯度信息及初始化设置的学习率更新模型参数；

模型训练模块；所述模型训练模块用于训练次数达到学习中止条件或给定的最大迭代次数T，完成训练。

与现有技术相比，本发明具有以下有益效果：

本发明利用秘密共享技术保证了联邦逻辑回归建模过程中数据的安全性，该技术可保证在不泄露数据隐私的情况下，联合建立纵向联邦逻辑回归模型用于实现精准的用电企业电费缴纳风险预测。同时秘密共享技术计算复杂度低，本发明在满足用隐私保护需求及效用无损前提下显著降低了纵向联邦逻辑回归模型的通信开销和计算成本，实现了安全高效且无损的用电企业电费缴纳风险预测。

进一步地，发起方和参与方在联邦建模过程中将中间数据、标签信息、模型误差通过秘密共享技术拆分为秘密份额使得发起方和参与方双方都无法持有完整的数据信息，并通过共享模型误差计算各自模型梯度，避免任一方掌握数据明文信息或从持有的信息中推理原始明文数据，从而保证数据安全。该步骤实现了用户的安全需求。

进一步地，本发明通过使用秘密共享技术取代同态加密技术或差分隐私作为隐私保护技术，同态加密涉及明文的加解密，加解密过程为极为耗时的大素数运算，秘密共享利用明文的拆解共享，无需加解密过程只需简单算数运算，能实现“明文”级计算速度。差分隐私通过对中间数据加噪以牺牲精度的方式谋求安全性，秘密共享进行明文拆解并进行可逆还原，最终结果与原始结果无异，能实现“明文级”模型精度；该步骤降低了模型训练的计算复杂度并保证模型无损。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为加密样本对齐的原理及功能示意图；

图2为本发明的逻辑架构示意图；

图3为本发明在用电企业缴纳风险预测的流程示意图；

图4为本发明实施例的基于纵向联邦逻辑回归的企业电费缴纳风险预测系统结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参照图1，本发明公布了一种基于纵向联邦逻辑回归的用电企业电费缴纳风险预测方法，无论针对诚信或非诚信的发起方或参与方，协议的安全性体现在以下两个方面：

1)当发起方和参与方是诚信时，即他们会诚实地执行协议，则根据秘密共享技术本身的安全性，双方均不能获得除秘密份额之外的任何对方的原始数据信息。

2)当发起方或参与方是非诚信的，即发起方或参与方会从持有的秘密份额中推测原始数据信息。由于发起方或参与方持有的仅为明文数据的秘密份额，即为秘密共享技术生成的随机数，其无规律不可推测，因此发起方或参与方不能从持有的秘密份额中获取除秘密份额之外的任何原始数据信息。

为达到上述目的，具体包括以下步骤：

步骤1、样本对齐。各联邦参与方分别输入己方数据并进行样本对齐。具体的，发起方--电网与参与方--工信局--输入预测模型训练所需的数据集(X_A,Y)、X_B，并调用加密隐私求交协议进行数据ID的求交和对齐，从而确定双方数据中可以用来进行模型训练的交集部分并形成ID一一对齐的联合数据表，注意此时双方的交集数据仍然分别存储在电网和工信局本地，分别表示为(X′_A,Y′)、X′_B，样本对齐过程的基本功能如图2所示；

步骤2、参数初始化。由发起方初始化预测模型，并定义联邦学习相关参数。包括最大迭代次数T，学习率α，学习终止条件，以及纵向逻辑回归模型的模型参数θ_A、θ_B等。

步骤3、随机生成秘密份额。发起方生成秘密份额

参与方生成秘密份额

上述秘密份额将作为步骤4中间数据的秘密份额之一分享给另一方。其中，秘密份额

以及

均为随机生成的随机数，注意，该随机数应为真随机数，调用np.random()函数生成的伪随机数仍然存在安全风险；

步骤4、秘密份额安全交互。起方计算逻辑回归模型的中间参数u_A，设置u_A应属于参与方的秘密份额为<u_A>^B,设置u_A应属于发起方的秘密份额为<u_A>^A；设置数据标签Y′应属于参与方的秘密份额为<Y′>^B，设置数据标签y应属于发起方的秘密份额为<Y′>^A；将秘密份额<u_A>^B、<Y′>^B分享给参与方。参与方计算逻辑回归模型的中间参数u_B，设置u_B应属于发起方的秘密份额为<u_B>^A，设置u_B应属于参与方的秘密份额为<u_B>^B；将秘密份额<u_B>^A分享给发起方；

步骤4.1、建立纵向逻辑回归损失函数的优化问题

其中，θ∈Rⁿ为模型参数，n为模型参数的维度，同时为数据的特征维度，x_i表示数据集X′∈R^m×n中第i个数据样本，X′表示联合数据表X_A′||X′_B，m为交集数据的样本数目，y_i为x_i对应的标签；

对数似然函数为

I(θ；x_i；y_i)＝log(1+exp(y_iθ^Tx_i))

假设发起方和参与方分别持有各自特征对应的模型参数

和

基于此得到以上优化问题的二阶近似：

其中θ^T表示参数向量θ的转置；

发起方的优化问题为：

参与方的优化问题为：

其中，

和

分别表示发起方和参与方模型参数θ_A和θ_B的转置；

步骤4.2、使用梯度下降法求解步骤4.1中的优化问题，计算中间数据以便后续求解模型参数；

发起方计算中间参数

属于参与方的秘密份额

属于参与方的秘密份额

参与方计算中间参数

属于参与方的秘密份额

步骤4.3、发起方及参与方将属于各方的秘密份额分享出去。

步骤5、发起方根据持有的中间数据秘密份额计算共享误差<d>^A，并将其作为模型误差的秘密份额之一分享给参与方。参与方根据持有的中间数据秘密份额计算共享误差<d>^B，并将其作为模型误差的秘密份额之一发送给发起方；

第一，推导模型梯度信息的相关计算公式，考虑步骤4.1中优化问题的二阶近似：

上述目标函数的梯度直接计算求得：

其中，模型在样本(x_i,y_i)上的误差

在样本集(X′,Y′)上的误差向量d＝[d₁,...,d_m]^T；

第二，发起方及参与方计算共享误差的秘密份额。

发起方持有的秘密份额为<u_B>^A、<u_A>^A和<Y′>^A，计算属于发起方的共享误差的秘密份额为

第三，发起方及参与方将属于各方的秘密份额发送出去。

步骤6、发起方根据持有的模型误差秘密份额计算模型误差<d>，并计算模型梯度信息

第一，发起方及参与方根据已有的共享误差的秘密份额计算模型误差<d>＝<d>^A+<d>^B。

第二，发起方及参与方根据模型误差计算模型梯度信息。

发起方模型梯度为

参与方模型梯度为

步骤7、发起方利用模型梯度信息

以及初始化设置的学习率α更新模型参数θ_B；

发起方进行梯度更新：

参与方进行梯度更新：

步骤8、完成模型训练。迭代步骤3至步骤7直至满足步骤2中设置的学习中止条件或达到给定的最大迭代次数T，此时双方维护的最终模型即为完成训练可提供服务的模型。

参照图3，将本发明应用在用电企业电费缴纳风险预测上的流程为：

步骤1、发起方业务系统发起在线预测请求；

步骤2、发起方向参与方发起数据请求，请求中包含待预测数据的ID；

步骤3、参与方在基于业务系统中进行ID匹配；

步骤4、参与方查询到数据后提取相关特征；

步骤5、发起方与参与方均基于己方特征和模型进行本地计算；

步骤6、发起方与参与方对本地计算结果进行秘密共享；

步骤7、对秘密共享的结果进行聚合，发起方获取相应企业的预测标签值，其中“1”代表预测该企业可能不会欠费，“-1”代表该企业未来可能会欠费。

参见图4，本发明公布了一种基于纵向联邦逻辑回归的企业电费缴纳风险预测系统，包括：

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，其特征在于，包括：

2.根据权利要求1所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，其特征在于，所述步骤1、步骤3、步骤4、步骤5和到步骤6为发起方和参与方共同参与的工作；所述步骤2为发起方单独参与的工作。

3.根据权利要求2所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，其特征在于，所述采集输入预测模型训练所需的数据集，并调用加密隐私求交协议进行数据的ID求交和对齐；具体为：

4.根据权利要求3所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，其特征在于，所述随机秘密份额为参与方和发起方随机生成；发起方生成随机秘密份额

参与方生成随机秘密份额

5.根据权利要求4所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，其特征在于，所述基于纵向逻辑回归模型的模型参数、样本对齐后的数据，获取逻辑回归模型的中间参数；基于逻辑回归模型的中间参数和生成随机秘密份额，获取中间参数秘密份额和数据标签秘密份额；具体为：

6.根据权利要求5所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，其特征在于，所述步骤3的具体为推到过程为：

步骤3.1、建立纵向逻辑回归损失函数的优化问题

对数似然函数为

l(θ；x_i；y_i)＝log(1+exp(y_iθ^Tx_i))

假设发起方和参与方分别持有各自特征对应的模型参数

和

基于此得到以上优化问题的二阶近似：

其中θ^T表示参数向量θ的转置；

发起方的优化问题为：

参与方的优化问题为：

其中，

和

分别表示发起方和参与方模型参数θ_A和θ_B的转置；

发起方计算中间参数

属于参与方的秘密份额

属于参与方的秘密份额

参与方计算中间参数

属于参与方的秘密份额

步骤3.3、发起方及参与方将属于各方的秘密份额分享出去。

7.根据权利要求6所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，其特征在于，所述基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额，具体为：

上述目标函数的梯度直接计算求得：

其中，模型在样本(x_i,y_i)上的误差

在样本集(X′,Y′)上的误差向量d＝[d₁,...,d_m]^T；

步骤4.2、发起方及参与方计算共享误差的秘密份额；

步骤4.3、发起方及参与方将属于各方的秘密份额分享出去。

8.根据权利要求7所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，其特征在于，所述基于共享误差的秘密份计算模型误差，并计算模型梯度信息，具体为：发起方根据持有的模型误差秘密份额计算模型误差<d>，并计算模型梯度信息

步骤5.2、发起方及参与方根据模型误差计算模型梯度信息；

发起方模型梯度为

参与方模型梯度为

9.根据权利要求8所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法，其特征在于，所述利用模型梯度信息及初始化设置的学习率更新模型参数；具体为：发起方利用模型梯度信息

以及初始化设置的学习率α更新模型参数θ_B；

步骤6.1，发起方进行梯度更新：

步骤6.2，参与方进行梯度更新：

10.基于纵向联邦逻辑回归的企业电费缴纳风险预测系统，其特征在于，包括：