CN115392531A - 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统 - Google Patents

基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统 Download PDF

Info

Publication number
CN115392531A
CN115392531A CN202210751534.2A CN202210751534A CN115392531A CN 115392531 A CN115392531 A CN 115392531A CN 202210751534 A CN202210751534 A CN 202210751534A CN 115392531 A CN115392531 A CN 115392531A
Authority
CN
China
Prior art keywords
model
secret
initiator
data
logistic regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210751534.2A
Other languages
English (en)
Inventor
毛正雄
李辉
黄祖源
田园
陆光前
耿贞伟
张航
保富
原野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN202210751534.2A priority Critical patent/CN115392531A/zh
Publication of CN115392531A publication Critical patent/CN115392531A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/085Secret sharing or secret splitting, e.g. threshold schemes

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Mathematical Analysis (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Algebra (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)

Abstract

本发明公开了一种基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统,利用秘密共享技术保护了电网和工信局联合风险预测时的数据隐私安全,并实现了集中式训练级别的模型效用性。通过使用秘密共享技术取代同态加密技术,有效降低了整体的计算复杂度与高昂的通信成本,并可满足实际场景中处理大体量数据的需求。通过使用秘密共享技术取代差分隐私技术,可有效提升模型精准度,并满足实际风险预测场景中的精准预测。

Description

基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统
技术领域
本发明属于数据安全领域,涉及一种基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统。
背景技术
用电企业欠费风险是指因用电企业关停、破产、重组、转制,用户经营不良,用户流动资金紧缺,用户转租,社会稳定等原因,引起电费不能及时缴纳等风险。用电企业电费缴纳风险预测方法是通过建立风险评价指标体系、利用机器学习技术建立风险评估模型来定量、有效地进行风险界定的智能化预测方法。联邦学习是一种新兴的隐私保护机器学习范式,其可以基于各方拥有的分散的数据训练模型,同时保证数据隐私。基于纵向联邦逻辑回归的用电企业电费缴纳风险预测能够有效结合电网的企业用电数据以及工信局的企业运营相关数据进行联合预测,提高电费回收风险评估精度,同时保证电网和工信局数据不被泄露。隐私计算技术是实现联邦过程数据隐私保护的关键技术,但目前纵向逻辑回归方案主要通过使用同态加密或差分隐私技术实现隐私保护,因此以往的方案常常表现为计算复杂度高或模型精度受损,从而难以支撑大规模电网数据集上精准的用电企业缴费风险预测。为解决该问题,已有研究提出结合同态加密与秘密共享的大规模稀疏逻辑回归模型以同时保证效率和安全性,但由于算法过程繁琐、通信轮次较多,计算过程中仍会产生大量的同态加密的中间结果,从而产生大量的通信和计算开销。考虑到实际智能电网场景中通常数据量巨大、安全性要求高,因此,设计安全高效无损的纵向联邦用电企业电费缴纳风险预测方法具有重要的现实意义。
发明内容
本发明的目的在于解决现有技术中的问题,提供一种基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统,能够保证发起方与参与方在不泄露自己数据隐私的情况下,联合建立纵向联邦逻辑回归模型,用于实现精准的用电企业电费缴纳风险预测。
为达到上述目的,本发明采用以下技术方案予以实现:
基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,包括:
步骤1、样本对齐;输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
步骤2、参数初始化;初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数θA和θB
步骤3、秘密份额安全交互;基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
步骤4、计算模型损失;基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
步骤5、计算梯度信息;基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
步骤6、更新模型参数;利用模型梯度信息及初始化设置的学习率更新模型参数;
步骤7、完成模型训练;迭代步骤3至步骤7,直至达到学习中止条件或给定的最大迭代次数T,完成训练。
本发明的进一步改进在于:
步骤1、步骤3、步骤4、步骤5和到步骤6为发起方和参与方共同参与的工作;步骤2为发起方单独参与的工作。
采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;具体为:
发起方与参与方输入预测模型训练所需的数据集(XA,Y)、XB,并调用加密隐私求交协议进行数据ID的求交和对齐,确定双方数据中可以用来进行模型训练的交集部分并形成ID一一对齐的联合数据表,此时双方的交集数据仍然分别存储在各自的本地空间,分别表示为(X′A,Y′)、X′B
随机秘密份额为参与方和发起方随机生成;发起方生成随机秘密份额
Figure BDA0003721172340000031
参与方生成随机秘密份额
Figure BDA0003721172340000032
基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;具体为:
发起方基于样本对齐后的己方数据(X′A,Y′)中的数据X′A计算逻辑回归模型的中间参数uA,并计算应属于参与方的中间参数秘密份额<uA>B、应属于发起方的中间参数秘密份额<uA>A,基于样本对齐后的己方数据(X′A,Y′)中的标签数据y′计算应属于参与方的数据标签秘密份额<Y′>B,以及应属于发起方的数据标签秘密份额<Y′>A,并将秘密份额<uA>B、<Y′>B发送给参与方;参与方基于样本对齐后的己方数据X′B计算逻辑回归模型的中间参数uB,计算发起方的中间参数秘密份额为<uB>A,参与方的秘密份额<uB>B,并将秘密份额<uB>A发送发起方。
步骤3的具体为推到过程为:
步骤3.1、建立纵向逻辑回归损失函数的优化问题
Figure BDA0003721172340000033
其中,θ∈Rn为模型参数,n为模型参数的维度,同时为数据的特征维度,xi表示数据集X′∈Rm×n中第i个数据样本,X′表示联合数据表X′A||X′B,m为交集数据的样本数目,yi为xi对应的标签;
对数似然函数为
I(θ;xi;yi)=log(1+exp(yiθTxi))
假设发起方和参与方分别持有各自特征对应的模型参数
Figure BDA0003721172340000034
Figure BDA0003721172340000035
其中nA为发起方模型参数θA的维度,nB为参与方模型参数θB的维度,满足nA+nB=n,θ=θA||θB,||表示矩阵或向量的拼接;
将逻辑回归算法与加性秘密共享技术相结合,其中log(1+e-z)的Taylor展开形式:
Figure BDA0003721172340000041
基于此得到以上优化问题的二阶近似:
Figure BDA0003721172340000042
其中θT表示参数向量θ的转置;
发起方的优化问题为:
Figure BDA0003721172340000043
参与方的优化问题为:
Figure BDA0003721172340000044
其中,
Figure BDA0003721172340000045
Figure BDA0003721172340000046
Figure BDA0003721172340000047
分别表示发起方和参与方模型参数θA和θB的转置;
步骤3.2、使用梯度下降法求解步骤3.1中的优化问题,计算中间数据以便后续求解模型参数;
发起方计算中间参数
Figure BDA0003721172340000048
为与参与方进行协作计算模型梯度,将中间参数uA拆分为两个秘密份额;其中,属于发起方的秘密份额为
Figure BDA0003721172340000049
属于参与方的秘密份额
Figure BDA00037211723400000410
将标签信息y拆分为两个秘密份额,其中,属于发起方的秘密份额为
Figure BDA00037211723400000411
属于参与方的秘密份额
Figure BDA00037211723400000412
参与方计算中间参数
Figure BDA00037211723400000413
为与发起方进行协作计算模型梯度,将中间参数uB拆分为两个秘密份额;其中,计算属于发起方的秘密份额为
Figure BDA00037211723400000414
属于参与方的秘密份额
Figure BDA00037211723400000415
步骤3.3、发起方及参与方将属于各方的秘密份额分享出去。
基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额,具体为:
发起方根据持有的中间数据秘密份额计算模型误差<d>A,并将其作为模型误差的秘密份额之一发送给参与方;参与方根据持有的中间数据秘密份额计算共享误差<d>B,并将其作为模型误差的秘密份额之一发送给发起方;
步骤4.1、推导模型梯度信息的相关计算公式,考虑步骤3.1中优化问题的二阶近似:
Figure BDA0003721172340000051
上述目标函数的梯度直接计算求得:
Figure BDA0003721172340000052
其中,模型在样本(xi,yi)上的误差
Figure BDA0003721172340000053
在样本集(X′,Y′)上的误差向量d=[d1,...,dm]T
步骤4.2、发起方及参与方计算共享误差的秘密份额;
发起方持有的秘密份额为<uB>A、<uA>A和<Y′>A,计算属于发起方的共享误差的秘密份额为
Figure BDA0003721172340000054
参与方持有的秘密份额为<uA>B、<uB>B和<Y′>B,计算属于参与方的共享误差的秘密份额为
Figure BDA0003721172340000055
步骤4.3、发起方及参与方将属于各方的秘密份额分享出去。
基于共享误差的秘密份计算模型误差,并计算模型梯度信息,具体为:发起方根据持有的模型误差秘密份额计算模型误差<d>,并计算模型梯度信息
Figure BDA0003721172340000056
参与方根据持有的模型误差秘密份额计算模型误差<d>,并计算模型梯度信息
Figure BDA0003721172340000057
步骤5.1、发起方及参与方根据已有的共享误差的秘密份额计算模型误差<d>=<d>A+<d>B
步骤5.2、发起方及参与方根据模型误差计算模型梯度信息;
发起方模型梯度为
Figure BDA0003721172340000061
参与方模型梯度为
Figure BDA0003721172340000062
利用模型梯度信息及初始化设置的学习率更新模型参数;具体为:发起方利用模型梯度信息
Figure BDA0003721172340000063
以及初始化设置的学习率α更新模型参数θA;参与方利用模型梯度信息
Figure BDA0003721172340000064
以及初始化设置的学习率α更新模型参数θB
步骤6.1,发起方进行梯度更新:
Figure BDA0003721172340000065
步骤6.2,参与方进行梯度更新:
Figure BDA0003721172340000066
基于纵向联邦逻辑回归的企业电费缴纳风险预测系统,包括:
样本对齐模块;所述样本对齐模块用于采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
参数初始化模块;所述参数初始化模块用于初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数;
秘密份额安全交互模块;所述秘密份额安全交互模块基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
计算模型损失模块;所述计算模型损失模块基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
计算梯度信息模块;所述计算梯度信息模块基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
更新模型参数模块;所述更新模型参数模块利用模型梯度信息及初始化设置的学习率更新模型参数;
模型训练模块;所述模型训练模块用于训练次数达到学习中止条件或给定的最大迭代次数T,完成训练。
与现有技术相比,本发明具有以下有益效果:
本发明利用秘密共享技术保证了联邦逻辑回归建模过程中数据的安全性,该技术可保证在不泄露数据隐私的情况下,联合建立纵向联邦逻辑回归模型用于实现精准的用电企业电费缴纳风险预测。同时秘密共享技术计算复杂度低,本发明在满足用隐私保护需求及效用无损前提下显著降低了纵向联邦逻辑回归模型的通信开销和计算成本,实现了安全高效且无损的用电企业电费缴纳风险预测。
进一步地,发起方和参与方在联邦建模过程中将中间数据、标签信息、模型误差通过秘密共享技术拆分为秘密份额使得发起方和参与方双方都无法持有完整的数据信息,并通过共享模型误差计算各自模型梯度,避免任一方掌握数据明文信息或从持有的信息中推理原始明文数据,从而保证数据安全。该步骤实现了用户的安全需求。
进一步地,本发明通过使用秘密共享技术取代同态加密技术或差分隐私作为隐私保护技术,同态加密涉及明文的加解密,加解密过程为极为耗时的大素数运算,秘密共享利用明文的拆解共享,无需加解密过程只需简单算数运算,能实现“明文”级计算速度。差分隐私通过对中间数据加噪以牺牲精度的方式谋求安全性,秘密共享进行明文拆解并进行可逆还原,最终结果与原始结果无异,能实现“明文级”模型精度;该步骤降低了模型训练的计算复杂度并保证模型无损。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为加密样本对齐的原理及功能示意图;
图2为本发明的逻辑架构示意图;
图3为本发明在用电企业缴纳风险预测的流程示意图;
图4为本发明实施例的基于纵向联邦逻辑回归的企业电费缴纳风险预测系统结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
参照图1,本发明公布了一种基于纵向联邦逻辑回归的用电企业电费缴纳风险预测方法,无论针对诚信或非诚信的发起方或参与方,协议的安全性体现在以下两个方面:
1)当发起方和参与方是诚信时,即他们会诚实地执行协议,则根据秘密共享技术本身的安全性,双方均不能获得除秘密份额之外的任何对方的原始数据信息。
2)当发起方或参与方是非诚信的,即发起方或参与方会从持有的秘密份额中推测原始数据信息。由于发起方或参与方持有的仅为明文数据的秘密份额,即为秘密共享技术生成的随机数,其无规律不可推测,因此发起方或参与方不能从持有的秘密份额中获取除秘密份额之外的任何原始数据信息。
为达到上述目的,具体包括以下步骤:
步骤1、样本对齐。各联邦参与方分别输入己方数据并进行样本对齐。具体的,发起方--电网与参与方--工信局--输入预测模型训练所需的数据集(XA,Y)、XB,并调用加密隐私求交协议进行数据ID的求交和对齐,从而确定双方数据中可以用来进行模型训练的交集部分并形成ID一一对齐的联合数据表,注意此时双方的交集数据仍然分别存储在电网和工信局本地,分别表示为(X′A,Y′)、X′B,样本对齐过程的基本功能如图2所示;
步骤2、参数初始化。由发起方初始化预测模型,并定义联邦学习相关参数。包括最大迭代次数T,学习率α,学习终止条件,以及纵向逻辑回归模型的模型参数θA、θB等。
步骤3、随机生成秘密份额。发起方生成秘密份额
Figure BDA0003721172340000101
参与方生成秘密份额
Figure BDA0003721172340000102
上述秘密份额将作为步骤4中间数据的秘密份额之一分享给另一方。其中,秘密份额
Figure BDA0003721172340000103
以及
Figure BDA0003721172340000104
均为随机生成的随机数,注意,该随机数应为真随机数,调用np.random()函数生成的伪随机数仍然存在安全风险;
步骤4、秘密份额安全交互。起方计算逻辑回归模型的中间参数uA,设置uA应属于参与方的秘密份额为<uA>B,设置uA应属于发起方的秘密份额为<uA>A;设置数据标签Y′应属于参与方的秘密份额为<Y′>B,设置数据标签y应属于发起方的秘密份额为<Y′>A;将秘密份额<uA>B、<Y′>B分享给参与方。参与方计算逻辑回归模型的中间参数uB,设置uB应属于发起方的秘密份额为<uB>A,设置uB应属于参与方的秘密份额为<uB>B;将秘密份额<uB>A分享给发起方;
步骤4.1、建立纵向逻辑回归损失函数的优化问题
Figure BDA0003721172340000105
其中,θ∈Rn为模型参数,n为模型参数的维度,同时为数据的特征维度,xi表示数据集X′∈Rm×n中第i个数据样本,X′表示联合数据表XA′||X′B,m为交集数据的样本数目,yi为xi对应的标签;
对数似然函数为
I(θ;xi;yi)=log(1+exp(yiθTxi))
假设发起方和参与方分别持有各自特征对应的模型参数
Figure BDA0003721172340000106
Figure BDA0003721172340000107
其中nA为发起方模型参数θA的维度,nB为参与方模型参数θB的维度,满足nA+nB=n,θ=θA||θB,||表示矩阵或向量的拼接;
将逻辑回归算法与加性秘密共享技术相结合,其中log(1+e-z)的Taylor展开形式:
Figure BDA0003721172340000111
基于此得到以上优化问题的二阶近似:
Figure BDA0003721172340000112
其中θT表示参数向量θ的转置;
发起方的优化问题为:
Figure BDA0003721172340000113
参与方的优化问题为:
Figure BDA0003721172340000114
其中,
Figure BDA0003721172340000115
Figure BDA0003721172340000116
Figure BDA0003721172340000117
分别表示发起方和参与方模型参数θA和θB的转置;
步骤4.2、使用梯度下降法求解步骤4.1中的优化问题,计算中间数据以便后续求解模型参数;
发起方计算中间参数
Figure BDA0003721172340000118
为与参与方进行协作计算模型梯度,将中间参数uA拆分为两个秘密份额;其中,属于发起方的秘密份额为
Figure BDA0003721172340000119
属于参与方的秘密份额
Figure BDA00037211723400001110
将标签信息y拆分为两个秘密份额,其中,属于发起方的秘密份额为
Figure BDA00037211723400001111
属于参与方的秘密份额
Figure BDA00037211723400001112
参与方计算中间参数
Figure BDA00037211723400001113
为与发起方进行协作计算模型梯度,将中间参数uB拆分为两个秘密份额;其中,计算属于发起方的秘密份额为
Figure BDA00037211723400001114
属于参与方的秘密份额
Figure BDA00037211723400001115
步骤4.3、发起方及参与方将属于各方的秘密份额分享出去。
步骤5、发起方根据持有的中间数据秘密份额计算共享误差<d>A,并将其作为模型误差的秘密份额之一分享给参与方。参与方根据持有的中间数据秘密份额计算共享误差<d>B,并将其作为模型误差的秘密份额之一发送给发起方;
第一,推导模型梯度信息的相关计算公式,考虑步骤4.1中优化问题的二阶近似:
Figure BDA0003721172340000121
上述目标函数的梯度直接计算求得:
Figure BDA0003721172340000122
其中,模型在样本(xi,yi)上的误差
Figure BDA0003721172340000123
在样本集(X′,Y′)上的误差向量d=[d1,...,dm]T
第二,发起方及参与方计算共享误差的秘密份额。
发起方持有的秘密份额为<uB>A、<uA>A和<Y′>A,计算属于发起方的共享误差的秘密份额为
Figure BDA0003721172340000124
参与方持有的秘密份额为<uA>B、<uB>B和<Y′>B,计算属于参与方的共享误差的秘密份额为
Figure BDA0003721172340000125
第三,发起方及参与方将属于各方的秘密份额发送出去。
步骤6、发起方根据持有的模型误差秘密份额计算模型误差<d>,并计算模型梯度信息
Figure BDA0003721172340000126
参与方根据持有的模型误差秘密份额计算模型误差<d>,并计算模型梯度信息
Figure BDA0003721172340000127
第一,发起方及参与方根据已有的共享误差的秘密份额计算模型误差<d>=<d>A+<d>B
第二,发起方及参与方根据模型误差计算模型梯度信息。
发起方模型梯度为
Figure BDA0003721172340000131
参与方模型梯度为
Figure BDA0003721172340000132
步骤7、发起方利用模型梯度信息
Figure BDA0003721172340000133
以及初始化设置的学习率α更新模型参数θA;参与方利用模型梯度信息
Figure BDA0003721172340000134
以及初始化设置的学习率α更新模型参数θB
发起方进行梯度更新:
Figure BDA0003721172340000135
参与方进行梯度更新:
Figure BDA0003721172340000136
步骤8、完成模型训练。迭代步骤3至步骤7直至满足步骤2中设置的学习中止条件或达到给定的最大迭代次数T,此时双方维护的最终模型即为完成训练可提供服务的模型。
参照图3,将本发明应用在用电企业电费缴纳风险预测上的流程为:
步骤1、发起方业务系统发起在线预测请求;
步骤2、发起方向参与方发起数据请求,请求中包含待预测数据的ID;
步骤3、参与方在基于业务系统中进行ID匹配;
步骤4、参与方查询到数据后提取相关特征;
步骤5、发起方与参与方均基于己方特征和模型进行本地计算;
步骤6、发起方与参与方对本地计算结果进行秘密共享;
步骤7、对秘密共享的结果进行聚合,发起方获取相应企业的预测标签值,其中“1”代表预测该企业可能不会欠费,“-1”代表该企业未来可能会欠费。
参见图4,本发明公布了一种基于纵向联邦逻辑回归的企业电费缴纳风险预测系统,包括:
样本对齐模块;所述样本对齐模块用于采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
参数初始化模块;所述参数初始化模块用于初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数;
秘密份额安全交互模块;所述秘密份额安全交互模块基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
计算模型损失模块;所述计算模型损失模块基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
计算梯度信息模块;所述计算梯度信息模块基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
更新模型参数模块;所述更新模型参数模块利用模型梯度信息及初始化设置的学习率更新模型参数;
模型训练模块;所述模型训练模块用于训练次数达到学习中止条件或给定的最大迭代次数T,完成训练。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,包括:
步骤1、样本对齐;输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
步骤2、参数初始化;初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数θA和θB
步骤3、秘密份额安全交互;基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
步骤4、计算模型损失;基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
步骤5、计算梯度信息;基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
步骤6、更新模型参数;利用模型梯度信息及初始化设置的学习率更新模型参数;
步骤7、完成模型训练;迭代步骤3至步骤7,直至达到学习中止条件或给定的最大迭代次数T,完成训练。
2.根据权利要求1所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述步骤1、步骤3、步骤4、步骤5和到步骤6为发起方和参与方共同参与的工作;所述步骤2为发起方单独参与的工作。
3.根据权利要求2所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;具体为:
发起方与参与方输入预测模型训练所需的数据集(XA,Y)、XB,并调用加密隐私求交协议进行数据ID的求交和对齐,确定双方数据中可以用来进行模型训练的交集部分并形成ID一一对齐的联合数据表,此时双方的交集数据仍然分别存储在各自的本地空间,分别表示为(X′A,Y′)、X′B
4.根据权利要求3所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述随机秘密份额为参与方和发起方随机生成;发起方生成随机秘密份额
Figure FDA0003721172330000021
参与方生成随机秘密份额
Figure FDA0003721172330000022
5.根据权利要求4所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;具体为:
发起方基于样本对齐后的己方数据(X′A,Y′)中的数据X′A计算逻辑回归模型的中间参数uA,并计算应属于参与方的中间参数秘密份额<uA>B、应属于发起方的中间参数秘密份额<uA>A,基于样本对齐后的己方数据(X′A,Y′)中的标签数据y′计算应属于参与方的数据标签秘密份额<Y′>B,以及应属于发起方的数据标签秘密份额<Y′>A,并将秘密份额<uA>B、<Y′>B发送给参与方;参与方基于样本对齐后的己方数据X′B计算逻辑回归模型的中间参数uB,计算发起方的中间参数秘密份额为<uB>A,参与方的秘密份额<uB>B,并将秘密份额<uB>A发送发起方。
6.根据权利要求5所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述步骤3的具体为推到过程为:
步骤3.1、建立纵向逻辑回归损失函数的优化问题
Figure FDA0003721172330000023
其中,θ∈Rn为模型参数,n为模型参数的维度,同时为数据的特征维度,xi表示数据集X′∈Rm×n中第i个数据样本,X′表示联合数据表XA′||X′B,m为交集数据的样本数目,yi为xi对应的标签;
对数似然函数为
l(θ;xi;yi)=log(1+exp(yiθTxi))
假设发起方和参与方分别持有各自特征对应的模型参数
Figure FDA0003721172330000024
Figure FDA0003721172330000031
其中nA为发起方模型参数θA的维度,nB为参与方模型参数θB的维度,满足nA+nB=n,θ=θA||θB,||表示矩阵或向量的拼接;
将逻辑回归算法与加性秘密共享技术相结合,其中log(1+e-z)的Taylor展开形式:
Figure FDA0003721172330000032
基于此得到以上优化问题的二阶近似:
Figure FDA0003721172330000033
其中θT表示参数向量θ的转置;
发起方的优化问题为:
Figure FDA0003721172330000034
参与方的优化问题为:
Figure FDA0003721172330000035
其中,
Figure FDA0003721172330000036
Figure FDA0003721172330000037
Figure FDA0003721172330000038
分别表示发起方和参与方模型参数θA和θB的转置;
步骤3.2、使用梯度下降法求解步骤3.1中的优化问题,计算中间数据以便后续求解模型参数;
发起方计算中间参数
Figure FDA0003721172330000039
为与参与方进行协作计算模型梯度,将中间参数uA拆分为两个秘密份额;其中,属于发起方的秘密份额为
Figure FDA00037211723300000310
属于参与方的秘密份额
Figure FDA00037211723300000311
将标签信息y拆分为两个秘密份额,其中,属于发起方的秘密份额为
Figure FDA00037211723300000312
属于参与方的秘密份额
Figure FDA00037211723300000313
参与方计算中间参数
Figure FDA00037211723300000314
为与发起方进行协作计算模型梯度,将中间参数uB拆分为两个秘密份额;其中,计算属于发起方的秘密份额为
Figure FDA0003721172330000041
属于参与方的秘密份额
Figure FDA0003721172330000042
步骤3.3、发起方及参与方将属于各方的秘密份额分享出去。
7.根据权利要求6所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额,具体为:
发起方根据持有的中间数据秘密份额计算模型误差<d>A,并将其作为模型误差的秘密份额之一发送给参与方;参与方根据持有的中间数据秘密份额计算共享误差<d>B,并将其作为模型误差的秘密份额之一发送给发起方;
步骤4.1、推导模型梯度信息的相关计算公式,考虑步骤3.1中优化问题的二阶近似:
Figure FDA0003721172330000043
上述目标函数的梯度直接计算求得:
Figure FDA0003721172330000044
其中,模型在样本(xi,yi)上的误差
Figure FDA0003721172330000045
在样本集(X′,Y′)上的误差向量d=[d1,...,dm]T
步骤4.2、发起方及参与方计算共享误差的秘密份额;
发起方持有的秘密份额为<uB>A、<uA>A和<Y′>A,计算属于发起方的共享误差的秘密份额为
Figure FDA0003721172330000046
参与方持有的秘密份额为<uA>B、<uB>B和<Y′>B,计算属于参与方的共享误差的秘密份额为
Figure FDA0003721172330000047
步骤4.3、发起方及参与方将属于各方的秘密份额分享出去。
8.根据权利要求7所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述基于共享误差的秘密份计算模型误差,并计算模型梯度信息,具体为:发起方根据持有的模型误差秘密份额计算模型误差<d>,并计算模型梯度信息
Figure FDA0003721172330000051
参与方根据持有的模型误差秘密份额计算模型误差<d>,并计算模型梯度信息
Figure FDA0003721172330000052
步骤5.1、发起方及参与方根据已有的共享误差的秘密份额计算模型误差<d>=<d>A+<d>B
步骤5.2、发起方及参与方根据模型误差计算模型梯度信息;
发起方模型梯度为
Figure FDA0003721172330000053
参与方模型梯度为
Figure FDA0003721172330000054
9.根据权利要求8所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述利用模型梯度信息及初始化设置的学习率更新模型参数;具体为:发起方利用模型梯度信息
Figure FDA0003721172330000055
以及初始化设置的学习率α更新模型参数θA;参与方利用模型梯度信息
Figure FDA0003721172330000056
以及初始化设置的学习率α更新模型参数θB
步骤6.1,发起方进行梯度更新:
Figure FDA0003721172330000057
步骤6.2,参与方进行梯度更新:
Figure FDA0003721172330000058
10.基于纵向联邦逻辑回归的企业电费缴纳风险预测系统,其特征在于,包括:
样本对齐模块;所述样本对齐模块用于采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
参数初始化模块;所述参数初始化模块用于初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数;
秘密份额安全交互模块;所述秘密份额安全交互模块基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
计算模型损失模块;所述计算模型损失模块基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
计算梯度信息模块;所述计算梯度信息模块基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
更新模型参数模块;所述更新模型参数模块利用模型梯度信息及初始化设置的学习率更新模型参数;
模型训练模块;所述模型训练模块用于训练次数达到学习中止条件或给定的最大迭代次数T,完成训练。
CN202210751534.2A 2022-06-29 2022-06-29 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统 Pending CN115392531A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210751534.2A CN115392531A (zh) 2022-06-29 2022-06-29 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210751534.2A CN115392531A (zh) 2022-06-29 2022-06-29 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统

Publications (1)

Publication Number Publication Date
CN115392531A true CN115392531A (zh) 2022-11-25

Family

ID=84117687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210751534.2A Pending CN115392531A (zh) 2022-06-29 2022-06-29 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统

Country Status (1)

Country Link
CN (1) CN115392531A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648999A (zh) * 2024-01-30 2024-03-05 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备
CN117675411A (zh) * 2024-01-31 2024-03-08 智慧眼科技股份有限公司 一种基于纵向XGBoost算法的全局模型获取方法及系统
CN117973879A (zh) * 2024-04-02 2024-05-03 国网山东省电力公司营销服务中心(计量中心) 基于多源数据联合分析的电力缴费风险识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648999A (zh) * 2024-01-30 2024-03-05 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备
CN117648999B (zh) * 2024-01-30 2024-04-23 上海零数众合信息科技有限公司 联邦学习回归模型损失函数评估方法、装置及电子设备
CN117675411A (zh) * 2024-01-31 2024-03-08 智慧眼科技股份有限公司 一种基于纵向XGBoost算法的全局模型获取方法及系统
CN117675411B (zh) * 2024-01-31 2024-04-26 智慧眼科技股份有限公司 一种基于纵向XGBoost算法的全局模型获取方法及系统
CN117973879A (zh) * 2024-04-02 2024-05-03 国网山东省电力公司营销服务中心(计量中心) 基于多源数据联合分析的电力缴费风险识别方法及系统

Similar Documents

Publication Publication Date Title
CN115392531A (zh) 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统
Wang et al. Blockchain technology in the energy sector: From basic research to real world applications
WO2022206510A1 (zh) 联邦学习的模型训练方法、装置、设备及存储介质
Wang et al. Blockchain-based secure and cooperative private charging pile sharing services for vehicular networks
CN111459461A (zh) 基于物联网和区块链技术的用能权核定及交易系统和方法
CN109493053A (zh) 一种用于联盟区块链系统的匿名交易方法
Du Research on engineering project management method based on BIM technology
Jogunola et al. Demonstrating blockchain-enabled peer-to-peer energy trading and sharing
CN115396442A (zh) 一种面向城市轨道交通的算力共享系统及方法
Xu et al. Research on application of block chain in distributed energy transaction
Miao et al. Smart Micro-GaS: A cognitive micro natural gas industrial ecosystem based on mixed blockchain and edge computing
CN109711986A (zh) 一种基于云存储平台系统的token应用与奖励方式
Song et al. Reliable reputation review and secure energy transaction of microgrid community based on hybrid blockchain
Sun et al. Research on the application of blockchain technology in energy internet
Javaid et al. A lightweight and secure energy trading framework for electric vehicles
CN113051608A (zh) 一种联邦学习的虚拟化共享模型传输方法
Wu et al. Research on the application of data middle platform technology in integrated energy business system
Guo et al. A bike sharing system based on Blockchain platform
Sha et al. Heterogeneous multi-blockchain model-based intellectual property protection in social manufacturing paradigm
Wang et al. Research on trusted sharing and privacy computing technology of energy data in supply chain based on alliance chain
Li et al. Research on Water Rights Trading System based on Blockchain Technology
CN114567440B (zh) 一种面向电力物联网边缘侧的主客体模型隐私保护方法
Feng et al. Transnational power‐transaction model considering transaction costs under the support of consortium blockchain
Wang et al. Research on block chain technology in energy Internet
Sekaran et al. Blockchain-based systems for modern energy grid: a detailed view on significant applications of blockchain for the smart grid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination