CN115392531A - 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统 - Google Patents
基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统 Download PDFInfo
- Publication number
- CN115392531A CN115392531A CN202210751534.2A CN202210751534A CN115392531A CN 115392531 A CN115392531 A CN 115392531A CN 202210751534 A CN202210751534 A CN 202210751534A CN 115392531 A CN115392531 A CN 115392531A
- Authority
- CN
- China
- Prior art keywords
- model
- secret
- initiator
- data
- logistic regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007477 logistic regression Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 33
- 239000003999 initiator Substances 0.000 claims description 105
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 9
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000004891 communication Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0816—Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
- H04L9/085—Secret sharing or secret splitting, e.g. threshold schemes
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Operations Research (AREA)
- Mathematical Physics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Mathematical Analysis (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Computer Hardware Design (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Algebra (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
Abstract
本发明公开了一种基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统,利用秘密共享技术保护了电网和工信局联合风险预测时的数据隐私安全,并实现了集中式训练级别的模型效用性。通过使用秘密共享技术取代同态加密技术,有效降低了整体的计算复杂度与高昂的通信成本,并可满足实际场景中处理大体量数据的需求。通过使用秘密共享技术取代差分隐私技术,可有效提升模型精准度,并满足实际风险预测场景中的精准预测。
Description
技术领域
本发明属于数据安全领域,涉及一种基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统。
背景技术
用电企业欠费风险是指因用电企业关停、破产、重组、转制,用户经营不良,用户流动资金紧缺,用户转租,社会稳定等原因,引起电费不能及时缴纳等风险。用电企业电费缴纳风险预测方法是通过建立风险评价指标体系、利用机器学习技术建立风险评估模型来定量、有效地进行风险界定的智能化预测方法。联邦学习是一种新兴的隐私保护机器学习范式,其可以基于各方拥有的分散的数据训练模型,同时保证数据隐私。基于纵向联邦逻辑回归的用电企业电费缴纳风险预测能够有效结合电网的企业用电数据以及工信局的企业运营相关数据进行联合预测,提高电费回收风险评估精度,同时保证电网和工信局数据不被泄露。隐私计算技术是实现联邦过程数据隐私保护的关键技术,但目前纵向逻辑回归方案主要通过使用同态加密或差分隐私技术实现隐私保护,因此以往的方案常常表现为计算复杂度高或模型精度受损,从而难以支撑大规模电网数据集上精准的用电企业缴费风险预测。为解决该问题,已有研究提出结合同态加密与秘密共享的大规模稀疏逻辑回归模型以同时保证效率和安全性,但由于算法过程繁琐、通信轮次较多,计算过程中仍会产生大量的同态加密的中间结果,从而产生大量的通信和计算开销。考虑到实际智能电网场景中通常数据量巨大、安全性要求高,因此,设计安全高效无损的纵向联邦用电企业电费缴纳风险预测方法具有重要的现实意义。
发明内容
本发明的目的在于解决现有技术中的问题,提供一种基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统,能够保证发起方与参与方在不泄露自己数据隐私的情况下,联合建立纵向联邦逻辑回归模型,用于实现精准的用电企业电费缴纳风险预测。
为达到上述目的,本发明采用以下技术方案予以实现:
基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,包括:
步骤1、样本对齐;输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
步骤2、参数初始化;初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数θA和θB;
步骤3、秘密份额安全交互;基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
步骤4、计算模型损失;基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
步骤5、计算梯度信息;基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
步骤6、更新模型参数;利用模型梯度信息及初始化设置的学习率更新模型参数;
步骤7、完成模型训练;迭代步骤3至步骤7,直至达到学习中止条件或给定的最大迭代次数T,完成训练。
本发明的进一步改进在于:
步骤1、步骤3、步骤4、步骤5和到步骤6为发起方和参与方共同参与的工作;步骤2为发起方单独参与的工作。
采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;具体为:
发起方与参与方输入预测模型训练所需的数据集(XA,Y)、XB,并调用加密隐私求交协议进行数据ID的求交和对齐,确定双方数据中可以用来进行模型训练的交集部分并形成ID一一对齐的联合数据表,此时双方的交集数据仍然分别存储在各自的本地空间,分别表示为(X′A,Y′)、X′B。
基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;具体为:
发起方基于样本对齐后的己方数据(X′A,Y′)中的数据X′A计算逻辑回归模型的中间参数uA,并计算应属于参与方的中间参数秘密份额<uA>B、应属于发起方的中间参数秘密份额<uA>A,基于样本对齐后的己方数据(X′A,Y′)中的标签数据y′计算应属于参与方的数据标签秘密份额<Y′>B,以及应属于发起方的数据标签秘密份额<Y′>A,并将秘密份额<uA>B、<Y′>B发送给参与方;参与方基于样本对齐后的己方数据X′B计算逻辑回归模型的中间参数uB,计算发起方的中间参数秘密份额为<uB>A,参与方的秘密份额<uB>B,并将秘密份额<uB>A发送发起方。
步骤3的具体为推到过程为:
步骤3.1、建立纵向逻辑回归损失函数的优化问题
其中,θ∈Rn为模型参数,n为模型参数的维度,同时为数据的特征维度,xi表示数据集X′∈Rm×n中第i个数据样本,X′表示联合数据表X′A||X′B,m为交集数据的样本数目,yi为xi对应的标签;
对数似然函数为
I(θ;xi;yi)=log(1+exp(yiθTxi))
将逻辑回归算法与加性秘密共享技术相结合,其中log(1+e-z)的Taylor展开形式:
基于此得到以上优化问题的二阶近似:
其中θT表示参数向量θ的转置;
发起方的优化问题为:
参与方的优化问题为:
步骤3.2、使用梯度下降法求解步骤3.1中的优化问题,计算中间数据以便后续求解模型参数;
步骤3.3、发起方及参与方将属于各方的秘密份额分享出去。
基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额,具体为:
发起方根据持有的中间数据秘密份额计算模型误差<d>A,并将其作为模型误差的秘密份额之一发送给参与方;参与方根据持有的中间数据秘密份额计算共享误差<d>B,并将其作为模型误差的秘密份额之一发送给发起方;
步骤4.1、推导模型梯度信息的相关计算公式,考虑步骤3.1中优化问题的二阶近似:
上述目标函数的梯度直接计算求得:
步骤4.2、发起方及参与方计算共享误差的秘密份额;
步骤4.3、发起方及参与方将属于各方的秘密份额分享出去。
基于共享误差的秘密份计算模型误差,并计算模型梯度信息,具体为:发起方根据持有的模型误差秘密份额计算模型误差<d>,并计算模型梯度信息参与方根据持有的模型误差秘密份额计算模型误差<d>,并计算模型梯度信息
步骤5.1、发起方及参与方根据已有的共享误差的秘密份额计算模型误差<d>=<d>A+<d>B;
步骤5.2、发起方及参与方根据模型误差计算模型梯度信息;
发起方模型梯度为
参与方模型梯度为
步骤6.1,发起方进行梯度更新:
步骤6.2,参与方进行梯度更新:
基于纵向联邦逻辑回归的企业电费缴纳风险预测系统,包括:
样本对齐模块;所述样本对齐模块用于采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
参数初始化模块;所述参数初始化模块用于初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数;
秘密份额安全交互模块;所述秘密份额安全交互模块基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
计算模型损失模块;所述计算模型损失模块基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
计算梯度信息模块;所述计算梯度信息模块基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
更新模型参数模块;所述更新模型参数模块利用模型梯度信息及初始化设置的学习率更新模型参数;
模型训练模块;所述模型训练模块用于训练次数达到学习中止条件或给定的最大迭代次数T,完成训练。
与现有技术相比,本发明具有以下有益效果:
本发明利用秘密共享技术保证了联邦逻辑回归建模过程中数据的安全性,该技术可保证在不泄露数据隐私的情况下,联合建立纵向联邦逻辑回归模型用于实现精准的用电企业电费缴纳风险预测。同时秘密共享技术计算复杂度低,本发明在满足用隐私保护需求及效用无损前提下显著降低了纵向联邦逻辑回归模型的通信开销和计算成本,实现了安全高效且无损的用电企业电费缴纳风险预测。
进一步地,发起方和参与方在联邦建模过程中将中间数据、标签信息、模型误差通过秘密共享技术拆分为秘密份额使得发起方和参与方双方都无法持有完整的数据信息,并通过共享模型误差计算各自模型梯度,避免任一方掌握数据明文信息或从持有的信息中推理原始明文数据,从而保证数据安全。该步骤实现了用户的安全需求。
进一步地,本发明通过使用秘密共享技术取代同态加密技术或差分隐私作为隐私保护技术,同态加密涉及明文的加解密,加解密过程为极为耗时的大素数运算,秘密共享利用明文的拆解共享,无需加解密过程只需简单算数运算,能实现“明文”级计算速度。差分隐私通过对中间数据加噪以牺牲精度的方式谋求安全性,秘密共享进行明文拆解并进行可逆还原,最终结果与原始结果无异,能实现“明文级”模型精度;该步骤降低了模型训练的计算复杂度并保证模型无损。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为加密样本对齐的原理及功能示意图;
图2为本发明的逻辑架构示意图;
图3为本发明在用电企业缴纳风险预测的流程示意图;
图4为本发明实施例的基于纵向联邦逻辑回归的企业电费缴纳风险预测系统结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
参照图1,本发明公布了一种基于纵向联邦逻辑回归的用电企业电费缴纳风险预测方法,无论针对诚信或非诚信的发起方或参与方,协议的安全性体现在以下两个方面:
1)当发起方和参与方是诚信时,即他们会诚实地执行协议,则根据秘密共享技术本身的安全性,双方均不能获得除秘密份额之外的任何对方的原始数据信息。
2)当发起方或参与方是非诚信的,即发起方或参与方会从持有的秘密份额中推测原始数据信息。由于发起方或参与方持有的仅为明文数据的秘密份额,即为秘密共享技术生成的随机数,其无规律不可推测,因此发起方或参与方不能从持有的秘密份额中获取除秘密份额之外的任何原始数据信息。
为达到上述目的,具体包括以下步骤:
步骤1、样本对齐。各联邦参与方分别输入己方数据并进行样本对齐。具体的,发起方--电网与参与方--工信局--输入预测模型训练所需的数据集(XA,Y)、XB,并调用加密隐私求交协议进行数据ID的求交和对齐,从而确定双方数据中可以用来进行模型训练的交集部分并形成ID一一对齐的联合数据表,注意此时双方的交集数据仍然分别存储在电网和工信局本地,分别表示为(X′A,Y′)、X′B,样本对齐过程的基本功能如图2所示;
步骤2、参数初始化。由发起方初始化预测模型,并定义联邦学习相关参数。包括最大迭代次数T,学习率α,学习终止条件,以及纵向逻辑回归模型的模型参数θA、θB等。
步骤3、随机生成秘密份额。发起方生成秘密份额参与方生成秘密份额上述秘密份额将作为步骤4中间数据的秘密份额之一分享给另一方。其中,秘密份额以及均为随机生成的随机数,注意,该随机数应为真随机数,调用np.random()函数生成的伪随机数仍然存在安全风险;
步骤4、秘密份额安全交互。起方计算逻辑回归模型的中间参数uA,设置uA应属于参与方的秘密份额为<uA>B,设置uA应属于发起方的秘密份额为<uA>A;设置数据标签Y′应属于参与方的秘密份额为<Y′>B,设置数据标签y应属于发起方的秘密份额为<Y′>A;将秘密份额<uA>B、<Y′>B分享给参与方。参与方计算逻辑回归模型的中间参数uB,设置uB应属于发起方的秘密份额为<uB>A,设置uB应属于参与方的秘密份额为<uB>B;将秘密份额<uB>A分享给发起方;
步骤4.1、建立纵向逻辑回归损失函数的优化问题
其中,θ∈Rn为模型参数,n为模型参数的维度,同时为数据的特征维度,xi表示数据集X′∈Rm×n中第i个数据样本,X′表示联合数据表XA′||X′B,m为交集数据的样本数目,yi为xi对应的标签;
对数似然函数为
I(θ;xi;yi)=log(1+exp(yiθTxi))
将逻辑回归算法与加性秘密共享技术相结合,其中log(1+e-z)的Taylor展开形式:
基于此得到以上优化问题的二阶近似:
其中θT表示参数向量θ的转置;
发起方的优化问题为:
参与方的优化问题为:
步骤4.2、使用梯度下降法求解步骤4.1中的优化问题,计算中间数据以便后续求解模型参数;
步骤4.3、发起方及参与方将属于各方的秘密份额分享出去。
步骤5、发起方根据持有的中间数据秘密份额计算共享误差<d>A,并将其作为模型误差的秘密份额之一分享给参与方。参与方根据持有的中间数据秘密份额计算共享误差<d>B,并将其作为模型误差的秘密份额之一发送给发起方;
第一,推导模型梯度信息的相关计算公式,考虑步骤4.1中优化问题的二阶近似:
上述目标函数的梯度直接计算求得:
第二,发起方及参与方计算共享误差的秘密份额。
第三,发起方及参与方将属于各方的秘密份额发送出去。
第一,发起方及参与方根据已有的共享误差的秘密份额计算模型误差<d>=<d>A+<d>B。
第二,发起方及参与方根据模型误差计算模型梯度信息。
发起方模型梯度为
参与方模型梯度为
发起方进行梯度更新:
参与方进行梯度更新:
步骤8、完成模型训练。迭代步骤3至步骤7直至满足步骤2中设置的学习中止条件或达到给定的最大迭代次数T,此时双方维护的最终模型即为完成训练可提供服务的模型。
参照图3,将本发明应用在用电企业电费缴纳风险预测上的流程为:
步骤1、发起方业务系统发起在线预测请求;
步骤2、发起方向参与方发起数据请求,请求中包含待预测数据的ID;
步骤3、参与方在基于业务系统中进行ID匹配;
步骤4、参与方查询到数据后提取相关特征;
步骤5、发起方与参与方均基于己方特征和模型进行本地计算;
步骤6、发起方与参与方对本地计算结果进行秘密共享;
步骤7、对秘密共享的结果进行聚合,发起方获取相应企业的预测标签值,其中“1”代表预测该企业可能不会欠费,“-1”代表该企业未来可能会欠费。
参见图4,本发明公布了一种基于纵向联邦逻辑回归的企业电费缴纳风险预测系统,包括:
样本对齐模块;所述样本对齐模块用于采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
参数初始化模块;所述参数初始化模块用于初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数;
秘密份额安全交互模块;所述秘密份额安全交互模块基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
计算模型损失模块;所述计算模型损失模块基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
计算梯度信息模块;所述计算梯度信息模块基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
更新模型参数模块;所述更新模型参数模块利用模型梯度信息及初始化设置的学习率更新模型参数;
模型训练模块;所述模型训练模块用于训练次数达到学习中止条件或给定的最大迭代次数T,完成训练。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,包括:
步骤1、样本对齐;输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
步骤2、参数初始化;初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数θA和θB;
步骤3、秘密份额安全交互;基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
步骤4、计算模型损失;基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
步骤5、计算梯度信息;基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
步骤6、更新模型参数;利用模型梯度信息及初始化设置的学习率更新模型参数;
步骤7、完成模型训练;迭代步骤3至步骤7,直至达到学习中止条件或给定的最大迭代次数T,完成训练。
2.根据权利要求1所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述步骤1、步骤3、步骤4、步骤5和到步骤6为发起方和参与方共同参与的工作;所述步骤2为发起方单独参与的工作。
3.根据权利要求2所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;具体为:
发起方与参与方输入预测模型训练所需的数据集(XA,Y)、XB,并调用加密隐私求交协议进行数据ID的求交和对齐,确定双方数据中可以用来进行模型训练的交集部分并形成ID一一对齐的联合数据表,此时双方的交集数据仍然分别存储在各自的本地空间,分别表示为(X′A,Y′)、X′B。
5.根据权利要求4所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;具体为:
发起方基于样本对齐后的己方数据(X′A,Y′)中的数据X′A计算逻辑回归模型的中间参数uA,并计算应属于参与方的中间参数秘密份额<uA>B、应属于发起方的中间参数秘密份额<uA>A,基于样本对齐后的己方数据(X′A,Y′)中的标签数据y′计算应属于参与方的数据标签秘密份额<Y′>B,以及应属于发起方的数据标签秘密份额<Y′>A,并将秘密份额<uA>B、<Y′>B发送给参与方;参与方基于样本对齐后的己方数据X′B计算逻辑回归模型的中间参数uB,计算发起方的中间参数秘密份额为<uB>A,参与方的秘密份额<uB>B,并将秘密份额<uB>A发送发起方。
6.根据权利要求5所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述步骤3的具体为推到过程为:
步骤3.1、建立纵向逻辑回归损失函数的优化问题
其中,θ∈Rn为模型参数,n为模型参数的维度,同时为数据的特征维度,xi表示数据集X′∈Rm×n中第i个数据样本,X′表示联合数据表XA′||X′B,m为交集数据的样本数目,yi为xi对应的标签;
对数似然函数为
l(θ;xi;yi)=log(1+exp(yiθTxi))
将逻辑回归算法与加性秘密共享技术相结合,其中log(1+e-z)的Taylor展开形式:
基于此得到以上优化问题的二阶近似:
其中θT表示参数向量θ的转置;
发起方的优化问题为:
参与方的优化问题为:
步骤3.2、使用梯度下降法求解步骤3.1中的优化问题,计算中间数据以便后续求解模型参数;
步骤3.3、发起方及参与方将属于各方的秘密份额分享出去。
7.根据权利要求6所述的基于纵向联邦逻辑回归的企业电费缴纳风险预测方法,其特征在于,所述基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额,具体为:
发起方根据持有的中间数据秘密份额计算模型误差<d>A,并将其作为模型误差的秘密份额之一发送给参与方;参与方根据持有的中间数据秘密份额计算共享误差<d>B,并将其作为模型误差的秘密份额之一发送给发起方;
步骤4.1、推导模型梯度信息的相关计算公式,考虑步骤3.1中优化问题的二阶近似:
上述目标函数的梯度直接计算求得:
步骤4.2、发起方及参与方计算共享误差的秘密份额;
步骤4.3、发起方及参与方将属于各方的秘密份额分享出去。
10.基于纵向联邦逻辑回归的企业电费缴纳风险预测系统,其特征在于,包括:
样本对齐模块;所述样本对齐模块用于采集输入预测模型训练所需的数据集,并调用加密隐私求交协议进行数据的ID求交和对齐;
参数初始化模块;所述参数初始化模块用于初始化预测模型,最大迭代次数T,学习率α,学习终止条件和纵向逻辑回归模型的模型参数;
秘密份额安全交互模块;所述秘密份额安全交互模块基于纵向逻辑回归模型的模型参数、样本对齐后的数据,获取逻辑回归模型的中间参数;基于逻辑回归模型的中间参数和生成随机秘密份额,获取中间参数秘密份额和数据标签秘密份额;
计算模型损失模块;所述计算模型损失模块基于中间数据秘密份额和数据标签秘密份额计算共享误差的秘密份额;
计算梯度信息模块;所述计算梯度信息模块基于共享误差的秘密份计算模型误差,并计算模型梯度信息;
更新模型参数模块;所述更新模型参数模块利用模型梯度信息及初始化设置的学习率更新模型参数;
模型训练模块;所述模型训练模块用于训练次数达到学习中止条件或给定的最大迭代次数T,完成训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210751534.2A CN115392531A (zh) | 2022-06-29 | 2022-06-29 | 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210751534.2A CN115392531A (zh) | 2022-06-29 | 2022-06-29 | 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115392531A true CN115392531A (zh) | 2022-11-25 |
Family
ID=84117687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210751534.2A Pending CN115392531A (zh) | 2022-06-29 | 2022-06-29 | 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392531A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648999A (zh) * | 2024-01-30 | 2024-03-05 | 上海零数众合信息科技有限公司 | 联邦学习回归模型损失函数评估方法、装置及电子设备 |
CN117675411A (zh) * | 2024-01-31 | 2024-03-08 | 智慧眼科技股份有限公司 | 一种基于纵向XGBoost算法的全局模型获取方法及系统 |
CN117973879A (zh) * | 2024-04-02 | 2024-05-03 | 国网山东省电力公司营销服务中心(计量中心) | 基于多源数据联合分析的电力缴费风险识别方法及系统 |
-
2022
- 2022-06-29 CN CN202210751534.2A patent/CN115392531A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648999A (zh) * | 2024-01-30 | 2024-03-05 | 上海零数众合信息科技有限公司 | 联邦学习回归模型损失函数评估方法、装置及电子设备 |
CN117648999B (zh) * | 2024-01-30 | 2024-04-23 | 上海零数众合信息科技有限公司 | 联邦学习回归模型损失函数评估方法、装置及电子设备 |
CN117675411A (zh) * | 2024-01-31 | 2024-03-08 | 智慧眼科技股份有限公司 | 一种基于纵向XGBoost算法的全局模型获取方法及系统 |
CN117675411B (zh) * | 2024-01-31 | 2024-04-26 | 智慧眼科技股份有限公司 | 一种基于纵向XGBoost算法的全局模型获取方法及系统 |
CN117973879A (zh) * | 2024-04-02 | 2024-05-03 | 国网山东省电力公司营销服务中心(计量中心) | 基于多源数据联合分析的电力缴费风险识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115392531A (zh) | 基于纵向联邦逻辑回归的企业电费缴纳风险预测方法及系统 | |
Wang et al. | Blockchain technology in the energy sector: From basic research to real world applications | |
WO2022206510A1 (zh) | 联邦学习的模型训练方法、装置、设备及存储介质 | |
Wang et al. | Blockchain-based secure and cooperative private charging pile sharing services for vehicular networks | |
CN111459461A (zh) | 基于物联网和区块链技术的用能权核定及交易系统和方法 | |
CN109493053A (zh) | 一种用于联盟区块链系统的匿名交易方法 | |
Du | Research on engineering project management method based on BIM technology | |
Jogunola et al. | Demonstrating blockchain-enabled peer-to-peer energy trading and sharing | |
CN115396442A (zh) | 一种面向城市轨道交通的算力共享系统及方法 | |
Xu et al. | Research on application of block chain in distributed energy transaction | |
Miao et al. | Smart Micro-GaS: A cognitive micro natural gas industrial ecosystem based on mixed blockchain and edge computing | |
CN109711986A (zh) | 一种基于云存储平台系统的token应用与奖励方式 | |
Song et al. | Reliable reputation review and secure energy transaction of microgrid community based on hybrid blockchain | |
Sun et al. | Research on the application of blockchain technology in energy internet | |
Javaid et al. | A lightweight and secure energy trading framework for electric vehicles | |
CN113051608A (zh) | 一种联邦学习的虚拟化共享模型传输方法 | |
Wu et al. | Research on the application of data middle platform technology in integrated energy business system | |
Guo et al. | A bike sharing system based on Blockchain platform | |
Sha et al. | Heterogeneous multi-blockchain model-based intellectual property protection in social manufacturing paradigm | |
Wang et al. | Research on trusted sharing and privacy computing technology of energy data in supply chain based on alliance chain | |
Li et al. | Research on Water Rights Trading System based on Blockchain Technology | |
CN114567440B (zh) | 一种面向电力物联网边缘侧的主客体模型隐私保护方法 | |
Feng et al. | Transnational power‐transaction model considering transaction costs under the support of consortium blockchain | |
Wang et al. | Research on block chain technology in energy Internet | |
Sekaran et al. | Blockchain-based systems for modern energy grid: a detailed view on significant applications of blockchain for the smart grid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |