CN115130814A - 一种纵向数据融合的隐私计算方法及系统 - Google Patents

一种纵向数据融合的隐私计算方法及系统 Download PDF

Info

Publication number
CN115130814A
CN115130814A CN202210504887.2A CN202210504887A CN115130814A CN 115130814 A CN115130814 A CN 115130814A CN 202210504887 A CN202210504887 A CN 202210504887A CN 115130814 A CN115130814 A CN 115130814A
Authority
CN
China
Prior art keywords
data
central server
data center
value
population
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210504887.2A
Other languages
English (en)
Other versions
CN115130814B (zh
Inventor
赵张梦茹
马骏
王向阳
李沛哲
谭祺龙
刘彤
吕丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Energy Big Data Center Co ltd
Central South University
Original Assignee
Hunan Energy Big Data Center Co ltd
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Energy Big Data Center Co ltd, Central South University filed Critical Hunan Energy Big Data Center Co ltd
Priority to CN202210504887.2A priority Critical patent/CN115130814B/zh
Publication of CN115130814A publication Critical patent/CN115130814A/zh
Application granted granted Critical
Publication of CN115130814B publication Critical patent/CN115130814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种纵向数据融合的隐私计算方法及系统,用于电力数据和移动人口数据的融合,该方法包括:输入想要评价的商圈的地理位置和时间段,中心服务器将所述任务模型拆解为若干个子任务;其中每个子任务,最多仅需要一个数据中心的原始数据;将各子任务分配至所需的原始数据对应的数据中心进行计算;各数据中心根据最佳影响权重的索引值找到对应的自身的最佳影响权重,结合本地商圈的电力数据和移动人口数据计算出子任务结果并上传至中心服务器;中心服务器将各数据中心的上传的子任务结果进行融合,得到商圈活跃度隐私计算的最终结果。本发明运用纵向联邦,科学合理地分析商圈的经济活跃性。

Description

一种纵向数据融合的隐私计算方法及系统
技术领域
本发明涉及数据联邦和安全计算领域,尤其涉及一种纵向融合电力及移动人口数据的隐 私计算方法及系统。
背景技术
如今,互联网已经实现了从IT(internet Technology,互联网技术)时代到DT(Data Technology,数据处理技术)时代的转变,数据已经成为DT时代企业的核心竞争力。而数据作 为一种新型生产要素,只有流通起来才能创造更大的价值。打破固有思路,让多方大数据的 进行合理融合这一举动蕴藏着极大的潜力。在给企业和用户带来利益的同时,也为社会数据 资源的利用带来了新的思路。不过,大多数企业甚至同一个企业的不同部门考虑到利益交换、 数据安全和个人隐私等问题,对数据共享非常谨慎,从而造成了“数据孤岛”的现象。不同 部门的数据孤岛林立,数据壁垒难以解决,不利于大数据的数字化和信息化建设向更多领域 和更深层次的发展。因此,急需利用现有的分布式联邦学习技术,探索安全可靠的数据共享 方案,搭建多方安全计算平台,打破“数据孤岛”,在保护数据隐私安全的前提下,实现数据 可用不可见情况下的有效融合。
联邦学习是当下常见的用于解决数据孤岛的方法。其最早是在2016年由谷歌提出,原本 用于解决安卓手机终端用户在本地更新模型的问题。联邦学习本质上是一种分布式机器学习 技术或机器学习框架。其目标是在保证数据隐私安全及合法合规的基础上,实现共同建模, 提升AI模型的效果。假设把每个参与共同建模的企业称为参与方,根据多参与方之间数据分 布的不同,联邦学习被分为三类:横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦 学习的本质是样本的联合,适用于参与者间业态相同但触达客户不同,即特征重叠多,用户 重叠少时的场景,比如不同地区的银行间,他们的业务相似(特征相似),但用户不同(样本 不同)。纵向联邦学习的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,比如同 一地区的商超和银行,他们触达的用户都为该地区的居民(样本相同),但业务不同(特征不 同)。当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习,如不同地区的银行和 商超间的联合。主要适用于以深度神经网络为基模型的场景。近年来,联邦学习在理论发展 的同时,其技术在工业界也逐渐开始实践。目前最主要的有三个框架:1)2019年1月,谷 歌发布了TensorFlow 2.0Alpha版本,其中包括特性TFF(TensorFlow Federated,张量流联邦)。 各个终端计算本地梯度,并发送到中心服务器Server做FedAvg(联邦平均算法),Server聚 合梯度后更新模型,并推送给各终端。但是该框架仅支持横向联邦;2)百度PaddlePaddle机 器学习框架发布的PaddleFL联邦学习模块,其利用开源FedAvg和基于差异性隐私的SGD算 法来实现,思路与TFF类似,需要中心角色辅助;3)微众银行WeBank提出了FATE(Federated AI Technology Enabler,联邦人工智能技术使能器)联邦学习框架,FATE采用Python语言开 发,同时支持横向和纵向联邦,底层基于EggRoll分布式,可视化界面等周边比较完善。但 从实际测试看,仍然存在一些问题:首先在模型上,FATE需要一个可信第三方来协调完成数 据的加密解密过程,这在实际应用场景中通常不可行;其次在性能和稳定方面,FATE的训练 样本ID和模型全部存放在中心节点上,受单点机器资源的限制,无法支持大数据量。
针对上述问题,本发明设计和实现一种面向电力数据和移动人口数据的纵向数据融合的 隐私计算方法及系统,以改进数据融合思路、方法以及联邦平台的搭建。
发明内容
本发明提供了一种纵向数据融合的隐私计算方法及系统,用以解决PaddleFL联邦学习模 块需要中心角色辅助,或者FATE联邦学习框架需要一个可信第三方来协调完成数据的加密 解密过程的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种纵向数据融合的隐私计算方法,用于电力数据和移动人口数据的融合,包括以下步 骤:
输入想要评价的商圈的地理位置和时间段,中心服务器将任务模型拆解为若干个子任务; 其中每个子任务,最多仅需要一个数据中心的原始数据;
将各子任务分配至所需的原始数据对应的数据中心进行计算;
各数据中心根据最佳影响权重的索引值找到对应的自身的最佳影响权重,结合本地商圈 的电力数据和移动人口数据计算出子任务结果并上传至中心服务器;
中心服务器将各数据中心的上传的子任务结果进行融合,得到商圈活跃度隐私计算的最 终结果。
优选地,中心服务器和各数据中心的任务计算模型,通过以下步骤训练得到:
中心服务器构建隐私计算的任务模型;将任务模型拆解为若干个子任务;其中每个子任 务,最多仅需要一个数据中心的原始数据;
将各子任务分配至所需的原始数据对应的数据中心进行计算;
各数据中心分别获取自身数据库中被选中作为训练集的商圈的电力数据或移动人口数据, 将自身的电力数据或移动人口数据中的每个样本采用与自身数据相关的正向指标进行标记并 排序,形成样本排序数组并上传至中心服务器;
中心服务器根据各数据中心的排序数组生成总排序并分配相应的标签值,随后进行模型 训练,训练过程中仅交互中间量(没有源数据的交互),训练结束时得到电力数据和移动人口 数据中的各特征对商圈总体活跃度的最佳影响权重的索引值并下发给对应的数据中心。
优选地,所述进行模型训练,包括进行以下迭代训练过程:
中心服务器根据各数据中心上传的子任务结果计算出商圈活跃度的预测值
Figure BDA0003635536630000032
以及残差值
Figure BDA0003635536630000033
其中yi为商圈活跃度的标签值;M为样本数;将残差值下发给对应的 各数据中心;
数据中心根据中心服务器下发的残差值更新本地影响权重,根据各特征对商圈总体活跃 度的影响权重以及对应的样本,计算子任务,并将子任务结果上传至中心服务器;
中心服务器在上述迭代中过程中找出最佳影响权重的索引值,索引值指向残差值最小的 计算过程,并将索引值下发至数据中心,以便数据中心选择索引值对应的本地影响权重的计 算时所使用的影响权重作为最佳影响权重,以最佳影响权重对应的子计算模型作为训练完成 的子计算模型。
优选地,电力数据为包含以下特征的人口样本:
合同状态:Pc=Dt/Dr,合同剩余时长占比=合同剩余时长(天)/合同时长(天);
容量状态:Pa=At/Ac,实际运行率=实际运行容量(kW)/合同容量(kW);
电费缴纳水平:年度电量消费金额SA_Yy,季度电量消费金额
Figure BDA0003635536630000034
月度电量消费金额
Figure BDA0003635536630000035
违约用电:欠费次数Ns,违约金额DAt
周期用电水平:峰电量kwh(10-15,18-21)Wp,平电量kwh(7-10,15-18,21-23)Wf,谷电量 kwh(23-7)Wv,正向有功电量=峰值+平值+谷值Wt
周期用电时长:通过计算日度、月度、季度、年度等1个自然周期内实际用电时长占比Pd, Pm,Ps,Py
用电量增速:通过同比、环比分析用电量具体变化幅度;
优选地,移动人口数据为包含以下特征的人口样本:
人口数量指数:指能反t时刻某一商圈范围内的人口数量的指数Nt
人口数量增长指数:即Nt+1/Nt
人群活跃指数:指能反映t时刻某一商圈范围内的人口进出总量指数Ct
人群活跃上涨指数:即Ct+1/Ct
访客停留时长指数:指t时段内某一商圈访客停留的平均时长Tt
访客停留时长增长指数:即Tt+1/Tt
优选地,中心服务器根据各特征以及影响权重,采用线性回归模型计算商圈活跃度的预 测值
Figure BDA0003635536630000041
其表达式如下:
Figure BDA0003635536630000042
其中y为商圈活跃度;x1至xN为电力数据或者移动人口数据的样本包含的N个特征,其 影响权重对应为ω1至ωN
优选地,残差的优化方法采用最小角回归算法:对于影响权重数组ω=[ω12,…,ωN], 每次更新只更新某一个与当前残差值相关度最大的影响权重ωk,更新公式:
Figure BDA0003635536630000043
其中β为步长,
Figure BDA0003635536630000044
为影响权重与当前残差值的相关度,找出与当前残差值相关度最大的 影响权重:
Figure BDA0003635536630000045
通过多轮迭代使残差收敛,最终得到最佳特征权重wB=[w1,w2,…,wN]。
优选地,将每个数据样本采用与自身数据相关的正向指标进行标记并排序,包括:
数据中心将每个样本与自身数据相关的正向指标分别进行排序,标记其序数值,然后将 每个样本的所有正向指标数值求和取均值得到每个样本的正向指标平均数值;然后按照正向 指标平均数值的大小为每个样本标上序号,数值越大,则排序越高,序号越小。
优选地,中心服务器根据正向指标为所有排序数组中的样本分配总排序的标签值,包括 以下步骤:
两个数据中心分别生成样本的排序数组sort1和sort2并上传给中心服务器,电力数据有m 个正向指标,移动人口数据有n个正向指标,则中心服务器生成总排序数组
Figure BDA0003635536630000046
Figure BDA0003635536630000047
然后根据总排名为每个样本打分,即得到了标签值。两个数据中心的训练集结构中样本是完全对齐的。都是相同的一批商圈。
本发明还提供一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器 上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。
本发明具有以下有益效果:
本发明的纵向数据融合的隐私计算方法及系统,运用纵向联邦,科学合理地分析商圈的 经济活跃性;对商圈选址,政府管控,产业结构调整等方面都具有重大意义。本发明具有很 高的灵活度,不局限联邦学习是横向或者纵向应用场景;本发明可采用非对称加密技术,不 要求第三方服务器可信;且支持大数据量,中心节点只需短暂存储上一轮训练的中间结果和 样本标签,对单点资源要求低,数据及模型都存储在参与方本地;克服了因为网络问题导致 的数据传输不完整的情况,保证了训练结果的正确性,使该系统具有稳定性。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面 将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及 其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的求每个样本的正向指标的排序均值的示意图;
图2是本发明优选实施例的基于正向指标排序的流程示意图;
图3是本发明优选实施例的任务解耦前的流程示意图;
图4是本发明优选实施例的任务解耦后的流程示意图;
图5是本发明优选实施例的训练前生成标签的流程示意图;
图6是本发明优选实施例的训练过程的流程示意图;
图7是本发明优选实施例的纵向数据融合的隐私计算方法的流程示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖 的多种不同方式实施。
以下实施例用于完成某商圈的经济活跃度评价任务,基于由一个轻量中心服务器和两个 数据中心构成的平台完成。两个数据中心为:电力数据方和移动人口数据方。
本实施例中,两个数据中心分别获取以下数据作为样本的特征:
电力数据为包含以下特征的人口样本:
合同状态:Pc=Dt/Dr,合同剩余时长占比=合同剩余时长(天)/合同时长(天);
容量状态:Pa=At/Ac,实际运行率=实际运行容量(kW)/合同容量(kW);
电费缴纳水平:年度电量消费金额SA_Yy,季度电量消费金额
Figure BDA0003635536630000051
月度电量消费金额
Figure BDA0003635536630000052
违约用电:欠费次数Ns,违约金额DAt
周期用电水平:峰电量kwh(10-15,18-21)Wp,平电量kwh(7-10,15-18,21-23)Wf,谷电量 kwh(23-7)Wv,正向有功电量=峰值+平值+谷值Wt
周期用电时长:通过计算日度、月度、季度、年度等1个自然周期内实际用电时长占比Pd, Pm,Ps,Py
用电量增速:通过同比、环比分析用电量具体变化幅度;
移动人口数据为包含以下特征的人口样本:
人口数量指数:指能反t时刻某一商圈范围内的人口数量的指数Nt
人口数量增长指数:即Nt+1/Nt
人群活跃指数:指能反映t时刻某一商圈范围内的人口进出总量指数Ct
人群活跃上涨指数:即Ct+1/Ct
访客停留时长指数:指t时段内某一商圈访客停留的平均时长Tt
访客停留时长增长指数:即Tt+1/Tt
参见图7,本发明的纵向数据融合的隐私计算方法,包括以下步骤:
一种纵向数据融合的隐私计算方法,用于电力数据和移动人口数据的融合,包括以下步 骤:
输入想要评价的商圈的地理位置和时间段,中心服务器将任务模型拆解为若干个子任务; 其中每个子任务,最多仅需要一个数据中心的原始数据;
将各子任务分配至所需的原始数据对应的数据中心进行计算;
各数据中心根据最佳影响权重的索引值找到对应的自身的最佳影响权重,结合本地商圈 的电力数据和移动人口数据计算出子任务结果并上传至中心服务器;
中心服务器将各数据中心的上传的子任务结果进行融合,得到商圈活跃度隐私计算的最 终结果。
上述步骤,运用纵向联邦,科学合理地分析商圈的经济活跃性;对商圈选址,政府管控, 产业结构调整等方面都具有重大意义。
在一些实施方式中,参见图6,中心服务器和各数据中心的任务计算模型,通过以下步 骤训练得到:
中心服务器构建隐私计算的任务模型;将任务模型拆解为若干个子任务;其中每个子任 务,最多仅需要一个数据中心的原始数据;
将各子任务分配至所需的原始数据对应的数据中心进行计算;
各数据中心分别获取自身数据库中被选中作为训练集的商圈的电力数据或移动人口数据, 将自身的电力数据或移动人口数据中的每个样本采用与自身数据相关的正向指标进行标记并 排序,形成样本排序数组并上传至中心服务器;
中心服务器根据各数据中心的排序数组生成总排序并分配相应的标签值,随后进行模型 训练,训练过程中仅交互中间量(没有源数据的交互),训练结束时得到电力数据和移动人口 数据中的各特征对商圈总体活跃度的最佳影响权重的索引值并下发给对应的数据中心。
其中,进行模型训练,包括进行以下迭代训练过程:
中心服务器根据数据中心上传的子任务结果计算出商圈活跃度的预测值
Figure BDA0003635536630000071
以及残差值
Figure BDA0003635536630000072
其中yi为商圈活跃度的标签值;M为样本数;将残差值下发给对应的 各数据中心;
数据中心根据中心服务器下发的残差值更新本地影响权重,根据各特征对商圈总体活跃 度的影响权重以及对应的样本,计算子任务,并将子任务结果上传至中心服务器;
中心服务器在上述迭代中过程中找出最佳影响权重的索引值,并下发至数据中心,以选 择对应的本地影响权重的计算时所使用的权重作为最佳影响权重,以最佳影响权重对应的子 计算模型作为训练完成的子计算模型。索引值指向残差值最小的计算过程。
在训练过程中,数据中心每次都会更新自己的影响权重,然后保存在本地。数据中心不 知道哪一次的影响权重是最佳的。而中心服务器在每次收到数据中心的子任务结果后,会计 算
Figure BDA0003635536630000073
这个残差值。只有中心服务器知道哪一次残差值是最小的,这个索引 值就指向那个最小的残差。用于指示数据中心,其本地第几次更新的影响权重是最好的。
在一些实施例中,中心服务器根据各特征以及影响权重,采用线性回归模型计算商圈活 跃度的预测值
Figure BDA0003635536630000074
其表达式如下:
Figure BDA0003635536630000075
其中y为商圈活跃度;x1至xN为电力数据或者移动人口数据的样本包含的N个特征,其 影响权重对应为ω1至ωN
本实施例中,将原任务模型转化为以下表达式:
Figure BDA0003635536630000076
在上述表达式中,ωA T,XA为属于数据中心A的影响权重及样本;ωB T,XB为属于数据中心B的影响权重和样本。可以看出,ωA TXA及ωB TXB仅在数据中心内就可计算完成,ωA T和ωB T会在模型训练中传递给结果方并根据结果方返回的残差值不断更新直到训练结束。将ωA TXA,ωB TXB视为两个数据中心的子任务,即完成任务模式解耦。
在一些实施方式中,残差的优化方法采用最小角回归算法:对于影响权重数组ω=[ω1, ω2,…,ωN],每次更新只更新某一个与当前残差值相关度最大的影响权重ωk,更新公式:
Figure BDA0003635536630000077
其中β为步长,
Figure BDA0003635536630000081
为影响权重与当前残差值的相关度,找出与当前残差值相关度最大的 影响权重:
Figure BDA0003635536630000082
通过多轮迭代使残差收敛,最终得到最佳特征权重wB=[w1,w2,…,wN]。
实施时,由于不存在对商圈活跃度进行评价的先验工作,本发明的模型训练缺少科学合 理的标签。为解决缺少真实值标签的问题,本实施例采用基于正向指标排序的标记方案。正 向指标是指其值越大,商圈活跃度越高的指标,即商圈活跃度与正向指标的数值成正比。因 此,本标记方法的核心思想为:正向指标的排序基本可以反映商圈活跃度真实值的排序。
在一些实施方式中,参见图1,将每个数据样本采用与自身数据相关的正向指标进行标 记并排序,包括:
数据中心将每个样本与自身数据相关的正向指标分别进行排序,标记其序数值,然后将 每个样本的所有正向指标数值求和取均值得到每个样本的正向指标平均数值;然后按照正向 指标平均数值的大小为每个样本标上序号,数值越大,则排序越高,序号越小。
对应地,参见图2,图5,两个数据中心分别生成样本的排序数组sort1和sort2并上传给 中心服务器,电力数据有m个正向指标,移动人口数据有n个正向指标,则中心服务器生成 总排序数组
Figure BDA0003635536630000083
然后根据总排名为每个样本打分(如以100分作为满分), 即得到了标签值。
由于部署在一个中心服务器和多个数据中心上,通过以中间量的交换去代替源数据的交 换的方式,实现多源数据共同训练一个任务。于是,任务解耦依照的原则是:每一个由原任 务分解产生的子任务,最多仅需要一个数据中心的原始数据。在这样的解耦原则下,各子任 务便可直接分配至对应数据中心进行计算,从而保证在整个任务流程中,各数据中心的原始 数据始终保存在本地。由于源数据都保存在各个数据中心本地,简单的中间量的交换使得该 平台对中心服务器的单点资源要求不高。
如此便最终实现了“中间量代替原始数据”的核心思想,“中间量”即指子任务的计算结果。 在解耦前,如图3所示,针对某一具体计算任务,得出具体任务模式,设计具体任务方法以 及确定计算任务所需要的原始数据中心方。采用任务解耦的方法,将计算任务解耦成多个近 数据中心的子任务,任务解耦的原则是:对于每一个子任务,最多仅需要一方的原始数据, 解耦后的流程如图4所示,计算开始前,不同的数据中心方被分配了各自的计算子任务;在 子任务计算过程中使用计算中间量进行交互,各数据中心之间接触不到对方的原始数据,计 算完成后,数据中心方将各自最后的计算结果上传并且进行融合,得到最终结果后交付给结 果需求方。做到了在根源上保护了各方数据安全。图3、图4分别给出包含与不包含任务解 耦过程的计算流程示意图。
通过上述实施例,使得中心服务器端可以输入任何一个商圈的任一时间段,即可推理出该 商圈该时段的经济活跃度。过程图7所示,中心服务器将商圈的时空信息发送给各数据中心, 数据中心在本地分别计算出ωA TXA和ωB TXB上传至中心服务器,此过程没有任何源数据即本 地影响权重训练结果的泄露,最终中心服务器合并子任务得到最终值。
本发明还提供一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上 运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。
实施时,可采用如下的结构实现计算系统,包括:
1)通信模块。
本发明采用使用Tcp协议的Socket编程来实现网络进程之间的通信,实现数据中心和中 心服务器之间的影响权重传递。TCP是面向链接的,其三次握手在最低限度上(实际上也很大 程度上保证了)保证了连接的可靠性。为了保证影响权重传递的完整性,在每次通信时加入了 判断传递信息是否完整的模块。如果不完整,则重新传递,直到完整为止,保证整个模型训 练过程的正确进行。
2)数据加密模块。
传输中使用安全性较高同时实现相对简便的RSA非对称加密算法。在每次数据中心和中 心服务器通信时,会对其通信内容通过公钥加密后再发送。对方通过私钥将收到的加密内容 解密。私钥是经过双方提前协商并授权发送获得的。该方式可在通信过程中进一步保护参与 方和结果方的隐私。
3)计算模块。
计算组件完成各个子任务的触发与计算。不同数据中心或结果方的计算组件具体实现代码 不同,以此保证将原始数据侧的子任务计算保留在相应的数据中心端,避免原始数据直接交 互的隐私风险。
4)图形监控模块。
本发明通过python的Tkinter包编写了用户图形界面程序部署在中心服务器端,并且使用 matlib的绘图功能对模型训练的过程进行监控。在得到数据中心的权限之后,用户即可在中 心服务器端进行计算任务选择、生成计算任务、任务下发、模型训练、结果推理等图形界面 操作,并且在训练过程中,可以实时监控训练状态。
隐私计算任务通过上述模块的完成步骤如下:
(1)生成计算任务:
针对不同的问题,设计不同的计算任务。本实施例的计算任务是商圈活跃度评价分析。
(2)分发本地计算任务:
为了进一步保护影响权重在结果方和数据中心两方之间传递的隐私,对传输过程中影响权 重进行加密。因此,首先向数据中心进行密钥的分发。
此外,结果方会向各个数据中心分发各自本地计算任务。各个数据中心会根据收到的本地 计算任务内容进行相应的准备。
(3)模型训练:
密钥和计算任务分发完毕后,进行模型训练任务。在模型训练之前,对模型的超影响权重 进行设置。随后模型训练至训练完成。
训练过程中,模型的实时残差值以及本地首发文件累计可以通过图形监控实时呈现。
(4)任务推理(商圈活跃度隐私计算过程):
模型训练完成之后,进行任务的推理。输入感兴趣的商圈ID、查询日期以及查询时间段 ID即可推理出相应的商圈活跃度分值。
在以往的对商圈经济活跃度的研究中,最常见的是使用手机信令数据作为支撑,分析与商 圈相关的移动人群的信息。手机信令数据能反映消费人群的情况,能在一定程度上体现出商 圈的经济活跃度。然而,多方数据的有效融合可以更全面,更合理地反映出商圈的真实的经 济活力。电力系统是支撑城市运行发展的基础系统,具有感知城市的能力,采集的电力大数 据能够反映城市的运行状态、居民的生活规律和企业的运营现状,同时也能成为评价商圈经 济活跃度的重要指标。将电力大数据与移动人口数据进行融合,充分发挥不同数据的独特价 值,不仅在研究商圈经济活跃度的方法上有新的突破,更是对推动智慧城市建设具有重要意 义。在以商圈作为样本的前提下,电力大数据和移动人口数据的样本完全重叠。并且这两种 数据对于样本的特征描述几乎没有相同的部分,这是典型的纵向联邦的应用场景。
综上可知,本发明将电力数据和移动人口数据进行融合,引入纵向联邦学习技术不仅保护 了双方数据不被泄露,更是打破了数据孤岛,提升了模型效果,使得商圈活跃度的评价体系 更加科学合理。值得一提的是,在当前联邦学习的主流应用领域还集中在金融领域的背景下, 通过电力数据和移动人口数据的创新融合。随着联邦学习技术在工业界的不断实践,逐渐成 熟的联邦学习框架会支撑人们提出更多创新性的数据融合思路,发挥大数据的流通价值。
从模型训练方面来讲,本发明基于联邦学习原理自主设计并实现了整个联邦学习流程。灵 活的训练机制和可靠的通信流程使本发明只需改变任务模式就可以在横向和纵向两种联邦类 型中切换。本发明独特的流程设计没有给中心节点带去过大的压力,传输的参数文件小,数 据和模型都存储在本地,中心节点的资源并不会限制大数据量在本发明上的实践。和现有的 一些联邦框架相比,本发明不依赖第三方服务器是可靠的。非对称加密技术保证每个数据中 心在面对任何其他参与方都是安全的,只有获得自己许可的参与方(如中心服务器)能够通 过私钥获得不足以得到源数据和模型信息的中间量(索引值,残差值,子任务计算结果等)。 最后,本发明使用Socket编程,在连接可靠的TCP协议的基础上改进了在数据传输完整性上 会出现的不足,提高了模型训练的稳定性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员 来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等 同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种纵向数据融合的隐私计算方法,用于电力数据和移动人口数据的融合,其特征在于,包括以下步骤:
输入想要评价的商圈的地理位置和时间段,中心服务器将所述任务模型拆解为若干个子任务;其中每个子任务,最多仅需要一个数据中心的原始数据;
将各子任务分配至所需的原始数据对应的数据中心进行计算;
各数据中心根据最佳影响权重的索引值找到对应的自身的最佳影响权重,结合本地商圈的电力数据和移动人口数据计算出子任务结果并上传至中心服务器;
中心服务器将各数据中心的上传的子任务结果进行融合,得到商圈活跃度隐私计算的最终结果。
2.根据权利要求1所述的纵向数据融合的隐私计算方法,其特征在于,所述中心服务器和各数据中心的任务计算模型,通过以下步骤训练得到:
中心服务器构建隐私计算的任务模型;将所述任务模型拆解为若干个子任务;其中每个子任务,最多仅需要一个数据中心的原始数据;
将各子任务分配至所需的原始数据对应的数据中心进行计算;
各数据中心分别获取自身数据库中被选中作为训练集的商圈的电力数据或移动人口数据,将自身的电力数据或移动人口数据中的每个样本采用与自身数据相关的正向指标进行标记并排序,形成样本排序数组并上传至中心服务器;
中心服务器根据各数据中心的排序数组生成总排序并分配相应的标签值,随后进行模型训练,训练过程中仅交互中间量,训练结束时得到电力数据和移动人口数据中的各特征对商圈总体活跃度的最佳影响权重的索引值并下发给对应的数据中心。
3.根据权利要求2所述的纵向数据融合的隐私计算方法,其特征在于,所述进行模型训练,包括进行以下迭代训练过程:
中心服务器根据各数据中心上传的子任务结果计算出商圈活跃度的预测值
Figure FDA0003635536620000011
以及残差值
Figure FDA0003635536620000012
其中yi为商圈活跃度的标签值;M为样本数;将残差值下发给对应的各数据中心;
数据中心根据中心服务器下发的残差值更新本地影响权重,根据所述各特征对商圈总体活跃度的影响权重以及对应的样本,计算子任务,并将子任务结果上传至中心服务器;
中心服务器在上述迭代中过程中找出最佳影响权重的索引值,所述索引值指向残差值最小的计算过程,并将索引值下发至数据中心,以便数据中心选择索引值对应的本地影响权重的计算时所使用的影响权重作为最佳影响权重,以最佳影响权重对应的子计算模型作为训练完成的子计算模型。
4.根据权利要求1所述的纵向数据融合的隐私计算方法,其特征在于,所述电力数据为包含以下特征的人口样本:
合同状态:Pc=Dt/Dr,合同剩余时长占比=合同剩余时长(天)/合同时长(天);
容量状态:Pa=At/Ac,实际运行率=实际运行容量(kW)/合同容量(kW);
电费缴纳水平:年度电量消费金额SA_Yy,季度电量消费金额
Figure FDA0003635536620000021
月度电量消费金额
Figure FDA0003635536620000022
违约用电:欠费次数Ns,违约金额DAt
周期用电水平:峰电量kwh(10-15,18-21)Wp,平电量kwh(7-10,15-18,21-23)Wf,谷电量kwh(23-7)Wv,正向有功电量=峰值+平值+谷值Wt
周期用电时长:通过计算日度、月度、季度、年度等1个自然周期内实际用电时长占比Pd,Pm,Ps,Py
用电量增速:通过同比、环比分析用电量具体变化幅度。
5.根据权利要求1所述的纵向数据融合的隐私计算方法,其特征在于,所述移动人口数据为包含以下特征的人口样本:
人口数量指数:指能反t时刻某一商圈范围内的人口数量的指数Nt
人口数量增长指数:即Nt+1/Nt
人群活跃指数:指能反映t时刻某一商圈范围内的人口进出总量指数Ct
人群活跃上涨指数:即Ct+1/Ct
访客停留时长指数:指t时段内某一商圈访客停留的平均时长Tt
访客停留时长增长指数:即Tt+1/Tt
6.根据权利要求3所述的纵向数据融合的隐私计算方法,其特征在于,所述中心服务器根据各特征以及影响权重,采用线性回归模型计算商圈活跃度的预测值
Figure FDA0003635536620000023
其表达式如下:
Figure FDA0003635536620000024
其中y为商圈活跃度;x1至xN为电力数据或者移动人口数据的样本中包含的N个特征,其影响权重对应为ω1至ωN
7.根据权利要求6所述的纵向数据融合的隐私计算方法,其特征在于,所述残差的优化方法采用最小角回归算法:对于影响权重数组ω=[ω12,…,ωN],每次更新只更新某一个与当前残差值相关度最大的影响权重ωk,更新公式:
Figure FDA0003635536620000031
其中β为步长,
Figure FDA0003635536620000032
为影响权重与当前残差值的相关度,找出与当前残差值相关度最大的影响权重:
Figure FDA0003635536620000033
通过多轮迭代使残差收敛,最终得到最佳特征权重wB=[w1,w2,…,wN]。
8.根据权利要求1所述的纵向数据融合的隐私计算方法,其特征在于,所述将每个数据样本采用与自身数据相关的正向指标进行标记并排序,包括:
数据中心将每个样本与自身数据相关的正向指标分别进行排序,标记其序数值,然后将每个样本的所有正向指标数值求和取均值得到每个样本的正向指标平均数值;然后按照正向指标平均数值的大小为每个样本标上序号,数值越大,则排序越高,序号越小。
9.根据权利要求8所述的纵向数据融合的隐私计算方法,其特征在于,所述中心服务器根据正向指标为所有排序数组中的样本分配总排序的标签值,包括以下步骤:
两个数据中心分别生成样本的排序数组sort1和sort2并上传给中心服务器,电力数据有m个正向指标,移动人口数据有n个正向指标,则中心服务器生成总排序数组
Figure FDA0003635536620000034
Figure FDA0003635536620000035
然后根据总排名为每个样本打分,即得到了标签值。
10.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至9任一所述方法的步骤。
CN202210504887.2A 2022-05-10 2022-05-10 一种纵向数据融合的隐私计算方法及系统 Active CN115130814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210504887.2A CN115130814B (zh) 2022-05-10 2022-05-10 一种纵向数据融合的隐私计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210504887.2A CN115130814B (zh) 2022-05-10 2022-05-10 一种纵向数据融合的隐私计算方法及系统

Publications (2)

Publication Number Publication Date
CN115130814A true CN115130814A (zh) 2022-09-30
CN115130814B CN115130814B (zh) 2023-05-02

Family

ID=83375852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210504887.2A Active CN115130814B (zh) 2022-05-10 2022-05-10 一种纵向数据融合的隐私计算方法及系统

Country Status (1)

Country Link
CN (1) CN115130814B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116208666A (zh) * 2023-05-06 2023-06-02 鹏城实验室 一种支持多源数据中心联合安全计算数据处理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143308A (zh) * 2019-12-26 2020-05-12 许昌中科森尼瑞技术有限公司 基于联邦学习的高低压电动机数据处理方法、系统及装置
CN111311193A (zh) * 2020-02-26 2020-06-19 百度在线网络技术(北京)有限公司 公共服务资源的配置方法和装置
CN111325352A (zh) * 2020-02-20 2020-06-23 深圳前海微众银行股份有限公司 基于纵向联邦学习的模型更新方法、装置、设备及介质
CN112149160A (zh) * 2020-08-28 2020-12-29 山东大学 基于同态伪随机数的联邦学习隐私保护方法及系统
CN112785144A (zh) * 2021-01-18 2021-05-11 深圳前海微众银行股份有限公司 基于联邦学习的模型构建方法、设备及存储介质
CN113449329A (zh) * 2021-08-31 2021-09-28 国网浙江省电力有限公司信息通信分公司 基于安全分享的联邦学习场景下的能源数据融合计算方法
CN113836556A (zh) * 2021-09-26 2021-12-24 广州大学 面向联邦学习的去中心化函数加密隐私保护方法及系统
CN114169412A (zh) * 2021-11-23 2022-03-11 北京邮电大学 面向大规模产业链隐私计算的联邦学习模型训练方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143308A (zh) * 2019-12-26 2020-05-12 许昌中科森尼瑞技术有限公司 基于联邦学习的高低压电动机数据处理方法、系统及装置
CN111325352A (zh) * 2020-02-20 2020-06-23 深圳前海微众银行股份有限公司 基于纵向联邦学习的模型更新方法、装置、设备及介质
CN111311193A (zh) * 2020-02-26 2020-06-19 百度在线网络技术(北京)有限公司 公共服务资源的配置方法和装置
CN112149160A (zh) * 2020-08-28 2020-12-29 山东大学 基于同态伪随机数的联邦学习隐私保护方法及系统
CN112785144A (zh) * 2021-01-18 2021-05-11 深圳前海微众银行股份有限公司 基于联邦学习的模型构建方法、设备及存储介质
CN113449329A (zh) * 2021-08-31 2021-09-28 国网浙江省电力有限公司信息通信分公司 基于安全分享的联邦学习场景下的能源数据融合计算方法
CN113836556A (zh) * 2021-09-26 2021-12-24 广州大学 面向联邦学习的去中心化函数加密隐私保护方法及系统
CN114169412A (zh) * 2021-11-23 2022-03-11 北京邮电大学 面向大规模产业链隐私计算的联邦学习模型训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李铮: "一种支持隐私与权益保护的数据联合利用系统方案", 《信息与电脑(理论版)》 *
王亚?: "面向数据共享交换的联邦学习技术发展综述", 《无人系统技术》 *
甘露: "隐私计算实例:详解一个纵向联邦学习的场景和技术实现", 《知乎》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116208666A (zh) * 2023-05-06 2023-06-02 鹏城实验室 一种支持多源数据中心联合安全计算数据处理方法及装置

Also Published As

Publication number Publication date
CN115130814B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
Xu et al. Unleashing the power of edge-cloud generative ai in mobile networks: A survey of aigc services
CN107316186A (zh) 创新创业就业的计算机系统支撑方法与支撑系统
CN1533542A (zh) 建立财经建议应用的系统和方法
Song et al. Build a secure smart city by using blockchain and digital twin
Hyari et al. Automated trade‐off between time and cost in planning repetitive construction projects
El Mhouti et al. Towards a smart learning management system (smart-LMS) to improve collaborative learning in higher education
Zhang et al. A reinforcement learning-based stakeholder value aggregation model for collaborative decision making on disaster resilience
CN115130814A (zh) 一种纵向数据融合的隐私计算方法及系统
Kraus et al. Digital Transformation of Business Processes of Enterprises on the Way to Becoming Industry 5.0 in the Gig Economy
Cioffi-Revilla Socio-Ecological Systems.
Lind et al. Policies to avoid cost overruns in infrastructure projects: Critical evaluation and recommendations
Bilgin et al. A decision support system for project portfolio management in construction companies
Karlin et al. The role of the university: engaged scholarship in the Anthropocene
Huser et al. Development of an integrated spatial decision support system (ISDSS) for Local Government in New Zealand
CN109859551A (zh) 一种基于多媒体的旅游文化资源管理与旅游景点教学系统
Abdel-Basset et al. Multi-Criteria Decision Making Theory and Applications in Sustainable Healthcare
CN114119278A (zh) 一种基于区块链技术的多站融合电力资源管理系统
Bajpai et al. Systematic design of blockchain based testbed for peer-to-peer energy trading
Hassaan et al. Social intelligent computing: the web evolution and the crowdsourcing impact
Wang et al. Microgrid trading mechanism enhancement for smart contract considering reputation values
Tosida et al. Indonesia’s readiness to implement agriculture data analytic–based smart village
Ebekozien et al. Smart contract applications in the built environment: How prepared are Nigerian construction stakeholders?
Rahmawati Formulation of Smart City Policy Instruments (Study Jogja Smart Service Program in Yogyakarta City)
Chen Interdisciplinary technical perspective: transformation of blockchain and opportunities for organizational training
Liu et al. Incentive Mechanism of Online Leaning Based on Blockchain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant