CN115130814A

CN115130814A - 一种纵向数据融合的隐私计算方法及系统

Info

Publication number: CN115130814A
Application number: CN202210504887.2A
Authority: CN
Inventors: 赵张梦茹; 马骏; 王向阳; 李沛哲; 谭祺龙; 刘彤; 吕丰
Original assignee: Hunan Energy Big Data Center Co ltd; Central South University
Current assignee: Hunan Energy Big Data Center Co ltd; Central South University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-09-30
Anticipated expiration: 2042-05-10
Also published as: CN115130814B

Abstract

本发明公开了一种纵向数据融合的隐私计算方法及系统，用于电力数据和移动人口数据的融合，该方法包括：输入想要评价的商圈的地理位置和时间段，中心服务器将所述任务模型拆解为若干个子任务；其中每个子任务，最多仅需要一个数据中心的原始数据；将各子任务分配至所需的原始数据对应的数据中心进行计算；各数据中心根据最佳影响权重的索引值找到对应的自身的最佳影响权重，结合本地商圈的电力数据和移动人口数据计算出子任务结果并上传至中心服务器；中心服务器将各数据中心的上传的子任务结果进行融合，得到商圈活跃度隐私计算的最终结果。本发明运用纵向联邦，科学合理地分析商圈的经济活跃性。

Description

一种纵向数据融合的隐私计算方法及系统

技术领域

本发明涉及数据联邦和安全计算领域，尤其涉及一种纵向融合电力及移动人口数据的隐私计算方法及系统。

背景技术

如今，互联网已经实现了从IT(internet Technology，互联网技术)时代到DT(Data Technology,数据处理技术)时代的转变，数据已经成为DT时代企业的核心竞争力。而数据作为一种新型生产要素，只有流通起来才能创造更大的价值。打破固有思路，让多方大数据的进行合理融合这一举动蕴藏着极大的潜力。在给企业和用户带来利益的同时，也为社会数据资源的利用带来了新的思路。不过，大多数企业甚至同一个企业的不同部门考虑到利益交换、数据安全和个人隐私等问题，对数据共享非常谨慎，从而造成了“数据孤岛”的现象。不同部门的数据孤岛林立，数据壁垒难以解决，不利于大数据的数字化和信息化建设向更多领域和更深层次的发展。因此，急需利用现有的分布式联邦学习技术，探索安全可靠的数据共享方案，搭建多方安全计算平台，打破“数据孤岛”，在保护数据隐私安全的前提下，实现数据可用不可见情况下的有效融合。

联邦学习是当下常见的用于解决数据孤岛的方法。其最早是在2016年由谷歌提出，原本用于解决安卓手机终端用户在本地更新模型的问题。联邦学习本质上是一种分布式机器学习技术或机器学习框架。其目标是在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果。假设把每个参与共同建模的企业称为参与方，根据多参与方之间数据分布的不同，联邦学习被分为三类：横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习的本质是样本的联合，适用于参与者间业态相同但触达客户不同，即特征重叠多，用户重叠少时的场景，比如不同地区的银行间，他们的业务相似(特征相似)，但用户不同(样本不同)。纵向联邦学习的本质是特征的联合，适用于用户重叠多，特征重叠少的场景，比如同一地区的商超和银行，他们触达的用户都为该地区的居民(样本相同)，但业务不同(特征不同)。当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习，如不同地区的银行和商超间的联合。主要适用于以深度神经网络为基模型的场景。近年来，联邦学习在理论发展的同时，其技术在工业界也逐渐开始实践。目前最主要的有三个框架：1)2019年1月，谷歌发布了TensorFlow 2.0Alpha版本，其中包括特性TFF(TensorFlow Federated，张量流联邦)。各个终端计算本地梯度，并发送到中心服务器Server做FedAvg(联邦平均算法)，Server聚合梯度后更新模型，并推送给各终端。但是该框架仅支持横向联邦；2)百度PaddlePaddle机器学习框架发布的PaddleFL联邦学习模块，其利用开源FedAvg和基于差异性隐私的SGD算法来实现，思路与TFF类似，需要中心角色辅助；3)微众银行WeBank提出了FATE(Federated AI Technology Enabler，联邦人工智能技术使能器)联邦学习框架，FATE采用Python语言开发，同时支持横向和纵向联邦，底层基于EggRoll分布式，可视化界面等周边比较完善。但从实际测试看，仍然存在一些问题：首先在模型上，FATE需要一个可信第三方来协调完成数据的加密解密过程，这在实际应用场景中通常不可行；其次在性能和稳定方面，FATE的训练样本ID和模型全部存放在中心节点上，受单点机器资源的限制，无法支持大数据量。

针对上述问题，本发明设计和实现一种面向电力数据和移动人口数据的纵向数据融合的隐私计算方法及系统，以改进数据融合思路、方法以及联邦平台的搭建。

发明内容

本发明提供了一种纵向数据融合的隐私计算方法及系统，用以解决PaddleFL联邦学习模块需要中心角色辅助，或者FATE联邦学习框架需要一个可信第三方来协调完成数据的加密解密过程的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种纵向数据融合的隐私计算方法，用于电力数据和移动人口数据的融合，包括以下步骤：

输入想要评价的商圈的地理位置和时间段，中心服务器将任务模型拆解为若干个子任务；其中每个子任务，最多仅需要一个数据中心的原始数据；

将各子任务分配至所需的原始数据对应的数据中心进行计算；

各数据中心根据最佳影响权重的索引值找到对应的自身的最佳影响权重，结合本地商圈的电力数据和移动人口数据计算出子任务结果并上传至中心服务器；

中心服务器将各数据中心的上传的子任务结果进行融合，得到商圈活跃度隐私计算的最终结果。

优选地，中心服务器和各数据中心的任务计算模型，通过以下步骤训练得到：

中心服务器构建隐私计算的任务模型；将任务模型拆解为若干个子任务；其中每个子任务，最多仅需要一个数据中心的原始数据；

各数据中心分别获取自身数据库中被选中作为训练集的商圈的电力数据或移动人口数据，将自身的电力数据或移动人口数据中的每个样本采用与自身数据相关的正向指标进行标记并排序，形成样本排序数组并上传至中心服务器；

中心服务器根据各数据中心的排序数组生成总排序并分配相应的标签值，随后进行模型训练，训练过程中仅交互中间量(没有源数据的交互)，训练结束时得到电力数据和移动人口数据中的各特征对商圈总体活跃度的最佳影响权重的索引值并下发给对应的数据中心。

优选地，所述进行模型训练，包括进行以下迭代训练过程：

中心服务器根据各数据中心上传的子任务结果计算出商圈活跃度的预测值

以及残差值

其中y_i为商圈活跃度的标签值；M为样本数；将残差值下发给对应的各数据中心；

数据中心根据中心服务器下发的残差值更新本地影响权重，根据各特征对商圈总体活跃度的影响权重以及对应的样本，计算子任务，并将子任务结果上传至中心服务器；

中心服务器在上述迭代中过程中找出最佳影响权重的索引值，索引值指向残差值最小的计算过程，并将索引值下发至数据中心，以便数据中心选择索引值对应的本地影响权重的计算时所使用的影响权重作为最佳影响权重，以最佳影响权重对应的子计算模型作为训练完成的子计算模型。

优选地，电力数据为包含以下特征的人口样本：

合同状态:P_c＝D_t/D_r,合同剩余时长占比＝合同剩余时长(天)/合同时长(天)；

容量状态:P_a＝A_t/A_c，实际运行率＝实际运行容量(kW)/合同容量(kW)；

电费缴纳水平:年度电量消费金额SA_Y_y,季度电量消费金额

月度电量消费金额

违约用电:欠费次数N_s,违约金额DA_t；

周期用电水平:峰电量kwh(10-15，18-21)W_p，平电量kwh(7-10,15-18,21-23)W_f,谷电量 kwh(23-7)W_v，正向有功电量＝峰值+平值+谷值W_t；

周期用电时长:通过计算日度、月度、季度、年度等1个自然周期内实际用电时长占比P_d, P_m,P_s,P_y；

用电量增速:通过同比、环比分析用电量具体变化幅度；

优选地，移动人口数据为包含以下特征的人口样本：

人口数量指数:指能反t时刻某一商圈范围内的人口数量的指数N_t；

人口数量增长指数：即N_t+1/N_t；

人群活跃指数：指能反映t时刻某一商圈范围内的人口进出总量指数C_t；

人群活跃上涨指数：即C_t+1/C_t；

访客停留时长指数:指t时段内某一商圈访客停留的平均时长T_t

访客停留时长增长指数:即T_t+1/T_t。

优选地，中心服务器根据各特征以及影响权重，采用线性回归模型计算商圈活跃度的预测值

其表达式如下：

其中y为商圈活跃度；x₁至x_N为电力数据或者移动人口数据的样本包含的N个特征，其影响权重对应为ω₁至ω_N。

优选地，残差的优化方法采用最小角回归算法：对于影响权重数组ω＝[ω₁,ω₂,…,ω_N]，每次更新只更新某一个与当前残差值相关度最大的影响权重ω_k，更新公式：

其中β为步长，

为影响权重与当前残差值的相关度，找出与当前残差值相关度最大的影响权重：

通过多轮迭代使残差收敛，最终得到最佳特征权重w_B＝[w₁,w₂,…,w_N]。

优选地，将每个数据样本采用与自身数据相关的正向指标进行标记并排序，包括：

数据中心将每个样本与自身数据相关的正向指标分别进行排序，标记其序数值，然后将每个样本的所有正向指标数值求和取均值得到每个样本的正向指标平均数值；然后按照正向指标平均数值的大小为每个样本标上序号，数值越大，则排序越高，序号越小。

优选地，中心服务器根据正向指标为所有排序数组中的样本分配总排序的标签值，包括以下步骤：

两个数据中心分别生成样本的排序数组sort1和sort2并上传给中心服务器，电力数据有m 个正向指标，移动人口数据有n个正向指标，则中心服务器生成总排序数组

然后根据总排名为每个样本打分，即得到了标签值。两个数据中心的训练集结构中样本是完全对齐的。都是相同的一批商圈。

本发明还提供一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的步骤。

本发明具有以下有益效果：

本发明的纵向数据融合的隐私计算方法及系统，运用纵向联邦，科学合理地分析商圈的经济活跃性；对商圈选址，政府管控，产业结构调整等方面都具有重大意义。本发明具有很高的灵活度，不局限联邦学习是横向或者纵向应用场景；本发明可采用非对称加密技术，不要求第三方服务器可信；且支持大数据量，中心节点只需短暂存储上一轮训练的中间结果和样本标签，对单点资源要求低，数据及模型都存储在参与方本地；克服了因为网络问题导致的数据传输不完整的情况，保证了训练结果的正确性，使该系统具有稳定性。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的求每个样本的正向指标的排序均值的示意图；

图2是本发明优选实施例的基于正向指标排序的流程示意图；

图3是本发明优选实施例的任务解耦前的流程示意图；

图4是本发明优选实施例的任务解耦后的流程示意图；

图5是本发明优选实施例的训练前生成标签的流程示意图；

图6是本发明优选实施例的训练过程的流程示意图；

图7是本发明优选实施例的纵向数据融合的隐私计算方法的流程示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

以下实施例用于完成某商圈的经济活跃度评价任务，基于由一个轻量中心服务器和两个数据中心构成的平台完成。两个数据中心为：电力数据方和移动人口数据方。

本实施例中，两个数据中心分别获取以下数据作为样本的特征：

电力数据为包含以下特征的人口样本：

电费缴纳水平:年度电量消费金额SA_Y_y,季度电量消费金额

月度电量消费金额

违约用电:欠费次数N_s,违约金额DA_t；

用电量增速:通过同比、环比分析用电量具体变化幅度；

移动人口数据为包含以下特征的人口样本：

人口数量增长指数：即N_t+1/N_t；

人群活跃上涨指数：即C_t+1/C_t；

访客停留时长增长指数:即T_t+1/T_t。

参见图7，本发明的纵向数据融合的隐私计算方法，包括以下步骤：

上述步骤，运用纵向联邦，科学合理地分析商圈的经济活跃性；对商圈选址，政府管控，产业结构调整等方面都具有重大意义。

在一些实施方式中，参见图6，中心服务器和各数据中心的任务计算模型，通过以下步骤训练得到：

其中，进行模型训练，包括进行以下迭代训练过程：

中心服务器根据数据中心上传的子任务结果计算出商圈活跃度的预测值

以及残差值

中心服务器在上述迭代中过程中找出最佳影响权重的索引值，并下发至数据中心，以选择对应的本地影响权重的计算时所使用的权重作为最佳影响权重，以最佳影响权重对应的子计算模型作为训练完成的子计算模型。索引值指向残差值最小的计算过程。

在训练过程中，数据中心每次都会更新自己的影响权重，然后保存在本地。数据中心不知道哪一次的影响权重是最佳的。而中心服务器在每次收到数据中心的子任务结果后，会计算

这个残差值。只有中心服务器知道哪一次残差值是最小的，这个索引值就指向那个最小的残差。用于指示数据中心，其本地第几次更新的影响权重是最好的。

在一些实施例中，中心服务器根据各特征以及影响权重，采用线性回归模型计算商圈活跃度的预测值

其表达式如下：

本实施例中，将原任务模型转化为以下表达式：

在上述表达式中，ω_A ^T，X_A为属于数据中心A的影响权重及样本；ω_B ^T，X_B为属于数据中心B的影响权重和样本。可以看出，ω_A ^TX_A及ω_B ^TX_B仅在数据中心内就可计算完成，ω_A ^T和ω_B ^T会在模型训练中传递给结果方并根据结果方返回的残差值不断更新直到训练结束。将ω_A ^TX_A，ω_B ^TX_B视为两个数据中心的子任务，即完成任务模式解耦。

在一些实施方式中，残差的优化方法采用最小角回归算法：对于影响权重数组ω＝[ω₁, ω₂,…,ω_N]，每次更新只更新某一个与当前残差值相关度最大的影响权重ω_k，更新公式：

其中β为步长，

实施时，由于不存在对商圈活跃度进行评价的先验工作，本发明的模型训练缺少科学合理的标签。为解决缺少真实值标签的问题，本实施例采用基于正向指标排序的标记方案。正向指标是指其值越大，商圈活跃度越高的指标，即商圈活跃度与正向指标的数值成正比。因此，本标记方法的核心思想为：正向指标的排序基本可以反映商圈活跃度真实值的排序。

在一些实施方式中，参见图1，将每个数据样本采用与自身数据相关的正向指标进行标记并排序，包括：

对应地，参见图2，图5，两个数据中心分别生成样本的排序数组sort1和sort2并上传给中心服务器，电力数据有m个正向指标，移动人口数据有n个正向指标，则中心服务器生成总排序数组

然后根据总排名为每个样本打分(如以100分作为满分)，即得到了标签值。

由于部署在一个中心服务器和多个数据中心上，通过以中间量的交换去代替源数据的交换的方式，实现多源数据共同训练一个任务。于是，任务解耦依照的原则是：每一个由原任务分解产生的子任务，最多仅需要一个数据中心的原始数据。在这样的解耦原则下，各子任务便可直接分配至对应数据中心进行计算，从而保证在整个任务流程中，各数据中心的原始数据始终保存在本地。由于源数据都保存在各个数据中心本地，简单的中间量的交换使得该平台对中心服务器的单点资源要求不高。

如此便最终实现了“中间量代替原始数据”的核心思想，“中间量”即指子任务的计算结果。在解耦前，如图3所示，针对某一具体计算任务，得出具体任务模式，设计具体任务方法以及确定计算任务所需要的原始数据中心方。采用任务解耦的方法，将计算任务解耦成多个近数据中心的子任务，任务解耦的原则是：对于每一个子任务，最多仅需要一方的原始数据，解耦后的流程如图4所示，计算开始前，不同的数据中心方被分配了各自的计算子任务；在子任务计算过程中使用计算中间量进行交互，各数据中心之间接触不到对方的原始数据，计算完成后，数据中心方将各自最后的计算结果上传并且进行融合，得到最终结果后交付给结果需求方。做到了在根源上保护了各方数据安全。图3、图4分别给出包含与不包含任务解耦过程的计算流程示意图。

通过上述实施例，使得中心服务器端可以输入任何一个商圈的任一时间段，即可推理出该商圈该时段的经济活跃度。过程图7所示，中心服务器将商圈的时空信息发送给各数据中心，数据中心在本地分别计算出ω_A ^TX_A和ω_B ^TX_B上传至中心服务器，此过程没有任何源数据即本地影响权重训练结果的泄露，最终中心服务器合并子任务得到最终值。

实施时，可采用如下的结构实现计算系统，包括：

1)通信模块。

本发明采用使用Tcp协议的Socket编程来实现网络进程之间的通信，实现数据中心和中心服务器之间的影响权重传递。TCP是面向链接的，其三次握手在最低限度上(实际上也很大程度上保证了)保证了连接的可靠性。为了保证影响权重传递的完整性，在每次通信时加入了判断传递信息是否完整的模块。如果不完整，则重新传递，直到完整为止，保证整个模型训练过程的正确进行。

2)数据加密模块。

传输中使用安全性较高同时实现相对简便的RSA非对称加密算法。在每次数据中心和中心服务器通信时，会对其通信内容通过公钥加密后再发送。对方通过私钥将收到的加密内容解密。私钥是经过双方提前协商并授权发送获得的。该方式可在通信过程中进一步保护参与方和结果方的隐私。

3)计算模块。

计算组件完成各个子任务的触发与计算。不同数据中心或结果方的计算组件具体实现代码不同，以此保证将原始数据侧的子任务计算保留在相应的数据中心端，避免原始数据直接交互的隐私风险。

4)图形监控模块。

本发明通过python的Tkinter包编写了用户图形界面程序部署在中心服务器端，并且使用 matlib的绘图功能对模型训练的过程进行监控。在得到数据中心的权限之后，用户即可在中心服务器端进行计算任务选择、生成计算任务、任务下发、模型训练、结果推理等图形界面操作，并且在训练过程中，可以实时监控训练状态。

隐私计算任务通过上述模块的完成步骤如下：

(1)生成计算任务：

针对不同的问题，设计不同的计算任务。本实施例的计算任务是商圈活跃度评价分析。

(2)分发本地计算任务：

为了进一步保护影响权重在结果方和数据中心两方之间传递的隐私，对传输过程中影响权重进行加密。因此，首先向数据中心进行密钥的分发。

此外，结果方会向各个数据中心分发各自本地计算任务。各个数据中心会根据收到的本地计算任务内容进行相应的准备。

(3)模型训练：

密钥和计算任务分发完毕后，进行模型训练任务。在模型训练之前，对模型的超影响权重进行设置。随后模型训练至训练完成。

训练过程中，模型的实时残差值以及本地首发文件累计可以通过图形监控实时呈现。

(4)任务推理(商圈活跃度隐私计算过程)：

模型训练完成之后，进行任务的推理。输入感兴趣的商圈ID、查询日期以及查询时间段 ID即可推理出相应的商圈活跃度分值。

在以往的对商圈经济活跃度的研究中，最常见的是使用手机信令数据作为支撑，分析与商圈相关的移动人群的信息。手机信令数据能反映消费人群的情况，能在一定程度上体现出商圈的经济活跃度。然而，多方数据的有效融合可以更全面，更合理地反映出商圈的真实的经济活力。电力系统是支撑城市运行发展的基础系统，具有感知城市的能力，采集的电力大数据能够反映城市的运行状态、居民的生活规律和企业的运营现状，同时也能成为评价商圈经济活跃度的重要指标。将电力大数据与移动人口数据进行融合，充分发挥不同数据的独特价值，不仅在研究商圈经济活跃度的方法上有新的突破，更是对推动智慧城市建设具有重要意义。在以商圈作为样本的前提下，电力大数据和移动人口数据的样本完全重叠。并且这两种数据对于样本的特征描述几乎没有相同的部分，这是典型的纵向联邦的应用场景。

综上可知，本发明将电力数据和移动人口数据进行融合，引入纵向联邦学习技术不仅保护了双方数据不被泄露，更是打破了数据孤岛，提升了模型效果，使得商圈活跃度的评价体系更加科学合理。值得一提的是，在当前联邦学习的主流应用领域还集中在金融领域的背景下，通过电力数据和移动人口数据的创新融合。随着联邦学习技术在工业界的不断实践，逐渐成熟的联邦学习框架会支撑人们提出更多创新性的数据融合思路，发挥大数据的流通价值。

从模型训练方面来讲，本发明基于联邦学习原理自主设计并实现了整个联邦学习流程。灵活的训练机制和可靠的通信流程使本发明只需改变任务模式就可以在横向和纵向两种联邦类型中切换。本发明独特的流程设计没有给中心节点带去过大的压力，传输的参数文件小，数据和模型都存储在本地，中心节点的资源并不会限制大数据量在本发明上的实践。和现有的一些联邦框架相比，本发明不依赖第三方服务器是可靠的。非对称加密技术保证每个数据中心在面对任何其他参与方都是安全的，只有获得自己许可的参与方(如中心服务器)能够通过私钥获得不足以得到源数据和模型信息的中间量(索引值，残差值，子任务计算结果等)。最后，本发明使用Socket编程，在连接可靠的TCP协议的基础上改进了在数据传输完整性上会出现的不足，提高了模型训练的稳定性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。