CN111866869B

CN111866869B - 面向边缘计算的联邦学习室内定位隐私保护方法

Info

Publication number: CN111866869B
Application number: CN202010645474.7A
Authority: CN
Inventors: 张学军; 何福存; 陈前; 盖继扬; 鲍俊达; 巨涛; 黄海燕; 杜晓刚
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2023-06-23
Anticipated expiration: 2040-07-07
Also published as: CN111866869A

Abstract

本发明提出了一种面向边缘计算的联邦学习室内定位隐私保护方法，该方法基于联邦学习和差分隐私保护技术，在边缘计算环境下进行室内定位模型的可信联邦训练，训练过程中各参与用户不共享训练数据，只通过共享定位模型参数进行室内定位模型的分布式训练和可信聚合，同时，通过端云协同的迭代方式更新模型参数，不断优化室内定位模型，实现多用户定位模型训练的隐私保护和协同获益。实验结果表明，与传统集中式的模型训练方法和基于联邦学习的模型训练方法相比，本发明不仅能提供可证明的隐私保护，而且在增加极小计算开销的情况下保证了模型的定位效果。

Description

面向边缘计算的联邦学习室内定位隐私保护方法

技术领域

本发明涉及室内定位的服务领域，涉及到用户在利用位置获取服务时，保护用户的数据隐私。

背景技术

在传统以云为中心的计算方法中，移动设备收集的数据将被全部上传并存储在云端的服务器进行集中的计算与处理。然而，随着物联网、群智感知、社交网络等技术和领域的飞速发展，无处不在的移动设备、传感器持续产生海量数据，数以亿计的用户在享受互联网服务时产生巨量的交互，使得边缘侧数据出现出爆炸式增长，云计算在处理这些数据的时候，会消耗大量的计算和存储资源，其能力就会显得捉襟见肘。边缘计算可以迁移云计算的压力，高效地处理这些海量数据(例如图片、视频、位置信息等)，促使以数据为驱动的人工智能成为可能。但是，由于网络承载力以及隐私等种种限制，导致现阶段的海量数据都以“数据孤岛”的形式存在，缺乏有效的互通与协作，使得人工智能的成功实施面临困境。

另一方面，随着大型公司对数据安全和用户隐私的威胁意识日益增强，对数据隐私和安全的重视已成为全球性的主要问题。一些重大的用户数据泄露事件都会成为人们关注的焦点，例如近期Facebook的数据泄露事件就曾引起了不小的社会恐慌。目前，各国都在加强对数据安全和隐私的保护。2018年5月25日，欧盟开始实施《通用数据保护条例》(General Data Protection Regulation,GDPR)，旨在保护用户的个人隐私和数据安全，对于经营方也进行了明确的约束。经营者在制订用户协议时，必须使用清晰、明确的语言表述，且用户有权利要求经营者删除其个人数据，停止经营方利用用户数据进行建模。一旦违反该条例，等待经营方的可能会是名誉损失和巨额罚款。中国在2017年起实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》也对网络数据安全做了相关规定，要求经营方未征得用户同意的情况下，不得擅自泄露、篡改、毁坏以及收集用户个人信息，在与第三方进行数据交易时，必须要在合同中明确约定拟交易数据的范围和数据保护义务。这些条例和规定在保护用户隐私的同时，对传统的人工智能数据处理模式也提出了新的要求。

传统的人工智能数据处理模式有着相对固定的流程，一般是一方收集数据，再转移到另一方进行处理、清洗、建模，再将最终的模型销售给第三方。不过，在相关法律完善之后，监督管理也会更加严格，当数据离开收集方，或是用户不了解模型的具体用途时，经营者就会伴随着触犯法律的风险。要处理以孤岛形式存在的数据，就需要把数据整合到其中一方。然而目前在法律法规的约束之下，经营者简单粗暴地聚合数据很可能会变成违法行为。如果无法合法地解决数据孤岛问题，那么大数据的这个遗留问题就很有可能会成为人工智能的健康发展的瓶颈之一。

针对上述问题与挑战，学术界和工业界对潜在可行的解决方法进行了探索，专利CN110632554A提出了一种基于联邦学习的室内定位方法、装置、终端、设备及介质，利用联邦学习方法解决数据孤岛问题。然而，该方法并未考虑到边缘节点及云服务器的不可信性，增加了用户隐私泄露的风险。本发明利用差分隐私技术对用户设备采集到的RSSI数据进行差分扰动之后，上传到参数服务器，实现了对用户隐私的保护。其次，云服务器对来在各个边缘设备节点的模型参数进行差分隐私保护聚合，混淆各个边缘节点对全局模型的贡献，实现对边缘节点模型的保护；专利CN110267197A提出了一种基于WIFI指纹室内定位的轻量级隐私保护系统及方法，该方法在为用户提供服务的同时，利用Paillier等加密算法，在数据上传及处理时进行加密处理，达到保护用户隐私的效果；但是该方法使用了公钥密码系统，计算开销很大，不适用于边缘计算环境；专利CN107222851A提出了一种差分私有保护方法，为用户提供位置服务的同时，服务器利用客户端上传的AP序列构建指纹数据集，利用差分隐私保护技术在聚类过程中进行扰动处理，以此来保护用户的位置隐私和服务器的数据隐私。然而，该方法基于云服务器架构，难以适应当前终端设备数据量呈指数增长的情况且和模型训练过程的隐私。本发明引入了边缘计算和联邦学习技术，将云服务器的部分计算与服务功能迁移到边缘节点上，并通过联邦学校实现了多用户数据的可信模型训练、减少云服务器的负载、为用户提供实时性的服务。

发明内容

本发明提出面向边缘计算的联邦学习室内定位隐私保护方法，为用户提供实时、安全、准确的室内定位服务。

本发明所采用的技术方案为：

一种面向边缘计算的联邦学习室内定位隐私保护方法，假设边缘节点是半可信的，多个边缘节点间不具备通信能力，无法串通获取用户的完整信息，为了保障用户的隐私安全，边缘节点之间也呈信息孤岛状存在；假设云服务器是不可信的，它会尽力获取室内定位模型的训练数据集，通过分析训练数据集来揭露用户的敏感信息。因此，要避免将未经隐私保护处理的真实数据直接暴露给云服务器；具体包括下列步骤：

步骤A：用户的终端设备通过无线传感器信标收集无线信号强度RSSI数据(x,y)，并对x添加可控的随机拉普拉斯噪声Laplace(1/ε_u)，在数据共享前对收集到的RSSI数据进行差分扰动，保证RSSI数据发送至边缘节点的隐私安全。然后将处理后的RSSI数据发送到附近的边缘节点，其中x为用户的终端设备收集到的多个AP信号的集合，y为用户所处位置，ε_u为隐私预算。

步骤B：边缘节点收集附近多个终端设备上传的经过隐私保护处理的RSSI数据，并对这些数据进行聚合；然后利用这些聚合数据进行本地子模型训练，最后，各个边缘节点将训练好的本地子模型参数上传到云服务器；

步骤C：云服务器首先对多个边缘节点上传的模型参数进行差分私有聚合，混淆各个边缘节点的的实际贡献；然后，通过端云协同的迭代方式更新模型参数直到模型达到最优；最后，将训练好的最优室内定位模型下发至各边缘节点，为用户提供实时、安全、准确地室内定位服务。

进一步的，步骤A详细过程如下：

用户终端设备在共享RSSI数据前，对RSSI数据中的x添加可控随机拉普拉斯噪声Laplace(1/ε_u)，在数据共享前对RSSI数据进行差分扰动，保证RSSI数据发送到边缘节点的隐私安全。差分扰动后的RSSI数据为(x′,y)，其中x′可表示为：

x′＝x+Laplace(Δf/ε_u)

其中，Laplace(·)为满足拉普拉斯分布的可控随机噪声，添加的噪声量由敏感度Δf控制，其中ε_u为分配给用户在终端设备上进行差分扰动的隐私保护预算，Δf计算如下：

x′＝reshape(x′,width,height)

Δf＝|max(mean(x′,axis＝1))-min(mean(x′,axis＝1))|

其中reshape(,)表示在不改变列表内容的情况下对列表进行重新排列。reshape(x′,width,height)表示将一维的数据x′转换为一个widht*height的二维数组。max(,)表示求元素的中最大值、min(,)表示求元素的中最小值、mean(,)表示求元素的均值，当axis＝1，表示对二维列表中的每行元素求均值。

步骤B详细过程如下：

边缘节点将接收到的来自不同用户的RSSI数据进行聚合，形成本地子模型所需的训练数据集(X^′edge,Y^edge)，其中，edge仅用于标识该数据是在边缘节点上对来自各个用户的RSSI数据进行组合后的数据，并不参与任何运算，

表示第i条数据样本，/>

表示该样本对应的标签值。对于本地子模型训练，任意一个边缘节点edge上模型训练的优化目标是：

其中，

表示边缘节点收集的经差分扰动后的数据，f_u表示待学习的本地子模型，/>

表示将数据/>

输入到模型训练后模型的输出结果，/>

表示模型在数据/>

上的损失，/>

表示模型在数据集(X^′edge,Y^edge)上的总损失，对于分类任务/>

是一个标准的交叉熵损失，Θ^edge表示所有待学习的参数，包括权重和偏置项。

步骤C详细过程如下：

云服务器接受来自N个不同边缘节点上传的本地子模型参数，并对这些模型参数进行满足差分隐私保护的聚合和更新操作，云端模型的更新可以形式化为：

其中，w_s为云端模型目标参数，w_i为N个本地子模型参数，i＝1,2,…,N。以此为原则，不断迭代，实现云端模型和本地子模型的协同更新。

本发明基于联邦学习和差分隐私保护技术，在边缘计算环境下进行室内定位模型的可信联邦训练，训练过程中各个边缘节点不共享训练数据，只通过共享定位模型参数来进行模型的分布式训练和可信聚合，通过端云协同的迭代方式对模型进行不断地优化，实现多用户定位模型训练的隐私保护和协同获益。

本发明主要解决了三个方面的问题：1)研究关注边缘计算下室内定位模型训练安全问题和数据使用的合法性与合规性，解决数据孤岛问题，使多个参与用户不分享私有数据的同时实现定位模型的智能协作训练与共同获益；2)考虑敌手的攻击背景，利用差分隐私技术在模型训练期间模糊各参与用户的实际贡献，实现多层面的ε-差分隐私保护，在隐私保护强度、定位模型性能和时间开销三者之间取得了更好权衡；3)该方法可扩展并且可以作为边缘计算下室内定位应用的标准框架。实现多个参与用户室内定位模型的可信联邦训练，在保障用户隐私安全的情况下，保证高效、准确的室内定位性能。

附图说明

图1为本发明的差分私有联邦学习结构图。

具体实施方式

下面结合附图对本发明及其效果进一步说明。

如图1所示，本发明系统模型由三个实体构成：终端设备、边缘节点和云服务器。这些系统描述如下：

(1)终端设备：用户的终端设备从室内区域(例如，大型购物中心，地下停车场，展览厅等)的多个无线传感器信标收集无线信号强度RSSI数据。为了解决隐私泄露问题，终端设备先独立地对原始RSSI数据进行满足差分隐私的隐私保护处理，然后将处理后的数据发送到附近的边缘节点，在边缘节点处进行多用户的数据聚合。在此模型中认为终端设备是可信的。

(2)边缘节点：边缘节点是一些具有数据计算和存储功能的智能网关，可将云服务的边缘扩展到室内区域。首先，边缘节点收集附近终端设备上传的经过隐私保护处理的RSSI训练数据，并将这些数据聚合成包含多个用户的组合数据；然后，利用这些组合数据进行本地子模型的训练；最后，各个边缘节点将训练好的本地子模型的模型参数上传到云服务器。在此模型中认为边缘节点是半可信的。

(3)云服务器：存储在大型数据中心中的云服务器具有强大的数据计算和存储能力，对边缘节点上传的多个子模型的模型参数进行差分私有聚合，混淆各参与的边缘节点的实际贡献；然后，通过端云协同的方式不断更新模型，直到模型达到最优；最后将训练好的理想室内定位模型下发至边缘节点，为用户提供实时、安全、准确的室内定位服务。在此模型中认为云服务器是不可信的。

在上述模型下，所形成的一种面向边缘计算的联邦学习室内定位隐私保护方法的具体内容为：通过利用差分隐私技术将收集到的RSSI数据经差分处理后，上传到边缘节点，边缘节点将这些数据聚合后，进行本地子模型训练并将训练好的本地子模型的模型参数上传到云服务器，云服务器对各个边缘节点上传的模型参数进行差分私有聚合，混淆各个边缘节点的实际贡献。最后，通过端云协同的方式不断地更新模型直到模型达到最优，最后，将训练好的理想模型下发给各个边缘节点，为用户提供实时、安全、准确的室内定位服务。

在服务器端和用户端，均采用一个轻量的卷积神经网络(Convolutional NeuralNetworks,CNN)做室内定位模型的训练和预测。整个网络结构包含两个卷积层、一个池化层和两个全连接层，其中卷积层采用的卷积核大小为1×5。在训练过程中，我们采用60％的数据作为训练集、10％的数据作为验证集、30％的数据作为测试集。采用Adadelta优化器作为优化策略，Adadelta不是累积所有过去的梯度，而是根据渐变更新的移动窗口调整学习速率，无需设置初始学习率。将购物中心10个子区域当作训练目标进行分类任务，批处理大小为10，训练周期数200。

在构建边缘节点层面的差分隐私保护的基础上，对用户端本地数据也进行差分隐私保护处理，使得本发明所提的方法能够提供多层次的差分隐私保护。为了验证本方法的性能，设计了集中式初始云端模型训练模式，采用10折交叉验证法进行模型的超参数微调，从而得到优化后的模型，记为Non-Fed；设计分布式的传统联邦学习训练模式对本地子模型和云端模型进行协同训练与优化更新，以此方式得到的优化后的模型记为Fed。为了与上述两种模型进行性能对比，我们采用算法执行10次后的平均值作为该方法的最终结果(见表1)。

表1不同ε下Non-Fed、Fed和本发明所提方法定位效果对比

从表1中可得，随着隐私保护预算ε的变化，本发明定位效果受ε影响非常明显。尤其当ε＝0.001时，由于本发明在处理过程中添加了大量的可控随机噪声，定位效果受到严重影响，仅为23.3％。调整ε逐渐增大，本方法定位效果也有显著提升，当ε＝1时达到82.1％的准确度，与Non-Fed模型表现几近相仿。与Fed模型相比，也没有明显额外的时间开销。因此，本发明能够在保证没有额外资源开销的情况下，保证有效的定位效果并提供多层面的ε-差分隐私保护。

实现本发明的具体步骤如下：

步骤A：用户的终端设备通过无线传感器信标收集无线信号强度RSSI数据(x,y)，并对x添加可控的随机噪声Laplace(1/ε_u)，在数据共享前对收集到的RSSI数据进行差分扰动，保证RSSI数据发送至边缘节点的隐私安全。然后将处理后的RSSI数据发送到附近的边缘节点；

步骤B：边缘节点收集附近多个终端设备上传的经过隐私保护处理的RSSI数据，并对这些数据进行聚合；然后利用这些聚合数据进行本地子模型训练，最后，各个边缘节点将训练好的本地子模型的参数上传到云服务器；

步骤C：云服务器对多个边缘节点上传的模型参数进行差分私有聚合，混淆各个边缘节点的的实际贡献；然后，通过端云协同的迭代方式更新模型参数直到模型达到最优；最后，将训练好的理想室内定位模型下发至边缘节点，为用户提供实时、安全、准确的室内定位服务。

各步骤详细解读如下：

定义1(ε-差分隐私)：设有一个随机算法

是所有可能的输出构成的集合，对于最多在一条记录上不同的任何两个相邻数据集D和D′以及/>

的子集/>

如果算法/>

满足：

则称算法M提供ε-差分隐私保护，其中ε称为隐私保护预算，P[·]表示算法

对数据集D和D′计算结果概率。此定义确保单个记录的存在或不存在不会显着影响算法/>

的输出。

定义2(全局敏感度)：设有函数Q:

Q的全局敏感度定义如下：

Δf＝max_D,D′‖Q(D)-Q(D′)‖

其中，‖Q(D)-Q(D′)‖是Q(D)和Q(D′)之间的1-阶范数距离，敏感度用来表征删除数据集中的任何记录引起的最大变化，是确定添加的噪声量的关键参数。

定义3(Laplace机制)：Laplace机制适用于数值型查询结果，是差分隐私保护的基本的实现机制之一。对于一个函数f:

其敏感度为Δf，那么就称f^*(D)提供了ε-差分隐私保护。

是一个服从Laplace分布随机噪声，尺度参数为/>

其概率密度函数如下：

进一步的

1)步骤A详细过程如下：

步骤A详细过程如下：

x′＝x+Laplace(Δf/ε_u)

x′＝reshape(x′,width,height)

Δf＝|max(mean(x′,axis＝1))-min(mean(x′,axis＝1))|

2)步骤B详细过程如下：

表示第i条数据样本，/>

其中，

表示将数据/>

输入到模型训练后模型的输出结果，/>

表示模型在数据/>

上的损失，/>

3)步骤C详细过程如下：

云服务器接受来自N个不同边缘节点上传的本地子模型参数，并对这些模型进行满足差分隐私保护的聚合和更新操作，云端模型的更新可以形式化为：

对本发明安全性的分析

我们利用了隐私预算中广泛使用的组合性质：序列组合性对本专利提出的方法进行安全性分析。

引理1:设有随机算法

其隐私保护预算分别为ε₁,ε₂,…,ε_n，那么对于统一数据集D，由这些算法构成的组合算法/>

提供/>

-差分隐私保护。

理论1:本发明所提方法能够提供差分隐私保护。

证明：该方法提供的隐私保护处理主要包括以下几个操作阶段：(1)用户终端设备上RSSI数据的差分扰动；(2)边缘节点上传模型参数；(3)云服务器差分私有的模型聚合。在阶段(1)中，众多用户独立地在自己本地进行私有数据的差分隐私保护，每个用户分配的隐私保护预算均为ε_u，根据差分隐私定义3和并行组合性可以得到在此阶段可以满足(ε_u)-差分隐私保护。在阶段(2)中，边缘节点接受到的用户RSSI数据是经过差分扰动处理过的，在这些数据上进的聚合和计算操作同样满足(ε_u)-差分隐私保护。而且，在这一阶段，边缘节点仅向云端共享模型学习的参数，数据仍在本地可防可控，没有造成额外的隐私泄露风险。在阶段(3)中，利用阶段(1)扰动后的数据建模学习到的模型参数在云端进行汇聚，为了防止敌手针对边缘节点实施差分攻击，在这一阶段对模型参数的聚合结果添加可控拉普拉斯噪声，来模糊化各个边缘节点本地子模型对云端模型的贡献量。因此，在云端分配隐私保护预算ε_s，实现(ε_s)-差分隐私保护。

对于整个算法流程来说，应用引理1可以得出该方法能够提供(ε_u+ε_s)-差分隐私保护，即对于任何一对相邻的训练数据集X和X′，Fed都满足：

敌手无法通关观察算法输出结果的差异性，来进行贝叶斯推理攻击，利用模型反推训练样本及用户隐私信息。同时，由于多个边缘节点在假定条件下不具有通信能力，边缘节点之间相互独立，数据无法共享，那么敌手也无法通过关联多个边缘节点数据实施链接攻击，在边缘节点层面，用户和本地子模型的数据安全得以保证。由此可得，本发明所提方法能够提供多层面的差分隐私安全保障。

Claims

1.一种面向边缘计算的联邦学习室内定位隐私保护方法，假设边缘节点是半可信的，多个边缘节点间不具备通信能力，无法串通获取用户的完整信息，为了保障用户的隐私安全，边缘节点之间也呈信息孤岛状存在；假设云服务器是不可信的，它会尽力获取室内定位模型的训练数据集，通过分析训练数据集来揭露用户的敏感信息；因此，要避免将未经隐私保护处理的真实数据直接暴露给云服务器；具体包括下列步骤：

步骤A：用户的终端设备通过无线传感器信标收集无线信号强度RSSI数据(x，y)，并对x添加可控的随机拉普拉斯噪声Laplace(1/ε_u)，在数据共享前对收集到的RSSI数据进行差分扰动处理，保证RSSI数据发送至边缘节点上的隐私安全，然后将处理后的RSSI数据发送到附近的边缘节点，其中x为用户的终端设备收集到的多个AP信号的集合，y为用户所处位置，ε_u为隐私预算；

步骤A详细过程如下：

用户终端设备在共享RSSI数据前，对RSSI数据中的x添加可控随机拉普拉斯噪声Laplace(1/ε_u)，在数据共享前对RSSI数据进行差分扰动处理，保证RSSI数据发送到边缘节点的隐私安全；差分扰动后的RSSI数据为(x′，y)，其中x′可表示为：

x′＝x+Laplace(Δf/ε_u)

其中，Laplace(·)为满足拉普拉斯分布的可控随机噪声，添加的噪声量由敏感度Δf控制；其中ε_u为分配给用户在终端设备上进行差分扰动的隐私保护预算，Δf计算如下：

其中reshape(，)表示在不改变列表内容的情况下对列表进行重新排列；x′指reshape前的一维数据，而

指reshape后widht*height的二维数据；max(，)表示求元素的中最大值、min(，)表示求元素的中最小值、mean(，)表示求元素的均值，当axis＝1，表示对二维列表中的每行元素求均值；

步骤B详细过程如下：

边缘节点将接收到的来自不同用户的RSSI数据进行聚合，形成本地子模型所需的训练数据集(X′^edge，Y^edge)，其中，edge仅用于标识该数据是在边缘节点上对来自各个用户的RSSI数据进行聚合后的数据，并不参与任何运算，

表示第i条数据样本，/>

表示该样本对应的标签值；对于本地子模型训练，任意一个边缘节点edge上模型训练的优化目标是：

其中，

表示将数据/>

输入到模型训练后模型的输出结果，l(·，·)表示模型在数据/>

上的损失，/>

表示模型在数据集(X′^edge，Y^edge)上的总损失，对于分类任务l(·，·)是一个标准的交叉熵损失，Θ^edge表示所有待学习的参数，包括权重和偏置项；

步骤C：云服务器首先对多个边缘节点上传的模型参数进行差分私有聚合，混淆各个边缘节点的的实际贡献；然后，通过端云协同的迭代方式更新模型参数直到模型达到最优；最后，将训练好的最优室内定位模型下发至各边缘节点，为用户提供实时、安全、准确地室内定位服务；步骤C详细过程如下：

其中，w_s为云端模型目标参数，w_i为N个本地子模型参数，i＝1，2，...，N，以此为原则，不断迭代，实现云端模型和本地子模型的协同更新。