CN115510482A

CN115510482A - 融合自适应差分隐私与联邦学习的群智感知数据隐私保护

Info

Publication number: CN115510482A
Application number: CN202211176894.0A
Authority: CN
Inventors: 王健; 孟凡凡; 赵国生
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-12-23

Abstract

在群智感知中，现有的关于隐私保护的研究主要是将数据上传到感知平台，通过服务器来进行模型训练。这将会延长通信时间，还会造成个人信息泄露。针对以上的不足，本发明采用联邦学习方法，它不需要共享感知数据，在本地对感知用户提交的数据进行存储、训练形成本地模型。其次利用差分隐私加入高斯噪声来扰动感知用户上传的本地模型，防止信息泄露。将处理后的本地模型上传到感知平台进行聚合。最后采用自适应差分隐私机制，实时调整剪裁值，减少噪声和参数剪裁所造成的误差，降低通信代价。采用差分隐私与联邦学习结合的方法来研究群智感知中的隐私保护问题，不仅提高了隐私保护效率，还具有较低的时间和计算开销。

Description

融合自适应差分隐私与联邦学习的群智感知数据隐私保护

技术领域

本发明属于群智感知领域，具体涉及一种融合自适应差分隐私与联邦学习的群智感知数据隐私保护方法。

背景技术

近来，随着现代技术的飞速发展，智能设备已经开始被广泛应用。现有的智能设备配备了各种传感器，如加速度传感器、磁传感器、方向传感器和温度传感器，这些传感器可以感知用户周围的环境和用户持有的智能设备的状态。群智感知是一种利用移动智能设备的传感器来采集感知数据，然后对感知数据进行研究的技术。与传统的无线传感器网络相比，群智感知本质上将数据收集和数据聚合任务分别外包给参与者和云服务器，群智感知具有很大的优势，特别是在大规模的感知任务中，感知成本低，感知效率高。因此，近年来群智感知引起了社会各界的广泛关注，并在交通和道路监测、智慧城市、医疗保健等各个领域展开了深入的研究。

群智感知的运行依赖于大量感知用户的参与。然而，人本身具有自私性，可能会发起欺骗或者共谋攻击以最大化自身利益，因此隐私保护问题是影响群智感知应用发展的原因之一。数据隐私是群智感知中关键的隐私问题之一。在数据感知阶段，感知用户需要消耗计算、存储和通信带宽等资源来采集感知数据以获取相应的激励报酬和奖赏，感知平台则需要部署合理的任务资源分配策略，以合理的代价获得更高质量的数据；同时，不同的感知用户对于同一感知任务具有不同的认知和参与态度，且感知用户的身份、位置、偏好等信息是动态变化的，感知平台如何在尽可能少地泄露用户隐私的前提下实现对感知数据质量的正确评估以及量化隐私泄露风险是当前的一大隐私挑战。在数据上传阶段，感知用户为了契合任务场景，选择上传的数据往往包含位置和属性等隐私信息，随着管理权转移至感知平台，感知数据容易遭受数据窃取攻击、感知平台非授权转发及数据移动性管理困难等严重问题。在数据交易阶段，理性的感知平台和云服务提供商为了追求各自最大的利益，容易遭受恶意共谋攻击，使得敏感数据、任务报价等隐私信息发生泄露，从而陷入囚徒困境。

为了缓解应用与隐私之间的矛盾，人们提出了很多隐私保护数据聚合的解决方案。感知平台聚合参与者提供的受干扰或加密的感知数据。然而，这些解决方案存在一定的缺陷，一些方案不支持对扰动感知数据的计算，一些方案要么牺牲了计算精度，要么需要额外的服务器来协助计算。并且，参与者会消耗包括感知、通信和计算在内的资源来执行感知任务。激励机制提供了一种很好的方式来补偿资源消耗和刺激参与。基于拍卖的竞价定价机制和基于感知数据的发布定价机制是激励机制设计中常用的两种方法。一个可靠的激励机制至少满足真实性和公平性。真实性是指一个参与者不能通过提交偏离她的真实价值的投标价格而不知道别人的投标价格来提高她的回报。公平意味着一个参与者的收益应该与她的贡献呈正相关。

由于群智感知通常使用机器学习来处理收集到的感知数据，并且面临隐私泄露问题。如果我们可以将数据收集任务外包给参与者，那么我们也可以将数据处理任务外包给参与者。联邦学习是一种将数据处理任务外包给参与者的有效方法，已成为隐私保护和机器学习领域的热门话题。因此，本发明将群智感知与联邦学习相结合，如图1所示，设计了一种融合自适应差分隐私与联邦学习的群智感知数据隐私保护方法。

发明内容

本发明的目的是针对现有技术的不足，提出了一种融合自适应差分隐私与联邦学习的群智感知数据隐私保护方法。

本发明是通过以下技术方案来实现的：一种融合自适应差分隐私与联邦学习的群智感知数据隐私保护方法，首先，在请求者发布任务请求后，感知用户会上传感知数据，感知数据会包含敏感信息，会导致隐私泄露。因此引入联邦学习框架，将感知数据在本地训练生成本地模型，然后在上传给感知平台。其次，虽然联邦学习可以有效的保护感知数据不被攻击者获得。但是，通过分析模型训练中的参数，如深度神经网络训练的权值，仍然可能泄露用户的隐私信息。为了解决这个问题，我们对本地模型进行加噪处理。最后，提出了一种自适应裁剪更新方案，实时调整剪裁值，来减少差分隐私噪声对模型精度的影响。

本发明的整体流程如图2所示，主要包括任务发布、数据处理、模型上传、数据提交四大过程。

任务发布：请求者首先将感知任务发布给感知平台，感知平台通过移动网络将任务发布给所有感知用户。

数据处理：感知用户根据任务请求，通过各种智能设备采集感知数据并将感知数据上传，训练者对上传的感知数据进行训练生成本地模型，保护者对本地模型进行加噪处理。

模型上传：感知用户在群智感知任务达到要求后通过移动网络将加噪处理后的本地模型上传给感知平台。

数据提交：感知平台对所有的局部模型进行聚合生成全局模型，最后将更新后的全局模型提交给请求者进行验收。

与现有技术相比，本发明的有益效果是：针对现有的隐私保护方法大多都是感知用户将感知数据上交给感知平台进行模型训练，感知数据涉及参与者的私人信息，如声音、指纹、面部等，会造成信息泄露。本发明首先采用联邦学习方法，它不需要共享感知用户所收集的感知数据，在本地对感知用户提交的感知数据进行存储、训练，构建健壮且安全的本地模型。其次利用差分隐私来扰动感知用户上传的本地模型，对本地模型加入高斯噪声，防止信息泄露。将加噪处理后的本地模型上传到感知平台进行聚合形成全局模型。最后采用自适应差分隐私机制，实时调整剪裁值，减少差分隐私噪声和参数剪裁所造成的误差，提高联邦学习的性能，降低通信代价。通过采用差分隐私与联邦学习相结合的方法来研究群智感知中的隐私保护问题，不仅可以提高保护数据隐私的效率，而且具有较低的时间和计算开销。

附图说明

图1为群智感知中的联邦学习框架图。

图2为整体流程图。

具体实施方式

为了解决数据孤岛现象，谷歌于2016年提出了联邦学习的概念，用于在移动终端与感知平台间建立共享模型。在该框架下，每个感知用户基于本地数据集训练模型，然后将模型参数发送给感知平台，感知平台的目标函数是F(w)=∑n_i /n*F_i(w)，i∈[1,m]，其中n是所有感知用户数据量总和，n_i是第i个感知用户的数据量，m是参与训练的感知用户设备总数，F_i(w)是第i个感知用户的本地目标函数，F_i(w)=∑f_z(w)/n_i，其中z∈d_i，d_i是第i个感知用户的本地数据集，f_z(w)=α(x_z,y_z,w)是具有参数w的模型对数据集d_i中的实例(x_z,y_z)产生的损失函数。感知平台聚合所有上传的参数后得到全局模型，在下发给各个感知用户，用以更新它们的本地模型。

由于联邦学习是通过大量的设备与感知平台协同学习一个最优的全局模型，因此在每个设备上使用基于设备数据的局部目标函数作为全局目标函数的代理。由于不同模型的更新频率不同，频繁的本地更新可能会导致该本地模型出现差异。我们使用γ不精确解来衡量每一轮中的本地模型，允许γ随设备和迭代次数的变化而变化。有函数h(wi;w)=F(w)+λ/2*||w_i-w||²，则▽h(wi;w)=▽F(w_i)+λ(w_i-w)，若||▽h(w_i ^*;w)||≤γ||▽h(w;w)||，γ∈[0,1]，则w_i ^*是min h(wi;w)的γ不精确解。为限制本地更新的影响，在局部问题中加入一个近似项，有效地限制可变局部更新的影响。我们不仅最小化本地目标函数F_i(w)，还对客户端i使用本地目标函数h_i来应用具有约束性的更新h_i(w_i)=F_i(w_i)+λ/2||w_i-w||²，其中，w_i是感知用户i的本地模型，w是感知平台的全局模型，λ/2*||w_i-w||²是约束项。

我们用f_i(w)作为客户端模型的加权平均值。假设在第T轮，选定的客户端与服务器进行通信，我们更新fi(w)=∑=n_i/n_c*h_i(w_i)=∑n_i/n_c(F_i(w_i)+λ/2||w_i-w||²)，i∈[1,S]，其中S表示随机选择的客户端的子集，n_i是第i个感知用户的数据量，N_c是S中数据样本总和。

差分隐私是一种严格可证明的数学框架，其基本思想是通过对函数的输入或输出结果添加精心设计的噪声，使数据集中任意单个记录的修改都不会对输出结果造成显著的影响，因此攻击者不能通过分析输出结果来推测数据集中的隐私信息。

如果一个随机函数F满足(ε,δ)-差分隐私，当且仅当对于任意的两个相邻数据集l和l^′，则F的任意输出结果S(S∈Range(F))满足不等式P[F(l)=S]≤e^ε*P[F(l^′)=S]+δ。其中，P表示一个事件发生的概率。参数δ控制满足ε差分隐私的失败率。两个参数δ和ε越小，隐私性越高。

高斯机制就是在算法输出的时候加入噪声扰动，其中这个噪声满足一个特定的高斯分布。对于任意函数f，如果一个算法满足F=f(l)+N(0,△f²δ²),其中△f为敏感度，并且δ≥4/5*e^{-(εδ)∧2/2}，以及ε<1，则算法F满足(ε,δ)-差分隐私。

在联邦学习每一轮的迭代中，我们都会计算带有高斯噪声的梯度g=▽f+N(0,△²δ²I)，其中方差为δ²。注入的噪声量△²δ²会根据用户个体对于梯度g在二阶范数下的最大全局敏感度，即△。由于梯度的大小没有一个先验的界限，我们用二阶范数的固定值来裁剪每个梯度。因此用户上传的梯度向量可以改写为g=g/max(1,||g||/c)，其中C为裁剪阈值。参数裁剪行为确保了梯度值小于一定的阈值，即当||g||≤C时，那么g保持不变；当||g||＞C时，它按比例缩小为C。

但是，参数clip C的值有两个影响：如果太小，算法会增加较少的噪声，但会破坏梯度估计的无偏性；否则，大量的噪音必须添加到每个梯度。因此，固定裁剪值显然是不合适的。我们会根据用户的信息动态调整裁剪的值。首先定义裁剪的损失函数L=1/2|C-X|²，其中X是用户梯度的规范，C是当前的裁剪值。可以简单地推导出梯度▽L=C-X，所以我们可以通过C=C-η_clip▽L_κ更新每轮裁剪值，其中η_clip是学习率，κ为常数。

由于这里的裁剪值学习算法使用了感知用户的信息，因此有必要增加满足差分隐私的扰动，以保护用户的数据隐私。我们将使用感知用户的数据来估计学习速率，并加入高斯噪声η_clip=| (((∑||g||/max{1,||g||/c})+N(0,4C²δ² _clip))/|g_non|)-C|，g∈g_non，我们在这里再次使用裁剪操作，还是因为梯度的大小没有一个先验的界限。我们在这里使用2C有两个原因：首先，当梯度范数X≤C时，并不会造成任何影响，因为0<X≤C；其次，当X>C时，它将更新量会限制为原来C的两倍，这样使得算法更为稳定，而不会由于差分隐私带来的随机性对整体模型造成破坏。

现在考虑如何从感知用户那里收集梯度信息。我们希望感知用户提供的信息只是梯度范数的值是否大于现有裁剪的值。当我们需要上传信息来更新裁剪的值时，需要添加其他需要裁剪的噪声。因此可以使用随机响应来处理这个问题。首先，用户将在本地计算当前轮的梯度值，并比较梯度的范数和裁剪值的差异，即(C-X)/C，如果ζ=1，则报告y^*= (e^ε+1)/(e^ε-1)，其中ζ~Bernoulli((▽L(e^ε-1)+e^ε+1)/2*(e^ε+1))。反之，则报告y^*= -(e^ε+1)/(e^ε-1)。当ζ较大时，更有可能报告1；否则，它更可能报告0。这样的设计使得在裁剪值附近的值的期望接近于0，以此提高方向的准确性。

此外，我们还将使用额外的参数κ来平衡学习的稳定性和速度。如果选择过小的κ，那么剪裁值的学习速度将会很慢；如果选择的κ太大，η_clip和▽L相乘的扰动会非常大，这可能将导致一个很糟糕的模型。我们将选择κ∝|Users|，因为用户的大小将会直接影响模型精度，大量的用户将会使得算法的结果更趋近于期望值。

由于感知用户的通信带宽不同，感知用户的响应时间也会有所不同，那么响应较快的感知用户参与模型训练的轮次要多，这会使生成的全局模型不准确。因此，本发明将相对较高的权重分配给更新频率较低的较慢的感知用户，根据更新全局模型的次数动态调整分配给每个感知用户的相对权重，此加权聚合的目标是帮助全局模型更快的收敛，使全局模型更加精确。

综上所述，本发明提出的一种融合自适应差分隐私与联邦学习的群智感知数据隐私保护方法，为群智感知领域提供了一种有效的隐私保护机制。本发明通过采用差分隐私与联邦学习相结合的方法，有效地对感知数据进行处理，避免感知数据的泄露，防止感知平台将感知数据发送给第三方以谋取利益。本发明能够为用户数据提供很好的隐私保护，不仅可以提高数据隐私保护的效率，而且具有较低的时间和计算开销。

上述实施方法为本发明较佳的实施方式，但本发明的实施方式并不受上述方法的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.融合自适应差分隐私与联邦学习的群智感知数据隐私保护，其特征在于，通过采用差分隐私与联邦学习相结合的方法来研究群智感知中的数据隐私保护问题。

2.根据权利要求1所述的融合自适应差分隐私与联邦学习的群智感知数据隐私保护，其特征在于，采用联邦学习方法，在本地对感知用户提交的感知数据进行存储、训练，生成本地模型。

3.根据权利要求1所述的融合自适应差分隐私与联邦学习的群智感知数据隐私保护，其特征在于，采用差分隐私方法对感知用户上传的本地模型加入高斯噪声进行扰动，并采用自适应差分隐私机制，实时调整剪裁值。