CN115455483B

CN115455483B - 一种基于本地差分隐私的大数据频数估计方法

Info

Publication number: CN115455483B
Application number: CN202211156864.3A
Authority: CN
Inventors: 林思昕; 张美范; 殷丽华; 方滨兴; 孙哲; 李丹
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-12-26
Anticipated expiration: 2042-09-21
Also published as: CN115455483A

Abstract

本发明涉及数据分析技术领域，公开了一种基于本地差分隐私的大数据频数估计方法，包括如下步骤：服务器对所有客户端进行等概率采样，并发送哈希函数集合和草图长度的取值；客户端对初始数据进行转换，并根据哈希结果替换对应数据坐标；客户端利用本地差分隐私随机响应机制扰动上一步数据，得到最新数据；客户端发送最新数据，服务器根据采样的最新数据集合训练频数预测模型并发送给剩余所有客户端；剩余所有客户端根据预测模型判断持有数据是否为高频数据；若是高频数据，以{‑1}^m的方式进行编码；若不是高频数据，先对初始数据进行转换，再根据哈希结果替换对应数据坐标，最后利用本地差分隐私随机响应机制扰动所有数据。

Description

一种基于本地差分隐私的大数据频数估计方法

技术领域

本发明涉及数据分析领域的频数估计方法和隐私保护技术领域，具体涉及一种基于本地差分隐私的大数据频数估计方法。

背景技术

随着科技的发展，各式各样的平台、网站和软件参与到人类的生活，因此产生了海量的数据。服务商收集和利用这些数据进行分析和预测，为人类的旅游出行、医疗保健、个性化服务等提供便利。然而，如果在提供便利的同时不对数据采取任何隐私保护技术，就会导致数据隐私泄露，从而给企业和用户带来不可估计的伤害。一方面是给企业的经济和声誉造成损失，不仅降低用户对平台的信任程度，而且使得企业市值受损；另一方面则是侵害用户的各项权益和隐私，包括身份信息、位置信息等。

差分隐私被广泛用于大数据分析任务中以保护用户的隐私同时实现统计分析。基于本地差分的Rappor算法将随机响应机制与布隆过滤器，利用永久随机响应的数值替代用户的初始数据，并计算瞬时随机响应来扰动永久随机响应从而估计用户频数。然而，这种方法使用二次扰动完成用户隐私保护的同时，也加剧了服务商的数据解码过程。通过哈希函数对用户数据进行一维编码，再将扰动后的数据存储到草图中进行频率估计。不同的是，HCMS算法在得到一维编码数据后，使用Hadamard变化矩阵发送用户数据，从而减小用户和服务商的通信代价，但是这种办法没有考虑到草图中的哈希冲突会降低数据频数的估计精度。

发明内容

针对背景技术中提出的数据隐私泄露问题给企业与用户带来的损失的不足，本发明提供一种基于本地差分隐私的大数据频数估计方法，在保证用户隐私的前提下，具备快速响应和高精度估计结果的优点，以克服上述背景技术中提出哈希冲突在频数估计对精度的影响的缺陷。

本发明提供如下技术方案：

一种基于本地差分隐私的大数据频数估计方法，其包括如下步骤：

步骤S1，服务器设定客户端的采样率r，并以等概率对所有客户端的数据进行抽样；

步骤S2，被抽样的客户端将其数据D先转换为一维向量V；

步骤S3，客户端等概率地从哈希函数集合Set_h选择一个哈希函数h_j，并根据哈希结果替换对应的数据坐标得到新的一维向量V′；

步骤S4，客户端根据差分隐私算法中的隐私预算ε，利用随机响应机制对新的一维向量V′进行转换使其满足ε-本地化差分隐私；

步骤S5，客户端将哈希函数索引j与最终的一维向量S发送至服务器；

步骤S6，服务器收集被采样的客户端的数据，构建k×m的草图,并将采样的客户端的数据按照哈希函数索引j存储在对应的位置，最后计算被采样客户端的数据项频数F；

步骤S7，服务器根据估计好的数据项频数，利用Random Forest Regressor模型对数据项频数进行学习，得到轻量级频数预测模型g；

步骤S8，服务器设定高频数据的占比率θ，并根据占比率θ计算出此时区分高频数据和低频数据的阈值P,最后将该阈值和轻量级频数预测模型g发送给剩余未被采样的客户端；

步骤S9，客户端根据接收到的轻量级频数预测模型g区分自身数据是否为高频数据；

步骤S10，服务器将剩余未被采样的客户端的数据存储在草图中，并且估计剩余未被采样的客户端的数据项频数。

优选地，于步骤S1中，服务器对所有客户端发送包含k个哈希函数的哈希集合Set_h和草图长度m的数值。

优选地，于步骤S2中，输入客户端数据D,将客户端数据D转换为由-1填充的数据{-1}^m。

优选地，于步骤S3中，客户端计算出h_j(D)的值，令v[h_j(D)]＝1,其中，将一维向量V中下标为h_j(D)的数值赋值为1，得到新的一维向量V′。

优选地，于步骤S6中，数据项频数F(D)具体计算方法如下：

其中，是存储在第l行第h_l(D)列(1<l<k)的客户端数据D的数据项频数，为利用草图统计的客户端数据D的所有数据项频数，n为采样客户端数据的数据量。

优选地，于步骤S9中，如果是高频数据，则先执行步骤S2，并且跳过步骤S3，执行步骤S4和步骤S5；如果不是高频数据，则按照步骤S2至步骤S5执行。

优选地，于步骤S10中，如果为高频数据，则其频数F_high为轻量级频数预测模型g的预测结果g(D)；如果为低频数据，则其频数F_low计算方法如下：

其中，θ为高频数据的占比率，m为草图的长度，n′为剩余未被采样客户端的数据量，是存储在第l行第h_l(D)列(1<l<k)的客户端数据D的数据项频数，利用草图统计的客户端数据D的所有数据项频数。

本发明提供的基于本地差分隐私的大数据频数估计方法，其具备以下有益效果：

1、实现数据频数估计任务中的需求并满足用户的隐私保护需求：本发明先对用户的原始数据进行一维转换，再利用基于本地化差分隐私的随机响应机制扰动用户数据，使得服务器和攻击者无法判断出数据的具体来源。

2、提升数据频数估计准确率：与以往的数据频数估计方法相比，利用设计的轻量级频数预测模型区分高频数据和低频数据，避免草图中高频数据低频数据哈希冲突造成的巨大误差，提升数据频数的估计精度。

附图说明

图1为本发明实施例基于本地差分隐私的大数据频数估计方法流程图；

图2为本发明具体实施例的应用图。

具体实施方式

下面结合实施示例对本发明的具体实施方式作进一步详细描述，以下实施示例仅用于说明本发明,但不限制本发明的范围。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴。

实施例1

图1为本发明实施例基于本地差分隐私的大数据频数估计方法的流程图。

本发明实施例提供的基于本地差分隐私的大数据频数估计方法，其包括如下步骤：

一，服务器对所有客户端进行等概率采样，并且发送哈希函数集合和草图长度的取值；

二，客户端首先对初始数据进行转换，并根据哈希结果替换对应的数据坐标；

三，客户端利用ε-本地化差分隐私的随机响应机制对上一步数据的每个坐标进行替换，得到最新数据；

四，客户端发送最新数据，服务器根据采样的最新数据集合训练频数预测模型发送给剩余所有客户端；

五，剩余所有客户端根据频数预测模型判断持有数据是否为高频数据；

六，若是高频数据，以{-1}^m的方式进行编码并利用ε-本地化差分隐私随机响应机制扰动；若不是高频数据，先对初始数据进行转换，再根据哈希结果对数据坐标进行替换，最后利用ε-本地化差分隐私随机响应机制扰动；

七，客户端发送经过扰动后的最新数据；

八，输出数据项频数的统计结果。

实施例2

本发明实施例在实施例1的基础上，具体利用基于本地化差分隐私的随机响应机制完成数据频数估计，请参阅图2。在调查网页搜索记录流行词语的场景下，及时分析用户的偏好和取向，譬如流媒体偏好、消费偏好等，对其进行估计并更新个性化推荐和服务，可有效保留并提升核心用户的占比，其具体实现过程，包括如下步骤：

1.网页平台设定客户端采样率r，并以等概率对所有使用网页的客户端的数据进行抽样。同时，对所有客户端发送包含k个哈希函数的哈希集合Set_h和草图长度m的数值。

2.被抽样的客户端先将其数据D先转换为一维向量V，具体为输入客户端数据D,将客户端数据转换为由-1填充的数据{-1}^m。

3.客户端等概率的从哈希函数集合Set_h选择一个哈希函数h_j，并且计算出h_j(D)的值，令v[h_j(D)]＝1,得到新的一维向量V′。

4.客户端根据差分隐私算法中的隐私预算ε，利用随机响应机制对新的一维向量V′进行转换使其满足ε-本地化差分隐私。即客户端以概率保留V′中的每个坐标值，以概率/>扰动V′中的每个坐标值，即将坐标为1的值扰动成-1，将坐标为-1的值扰动成1,并得到最终的一维向量S。

5.客户端将哈希函数索引j与最终的一维向量S发送至服务器。

6.服务器收集采用后的客户端的数据，构建k×m的草图，并将客户端的数据按照哈希函数索引j存储在对应的位置，最后对被采样的客户端的数据的数据项频数F进行估计。

7.服务器根据估计的数据项频数，利用Random Forest Regressor模型对数据项频数进行学习，得到轻量级频数预测模型g。

8.服务器设定高频数据的占比率θ，并根据占比率θ计算出此时区分高频数据和低频数据的阈值P,最后将该阈值和轻量级频数预测模型g发送给剩余未被采样的客户端。

9.客户端根据接收到的轻量级频数预测模型g区分自身数据是否为高频数据。如果是高频数据，则根据第2条执行，并且跳过第3条，执行第4条和第5条；如果不是高频数据，则按照第2条至第5条执行。

10.服务器将剩余未被采样的客户端的数据存储在草图中，并且对剩余未被采样客户端的数据项频数进行估计。

11.用户或者第三方使用者提供需要查询的数据，服务器根据是否为高频数据返回结果。如果为高频数据，则其频数F_high为轻量级频数预测模型g的预测结果g(D)；如果为低频数据，则用草图计算其频数F_low(D)。

本发明上述实施例提供的基于本地差分隐私的大数据频数估计方法，在保证用户隐私的前提下，具备快速响应和高精度估计结果的优点，可以克服上述背景技术中提出哈希冲突在频数估计对精度的影响的缺陷，解决了背景技术中提出的数据隐私泄露问题给企业与用户带来的损失等问题。

以上仅为本发明的具体实施例，并不以此限定本发明的保护范围；在不违反本发明构思的基础上所作的任何替换与改进，均属本发明的保护范围。

Claims

1.一种基于本地差分隐私的大数据频数估计方法，包括如下步骤：

步骤S1，服务器设定客户端的采样率r，并以等概率对所有客户端的数据进行采样；

步骤S2，被采样的客户端将其数据D先转换为一维向量V；

步骤S7，服务器根据计算好的数据项频数F，利用Random Forest Regressor模型对数据项频数F进行学习，得到轻量级频数预测模型g；

步骤S8，服务器设定高频数据的占比率θ，并根据占比率θ计算出此时区分高频数据和低频数据的阈值P,最后将该阈值P和轻量级频数预测模型g发送给剩余未被采样的客户端；

步骤S10，服务器将剩余未被采样的客户端的数据存储在草图中，并且估计剩余未被采样的客户端的数据项频数；

其中，于步骤S1中，服务器对所有客户端发送包含k个哈希函数的哈希集合Set_h和草图长度m的数值；于步骤S2中，输入客户端数据D,将客户端数据D转换为由-1填充的数据{-1}^m；于步骤S3中，客户端计算出h_j(D)的值，令V[h_j(D)]＝1,其中，将一维向量V中下标为h_j(D)的数值赋值为1，得到新的一维向量V′；于步骤S4中，客户端以概率保留V′中的每个坐标值，以概率/>扰动V′中的每个坐标值,即将坐标为1的值扰动成-1，将坐标为-1的值扰动成1,并得到最终的一维向量S；于步骤S6中，数据项频数F(D)具体计算方法如下：

其中，是存储在第l行第h_l(D)列(1<l<k)的客户端数据D的数据项频数，为利用草图统计的客户端数据D的所有数据项频数，n为采样客户端数据的数据量；于步骤S9中，如果是高频数据，则先执行步骤S2，并且跳过步骤S3，执行步骤S4和步骤S5；如果不是高频数据，则按照步骤S2至步骤S5执行；于步骤S10中，如果为高频数据，则其频数F_high为轻量级频数预测模型g的预测结果g(D)；如果为低频数据，则其频数F_low计算方法：

其中，θ为高频数据的占比率，m为草图的长度，n′为剩余未被采样客户端的数据量。