CN115455483B - 一种基于本地差分隐私的大数据频数估计方法 - Google Patents
一种基于本地差分隐私的大数据频数估计方法 Download PDFInfo
- Publication number
- CN115455483B CN115455483B CN202211156864.3A CN202211156864A CN115455483B CN 115455483 B CN115455483 B CN 115455483B CN 202211156864 A CN202211156864 A CN 202211156864A CN 115455483 B CN115455483 B CN 115455483B
- Authority
- CN
- China
- Prior art keywords
- data
- frequency
- client
- sampled
- dimensional vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000004044 response Effects 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003090 exacerbative effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据分析技术领域,公开了一种基于本地差分隐私的大数据频数估计方法,包括如下步骤:服务器对所有客户端进行等概率采样,并发送哈希函数集合和草图长度的取值;客户端对初始数据进行转换,并根据哈希结果替换对应数据坐标;客户端利用本地差分隐私随机响应机制扰动上一步数据,得到最新数据;客户端发送最新数据,服务器根据采样的最新数据集合训练频数预测模型并发送给剩余所有客户端;剩余所有客户端根据预测模型判断持有数据是否为高频数据;若是高频数据,以{‑1}m的方式进行编码;若不是高频数据,先对初始数据进行转换,再根据哈希结果替换对应数据坐标,最后利用本地差分隐私随机响应机制扰动所有数据。
Description
技术领域
本发明涉及数据分析领域的频数估计方法和隐私保护技术领域,具体涉及一种基于本地差分隐私的大数据频数估计方法。
背景技术
随着科技的发展,各式各样的平台、网站和软件参与到人类的生活,因此产生了海量的数据。服务商收集和利用这些数据进行分析和预测,为人类的旅游出行、医疗保健、个性化服务等提供便利。然而,如果在提供便利的同时不对数据采取任何隐私保护技术,就会导致数据隐私泄露,从而给企业和用户带来不可估计的伤害。一方面是给企业的经济和声誉造成损失,不仅降低用户对平台的信任程度,而且使得企业市值受损;另一方面则是侵害用户的各项权益和隐私,包括身份信息、位置信息等。
差分隐私被广泛用于大数据分析任务中以保护用户的隐私同时实现统计分析。基于本地差分的Rappor算法将随机响应机制与布隆过滤器,利用永久随机响应的数值替代用户的初始数据,并计算瞬时随机响应来扰动永久随机响应从而估计用户频数。然而,这种方法使用二次扰动完成用户隐私保护的同时,也加剧了服务商的数据解码过程。通过哈希函数对用户数据进行一维编码,再将扰动后的数据存储到草图中进行频率估计。不同的是,HCMS算法在得到一维编码数据后,使用Hadamard变化矩阵发送用户数据,从而减小用户和服务商的通信代价,但是这种办法没有考虑到草图中的哈希冲突会降低数据频数的估计精度。
发明内容
针对背景技术中提出的数据隐私泄露问题给企业与用户带来的损失的不足,本发明提供一种基于本地差分隐私的大数据频数估计方法,在保证用户隐私的前提下,具备快速响应和高精度估计结果的优点,以克服上述背景技术中提出哈希冲突在频数估计对精度的影响的缺陷。
本发明提供如下技术方案:
一种基于本地差分隐私的大数据频数估计方法,其包括如下步骤:
步骤S1,服务器设定客户端的采样率r,并以等概率对所有客户端的数据进行抽样;
步骤S2,被抽样的客户端将其数据D先转换为一维向量V;
步骤S3,客户端等概率地从哈希函数集合Seth选择一个哈希函数hj,并根据哈希结果替换对应的数据坐标得到新的一维向量V′;
步骤S4,客户端根据差分隐私算法中的隐私预算ε,利用随机响应机制对新的一维向量V′进行转换使其满足ε-本地化差分隐私;
步骤S5,客户端将哈希函数索引j与最终的一维向量S发送至服务器;
步骤S6,服务器收集被采样的客户端的数据,构建k×m的草图,并将采样的客户端的数据按照哈希函数索引j存储在对应的位置,最后计算被采样客户端的数据项频数F;
步骤S7,服务器根据估计好的数据项频数,利用Random Forest Regressor模型对数据项频数进行学习,得到轻量级频数预测模型g;
步骤S8,服务器设定高频数据的占比率θ,并根据占比率θ计算出此时区分高频数据和低频数据的阈值P,最后将该阈值和轻量级频数预测模型g发送给剩余未被采样的客户端;
步骤S9,客户端根据接收到的轻量级频数预测模型g区分自身数据是否为高频数据;
步骤S10,服务器将剩余未被采样的客户端的数据存储在草图中,并且估计剩余未被采样的客户端的数据项频数。
优选地,于步骤S1中,服务器对所有客户端发送包含k个哈希函数的哈希集合Seth和草图长度m的数值。
优选地,于步骤S2中,输入客户端数据D,将客户端数据D转换为由-1填充的数据{-1}m。
优选地,于步骤S3中,客户端计算出hj(D)的值,令v[hj(D)]=1,其中,将一维向量V中下标为hj(D)的数值赋值为1,得到新的一维向量V′。
优选地,于步骤S6中,数据项频数F(D)具体计算方法如下:
其中,是存储在第l行第hl(D)列(1<l<k)的客户端数据D的数据项频数,为利用草图统计的客户端数据D的所有数据项频数,n为采样客户端数据的数据量。
优选地,于步骤S9中,如果是高频数据,则先执行步骤S2,并且跳过步骤S3,执行步骤S4和步骤S5;如果不是高频数据,则按照步骤S2至步骤S5执行。
优选地,于步骤S10中,如果为高频数据,则其频数Fhigh为轻量级频数预测模型g的预测结果g(D);如果为低频数据,则其频数Flow计算方法如下:
其中,θ为高频数据的占比率,m为草图的长度,n′为剩余未被采样客户端的数据量,是存储在第l行第hl(D)列(1<l<k)的客户端数据D的数据项频数,利用草图统计的客户端数据D的所有数据项频数。
本发明提供的基于本地差分隐私的大数据频数估计方法,其具备以下有益效果:
1、实现数据频数估计任务中的需求并满足用户的隐私保护需求:本发明先对用户的原始数据进行一维转换,再利用基于本地化差分隐私的随机响应机制扰动用户数据,使得服务器和攻击者无法判断出数据的具体来源。
2、提升数据频数估计准确率:与以往的数据频数估计方法相比,利用设计的轻量级频数预测模型区分高频数据和低频数据,避免草图中高频数据低频数据哈希冲突造成的巨大误差,提升数据频数的估计精度。
附图说明
图1为本发明实施例基于本地差分隐私的大数据频数估计方法流程图;
图2为本发明具体实施例的应用图。
具体实施方式
下面结合实施示例对本发明的具体实施方式作进一步详细描述,以下实施示例仅用于说明本发明,但不限制本发明的范围。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴。
实施例1
图1为本发明实施例基于本地差分隐私的大数据频数估计方法的流程图。
本发明实施例提供的基于本地差分隐私的大数据频数估计方法,其包括如下步骤:
一,服务器对所有客户端进行等概率采样,并且发送哈希函数集合和草图长度的取值;
二,客户端首先对初始数据进行转换,并根据哈希结果替换对应的数据坐标;
三,客户端利用ε-本地化差分隐私的随机响应机制对上一步数据的每个坐标进行替换,得到最新数据;
四,客户端发送最新数据,服务器根据采样的最新数据集合训练频数预测模型发送给剩余所有客户端;
五,剩余所有客户端根据频数预测模型判断持有数据是否为高频数据;
六,若是高频数据,以{-1}m的方式进行编码并利用ε-本地化差分隐私随机响应机制扰动;若不是高频数据,先对初始数据进行转换,再根据哈希结果对数据坐标进行替换,最后利用ε-本地化差分隐私随机响应机制扰动;
七,客户端发送经过扰动后的最新数据;
八,输出数据项频数的统计结果。
实施例2
本发明实施例在实施例1的基础上,具体利用基于本地化差分隐私的随机响应机制完成数据频数估计,请参阅图2。在调查网页搜索记录流行词语的场景下,及时分析用户的偏好和取向,譬如流媒体偏好、消费偏好等,对其进行估计并更新个性化推荐和服务,可有效保留并提升核心用户的占比,其具体实现过程,包括如下步骤:
1.网页平台设定客户端采样率r,并以等概率对所有使用网页的客户端的数据进行抽样。同时,对所有客户端发送包含k个哈希函数的哈希集合Seth和草图长度m的数值。
2.被抽样的客户端先将其数据D先转换为一维向量V,具体为输入客户端数据D,将客户端数据转换为由-1填充的数据{-1}m。
3.客户端等概率的从哈希函数集合Seth选择一个哈希函数hj,并且计算出hj(D)的值,令v[hj(D)]=1,得到新的一维向量V′。
4.客户端根据差分隐私算法中的隐私预算ε,利用随机响应机制对新的一维向量V′进行转换使其满足ε-本地化差分隐私。即客户端以概率 保留V′中的每个坐标值,以概率/>扰动V′中的每个坐标值,即将坐标为1的值扰动成-1,将坐标为-1的值扰动成1,并得到最终的一维向量S。
5.客户端将哈希函数索引j与最终的一维向量S发送至服务器。
6.服务器收集采用后的客户端的数据,构建k×m的草图,并将客户端的数据按照哈希函数索引j存储在对应的位置,最后对被采样的客户端的数据的数据项频数F进行估计。
7.服务器根据估计的数据项频数,利用Random Forest Regressor模型对数据项频数进行学习,得到轻量级频数预测模型g。
8.服务器设定高频数据的占比率θ,并根据占比率θ计算出此时区分高频数据和低频数据的阈值P,最后将该阈值和轻量级频数预测模型g发送给剩余未被采样的客户端。
9.客户端根据接收到的轻量级频数预测模型g区分自身数据是否为高频数据。如果是高频数据,则根据第2条执行,并且跳过第3条,执行第4条和第5条;如果不是高频数据,则按照第2条至第5条执行。
10.服务器将剩余未被采样的客户端的数据存储在草图中,并且对剩余未被采样客户端的数据项频数进行估计。
11.用户或者第三方使用者提供需要查询的数据,服务器根据是否为高频数据返回结果。如果为高频数据,则其频数Fhigh为轻量级频数预测模型g的预测结果g(D);如果为低频数据,则用草图计算其频数Flow(D)。
本发明上述实施例提供的基于本地差分隐私的大数据频数估计方法,在保证用户隐私的前提下,具备快速响应和高精度估计结果的优点,可以克服上述背景技术中提出哈希冲突在频数估计对精度的影响的缺陷,解决了背景技术中提出的数据隐私泄露问题给企业与用户带来的损失等问题。
以上仅为本发明的具体实施例,并不以此限定本发明的保护范围;在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。
Claims (1)
1.一种基于本地差分隐私的大数据频数估计方法,包括如下步骤:
步骤S1,服务器设定客户端的采样率r,并以等概率对所有客户端的数据进行采样;
步骤S2,被采样的客户端将其数据D先转换为一维向量V;
步骤S3,客户端等概率地从哈希函数集合Seth选择一个哈希函数hj,并根据哈希结果替换对应的数据坐标得到新的一维向量V′;
步骤S4,客户端根据差分隐私算法中的隐私预算ε,利用随机响应机制对新的一维向量V′进行转换使其满足ε-本地化差分隐私;
步骤S5,客户端将哈希函数索引j与最终的一维向量S发送至服务器;
步骤S6,服务器收集被采样的客户端的数据,构建k×m的草图,并将采样的客户端的数据按照哈希函数索引j存储在对应的位置,最后计算被采样客户端的数据项频数F;
步骤S7,服务器根据计算好的数据项频数F,利用Random Forest Regressor模型对数据项频数F进行学习,得到轻量级频数预测模型g;
步骤S8,服务器设定高频数据的占比率θ,并根据占比率θ计算出此时区分高频数据和低频数据的阈值P,最后将该阈值P和轻量级频数预测模型g发送给剩余未被采样的客户端;
步骤S9,客户端根据接收到的轻量级频数预测模型g区分自身数据是否为高频数据;
步骤S10,服务器将剩余未被采样的客户端的数据存储在草图中,并且估计剩余未被采样的客户端的数据项频数;
其中,于步骤S1中,服务器对所有客户端发送包含k个哈希函数的哈希集合Seth和草图长度m的数值;于步骤S2中,输入客户端数据D,将客户端数据D转换为由-1填充的数据{-1}m;于步骤S3中,客户端计算出hj(D)的值,令V[hj(D)]=1,其中,将一维向量V中下标为hj(D)的数值赋值为1,得到新的一维向量V′;于步骤S4中,客户端以概率保留V′中的每个坐标值,以概率/>扰动V′中的每个坐标值,即将坐标为1的值扰动成-1,将坐标为-1的值扰动成1,并得到最终的一维向量S;于步骤S6中,数据项频数F(D)具体计算方法如下:
其中,是存储在第l行第hl(D)列(1<l<k)的客户端数据D的数据项频数,为利用草图统计的客户端数据D的所有数据项频数,n为采样客户端数据的数据量;于步骤S9中,如果是高频数据,则先执行步骤S2,并且跳过步骤S3,执行步骤S4和步骤S5;如果不是高频数据,则按照步骤S2至步骤S5执行;于步骤S10中,如果为高频数据,则其频数Fhigh为轻量级频数预测模型g的预测结果g(D);如果为低频数据,则其频数Flow计算方法:
其中,θ为高频数据的占比率,m为草图的长度,n′为剩余未被采样客户端的数据量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211156864.3A CN115455483B (zh) | 2022-09-21 | 2022-09-21 | 一种基于本地差分隐私的大数据频数估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211156864.3A CN115455483B (zh) | 2022-09-21 | 2022-09-21 | 一种基于本地差分隐私的大数据频数估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115455483A CN115455483A (zh) | 2022-12-09 |
CN115455483B true CN115455483B (zh) | 2023-12-26 |
Family
ID=84307045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211156864.3A Active CN115455483B (zh) | 2022-09-21 | 2022-09-21 | 一种基于本地差分隐私的大数据频数估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455483B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019056573A1 (zh) * | 2017-09-25 | 2019-03-28 | 深圳大学 | 隐私保护协同Web服务质量的差分隐私预测系统及方法 |
CN110874488A (zh) * | 2019-11-15 | 2020-03-10 | 哈尔滨工业大学(深圳) | 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质 |
CN112084493A (zh) * | 2020-09-18 | 2020-12-15 | 支付宝(杭州)信息技术有限公司 | 基于差分隐私保护的内容风险小程序识别方法及装置 |
CN112329056A (zh) * | 2020-11-03 | 2021-02-05 | 石家庄铁道大学 | 一种面向政务数据共享的本地化差分隐私方法 |
CN113297621A (zh) * | 2021-06-10 | 2021-08-24 | 南京航空航天大学 | 一种基于个性化本地差分隐私的数据收集方法 |
CN114175568A (zh) * | 2020-02-14 | 2022-03-11 | 谷歌有限责任公司 | 安全的多方到达率和频率估算 |
CN114884682A (zh) * | 2022-07-07 | 2022-08-09 | 湖南工商大学 | 基于自适应本地差分隐私的群智感知数据流隐私保护方法 |
-
2022
- 2022-09-21 CN CN202211156864.3A patent/CN115455483B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019056573A1 (zh) * | 2017-09-25 | 2019-03-28 | 深圳大学 | 隐私保护协同Web服务质量的差分隐私预测系统及方法 |
CN110874488A (zh) * | 2019-11-15 | 2020-03-10 | 哈尔滨工业大学(深圳) | 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质 |
CN114175568A (zh) * | 2020-02-14 | 2022-03-11 | 谷歌有限责任公司 | 安全的多方到达率和频率估算 |
CN112084493A (zh) * | 2020-09-18 | 2020-12-15 | 支付宝(杭州)信息技术有限公司 | 基于差分隐私保护的内容风险小程序识别方法及装置 |
CN112329056A (zh) * | 2020-11-03 | 2021-02-05 | 石家庄铁道大学 | 一种面向政务数据共享的本地化差分隐私方法 |
CN113297621A (zh) * | 2021-06-10 | 2021-08-24 | 南京航空航天大学 | 一种基于个性化本地差分隐私的数据收集方法 |
CN114884682A (zh) * | 2022-07-07 | 2022-08-09 | 湖南工商大学 | 基于自适应本地差分隐私的群智感知数据流隐私保护方法 |
Non-Patent Citations (1)
Title |
---|
Local Differentially Private Frequency Estimation based on Learned Sketches;Meifan Zhang等;《information science》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115455483A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151206B2 (en) | Method and apparatus for pushing information | |
CN110309275B (zh) | 一种对话生成的方法和装置 | |
CN110782286B (zh) | 广告推送方法、装置、服务器及计算机可读存储介质 | |
CN106407381B (zh) | 一种基于人工智能的推送信息的方法和装置 | |
CN109446171B (zh) | 一种数据处理方法和装置 | |
CN113436620A (zh) | 模型的训练方法、语音识别方法、装置、介质及设备 | |
CN116506073A (zh) | 一种工业计算机平台数据快速传输方法及系统 | |
CN108632630B (zh) | 一种结合位运算和概率预测的二值图像编码方法 | |
CN112507245A (zh) | 基于图神经网络的社交网络好友推荐方法 | |
CN105404943A (zh) | 一种面向移动社交环境的用户行为预测方法 | |
CN116303558A (zh) | 查询语句生成方法、数据查询方法及生成模型训练方法 | |
CN115455483B (zh) | 一种基于本地差分隐私的大数据频数估计方法 | |
CN117751368A (zh) | 隐私敏感神经网络训练 | |
Sacaleanu et al. | Compression scheme for increasing the lifetime of wireless intelligent sensor networks | |
CN116629362A (zh) | 一种基于路径搜索的可解释时间图推理方法 | |
CN115114360A (zh) | 数据对比方法、装置、计算机设备、存储介质 | |
CN108304513A (zh) | 增加生成式对话模型结果多样性的方法及设备 | |
CN114547276A (zh) | 基于三通道图神经网络的会话推荐方法 | |
CN111784377B (zh) | 用于生成信息的方法和装置 | |
AU2017100337A4 (en) | Methods and Apparatus for Image Construction | |
CN116468071B (zh) | 模型训练方法、装置、设备及存储介质 | |
CN107203578B (zh) | 建立用户标识的关联的方法和装置 | |
CN111526054B (zh) | 用于获取网络的方法及装置 | |
CN115391642B (zh) | 一种基于秘密共享的隐私查询方法及系统 | |
CN110149810A (zh) | 限制在网络环境中操纵内容的传输 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |