CN115455483A - 一种基于本地差分隐私的大数据频数估计方法 - Google Patents

一种基于本地差分隐私的大数据频数估计方法 Download PDF

Info

Publication number
CN115455483A
CN115455483A CN202211156864.3A CN202211156864A CN115455483A CN 115455483 A CN115455483 A CN 115455483A CN 202211156864 A CN202211156864 A CN 202211156864A CN 115455483 A CN115455483 A CN 115455483A
Authority
CN
China
Prior art keywords
data
frequency
client
differential privacy
sampled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211156864.3A
Other languages
English (en)
Other versions
CN115455483B (zh
Inventor
林思昕
张美范
殷丽华
方滨兴
孙哲
李丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202211156864.3A priority Critical patent/CN115455483B/zh
Publication of CN115455483A publication Critical patent/CN115455483A/zh
Application granted granted Critical
Publication of CN115455483B publication Critical patent/CN115455483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据分析技术领域,公开了一种基于本地差分隐私的大数据频数估计方法,包括如下步骤:服务器对所有客户端进行等概率采样,并发送哈希函数集合和草图长度的取值;客户端对初始数据进行转换,并根据哈希结果替换对应数据坐标;客户端利用本地差分隐私随机响应机制扰动上一步数据,得到最新数据;客户端发送最新数据,服务器根据采样的最新数据集合训练频数预测模型并发送给剩余所有客户端;剩余所有客户端根据预测模型判断持有数据是否为高频数据;若是高频数据,以{‑1}m的方式进行编码;若不是高频数据,先对初始数据进行转换,再根据哈希结果替换对应数据坐标,最后利用本地差分隐私随机响应机制扰动所有数据。

Description

一种基于本地差分隐私的大数据频数估计方法
技术领域
本发明涉及数据分析领域的频数估计方法和隐私保护技术领域,具体涉及一种基于本地差分隐私的大数据频数估计方法。
背景技术
随着科技的发展,各式各样的平台、网站和软件参与到人类的生活,因此产生了海量的数据。服务商收集和利用这些数据进行分析和预测,为人类的旅游出行、医疗保健、个性化服务等提供便利。然而,如果在提供便利的同时不对数据采取任何隐私保护技术,就会导致数据隐私泄露,从而给企业和用户带来不可估计的伤害。一方面是给企业的经济和声誉造成损失,不仅降低用户对平台的信任程度,而且使得企业市值受损;另一方面则是侵害用户的各项权益和隐私,包括身份信息、位置信息等。
差分隐私被广泛用于大数据分析任务中以保护用户的隐私同时实现统计分析。基于本地差分的Rappor算法将随机响应机制与布隆过滤器,利用永久随机响应的数值替代用户的初始数据,并计算瞬时随机响应来扰动永久随机响应从而估计用户频数。然而,这种方法使用二次扰动完成用户隐私保护的同时,也加剧了服务商的数据解码过程。通过哈希函数对用户数据进行一维编码,再将扰动后的数据存储到草图中进行频率估计。不同的是,HCMS算法在得到一维编码数据后,使用Hadamard变化矩阵发送用户数据,从而减小用户和服务商的通信代价,但是这种办法没有考虑到草图中的哈希冲突会降低数据频数的估计精度。
发明内容
针对背景技术中提出的数据隐私泄露问题给企业与用户带来的损失的不足,本发明提供一种基于本地差分隐私的大数据频数估计方法,在保证用户隐私的前提下,具备快速响应和高精度估计结果的优点,以克服上述背景技术中提出哈希冲突在频数估计对精度的影响的缺陷。
本发明提供如下技术方案:
一种基于本地差分隐私的大数据频数估计方法,其包括如下步骤:
步骤S1,服务器设定客户端的采样率r,并以等概率对所有客户端的数据进行抽样;
步骤S2,被抽样的客户端将其数据D先转换为一维向量V;
步骤S3,客户端等概率地从哈希函数集合Seth选择一个哈希函数hj,并根据哈希结果替换对应的数据坐标得到新的一维向量V′;
步骤S4,客户端根据差分隐私算法中的隐私预算ε,利用随机响应机制对新的一维向量V′进行转换使其满足ε-本地化差分隐私;
步骤S5,客户端将哈希函数索引j与最终的一维向量S发送至服务器;
步骤S6,服务器收集被采样的客户端的数据,构建k×m的草图,并将采样的客户端的数据按照哈希函数索引j存储在对应的位置,最后计算被采样客户端的数据项频数F;
步骤S7,服务器根据估计好的数据项频数,利用Random Forest Regressor模型对数据项频数进行学习,得到轻量级频数预测模型g;
步骤S8,服务器设定高频数据的占比率θ,并根据占比率θ计算出此时区分高频数据和低频数据的阈值P,最后将该阈值和轻量级频数预测模型g发送给剩余未被采样的客户端;
步骤S9,客户端根据接收到的轻量级频数预测模型g区分自身数据是否为高频数据;
步骤S10,服务器将剩余未被采样的客户端的数据存储在草图中,并且估计剩余未被采样的客户端的数据项频数。
优选地,于步骤S1中,服务器对所有客户端发送包含k个哈希函数的哈希集合Seth和草图长度m的数值。
优选地,于步骤S2中,输入客户端数据D,将客户端数据D转换为由-1填充的数据{-1}m
优选地,于步骤S3中,客户端计算出hj(D)的值,令v[hj(D)]=1,其中,将一维向量V中下标为hj(D)的数值赋值为1,得到新的一维向量V′。
优选地,于步骤S6中,数据项频数F(D)具体计算方法如下:
Figure BDA0003856822020000031
其中,
Figure BDA0003856822020000032
是存储在第l行第hl(D)列(1<l<k)的客户端数据D的数据项频数,
Figure BDA0003856822020000033
为利用草图统计的客户端数据D的所有数据项频数,n为采样客户端数据的数据量。
优选地,于步骤S9中,如果是高频数据,则先执行步骤S2,并且跳过步骤S3,执行步骤S4和步骤S5;如果不是高频数据,则按照步骤S2至步骤S5执行。
优选地,于步骤S10中,如果为高频数据,则其频数Fhigh为轻量级频数预测模型g的预测结果g(D);如果为低频数据,则其频数Flow计算方法如下:
Figure BDA0003856822020000034
其中,θ为高频数据的占比率,m为草图的长度,n′为剩余未被采样客户端的数据量,
Figure BDA0003856822020000035
是存储在第l行第hl(D)列(1<l<k)的客户端数据D的数据项频数,
Figure BDA0003856822020000036
利用草图统计的客户端数据D的所有数据项频数。
本发明提供的基于本地差分隐私的大数据频数估计方法,其具备以下有益效果:
1、实现数据频数估计任务中的需求并满足用户的隐私保护需求:本发明先对用户的原始数据进行一维转换,再利用基于本地化差分隐私的随机响应机制扰动用户数据,使得服务器和攻击者无法判断出数据的具体来源。
2、提升数据频数估计准确率:与以往的数据频数估计方法相比,利用设计的轻量级频数预测模型区分高频数据和低频数据,避免草图中高频数据低频数据哈希冲突造成的巨大误差,提升数据频数的估计精度。
附图说明
图1为本发明实施例基于本地差分隐私的大数据频数估计方法流程图;
图2为本发明具体实施例的应用图。
具体实施方式
下面结合实施示例对本发明的具体实施方式作进一步详细描述,以下实施示例仅用于说明本发明,但不限制本发明的范围。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴。
实施例1
图1为本发明实施例基于本地差分隐私的大数据频数估计方法的流程图。
本发明实施例提供的基于本地差分隐私的大数据频数估计方法,其包括如下步骤:
一,服务器对所有客户端进行等概率采样,并且发送哈希函数集合和草图长度的取值;
二,客户端首先对初始数据进行转换,并根据哈希结果替换对应的数据坐标;
三,客户端利用ε-本地化差分隐私的随机响应机制对上一步数据的每个坐标进行替换,得到最新数据;
四,客户端发送最新数据,服务器根据采样的最新数据集合训练频数预测模型发送给剩余所有客户端;
五,剩余所有客户端根据频数预测模型判断持有数据是否为高频数据;
六,若是高频数据,以{-1}m的方式进行编码并利用ε-本地化差分隐私随机响应机制扰动;若不是高频数据,先对初始数据进行转换,再根据哈希结果对数据坐标进行替换,最后利用ε-本地化差分隐私随机响应机制扰动;
七,客户端发送经过扰动后的最新数据;
八,输出数据项频数的统计结果。
实施例2
本发明实施例在实施例1的基础上,具体利用基于本地化差分隐私的随机响应机制完成数据频数估计,请参阅图2。在调查网页搜索记录流行词语的场景下,及时分析用户的偏好和取向,譬如流媒体偏好、消费偏好等,对其进行估计并更新个性化推荐和服务,可有效保留并提升核心用户的占比,其具体实现过程,包括如下步骤:
1.网页平台设定客户端采样率r,并以等概率对所有使用网页的客户端的数据进行抽样。同时,对所有客户端发送包含k个哈希函数的哈希集合Seth和草图长度m的数值。
2.被抽样的客户端先将其数据D先转换为一维向量V,具体为输入客户端数据D,将客户端数据转换为由-1填充的数据{-1}m
3.客户端等概率的从哈希函数集合Seth选择一个哈希函数hj,并且计算出hj(D)的值,令v[hj(D)]=1,得到新的一维向量V′。
4.客户端根据差分隐私算法中的隐私预算ε,利用随机响应机制对新的一维向量V′进行转换使其满足ε-本地化差分隐私。即客户端以概率
Figure BDA0003856822020000051
Figure BDA0003856822020000052
保留V′中的每个坐标值,以概率
Figure BDA0003856822020000053
扰动V′中的每个坐标值,即将坐标为1的值扰动成-1,将坐标为-1的值扰动成1,并得到最终的一维向量S。
5.客户端将哈希函数索引j与最终的一维向量S发送至服务器。
6.服务器收集采用后的客户端的数据,构建k×m的草图,并将客户端的数据按照哈希函数索引j存储在对应的位置,最后对被采样的客户端的数据的数据项频数F进行估计。
7.服务器根据估计的数据项频数,利用Random Forest Regressor模型对数据项频数进行学习,得到轻量级频数预测模型g。
8.服务器设定高频数据的占比率θ,并根据占比率θ计算出此时区分高频数据和低频数据的阈值P,最后将该阈值和轻量级频数预测模型g发送给剩余未被采样的客户端。
9.客户端根据接收到的轻量级频数预测模型g区分自身数据是否为高频数据。如果是高频数据,则根据第2条执行,并且跳过第3条,执行第4条和第5条;如果不是高频数据,则按照第2条至第5条执行。
10.服务器将剩余未被采样的客户端的数据存储在草图中,并且对剩余未被采样客户端的数据项频数进行估计。
11.用户或者第三方使用者提供需要查询的数据,服务器根据是否为高频数据返回结果。如果为高频数据,则其频数Fhigh为轻量级频数预测模型g的预测结果g(D);如果为低频数据,则用草图计算其频数FlOw(D)。
本发明上述实施例提供的基于本地差分隐私的大数据频数估计方法,在保证用户隐私的前提下,具备快速响应和高精度估计结果的优点,可以克服上述背景技术中提出哈希冲突在频数估计对精度的影响的缺陷,解决了背景技术中提出的数据隐私泄露问题给企业与用户带来的损失等问题。
以上仅为本发明的具体实施例,并不以此限定本发明的保护范围;在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。

Claims (8)

1.一种基于本地差分隐私的大数据频数估计方法,其特征在于,包括如下步骤:
步骤S1,服务器设定客户端的采样率r,并以等概率对所有客户端的数据进行抽样;
步骤S2,被抽样的客户端将其数据D先转换为一维向量V;
步骤S3,客户端等概率地从哈希函数集合Seth选择一个哈希函数hj,并根据哈希结果替换对应的数据坐标得到新的一维向量V′;
步骤S4,客户端根据差分隐私算法中的隐私预算ε,利用随机响应机制对新的一维向量V′进行转换使其满足ε-本地化差分隐私;
步骤S5,客户端将哈希函数索引j与最终的一维向量S发送至服务器;
步骤S6,服务器收集被采样的客户端的数据,构建k×m的草图,并将采样的客户端的数据按照哈希函数索引j存储在对应的位置,最后计算被采样客户端的数据项频数F;
步骤S7,服务器根据估计好的数据项频数,利用Random Forest Regressor模型对数据项频数进行学习,得到轻量级频数预测模型g;
步骤S8,服务器设定高频数据的占比率θ,并根据占比率θ计算出此时区分高频数据和低频数据的阈值P,最后将该阈值和轻量级频数预测模型g发送给剩余未被采样的客户端;
步骤S9,客户端根据接收到的轻量级频数预测模型g区分自身数据是否为高频数据;
步骤S10,服务器将剩余未被采样的客户端的数据存储在草图中,并且估计剩余未被采样的客户端的数据项频数。
2.根据权利要求1所述的基于本地差分隐私的大数据频数估计方法,其特征在于,于步骤S1中,服务器对所有客户端发送包含k个哈希函数的哈希集合Seth和草图长度m的数值。
3.根据权利要求1所述的基于本地差分隐私的大数据频数估计方法,其特征在于,于步骤S2中,输入客户端数据D,将客户端数据D转换为由-1填充的数据{-1}m
4.根据权利要求3所述的基于本地差分隐私的大数据频数估计方法,其特征在于,于步骤S3中,客户端计算出hj(D)的值,令v[hj(D)]=1,其中,将一维向量V中下标为hj(D)的数值赋值为1,得到新的一维向量V′。
5.根据权利要求4所述的基于本地差分隐私的大数据频数估计方法,其特征在于,于步骤S4中,客户端以概率
Figure FDA0003856822010000021
保留V′中的每个坐标值,以概率
Figure FDA0003856822010000022
扰动V′中的每个坐标值,即将坐标为1的值扰动成-1,将坐标为-1的值扰动成1,并得到最终的一维向量S。
6.根据权利要求5所述的基于本地差分隐私的大数据频数估计方法,其特征在于,于步骤S6中,数据项频数F(D)具体计算方法如下:
Figure FDA0003856822010000023
其中,
Figure FDA0003856822010000024
是存储在第l行第hl(D)列(1<l<k)的客户端数据D的数据项频数,
Figure FDA0003856822010000025
为利用草图统计的客户端数据D的所有数据项频数,n为采样客户端数据的数据量。
7.根据权利要求1所述的基于本地差分隐私的大数据频数估计方法,其特征在于,于步骤S9中,如果是高频数据,则先执行步骤S2,并且跳过步骤S3,执行步骤S4和步骤S5;如果不是高频数据,则按照步骤S2至步骤S5执行。
8.根据权利要求7所述的基于本地差分隐私的大数据频数估计方法,其特征在于,于步骤S10中,如果为高频数据,则其频数Fhigh为轻量级频数预测模型g的预测结果g(D);如果为低频数据,则其频数Flow计算方法:
Figure FDA0003856822010000031
其中,θ为高频数据的占比率,m为草图的长度,n′为剩余未被采样客户端的数据量,
Figure FDA0003856822010000032
是存储在第l行第hl(D)列(1<l<k)的客户端数据D的数据项频数,
Figure FDA0003856822010000033
利用草图统计的客户端数据D的所有数据项频数。
CN202211156864.3A 2022-09-21 2022-09-21 一种基于本地差分隐私的大数据频数估计方法 Active CN115455483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211156864.3A CN115455483B (zh) 2022-09-21 2022-09-21 一种基于本地差分隐私的大数据频数估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211156864.3A CN115455483B (zh) 2022-09-21 2022-09-21 一种基于本地差分隐私的大数据频数估计方法

Publications (2)

Publication Number Publication Date
CN115455483A true CN115455483A (zh) 2022-12-09
CN115455483B CN115455483B (zh) 2023-12-26

Family

ID=84307045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211156864.3A Active CN115455483B (zh) 2022-09-21 2022-09-21 一种基于本地差分隐私的大数据频数估计方法

Country Status (1)

Country Link
CN (1) CN115455483B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019056573A1 (zh) * 2017-09-25 2019-03-28 深圳大学 隐私保护协同Web服务质量的差分隐私预测系统及方法
CN110874488A (zh) * 2019-11-15 2020-03-10 哈尔滨工业大学(深圳) 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质
CN112084493A (zh) * 2020-09-18 2020-12-15 支付宝(杭州)信息技术有限公司 基于差分隐私保护的内容风险小程序识别方法及装置
CN112329056A (zh) * 2020-11-03 2021-02-05 石家庄铁道大学 一种面向政务数据共享的本地化差分隐私方法
CN113297621A (zh) * 2021-06-10 2021-08-24 南京航空航天大学 一种基于个性化本地差分隐私的数据收集方法
CN114175568A (zh) * 2020-02-14 2022-03-11 谷歌有限责任公司 安全的多方到达率和频率估算
CN114884682A (zh) * 2022-07-07 2022-08-09 湖南工商大学 基于自适应本地差分隐私的群智感知数据流隐私保护方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019056573A1 (zh) * 2017-09-25 2019-03-28 深圳大学 隐私保护协同Web服务质量的差分隐私预测系统及方法
CN110874488A (zh) * 2019-11-15 2020-03-10 哈尔滨工业大学(深圳) 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质
CN114175568A (zh) * 2020-02-14 2022-03-11 谷歌有限责任公司 安全的多方到达率和频率估算
CN112084493A (zh) * 2020-09-18 2020-12-15 支付宝(杭州)信息技术有限公司 基于差分隐私保护的内容风险小程序识别方法及装置
CN112329056A (zh) * 2020-11-03 2021-02-05 石家庄铁道大学 一种面向政务数据共享的本地化差分隐私方法
CN113297621A (zh) * 2021-06-10 2021-08-24 南京航空航天大学 一种基于个性化本地差分隐私的数据收集方法
CN114884682A (zh) * 2022-07-07 2022-08-09 湖南工商大学 基于自适应本地差分隐私的群智感知数据流隐私保护方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MEIFAN ZHANG等: "Local Differentially Private Frequency Estimation based on Learned Sketches", 《INFORMATION SCIENCE》 *

Also Published As

Publication number Publication date
CN115455483B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN112035743B (zh) 数据推荐方法、装置、计算机设备以及存储介质
CN112364976A (zh) 基于会话推荐系统的用户偏好预测方法
CN110782286B (zh) 广告推送方法、装置、服务器及计算机可读存储介质
CN110489574B (zh) 一种多媒体信息推荐方法、装置和相关设备
CN112182424A (zh) 一种基于异构信息和同构信息网络融合的社交推荐方法
CN111061945A (zh) 推荐方法、装置、电子设备,存储介质
CN107291845A (zh) 一种基于预告片的电影推荐方法及系统
CN106411683B (zh) 一种关键社交信息的确定方法及装置
CN112507245B (zh) 基于图神经网络的社交网络好友推荐方法
CN111125521A (zh) 一种信息推荐方法、装置、设备及存储介质
CN107506479B (zh) 一种对象推荐方法和装置
CN112734104A (zh) 一种融合双生成器双判别器的生成对抗网络和自编码器的跨域推荐方法
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN108647364A (zh) 一种基于移动终端应用数据的预测推荐方法
KR101394247B1 (ko) 관계 기반 상황 인식 서비스 추천 방법 및 시스템
CN116975651A (zh) 相似度确定模型处理方法、目标对象搜索方法和装置
CN115455483A (zh) 一种基于本地差分隐私的大数据频数估计方法
CN112381147A (zh) 动态图片相似度模型建立、相似度计算方法和装置
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN117751368A (zh) 隐私敏感神经网络训练
CN110348469A (zh) 一种基于DeepWalk网络嵌入模型的用户相似度度量方法
CN110569339A (zh) 对话方法、介质、装置和计算设备
CN115204299A (zh) 数据处理方法和装置、存储介质及电子设备
CN114547276A (zh) 基于三通道图神经网络的会话推荐方法
CN115858911A (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant