CN110490002B - 一种基于本地化差分隐私的多维众包数据真值发现方法 - Google Patents

一种基于本地化差分隐私的多维众包数据真值发现方法 Download PDF

Info

Publication number
CN110490002B
CN110490002B CN201910797715.7A CN201910797715A CN110490002B CN 110490002 B CN110490002 B CN 110490002B CN 201910797715 A CN201910797715 A CN 201910797715A CN 110490002 B CN110490002 B CN 110490002B
Authority
CN
China
Prior art keywords
data
items
privacy
truth
jth item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910797715.7A
Other languages
English (en)
Other versions
CN110490002A (zh
Inventor
陈志立
卢美洁
张顺
仲红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201910797715.7A priority Critical patent/CN110490002B/zh
Publication of CN110490002A publication Critical patent/CN110490002A/zh
Application granted granted Critical
Publication of CN110490002B publication Critical patent/CN110490002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于本地化差分隐私的多维众包数据真值发现方法,是应用于包含n个用户,不可信服务器s,m个项目的众包平台中,并按如下步骤进行:1、数据扰动阶段:对用户回答的众包数据使用随机响应机制扰动产生隐私数据;2、隐私数据处理阶段:对隐私数据进行处理产生估计的合成数据;3、真值发现阶段:对估计的合成数据进行真值发现获得最终的准确性回答。本发明通过对用户的数据使用强隐私保护机制‑本地化差分隐私进行数据保护,防止信息泄露,同时使用真值发现解决由于数据之间的冲突以及用户质量不一致带来的结果不准确,保证真值更新的准确性,使得在众包平台中既能保证用户隐私又能保证数据的可用性。

Description

一种基于本地化差分隐私的多维众包数据真值发现方法
技术领域
本发明涉及网络与信息安全技术领域,尤其涉及一种基于本地化差分隐私的多维众包数据真值发现方法。
背景技术
随着互联网技术的飞速发展,众包形式已从线下模式发展为网络模式,即用户可以使用智能设备随时随地参与众包任务,企业使用该方式广泛聚集用户的数据并通过数据了解用户需求同时降低自身成本,众包已成为解决许多具有挑战性的任务的有效方案,然而,一方面,由于各种原因,受金融激励的影响、主观意识推断等,用户的回答任务的答案准确率存在不同,即用户提供的数据之间存在冲突性,这就需要考虑如何将嘈杂的候选答案从用户群体中聚合出来从而推理出准确的答案?另一方面,用户提供自己的数据时会有隐私问题:如网页相关性的数据可能会泄露用户的个人偏好等,就是由于这些隐私风险,用户可能会拒绝参与众包任务,这也需要考虑如何设置一个强隐私保护机制去保护用户的数据隐私?
近几年,为了解决冲突性数据,许多研究都采用真值发现方法来获取项目的准确性回答,而对于既能保护用户隐私又能获得准确性答案的方法的研究中,文献[Cloud-Enabled Privacy-Preserving Truth Discovery in Crowd Sensing Systems,2015]和文献[Non-Interactive Privacy-Preserving Truth Discovery in Crowd SensingApplications,2018]等研究提出的框架是使用同态加密等加密方式和安全多方计算来保护用户数据同时进行真值发现获取准确性的数据,但是这些技术需要昂贵的计算资源以及用户之间的通信,用户规模大时会造成很大的开销。
为了解决两大问题的同时能降低开销,采用一种强隐私保护机制--本地化差分隐私,本地化差分隐私的基本原理就是对于任意的两个输入值,通过该机制获得的输出值相等时的概率比趋近于eε,这样根据输出的结果无法判定输入的值是什么,则可以保证用户数据的隐私性。
文献[An Efficient Two-Layer Mechanism for Privacy-Preserving TruthDiscovery,2018]首次将本地化差分隐私与真值发现进行结合,直接对扰动后的隐私数据进行真值发现,但该方案所考虑的众包数据为二元数据,当众包数据为多维时,该方案会造成误差较大,文献[Truth Inference on Sparse Crowdsourcing Data with LocalDifferential Privacy,2018]也将本地化差分隐私与真值发现结合并使用MF方法应用于稀疏众包数据中,通过这些方法处理去获取众包数据的准确性结果,但该方案对于分类数据的处理存在误差。
发明内容
本发明为克服现有技术存在的不足之处,提供一种基于本地化差分隐私的多维众包数据真值发现方法,以期能够解决具有任何背景知识的敌手去泄露用户敏感数据及无法从嘈杂的数据集中获取准确性回答的问题,同时让任何第三方能够在不知道用户敏感信息的情况下去估计原始数据分布,从而达到能够确保用户数据的隐私性的同时,能够有效的获得每一个众包项目中的准确结果的目的。
本发明为达到上述发明目的,采用以下技术方案的:
本发明一种基于本地化差分隐私的多维众包数据真值发现方法的特点是应用于服务器s与用户端所构成的众包平台中,且所述用户端包含n个用户U={u1,u2,…,ui,…,un},其中,ui表示第i个用户;将所述第i个用户ui对m个项目T={t1,t2,…,tj,…,tm}中任意第j个项目tj回答的众包数据记为dij,从而将第i个用户ui对m个项目回答的众包数据记为Di={di1,di2,…,dij,…,dim},并将第i个用户ui对m个项目T的回答准确率记为wi,从而得到n个用户对m个项目T的回答准确率W={w1,w2,…,wi,…,wn};1≤i≤n;1≤j≤m;所述多维众包数据真值发现方法包括以下步骤:
步骤S1、数据扰动阶段:
在满足本地化差分隐私的条件下,所述用户端使用随机响应机制对第i个用户ui的众包数据Di进行扰动处理,从而产生隐私数据并发送给服务器s以实现隐私保护:
步骤S1.1、one-hot编码:
将第j个项目tj的候选答案集合记为
Figure GDA0002757771730000021
其中,
Figure GDA0002757771730000022
表示第j个项目tj的第δj个候选答案;δj表示第j个项目tj的阈值范围;
将第i个用户ui对第j个项目tj的δj位二进制编码记为
Figure GDA0002757771730000023
其中,
Figure GDA0002757771730000024
表示第δj个二进制位;
若第i个用户ui对第j个项目tj回答的众包数据dij为第v个候选答案hjv,则令δj位二进制编码中Xij的第v个二进制位
Figure GDA0002757771730000025
为“1”,其余二进制位为“0”;v=1,2,…,δj
步骤S1.2、使用满足本地化差分隐私条件的扰动机制来扰动数据:
使用式(1)和式(2)所示的扰动机制对二进制编码中第v个二进制位
Figure GDA0002757771730000026
进行扰动,得到扰动后的第v个隐私值为
Figure GDA0002757771730000027
从而得到第i个用户ui对第j个项目tj的δj位二进制编码Xij扰动后的隐私数据Zij,进而得到第i个用户ui对m个项目扰动后的隐私数据Zi={Zi1,Zi2,…,Zij,…,Zim}以及n个用户对m个项目扰动后的隐私数据Z={Z1,Z2,…,Zi,…,Zn}:
Figure GDA0002757771730000031
式(1)中,
Figure GDA0002757771730000032
表示使第v个二进制位
Figure GDA0002757771730000033
不变的扰动概率,ε表示隐私保护的程度;
Figure GDA0002757771730000034
式(2)中,
Figure GDA0002757771730000035
表示使第v个二进制位
Figure GDA0002757771730000036
发生改变的扰动概率;
步骤S2、隐私数据处理阶段:
服务器s利用收集的隐私数据集Z估计原始数据的分布,从而生成合成数据集
Figure GDA0002757771730000037
步骤S2.1、利用式(3)获得第i个用户ui对第j个项目tj扰动后的隐私数据Zij的期望值E(Zij|Xij):
Figure GDA0002757771730000038
式(3)中,
Figure GDA0002757771730000039
表示为δj维全为1的矢量;
步骤S2.2、利用式(4)得到第j个项目tj的分布估计
Figure GDA00027577717300000310
Figure GDA00027577717300000311
步骤S2.3、合成数据:
对所述第j个项目tj的分布估计
Figure GDA00027577717300000312
进行随机抽样,从而产生第i个用户ui对第j个项目tj的合成数据
Figure GDA00027577717300000313
进而得到第i个用户ui对m个项目的合成数据
Figure GDA00027577717300000314
以及n个用户对m个项目的合成数据
Figure GDA00027577717300000315
步骤S3、真值发现阶段:
服务器s对所述合成数据
Figure GDA00027577717300000316
进行真值发现,得到m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W:
步骤S3.1、初始准备阶段:
将m个项目中第j个项目tj的真值记为
Figure GDA0002757771730000041
则有m个项目的真值集为
Figure GDA0002757771730000042
令最大迭代次数为kmax次,当前迭代次数为k,则将第k次迭代的m个项目中第j个项目tj的真值表示为
Figure GDA0002757771730000043
将第k次迭代的第i个用户ui对m个项目的回答准确率表示为
Figure GDA0002757771730000044
初始化设置k=1;
步骤S3.2、迭代更新阶段:
步骤S3.2.1、初始化j=1;
步骤S3.2.2、初始化i=1;
步骤S3.2.3、利用式(5)得到第k次迭代的m个项目中第j个项目tj的真值
Figure GDA0002757771730000045
Figure GDA0002757771730000046
式(5)中,Hj表示第j个项目tj的候选答案集,
Figure GDA0002757771730000047
表示第i个用户ui对m个项目中第j个项目tj的合成数据
Figure GDA0002757771730000048
是否为候选答案中第v个候选答案hjv,若
Figure GDA0002757771730000049
则表示合成数据
Figure GDA00027577717300000410
为第v个候选答案hjv;若
Figure GDA00027577717300000411
则表示合成数据
Figure GDA00027577717300000412
不为第v个候选答案hjv;当k=1时,令第i个用户ui对m个项目的回答准确率
Figure GDA00027577717300000413
步骤S3.2.4、将i+1赋值给i后,判断i>n是否成立,若成立,则执行步骤S3.2.5;否则,返回步骤S3.2.3;
步骤S3.2.5、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.6;否则,返回步骤S3.2.2;
步骤S3.2.6、初始化i=1;
步骤S3.2.7、初始化j=1;
步骤S3.2.8、利用式(6)得到第k次迭代的第i个用户ui对m个项目的回答准确率
Figure GDA00027577717300000414
Figure GDA00027577717300000415
式(6)中,|T|是项目总数,
Figure GDA0002757771730000051
表示第i个用户ui对m个项目中第j个项目tj的合成数据
Figure GDA0002757771730000052
是否与第k次迭代的对m个项目中第j个项目tj的真值
Figure GDA0002757771730000053
相同,若
Figure GDA0002757771730000054
则表示两者相同,若
Figure GDA0002757771730000055
则表示两者不同;
步骤S3.2.9、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.10;否则,返回步骤S3.2.8;
步骤S3.2.10、将i+1赋值给i后,判断i>n是否成立,若成立,则表示得到第k次迭代的m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W;并执行步骤S3.3;否则,返回步骤S3.2.7;
步骤S3.3、将k+1赋值给k后,判断k>kmax是否成立,若成立,则表示得到最终的第kmax次迭代中的m个项目的真值集Truth和n个用户对m个项目T的回答准确率集W;否则,返回步骤S3.2执行。
对众包多维数据进行真值发现方法的隐私保护方案中,本发明的有益效果体现在:
1、本发明采用了强隐私保护机制-本地化差分隐私这一种新的隐私保护技术进行数据保护,防止了信息泄露,相对于安全多方计算以及同态加密等加密技术,由于其可以抵御具有任意背景知识的攻击者,同时也能够防止不可信第三方,包括服务器等的攻击,其具有强隐私保护特性,而且由于其直接对数据进行数据扰动,而不需要几方之间进行交流传递密钥等,降低了通信成本。
2、本发明利用了满足本地化差分隐私的扰动机制,保证了无偏估计原始数据的分布情况,同时,在每个项目有多维数据的情况下降低直接使用隐私数据进行真值发现的误差,保证了总体数据分析的可用性。
3、本发明采用了真值发现技术对每个项目的数据进行处理,解决了众包平台中由于各种原因导致的数据不一致问题以及用户质量不一致带来的结果不准确,使得能从冲突性数据中获取准确性的数据结果,保证真值更新的准确性,使得在众包平台中既能保证用户隐私又能保证数据的可用性。
附图说明
图1是本发明应用场景示意图;
图2是本发明基于本地化差分隐私的多维众包数据真值发现方法的实施步骤流程图。
具体实施方式
为了保护参与到众包中的用户的回答数据不会被泄露,同时为了解决由于多用户之间可能存在的偏见等而产生冲突数据的问题以及用户质量不一致问题,本实施例的一种基于本地化差分隐私对多维众包数据进行真值发现方法,是应用于如图1所示的服务器s与用户端所构成的众包平台中,且用户端包含n个用户U={u1,u2,…,ui,…,un},其中,ui表示第i个用户;将第i个用户ui对m个项目T={t1,t2,…,tj,…,tm}中任意第j个项目tj回答的众包数据记为dij,从而将第i个用户ui对m个项目回答的众包数据记为Di={di1,di2,…,dij,…,dim},并将第i个用户ui对m个项目T的回答准确率记为wi,从而得到n个用户对m个项目T的回答准确率W={w1,w2,…,wi,…,wn};1≤i≤n;1≤j≤m;如图2所示,该多维众包数据真值发现方法包括以下步骤:
步骤S1、数据扰动阶段:
用户进行回答后,在满足本地化差分隐私的条件下,用户端使用随机响应机制对第i个用户ui的众包数据Di进行扰动处理,从而产生隐私数据并发送给服务器s以实现隐私保护:
步骤S1.1、one-hot编码:
将第j个项目tj的候选答案集合记为
Figure GDA0002757771730000061
其中,
Figure GDA0002757771730000062
表示第j个项目tj的第δj个候选答案;δj表示第j个项目tj的阈值范围;
将第i个用户ui对第j个项目tj的δj位二进制编码记为
Figure GDA0002757771730000063
其中,
Figure GDA0002757771730000064
表示第δj个二进制位;
若第i个用户ui对第j个项目tj回答的众包数据dij为第v个候选答案hjv,则令δj位二进制编码中Xij的第v个二进制位
Figure GDA0002757771730000065
为“1”,其余二进制位为“0”;v=1,2,…,δj
假设的基于本地化差分隐私的多维众包数据真值发现方法应用于一某众包平台,参与到众包平台中的用户者回答的真实众包数据记录对于服务器s来说是未知,如表1所示,这里有5位用户U={u1,u2,u3,u4,u5}参与回答,项目T包含某地区大多数人的教育程度、人均收入水平、教育程度与收入水平是否有关,3个项目的候选答案分别为教育程度={高中,大学,硕士},人均收入水平={低,中,高},相关性={相关,无关},用户将对这三个项目进行回答,这里每条记录表示一个用户对这3个项目的回答情况及其编码;
表1用户数据及其编码
user 教育程度 人均收入水平 相关性
u1 大学(100) 中(010) 无关(01)
u2 高中(010) 低(100) 相关(10)
u3 大学(100) 中(010) 无关(01)
u4 大学(100) 高(001) 相关(10)
u5 硕士(001) 高(001) 相关(10)
步骤S1.2、使用满足本地化差分隐私条件的扰动机制来扰动数据:
使用式(1)和式(2)所示的扰动机制对二进制编码中第v个二进制位
Figure GDA0002757771730000071
进行扰动,得到扰动后的第v个隐私值为
Figure GDA0002757771730000072
从而得到第i个用户ui对第j个项目tj的δj位二进制编码Xij扰动后的隐私数据Zij,进而得到第i个用户ui对m个项目扰动后的隐私数据Zi={Zi1,Zi2,…,Zij,…,Zim}以及n个用户对m个项目扰动后的隐私数据Z={Z1,Z2,…,Zi,…,Zn}:
Figure GDA0002757771730000073
式(1)中,
Figure GDA0002757771730000074
表示使第v个二进制位
Figure GDA0002757771730000075
不变的扰动概率,ε表示隐私保护的程度;
Figure GDA0002757771730000076
式(2)中,
Figure GDA0002757771730000077
表示使第v个二进制位
Figure GDA0002757771730000078
发生改变的扰动概率;
这里ε的大小会影响数据的安全性,如式(1)与式(2)所示,使第v个二进制位
Figure GDA0002757771730000079
不变的扰动概率与使第v个二进制位
Figure GDA00027577717300000710
发生改变的扰动概率相加之和为1,则有若ε的值越小,使第v个二进制位
Figure GDA00027577717300000711
不变的扰动概率就会变得越小,第v位的值
Figure GDA00027577717300000712
改变的可能性会变大,当对某一数据编码后的所有的二进制位进行扰动的过程中使用的值ε越小时,其二进制位扰动概率较大,则隐私保护程度就会变强,安全性越好;
步骤S2、隐私数据处理阶段:
服务器s利用收集的隐私数据集Z估计原始数据的分布,从而生成合成数据集
Figure GDA0002757771730000081
步骤S2.1、利用式(3)获得第i个用户ui对第j个项目tj扰动后的隐私数据Zij的期望值E(Zij|Xij):
Figure GDA0002757771730000082
式(3)中,
Figure GDA0002757771730000083
表示为δj维全为1的矢量;
步骤S2.2、利用式(4)得到第j个项目tj的分布估计
Figure GDA0002757771730000084
Figure GDA0002757771730000085
步骤S2.3、合成数据:
对第j个项目tj的分布估计
Figure GDA0002757771730000086
进行随机抽样,从而产生第i个用户ui对第j个项目tj的合成数据
Figure GDA0002757771730000087
进而得到第i个用户ui对m个项目的合成数据
Figure GDA0002757771730000088
以及n个用户对m个项目的合成数据
Figure GDA0002757771730000089
步骤S3、真值发现阶段:
服务器s对合成数据
Figure GDA00027577717300000810
进行真值发现,得到m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W:
步骤S3.1、初始准备阶段:
将m个项目中第j个项目tj的真值记为
Figure GDA00027577717300000811
则有m个项目的真值集为
Figure GDA00027577717300000812
令最大迭代次数为kmax次,当前迭代次数为k,则将第k次迭代的m个项目中第j个项目tj的真值表示为
Figure GDA00027577717300000813
将第k次迭代的第i个用户ui对m个项目的回答准确率表示为
Figure GDA00027577717300000814
初始化设置k=1;
步骤S3.2、迭代更新阶段:
步骤S3.2.1、初始化j=1;
步骤S3.2.2、初始化i=1;
步骤S3.2.3、利用式(5)得到第k次迭代的m个项目中第j个项目tj的真值
Figure GDA0002757771730000091
Figure GDA0002757771730000092
式(5)中,Hj表示第j个项目tj的候选答案集,
Figure GDA0002757771730000093
表示第i个用户ui对m个项目中第j个项目tj的合成数据
Figure GDA0002757771730000094
是否为候选答案中第v个候选答案hjv,若
Figure GDA0002757771730000095
则表示合成数据
Figure GDA0002757771730000096
为第v个候选答案hjv;若
Figure GDA0002757771730000097
则表示合成数据
Figure GDA0002757771730000098
不为第v个候选答案hjv;当k=1时,令第i个用户ui对m个项目的回答准确率
Figure GDA0002757771730000099
式(5)所求的第k次迭代的第j个真值
Figure GDA00027577717300000910
为第j个项目tj候选答案集中计算出来值最大的候选答案,故真值计算的过程与用户回答项目的准确率有关,若第k-1次第i个用户回答项目的准确率wi越高,那么第i个用户对第j个项目回答的候选答案的计算结果的影响就会增大,则该候选答案为真值的可能性变大,反之,若准确率wi越低,则影响就会降低,该候选答案为真值的可能性变小,这保证了能在嘈杂的数据集中选择出较准确的真值;
步骤S3.2.4、将i+1赋值给i后,判断i>n是否成立,若成立,则执行步骤S3.2.5;否则,返回步骤S3.2.3;
步骤S3.2.5、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.6;否则,返回步骤S3.2.2;
步骤S3.2.6、初始化i=1;
步骤S3.2.7、初始化j=1;
步骤S3.2.8、利用式(6)得到第k次迭代的第i个用户ui对m个项目的回答准确率
Figure GDA00027577717300000911
Figure GDA00027577717300000912
式(6)中,|T|是项目总数,
Figure GDA00027577717300000913
表示第i个用户ui对m个项目中第j个项目tj的合成数据
Figure GDA00027577717300000914
是否与第k次迭代的对m个项目中第j个项目tj的真值
Figure GDA00027577717300000915
相同,若
Figure GDA00027577717300000916
则表示两者相同,若
Figure GDA00027577717300000917
则表示两者不同;
式(6)所求的第k次迭代的第i个用户的回答准确率
Figure GDA00027577717300000918
为第i个用户ui对m个项目回答后的数据与第k次迭代的m个项目的真值相同的比例,故若第i个用户对m个项目回答的数据与m个项目的真值相同越多,那么第i个用户的回答准确率
Figure GDA0002757771730000101
越高,其对真值的影响也就越大,反之,若第i个用户的回答准确率
Figure GDA0002757771730000102
越低,其对真值的影响越小。
注意,由于真值发现阶段采用的是合成数据集,用户数据是随机抽样而获得的,非用户原始数据,对于用户的回答准确率来说,其与用户原始数据一致,对于服务器来说,都是未知的,保证了隐私安全。
步骤S3.2.9、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.10;否则,返回步骤S3.2.8;
步骤S3.2.10、将i+1赋值给i后,判断i>n是否成立,若成立,则表示得到第k次迭代的m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W;并执行步骤S3.3;否则,返回步骤S3.2.7;
步骤S3.3、将k+1赋值给k后,判断k>kmax是否成立,若成立,则表示得到最终的第kmax次迭代中的m个项目的真值集Truth和n个用户对m个项目T的回答准确率集W;否则,返回步骤S3.2执行。

Claims (1)

1.一种基于本地化差分隐私的多维众包数据真值发现方法,其特征是应用于服务器s与用户端所构成的众包平台中,且所述用户端包含n个用户U={u1,u2,…,ui,…,un},其中,ui表示第i个用户;将所述第i个用户ui对m个项目T={t1,t2,…,tj,…,tm}中任意第j个项目tj回答的众包数据记为dij,从而将第i个用户ui对m个项目回答的众包数据记为Di={di1,di2,…,dij,…,dim},并将第i个用户ui对m个项目T的回答准确率记为wi,从而得到n个用户对m个项目T的回答准确率W={w1,w2,…,wi,…,wn};1≤i≤n;1≤j≤m;所述多维众包数据真值发现方法包括以下步骤:
步骤S1、数据扰动阶段:
在满足本地化差分隐私的条件下,所述用户端使用随机响应机制对第i个用户ui的众包数据Di进行扰动处理,从而产生隐私数据并发送给服务器s以实现隐私保护:
步骤S1.1、one-hot编码:
将第j个项目tj的候选答案集合记为
Figure FDA0002757771720000011
其中,
Figure FDA0002757771720000012
表示第j个项目tj的第δj个候选答案;δj表示第j个项目tj的阈值范围;
将第i个用户ui对第j个项目tj的δj位二进制编码记为
Figure FDA0002757771720000013
其中,
Figure FDA0002757771720000014
表示第δj个二进制位;
若第i个用户ui对第j个项目tj回答的众包数据dij为第v个候选答案hjv,则令δj位二进制编码中Xij的第v个二进制位
Figure FDA0002757771720000015
为“1”,其余二进制位为“0”;v=1,2,…,δj
步骤S1.2、使用满足本地化差分隐私条件的扰动机制来扰动数据:
使用式(1)和式(2)所示的扰动机制对二进制编码中第v个二进制位
Figure FDA0002757771720000016
进行扰动,得到扰动后的第v个隐私值为
Figure FDA0002757771720000017
从而得到第i个用户ui对第j个项目tj的δj位二进制编码Xij扰动后的隐私数据Zij,进而得到第i个用户ui对m个项目扰动后的隐私数据Zi={Zi1,Zi2,…,Zij,…,Zim}以及n个用户对m个项目扰动后的隐私数据Z={Z1,Z2,…,Zi,…,Zn}:
Figure FDA0002757771720000018
式(1)中,
Figure FDA0002757771720000021
表示使第v个二进制位
Figure FDA0002757771720000022
不变的扰动概率,ε表示隐私保护的程度;
Figure FDA0002757771720000023
式(2)中,
Figure FDA0002757771720000024
表示使第v个二进制位
Figure FDA0002757771720000025
发生改变的扰动概率;
步骤S2、隐私数据处理阶段:
服务器s利用收集的隐私数据集Z估计原始数据的分布,从而生成合成数据集
Figure FDA0002757771720000026
步骤S2.1、利用式(3)获得第i个用户ui对第j个项目tj扰动后的隐私数据Zij的期望值E(Zij|Xij):
Figure FDA0002757771720000027
式(3)中,
Figure FDA0002757771720000028
表示为δj维全为1的矢量;
步骤S2.2、利用式(4)得到第j个项目tj的分布估计
Figure FDA0002757771720000029
Figure FDA00027577717200000210
步骤S2.3、合成数据:
对所述第j个项目tj的分布估计
Figure FDA00027577717200000211
进行随机抽样,从而产生第i个用户ui对第j个项目tj的合成数据
Figure FDA00027577717200000212
进而得到第i个用户ui对m个项目的合成数据
Figure FDA00027577717200000213
以及n个用户对m个项目的合成数据
Figure FDA00027577717200000214
步骤S3、真值发现阶段:
服务器s对所述合成数据
Figure FDA00027577717200000215
进行真值发现,得到m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W:
步骤S3.1、初始准备阶段:
将m个项目中第j个项目tj的真值记为
Figure FDA00027577717200000216
则有m个项目的真值集为
Figure FDA00027577717200000217
令最大迭代次数为kmax次,当前迭代次数为k,则将第k次迭代的m个项目中第j个项目tj的真值表示为
Figure FDA0002757771720000031
将第k次迭代的第i个用户ui对m个项目的回答准确率表示为
Figure FDA0002757771720000032
初始化设置k=1;
步骤S3.2、迭代更新阶段:
步骤S3.2.1、初始化j=1;
步骤S3.2.2、初始化i=1;
步骤S3.2.3、利用式(5)得到第k次迭代的m个项目中第j个项目tj的真值
Figure FDA0002757771720000033
Figure FDA0002757771720000034
式(5)中,Hj表示第j个项目tj的候选答案集,
Figure FDA0002757771720000035
表示第i个用户ui对m个项目中第j个项目tj的合成数据
Figure FDA0002757771720000036
是否为候选答案中第v个候选答案hjv,若
Figure FDA0002757771720000037
则表示合成数据
Figure FDA0002757771720000038
为第v个候选答案hjv;若
Figure FDA0002757771720000039
则表示合成数据
Figure FDA00027577717200000310
不为第v个候选答案hjv;当k=1时,令第i个用户ui对m个项目的回答准确率
Figure FDA00027577717200000311
步骤S3.2.4、将i+1赋值给i后,判断i>n是否成立,若成立,则执行步骤S3.2.5;否则,返回步骤S3.2.3;
步骤S3.2.5、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.6;否则,返回步骤S3.2.2;
步骤S3.2.6、初始化i=1;
步骤S3.2.7、初始化j=1;
步骤S3.2.8、利用式(6)得到第k次迭代的第i个用户ui对m个项目的回答准确率
Figure FDA00027577717200000312
Figure FDA00027577717200000313
式(6)中,|T|是项目总数,
Figure FDA00027577717200000314
表示第i个用户ui对m个项目中第j个项目tj的合成数据
Figure FDA00027577717200000315
是否与第k次迭代的对m个项目中第j个项目tj的真值
Figure FDA00027577717200000316
相同,若
Figure FDA00027577717200000317
则表示两者相同,若
Figure FDA00027577717200000318
则表示两者不同;
步骤S3.2.9、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.10;否则,返回步骤S3.2.8;
步骤S3.2.10、将i+1赋值给i后,判断i>n是否成立,若成立,则表示得到第k次迭代的m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W;并执行步骤S3.3;否则,返回步骤S3.2.7;
步骤S3.3、将k+1赋值给k后,判断k>kmax是否成立,若成立,则表示得到最终的第kmax次迭代中的m个项目的真值集Truth和n个用户对m个项目T的回答准确率集W;否则,返回步骤S3.2执行。
CN201910797715.7A 2019-08-27 2019-08-27 一种基于本地化差分隐私的多维众包数据真值发现方法 Active CN110490002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910797715.7A CN110490002B (zh) 2019-08-27 2019-08-27 一种基于本地化差分隐私的多维众包数据真值发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910797715.7A CN110490002B (zh) 2019-08-27 2019-08-27 一种基于本地化差分隐私的多维众包数据真值发现方法

Publications (2)

Publication Number Publication Date
CN110490002A CN110490002A (zh) 2019-11-22
CN110490002B true CN110490002B (zh) 2021-02-26

Family

ID=68553577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910797715.7A Active CN110490002B (zh) 2019-08-27 2019-08-27 一种基于本地化差分隐私的多维众包数据真值发现方法

Country Status (1)

Country Link
CN (1) CN110490002B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143862B (zh) * 2019-12-13 2021-07-09 支付宝(杭州)信息技术有限公司 数据处理方法、查询方法、装置、电子设备和系统
CN112347088B (zh) * 2020-10-28 2024-02-20 南京邮电大学 一种数据可信度优化方法、存储介质和设备
CN112580701B (zh) * 2020-12-09 2022-07-12 哈尔滨理工大学 一种基于分类变换扰动机制的均值估计方法及装置
CN114357502A (zh) * 2021-11-17 2022-04-15 北京邮电大学 满足本地化差分隐私的真值发现方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9705908B1 (en) * 2016-06-12 2017-07-11 Apple Inc. Emoji frequency detection and deep link frequency
CN110135185A (zh) * 2018-02-08 2019-08-16 苹果公司 使用生成式对抗网络进行私有化的机器学习

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956603B2 (en) * 2016-04-07 2021-03-23 Samsung Electronics Co., Ltd. Private dataaggregation framework for untrusted servers
CN107392049B (zh) * 2017-07-26 2018-04-17 安徽大学 一种基于差分隐私保护的推荐方法
CN107196974B (zh) * 2017-07-26 2018-04-20 安徽大学 一种基于差分隐私的空间众包工作者位置隐私保护方法
CN109472155B (zh) * 2018-10-11 2022-03-15 电子科技大学 一种空间众包中的差分隐私空间数据发布方法
CN109543842A (zh) * 2018-11-02 2019-03-29 西安交通大学 具有本地隐私保护的高维群智感知数据的概率分布估计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9705908B1 (en) * 2016-06-12 2017-07-11 Apple Inc. Emoji frequency detection and deep link frequency
CN110135185A (zh) * 2018-02-08 2019-08-16 苹果公司 使用生成式对抗网络进行私有化的机器学习

Also Published As

Publication number Publication date
CN110490002A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110490002B (zh) 一种基于本地化差分隐私的多维众包数据真值发现方法
Ren et al. $\textsf {LoPub} $: high-dimensional crowdsourced data publication with local differential privacy
Zhu et al. Differential privacy and applications
Bebensee Local differential privacy: a tutorial
Gheid et al. Efficient and privacy-preserving k-means clustering for big data mining
Jiang et al. Context-aware local information privacy
CN111669366B (zh) 一种本地化差分隐私数据交换方法及存储介质
Jiang et al. Context-aware data aggregation with localized information privacy
Wang et al. On quantifying the accuracy of maximum likelihood estimation of participant reliability in social sensing
Li et al. Towards differentially private truth discovery for crowd sensing systems
Chuanxin et al. Federated learning with Gaussian differential privacy
Mir et al. A differentially private graph estimator
Ye et al. Secure and efficient outsourcing differential privacy data release scheme in cyber–physical system
Ye et al. Local differential privacy: Tools, challenges, and opportunities
JP2016535898A (ja) 結託および合成を考慮した効用対応プライバシー保護写像のための方法および装置
Wang et al. Privacy-preserving analytics on decentralized social graphs: The case of eigendecomposition
Baldé et al. Reader reaction to “Outcome‐adaptive lasso: Variable selection for causal inference” by Shortreed and Ertefaie (2017)
Yang et al. Differentially Private Distributed Frequency Estimation
Gulati et al. TabMT: Generating tabular data with masked transformers
Zhao et al. Local differential privacy with k-anonymous for frequency estimation
Yang et al. Copula-based multi-dimensional crowdsourced data synthesis and release with local privacy
Sheela et al. Partition based perturbation for privacy preserving distributed data mining
Upadhyay et al. Principal component analysis as a dimensionality reduction and data preprocessing technique
CN115481415A (zh) 基于纵向联邦学习的通信成本优化方法、系统、设备及介质
Li et al. DPlanner: A privacy budgeting system for utility

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant