CN110490002A - 一种基于本地化差分隐私的多维众包数据真值发现方法 - Google Patents
一种基于本地化差分隐私的多维众包数据真值发现方法 Download PDFInfo
- Publication number
- CN110490002A CN110490002A CN201910797715.7A CN201910797715A CN110490002A CN 110490002 A CN110490002 A CN 110490002A CN 201910797715 A CN201910797715 A CN 201910797715A CN 110490002 A CN110490002 A CN 110490002A
- Authority
- CN
- China
- Prior art keywords
- project
- user
- data
- true value
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000004807 localization Effects 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000013480 data collection Methods 0.000 claims description 7
- 238000011084 recovery Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- 238000009434 installation Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 229910002056 binary alloy Inorganic materials 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 238000004321 preservation Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010511 deprotection reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6263—Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于本地化差分隐私的多维众包数据真值发现方法,是应用于包含n个用户,不可信服务器s,m个项目的众包平台中,并按如下步骤进行:1、数据扰动阶段:对用户回答的众包数据使用随机响应机制扰动产生隐私数据;2、隐私数据处理阶段:对隐私数据进行处理产生估计的合成数据;3、真值发现阶段:对估计的合成数据进行真值发现获得最终的准确性回答。本发明通过对用户的数据使用强隐私保护机制‑本地化差分隐私进行数据保护,防止信息泄露,同时使用真值发现解决由于数据之间的冲突以及用户质量不一致带来的结果不准确,保证真值更新的准确性,使得在众包平台中既能保证用户隐私又能保证数据的可用性。
Description
技术领域
本发明涉及网络与信息安全技术领域,尤其涉及一种基于本地化差分隐私的多维众包数据真值发现方法。
背景技术
随着互联网技术的飞速发展,众包形式已从线下模式发展为网络模式,即用户可以使用智能设备随时随地参与众包任务,企业使用该方式广泛聚集用户的数据并通过数据了解用户需求同时降低自身成本,众包已成为解决许多具有挑战性的任务的有效方案,然而,一方面,由于各种原因,受金融激励的影响、主观意识推断等,用户的回答任务的答案准确率存在不同,即用户提供的数据之间存在冲突性,这就需要考虑如何将嘈杂的候选答案从用户群体中聚合出来从而推理出准确的答案?另一方面,用户提供自己的数据时会有隐私问题:如网页相关性的数据可能会泄露用户的个人偏好等,就是由于这些隐私风险,用户可能会拒绝参与众包任务,这也需要考虑如何设置一个强隐私保护机制去保护用户的数据隐私?
近几年,为了解决冲突性数据,许多研究都采用真值发现方法来获取项目的准确性回答,而对于既能保护用户隐私又能获得准确性答案的方法的研究中,文献[Cloud-Enabled Privacy-Preserving Truth Discovery in Crowd Sensing Systems,2015]和文献[Non-Interactive Privacy-Preserving Truth Discovery in Crowd SensingApplications,2018]等研究提出的框架是使用同态加密等加密方式和安全多方计算来保护用户数据同时进行真值发现获取准确性的数据,但是这些技术需要昂贵的计算资源以及用户之间的通信,用户规模大时会造成很大的开销。
为了解决两大问题的同时能降低开销,采用一种强隐私保护机制--本地化差分隐私,本地化差分隐私的基本原理就是对于任意的两个输入值,通过该机制获得的输出值相等时的概率比趋近于eε,这样根据输出的结果无法判定输入的值是什么,则可以保证用户数据的隐私性。
文献[An Efficient Two-Layer Mechanism for Privacy-Preserving TruthDiscovery,2018]首次将本地化差分隐私与真值发现进行结合,直接对扰动后的隐私数据进行真值发现,但该方案所考虑的众包数据为二元数据,当众包数据为多维时,该方案会造成误差较大,文献[Truth Inference on Sparse Crowdsourcing Data with LocalDifferential Privacy,2018]也将本地化差分隐私与真值发现结合并使用MF方法应用于稀疏众包数据中,通过这些方法处理去获取众包数据的准确性结果,但该方案对于分类数据的处理存在误差。
发明内容
本发明为克服现有技术存在的不足之处,提供一种基于本地化差分隐私的多维众包数据真值发现方法,以期能够解决具有任何背景知识的敌手去泄露用户敏感数据及无法从嘈杂的数据集中获取准确性回答的问题,同时让任何第三方能够在不知道用户敏感信息的情况下去估计原始数据分布,从而达到能够确保用户数据的隐私性的同时,能够有效的获得每一个众包项目中的准确结果的目的。
本发明为达到上述发明目的,采用以下技术方案的:
本发明一种基于本地化差分隐私的多维众包数据真值发现方法的特点是应用于服务器s与用户端所构成的众包平台中,且所述用户端包含n个用户U={u1,u2,…,ui,…,un},其中,ui表示第i个用户;将所述第i个用户ui对m个项目T={t1,t2,…,tj,…,tm}中任意第j个项目tj回答的众包数据记为dij,从而将第i个用户ui对m个项目回答的众包数据记为Di={di1,di2,…,dij,…,dim},并将第i个用户ui对m个项目T的回答准确率记为wi,从而得到n个用户对m个项目T的回答准确率W={w1,w2,…,wi,…,wn};1≤i≤n;1≤j≤m;所述多维众包数据真值发现方法包括以下步骤:
步骤S1、数据扰动阶段:
在满足本地化差分隐私的条件下,所述用户端使用随机响应机制对第i个用户ui的众包数据Di进行扰动处理,从而产生隐私数据并发送给服务器s以实现隐私保护:
步骤S1.1、one-hot编码:
将第j个项目tj的候选答案集合记为其中,表示第j个项目tj的第δj个候选答案;δj表示第j个项目tj的域值范围;
将第i个用户ui对第j个项目tj的δj位二进制编码记为其中,表示第δj个二进制位;
若第i个用户ui对第j个项目tj回答的众包数据dij为第v个候选答案hjv,则令δj位二进制编码中Xij的第v个二进制位为“1”,其余二进制位为“0”;v=1,2,…,δj;
步骤S1.2、使用满足本地化差分隐私条件的扰动机制来扰动数据:
使用式(1)和式(2)所示的扰动机制对二进制编码中第v个二进制位进行扰动,得到扰动后的第v个隐私值为从而得到第i个用户ui对第j个项目tj的δj位二进制编码Xij扰动后的隐私数据Zij,进而得到第i个用户ui对m个项目扰动后的隐私数据Zi={Zi1,Zi2,…,Zij,…,Zim}以及n个用户对m个项目扰动后的隐私数据Z={Z1,Z2,…,Zi,…,Zn}:
式(1)中,表示使第v个二进制位不变的扰动概率,ε表示隐私保护的程度;
式(2)中,表示使第v个二进制位发生改变的扰动概率;
步骤S2、隐私数据处理阶段:
服务器s利用收集的隐私数据集Z估计原始数据的分布,从而生成合成数据集
步骤S2.1、利用式(3)获得第i个用户ui对第j个项目tj扰动后的隐私数据Zij的期望值E(Zij|Xij):
式(3)中,表示为δj维全为1的矢量;
步骤S2.2、利用式(4)得到第j个项目tj的分布估计
步骤S2.3、合成数据:
对所述第j个项目tj的分布估计进行随机抽样,从而产生第i个用户ui对第j个项目tj的合成数据进而得到第i个用户ui对m个项目的合成数据以及n个用户对m个项目的合成数据
步骤S3、真值发现阶段:
服务器s对所述合成数据进行真值发现,得到m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W:
步骤S3.1、初始准备阶段:
将m个项目中第j个项目tj的真值记为则有m个项目的真值集为
令最大迭代次数为kmax次,当前迭代次数为k,则将第k次迭代的m个项目中第j个项目tj的真值表示为将第k次迭代的第i个用户ui对m个项目的回答准确率表示为
初始化设置k=1;
步骤S3.2、迭代更新阶段:
步骤S3.2.1、初始化j=1;
步骤S3.2.2、初始化i=1;
步骤S3.2.3、利用式(5)得到第k次迭代的m个项目中第j个项目tj的真值
式(5)中,Hj表示第j个项目tj的候选答案集,表示第i个用户ui对m个项目中第j个项目tj的合成数据是否为候选答案中第v个候选答案hjv,若则表示合成数据为第v个候选答案hjv;若则表示合成数据不为第v个候选答案hjv;当k=1时,令第i个用户ui对m个项目的回答准确率
步骤S3.2.4、将i+1赋值给i后,判断i>n是否成立,若成立,则执行步骤S3.2.5;否则,返回步骤S3.2.3;
步骤S3.2.5、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.6;否则,返回步骤S3.2.2;
步骤S3.2.6、初始化i=1;
步骤S3.2.7、初始化j=1;
步骤S3.2.8、利用式(6)得到第k次迭代的第i个用户ui对m个项目的回答准确率
式(6)中,|T|是项目总数,表示第i个用户ui对m个项目中第j个项目tj的合成数据是否与第k次迭代的对m个项目中第j个项目tj的真值相同,若则表示两者相同,若则表示两者不同;
步骤S3.2.9、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.10;否则,返回步骤S3.2.8;
步骤S3.2.10、将i+1赋值给i后,判断i>n是否成立,若成立,则表示得到第k次迭代的m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W;并执行步骤S3.3;否则,返回步骤S3.2.7;
步骤S3.3、将k+1赋值给k后,判断k>kmax是否成立,若成立,则表示得到最终的第kmax次迭代中的m个项目的真值集Truth和n个用户对m个项目T的回答准确率集W;否则,返回步骤S3.2执行。
对众包多维数据进行真值发现方法的隐私保护方案中,本发明的有益效果体现在:
1、本发明采用了强隐私保护机制-本地化差分隐私这一种新的隐私保护技术进行数据保护,防止了信息泄露,相对于安全多方计算以及同态加密等加密技术,由于其可以抵御具有任意背景知识的攻击者,同时也能够防止不可信第三方,包括服务器等的攻击,其具有强隐私保护特性,而且由于其直接对数据进行数据扰动,而不需要几方之间进行交流传递密钥等,降低了通信成本。
2、本发明利用了满足本地化差分隐私的扰动机制,保证了无偏估计原始数据的分布情况,同时,在每个项目有多维数据的情况下降低直接使用隐私数据进行真值发现的误差,保证了总体数据分析的可用性。
3、本发明采用了真值发现技术对每个项目的数据进行处理,解决了众包平台中由于各种原因导致的数据不一致问题以及用户质量不一致带来的结果不准确,使得能从冲突性数据中获取准确性的数据结果,保证真值更新的准确性,使得在众包平台中既能保证用户隐私又能保证数据的可用性。
附图说明
图1是本发明应用场景示意图;
图2是本发明基于本地化差分隐私的多维众包数据真值发现方法的实施步骤流程图。
具体实施方式
为了保护参与到众包中的用户的回答数据不会被泄露,同时为了解决由于多用户之间可能存在的偏见等而产生冲突数据的问题以及用户质量不一致问题,本实施例的一种基于本地化差分隐私对多维众包数据进行真值发现方法,是应用于如图1所示的服务器s与用户端所构成的众包平台中,且用户端包含n个用户U={u1,u2,…,ui,…,un},其中,ui表示第i个用户;将第i个用户ui对m个项目T={t1,t2,…,tj,…,tm}中任意第j个项目tj回答的众包数据记为dij,从而将第i个用户ui对m个项目回答的众包数据记为Di={di1,di2,…,dij,…,dim},并将第i个用户ui对m个项目T的回答准确率记为wi,从而得到n个用户对m个项目T的回答准确率W={w1,w2,…,wi,…,wn};1≤i≤n;1≤j≤m;如图2所示,该多维众包数据真值发现方法包括以下步骤:
步骤S1、数据扰动阶段:
用户进行回答后,在满足本地化差分隐私的条件下,用户端使用随机响应机制对第i个用户ui的众包数据Di进行扰动处理,从而产生隐私数据并发送给服务器s以实现隐私保护:
步骤S1.1、one-hot编码:
将第j个项目tj的候选答案集合记为其中,表示第j个项目tj的第δj个候选答案;δj表示第j个项目tj的域值范围;
将第i个用户ui对第j个项目tj的δj位二进制编码记为其中,表示第δj个二进制位;
若第i个用户ui对第j个项目tj回答的众包数据dij为第v个候选答案hjv,则令δj位二进制编码中Xij的第v个二进制位为“1”,其余二进制位为“0”;v=1,2,…,δj;
假设的基于本地化差分隐私的多维众包数据真值发现方法应用于一某众包平台,参与到众包平台中的用户者回答的真实众包数据记录对于服务器s来说是未知,如表1所示,这里有5位用户U={u1,u2,u3,u4,u5}参与回答,项目T包含某地区大多数人的教育程度、人均收入水平、教育程度与收入水平是否有关,3个项目的候选答案分别为教育程度={高中,大学,硕士},人均收入水平={低,中,高},相关性={相关,无关},用户将对这三个项目进行回答,这里每条记录表示一个用户对这3个项目的回答情况及其编码;
表1用户数据及其编码
user | 教育程度 | 人均收入水平 | 相关性 |
u1 | 大学(100) | 中(010) | 无关(01) |
u2 | 高中(010) | 低(100) | 相关(10) |
u3 | 大学(100) | 中(010) | 无关(01) |
u4 | 大学(100) | 高(001) | 相关(10) |
u5 | 硕士(001) | 高(001) | 相关(10) |
步骤S1.2、使用满足本地化差分隐私条件的扰动机制来扰动数据:
使用式(1)和式(2)所示的扰动机制对二进制编码中第v个二进制位进行扰动,得到扰动后的第v个隐私值为从而得到第i个用户ui对第j个项目tj的δj位二进制编码Xij扰动后的隐私数据Zij,进而得到第i个用户ui对m个项目扰动后的隐私数据Zi={Zi1,Zi2,…,Zij,…,Zim}以及n个用户对m个项目扰动后的隐私数据Z={Z1,Z2,…,Zi,…,Zn}:
式(1)中,表示使第v个二进制位不变的扰动概率,ε表示隐私保护的程度;
式(2)中,表示使第v个二进制位发生改变的扰动概率;
这里ε的大小会影响数据的安全性,如式(1)与式(2)所示,使第v个二进制位不变的扰动概率与使第v个二进制位发生改变的扰动概率相加之和为1,则有若ε的值越小,使第v个二进制位不变的扰动概率就会变得越小,第v位的值改变的可能性会变大,当对某一数据编码后的所有的二进制位进行扰动的过程中使用的值ε越小时,其二进制位扰动概率较大,则隐私保护程度就会变强,安全性越好;
步骤S2、隐私数据处理阶段:
服务器s利用收集的隐私数据集Z估计原始数据的分布,从而生成合成数据集
步骤S2.1、利用式(3)获得第i个用户ui对第j个项目tj扰动后的隐私数据Zij的期望值E(Zij|Xij):
式(3)中,表示为δj维全为1的矢量;
步骤S2.2、利用式(4)得到第j个项目tj的分布估计
步骤S2.3、合成数据:
对第j个项目tj的分布估计进行随机抽样,从而产生第i个用户ui对第j个项目tj的合成数据进而得到第i个用户ui对m个项目的合成数据以及n个用户对m个项目的合成数据
步骤S3、真值发现阶段:
服务器s对合成数据进行真值发现,得到m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W:
步骤S3.1、初始准备阶段:
将m个项目中第j个项目tj的真值记为则有m个项目的真值集为
令最大迭代次数为kmax次,当前迭代次数为k,则将第k次迭代的m个项目中第j个项目tj的真值表示为将第k次迭代的第i个用户ui对m个项目的回答准确率表示为
初始化设置k=1;
步骤S3.2、迭代更新阶段:
步骤S3.2.1、初始化j=1;
步骤S3.2.2、初始化i=1;
步骤S3.2.3、利用式(5)得到第k次迭代的m个项目中第j个项目tj的真值
式(5)中,Hj表示第j个项目tj的候选答案集,表示第i个用户ui对m个项目中第j个项目tj的合成数据是否为候选答案中第v个候选答案hjv,若则表示合成数据为第v个候选答案hjv;若则表示合成数据不为第v个候选答案hjv;当k=1时,令第i个用户ui对m个项目的回答准确率
式(5)所求的第k次迭代的第j个真值为第j个项目tj候选答案集中计算出来值最大的候选答案,故真值计算的过程与用户回答项目的准确率有关,若第k-1次第i个用户回答项目的准确率wi越高,那么第i个用户对第j个项目回答的候选答案的计算结果的影响就会增大,则该候选答案为真值的可能性变大,反之,若准确率wi越低,则影响就会降低,该候选答案为真值的可能性变小,这保证了能在嘈杂的数据集中选择出较准确的真值;
步骤S3.2.4、将i+1赋值给i后,判断i>n是否成立,若成立,则执行步骤S3.2.5;否则,返回步骤S3.2.3;
步骤S3.2.5、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.6;否则,返回步骤S3.2.2;
步骤S3.2.6、初始化i=1;
步骤S3.2.7、初始化j=1;
步骤S3.2.8、利用式(6)得到第k次迭代的第i个用户ui对m个项目的回答准确率
式(6)中,|T|是项目总数,表示第i个用户ui对m个项目中第j个项目tj的合成数据是否与第k次迭代的对m个项目中第j个项目tj的真值相同,若则表示两者相同,若则表示两者不同;
式(6)所求的第k次迭代的第i个用户的回答准确率为第i个用户ui对m个项目回答后的数据与第k次迭代的m个项目的真值相同的比例,故若第i个用户对m个项目回答的数据与m个项目的真值相同越多,那么第i个用户的回答准确率越高,其对真值的影响也就越大,反之,若第i个用户的回答准确率越低,其对真值的影响越小。
注意,由于真值发现阶段采用的是合成数据集,用户数据是随机抽样而获得的,非用户原始数据,对于用户的回答准确率来说,其与用户原始数据一致,对于服务器来说,都是未知的,保证了隐私安全。
步骤S3.2.9、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.10;否则,返回步骤S3.2.8;
步骤S3.2.10、将i+1赋值给i后,判断i>n是否成立,若成立,则表示得到第k次迭代的m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W;并执行步骤S3.3;否则,返回步骤S3.2.7;
步骤S3.3、将k+1赋值给k后,判断k>kmax是否成立,若成立,则表示得到最终的第kmax次迭代中的m个项目的真值集Truth和n个用户对m个项目T的回答准确率集W;否则,返回步骤S3.2执行。
Claims (1)
1.一种基于本地化差分隐私的多维众包数据真值发现方法,其特征是应用于服务器s与用户端所构成的众包平台中,且所述用户端包含n个用户U={u1,u2,…,ui,…,un},其中,ui表示第i个用户;将所述第i个用户ui对m个项目T={t1,t2,…,tj,…,tm}中任意第j个项目tj回答的众包数据记为dij,从而将第i个用户ui对m个项目回答的众包数据记为Di={di1,di2,…,dij,…,dim},并将第i个用户ui对m个项目T的回答准确率记为wi,从而得到n个用户对m个项目T的回答准确率W={w1,w2,…,wi,…,wn};1≤i≤n;1≤j≤m;所述多维众包数据真值发现方法包括以下步骤:
步骤S1、数据扰动阶段:
在满足本地化差分隐私的条件下,所述用户端使用随机响应机制对第i个用户ui的众包数据Di进行扰动处理,从而产生隐私数据并发送给服务器s以实现隐私保护:
步骤S1.1、one-hot编码:
将第j个项目tj的候选答案集合记为其中,表示第j个项目tj的第δj个候选答案;δj表示第j个项目tj的域值范围;
将第i个用户ui对第j个项目tj的δj位二进制编码记为其中,表示第δj个二进制位;
若第i个用户ui对第j个项目tj回答的众包数据dij为第v个候选答案hjv,则令δj位二进制编码中Xij的第v个二进制位为“1”,其余二进制位为“0”;v=1,2,…,δj;
步骤S1.2、使用满足本地化差分隐私条件的扰动机制来扰动数据:
使用式(1)和式(2)所示的扰动机制对二进制编码中第v个二进制位进行扰动,得到扰动后的第v个隐私值为从而得到第i个用户ui对第j个项目tj的δj位二进制编码Xij扰动后的隐私数据Zij,进而得到第i个用户ui对m个项目扰动后的隐私数据Zi={Zi1,Zi2,…,Zij,…,Zim}以及n个用户对m个项目扰动后的隐私数据Z={Z1,Z2,…,Zi,…,Zn}:
式(1)中,表示使第v个二进制位不变的扰动概率,ε表示隐私保护的程度;
式(2)中,表示使第v个二进制位发生改变的扰动概率;
步骤S2、隐私数据处理阶段:
服务器s利用收集的隐私数据集Z估计原始数据的分布,从而生成合成数据集
步骤S2.1、利用式(3)获得第i个用户ui对第j个项目tj扰动后的隐私数据Zij的期望值E(Zij|Xij):
式(3)中,表示为δj维全为1的矢量;
步骤S2.2、利用式(4)得到第j个项目tj的分布估计
步骤S2.3、合成数据:
对所述第j个项目tj的分布估计进行随机抽样,从而产生第i个用户ui对第j个项目tj的合成数据进而得到第i个用户ui对m个项目的合成数据以及n个用户对m个项目的合成数据
步骤S3、真值发现阶段:
服务器s对所述合成数据进行真值发现,得到m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W:
步骤S3.1、初始准备阶段:
将m个项目中第j个项目tj的真值记为则有m个项目的真值集为
令最大迭代次数为kmax次,当前迭代次数为k,则将第k次迭代的m个项目中第j个项目tj的真值表示为将第k次迭代的第i个用户ui对m个项目的回答准确率表示为
初始化设置k=1;
步骤S3.2、迭代更新阶段:
步骤S3.2.1、初始化j=1;
步骤S3.2.2、初始化i=1;
步骤S3.2.3、利用式(5)得到第k次迭代的m个项目中第j个项目tj的真值
式(5)中,Hj表示第j个项目tj的候选答案集,表示第i个用户ui对m个项目中第j个项目tj的合成数据是否为候选答案中第v个候选答案hjv,若则表示合成数据为第v个候选答案hjv;若则表示合成数据不为第v个候选答案hjv;当k=1时,令第i个用户ui对m个项目的回答准确率
步骤S3.2.4、将i+1赋值给i后,判断i>n是否成立,若成立,则执行步骤S3.2.5;否则,返回步骤S3.2.3;
步骤S3.2.5、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.6;否则,返回步骤S3.2.2;
步骤S3.2.6、初始化i=1;
步骤S3.2.7、初始化j=1;
步骤S3.2.8、利用式(6)得到第k次迭代的第i个用户ui对m个项目的回答准确率
式(6)中,|T|是项目总数,表示第i个用户ui对m个项目中第j个项目tj的合成数据是否与第k次迭代的对m个项目中第j个项目tj的真值相同,若则表示两者相同,若则表示两者不同;
步骤S3.2.9、将j+1赋值给j后,判断j>m是否成立,若成立,则执行步骤S3.2.10;否则,返回步骤S3.2.8;
步骤S3.2.10、将i+1赋值给i后,判断i>n是否成立,若成立,则表示得到第k次迭代的m个项目的真值集Truth以及n个用户对m个项目T的回答准确率集W;并执行步骤S3.3;否则,返回步骤S3.2.7;
步骤S3.3、将k+1赋值给k后,判断k>kmax是否成立,若成立,则表示得到最终的第kmax次迭代中的m个项目的真值集Truth和n个用户对m个项目T的回答准确率集W;否则,返回步骤S3.2执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797715.7A CN110490002B (zh) | 2019-08-27 | 2019-08-27 | 一种基于本地化差分隐私的多维众包数据真值发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797715.7A CN110490002B (zh) | 2019-08-27 | 2019-08-27 | 一种基于本地化差分隐私的多维众包数据真值发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110490002A true CN110490002A (zh) | 2019-11-22 |
CN110490002B CN110490002B (zh) | 2021-02-26 |
Family
ID=68553577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910797715.7A Active CN110490002B (zh) | 2019-08-27 | 2019-08-27 | 一种基于本地化差分隐私的多维众包数据真值发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110490002B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143862A (zh) * | 2019-12-13 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、查询方法、装置、电子设备和系统 |
CN112347088A (zh) * | 2020-10-28 | 2021-02-09 | 南京邮电大学 | 一种数据可信度优化方法、存储介质和设备 |
CN112580701A (zh) * | 2020-12-09 | 2021-03-30 | 哈尔滨理工大学 | 一种基于分类变换扰动机制的均值估计方法及装置 |
CN114357502A (zh) * | 2021-11-17 | 2022-04-15 | 北京邮电大学 | 满足本地化差分隐私的真值发现方法及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9705908B1 (en) * | 2016-06-12 | 2017-07-11 | Apple Inc. | Emoji frequency detection and deep link frequency |
CN107196974A (zh) * | 2017-07-26 | 2017-09-22 | 安徽大学 | 一种基于差分隐私的空间众包工作者位置隐私保护方法 |
US20170293772A1 (en) * | 2016-04-07 | 2017-10-12 | Samsung Electronics Co., Ltd. | Private dataaggregation framework for untrusted servers |
CN107392049A (zh) * | 2017-07-26 | 2017-11-24 | 安徽大学 | 一种基于差分隐私保护的推荐方法 |
CN109472155A (zh) * | 2018-10-11 | 2019-03-15 | 电子科技大学 | 一种空间众包中的差分隐私空间数据发布方法 |
CN109543842A (zh) * | 2018-11-02 | 2019-03-29 | 西安交通大学 | 具有本地隐私保护的高维群智感知数据的概率分布估计方法 |
CN110135185A (zh) * | 2018-02-08 | 2019-08-16 | 苹果公司 | 使用生成式对抗网络进行私有化的机器学习 |
-
2019
- 2019-08-27 CN CN201910797715.7A patent/CN110490002B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170293772A1 (en) * | 2016-04-07 | 2017-10-12 | Samsung Electronics Co., Ltd. | Private dataaggregation framework for untrusted servers |
US9705908B1 (en) * | 2016-06-12 | 2017-07-11 | Apple Inc. | Emoji frequency detection and deep link frequency |
CN107196974A (zh) * | 2017-07-26 | 2017-09-22 | 安徽大学 | 一种基于差分隐私的空间众包工作者位置隐私保护方法 |
CN107392049A (zh) * | 2017-07-26 | 2017-11-24 | 安徽大学 | 一种基于差分隐私保护的推荐方法 |
CN110135185A (zh) * | 2018-02-08 | 2019-08-16 | 苹果公司 | 使用生成式对抗网络进行私有化的机器学习 |
CN109472155A (zh) * | 2018-10-11 | 2019-03-15 | 电子科技大学 | 一种空间众包中的差分隐私空间数据发布方法 |
CN109543842A (zh) * | 2018-11-02 | 2019-03-29 | 西安交通大学 | 具有本地隐私保护的高维群智感知数据的概率分布估计方法 |
Non-Patent Citations (3)
Title |
---|
HAIPEI SUN 等: "Truth Inference on Sparse Crowdsourcing Data with", 《COMPUTER SCIENCE》 * |
ROBIN WENTAO OUYANG 等: "Truth Discovery in Crowdsourced Detection of", 《ASSOCIATION FOR COMPUTING MACHINERY》 * |
孙洪山 等: "一种高效的隐私保护群智感知真值发现机制", 《物联网技术》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143862A (zh) * | 2019-12-13 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、查询方法、装置、电子设备和系统 |
CN111143862B (zh) * | 2019-12-13 | 2021-07-09 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、查询方法、装置、电子设备和系统 |
CN112347088A (zh) * | 2020-10-28 | 2021-02-09 | 南京邮电大学 | 一种数据可信度优化方法、存储介质和设备 |
CN112347088B (zh) * | 2020-10-28 | 2024-02-20 | 南京邮电大学 | 一种数据可信度优化方法、存储介质和设备 |
CN112580701A (zh) * | 2020-12-09 | 2021-03-30 | 哈尔滨理工大学 | 一种基于分类变换扰动机制的均值估计方法及装置 |
CN112580701B (zh) * | 2020-12-09 | 2022-07-12 | 哈尔滨理工大学 | 一种基于分类变换扰动机制的均值估计方法及装置 |
CN114357502A (zh) * | 2021-11-17 | 2022-04-15 | 北京邮电大学 | 满足本地化差分隐私的真值发现方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110490002B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | A utility-aware general framework with quantifiable privacy preservation for destination prediction in LBSs | |
Xiao et al. | PHY-layer authentication with multiple landmarks with reduced overhead | |
Xu et al. | Achieving efficient and privacy-preserving truth discovery in crowd sensing systems | |
Tian et al. | ${\sf FederBoost} $: Private Federated Learning for GBDT | |
CN110490002A (zh) | 一种基于本地化差分隐私的多维众包数据真值发现方法 | |
Gheid et al. | Efficient and privacy-preserving k-means clustering for big data mining | |
CN110011784A (zh) | 支持隐私保护的knn分类服务系统及方法 | |
Zhu et al. | A new structure-hole-based algorithm for influence maximization in large online social networks | |
CN106059988B (zh) | 基于位置服务的轨迹隐私保护方法 | |
WO2010011747A1 (en) | System and method for protecting user privacy using social inference protection techniques | |
Fang et al. | Fuzzy learning for multi-dimensional adaptive physical layer authentication: A compact and robust approach | |
Xu et al. | Detection of jamming attack in non-coherent massive SIMO systems | |
Palmieri et al. | Spatial bloom filters: Enabling privacy in location-aware applications | |
CN106254314A (zh) | 一种位置查询服务信息保护方法及系统 | |
Yang et al. | Differentially Private Distributed Frequency Estimation | |
Zhao et al. | VFLR: An efficient and privacy-preserving vertical federated framework for logistic regression | |
Tugrul et al. | Privacy-preserving inverse distance weighted interpolation | |
Zheng et al. | SecDR: Enabling secure, efficient, and accurate data recovery for mobile crowdsensing | |
Chen et al. | DeepGuard: Backdoor Attack Detection and Identification Schemes in Privacy‐Preserving Deep Neural Networks | |
Sei et al. | Privacy preservation for participatory sensing applications | |
Elmisery et al. | Privacy-enhanced middleware for location-based sub-community discovery in implicit social groups | |
Li et al. | A federated recommendation system based on local differential privacy clustering | |
Shewale et al. | An efficient profile matching protocol using privacy preserving in mobile social network | |
Homem et al. | Web user identification with fuzzy fingerprints | |
Ge et al. | Privacy preserving data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |