CN114357502A

CN114357502A - 满足本地化差分隐私的真值发现方法及电子设备

Info

Publication number: CN114357502A
Application number: CN202111364079.2A
Authority: CN
Inventors: 程祥; 苏森; 朱彬元; 李悦嘉
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-04-15
Anticipated expiration: 2041-11-17
Also published as: CN114357502B

Abstract

本申请提供一种满足本地化差分隐私的真值发现方法及电子设备，在每一个时间点，客户端使用显著性检验中的单样本t检验方法判断相邻时间点间的原始数据变化是否显著，以决定是否更新真值的投票信息并在扰动后上传给服务器，服务器汇总所有客户端的投票信息决定当前时间点需要重新进行真值发现的任务；客户端本地扰动相应任务的数据并上传给服务器，服务器进行考虑客户端权重和任务真值的时间平滑性的动态真值发现，以更新当前时间点的任务真值。这样，能够在保护每一个时间点的客户端原始数据隐私的同时保证较高的真值发现准确度。

Description

满足本地化差分隐私的真值发现方法及电子设备

技术领域

本申请涉及真值发现技术领域，尤其涉及一种满足本地化差分隐私的真值发现方法及电子设备。

背景技术

隐私保护的动态真值发现技术为解决动态真值发现带来的用户个人隐私泄露问题提供了一种可行的方案。本地化差分隐私技术(LDP，Local Differential Privacy)不需要使用可信的第三方服务器，通过让用户在上传数据之前本地扰动数据，使得只有用户自身能访问原始数据，因此它从根本上防止了用户的个人隐私泄露，应用于动态真值发现任务能够保护用户的个人隐私。

当真值发现任务时间域中的时间点数量很多时，在每一个时间点进行独立的数据扰动会导致真值发现准确度低；现有的真值发现方法只使用当前时间点数据估计客户端权重，有时候还需要假设客户端原始数据满足一定分布才可以进行动态真值发现；在隐私保护参数分配方面，现有的真值发现方法需要采用一比特协议解决隐私保护参数的分配问题，导致真值发现准确度低。

发明内容

有鉴于此，本申请的目的在于提出一种满足本地化差分隐私的真值发现方法及电子设备用以解决或部分解决上述问题。

基于上述目的，本申请的第一方面提供了一种满足本地化差分隐私的真值发现方法，包括：

服务器发布有限个时间点的真值发现任务，将所述真值发现任务发给多个客户端；

预定数量客户端在所述有限个时间点连续上传所述真值发现任务的任务数据；

所述服务器收集所述预定数量客户端上传的所述任务数据；

所述服务器对所述预定数量客户端上传的所述任务数据进行真值发现，得到有限个时间点的任务真值集合，将所述任务真值集合作为真值发现结果。

本申请的第二方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

从上面所述可以看出，本申请提供的满足本地化差分隐私的动态真值发现方法及电子设备，在每一个时间点，客户端使用显著性检验中的单样本t检验方法判断相邻时间点间的原始数据变化是否显著，以决定是否更新真值的投票信息并在扰动后上传给服务器，服务器汇总所有客户端的投票信息决定当前时间点需要重新进行真值发现的任务，解决了需要分配隐私保护参数的时间点数量多导致的扰动误差大的问题；客户端本地扰动相应任务的数据并上传给服务器，服务器进行动态真值发现，以更新当前时间点的任务真值，解决了对客户端原始数据存在不合理要求导致的降低用户可靠程度估计准确度的问题。这样，能够在保护每一个时间点的客户端原始数据隐私的同时保证较高的真值发现准确度。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的满足本地化差分隐私的真值发现方法流程图；

图2为本申请实施例的服务器真值发现过程的流程图；

图3为本申请实施例的客户端随机采样处理的流程图；

图4为本申请实施例的客户端显著性检验的流程图；

图5为本申请实施例的客户端加入第二扰动的流程图；

图6为本申请实施例的服务器进行第二真值发现的流程图；

图7为本申请实施例的服务器进行权重计算的流程图；

图8为本申请实施例的服务器进行真值计算的流程图；

图9为本申请实施例的服务器获取权重集的流程图；

图10为本申请实施例的满足本地化差分隐私的真值发现装置结构图；

图11为本申请实施例的电子设备的结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

面对多源数据中存在的数据冲突，真值发现任务能够估计信息源可靠程度，并发现数据真值，在群智感知和众包等领域具有广泛应用。动态真值发现任务处理任务真值随时间演变的动态变化情况，需要用户随时间连续上传同一任务的数据给服务器进行连续的真值发现。然而用户的原始数据中可能包含个人敏感信息，用户在任意一个时间点直接上传原始数据都会导致原始数据中包含的用户隐私信息泄露。

动态真值发现任务主要涉及用户和服务器两种角色。服务器发布有限的时间段内任务真值会随时间演变的真值发现任务，并招募一批用户随时间连续上传相应的任务数据。服务器在每一个时间点收集用户在当前时间点上传的数据，持续进行真值发现以更新任务真值，最终得到所有时间点对应的任务真值。然而任意一个时间点均存在用户原始数据中包含的个人隐私泄露的风险，具体地，以下三种角色均可能会对每位用户的个人隐私造成威胁：(1)服务器；(2)其他用户；(3)除服务器和其他用户外的任何潜在的攻击者。

近年来在满足LDP的真值发现研究中，Y.Li等人提出了满足LDP的离散数据真值发现方法，该方法利用随机响应进行离散数据的本地扰动。Y.Li等人还提出了满足LDP的连续数据真值发现方法，该方法通过在原始数据中加入高斯噪声进行连续数据的本地扰动。然而上述方法只适用于对数据进行独立的隐私保护，动态真值发现任务需要在每一个时间点进行用户数据隐私保护，当时间域中的时间点数量很多时，使用上述方法在每一个时间点进行独立的数据扰动会导致真值发现准确度低，因为分配到每一个时间点的隐私保护参数会很小，扰动误差会很大。

而在现有的相关降噪工作中，M.Joseph等人提出了Thresh方法，该方法通过只在统计结果变化显著的时间点重新计算统计结果以达到降噪目的。然而该方法需要利用对用户原始数据分布的前提假设进行降噪，即假设用户原始数据来自于同一个二项分布，动态真值发现任务中不存在该前提假设。B.Ding等人提出了利用记忆化和离散化处理实现降噪的方法，然而该方法需要采用一比特协议解决隐私保护参数的分配问题，在动态真值发现任务中采用一比特协议会降低用户可靠程度估计的准确度，从而导致真值发现准确度低。

如图1所示，本实施例的方法包括：

步骤101，服务器发布有限个时间点的真值发现任务，将所述真值发现任务发给多个客户端。

在该步骤中，服务器指的是，群智感知和众包等领域中完成任务分配以及数据的收集分析与利用的平台。例如，移动群智感知系统中的云平台。

在上述方案中，预定数量客户端为了响应真值发现任务，需要服务器发布有限个时间点的真值发现任务。这样，真值发现任务的任务请求者通过收集客户端的数据获得期望的服务。

步骤102，预定数量客户端在所述有限个时间点连续上传所述真值发现任务的任务数据。

在该步骤中，预定数量客户端指的是，进行感知并发送感知数据的设备。例如，移动群智感知系统中的普通客户端持有的移动智能设备。

在上述方案中，预定数量客户端为了完成服务器分配的真值发现任务，预定数量客户端进行感知并发送数据。这样，服务器可以通过收集并分析预定数量客户端的感知数据完成真值发现任务。

步骤103，所述服务器收集所述预定数量客户端上传的所述任务数据。

在该步骤中，任务数据指的是，预定数量客户端发送的包括位置、事件、传感器类型、身份、竞价等信息数据。

在上述方案中，服务器为了完成真值发现任务，需要收集预定数量客户端所发送的任务数据。这样，服务器收集的任务数据为真值发现任务提供了数据基础。

步骤104，所述服务器对所述预定数量客户端上传的所述任务数据进行真值发现，得到有限个时间点的任务真值集合，将所述任务真值集合作为真值发现结果。

在该步骤中，真值发现指的是，一种从数据集中获取可靠结果的有效方法，包括权重更新和真值更新。

在上述方案中，服务器为了从预定数量客户端的任务数据中得到可靠数据，需要采用真值发现方法对收集的任务数据进行处理。这样，服务器可以在不泄露预定数量客户端隐私的情况下完成任务请求者的任务。

通过上述方案，在每一个时间点，客户端使用显著性检验中的单样本t检验方法判断相邻时间点间的原始数据变化是否显著，以决定是否更新真值的投票信息并在扰动后上传给服务器，服务器汇总所有客户端的投票信息决定当前时间点需要重新进行真值发现的任务，解决了需要分配隐私保护参数的时间点数量多导致的扰动误差大的问题；客户端本地扰动相应任务的数据并上传给服务器，服务器进行动态真值发现，以更新当前时间点的任务真值，解决了对客户端原始数据存在不合理要求导致的降低客户端可靠程度估计准确度的问题。这样，能够在保护每一个时间点的客户端原始数据隐私的同时保证较高的真值发现准确度。

在一些实施例中，步骤104如图2所示，具体包括：

步骤201，所述预定数量客户端在第一时间点向所述真值发现任务的原始数据中加入第一扰动，得到第一扰动数据，将所述第一扰动数据上传到所述服务器，所述服务器对所述第一扰动数据进行第一真值发现，得到所述真值发现任务的第一真值。

在该步骤中，在第1个时间点，每个客户端通过加入拉普拉斯噪声的方式本地扰动该时间点的所有任务的原始数据

得到第一扰动数据

并上传给服务器，服务器利用CRH(Conflict Resolution onHeterogeneous Data)方法进行真值发现。其中，

为加入的拉普拉斯噪声量，即拉普拉斯分布

的随机变量，λ为拉普拉斯分布的尺度参数，

为原始数据，

为第一扰动数据，N为客户端个数，M为任务排序号，n为客户端标号，m为任务标号。

在上述方案中，服务器为了在连续时间点持续进行真值发现任务，预定数量客户端需要在有限时间点的第一时间点采用现有技术进行扰动，服务器也采用现有技术对第一扰动数据进行真值发现，获得的第一真值可以作为后续真值发现任务的数据基础。

步骤202，所述预定数量客户端在第二时间点对所述真值发现任务进行随机采样处理，得到采样任务的投票信息，所述预定数量客户端将第二扰动加入所述投票信息后上传到所述服务器，其中，第二扰动为基于差分隐私保护参数生成的扰动。

在该步骤中，在第t个时间点，2≤t<T，每个客户端随机采样一个任务a_m∈A，并根据相邻时间点间任务a_m原始数据的变化情况决定当前时间点任务a_m是否更新真值的投票信息

其中T为动态真值发现任务中有限时间点的总数，A为任务集合{a₁,a₂,…,a_M}，投票信息

为二元变量，1表示更新真值，0表示不更新真值。其中，采样任务为a_m。

在上述方案中，客户端使用显著性检验中的单样本t检验方法判断相邻时间点间的原始数据变化是否显著，以决定是否更新真值的投票信息并在扰动后上传给服务器，解决了需要分配隐私保护参数的时间点数量多导致的扰动误差大的问题。

步骤203，所述服务器整合所述预定数量客户端的投票信息，得到整体投票信息，将所述整体投票信息与第一预定阈值进行比较。

在该步骤中，所述服务器结合客户端权重{ω_n,t-1|n∈N}整合所有客户端的投票信息得到整体投票信息

并与阈值

进行比较：当

时，任务a_m在第t个时间点重新进行真值发现；而当

时，任务a_m在第t个时间点不重新进行真值发现，延用第(t-1)个时间点的真值不变；其中

N*为任务a_m收到的客户端投票信息总数。其中，第一预定阈值为

可以设置为50％。

在上述方案中，服务器汇总所有客户端的投票信息决定当前时间点需要重新进行真值发现的任务，解决了需要分配隐私保护参数的时间点数量多导致的扰动误差大的问题。

步骤204，所述服务器响应于确定所述整体投票信息小于所述第一预定阈值，延用所述采样任务上一时间点的真值。

并与阈值

进行比较：当

时，任务a_m在第t个时间点重新进行真值发现；而当

可以设置为50％。

步骤205，所述服务器响应于确定所述整体投票信息大于等于所述第一预定阈值，将更新真值信息发送到所述预定数量客户端，所述预定数量客户端在所述第二时间点对所述真值发现任务的原始数据加入第三扰动，得到第二扰动数据，所述预定数量客户端将所述第二扰动数据上传到所述服务器，所述服务器对所述第二扰动数据进行第二真值发现，得到所述真值发现任务的第二真值，其中，所述任务数据包括所述第一扰动数据和所述第二扰动数据。

在该步骤中，服务器将第t个时间点需要重新进行真值发现的任务信息反馈回客户端，每个客户端通过加入拉普拉斯噪声的方式本地扰动当前时间点的相应任务的原始数据得到第二扰动数据

并上传给服务器；其中

服务器根据每个客户端上传的扰动数据

进行考虑客户端权重和任务真值的时间平滑性的动态真值发现，其中动态真值发现是一个迭代计算过程，通过客户端权重估计得到{ω_n,t|n∈N}，通过任务真值估计得到

并计算相邻两次迭代的聚合真值差距

与阈值

进行比较：当

时，迭代继续，进入下一轮迭代；而当

时，认为迭代已经收敛，迭代结束，得到更新后的第t个时间点的相应任务真值{o_m,t|m∈M}。其中，第二预定阈值为阈值

可以设置为0.01。

在上述方案中，客户端本地扰动相应任务的数据并上传给服务器，服务器进行考虑客户端权重和任务真值的时间平滑性的动态真值发现，以更新当前时间点的任务真值，解决了现有真值发现方法只使用当前时间点数据估计客户端权重导致的真值发现准确度低的问题。同时，也解决了对客户端原始数据存在不合理要求导致的降低客户端可靠程度估计准确度的问题。

步骤206，所述服务器将所述有限个时间点所获得的第一真值和第二真值进行聚合，得到所述任务真值集合。

通过上述方案，服务器为了从预定数量客户端的任务数据中得到可靠数据，需要采用真值发现方法对收集的任务数据进行处理。这样，服务器可以在不泄露预定数量客户端隐私的情况下完成任务请求者的任务。客户端本地扰动相应任务的数据并上传给服务器，服务器进行考虑客户端权重和任务真值的时间平滑性的动态真值发现，以更新当前时间点的任务真值，解决了现有真值发现方法只使用当前时间点数据估计客户端权重导致的真值发现准确度低的问题.

在一些实施例中，如图3所示，所述预定数量客户端所述在第二时间点对所述真值发现任务进行随机采样处理，得到采样任务的投票信息，具体包括：

步骤301，所述预定数量客户端在第二时间点对所述真值发现任务进行随机抽取，得到所述采样任务。

步骤302，所述预定数量客户端基于显著性检验建立所述采样任务的样本数据，其中，所述样本数据包括所述采样任务上一个预定时间点到当前时间点为止的原始数据。

在该步骤中，做出原假设，相邻时间点间客户端原始数据变化不显著。设置显著性水平α＝0.05，设检验原假设成立的概率为p。当p>α时，接受原假设；当p<α时，拒绝原假设。对于每一个任务a_m，基于显著性检验中的单样本t检验建立相应的样本X_m，其中样本X_m包含任务a_m从上一个真值更新时间点到当前时间点为止的所有原始数据。

步骤303，所述预定数量客户端根据所述样本数据计算所述显著性检验的统计量。

在该步骤中，单样本t检验统计量的计算公式为：

其中

为样本X_m的均值，s为样本X_m的标准差，n为样本X_m的总体数据量。

在上述方案中，客户端为了对原始数据变化的显著性做出判断，需要对相邻时间点的客户端原始数据做显著性检验。通过显著性检验的结果，对投票信息做相应的配置。

在一些实施例中，步骤303如图4所示，具体包括：

步骤401，所述预定数量客户端将所述采样任务上一个真值更新时间点的原始数据作为总体平均数。

在该步骤中，客户端以上一个真值更新时间点的原始数据作为总体平均数μ₀，衡量μ₀是否可以作为样本X_m的平均数。

步骤402，所述预定数量客户端利用所述样本数据的总体数据量计算所述样本数据的平均值和标准差。

在该步骤中，使用平均值和标准差计算公式计算样本X_m的

和s，其中，

为样本X_m的均值，s为样本X_m的标准差。

步骤403，所述预定数量客户端利用所述平均值、所述标准差、所述总体数据量和所述总体平均数计算得到所述统计量。

在该步骤中，单样本t检验统计量的计算公式为：

其中

为样本X_m的均值，s为样本X_m的标准差，n为样本X_m的总体数据量

通过上述方案，客户端为了对原始数据变化的显著性做出判断，需要对相邻时间点的客户端原始数据做显著性检验。通过显著性检验的结果，对投票信息做相应的配置。对于相邻时间点间客户端原始数据变化是否显著的具体衡量，利用了数据统计领域的显著性检验方法。显著性检验用样本推测总体，以判断样本统计量和总体统计量的差异是否显著，并对该显著差异提供了一个可量化的标准，即显著性水平。而在显著性检验中，单样本t检验用于检验样本平均数与已知的总体平均数的差异是否显著，应用于动态真值发现任务能够检验上一个真值更新时间点的原始数据与当前时间点的原始数据的差异是否显著。

步骤304，所述预定数量客户端将所述统计量输入分布表，所述分布表进行查找后，得到对比统计量。

在该步骤中，根据t分布表得到用于对比的t*值作为对比统计量，t*＝t_0.05/2,(n-1)，其中参数0.05对应显著性水平α，参数2对应双尾概率，即在一定范围内大于μ₀或者小于μ₀均可以接受。

步骤305，响应于确定所述统计量大于等于所述对比统计量，所述预定数量客户端将所述投票信息的值设置为第一预定值，以便得到所述采样任务的投票信息。

在该步骤中，当t>t*时，p<α，表示原始数据变化显著，需要更新真值，投票信息

步骤306，响应于确定所述统计量小于所述对比统计量，所述预定数量客户端将所述投票信息的值设置为第二预定值，以便得到所述采样任务的投票信息。

在该步骤中，当t<t*时，p>α，表示原始数据变化不显著，不需要更新真值，投票信息

通过上述方案，客户端使用显著性检验中的单样本t检验方法判断相邻时间点间的原始数据变化是否显著，以决定是否更新真值的投票信息并在扰动后上传给服务器，解决了需要分配隐私保护参数的时间点数量多导致的扰动误差大的问题。

在一些实施例中，如图5所示，步骤205具体包括：

步骤501，所述预定数量客户端获取差分隐私保护参数，将差分隐私保护参数除以所述有限时间点的个数，得到时间点隐私保护参数。

在该步骤中，差分隐私保护参数指的是，满足ε-LDP条件的参数ε。其中ε-LDP条件指的是，给定N位客户端，每位客户端对应一条记录，给定一个隐私保护算法M及其定义域Dom(M)和值域Ran(M)，若算法M在任意两条记录t和t’(t,t’∈Dom(M))上得到相同的输出结果t^*(t^*∈Ran(M))时能够满足下述公式，则算法M满足ε-LDP：

Pr[M(t)＝t^*]≤e^ε*Pr[M(t^’)＝t^*]

其中ε是差分隐私保护参数，ε越小，隐私保护强度越高。

时间域中总共包含T个时间点，预定数量客户端为每个时间点预留了ε₀＝ε/T的隐私保护参数。

步骤502，所述预定数量客户端根据上述投票信息对所述时间点隐私保护参数进行处理，得到所述预定隐私保护参数。

在该步骤中，客户端为投票信息分配ε₁的隐私保护参数，此时任务数据扰动能够使用

的隐私保护参数。此外可能存在某个时间点所有任务均不需要重新进行真值发现的情况，此时该时间点预先分配给任务数据扰动部分的隐私保护参数实际并没有使用，该时间点只使用了投票信息加噪部分的隐私保护参数ε₁。因此这份剩余的隐私保护参数可以分配给之后的时间点使用，即在第t个时间点，假设之前时间点剩余的隐私保护参数为ε_s，则总体隐私保护参数为ε_t＝ε₀+ε_s。

在上述方案中，这既为任务数据扰动预留更多的隐私保护参数以提高真值发现准确度，又不会因为低于现有方案分配的隐私保护参数而造成较大的误差。只要存在任务不需要在当前时间点更新真值，即M^*≤M-1，则每个任务分配的隐私保护参数

就能够成立，从而达到了减少扰动数据和真值差距的目的。

步骤503，所述预定数量客户端基于所述预定隐私保护参数生成第二扰动。

在该步骤中，每个客户端基于随机响应机制对投票信息

进行本地扰动得到

其中，随机响应机制指的是，本地化差分隐私保护技术的主流扰动机制，其主要思想是利用对敏感问题响应的不确定性对原始数据进行隐私保护。具体实现方式如下所示，并且算法经过如下所示的随机响应操作后能够满足ε-LDP的隐私保护需求:

(1)假设有一份数据的数据域为{a，b，c，d}，其数据域大小为k。有一枚非均匀的硬币，其投掷后正面朝上的概率如以下公式所示:

(2)假设客户端A拥有的原始数据为a。投掷(1)中该枚非均匀的硬币进行数据扰动，如果该枚硬币以p的概率正面朝上则给出真实响应，扰动后的数据仍为a；如果该枚硬币以(1-p)的概率反面朝上则给出相反响应，此时从数据域的剩余数据{b，c，d}中随机均匀选择一个数据作为扰动后的数据。

在上述方案中，投票机制基于显著性检验中的单样本t检验能够较为准确地确定真值变化较显著的任务，提高了真值更新的准确度，从而提高了整体真值发现的准确度。

步骤504，所述预定数量客户端将所述第二扰动加入所述投票信息后上传到所述服务器。

在该步骤中，每个客户端将加入第二扰动后的投票信息

上传到服务器。

在一些实施例中，如图6所示，步骤205具体包括：

步骤601，所述服务器根据所述第二扰动数据采用增量更新算法对所述预定数量客户端的权重进行计算，得到第一权重值。

在一些实施例中，步骤601如图7所示，具体包括：

步骤701，所述服务器获得所述预定数量客户端权重集，从所述权重集中提取所述预定数量客户端的权重。

在该步骤中，第(t-1)个时间点的客户端权重可以衡量从第1个到第(t-1)个时间点的客户端数据的准确程度，所以本申请利用第(t-1)个时间点的客户端权重和第t个时间点的客户端数据，通过增量更新得到第t个时间点的客户端权重。利用第(t-1)个时间点的客户端权重{ω_n,t-1}和第t个时间点的客户端数据

通过增量更新得到第t个时间点的客户端权重{ω_n,t}。

在上述方案中，在保证第t个时间点客户端权重估计准确度的同时，能够保证每个时间点的数据只访问1次，从而不需要重新访问之前时间点的数据。

步骤702，所述服务器根据第二时间点前一个时间点的所述预定数量客户端的权重和第二时间点的所述预定数量客户端的所述第二扰动数据，采用增量更新算法得到第二权重。

在该步骤中，将第(t-1)个时间点的真值o_m,t-1看作是一个新客户端的数据，即第(N+1)个客户端的数据，而该新客户端的权重λ是控制时间平滑影响程度的参数，利用该新客户端的数据o_m,t-1与第N个客户端的数据

在加权平均过程中得到第t个时间点的任务真值{o_m,t}，其中

在上述方案中，服务器进行考虑客户端权重和任务真值的时间平滑性的动态真值发现，以更新当前时间点的任务真值，基于上一个时间点客户端权重的增量更新提高了客户端权重估计的准确度，从而提高了真值发现的准确度。

步骤703，所述服务器将第二权重作为第二时间点的第一权重值。

通过上述方案，动态真值发现任务中客户端上传的数据分散在各个时间点，基于上一个时间点客户端权重的增量更新提高了客户端权重估计的准确度，从而提高了真值发现的准确度。

步骤602，所述服务器采用加权平均算法对所述预定数量客户端的所述真值发现任务的真值进行计算，得到第一任务值。

在一些实施例中，步骤602如图8所示，具体包括：

步骤801，所述服务器获取第二时间点前一时间点的所述真值发现任务的真值。

步骤802，所述服务器计算第二时间点所述预定数量客户端的所述第二扰动数据与对应真值的差距的倒数，将所述倒数和所述预定数量客户端权重进行归一化操作，得到新权重。

在该步骤中，使用第(t-1)个时间点已经归一化的客户端权重，加上第t个时间点客户端数据相比于真值的差距的倒数，其中该倒数同样需要进行归一化操作以统一数据规模。将上述两值相加后再进行一次归一化操作，最终得到第t个时间点的客户端权重{ω_n,t}，其计算公式为：

步骤803，所述服务器根据所述新权重采用加权平均算法对所述预定数量客户端的所述第二扰动数据进行计算，将计算结果作为第一任务值。

通过上述方案，在客户端权重估计中需要考虑客户端权重的时间平滑性，且客户端权重与客户端数据相比于真值的差距成反比。这样，在保证第t个时间点客户端权重估计准确度的同时，能够保证每个时间点的数据只访问1次，从而不需要重新访问之前时间点的数据。

步骤603，所述服务器计算所述第一权重值和所述第一任务值的聚合真值差距。

在该步骤中，动态真值发现是一个迭代计算过程，通过客户端权重估计得到客户端权重{ω_n,t|n∈N}，通过任务真值估计得到第一任务值

并计算相邻两次迭代的聚合真值差距

步骤604，响应于确定所述聚合真值差距小于第二预定阈值，所述服务器将所述第一任务值作为所述真值发现任务的真值。

在该步骤中，聚合真值差距与阈值

进行比较：当

时，认为迭代已经收敛，迭代结束，将第一任务值第t个时间点的相应任务真值{o_m,t|m∈M}。其中，第二预定阈值为阈值

可以设置为0.01。

步骤605，响应于确定所述聚合真值差距大于等于第二预定阈值，所述服务器将所述第一任务值作为下一次真值计算的初值，直至所述聚合真值差距小于所述第二预定阈值。

在该步骤中，聚合真值差距与阈值

进行比较：当

时，迭代继续，进入下一轮迭代。其中，第二预定阈值为阈值

可以设置为0.01。

通过上述方案，动态真值发现任务中客户端上传的数据分散在各个时间点，基于上一个时间点客户端权重的增量更新提高了客户端权重估计的准确度，从而提高了真值发现的准确度。由于第(t-1)个时间点的客户端权重可以衡量从第1个到第(t-1)个时间点的客户端数据的准确程度，所以本申请利用第(t-1)个时间点的客户端权重和第t个时间点的客户端数据，通过增量更新得到第t个时间点的客户端权重。上述处理方式在保证第t个时间点客户端权重估计准确度的同时，能够保证每个时间点的数据只访问1次，从而不需要重新访问之前时间点的数据。

在一些实施例中，步骤701如图9所示，具体包括：

步骤901，所述服务器计算所述预定数量客户端的所述第二扰动数据相比于对应真值的差距，得到第一差距值。

在该步骤中，在客户端权重估计中需要考虑客户端权重的时间平滑性，且客户端权重与客户端数据相比于真值的差距成反比。其中，第一差距值为

步骤902，所述服务器将所述预定数量客户端的第一差距值除以所述预定数量客户端的所述第一差距值之和，得到第二差距值。

在该步骤中，对第一差距值进行归一化操作以统一数据规模，得到第二差距之。其中，第二差距值为

步骤903，所述服务器将所述预定数量客户端的所述第二差距值聚合后作为所述预定数量客户端的权重集。

步骤904，所述服务器按照时间点从所述预定数量客户端权重集中提取所述预定数量客户端的权重。

通过上述方案，在保证第t个时间点客户端权重估计准确度的同时，能够保证每个时间点的数据只访问1次，从而不需要重新访问之前时间点的数据。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的满足本地化差分隐私的真值发现方法。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种满足本地化差分隐私的真值发现装置。

参考图10，满足本地化差分隐私的真值发现装置包括：

发布任务模块1010，用于服务器发布有限个时间点的真值发现任务，将所述真值发现任务发给多个客户端。

上传任务模块1020，用于预定数量客户端在所述有限个时间点连续上传所述真值发现任务的任务数据。

接收任务模块1030，所述服务器收集所述预定数量客户端上传的所述任务数据。

分析任务模块1040，所述服务器对所述预定数量客户端上传的所述任务数据进行真值发现，得到有限个时间点的任务真值集合，将所述任务真值集合作为真值发现结果。

图11示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1110、存储器1120、输入/输出接口1130、通信接口1140和总线1150。其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。

处理器1110可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1120可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1120可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1120中，并由处理器1110来调用执行。

输入/输出接口1130用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1140用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1150包括一通路，在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1110、存储器1120、输入/输出接口1130、通信接口1140以及总线1150，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的满足本地化差分隐私的真值发现方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的满足本地化差分隐私的真值发现方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的满足本地化差分隐私的真值发现方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种满足本地化差分隐私的真值发现方法，其特征在于，包括：

所述服务器收集所述预定数量客户端上传的所述任务数据；

2.根据权利要求1所述的方法，其特征在于，所述服务器对所述预定数量客户端上传的所述任务数据进行真值发现，得到有限个时间点的任务真值集合，包括：

所述预定数量客户端在第一时间点向所述真值发现任务的原始数据中加入第一扰动，得到第一扰动数据，将所述第一扰动数据上传到所述服务器，所述服务器对所述第一扰动数据进行第一真值发现，得到所述真值发现任务的第一真值；

所述预定数量客户端在第二时间点对所述真值发现任务进行随机采样处理，得到采样任务的投票信息，所述预定数量客户端将第二扰动加入所述投票信息后上传到所述服务器，其中，第二扰动为基于差分隐私保护参数生成的扰动；

所述服务器整合所述预定数量客户端的投票信息，得到整体投票信息，将所述整体投票信息与第一预定阈值进行比较；

所述服务器响应于确定所述整体投票信息小于所述第一预定阈值，延用所述采样任务上一时间点的真值；

所述服务器响应于确定所述整体投票信息大于等于所述第一预定阈值，将更新真值信息发送到所述预定数量客户端，所述预定数量客户端在所述第二时间点对所述真值发现任务的原始数据加入第三扰动，得到第二扰动数据，所述预定数量客户端将所述第二扰动数据上传到所述服务器，所述服务器对所述第二扰动数据进行第二真值发现，得到所述真值发现任务的第二真值，其中，所述任务数据包括所述第一扰动数据和所述第二扰动数据；

所述服务器将所述有限个时间点所获得的第一真值和第二真值进行聚合，得到所述任务真值集合。

3.根据权利要求2所述的方法，其特征在于，所述预定数量客户端所述在第二时间点对所述真值发现任务进行随机采样处理，得到采样任务的投票信息，包括：

所述预定数量客户端在第二时间点对所述真值发现任务进行随机抽取，得到所述采样任务；

所述预定数量客户端基于显著性检验建立所述采样任务的样本数据，其中，所述样本数据包括所述采样任务上一个预定时间点到当前时间点为止的原始数据；

所述预定数量客户端根据所述样本数据计算所述显著性检验的统计量；

所述预定数量客户端将所述统计量输入分布表，所述分布表进行查找后，得到对比统计量；

响应于确定所述统计量大于等于所述对比统计量，所述预定数量客户端将所述投票信息的值设置为第一预定值，以便得到所述采样任务的投票信息；

响应于确定所述统计量小于所述对比统计量，所述预定数量客户端将所述投票信息的值设置为第二预定值，以便得到所述采样任务的投票信息。

4.根据权利要求3所述的方法，其特征在于，所述预定数量客户端根据所述样本数据计算所述显著性检验的统计量，包括：

所述预定数量客户端将所述采样任务上一个真值更新时间点的原始数据作为总体平均数；

所述预定数量客户端利用所述样本数据的总体数据量计算所述样本数据的平均值和标准差；

所述预定数量客户端利用所述平均值、所述标准差、所述总体数据量和所述总体平均数计算得到所述统计量。

5.根据权利要求2所述的方法，其特征在于，所述预定数量客户端将第二扰动加入所述投票信息后上传到所述服务器，包括：

所述预定数量客户端获取差分隐私保护参数，将差分隐私保护参数除以所述有限时间点的个数，得到时间点隐私保护参数；

所述预定数量客户端根据上述投票信息对所述时间点隐私保护参数进行处理，得到所述预定隐私保护参数；

所述预定数量客户端基于所述预定隐私保护参数生成第二扰动；

所述预定数量客户端将所述第二扰动加入所述投票信息后上传到所述服务器。

6.根据权利要求2所述的方法，其特征在于，所述服务器对所述第二扰动数据进行第二真值发现，得到所述采样任务的真值，包括：

所述服务器根据所述第二扰动数据采用增量更新算法对所述预定数量客户端的权重进行计算，得到第一权重值；

所述服务器采用加权平均算法对所述预定数量客户端的所述真值发现任务的真值进行计算，得到第一任务值；

所述服务器计算所述第一权重值和所述第一任务值的聚合真值差距；

响应于确定所述聚合真值差距小于第二预定阈值，所述服务器将所述第一任务值作为所述真值发现任务的真值；

响应于确定所述聚合真值差距大于等于第二预定阈值，所述服务器将所述第一任务值作为下一次真值计算的初值，直至所述聚合真值差距小于所述第二预定阈值。

7.根据权利要求6所述的方法，其特征在于，所述服务器根据所述第二扰动数据采用增量更新算法对所述预定数量客户端的权重进行计算，包括：

所述服务器获得所述预定数量客户端权重集，从所述权重集中提取所述预定数量客户端的权重；

所述服务器根据第二时间点前一个时间点的所述预定数量客户端的权重和第二时间点的所述预定数量客户端的所述第二扰动数据，采用增量更新算法得到第二权重；

所述服务器将第二权重作为第二时间点的第一权重值。

8.根据权利要求7所述的方法，其特征在于，所述服务器获得所述预定数量客户端权重集，从所述权重集中提取所述预定数量客户端的权重，包括：

所述服务器计算所述预定数量客户端的所述第二扰动数据相比于对应真值的差距，得到第一差距值；

所述服务器将所述预定数量客户端的第一差距值除以所述预定数量客户端的所述第一差距值之和，得到第二差距值；

所述服务器将所述预定数量客户端的所述第二差距值聚合后作为所述预定数量客户端的权重集；

所述服务器按照时间点从所述预定数量客户端权重集中提取所述预定数量客户端的权重。

9.根据权利要求6所述的方法，其特征在于，所述服务器采用加权平均算法对所述预定数量客户端的所述真值发现任务的真值进行计算，包括：

所述服务器获取第二时间点前一时间点的所述真值发现任务的真值；

所述服务器计算第二时间点所述预定数量客户端的所述第二扰动数据与对应真值的差距的倒数，将所述倒数和所述预定数量客户端权重进行归一化操作，得到新权重；

所述服务器根据所述新权重采用加权平均算法对所述预定数量客户端的所述第二扰动数据进行计算，将计算结果作为第一任务值。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任意一项所述的方法。