CN111506924B

CN111506924B - 一种差分隐私保护方法、装置及计算机可读存储介质

Info

Publication number: CN111506924B
Application number: CN202010513963.7A
Authority: CN
Inventors: 郭子亮
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2023-10-13
Anticipated expiration: 2040-06-08
Also published as: CN111506924A

Abstract

本申请提供了一种差分隐私保护方法、装置及计算机可读存储介质，该差分隐私保护方法包括：对数据记录时段内所有原始输入数据进行抽样，得到目标数据集合；基于随机指纹函数和目标保护函数，计算目标数据集合中各原始输入数据的指纹函数映射结果和保护函数映射结果；对各指纹函数映射结果和各保护函数映射结果进行差分隐私保护计算，得到隐私保护结果集合；将隐私保护结果集合发送至服务器。通过本申请方案的实施，在本地对用户应答进行扰动，可充分保证数据收集者为可信的，另外，通过随机指纹函数的设计，即使攻击者长时监听用户应答也难以有效学习到用户行为模式，从而可以有效增强用户隐私保护的效果。

Description

一种差分隐私保护方法、装置及计算机可读存储介质

技术领域

本申请涉及电子技术领域，尤其涉及一种差分隐私保护方法、装置及计算机可读存储介质。

背景技术

随着信息化时代的来临，大量来自用户的应答数据将在服务器端进行汇聚，用户数据在一定程度上会遭到隐私泄露威胁。为了在数据采集、存储及发布等环节保护用户隐私数据不被泄露，研究人员引入了隐私保护技术。

目前所广泛使用的隐私保护技术为中心化差分隐私保护技术，也即将用户原始数据集中到一个可信的数据中心，再由数据中心对用户数据进行加工，使其符合差分隐私保护的要求，然而在实际应用中，一方面，数据中心的可信度难以得到充分保证，另一方面，在遭受到网络攻击时，抗监听能力较差，从而中心化隐私保护技术的隐私保护效果仍较为局限。

发明内容

本申请实施例提供了一种差分隐私保护方法、装置及计算机可读存储介质，至少能够解决相关技术中采用中心化差分隐私保护技术时，数据隐私保护效果较为局限的问题。

本申请实施例第一方面提供了一种差分隐私保护方法，应用于客户端，包括：

对预设数据记录时段内所有原始输入数据进行抽样，得到目标数据集合；

基于预设指纹函数集合中的随机指纹函数和预设哈希函数族中的目标保护函数，计算所述目标数据集合中各所述原始输入数据的指纹函数映射结果和保护函数映射结果；

对各所述指纹函数映射结果和各所述保护函数映射结果进行差分隐私保护计算，得到隐私保护结果集合；

将所述隐私保护结果集合发送至服务器。

本申请实施例第二方面提供了一种差分隐私保护方法，应用于服务器，包括：

接收客户端发送的隐私保护结果集合；其中，所述隐私保护结果集合中的隐私保护结果通过对原始输入数据的指纹函数映射结果和保护函数映射结果进行差分隐私保护计算得到；

获取所述隐私保护结果集合中各隐私保护结果对应的第一数量统计结果；

基于预设异或过滤器将所述各隐私保护结果恢复为对应的所述原始输入数据，得到对应于所述原始输入数据的第二数量统计结果；其中，所述异或过滤器为随机指纹函数以及目标保护函数按照各所述原始输入数据在预设位置链表中的特征位置查找顺序逆序构建得到。

本申请实施例第三方面提供了一种差分隐私保护装置，应用于客户端，包括：

抽样模块，用于对预设数据记录时段内所有原始输入数据进行抽样，得到目标数据集合；

第一计算模块，用于基于预设指纹函数集合中的随机指纹函数和预设哈希函数族中的目标保护函数，计算所述目标数据集合中各所述原始输入数据的指纹函数映射结果和保护函数映射结果；

第二计算模块，用于对各所述指纹函数映射结果和各所述保护函数映射结果进行差分隐私保护计算，得到隐私保护结果集合；

发送模块，用于将所述隐私保护结果集合发送至服务器。

本申请实施例第四方面提供了一种差分隐私保护装置，应用于无线接入点，包括：

接收模块，用于接收客户端发送的隐私保护结果集合；其中，所述隐私保护结果集合中的隐私保护结果通过对原始输入数据的指纹函数映射结果和保护函数映射结果进行差分隐私保护计算得到；

获取模块，用于获取所述隐私保护结果集合中各隐私保护结果对应的第一数量统计结果；

恢复模块，用于基于预设异或过滤器将所述各隐私保护结果恢复为对应的所述原始输入数据，得到对应于所述原始输入数据的第二数量统计结果；其中，所述异或过滤器为随机指纹函数以及目标保护函数按照各所述原始输入数据在预设位置链表中的特征位置查找顺序逆序构建得到。

本申请实施例第五方面提供了一种电子装置，包括：存储器、处理器及总线，总线用于实现存储器、处理器之间的连接通信；处理器用于执行存储在存储器上的第一计算机程序和第二计算机程序，处理器执行第一计算机程序时，实现上述本申请实施例第一方面提供的方法中的步骤，处理器执行第二计算机程序时，实现上述本申请实施例第二方面提供的方法中的步骤。

本申请实施例第六方面提供了一种计算机可读存储介质，其上存储有第一计算机程序或第二计算机程序，其特征在于，第一计算机程序被处理器执行时，实现上述本申请实施例第一方面提供的方法中的步骤，第二计算机程序被处理器执行时，实现上述本申请实施例第二方面提供的方法中的步骤。

由上可见，根据本申请方案所提供的差分隐私保护方法、装置及计算机可读存储介质，对数据记录时段内所有原始输入数据进行抽样，得到目标数据集合；基于随机指纹函数和目标保护函数，计算目标数据集合中各原始输入数据的指纹函数映射结果和保护函数映射结果；对各指纹函数映射结果和各保护函数映射结果进行差分隐私保护计算，得到隐私保护结果集合；将隐私保护结果集合发送至服务器。通过本申请方案的实施，在本地对用户应答进行扰动，可充分保证数据收集者为可信的，另外，通过随机指纹函数的设计，即使攻击者长时监听用户应答也难以有效学习到用户行为模式，从而可以有效增强保护用户数据隐私的效果。

附图说明

图1为本申请第一实施例提供的应用于客户端侧的差分隐私保护方法的基本流程示意图；

图2为本申请第一实施例提供的一种保护函数确定方法的基本流程示意图

图3为本申请第一实施例提供的应用于服务器侧的差分隐私保护方法的基本流程示意图；

图4为本申请第一实施例提供的一种原始输入数据恢复方法的基本流程示意图；

图5为本申请第二实施例提供的差分隐私保护方法的细化流程示意图；

图6为本申请第三实施例提供的差分隐私保护装置的程序模块示意图；

图7为本申请第四实施例提供的电子装置的结构示意图。

具体实施方式

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决相关技术中采用中心化差分隐私保护技术时，数据隐私保护效果较为局限的缺陷，本申请第一实施例提供了一种差分隐私保护方法，应用于客户端，如图1为本实施例提供的应用于客户端侧的差分隐私保护方法的基本流程图，该差分隐私保护方法包括以下的步骤：

步骤101、对预设数据记录时段内所有原始输入数据进行抽样，得到目标数据集合。

具体的，本实施例的输入数据为用户在客户端使用过程中所输入的数据，包括但不限于表情数据、网络用语数据、配置数据、浏览时长数据、商品购买数据等。客户端在每一次用户应答事件发生时，接收事件信号并记录对应输入数据。在实际应用中，可以预先设置数据记录时段，并在预置时段内关注用户应答事件，在预置时段到达时，停止对用户输入数据进行记录。应当说明的是，本实施例在得到所有原始输入数据之后，对原始输入数据进行随机抽样，也即仅将所记录的数据中部分数据进行扰动后上传至服务器。

在本实施例一些实施方式中，对预设数据记录时段内所有原始输入数据进行抽样，得到目标数据集合包括：将预设数据记录时段内所有原始输入数据的数据总量与预设数据上传上限值进行比较；在数据总量大于数据上传上限值时，以数据上传上限值与数据总量的比值为抽样概率，对所有原始输入数据进行无放回抽样，得到目标数据集合；在数据总量小于或等于数据上传上限值时，以抽样概率为1对所有原始输入数据进行抽样，得到目标数据集合。

具体的，在本实施例中，针对客户端每次上传的数据量可以有所限制，那么则可以通过数据上传上限值来提供数据抽样参考，假设数据上传上限值为C，数据总量为N，如果C<N,则以概率C/N从所有记录N中无放回地采样，将采样结果C’作为用户应答。如果C≥N,则采样概率为1。应当理解的是，本实施例的无放回抽样是指在逐个抽取个体时，每次被抽到的个体不放回总体中参加下一次抽取，总体单位数在抽样过程中逐渐减小。

应当说明的是，在实际应用中，不同类型数据的隐私保护需求有所不同，从而本实施例中在进行数据抽样时，可以基于原始输入数据的数据类型来对应确定抽样概率，从而可以提高数据抽样的灵活性和多样性。

步骤102、基于预设指纹函数集合中的随机指纹函数和预设哈希(Hash)函数族中的目标保护函数，计算目标数据集合中各原始输入数据的指纹函数映射结果和保护函数映射结果。

具体的，在本实施例中，Hash函数族表示为H<h₀,h₁,…,h_c-1>，指纹函数集合表示为F<F₀,F₁,…,F_p-1>，假设对应于所采样的原始输入数据的样本空间被记录为S，其中任意原始输入数据标识x，根据随机选择的数值j，可以从指纹函数集合中选取对应的指纹函数F_j。本实施例通过随机指纹函数设计，增强了方案抗窃听攻击的能力。攻击者即使长时间大规模窃听用户应答，也难以有效学习到用户的行为模式，向用户提供了更好的隐私保护能力。

而对于本实施例中目标保护函数的选定，具体可以包括：从哈希函数族中随机获取哈希函数集合；采用哈希函数集合对目标数据集合中的各原始输入数据分别进行哈希运算，得到各原始输入数据的位置指标；根据位置指标将各原始输入数据分别加入至预设位置链表中的对应位置；若各原始输入数据在位置链表中均查找到对应的特征位置，则将哈希函数集合确定为目标保护函数，其中，特征位置的原始输入数据数量为1。

具体的，在本实施例中，在哈希函数族中随机挑选一个元素，该元素包括多个哈希函数，可以表示为<h₀,h₁,…,h_c-1>，然后用这c个函数对目标数据集合S中的每个原始输入数据x分别进行哈希计算，得到h₀(x),h₁(x),…,h_c-1(x)，称为x的位置指标，并将每个原始输入数据x加入位置链表H中对应下标的链表处，得到H[h₀(x)],H[h₁(x)],…H[h_c-1(x)]，某个下标对应的链表可能有一个或多个原始输入数据x，也可能没有。

进一步地，顺序遍历位置链表H，如果位置链表中某个下标对应的链表位置仅有一个原始输入数据x_i，该位置记为x_i的特征位置，则将独占该位置的x_i和对应的特征hash值入栈，并将x_i从H的所有链表位置进行移除，然后再在H中继续寻找下一个独占一个链表位置的原始输入数据，直至所有原始输入数据均能在链表中找到对应的特征位置，那么所随机选择的哈希函数集合即可以确定为目标保护函数，否则，则继续在哈希函数族中随机选择哈希函数集合重新执行上述流程。

以下以一个具体的例子对上述保护函数确定方法进行说明，如图2所示为本实施例提供的保护函数确定方法的流程示意图，假设目标数据集合表示为<x₁,x₂,x₃,x₄>，当前从哈希函数族中所随机挑选的哈希函数组合为<h₀,h₁,h₂>，通过该哈希函数组合对目标数据集合中的各原始输入数据x_i分别进行哈希计算得到：

h₀(x₁)＝a₁₀,h₀(x₂)＝a₂₀,h₀(x₃)＝a₃₀,h₀(x₄)＝a₄₀

h₁(x₁)＝a₁₁,h₁(x₂)＝a₂₁,h₁(x₃)＝a₃₁,h₁(x₄)＝a₄₁

h₂(x₁)＝a₁₂,h₂(x₂)＝a₂₂,h₂(x₃)＝a₃₂,h₂(x₄)＝a₄₂

其中，然后按照哈希计算所得到的位置指标将各原始输入数据加入位置链表H中的对应位置，某些哈希值可能相等，因此可以得到如下位置链表H：

然后顺序遍历位置链表，将链表中独占位置的原始输入数据加入队列Q，判断队列是否为空，若队列不为空，则移除队列首位的原始输入数据x_i，再对x_i和特征哈希值进行入栈处理，之后再在位置链表中所有出现x_i的位置对其进行移除，进一步再把新产生的独占位置的原始输入数据加入队列Q，直至栈中的所有元素覆盖所有原始输入数据。由此，本实施例可依次将x₄,x₁,x₂,x₃和对应的特征哈希值入栈处理，因此当前所挑选的一组哈希函数<h₀,h₁,h₂>可构成一组有效的保护函数。

在本实施例一些实施方式中，在将哈希函数集合确定为目标保护函数之后，还包括：将随机指纹函数以及目标保护函数按照各原始输入数据的特征位置查找顺序，逆序构建异或过滤器(XOR过滤器)；将异或过滤器发送至服务器。

具体的，对于一组保护函数<h₀,h₁,…,h_c-1>和对应的指纹函数F_i(x)，以找到特征位置的顺序逆序构建XOR过滤器B，使得对于任意特征位置k，对应的过滤器下标B[k]＝F_i(x)xor B[h₀(x)]xor……xor B[h_c-1(x)]。对于x，其在B中对应的c个位置指标h₀(x),h₁(x),…,h_c-1(x)依次序填充。客户端将所构建的异或过滤器发送至服务器，用于服务器进行扰动后数据的恢复，以提高隐私保护结果匹配的效率。

步骤103、对各指纹函数映射结果和各保护函数映射结果进行差分隐私保护计算，得到隐私保护结果集合。

具体的，本实施例基于隐私保护参数来进行差分隐私保护计算，隐私保护参数ε又称为隐私预算因子，客户端可以根据自身隐私保护需求来确定对应的隐私保护参数，然后使用本地差分隐私协议来对各抽样数据对应的指纹函数映射结果和保护函数映射结果，以参数ε进行差分隐私保护，得到扰动后的数据。应当说明的是，本实施例的本地差分隐私协议可以为Rappor或SH等。以Rappor为例，首先将函数映射结果转换为one-hot编码，然后对编码的每一维以预设概率进行取反，即得到扰动后的数据，本实施例各原始输入数据对应的隐私保护结果分别表示为<F_i(x)’>以及<h₀(x)’,h₁(x)’,…,h_c-1(x)’>，则对应于目标数据集合中所有原始输入数据的隐私保护结果集合为{(j,<F_i(x)’>、<h₀(x)’,h₁(x)’,…,h_c-1(x)’>)…(m,<F_m(x)’>、<h₀(x)’,h₁(x)’,…,h_c-1(x)’>)}，应当理解的是，用户随机数同时携带于隐私保护结果集合中与隐私保护结果一起上传。

步骤104、将隐私保护结果集合发送至服务器。

具体的，本实施例在本地对用户输入数据进行扰动，然后上传至服务器，无需引入可信的数据处理中心来提供隐私保护，可以向用户提供更可控的隐私保护体验。应当说明的是，为了进一步提高数据安全性，本实施例可以将隐私保护结果通过加密信道传输至服务器。

相对应的，本发明第一实施例还提供了一种差分隐私保护方法，应用于服务器，如图3为本实施例提供的应用于服务器侧的差分隐私保护方法的基本流程图，该差分隐私保护方法包括以下的步骤：

步骤301、接收客户端发送的隐私保护结果集合；

步骤302、获取隐私保护结果集合中各隐私保护结果对应的第一数量统计结果；

步骤303、基于预设异或过滤器将各隐私保护结果恢复为对应的原始输入数据，得到对应于原始输入数据的第二数量统计结果。

具体的，在本实施例中，隐私保护结果集合中的隐私保护结果通过对原始输入数据的指纹函数映射结果和保护函数映射结果进行差分隐私保护计算得到，而异或过滤器为随机指纹函数以及目标保护函数按照各原始输入数据在预设位置链表中的特征位置顺序逆序构建得到。此外，还应当说明的是，本实施例的隐私保护结果可以由客户端基于特定隐私保护参数计算得到，那么相对应的，本实施例的服务器在进行原始输入数据恢复时，可以是基于异或过滤器和相应隐私保护参数进行恢复。

此外，还应当说明的是，为了进一步提高隐私保护效果，本实施例在对隐私保护结果进行数量统计之前，还可以对所有隐私保护结果进行预处理，也即删除所有可标识数据来源的唯一标识以及时间戳等。另外，而在对隐私保护结果进行数量统计时，则可以采用批处理方式进行，可有效提升统计效率和准确性。

在本实施例中，可以根据用户随机数j，将接收到的结果分布到不同分组，每个分组分别统计隐私保护结果，(<F_i(x)’>、<h₀(x)’,h₁(x)’,…,h_c-1(x)’>，n_i),其中，n_i表示对应的次数。然后根据XOR过滤器及客户端进行隐私保护计算所使用的隐私保护参数，恢复各隐私保护结果对应的原始输入数据，即可获得用户输入数据的统计结果。

如图4所示为本实施例提供的一种原始输入数据恢复方法的流程示意图，在本实施例一种实施方式中，基于预设异或过滤器将各隐私保护结果恢复为对应的原始输入数据具体包括以下步骤：

步骤401、基于预设异或过滤器构建所有可能的输入组合；

步骤402、根据各隐私保护结果对应的第一数量统计结果以及预设隐私保护参数恢复各输入组合的近似真实值；

步骤403、基于近似真实值以及输入组合，匹配各隐私保护结果对应的原始输入数据。

具体的，本实施例的位置指标为采用目标保护函数对原始输入数据进行哈希运算得到，而每个输入组合包括位置指标以及对应的随机指纹函数。在本实施例中，根据XOR过滤器构造可能的输入组合，然后根据隐私保护结果的统计结果(<F_i(x)’>、<h₀(x)’,h₁(x)’,…,h_c-1(x)’>，n_i)和隐私保护参数ε恢复出各组合的近似真实值<F_i(x₀)’,n_i’>、<F_i(x₁)’,n_i’>…<h₀(x)’,n_j’>…<h_c-1(x)’,n_l’>，再根据恢复出的近似真实值和XOR过滤器构造出的所有可能的输入组合，利用lasso方法解方程，获取各隐私保护结果对应的原始输入数据。显然，如果F_i(x₁)’＝F_i(x₁)，则F_i(x₁)’xorB[h₀(x₁)’]xorB[h₁(x₁)]xorB[h₂(x₁)]＝TRUE，则可以将F_i(x₁)’对应为原始输入数据x₁；如果F_i(x₁)’在F_i(x₁)的基础上产生了扰动，则无法恢复为x₁，而可能对应为x₂,x₃,x₄或无匹配结果。应当理解的是，本实施例通过指纹函数值分组、异或过滤器以及位置指标的使用，可以有效改善hash值匹配多次寻址的效率问题，减少了系统误差，能够提高差分统计结果的可用性。

基于上述本申请实施例的技术方案，对数据记录时段内所有原始输入数据进行抽样，得到目标数据集合；基于随机指纹函数和目标保护函数，计算目标数据集合中各原始输入数据的指纹函数映射结果和保护函数映射结果；对各指纹函数映射结果和各保护函数映射结果进行差分隐私保护计算，得到隐私保护结果集合；将隐私保护结果集合发送至服务器。通过本申请方案的实施，在本地对用户应答进行扰动，可充分保证数据收集者为可信的，另外，通过随机指纹函数的设计，即使攻击者长时监听用户应答也难以有效学习到用户行为模式，从而可以有效增强保护用户隐私数据的效果。

本申请第二实施例提供了一种细化的差分隐私保护方法，应用于包括客户端和服务器的通信系统，如图5所示为本实施例提供的差分隐私保护方法，该差分隐私保护方法包括：

步骤501、客户端对预设数据记录时段内所有原始输入数据进行抽样，得到目标数据集合。

具体的，本实施例在预置时段内关注用户应答事件，在预置时段到达时，停止对用户输入数据进行记录，并对原始输入数据进行随机抽样，也即仅将所记录的数据中部分数据进行扰动。

步骤502、客户端基于预设指纹函数集合中的随机指纹函数和预设哈希函数族中的目标保护函数，计算目标数据集合中各原始输入数据的指纹函数映射结果和保护函数映射结果。

本实施例通过随机指纹函数设计，增强了方案抗窃听攻击的能力，攻击者即使长时间大规模窃听用户应答，也难以有效学习到用户的行为模式。

步骤503、客户端采用预设隐私保护参数对各指纹函数映射结果和各保护函数映射结果进行差分隐私保护计算，得到隐私保护结果集合。

本实施例使用本地差分隐私协议来对各抽样数据对应的指纹函数映射结果和保护函数映射结果，以参数ε进行差分隐私保护，得到扰动后的数据。

步骤504、客户端将隐私保护结果集合通过加密信道发送至服务器。

本实施例在本地对用户的原始输入数据进行扰动，然后上传至服务器，无需引入可信的数据处理中心来提供隐私保护，隐私保护行为更可控。

步骤505、服务器获取隐私保护结果集合中各隐私保护结果对应的第一数量统计结果。

具体的，本实施例可以根据用户随机数，将接收到的结果分布到不同分组，每个分组分别统计隐私保护结果。

步骤506、服务器基于预设异或过滤器构建所有可能的输入组合，并根据各隐私保护结果对应的第一数量统计结果以及预设隐私保护参数恢复各输入组合的近似真实值。

本实施例的每个输入组合包括位置指标以及对应的随机指纹函数，异或过滤器为随机指纹函数以及目标保护函数按照各原始输入数据在预设位置链表中的特征位置顺序逆序构建得到。

步骤507、服务器基于近似真实值以及输入组合，匹配各隐私保护结果对应的原始输入数据；

步骤508、服务器将第一数据统计结果中各隐私保护结果替换为对应原始输入数据，得到对应于原始输入数据的第二数量统计结果。

本实施例根据XOR过滤器及客户端进行隐私保护计算所使用的隐私保护参数，恢复各隐私保护结果对应的原始输入数据，即可获得用户输入数据的统计结果，可以有效提高隐私保护结果与原始输入数据的匹配效率。

应当理解的是，本实施例中各步骤的序号的大小并不意味着步骤执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成唯一限定。

根据本申请实施例提供的差分隐私保护方法，在本地对用户应答进行扰动，可充分保证数据收集者为可信的，并且，通过随机指纹函数的设计，即使攻击者长时监听用户应答也难以有效学习到用户行为模式，从而可以有效增强保护用户隐私数据的效果，此外，服务器基于XOR过滤器恢复原始输入数据，可有效提高隐私保护结果与原始输入数据的匹配效率。

图6为本申请第三实施例提供的一种差分隐私保护装置。该差分隐私保护装置应用于客户端，如图6中A所示，该应用于客户端侧的差分隐私保护装置主要包括：

抽样模块601，用于对预设数据记录时段内所有原始输入数据进行抽样，得到目标数据集合；

第一计算模块602，用于基于预设指纹函数集合中的随机指纹函数和预设哈希函数族中的目标保护函数，计算目标数据集合中各原始输入数据的指纹函数映射结果和保护函数映射结果；

第二计算模块603，用于对各指纹函数映射结果和各保护函数映射结果进行差分隐私保护计算，得到隐私保护结果集合；其中，差分隐私保护计算可以基于预设隐私保护参数进行；

发送模块604，用于将隐私保护结果集合发送至服务器。

在本实施例的一些实施方式中，抽样模块601具体用于：将预设数据记录时段内所有原始输入数据的数据总量与预设数据上传上限值进行比较；在数据总量大于数据上传上限值时，以数据上传上限值与数据总量的比值为抽样概率，对所有原始输入数据进行无放回抽样，得到目标数据集合；在数据总量小于或等于数据上传上限值时，以抽样概率为1对所有原始输入数据进行抽样，得到目标数据集合。

在本实施例的一些实施方式中，差分隐私保护装置还包括：确定模块，用于：在计算目标数据集合中各原始输入数据的指纹函数映射结果和保护函数映射结果之前，从哈希函数族中随机获取哈希函数集合；采用哈希函数集合对目标数据集合中的各原始输入数据分别进行哈希运算，得到各原始输入数据的位置指标；根据位置指标将各原始输入数据分别加入至预设位置链表中的对应位置；若各原始输入数据在位置链表中均查找到对应的特征位置，则将哈希函数集合确定为目标保护函数，其中，特征位置的原始输入数据数量为1。

进一步地，在本实施例的一些实施方式中，差分隐私保护装置还包括：构建模块，用于在将哈希函数集合确定为目标保护函数之后，将随机指纹函数以及目标保护函数按照各原始输入数据的特征位置查找顺序，逆序构建异或过滤器。相对应的，发送模块604还用于：将异或过滤器发送至服务器。

相对应的，本实施例中还提供了一种应用于服务器侧的差分隐私保护装置，如图6中B所示，该差分隐私保护装置主要包括：

接收模块605，用于接收客户端发送的隐私保护结果集合；其中，隐私保护结果集合中的隐私保护结果通过对原始输入数据的指纹函数映射结果和保护函数映射结果进行差分隐私保护计算得到；

获取模块606，用于获取隐私保护结果集合中各隐私保护结果对应的第一数量统计结果；

恢复模块607，用于基于预设异或过滤器将各隐私保护结果恢复为对应的原始输入数据，得到对应于原始输入数据的第二数量统计结果；其中，异或过滤器为随机指纹函数以及目标保护函数按照各原始输入数据在预设位置链表中的特征位置查找顺序逆序构建得到。

在本实施例的一些实施方式中，恢复模块607具体用于：基于预设异或过滤器构建所有可能的输入组合，其中，每个输入组合包括采用目标保护函数对原始输入数据进行哈希运算得到的位置指标以及对应的随机指纹函数；根据各隐私保护结果对应的第一数量统计结果以及预设隐私保护参数恢复各输入组合的近似真实值；基于近似真实值以及输入组合，匹配各隐私保护结果对应的原始输入数据。

应当说明的是，第一、二实施例中的差分隐私保护方法均可基于本实施例提供的差分隐私保护装置实现，所属领域的普通技术人员可以清楚的了解到，为描述的方便和简洁，本实施例中所描述的差分隐私保护装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

根据本实施例所提供的差分隐私保护装置，对数据记录时段内所有原始输入数据进行抽样，得到目标数据集合；基于随机指纹函数和目标保护函数，计算目标数据集合中各原始输入数据的指纹函数映射结果和保护函数映射结果；对各指纹函数映射结果和各保护函数映射结果进行差分隐私保护计算，得到隐私保护结果集合；将隐私保护结果集合发送至服务器。通过本申请方案的实施，在本地对用户应答进行扰动，可充分保证数据收集者为可信的，另外，通过随机指纹函数的设计，即使攻击者长时监听用户应答也难以有效学习到用户行为模式，从而可以有效增强保护用户隐私数据的效果。

请参阅图7，图7为本申请第四实施例提供的一种电子装置。该电子装置可用于实现前述实施例中的差分隐私保护方法。如图7所示，该电子装置主要包括：

存储器701、处理器702、总线703及存储在存储器701上并可在处理器702上运行的计算机程序，存储器701和处理器702通过总线703连接。处理器702执行该计算机程序时，实现前述实施例中的差分隐私保护方法。其中，处理器的数量可以是一个或多个。

存储器701可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器701用于存储可执行程序代码，处理器702与存储器701耦合。

进一步的，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的电子装置中，该计算机可读存储介质可以是前述图7所示实施例中的存储器。

该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现前述实施例中的差分隐私保护方法。进一步的，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本申请所提供的差分隐私保护方法、装置及计算机可读存储介质的描述，对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种差分隐私保护方法，应用于客户端，其特征在于，包括：

从哈希函数族中随机获取哈希函数集合；

采用所述哈希函数集合对所述目标数据集合中的各所述原始输入数据分别进行哈希运算，得到各所述原始输入数据的位置指标；

根据所述位置指标将各所述原始输入数据分别加入至预设位置链表中的对应位置；

若各所述原始输入数据在所述预设位置链表中均查找到对应的特征位置，则将所述哈希函数集合确定为目标保护函数；其中，所述特征位置的原始输入数据数量为1；

基于预设指纹函数集合中的随机指纹函数和所述目标保护函数，计算所述目标数据集合中各所述原始输入数据的指纹函数映射结果和保护函数映射结果；

将所述隐私保护结果集合发送至服务器。

2.根据权利要求1所述的差分隐私保护方法，其特征在于，所述对预设数据记录时段内所有原始输入数据进行抽样，得到目标数据集合包括：

将预设数据记录时段内所有原始输入数据的数据总量与预设数据上传上限值进行比较；

在所述数据总量大于所述数据上传上限值时，以所述数据上传上限值与所述数据总量的比值为抽样概率，对所述所有原始输入数据进行无放回抽样，得到目标数据集合；

在所述数据总量小于或等于所述数据上传上限值时，以抽样概率为1对所述所有原始输入数据进行抽样，得到所述目标数据集合。

3.根据权利要求1所述的差分隐私保护方法，其特征在于，所述方法还包括：

预先设置数据记录时段，并在所述数据记录时段内关注用户应答事件；

在预置时段到达时，停止对用户输入数据的记录。

4.根据权利要求1所述的差分隐私保护方法，其特征在于，所述将所述哈希函数集合确定为所述目标保护函数之后，还包括：

将所述随机指纹函数以及所述目标保护函数按照各所述原始输入数据的特征位置查找顺序，逆序构建异或过滤器；

将所述异或过滤器发送至所述服务器。

5.一种差分隐私保护方法，应用于服务器，其特征在于，包括：

基于预设异或过滤器将所述各隐私保护结果恢复为对应的所述原始输入数据，得到对应于所述原始输入数据的第二数量统计结果；其中，指纹函数以及目标保护函数，按照各所述原始输入数据在预设位置链表中的特征位置查找顺序逆序构建所得；

其中，客户端生成所述目标保护函数的步骤，包括：

从哈希函数族中随机获取哈希函数集合；

采用所述哈希函数集合对目标数据集合中的各所述原始输入数据分别进行哈希运算，得到各所述原始输入数据的位置指标；

根据所述位置指标将各所述原始输入数据分别加入至所述预设位置链表中的对应位置；

若各所述原始输入数据在所述预设位置链表中均查找到对应的特征位置，则将所述哈希函数集合确定为所述目标保护函数；其中，所述特征位置的原始输入数据数量为1。

6.根据权利要求5所述的差分隐私保护方法，其特征在于，所述基于预设异或过滤器将所述各隐私保护结果恢复为对应的所述原始输入数据包括：

基于预设异或过滤器构建所有可能的输入组合；其中，每个所述输入组合包括采用所述目标保护函数对所述原始输入数据进行哈希运算得到的位置指标以及对应的随机指纹函数；

根据所述各隐私保护结果对应的第一数量统计结果恢复各所述输入组合的近似真实值；

基于所述近似真实值以及所述输入组合，匹配所述各隐私保护结果对应的所述原始输入数据。

7.一种差分隐私保护装置，应用于客户端，其特征在于，包括：

第一计算模块，用于从哈希函数族中随机获取哈希函数集合；采用所述哈希函数集合对所述目标数据集合中的各所述原始输入数据分别进行哈希运算，得到各所述原始输入数据的位置指标；根据所述位置指标将各所述原始输入数据分别加入至预设位置链表中的对应位置；若各所述原始输入数据在所述预设位置链表中均查找到对应的特征位置，则将所述哈希函数集合确定为目标保护函数；其中，所述特征位置的原始输入数据数量为1；基于预设指纹函数集合中的随机指纹函数和预设哈希函数族中的目标保护函数，计算所述目标数据集合中各所述原始输入数据的指纹函数映射结果和保护函数映射结果；

发送模块，用于将所述隐私保护结果集合发送至服务器。

8.一种差分隐私保护装置，应用于服务器，其特征在于，包括：

恢复模块，用于基于预设异或过滤器将所述各隐私保护结果恢复为对应的所述原始输入数据，得到对应于所述原始输入数据的第二数量统计结果；其中，所述异或过滤器为随机指纹函数以及目标保护函数按照各所述原始输入数据在预设位置链表中的特征位置查找顺序逆序构建得到；

所述服务器的客户端包括第一计算模块，所述第一计算模块，用于从哈希函数族中随机获取哈希函数集合；采用所述哈希函数集合对目标数据集合中的各所述原始输入数据分别进行哈希运算，得到各所述原始输入数据的位置指标；根据所述位置指标将各所述原始输入数据分别加入至预设位置链表中的对应位置；若各所述原始输入数据在所述预设位置链表中均查找到对应的特征位置，则将所述哈希函数集合确定为所述目标保护函数；其中，所述特征位置的原始输入数据数量为1。

9.一种电子装置，包括：存储器、处理器及总线，其特征在于，所述总线用于实现所述存储器、处理器之间的连接通信；所述处理器用于执行存储在所述存储器上的第一计算机程序和第二计算机程序，所述处理器执行所述第一计算机程序时，实现权利要求1至4中任意一项所述方法的步骤，所述处理器执行所述第二计算机程序时，实现权利要求5或6中任意一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有第一计算机程序或第二计算机程序，其特征在于，所述第一计算机程序被处理器执行时，实现权利要求1至4中任意一项所述方法的步骤，所述第二计算机程序被处理器执行时，实现权利要求5或6中任意一项所述方法的步骤。