CN110221809A

CN110221809A - 收集与分析数据的方法与相关的装置

Info

Publication number: CN110221809A
Application number: CN201910148587.3A
Authority: CN
Inventors: 邹耀东; 振昊; 张庆瑞; 郭斯彦
Original assignee: Etron Technology Inc
Current assignee: Etron Technology Inc
Priority date: 2018-03-01
Filing date: 2019-02-28
Publication date: 2019-09-10
Anticipated expiration: 2039-02-28
Also published as: US20230060864A1; TWI840155B; TWI799722B; TW201937389A; TWI702505B; TW202328939A; US11514189B2; CN117724679A; US20190272388A1; TW202046138A; CN110221809B

Abstract

本发明公开了一种收集与分析数据的方法，所述方法包括对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串；及对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串，其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。因此，相较于现有技术，本发明可以用于保护数据的隐私以及提昇数据分析上的可利用率。

Description

收集与分析数据的方法与相关的装置

技术领域

本发明是涉及于一种收集与分析数据的方法与相关的装置，尤其涉及一种可利用一第一噪声产生步骤与一第二噪声产生步骤来对一原始数据串中的识别信息去识别化的方法与相关的装置。

背景技术

在当代社会里，数据的利用对个人用户或是机构都相当的重要，然而，两者对数据获取途径的立场并不相同。公司或者学术团体等机构希望收集用户的数据以获取有用的信息，借以提昇服务的针对性或制定发展战略。相对的，所述个人用户会将他们的数据分享给感兴趣的第三方机构以获取多种不同的潜在利益，但更希望能确保他们的隐私，例如应用程序的使用纪录、定位记录或浏览器的历史记录不被泄漏。因此，如何最大化所述个人用户的服务使用经验以及最小化所述个人用户隐私的泄漏是人们需面对的一项困境。

在现有技术中，随机响应(Randomized Response)机制(详见于参考文件[17])的使用引起了学术界相当的兴趣，且可以用于解决上述的困境。所述随机响应机制的概念，是在将数据分享给任何信任数据经手人之前，于用户端先对所述数据产生噪声。与需要仰赖可信任的第三方机构或者需要对数据的使用范围作限制的技术如集中式差分隐私(Centralized Differential Privacy)(详见于参考文件[6][7])或加密式的隐私保护(Encryption-Based Privacy-Preserving)(详见于参考文件[8][10])相对比，所述随机响应机制可以在用户端差分隐私(Local Differential Privacy)的定义下与拥有较广泛的数据的使用范围下提供严密的隐私保证。特别来说，所述随机响应机制可同时满足所述差分隐私的定义且提供严密的隐私保证，也就是说，无论隐私攻击者的背景知识与技术为何，所述个人用户具有“合理的否认(plausible deniability)”以使所述个人用户中具有高度机密的敏感信息不受所述隐私攻击者侵犯，也就是说所述随机响应机制可对所述个人用户与所述具有高度机密的敏感信息之间的连结去识别化，导致所述隐私攻击者无法侵犯所述具有高度机密的敏感信息。

所述随机响应机制最初是由Warner在1965年提出以作为收集敏感性问题的调查方法(详见于参考文件[17])。在超过40年之后，Dowrk et al.提出了稳固且数学性质严谨的定义以定义「隐私」，同时提出了所述差分隐私的概念(详见于参考文件[6])。而Kasiviswanathan et al.则提出了用于隐私学习的用户端模型(详见于参考文件[16])，并首先将所述随机响应机制与所述差分隐私连结在一起。之後，Chan et al.证明了所述随机响应机制的问题复杂度在所述用户端模型下具有一最佳下界(optimal lower bound，详见于参考文件[18])，称为用户端差分隐私。

近年来，因为所述用户端模型中并不需要信任数据经手人(trusted datacurator，详见于参考文件[15])，所以所述用户端模型的應用逐渐受到关注。另外，在实际的应用中，人们想要知道的是所有的物件中出现频率最高的物件，辨识出现频率最高的物件的问题被称为「重击手问题(heavy-hitters problem)」。因此，Erlingsson et al.提出了随机可聚合隐私保护序数响应机制(randomized aggregatable privacy-preservingordinal response，RAPPOR)(详见于参考文件[21])，其中RAPPOR在执行双层架构的随机响应机制后，可利用一布伦过滤器(Bloom filter，详见于参考文件[21])来表示真實用户端数据串并输出一模糊版本的真實用户端数据串。RAPPOR的一大贡献在于其具有用于學習統計的敏銳解码架构，其中，所述解码架构不仅可以帮助辨识出所述数据中的「重击手」，也可以用于重建對象的一频率分布。

自从RAPPOR提出以来，许多关于隐私学习的研究都是在所述用户端模型下进行。例如Fanti et al.提出了关于RAPPOR的一扩充版本(详见于参考文件[11])，其中，所述扩充版本包含新版的解码架构，以解决RAPPOR的两个问题：(1)RAPPOR所聚合的数据只能用于決定一边际频率分布(marginal distribution)，并无法決定一联合频率分布(jointdistribution)；(2)RAPPOR所聚合的所述数据只能在参照一精确的数据解码字典(precisedata dictionary)下有效的解码。然而，所述扩充版本为了解决上述RAPPOR两个问题，牺牲了精確重建数据的能力。在解码后，RAPPOR所聚合的数据只能观察到部份具有较高出现频率的用戶端数据串。

Qin et al.(详见于参考文件[23])则设计了另一具有双层架构的用户端差分隐私挖掘机制(Local Differential Privacy Miner，LDPMiner)，LDPMiner利用了一隐私预算值ε(详见于参考文件[6])以产生可能包含数据中的「重击手」的一候选集合，以及利用所述数据中在所述候选集合以外的其余数据来精准化所述候选集合。LDPMiner着重于在集值数据(set-valued data)中，而不是在分类数据(categorical data)中，辨识所述数据中的「重击手」。借此，LDPMiner进一步扩展了RAPPOR的应用方式。

Wang et al.(详见于参考文件[20])则设计了最佳化的用户端差分隐私协定(Optimizing Locally Differentially Private Protocols，OLH)，用以决定RAPPOR中的最佳化参数。然而，OLH只能用于辨识具有小范围领域的数据中的「重击手」。相对的，RAPPOR与本发明所公开的方法并没有这样的限制。另外，Sei and Ohsuga(详见于参考文件[22])提出了一对多随机虚拟样本机制(Single to Randomized Multiple Dummies，S2M)与贝叶斯定理一对多随机虚拟样本机制(Single to Randomized Multiple Dummies withBayes，S2Mb)，以及描述了应用均方误差值(mean square errors，MSEs)与詹森香農散度(Jensen-Shannon divergence，JS divergence)，其中MSEs与JS divergence都可以达到与RAPPOR相似的效用。虽然参考文件[20]与参考文件[22]对RAPPOR的發展具有重要意義，但是本发明所公开的方法和参考文件[20]与参考文件[22]具有不同的评估指标，因此本发明所公开的方法无法与参考文件[20]与参考文件[22]比较。

另外，一些不同于与RAPPOR的现有技术也启发了本发明。其中，Bassilyand Smith(详见于参考文件[14])提出了产生简洁直方图的协定。所述简洁直方图是只包含所述数据中的「重击手」出現的次數，以及顯示所述协定符合频率估計的下界。另外，Papernot etal.(详见于参考文件[13])提出了教师全体隐私聚合(Private Aggregation of TeacherEnsembles，PATE)，PATE是能够保护敏感训练数据的一算法，其中所述敏感训练数据是从用户端收集得到，且是用于机器学习的训练数据。PATE在所述敏感训练数据的不相交的子集之中训练「教师」模型(例如所述敏感训练数据是从不同的用户端收集的不同的数据，且所述不同的数据为不相交的子集)，而一「学生」模型则会集合所有所述「教师」模组的数据、加入噪声、使用加入噪声的数据进行训练，以及预测所述「学生」模型训练的结果。

另外值得注意的是，所述随机响应机制的随机性是来自于伪随机数生成器(Pseudorandom Number Generator，PRNGs)的硬币投掷控制或者密码安全伪随机数生成器(Cryptographically Secure Pseudo-Random Number Generators，CSPRNGs)(详见于参考文件[11][20][21])。然而，所述随机响应机制所產生的随机數的品質会对隐私保护的程度产生巨大的影响，且不安全性更可以直接的被看出来。更精确地来说，所述伪随机数生成器/密码安全伪随机数生成器是由软件和确定性的演算法(例如＝dev＝urandom，详见于参考文件[9])产生一序列的随机数来实现的，且只有在选择了正确的随机数种子的状况下才能保证加密的安全性。

发明内容

本发明的一实施例公开一种收集与分析数据的方法，所述方法包括对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串；及对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串，其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。

本发明的另一实施例公开一种收集与分析数据的方法，所述方法包括对具有一特征分布的一原始数据串执行一第一噪声步骤以生成具有一第一分布的一第一数据串；及对所述第一数据串执行一第二噪声步骤以生成具有一第二分布的一第二数据串，其中所述特征分布与所述第一分布之间的一第一变异度大于所述特征分布与所述第二分布之间的一第二变异度。

本发明的另一实施例公开一种收集与分析数据的装置，，所述装置包含一第一处理器及一第二处理器。所述第一处理器对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串；及所述第二处理器对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串，其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。

本发明的另一实施例公开一种收集与分析数据的装置，所述装置包含一真随机数产生器(truly random number generators，TRNGs)、一处理器单元及一输出电路。所述真随机数产生器不需使用一随机数种子来产生多个随机数；所述处理器单元基于所述多个随机数来对具有一原始特征的一原始数据串中的识别信息进行去识别化，并生成具有一第二特征的一第二数据串；及所述输出电路输出所述第二数据串至一远端服务器。

在本发明中，所述真随机数产生器应被当成本发明的重要基本架构。所述真随机数产生器是经由硬体实现，并且可利用具有不确定性的一物理事件，例如一單通量量子元件中的一铁磁层与通量传输的磁化变化，来产生一随机数序列。其中所述真随机数产生器的一起始状态是真正的未知状态(相对的，一伪随机数生成器或一密码安全伪随机数生成器的所述起始状态则是被手動保密的，并非真正的未知状态)。然而，所述真随机数产生器主要的缺点是当输入的一原始数据串的数据量增加时，所述真随机数产生器在规模上的可扩展性仍是一大障碍(尤其所述真随机数产生器的规模上的可扩展性在物联网的相关应用上更显重要)。一种克服所述缺点的方法，是采用一磁性隧道结(magnetic tunneljunction，MTJ)来实现一基于自旋電子的真随机数产生器(spintronics-based TRNG)，其中所述磁性隧道结中的自旋转移力矩(spin-transfer-torque,STT)在磁化翻转时的无法预测性可以被用来产生二位元随机数(所述二位元随机数可形成所述随机数集合)。因为所述自旋转移力矩具有高度的可扩展性，所以所述磁性隧道结可以被利用来实现所述真随机数产生器，并且可以整合到高密度、低耗能的晶片上。

在本发明中，为了达成所述原始数据串的准确分析以及強力保护對應所述原始数据串的隐私，直觉的作法是在扰动所述原始数据串的同时，通过详尽的编码技术和分析機制来确保一随机数生成演算法的随机性。因此，本发明公开了基于自旋電子的隐私可聚合随机响应机制(spintronics-based private aggregatable randomized response，SPARR)，SPARR是一种收集与分析数据的方法，且是利用所述磁性隧道结来实现多层架构的随机响应机制以符合用户端差分隐私的需求。

因此，相较于现有技术，本发明的主要贡献在于：1)本发明是所述多层架构的随机响应机制，其中所述多层架构的随机响应机制能够提昇数据分析的准确度，以及满足所述用户端差分隐私的定义；2)本发明利用所述磁性隧道结来实现所述自旋電子式真随机数产生器以产生无法预测的随机数，并将所述随机数转换成为所述二位元随机数，其中所述自旋電子式真随机数产生器可以整合到所述多层架构的随机响应机制，借此强化所述随机数生成演算法的随机性；3)本发明通过一系列的实验以验证本发明在模拟环境以及真实环境下都能发挥比现有技术更好的效果。

附图说明

图1是说明SPARR中群众感知与收集模型的示意图。

图2是说明散列编码、永久随机响应机制、瞬时随机响应机制与合成随机响应机制的示意图。

图3是说明多个原始数据串具有特征分布、多个第一数据串具有第一分布及多个第二数据串具有第二分布的示意图。

图4是从条件机率的角度来说明多层架构的随机响应机制的示意图。

图5A-5C是说明改变k、m、及N时对应到假阴性率、总变异量距离、分配质量的比较的示意图。

图6A-6C是说明改变ε时对应到假阴性率、总变异量距离、分配质量的比较的示意图。

图7A-7C是说明SPARR与RAPPOR在ε＝4时分别利用(a)正态分布、(b)zipf1分布以及(c)指数分布重建用户端的数据串的分布的示意图。

图8是说明SPARR与RAPPOR在不同ε下使用Kosarak数据集的比较的示意图。

图9是说明SPARR与RAPPOR在ε＝4下使用Kosarak数据集所重建的用户端数据串的分布的示意图。

其中，附图标记说明如下：

102 用户

104 存储服务器

106 数据分析者

b_i 布伦过滤器的生成位元

b’_i 永久随机响应机制的生成位元

s_i 瞬时随机响应机制的生成位元

s’_i 合成随机响应机制的生成位元

f、p、q 數據隱私程度的机率参数

具体实施方式

本发明公开了SPARR，SPARR与上述現有技術的差异主要有两点：(1)本发明利用一组磁性隧道结来实现一自旋電子式真随机数产生器，因此可以提供严密的隐私保护；(2)本发明是所述多层架构的随机响应机制，可以用于保护数据的隐私以及提昇数据分析上的可利用率。另外，本发明使用一假阴性率(false negative rate)、一总变异量距离(totalvariation distance)以及一分配质量(allocated mass)等指标来验证SPARR可以达成比现有技术更优秀的效果。

在本段落会详细说明与公式化SPARR的定义，其中包括可说明SPARR的一系统模型、一攻击者模型与所使用的符号。

A.所述系统模型

图1所示的所述系统模型可用来说明本发明，如图1所示，所述系统模型是一群众感知与收集模型，所述系统模型包括可无条件信任的用户102(可生成对应到用户102的数据串，所述数据串中具有对应到用户102的识别信息，所述识别信息可以识别用户102。因为所述识别信息可以识别用户102，所以所述识别信息也可以被看作是用户102的隐私)、一可半信任的存储服务器104(可收集包含所述数据串的大量数据)以及一数据分析者106(可分析所述大量数据)。在不失一般性的情况下，用户102与数据分析者106之间的授权行为可以在线或离线进行。然而，所述授权行为的相关技术超出了本发明的范围，相关技术说明请详见于参考文件[19]。

如图1所示，存储服务器104可以从用户102收集净化过的数据串。此外，分析者106从存储服务器104获得所述净化过的数据串，并可以对所述净化过的数据串进行统计分析，例如利用直方图、频率分析或其他统计方法分析用户102的应用程序使用偏好、历史活动或其他信息。對于任意净化过的数据串，SPARR可以利用一序列的步骤对所述识别信息进行去识别化(也就是净化)，并可以通过ε-差分隐私的定义来衡量，因此SPARR可提供用户102强力的“合理的否认”以提供严密的保护并使用户隐私不被泄漏。

B.所述攻击者模型

在所述系统模型下，用户102中的每一用户端的隐私数据有多种泄漏方式。假设存储服务器104与数据分析者106为半诚实的(honest-but-curious)，存储服务器104与数据分析者106可能会借由发表包含数据串的分析结果而无意中泄漏了用户102的隐私，或者在收集所述每一用户端的敏感数据时故意地侵犯了用户102的隐私。另外，多种直接的攻击方式也可能发生，例如所述攻击者可以直接偷取存储服务器104储存的包含所述数据串的大量数据、或者可以窃听用户102与存储服务器104之间的沟通。为了防止上述多种泄漏方式，本发明采用了一用户端隐私保存机制，所述用户端隐私保存机制可以在每一用户端实现，且可以在所述数据串被传送前净化所述数据串。另外，所述用户端隐私保存机制也符合所述ε-差分隐私的定义，因此可在无论隐私攻击者的背景知识与技术为何的前提下提供严密的隐私保证。

C.使用的符号

请参照图2，图2是说明散列编码(hash functions)、永久随机响应机制(permanent randomized response，PRR)、瞬时随机响应机制(instantaneous randomizedresponse，IRR)与合成随机响应机制(synthetic randomized response，SRR)的示意图。其中关于图2的详细说明如下。

本发明中，N代表被回报的数量；m代表同僚群组(cohorts)的数量；h代表散列编码的数量，其中一预处理器可用于接收一输入数据串(例如所述每一用户端的所述隐私数据)並對所述输入数据串进行散列编码以生成具有原始特征(例如，图2中所述原始数据串里具有「1」值的位元)的一原始数据串，另外，所述预处理器可以是一具有上述所述预处理器的功能的现场可编程门阵列(Field Programmable Gate Array,FPGA)，或是一具有上述所述预处理器的功能的专用集成电路(Application-specific integrated circuit,ASIC)或是一具有上述有关所述预处理器的功能的软件模块。；k代表一布伦过滤器的尺寸；p、q及f代表數據隱私程度的机率参数；b_i、b′_i、s_i及s′_i分别代表所述布伦过滤器的生成位元、所述永久随机响应机制的生成位元、所述瞬时随机响应机制的生成位元及所述合成随机响应机制的生成位元；ε代表差分隐私的隐私预算值；q′代表当b_i被设成1时，s′_i产生1的机率；p′代表当b_i被设成0时，s′_i产生1的机率；以及A代表用户端數據串的数量。

初步背景说明

本段落会初步说明所述差分隐私的定义与随机响应机制的详细内容。

A.所述差分隐私与所述随机响应机制

所述差分隐私(详见于参考文件[6])的概念是确保特定机制作用于相邻的集合所得到的输出会具有几乎相同的机率分布。也就是说，若两集合之间只有一单独数据的差异，则所述单独数据的存在与否并不会显着地影响到所述特定机制对应所述两集合的输出。

更进一步地解释，首先假设一宇集D包含所有不同的元素(例如在本发明中，宇集D可以包含原始数据串中所有可能出现的数据组合)。在数学表示上，因为多重集可以用来表达所有可能的元素组合，所以可以使用多行结构的多重集来表示宇集D，而所述多重集可以被视为是宇集D包含的所有可能的元素组合。而在差分隐私的架构下，宇集D可以被视为由一可信任数据经手人所持有。另外对于宇集D中的两个集合D1、D2，如果集合D1、D2之间的一汉明距离(Hamming distance)H(D1；D2)＝1，则集合D1、D2被称为相邻的集合。

如果一随机化演算法M符合所述ε-差分隐私的定义，则所述随机化演算法M的值域以及相邻的集合D1、D2的关系可以用式(1)来表达:

Pr[M(D₁)∈S_M]≤e^ε×Pr[M(D₂)∈S_M] (1)

如式(1)所示，其中所述随机化演算法M输出的机率(Pr)是来自于所述随机化演算法M包含的一硬币投掷机制，以及ε称为所述差分隐私的所述隐私预算值。其中ε可以决定所述差分隐私定义下的隐私泄漏程度，较小的ε可以提供较高的隐私保护，但也会使所述随机化演算法M的输出精确度下降。

而在用户端执行的所述差分隐私(详见于参考文件[16])，又称为用户端差分隐私，则提供了不存在所述可信任的所述数据经手人的架构。此时所述用户端可利用所述随机化演算法M处理所述用户端的数据后再传送给所述数据经手人。在这样的状况下，宇集D会因为所述随机化演算法M的处理而成为一数据串d，以及集合D1、D2也会对应地成为两相异的数据串d1与d2。此时，如果所述随机化演算法M符合所述ε-差分隐私的定义，则所述随机化演算法M的值域以及数据串d1、d2的关系可以用式(2)来表达:

Pr[M(d₁)∈S_M]≤e^ε×Pr[M(d₂)∈S_M] (2)

如式(2)所示，所述随机化演算法M输出的机率(Pr)是来自于所述随机化演算法M包含的所述硬币投掷机制。

与所述差分隐私相对应，所述随机响应机制(详见于参考文件[17])则是一项在所述差分隐私之前就已经发展出来的方法。所述随机响应机制是用来获取一个体的回答的调查方法，其中所述个体的回答是关于敏感性问题的回答(例如，「你是否为同性恋？」)。所述随机响应机制利用秘密性的一硬币投掷结果以形成一随机事件，也就是说，所述个体在回答问题前，会先秘密地投掷硬币，并根据投掷硬币的结果回答问题，其中所述个体只会在所述硬币投掷结果为反面时诚实的回答问题，否则所述个体将再一次地投掷硬币，并根据再一次地硬币投掷结果提供假的回答(例如，当再一次的硬币投掷结果为正面时，个体回答「是」；而再一次的硬币投掷结果为反面时，个体回答「否」)。因为所述随机响应机制利用所述硬币投掷结果形成所述随机事件来保护所述个体的隐私，所以所述随机响应机制已经被证明是一有效满足用户端差分隐私的方法(详见于参考文件[18])。

SPARR

SPARR包含两关键的技术特徵，分别是多层架构的随机响应机制与基于自旋電子特性实现的编码技术，用以实现具有严密的隐私保护程度且高实用性的真随机响应机制。

A.所述多层架构的随机响应机制

本发明利用上述硬币投掷的观点来描述SPARR。首先，所述用户102中的每一用户端会被永久地分配到m个同僚群组中的一同僚群组，以及所述m个同僚群组中的每一同僚群组是利用了h组散列编码中的不同组散列编码。为了简化说明，本段落的说明考虑了m＝1的状况(也就是说，所有用户端都属于同样的同僚群组，而且是进行同组散列编码)。则本发明将所述输入数据串散列到一具有尺寸k的一布伦过滤器B。因此，布伦过滤器B中的每一生成位元b_i会在经过三个层级的扰动后被回报，其中所述三个层级是由四次特定的硬币投掷(硬币1、硬币2、硬币3、硬币4)的四次扰动结果来决定的。表1示出了所述四次扰动中所述四次硬币投掷中每一硬币投掷的机率，其中所述每一硬币投掷的机率会落在0到1的区间。

表1，SPARR的所述四次硬币投掷的机率，其中f∈[0；1),p∈(0；1),q∈(0；1)，以及p≠q

所述三个层级的第一层级是所述永久随机响应机制。所述永久随机响应机制的生成位元b′_i是由硬币1与硬币2的投掷结果所产生的，其中硬币1是一不平均的硬币(硬币1的投掷结果出现正面的机率是f)。如果硬币1的投掷结果出现正面，则生成位元b′_i会由硬币2的投掷结果来决定，其中硬币2是一平均的硬币(硬币2的投掷结果出现正面的机率是1/2)。

如果硬币1的投掷结果出现反面，则所述第一层级不会进行其他动作，并将生成位元b_i的原始值当作生成位元b′_i的值输出到下一层级。所述三个层级的第二层级是所述瞬时随机响应机制，其中所述瞬时随机响应机制提供了纵向的隐私保护(详见于参考文件[4])，其中一第一处理器根据一真随机数生成器产生的一第一随机数集合，对所述原始数据串至少一次地执行一所述永久随机响应机制以生成一暂时数据串(如图2所示)，以及根据所述真随机数生成器产生的一第二随机数集合，对所述暂时数据串至少一次地执行一所述瞬时随机响应机制以生成具有一第一特征的一第一数据串(如图2所示)。另外，所述永久随机响应机制与所述瞬时随机响应机制是包含于一第一噪声步骤，以及在所述第一处理器对所述原始数据串執行所述第一噪声步骤后，所述原始数据串中的识别信息被去识别化。另外。所述第一处理器可以是一具有上述所述第一处理器的功能的现场可编程门阵列，或是一具有上述所述第一处理器的功能的专用集成电路，或是一具有上述所述第一处理器的功能的软件模块。

生成位元s_i(对应到所述瞬时随机响应机制)是由硬币3的投掷结果所产生的。值得注意的是，生成位元b′_i会影响硬币3的机率。如果生成位元b′_i＝1，则硬币3的投掷结果出现正面的机率是q，反之，则硬币3的投掷结果出现正面的机率是p。事实上，所述第一层级与所述第二层级可以确保所述原始数据串的隐私但同时损失所述原始数据串中的部份信息，造成後续数据分析的不准确。

一种提昇所述数据分析的准确性的直觉作法是从所述原始数据串获取更多的特征，同时维持所述原始数据串的隐私保护。因此，所述三个层级的第三层级是所述合成随机响应机制，其中所述第三层级是在所述永久随机响应机制与所述瞬时随机响应机制的基础下建立在SPARR的架构里，并且可以强化生成位元s′_i中所包含的生成位元b_i的特征，同时维持生成位元s′_i的随机性。其中一第二处理器根据所述真随机数生成器产生的一第三随机数集合，对所述第一数据串至少一次地执行一所述合成随机响应机制以生成一具有第二特征的一第二数据串(如图2所示)，以及所述合成随机响应机制是包含于一第二噪声步骤。另外，所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度(如图2所示)。

也就是说，所述合成随机响应机制可以复原以及强化所述原始特征以使所述第二数据串近似于所述原始数据串。例如，图2所述原始数据串里具有「1」值的位元与所述第二数据串里具有「1」值的位元相似。本发明因此可利用生成位元s′_i有效率的重建所述输入数据串，即便所述原始数据串具有较低的出现的频率。如表1所示，所述合成随机响应机制可以控制硬币4，其中所述合成随机响应机制是用于减少所述永久随机响应机制与所述瞬时随机响应机制所造成的对应到所述永久随机响应机制与所述瞬时随机响应机制的输出的位移(例如，图2中所述第二数据串与所述原始数据串之间相较于所述第一数据串与所述原始数据串之间、所述暂时数据串与所述原始数据串之间都具有较小的位移)。本发明通过对生成位元b_i、b′_i、与s_i的合成考量设计了硬币4的机率，其中当生成位元b_i、b′_i、与s_i中出现1的机率愈大时，硬币4出现正面的机率就愈大。例如，当生成位元b_i、b′_i、与s_i中的其中两个生成位元为1时，硬币4出现正面的机率是2/3。另外，所述布伦过滤器、所述永久随机响应机制、所述瞬时随机响应机制与所述合成随机响应机制都是在所述每一用户端上执行，以及一输出电路可以将所述原始数据串、所述第一数据串与所述第二数据串输出至因特网上的一服务器。

请参照图3，图3是说明多个原始数据串具有特征分布、多个第一数据串具有第一分布及多个第二数据串具有第二分布的示意图。在本发明的另一实施例中，在所述预处理器對多个输入数据串(例如所述每一用户端的所述隐私数据)进行散列编码以生成所述原始数据串后，所述原始数据串具有所述特征分布；在所述第一处理器对所述原始数据串执行所述永久随机响应机制以及对所述暂时数据串執行所述瞬时随机响应机制以生成所述第一数据串后，所述第一数据串具有所述第一分布；以及在所述第二处理器對所述第一数据串執行所述合成随机响应机制以生成所述第二数据串后，所述第二数据串具有所述第二分布。因此，当因特网上的所述服务器接收到所述多个原始数据串、所述多个第一数据串与所述多个第二数据串时，所述服务器可以根据所述多个原始数据串的所述特征分布、所述多个第一数据串的所述第一分布与所述多个第二数据串的所述第二分布绘制出图3，其中如图3所示，所述特征分布与所述第一分布之间的一第三变异度大于所述特征分布与所述第二分布之间的一第四变异度。

另外，在本发明的另一实施例中，一收集与分析数据的装置包含一真随机数产生器、一处理器单元、一预处理器及一输出电路，其中所述处理器单元包含一第一处理器及一第二处理器。所述真随机数产生器所述真随机数产生器不需要使用一随机数种子来产生多个随机数(例如一第一随机数集合、一第二随机数集合及一第三随机数集合)。所述预处理器可接收一输入数据串(例如，所述每一用户端的所述隐私数据)及对所述输入数据串进行散列编码以生成具有一原始特征的一原始数据串(例如，图2中所述原始数据串里具有「1」值的位元)。在所述原始数据串生成后,所述第一处理器可以根据所述第一随机数集合与所述第二随机数集合，对所述原始数据串执行一第一噪声步骤(包含所述永久随机响应机制与所述瞬时随机响应机制)对所述原始数据串进行去识别化以生成具有一第一特征的一第一数据串；以及在所述第一数据串生成后,所述第二处理器可以根据所述第三随机数集合，对所述第一数据串执行一第二噪声步骤(包含所述合成随机响应机制)以生成具有一第二特征的一第二数据串，其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。另外，所述输出电路可以输出所述第二数据串至一远端服务器(其中所述远端服务器可以存在于因特网上)。

综上所述，本发明可以从条件机率的角度来定量解释SPARR。如图4所示，所述三个层级的每一层级都可以在生成位元b_i＝1或生成位元b_i＝0的条件下进行。其中为了简化说明，本发明使用{·}代表si在bi下的条件机率P{si|bi}。

另外，本发明具有下列引理1与引理2：

引理1.当所述布伦过滤器的生成位元b_i为1时，用于回报结果的生成位元s′_i产生1的机率如式(3)所表示：

引理2.当所述布伦过滤器的生成位元b_i为0时，用于回报结果的生成位元s′_i产生1的机率如式4所表示：

其中引理1与引理2可由图4得到证明。

当SPARR需要对生成位元s′_i解码时(例如需要进行数据分析时)，解码时需要测量有多少数量t_i的生成位元b_i需要被重建(也就是布伦过滤器B的生成位元b_i的值为1的次数)。本发明以c_i表达在N个被回报的生成位元s′_i中，生成位元s′_i的值为1的次数。因此，c_i的期望值可以如式(5)所表示：

E(c_i)＝q′t_i+p′(N-t_i) (5)

因此可以求得

B.自旋电子式的编码(Spintronics-based Encoding)

如本发明在所述随机响应机制的定义中的描述，SPARR的输出的机率是来自于所述随机化算法M包含的一硬币投掷机制。也就是說，所述硬币投掷机制的结果可以被视为是所述随机化算法M产生的随机位元所组成的随机位元串。为了确保所述随机位元串的随机性，可以使用一真随机数产生器来取代传统上使用的一伪随机数生成器或一密码安全伪随机数生成器。

本发明使用了所述组磁性隧道结来实现所述真随机数产生器，所述真随机数产生器可以被视为所述自旋电子式真随机数产生器。控制所述组磁性隧道结来产生所述随机位元的方法如下。所述组磁性隧道结中的一磁性隧道结具有两种状态(详见于参考文件[12][3]):反平行状态(Anti-parallel，AP状态)与平行状态(Parallel，P状态)，其中所述反平行状态与所述平行状态分别对应到二位元的数值0与1。所述磁性隧道结的一起始状态(也就是一随机数种子)是未知，因此所述磁性隧道结并不需要所述起始状态。因此，因为所述磁性隧道结并不需要所述起始状态，所以所述磁性隧道结并不需要使用所述起始状态(也就是所述随机数种子)产生多个随机数，因此防止了所述起始状态(也就是所述随机数种子)的一规律性问题造成的用户隐私泄漏。当所述磁性隧道结中的自旋转移力矩导入一电流脉冲进入所述磁性隧道结以翻转所述磁性隧道结中的一自由层的磁性时，所述自由层的磁性会被所述电流脉冲激化至一分叉点。在所述分叉点上，一热搅动效应可以造成一微小的随机磁性偏差。接着，所述自由层的磁性会分别以50％的机率被释放到所述反平行状态或所述平行状态。最终，本发明可以测量所述磁性隧道结的一电阻来判断所述磁性隧道结的状态是所述反平行状态或所述平行状态，因此本发明可以产生所述随机位元。

为了确保所述随机数串的随机性，本发明利用所述组磁性隧道结的自旋转移力矩的随机性独立地形成八组子系统来产生一随机位元串R_i。因此，所述随机数串的最终输出会经过三层的互斥或运算(exclusive OR，XOR)而生成(如式(6)所示)。

在式(6)中，XOR³代表所述三层的互斥或运算，并代表所述随机位元串的最终输出。值得注意的是，所述磁性隧道结是具有高耐性、低功率与快速存取性质的一新兴的磁性材料。进一步地，所述磁性隧道结容易整合到许多的设备中(例如物联网的相关设备)。再进一步地，所述磁性隧道结更是使用在一自旋转移力矩磁随机存取存储器(Spin-TransferTorque Magnetic Random Access Memory，STT-MRAM)的材料。STT-MRAM这种非易失性存储器因为具有足以比拟动态随机存取存储器(Dynamic Random Access Memory，DRAM)、静态随机存取存储器(Static Random-Access Memory，SRAM)与低成本闪存(low cost flashmemory)的高效能，所以具有成为引领性的存储设备的潜力。因此，所述磁性隧道结具有的优点是本发明使用所述组磁性隧道结作为组成组件的主要原因。

如本发明在「所述多层架构的随机响应机制」的描述中提到，所述瞬时随机响应机制是用于数据保护的一重要程序，其中所述瞬时随机响应机制基于所述永久随机响应机制所回报的固定的生成位元，在每一次所述瞬时随机响应机制的回报中产生不同的生成位元，避免了重复性地收集数据时隐私泄漏的风险。因此，所述瞬时随机响应机制的随机性决定了所述瞬时随机响应机制所提供的纵向的隐私保护的程度。另外，本发明使用所述多个磁性隧道结来实现所述真随机数产生器，其中所述真随机数产生器是基于具有不确定性的一物理事件来产生所数随机数。然而，所述多个磁性隧道结只能产生所述随机位元，因此，本发明需要另外设计一种将所述随机位元对应到0与1之间的随机数值的方法。

演算法1展示了利用所述组磁性隧道结产生所述随机数值的程序。其中因为随机位元长度l会决定所述随机数值的粒度(granularity)，所以随机位元长度l需要被仔细地选择。首先，本发明初始化所述组磁性隧道结并独立地操作多个磁性隧道结以产生l个所述随机位元，并执行所述三层的互斥或运算以产生一随机位元序列x(其中x＝XOR³，见于演算法1的第2列)。最后，随机位元序列x会经过float(x/(2^l-1))的方程被转换成一随机数x^*(其中float()方程会对方程的输入取浮点数，见于演算法1的第3列)。

演算法1:TRNG()

输入:随机位元长度l∈N

输出:随机数x^*

1初始化多个磁性隧道结并产生l个随机位元；

2执行三层的互斥或运算以产生随机位元序列x＝XOR³；

3将随机位元序列x转换为随机数x^*

x^*＝float(x/(2^l-1))；

4输出x^*

演算法2展示了SPARR中利用TRNG()对随机数据编码(也就是回报所述瞬时随机响应机制的生成位元s_i)的程序。对所述生成位元b′_i，TRNG()会被用以产生随机数x^*(见于演算法2的第1列)，以及随机数x^*会被与机率比较(见于演算法2的第2列)。当随机数x^*比机率小时，生成位元s_i会输出1；否则生成位元s_i会输出0(见于演算法2的第2-5列)。

演算法1:利用TRNG()对随机数据编码

输入:永久随机响应机制的生成位元b′_i，以及机率参数p，q

输出:编码后的生成位元s_i

1 x^*＝TRNG()；

2 当则

3 s_i＝1

4 反之

5 s_i＝0

6 循环结束

7 输出s_i

系统分析

A.差分隐私保证

定理1.SPARR是符合ε-差分隐私的一演算法，其中ε的定义如式(7)所示:

在不失一般性的状况下，本发明假设va与vb是相异的两输入数据串，以及对应所述两输入数据串的布伦过滤器的生成位元b_i如式(8)所示(其中va与vb中对应生成位元b_i的集合以B_a与B_b表示):

则根据引理1与引理2，可以得知本发明的生成位元s′_i是一具有伯努利分布的随机变量，以及在不同状况下所对应的条件机率的概率质量函数如式(9)-式(12)所示:

以及

则

以及

假设比值RP是对应Ba与Bb的条件机率的比值，以及S是对应S′所有可能的输出，则利用参考文件[21]的观察1所得到的结论，RP可以经由式(13)的推导得到:

如式(13)所示，其中s′₁＝...＝s′_h＝1以及s′_h+1＝...＝s′_2h＝0。

为了满足所述差分隐私的定义，比值RP必须被e^ε所限制。因此，本发明可以利用式(7)来计算隐私预算值ε。

B.所述多个磁性隧道结所产生的所述随机位元的随机性分析

优秀的随机数必须符合不可预测性的要求，也就是说所述随机数不该具有规律性。特别地来说，优秀的随机位元也必须符合均匀性的要求，也就是说所述随机位元中包含的0与1应该具有概略相同的出现频率。正式地来说，在利用所述多个磁性隧道结得到所述随机位元后，本发明利用一统计测试套件NIST-SP800(详见于参考文件[2])以测试本发明的所述随机位元，其中NIST-SP800提供多种统计测试的方式(详见于参考文件[2]的第二段落)。

表2,所述多个磁性隧道结产生的的所述随机位元在NIST-SP800的统计测试结果

在八种特定的统计测试的方式下，本发明在表2中计算出通过所述统计测试的序列比例以指示所述随机位元是否通过所述统计测试。如表2所示，当1000个序列(其中每一序列包含100个所述随机位元)被用以当作测试目标时，除了随机偏移(变体)的例外之外，通过测试的序列比例大约为986/1000，表示所述随机位元通过了NIST-SP800的统计测试。

实验评估

在本段落中，本发明会详细的比较RAPPOR与SPARR。虽然Fanti et al.(详见于参考文件[11])提出了关于RAPPOR的一扩充版本，所述扩充版本主要关注在不需要一精确的数据解码字典时估算用户端数据串。然而，参考文件[11]中的估算的准确度只与RAPPOR相似或是比RAPPOR更低。因此，本发明无法与参考文件[11]比较。

在本段落的A中，本发明会介绍三种指标用来评估RAPPOR与SPARR。在本段落的B中与C中，本发明会使用三种模拟范例以及一种真实世界范例来各自评估本发明。所述三种模拟范例分别使用正态分布(normal distribution)、zipf1分布(zipf1distribution)与指数分布(exponential distribution)来演示当RAPPOR与SPARR中的ε、k、m与N值变化时造成的影响。而所述真实世界范例是用来演示当RAPPOR与SPARR中的ε值变化时造成的影响。

A.结果指标(Resultant Metrics)

假设A代表用户端的數據串的数量，以及a_i(i∈{1,2,...,A})是每一用户端的數據串的比例。令Rr与Rs分别代表RAPPOR与SPARR重建的不同用户端的數據串，以及τ_ri与τ_si代表所述重建的不同用户端的數據串的比例。

在此，本发明利用所述假阴性率来分析RAPPOR与SPARR在寻找特定数据串时失败的程度。为了简化说明，FNr与FNs分别代表RAPPOR与SPARR的假阴性率。正式地来说，FNr与FNs的定义如式(14)所示：

所述总变异量距离是用来测量两机率分布的一距离。粗略地来说，所述总变异量距离是所述两机率分布中被分配到同一事件的机率的最大距离。在一有限的机率空间中，所述总变异量距离在性质上是与l1有关。为了简化说明，TVr与TVs分别代表RAPPOR与SPARR的总变异量距离。正式地来说，TVr与TVs的定义如式(15)所示：

如式(15)所示，1/2是将所述总变异量距离限制在0到1之间的一标准化常数。

所述分配质量是所述重建的不同用户端的數據串的总比例。为了简化说明，本发明使用AMr与AMs分别代表RAPPOR与SPARR的分配质量。正式地来说，AMr与AMs的定义如式(16)所示：

B.模拟结果

在说明上述结果指标后，本发明首先使用一序列的模拟来比较RAPPOR与SPARR，并将实验分成两个部份。

在第一个部份，本发明改变k、m与N的值，影响了RAPPOR与SPARR的准确度但不影响隐私保护的程度。更详细地说，本发明将ε固定为4，对RAPPOR与SPARR来说都是相对疏鬆的。因此，本发明可以忠实地观察k、m与N对RAPPOR与SPARR的准确度的影响。本发明在第二个部份中设为k＝8、m＝56以及n＝1000000，这些数值在第一个部份被证实是RAPPOR与SPARR下的最佳状况。接着，本发明通过调整h、f、p及q的值分别将ε的值设定为1到4，并应用不同的机率分布来观察不同保护程度所造成的影响。

1)改变k、m与N的值所造成的影响：不同的测试范例与对应的实验结果请参照表3以及图5A-5C。本发明只显示基于正态分布的关键实验结果，但不会影响本发明在说明上的一般性。

(a)

(b)

(c)

表3，在k、m与N的不同数值模拟的结果指标(对应到假阴性率、总变异量距离、分配质量)

在范例(a)中，本发明分别将k值设定为4到32。和RAPPOR相比，SPARR平均可以降低37％的所述假阴性率，以及降低13％所述总变异量距离。同时，SPARR平均可以提昇14％的所述分配质量。更详细地来说，SPARR的优点在k值逐步地减少时会变得更加突出，代表SPARR在具有低频宽的苛刻的网络环境下仍然可以达到良好的数据预测准确度。

同僚群组的数量m会影响两个数据串在所述布伦过滤器中的碰撞机率。为了确保准确度，需要在N与m的值之间权衡。在范例(b)中，当m值分别设定为16到64，SPARR平均可以显着地降低37％的所述假阴性率与降低13％的所述总变异量距离，以及维持所述分配质量大约等于1。

在范例(c)中展示了较少的数据量所述重建的不同用户端的數據串的数量以及被回报的数量N的关系。和RAPPOR相比，SPARR平均可以显着地降低45％的所述假阴性率、降低22％的所述总变异量距离与降低24％的所述分配质量。表示了SPARR可以利用较少的数据量来准确地测量不同的用户端数据串的分布。明确地来说，即使具有较少的数据量，SPARR仍然可以在一般平台上使用。

2)改变ε的值所造成的影响：本发明在表4以及图6A-6C中展示了对于不同的机率分布(其中图6A对应正态分布、图6B对应zipf1分布、图6C对应指数分布)，当ε值分别设定为1到4时所造成的影响，其中设定k＝8、m＝56以及n＝1000000。和RAPPOR相比，当所述数据串具有的机率分布是正态分布时，SPARR平均可以改进51％的所述假阴性率、改进20％的所述总变异量距离与改进18％的所述分配质量。当所述数据串具有的机率分布是zipf1分布时，SPARR平均可以改进67％的所述假阴性率、改进16％的所述总变异量距离与改进17％的所述分配质量。当所述数据串具有的机率分布是指数分布时，SPARR平均可以改进55％的所述假阴性率、改进17％的所述总变异量距离与改进15％的所述分配质量。很明显地，根据上述指标，无论所述数据串具有何种机率分布，SPARR都可以拥有比RAPPOR更好的表现。

(a)

(b)

(c)

表4，在ε的不同数值模拟的结果指标(对应到假阴性率、总变异量距离、分配质量)

更直觉地，本发明评估所述用户端数据串在三种机率分布(正态分布、zipf1分布、指数分布时)下重建的分布与所述用户端数据串的真实频率来比较SPARR与RAPPOR，如图7A-7C所示(其中图7A对应正态分布、图7B对应zipf1分布、图7C对应指数分布)，其中纵轴表示频率的比例。图7A-7C在ε＝4的条件下设定k＝32、m＝56以及n＝1000000。值得注意的是，为了公平地比较SPARR与RAPPOR，本发明选择了对SPARR与RAPPOR来说的最佳范例，也就是ε＝4的状况。根据图7A-7C，与RAPPOR比较，SPARR明显地改进了在低频率下所述用户端数据串的侦测能力并同时维持所收集的数据串的高重建能力。

C.真实世界范例

除了模拟数据的范例之外，本发明也对SPARR与RAPPOR提供了真实世界的数据集。明确地来说，所述数据集是来自参考文件[1](用于挖掘数据集的频率物件集存储库，Frequent Itemset Mining Dataset Repository，由Ferenc Bodon提出)中的Kosarak数据集。Kosarak数据集纪录了关于41270个不同网站的990000次的点击动作回报，而网站管理者可以透过测量点击动作知道各个网站的造访数量。在不失一般性的情况下，本发明只使用了所述不同网站的其中100个最常被造访的网站。与上述段落的实验设定相似，本发明设定k＝32、m＝56以及n＝1000000，以及ε设定为1到4，并在间隔(interval)为0.5的状况下进行实验。

因为所述随机响应与统计推断上的限制，本发明仍需要一大量的回报以找出不同网站以及对应不同网站的点击动作。如同在参考文件[7][13]提到的，这也是在隐私保护与数据使用性之间的权衡。然而，如同後续的展示，本发明可以在达到更好得隐私保护的同时，重建更多具有较低点击率(click through rate，CTR)的网站。

实验结果如表5以及图8所示。可以很明显地看到在相同的ε下，与RAPPOR相比，SPARR具有较低的假阴性率以及较低的总变异量距离，同时牺牲了较少的分配质量。随着ε的值减少，SPARR的优点会变得更加明显。图9可以很明显地显示出SPARR与RAPPOR利用Kosarak数据集在ε＝4的情况下重建的所述用户端数据串的分布。值得注意的是，当聚焦于具有较高点击率的网站时，本发明并不会忽略具有重要意义但是在长尾(long tail)的网站，例如对特定族群提供特定主题的网站。可以看到因为SPARR可以在独立于点击率的状况下重建几乎所有的网站，所以SPARR比RAPPOR具有更好得公平性。

表5，在ε的不同数值下对真实世界范例模拟的结果指标(对应到假阴性率、总变异量距离、分配质量)

结论

SPARR是基于所述组磁性隧道结的物理事件的一种实际的数据保护机制，用于众包(crowdsourced)的数据收集且具有高利用率以及数学上严格的隐私保证。SPARR利用所述组磁性隧道结来实现所述自旋電子式真随机数产生器以产生真随机数。因为所述自旋電子式真随机数产生器以及四次特定的硬币投掷设计，所以SPARR可以保护隐私以及从所述用户端收集的数据形成的众包分布统计，并精准的对数据解码。另外，本发明也可以在内存计算中应用深度学习技巧以提昇数据分析的效率以及准确度，并且可以在大部分的数据分析应用上应用本发明。

参考文件:

[1]Kosarak.Available at http://fimi.ua.ac.be/data/.

[2]A.Rukhin,J.Soto,J.Nechvatal,M.Smid,E.Barker,S.Leigh,M.Levenson,M.Vangel,D.Banks,A.Heckert,J.Dray,and S.Vo,“A Statistical Test Suite forRandom and Pseudorandom Number Generators for Cryptographic Applications,”National Institute of Standards and Technology(NIST),Special Publication 800-22 Revision 1.Available at http://csrc.nist.gov/publications/PubsSPs.html,2008.

[3]A.Fukushima,T.Seki,K.Yakushiji,H.Kubota,H.Imamura,S.Yuasa,andK.Ando,“Spindice:A Scalable Truly Random Number Generator Based onSpintronics,”in Journal of Applied Physics Express,vol.7,no.8,pp.083001,2014.

[4]B.Edwards,S.Hofmeyr,S.Forrest,and M.V.Eeten,“Analyzing andModeling Longitudinal Security Data:Promise and Pitfalls,”in Proceedings ofthe 31st Annual Computer Security Applications Conference,pp.391-400,2015.

[5]B.H.Bloom,“Space/Time Trade-offs in Hash Coding with AllowableErrors,”Communications of the ACM,vol.13,no.7,pp.422-426,1970.[6]C.Dwork,“Differential Privacy,”in Proceedings of the 33rd International Colloquium onAutomata,Languages and Programming,pp.1-12,2006.

[7]C.Dwork,F.McSherry,K.Nissim,and A.Smith,“Calibrating Noise toSensitivity in Private Data Analysis,”in 3rd Theory of CryptographyConference,pp.265-284,2006.

[8]C.Wang,K.Ren,S.Yu,and K.M.R.Urs,“Achieving Usable andPrivacyassured Similarity Search over Outsourced Cloud Data,”in Proceedingsof IEEE International Conference on Computer Communications,pp.451-459,2012.

[9]D.J.Bernstein,“ChaCha,a Variant of Salsa20.”Available at http://cr.yp.to/chacha.html,2008.

[10]E.Stefanov,C.Papamanthou,and E.Shi,“Practical Dynamic SearchableEncryption with Small Leakage,”in Proceedings of Network Distribution SystemSecurity Symposium,832-848,2014.

[11]G.Fanti,V.Pihur,U.Erlingsson,“Building a RAPPOR with the Unknown:Privacy-Preserving Learning of Associations and Data Dictionaries,”inProceedings on Privacy Enhancing Technologies,pp.41-61,2016.

[12]J.D.Harms,F.Ebrahimi,X.Yao,and J.-P.Wang,“SPICE Macromodel ofSpin-Torque-Transfer-Operated Magnetic Tunnel Junctions,”in IEEE Transactionson Electron Devices,vol.57,no.7,pp.1425-1430,2010.

[13]N.Papernot,M.Abadi,U.Erlingsson,I.Goodfellow,and K.Talwar,“Semi-Supervised Knowledge Transfer for Deep Learning from Private Training Data,”In Proceedings of the 5th International Conference on LearningRepresentations,to appear,2017.

[14]R.Bassily,and A.Smith,“Local,Private,Efficient Protocols forSuccinct Histograms,”in Proceedings of the Forty-Seventh Annual ACM Symposiumon Theory of Computing,pp.127-135,2015.

[15]R.Chen,A.Reznichenko,P.Francis,and J.Gehrke,“Towards StatisticalQueries over Distributed Private User Data,”in Proceedings of the 9th USENIXConference on Networked Systems Design and Implementation,pp.169-182,2012.

[16]S.P.Kasiviswanathan,H.K.Lee,K.Nissim,S.Raskhodnikova,and A.Smith,“What Can We Learn Privately？,”in SIAM Journal of Computing,vol.40,no.3,pp.793-826,2011.

[17]S.Warner,“Randomized Response:A Survey Technique for EliminatingEvasive Answer Bias,”in Journal of the American Statistical Association,vol.60,no.309,pp.63-69,1965.

[18]T-H.Chan,E.Shi,and D.Song,“Optimal Lower Bound for DifferentiallyPrivate Multi-Party Aggregation,”in Proceedings of the 20th Annual Europeanconference on Algorithms,pp.277-288,2012.

[19]T.Jung,X.-Y.Li,Z.Wan,and M.Wan,“Privacy preserving cloud dataaccess with multi-authorities,”in Proceedings of IEEE InternationalConference on Computer Communications,pp.2625-2633,2013.

[20]T.Wang,J.Blocki,N.Li,and S.Jha,“Optimizing Locally DifferentiallyPrivate Protocols,”in 26th USENIX Security Symposium,to appear,2017.

[21]U.Erlingsson,V.Pihur,and A.Korolova,“RAPPOR:Randomizedaggregatable privacy-preserving ordinal response,”In Proceedings of the ACMSIGSAC Conference on Computer and Communications Security,pp.1054-1067,2014.

[22]Y.Sei and A.Ohsuga,“Differential Private Data Collection andAnalysis Based on Randomized Multiple Dummies for Untrusted MobileCrowdsensing,”in IEEE Transactions on Information Forensics and Security,vol.12,no.4,pp.926-939,2017.

[23]Z.Qin,Y.Yang,T.Yu,I.Khalil,X.Xiao,and K.Ren,“Heavy HitterEstimation over Set-Valued Data with Local Differential Privacy,”inProceedings of the ACM SIGSAC Conference on Computer and CommunicationsSecurity,pp.192-203,2016.

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种收集与分析数据的方法，其特征在于包含：

对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串；及

对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串，其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。

2.如权利要求1所述的方法，其特征在于所述第一噪声步骤包含：

根据一真随机数产生器产生的一第一随机数集合，对所述原始数据串执行一永久随机响应以生成一暂时数据串；及

根据所述真随机数产生器产生的一第二随机数集合，对所述暂时数据串执行一瞬时随机响应以生成所述第一数据串。

3.如权利要求2所述的方法，其特征在于所述第二噪声步骤包含：

根据所述真随机数产生器产生的一第三随机数集合，对所述第一数据串执行一合成随机响应以生成所述第二数据串。

4.如权利要求1所述的方法，其特征在于：在对所述原始数据串执行所述第一噪声步骤后，所述原始数据串中的识别信息被去识别化。

5.如权利要求1所述的方法，其特征在于另包含：

接收一输入数据串並对所述输入数据串进行散列编码以生成具有所述原始特征的所述原始数据串。

6.一种收集与分析数据的方法，其特征在于包含：

对具有一特征分布的一原始数据串执行一第一噪声步骤以生成具有一第一分布的一第一数据串；及

对所述第一数据串执行一第二噪声步骤以生成具有一第二分布的一第二数据串，其中所述特征分布与所述第一分布之间的一第一变异度大于所述特征分布与所述第二分布之间的一第二变异度。

7.如权利要求6所述的方法，其特征在于所述第一噪声步骤包含：

8.如权利要求7所述的方法，其特征在于所述第二噪声步骤包含：

9.如权利要求6所述的方法，其特征在于：在对所述原始数据串执行所述第一噪声步骤后，所述原始数据串中的识别信息被去识别化。

10.如权利要求6所述的方法，其特征在于另包含：

接收输入数据串並對所述输入数据串进行散列编码以生成具有所述特征分布的所述原始数据串。

11.一种收集与分析数据的装置，其特征在于包含：

一第一处理器，用于对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串；及

一第二处理器，用于对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串，其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。

12.如权利要求11所述的装置，其特征在于另包含：

一真随机数产生器，用于产生一第一随机数集合、一第二随机数集合与一第三随机数集合；

其中所述第一处理器根据所述第一随机数集合，对所述原始数据串执行一永久随机响应以生成一暂时数据串，以及根据所述第二随机数集合，对所述暂时数据串执行一瞬时随机响应以生成所述第一数据串。

13.如权利要求12所述的装置，其特征在于：所述第二处理器根据所述第三随机数集合，对所述第一数据串执行一合成随机响应以生成所述第二数据串。

14.如权利要求11所述的装置，其特征在于：在所述第一处理器对所述原始数据串执行所述第一噪声步骤后，所述原始数据串中的识别信息会去识别化。

15.如权利要求11所述的装置，其特征在于另包含：

一预处理器，用于接收一输入数据串並對所述输入数据串进行散列编码以生成具有所述原始特征的所述原始数据串；及

一输出电路，用于输出所述第二数据串。

16.一种收集与分析数据的装置，其特征在于包含：

一真随机数产生器，其中所述真随机数产生器不需使用一随机数种子来产生多个随机数；

一处理器单元，基于所述多个随机数对具有一原始特征的一原始数据串中的识别信息进行去识别化，并生成具有一第二特征的一第二数据串；及

一输出电路，用于输出所述第二数据串至一远端服务器。

17.如权利要求16所述的装置，其特征在于另包含：

一预处理器，用于接收一输入数据串並对所述输入数据串进行散列编码以生成具有所述原始特征的所述原始数据串。

18.如权利要求16所述的装置，其特征在于：所述多个随机数包含一第一随机数集合与一第二随机数集合，以及所述处理器单元包含一第一处理器；其中所述第一处理器根据所述第一随机数集合，对所述原始数据串执行一永久随机响应以生成一暂时数据串，以及所述第一处理器更根据所述第二随机数集合，对所述暂时数据串执行一瞬时随机响应以生成具有一第一特征的一第一数据串。

19.如权利要求18所述的装置，其特征在于：所述多个随机数更包含一第三随机数集合，以及所述处理器单元更包含一第二处理器；其中所述第二处理器根据所述第三随机数集合，对所述第一数据串执行一合成随机响应以生成具有所述第二特征的所述第二数据串。

20.如权利要求19所述的装置，其特征在于：所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。