CN110221809A - 收集与分析数据的方法与相关的装置 - Google Patents
收集与分析数据的方法与相关的装置 Download PDFInfo
- Publication number
- CN110221809A CN110221809A CN201910148587.3A CN201910148587A CN110221809A CN 110221809 A CN110221809 A CN 110221809A CN 201910148587 A CN201910148587 A CN 201910148587A CN 110221809 A CN110221809 A CN 110221809A
- Authority
- CN
- China
- Prior art keywords
- generate
- data string
- data
- random
- serial data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 230000004044 response Effects 0.000 claims description 89
- 238000009826 distribution Methods 0.000 claims description 87
- 238000003786 synthesis reaction Methods 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 230000001052 transient effect Effects 0.000 claims description 12
- 238000007405 data analysis Methods 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 description 90
- 230000005291 magnetic effect Effects 0.000 description 41
- 238000004422 calculation algorithm Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000009987 spinning Methods 0.000 description 8
- 238000000528 statistical test Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 241001269238 Data Species 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007717 exclusion Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000015250 liver sausages Nutrition 0.000 description 3
- 230000005389 magnetism Effects 0.000 description 3
- 238000004321 preservation Methods 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- XYSQXZCMOLNHOI-UHFFFAOYSA-N s-[2-[[4-(acetylsulfamoyl)phenyl]carbamoyl]phenyl] 5-pyridin-1-ium-1-ylpentanethioate;bromide Chemical compound [Br-].C1=CC(S(=O)(=O)NC(=O)C)=CC=C1NC(=O)C1=CC=CC=C1SC(=O)CCCC[N+]1=CC=CC=C1 XYSQXZCMOLNHOI-UHFFFAOYSA-N 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000005415 magnetization Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 241000509228 Thalasseus maximus Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013019 agitation Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/58—Random or pseudo-random number generators
- G06F7/582—Pseudo-random number generators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/58—Random or pseudo-random number generators
- G06F7/588—Random number generators, i.e. based on natural stochastic processes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0643—Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0861—Generation of secret information including derivation or calculation of cryptographic keys or passwords
- H04L9/0866—Generation of secret information including derivation or calculation of cryptographic keys or passwords involving user or device identifiers, e.g. serial number, physical or biometrical information, DNA, hand-signature or measurable physical characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2209/00—Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
- H04L2209/42—Anonymization, e.g. involving pseudonyms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2209/00—Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
- H04L2209/80—Wireless
- H04L2209/805—Lightweight hardware, e.g. radio-frequency identification [RFID] or sensor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Power Engineering (AREA)
- Storage Device Security (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种收集与分析数据的方法,所述方法包括对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串;及对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串,其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。因此,相较于现有技术,本发明可以用于保护数据的隐私以及提昇数据分析上的可利用率。
Description
技术领域
本发明是涉及于一种收集与分析数据的方法与相关的装置,尤其涉及一种可利用一第一噪声产生步骤与一第二噪声产生步骤来对一原始数据串中的识别信息去识别化的方法与相关的装置。
背景技术
在当代社会里,数据的利用对个人用户或是机构都相当的重要,然而,两者对数据获取途径的立场并不相同。公司或者学术团体等机构希望收集用户的数据以获取有用的信息,借以提昇服务的针对性或制定发展战略。相对的,所述个人用户会将他们的数据分享给感兴趣的第三方机构以获取多种不同的潜在利益,但更希望能确保他们的隐私,例如应用程序的使用纪录、定位记录或浏览器的历史记录不被泄漏。因此,如何最大化所述个人用户的服务使用经验以及最小化所述个人用户隐私的泄漏是人们需面对的一项困境。
在现有技术中,随机响应(Randomized Response)机制(详见于参考文件[17])的使用引起了学术界相当的兴趣,且可以用于解决上述的困境。所述随机响应机制的概念,是在将数据分享给任何信任数据经手人之前,于用户端先对所述数据产生噪声。与需要仰赖可信任的第三方机构或者需要对数据的使用范围作限制的技术如集中式差分隐私(Centralized Differential Privacy)(详见于参考文件[6][7])或加密式的隐私保护(Encryption-Based Privacy-Preserving)(详见于参考文件[8][10])相对比,所述随机响应机制可以在用户端差分隐私(Local Differential Privacy)的定义下与拥有较广泛的数据的使用范围下提供严密的隐私保证。特别来说,所述随机响应机制可同时满足所述差分隐私的定义且提供严密的隐私保证,也就是说,无论隐私攻击者的背景知识与技术为何,所述个人用户具有“合理的否认(plausible deniability)”以使所述个人用户中具有高度机密的敏感信息不受所述隐私攻击者侵犯,也就是说所述随机响应机制可对所述个人用户与所述具有高度机密的敏感信息之间的连结去识别化,导致所述隐私攻击者无法侵犯所述具有高度机密的敏感信息。
所述随机响应机制最初是由Warner在1965年提出以作为收集敏感性问题的调查方法(详见于参考文件[17])。在超过40年之后,Dowrk et al.提出了稳固且数学性质严谨的定义以定义「隐私」,同时提出了所述差分隐私的概念(详见于参考文件[6])。而Kasiviswanathan et al.则提出了用于隐私学习的用户端模型(详见于参考文件[16]),并首先将所述随机响应机制与所述差分隐私连结在一起。之後,Chan et al.证明了所述随机响应机制的问题复杂度在所述用户端模型下具有一最佳下界(optimal lower bound,详见于参考文件[18]),称为用户端差分隐私。
近年来,因为所述用户端模型中并不需要信任数据经手人(trusted datacurator,详见于参考文件[15]),所以所述用户端模型的應用逐渐受到关注。另外,在实际的应用中,人们想要知道的是所有的物件中出现频率最高的物件,辨识出现频率最高的物件的问题被称为「重击手问题(heavy-hitters problem)」。因此,Erlingsson et al.提出了随机可聚合隐私保护序数响应机制(randomized aggregatable privacy-preservingordinal response,RAPPOR)(详见于参考文件[21]),其中RAPPOR在执行双层架构的随机响应机制后,可利用一布伦过滤器(Bloom filter,详见于参考文件[21])来表示真實用户端数据串并输出一模糊版本的真實用户端数据串。RAPPOR的一大贡献在于其具有用于學習統計的敏銳解码架构,其中,所述解码架构不仅可以帮助辨识出所述数据中的「重击手」,也可以用于重建對象的一频率分布。
自从RAPPOR提出以来,许多关于隐私学习的研究都是在所述用户端模型下进行。例如Fanti et al.提出了关于RAPPOR的一扩充版本(详见于参考文件[11]),其中,所述扩充版本包含新版的解码架构,以解决RAPPOR的两个问题:(1)RAPPOR所聚合的数据只能用于決定一边际频率分布(marginal distribution),并无法決定一联合频率分布(jointdistribution);(2)RAPPOR所聚合的所述数据只能在参照一精确的数据解码字典(precisedata dictionary)下有效的解码。然而,所述扩充版本为了解决上述RAPPOR两个问题,牺牲了精確重建数据的能力。在解码后,RAPPOR所聚合的数据只能观察到部份具有较高出现频率的用戶端数据串。
Qin et al.(详见于参考文件[23])则设计了另一具有双层架构的用户端差分隐私挖掘机制(Local Differential Privacy Miner,LDPMiner),LDPMiner利用了一隐私预算值ε(详见于参考文件[6])以产生可能包含数据中的「重击手」的一候选集合,以及利用所述数据中在所述候选集合以外的其余数据来精准化所述候选集合。LDPMiner着重于在集值数据(set-valued data)中,而不是在分类数据(categorical data)中,辨识所述数据中的「重击手」。借此,LDPMiner进一步扩展了RAPPOR的应用方式。
Wang et al.(详见于参考文件[20])则设计了最佳化的用户端差分隐私协定(Optimizing Locally Differentially Private Protocols,OLH),用以决定RAPPOR中的最佳化参数。然而,OLH只能用于辨识具有小范围领域的数据中的「重击手」。相对的,RAPPOR与本发明所公开的方法并没有这样的限制。另外,Sei and Ohsuga(详见于参考文件[22])提出了一对多随机虚拟样本机制(Single to Randomized Multiple Dummies,S2M)与贝叶斯定理一对多随机虚拟样本机制(Single to Randomized Multiple Dummies withBayes,S2Mb),以及描述了应用均方误差值(mean square errors,MSEs)与詹森香農散度(Jensen-Shannon divergence,JS divergence),其中MSEs与JS divergence都可以达到与RAPPOR相似的效用。虽然参考文件[20]与参考文件[22]对RAPPOR的發展具有重要意義,但是本发明所公开的方法和参考文件[20]与参考文件[22]具有不同的评估指标,因此本发明所公开的方法无法与参考文件[20]与参考文件[22]比较。
另外,一些不同于与RAPPOR的现有技术也启发了本发明。其中,Bassilyand Smith(详见于参考文件[14])提出了产生简洁直方图的协定。所述简洁直方图是只包含所述数据中的「重击手」出現的次數,以及顯示所述协定符合频率估計的下界。另外,Papernot etal.(详见于参考文件[13])提出了教师全体隐私聚合(Private Aggregation of TeacherEnsembles,PATE),PATE是能够保护敏感训练数据的一算法,其中所述敏感训练数据是从用户端收集得到,且是用于机器学习的训练数据。PATE在所述敏感训练数据的不相交的子集之中训练「教师」模型(例如所述敏感训练数据是从不同的用户端收集的不同的数据,且所述不同的数据为不相交的子集),而一「学生」模型则会集合所有所述「教师」模组的数据、加入噪声、使用加入噪声的数据进行训练,以及预测所述「学生」模型训练的结果。
另外值得注意的是,所述随机响应机制的随机性是来自于伪随机数生成器(Pseudorandom Number Generator,PRNGs)的硬币投掷控制或者密码安全伪随机数生成器(Cryptographically Secure Pseudo-Random Number Generators,CSPRNGs)(详见于参考文件[11][20][21])。然而,所述随机响应机制所產生的随机數的品質会对隐私保护的程度产生巨大的影响,且不安全性更可以直接的被看出来。更精确地来说,所述伪随机数生成器/密码安全伪随机数生成器是由软件和确定性的演算法(例如=dev=urandom,详见于参考文件[9])产生一序列的随机数来实现的,且只有在选择了正确的随机数种子的状况下才能保证加密的安全性。
发明内容
本发明的一实施例公开一种收集与分析数据的方法,所述方法包括对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串;及对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串,其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。
本发明的另一实施例公开一种收集与分析数据的方法,所述方法包括对具有一特征分布的一原始数据串执行一第一噪声步骤以生成具有一第一分布的一第一数据串;及对所述第一数据串执行一第二噪声步骤以生成具有一第二分布的一第二数据串,其中所述特征分布与所述第一分布之间的一第一变异度大于所述特征分布与所述第二分布之间的一第二变异度。
本发明的另一实施例公开一种收集与分析数据的装置,,所述装置包含一第一处理器及一第二处理器。所述第一处理器对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串;及所述第二处理器对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串,其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。
本发明的另一实施例公开一种收集与分析数据的装置,所述装置包含一真随机数产生器(truly random number generators,TRNGs)、一处理器单元及一输出电路。所述真随机数产生器不需使用一随机数种子来产生多个随机数;所述处理器单元基于所述多个随机数来对具有一原始特征的一原始数据串中的识别信息进行去识别化,并生成具有一第二特征的一第二数据串;及所述输出电路输出所述第二数据串至一远端服务器。
在本发明中,所述真随机数产生器应被当成本发明的重要基本架构。所述真随机数产生器是经由硬体实现,并且可利用具有不确定性的一物理事件,例如一單通量量子元件中的一铁磁层与通量传输的磁化变化,来产生一随机数序列。其中所述真随机数产生器的一起始状态是真正的未知状态(相对的,一伪随机数生成器或一密码安全伪随机数生成器的所述起始状态则是被手動保密的,并非真正的未知状态)。然而,所述真随机数产生器主要的缺点是当输入的一原始数据串的数据量增加时,所述真随机数产生器在规模上的可扩展性仍是一大障碍(尤其所述真随机数产生器的规模上的可扩展性在物联网的相关应用上更显重要)。一种克服所述缺点的方法,是采用一磁性隧道结(magnetic tunneljunction,MTJ)来实现一基于自旋電子的真随机数产生器(spintronics-based TRNG),其中所述磁性隧道结中的自旋转移力矩(spin-transfer-torque,STT)在磁化翻转时的无法预测性可以被用来产生二位元随机数(所述二位元随机数可形成所述随机数集合)。因为所述自旋转移力矩具有高度的可扩展性,所以所述磁性隧道结可以被利用来实现所述真随机数产生器,并且可以整合到高密度、低耗能的晶片上。
在本发明中,为了达成所述原始数据串的准确分析以及強力保护對應所述原始数据串的隐私,直觉的作法是在扰动所述原始数据串的同时,通过详尽的编码技术和分析機制来确保一随机数生成演算法的随机性。因此,本发明公开了基于自旋電子的隐私可聚合随机响应机制(spintronics-based private aggregatable randomized response,SPARR),SPARR是一种收集与分析数据的方法,且是利用所述磁性隧道结来实现多层架构的随机响应机制以符合用户端差分隐私的需求。
因此,相较于现有技术,本发明的主要贡献在于:1)本发明是所述多层架构的随机响应机制,其中所述多层架构的随机响应机制能够提昇数据分析的准确度,以及满足所述用户端差分隐私的定义;2)本发明利用所述磁性隧道结来实现所述自旋電子式真随机数产生器以产生无法预测的随机数,并将所述随机数转换成为所述二位元随机数,其中所述自旋電子式真随机数产生器可以整合到所述多层架构的随机响应机制,借此强化所述随机数生成演算法的随机性;3)本发明通过一系列的实验以验证本发明在模拟环境以及真实环境下都能发挥比现有技术更好的效果。
附图说明
图1是说明SPARR中群众感知与收集模型的示意图。
图2是说明散列编码、永久随机响应机制、瞬时随机响应机制与合成随机响应机制的示意图。
图3是说明多个原始数据串具有特征分布、多个第一数据串具有第一分布及多个第二数据串具有第二分布的示意图。
图4是从条件机率的角度来说明多层架构的随机响应机制的示意图。
图5A-5C是说明改变k、m、及N时对应到假阴性率、总变异量距离、分配质量的比较的示意图。
图6A-6C是说明改变ε时对应到假阴性率、总变异量距离、分配质量的比较的示意图。
图7A-7C是说明SPARR与RAPPOR在ε=4时分别利用(a)正态分布、(b)zipf1分布以及(c)指数分布重建用户端的数据串的分布的示意图。
图8是说明SPARR与RAPPOR在不同ε下使用Kosarak数据集的比较的示意图。
图9是说明SPARR与RAPPOR在ε=4下使用Kosarak数据集所重建的用户端数据串的分布的示意图。
其中,附图标记说明如下:
102 用户
104 存储服务器
106 数据分析者
bi 布伦过滤器的生成位元
b’i 永久随机响应机制的生成位元
si 瞬时随机响应机制的生成位元
s’i 合成随机响应机制的生成位元
f、p、q 數據隱私程度的机率参数
具体实施方式
本发明公开了SPARR,SPARR与上述現有技術的差异主要有两点:(1)本发明利用一组磁性隧道结来实现一自旋電子式真随机数产生器,因此可以提供严密的隐私保护;(2)本发明是所述多层架构的随机响应机制,可以用于保护数据的隐私以及提昇数据分析上的可利用率。另外,本发明使用一假阴性率(false negative rate)、一总变异量距离(totalvariation distance)以及一分配质量(allocated mass)等指标来验证SPARR可以达成比现有技术更优秀的效果。
在本段落会详细说明与公式化SPARR的定义,其中包括可说明SPARR的一系统模型、一攻击者模型与所使用的符号。
A.所述系统模型
图1所示的所述系统模型可用来说明本发明,如图1所示,所述系统模型是一群众感知与收集模型,所述系统模型包括可无条件信任的用户102(可生成对应到用户102的数据串,所述数据串中具有对应到用户102的识别信息,所述识别信息可以识别用户102。因为所述识别信息可以识别用户102,所以所述识别信息也可以被看作是用户102的隐私)、一可半信任的存储服务器104(可收集包含所述数据串的大量数据)以及一数据分析者106(可分析所述大量数据)。在不失一般性的情况下,用户102与数据分析者106之间的授权行为可以在线或离线进行。然而,所述授权行为的相关技术超出了本发明的范围,相关技术说明请详见于参考文件[19]。
如图1所示,存储服务器104可以从用户102收集净化过的数据串。此外,分析者106从存储服务器104获得所述净化过的数据串,并可以对所述净化过的数据串进行统计分析,例如利用直方图、频率分析或其他统计方法分析用户102的应用程序使用偏好、历史活动或其他信息。對于任意净化过的数据串,SPARR可以利用一序列的步骤对所述识别信息进行去识别化(也就是净化),并可以通过ε-差分隐私的定义来衡量,因此SPARR可提供用户102强力的“合理的否认”以提供严密的保护并使用户隐私不被泄漏。
B.所述攻击者模型
在所述系统模型下,用户102中的每一用户端的隐私数据有多种泄漏方式。假设存储服务器104与数据分析者106为半诚实的(honest-but-curious),存储服务器104与数据分析者106可能会借由发表包含数据串的分析结果而无意中泄漏了用户102的隐私,或者在收集所述每一用户端的敏感数据时故意地侵犯了用户102的隐私。另外,多种直接的攻击方式也可能发生,例如所述攻击者可以直接偷取存储服务器104储存的包含所述数据串的大量数据、或者可以窃听用户102与存储服务器104之间的沟通。为了防止上述多种泄漏方式,本发明采用了一用户端隐私保存机制,所述用户端隐私保存机制可以在每一用户端实现,且可以在所述数据串被传送前净化所述数据串。另外,所述用户端隐私保存机制也符合所述ε-差分隐私的定义,因此可在无论隐私攻击者的背景知识与技术为何的前提下提供严密的隐私保证。
C.使用的符号
请参照图2,图2是说明散列编码(hash functions)、永久随机响应机制(permanent randomized response,PRR)、瞬时随机响应机制(instantaneous randomizedresponse,IRR)与合成随机响应机制(synthetic randomized response,SRR)的示意图。其中关于图2的详细说明如下。
本发明中,N代表被回报的数量;m代表同僚群组(cohorts)的数量;h代表散列编码的数量,其中一预处理器可用于接收一输入数据串(例如所述每一用户端的所述隐私数据)並對所述输入数据串进行散列编码以生成具有原始特征(例如,图2中所述原始数据串里具有「1」值的位元)的一原始数据串,另外,所述预处理器可以是一具有上述所述预处理器的功能的现场可编程门阵列(Field Programmable Gate Array,FPGA),或是一具有上述所述预处理器的功能的专用集成电路(Application-specific integrated circuit,ASIC)或是一具有上述有关所述预处理器的功能的软件模块。;k代表一布伦过滤器的尺寸;p、q及f代表數據隱私程度的机率参数;bi、b′i、si及s′i分别代表所述布伦过滤器的生成位元、所述永久随机响应机制的生成位元、所述瞬时随机响应机制的生成位元及所述合成随机响应机制的生成位元;ε代表差分隐私的隐私预算值;q′代表当bi被设成1时,s′i产生1的机率;p′代表当bi被设成0时,s′i产生1的机率;以及A代表用户端數據串的数量。
初步背景说明
本段落会初步说明所述差分隐私的定义与随机响应机制的详细内容。
A.所述差分隐私与所述随机响应机制
所述差分隐私(详见于参考文件[6])的概念是确保特定机制作用于相邻的集合所得到的输出会具有几乎相同的机率分布。也就是说,若两集合之间只有一单独数据的差异,则所述单独数据的存在与否并不会显着地影响到所述特定机制对应所述两集合的输出。
更进一步地解释,首先假设一宇集D包含所有不同的元素(例如在本发明中,宇集D可以包含原始数据串中所有可能出现的数据组合)。在数学表示上,因为多重集可以用来表达所有可能的元素组合,所以可以使用多行结构的多重集来表示宇集D,而所述多重集可以被视为是宇集D包含的所有可能的元素组合。而在差分隐私的架构下,宇集D可以被视为由一可信任数据经手人所持有。另外对于宇集D中的两个集合D1、D2,如果集合D1、D2之间的一汉明距离(Hamming distance)H(D1;D2)=1,则集合D1、D2被称为相邻的集合。
如果一随机化演算法M符合所述ε-差分隐私的定义,则所述随机化演算法M的值域以及相邻的集合D1、D2的关系可以用式(1)来表达:
Pr[M(D1)∈SM]≤eε×Pr[M(D2)∈SM] (1)
如式(1)所示,其中所述随机化演算法M输出的机率(Pr)是来自于所述随机化演算法M包含的一硬币投掷机制,以及ε称为所述差分隐私的所述隐私预算值。其中ε可以决定所述差分隐私定义下的隐私泄漏程度,较小的ε可以提供较高的隐私保护,但也会使所述随机化演算法M的输出精确度下降。
而在用户端执行的所述差分隐私(详见于参考文件[16]),又称为用户端差分隐私,则提供了不存在所述可信任的所述数据经手人的架构。此时所述用户端可利用所述随机化演算法M处理所述用户端的数据后再传送给所述数据经手人。在这样的状况下,宇集D会因为所述随机化演算法M的处理而成为一数据串d,以及集合D1、D2也会对应地成为两相异的数据串d1与d2。此时,如果所述随机化演算法M符合所述ε-差分隐私的定义,则所述随机化演算法M的值域以及数据串d1、d2的关系可以用式(2)来表达:
Pr[M(d1)∈SM]≤eε×Pr[M(d2)∈SM] (2)
如式(2)所示,所述随机化演算法M输出的机率(Pr)是来自于所述随机化演算法M包含的所述硬币投掷机制。
与所述差分隐私相对应,所述随机响应机制(详见于参考文件[17])则是一项在所述差分隐私之前就已经发展出来的方法。所述随机响应机制是用来获取一个体的回答的调查方法,其中所述个体的回答是关于敏感性问题的回答(例如,「你是否为同性恋?」)。所述随机响应机制利用秘密性的一硬币投掷结果以形成一随机事件,也就是说,所述个体在回答问题前,会先秘密地投掷硬币,并根据投掷硬币的结果回答问题,其中所述个体只会在所述硬币投掷结果为反面时诚实的回答问题,否则所述个体将再一次地投掷硬币,并根据再一次地硬币投掷结果提供假的回答(例如,当再一次的硬币投掷结果为正面时,个体回答「是」;而再一次的硬币投掷结果为反面时,个体回答「否」)。因为所述随机响应机制利用所述硬币投掷结果形成所述随机事件来保护所述个体的隐私,所以所述随机响应机制已经被证明是一有效满足用户端差分隐私的方法(详见于参考文件[18])。
SPARR
SPARR包含两关键的技术特徵,分别是多层架构的随机响应机制与基于自旋電子特性实现的编码技术,用以实现具有严密的隐私保护程度且高实用性的真随机响应机制。
A.所述多层架构的随机响应机制
本发明利用上述硬币投掷的观点来描述SPARR。首先,所述用户102中的每一用户端会被永久地分配到m个同僚群组中的一同僚群组,以及所述m个同僚群组中的每一同僚群组是利用了h组散列编码中的不同组散列编码。为了简化说明,本段落的说明考虑了m=1的状况(也就是说,所有用户端都属于同样的同僚群组,而且是进行同组散列编码)。则本发明将所述输入数据串散列到一具有尺寸k的一布伦过滤器B。因此,布伦过滤器B中的每一生成位元bi会在经过三个层级的扰动后被回报,其中所述三个层级是由四次特定的硬币投掷(硬币1、硬币2、硬币3、硬币4)的四次扰动结果来决定的。表1示出了所述四次扰动中所述四次硬币投掷中每一硬币投掷的机率,其中所述每一硬币投掷的机率会落在0到1的区间。
表1,SPARR的所述四次硬币投掷的机率,其中f∈[0;1),p∈(0;1),q∈(0;1),以及p≠q
所述三个层级的第一层级是所述永久随机响应机制。所述永久随机响应机制的生成位元b′i是由硬币1与硬币2的投掷结果所产生的,其中硬币1是一不平均的硬币(硬币1的投掷结果出现正面的机率是f)。如果硬币1的投掷结果出现正面,则生成位元b′i会由硬币2的投掷结果来决定,其中硬币2是一平均的硬币(硬币2的投掷结果出现正面的机率是1/2)。
如果硬币1的投掷结果出现反面,则所述第一层级不会进行其他动作,并将生成位元bi的原始值当作生成位元b′i的值输出到下一层级。所述三个层级的第二层级是所述瞬时随机响应机制,其中所述瞬时随机响应机制提供了纵向的隐私保护(详见于参考文件[4]),其中一第一处理器根据一真随机数生成器产生的一第一随机数集合,对所述原始数据串至少一次地执行一所述永久随机响应机制以生成一暂时数据串(如图2所示),以及根据所述真随机数生成器产生的一第二随机数集合,对所述暂时数据串至少一次地执行一所述瞬时随机响应机制以生成具有一第一特征的一第一数据串(如图2所示)。另外,所述永久随机响应机制与所述瞬时随机响应机制是包含于一第一噪声步骤,以及在所述第一处理器对所述原始数据串執行所述第一噪声步骤后,所述原始数据串中的识别信息被去识别化。另外。所述第一处理器可以是一具有上述所述第一处理器的功能的现场可编程门阵列,或是一具有上述所述第一处理器的功能的专用集成电路,或是一具有上述所述第一处理器的功能的软件模块。
生成位元si(对应到所述瞬时随机响应机制)是由硬币3的投掷结果所产生的。值得注意的是,生成位元b′i会影响硬币3的机率。如果生成位元b′i=1,则硬币3的投掷结果出现正面的机率是q,反之,则硬币3的投掷结果出现正面的机率是p。事实上,所述第一层级与所述第二层级可以确保所述原始数据串的隐私但同时损失所述原始数据串中的部份信息,造成後续数据分析的不准确。
一种提昇所述数据分析的准确性的直觉作法是从所述原始数据串获取更多的特征,同时维持所述原始数据串的隐私保护。因此,所述三个层级的第三层级是所述合成随机响应机制,其中所述第三层级是在所述永久随机响应机制与所述瞬时随机响应机制的基础下建立在SPARR的架构里,并且可以强化生成位元s′i中所包含的生成位元bi的特征,同时维持生成位元s′i的随机性。其中一第二处理器根据所述真随机数生成器产生的一第三随机数集合,对所述第一数据串至少一次地执行一所述合成随机响应机制以生成一具有第二特征的一第二数据串(如图2所示),以及所述合成随机响应机制是包含于一第二噪声步骤。另外,所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度(如图2所示)。
也就是说,所述合成随机响应机制可以复原以及强化所述原始特征以使所述第二数据串近似于所述原始数据串。例如,图2所述原始数据串里具有「1」值的位元与所述第二数据串里具有「1」值的位元相似。本发明因此可利用生成位元s′i有效率的重建所述输入数据串,即便所述原始数据串具有较低的出现的频率。如表1所示,所述合成随机响应机制可以控制硬币4,其中所述合成随机响应机制是用于减少所述永久随机响应机制与所述瞬时随机响应机制所造成的对应到所述永久随机响应机制与所述瞬时随机响应机制的输出的位移(例如,图2中所述第二数据串与所述原始数据串之间相较于所述第一数据串与所述原始数据串之间、所述暂时数据串与所述原始数据串之间都具有较小的位移)。本发明通过对生成位元bi、b′i、与si的合成考量设计了硬币4的机率,其中当生成位元bi、b′i、与si中出现1的机率愈大时,硬币4出现正面的机率就愈大。例如,当生成位元bi、b′i、与si中的其中两个生成位元为1时,硬币4出现正面的机率是2/3。另外,所述布伦过滤器、所述永久随机响应机制、所述瞬时随机响应机制与所述合成随机响应机制都是在所述每一用户端上执行,以及一输出电路可以将所述原始数据串、所述第一数据串与所述第二数据串输出至因特网上的一服务器。
请参照图3,图3是说明多个原始数据串具有特征分布、多个第一数据串具有第一分布及多个第二数据串具有第二分布的示意图。在本发明的另一实施例中,在所述预处理器對多个输入数据串(例如所述每一用户端的所述隐私数据)进行散列编码以生成所述原始数据串后,所述原始数据串具有所述特征分布;在所述第一处理器对所述原始数据串执行所述永久随机响应机制以及对所述暂时数据串執行所述瞬时随机响应机制以生成所述第一数据串后,所述第一数据串具有所述第一分布;以及在所述第二处理器對所述第一数据串執行所述合成随机响应机制以生成所述第二数据串后,所述第二数据串具有所述第二分布。因此,当因特网上的所述服务器接收到所述多个原始数据串、所述多个第一数据串与所述多个第二数据串时,所述服务器可以根据所述多个原始数据串的所述特征分布、所述多个第一数据串的所述第一分布与所述多个第二数据串的所述第二分布绘制出图3,其中如图3所示,所述特征分布与所述第一分布之间的一第三变异度大于所述特征分布与所述第二分布之间的一第四变异度。
另外,在本发明的另一实施例中,一收集与分析数据的装置包含一真随机数产生器、一处理器单元、一预处理器及一输出电路,其中所述处理器单元包含一第一处理器及一第二处理器。所述真随机数产生器所述真随机数产生器不需要使用一随机数种子来产生多个随机数(例如一第一随机数集合、一第二随机数集合及一第三随机数集合)。所述预处理器可接收一输入数据串(例如,所述每一用户端的所述隐私数据)及对所述输入数据串进行散列编码以生成具有一原始特征的一原始数据串(例如,图2中所述原始数据串里具有「1」值的位元)。在所述原始数据串生成后,所述第一处理器可以根据所述第一随机数集合与所述第二随机数集合,对所述原始数据串执行一第一噪声步骤(包含所述永久随机响应机制与所述瞬时随机响应机制)对所述原始数据串进行去识别化以生成具有一第一特征的一第一数据串;以及在所述第一数据串生成后,所述第二处理器可以根据所述第三随机数集合,对所述第一数据串执行一第二噪声步骤(包含所述合成随机响应机制)以生成具有一第二特征的一第二数据串,其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。另外,所述输出电路可以输出所述第二数据串至一远端服务器(其中所述远端服务器可以存在于因特网上)。
综上所述,本发明可以从条件机率的角度来定量解释SPARR。如图4所示,所述三个层级的每一层级都可以在生成位元bi=1或生成位元bi=0的条件下进行。其中为了简化说明,本发明使用{·}代表si在bi下的条件机率P{si|bi}。
另外,本发明具有下列引理1与引理2:
引理1.当所述布伦过滤器的生成位元bi为1时,用于回报结果的生成位元s′i产生1的机率如式(3)所表示:
引理2.当所述布伦过滤器的生成位元bi为0时,用于回报结果的生成位元s′i产生1的机率如式4所表示:
其中引理1与引理2可由图4得到证明。
当SPARR需要对生成位元s′i解码时(例如需要进行数据分析时),解码时需要测量有多少数量ti的生成位元bi需要被重建(也就是布伦过滤器B的生成位元bi的值为1的次数)。本发明以ci表达在N个被回报的生成位元s′i中,生成位元s′i的值为1的次数。因此,ci的期望值可以如式(5)所表示:
E(ci)=q′ti+p′(N-ti) (5)
因此可以求得
B.自旋电子式的编码(Spintronics-based Encoding)
如本发明在所述随机响应机制的定义中的描述,SPARR的输出的机率是来自于所述随机化算法M包含的一硬币投掷机制。也就是說,所述硬币投掷机制的结果可以被视为是所述随机化算法M产生的随机位元所组成的随机位元串。为了确保所述随机位元串的随机性,可以使用一真随机数产生器来取代传统上使用的一伪随机数生成器或一密码安全伪随机数生成器。
本发明使用了所述组磁性隧道结来实现所述真随机数产生器,所述真随机数产生器可以被视为所述自旋电子式真随机数产生器。控制所述组磁性隧道结来产生所述随机位元的方法如下。所述组磁性隧道结中的一磁性隧道结具有两种状态(详见于参考文件[12][3]):反平行状态(Anti-parallel,AP状态)与平行状态(Parallel,P状态),其中所述反平行状态与所述平行状态分别对应到二位元的数值0与1。所述磁性隧道结的一起始状态(也就是一随机数种子)是未知,因此所述磁性隧道结并不需要所述起始状态。因此,因为所述磁性隧道结并不需要所述起始状态,所以所述磁性隧道结并不需要使用所述起始状态(也就是所述随机数种子)产生多个随机数,因此防止了所述起始状态(也就是所述随机数种子)的一规律性问题造成的用户隐私泄漏。当所述磁性隧道结中的自旋转移力矩导入一电流脉冲进入所述磁性隧道结以翻转所述磁性隧道结中的一自由层的磁性时,所述自由层的磁性会被所述电流脉冲激化至一分叉点。在所述分叉点上,一热搅动效应可以造成一微小的随机磁性偏差。接着,所述自由层的磁性会分别以50%的机率被释放到所述反平行状态或所述平行状态。最终,本发明可以测量所述磁性隧道结的一电阻来判断所述磁性隧道结的状态是所述反平行状态或所述平行状态,因此本发明可以产生所述随机位元。
为了确保所述随机数串的随机性,本发明利用所述组磁性隧道结的自旋转移力矩的随机性独立地形成八组子系统来产生一随机位元串Ri。因此,所述随机数串的最终输出会经过三层的互斥或运算(exclusive OR,XOR)而生成(如式(6)所示)。
在式(6)中,XOR3代表所述三层的互斥或运算,并代表所述随机位元串的最终输出。值得注意的是,所述磁性隧道结是具有高耐性、低功率与快速存取性质的一新兴的磁性材料。进一步地,所述磁性隧道结容易整合到许多的设备中(例如物联网的相关设备)。再进一步地,所述磁性隧道结更是使用在一自旋转移力矩磁随机存取存储器(Spin-TransferTorque Magnetic Random Access Memory,STT-MRAM)的材料。STT-MRAM这种非易失性存储器因为具有足以比拟动态随机存取存储器(Dynamic Random Access Memory,DRAM)、静态随机存取存储器(Static Random-Access Memory,SRAM)与低成本闪存(low cost flashmemory)的高效能,所以具有成为引领性的存储设备的潜力。因此,所述磁性隧道结具有的优点是本发明使用所述组磁性隧道结作为组成组件的主要原因。
如本发明在「所述多层架构的随机响应机制」的描述中提到,所述瞬时随机响应机制是用于数据保护的一重要程序,其中所述瞬时随机响应机制基于所述永久随机响应机制所回报的固定的生成位元,在每一次所述瞬时随机响应机制的回报中产生不同的生成位元,避免了重复性地收集数据时隐私泄漏的风险。因此,所述瞬时随机响应机制的随机性决定了所述瞬时随机响应机制所提供的纵向的隐私保护的程度。另外,本发明使用所述多个磁性隧道结来实现所述真随机数产生器,其中所述真随机数产生器是基于具有不确定性的一物理事件来产生所数随机数。然而,所述多个磁性隧道结只能产生所述随机位元,因此,本发明需要另外设计一种将所述随机位元对应到0与1之间的随机数值的方法。
演算法1展示了利用所述组磁性隧道结产生所述随机数值的程序。其中因为随机位元长度l会决定所述随机数值的粒度(granularity),所以随机位元长度l需要被仔细地选择。首先,本发明初始化所述组磁性隧道结并独立地操作多个磁性隧道结以产生l个所述随机位元,并执行所述三层的互斥或运算以产生一随机位元序列x(其中x=XOR3,见于演算法1的第2列)。最后,随机位元序列x会经过float(x/(2l-1))的方程被转换成一随机数x*(其中float()方程会对方程的输入取浮点数,见于演算法1的第3列)。
演算法1:TRNG()
输入:随机位元长度l∈N
输出:随机数x*
1初始化多个磁性隧道结并产生l个随机位元;
2执行三层的互斥或运算以产生随机位元序列x=XOR3;
3将随机位元序列x转换为随机数x*
x*=float(x/(2l-1));
4输出x*
演算法2展示了SPARR中利用TRNG()对随机数据编码(也就是回报所述瞬时随机响应机制的生成位元si)的程序。对所述生成位元b′i,TRNG()会被用以产生随机数x*(见于演算法2的第1列),以及随机数x*会被与机率比较(见于演算法2的第2列)。当随机数x*比机率小时,生成位元si会输出1;否则生成位元si会输出0(见于演算法2的第2-5列)。
演算法1:利用TRNG()对随机数据编码
输入:永久随机响应机制的生成位元b′i,以及机率参数p,q
输出:编码后的生成位元si
1 x*=TRNG();
2 当则
3 si=1
4 反之
5 si=0
6 循环结束
7 输出si
系统分析
A.差分隐私保证
定理1.SPARR是符合ε-差分隐私的一演算法,其中ε的定义如式(7)所示:
在不失一般性的状况下,本发明假设va与vb是相异的两输入数据串,以及对应所述两输入数据串的布伦过滤器的生成位元bi如式(8)所示(其中va与vb中对应生成位元bi的集合以Ba与Bb表示):
则根据引理1与引理2,可以得知本发明的生成位元s′i是一具有伯努利分布的随机变量,以及在不同状况下所对应的条件机率的概率质量函数如式(9)-式(12)所示:
以及
则
以及
假设比值RP是对应Ba与Bb的条件机率的比值,以及S是对应S′所有可能的输出,则利用参考文件[21]的观察1所得到的结论,RP可以经由式(13)的推导得到:
如式(13)所示,其中s′1=...=s′h=1以及s′h+1=...=s′2h=0。
为了满足所述差分隐私的定义,比值RP必须被eε所限制。因此,本发明可以利用式(7)来计算隐私预算值ε。
B.所述多个磁性隧道结所产生的所述随机位元的随机性分析
优秀的随机数必须符合不可预测性的要求,也就是说所述随机数不该具有规律性。特别地来说,优秀的随机位元也必须符合均匀性的要求,也就是说所述随机位元中包含的0与1应该具有概略相同的出现频率。正式地来说,在利用所述多个磁性隧道结得到所述随机位元后,本发明利用一统计测试套件NIST-SP800(详见于参考文件[2])以测试本发明的所述随机位元,其中NIST-SP800提供多种统计测试的方式(详见于参考文件[2]的第二段落)。
表2,所述多个磁性隧道结产生的的所述随机位元在NIST-SP800的统计测试结果
在八种特定的统计测试的方式下,本发明在表2中计算出通过所述统计测试的序列比例以指示所述随机位元是否通过所述统计测试。如表2所示,当1000个序列(其中每一序列包含100个所述随机位元)被用以当作测试目标时,除了随机偏移(变体)的例外之外,通过测试的序列比例大约为986/1000,表示所述随机位元通过了NIST-SP800的统计测试。
实验评估
在本段落中,本发明会详细的比较RAPPOR与SPARR。虽然Fanti et al.(详见于参考文件[11])提出了关于RAPPOR的一扩充版本,所述扩充版本主要关注在不需要一精确的数据解码字典时估算用户端数据串。然而,参考文件[11]中的估算的准确度只与RAPPOR相似或是比RAPPOR更低。因此,本发明无法与参考文件[11]比较。
在本段落的A中,本发明会介绍三种指标用来评估RAPPOR与SPARR。在本段落的B中与C中,本发明会使用三种模拟范例以及一种真实世界范例来各自评估本发明。所述三种模拟范例分别使用正态分布(normal distribution)、zipf1分布(zipf1distribution)与指数分布(exponential distribution)来演示当RAPPOR与SPARR中的ε、k、m与N值变化时造成的影响。而所述真实世界范例是用来演示当RAPPOR与SPARR中的ε值变化时造成的影响。
A.结果指标(Resultant Metrics)
假设A代表用户端的數據串的数量,以及ai(i∈{1,2,...,A})是每一用户端的數據串的比例。令Rr与Rs分别代表RAPPOR与SPARR重建的不同用户端的數據串,以及τri与τsi代表所述重建的不同用户端的數據串的比例。
在此,本发明利用所述假阴性率来分析RAPPOR与SPARR在寻找特定数据串时失败的程度。为了简化说明,FNr与FNs分别代表RAPPOR与SPARR的假阴性率。正式地来说,FNr与FNs的定义如式(14)所示:
所述总变异量距离是用来测量两机率分布的一距离。粗略地来说,所述总变异量距离是所述两机率分布中被分配到同一事件的机率的最大距离。在一有限的机率空间中,所述总变异量距离在性质上是与l1有关。为了简化说明,TVr与TVs分别代表RAPPOR与SPARR的总变异量距离。正式地来说,TVr与TVs的定义如式(15)所示:
如式(15)所示,1/2是将所述总变异量距离限制在0到1之间的一标准化常数。
所述分配质量是所述重建的不同用户端的數據串的总比例。为了简化说明,本发明使用AMr与AMs分别代表RAPPOR与SPARR的分配质量。正式地来说,AMr与AMs的定义如式(16)所示:
B.模拟结果
在说明上述结果指标后,本发明首先使用一序列的模拟来比较RAPPOR与SPARR,并将实验分成两个部份。
在第一个部份,本发明改变k、m与N的值,影响了RAPPOR与SPARR的准确度但不影响隐私保护的程度。更详细地说,本发明将ε固定为4,对RAPPOR与SPARR来说都是相对疏鬆的。因此,本发明可以忠实地观察k、m与N对RAPPOR与SPARR的准确度的影响。本发明在第二个部份中设为k=8、m=56以及n=1000000,这些数值在第一个部份被证实是RAPPOR与SPARR下的最佳状况。接着,本发明通过调整h、f、p及q的值分别将ε的值设定为1到4,并应用不同的机率分布来观察不同保护程度所造成的影响。
1)改变k、m与N的值所造成的影响:不同的测试范例与对应的实验结果请参照表3以及图5A-5C。本发明只显示基于正态分布的关键实验结果,但不会影响本发明在说明上的一般性。
(a)
(b)
(c)
表3,在k、m与N的不同数值模拟的结果指标(对应到假阴性率、总变异量距离、分配质量)
在范例(a)中,本发明分别将k值设定为4到32。和RAPPOR相比,SPARR平均可以降低37%的所述假阴性率,以及降低13%所述总变异量距离。同时,SPARR平均可以提昇14%的所述分配质量。更详细地来说,SPARR的优点在k值逐步地减少时会变得更加突出,代表SPARR在具有低频宽的苛刻的网络环境下仍然可以达到良好的数据预测准确度。
同僚群组的数量m会影响两个数据串在所述布伦过滤器中的碰撞机率。为了确保准确度,需要在N与m的值之间权衡。在范例(b)中,当m值分别设定为16到64,SPARR平均可以显着地降低37%的所述假阴性率与降低13%的所述总变异量距离,以及维持所述分配质量大约等于1。
在范例(c)中展示了较少的数据量所述重建的不同用户端的數據串的数量以及被回报的数量N的关系。和RAPPOR相比,SPARR平均可以显着地降低45%的所述假阴性率、降低22%的所述总变异量距离与降低24%的所述分配质量。表示了SPARR可以利用较少的数据量来准确地测量不同的用户端数据串的分布。明确地来说,即使具有较少的数据量,SPARR仍然可以在一般平台上使用。
2)改变ε的值所造成的影响:本发明在表4以及图6A-6C中展示了对于不同的机率分布(其中图6A对应正态分布、图6B对应zipf1分布、图6C对应指数分布),当ε值分别设定为1到4时所造成的影响,其中设定k=8、m=56以及n=1000000。和RAPPOR相比,当所述数据串具有的机率分布是正态分布时,SPARR平均可以改进51%的所述假阴性率、改进20%的所述总变异量距离与改进18%的所述分配质量。当所述数据串具有的机率分布是zipf1分布时,SPARR平均可以改进67%的所述假阴性率、改进16%的所述总变异量距离与改进17%的所述分配质量。当所述数据串具有的机率分布是指数分布时,SPARR平均可以改进55%的所述假阴性率、改进17%的所述总变异量距离与改进15%的所述分配质量。很明显地,根据上述指标,无论所述数据串具有何种机率分布,SPARR都可以拥有比RAPPOR更好的表现。
(a)
(b)
(c)
表4,在ε的不同数值模拟的结果指标(对应到假阴性率、总变异量距离、分配质量)
更直觉地,本发明评估所述用户端数据串在三种机率分布(正态分布、zipf1分布、指数分布时)下重建的分布与所述用户端数据串的真实频率来比较SPARR与RAPPOR,如图7A-7C所示(其中图7A对应正态分布、图7B对应zipf1分布、图7C对应指数分布),其中纵轴表示频率的比例。图7A-7C在ε=4的条件下设定k=32、m=56以及n=1000000。值得注意的是,为了公平地比较SPARR与RAPPOR,本发明选择了对SPARR与RAPPOR来说的最佳范例,也就是ε=4的状况。根据图7A-7C,与RAPPOR比较,SPARR明显地改进了在低频率下所述用户端数据串的侦测能力并同时维持所收集的数据串的高重建能力。
C.真实世界范例
除了模拟数据的范例之外,本发明也对SPARR与RAPPOR提供了真实世界的数据集。明确地来说,所述数据集是来自参考文件[1](用于挖掘数据集的频率物件集存储库,Frequent Itemset Mining Dataset Repository,由Ferenc Bodon提出)中的Kosarak数据集。Kosarak数据集纪录了关于41270个不同网站的990000次的点击动作回报,而网站管理者可以透过测量点击动作知道各个网站的造访数量。在不失一般性的情况下,本发明只使用了所述不同网站的其中100个最常被造访的网站。与上述段落的实验设定相似,本发明设定k=32、m=56以及n=1000000,以及ε设定为1到4,并在间隔(interval)为0.5的状况下进行实验。
因为所述随机响应与统计推断上的限制,本发明仍需要一大量的回报以找出不同网站以及对应不同网站的点击动作。如同在参考文件[7][13]提到的,这也是在隐私保护与数据使用性之间的权衡。然而,如同後续的展示,本发明可以在达到更好得隐私保护的同时,重建更多具有较低点击率(click through rate,CTR)的网站。
实验结果如表5以及图8所示。可以很明显地看到在相同的ε下,与RAPPOR相比,SPARR具有较低的假阴性率以及较低的总变异量距离,同时牺牲了较少的分配质量。随着ε的值减少,SPARR的优点会变得更加明显。图9可以很明显地显示出SPARR与RAPPOR利用Kosarak数据集在ε=4的情况下重建的所述用户端数据串的分布。值得注意的是,当聚焦于具有较高点击率的网站时,本发明并不会忽略具有重要意义但是在长尾(long tail)的网站,例如对特定族群提供特定主题的网站。可以看到因为SPARR可以在独立于点击率的状况下重建几乎所有的网站,所以SPARR比RAPPOR具有更好得公平性。
表5,在ε的不同数值下对真实世界范例模拟的结果指标(对应到假阴性率、总变异量距离、分配质量)
结论
SPARR是基于所述组磁性隧道结的物理事件的一种实际的数据保护机制,用于众包(crowdsourced)的数据收集且具有高利用率以及数学上严格的隐私保证。SPARR利用所述组磁性隧道结来实现所述自旋電子式真随机数产生器以产生真随机数。因为所述自旋電子式真随机数产生器以及四次特定的硬币投掷设计,所以SPARR可以保护隐私以及从所述用户端收集的数据形成的众包分布统计,并精准的对数据解码。另外,本发明也可以在内存计算中应用深度学习技巧以提昇数据分析的效率以及准确度,并且可以在大部分的数据分析应用上应用本发明。
参考文件:
[1]Kosarak.Available at http://fimi.ua.ac.be/data/.
[2]A.Rukhin,J.Soto,J.Nechvatal,M.Smid,E.Barker,S.Leigh,M.Levenson,M.Vangel,D.Banks,A.Heckert,J.Dray,and S.Vo,“A Statistical Test Suite forRandom and Pseudorandom Number Generators for Cryptographic Applications,”National Institute of Standards and Technology(NIST),Special Publication 800-22 Revision 1.Available at http://csrc.nist.gov/publications/PubsSPs.html,2008.
[3]A.Fukushima,T.Seki,K.Yakushiji,H.Kubota,H.Imamura,S.Yuasa,andK.Ando,“Spindice:A Scalable Truly Random Number Generator Based onSpintronics,”in Journal of Applied Physics Express,vol.7,no.8,pp.083001,2014.
[4]B.Edwards,S.Hofmeyr,S.Forrest,and M.V.Eeten,“Analyzing andModeling Longitudinal Security Data:Promise and Pitfalls,”in Proceedings ofthe 31st Annual Computer Security Applications Conference,pp.391-400,2015.
[5]B.H.Bloom,“Space/Time Trade-offs in Hash Coding with AllowableErrors,”Communications of the ACM,vol.13,no.7,pp.422-426,1970.[6]C.Dwork,“Differential Privacy,”in Proceedings of the 33rd International Colloquium onAutomata,Languages and Programming,pp.1-12,2006.
[7]C.Dwork,F.McSherry,K.Nissim,and A.Smith,“Calibrating Noise toSensitivity in Private Data Analysis,”in 3rd Theory of CryptographyConference,pp.265-284,2006.
[8]C.Wang,K.Ren,S.Yu,and K.M.R.Urs,“Achieving Usable andPrivacyassured Similarity Search over Outsourced Cloud Data,”in Proceedingsof IEEE International Conference on Computer Communications,pp.451-459,2012.
[9]D.J.Bernstein,“ChaCha,a Variant of Salsa20.”Available at http://cr.yp.to/chacha.html,2008.
[10]E.Stefanov,C.Papamanthou,and E.Shi,“Practical Dynamic SearchableEncryption with Small Leakage,”in Proceedings of Network Distribution SystemSecurity Symposium,832-848,2014.
[11]G.Fanti,V.Pihur,U.Erlingsson,“Building a RAPPOR with the Unknown:Privacy-Preserving Learning of Associations and Data Dictionaries,”inProceedings on Privacy Enhancing Technologies,pp.41-61,2016.
[12]J.D.Harms,F.Ebrahimi,X.Yao,and J.-P.Wang,“SPICE Macromodel ofSpin-Torque-Transfer-Operated Magnetic Tunnel Junctions,”in IEEE Transactionson Electron Devices,vol.57,no.7,pp.1425-1430,2010.
[13]N.Papernot,M.Abadi,U.Erlingsson,I.Goodfellow,and K.Talwar,“Semi-Supervised Knowledge Transfer for Deep Learning from Private Training Data,”In Proceedings of the 5th International Conference on LearningRepresentations,to appear,2017.
[14]R.Bassily,and A.Smith,“Local,Private,Efficient Protocols forSuccinct Histograms,”in Proceedings of the Forty-Seventh Annual ACM Symposiumon Theory of Computing,pp.127-135,2015.
[15]R.Chen,A.Reznichenko,P.Francis,and J.Gehrke,“Towards StatisticalQueries over Distributed Private User Data,”in Proceedings of the 9th USENIXConference on Networked Systems Design and Implementation,pp.169-182,2012.
[16]S.P.Kasiviswanathan,H.K.Lee,K.Nissim,S.Raskhodnikova,and A.Smith,“What Can We Learn Privately?,”in SIAM Journal of Computing,vol.40,no.3,pp.793-826,2011.
[17]S.Warner,“Randomized Response:A Survey Technique for EliminatingEvasive Answer Bias,”in Journal of the American Statistical Association,vol.60,no.309,pp.63-69,1965.
[18]T-H.Chan,E.Shi,and D.Song,“Optimal Lower Bound for DifferentiallyPrivate Multi-Party Aggregation,”in Proceedings of the 20th Annual Europeanconference on Algorithms,pp.277-288,2012.
[19]T.Jung,X.-Y.Li,Z.Wan,and M.Wan,“Privacy preserving cloud dataaccess with multi-authorities,”in Proceedings of IEEE InternationalConference on Computer Communications,pp.2625-2633,2013.
[20]T.Wang,J.Blocki,N.Li,and S.Jha,“Optimizing Locally DifferentiallyPrivate Protocols,”in 26th USENIX Security Symposium,to appear,2017.
[21]U.Erlingsson,V.Pihur,and A.Korolova,“RAPPOR:Randomizedaggregatable privacy-preserving ordinal response,”In Proceedings of the ACMSIGSAC Conference on Computer and Communications Security,pp.1054-1067,2014.
[22]Y.Sei and A.Ohsuga,“Differential Private Data Collection andAnalysis Based on Randomized Multiple Dummies for Untrusted MobileCrowdsensing,”in IEEE Transactions on Information Forensics and Security,vol.12,no.4,pp.926-939,2017.
[23]Z.Qin,Y.Yang,T.Yu,I.Khalil,X.Xiao,and K.Ren,“Heavy HitterEstimation over Set-Valued Data with Local Differential Privacy,”inProceedings of the ACM SIGSAC Conference on Computer and CommunicationsSecurity,pp.192-203,2016.
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (20)
1.一种收集与分析数据的方法,其特征在于包含:
对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串;及
对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串,其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。
2.如权利要求1所述的方法,其特征在于所述第一噪声步骤包含:
根据一真随机数产生器产生的一第一随机数集合,对所述原始数据串执行一永久随机响应以生成一暂时数据串;及
根据所述真随机数产生器产生的一第二随机数集合,对所述暂时数据串执行一瞬时随机响应以生成所述第一数据串。
3.如权利要求2所述的方法,其特征在于所述第二噪声步骤包含:
根据所述真随机数产生器产生的一第三随机数集合,对所述第一数据串执行一合成随机响应以生成所述第二数据串。
4.如权利要求1所述的方法,其特征在于:在对所述原始数据串执行所述第一噪声步骤后,所述原始数据串中的识别信息被去识别化。
5.如权利要求1所述的方法,其特征在于另包含:
接收一输入数据串並对所述输入数据串进行散列编码以生成具有所述原始特征的所述原始数据串。
6.一种收集与分析数据的方法,其特征在于包含:
对具有一特征分布的一原始数据串执行一第一噪声步骤以生成具有一第一分布的一第一数据串;及
对所述第一数据串执行一第二噪声步骤以生成具有一第二分布的一第二数据串,其中所述特征分布与所述第一分布之间的一第一变异度大于所述特征分布与所述第二分布之间的一第二变异度。
7.如权利要求6所述的方法,其特征在于所述第一噪声步骤包含:
根据一真随机数产生器产生的一第一随机数集合,对所述原始数据串执行一永久随机响应以生成一暂时数据串;及
根据所述真随机数产生器产生的一第二随机数集合,对所述暂时数据串执行一瞬时随机响应以生成所述第一数据串。
8.如权利要求7所述的方法,其特征在于所述第二噪声步骤包含:
根据所述真随机数产生器产生的一第三随机数集合,对所述第一数据串执行一合成随机响应以生成所述第二数据串。
9.如权利要求6所述的方法,其特征在于:在对所述原始数据串执行所述第一噪声步骤后,所述原始数据串中的识别信息被去识别化。
10.如权利要求6所述的方法,其特征在于另包含:
接收输入数据串並對所述输入数据串进行散列编码以生成具有所述特征分布的所述原始数据串。
11.一种收集与分析数据的装置,其特征在于包含:
一第一处理器,用于对具有一原始特征的一原始数据串执行一第一噪声步骤以生成具有一第一特征的一第一数据串;及
一第二处理器,用于对所述第一数据串执行一第二噪声步骤以生成具有一第二特征的一第二数据串,其中所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。
12.如权利要求11所述的装置,其特征在于另包含:
一真随机数产生器,用于产生一第一随机数集合、一第二随机数集合与一第三随机数集合;
其中所述第一处理器根据所述第一随机数集合,对所述原始数据串执行一永久随机响应以生成一暂时数据串,以及根据所述第二随机数集合,对所述暂时数据串执行一瞬时随机响应以生成所述第一数据串。
13.如权利要求12所述的装置,其特征在于:所述第二处理器根据所述第三随机数集合,对所述第一数据串执行一合成随机响应以生成所述第二数据串。
14.如权利要求11所述的装置,其特征在于:在所述第一处理器对所述原始数据串执行所述第一噪声步骤后,所述原始数据串中的识别信息会去识别化。
15.如权利要求11所述的装置,其特征在于另包含:
一预处理器,用于接收一输入数据串並對所述输入数据串进行散列编码以生成具有所述原始特征的所述原始数据串;及
一输出电路,用于输出所述第二数据串。
16.一种收集与分析数据的装置,其特征在于包含:
一真随机数产生器,其中所述真随机数产生器不需使用一随机数种子来产生多个随机数;
一处理器单元,基于所述多个随机数对具有一原始特征的一原始数据串中的识别信息进行去识别化,并生成具有一第二特征的一第二数据串;及
一输出电路,用于输出所述第二数据串至一远端服务器。
17.如权利要求16所述的装置,其特征在于另包含:
一预处理器,用于接收一输入数据串並对所述输入数据串进行散列编码以生成具有所述原始特征的所述原始数据串。
18.如权利要求16所述的装置,其特征在于:所述多个随机数包含一第一随机数集合与一第二随机数集合,以及所述处理器单元包含一第一处理器;其中所述第一处理器根据所述第一随机数集合,对所述原始数据串执行一永久随机响应以生成一暂时数据串,以及所述第一处理器更根据所述第二随机数集合,对所述暂时数据串执行一瞬时随机响应以生成具有一第一特征的一第一数据串。
19.如权利要求18所述的装置,其特征在于:所述多个随机数更包含一第三随机数集合,以及所述处理器单元更包含一第二处理器;其中所述第二处理器根据所述第三随机数集合,对所述第一数据串执行一合成随机响应以生成具有所述第二特征的所述第二数据串。
20.如权利要求19所述的装置,其特征在于:所述原始特征与所述第一特征之间的一第一变异度大于所述原始特征与所述第二特征之间的一第二变异度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311678875.2A CN117724679A (zh) | 2018-03-01 | 2019-02-28 | 收集与分析数据的系统与相关的装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862636857P | 2018-03-01 | 2018-03-01 | |
US62/636,857 | 2018-03-01 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311678875.2A Division CN117724679A (zh) | 2018-03-01 | 2019-02-28 | 收集与分析数据的系统与相关的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110221809A true CN110221809A (zh) | 2019-09-10 |
CN110221809B CN110221809B (zh) | 2023-12-29 |
Family
ID=67767694
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311678875.2A Pending CN117724679A (zh) | 2018-03-01 | 2019-02-28 | 收集与分析数据的系统与相关的装置 |
CN201910148587.3A Active CN110221809B (zh) | 2018-03-01 | 2019-02-28 | 收集与分析数据的方法与相关的装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311678875.2A Pending CN117724679A (zh) | 2018-03-01 | 2019-02-28 | 收集与分析数据的系统与相关的装置 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11514189B2 (zh) |
CN (2) | CN117724679A (zh) |
TW (3) | TWI702505B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110995736B (zh) * | 2019-12-13 | 2021-11-30 | 中国兵器装备集团自动化研究所有限公司 | 一种通用的工业物联网设备管理系统 |
US11676160B2 (en) | 2020-02-11 | 2023-06-13 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate cardinality of users represented in arbitrarily distributed bloom filters |
US11741068B2 (en) * | 2020-06-30 | 2023-08-29 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate cardinality of users represented across multiple bloom filter arrays |
CN112016047A (zh) * | 2020-07-24 | 2020-12-01 | 浙江工业大学 | 基于进化博弈的启发式数据采集方法、装置、计算机设备以及其应用 |
US11755545B2 (en) | 2020-07-31 | 2023-09-12 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate audience measurement metrics based on users represented in bloom filter arrays |
US11552724B1 (en) | 2020-09-16 | 2023-01-10 | Wells Fargo Bank, N.A. | Artificial multispectral metadata generator |
US11929992B2 (en) * | 2021-03-31 | 2024-03-12 | Sophos Limited | Encrypted cache protection |
KR102527982B1 (ko) | 2021-04-19 | 2023-05-02 | 서울대학교산학협력단 | 위치 정보 수집 방법, 위치 정보 제공 방법 및 이를 실행하는 장치 |
WO2022225302A1 (ko) * | 2021-04-19 | 2022-10-27 | 서울대학교산학협력단 | 위치 데이터에 대한 빈도 분포 추정 방법 및 서버 |
US20230017374A1 (en) * | 2021-06-24 | 2023-01-19 | Sap Se | Secure multi-party computation of differentially private heavy hitters |
US11854030B2 (en) | 2021-06-29 | 2023-12-26 | The Nielsen Company (Us), Llc | Methods and apparatus to estimate cardinality across multiple datasets represented using bloom filter arrays |
CN114614974B (zh) * | 2022-03-28 | 2023-01-03 | 云南电网有限责任公司信息中心 | 一种用于电网数据跨行业共享的隐私集合求交方法、系统及装置 |
TWI824927B (zh) * | 2023-01-17 | 2023-12-01 | 中華電信股份有限公司 | 具差分隱私保護之資料合成系統、方法及其電腦可讀媒介 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102656588A (zh) * | 2009-08-14 | 2012-09-05 | 本质Id有限责任公司 | 具有防篡改和抗老化系统的物理不可克隆函数 |
US20120303924A1 (en) * | 2011-05-27 | 2012-11-29 | Ross Patrick D | Stochastic Processing |
CN104867138A (zh) * | 2015-05-07 | 2015-08-26 | 天津大学 | 基于pca和ga-elm的立体图像质量客观评价方法 |
CN107358115A (zh) * | 2017-06-26 | 2017-11-17 | 浙江大学 | 一种考虑实用性的多属性数据去隐私方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI415315B (zh) * | 2009-04-07 | 2013-11-11 | Univ Nat Changhua Education | 軌道競賽式非揮發性記憶體製造方法及其結構 |
US9020873B1 (en) * | 2012-05-24 | 2015-04-28 | The Travelers Indemnity Company | Decision engine using a finite state machine for conducting randomized experiments |
US10043035B2 (en) * | 2013-11-01 | 2018-08-07 | Anonos Inc. | Systems and methods for enhancing data protection by anonosizing structured and unstructured data and incorporating machine learning and artificial intelligence in classical and quantum computing environments |
TWI528217B (zh) * | 2014-07-02 | 2016-04-01 | 柯呈翰 | 於線上加上即時檔案動態標籤、加密之系統及方法 |
CN105306194B (zh) * | 2014-07-22 | 2018-04-17 | 柯呈翰 | 供加密档案和/或通讯协定的多重加密方法与系统 |
IL239880B (en) * | 2015-07-09 | 2018-08-30 | Kaluzhny Uri | Simplified montgomery multiplication |
FR3047586A1 (fr) * | 2016-02-09 | 2017-08-11 | Orange | Procede et dispositif d'anonymisation de donnees stockees dans une base de donnees |
WO2017187243A1 (en) * | 2016-04-25 | 2017-11-02 | Uhnder, Inc. | Vehicular radar sensing system utilizing high rate true random number generator |
US10390220B2 (en) * | 2016-06-02 | 2019-08-20 | The Regents Of The University Of California | Privacy-preserving stream analytics |
US10229282B2 (en) * | 2016-06-12 | 2019-03-12 | Apple Inc. | Efficient implementation for differential privacy using cryptographic functions |
US10628608B2 (en) * | 2016-06-29 | 2020-04-21 | Sap Se | Anonymization techniques to protect data |
US10778633B2 (en) * | 2016-09-23 | 2020-09-15 | Apple Inc. | Differential privacy for message text content mining |
US10776242B2 (en) * | 2017-01-05 | 2020-09-15 | Microsoft Technology Licensing, Llc | Collection of sensitive data—such as software usage data or other telemetry data—over repeated collection cycles in satisfaction of privacy guarantees |
US10691829B2 (en) * | 2017-04-13 | 2020-06-23 | Fujitsu Limited | Privacy preservation |
US10776511B2 (en) * | 2017-06-04 | 2020-09-15 | Apple Inc. | User experience using privatized crowdsourced data |
US10902149B2 (en) * | 2018-02-01 | 2021-01-26 | Microsoft Technology Licensing, Llc | Remote testing analysis for software optimization based on client-side local differential privacy-based data |
-
2019
- 2019-02-27 US US16/286,627 patent/US11514189B2/en active Active
- 2019-02-27 TW TW108106882A patent/TWI702505B/zh active
- 2019-02-27 TW TW109123041A patent/TWI799722B/zh active
- 2019-02-27 TW TW112108687A patent/TWI840155B/zh active
- 2019-02-28 CN CN202311678875.2A patent/CN117724679A/zh active Pending
- 2019-02-28 CN CN201910148587.3A patent/CN110221809B/zh active Active
-
2022
- 2022-10-19 US US17/969,447 patent/US20230060864A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102656588A (zh) * | 2009-08-14 | 2012-09-05 | 本质Id有限责任公司 | 具有防篡改和抗老化系统的物理不可克隆函数 |
US20120303924A1 (en) * | 2011-05-27 | 2012-11-29 | Ross Patrick D | Stochastic Processing |
CN104867138A (zh) * | 2015-05-07 | 2015-08-26 | 天津大学 | 基于pca和ga-elm的立体图像质量客观评价方法 |
CN107358115A (zh) * | 2017-06-26 | 2017-11-17 | 浙江大学 | 一种考虑实用性的多属性数据去隐私方法 |
Non-Patent Citations (1)
Title |
---|
ULFAR ERLINGSSON ET AL.: ""RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response"", 《ARXIV》 * |
Also Published As
Publication number | Publication date |
---|---|
US20230060864A1 (en) | 2023-03-02 |
TWI840155B (zh) | 2024-04-21 |
TWI799722B (zh) | 2023-04-21 |
TW201937389A (zh) | 2019-09-16 |
TWI702505B (zh) | 2020-08-21 |
TW202328939A (zh) | 2023-07-16 |
US11514189B2 (en) | 2022-11-29 |
CN117724679A (zh) | 2024-03-19 |
US20190272388A1 (en) | 2019-09-05 |
TW202046138A (zh) | 2020-12-16 |
CN110221809B (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110221809A (zh) | 收集与分析数据的方法与相关的装置 | |
Chen et al. | Pseudorandom Number Generator Based on Three Kinds of Four‐Wing Memristive Hyperchaotic System and Its Application in Image Encryption | |
Yu et al. | Chaos‐Based Engineering Applications with a 6D Memristive Multistable Hyperchaotic System and a 2D SF‐SIMM Hyperchaotic Map | |
Lv et al. | A novel pseudo-random number generator from coupled map lattice with time-varying delay | |
Rostami et al. | Quo vadis, PUF?: Trends and challenges of emerging physical-disorder based security | |
DiCarlo | Random number generation: Types and techniques | |
Niu et al. | Secure federated submodel learning | |
Huang et al. | A new two‐dimensional mutual coupled logistic map and its application for pseudorandom number generator | |
CN102684871A (zh) | 具有均匀分布特征的多维伪随机序列快速并行生成方法 | |
Li et al. | Color image representation model and its application based on an improved FRQI | |
Shao et al. | Chaotic image encryption using piecewise-logistic-sine map | |
Tamura et al. | Quantum random number generation with the superconducting quantum computer IBM 20Q Tokyo | |
Chen et al. | A novel image encryption scheme based on PWLCM and standard map | |
Yan et al. | A fractional-order hyperchaotic system that is period in integer-order case and its application in a novel high-quality color image encryption algorithm | |
Shi et al. | Comment on “Secure quantum private information retrieval using phase-encoded queries” | |
Wu et al. | A blockchain internet of things data integrity detection model | |
Tsou et al. | SPARR: Spintronics-based private aggregatable randomized response for crowdsourced data collection and analysis | |
Dass et al. | Hybrid coherent encryption scheme for multimedia big data management using cryptographic encryption methods | |
Boenisch | Differential privacy: general survey and analysis of practicability in the context of machine learning | |
Gao et al. | MLMSA: Multilabel Multiside-Channel-Information Enabled Deep Learning Attacks on APUF Variants | |
Park et al. | A lightweight BCH code corrector of trng with measurable dependence | |
Hazari | Design and Analysis of Assured and Trusted ICs using Machine Learning and Blockchain Technology | |
Qu et al. | A Network Data Reinforcement Method Based on the Multiclass Variational Autoencoder | |
Yuan et al. | Application of Blockchain Based on Fabric Consensus Network Model in Secure Encryption of Educational Information | |
Feng et al. | A new construction of pseudorandom number generator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |