CN111919216A - 计算机存储系统中的数据的按需去标识 - Google Patents
计算机存储系统中的数据的按需去标识 Download PDFInfo
- Publication number
- CN111919216A CN111919216A CN201980022994.8A CN201980022994A CN111919216A CN 111919216 A CN111919216 A CN 111919216A CN 201980022994 A CN201980022994 A CN 201980022994A CN 111919216 A CN111919216 A CN 111919216A
- Authority
- CN
- China
- Prior art keywords
- user identifier
- data
- computer storage
- storage system
- identification number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013503 de-identification Methods 0.000 title abstract description 37
- 238000000034 method Methods 0.000 claims description 73
- 230000008569 process Effects 0.000 claims description 42
- 230000014759 maintenance of location Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 230000000717 retained effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 150000003839 salts Chemical class 0.000 description 7
- 238000012423 maintenance Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/122—File system administration, e.g. details of archiving or snapshots using management policies
- G06F16/125—File system administration, e.g. details of archiving or snapshots using management policies characterised by the use of retention policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
- G06F16/152—File search processing using file content signatures, e.g. hash values
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/58—Random or pseudo-random number generators
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Storage Device Security (AREA)
Abstract
在本文中公开了用于对计算机存储系统中的数据进行按需去标识的计算设备。在一个实施例中,一种服务器能够包括处理器和存储器,所述存储器包含指令,所述指令被配置为经由计算机网络来接收电子消息。所述电子消息包含表示用户标识符的数据以及要删除数据库中与用户标识符相对应的任何数据记录的要求。所述服务器然后能够从所述数据库中提取与所述用户标识符相对应的记录,利用随机号码替换所提取的记录中的用户标识符和/或抑制或一般化来自所提取的记录的准标识符,并且然后在单独的表格中存储新记录。然后,能够从初始表格中删除所提取的记录的副本,并且由此实现对数据库中与用户标识符相对应的一个或多个数据记录的按需匿名化。
Description
背景技术
公司、组织、教育机构以及其他实体会常常将大量数据保持在计算机存储系统中。例如,一家公司会保留当前和以前员工的数据以及客户的数据。这样的数据通常作为个体数据库记录而存储在内部存储服务器中。计算机存储服务器还能够提供设施,所述设施用于基于适合的标准来查询所存储的数据,以及经由汇集、模式识别或者其他适合的技术来分析所存储的数据。
发明内容
提供本发明内容是为了以简化的形式介绍一系列概念,在下文的具体实施方式中进一步描述这些概念。本发明内容并不旨在标识所要求保护的主题的关键特征或必要特征,也并不旨在用于限制所要求保护的主题的范围。
信息隐私或数据隐私通常指代对数据的收集、保留和散布以及围绕前述活动的法律和政治问题之间的关系。无论在哪里以数字形式收集、存储、使用并且最终销毁或删除个人标识信息或者其他敏感信息,都会存在对数据隐私的担忧。数据隐私问题可能响应于来自宽范围的源的信息而发生,所述源诸如是健康护理记录、刑事司法调查和诉讼、金融机构和交易、生物特性分析、居住和地理记录、基于位置的服务以及学术研究。
涉及数据隐私的挑战是利用数据,同时保护个人的隐私偏好和个人标识信息。用于去标识或匿名化个人标识信息的特定技术问题在于高的处理和/或维护成本。例如,能够利用通常被称为“盐(salt)”的额外随机数据对数据集中的个人标识信息(例如,员工编号、姓名、社保号码等)进行散列化。然后,能够在数据集中存储经散列化的个人标识信息,同时删除初始记录。这样,能够对数据集中的记录进行去标识。然而,如果散列函数未被正确地选择,这样的技术可能导致隐私的意外泄露。不正确地选择散列函数会将数据匿名化策略暴露给攻击者。攻击者然后能够使用散列函数对经匿名化的数据进行反向工程,以导出初始数据,并且因此导致隐私泄露。前述技术还可能具有高的维护成本,用于维护用于对记录进行散列化的适合的散列函数。例如,为了确保数据的匿名化,不能够对用户标识符简单地进行散列化,因为对于相同的用户标识符,散列值将是相同的。这样,一个独有的用户标识符被另一个替换,所述另一个可以被用于标识用户。为了防止这样的对应关系,可以向散列过程中注入随机盐,以确保经散列化的用户标识符不被链接到自然人。旋转或者以其他方式管理用于散列过程的随机盐会导致高的维护成本。
所公开的技术的若干实施例涉及一种按需去标识技术,其被配置为在有来自与记录相对应的用户的需求时,对存储系统中的数据集的特定记录来执行匿名化过程。与其他技术不同的是,经匿名化的记录能够作为保留的数据被存储在新的并且单独的去标识的数据集中。这样,能够保留来自初始数据集的数据中的至少一些数据,同时符合数据隐私法律和要求。然后,能够对保留的数据,经由例如汇集或模式识别执行适当的数据分析,同时保护数据隐私。
在一个实施例中,去标识服务器能够被配置为例如经由对请求队列的周期性查询来接收来自用户的一个或多个删除请求。所述删除请求能够包含表示可用于独有地标识用户的一个或多个用户标识符的数据。这样的用户标识符的示例能够包括员工编号、客户账户号码、护照号码、社保号码等。所述删除请求还能够向去标识服务器指示用户希望从计算机存储系统中删除数据集合或数据集中包含被链接到或可链接到在给定时期(例如,一天、日期范围等)内作为自然人的用户的特定记录。在特定实施方式中,所述数据集能够被存储在计算机存储系统中作为一组数据库记录,其跨计算机存储系统中的数据库或文件中的多个表格。在其他实施方式中,所述数据集能够被存储为被托管在不同存储节点上的分布式碎片或者以其他适合的方式来存储。
响应于接收到删除请求,所述去标识服务器能够被配置为针对提交所述删除请求的每个用户生成随机标识符或假名,作为遥测标识符(TID)。在特定实施例中,所述去标识服务器能够包括密码性安全的随机号码生成器,其被配置为生成全球独有标识符(GUID)或通用独有标识符(UUID)或者其他适当类型的随机数据。例如,GUID或UUID均能够包括128比特的数字,即使没有中央授权以确保独有性,其也极不可能重复。示例性UUID能够包括以下字符串:uuid:f81d4fae-7dec-1 1d0-a765-00a0c91e6bf6。在其他实施例中,所述去标识服务器还能够包括散列组件,其被配置为通过利用随机盐对对应的用户标识符进行散列化以生成随机标识符。在另外的实施例中,所述去标识服务器能够被配置为以其他适当方式生成随机标识符或假名。在特定实施方式中,所述去标识服务器能够被配置为在从相同用户接收到每个删除请求时生成新的TID。这样,单个用户能够具有多个不同的TID。
所述去标识服务器然后能够在主查找表中暂时地存储所生成的TID和用户标识符作为条目。在特定实施方式中,能够一天、一小时或者在其他适当间隔内处理来自用户的所接收到的删除请求一次。针对删除请求中出现的每个独有的用户,能够生成单个TID,并且能够在主查找表中暂时地维持初始用户标识符与新分配的TID之间的映射。然后,能够使用主查找表来标识要从数据库中的一个或多个表格匿名化的个体记录。例如,所述去标识服务器能够被配置为查询数据库中的一个或多个表格,以取回与所接收到的删除请求中所包括的用户标识符相对应的用户的记录。例如,所述去标识服务器能够合并数据库中的表格,以便使用用户标识符作为匹配标准来找到匹配记录。在其他示例中,能够使用所述用户标识符来单独地查询所述表格。例如,要使用下文所讨论的技术来对取回的记录进行匿名化,而不是对整个数据集进行匿名化,在具有数百万或数千万记录的大型数据库中,后者的实施可能是不可行的。这样,数据库的一个或多个表格中的剩余记录会不受影响。
在从表格取回记录时,所述去标识服务器能够被配置为利用与主查找表中的用户标识符相对应的所生成TID来替换在取回的记录中的用户标识符,并且在本文中被个体地被称为保留表格的一个或多个新表格中存储具有TID的记录。这样,在匿名化过程期间给定删除请求能够具有相同的TID。在其他实施例中,可以比一天或一小时频率更低地(例如,一周、一个月等)处理所述删除请求。这样长的处理间隔可能导致被分配给单个用户标识符的TID数量变化更小。同时,所述去标识服务器能够移除、打乱或抑制可以被用于对用户进行“指纹标识”的任何准标识符。准标识符通常指代表格中的属性的子集,其自身不是独有标识符,但是可能与个体充分地相关,使得属性的组合能够创建独有标识符。示例性准标识符能够包括:例如IP地址、地理位置信息(例如,邮政编码)和应用会话ID。准标识符的示例性去标识技术能够包括抑制和一般化。抑制涉及从去标识的数据集中去除准标识符(例如,应用会话ID)的值。一般化涉及通过例如从IP地址零化最后两个八位字节或者将邮政编码一般化到国家,来对值进行一般化以覆盖更宽的范围或者应用到更大的类别。
去标识服务器还能够被配置为将具有经匿名化的记录的一个或多个保留表格保留到计算机存储系统中的适当位置,并且删除在初始表格中取回的导致与删除请求中的用户标识符的匹配的记录。在特定实施方式中,所述一个或多个保留表格能够具有与初始表格不同的保留和访问控制策略。在其他实施方式中,所述保留表格能够具有与初始表格中的至少一个初始表格相同的保留和访问控制策略。在一个实施例中,能够每个初始表格维持一个保留表格,并且所述保留表格能够实施初始表格的数据方案中的至少一些减去抑制的准标识符(如果有的话)。在其他实施例中,能够针对所有初始表格来维持单个非结构化的保留表格。所述非结构化的保留表格能够具有不知道针对整个数据集合或数据集来存储所有匿名化的数据的数据方案。在另外的实施例中,所述去标识服务器还能够每个初始表格维持保留表格,并且所述保留表格也按照处理删除请求的复现率,例如每天、每小时等,而被划分,以有效地跟踪初始表格中的给定的一组记录何时被匿名化。
通过在一个或多个保留表格中存储经匿名化的记录,所述匿名化过程将不影响初始表格中所使用的数据方案。这样,所述匿名化过程不将导致或引起额外的成本用于对初始表格进行重新编写或者其他操作变化。例如,所述初始表格中包含用户标识符的数据字段可以仅允许整数。然而,针对取回的记录所生成的TID可以包含字母数字串。这样,在初始表格中利用TID替换用户标识符涉及重新编制初始表格以允许数据字段接受字母数字串。这样的重新编制会增加成本并且导致不可预见的操作困难。因此,通过避免这样的重新编制,所公开的技术的若干实施例能够对计算机存储系统中的现有基础设施具有低的操作影响,并且还减轻了可能影响取决于初始表格的上游计算系统的风险。
所述去标识服务器还能够被配置为在完成对取回的记录匿名化时,清除包含用户标识符和对应TID的条目的临时主查找表。这样,去除了将随机TID与初始用户标识符或个人标识信息进行链接的仅有方式。在一个实施例中,所述主查找表能够被临时地保留在持久存储设备(例如,硬盘驱动器)上。在其他实施例中,主查找表一般能够被完全地保持在存储器(例如,RAM)中,而不是保持在持久存储设备上,直到匿名化过程完成。这样,能够进一步减轻潜在隐私泄露的风险。在前述实施例的任何实施例中,在完成匿名化过程时都从计算机存储系统清除所述主查找表。
在完成前述匿名化过程时并且在清除临时主查找表之后,在保留表格中所存储的匿名化数据集仅包含未链接到或者不可链接到任何自然人的匿名信息。这样,所述保留表格仅包含无义务遵守规范的非个人数据,所述规范诸如是由欧盟发布的一般性数据保护规则(GDPR)。
所公开的技术的若干实施例能够对包含个人标识信息的记录进行高效地匿名化。在匿名化过程的特定实施例中,不执行散列操作。相反,所述匿名化过程涉及生成单个随机值,即TID,作为用于数据集中的个体用户标识符的替换值。在前述匿名化过程的寿命期间,个体用户标识符与对应的分配的TID之间的映射能够被存储在所述主查找表中。另外,在其他实施例中,仅由所述删除请求针对的记录被去标识或匿名化,并且按需从所述初始表格中移除或者被移动到所述保留表格。这样,所公开的技术的若干实施例不涉及对整个数据集进行匿名化,对整个数据集进行匿名化辉导致显著的成本并且导致初始表格中的操作困难。
附图说明
图1是示意图,其图示了根据所公开的技术的实施例,实施匿名化过程的计算机存储系统。
图2A-2C是示意图,其图示了根据所公开的技术的实施例,在匿名化过程期间,图1的计算机存储系统的特定硬件/软件组件。
图3和图4是流程图,其图示了根据所公开的技术的实施例,在计算机存储系统中的匿名化过程。
图5是适合于图1中的计算机存储系统的特定组件的计算设备。
具体实施方式
下文描述了用于计算机存储系统的匿名化过程的系统、设备、组件、模块、例程、数据结构和过程的特定实施例。在以下描述中,包括了组件的特定细节,以提供对所公开的技术的特定实施例的透彻理解。相关领域的技术人员还将理解,该技术能够具有额外的实施例。也能够不需要下文参考图1-5所描述的实施例的若干细节来实践该技术。
如在本文中所使用的,术语“计算机存储系统”或“存储系统”一般指代具有多个网络节点的互连计算机系统,所述网络节点将多个服务器或存储节点彼此互连和/或互连到外部网络(例如,因特网)。个体服务器或存储节点能够包括一个或多个持久性存储设备。术语“网络设备”一般指代物理网络设备。示例性网络设备包括:路由器、交换机、集线器、网桥、负载均衡器、安全网关或防火墙。“节点”或“存储节点”一般指代被配置为实施例如一个或多个虚拟机、虚拟交换机、虚拟盘或者其他适当虚拟化组件的物理计算设备。例如,节点能够包括具有超级监督器的服务器,所述超级监督器被配置为支持一个或多个虚拟存储设备、虚拟机、虚拟交换机或者其他适当类型的虚拟组件。
还如在本文中所使用的,术语“用户标识符”或“个人标识信息”一般指代能够自身使用或者与其他信息一起用于独有地标识自然人、或者在语境中标识自然人的信息或数据。例如,用户标识符能够包括员工号码、客户账户ID、护照号码、社保号码、visa号码或者独有地标识个人的其他适当号码。在其他示例中,个人标识信息还能够包括表示全名、面部、家庭地址、电子邮件地址、国家标识号码、车辆注册号码、驾照号码、指纹或笔迹、信用卡号码、数字身份、出生日期、出生地、遗传学信息、电话号码、登录名、屏幕名、昵称或非正式称呼中的一项或多项的数据。稍晚还将参考图1-5来描述用户标识符或个人标识信息的额外示例。
进一步如在本文中所使用的,“去标识”或“匿名化”指代从数据库中的一个或多个记录中去除任何用户标识符或个人标识信息的过程。如下文更详细描述的,在去标识之后,能够生成新记录以仅包含不能够被用于独有地标识自然人的匿名化的数据。这样的匿名化的数据的示例能够包括使用数据(例如,消耗的带宽)、花费数据(例如,每月的信用卡费用)或者不能够被用于区分或跟踪个体身份的其他适当类型的数据。
在当今的世界中,数据是在巨大的尺度上被收集、分析和使用的。然而,无论在哪里以数字形式或者其他形式收集、存储、使用并且最终销毁或删除个人标识信息或其他敏感信息,都会存在对数据隐私的担忧。数据隐私问题可能响应于来自宽范围的源的信息而发生,所述源诸如是健康护理记录、刑事司法调查和诉讼、金融机构和交易、生物特性分析、居住和地理记录、基于位置的服务以及学术研究。
进一步如在本文中所使用的,术语“数据记录”或“记录”一般指代数据库的表格中的单个隐式结构化的数据项。表格能够包括行和列或字段。表格中的每行能够是代表一组相关数据的记录,并且表格中的每条记录具有相同的结构。例如,在表示公司的表格中,每个行或记录能够表示单个公司。示例性表格的列能够表示公司名称、公司街道地址或者其他适当的信息。
对数据隐私的挑战是利用这样的收集到的数据,同时保护个人的隐私偏好和个人标识信息。用于去标识或匿名化个人信息的特定技术问题在于高的处理和/或维护成本。在一个示例中,能够利用盐对数据集中的个人标识信息(例如,员工编号、姓名、社保号码等)进行散列化,所述盐能够对所得到的散列提供随机性。能够对所述盐进行旋转以确保相同的用户标识符并非始终具有与假名相同的散列值。然后,能够在数据集中存储经散列化的个人标识信息,同时删除初始记录。这样,能够对数据集中的记录进行去标识。然而,这样的技术会导致数据集中的操作性困难,因为去标识的记录可能需要初始数据集中的数据方案更改。前述技术还会具有高的维护成本,用于维护用于对记录进行散列化的散列函数。
所公开的技术的若干实施例涉及一种按需匿名化过程,能够实施所述过程以保留来自数据集的匿名化数据中的至少一些,同时符合数据隐私要求。与其他技术不同的是,经匿名化的记录能够作为保留的数据被存储在单独的去标识数据集中。然后,能够对保留的数据、经由例如汇集或模式识别进行适当的数据分析,同时保护数据隐私,如下文参考图1-5更详细描述的。
图1是根据所公开的技术的实施例,被配置用于用户记录的按需匿名化的计算机存储系统100的示意图。如在图1中所示的,计算机存储系统100能够经由客户端设备102经由计算机网络108被互连到多个用户101。尽管在图1中示出了计算机存储系统100的特定组件,但是在其他实施例中,计算机存储系统100也能够包括额外的和/或不同的要素。例如,计算机存储系统100能够包括额外的计算设备、网络存储设备、实用基础设施和/或者其他适当的组件。
客户端设备102均能够包括计算设备,所述计算设备促进对应的用户101经由计算机网络108来访问由计算机存储系统100所提供的计算服务。例如,用户101能够利用由客户端设备102提供的对应网页107来提交删除请求105,如下文参考图2A-2C更详细描述的。在例示的实施例中,客户端设备102个体地包括台式计算机。在其他实施例中,客户端设备102还能够包括膝上型计算机、平板计算机、智能电话或者其他适当的计算设备。尽管出于例示的目的,图1中示出了三个用户101以及对应的客户端设备102,但是在其他实施例中,计算机存储系统100能够促进任何适当数量的用户101来访问由计算机存储系统100所提供的计算服务。
计算机网络108能够包括互连用户101的客户端设备102和计算机存储系统100的各组件的一个或多个网络设备(未示出)。所述网络设备的示例能够包括路由器、交换机、防火墙、负载均衡器或者其他适当的网络组件。在一个实施例中,计算机网络108包括因特网。在其他实施例中,计算机网络108还能够包括局域网、广域网、虚拟专用网络、或者其他适当类型的计算机网络。
还如在图1中所示的,计算机存储系统100能够包括经由系统网络104彼此操作性地耦合的多个节点106和去标识服务器110。在特定实施例中,节点106能够个体地包括处理器、物理服务器或者包含若干物理服务器的刀片服务器。在其他实施例中,节点106还能够包括虚拟服务器或若干虚拟服务器。节点106能够被组织成机架、可用性区、组、集合、计算集群或者其他适当划分。例如,在例示的实施例中,节点106被分组成三个计算集群105(分别被个体地示为第一、第二和第三计算集群105a-105c),其经由系统网络104彼此操作性地耦合。尽管图1中出于例示的目的示出了三个计算集群105,但是在其他实施例中,计算机存储系统100能够包括一个、两个、八个、十六个或者任何其他适当数量的具有相似或不同组件和/或配置的计算集群105。
去标识服务器110能够被配置为在用户101请求时对计算机存储系统100中所存储的用户101的数据记录进行匿名化。在特定实施例中,去标识服务器110能够包括互连到节点106的一个或多个独立的计算设备。在其他实施例中,去标识服务器110能够是节点106中的一个或多个节点。在另外的实施例中,去标识服务器110能够包括由节点106中的一个或多个节点所提供的一个或多个计算服务。下文参考图2A-2C更详细地描述了去标识服务器110的示例性组件和操作。
在操作中,用户101能够通过例如使用客户端设备102经由网页107提交删除请求111(图2A中所示)来请求计算机存储系统100删除包含特别标识用户101的用户标识符或个人标识信息的任何数据记录。在一个示例中,所述用户标识符能够包括护照号码、社保号码、或者独有地标识自然人的其他适当标识符。在另一示例中,所述用户标识符还能够包括可认证标识符,其能够参照特定用户101被“认证”或者证明该标识符属于可标识的自然人。在另外的示例中,所述用户标识符能够包括不可假冒的标识符。这样的用户标识符的示例能够包括指纹、视网膜扫描、或者能够归因于特定自然人的其他适当的生物标识测量。在又另外的示例中,所述用户标识符还能够包括不可假冒并且替代地可归因于被认证的自然人的设备标识(例如,IP地址、MAC地址等)。响应于接收到删除请求111,去标识服务器110能够标识计算机存储系统100中包含用户身份的任何数据记录。在根据删除请求111标识出数据记录时,去标识服务器110还能够对所标识的数据记录进行匿名化,如下文参考图2A-2C更详细描述的。
图2A-2C是示意图,其图示了根据所公开的技术的实施例,在匿名化过程期间,图1的计算机存储系统的特定硬件/软件组件。在图2A-2C中,出于例示的目的,仅示出了计算机存储系统100的特定组件。为了清楚起见,未示出图1中的其他组件,诸如节点106。
另外,在图2A中以及在本文的其他附图中,个体软件组件、对象、类、模块和例程可以是以C、C++、C#、Java、SQL、U-SQL和/或者其他适当编程语言编写为源代码的计算机程序、流程或过程。组件可以包括,但不限于:一个或多个模块、对象、类、例程、性质、过程、线程、可执行程序、库或者其他组件。组件可以为源或二进制的形式。组件可以包括编译之前的源代码的各方面(例如,类、性质、流程、例程)、经编译的二进制单元(例如,库、可执行程序)或者在运行时实例化和使用的人工产物(例如,对象、过程、线程)。在特定实施例中,能够利用角色来实施下文所描述的各种组件和模块。在其他实施例中,也能够使用单片应用、多层应用或者其他适当的组件来实施应用和/或相关服务的生成。
系统之内的组件能够采取系统之内的不同形式。作为一个示例,不加限制地,一种包括第一组件、第二组件和第三组件的系统能够涵盖第一组件为源代码中的性质、第二组件为二进制编译库、并且第三组件为运行时生成的线程的系统。所述计算机程序、流程或过程可以被编译成对象、中间体或机器码,并且被提供以供个人计算机、网络服务器、膝上型计算机、智能电话和/或者其他适当的计算设备的一个或多个处理器执行。同样地,组件可以包括硬件电路。
本领域普通技术人员将认识到,硬件可以被视为石化的软件,并且软件可以被视为液化的硬件。仅仅作为一个示例,组件中的软件指令可以被烧制到可编程逻辑阵列电路中,或者可以被设计为具有适当集成电路的硬件电路。同样地,硬件可以由软件来仿真。源、中间体和/或目标代码和关联数据的各种实施方式可以被存储在计算机存储器中,所述计算机存储器包括只读存储器、随机存取存储器、磁盘存储介质、光学存储介质、闪存存储器件和/或不包括传播的信号的其他适当的计算机可读存储介质。
如在图2A中所示的,用户101能够向计算机存储系统100提交或者以其他方式传输表示删除请求111的电子消息。删除请求111能够包含表示与用户101相对应的用户标识的数据。例如,所述用户标识能够包括员工号码、客户号码、订户号码或者其他适当类型的用户标识符。在特定实施方式中,计算机存储系统100或者其组件能够提供网页107(图1),所述网页能够被显示在客户端设备102中,用于提交删除请求111。在其他实施例中,删除请求111能够包括电子邮件消息或者其他适当类型的电子消息。
还如图2A中所示的,去标识服务器110能够被操作性地耦合到计算机存储系统100中的数据库112。数据库112能够被托管在图1中的节点106中的一个节点上,或者以分布方式、例如在多个节点106上在计算机存储系统100中被维护。如在图2A中所示的,数据库112能够包括多个表格114,每个表格包含成行或列的多个数据记录。在所例示的示例中,数据库112能够包括第一表格114a和第二表格114b,每者都包含不同的数据记录115。例如,第一表格114a能够包含具有“ID”字段、“姓名”字段和“电话号码”字段的多条数据记录115。来自第一表格114a的一条示例性数据记录115在ID字段中包含“112”,在姓名字段中包含“JoeKim”,并且在电话号码字段中包含“(425)123-4567”。姓名和电话号码字段可以包含被称为替代标识符的数据,并且能够通过去除较不重要的字节(例如,能够将电话号码映射到仅仅区号)而被去除(例如,姓名)或者去标识。第二表格114b能够包含具有“ID”字段、“薪水”字段和“职位”字段的多条数据记录115。来自第二表格114b的一个示例性数据记录115在ID字段中包含“112”,在薪水字段中包含“100,000”,并且在职位号码字段中包含“一级工程师”。数据库112还能够包括一个或多个保留表格116(分别被示为第一保留表格116a和第二保留表格116b),所述保留表格被配置为在接收到删除请求111时包含经匿名化的数据记录,如下文更详细描述的。在例示的实施例中,每个表格114能够具有数据方案大致相似的对应保留表格116。在其他实施例中,数据库112能够为所有表格114保持单个非结构化的保留表格116。在另外的实施例中,数据库112能够包括每个初始表格114的保留表格116,其也按照处理删除请求111的复现率,例如每天,而被划分,以有效地跟踪初始表格114中的给定一组记录115何时被匿名化。
还如在图2A中所示的,去标识服务器110能够包括彼此操作性地耦合的输入组件122、查询组件124、匿名化器126和输出组件128,以执行匿名化过程。尽管在图2A中示出了去标识服务器110的特定组件,但是在其他实施例中,去标识服务器110也能够包括额外的和/或不同的组件。例如,去标识服务器110还能够包括被配置为跟踪在一时间段内被匿名化的若干数据记录115的统计组件(未示出)。
输入组件122能够被配置为接收并且预处理删除请求111。例如,输入组件122能够被配置为在接受所接收到的删除请求111为有效请求之前对用户101进行认证。在另一示例中,输入组件122还能够被配置为验证所接收到的删除请求111的格式、内容或者其他特性。在另外的实施例中,输入组件122能够被配置为在去标识服务器110中在请求队列、堆栈、表格或者其他适当数据结构(未示出)中存储删除请求111等待处理。在完成预处理时,输入组件122能够向查询组件124转发删除请求111。
查询组件124能够被配置为在数据库112中的表格114中查询包含所接收到的删除请求111中的用户标识符的任何数据记录115。例如,在一种实施方式中,查询组件124能够被配置为合并第一表格114a和第二表格114b并且根据ID字段中的值来搜索任何数据记录。例如,查询组件124能够查询合并的第一表格114a和第二表格114b,以发现ID字段中的“112”值或者姓名字段中的“Joe Kim”。在其他实施方式中,查询组件124能够被配置为使用删除请求111中的用户标识符单独地查询第一表格114a和第二表格114b,并且然后合并所得到的数据记录115。在另外的实施方式中,查询组件124能够被配置为经由其他适当的技术来定位包含用户标识符的数据记录115。在所例示的示例中,所得到的数据记录115能够如下:
ID | 姓名 | 电话号码 |
112 | Joe Kim | (425)123-4567 |
ID | 薪水 | 职位 |
112 | 100,000 | 一级工程师 |
查询组件124然后能够将所得到的数据记录115转发到匿名化器126以用于进行匿名化。
如在图2B中所示的,匿名化器126能够被配置为针对提交删除请求111的用户101生成随机参考标号,诸如全球独有标识符(GUID)或通用独有标识符(UUID),作为暂时标识符(TID),并且将所生成的TID和用户标识符作为主查找表132中的条目进行暂时存储。例如,在所例示的示例中,随机参考标号能够包括GUID,诸如被创建为针对ID的值“112”的“51b02dfa-9893-40e2-b253-3f2622c998b4”。由于空间限制,图2B和图2C中仅示出了示例性GUID的第一部分(“51b02dfa…”)。在其他示例中,TID能够包括整数、浮点数或者其他适当的随机号码或串。在另外的实施例中,TID还能够在随机号码之前具有格式前缀,诸如“gdpr:51b02dfa…”中的格式前缀“gdpr:”。在特定实施例中,匿名化器126能够包括被配置为生成TID的密码性安全随机号码生成器(未示出)。在其他实施例中,匿名化器126还能够包括散列模块(未示出),其被配置为通过利用或者不利用盐对对应用户标识符(例如,“112”)进行散列化来生成GUID。在另外的实施例中,匿名化器126能够被配置为以其他适当的方式来生成GUID。
在特定实施例中,主查找表132能够是一般完全保持在去标识服务器110的系统存储器306(在图5中所示的)中的临时表格。在其他实施例中,主查找表132也能够被暂时地存储在可移除存储装置336(在图5中所示的)或不可移除存储装置338(在图5中所示的)中。如下文更详细描述的,在完成匿名化过程时,主查找表132能够从系统存储器306、可移除存储装置336和/或不可移除存储装置338中被删除、覆写或者以其他方式清除。
在从查询组件124接收到数据记录115时,匿名化器126能够被配置为利用所生成的TID来替换数据记录115中的用户标识符。例如,在上文所示的示例中,能够如下利用所生成的TID“51b02dfa-9893-40e2-b253-3f2622c998b4”来替换ID字段值“112”:
ID | 姓名 | 电话号码 |
51b02dfa-9893-40e2-b253-3f2622c998b4 | Joe Kim | (425)123-4567 |
ID | 薪水 | 职位 |
51b02dfa-9893-40e2-b253-3f2622c998b4 | 100,000 | 一级工程师 |
同时,匿名化器126还能够移除或打乱可以被用于对用户101进行“指纹标识”的任何准标识符。准标识符通常指代表格114中的属性子集,其自身不是独有标识符,但是能够与个体充分相关,使得属性的组合能够创建独有标识符。在所例示的示例中,例如,能够通过移除不重要的字节以将电话号码映射到仅仅区号,如下生成匿名化的新数据记录120,从而能够去除“Joe Kim”(被示为划删除线)并且对“(425)123-4567”进行去标识:
各种准标识符能够由计算机存储系统110的管理员(未示出)来配置,根据特定定律和/或规则来选择,或者经由其他适当的源来导出。在其他实施例中,也能够移除电话号码。
如在图2C中所示的,一旦生成了经匿名化的新数据记录120,就能够配置匿名化器126以在对应的保留表格116中存储或保持新数据记录120。例如,来自第一表格114a的经匿名化的数据记录能够被存储在第一保留表格116a中,而来自第二表格114b的经匿名化的数据记录能够被存储在第二保留表格116b中。匿名化器126还能够被配置为删除初始表格114a和114b中的所取回的导致与删除请求111中的用户标识符相匹配的数据记录115。例如,如在图2C中所示的,针对具有ID“112”的用户的数据记录115从第一表格114a和第二表格114b两者中都被删除,如删除线所示的。
在特定实施方式中,保留表格116能够具有与对应初始表格114不同的保留和访问控制策略。例如,保留表格116中的数据能够保留无限时间量,而初始表格114中的数据能够保留30天、60天或者其他有限时间量。在另一示例中,仅有特定被授权的个人(例如,管理员)能够访问保留表格116,而初始表格114对一般用户101是可用的。在其他实施方式中,保留表格116能够具有与初始表格114中的至少一个初始表格相同的保留和访问控制策略。
通过在保留表格116中存储经匿名化的新数据记录120,初始表格114中所使用的数据方案能够不受匿名化过程的影响。这样,前述匿名化过程将不导致或引起额外的成本用于对初始表格114进行编制或者其他操作变化。在上文所讨论的示例中,包含用户标识符的ID数据字段可以在初始表格114中仅允许整数。然而,针对所取回的数据记录115而生成的TID包含字母数字串。在另一示例中,初始表格114中被视为准标识符的数据字段可以一开始被配置为不接受NULL或空值。然而,前述匿名化过程可以通过向初始表格114引入无效值(例如,NULL)来抑制这样的准标识符。这样,利用TID替换用户标识符并且抑制初始表格114中的准标识符可能涉及向初始表格114编制更改。通过避免这样的更改,所公开的技术的若干实施例能够对计算机存储系统100中的现有基础设施具有低的操作影响。
在特定实施例中,匿名化器126还能够被配置为在不同处理阶段应用额外的匿名化技术,以进一步打乱保留表格116中的数据,并且由此实现更高程度的隐私性。例如,匿名化器126还能够被配置为例如通过对薪水字段中的值进行二进制化,以抑制额外的属性或者对其值进行一般化。在其他示例中,匿名化器126还能够被配置为向数据集中注入“噪声”。在这些实施例的任意实施例中,匿名化器126还能够被配置为应用各种数据匿名化策略作为辅助过程,以针对某些特定数据集实现期望水平的隐私性。
如在图2C中所示的,匿名化器126还能够被配置为删除或清除包含用户标识符和对应TID的条目的临时主查找表132。为了清楚起见,以虚线示出了删除的主查找表132。这样,移除了将随机TID与初始用户标识符或个人标识信息进行链接的仅有的方式。这样,保留表格116中所存储的所得到的数据集仅包含未链接或不可链接到任何自然人的匿名信息。例如,上文所示的新数据记录115不包含能够被用于标识初始用户101的任何数据。这样,保留表格116仅包含无义务遵守规范的非个人数据,所述规范诸如是由欧盟发布的GDPR。
所公开的技术的若干实施例能够对包含个人标识信息的数据记录115进行高效地匿名化。在匿名化过程的特定实施例中,不执行散列操作。相反,所述匿名化过程涉及生成单个随机值,即TID,作为针对个体用户标识符的替换值,以降低当散列函数被不恰当地选择和/或配置时意外隐私泄露的风险。例如,当散列函数被不恰当地选择时,数据匿名化策略可能被暴露于攻击者。攻击者然后能够对经匿名化的数据进行反向工程,以导出初始数据,并且导致隐私泄露。另外,仅由删除请求111针对的记录被去标识或匿名化,并且按需从初始表格114中被去除到保留表格116。这样的特征使得前述匿名化过程能够在更大尺度上实施,以对大的数据集合进行去标识。例如,尽管出于例示的目的,在图2A-2B仅示出了两个数据记录115,但是在一些实施方式中,数据库112能够包含数百万或者甚至更大数量的数据记录115。对这样大数量的数据记录115中的所有用户标识符进行散列化会导致长的处理时间,并且需要大量的计算资源,从而可能使得数据库112对来自用户101的数据访问请求无响应。这样,通过仅按需对数据记录115进行匿名化,所公开的技术的若干实施例不涉及对初始表格114中的整个数据集进行匿名化,并且由此节省了显著成本并且降低了初始表格114中的操作困难的风险。
图3和图4是流程图,其图示了根据所公开的技术的实施例的匿名化过程。尽管在图1的计算机存储系统100的语境中描述了所述过程,但是在其他实施例中,能够在具有与图1中所示那些相比额外的和/或不同的组件的其他计算机系统中实施所述过程。同样地,在图3和图4中仅出于例示的目的示出了操作的特定序列。在其他实施例中,图3和图4中的过程的特定操作能够具有其他适当的执行序列。
如在图3中所示的,匿名化过程200能够包括在阶段202处接收删除请求。所述删除请求能够包括表示用户标识符的数据,以及来自用户的要删除包含所述用户的任何个人标识信息的数据的指示。过程200然后能够包括在阶段204处为用户生成随机标识符或TID,以及在主查找表中创建包含TID和用户标识符的条目。
过程200然后能够包括在阶段206处对计算机存储系统100中包含用户标识符或其他适当个人标识信息的任何数据记录进行去标识。在特定实施例中,对所述数据记录进行去标识能够包括利用TID来替换数据记录中的用户标识符。在其他实施例中,对所述数据记录进行去标识还能够包括在保留表格中保持具有替换的TID的数据记录。下文参考图4更详细地描述了适合于对数据记录进行去标识的特定示例性操作。过程200然后能够包括决策阶段208,以确定去标识操作是否完成。响应于确定去标识操作完成,过程200能够包括在阶段210处删除主查找表。
图4是图示了用于对数据记录进行去标识的特定示例性操作的流程图。如在图4中所示的,所述操作能够包括在阶段222处使用用户标识符作为标准在一个或多个数据库表格中查询数据记录。作为所述查询的结果,能够从数据库表格中取回到一个或多个数据记录。所述操作然后能够包括在阶段224处利用TID或其他适当的随机标识符替换所取回的数据记录中的用户标识符,以及在阶段226处去除(一个或多个)准标识符,如上文参考图2A-2C所描述的。所述操作然后能够包括在阶段228处在一个或多个保留表格中保留具有替换的TID的新数据记录,以及在阶段230处从初始数据库表格中删除数据记录。
图5是适合于图1中的计算机存储系统100的特定组件的计算设备300。例如,计算设备300能够适合于图1的节点106或去标识服务器110。在非常基础的配置302中,计算设备300能够包括一个或多个处理器304和系统存储器306。存储器总线308能够被用于在处理器304与系统存储器306之间进行通信。
根据期望的配置,处理器304能够是任何类型,包括,但不限于:微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或者其任意组合。处理器304能够包括一级或多级高速缓存,诸如一级高速缓存310和二级高速缓存312、处理器核心314和寄存器316。示例性处理器核心314能够包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核心(DSP核心)或者其任意组合。示例性存储器控制器318还能够与处理器304一起使用,或者在一些实施方式中,存储器控制器318能够是处理器304的内部部分。
根据期望的配置,系统存储器306能够是任何类型,包括,但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存存储器等)或者其任意组合。系统存储器306能够包括操作系统320、一个或多个应用程序322和程序数据324。该所描述的基本配置302在图4中由内部虚线之内的那些组件例示。
计算设备300能够具有额外的特征或功能以及额外的接口,以促进基本配置302与任何其他设备和接口之间的通信。例如,能够使用总线/接口控制器330来促进基本配置302与一个或多个数据存储设备332经由存储接口总线334的通信。数据存储设备332能够是可移除存储设备336、不可移除存储设备338或者其组合。举例来说,可移除存储设备和不可移除存储设备的示例包括磁盘设备,诸如软盘驱动器和硬盘驱动器(HDD)、光盘驱动器,诸如紧致盘(CD)驱动器或数字通用盘(DVD)驱动器、固态驱动器(SSD)和磁带驱动器。示例计算机存储介质能够包括在用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术中所实施的易失性和非易失性、可移除和不可移除介质。术语“计算机可读存储介质”或“计算机可读存储设备”不包括传播的或者其他类型的信号和通信介质。
系统存储器306、可移除存储设备336和不可移除存储设备338是计算机可读存储介质的示例。计算机可读存储介质包括,但不限于:RAM、ROM、EEPROM、闪存存储器或者其他存储技术、CD-ROM、数字通用盘(DVD)或者其他光学存储设备、磁带盒、磁带、磁盘存储器或者其他磁性存储设备,或者能够被用于存储所需的信息并且能够由计算设备300访问的任何其他介质。任何这样的计算机可读存储介质都能够是计算设备300的一部分。术语“计算机可读存储介质”不包括传播的信号和通信介质。
计算设备300还能够包括接口总线340,其用于促进从各种接口设备(例如,输出设备342、外围设备接口344和通信设备346)经由总线/接口控制器330到基本配置302的通信。示例性输出设备342包括图形处理单元348和音频处理单元350,其能够被配置为经由一个或多个A/V端口352连通到各种外部设备,诸如显示器或扬声器。示例性外围设备接口344包括串行接口控制器354或者并行接口控制器,其能够被配置为经由一个或多个I/O端口358与外部设备通信,所述外部设备诸如是输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备等)或者其他外围设备(例如,打印机、扫描仪等)。示例性通信设备346包括网络控制器360,其能够被布置成促进通过网络通信链路经由一个或多个通信端口364与一个或多个其他计算设备362进行通信。
所述网络通信链路能够是通信介质的一个示例。通信介质通常能够由计算机可读指令、数据结构、程序模块或者经调制的数据信号(诸如载波或其他传输机制)中的其他数据,并且能够包括任何信息递送介质。“经调制的数据信号”能够是具有以信号编码信息的方式来设置或改变其一个或多个特性的信号。例如但并非限制,通信介质能够包括有线介质和无线介质,所述有线介质例如是有线网络或直接线路连接,所述无线介质诸如是声学、射频(RF)、红外(IR)和其他无线介质。如在本文中所使用的,术语计算机可读介质可以包括存储介质和通信介质。
计算设备300能够被实施为小形状因子的便携式(或移动)电子设备的一部分,诸如蜂窝电话、个人数据助理(PDA)、个人媒体播放器设备、无线上网设备、个人耳机设备、专用设备或者包括任何以上功能中的任意功能的混合设备。计算设备300也能够被实施为包括膝上型计算机和非膝上型计算机配置的个人计算机。
从前述内容可知,将意识到,在本文中已经出于例示的目的而描述了本公开的具体实施例,但是可以做出各种修改而不脱离本公开的范围。另外,可以将一个实施例的很多元件与其他实施例组合,以补充或替代其他实施例的元件。相应地,该技术除了受到所附的权利要求限制之外,不受其他限制。
Claims (10)
1.一种用于对计算机存储系统中的数据库中的数据记录进行去标识的方法,所述方法包括:
从用户接收删除请求,所述删除请求包含表示所述用户的用户标识符的数据以及要删除所述数据库中与所述用户标识符相对应的任何数据记录的要求;以及
在接收到所述删除请求时,在所述计算机存储系统处:
生成与来自所述用户的所接收到的删除请求相对应的随机标识号码;
使用所述用户标识符作为匹配标准来查询所述数据库中的一个或多个表格,以取回与所述用户标识符相对应的一个或多个数据记录;
利用所生成的随机标识号码来替换所取回的数据记录中的所述用户标识符;以及
在与所述数据库中的所述一个或多个表格分离的保留表格中保存所述用户标识符被所述随机标识号码替换的所述数据记录,由此实现对所述数据库中与所述用户标识符相对应的所述数据记录的按需匿名化。
2.根据权利要求1所述的方法,其中,查询一个或多个表格还包括:使用所述用户标识符作为匹配标准来查询所述数据库中的所述一个或多个表格,以取回与所述用户标识符相对应的所述一个或多个数据记录,并且随后从所述数据库中的所述一个或多个表格中删除所述一个或多个数据记录。
3.根据权利要求1所述的方法,其中,生成所述随机标识号码还包括:
使用随机号码生成器来生成所述随机标识号码,以生成全局独有标识符作为所述随机标识号码;以及
将所生成的全局独有标识符和在所述删除请求中接收到的所述用户标识符作为条目存储在所述计算机存储系统中的主查找表中。
4.根据权利要求1所述的方法,其中,生成所述随机标识号码还包括:
使用散列函数利用额外的随机数据对所述用户标识符进行散列化,以生成所述随机标识号码;以及
将所生成的随机标识号码和在所述删除请求中接收到的所述用户标识符作为条目存储在所述计算机存储系统中的主查找表中。
5.根据权利要求1所述的方法,其中,生成所述随机标识号码还包括:
通过对所述用户标识符进行加密来生成所述随机标识号码;以及
将所生成的经加密的用户标识符和在所述删除请求中接收到的所述用户标识符作为条目存储在所述计算机存储系统中的主查找表中。
6.根据权利要求1所述的方法,还包括:
在接收到所述删除请求时,在所述计算机存储系统处:
将所生成的随机标识号码和在所述删除请求中接收到的所述用户标识符作为条目存储在所述计算机存储系统中的主查找表中;以及
在所述保留表格中保存所述用户标识符被所述随机标识号码替换的所述数据记录之后,从所述计算机存储系统中删除所述主查找表。
7.根据权利要求1所述的方法,还包括:
在接收到所述删除请求时,在所述计算机存储系统处:
将所生成的随机标识号码和在所述删除请求中接收到的所述用户标识符作为条目存储在所述计算机存储系统中的服务器的易失性存储器中保持的主查找表中;以及
在所述保留表格中保存所述用户标识符被所述随机标识号码替换的所述数据记录之后,从所述计算机存储系统中的所述服务器的所述存储器中清除所述主查找表。
8.根据权利要求1所述的方法,其中:
所取回的数据记录在数据字段中包含一个或多个准标识符,所述一个或多个准标识符包含能用于以相关的方式来标识所述用户的属性;并且
所述方法还包括在所述保留表格中保存所述数据记录之前,打乱所述一个或多个准标识符的值。
9.根据权利要求1所述的方法,其中:
所述数据库中的所述一个或多个表格具有对应的第一组访问和保留策略;并且
所述方法还包括向所述保留表格分配第二组访问和保留策略,所述第二组访问和保留策略与所述第一组访问和保留策略是不同的。
10.一种在包含具有多个表格的数据库的计算机存储系统中的计算设备,所述计算设备包括:
处理器;以及
存储器,所述存储器包含指令,所述指令能由所述处理器执行以使得所述计算设备执行根据权利要求1-9中的一项所述的过程。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/942,268 US10803196B2 (en) | 2018-03-30 | 2018-03-30 | On-demand de-identification of data in computer storage systems |
US15/942,268 | 2018-03-30 | ||
PCT/US2019/023778 WO2019190942A1 (en) | 2018-03-30 | 2019-03-23 | On-demand de-identification of data in computer storage systems |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111919216A true CN111919216A (zh) | 2020-11-10 |
Family
ID=66041802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980022994.8A Pending CN111919216A (zh) | 2018-03-30 | 2019-03-23 | 计算机存储系统中的数据的按需去标识 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10803196B2 (zh) |
EP (1) | EP3776321A1 (zh) |
CN (1) | CN111919216A (zh) |
WO (1) | WO2019190942A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434893A (zh) * | 2021-07-19 | 2021-09-24 | 首都医科大学宣武医院 | 一种用于保护用户隐私的咨询服务提供方法及系统 |
CN114911763A (zh) * | 2021-02-09 | 2022-08-16 | 安讯士有限公司 | 存储包含个人数据的媒体和擦除个人数据的设备和方法 |
CN115630400A (zh) * | 2022-12-21 | 2023-01-20 | 成都卫士通信息产业股份有限公司 | 一种去标识化数据的查询方法、装置、设备及存储介质 |
CN116938965A (zh) * | 2022-04-21 | 2023-10-24 | 西门子股份公司 | 从分布式账本中删除交易 |
Families Citing this family (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220164840A1 (en) | 2016-04-01 | 2022-05-26 | OneTrust, LLC | Data processing systems and methods for integrating privacy information management systems with data loss prevention tools or other tools for privacy design |
US10878127B2 (en) | 2016-06-10 | 2020-12-29 | OneTrust, LLC | Data subject access request processing systems and related methods |
US11520928B2 (en) | 2016-06-10 | 2022-12-06 | OneTrust, LLC | Data processing systems for generating personal data receipts and related methods |
US10740487B2 (en) | 2016-06-10 | 2020-08-11 | OneTrust, LLC | Data processing systems and methods for populating and maintaining a centralized database of personal data |
US10909265B2 (en) | 2016-06-10 | 2021-02-02 | OneTrust, LLC | Application privacy scanning systems and related methods |
US11727141B2 (en) | 2016-06-10 | 2023-08-15 | OneTrust, LLC | Data processing systems and methods for synching privacy-related user consent across multiple computing devices |
US11343284B2 (en) | 2016-06-10 | 2022-05-24 | OneTrust, LLC | Data processing systems and methods for performing privacy assessments and monitoring of new versions of computer code for privacy compliance |
US11354434B2 (en) | 2016-06-10 | 2022-06-07 | OneTrust, LLC | Data processing systems for verification of consent and notice processing and related methods |
US11366786B2 (en) | 2016-06-10 | 2022-06-21 | OneTrust, LLC | Data processing systems for processing data subject access requests |
US11366909B2 (en) | 2016-06-10 | 2022-06-21 | OneTrust, LLC | Data processing and scanning systems for assessing vendor risk |
US11416798B2 (en) | 2016-06-10 | 2022-08-16 | OneTrust, LLC | Data processing systems and methods for providing training in a vendor procurement process |
US11188615B2 (en) | 2016-06-10 | 2021-11-30 | OneTrust, LLC | Data processing consent capture systems and related methods |
US11675929B2 (en) | 2016-06-10 | 2023-06-13 | OneTrust, LLC | Data processing consent sharing systems and related methods |
US10846433B2 (en) | 2016-06-10 | 2020-11-24 | OneTrust, LLC | Data processing consent management systems and related methods |
US11481710B2 (en) | 2016-06-10 | 2022-10-25 | OneTrust, LLC | Privacy management systems and methods |
US11418492B2 (en) | 2016-06-10 | 2022-08-16 | OneTrust, LLC | Data processing systems and methods for using a data model to select a target data asset in a data migration |
US11416589B2 (en) | 2016-06-10 | 2022-08-16 | OneTrust, LLC | Data processing and scanning systems for assessing vendor risk |
US11354435B2 (en) | 2016-06-10 | 2022-06-07 | OneTrust, LLC | Data processing systems for data testing to confirm data deletion and related methods |
US11336697B2 (en) | 2016-06-10 | 2022-05-17 | OneTrust, LLC | Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods |
US10685140B2 (en) | 2016-06-10 | 2020-06-16 | OneTrust, LLC | Consent receipt management systems and related methods |
US11586700B2 (en) | 2016-06-10 | 2023-02-21 | OneTrust, LLC | Data processing systems and methods for automatically blocking the use of tracking tools |
US11438386B2 (en) | 2016-06-10 | 2022-09-06 | OneTrust, LLC | Data processing systems for data-transfer risk identification, cross-border visualization generation, and related methods |
US11544667B2 (en) | 2016-06-10 | 2023-01-03 | OneTrust, LLC | Data processing systems for generating and populating a data inventory |
US11188862B2 (en) | 2016-06-10 | 2021-11-30 | OneTrust, LLC | Privacy management systems and methods |
US10318761B2 (en) | 2016-06-10 | 2019-06-11 | OneTrust, LLC | Data processing systems and methods for auditing data request compliance |
US10997318B2 (en) | 2016-06-10 | 2021-05-04 | OneTrust, LLC | Data processing systems for generating and populating a data inventory for processing data access requests |
US10510031B2 (en) | 2016-06-10 | 2019-12-17 | OneTrust, LLC | Data processing systems for identifying, assessing, and remediating data processing risks using data modeling techniques |
US11410106B2 (en) | 2016-06-10 | 2022-08-09 | OneTrust, LLC | Privacy management systems and methods |
US11475136B2 (en) | 2016-06-10 | 2022-10-18 | OneTrust, LLC | Data processing systems for data transfer risk identification and related methods |
US11461500B2 (en) | 2016-06-10 | 2022-10-04 | OneTrust, LLC | Data processing systems for cookie compliance testing with website scanning and related methods |
US11328092B2 (en) | 2016-06-10 | 2022-05-10 | OneTrust, LLC | Data processing systems for processing and managing data subject access in a distributed environment |
US11134086B2 (en) | 2016-06-10 | 2021-09-28 | OneTrust, LLC | Consent conversion optimization systems and related methods |
US10284604B2 (en) | 2016-06-10 | 2019-05-07 | OneTrust, LLC | Data processing and scanning systems for generating and populating a data inventory |
US11636171B2 (en) | 2016-06-10 | 2023-04-25 | OneTrust, LLC | Data processing user interface monitoring systems and related methods |
US11403377B2 (en) | 2016-06-10 | 2022-08-02 | OneTrust, LLC | Privacy management systems and methods |
US11625502B2 (en) | 2016-06-10 | 2023-04-11 | OneTrust, LLC | Data processing systems for identifying and modifying processes that are subject to data subject access requests |
US11227247B2 (en) | 2016-06-10 | 2022-01-18 | OneTrust, LLC | Data processing systems and methods for bundled privacy policies |
US11222139B2 (en) | 2016-06-10 | 2022-01-11 | OneTrust, LLC | Data processing systems and methods for automatic discovery and assessment of mobile software development kits |
US11294939B2 (en) | 2016-06-10 | 2022-04-05 | OneTrust, LLC | Data processing systems and methods for automatically detecting and documenting privacy-related aspects of computer software |
US11301796B2 (en) | 2016-06-10 | 2022-04-12 | OneTrust, LLC | Data processing systems and methods for customizing privacy training |
US11562097B2 (en) | 2016-06-10 | 2023-01-24 | OneTrust, LLC | Data processing systems for central consent repository and related methods |
US10592648B2 (en) | 2016-06-10 | 2020-03-17 | OneTrust, LLC | Consent receipt management systems and related methods |
US11416109B2 (en) | 2016-06-10 | 2022-08-16 | OneTrust, LLC | Automated data processing systems and methods for automatically processing data subject access requests using a chatbot |
US10678945B2 (en) | 2016-06-10 | 2020-06-09 | OneTrust, LLC | Consent receipt management systems and related methods |
US11295316B2 (en) | 2016-06-10 | 2022-04-05 | OneTrust, LLC | Data processing systems for identity validation for consumer rights requests and related methods |
US10949565B2 (en) | 2016-06-10 | 2021-03-16 | OneTrust, LLC | Data processing systems for generating and populating a data inventory |
US10909488B2 (en) | 2016-06-10 | 2021-02-02 | OneTrust, LLC | Data processing systems for assessing readiness for responding to privacy-related incidents |
US11416590B2 (en) | 2016-06-10 | 2022-08-16 | OneTrust, LLC | Data processing and scanning systems for assessing vendor risk |
US11341447B2 (en) | 2016-06-10 | 2022-05-24 | OneTrust, LLC | Privacy management systems and methods |
US11392720B2 (en) | 2016-06-10 | 2022-07-19 | OneTrust, LLC | Data processing systems for verification of consent and notice processing and related methods |
US11651104B2 (en) | 2016-06-10 | 2023-05-16 | OneTrust, LLC | Consent receipt management systems and related methods |
US11651106B2 (en) | 2016-06-10 | 2023-05-16 | OneTrust, LLC | Data processing systems for fulfilling data subject access requests and related methods |
US11222142B2 (en) | 2016-06-10 | 2022-01-11 | OneTrust, LLC | Data processing systems for validating authorization for personal data collection, storage, and processing |
US10013577B1 (en) | 2017-06-16 | 2018-07-03 | OneTrust, LLC | Data processing systems for identifying whether cookies contain personally identifying information |
US11157652B2 (en) * | 2018-05-16 | 2021-10-26 | Microsoft Technology Licensing, Llc. | Obfuscation and deletion of personal data in a loosely-coupled distributed system |
US11449635B2 (en) * | 2018-05-16 | 2022-09-20 | Microsoft Technology Licensing, Llc. | Rule-based document scrubbing of sensitive data |
US11544409B2 (en) | 2018-09-07 | 2023-01-03 | OneTrust, LLC | Data processing systems and methods for automatically protecting sensitive data within privacy management systems |
US10803202B2 (en) | 2018-09-07 | 2020-10-13 | OneTrust, LLC | Data processing systems for orphaned data identification and deletion and related methods |
US20200082290A1 (en) * | 2018-09-11 | 2020-03-12 | International Business Machines Corporation | Adaptive anonymization of data using statistical inference |
EP3844905A1 (en) * | 2018-10-25 | 2021-07-07 | Sony Corporation | Privacy-preserving mobility as a service supported by blockchain |
US11106823B1 (en) * | 2019-01-18 | 2021-08-31 | Pitchly, Inc. | System and method for generating reversible anonymized record identifiers from a remote data system |
JP7172782B2 (ja) * | 2019-03-20 | 2022-11-16 | 株式会社リコー | 管理装置、管理システム、サーバシステム、遠隔機器管理システム、データ削除要求方法およびプログラム |
JP2020154687A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社リコー | 管理システム、サーバシステム、遠隔機器管理システム、機密情報削除方法およびプログラム |
US11165560B2 (en) | 2019-05-20 | 2021-11-02 | The Quantum Group, Inc. | Secure transmission of electronic health records via blockchain |
US20200402624A1 (en) * | 2019-06-19 | 2020-12-24 | Electronic Health Record Data, Inc. | Electronic Healthcare Record Data Blockchain System |
US20210232662A1 (en) * | 2020-01-29 | 2021-07-29 | Nusantao, Inc. | Methods to protect stakeholders' algorithms and information in untrusted environments |
JP2021157343A (ja) * | 2020-03-25 | 2021-10-07 | 京セラドキュメントソリューションズ株式会社 | データ連携システムおよび匿名化制御システム |
CN111708559A (zh) * | 2020-06-16 | 2020-09-25 | 四川虹微技术有限公司 | 一种数据更新方法、装置、电子设备及存储介质 |
WO2022011142A1 (en) | 2020-07-08 | 2022-01-13 | OneTrust, LLC | Systems and methods for targeted data discovery |
EP4189569A1 (en) | 2020-07-28 | 2023-06-07 | OneTrust LLC | Systems and methods for automatically blocking the use of tracking tools |
US11475165B2 (en) | 2020-08-06 | 2022-10-18 | OneTrust, LLC | Data processing systems and methods for automatically redacting unstructured data from a data subject access request |
US11436373B2 (en) | 2020-09-15 | 2022-09-06 | OneTrust, LLC | Data processing systems and methods for detecting tools for the automatic blocking of consent requests |
WO2022061270A1 (en) | 2020-09-21 | 2022-03-24 | OneTrust, LLC | Data processing systems and methods for automatically detecting target data transfers and target data processing |
WO2022099023A1 (en) | 2020-11-06 | 2022-05-12 | OneTrust, LLC | Systems and methods for identifying data processing activities based on data discovery results |
US11687528B2 (en) | 2021-01-25 | 2023-06-27 | OneTrust, LLC | Systems and methods for discovery, classification, and indexing of data in a native computing system |
WO2022170047A1 (en) | 2021-02-04 | 2022-08-11 | OneTrust, LLC | Managing custom attributes for domain objects defined within microservices |
US20240111899A1 (en) | 2021-02-08 | 2024-04-04 | OneTrust, LLC | Data processing systems and methods for anonymizing data samples in classification analysis |
WO2022173912A1 (en) | 2021-02-10 | 2022-08-18 | OneTrust, LLC | Systems and methods for mitigating risks of third-party computing system functionality integration into a first-party computing system |
WO2022178089A1 (en) | 2021-02-17 | 2022-08-25 | OneTrust, LLC | Managing custom workflows for domain objects defined within microservices |
US11546661B2 (en) | 2021-02-18 | 2023-01-03 | OneTrust, LLC | Selective redaction of media content |
WO2022192269A1 (en) | 2021-03-08 | 2022-09-15 | OneTrust, LLC | Data transfer discovery and analysis systems and related methods |
US11921866B2 (en) * | 2021-03-26 | 2024-03-05 | Consumer Direct, Inc. | System and method for protection of personal identifiable information |
US11562078B2 (en) | 2021-04-16 | 2023-01-24 | OneTrust, LLC | Assessing and managing computational risk involved with integrating third party computing functionality within a computing system |
US11522697B2 (en) | 2021-04-16 | 2022-12-06 | Bank Of America Corporation | Insight generation using personal identifiable information (PII) footprint modeling |
US11620142B1 (en) | 2022-06-03 | 2023-04-04 | OneTrust, LLC | Generating and customizing user interfaces for demonstrating functions of interactive user environments |
CN117792992B (zh) * | 2024-02-28 | 2024-05-07 | 鹏城实验室 | 数据传输路径控制方法、装置、介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040054807A1 (en) * | 2002-09-11 | 2004-03-18 | Microsoft Corporation | System and method for creating improved overlay network with an efficient distributed data structure |
CN103562851A (zh) * | 2011-05-27 | 2014-02-05 | 国际商业机器公司 | 使用单向散列的数据扰乱和匿名化 |
US20150007249A1 (en) * | 2013-06-26 | 2015-01-01 | Sap Ag | Method and system for on-the-fly anonymization on in-memory databases |
US20170364302A1 (en) * | 2016-06-21 | 2017-12-21 | International Business Machines Corporation | Technology for governance of data retention and transfer |
US9910902B1 (en) * | 2013-02-22 | 2018-03-06 | Facebook, Inc. | Anonymizing user identifiable information |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6732113B1 (en) | 1999-09-20 | 2004-05-04 | Verispan, L.L.C. | System and method for generating de-identified health care data |
US8275850B2 (en) | 2004-05-05 | 2012-09-25 | Ims Software Services Ltd. | Multi-source longitudinal patient-level data encryption process |
US20080240425A1 (en) | 2007-03-26 | 2008-10-02 | Siemens Medical Solutions Usa, Inc. | Data De-Identification By Obfuscation |
US8069053B2 (en) | 2008-08-13 | 2011-11-29 | Hartford Fire Insurance Company | Systems and methods for de-identification of personal data |
US8326849B2 (en) | 2009-06-25 | 2012-12-04 | University Of Ottawa | System and method for optimizing the de-identification of data sets |
US8584221B2 (en) * | 2009-10-23 | 2013-11-12 | Microsoft Corporation | Authenticating using cloud authentication |
EP3063691B1 (en) | 2013-11-01 | 2020-03-11 | Anonos Inc. | Dynamic de-identification and anonymity |
US10803466B2 (en) | 2014-01-28 | 2020-10-13 | 3M Innovative Properties Company | Analytic modeling of protected health information |
US20160306999A1 (en) | 2015-04-17 | 2016-10-20 | Auronexus Llc | Systems, methods, and computer-readable media for de-identifying information |
US10152402B2 (en) * | 2017-02-15 | 2018-12-11 | Wyse Technology L.L.C. | Supporting multiple streams for a redirected USB device |
-
2018
- 2018-03-30 US US15/942,268 patent/US10803196B2/en active Active
-
2019
- 2019-03-23 WO PCT/US2019/023778 patent/WO2019190942A1/en active Application Filing
- 2019-03-23 CN CN201980022994.8A patent/CN111919216A/zh active Pending
- 2019-03-23 EP EP19715779.5A patent/EP3776321A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040054807A1 (en) * | 2002-09-11 | 2004-03-18 | Microsoft Corporation | System and method for creating improved overlay network with an efficient distributed data structure |
CN103562851A (zh) * | 2011-05-27 | 2014-02-05 | 国际商业机器公司 | 使用单向散列的数据扰乱和匿名化 |
US9910902B1 (en) * | 2013-02-22 | 2018-03-06 | Facebook, Inc. | Anonymizing user identifiable information |
US20150007249A1 (en) * | 2013-06-26 | 2015-01-01 | Sap Ag | Method and system for on-the-fly anonymization on in-memory databases |
US20170364302A1 (en) * | 2016-06-21 | 2017-12-21 | International Business Machines Corporation | Technology for governance of data retention and transfer |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114911763A (zh) * | 2021-02-09 | 2022-08-16 | 安讯士有限公司 | 存储包含个人数据的媒体和擦除个人数据的设备和方法 |
CN113434893A (zh) * | 2021-07-19 | 2021-09-24 | 首都医科大学宣武医院 | 一种用于保护用户隐私的咨询服务提供方法及系统 |
CN113434893B (zh) * | 2021-07-19 | 2024-03-22 | 首都医科大学宣武医院 | 一种用于保护用户隐私的咨询服务提供方法及系统 |
CN116938965A (zh) * | 2022-04-21 | 2023-10-24 | 西门子股份公司 | 从分布式账本中删除交易 |
CN115630400A (zh) * | 2022-12-21 | 2023-01-20 | 成都卫士通信息产业股份有限公司 | 一种去标识化数据的查询方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019190942A1 (en) | 2019-10-03 |
US20190303610A1 (en) | 2019-10-03 |
EP3776321A1 (en) | 2021-02-17 |
US10803196B2 (en) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10803196B2 (en) | On-demand de-identification of data in computer storage systems | |
US11544395B2 (en) | System and method for real-time transactional data obfuscation | |
US10614248B2 (en) | Privacy preserving cross-organizational data sharing with anonymization filters | |
US10685139B2 (en) | Systems and methods for dynamic masking of data | |
US9311369B2 (en) | Virtual masked database | |
US9965644B2 (en) | Record level data security | |
US9202078B2 (en) | Data perturbation and anonymization using one way hash | |
US11803519B2 (en) | Method and system for managing and securing subsets of data in a large distributed data store | |
KR102442737B1 (ko) | 암호화된 데이터를 익명화하기 위한 컴퓨터 구현 시스템 및 방법 | |
JP2005050335A (ja) | データ項目のためのゾーンベースのセキュリティ管理 | |
Wu et al. | How to protect reader lending privacy under a cloud environment: a technical method | |
US11934551B2 (en) | Processing per-use requests for user data | |
US20230043544A1 (en) | Secure database extensions | |
US20210326470A1 (en) | Data sundering | |
US20210357410A1 (en) | Method for managing data of digital documents | |
Peng et al. | Differential attribute desensitization system for personal information protection | |
US20240160785A1 (en) | Knowledge encoding based mapping of knowledge objects for data compliance | |
US20240143829A1 (en) | Permission based data masking | |
Cáceres et al. | Data Validation Through Decentralised Blockchain-Based Registries | |
Lodha et al. | Data privacy | |
Kumar et al. | Security Analysis of Mongodb | |
WO2020074438A1 (en) | Method for managing data of digital documents | |
Jayapandian et al. | ORPHANAGE HOME MANAGEMENT SYSTEM USING CLOUD WITH DATA ANONYMIZATION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |