CN113272809A - 创建保护敏感数据的化身的方法 - Google Patents

创建保护敏感数据的化身的方法 Download PDF

Info

Publication number
CN113272809A
CN113272809A CN202080008383.0A CN202080008383A CN113272809A CN 113272809 A CN113272809 A CN 113272809A CN 202080008383 A CN202080008383 A CN 202080008383A CN 113272809 A CN113272809 A CN 113272809A
Authority
CN
China
Prior art keywords
data
avatar
individual
nearest neighbors
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080008383.0A
Other languages
English (en)
Inventor
Y·内德莱克
O·布雷拉克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Health
Original Assignee
Big Data Health
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Health filed Critical Big Data Health
Publication of CN113272809A publication Critical patent/CN113272809A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Storage Device Security (AREA)
  • Studio Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种用于从存储在计算机系统的数据库中的初始敏感数据集创建化身的方法,初始数据包含与多个个体相关的属性,所述方法包含:a)从初始数据集中的所有个体中选择要使用的最近邻居的数量{k},b)对于与给定个体相关的属性,从数据集中的其他个体中识别k个最近邻居,c)对于与所述个体相关的至少一个属性,从由所识别的k个最近邻居中的属性来表征并且通过系数加权的量中产生新的属性值,以及d)创建包含新的属性值的化身数据以确保与个体相关的敏感数据是不可识别的。

Description

创建保护敏感数据的化身的方法
本发明涉及一种用于从包含与多个个体相关的属性的初始敏感数据集创建化身的方法。
技术领域
保护敏感数据是一个至关重要的问题,尤其是放在网上或传输给第三方使用的个人数据。目前的解决方案旨在允许对其信息潜力感兴趣的第三方访问敏感数据集,方法是在不知道文件内容的情况下,在较高的级别上确保处理文件的可能性。因此,虽然不排除控制数据访问的需要,但需要通过真正的匿名化在源位置保护数据。
匿名化可以定义为移除文档或数据库中含有的所有信息,从而直接或间接识别个体身份的操作。做这件事有不同的方法。
背景技术
这种被称为替代或假名化的方法由用另一任意标识符或假名替换最初的个人标识符组成。为了保证数据库中信息的可追溯性和更新,并防止与一个个体相关的数据与另一个体相关联,在没有永久标识符的情况下,这一假名必须对每个人都是唯一的。
因此,可以生成秘密相关表,该表一劳永逸地将所有标识符与已经与之相关联的假名相关联。这一匿名化技术的安全级别较低,因为操作是可逆的,因为标识符可以从假名中恢复,并且拥有该表的人可以容易地读取数据库。
还可以使用称为散列的函数,与不可逆的标准加密算法相比,该函数具有特定的特征:即使所使用的散列函数是已知的,也不能仅从假名中就简单地恢复初始标识符。然而,尽管原则上是不可逆的,但是通过重复重建相关表,这一技术可能会受到损害。
可以通过预先向初始标识符添加任意密钥来增强匿名化安全性,然后对该密钥进行散列函数。因此,任意希望重建相关表的人不仅必须测试所有可能的姓和名(这相对容易),而且还必须测试所述标识符可能受到未知关键字影响的所有修改。然而,设备的安全性再次依赖于所使用工具的保密性:一方面是密钥,另一方面是散列函数。
还可以通过使用密钥的双重散列来加强匿名化,这由第一次执行操作,并且使用密钥对获得的假名进行第二散列函数组成。为了确保完全保密,密钥可以定期更新。
抑制、屏蔽或噪声添加方法由通过抑制特定数据或可替代地通过添加扰乱初始数据的信息来降低初始信息的质量组成。此类方法的缺点是数据从一开始就被扭曲,这使得所述数据与除原始数据之外的任意用途都不太相关。专利申请FR 3 047 586公开了一种向被分成子集的敏感数据添加噪声的方法,其取决于为每个子集确定的敏感度的水平应用不同的噪声水平。
在国际申请WO 2017/093736中,使用干扰原始数据的一种或多种技术来执行数据匿名化,诸如使用标记、泛化、数据模糊、合成记录插入、记录抑制或重组。在这两种应用中,匿名化是通过对敏感数据的单个项目进行连续转换来实现的。
聚集是一种由将多个值组合在一个类别中组成的方法。例如,最初年龄为25岁、27岁和30岁的个体将被归入相同的25-30岁年龄段。聚集的级别越高,重新识别的风险越低,但同时信息越不精确。因此,负责数据库的机构必须在由聚集的级别保证的匿名化的稳健性和授权的数据精度之间找到令人满意的平衡。国际申请WO 2018/028783描述了一种允许使用这一类型的聚集方法使含有敏感信息的所有数据匿名的方法。
此外,在所有可能的对象(有时称为“大数据”)上的所有类型的公共数据或私有数据呈指数级传播的背景下,信息交叉检查技术是打破敏感数据库的匿名性的非常有效的手段。根据法国数据保护执法机关[Commission Nationale de l'Informatique et desLibertés](CNIL)的建议,一些比其他数据更敏感的数据还需要特别注意,诸如与健康状况、家庭生活、法律事务或财富有关的数据。没有能够在消除所有识别风险的同时保存数据集中含有的全部信号的解决方案。不过,匿名化技术存在很多缺陷。
本发明的公开
因此,需要通过使所述数据不可逆转地不可识别,同时保存用于分析目的的最大数据效用来进一步改善对敏感数据的保护。
本发明的目的正是为了满足这一需求。
发明内容
因此,本发明的目的是一种用于从存储在计算机系统的数据库中的初始敏感数据集创建化身的方法,所述初始数据包含与多个个体相关的属性,所述方法包含:
a)对于与给定个体相关的属性,从初始数据集中的所有个体中选择要使用的最近邻的数量k,
b)对于该个体,从数据集中的其他个体中识别k个最近邻,
c)对于与所述个体相关的至少一个属性,从所识别的k个最近邻中的所述属性的特征量中生成新的属性值,并通过系数加权,以及
d)创建包含新的属性值的化身数据以确保与个体相关的敏感数据是不可识别的。
从丧失了重新识别数据来源的个体的能力来说,本发明实现了真正的匿名化。创建与虚拟的、合成的个体相对应的化身的目的是防止任何直接或间接的重新识别,这被称为“化身化”。
本发明以个体观察为中心(即数据驱动和以患者为中心),而不是以彼此相似的一大群个体为中心。所述发明不同于一些基于分组观察的已知方法。所述发明总是使用个体的环境来创建化身。它允许处理大量数据,同时保持变量之间的现有链接。
与下面描述的已知方法不同,本发明完全生成新的合成记录:化身。在所述发明提出从原始数据项的局部环境中完全生成合成数据项的意义上,所述发明向前迈出了当前技术没有实现的一步。化身是其环境的局部概括的结果。例如,在医疗数据的情况下,患者的化身由相似的个体创建,其数量可以参数化。
本发明有助于确保保持数据集的有用性,提供执行相同的分析的可能性(例如统计分析或使用人工智能方法的分析),并获得初始数据集和化身之间的可比结果。
保存初始数据的结构(换句话说,它们的粒度)是可能的,而已知的使用聚集或一般化的解决方案提供了良好的安全性,但是在信号保持方面有所损失。例如,根据本发明的方法允许连续值被保存30年、32年或35年,而不是单一的30-35年类别。
本发明方便了数据访问,并提供了完整的解决方案,使得非专家的人可以访问该方法。这允许用户通过提供交钥匙解决方案而不是需要数据科学家、法律专家和数据共享解决方案提供商介入的工具来节省时间。
初始数据和最近邻数k
根据CNIL的定义,“敏感数据项”应理解为关于种族或族裔、政治、哲学或宗教观点、工会成员、健康或性生活的信息。敏感数据包括个人数据,尤其是健康数据。
初始数据集也称为“微数据”,包含与多个个体相关的属性。所述数据例如是含有在急诊室或使用保健实体的患者的信息的记录,或形成给定疾病、临床试验的研究组群的部分的记录,或与城市居民相关的各种信息项,或给定服务的用户的档案。
初始数据集可以通过与实现根据本发明的方法的计算机系统的数据库或者与远程计算机系统的数据库接口来下载。
初始数据可以包括至少一个具有数值的属性,称为连续变量,和/或至少一个属于代表个体的特征的类别的属性,称为分类变量或类别属性。
与属性的性质相关联的逻辑约束可以由用户指定。
在特定的主成分分析(PCA)中,在识别个体的k个最近邻之前,有利地对初始数据进行多变量分析。这一数学方法允许通过识别方差、区分度和信息量的最重要的轴来降低数据集的维度,并在更有限量的维度中显示具有N个维度的数据集的本质,同时尊重用户定义的参数,尤其是通过为每个变量分配权重的参数。
这样修改的属性的值然后可以被投影到相同的几何空间中。
多变量分析(尤其是主成分分析)可以对分类属性和连续属性进行。
每个属性还可以被定义为或多或少的敏感。因此,对于某些特定属性,用户可以选择更深入地扰动数据集。在多变量分析中,可以为每个属性分配不同的权重,这修改了用于识别最近邻的数据投影。
例如,如果重要的权重被分配给“大小”属性,这将导致在欧氏空间中投影的恶化和扭曲。因此,与其他属性相比,点之间的距离尤其受“大小”属性的影响:大小的微小差异对投影和患者环境有更显著的影响。
最近邻
最近邻的数量k可以是所考虑的个体的初始数据的函数。对于相同的初始数据集,最近邻的数量k可以是可变的,对于一些个体来说是不同的,或者从一个个体到另一个体是不同的。
可以根据初始数据的敏感度因子和/或化身数据的预期接收者中的置信度因子来选择这一参数:敏感度因子越高和/或置信度因子越低,数量k越高,并且敏感度因子越低和/或置信度因子越高,数量k越低。
敏感度因子和置信度因子可以在0和1之间。
最近邻的数量k的选择取决于保护初始数据和保留信号之间的期望平衡。初始数据集可能有不同程度的敏感度,换句话说,它们被知道的结果是不同的。例如,在医疗数据的情况下,知道一个人的体重指数可能比知道这个人是否患有癌症的破坏性小。
评估用户对化身数据的接收者的信任度也很重要。例如,对于相同的医院内的数据的交换,这种信任级别高于数据公开在线的情况。
本发明基于从对应于个体的每个记录的最近邻产生局部建模。例如,对于医疗数据,这由为每个患者识别与他或她相似的k个患者组成。因此,所应用的处理是根据对每个个体唯一的近邻来执行的。因此,本发明以个体为中心,而不是以彼此相似的一组个体为中心,因此与基于组观察的已知方法不同。
化身数据
在初始数据包含至少一个具有数值的属性的情况下,新的属性值优选地对应于从k个最近邻的相同的属性的值计算的随机加权重心,每个值由从均匀或指数分布中随机选择的系数加权。
对于k个最近邻中的每个,可以为属性的每个值随机选择不同的系数。
如果属性被投影在相同的欧氏空间中,对于任意点M,G有利地存在,具有k个顶点的多边形的加权随机加权重心,对应于k个最近邻:
[数学1]
Figure BDA0003151937230000051
αi:随机加权系数
Ai:多边形的顶点(近邻),
使得
[数学2]
Figure BDA0003151937230000052
随机加权重心G有利地在对应于具有数值的属性的数量的维度的数量N中计算。
根据本发明的方法允许边缘记录更充分地重新居中,以消除重新识别的风险,部分是由于计算新的属性值不直接使用原始值,而是仅使用其近邻来产生局部概括。
如果初始数据包含属于代表个体的特征的类别的至少一个属性,则新的属性值根据所述类别在k个最近邻中的加权表示来有利地随机选择,该加权表示是根据在k个最近邻中属于所述类别的值的数量来计算的,该值由整个初始数据集中属于所述类别的值的数量来加权。
例如,对于指示患者是否怀孕的属性,“怀孕”或“未怀孕”类别的比例在k个最近邻中计算,然后通过在整个数据集中的那些相同类别的表示来加权。然后,根据该这一加权表示随机绘制新的属性值。
这种方法允许随机绘图的随机性,这确保了重新识别的困难与保证所述绘图被最近邻中每一类别的代表性所偏向相结合。
均匀、对数正态或指数分布可用于计算数值属性的随机加权系数和新类别属性值的随机选择。
新的数值和类别属性值一起有利地生成,以创建化身数据。以创建化身数据为高潮的本发明有利地是个体的初始数据的矢量变换。
因此,从连续变量和分类变量中有利地重构数据集。本发明确保了原始属性类型的保存。例如,如果年龄是初始数据集中取整数值的属性,则在创建化身后,它将具有相同的形式。这一结果不同于已知的一般化方法,在已知的一般化方法中,在数据被匿名化之后,多个相似年龄的患者出现在相同的年龄组中,从而锁定信息丢失。
可以将至少一个约束函数应用于化身数据,以便于限制异常值或与相同的个体相关的属性之间的关系的变化,尤其是约束数字属性的分布或尊重类别属性之间的逻辑关系。如果需要,可以使用初始数字属性的最小值和最大值来修改所得化身属性,尤其是确保不出现低于初始数据集的最小年龄的年龄。可以应用基于不同的、先前建立的属性之间的逻辑关系规则的约束函数,诸如男人不能怀孕的事实。这进一步增加了初始数据集和化身数据之间的相似性,并允许保持数据一致性。
由化身组成的数据集有利地具有与初始数据集相同的维度。
应用于初始数据集的处理在化身数据上保持有效。
记录和访问化身数据
化身数据有利地记录在相同的计算机系统和/或远程服务器的数据库中。
化身数据集可以以文件形式记录在本地工作站上,例如供内部使用。在变型或组合中,化身数据集可以记录在远程服务器上,尤其是通过经由传输信道(诸如因特网或内联网)上传。
可以为化身数据的接收者创建受约束访问。可以向所述接收者通知所述数据已经通过混合认证系统变得可用,该混合认证系统包含至少两个步骤,尤其是基于例如通过电子邮件生成和传输唯一的下载链接,然后例如通过文本消息传送有限寿命密钥。用户还可以决定约束对特定属性或个体的访问,或者设置接收者可以进行的最大查询次数。
接收者可以以不同的方式访问化身数据,诸如直接从唯一的个性化链接下载化身文件(例如以CSV、XML或XLS格式下载)、使用诸如SFTP的安全协议浏览和下载文件、在远程服务器上的数据库上进行安全查询、或者应用编程接口(API)允许接收者将他或她的应用中的一个直接与数据接口。
在最后一种情况下,用户有利地能够提供已经实时更新的化身数据集的版本。在敏感数据的访问可能被取消的情况下,例如,在实施《通用数据保护条例》(GDPR)之后,或者如果一个组群中的记录数量没有停止增加,例如,在当前医学研究招募的患者的情况下,这尤其有用。
可以自动生成含有化身数据创建的细节的报告,该报告尤其包含所使用的多变量分析的参数、个体的数量以及数值属性和类别属性,以及最近邻的数量k。这一报告允许跟踪所执行的操作,并且对于存档或法律要求很有用。显然,报告不含有任意允许恢复初始数据的信息。请注意,报告在任意情况下都不允许反过来执行化身化操作,因为所述报告没有保存方法的操作固有的随机生成值的痕迹。
本发明的所有步骤有利地由计算机自动实现。
计算机程序产品
根据本发明的另一方面,本发明的另一目的是计算机程序产品,其用于实现根据本发明的方法,以从存储在计算机系统的数据库中的初始敏感数据集创建化身,所述初始数据含有与多个个体相关的属性,计算机程序产品包含支撑物和记录在所述支撑物上的可由处理器读取的指令,以便于在执行时:
a)对于与给定个体相关的属性,从初始数据集中的所有个体中选择要使用的最近邻的数量k,
b)对于所述个体,从所述初始数据集中的所述其他个体中识别所述k个最近邻,
c)对于与所述个体相关的至少一个属性,从所识别的k个最近邻中的所述属性的特征量中产生新的属性值,并通过系数加权,以及
d)创建包含新的属性值的化身数据以确保与个体相关的敏感数据是不可识别的。
上述方法的特征应用于计算机程序产品,反之亦然。
化身创建设备
根据本发明的另一方面,本发明的另一目的是用于从存储在计算机系统的数据库中的初始敏感数据集创建化身的设备,所述初始数据包含与多个个体相关的属性,设备包含:
a)选择模块,该选择模块配置为对于与给定个体相关的属性,从初始数据集中的所有个体中选择要使用的最近邻的数量k,
b)识别模块,该识别模块配置为对于所述个体,从数据集中的其他个体中识别k个最近邻,
c)生成模块,该生成模块配置为对于与所述个体相关的至少一个属性,从所识别的k个最近邻中的所述属性的特征量中产生新的属性值,并通过系数加权,以及
d)化身创建模块,该化身创建模块配置为创建包含新的属性值的化身数据,以确保与个体相关的敏感数据是不可识别的。
根据本发明的设备还可以包含记录模块,该记录模块将化身数据记录在相同的计算机系统和/或远程服务器的数据库中。
化身创建设备可以包含用于指定特定于数据集并链接到属性的性质的逻辑约束的模块。
设备还可以包含用于选择最近邻的数量k的模块。
化身创建设备可以包含用于根据重新识别风险和信息丢失风险来评估化身的特性的模块。
化身创建设备可以包含通知模块,该通知模块配置为向化身数据的接收者通知所述数据已经通过混合认证系统变得可用,该混合认证系统包含至少两个步骤,尤其是基于例如通过电子邮件生成和传输唯一的下载链接,然后例如通过文本消息传送有限寿命密钥。
上述方法和计算机程序产品的特征应用于设备,反之亦然。
附图说明
通过阅读以下对本发明实施的非限制性实例的详细描述,并通过查看附图,可以更好地理解本发明,其中:
[图1]示出了根据本发明从初始敏感数据创建化身数据的步骤,
[图2]是为原始数值属性创建化身数据的实例,
[图3]示出了对于图2中的实例,化身属性值相对于最近邻的概率密度分布,
[图4]示出了化身数据和初始数据在空间中的位置,
[图5]示出了初始数据集和化身数据集的不同属性之间的相关性差异,
[图6]示出了根据最近邻的数量k,根据本发明创建的化身和原始最近个体之间的距离的变化,以及
[图7]示出了根据最近邻的数量k,初始数据集中最近邻和个体之间距离的变化。
具体实施方式
图1示出了根据本发明从初始敏感数据创建化身数据的步骤的实例。
在这一实例中,在步骤11中,通过与实现根据本发明的方法的计算机系统的数据库或者与远程计算机系统的数据库接口,下载初始数据集。这一初始数据集包含与多个个体相关的属性,这些属性可以是数值属性和/或属于代表个体的特征的类别的属性。与属性的性质相关联的逻辑约束可以由用户指定。
在步骤12中,如上所述,建立敏感度因子和置信度因子,以便于在步骤13中选择最近邻的数量k。对于敏感数据的每个单独项目,可以独立地选择最近邻的数量k,并且因此还可以局部地确定,并且对于相同的数据集,可以从一个个体到下一个个体变化。
在步骤14中,对初始数据执行多变量分析,尤其是主成分分析,在步骤14之二中为每个属性分配权重。因此,在步骤15中,从修改的数据中识别个体的k个最近邻。例如,如果将0.1的权重分配给年龄,将0.2的权重分配给BMI,将0.75的权重分配给怀孕次数,则规定最后一个属性特别敏感,这将扭曲多变量分析中数据的投影。
对于数值属性,在步骤16中,为k个最近邻的每个的属性的每个值随机选择系数,以便于在步骤17中,从k个最近邻的相同的属性的值中计算随机加权重心G,每个值由这一随机系数加权,以获得化身数据项的新值。如果数据含有N个数值属性,则随机加权重心G在N个维度上计算,从而给出所考虑属性的所有新值。
对于属于代表个体的特征的类别的属性,在步骤18中,计算在k个最近邻中属于所述类别的属性的数量,然后在步骤19中,这一数量被整个初始数据集中属于这一类别的个体的数量加权,以便于在步骤20中根据这一加权表示随机选择新的属性值。
在步骤21中,新的数值属性值和类别属性值被一起生成以创建化身数据,从而使得与个体相关的敏感数据不可识别。
在步骤22中,如前所述,将由用户定义的约束应用于化身数据,以限制异常值或与相同的个体相关的属性之间关系的变化。
对每个个体重复根据本发明的方法。方法以个体敏感观察为中心。所述方法允许为数据敏感的个体生成许多所需数量的化身,使用全局建模或重新采样的已知模拟方法也是如此。
这样创建的化身数据可以在步骤23中记录在相同的计算机系统的数据库中,和/或在步骤24中记录在远程服务器的数据库中。
在步骤26中管理化身数据的接收者。可以通过不同的方式使数据可用,诸如直接从唯一的个性化链接下载化身文件(例如以CSV、XML或XLS格式下载)、使用诸如SFTP的安全协议浏览和下载文件、在远程服务器上的数据库上进行安全查询、或者应用编程接口(API)允许接收者将他或她的应用中的一个直接与数据接口。
可以向接收者通知数据已经通过混合认证系统变得可用,该混合认证系统包含至少两个步骤,尤其是基于例如通过电子邮件生成和传输唯一的下载链接,然后例如通过文本消息传送有限寿命密钥。
在步骤25中,可以自动生成含有化身数据的创建的细节的报告,所述报告包含例如所使用的多变量分析的参数、个体的数量以及数值属性和类别属性,以及最近邻的数量k。
图2示出了从包含定量属性(年龄和红细胞水平,其可以在下面的表1中看到)的初始数据创建的化身的实例。为了简单起见,这一实例是从原始数据产生的,但是在多变量分析之后有利地创建化身,尤其是主成分分析之后。
[表1]
个体 年龄 红细胞(M/μl)
O 25 3.5
A 19 4.5
B 28 1.8
C 42 5.2
表1
如图2中所示,每个个体的属性值被投影到相同的欧氏空间中。在这一实例中,使用他或她的近邻中的三个为个体O创建化身Y,即k=3。识别个体O的最近邻。为每个近邻随机抽取系数。具有相关系数的每个近邻的坐标用于计算随机加权的重心并形成化身数据。在所考虑的实例中,个体O的化身Y具有作为他或她的年龄的属性值的34、47,以及作为红细胞属性的4、13M/μl。
图3示出了化身属性值相对于先前实例的最近邻的概率密度分布。由于根据本发明的方法是部分随机的,如果为相同的个体创建大量化身,则那些化身根据概率密度分布在k个最近邻之间的空间中,如图3中所示。
实例
现在将描述本发明的实施方式和有效性的实例。在这一实例中,数据集涉及真实的患者,并且源自开放存取数据库“皮马印第安人糖尿病数据库(Pima Indians DiabetesDatabase),”该数据库包含768个个体、八个连续变量(怀孕次数、血糖水平、血压、皮肤厚度、血液胰岛素水平、年龄、体重指数和糖尿病谱系函数)和一个分类变量(是否患有糖尿病)。
对数据进行主成分分析,以便于在对应于九个属性的九个维度上投影数据集,例如当要显示数据时在三维空间中。如上所述,根据本发明的方法应用于所有数据。最近邻数的数量k设为50。
图4中的图示表明,对于所考虑的k=50个最近邻,根据本发明的方法允许化身数据实现在与初始数据相同的空间中进化,因此假设原始数据集的特性得到良好的保存。根据定义,边缘记录(换句话说,有着不寻常价值观的个体)对重新识别更为敏感。使用本发明,如图4中所示,边缘记录被部分去边缘化,并系统地与其他记录更接近。另一方面,普通记录生成的化身接近于与其相似的许多其他记录。所产生的化身与原始记录的区别在于它与其他个体记录的多重相似性。
具有统计学意义的数据集由相互关联的变量组成。通过计算初始数据集的属性和化身数据的属性之间的相关性差异来评估创建化身对这些关系的影响。图5示出了,对于k=50,相关性差异适中且相当平衡:根据本发明的方法没有太显著地改变属性之间的关系。这两种分析允许评定本发明对数据的总体影响。可以对分析进行局部分解,以评定本发明对数据子组的局部影响。
还可以通过对初始数据集和化身数据执行相同的分析来在第一级验证信号的保存:使用数据集的八个其他属性建立糖尿病预测模型。为此,在80%的化身数据集和80%的初始数据集上训练预测算法,例如随机树林算法。然后,通过测量其敏感度和特异性,使用原始数据集的剩余20%来评估两个模型的性能。在与糖尿病数据集相关的实例中,从这两个测量获得的值非常接近:初始数据的敏感度为0.575,而化身数据的敏感度为0.553,初始数据的特异性为0.868,而化身数据的特异性为0.89。
因此,用化身训练的模型允许以与在原始数据上训练的模型相当的性能预测糖尿病的发生。预测算法的分类性能是可比较的,并且验证了化身对于分析的有用性,例如统计分析或使用自动学习。因此,原始特性的保存允许对化身数据应用与对初始数据集执行的处理和分析相同的处理和分析。
在一个攻击场景的实例中,攻击者希望知道个体是否选择参与糖尿病的科学研究,所述攻击者知道该个体的一些信息。为此,在对本发明不利的研究情况下,所述攻击者具有完整的初始数据和化身数据集,该初始数据包含与这一个体相关的所有敏感数据。
这一案例是非常极端的实例,其中攻击者唯一不知道的信息是患者是否在组群中。了解患者的完整原始记录的前提条件特别有野心,但允许对最不利的情况进行分析。然而,在绝大多数情况下,攻击者只有关于病人的一些信息,换句话说只有几个属性,并且正在寻求收集关于病人的新信息。
图6示出了化身和最近的原始记录之间的距离的演变,这取决于最近邻的数量k。这一距离允许评定在通过邻近进行攻击的情况下的重新识别风险,在该攻击中,目标是建立化身数据和初始数据之间的链接,在这一场景中,该链接由攻击者拥有。
图7示出了根据最近邻的数量k,初始数据集中最近邻和个体之间距离的演变。最近邻之间的距离对于评定数据集的密度很重要。通过将这一图与前面的图进行比较,可以看出,对于等于50的k,化身数据集的密度分布与针对原始数据集获得的密度分布相当。
当然,本发明不限于刚刚描述的实例。尤其是,可以使用其他多变量分析方法或随机绘图方法,以及下载和上传数据的其他手段。这两个实例突出了本发明中重新识别风险高于信号保存,这使所述发明不同于其他已知的数据模拟方法。
本发明的应用
本发明可以用于分析的数据共享应用。对于内部利益相关者和外部利益相关者来说,化身化开辟了以各自的粒度利用敏感数据的可能性,而不局限于敏感数据。共享这些数据的目的是将数据集中含有的潜在信息用于回顾兴趣和预测需求。不应强迫人工智能技术在不利于保护个体的敏感数据自由化和从中获得的集体利益之间做出选择。
公共卫生组织(诸如医院)有包含高价值信息的数据库。这一信息在医学研究中是问题,因为合法的监管限制使得共享变得困难。通过创建化身,本发明允许在尊重患者数据的机密性的同时保存数据的质量。健康数据的共享将改善决策、实践和研究,因此可以提供第二次生命。医生可以使用关于受特定病理影响的患者的数据集合来指导和协助他的决定,例如根据患者的年龄和生活方式在不同的治疗之间进行选择。公共卫生组织还可以根据其数据创建化身,以预测改进其工作所需的内容,并尽早提醒公共当局开展提高认识运动和规划必要的资源,例如在流行病的情况下。
此外,市政当局可以根据其辖区的数据创建化身,并将所述化身委托给服务提供商来检测需要特别关注的区域或人群。化身允许使用有潜力的数据,在这种情况下,这将是帮助防止社会分裂和提供医疗保健的有效方法。这还可以使预防行动有效地有针对性,甚至可以使一项利用预测支持保健平等的政策到位,尤其是通过使用人工智能技术。
例如,可以设想疫苗接种运动的规划。市政当局还可以利用其人口的健康信息来规划和制定扩大绿地的政策,从而有利于真正需要那些空间的地方,或者调整其隔日旅行政策,作为反污染措施的部分。
流媒体电影和电视连续剧的订阅服务公司可以将其客户的化身作为开放数据发布,以允许电影和电视剧制作人专注于客户档案,从而完善他们的服务。
可以在内部或外部设想共享数据的前景,以改善数据的获取。
本发明还可用于帮助计算客户档案的风险分数,其准确度从未达到,尤其是通过保险公司或补充保险方案。通过使用化身进行数据库交叉检查的可能性,这一愿景可能会变得更加清晰,从而增强可以学习的经验。
数据集民主化为教学和教育质量提供了机会,改善了教育方法的前景。以化身的形式访问数据集允许更广泛地享受数据访问,而不需要经过复杂且最终受限的监管步骤。学生可以在真实组群的化身数据集上接受训练,同时保存统计特性。
本发明可以用于营利性数据共享应用,例如当提供付费服务时。专注于病理的制药公司可以使用患者化身数据来改进药物开发。
例如,大规模零售分销可以利用结帐收据数据(包括消费者习惯、频率和时间)建立可供供应商使用的消费者路径。
数据共享可能发生在改善企业管理和内部战略的背景下。公司和组织有义务保护客户隐私。关注隐私是公司值得信赖的保证:它影响声誉和形象,因此也影响长期客户忠诚度。为了限制可能的IT故障的影响,公司可以在生产中使用根据本发明生成的化身数据库,并保持原始敏感数据的完全安全性。
本发明可以用于应用开发的数据共享应用程序。为了开发、升级或维护应用程序,需要足够的数据。同样重要的是,测试数据应具有与实际数据相同的结构;例如,为了允许在银行网站上开发新的银行支付应用程序,提供商需要反映真实数据的数据集。然而,无论是服务提供商还是专门的内部部门,用于此目的的数据都不是敏感数据,这一点至关重要。根据本发明的化身完成这个角色。
通过创建化身,本发明允许敏感数据所含有的潜在信息被保存,而不必删除数据(以符合GDPR)。保存数据集所含有的统计信息符合公司的利益,这代表着一种战略利益。一家高速公路管理公司可以无限制地保留汽车司机数据的化身。
也可以设想化身在治理过程中发挥作用,其中所述化身可以减轻约束。有可能想象数据使用的实用治理,其中部分关于化身数据集的概念证明将是授权访问原始数据和部署算法的组成部分。

Claims (15)

1.一种用于从存储在计算机系统的数据库中的初始敏感数据集创建化身的方法,所述初始数据包含与多个个体相关的属性,所述方法包含:
a)对于与给定个体相关的属性,从所述初始数据集中的所有所述个体中选择要使用的最近邻居的数量(k),
b)对于所述个体,从所述数据集中的其他个体中识别所述k个最近邻居,
c)对于与所述个体相关的至少一个属性,从由所识别的k个最近邻居中的所述属性来表征并且通过系数加权的量中生成新的属性值,以及
d)创建包含所述新的属性值的化身数据以确保与所述个体相关的敏感数据是不可识别的。
2.根据权利要求1所述的方法,其中根据所述初始数据的敏感度因子和/或所述化身数据的预期接收者中的置信度因子来选择最近邻居的所述数量(k),所述敏感度因子越高和/或所述置信度因子越低,最近邻居的所述数量越高,并且所述敏感度因子越低和/或所述置信度因子越高,最近邻居的所述数量越低。
3.根据权利要求1或权利要求2所述的方法,其中在识别所述个体的所述k个最近邻居之前,对所述初始数据进行多变量分析,尤其是主成分分析,这样修改的所述属性值然后尤其被投影在相同的欧氏空间中。
4.根据前述权利要求中任一项所述的方法,其中所述初始数据包含至少一个具有数值的属性,所述新的属性值对应于随机加权重心(G),所述随机加权重心是从所述k个最近邻居的相同属性的所述值计算的,每个最近邻居由随机选择的系数加权。
5.根据前述权利要求所述的方法,其中为所述k个最近邻居中的每个的所述属性的每个值随机选择不同的系数。
6.根据权利要求4或权利要求5所述的方法,其中所述随机加权重心(G)是在对应于具有数值的属性的所述数量的维度的数量(N)中计算的。
7.根据前述权利要求中任一项所述的方法,其中所述初始数据包含属于代表所述个体的特征的类别的至少一个属性,所述新的属性值根据所述类别在所述k个最近邻居中的加权表示来随机选择,所述加权表示是根据在所述k个最近邻居中属于所述类别的值的所述数量来计算的,所述值由所述整个初始数据集中属于所述类别的值的所述数量来加权。
8.根据前述权利要求中任一项所述的方法,其中对于相同的初始数据集,最近邻居的所述数量(k)是可变的,对于一些个体来说是不同的,或者从一个个体到另一个体是不同的。
9.根据前述权利要求中任一项所述的方法,其中将至少一个约束函数应用于所述化身数据,以便于限制异常值或与所述相同的个体相关的属性之间的关系的变化,尤其是约束数字属性的分布或遵守类别属性之间的逻辑关系。
10.根据前述权利要求中任一项所述的方法,其中所述化身数据被记录在所述相同的计算机系统和/或远程服务器的数据库中。
11.根据前述权利要求中任一项所述的方法,其中向所述化身数据的所述接收者通知所述数据已经通过混合认证系统变得可用,所述混合认证系统包含至少两个步骤,尤其是基于例如通过电子邮件生成和传输唯一的下载链接,然后例如通过文本消息传送有限寿命密钥。
12.一种用于从存储在计算机系统的数据库中的初始敏感数据集创建化身的设备,所述初始数据包含与多个个体相关的属性,所述设备包含:
a)选择模块,所述选择模块配置为对于与给定个体相关的属性,从所述初始数据集中的所有所述个体中选择要使用的最近邻居的数量(k),
b)识别模块,所述识别模块配置为对于所述个体,从所述数据集中的其他个体中识别所述k个最近邻居,
c)生成模块,所述生成模块配置为对于与所述个体相关的至少一个属性,从由所识别的k个最近邻居中的所述属性来表征并且通过系数加权的量中产生新的属性值,以及
d)化身创建模块,所述化身创建模块配置为创建包含所述新的属性值的化身数据,以确保与所述个体相关的敏感数据是不可识别的。
13.根据前述权利要求所述的设备,其还包含记录模块,所述记录模块配置为将所述化身数据记录在所述相同的计算机系统和/或远程服务器的数据库中。
14.根据权利要求12或权利要求13所述的设备,其包含通知模块,所述通知模块配置为向所述化身数据的所述接收者通知所述数据已经通过混合认证系统变得可用,所述混合认证系统包含至少两个步骤,尤其是基于例如通过电子邮件生成和传输唯一的下载链接,然后例如通过文本消息传送有限寿命密钥。
15.一种根据权利要求1至12中任一项所述的用于实现从存储在计算机系统的数据库中的初始敏感数据集创建化身的方法的计算机程序产品,所述初始数据含有与多个个体相关的属性,所述计算机程序产品包含支撑物和记录在所述支撑物上的指令,所述指令可由处理器读取,以在被执行时用于:
a)对于与给定个体相关的属性,从所述初始数据集中的所有所述个体中选择要使用的最近邻居的数量(k),
b)对于所述个体,从所述初始数据集中的所述其他个体中识别所述k个最近邻居,
c)对于与所述个体相关的至少一个属性,从由所识别的k个最近邻居中的所述属性来表征并且通过系数加权的量中产生新的属性值,以及
d)创建包含所述新的属性值的化身数据以确保与所述个体相关的敏感数据是不可识别的。
CN202080008383.0A 2019-01-07 2020-01-03 创建保护敏感数据的化身的方法 Pending CN113272809A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1900108A FR3091602A1 (fr) 2019-01-07 2019-01-07 Procédé de création d’avatars pour protéger des données sensibles
FR1900108 2019-01-07
PCT/EP2020/050097 WO2020144118A1 (fr) 2019-01-07 2020-01-03 Procede de creation d'avatars pour proteger des donnees sensibles

Publications (1)

Publication Number Publication Date
CN113272809A true CN113272809A (zh) 2021-08-17

Family

ID=67107630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080008383.0A Pending CN113272809A (zh) 2019-01-07 2020-01-03 创建保护敏感数据的化身的方法

Country Status (11)

Country Link
US (1) US20220067202A1 (zh)
EP (1) EP3908952B1 (zh)
JP (1) JP2022516951A (zh)
KR (1) KR20210112338A (zh)
CN (1) CN113272809A (zh)
CA (1) CA3125690A1 (zh)
ES (1) ES2935715T3 (zh)
FR (1) FR3091602A1 (zh)
PT (1) PT3908952T (zh)
SG (1) SG11202107386TA (zh)
WO (1) WO2020144118A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11748488B2 (en) * 2019-12-24 2023-09-05 Sixgill Ltd. Information security risk management
CN113221034A (zh) * 2021-05-06 2021-08-06 北京百度网讯科技有限公司 数据泛化方法、装置、电子设备和存储介质
US11640446B2 (en) 2021-08-19 2023-05-02 Medidata Solutions, Inc. System and method for generating a synthetic dataset from an original dataset
US11977550B1 (en) 2023-04-12 2024-05-07 Medidata Solutions, Inc. System and method for generating a synthetic longitudinal dataset from an original dataset

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475085B2 (en) * 2006-04-04 2009-01-06 International Business Machines Corporation Method and apparatus for privacy preserving data mining by restricting attribute choice
US9298878B2 (en) * 2010-07-29 2016-03-29 Oracle International Corporation System and method for real-time transactional data obfuscation
GB201521134D0 (en) 2015-12-01 2016-01-13 Privitar Ltd Privitar case 1
FR3047586A1 (fr) 2016-02-09 2017-08-11 Orange Procede et dispositif d'anonymisation de donnees stockees dans une base de donnees
EP3485419B1 (en) 2016-08-10 2021-10-20 Siemens Aktiengesellschaft Big data k-anonymizing by parallel semantic micro-aggregation
US10831927B2 (en) * 2017-11-22 2020-11-10 International Business Machines Corporation Noise propagation-based data anonymization

Also Published As

Publication number Publication date
ES2935715T3 (es) 2023-03-09
EP3908952B1 (fr) 2022-10-19
SG11202107386TA (en) 2021-08-30
JP2022516951A (ja) 2022-03-03
FR3091602A1 (fr) 2020-07-10
US20220067202A1 (en) 2022-03-03
CA3125690A1 (fr) 2020-07-16
PT3908952T (pt) 2023-01-16
EP3908952A1 (fr) 2021-11-17
WO2020144118A1 (fr) 2020-07-16
KR20210112338A (ko) 2021-09-14

Similar Documents

Publication Publication Date Title
Ntoutsi et al. Bias in data‐driven artificial intelligence systems—An introductory survey
Gursoy et al. Privacy-preserving learning analytics: challenges and techniques
Lee et al. Algorithmic fairness in mortgage lending: from absolute conditions to relational trade-offs
Kessler et al. Developing a practical suicide risk prediction model for targeting high‐risk patients in the Veterans health Administration
US10831927B2 (en) Noise propagation-based data anonymization
Zehlike et al. Matching code and law: achieving algorithmic fairness with optimal transport
CN113272809A (zh) 创建保护敏感数据的化身的方法
US20170124336A1 (en) Computer-Implemented System And Method For Automatically Identifying Attributes For Anonymization
Templ et al. Introduction to statistical disclosure control (sdc)
Kim et al. Collaborative analytics for data silos
Desarkar et al. Big-data analytics, machine learning algorithms and scalable/parallel/distributed algorithms
Naresh et al. Privacy‐preserving data mining and machine learning in healthcare: Applications, challenges, and solutions
Benschop et al. Statistical disclosure control: A practice guide
González-Sendino et al. A Review of Bias and Fairness in Artificial Intelligence
Zhang et al. To be forgotten or to be fair: Unveiling fairness implications of machine unlearning methods
Ritchie et al. Confidentiality and linked data
Díaz et al. Comparison of machine learning models applied on anonymized data with different techniques
BR102022016487A2 (pt) Método para pontuação e avaliação de dados para troca
Alhazmi et al. How do socio-demographic patterns define digital privacy divide?
Izenman et al. Local spatial biclustering and prediction of urban juvenile delinquency and recidivism
Pickens et al. Generating a fully synthetic human services dataset
Oliveira Data transformation for privacy-preserving data mining
Zhou et al. DataSifter II: Partially synthetic data sharing of sensitive information containing time-varying correlated observations
Mansi et al. Predictive Protection of Heterogeneous Sensitive Data
Dharani et al. A robust blockchain framework for healthcare information system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination