CN116438604A - 对基因组数据进行匿名化的方法 - Google Patents
对基因组数据进行匿名化的方法 Download PDFInfo
- Publication number
- CN116438604A CN116438604A CN202180074039.6A CN202180074039A CN116438604A CN 116438604 A CN116438604 A CN 116438604A CN 202180074039 A CN202180074039 A CN 202180074039A CN 116438604 A CN116438604 A CN 116438604A
- Authority
- CN
- China
- Prior art keywords
- snp
- phenotypic
- risk
- risk score
- dataset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000001747 exhibiting effect Effects 0.000 claims abstract description 12
- 239000002773 nucleotide Substances 0.000 claims abstract description 8
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 7
- 108700028369 Alleles Proteins 0.000 claims description 39
- 230000000873 masking effect Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 5
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 4
- 230000001052 transient effect Effects 0.000 claims 2
- 238000013479 data entry Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 description 51
- 230000000875 corresponding effect Effects 0.000 description 41
- 201000010099 disease Diseases 0.000 description 22
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 22
- 238000004590 computer program Methods 0.000 description 16
- 206010060862 Prostate cancer Diseases 0.000 description 11
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 11
- 230000002068 genetic effect Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 6
- 241000320126 Pseudomugilidae Species 0.000 description 5
- 230000037308 hair color Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 208000019622 heart disease Diseases 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 229930024421 Adenine Natural products 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000007614 genetic variation Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 201000010538 Lactose Intolerance Diseases 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000013503 de-identification Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000005415 magnetization Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/40—Encryption of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一些实施例针对用于对基因组数据集进行匿名化的方法。所述方法包括接收(410)基因组数据集并且获得(420)基因组数据集的至少一个表型信息单核苷酸多态性(SNP)的表型概率和群体中表现出相应表型特征的比例。根据所获得的表型概率和所获得的群体中表现出表型特征的比例,基于所述基因组数据集计算重新识别风险评分(430)。如果所述重新识别风险评分不满足阈值风险准则,则通过选择(450)表型信息性SNP并屏蔽(460)所选择表型信息性SNP来对所述基因组数据集进行匿名化,并且重新计算所述重新识别风险评分。如果所述重新识别风险评分满足阈值风险准则,则输出所述匿名基因组数据集(470)。
Description
技术领域
当前公开的主题涉及用于对基因组数据集进行匿名化的方法和相应的用于对基因组数据集进行匿名化的系统。当前公开的主题还涉及计算机可读介质。
背景技术
全基因组测序变得越来越便宜,像23andMe和AncestryDNA这样的服务可以以100美元左右的价格对数十万个SNP进行测序。然而,随着越来越多的基因组信息可用,人们对隐私和安全的担忧也在增加。对手越来越多地能够以各种方式结合基因型和表型信息来对基因组数据库进行去匿名化。例如,识别攻击是一种攻击,在这种攻击中,对手试图(在多个基因型中)识别与给定表型相对应的基因型。另一种去匿名化攻击是完美匹配攻击,对手试图将多个表型与其相应的基因型相匹配。基于全基因组测序数据,对手也可以使用统计模型来预测表型特征。由于当前基因组学的进步,使用基因组数据来识别对象的风险正在迅速增加。
准识别符,也称为间接识别符,是数据集中的如下的字段,其可以相互组合使用以识别个体。示例包括性别、邮政编码、出生日期、职业和收入。虽然有许多人具有相同的性别、出生日期或邮政编码,但任何一个人的这些组合都可能是独一无二的,特别是如果该人居住在人口稀少的农村地区。间接识别符的示例包括表型特征,例如头发颜色和眼睛颜色等。
目前,全基因组序列可以很容易地与表型特征联系起来,从而可以找出眼睛颜色、头发颜色、肤色、血型等,并且随后识别对象。随着基因组研究的进展,这个问题将会恶化。通常,用户和研究人员会选择以下两种选择之一:保持所有基因组信息完整,从而冒着侵犯隐私的风险,或者从数据集中删除所有潜在的可识别信息,这会限制数据的实用性。
已公布的美国专利申请US 2020/0035332 A1描述了用于对遗传数据进行匿名化的方法和系统。其中描述的方法和系统识别遗传数据中的祖先识别标记(AIM)区域。遗传数据的AIM区域包括与属于特定血统的患者群体相关联的单核苷酸多态性(SNP)等位基因。不包含与特定疾病相关的基因变异的AIM区域可能会被掩蔽或从遗传数据中删除。
现有技术的一个问题是不能保证得到的遗传数据充分匿名。在某些情况下,仅仅掩蔽或移除没有临床相关数据的AIM区域可能仍会产生可以重新识别人的遗传数据集。此外,现有技术的方法涉及去除可能以某种至今未知的方式贡献于特定疾病的数据,这意味着有用信息可能会丢失。
从遗传数据集中删除更多数据会增加丢失有价值和相关信息的风险,从而降低数据的有用性,但在遗传数据集中保留更多数据会增加从其遗传数据集中重新识别个体的风险。因此,能够确保遗传数据集充分匿名化,同时为研究等应用保留尽可能多的信息是有好处的。因此,量化重新识别的风险并确保可以从匿名基因组数据集中重新识别个人的风险可以提高患者隐私、安全性和经匿名化的基因组数据集中研究人员可用的信息量。
发明内容
保留尽可能多的基因组数据以供研究人员访问,同时保护其数据被使用的个体的隐私和安全将是有利的。用于对基因组数据集进行匿名化的系统和计算机实施的方法在本文中阐述并要求保护。所述系统和计算机实施的方法旨在解决这些问题和其他问题。
现有的基因组数据准备方法要么从基因组数据集中删除重要的研究信息,例如通过删除与可见表型特征有关的所有基因组数据,而不管所述基因组数据是否也与感兴趣疾病相关,从而减少了可以从对其的分析中获得知识的量,要么保留过多的个体的识别信息,从而面临安全和隐私泄露的风险。
当前公开的主题包括用于对基因组数据集进行匿名化的计算机实施的方法、用于对基因组数据集进行匿名化的系统和计算机可读介质。所述对基因组数据集进行匿名化的方法可以包括接收基因组数据集。所述基因组数据集可包含以多个单核苷酸多态性(SNP)布置的多个等位基因,所述多个SNP包括一个或多个表型信息性SNP。表型信息性SNP可以是与表型特征有关的SNP。基因组数据集可以对应于人的基因组。所述方法还可以包括获得针对至少一个表型信息性SNP的表型概率。表型概率可以是表型特征被表达为民至少一个表型信息性SNP相对应的至少一个等位基因的结果的概率。例如,如果表型特征是“蓝眼睛”,则表型概率可以是占据与眼睛颜色相关的特定表型信息性SNP的等位基因将导致呈现蓝眼睛的概率。该方法可以还包括获得展示所述表型特征的群体的比例。例如,如果表型特征是“蓝眼睛”,则群体的比例将对应于群体中拥有蓝眼睛的比例。所述方法还包括基于基因组数据集来计算重新识别风险评分。重新识别风险评分指示从基因组数据集中重新识别与基因组数据集相关联的人的风险。可以根据获得的表型概率和获得的表现出所述表型特征的群体比例来计算所述重新识别风险评分。然后可以将重新识别风险评分与阈值风险准则进行比较。如果重新识别风险评分不满足阈值风险准则,则该方法可以包括通过选择表型信息性SNP和掩蔽所选择的表型信息性SNP来对基因组数据集进行匿名化。如果重新识别风险评分满足阈值风险准则,则该方法可以包括输出经匿名化的基因组数据集。
实施例有助于提高与基因组数据相关联的隐私和安全性,同时还提高了例如对研究人员可用的信息量。本文提供了各种示例和实施例,描述了如何确定重新识别风险评分以及如何对基因组数据集进行匿名化。
通过使用阈值风险准则,可以考虑可接受的风险水平并且可以相应地对基因组数据集进行匿名化。此外,可以通过避免不必要地去除临床相关性来最大化保留在基因组数据集中的信息量。
当前公开的主题的方面包括用于对基因组数据集进行匿名化的相应系统。
该方法的实施例的可执行代码可以存储在计算机程序产品上。计算机程序产品的示例包括存储设备、光学存储设备、集成电路、服务器、在线软件等。优选地,计算机程序产品包括存储在计算机可读介质上的非瞬态程序代码,用于在计算机上执行所述程序产品时执行方法的实施例。
在实施例中,所述计算机程序包括计算机程序代码,所述计算机程序代码适于当该计算机程序在计算机上运行时执行该方法的一个实施例的全部或部分步骤。优选地,计算机程序被体现在计算机可读介质上。
当前公开的主题的另一个方面提供了一种使计算机程序可供下载的方法。该方面在计算机程序被上传到例如苹果的App Store、谷歌的Play Store或微软的Windows Store并且当所述计算机程序可从这样的商店下载时被使用。
附图说明
将参考附图通过示例的方式描述进一步的细节、方面和实施例。附图中的元素是为了简单和清楚而示出的,并且不一定按比例绘制。在附图中,对应于已经描述的元素的元素可以具有相同的附图标记。在附图中:
图1示意性地示出了用于对基因组数据集进行匿名化的系统的实施例的示例,
图2示意性地示出了基因组数据集的示例,
图3示意性地示出了用于计算重识别风险评分的方法的实施例的示例,
图4示意性地示出了用于对基因组数据集进行匿名化的方法的实施例的示例,
图5示意性地示出了具有包括根据实施例的计算机程序的可写部分的计算机可读介质的示例,并且
图6示意性地示出了根据实施例的处理器系统的表示。
附图标记列表
100 系统
110 处理器子系统
120 外部网络
130输入/输出子系统
140 存储器
142 基因组数据集
144 指令
150 数据接口
200 基因组数据集
330 数据库
1000 计算机可读介质
1010 可写部分
1020 计算机程序
1110(一个或多个)集成电路
1120 处理单元
1122 存储器
1124 专用集成电路
1126 通信元件
1130 互连
1140 处理器系统
1100 设备
具体实施方式
虽然当前公开的主题允许以许多不同形式的实施例,但在附图中示出并将在本文中详细描述一个或多个具体实施例,应理解本公开应被视为示例本公开的主题的原理并不旨在将其限制到所示出和描述的特定实施例。
在下文中,为了便于理解,在操作中描述实施例的单元。然而,显然各个单元被布置为执行被描述为由它们执行的功能。
此外,当前公开的主题不限于实施例,因为可以组合本文描述的或相互不同的从属权利要求中记载的特征。
图1示意性地示出了用于对基因组数据集进行匿名化的系统100的实施例的示例。系统100可以包括处理器子系统110和输入/输出子系统130。在一些实施例中,系统100还可包括存储器140,其以可经由数据接口150访问。存储器140可以是本地存储器,或者可以是远程存储器。在一些实施例中,系统100可以通信地耦合到外部网络或外部实体120。
在实施例中,输入/输出(IO)子系统130可以包括用于接收输入和/或对输出结果里进行输出的接口。例如,IO子系统130可以被配置为接收与人的基因组相对应的基因组数据集。
基因组数据集可包含布置在多个单核苷酸多态性(SNP)中的多个等位基因。SNP表示基因组中通常发生基因变异的位置,每个等位基因都是给定基因、遗传序列或SNP的变异形式。也就是说,SNP指示一个基因组位置,至少一部分群体在该位置具有不同的核苷酸。SNP数据因此可以被认为是突变数据,并且所述突变数据可以用于从基因组数据集中识别人。最常见的是,SNP对应于一对等位基因,可以是核碱基(腺嘌呤(A)、胞嘧啶(C)、胸腺嘧啶(T)或鸟嘌呤(G))。例如,在常染色体中,一个等位基因遗传自母亲,一个等位基因遗传自父亲。对于每个SNP,通常已知什么是野生型等位基因以及什么是突变等位基因。野生型等位基因是通常产生群体中最常发现的表型的等位基因,而突变等位基因是产生不同于野生型表型的表型的等位基因。占据SNP的等位基因可称为基因型。组成每个SNP的等位基因可能具有相关联的基因型频率,其可能指示所述等位基因在群体(例如,地区、国家、大陆、世界、数据集等的人口)中在所述SNP的所述位置的出现的频率,以及相关联的表型概率,其指示所述等位基因产生特定表型特征的概率。许多SNP可能贡献于或对应于一种或多种表型特征。此类SNP可称为表型信息性SNP。表型特征的实例包括外部表型特征,例如眼睛颜色、皮肤颜色、头发颜色等,和/或内部表型特征,例如血型、疾病倾向、乳糖不耐症等。这样的表型特征可被认为是间接识别符,因为尽管此类特征本身可能无法识别个体,但许多此类特征的组合会减少与基因组数据集相对应的基因组可能属于的潜在群体的数量,并且最终可能会识别出特定的个体。在一些实施例中,基因组数据集可以包括人口统计数据,例如年龄信息、地址信息等。图2中提供了基因组数据集的模拟示例片段,并将在其相应的描述中进一步阐明。
在实施例中,IO子系统130可以被配置为接收对要研究的疾病的指示。用户,例如研究人员,可能对学习或研究特定疾病感兴趣。已知所述疾病对应于SNP的选择。例如,用户可能对研究前列腺癌感兴趣。IO子系统130可以接收指示对前列腺癌感兴趣的用户输入,并且可以向用户或系统100的另一个子系统或过程提供已知与前列腺癌相关或对前列腺癌有贡献的SNP列表。在一些实施例中,用户可以通过IO子系统130选择或指示特定疾病,并且可以检索已知的相关SNP,例如从外部源或从诸如存储器140的内部存储器。在一些实施例中,感兴趣疾病可以在基因组数据集中预先确定或指示,或从其获得。在一些情况下,已知会导致特定疾病的SNP也可能会影响表型特征,例如眼睛颜色或血型。
IO子系统130可以还被配置为将接收到的基因组数据集存储在存储器140中。在一些实施例中,IO子系统130可以被配置为接收用户输入,例如要研究的特定疾病的指示,或者基因组数据集中的要被优先化的数据的选择。在一些实施例中,IO子系统130可以被配置为接收目标重新识别风险评分以指示期望的匿名化水平。例如,目标重新识别风险评分可以用作阈值风险准则。
在一些实施例中,IO子系统130可以被配置为访问外部网络120。外部网络120可以包括基于云的网络、服务器、外部数据库、外部设备等。在一些实施例中,基因组数据集、阈值风险准则和/或关于至少一种疾病的信息可以存储在外部网络120中并通过IO子系统130访问。
在一些实施例中,IO子系统130可以包括被配置为从用户接收输入的输入设备,例如触摸屏、键盘、鼠标、触控板等,或者传感器输入,例如相机,麦克风、接近度传感器等。在一些实施例中,IO子系统130可以包括诸如显示器、扬声器等的输出设备,以向用户提供输出。在一些实施例中,IO子系统130可以被配置为处理来自/向附加部件、子系统或外部实体的输入和/或输出。例如,IO子系统130可以被配置为接收来自外部设备、诸如基于云的网络的网络、服务器或系统100的部件的输入。
在实施例中,存储器140可以被配置为存储一个或多个基因组数据集,例如,在用于存储多个人的基因组数据集的数据库中。额外地或替代地,存储器140可以被配置为存储指令或信息以用于对基因组数据集进行匿名化的方法。存储器140还可以存储阈值风险准则。阈值风险准则可以是用于确保匿名化的基因组数据集在输出或分发之前充分匿名化的准则,例如通过确保基因组数据集的重新识别风险评分符合指定的风险水平。将参考图3来详细描述重识别风险评分的计算。阈值风险准则可以是例如百分比,指示从基因组数据集中重新识别人的风险,或适用的群体大小,指示具有所述表型特征的人数。大量共享表型特征的人对应于重新识别的低风险。在某些情况下,例如当起始群体较少时,使用阈值适用的群体大小作为重新识别风险准则可能特别合适。
存储器140可包括至少一个数据库,例如基因组数据库142和/或SNP数据库144。基因组数据库142可以被配置为存储对应于相应的一个或多个人的一个或多个基因组数据集。SNP数据库144可以被配置为存储与一种或多种疾病相关的SNP信息,例如与特定疾病相对应的SNP列表。存储器140可以被实现为电子存储器,例如闪存,或磁存储器,例如硬盘等,或光学存储器,例如DVD。存储器140可以包括多个分立的存储器,它们一起构成存储器140。存储器140可以包括临时存储器,例如RAM。在临时存储器140的情况下,存储器140可以与检索设备相关联以在使用前获得数据并将数据存储在存储器中,比如说通过任选的网络连接(未示出)来获得它们。
在实施例中,存储器140可以包括本地存储器和/或外部(例如远程)存储器。例如,基因组数据库142可以存储在本地存储器中。SNP数据库144可以存储在外部,并且在一些情况下,可以仅由系统100访问。在另一个示例中,基因组数据库142可以被存储在外部,例如存储在中央(例如政府)数据库中。基因组数据库142和SNP数据库144可以存储在相同的存储位置,或者不同的存储位置。
处理器子系统110可以包括至少一个处理器,并且可以称为至少一个处理器电路。在实施例中,处理器子系统110可以被配置为确定基因组数据集的重新识别风险评分并且对基因组数据集进行匿名化。在一些实施例中,处理器子系统110可以被配置为预处理基因组数据集,例如通过掩蔽(例如删除)其中的任何直接识别符。直接识别符可以是如下的SNP,其数据独立识别个体而不需要额外信息,例如与其他SNP有关的数据。在一些实施例中,处理器子系统110可以通过获得用户感兴趣SNP的列表来预处理基因组数据集,例如通过从用户直接或从存储器140中或经由外部网络120的数据库来获得与特定指定的疾病有关或贡献于其的SNP的列表。在一些实施例中,处理器子系统110可以被配置为屏蔽(例如删除)基因组数据集中与指定疾病无关的SNP,例如通过掩蔽(例如删除)未包括在所获得的相关的SNP的列表中的SNP。在一些实施例中,对贡献于特定疾病或与特定疾病有关的SNP的了解是不完整的,并且研究人员可能不希望基于不完整的SNP列表来限制基因组数据集。
处理器子系统110可以被配置为根据基因组数据集来计算重新识别风险评分。重新识别风险评分的计算可以基于一个或多个表型特征。对于每个指定的表型特征,与所述表型特征相关的一个或多个表型信息性SNP的基因型频率、所述表型信息性SNP产生所述表型特征的表型概率、以及群体中具有所述表型特征的比例,可以在重新识别风险评分的计算中使用。将参考图2更全面地描述这些术语,将参考图3详细描述重新识别风险评分的计算。
处理器子系统110可以被配置为将计算的重新识别风险评分与阈值风险准则进行比较。阈值风险准则,也可以称为阈值重新识别风险准则,可以在本地存储,例如在存储器140中,通过IO子系统130作为用户输入从用户接收,或者从外部网络120获得,例如,经由IO子系统130。如果计算的重新识别风险评分满足阈值风险准则,则基因组数据集被充分匿名化并且可以输出到例如外部设备或用户,或者存储在例如本地存储器中。如果计算的重新识别风险评分不满足阈值风险准则,则基因组数据集还没有被充分匿名化,并且处理器子系统110可以被配置为通过屏蔽(例如删除)与一个或多个SNP相对应的数据来对基因组数据集进行匿名化。
系统100还可以包括数据接口150。数据接口150可以包括连接器,例如有线连接器,例如以太网连接器、光连接器等,或者无线连接器,例如天线,例如Wi-Fi、4G或5G天线。数据接口150可以提供对存储器140的访问。
系统100的各种子系统可以布置在单个设备内,或者可以通过计算机网络相互通信。计算机网络可以是因特网、内联网、局域网、无线局域网等。计算机网络可以是因特网。计算机网络可以完全或部分是有线的,和/或完全或部分是无线的。例如,计算机网络可以包括以太网连接。例如,计算机网络可以包括无线连接,例如Wi-Fi、ZigBee等。子系统可以包括连接接口,其被布置为根据需要与系统100的其他子系统通信。例如,连接接口可以包括连接器,例如,有线连接器,例如以太网连接器、光连接器等,或者无线连接器,例如天线,例如Wi-Fi、4G或5G天线。计算机网络可以包括附加元件,例如路由器、集线器等。
图2示意性地示出了基因组数据集200的示例。基因组数据集200可以包括针对每个SNP的多个参数,例如图2中描绘的那些——SNP 210,其指示SNP的位置或其他识别符,基因型220,其指示所述SNP处的等位基因,等位基因频率1 230,其指示占据所述SNP的多个等位基因中第一等位基因的频率,等位基因频率2 240,其指示占据所述SNP的多个等位基因中的第二等位基因的频率,基因型频率250,其指示基因型(例如SNP的等位基因)出现在群体中的频率,所述群体例如区域或全球群体,或者在某些情况下数据集的群体,表型260(也称为表型概率260),其指示由所述SNP的基因型和疾病相关性270产生的特定表型特征的概率,其指示SNP是否与感兴趣的特定疾病具有已知相关性。应当理解,基因组数据集可能不包含所有列出的参数,并且基因组数据集可能包含除列出的参数之外的参数,并且列出的参数仅是说明性的。例如,基因组数据集可能仅包含SNP 210和基因型220,并且可以通过查询数据库或访问数据源(例如,经由外部网络)来获得诸如基因型频率、表型概率和/或疾病相关性的任何进一步信息120。例如,基于针对SNP 210-a(SNP_E1)的条目和相关联的基因型(图2的表中的“AA”),系统100可以配置为查找相关联的基因型频率,在这个示例中,是基因型AA占据SNP_E1的频率,在一个群体中(在这个模拟的示例中是64%),表型概率——在该示例中,在SNP_E1处的基因型AA会产生蓝眼睛的概率是40%,以及是否已知SNP_E1与前列腺癌有任何相关性(前列腺癌在图2的表中表示为PCa)。例如,基因型频率、表型概率和任何相关参数可以从相同的数据源(例如单个数据库)或从不同的数据源获得或访问。
图2所示的模拟基因组数据集200的样本包括对应于多个表型信息性SNP的数据。基因组数据集200对应于具有蓝眼睛、棕色头发和浅色皮肤的人的模拟基因组。在此示例中,为简单起见,假设这三种表型形成一组间接识别符,基于这些识别符计算重新识别风险评分。然而,这些表型特征的使用仅仅是说明性的,而不是限制性的。可以使用更多或更少的表型特征。这个示例,其中考虑了这三个表型特征,将贯穿本公开内容,以说明本文描述的方法和装置。
在这个示例中,第一个表型特征是“蓝眼睛”。贡献于或影响眼睛颜色的SNP可以是SNP_E1、SNP_E2、SNP_E3、SNP_E4和SNP_E5。根据特定个体的基因组数据集,SNP_E1由基因型AA组成(例如,基因型包含两个等位基因,每个都是腺嘌呤核苷酸)。群体中基因组中对应于SNP_E1的位置的基因型AA的频率为64%(根据此模拟示例)。此位置的此基因型AA导致蓝眼睛的概率为40%,并且已知SNP_E1贡献于前列腺癌或者与前列腺癌有关。
类似地:
·SNP_E2由基因型AG组成,其基因型频率为4.5%,导致蓝眼睛的可能性为80%,并且与前列腺癌没有已知的相关性或贡献;
·SNP_E3由基因型GT填充,基因型频率为20%,产生蓝眼睛的概率为95%,并且与前列腺癌有已知的相关性;
·SNP_E4由基因型CC组成,基因型频率为81%,产生蓝眼睛的概率为50%,与前列腺癌没有已知相关性;并且
·SNP_E5由基因型CT填充,基因型频率为17.5%,产生蓝眼睛的概率为70%,与前列腺癌没有已知的相关性。
继续该示例,SNP_H1、SNP_H2和SNP_H3是与头发颜色有关的SNP,SNP_S1、SNP_S2、SNP_S3和SNP_S4是与肤色有关的SNP。需要特别注意的是,SNP_E1和SNP_H1(分别用210-a表示)是相同的SNP——也就是说,它们对应于基因组中的相同位置并且由相同的等位基因填充。这种特殊的SNP对眼睛颜色和皮肤颜色都有影响,填充所述SNP的基因型AA有40%的概率产生蓝眼睛,55%的概率产生浅色皮肤。
可以基于诸如图2的表中所示的参数来计算重新识别风险评分。将参考图3更详细地描述该计算。
一旦计算出来,重新识别风险评分可以与阈值风险准则进行比较,例如,阈值风险准则可以是适用群体或百分比。适用群体可以对应于某个地区(例如国家、世界等)的群体的比例或数据集的群体等。将参考图4进一步描述关于阈值风险准则的更多细节。如果重新识别风险评分不满足阈值风险准则,则可以掩蔽对应于一个或多个表型信息性SNP的数据,并且可以重新计算重新识别风险评分,而不使用一个或多个被掩蔽的表型信息性SNP的数据。屏蔽SNP可以包括例如删除对应于SNP的数据、用空数据替换对应于SNP的数据,或任何已知的掩蔽方法。可以重复掩蔽一个或多个SNP和重新计算重新识别风险评分的过程,直到重新识别风险评分满足阈值风险准则。
图3示意性地示出了用于计算重识别风险评分的方法的实施例的示例。可以选择第一表型特征PT_current 310。第一或当前表型特征PT_current 310可以选自在计算重新识别风险评分时要考虑的表型特征列表,或选自所有已知表型特征的列表。在一些实施例中,可以从中选择第一表型特征PT_current 310的表型特征的列表可以包括外部表型特征,例如眼睛颜色、头发颜色等,内部表型特征,例如血型等,或外部表型特征和内部表型特征的组合。在一些实施例中,在重新识别风险评分的计算中要考虑的表型特征列表可以作为来自用户或来自另一个子系统或设备的输入来接收。在一些实施例中,要考虑的表型特征列表可以从数据库中获得,或者可以基于其基因组数据集要被匿名化的个体表现出的表型特征来确定。例如,如果此人有蓝眼睛、棕色头发和浅色皮肤,则这些表型特征可能会包含在要在重新识别风险评分计算中考虑的表型特征列表中。
第一表型特征PT_current 310可以与基因组数据集中存在的一个或多个表型信息性SNP相关。也就是说,可能已知基因组上的一个或多个位置包含导致或促成第一表型特征表达的突变。为了说明起见,这些SNP被示出为SNP_1 320-1、SNP_2 320-2和SNP-n 320-n,但应理解,对于特定表型特征可能有更多或更少的SNP,并且同一个SNP可能在相同或不同程度上对多个表型特征有贡献。
对于所识别的SNP中的至少一个,以SNP_1 320-1为例,可以例如从数据库DB 330获得基因型频率Gfreq_1 340a-1和表型概率Pprob_1 340b-1。数据库DB 330可以存储在诸如存储器140的本地存储器中或存储在诸如云存储或外部设备的外部存储器中。例如,可以通过诸如外部网络120的外部网络访问数据库DB 330。在一些实施例中,数据库DB 330可以是供来自组织、合作者等的研究人员访问的中央数据库。在一些实施例中,基因组数据集可以包括基因型频率Gfreq_1 340a-1和表型概率Pprob_1 340b-1中的一个或多个,从而可以在不使用单独的数据库的情况下获得这些值。基因型频率Gfreq_1 340a-1可以指示SNP_1320-1被在SNP_1 320-1的基因组数据集中指示的等位基因占据的频率。表型概率Pprob_1340b-1可以指示那些等位基因产生或导致第一个表型特征的概率。在一些实施例中,可以组合基因型频率和表型概率以获得每个SNP的风险项,用于计算重新识别风险评分。风险项可以是中间值。例如,可以通过组合Gfreq_1 340a-1和Pprob_1 340b-1来为SNP_1320-1确定风险项PT_r_1 350-1。风险项PT_r_1 350-1可以是或者可以包括基因型频率Gfreq_1340a-1和表型概率Pprob_1 340b-1的乘积,或者Gfreq_1 340a-1和Pprob_1 340b-1的对数值之和,等等。
在一些实施例中,可以针对每个表型信息性SNP获得这些值——例如,SNP_2 320-2的基因型频率Gfreq_2 340a-2和表型概率Pprob_2 340b-2,以及SNP_n 320-n的基因型频率Gfreq_n 340a-n和表型概率Pprob_n 340b。可以从其计算与每个SNP相关联的风险项,例如以获得对应于SNP_2 320-2的风险项PT_r_2 350-2和对应于SNP_n 320-n的风险项PT_r_n 350-n等等。
在一些实施例中,可以确定最大风险项PT_r_max 360,由MAX 355指示。MAX 355可返回对应于SNP SNP_1 320-1至SNP_n 320-n的风险项PT_r_1 350-1至PT_r_n 350-n中的最大风险项PT_r_max 360。在一些实施例中,MAX 355还可以返回与最大风险项PT_r_max360相对应的SNP。例如,如果第一个表型特征具有三个相关的SNP——SNP_1 320-1、SNP_2320-2和SNP-n320-n——那么PT_r_max 360将是PT_r_1 350-1、PT_r_2 350-2和PT_r_n350-n中最大的一个。尽管以上提到了最大值的使用,但是应当理解,本方法不限于此。例如,在一些实施例中,可以确定平均风险项(例如与特定表型特征有关的SNP 320的平均风险项)而不是最大风险项。例如,在使用平均风险项和最大风险项之间的选择可能至少部分基于去标识化努力正在解决的风险或攻击者的类型。
在一些实施例中,可以例如从诸如DB 330的数据库获得表现出第一表型特征的群体PT_pop340c的部分。可以将表现出第一表型特征PT_pop 340c的群体比例与最大风险项PT_r_max 360组合,以获得对应于第一表型特征的贡献项PT_cont 370。例如,贡献项PT_cont 370可以是PT_pop 340c和PT_r_max 360的商,或者是PT_pop 340c与PT_r_max 360的对数项之间的差。一旦确定了贡献项PT_cont 370,所述方法可以包括选择下一个表型特征PT_next 375并通过将PT_next 375设置为PT_current 310来重复该过程,如图3的流程图中的箭头所示。
贡献项PT_cont 370也可以与其他贡献项组合,例如对应于其他表型特征的贡献项,以获得总表型特征项PT_tot 380。在第一次迭代中,例如对于第一表型特征,总表型特征项PT_tot 380可以仅被设置为与第一表型特征相对应的贡献项PT_cont 370。在一些实施例中,总表型特征项PT_tot 380可以在确定每个表型特征的贡献项时更新。例如,第一表型特征的表型特征贡献PT_cont 370和其他表型特征的贡献项可以相乘,或者以对数方式相加,例如可以添加贡献项的对数。在一些实施例中,可以如本文所述地确定每个感兴趣的表型特征的贡献项,并在计算出所有所述贡献项后将其组合,例如通过找到所述贡献项的乘积,或通过找到所述贡献项的对数的和。
在一些实施例中,总表型特征项PT_tot 380可以与群体大小Pop 340d组合,其可以是区域或全球群体,或者已经确定的群体的比例,以获得适用群体AP 390。例如,如果用户有兴趣研究50至75岁患者的前列腺癌,则群体可能是感兴趣地区(例如欧洲、美国或全球等)中年龄在50至75岁之间的男性的人数。群体大小Pop 340d可以从诸如数据库DB 330的数据库、作为来自用户的输入、从存储器等获得。例如,可通过将群体大小Pop 340d与总表型特征项PT_tot 380相乘,或通过将群体大小Pop 340d与总表型特征项PT_tot 380的对数相加来确定适用群体AP 390。适用群体AP 390可以指示其基因组与基因组数据集一致的人数。
在一些实施例中,适用群体390可以用作重新识别风险评分ReID Risk 395,例如,在阈值风险准则指示人数的情况下。在一些实施例中,重新识别风险评分ReID Risk 395可以根据适用群体确定。例如,重新识别风险评分ReID Risk 395可以是特定个体可以从基因组数据集中识别的风险,并且可以计算为适用群体AP 390的倒数,例如1/AP。如果阈值风险准则基于风险水平,例如由道德或隐私要求确定或规定,则这可能是合适的。
下面提供根据一个实施例的用于计算重识别风险评分的公式:
其中,
i∈II指示表型特征的集合II中的表型特征
s∈SNPi指示与表型特征有关的SNP i
Gfreqs,i指示填充SNP的等位基因的基因型频率s
Pprobs,i指示填充SNP的等位基因将导致表型特征i的表型概率s。
Pop指示群体大小
PT_Popi指示表现出表型特征的人口的比例i
此外,虽然这里将重识别风险评分简单地表示为适用群体的倒数,但是应当理解,计算不限于此。例如,除了适用群体之外,还可以在计算风险评分时使用其他维度。例如,此类维度可能包括以下中的一项或多项:攻击者的能力(例如,他们访问各种身份数据库的能力)、基于现有上下文和阈值的攻击(例如内部/外部)的概率或机会和/或与表型和群体相对应的权重(例如,具有高于该阈值的重新识别风险的数据主体的比例,划分适用群体的表型之间的依赖性,等等)。
在一些实施例中,可以使用附加校正因子来考虑多个表型特征之间的依赖性。附加校正因子可以至少部分地基于可用的统计数据,例如那些指示两个特征或条件之间的关联的统计数据。例如,考虑表现出高BMI(体重指数)和心脏病表型特征的人口比例。一般而言,肥胖者(医学上根据BMI分数超过阈值来定义肥胖)约占总人口的20%。然而,肥胖群体占心脏病患者总数的40%。在这个示例中,很明显,高BMI表型与心脏病之间存在关系,并且该关系可以作为校正因子。例如,校正因子可以是在计算项PT_Pop中使用的人口的比例时使用40%的因子而不是20%的因子。
图4示意性地示出了用于对基因组数据集进行匿名化的计算机实施方法的实施例的示例。
该方法可以包括,在题为“接收基因组数据集”的操作中,例如经由外部网络120,接收410基因组数据集,例如来自用户或来自诸如存储器150的数据源或来自外部源。在一些实施例中,所述基因组数据集可以在与直接识别符相对应的数据已经被移除之后获得。也就是说,在一些实施例中,基因组数据集可以包括与间接识别符相对应的数据。
该方法可以包括,在题为“获得参数”的操作中,获得420,针对至少一种表型特征的群体比例,例如PT_pop,其指示群体中展示所述表型特征的比例,并且针对与所述表型特征相对应的至少一种表型SNP的基因型频率,例如Gfreq,以及表型概率,例如Pprob,如参考图3中所描述的。在一些实施例中,获得220参数可以包括获得群体大小,例如Pop 340d。在一些实施例中,获得420参数可包括获得表型特征的列表和/或与至少一种表型特征中的每个有关的SNP列表。
所述方法可以包括,在题为“计算重新识别风险评分”的操作中,计算430基因组数据集的重新识别风险评分。计算430重新识别风险评分可以被执行,例如,如参考图3所描述的。
所述方法可以包括,在题为“与阈值进行比较”的操作中,将计算的重新识别风险评分与阈值风险准则进行比较440。如果重新识别风险评分满足阈值风险准则,则该方法可以继续前进到题为“输出经匿名化的数据集”的操作,其中,基因组数据集被输出470,例如给用户或另一个子系统、功能或设备。在一些实施例中,输出经匿名化的数据集可以包括将经匿名化的数据集存储在例如存储器140中。在一些实施例中,基因组数据集可以被输出到数据库,例如数据库DB 330,或者基因组数据集可以例如经由外部网络120而被输出到外部设备,例如中央数据库或中央存储设备,在云端或远程设备中。在一些实施例中,基因组数据集可以在输出(例如存储或传输)基因组数据集之前被加密。在一些实施例中,重新识别风险评分可以与经匿名化的数据集一起输出。输出重新识别风险评分以及对基因组数据集进行匿名化可以使得经匿名化的数据集能够被使用,例如,在后续研究或应用中,其可能具有不同水平的可接受的重新识别风险(例如阈值重新识别风险阈值可能会有所不同)。通过包括对基因组数据集进行匿名化的重识别风险评分,如果重识别风险评分已经达到后续研究或应用的阈值重识别风险阈值,则可以避免或至少减少重新匿名化。
在一些实施例中,重新识别风险评分可以计算为百分比,例如通过取适用人口的倒数,如公式2所示。在这样的实施例中,阈值风险准则可以采取指示从基因组数据集中重新识别个体的风险的百分比形式。也就是说,阈值风险准则可以指示可以从基因组数据集中识别个体的概率。例如,如果基因组数据集提供了0.05%的人被重新识别的风险,则0.05%的阈值风险准将指示实现了可接受的匿名化。因此,如果计算的重新识别风险评分低于阈值风险准则,则可能满足阈值风险准则,如果计算的重新识别风险评分大于阈值重新识别,则可能不满足阈值风险准则。
在一些实施例中,可以将重新识别风险评分计算为适用群体,例如,如公式1所示。在这样的实施例中,阈值风险准则可以采用原始数字的形式,例如原始群体大小。也就是说,阈值风险准则可以指示群体中的基因组数据集能够识别的人数。如果计算的重新识别风险评分(例如计算的适用群体)超过阈值风险准则,则可以因此满足阈值重新识别风险评分。
如果将重新识别风险评分与阈值风险准则进行比较440指示重新识别风险评分不满足阈值风险准则,则可以选择450并屏蔽460基因组数据中存在的表型信息性SNP。屏蔽所选择的表型信息性SNP可以包括删除基因组数据集中与所选择的表型信息性SNP相对应的数据,用虚拟数据或空数据替换与所选择的表型信息性SNP相对应的数据,或者以其他方式模糊与所选择的表型信息性SNP相对应的数据。
可以通过在计算适用群体时识别贡献项最小的表型信息性SNP来选择表型信息性SNP。换句话说,识别出在计算再识别风险评分时贡献最高的表型信息性SNP,因为适用群体的倒数可用于计算再识别风险评分。贡献项可以如参考图3所述来确定,贡献项对应于表型特征贡献项PT_cont 370。在一些实施例中,每个表型特征的贡献项与识别哪个表型信息性SNP对应于所述贡献项的信息一起存储,例如临时存储。可以在操作450中选择表型信息性SNP,其对应的风险项是对最小贡献项PT_cont 370有贡献的最大风险项PT_r_max 360。
在一些实施例中,一个或多个表型信息性SNP可能具有相关联的优先级指示。在一些实施方案中,对应于具有相关联优先级指示的表型信息性SNP的数据可以保存在基因组数据集中,使得它们不分别在操作450和460中被选择和屏蔽。例如,选择450表型信息性SNP可以包括确定与表型信息性SNP相关联的最小贡献项(例如,确定表型信息性SNP对重新识别风险评分贡献最大的贡献)而无需优先级指示。为了说明这一点,考虑以下示例,其中对于特定表型特征,图3中SNP_1 320-1的风险项PT_r_1 350-1是所述表型特征的最大风险项(例如PT_r_1 350-1=PT_r_max 355),得到的贡献项PT_cont 370是对重识别风险评分贡献最小的贡献项,其不满足阈值风险准则。如果SNP_1320-1具有相关联的优先级指示,尽管对应于最小贡献项,则可以不选择或屏蔽与SNP_1 320-1相对应的数据。相反,可以确定下一个最小的贡献项及其相关的表型信息性SNP。如果与下一个最小贡献相关的表型信息性SNP没有优先级指示,则可以在操作450中选择所述表型信息性SNP,并且可以在操作460中屏蔽其相应数据。
优先级指示可以通过用户输入获得。在一些实施例中,用户可能对表型信息性SNP的子集特别感兴趣,并且可能希望确保所述子集存在于经匿名化的数据集中。在这种情况下,用户可以单独或作为要匿名的基因组数据集中的附加字段或标志输入感兴趣SNP的列表。在一些实施例中,可以基于已知与感兴趣的特定疾病相关的SNP的接近度来自动分配优先级指示。一个SNP与另一个SNP的接近度可以用任何已知方法确定,例如使用专利申请EP3479272 A1中描述的基因组路径网络,并通过引用将其全部并入本文,并且特别是第4页第28行至第5页第3行和第6页第18行至第7页第9行。例如,在与感兴趣的SNP或已知对特定疾病有贡献的SNP的预定义距离或接近度内的SNP可以通过向此类SNP分配优先级指示来优先化。
例如,用户可以指示特定感兴趣SNP。可以确定基因组数据集的每个表型信息性SNP和指示的SNP之间的距离,例如使用基因组路径网络。如果对于SNP,所述SNP和指示的SNP之间的距离低于阈值距离,则可以将SNP添加到可以应用优先级指示的表型信息性SNP的子集中。
一旦在操作460中屏蔽了表型信息性SNP,则可以在操作430中重新计算重新识别风险评分,而不使用与提供掩蔽的表型信息的SNP相对应的数据。也就是说,在操作450中选择的表型信息性SNP被有效地从基因组数据集中移除。重新识别风险评分的后续计算可能不包括使用与此类表型信息性SNP对应的数据。
可以从基因组数据集中去除表型信息性SNP,例如通过掩蔽所述提供信息表型的SNP,直到得到的重新识别风险评分满足阈值风险准则。例如,如果阈值风险准则表示可接受的风险水平,则表型信息性SNP的选择和掩蔽以及重新识别风险评分的重新计算可能会重复,直到基因组数据集充分匿名。
图5示意性地示出了具有包括计算机程序的可写部分的计算机可读介质的示例,计算机程序1020包括用于使处理器系统执行诸如图4的方法的方法的指令。计算机程序1020可以作为物理标记或通过计算机可读介质1000的磁化体现在计算机可读介质1000上。然而,也可以设想任何其他合适的实施例。此外,应当理解,虽然计算机可读介质1000在这里被示为光盘,但是计算机可读介质1000可以是任何合适的计算机可读介质,例如硬盘、固态存储器、闪存等,并且可能是不可记录的或可记录的。计算机程序1020包括用于使处理器系统执行所述向用户提供诊断支持的方法的指令。
图6示意性地示出了根据用于对基因组数据集进行匿名化的系统100的实施例的处理器系统1140的表示。处理器系统包括一个或多个集成电路1110。一个或多个集成电路1110的架构在图6中示意性地示出。电路1110包括处理单元1120,例如CPU,用于运行计算机程序部件以执行根据实施例的方法和/或实现其模块或单元。电路1110包括用于存储编程代码、数据等的存储器1122。存储器1122的部分可以是只读的。电路1110可以包括通信元件1126,例如天线、连接器或两者等等。电路1110可以包括专用集成电路1124,用于执行该方法中定义的部分或全部处理。处理器1120、存储器1122、专用IC 1124和通信元件1126可以经由可以是总线的互连1130相互连接。处理器系统1110可以被布置用于分别使用天线和/或连接器的接触式和/或非接触式通信。
例如,在实施例中,处理器系统1140,例如用于对基因组数据集进行匿名化的系统可以包括处理器电路和存储器电路,处理器被布置为执行存储在存储器电路中的软件。例如,处理器电路可以是Intel Core i7处理器、ARM Cortex-R8等。在实施例中,处理器电路可以是ARM Cortex M0。存储电路可以是ROM电路,或非易失性存储器,例如闪存。存储电路可以是易失性存储器,例如SRAM存储器。在后一种情况下,系统可以包括非易失性软件接口,例如,硬盘驱动器、网络接口等,被布置用于提供软件。
虽然用于对基因组数据集进行匿名化的系统100被示出为包括每个所描述的部件中的一个,但是在各种实施例中各种部件可以是多个。例如,处理器1120可以包括多个微处理器,所述多个微处理器被配置为独立地执行本文描述的方法,或者被配置为执行本文描述的方法的步骤或子例程,使得多个处理器协作以实现本文中描述的功能。此外,在云计算系统中实现系统100的情况下,各种硬件组件可以属于单独的物理系统。例如,处理器1120可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。
应当注意,上述实施例说明而非限制当前公开的主题,并且本领域的技术人员将能够设计许多替代实施例。
在权利要求中,置于括号中的任何附图标记不应构成对权利要求的限制。在权利要求中,动词“包括”及其连接词不排除存在权利要求中陈述的元件或步骤之外的元件或步骤。在元素前面的词语“一”或“一个”并不排除多个这样的元素的存在。诸如在元件的列表之前的“至少一个”的表达表示来自列表中的元件的所有或任何子集的选择。例如,表述“A,B和C中的至少一个”应理解为仅包括A,仅包括B,仅包括C,包括A和B两者,包括A和C两者,包括B和C两者,或者或A、B和C的全部。当前公开的主题可以由包括几个不同元件的硬件以及借助于适当编程的计算机来实现。在枚举了若干零件的设备型权利要求中,这些零件中的几个可以由同一硬件项来实现。尽管特定措施是在互不相同的从属权利要求中记载的,但是这并不指示不能有利地使用这些措施的组合。
在权利要求中,括号中的附图标记是指示例性实施例的附图中的附图标记或实施例的公式,因此增加了权利要求的可理解性。这些附图标记不应被解释为限制权利要求。
Claims (15)
1.一种用于对基因组数据集进行匿名化的计算机实施的方法,所述基因组数据集包括布置在多个单核苷酸多态性(SNP)中的多个等位基因,所述多个SNP包括一个或多个表型信息性SNP,表型信息性SNP是与表型特征有关的SNP,所述基因组数据集与人的基因组对应,所述方法包括:
接收(410)所述基因组数据集;
获得(420)针对至少一个表型信息性SNP的表型概率以及群体中表现出所述表型特征的比例,表型概率是所述表型特征被表达为与所述至少一个表型信息性SNP相对应的至少一个等位基因的结果的概率;
基于所述基因组数据集来计算(430)重新识别风险评分,所述重新识别风险评分指示根据所述基因组数据集来重新识别与所述基因组数据集相关联的人的风险,所述重新识别风险评分是根据所获得的表型概率和所获得的所述群体中表现出所述表型特征的比例来计算的;
将所述重新识别风险评分与阈值风险准则进行比较(440);
如果所述重新识别风险评分不符合所述阈值风险准则,则:
通过以下方式对所述基因组数据集进行匿名化:
选择(450)表型信息性SNP,并且
掩蔽(460)所选择的表型信息性SNP;并且
重新计算(430)所述重新识别风险评分;
如果所述重新识别风险评分满足所述阈值风险准则,则:
输出(470)经匿名化的基因组数据集。
2.根据权利要求1所述的方法,其中,重复以下步骤直到所述重新识别风险评分满足所述阈值风险准则:
将所述重新识别风险评分与所述阈值风险准则进行比较(440);
对所述基因组数据集进行匿名化(450、460),并且
重新计算(430)所述重新识别风险评分。
3.根据权利要求1或权利要求2所述的方法,还包括对经匿名化的基因组数据集进行加密。
4.根据前述权利要求中的任一项所述的方法,其中,计算(430)所述重新识别风险评分包括:
针对至少一个表型特征中的每个:
计算表型信息性SNP的风险项,所述表型信息性SNP与所述表型特征有关,所述风险项是根据所述表型信息性SNP的基因型频率和与所述表型信息性SNP的所述至少一个等位基因相关联的所述表型特征的所述表型概率来计算的,所述基因型频率指示在所述群体中所述表型信息性SNP的所述至少一个等位基因的频率,并且
获得所述群体中表现出所述表型特征的比例;
根据所述至少一种表型特征中的每种表型特征的所计算的风险项和所获得的所述群体中针对所述至少一种表型特征中的每种表型特征的比例来计算所述重新识别风险评分。
5.根据权利要求4所述的方法,其中,计算所述重新识别风险评分包括:
针对多个表型特征中的每个:
获得所述群体中表现出所述表型特征的比例;
识别与所述表型特征有关的至少一个表型信息性SNP;
计算针对所识别的至少一个表型SNP中的每个表型SNP的风险项;
针对所述表型特征选择具有最大风险项的SNP;并且
根据所获得的所述群体中表现出所述表型特征的比例和所选择的SNP的所述风险项来确定针对所述表型特征的贡献项;并且
根据所述群体和针对所述多个表型特征中的每个表型特征的所述贡献项来确定适用的群体值;并且
基于所述适用群体值来计算所述重新识别风险评分。
6.根据权利要求4或权利要求5所述的方法,其中,选择(450)所述表型信息性SNP包括选择其风险项被用于计算最小贡献项的SNP。
7.根据前述权利要求中的任一项所述的方法,其中,所述一个或多个表型信息性SNP包含具有优先级指示的SNP的子集,并且其中,选择(450)所述SNP包括选择没有优先级指示的表型信息性SNP。
8.根据权利要求7所述的方法,其中,具有所述优先级指示的SNP的所述子集通过以下方式来识别:
针对所述一个或多个表型信息性SNP中的每个SNP:
确定所述SNP和预先指定的感兴趣SNP之间的距离;
如果所确定的距离在阈值距离之内,则将所述SNP添加到具有所述优先级指示的SNP的所述子集中。
9.根据前述权利要求中的任一项所述的方法,其中,掩蔽所选择的SNP包括删除所述基因组数据集中的数据条目,所述数据条目表示所选择的SNP。
10.根据前述权利要求中的任一项所述的方法,还包括输出所述重新识别风险评分。
11.根据前述权利要求中的任一项所述的方法,其中,计算所述重新识别风险评分包括从数据库中获得关于多个表型特征之间的依赖性的统计信息,并且应用根据所述统计信息导出的校正因子。
12.根据前述权利要求中的任一项所述的方法,还包括:
识别至少一个直接识别符,直接识别符是独立识别所述人的SNP;并且
掩蔽所述基因组数据集中的所识别的至少一个直接识别符。
13.根据前述权利要求中的任一项所述的方法,其中,所述表型特征包括外部表型特征。
14.一种包括表示指令的瞬态或非瞬态数据的计算机可读介质,所述指令在由处理器系统执行时使所述处理器系统执行根据权利要求1至13中的任一项所述的计算机实施的方法。
15.一种用于对基因组数据集进行匿名化的系统,所述基因组数据集包括布置在多个单核苷酸多态性(SNP)中的多个等位基因,所述多个SNP包括一个或多个表型信息性SNP,表型信息性SNP是与表型特征有关的SNP,所述基因组数据集与人的基因组对应,所述方法包括:
输入/输出子系统(130),其配置为:
接收所述基因组数据集;
获得针对至少一个表型信息性SNP的表型概率以及群体中表现出所述表型特征的比例,表型概率是所述表型特征被表达为与所述至少一个表型信息性SNP相对应的至少一个等位基因的结果的概率;
处理器子系统(110),其配置为:
基于所述基因组数据集来计算重新识别风险评分,所述重新识别风险评分指示根据所述基因组数据集来重新识别与所述基因组数据集相关联的人的风险,所述重新识别风险评分是根据所获得的表型概率和所获得的所述群体中表现出所述表型特征的比例来计算的;
将所述重新识别风险评分与阈值风险准则进行比较;
如果所述重新识别风险评分不符合所述阈值风险准则,则:
通过以下方式对所述基因组数据集进行匿名化:
选择表型信息性SNP,并且
掩蔽所选择的表型信息性SNP;并且
重新计算所述重新识别风险评分;
如果所述重新识别风险评分满足所述阈值风险准则,则:
经由所述输入/输出子系统(130)来输出所述匿名基因组数据集。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063106921P | 2020-10-29 | 2020-10-29 | |
US63/106,921 | 2020-10-29 | ||
PCT/EP2021/079305 WO2022090067A1 (en) | 2020-10-29 | 2021-10-22 | Method of anonymizing genomic data |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116438604A true CN116438604A (zh) | 2023-07-14 |
Family
ID=78528893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180074039.6A Pending CN116438604A (zh) | 2020-10-29 | 2021-10-22 | 对基因组数据进行匿名化的方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230368870A1 (zh) |
EP (1) | EP4238099A1 (zh) |
JP (1) | JP2023547638A (zh) |
CN (1) | CN116438604A (zh) |
WO (1) | WO2022090067A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021208233A1 (de) * | 2021-07-29 | 2023-02-02 | Siemens Healthcare Gmbh | Verfahren und System zur Bereitstellung anonymisierter Patientendatensätze |
US20230418977A1 (en) * | 2022-06-28 | 2023-12-28 | Here Global B.V. | Method, apparatus, and computer program product for estimating the privacy risk of anonymized trajectory data |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2765241C2 (ru) | 2016-06-29 | 2022-01-27 | Конинклейке Филипс Н.В. | Ориентированная на заболевание геномная анонимизация |
WO2018185188A1 (en) | 2017-04-06 | 2018-10-11 | Koninklijke Philips N.V. | Method and apparatus for masking clinically irrelevant ancestry information in genetic data |
-
2021
- 2021-10-22 EP EP21802602.9A patent/EP4238099A1/en active Pending
- 2021-10-22 US US18/029,933 patent/US20230368870A1/en active Pending
- 2021-10-22 CN CN202180074039.6A patent/CN116438604A/zh active Pending
- 2021-10-22 JP JP2023525469A patent/JP2023547638A/ja active Pending
- 2021-10-22 WO PCT/EP2021/079305 patent/WO2022090067A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2023547638A (ja) | 2023-11-13 |
EP4238099A1 (en) | 2023-09-06 |
WO2022090067A1 (en) | 2022-05-05 |
US20230368870A1 (en) | 2023-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taliun et al. | Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program | |
Humbert et al. | De-anonymizing genomic databases using phenotypic traits | |
Wasser et al. | Assigning African elephant DNA to geographic region of origin: applications to the ivory trade | |
Momen et al. | Predictive ability of genome-assisted statistical models under various forms of gene action | |
US10713383B2 (en) | Methods and systems for anonymizing genome segments and sequences and associated information | |
Jain et al. | Quantitative analysis of chromosomal CGH in human breast tumors associates copy number abnormalities with p53 status and patient survival | |
JP2014140387A (ja) | 遺伝子分析系および方法 | |
Jia et al. | Mapping quantitative trait loci for expression abundance | |
CN116438604A (zh) | 对基因组数据进行匿名化的方法 | |
US20080138799A1 (en) | Method and a system for extracting a genotype-phenotype relationship | |
RU2699517C2 (ru) | Способ оценки риска заболевания у пользователя на основании генетических данных и данных о составе микробиоты кишечника | |
WO2020089835A1 (en) | Estimation of phenotypes using dna, pedigree, and historical data | |
US11429615B2 (en) | Linking individual datasets to a database | |
CN112201346A (zh) | 癌症生存期预测方法、装置、计算设备及计算机可读存储介质 | |
WO2022087478A1 (en) | Machine learning platform for generating risk models | |
CN108475300A (zh) | 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统 | |
CN111724911A (zh) | 目标药物敏感度预测方法、装置、终端设备及存储介质 | |
Sng et al. | Genome-wide human brain eQTLs: In-depth analysis and insights using the UKBEC dataset | |
Toh et al. | Genetic risk score for ovarian cancer based on chromosomal-scale length variation | |
Gong et al. | Varying coefficient models for mapping quantitative trait loci using recombinant inbred intercrosses | |
US20230124077A1 (en) | Methods and systems for anonymizing genome segments and sequences and associated information | |
US12045219B2 (en) | Scoring method for matches based on age probability | |
Li et al. | Pseudo semiparametric maximum likelihood estimation exploiting gene environment independence for population-based case–control studies with complex samples | |
Ko et al. | Evaluation of a genetic risk score computed using human chromosomal-scale length variation to predict breast cancer | |
Wu et al. | Approximate conditional phenotype analysis based on genome wide association summary statistics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |