CN116114023A - 用于加密受试者的基因数据的方法和系统 - Google Patents

用于加密受试者的基因数据的方法和系统 Download PDF

Info

Publication number
CN116114023A
CN116114023A CN202180057779.9A CN202180057779A CN116114023A CN 116114023 A CN116114023 A CN 116114023A CN 202180057779 A CN202180057779 A CN 202180057779A CN 116114023 A CN116114023 A CN 116114023A
Authority
CN
China
Prior art keywords
subject
sequence
encryption key
metadata
exogenous dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180057779.9A
Other languages
English (en)
Inventor
F·费纳
A·比安科托
E·佩莱格里诺
M·德拉沃
N·马卡尼奥
D·费加雷拉-布兰杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aix Marseille Universite
Assistance Publique Hopitaux de Marseille APHM
Original Assignee
Aix Marseille Universite
Assistance Publique Hopitaux de Marseille APHM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aix Marseille Universite, Assistance Publique Hopitaux de Marseille APHM filed Critical Aix Marseille Universite
Publication of CN116114023A publication Critical patent/CN116114023A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • H04L9/0866Generation of secret information including derivation or calculation of cryptographic keys or passwords involving user or device identifiers, e.g. serial number, physical or biometrical information, DNA, hand-signature or measurable physical characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Primary Health Care (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Public Health (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

提供了一种加密生物样本的基因组数据的计算机实现的方法和系统,其改进了从样本获得的基因信息的安全性,同时保证了整个分析链中的可追溯性和身份警惕性。本文中所公开的计算机实现的方法和系统允许高等级的身份警惕性、改进的标记和可追溯性并且提供基因组数据的高等级保密性。

Description

用于加密受试者的基因数据的方法和系统
技术领域
本公开涉及加密生物样本的基因组数据及对该生物样本进行DNA标记的计算机实现的方法和系统。
背景技术
DNA测序技术在过去几十年中的发展已经允许以相对较低的成本对受试者的整个基因组进行测序。因此,成千上万的受试者向测序实验室捐献了样本,或是出于个人目的(例如,系谱DNA测试),或是出于医学原因,或还为了转译研究。
个性化医疗是医疗保健的未来,因为全基因组测序提供了在个人等级和疾病阶段个性化治疗的能力。
因为药理学和药物开发是基于人群研究的,所以目前的治疗是根据整个人群的统计数据标准化的。然而,受试者对疾病和药物治疗的反应与他或她的基因和表观基因易感性相关。
基因组测序加快了单基因疾病的预测咨询,其中快速和鉴别诊断在新生儿护理中很重要。然而,医疗和研究用途之间的界限往往很模糊,这可能会使处理这两个领域之间的保密问题变得复杂,因为它们往往需要不同程度的同意并且涉及不同的国家政策。此外,这些政策在欧洲和盎格鲁-撒克逊国家之间有很大的不同,欧洲的态度是保护受试者的数据,而盎格鲁-撒克逊国家的态度是开放和分发数据。
事实上,企业隐私政策通常不受国家管辖,特别是在盎格鲁-撒克逊国家,这使消费者面临信息风险,既涉及他们的基因数据,也涉及他们披露的消费者资料,包括家族史、健康状况、种族、族裔、社交网络等。例如,某些公司将收集的基因组数据出售给实业家,或在公共数据库、生物库和知识库(例如,英国生物库和1000基因组项目)中共享这些数据,以辅助研究人员和临床医生推进生物医学研究,更好地了解生物数据(DNA、RNA和蛋白质)的结构和功能。
鉴于消费者交易的性质允许这些电子模型绕过研究和医疗保健中的传统同意形式,保护基因个人信息的政策甚至更加复杂。在考虑国际研究合作或生物资源中心(国际生物库)、储存生物样本和基因信息的数据库时,情况也是如此。
此外,研究和卫生保健不是需要正规专业知识的唯一领域;其他令人关切的领域包括刑事司法系统所涉人员和私有面向消费者的基因组测序所涉人员的基因信息隐私。
拥有保险公司、雇主或潜在优生极权国家的制药业是主要的担忧来源。消费者可能不完全理解数字化和存储他们的基因序列的含义。因此,重要的是要强调,在数据泄露的情况下,受试者的个人基因组不能被替换。当务之急是确定哪些方法是可靠的,以及政策应如何确保持续的基因隐私。
因此,对于基因组数据在存储、共享、传输和计算期间的安全性和隐私性存在严重的担忧。人们确实可以想象法律允许州或私有公司访问存储在这些数据库中的基因组数据。
为了解决这些问题,已经提出了不同的加密策略。例如,已经提出将读取映射分成两个任务:可以在公共云上执行的测序数据的匹配,而这些读取的比对在私有云上执行。然而,由于比对过程往往非常庞大和劳动密集型,大多数测序系统在功能上仍然需要第三方计算操作,诸如云,这带来了安全问题。
其他研究提出了一种使用同态加密和安全完全比较的技术,并且建议以加密形式存储和处理敏感数据。为了确保保密性,存储和处理单元(SPU)存储在患者中观察到的所有单核苷酸多态性(SNP),具有来自一组潜在SNP的冗余内容。另一个解决方案开发了三个协议,使用Yao的乱码电路交叉点和条带升级算法来保护安装距离的计算。然而,此解决方案的主要缺点是它不能在保持精度的同时执行大规模计算。
此外,在NGS分析中,在分析阶段制备文库时添加了称为Tag或MID的序列。这些序列在3’端由PCR引物携载,在解复用期间,将获得的序列与靶基因组的参考序列进行比对,3’部分允许鉴定在相同测序分析(运行)中比对的每个序列的样本。这些标记或MID将在每次新运行中重复使用并且在后续分析系列(新运行)中索引新样本。这些标记或MID不是唯一的并且在碱基序列中没有被编码数字数据。
迄今为止,还没有解决方案将生物信息和数字数据的测序读取相结合,该数字数据使用4个ATGC碱基来进行编码,并且在定制的核酸支持物上加密,形成独特的不变量,并且携载以下类型的信息:索引数据、临床数据、生物数据、个人数据、图像等。
此外,目前不可能让患者自主(选择)由第三方使用他们的基因组数据。此外,很难根据用于分析的严格需要的基因组信息等级对患者同意进行分层。
附图说明
图1表示本文中所公开的方法的流程图。
图2示出了通过原始数据“FASTQ”文件的块的加密方法。
缩写列表
BAM=二进制比对图
DNA=脱氧核糖核酸
HER=电子健康记录
HLA=人类白细胞抗原
QC=质量控制
MDD=元数据文档
MID=复用标识符
NGS=下一代测序
PCR=聚合酶链反应
RNA=核糖核酸
SNP=单核苷酸多态性
SPU=存储和处理单元
发明内容
其中描述的实施例提供了一种用于对受试者的基因数据进行加密的计算机实现的方法,包括以下步骤:
步骤a)由DNA合成器合成包括与所述受试者有关的所编码的元数据的外源DNA序列(DNA标记),所述元数据包括至少一个加密密钥,所述加密密钥是唯一的并且与所述受试者相关联;
步骤b)在采样材料中收集所述受试者的生物样本,所述采样材料包括所述外源DNA序列;
步骤c)由DNA测序器对从所述生物样本中获得的所述受试者的DNA进行测序,并且由DNA测序器对包括所编码的元数据的所述外源DNA序列进行测序,
步骤d)由至少一个处理单元创建与受试者的经测序的基因组相对应的基于文本的文件,所述基因组包括至少一个感兴趣的序列,
步骤e)由所述至少一个处理单元创建与经测序的外源DNA序列相对应的基于文本的文件,该文件包括所编码的元数据,该元数据包括至少一个加密密钥;
步骤f)借助于所述至少一个处理单元从所述基于文本的文件中提取与经测序的外源DNA序列相对应的加密密钥;
步骤g)由所述至少一个处理单元利用来自步骤f)的与所述受试者相关联的所述加密密钥来加密与受试者的经测序的基因组相对应的所述基于文本的文件,除了至少一个感兴趣的序列。
该方法还可以包括以下特征中的一个和/或另一个:
在步骤a)中,所述元数据至少包括第二加密密钥
在步骤g)中,借助于所述第二加密密钥对至少一个感兴趣的序列进行加密;
步骤d)的基于文本的文件被分割成固定长度碱基对的块;
在外源DNA序列内编码与所述受试者相关联的个人数据库索引标识符;
编码用以标识外源DNA序列中的至少一个感兴趣的序列的信息。
在外源DNA序列内对受试者的健康记录进行编码;
基于4个核苷酸碱基A、T、G和C的组合,以二进制代码的形式对外源DNA序列中的元数据进行编码;
利用第三加密密钥加密被编码在外源DNA序列内的元数据。
还提供了一种用于加密受试者的基因数据的系统,其包括:
DNA合成器,其被配置为合成外源DNA序列,该外源DNA序列包括与所述受试者相关的所编码的元数据,所述元数据至少包括加密密钥,所述加密密钥是唯一的并且与该受试者相关联;
DNA测序器,其被配置为对包括与所述受试者相关的所编码的元数据的所述外源DNA序列进行测序,并且被配置为对从生物样本获得的所述受试者的DNA进行测序;
至少一个处理单元,其被配置为执行以下步骤:
创建与受试者的经测序的基因组相对应的基于文本的文件,所述基因组包括至少一个感兴趣的序列;
创建与经测序的外源DNA序列相对应的基于文本的文件,外源DNA序列的序列包括所编码的元数据,该元数据包括至少一个加密密钥;
从与经测序的外源DNA序列相对应的基于文本的文件中提取加密密钥;
利用所述加密密钥加密与受试者的经测序的基因组相对应的基于文本的文件。
该系统还可以包括以下特征中的一个和/或另一个:
至少一个附加的处理单元,其被配置为执行以下步骤:
基于4个核苷酸碱基A、T、G和C的组合,将包括至少一个加密密钥的元数据转换成二进制代码,以便获得与所述元数据相对应的核酸序列;
将获得的核酸序列传输到DNA测序器,以便获得包括所编码的元数据的外源DNA序列,所述所编码的元数据至少包括该加密密钥。
至少一个处理单元,其被配置为将与受试者的经测序的基因组相对应的基于文本的文件分割成固定长度碱基对的块。
由于这些配置,该方法和系统提高了从样本获得的基因信息的安全性,同时保证了整个分析链的可追溯性和身份警惕性。“身份警惕性”旨在确保在整个分析过程中正确标识所有受试者(例如,当受试者是患者时,在医院的整个护理过程中以及在医疗和管理数据的交换过程中)。目标是在整个护理过程中确保受试者身份标识和记录的可靠性,以便始终能够在正确的时间为正确的受试者提供正确的护理。
本文公开的方法和系统允许高等级的身份警惕性,因为由于标记序列包括受试者的信息,并且由于它与待分析的样本在同一试管中,所以有可能以安全的方式确定受试者的身份,从而避免例如当受试者是患者时的误诊。它还可以与常规上以数字格式存储的数据进行比较,从而确保数据的质量控制。
此外,标记和可追溯性得到改进。事实上,基于在与样本相同的试管中具有标记序列的相同原理,有可能在数年后对样本进行标记。因此,与样本相关的数据丢失问题(标记移除或褪色)就这样解决了。
此外,通过此针对包括至少一个密钥的元数据编码的DNA标记,仅密钥的持有者(客户)或原始样本的持有者(负责基因组测序的实验室)才能够解密存储在实验室数据库中的受试者基因组。
具体实施方式
在附图中,相同的附图标记表示相同或类似的元件。
其中公开的方法和系统提供了性能增益和“身份警惕性”的新用途,以及“编码”数字数据(诸如健康数据)的新用途。本方法还提供了生物数据的改进的安全性和隐私性。事实上,身份警惕性开始于采样时,与通常在整个分析链中使用的其他质量控制(QC)相结合。
此外,编码使得在物理介质上结合私有和基因组数据成为可能。它使得除了数字数据之外,还可以保持这些数据的物理介质在时间上非常稳健,超过所有现有的数字介质(>2000年)。
此外,加密使保护个人的自主权成为可能,使每个人都能够拥有自己(J.Locke)的财产和个人选择的自由。它还允许保护来自生物材料的任何基因组数据,无论这些基因组数据来自人类、动物、细菌、酵母还是植物。
最后,为了解密,对基因组的不同保密等级进行索引,减少了基因组的大小,从而减少了分析时间。
为此,使用4个核苷酸碱基将数据编码在合成的外源DNA序列中,就像计算中使用的二进制编码一样,例如,‘00’=‘A’;‘01’=‘T’,‘01’=‘C’,‘10’=‘G’。外源DNA序列例如借助于DNA合成器合成。数据存储在此定制的唯一DNA分子(DNA标记或标签)中。
DNA标记是指生物样本和/或其受试者。受试者可以是人类、动物、细菌、酵母甚至是植物。DNA标记是与受试者相关的数字信息的物理载体。DNA标记以物理方式永久伴随着生物样本,而从生物样本得到的数据以数字方式伴随着生物样本。
与受试者相关的任何种类的数据都可以被编码在DNA标记内。所述数据可以是例如与受试者身份相关的任何信息(例如,姓名、条形码、数据库标识号等);样本收集条件(例如,日期和地点);样本的性质(例如,取自具有特定条件的患者的血液样本),或甚至在患者的情况下,患者的医疗记录。
DNA标记还编码至少一个密钥,该密钥将用于加密从样本中获得的基因组数据;或用于指示基因组的哪些部分将被加密的元数据(MDD)。编码在DNA标记内的密钥是公共密钥并且与私有密钥相关联。所述私有密钥是唯一的、与受试者相关联的、保密的并且仅订购分析的客户才拥有它。
一般来说,与受试者相关的所有信息都可以编码在DNA标记中,以确保个人/敏感信息的隐私。因此,与写在标记上的通常的信息相反,仅拥有样本并且能够对DNA进行测序的人才能获得这些信息。
在本方法中,DNA标记是在收集样本时添加到样本中的。然后连同样本中存在的受试者基因组的生物数据由测序器读取。本方法的流程图如图1所示。
因此,DNA标记上的数据有不同的用途:身份监测、注释以及通过作为加密密钥的物理支持来保护样本。
标记是对密码公共密钥的物理支持,对不同等级的“风险”进行索引和解密。它是对受试者基因组进行加密的物理密钥,其本身利用与当前计算机系统相同的安全标准加密。外源序列可以借助于第三加密密钥加密,该加密密钥由订购分析的客户(例如,患者、农业工业、实验室等)选择。因此,为了获得与受试者相关的信息的解译,必须具有由客户持有的密钥。
根据与分析相关或不相关的序列来限定不同的风险等级,遵循不同的风险等级来限定不同风险的等级。例如,可以决定只加密与此类分析无关的序列。因此,仅用于分析的相关序列是第三方“可读”的,而基因组的其余部分受到保护。也可以决定借助于第二密钥对相关部分进行编码,该第二密钥将被传达给第三方进行解密(例如,负责分析感兴趣序列的实验室)。
因此,仅拥有包括DNA标记和/或私有密钥的原始样本的人才能解密整个受试者的基因组。标记是受试者数据的“物理”锁,保护其免受黑客攻击、盗窃或滥用这些基因组和私有数据。为了获得与受试者相关的信息的解译,必须具有由客户持有的密钥。
该方法可以提高分析的可追溯性、隐私性和身份警惕性。在受试者是人类的情况下,以与医学专家委员会限定的不同“风险”等级相关的分层方式,它还保证客户关于是否允许访问基因组数据的自由意愿和自主权得到尊重。
DNA标记可以具有以下至少三个功能中的至少一个:
(1)在任何预分析处理之前,通过添加DNA序列(标记)对生物样本进行标记(身份警惕性)。此标记可包括多种数据:试管编号、日期甚至任何简单的相关信息,该数据允许在整个分析或生产链中生物样本的身份警惕性和可追溯性;
(2)在患者的情况下,经由以添加到生物样本的人工DNA序列的形式制造物理介质,对电子健康记录(EHR)患者数据进行注释,该生物样本将与基因组数据同时被测序;以及
(3)通过唯一并且定制的外源DNA序列(标记)的安全性(加密)。它是(多个)加密密钥的物理载体。它在采集时被添加到生物样本中并且与生物样本永久链接。
样本DNA的测序产生文本文件(例如“FASTQ”),该文本文件包括受试者基因组的全部或部分的序列,以及相关的外源DNA序列(标记)。在此阶段,不可能区分不同的序列。
“FASTQ”格式是一种基于文本的格式,用于存储生物序列(通常是核苷酸序列)及其对应的质量得分两者。为了简洁起见,序列字母和质量得分两者各自利用单个ASCII字符编码。
将文本文件中的每个片段(例如“FASTQ”)与参考基因组(例如当受试者是人类时,与人类基因组数据库)进行比较。将片段与参考序列(例如“hg19”)进行比对并且分成若干“块”。每个块被记录为根据块是否包括与分析相关的数据的“风险”等级/类别。每个等级都使用DNA标记进行索引并且与基于参考序列文本的文件(例如BAM文件)进行交叉引用,这些文件经过分类、压缩,然后使用(多个)加密密钥进行加密。
因此,在一个特定的实施例中,包括待分析的基因组数据(例如感兴趣基因的序列)的块不被加密,而不包括感兴趣序列的块借助于DNA标记的加密密钥被加密。在另一个特定实施例中,包括相关序列的块借助于编码在DNA标记中的第二加密密钥(公共密钥)加密。
在另一个特定实施例中,当块包括感兴趣的序列(或感兴趣的序列的一部分)并且序列将被加密时,可以在此块的整个序列上限定位置,以便加密除感兴趣的序列之外的块。感兴趣的序列还可以借助于第二加密密钥来加密,使得仅此感兴趣的序列将被解密(见图2)。
在一个特定实施例中,基因组的加密可以服从客户端的事先同意,例如借助于双因素认证接口、智能手机应用、sms、电子邮件、互联网链接等。
针对每个受试者,诸如至少一个数据库索引、至少一个公共密钥和至少一个私有密钥之类的信息存储在利用客户端提供和输入的密钥加密的文件中。客户端以计算机文件的形式保存这些信息,由特定的软件(例如KeePass)进行处理。索引指的是包括诸如例如受试者的身份、采样条件、医疗记录、感兴趣的序列等的信息的私有数据库。每个索引是唯一的,并且仅特定地指此数据库的一个受试者。
因此,受试者的身份被保留。不能直接从采样材料中导出身份。此外,仅客户同意披露内容的序列对第三方(例如负责分析的实验室)可见,而基因组的其余部分受到保护。
因此,DNA标记是物理和数字介质,可以根据客户的需要和选择以安全的方式解锁基因组。
还提供了一种用于实现上文所描述的方法的系统。所述系统包括DNA合成器,该DNA合成器被配置为合成与上文所描述的方法的DNA标记相对应的外源DNA序列。因此,可以在DNA标记上编码与所述受试者相关的元数据。所述元数据至少包括加密密钥,所述加密密钥是唯一的并且与所述受试者相关联。
系统还包括DNA测序器,该DNA测序器被配置为对所述DNA标记进行测序。因此,在对收集的生物样本+DNA标记的DNA进行测序时,可以对DNA标记中编码的与所述受试者相关的元数据和所述受试者的DNA进行测序。
该系统还进一步包括至少一个处理单元,其被配置为创建与受试者的经测序的基因组相对应的基于文本的文件(包括至少一个感兴趣的序列);然后创建与经测序的DNA标记相对应的基于文本的文件(至少包括加密密钥);然后从DNA标记的基于文本的文件中提取加密密钥,以及最后利用所述加密密钥对受试者基因组的基于文本的文件进行加密。
优选地,该系统还包括至少一个附加的处理单元,其被配置为基于4个核苷酸碱基A、T、G和C的组合将元数据(包括至少一个加密密钥)转换成二进制代码,以便获得与所述元数据相对应的核酸序列;以及将获得的核酸序列传输到DNA测序器,该测序器将产生对应的外源DNA序列(包括至少包括所述加密密钥的所编码的元数据)。
更优选地,该系统还包括至少一个处理单元,该至少一个处理单元被配置为将与受试者的经测序的基因组相对应的基于文本的文件分割成固定长度碱基对的块。
上述处理单元中的每个可以是不同的或相同的处理单元。
示例
下面提供了本方法的特定实施例。
患者咨询医生,医生开了DNA分析的处方。医生向公司A发送具有关于将被分析的序列的信息的处方。
公司A为患者创建文件,并且为患者分配用于标识的至少一个数据库索引和至少一组公共/私有加密密钥。公司A至少向患者提供他的私有密钥。然后,公司A经由DNA合成器产生包括编码在其中的元数据(MDD)的DNA标记,所述元数据被链接到患者,并且将所述DNA标记插入旨在收集患者生物样本的采样材料中。
DNA标记通过使用4个核苷酸碱基来编码信息,就像计算中使用的二进制编码一样,例如‘00’=‘A’;‘01’=‘T’,‘01’=‘C’,‘10’=‘G’。优选地,DNA标记至少编码与患者身份、将被分析的基因组序列(例如至少一个基因)的指示(数据库索引)和加密密钥(公共密钥)相关的信息。DNA标记还可以包括与样本收集条件相关的信息(例如日期和地点);样本的性质(例如取自白血病患者的血液样本)或甚至患者的医疗记录。
包括DNA标记的采样材料然后被发送到负责收集来自患者的生物样本的实验室B;并且样本被收集在包括DNA标记的所述采样材料中。因此,DNA标记将跟随来自患者的样本,从而确保其在整个过程中的可追溯性。然后,包括生物样本和DNA标记的采样材料被送回公司A,以便进行测序。
借助于A公司的DNA测序器对采样材料进行测序,该测序器提供与患者基因组相对应的原始文本数据(例如“FASTQ”数据)。“FASTQ”文件然后被处理单元分割成若干确定长度的“块”。处理单元还标识包括在DNA标记中的索引,以便标识哪些块包括将由实验室C分析的至少一个序列。实验室C可以是与实验室B相同或不同的实验室。处理单元然后加密除了至少一个感兴趣的序列之外的所有序列。处理单元使用在DNA标记中标识的加密密钥进行加密。图2表示按块的加密方法。此步骤可以是实时地服从患者的事先同意,例如借助于双因素认证接口、智能手机应用、sms、电子邮件、互联网链接等。
然后,处理单元将部分加密的文件与人类基因组的参考序列(例如hg19)进行比对,以获得BAM文件输出,其中仅未加密的序列通过处理单元与参考基因组进行比对。
然后将部分比对的BAM文件传输到实验室C,实验室C可以访问未加密的序列,以便分析感兴趣序列的致病性或基因组变异。因此,为了进行分析,实验室C只能访问至少一个感兴趣的序列,而基因组的其余部分仍然是加密的。
在可选实施例中,提供了第二组私有密钥/公共密钥,并且所述第二公共密钥被编码在DNA标记内。处理单元然后利用第一公共密钥来加密除了至少一个感兴趣的序列之外的所有序列并且利用所述第二公共密钥来加密感兴趣的序列。因此,传输到第三方的文件是完全加密的,在传送期间防止黑客攻击;并且所述第三方只能解密所述感兴趣的序列,而不能解密基因组的其余部分。

Claims (11)

1.一种用于加密受试者的基因数据的计算机实现的方法,包括以下步骤:
-步骤a)由DNA合成器合成外源DNA序列,所述外源DNA序列包括与所述受试者有关的所编码的元数据,所述元数据至少包括加密密钥,所述加密密钥是唯一的并且被关联到所述受试者;
-步骤b)收集采样材料中的所述受试者的生物样本,所述采样材料包括所述外源DNA序列;
-步骤c)由DNA测序器对从所述生物样本获得的所述受试者的所述DNA进行测序,以及由DNA测序器对包括所编码的元数据的所述外源DNA序列进行测序,
-步骤d)由至少一个处理单元创建与所述受试者的经测序的所述基因组相对应的基于文本的文件,所述基因组包括至少一个感兴趣的序列,
-步骤e)由所述至少一个处理单元创建与经测序的所述外源DNA序列相对应的基于文本的文件,所述外源DNA序列包括所编码的元数据,所述元数据包括至少一个加密密钥;
-步骤f)借助所述至少一个处理单元,从与经测序的所述外源DNA序列相对应的所述基于文本的文件提取所述加密密钥;
-步骤g)由所述至少一个处理单元利用来自步骤f)的被关联到所述受试者的所述加密密钥,加密与所述受试者的经测序的所述基因组相对应的所述基于文本的文件,除了所述至少一个感兴趣的序列。
2.根据权利要求1所述的方法,其中在步骤a中,所述元数据包括至少第二加密密钥,并且在步骤g中,借助所述第二加密密钥来加密所述至少一个感兴趣的序列。
3.根据权利要求1或2的方法,其中步骤d)的所述基于文本的文件被分割成固定长度碱基对的块。
4.根据权利要求1至3中任一项所述的方法,包括在所述外源DNA序列内编码关联到所述受试者的个人数据库索引标识符。
5.根据权利要求1至4中任一项所述的方法,包括编码用以标识所述外源DNA序列内的所述至少一个感兴趣的序列的信息。
6.根据权利要求1至5中任一项所述的方法,其中所述受试者是患者,并且包括在所述外源DNA序列内编码所述受试者的所述健康记录。
7.根据权利要求1至6中任一项所述的方法,包括基于所述4个核苷酸碱基A、T、G和C的组合,以二进制代码的形式编码所述外源DNA序列中的元数据。
8.根据权利要求1至7中任一项所述的方法,包括利用第三加密密钥来加密被编码在所述外源DNA序列内的所述元数据。
9.一种用于加密受试者的基因数据的系统,包括:
(a)DNA合成器,所述DNA合成器被配置为合成包括与所述受试者有关的所编码的元数据的外源DNA序列,所述元数据至少包括加密密钥,所述加密密钥是唯一的并且被关联到所述受试者;
(b)DNA测序器,所述DNA测序器被配置为对包括与所述受试者有关的所编码的元数据的所述外源DNA序列进行测序,并且所述DNA测序器被配置为对从生物样本获得的所述受试者的所述DNA进行测序;
(c)至少一个处理单元,所述至少一个处理单元被配置为执行以下步骤:
-创建与所述受试者的经测序的所述基因组相对应的基于文本的文件,所述基因组包括至少一个感兴趣的序列;
-创建与经测序的所述外源DNA序列相对应的基于文本的文件,所述外源DNA序列的所述测序包括所编码的元数据,所述所编码的元数据包括至少一个加密密钥;
-从与经测序的所述外源DNA序列相对应的所述基于文本的文件中提取所述加密密钥;
-利用所述加密密钥加密与所述受试者的经测序的所述基因组相对应的所述基于文本的文件。
10.根据权利要求9所述的系统,包括至少一个附加处理单元,所述至少一个附加处理单元被配置为执行以下步骤:
-基于所述4个核苷酸碱基A、T、G和C的组合,将包括至少一个加密密钥的所述元数据转换成二进制代码,以便获得与所述元数据相对应的核酸序列;
-向所述DNA测序器传输所获得的所述核酸序列,以便获得包括所编码的元数据的所述外源DNA序列,所述所编码的元数据至少包括所述加密密钥。
11.根据权利要求9或10所述的系统,其中所述至少一个处理单元还被配置为将与所述受试者的经测序的所述基因组相对应的所述基于文本的文件分割成固定长度碱基对的块。
CN202180057779.9A 2020-08-03 2021-08-02 用于加密受试者的基因数据的方法和系统 Pending CN116114023A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20305891 2020-08-03
EP20305891.2 2020-08-03
PCT/EP2021/071531 WO2022029059A1 (en) 2020-08-03 2021-08-02 Method and system for encrypting genetic data of a subject

Publications (1)

Publication Number Publication Date
CN116114023A true CN116114023A (zh) 2023-05-12

Family

ID=73854799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180057779.9A Pending CN116114023A (zh) 2020-08-03 2021-08-02 用于加密受试者的基因数据的方法和系统

Country Status (9)

Country Link
US (1) US20230317211A1 (zh)
EP (1) EP4189689A1 (zh)
JP (1) JP2023537344A (zh)
KR (1) KR20230127973A (zh)
CN (1) CN116114023A (zh)
AU (1) AU2021322861A1 (zh)
CA (1) CA3190139A1 (zh)
IL (1) IL300101A (zh)
WO (1) WO2022029059A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2709028A1 (en) * 2012-09-14 2014-03-19 Ecole Polytechnique Fédérale de Lausanne (EPFL) Privacy-enhancing technologies for medical tests using genomic data
US9536047B2 (en) * 2012-09-14 2017-01-03 Ecole Polytechnique Federale De Lausanne (Epfl) Privacy-enhancing technologies for medical tests using genomic data
EP3682449A1 (en) * 2017-10-27 2020-07-22 ETH Zurich Encoding and decoding information in synthetic dna with cryptographic keys generated based on polymorphic features of nucleic acids
WO2019191083A1 (en) * 2018-03-26 2019-10-03 Colorado State University Research Foundation Apparatuses, systems and methods for generating and tracking molecular digital signatures to ensure authenticity and integrity of synthetic dna molecules
AU2019318441A1 (en) * 2018-08-10 2021-04-01 Nucleotrace Pty. Ltd. Systems and methods for identifying a products identity

Also Published As

Publication number Publication date
AU2021322861A1 (en) 2023-02-16
EP4189689A1 (en) 2023-06-07
IL300101A (en) 2023-03-01
JP2023537344A (ja) 2023-08-31
US20230317211A1 (en) 2023-10-05
WO2022029059A1 (en) 2022-02-10
CA3190139A1 (en) 2022-02-10
KR20230127973A (ko) 2023-09-01

Similar Documents

Publication Publication Date Title
US9449191B2 (en) Device, system and method for securing and comparing genomic data
Roden et al. Development of a large‐scale de‐identified DNA biobank to enable personalized medicine
US9935765B2 (en) Device, system and method for securing and comparing genomic data
Mittos et al. Systematizing genome privacy research: a privacy-enhancing technologies perspective
US20070271604A1 (en) Secure Transaction of Dna Data
US10713383B2 (en) Methods and systems for anonymizing genome segments and sequences and associated information
CN104769134A (zh) 使用生物签名的信息管理系统和方法
US20030036081A1 (en) Distributed system for epigenetic based prediction of complex phenotypes
CN111723354B (zh) 提供生物数据的方法、加密生物数据的方法以及处理生物数据的方法
JP3357039B2 (ja) 匿名化臨床研究支援方法およびそのシステム
WO2008005309A2 (en) Systems and methods for identifying and tracking individuals
CN112840403A (zh) 用于保存和使用基因组及基因组数据的方法
Decouchant et al. Accurate filtering of privacy-sensitive information in raw genomic data
US20100299531A1 (en) Methods for Processing Genomic Information and Uses Thereof
GB2597424A (en) Methods for enabling secured and personalised genomic sequence analysis
Cassa et al. A novel, privacy-preserving cryptographic approach for sharing sequencing data
WO2002039341A1 (fr) Procede et systeme servant a definir un anonymat, procede et systeme servant a rendre des informations personnelles anonymes et a les transferer
Li Genetic information privacy in the age of data-driven medicine
CN116114023A (zh) 用于加密受试者的基因数据的方法和系统
Sofi et al. Bioinformatics for everyone
US20230124077A1 (en) Methods and systems for anonymizing genome segments and sequences and associated information
Fernandes Reconciling data privacy with sharing in next-generation genomic workflows
WO2020259847A1 (en) A computer implemented method for privacy preserving storage of raw genome data
Hu et al. Biomedical informatics in translational research
CN114902343A (zh) 用于处理基因数据的方法和数据处理设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination