CN110476215A

CN110476215A - 用于多序列文件的签名-散列

Info

Publication number: CN110476215A
Application number: CN201880022918.2A
Authority: CN
Inventors: 约翰·扎卡里·桑伯恩; 斯蒂芬·查尔斯·本茨; 拉胡尔·帕鲁勒卡尔
Original assignee: Nantomics LLC
Current assignee: Nantomics LLC
Priority date: 2017-03-29
Filing date: 2018-03-28
Publication date: 2019-11-19
Also published as: SG11201908893UA; CA3058413A1; EP3602361A1; US20200104285A1; AU2018244373A1; IL269731A; EP3602361A4; JP2020515978A; WO2018183493A1; KR20190126930A; US20180293348A1

Abstract

使用患者组学数据中已知的SNP位置及其各自的等位基因频率的结果构建代表该患者组学数据的唯一散列。在最优选的方面，针对特定因素(例如，种族，性别等)选择这些已知的SNP位置，并且将等位基因部分以非线性标度的值表示。通常，该散列包括与这些已知的SNP位置和非线性标度相关的标头/元数据，并且进一步包括实际的散列字符串。

Description

用于多序列文件的签名-散列

本申请要求2017年3月29日提交的序列号为62/478,531的我们共同未决的美国临时申请的优先权。

技术领域

本发明的领域是用于检测遗传变异的验证系统和方法，尤其是涉及用于全基因组分析的序列数据的快速鉴定和/或匹配。

背景技术

背景描述包括可用于理解本发明的信息。并不承认本文提供的任何信息是现有技术或与当前要求保护的发明相关，也不承认具体地或隐含地引用的任何出版物是现有技术。

本文中的所有出版物和专利申请均通过援引并入，其程度如同每个单独的出版物或专利申请被具体地和单独地指明通过援引并入一样。如果并入的参考文献中的术语的定义或用法与本文提供的该术语的定义不一致或相反，则适用本文提供的该术语的定义，而不适用该术语在该参考文献中的定义。

单核苷酸多态性(SNP)是指在不同个体的基因组中单个DNA碱基对位置处变异或变化的发生。值得注意的是，SNP在人类基因组中相对常见，通常处于约10^-3的频率，并且通常不加区别地位于转录和调节/非编码序列中。由于其相对较高的频率和已知的位置，SNP可用于各种领域，并已在全基因组关联研究、群体遗传学和进化研究中发现了若干种应用。但是，大量信息也带来了各种挑战。

例如，在SNP用于全基因组关联研究是情况下，必须对来自至少两个不同组的许多个体测序整个基因组，以获得标记物或疾病与SNP或SNP模式的统计学相关的关联。在其他方面，在仅分析基因组或所选SNP的一部分的情况下，由于SNP广泛分布在整个基因组中，潜在的关联可能会丢失。在使用SNP的仍其他方法中，可以靶向多态性。然而，在这种情况下，通常需要专用设备(高通量PCR)和/或材料(SNP阵列)。另外，一旦碱基对位置被鉴定为SNP的基因座，这种信息通常仅在特定SNP与一种或多种临床特征相关联时被认为是有用的。因此，对于条件或特征未知的许多SNP被简单地认为是不相干的和被忽视的。

最近在WO 2016/037134中描述了作为样本特异性特质标记物的SNP的未确定性使用(即，不考虑与病症或疾病的任何关联的SNP的用途)。这里，使用具有完全忽略SNP基因座中读数的任何临床或生理后果的碱基读数将多个预定的SNP用作标识符。因此，相对大量的SNP提供了独特的特质标记物群集，其可用于追踪样本的起源。然而，此类系统未能解释SNP的等位基因变异。此外，使用SNP产生标记物谱将不能允许鉴定许多样本和/或样本的样本纯度/污染的关系。

最常见的是，对于多个样本(例如，第一、第二和随后的活组织检查)的组学数据的关系是基于数据文件中的患者标识符以及其他样本相关的信息。遗憾的是，在样本被错误标记或以其他方式改变的情况下，不正确的患者标识符将使得纠正此类错误变得困难(如果不是不可能)。同样地，在一个患者样本被另一个患者样本或较早时间点的样本污染的情况下，目前已知的数据处理通常不允许鉴定这种污染。此外，在仅需要基于序列信息的样本的样本匹配或样本检索的情况下，目前已知的系统和方法将通常需要全序列比较和/或比对。从不同的角度来看，当前已知的用于序列检索、鉴定和/或匹配的系统依赖于计算上无效的比对，或依赖于可能不准确的标头数据。已知的SNP分析未能解决这些问题。

因此，即使用于SNP的各种方面和方法在本领域中是已知的，仍然存在对利用SNP作为信息源的改进的系统和方法的需要。

发明内容

本发明主题涉及用于通过将已知SNP位点的原始读数等位基因频率转换为典型地非线性(例如，动态十六进制)表示来生成组学数据集(典型地针对SAM、Bam或GAR文件)的独特的签名-散列并将如此获得的数据作为散列字符串存储在数据库中的各种装置、系统和方法。当例如匹配或检索特定的组学数据集以及鉴定样本污染或样本起源时，这种数据结构对于提高速度和减少计算资源需求特别有利。

在本发明主题的一个方面，诸位发明人考虑了生成签名-散列的方法，该方法包括在组学数据集中鉴定各个所选位置中的多个SNP(单核苷酸多态性)的步骤，和测定该多个SNP的等位基因频率的另外的步骤。在另一个步骤中，基于等位基因频率给多个SNP分配各自的值，并生成包括多个SNP的值以及与所选位置有关的元数据的输出文件。

最典型但非必要的是，组学数据集包括原始序列读数，并且进一步考虑的是该组学数据集将具有SAM格式、BAM格式或GAR格式。虽然不限于本发明主题，但还考虑的是将基于SNP频率、性别、种族和/或突变型选择所选位置。而且，还考虑的是这些值是基于非线性标度，并且可以被表示为十六进制值。最典型地，将多个SNP的值存储在单个字符串中，并且元数据(例如，与值的标度信息、选择、SNP的位置等有关)可以位于分开的标头中。在进一步考虑的方法中，签名-散列与组学数据集相关联。

因此，并且从不同的角度来看，诸位发明人还考虑了比较多个组学数据集的方法。在这种方法中，获得或生成第一组学数据集的第一签名-散列，并且获得或生成第二组学数据集的第二签名-散列。最典型地，第一和第二签名-散列中的每个将包括对应于第二组学数据集的所选位置中多个SNP的等位基因频率的多个值，并且进一步包括与所选位置有关的元数据。在另一个步骤中，然后比较第一和第二签名-散列的该多个值以确定相关性程度。

优选地，第一和第二组学数据集将处于SAM格式、BAM格式或GAR格式，和/或可以基于SNP频率、性别、种族和/或突变型选择位置。如上所述，值可以基于非线性标度，和/或被表示为十六进制值。最典型地，第一组学数据集包含第一签名-散列，并且第二组学数据包含第二签名-散列。在仍进一步考虑的方面，相关性程度可以基于SNP频率、性别、种族和突变型，并且注意预定的相关性程度可以指示共同起源。

在仍进一步考虑的方面，诸位发明人还考虑了在具有各自的签名-散列的多个组学数据集中鉴定单个组学数据集的方法。在这种方法中，获得或生成与单个组学数据集具有预定的相关性程度的单个签名-散列。最典型地，每个签名-散列包括与组学数据集的所选位置中多个SNP的等位基因频率对应的多个值，并且进一步包括与所选位置有关的元数据。在进一步的步骤中，将单个签名-散列的多个值与多个组学数据集中每个的签名-散列的值比较，并且在又另一个步骤中，基于单个签名-散列的值与多个组学数据集中每个的签名-散列的值之间的相关性程度，鉴定多个组学数据集中的单个组学数据集。

在其他选项中，可以从另外的组学数据集中获得或生成单个签名-散列，并且预定的程度与多个值中的至少90％相同或相似。如果需要，然后可以检索单个组学数据集。最典型地，比较的步骤将使用元数据。

而且，在本发明主题的又另一个方面，诸位发明人还考虑了在组学文件中鉴定源污染的方法。这种方法将优选地包括提供具有各自的签名-散列的多个组学数据集的步骤，其中每个签名-散列包括对应于组学数据集的所选位置中多个SNP的等位基因频率的多个值，并且进一步包括与所选位置有关的元数据。在另外的步骤中，然后在另一个组学数据集中鉴定组学数据集之一的多个值中的至少一些。

最典型地，多个组学数据集中的至少两个将来自相同的患者，并且代表至少两个不同的时间点。另外，考虑了所选择的位置基于SNP频率、性别、种族和突变型中的至少一种，而鉴定步骤包括减去至少两个组学数据集之间的对应值的步骤。在需要时，此类方法可以进一步包括在组学数据集之一中鉴定元数据的步骤。

从以下对优选实施例的详细描述以及附图中，本发明主题的各种目的、特征、方面和优点将变得更加明显，在附图中相同的数字表示相同的组成部分。

附图说明

图1是根据本发明主题，BAM文件的示例性签名-散列。

具体实施方式

诸位发明人发现，用于分析组学数据集(例如，确定样本的起源或污染、样本检索或比较等)的各种以其他方式计算上要求的过程可以按概念上简单且有效的方式进行，其中将多个SNP的等位基因频率用作针对特定样本的“加权”代理标记。有利地，可以将这种信息表示为与组学数据相关联的散列(术语‘签名-散列’和‘散列’在本文中可互换地使用)。从不同的角度来看，应该注意的是，本文考虑的系统和方法不仅利用各种相关序列中的高熵标记物以此来提供静态图片(即，SNP存在或不存在)，但还利用等位基因频率以此允许增加更高级的信息内容(即，SNP存在于特定部分)的加权分析，这也允许鉴定存在于同一数据集中的两种或更多种不同的模式。

实际上，应该认识到，考虑的系统和方法现在允许按独立于患者或样本标识符但基于分析的序列信息的全部的方式鉴定、匹配和/或比较部分基因组组学数据(例如，全外显子组、转录组或选定基因)或甚至全基因组组学数据。因此，代替需要针对两个或更多个序列的全部基于逐个核苷酸进行的全面的序列分析，可以使用与各个组学数据相关联的散列来进行简化(但同样具有信息性)的分析。而且，应该认识到，使用与组学数据相关联的散列，可以进行具有预定义的包含/排除标准的相似性搜索，而无需基于逐个核苷酸对调查中的整个序列进行分析。因此，可以将本文考虑的计算上非常小(通常仅几千字节或甚至更少)的和简单的散列用作针对非常大(通常为几百千兆字节)的和复杂的全基因组数据文件(例如，具有非常大量的单个序列读数的BAM、SAM或GAR文件)的样本特定代理。

例如，在本发明主题的一个典型方面，使用整个(或部分)基因组序列文件中的组学数据构建患者样本的全基因组序列的独特散列。例如，BAM或SAM文件中所有读数的序列信息可用于获得基因组中特定位置的碱基响应和等位基因频率数据。基因组中特别优选的位置是已知为SNP基因座的位置。如将容易理解的，在本文考虑的方法中将使用不止一个已知的SNP位置以产生统计学上独特且显著的结果。在其他选项中，可以在至少10、或至少20、或至少50、或至少100、或至少500、或至少1,000、或至少2,000、或至少3,000(或更多)个已知的SNP位置上记录SNP碱基响应和等位基因频率。

而且，在最优选的方面，针对一种或多种特定的因素(例如，种族、性别、谱系等)选择已知的SNP位置，和/或以非线性标度的值表示等位基因部分以允许提高的分辨率(以降低等位基因计数接近零)和更低的分辨率(一旦接近较高的等位基因计数)。这种加权值系统对于鉴定污染源特别有用，例如，可以在患者B的组学数据中在低等位基因频率下看到来自患者A的主要基因型。仍进一步地，通常优选的是，在通常从等位基因频率界定(例如，通过特殊字符)的签名串中编码实际的SNP位置和细节(例如，位置，相关性等)，这将进一步有利地允许确定两个签名是否是相同的“版本”。存储这样的小字符串有利地允许在关系数据库中快速匹配/比较。

关于适合用于本文使用的组学数据集，通常预期所有的组学数据集被认为是合适的，只要它们包含足够的信息以允许确定SNP位置和相关联的一个或多个碱基响应，并且包含足够的信息以允许确定SNP位置处的等位基因频率。因此，应该理解，适合的组学数据集将包括BAM文件、SAM文件、GAR文件等。可替代地，适合的组学数据集也可以基于VCF文件或先前的序列分析，其提供多个SNP位置和针对SNP位置的等位基因频率。因此，并且从不同的角度来看，考虑的组学数据集将包括多个读数，典型地处于至少10x、或至少20x、或至少50x、或至少100x的覆盖深度，其中该多个读数延伸于受试者的整个基因组的至少10％、更典型地至少20％、甚至更典型地至少50％，并且最典型地至少75％(例如，90％-100％)。此类读数将通常被比对以符合特定文件格式，或可以是未比对的并且稍后被处理以定位SNP位置。从另一个角度来看，应当理解，用于确定SNP的起始材料在大多数情况下不是患者组织，而是来自核酸序列测定(例如来自全基因组测序、外显子组测序、RNA测序等)的已经建立的序列记录(例如，SAM、BAM、GAR、FASTA、FASTQ或VCF文件)。因此，患者样本/起始材料可以由存储根据一种或多种数字格式存储的多个序列的数字文件表示。

在提供原始数据文件的情况下(例如，来自测序仪或测序设备)，应当理解，可以按各种方式处理这些数据以获得从中确定SNP位置和相关联的一个或多个碱基响应和SNP位置处的等位基因频率的组学数据集。因此，可以处理原始序列读数以与参考基因组比对，以此形成SAM或BAM文件，并然后可以使用本领域已知的软件工具分析SAM或BAM文件(例如，如在US 9646134、US 9652587、US 9721062、US 9824181中所述的BAMBAM；或变体响应者，例如MuTect(Nat Biotechnol.[自然-生物技术]2013 Mar；31(3):213-9)、Haplo型响应者和Strelka2(Bioinformatics[生物信息学],第28卷,第14期,2012年7月15日,第1811-1817页))。

关于SNP，考虑了所有已知的SNP被认为适用于本文，并且特别优选的SNP包括常见(而非罕见)的SNP。例如，存在本领域已知的许多公开和/或商业上可获得的SNP数据库，并且所有这些数据库可用于鉴定和/或选择用于实施本文提出的发明构思的SNP。例如，适合的SNP数据库包括dbSNP(NCBI)、dbSNP-多态性库(NIH)、GeneSNPs(公共因特网资源，犹他大学基因组中心团队)、Leelab SNP数据库(UCLA生物信息学中心)、人类基因组中单核苷酸多态性-SNP数据库(Pui-Yan Kwok华盛顿大学圣路易斯分校)、人类SNP数据库(怀特黑德研究所(Whitehead Institute)/麻省理工学院基因组研究中心)等。如以下所述，另外适合的SNP来源包括将一个或多个SNP与病症或疾病相关联(例如，疾病或性状关联研究)的所有公开材料，以及相同患者的先前测序数据(例如，以鉴定新出现的SNP)。

然而，通常优选根据可能与组学数据集的表征和/或历史有关的一个或多个另外的标准选择SNP，并且特别考虑的标准包括SNP频率、性别、种族和突变型。例如，SNP通常是优选的，其中SNP相对常见(例如，SNP在至少10％、或至少20％、或至少30％、或至少50％、或至少70％的群体中发生)或其中SNP与男性或女性性别相关联。同样地，通常优选SNP也可以特异于种族群体(例如，对AMR、FIN、EAS、SAS、AFR等特异)。在其他方面，SNP还可以与特定类型的突变(例如，UV暴露、烟雾相关联的损伤)相关联。而且，还可以基于与SNP相关联的具体性状或病症或疾病来选择SNP。当然，应该认识到，散列中的SNP也可以基于如上所讨论的多个不同的参数。在仍进一步和更少考虑的方面，SNP还可以代表单个样本的新表位(即，表示导致无义或错义突变的碱基变化)，并因此可以用于快速鉴定或检索来自相同患者或肿瘤的组学数据。在这种情况下，这种散列可用于鉴定克隆组成和/或突变模式中的转变。

最典型地，考虑的散列将包括至少10、或至少30、或至少50、或至少100、或至少200、或至少500、或至少1,000(和甚至更多个)个SNP的值，这些值可以在整个基因组中均匀或随机分布，或可以具有预定的选定位置。可替代地，SNP也可以限于特定基因、染色体和/或外显子组、转录组或其他亚基因组区域。然而，通常优选在整个基因组中对SNP进行取样。

关于SNP的等位基因频率测定，应当理解，所有测定方式都被认为适合于在本文中使用。例如，SNP等位基因频率可以基于如上所述的多个BAM文件的同步增量比对来确定，或通过分析SNP的已知位置从单个BAM文件确定。最典型(但不一定)，等位基因频率将被表示为百分比值或百分比范围。因此，应该认识到，分配给经测定的等位基因频率的值也可以显著变化，并且所有数值和符号值都被认为适用于本文。然而，在特别优选的方面，值将基于等位基因频率范围，并然后可以为每个范围分配具体的数字值或符号值。可以按线性标度或非线性标度记录等位基因频率值，并且通常优选等位基因频率值将在具有在较低等位基因频率下较高分辨率的非线性标度上表示。

例如，当值范围以十六进制系统表示时，0-1％的等位基因频率范围可以被表示为‘1’；1％-3％的等位基因频率范围可以被表示为‘2’；3％-5％的等位基因频率范围可以被表示为‘3’；5％-10％的等位基因频率范围可以被表示为‘4’，这将有利地允许构建非线性标度(即，更多的值总数用于更小范围的等位基因频率，例如针对0和15％之间的等位基因频率范围使用十个值，和针对16％和100％之间的等位基因频率范围使用六个值)，这反过来将提高所需等位基因频率范围的下游分析能力的分辨率。因此，应当理解，等位基因频率的值表示不仅允许区分两个不同的样本，即使在调查相同数量的SNP的情况下，也允许生成等位基因频率的动态范围(即，如上所讨论的值的不对称分布)。而且，应当注意，不同的SNP可以具有等位基因频率的不同值表示，使得一些SNP的等位基因频率可以按线性标度表示，而其他SNP可以按非线性标度表示。

另外，所考虑的散列通常还将包括与值字符串相关联的元数据，其中该元数据将优选地包括关于所选SNP的类型、所选SNP的数量和标度信息的信息(例如，如何将值分配给具体的数字值或符号值，无论标度是线性还是非线性等)。这种信息可以被进一步编码，或作为参考信息被提供给包含这种信息的另一个文件。

图1描绘了全基因组序列BAM文件的示例性散列100，其包括标头部分102，在标头部分102之后是SNP的值104。更具体地，标头102包括文件的位置参考/文件名110，该文件包含关于SNP的位置的信息，接着是针对所有SNP的所选SNP组的特定指标。在此，如图1所示，示例性组120表示在整个常染色体基因组中选择了2048个SNP，而示例性组122EAS(东亚)表示种族特异性SNP的数量，以及其他种族组(例如AMR、FIN、SAS等)，并且性别特异性组124限于X染色体上的SNP。如从标度信息130还可以看出，等位基因频率被表示为具有按非线性标度的各自的十六进制值的范围。当然，应当理解，散列和标头可以根据SNP的类型和数量以及标度信息和其他因素而显著变化。例如，散列可以进一步包括另外的信息，例如患者标识符、患者/治疗历史、对相关组学数据和/或文件的引用、对存储多个组学和/或散列文件数据库中的其他记录的同一性和/或相似性分数等。

应当理解，考虑的散列方法完全独立于SNP与任何疾病或障碍相关联的知识，并且散列仅建立在SNP处的特定碱基响应的存在和等位基因频率上。因此，如本文使用的SNP也与功能的获得或丧失无关。虽然这种使用有利地允许快速鉴定、处理、比较和分析，但考虑的方法不需要限于已知的和常见的SNP。实际上，使用考虑的系统和方法，应该认识到，在治疗过程中可以跟踪肿瘤和患者特异性突变，并且记录位置和等位基因频率以鉴定肿瘤细胞群或转移的克隆漂移、外观或清除，该肿瘤细胞群或转移的特征在于特定的SNP模式和等位基因频率。从不同的角度来看，肿瘤和患者特异性突变可以被作为以上所述的SNP进行处理。

如将容易理解的，可以通过首先比较肿瘤相比于正常基因组序列来鉴定肿瘤和患者特异性突变，以此获得患者和肿瘤特异性突变(肿瘤SNP)。对肿瘤或转移的任何后续测序将产生第二组学数据集，然后可以将其与早先获得的肿瘤和/或正常基因组序列进行比较，以此产生继发性肿瘤/转移SNP信息。应当注意，在此类方法中使用等位基因频率有利地允许追踪对肿瘤的亚群/亚克隆是真实的SNP。

而且，应该认识到，考虑的散列方法可以应用于SNP之外的已知突变，或甚至一种或多种已知癌症相关基因(即，在被诊断为患有相同癌症的患者群体的癌症中发生突变或异常表达的基因)的(功能障碍)功能。例如，在本发明主题的又另一个方面，诸位发明人还考虑了可以从组学记录创建的体细胞签名-散列，该组学记录描述/总结了针对一个或多个癌基因的体细胞改变。例如，将一个考虑的示例性编码方案显示在

表1中：

表1

在此上下文中，并且类似于以上讨论，应当理解，编码方案不必限于十六进制计数法，并且所有其他计数法也被认为适合于本文使用。而且，如果适用并且如上所述，可以使用第二数字来编码突变的等位基因频率。编码可以在全基因组内进行(例如，覆盖基因组的至少60％、或至少75％、或至少90％或全部)，或可以仅覆盖外显子组，和/或可以覆盖转录组。而且，应当理解，可以仅在所选基因上进行编码，例如，在已知的癌症驱动基因，已知来自对相同患者的先前分析中的突变的基因等。在其他情形中，典型的编码因此可以参考基因及其相关的突变状态。状态通常将基于VCF水平结果和/或其他变体过滤器(variantfilter)，但也可包括定制参数，甚至可能进一步参考一个或多个患者特定参数(例如，先前的治疗结果，预期的治疗等)。因此，示例性结果可以被表示为基因名称和相关联的编码：ATM＝8、CDKN2A＝0、KRAS＝4...PIK3CA＝4、ERBB2＝2、TP53＝5->签名＝“804...425”。

应该特别理解的是，例如具有500个癌症基因的组的经考虑的体细胞签名将产生仅500字节的文件。同样，整个转录组可以被编码为大约25kb。如应该容易地认识到，这样的编码将使得能够在存储器内保留甚至非常大量的样本用于一个或多个下游的分析。仍进一步地，应该注意的是，考虑的体细胞签名可以基于相似的改变模式在计算上对类似的癌症进行分组，并且因此快速地允许从大样本数据库中鉴定潜在的“像我这样的患者(patientslike me)”，该大样本数据库然后可以使用完整的VCF数据集和/或患者EMR记录引发进一步的分析，与患者结果相结合，使用来自体细胞签名的特征进行“即时运行(on-the-fly)”的结果分析等。

因此，应当理解，本文呈现的散列格式在以下情况下特别有用：非常大的数据集需要进行比较、通过同一性或相似性程度进行鉴定，或针对污染或克隆部分进行分析。实际上，并非分析这些大文件的全部内容，所述大文件将占据用于处理的大量存储器，而考虑的方法出于此目的使用散列信息。而且，通过确定颗粒度(例如，SNP，或患者和肿瘤特异性突变，或已知基因的结构或表达的变化)，可以通过仅处理散列中提供的信息按高效方式来分析多个组学文件。实际上，使用散列信息允许鉴定样本污染(例如，在已经使用相同设备处理两个样本的情况下)。在这种情况下，可以在多数等位基因模式中观察到特定等位基因模式的低频率。实际上，在使用散列信息索引组学文件的情况下，可以仅通过使用散列信息从大数据库中检索单个序列文件(例如，基于所期望的同一性或相似性)。有利地，这种检索和鉴定将独立于患者标识符操作。因此，并且从不同的角度来看，可以将散列信息用作高熵代理，用于通过简单比较或计算来自如在散列中表达的SNP的值信息来比较多个组学数据集。同样地，考虑的方法还包括以下方法，这些方法用于通过将查询散列值信息与来自如在多个组学数据集的散列中表达的SNP的值信息进行比较，来鉴定具有各自的散列的多个组学数据集中的单个组学数据集。

由于等位基因频率的值产生，还应当理解，还可以在另一个散列中检测一个散列的模式，典型地通过在另一个组学数据集中鉴定组学数据集之一的多个值中的至少一些。因此，应该认识到，可以针对同一性或相似性(例如，差异不大于预定值)来比较散列值，并且散列值可以相互相减以此获得相似性得分。当然，应当理解，除了散列值相减之外的许多其他操作(包括合并到值的范围、相加、按升序或降序排序等)也被认为适合于在本文中使用。而且，由于可以针对特定指标(例如，种族、性别、疾病类型等)选择包括在散列中的SNP，所以散列也可以用于通过具体指标对组学数据进行分组。同样地，由于特定SNP或其他点突变也遵循特定模式(例如，吸烟有关的突变、UV辐射相关联的突变、DNA修复缺陷模式等)，所以散列也可被用于通过特定模式对组学数据进行分组。

最典型地，考虑的系统和方法将在一个或多个计算机上执行，将该一个或多个计算机与一个或多个组学数据库信息地偶联，该一个或多个组学数据库存储或可访问如上所述的组学数据。然后对散列生成器模块进行编程以生成组学数据集的散列，并且可以将该散列附加到组学数据集中或单独存储。然后将执行模块编程以根据特定任务使用一个或多个散列(例如，使用特定散列来检索基于序列的散列的组学数据记录，或使用特定散列来鉴定基于各自的散列的多个组学数据记录)。

应当注意，应该读取针对计算机的任何语言，以包括任何合适的计算装置的组合，这些计算装置包括服务器、接口、系统、数据库、代理、端、引擎、控制器或单独或共同操作的其他类型的计算装置。应当理解，计算装置包括处理器，该处理器被配置为执行存储在有形的非暂时性计算机可读存储介质(例如，硬盘驱动器、固态驱动器、RAM、闪存、ROM等)上的软件指令。软件指令优选地配置计算装置，以提供如下文关于所披露的设备所讨论的角色、职责或其他功能。在特别优选的实施例中，各种服务器、系统、数据库或接口交换数据使用标准化协议或算法，可能地基于HTTP、HTTPS、AES、公钥-私钥交换、web服务API、已知的金融交易协议、或其他电子信息交换方法。优选地，数据交换通过包交换网络、因特网、LAN、WAN、VPN或其他类型的包交换网络进行。

实例

在肿瘤匹配的正常序列分析期间，通过独立测定发现肿瘤样本(T1)与来自相同患者的正常对应物(N1)不匹配。存在与N1平行制备的其他两个正常样本(N2，N3)。使用如上所述的散列签名(还参见图1)，测定所有6个配对的％相似性、性别、和种族(如以下表2所示)。对于通过两个样本测序的n个基因座，根据等式1计算给定样本对(i，j)之间的％相似性。在该实例中，基于大多数的群体特异性基因座(在其散列-签名中AF>20％属于NFE或FIN群体)，所有样本被推断为欧洲人(＝NFE(非芬兰欧洲人)+FIN(芬兰欧洲人))。此外，基于显示少于90％的X特异性基因座在其散列-签名中具有杂合AF(即，25％<AF<75％)，所有样本被分类为女性。所有不匹配的样本(包括原始的不匹配的对(T1-N1))显示出低于73％的相似性百分比。一个配对(T1-N2)的％相似性计算为远高于这些不匹配的样本(94.9％)，因此发现肿瘤T1的真实的配对的-正常的样本。

等式1：

表2：从散列签名的相似性中发现真实的样本配对。

为扩展以上实例，我们搜索了临床样本(N＝173)的更大的数据库，以搜索单个目标样本(A，基于其散列-签名，推断为亚洲(＝EAS+SAS)男性)的匹配。为加快搜索，我们首先将查询样本集限制为也属于亚洲群体的男性样本(两种样本先前都是从他们的散列-签名中推断出)，这样可以将查询样本的数量从173减少到3(减少>98％)。应当理解，查询样本的这种大的减少可以使得样本搜索能够实时发生。在该查询集中，我们然后计算了目标样本和3个查询样本之间的％相似性得分。将结果汇总在以下表3中，其显示匹配的查询样本与目标样本具有％相似性＝92.8％，远高于剩余的2个样本。

表3：在“亚洲男性”-推断的散列签名中样本配对的发现

如在此的说明书和贯穿随后的整个权利要求书中所使用，“一个”、“一种”以及“该”的含义包括复数参照物，除非上下文清楚地另外指明。而且，如在此的说明书中所使用，“在…中”的含义包括“在…中”和“在…上”，除非上下文清楚地另外指明。如本文中使用的，并且除非上下文另有指示，否则术语“偶联至”旨在包括直接偶联(其中两个彼此偶联的要素彼此接触)和间接偶联(其中至少一个另外的要素位于两个要素之间)。因此，术语“偶联至”和“与······偶联”同义使用。

本文中对值的范围的描述仅旨在用作单独提及落入该范围内的每个单独值的简写方法。除非在本文中另有说明，将每个单独的值并入说明书中，如同其在本文中单独引用一样。在本文描述的所有方法能够以任何适合顺序进行，除非本文另外说明或另外与上下文明显矛盾。关于本文某些实施例而提供的任何和所有实例或示例性语言(如“例如”)的应用仅旨在更好地说明本发明，而不对另外要求保护的本发明范围做出限制。说明书中的语言不应当被解释为指示任何未要求保护的要素为实践本发明所必需的。

对于本领域技术人员显而易见的是，在不脱离本文的发明构思的情况下，除了已经描述的那些之外的更多修改是可能的。因此，除了在所附权利要求的范围中之外，本发明的主题不受限制。此外，在解释说明书和权利要求书时，所有术语应以与上下文一致的尽可能广泛的方式解释。特别地，术语“包括”和“包含”应该被解释为以非排他性的方式指代要素、部件或步骤，从而指示所提及的要素、部件或步骤可以与未明确提及的其他要素、部件或步骤一起存在、或使用、或组合。当说明书权利要求涉及选自由A、B、C……和N组成的组中的至少一种时，该文字应解释为只需要该组中的一个要素，而不是A加N、或B加N等。

权利要求书(按照条约第19条的修改)

1.一种为组学数据集生成散列的方法，该方法包括：

在组学数据集中鉴定各个所选位置中的多个单核苷酸多态性(SNP)；

测定该多个SNP的等位基因频率，并基于这些等位基因频率给该多个SNP分配各自的值；并且

生成具有签名-散列的输出文件，该输出文件包括该多个SNP的值，并且进一步包括与这些所选位置有关的元数据。

2.如权利要求1所述的方法，其中该组学数据集包括原始序列读数。

3.如前述权利要求中任一项所述的方法，其中该组学数据集具有以下格式，该格式选自SAM格式、BAM格式和GAR格式的组。

4.如前述权利要求中任一项所述的方法，其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。

5.如前述权利要求中任一项所述的方法，其中这些值基于非线性标度。

6.如前述权利要求中任一项所述的方法，其中这些值表示为十六进制值。

7.如前述权利要求中任一项所述的方法，其中该多个SNP的值在单个字符串中。

8.如前述权利要求中任一项所述的方法，其中该元数据位于单独的标头中。

9.如前述权利要求中任一项所述的方法，其中该元数据包括针对这些值的标度信息。

10.如前述权利要求中任一项所述的方法，该方法进一步包括将该签名-散列与该组学数据集相关联的步骤。

11.如权利要求1所述的方法，其中该组学数据集具有以下格式，该格式选自SAM格式、BAM格式和GAR格式的组。

12.如权利要求1所述的方法，其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。

13.如权利要求1所述的方法，其中这些值基于非线性标度。

14.如权利要求1所述的方法，其中这些值表示为十六进制值。

15.如权利要求1所述的方法，其中该多个SNP的值在单个字符串中。

16.如权利要求1所述的方法，其中该元数据位于单独的标头中。

17.如权利要求1所述的方法，其中该元数据包括针对这些值的标度信息。

18.如权利要求1所述的方法，该方法进一步包括将该签名-散列与该组学数据集相关联的步骤。

19.一种比较多个组学数据集的方法，该方法包括：

获得或生成第一组学数据集的第一签名-散列，并且获得或生成第二组学数据集的第二签名-散列；

其中该第一和第二签名-散列中的每个包括与该第二组学数据集的所选位置中多个SNP的等位基因频率对应的多个值，并且进一步包括与这些所选位置有关的元数据；并且

比较该第一和第二签名-散列的该多个值以确定相关性程度。

20.如权利要求19所述的方法，其中该第一和第二组学数据集具有以下格式，该格式选自SAM格式、BAM格式和GAR格式的组。

21.如权利要求19-20中任一项所述的方法，其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。

22.如权利要求19-21中任一项所述的方法，其中这些值基于非线性标度。

23.如权利要求19-22中任一项所述的方法，其中这些值表示为十六进制值。

24.如权利要求19-23中任一项所述的方法，其中该第一组学数据集包含该第一签名-散列，并且其中该第二组学数据包含该第二签名-散列。

25.如权利要求19-24中任一项所述的方法，其中该相关性程度基于SNP频率、性别、种族、和突变型。

26.如权利要求19-25中任一项所述的方法，其中预定的相关性程度表示共同起源。

27.如权利要求19所述的方法，其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。

28.如权利要求19所述的方法，其中这些值基于非线性标度。

29.如权利要求19所述的方法，其中这些值表示为十六进制值。

30.如权利要求19所述的方法，其中该第一组学数据集包含该第一签名-散列，并且其中该第二组学数据包含该第二签名-散列。

31.如权利要求19所述的方法，其中该相关性程度基于SNP频率、性别、种族、和突变型。

32.如权利要求19所述的方法，其中预定的相关性程度表示共同起源。

33.一种在具有各自的散列的多个组学数据集中鉴定单个组学数据集的方法，该方法包括：

获得或生成与该单个组学数据集具有预定的相关性程度的单个散列；

其中这些散列中的每个包括与组学数据集的所选位置中多个SNP的等位基因频率对应的多个值，并进一步包括与这些所选位置有关的元数据；

将该单个散列的该多个值与该多个组学数据集中每个的散列的值进行比较；并且

基于该单个散列的值与该多个组学数据集中每个的散列的值之间的相关性程度，鉴定该多个组学数据集中的该单个组学数据集。

34.如权利要求33所述的方法，其中从另外的组学数据集中获得或生成该单个散列。

35.如权利要求33-34中任一项所述的方法，其中该预定的程度是该多个值的至少90％的同一性。

36.如权利要求33-35中任一项所述的方法，其中该预定的程度是该多个值的至少90％的相似性。

37.如权利要求33-36中任一项所述的方法，其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。

38.如权利要求33-37中任一项所述的方法，该方法进一步包括检索该单个组学数据集的步骤。

39.如权利要求33-38中任一项所述的方法，其中该比较步骤使用该元数据。

40.如权利要求33所述的方法，其中该预定的程度是该多个值的至少90％的同一性。

41.如权利要求33所述的方法，其中该预定的程度是该多个值的至少90％的相似性。

42.如权利要求33所述的方法，其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。

43.如权利要求33所述的方法，该方法进一步包括检索该单个组学数据集的步骤。

44.如权利要求33所述的方法，其中该比较步骤使用该元数据。

45.一种鉴定组学文件中源污染的方法，该方法包括：

提供具有各自的签名-散列的多个组学数据集；

其中这些签名-散列中的每个包括与组学数据集的所选位置中多个SNP的等位基因频率对应的多个值，并进一步包括与这些所选位置有关的元数据；

在另一个组学数据集中鉴定这些组学数据集之一的该多个值中的至少一些值。

46.如权利要求45所述的方法，其中该多个组学数据集中至少两个是来自相同的患者，并且代表至少两个不同的时间点。

47.如权利要求45-46中任一项所述的方法，其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。

48.如权利要求45-47中任一项所述的方法，其中该鉴定步骤包括至少两个组学数据集之间的对应值相减的步骤。

49.如权利要求45-48中任一项所述的方法，该方法进一步包括鉴定这些组学数据集之一中的元数据的步骤。

50.如权利要求45所述的方法，其中针对SNP频率、性别、种族和突变型中的至少一种选择这些所选位置。

51.如权利要求45所述的方法，其中该鉴定步骤包括至少两个组学数据集之间的对应值相减的步骤。

52.如权利要求45所述的方法，该方法进一步包括鉴定这些组学数据集之一中的元数据的步骤。

Claims