CN107735787A

CN107735787A - 用于种源测定的系统和方法

Info

Publication number: CN107735787A
Application number: CN201580060142.XA
Authority: CN
Inventors: S·拉比扎德; P·颂雄; J·Z·桑伯恩; C·J·瓦斯克; S·C·本茨
Original assignee: Nantomics LLC
Current assignee: Nantomics LLC
Priority date: 2014-09-05
Filing date: 2015-09-04
Publication date: 2018-02-23
Also published as: EP3189457A1; EP3189457A4; AU2015311677A1; CA2963785A1; JP2017532699A; KR20170126846A; WO2016037134A1; US20160070855A1

Abstract

本发明考虑了用于基因组分析的系统和方法，其中使用特异质标志物或标志物组群来表征并比较基因组序列。在特别优选的方面中，所述的特异质标志物为预定的SNP，并且在样品记录中使用标志物图谱，从而可以参照其他序列的其他标志物图谱。

Description

用于种源测定的系统和方法

本申请要求2014年9月5日提交的系列号为No.62/046737的美国临时申请的优先权。

技术领域

本发明的领域为基因组数据的计算机分析，特别是本发明涉及单核苷酸多态性(SNP)指纹的多个方面和用途。

背景技术

背景描述包括可以用于理解本发明的信息。并非承认本发明提供的任何信息是现有技术或者与本要求专利权的发明有关，或者并非承认特意或明确参照的任何公开文献是现有技术。

单核苷酸多态性是指在不同个体的基因组中，在单一的DNA碱基对位置处发生的变体或变化。值得注意的是，SNP在人类中是相对普通的，并且频率为大约1:1000，而且任意地位于转录和/或调节/非编码序列中。由于SNP的相对高的频率和已知的位置，所以SNP可以用于多种领域中，并且发现在全基因组关联分析、种群遗传和进化研究中有多种应用。但是，大量的信息也导致多种挑战。

例如在SNP用于全基因组关联分析的情况下，必须对得自至少2个不同组的许多个体的完整基因组进行测序，从而得到具有SNP或SNP图案的标志物或疾病的统计学相关性。相反地，在仅分析基因组的一部分或所选的SNP的情况下，由于SNP广泛地分布于整个完整的基因组中，所以潜在的相关性可能丧失。此外，患者组织的靶向SNP分析通常需要专用设备(高通量PCR)或材料(SNP阵列)。此外，一旦碱基对的位置被识别为SNP的基因座，则仅在特定的SNP与一种或多种临床特征有关的情况下，此类信息通常被视为有用的。因此，其状况或特征未知的许多SNP都简单地认为是不相关的并且不予考虑。

因此，即使对于SNP已知多个方面和方法，但是仍需要借助SNP作为信息来源的改良的系统和方法。

发明概述

本发明的主题涉及用于基因组分析的多种构造、系统和方法，其中特异质标志物或标志物组群用于证明或排除相合性(congruence)，和/或确定生物学样品相对于其他遗传样品的起源。最优选的是，特异质标志物为SNP，并且大量预定的SNP用于作为样品特异性的识别器，其中使用它们的碱基读值，而完全不用考虑在该基因座处读值的任何临床或生理学结果。

备选地，多种其他的特异质标志物也被视为是合适的，并且包括一定长度/数量的多种基因组重复序列(例如SINE序列,LINE序列,Alu重复序列)、病毒和非病毒元件的LTR、一定拷贝数的多种所选基因、以及甚至转座子序列。类似地，特异质标志物还可以包括计算机测定的多组RFLP，其是通过基因组的预选区域上某些识别位点(例如4碱基识别序列、6碱基识别序列、6碱基识别序列等)之间预选的几组核酸片段(stretch)而定义的。

因此，在本发明的主题的一个方面中，本发明人考虑了分析哺乳动物靶组织的基因组序列的系统和方法。在特别优选的系统和方法中，分析仪与序列数据库偶联，其中所述的序列数据库储存哺乳动物靶组织的基因组序列。然后，分析仪对靶组织基因组序列中大量的预定的特异质标志物进行表征，并使用以数字形式储存的表征的特异质标志物生成特异质标志物图谱。在另一个步骤中，分析仪随后使用特异质标志物图谱生成或更新靶组织的第一样品记录。然后，通过分析仪将如此建立的第一样品记录的特异质标志物与第二样品记录的第二特异质标志物图谱比较，由此生成匹配得分，其优选地用于注释第一样品记录。

尽管不限于本发明的主题，但是优选的预定的特异质标志物包括SNP、后天修饰、重复序列的重复数量、和/或预定的限制性核酸内切酶位点对之间的碱基的数量。最通常的是，使用超过一种的预定的特异质标志物，其数量通常足以生成具有统计学意义的结果。因此，合适数量的预定的特异质标志物为100至10,000。

在许多情况下，基于特异质标志物在基因组序列中的已知的位置来预定预定的特异质标志物(例如SNP)，和/或进行随机选择。应该注意的是预定的特异质标志物的选择通常是不知道或不了解与标志物有关的疾病或状况。因此，并且由不同的方面来看，至少一些预定的特异质标志物可以与不同的和不相关的疾病或状况有关。此外，并且与SNP或其他特异质标志物的典型用途相反，所述的标志和/或图谱不包括通常与特异质标志物有关的疾病或状况的识别或可能性。根据特异质标志物的本性，应该理解的是特异质标志物图谱可以包括或不包括用于表征的特异质标志物的核苷酸碱基信息，并且可以以多种数字形式(例如特异质标志物、标志物图谱或以VCF形式记录的样品)储存、处理和/或呈现。

尽管样品记录还可以具有多种形式，但是其通常优选的是样品记录包括基因组序列，和/或匹配得分包括一致性百分值(identity percentage value)。例如匹配得分可以包括与得自相同哺乳动物的之前的样品的匹配值，与特异质标志物图谱(其为人种组的特征)的匹配值，与特异质标志物图谱(其为年龄组的特征)的匹配值，和/或与特异质标志物图谱(其为疾病的特征)的匹配值。

用于哺乳动物靶组织的合适的基因组序列可以覆盖哺乳动物的至少一条染色体，并且更通常地覆盖哺乳动物的基因组或外显子组的至少70％。此外，在哺乳动物的靶组织为生病组织的情况下，第二样品记录可以得自哺乳动物的第二样品(例如得自哺乳动物的非生病的组织，或者之前检验的相同的组织)。

因此，本发明人还考虑了在序列数据库中选择基因组序列的方法。尤其考虑的方法包括将分析仪与序列数据库偶联的步骤，其中所述的序列数据库储存了个体的第一基因组序列和相关的第一特异质标志物图谱。最通常的是，第一特异质标志物图谱是基于个体的第一基因组序列中大量的预定的特异质标志物的特征。在另一个步骤中，分析仪则选择具有相同的第二特异质标志物图谱的第二基因组序列(例如得自第二个体，由相同的或其他的序列数据库检索的)，其中选择步骤使用了第一和第二特异质标志物图谱，以及第一特异质标志物图谱与第二特异质标志物图谱之间的所需的匹配得分。

如之前所注释的那样，尽管大量备选的特异质标志物被视为是合适的，但是优选的预定的特异质标志物包括SNP、后天修饰、重复序列的重复数量、和预定的限制性核酸内切酶位点对之间的碱基的数量，并且合适的分析使用了相对大的数量(例如100至10,000)。特异质标志物图谱的确切形式不限于本发明的主题，但是优选的是可以对大量其他的图谱进行快速处理的形式(例如位串形式，和/或基于异或测定(exclusive disjunctiondetermination)的处理)。所需的匹配得分优选的是用户定义的临界得分，其反映了第一基因组序列与第二基因组序列之间的差异，但是还可以基于多种其他的因素而预定(例如序列分析的类型)。

由另一个方面来看，应该理解的是本发明人考虑了特异质标志物谱图在将第一基因组序列与第二基因组序列相匹配的方法中的用途。在该用途中，特异质标志物图谱被建立(或者之前已经建立)用于第一和第二基因组序列，其中特异质标志物图谱是使用大量的表征的特异质标志物创建的，其中所述的表征的特异质标志物是不知道或不了解与特异质标志物有关的疾病或状况。如之前所述，合适的特异质标志物通常包括SNP、后天修饰、重复序列的重复数量、和/或预定的限制性核酸内切酶位点对之间的碱基的数量(相对大的数量)(例如100至10,000SNP)。应该理解的是，在此类用途中，无需关于相关的状况或疾病的信息内容。因此，特异质标志物可以基于基因组序列内该标志物的已知的位置而预定，并且可以包括或不包括表征的特异质标志物的核苷酸碱基信息。此外，并且类似于上述教导，在所考虑的用途中基因组序列的匹配可以基于第一基因组序列与第二基因组序列的特异质标志物之间的、所需的或预定的一致性百分值。

在本发明的主题的另一个所考虑的方面中，本发明人考虑了分析基因组信息以确定个体性别的方法。此类方法优选地包括将分析仪与储存个体基因组序列的序列数据库偶联的步骤。在另一个步骤中，分析仪测定位于至少一个X染色体上的一个或多个等位基因的接合性，由此生成该等位基因的接合性图谱，并且分析仪随后使用该等位基因的接合性图谱来导出性别测定。在需要时，则可以利用性别测定来注释基因组信息。例如可以针对Y染色体上至少一个其他的等位基因来额外测定接合性，和/或接合性的测定步骤可以包括性染色体的非整倍体的测定。

通过下文中对优选实施方案的详细描述，以及附图，本发明的主题的多个目的、特征、方面和益处将更明显，其中附图中，相同的数字代表相同的成分。

附图简述

图1A为示例性图，其描绘了作为相似性的函数的累积样品份数。

图1B为示例性图，其描述了作为相似性的函数的累积样品数量。

图2为根据本发明的主题的序列分析系统的示例性图。

发明详述

本发明人发现可以利用基因组的特征来分析基因组序列信息，而无需任何顾及它们在基因组中的作用或功能，并且由于它们在基因组中存在的特异质，使得这些特征是特别合适的。利用这种特异质特征将有利地进行快速可靠的匹配和/或分类，和/或样品种源或相关程度的测定。

例如由于SNP在整个基因组中以相对高的频率呈大致统计学的/随机的分布，所以SNP可以作为特异质特征的特别优选的实例。因此，并且由不同的方面来看，可以选择SNP的子集而用作完整基因组的统计学信标，其数量可以适用于所需的统计学功效。最优选的，并且在本文提供的本发明的主题的内容中，所选的SNP分布于整个完整的基因组中，但是仅代表完整基因组的一小部分。例如基因组分析可以基于已知SNP的极为有限的子集，例如所有已知的SNP的10％至1％，或者1％至0.1％，或者0.1％至0.01％，或者甚至更低。因此，所使用的SNP的数量可以为10-100,100至500,500至5,000,或者5,000至10,000。但是，应该意识到在其他的情况下，SNP可以仅位于一个或多个所选的染色体上，或者甚至位于一个或多个染色体上，并且特定的分析需要和使用将决定SNP数量和位置的适当的选择。

由于SNP被预选，并且与任何相关的病理学和/或生理学特征无关，所以可以以任何适用于特定目的的方式选择/排布SNP的组群。此外，并且如下文进一步说明的那样，可以以标志物图谱的方式排布SNP特征，以数字文件的形式储存，例如所述的数字文件随后可以用于形成适用于与其他记录进行快速比较的统一的记录。此外，所考虑的标志物谱图或记录可以用作检索特征、用于数据文件组织的参数、或者甚至用作个人识别器。因此，应该理解的是所述的分析通常不是为了诊断目的而实施的，反而可以在相同患者的两个或多个样品上实施(例如得自生病的组织和匹配的正常的组织)，从而弄清两个序列记录(例如得自生病的组织和正常的组织)事实上适当地匹配(即，得自相同的患者)。此外，同样如下文说明的那样，所考虑的标志物谱图或记录可以与特定的种族、谱系等，由此向基因组序列信息提供其他的元信息。

当然，应该理解的是尽管SNP是优选的特异质标志物，但是大量备选的或其他的特异质标志物也被视为适用于本发明所述的用途，只要此类标志物代表了患者基因组的独特特征即可。例如考虑了一定长度和/或数量的多种重复序列可以用作特异质标志物。在其他的序列中，分散重复序列被认为是合适的，这是因为这些序列将提供在整个基因组中的基本随机的分布，而且提供长度的高度可变性。例如可以使用SINE序列长度和/或SINE序列间距。类似地，LINE序列长度和/或LINE序列间距可以适于用作特异质标志物。类似地，病毒和非病毒元件的LTR序列的位置和长度、多种所选基因的拷贝数、以及甚至转座子序列都可以用于提供患者/样品特异性的代理量度，该量度可以以不依赖于它们的遗传和/或生理学功能的方式使用。

在其他所考虑的方面中，特异质标志物还可以包括计算机测定的多组RFLP，其是通过基因组的预选区域上或者甚至完整基因组上一种或多种限制性核酸内切酶的某些识别位点(例如4-、6-或8-碱基识别序列等)之间预选的几组核酸片段而定义的。因此，“静态”代理量度通常是优选的。但是，在本发明的主题的其他所考虑的方面中，还考虑了“动态”代理量度，并且其特别包括后天修饰(例如CpG岛甲基化)。此外，尽管通常优选的是特异质标志物是相同类型的，但是应该理解的是不同类型的特异质标志物的多种组合尽管限定了标志物的整体数量，但是对于增加统计学功效而言是特别有利的。

结果，特异质标志物的本性至少部分指示了标志物的信息内容。例如在特异质标志物为SNP的情况下，信息内容通常包括基因组中的特定位置、以及序时碱基响应。另一方面，在特异质标志物为重复序列的情况下，信息内容通常包括序列的类型、以及重复的数量。类似地，在特异质标志物为RFLP(限制性片段长度多态性)的情况下，信息内容通常包括序列的位置、以及片段的计算尺寸。由另一个方面来看，因此应该理解的是用于特异质标志物测定的起始材料并非患者组织，而是得自核酸序列测定的已经建立的序列记录(例如SAM,BAM,FASTA,FASTQ或VCF文件)，例如整个基因组测序、外显子组测序、RNA测序等。因此，起始材料可以通过数字文件来表示，其中所述的数字文件储存了根据一种或多种数字形式储存的基线序列。例如基线序列可以包括以FASTA形式储存的种群的完整基因组参照序列。

例如为了证明使用特异质标志物图谱以确保患者肿瘤样品序列记录可以与相同患者的正常组织的相应的样品序列记录精确地匹配的概念，本发明人随机选择先验的超过1000SNP，并且使用标准的方法对所有样品进行完整序列基因组测序。所有序列记录均为BAM形式，并且针对超过1000SNP位置的每一个来表征SNP。下表1指出示例性样品和它们各自的来源。

表1

使用上述样品和标准的测序方法，如下表2概括的那样，使用以下匹配计划(BL：血液衍生的匹配的正常组织；LoD：检测极限)。

表2

对比名称	样品1(肿瘤)	样品2(正常)	预计结果
				HCC1954-vs-HCC1954BL	HCC1954	HCC1954BL	匹配
HCC1143-vs-HCC1143BL	HCC1143	HCC1143BL	匹配
				NCI-H1672-vs-NCIBL1672	NCI-H1672	NCI-BL1672	匹配
NCI-H2107-vs-NCI-BL2107	NCI-H2107	NCI-BL2107	匹配
				WUXI-COLO-829-vs-WUXI-COLO829BL	WUXI-COLO829	WUXI-COLO829BL	匹配
WUXI-NCI-H1672-vs-WUX-NCI-BL1672	WUXI-NCI-H1672	WUXI-NCI-BL1672	匹配
				WUXI-NCI-H2107-vs-WUXI-NCI-BL2107	WUXI-NCI-H2107	WUXI-NCI-BL2107	匹配
HCC1954-LoD-25-vs-HCC1954BL	HCC1954-LoD-25	HCC1954BL	匹配
				HCC1954-LoD-50-vs-HCC1954BL	HCC1954-LoD-50	HCC1954BL	匹配
HCC1143-LoD-25-vs-HCC1143BL	HCC1143-LoD-25	HCC1143BL	匹配
				HCC1143-LoD-50-vs-HCC1143BL	HCC1143-LoD-50	HCC1143BL	匹配
HCC1954-vs-HCC1143BL	HCC1954	HCC1143BL	不匹配
				HCC1143-vs-HCC1954BL	HCC1143	HCC1954BL	不匹配
NCI-H1672-vs-NCI-BL2107	NCI-H1672	NCI-BL2107	不匹配
				WUXI-COLO-829-vs-WUXI-NCI-BL1672	WUXI-COLO829	WUXI-NCI-BL1672	不匹配
WUXI-NCI-H2107-vs-WUXI-COLO829BL	WUXI-NCI-H2107	WUXI-COLO829BL	不匹配
				WUXI-NCI-H1672-vs-WUXI-NCI-BL2107	WUXI-NCI-H1672	WUXI-NCI-BL2107	不匹配
NCIBL1672-vs-HCC1143BL	NCI-BL1672	HCC1143BL	不匹配
				NCI-H2107-vs-HCC1954	NCI-H2107	HCC1954	不匹配
NCI-BL2107-vs-HCC1954BL	NCI-BL2107	HCC1954BL	不匹配
				WUXI-NCI-BL1672-vs-WUXI-COLO829BL	WUXI-NCI-BL1672	WUXI-COLO829BL	不匹配
HCC1143-vs-NCIBL1672	HCC1143	NCI-BL1672	不匹配

在本实例中，种源相似性度量基于2个样品之间的相似性％而确定匹配/不匹配，其中匹配>90％相似的，而不匹配是<90％相似的。如下表3所示，通过以下矩阵来评估精确性(其中TP为真阳性，FP为假阳性，TN为真阴性，FN为假阴性)。精确性则定义为(TP+TN)/(TP+TN+FP+FN)。

表3

如上文所述，针对各比较组的样品1和样品2之间的相似的或相容的基因型来测定种源。计算相似性％得分，并且至少90％相似的任何样品对被分类成匹配(样品属于同一个人)，否则为不匹配(样品不属于同一个人)。下表4-6表征了在2个独立运行的分析中在11个匹配对于11个不匹配对中分析的结果。

表4

样品1	样品2	预计结果	相似性(％)	结果
					HCC1954	HCC1954BL	匹配	100.0	匹配(>90％)
HCC1143	HCC1143BL	匹配	99.9	匹配(>90％)
					NCI-H1672	NCI-BL1672	匹配	99.9	匹配(>90％)
NCI-H2107	NCI-BL2107	匹配	99.2	匹配(>90％)
					WUXI-NCI-H1672	WUXI-NCI-BL1672	匹配	99.9	匹配(>90％)
WUXI-NCI-H2107	WUXI-NCI-BL2107	匹配	100.0	匹配(>90％)
					WUXI-COLO-829	WUXI-COLO829BL	匹配	99.8	匹配(>90％)
HCC1954-LoD-25％	HCC1954BL	匹配	93.7	匹配(>90％)
					HCC1954-LoD-50％	HCC1954BL	匹配	97.7	匹配(>90％)
HCC1143-LoD-25％	HCC1143BL	匹配	99.6	匹配(>90％)
					HCC1143-LoD-50％	HCC1143BL	匹配	99.7	匹配(>90％)
WUXI-NCI-H2107	WUXI-COLO829BL	不匹配	51.9	不匹配(<90％)
					WUXI-NCI-BL1672	WUXI-COLO829BL	不匹配	47.0	不匹配(<90％)
WUXI-NCI-H1672	WUXI-NCI-BL2107	不匹配	58.2	不匹配(<90％)
					WUXI-COLO829	WUXI-NCI-BL1672	不匹配	58.9	不匹配(<90％)
NCI-H1672	NCI-BL2107	不匹配	56.5	不匹配(<90％)
					NCI-H2107	HCC1954	不匹配	48.1	不匹配(<90％)
NCI-BL2107	HCC1954BL	不匹配	31.3	不匹配(<90％)
					NCI-BL1672	HCC1143BL	不匹配	43.8	不匹配(<90％)
HCC1954	HCC1143BL	不匹配	47.8	不匹配(<90％)
					HCC1143	HCC1954BL	不匹配	63.9	不匹配(<90％)
HCC1143	NCI-BL1672	不匹配	57.8	不匹配(<90％)

表5

表6

样品1	样品2	实际情况	相似性(％)	结果
					HCC1954	HCC1954BL	匹配	100.0	匹配(>90％)
HCC1143	HCC1143BL	匹配	99.9	匹配(>90％)
					HCC1954	HCC1143BL	不匹配	47.8	不匹配(<90％)
HCC1143	HCC1954BL	不匹配	63.9	不匹配(<90％)

关于用于匹配测定的合适的临界值，应该理解的是可以使用大量的任意值或专用目的设计值。例如任意临界值可以为序列之间的85％,90％,92％,94％,96％或98％的最低相似性。另一方面，临界值还考虑了种族谱图，可利用的样品的质量或类型，所检验的SNP的数量，核酸在组织或其他制备样品中的稀释情况等。例如为了保护FFPE来源的稀释的样品，选择临界值为90％(参见表4，HCC1954-LoD-25％与HCC1954BL)。

在证明所考虑的系统和方法的高选择性和灵敏性的另一个实例中，本发明人使用上文所述的系统比较了得自Cancer Genome Atlas的数据库的属于独特患者的、经过事先测序的肿瘤与正常外显子组序列对。由下表7可见，对于总计4756个匹配的肿瘤-正常序列(9512序列，作为BAM文件)而言，即使对于相当高的相似性得分而言(例如98％相似性)，相似性的份数是相对较低的，而仅高于极高的相似性得分(例如99.5％相似性)则开始呈指数升高。

表7

因此，在本发明的主题的一个示例性方面中，本发明人考虑了使用一种或多种特异质标志物来分析哺乳动物的靶组织的基因组序列的多种方法。最通常的是，所考虑的方法利用了与序列数据库信息偶联的分析仪，其中所述的数据库储存了大量哺乳动物的各个靶组织的基因组序列。当然，应该理解的是基因组序列可以为多种形式，并且所述的形式的特定的本性不限于本发明提出的主题。但是，特别优选的是形式被格式化成至少某种程度，并且特别优选的形式包括SAM,BAM或VCF形式。

接着，分析仪表征了在靶组织的基因组序列中的大量预定的特异质标志物。当然，应该理解的是所述的表征将根据所使用的特异质标志物的类型而改变。例如在标志物为SNP的情况下，表征包括特定位置的特定碱基(例如表示为chr:bp，在特定等位基因处碱基的数量，或者特定的SNP名称)。另一方面，在标志物为重复序列的情况下，表征包括序列和重复数量的特定识别器，优选的是具有位置信息。当然，应该意识到分析/表征是针对大量的特异质标志物(例如一组100至10000标志物)实施的。

一旦所有的标志物被表征，则应该考虑到分析仪则将使用事先表征的标志物而生成特异质标志物谱图。此类谱图可以为原始数据形式，或者通过特定的规则进行处理。无论形式如何，通常优选的是随后通过分析仪生成或更新样品记录，其中样品记录是靶组织独特的，并且包括原始或处理形式的特异质标志物谱图。尽管不限于本发明的主题，但是可以考虑特异质标志物谱图附有(或者以其他方式整合有)基因组序列信息。在分析仪进一步比较样品记录中的特异质标志物图谱与另一个样品记录的另一个特异质标志物图谱以生成匹配得分的情况下，上述情况是特别有用的。然后，可以以多少方式使用匹配得分(例如样品记录的注释)。此外，以一定的方式(该方式不知道(信息不可用)或不了解(未使用可利用的信息)与特异质标志物以其他方式有关的状况或疾病)使用特异质标志物谱图，特别是SNP，高度可变的但是位置不可变的信息可以用作弄清楚2个特定序列事实上是否得自同一患者的信标。在临床实验室中样品的错误识别可以导致完全有效且高质量的、但却不适当地分配的序列记录的情况下，上述对照对于基因组序列的电子记录而言是特别有利的。由另一个方面来看，应该理解的是所考虑的系统和方法可以证实得自同一患者的2个序列的配对，或者发现来源于同一患者(或者直接相关的相关组或相同的种群组)的一系列序列中的匹配序列。

一旦用于分析哺乳动物靶组织的基因组序列的系统的示例性系统示意地描绘于图2中时，其中系统200包含分析仪210，其通过网络215余储存多位患者的靶组织的基因组序列的序列数据库220偶联。当然，应该理解的是具有多种其他的基因组序列的来源(例如测序服务试验室、参照数据库、患者拥有的装置222的储存器等)，并且所有这些来源均被视为适用于本发明的用途。在典型的系统中，分析仪被设置用于表征靶组织基因组序列中的大量的预定的特异质标志物，并且使用表征的特异质标志物生成特异质标志物谱图，使用特异质标志物图谱生成或更新靶组织的第一样品记录，将第一样品记录中的特异质标志物图谱与第二样品记录中的第二特异质标志物图谱比较从而生成匹配得分，以及使用匹配得分注释第一样品记录。

应该注意的是与计算机有关的任何语言都应该被读取，由此包含计算装置的任何合适的组合，包括服务器、界面、系统、数据库、代理人程序、发动机、控制器或者单独或共同操作的其他类型的计算装置。人们应该理解的是计算装置包含处理器，其被设置成执行储存在有形的非临时性的计算机可读存储介质(例如硬盘驱动器、固态硬盘、RAM、闪存、ROM等)上的软件指令。软件指令优选地将计算装置设置成提供规则、职责或其他功能，如下文中关于所公开的仪器所述。在特别优选的实施方案中，多种服务器、系统、数据库或界面使用标准的方法或算法交换数据，其可能基于HTTP、HTTPS、AES、公私密钥交换、网络服务API、已知的金融交易协议或其他的电子信息交换方法。数据交换优选地在分组交换网络、互联网、LAN、WAN、VPN或其他类型的分组交换网络上实施。关于特异质标志物，通常优选的是标志物为一组用户选择的或预定的特异质标志物，其少于基因组中可利用的所有标志物的总数。例如特异质标志物可以包括SNP、重复序列的定量量度、短串联重复序列(STR)、预定的限制性核酸内切酶位点之间的碱基的数量和/或后天修饰。在大多数情况下，用户的选择或预定使得标志物随机地分布于整个哺乳动物的基因组中，或者使得标志物统计学均匀地分布在哺乳动物的整个基因组中。尽管标志物优选地代表了完整的基因组，但是还考虑哺乳动物靶组织的基因组序列覆盖哺乳动物的至少一个染色体，或者哺乳动物基因组的至少70％。

如容易理解的那样，本发明所考虑的分析适用于许多用途，但是特别考虑用于其中哺乳动物靶组织为生病的组织以及其中第二样品记录得自同一(或者相关的或不相关的)哺乳动物的第二非生病的样品的分析。因此，在第二样品为同一哺乳动物的参照组织的情况下，所考虑的分析特别适用于证实生病的样品和非生病的样品为得自同一哺乳动物/患者的适当匹配的样品，或者关于另一个参数(例如种族、家族来源等)适当地匹配。在样品得自患有疾病(在不同的种族的群体中差异性地治疗)的患者的情况下，所述的图谱绘制可以是特别有利的。本发明人考虑，使用多组SNP，可以建立个体的种族或群体谱系，其中所述的SNP在身体改变的类型中可以是决定性因素。例如肺癌中EGFR突变在北美高加索人中是相对稀少的事件，但是在亚洲肺癌人群中是相当普遍的。这些或多或少可能是对特定EGFR治疗的反应，因此，通过种族进行分层是可取的。鉴于此，可以执行匹配得分，其包含与另一个样品的匹配值，例如得自相同哺乳动物的现有样品，与特异质标志物谱图(其为种族组的特征)的匹配值，与特异质标志物图谱(其为年龄组的特征)的匹配值，以及与特异质标志物图谱(其为疾病的特征)的匹配值。

在本发明的主题的另一个所考虑的方面中，本发明人还考虑的用于匹配或选择相应的、相关的或相似的其他基因组序列的特异质标志物和特异质标志物图谱的多种其他的用途。例如本发明人考虑了使用分析仪选择序列数据库中基因组序列的方法，其中所述的分析仪与储存基因组序列和个体相关的特异质标志物谱图的序列数据库偶联。如上文所讨论的那样，通常优选的是特异质标志物图谱是基于个体的基因组序列中大量预定的特异质标志物的一个或多个特征的，并且进一步优选的是特异质标志物谱图为利于比较的处理形式。例如处理形式可以为位串形式。在此类系统中，分析仪则可以选择具有相关的第二特异质标志物图谱的第二基因组序列。最通常的是，所述的选择将使用特异质标志物图谱，以及特异质标志物图谱与第二特异质标志物图谱之间的所需的匹配得分(例如图谱之间必须具有至少90％一致性)。

如之前已经注释的那样，通常优选的是预定的特异质标志物为SNP，重复序列的数量/位置，预定的限制性核酸内切酶位点之间的碱基的数量，和/或后天修饰，并且预定的特异质标志物的数量为100至10000标志物，从而有利于计算机分析。关于所需的匹配得分，通常优选的是匹配得分是基于异或测定，和/或所需的匹配得分是第一基因组序列与第二基因组序列之间的“距离”的、用户定义的临界得分。

在本发明的主题的另一个所考虑的方面中，本发明人进一步考虑了分析基因组信息以测定个体性别的方法。在此类方法中，应该理解的是在分析仪测定位于至少X染色体(更通常的是X和Y染色体)上的至少一个等位基因的接合性、由此生产等位基因(多个)的接合性图谱的情况下，分析仪可以与序列数据库协同使用，其中所述的序列数据库储存了个体的基因组序列。一旦测定，则分析仪可以使用等位基因的接合性图谱而进行性别确定。在需要的情况下，使用性别测定来注释基因组信息。最值得注意的是，此类性别测定简单，并且还可以考虑性染色体的非整倍性，从而容易地评价属于Klinefelter综合征、Turner综合征、XXY综合征或Xp22缺失等患者的基因组序列。

本领域那些技术人员显而易见的是除了已经描述的这些以外，更多的修改在不脱离本发明的概念的情况下是可行的。因此，除了所附权利要求书的精神以外，本发明的主题没有限制。此外，在解说说明书和权利要去书的过程中，所有的术语都应该以最广泛可行的方式与内容保持一致来进行说明。具体而言，术语动词形式的“包含”和分词形式的“包含”应该解释为以非排他性的方式指要素、成分或步骤，表明所指的要素、成分或步骤可以存在、使用或者与其他的未明确指出的要素、成分或步骤结合。在说明书的权利要求书涉及选自A、B、C……和N的某物的至少一种的情况下，该内容应该解释为仅需要得自该组的一个要素，而非A加N，或者B加N等。

权利要求书(按照条约第19条的修改)

1.一种分析哺乳动物靶组织的基因组序列的方法，其包括：

将分析仪与序列数据库偶联，其中所述的序列数据库储存有所述的哺乳动物的靶组织的基因组序列；

通过所述的分析仪表征所述的靶组织基因组序列中的大量的预定的特异质标志物，并使用所述的表征的特异质标志物生成特异质标志物图谱；

通过所述的分析仪生成或更新所述的靶组织的、使用所述的特异质标志物图谱的第一样品记录；

通过所述的分析仪比较所述的第一样品记录中的特异质标志物图谱与第二样品记录中的第二特异质标志物图谱，由此生成匹配得分；以及

其中使用所述的特异质标志物图谱的步骤对于与特异质标志物以其他方式有关的状况或疾病是不知道或不了解的；

使用所述的匹配得分来注释所述的第一样品记录。

2.权利要求1所述的方法，其中所述的预定的特异质标志物选自SNP，后天修饰，重复序列的重复数量，以及预定的限制性核酸内切酶位点对之间的碱基的数量。

3.上述权利要求的任意一项所述的方法，其中所述的大量的预定的特异质标志物包括100至10000种预定的特异质标志物。

4.上述权利要求的任意一项所述的方法，其中所述的预定的特异质标志物为SNP。

5.上述权利要求的任意一项所述的方法，其中所述的预定的特异质标志物是基于它们在所述的基因组序列中已知的位置而预定的。

6.上述权利要求的任意一项所述的方法，其中所述的预定的特异质标志物是基于随机选择而预定的，并且其中所述的随机选择是不知道或不了解与所述的标志物有关的疾病或状况。

7.上述权利要求的任意一项所述的方法，其中所述的预定的特异质标志物的至少一部分与各种疾病或状况有关，并且其中所述的疾病或状况是不相关的疾病或状况。

8.上述权利要求的任意一项所述的方法，其中所述的特异质标志物图谱不包含疾病或状况的识别，其中所述的疾病或状况与所述的表征的特异质标志物的至少一部分有关。

9.上述权利要求的任意一项所述的方法，其中所述的特异质标志物图谱包含用于所述的表征的特异质标志物的、核苷酸碱基信息。

10.上述权利要求的任意一项所述的方法，其中所述的样品记录具有VCF形式。

11.上述权利要求的任意一项所述的方法，其中所述的样品记录包含所述的基因组序列。

12.上述权利要求的任意一项所述的方法，其中所述的匹配得分包含一致性百分值。

13.上述权利要求的任意一项所述的方法，其中所述的匹配得分包含与得自所述的相同的哺乳动物的至少一种现有样品的匹配值，与作为种族组的特征的特异质标志物图谱的匹配值，与作为年龄组的特征的特异质标志物图谱的匹配值，以及与作为疾病的特征的特异质标志物图谱的匹配值。

14.上述权利要求的任意一项所述的方法，其中用于所述的哺乳动物的靶组织的基因组序列涵盖所述的哺乳动物的至少一条染色体。

15.上述权利要求的任意一项所述的方法，其中用于所述的哺乳动物的靶组织的基因组序列涵盖所述的哺乳动物的基因组的至少70％。

16.上述权利要求的任意一项所述的方法，其中所述的哺乳动物的靶组织为生病的组织，并且其中所述的第二样品记录得自所述的哺乳动物的第二样品。

17.权利要求16所述的方法，其中所述的哺乳动物的第二样品得自所述的哺乳动物的非生病的组织。

18.权利要求1所述的方法，其中所述的大量的预定的特异质标志物包括100至10000种预定的特异质标志物。

19.权利要求1所述的方法，其中所述的预定的特异质标志物为SNP。

20.权利要求1所述的方法，其中所述的预定的特异质标志物是基于它们在所述的基因组序列中已知的位置而预定的。

21.权利要求1所述的方法，其中所述的预定的特异质标志物是基于随机选择而预定的，并且其中所述的随机选择是不知道或不了解与所述的标志物有关的疾病或状况。

22.权利要求1所述的方法，其中所述的预定的特异质标志物的至少一部分与各种疾病或状况有关，并且其中所述的疾病或状况是不相关的疾病或状况。

23.权利要求1所述的方法，其中所述的特异质标志物图谱不包含疾病或状况的识别，其中所述的疾病或状况与所述的表征的特异质标志物的至少一部分有关。

24.权利要求1所述的方法，其中所述的特异质标志物图谱包含用于所述的表征的特异质标志物的、核苷酸碱基信息。

25.权利要求1所述的方法，其中所述的样品记录具有VCF形式。

26.权利要求1所述的方法，其中所述的样品记录包含所述的基因组序列。

27.权利要求1所述的方法，其中所述的匹配得分包含一致性百分值。

28.权利要求1所述的方法，其中所述的匹配得分包含与得自所述的相同的哺乳动物的至少一种现有样品的匹配值，与作为种族组的特征的特异质标志物图谱的匹配值，与作为年龄组的特征的特异质标志物图谱的匹配值，以及与作为疾病的特征的特异质标志物图谱的匹配值。

29.权利要求1所述的方法，其中用于所述的哺乳动物的靶组织的基因组序列涵盖所述的哺乳动物的至少一条染色体。

30.权利要求1所述的方法，其中用于所述的哺乳动物的靶组织的基因组序列涵盖所述的哺乳动物的基因组的至少70％。

31.权利要求1所述的方法，其中所述的哺乳动物的靶组织为生病的组织，并且其中所述的第二样品记录得自所述的哺乳动物的第二样品。

32.权利要求31所述的方法，其中所述的哺乳动物的第二样品得自所述的哺乳动物的非生病的组织。

33.一种选择序列数据库中基因组序列的方法，其包括：

将分析仪与序列数据库偶联，其中所述的序列数据库储存个体的第一基因组序列以及相关的第一特异质标志物图谱；

其中所述的第一特异质标志物图谱是基于所述的个体的第一基因组序列中大量预定的特异质标志物的特征的；

通过所述的分析仪选择具有相关的第二特异质标志物图谱的第二基因组序列；

其中所述的选择步骤使用所述的第一和所述的第二特异质标志物图谱，以及所述的第一特异质标志物图谱与所述的第二特异质标志物图谱之间的所述的匹配得分；以及

其中所述的特异质标志物图谱以对于与特异质标志物以其他方式有关的状况或疾病是不知道或不了解的方式使用。

34.权利要求33所述的方法，其中所述的预定的特异质标志物选自SNP，后天修饰，重复序列的重复数量，以及预定的限制性核酸内切酶位点对之间的碱基的数量。

35.权利要求33-34的任意一项所述的方法，其中所述的大量的预定的特异质标志物包括100至10000种预定的特异质标志物。

36.权利要求33-35的任意一项所述的方法，其中所述的特异质标志物图谱为位串形式。

37.权利要求33-36的任意一项所述的方法，其中所述的所需的匹配得分是基于异或测定的。

38.权利要求33-37的任意一项所述的方法，其中所述的所需的匹配得分是用于所述的第一基因组序列与所述的第二基因组序列之间的差异的、用户定义的临界得分。

39.权利要求33-38的任意一项所述的方法，其中所述的具有相关的第二特异质标志物图谱的第二基因组序列衍生自第二个体。

40.权利要求33-39的任意一项所述的方法，其中所述的具有相关的第二特异质标志物图谱的第二基因组序列由所述的序列数据库检索的。

41.权利要求33所述的方法，其中所述的大量的预定的特异质标志物包括100至10000种预定的特异质标志物。

42.权利要求33所述的方法，其中所述的特异质标志物图谱为位串形式。

43.权利要求33所述的方法，其中所述的所需的匹配得分是基于异或测定的。

44.权利要求33所述的方法，其中所述的所需的匹配得分是用于所述的第一基因组序列与所述的第二基因组序列之间的差异的、用户定义的临界得分。

45.权利要求33所述的方法，其中所述的具有相关的第二特异质标志物图谱的第二基因组序列衍生自第二个体。

46.权利要求33所述的方法，其中所述的具有相关的第二特异质标志物图谱的第二基因组序列由所述的序列数据库检索的。

47.特异质标志物图谱在确认第一基因组序列与第二基因组序列属于相同的人的方法中的用途，其中所述的特异质标志物图谱被建立用于所述的第一基因组序列和所述的第二基因组序列，其中所述的特异质标志物图谱是使用大量的表征的特异质标志物创建的，其中所述的表征的特异质标志物不知道或不了解与所述的特异质标志物有关的疾病或状况，并且其中基于相似分值的阈值确认第一基因组序列与第二基因组序列属于相同的人。

48.权利要求47所述的用途，其中所述的特异质标志物选自SNP，后天修饰，重复序列的重复数量，以及预定的限制性核酸内切酶位点对之间的碱基的数量。

49.权利要求47-48的任意一项所述的用途，其中所述的大量的特异质标志物为100至10000种SNP。

50.权利要求47-49的任意一项所述的用途，其中所述的特异质标志物是基于它们在所述的基因组序列中已知的位置而预定的。

51.权利要求47-50的任意一项所述的用途，其中所述的特异质标志物图谱包含用于所述的表征的特异质标志物的核苷酸碱基信息。

52.权利要求47-51的任意一项所述的用途，其中所述的基因组序列的匹配是基于用于所述的第一基因组序列与所述的第二基因组序列的特异质标志物图谱之间的一致性百分值。

53.权利要求47所述的用途，其中所述的大量的特异质标志物为100至10000种SNP。

54.权利要求47所述的用途，其中所述的特异质标志物是基于它们在所述的基因组序列中已知的位置而预定的。

55.权利要求47所述的用途，其中所述的特异质标志物图谱包含用于所述的表征的特异质标志物的核苷酸碱基信息。

56.权利要求47所述的用途，其中所述的基因组序列的匹配是基于用于所述的第一基因组序列与所述的第二基因组序列的特异质标志物图谱之间的一致性百分值。

57.一种用于分析哺乳动物靶组织的基因组序列的系统，其包括：

与序列数据库偶联的分析仪，其中所述的序列数据库储存所述的哺乳动物靶组织的基因组序列；

其中所述的分析仪被构造成：

表征所述的靶组织的基因组序列中的大量的预定的特异质标志物，并且使用所述的表征的特异质标志物生成特异质标志物图谱；

使用所述的特异质标志物图谱生成或更新用于所述的靶组织的第一样品记录；

比较所述的第一样品记录中的所述的特异质标志物图谱与第二样品记录中的第二特异质标志物图谱，由此生成匹配得分；

其中所述的特异质标志物图谱以对于与特异质标志物以其他方式有关的状况或疾病是不知道或不了解的方式使用；以及

使用所述的匹配得分注释所述的第一样品记录。

58.权利要求57所述的系统，其中所述的预定的特异质标志物选自SNP，后天修饰，重复序列的重复数量，以及预定的限制性核酸内切酶位点对之间的碱基的数量。

59.权利要求57-58的任意一项所述的系统，其中所述的大量的预定的特异质标志物包括100至10000种预定的特异质标志物。

60.权利要求57-59的任意一项所述的系统，其中所述的预定的特异质标志物为SNP。

61.权利要求57-60的任意一项所述的系统，其中所述的预定的特异质标志物是基于它们在所述的基因组序列中的已知的位置而预定的。

62.权利要求57-61的任意一项所述的系统，其中所述的预定的特异质标志物是基于随机选择而预定的，并且其中所述的随机选择是不知道或不了解与所述的标志物有关的疾病或状况。

63.权利要求57-62的任意一项所述的系统，其中所述的预定的特异质标志物的至少一部分与各种疾病或状况有关，并且其中所述的疾病或状况是不相关的疾病或状况。

64.权利要求57-63的任意一项所述的系统，其中所述的特异质标志物图谱包含用于所述的表征的特异质标志物的核苷酸碱基信息。

65.权利要求57-64的任意一项所述的系统，其中所述的样品记录具有VCF形式。

66.权利要求57-65的任意一项所述的系统，其中所述的样品记录包含所述的基因组序列。

67.权利要求57-66的任意一项所述的系统，其中所述的匹配得分包含一致性百分值。

68.权利要求57-67的任意一项所述的系统，其中所述的匹配得分包含与得自所述的相同的哺乳动物的至少一种现有样品的匹配值，与作为种族组的特征的特异质标志物图谱的匹配值，与作为年龄组的特征的特异质标志物图谱的匹配值，以及与作为疾病的特征的特异质标志物图谱的匹配值。

69.权利要求57-68的任意一项所述的系统，其中用于所述的哺乳动物的靶组织的基因组序列涵盖所述的哺乳动物的至少一条染色体。

70.权利要求57所述的系统，其中所述的大量的预定的特异质标志物包含100至10000种预定的特异质标志物。

71.权利要求57所述的系统，其中所述的预定的特异质标志物为SNP。

72.权利要求57所述的系统，其中所述的预定的特异质标志物是基于它们在所述的基因组序列中的已知的位置而预定的。

73.权利要求57所述的系统，其中所述的预定的特异质标志物是基于随机选择而预定的，并且其中所述的随机选择是不知道或不了解与所述的标志物有关的疾病或状况。

74.权利要求57所述的系统，其中所述的预定的特异质标志物的至少一部分与各种疾病或状况有关，并且其中所述的疾病或状况是不相关的疾病或状况。

75.权利要求57所述的系统，其中所述的特异质标志物图谱包含用于所述的表征的特异质标志物的核苷酸碱基信息。

76.权利要求57所述的系统，其中所述的样品记录具有VCF形式。

77.权利要求57所述的系统，其中所述的样品记录包含所述的基因组序列。

78.权利要求57所述的系统，其中所述的匹配得分包含一致性百分值。

79.权利要求57所述的系统，其中所述的匹配得分包含与得自所述的相同的哺乳动物的至少一种现有样品的匹配值，与作为种族组的特征的特异质标志物图谱的匹配值，与作为年龄组的特征的特异质标志物图谱的匹配值，以及与作为疾病的特征的特异质标志物图谱的匹配值。

80.权利要求57所述的系统，其中用于所述的哺乳动物的靶组织的基因组序列涵盖所述的哺乳动物的至少一条染色体。

81.一种分析基因组信息以测定个体性别的方法，其包括：

将分析仪与储存所述的个体的基因组序列的序列数据库偶联；

通过所述的分析仪测定位于至少X染色体上的多个等位基因的接合性，从而生产多个等位基因的接合性图谱；

通过所述的分析仪，使用所述的多个等位基因的接合性图谱来推导性别测定；以及

使用所述的性别测定来注释所述的基因组信息。

82.权利要求81所述的方法，其中所述的接合性是针对Y染色体上的至少一个其他的等位基因而额外测定的。

83.权利要求81所述的方法，其中所述的测定包括性染色体的非整倍性的测定。

Claims

1.一种分析哺乳动物靶组织的基因组序列的方法，其包括：

使用所述的匹配得分来注释所述的第一样品记录。

25.权利要求1所述的方法，其中所述的样品记录具有VCF形式。

33.一种选择序列数据库中基因组序列的方法，其包括：

通过所述的分析仪选择具有相关的第二特异质标志物图谱的第二基因组序列；以及

其中所述的选择步骤使用所述的第一和所述的第二特异质标志物图谱，以及所述的第一特异质标志物图谱与所述的第二特异质标志物图谱之间的所述的匹配得分。

47.特异质标志物图谱在匹配第一基因组序列与第二基因组序列的方法中的用途，其中所述的特异质标志物图谱被建立用于所述的第一基因组序列和所述的第二基因组序列，其中所述的特异质标志物图谱是使用大量的表征的特异质标志物创建的，其中所述的表征的特异质标志物不知道或不了解与所述的特异质标志物有关的疾病或状况。

其中所述的分析仪被构造成：

比较所述的第一样品记录中的所述的特异质标志物图谱与第二样品记录中的第二特异质标志物图谱，由此生成匹配得分；以及

使用所述的匹配得分注释所述的第一样品记录。

81.一种分析基因组信息以测定个体性别的方法，其包括：

通过所述的分析仪测定位于至少X染色体上的至少一个等位基因的接合性，从而生产该等位基因的接合性图谱；

通过所述的分析仪，使用所述的等位基因的接合性图谱来推导性别测定；以及

使用所述的性别测定来注释所述的基因组信息。