鉴定基因组中的变异的定相和连接方法
本申请是基于申请日为2014年10月1日,优先权日为2013年10月1日,申请号为201480054553.3,发明名称为:“鉴定基因组中的变异的定相和连接方法”的专利申请的分案申请。
对相关申请的交叉引用
本申请要求2013年10月1日提交的美国临时申请号61/885,470,标题为“PHASINGAND LINKING PROCESSES TO IDENTIFY VARIATIONS IN A GENOME”的优先权,并是该申请的非临时申请,通过提述将其整体内容并入本文用于所有目的。
本申请涉及共同拥有的美国专利申请号13/448,279,标题为“Sequencing SmallAmounts Of Complex Nucleic Acids”(代理人案号92171-5039US),提交于2012年4月16日;美国专利申请号13/447,087,标题为“Processing And Analysis Of Complex NucleicAcid Sequence Data”(代理人案号92171-5041US),提交于2012年4月13日;美国专利申请号13/649,966,标题为“Identification Of DNA Fragments And StructuralVariations”(代理人案号92171-002510US),提交于2012年10月11日;美国专利申请号13/591,723,标题为“Phasing Of Heterozygous Loci To Determine Genomic Haplotypes”(代理人案号92171-002410US),提交于2012年8月22日;和美国专利申请号13/591,741,标题为“Analyzing Genome Sequencing Information To Determine Likelihood Of Co-Segregating Alleles On Haplotypes”(代理人案号92171-002420US),提交于2012年8月22日,其公开通过提述以其整体并入本文。
发明背景
自从1978年的第一例出生以来,世界范围内已经有超过5百万的婴儿通过体外受精(IVF)出生。难以确定精确的数字,但是经估算目前每年有350,000个婴儿通过IVF出生。预期该数字上升,因为较大的母亲年龄与降低的受精率相关,且在发达国家,女性继续推迟分娩到更晚的年纪。在95%的IVF方案中,没有进行胚胎的诊断测试(http://www.sart.org/find_frm.html)。先前怀孕困难的夫妻或那些希望避免高渗透度遗传性疾病的传播的夫妻通常选择进行植入前遗传诊断(PGD)。PGD涉及对来自3天胚胎的1个细胞或5-6天的胚泡期的高达10个细胞的活组织检查及随后的遗传分析。目前,这是用于易位(translocation)和正确的染色体拷贝数的任一测定法,即对于每种特定的遗传疾病设计并验证的独特测试,或两者的组合。重要的是,这些方法没有一个能够检测尚未与具体疾病相关的从头(de novo)突变或变异。
目前,可用于体外受精胚胎的植入前遗传诊断(PGD)的唯一方法是那些检测大的基因组变化或单基因病症的方法。这些方法对于大量潜在的基因组缺陷可以是察觉不到的。
尽管文献中关于IVF在分娩缺陷中的角色存在一些争议,两项近期研究声称在通过IVF出生的儿童中看到了升高的发病率,其可能是由这些不育父母中过多的遗传缺陷所致。另外,后期的母亲年龄已经与非整倍体胚胎的增加相关,而后期的父亲年龄已经与胚胎的从头突变相关。许多近期的大规模测序研究已经发现,分散于许多不同基因的从头变异可能是很大一部分自闭症病例,以及许多其它罕见的先天性病症的原因。这些研究提示我们可以做得更多以试着改善IVF新生儿的健康。
目前对PGD的靶向方法将遗漏胚胎DNA序列中许多重要的功能变化。重要的是,由于从头突变,即便是对父母双方的全面的基于WGS的载体筛查也无法进行靶向植入前或产前诊断。最近的报道发现,比起知道没有功能的区域,从头突变更经常影响基因组的功能区域,进一步强调了能在PGD中鉴定这一类基因组变异的重要性。此外,突变的鉴定可用于除IVF之外的各种用途。
因此,期望提供用于确定基因组中的突变的改进技术。
发明简述
实施方案提供系统,方法和仪器以进行定相(phasing)和连接(linking)过程,用于鉴定生物体的基因组的单体型(haplotype),其可以涉及鉴定基因组中的变异。这些变异可以包括半合子缺失(即在一个单体型中的给定位点/区域的缺失),在两个单倍体中区域中的缺失,或插入。实施方案可以使用长片段读出(long fragment read,LFR)以确定两个读出当它们具有相同的标签(例如,来自相同的等分试样)和彼此在特定的距离之内(例如,50Kb)时可能来自同一个长片段,。
在一个实例中,实施方案针对解析(resolving)碱基识别(base call)(例如,从无识别到碱基识别或到正确的碱基识别)。通过进行定相以确定单体型,实施方案可以提供更好的精确度。接着,通过利用读出与对应单体型的任意读出的共享标签(例如,共享等分试样),可以使用长片段读出(LFR)技术来解析碱基识别。将基因座连接到多个杂合基因座(het)的单体型可以帮助利用所述基因座处可用的多个读出。
在另一个实例中,可以使用长片段读出(LFR)技术来鉴定缺失。对于半合子缺失,可以将区域连接到一个或多个hets,而特定单体型的标签可以用于鉴定该区域中的哪些读出对应哪个单体型。以这种方式,由于可以鉴定特定单体型的读出,当对于特定单体型的读出量较低时,可以以较大的精确度确定半合子缺失。这种确定比使用该区域中的所有读出的量可以给出更大的精确性。
在另一个实例中,可以使用脉冲(pulse)的定相率(phase rate)(由具有相同标签的序列读出覆盖的参考基因组的连续区段)来鉴定大型缺失。可以从区域的脉冲总数和覆盖经定相的het的脉冲数确定区域的定相率。可以在定相率足够低的情况下鉴定缺失(Adeletion can be identified with the phasing rate is sufficiently low)。
其它实施方案针对与本文所述的方法相关的系统,便携式消费设备,以及计算机可读介质。
可以参考以下详细描述和附图,获得对本发明的实施方案的性质和优点更好的理解。
本文包括以下内容:
实施方式1.一种从自生物体获得的样品确定生物体的单体型的方法,所述方法包括:
在计算机系统上接收来自所述生物体的多个核酸分子的测序的序列数据,其中所述多个核酸分子的每一个的序列数据包括:
所述核酸分子的至少一部分的一个或多个序列读出,和
对应于所述一个或多个序列读出的标签,所述标签指示所述核酸分子的来源;
对于所述多个核酸分子的每一个:
通过所述计算机系统将所述核酸分子的至少一个序列读出定位到参考基因组;
鉴定第一多个第一het,每个第一het具有各自的第一等位基因和各自的第二等位基因;
通过所述计算机系统确定所述第一多个第一het中的第一和第二等位基因的定相以确定第一重叠群,所述第一重叠群将所述第一等位基因指定为对应于第一单体型,并将所述第二等位基因指定为对应于第二单体型,
通过所述计算机系统,将第一基因座连接到所述第一重叠群,所述连接包括:
鉴定至少两个所述第一het,其具有与定位到所述第一基因座的序列读出共享标签的序列读出;和
对于所述第一重叠群的第一单体型,将第一碱基解析为第一基因座的第一基因组位置,基于所述第一碱基的解析在多个基因座序列读出上的第一基因组位置,每一个所述基因座序列读出与至少一个包括第一单体型的第一等位基因的het序列读出共享标签,其中所述het序列读出覆盖至少两个所述第一het。
实施方式2.实施方式1的方法,其中定位到所述第一基因座的至少一个所述序列读出包括在第一基因组位置处不同于所述参考基因组的碱基。
实施方式3.实施方式1的方法,其中所述连接包括:
对于每个单体型,对于所述第一基因座处的多个碱基识别,计算第一het间的共享标签的计数的总和。
实施方式4.实施方式1的方法,其中所述解析仅使用与来自至少最小数量的het的het序列读出共享标签的基因座序列读出,所述最小数量大于1。
实施方式5.实施方式1的方法,进一步包括:
鉴定第一数量的共享标签,每个共享标签对应:
定位到第一基因座的一个或多个序列读出,和
定位到所述第一重叠群的至少一个第一het的至少一个序列读出,所述第一基因座不是所述第一多个第一het中的一个;
通过所述计算机系统,基于共享标签的第一数量比标签的阈值数量大,将所述第一基因座连接到所述第一重叠群。
实施方式6.实施方式5的方法,其中每个共享的标签对应于定位到至少最小数量的het的至少一个测序读出,所述最小数量大于1。
实施方式7.实施方式5的方法,其中对于与所述第一基因座的序列读出共享标签的每个第一het,共享标签的第一数量包括标签的计数。
实施方式8.实施方式5的方法,其中所述第一重叠群的至少一个第一het与所述第一重叠群的末端相距在阈值距离之内。
实施方式9.实施方式5的方法,进一步包括:
动态确定标签的阈值数量。
实施方式10.实施方式9的方法,其中基于以下一项或多项动态确定标签的阈值数量:样品中的细胞数量,可能的标签数量,对应标签的核酸分子量,以及进行的测序深度。
实施方式11.实施方式1的方法,其中所述第一het在所述第一基因座的指定距离之内。
实施方式12.实施方式1的方法,进一步包括:
基于所述第一重叠群在所述第一基因座周围的窗内的鉴定,使用所述第一重叠群以连接到所述第一基因座。
实施方式13.实施方式12的方法,进一步包括:
基于所述第一重叠群满足一个或多个标准的鉴定,使用所述第一重叠群以连接到所述第一基因座。
实施方式14.实施方式13的方法,其中所述一个或多个标准包括作为所述第一基因座周围的窗内最长的重叠群的第一重叠群。
实施方式15.实施方式1的方法,进一步包括:
鉴定第二多个第二het,每个第二het具有各自的第一等位基因和各自的第二等位基因;
通过所述计算机系统,确定所述第二多个第二het的第一和第二等位基因的定相,以确定第二重叠群,所述第二重叠群指定所述第一等位基因为对应所述第一单体型并指定所述第二等位基因为对应所述第二单体型;和
将所述第一基因座连接到所述第二重叠群,其中使用het序列读出来解析所述第一碱基,所述het序列读出包含所述第一重叠群和所述第二重叠群两者的所述第一单体型的至少一个第一等位基因。
实施方式16.实施方式15的方法,进一步包括:
使用所述第一基因座连接所述第一和第二重叠群。
实施方式17.实施方式1的方法,其中定位到所述第一基因座的所述序列读出包含所述第一基因座位置处的多个不同的等位基因,所述方法进一步包括:
基于第二碱基在各自与包括第二单体型的第二等位基因的het序列读出共享标签的基因座序列读出上的第一基因组位置处,所述第二碱基与所述第一碱基不同,解析所述第二碱基在所述第一重叠群的第二单体型的第一基因组位置处。
实施方式18.实施方式17的方法,其中所述多个不同的等位基因包括至少三个等位基因,并且其中基于第三等位基因在对应第一和第二组标签的序列读出上的第一基因组位置处,鉴定所述第三等位基因为误差。
实施方式19.实施方式18的方法,其中具有所述第三等位基因的序列读出的数量少于具有第一碱基识别的序列读出的数量和具有第二碱基识别的序列读出的数量的总和。
实施方式20.实施方式1的方法,进一步包括:
基于所述第一碱基在各自与包括所述第二单体型的第二等位基因的het序列读出共享标签的基因座序列读出上的第一基因组位置处,解析所述第一碱基在所述第二单体型的第一基因组位置处,其中第一基因组位置确定为纯合变体。
实施方式21.实施方式1的方法,其中在解析前,所述第一基因座鉴定为具有至少一个无识别,并且其中所述解析将所述无识别改变为所述第一碱基。
实施方式22.实施方式1的方法,其中所述第一重叠群的确定基于对应定位到所述第一het的序列读出的标签。
实施方式23.实施方式1的方法,其中所述第一重叠群的确定基于生物群体的已知单体型。
实施方式24.实施方式1的方法,其中通过从文件读取定相,进行确定所述第一多第一het的第一和第二等位基因的定相以确定所述第一重叠群。
实施方式25.实施方式1的方法,其中基于质量计分鉴定所述第一多个第一het,所述质量计分从以下任意一项或多项确定:将序列读出定位到第一het,定位到所述第一het的序列读出的碱基识别,以及覆盖第一het的序列读出的组装。
实施方式26.实施方式1的方法,其中所述核酸获自较大核酸分子的片段化,其中所述较大核酸分子分布在发生所述片段化的多个等分试样中,并且其中标签指示核酸分子来自哪个等分试样。
实施方式27.实施方式26的方法,其中每个等分试样在分开的测序过程中测序,并且其中等分试样的标签分配到对所述等分试样获得的序列。
实施方式28.实施方式26的方法,其中每个核酸分子的标签对应添加到所述核酸分子的标记,所述标记对于等分试样是独特的。
实施方式29.实施方式1的方法,其中两个核酸分子具有相同的标签指示所述核酸分子来自相同的较大核酸分子。
实施方式30.一种计算机产品,包括储存多个指令的非临时性计算机可读介质,所述指令当执行时控制计算机系统以进行实施方式1的方法。
实施方式31.一种通过分析自生物体获得的样品来检测生物体的基因组中的半合子缺失的方法,所述方法包括:
从所述生物体的多个核酸分子的测序接收序列数据,其中对于所述多个核酸分子的每一个的序列数据包括:
所述核酸分子的至少一部分的一个或多个序列读出,和
对应所述一个或多个序列读出的标签,所述标签指示所述核酸分子的来源;
对于所述多个核酸分子的每一个:
通过计算机系统,将所述核酸分子的至少一个序列读出定位到参考基因组;
通过计算机系统,鉴定一个或多个连接到第一区域的het,其中每个het具有对应第一单体型的第一等位基因和对应第二单体型的第二等位基因;
通过计算机系统,鉴定第一组共享的标签,每个共享的标签对应:
定位到所述参考基因组的第一区域的一个或多个序列读出,和
定位到经鉴定的het之一并包括对应的第一等位基因的至少一个序列读出;
确定第一量的序列读出,其对应共享的标签并定位到第一区域;
标准化所述第一量以获得标准化的第一量;和
将所述标准化的第一量与第一截留值比较以确定所述第一单体型在第一区域中是否包括缺失。
实施方式32.实施方式31的方法,其中所述多个核酸分子分布于所述样品的多个等分试样中,每个等分试样包括片段化出所述核酸分子的一个或多个长核酸分子,并且其中所述标签指示所述核酸分子来自哪个等分试样。
实施方式33.实施方式31的方法,其中两个核酸分子上具有相同的标签指示所述两个核酸分子来自相同的长核酸分子。
实施方式34.实施方式31的方法,进一步包括:
将标准化的第一量与第二截留值比较以确定所述第一单体型在所述第一区域中是否包括插入,其中所述第二截留值小于所述第一截留值。
实施方式35.实施方式31的方法,进一步包括:
将标准化的第一量与第二截留值比较以确定所述第一单体型是否包括对应所述第一区域的扩增,其中所述第二截留值比所述第一截留值大。
实施方式36.实施方式31的方法,进一步包括:
鉴定第二组的第二标签,每个第二标签对应:
定位到所述参考基因组的第一区域的一个或多个序列读出,和
定位到经鉴定的het之一并包括对应的第二等位基因的至少一个序列读出;
确定第二量的序列读出,其对应所述第二标签并定位到所述第一区域;
使用所述第二量来标准化所述第一量。
实施方式37.实施方式36的方法,其中使用所述第二量来标准化所述第一量包括:
计算所述第一量和所述第二量之间的参数。
实施方式38.实施方式37的方法,其中所述参数包括所述第一量和所述第二量之间的差。
实施方式39.实施方式37的方法,其中所述参数包括所述第一量和所述第二量之间的比率。
实施方式40.实施方式37的方法,其中所述一个或多个截留值取决于定位到所述参考基因组的序列读出的数量。
实施方式41.实施方式31的方法,其中标准化所述第一量使用定位到所述参考基因组的序列读出的数量。
实施方式42.实施方式41的方法,其中所述第一区域对应连续的位置,且其中标准化所述第一量包括:
确定与所述第一区域相同长度的多个其它区域的序列读出的平均数量。
实施方式43.实施方式42的方法,进一步包括:
通过排除具有高于阈值的GC含量或具有大于阈值的序列平均数量的区域,从较大组的区域中选择所述其它区域。
实施方式44.实施方式31的方法,其中鉴定第一het连接到第一区域包括:
鉴定对应定位到所述第一区域的序列读出和对应定位到所述第一het的序列读出的标签。
实施方式45.实施方式44的方法,其中所述第一het不在第一区域的范围内。
实施方式46.实施方式31的方法,其中所述第一量是对应所述共享的标签并定位到所述第一区域的序列读出的数量。
实施方式47.实施方式31的方法,其中所述第一量与序列读出的碱基数量成比例,所述序列读出对应共享的标签并定位到所述第一区域。
实施方式48.实施方式31的方法,其中通过对每一个序列读出增加计数来确定所述第一量,所述序列读出对应共享的标签之一并定位到所述第一区域的亚区域。
实施方式49.实施方式31的方法,进一步包括:
重复多个其它区域以确定其它区域的每一个是否包括缺失。
实施方式50.实施方式49的方法,其中所述其它区域的每一个和所述第一区域具有相同长度的连续碱基。
实施方式51.实施方式31的方法,其中所述第一区域对应外显子。
实施方式52.实施方式31的方法,其中所述第一区域对应一个基因座。
实施方式53.实施方式31的方法,其中所述第一区域对应多个非连续基因座。
实施方式54.实施方式53的方法,其中所述多个非连续基因座在同一个外显子中。
实施方式55.实施方式53的方法,进一步包括:
计算所述非连续基因座处共享的孔的第一平均数量;
鉴定对应所述参考基因组的指定长度的面元(bin),所述面元包括所述非连续基因座的至少一部分;
计算所述面元中每一个所述非连续基因座的面元中的脉冲的第二平均数量,其中脉冲对应由具有相同标签的序列读出组成的片段;和
计算第一平均数量和第二平均数量的比率,作为获得标准化的第一量的一部分。
实施方式56.实施方式31的方法,其中序列读出的标签对应条形码,其从对应的核酸分子读取。
实施方式57.实施方式31的方法,其中所述序列读出对应核酸分子的两个末端。
实施方式58.一种通过分析自生物体获得的样品来检测生物体的基因组中的缺失的方法,所述方法包括:
从所述生物体的多个核酸分子的测序接收序列数据,其中所述多个核酸分子的每一个的序列数据包括:
所述核酸分子的至少一部分的一个或多个序列读出,和
对应一个或多个序列读出的标签,所述标签指示所述核酸分子的来源;
对于所述多个核酸分子的每一个:
通过所述计算机系统,将所述核酸分子的至少一个序列读出定位到参考基因组;
通过所述计算机系统,鉴定多个定相的het;
通过所述计算机系统,确定与第一区域重叠的脉冲的第一总数,其中脉冲对应由具有相同标签的序列读出覆盖的所述参考基因组的连续部分;
通过所述计算机系统,确定定相脉冲的第一定相数量,所述定相脉冲与所述第一区域重叠并覆盖至少指定数量的定相het;
计算第一定相率,其包括所述第一定相数量和所述第一总数的比率;和
基于将所述第一定相率与第一截留值的比较,确定所述第一区域是否包括缺失。
实施方式59.实施方式58的方法,进一步包括:
确定与第二区域重叠的脉冲的第二总数,所述第二区域与第一区域连续;
确定定相脉冲的第二定相数量,所述定相脉冲与第一区域重叠并覆盖至少指定数量的定相het;
计算第二定相率,其包括第二定相数量和第二总数的比率;和
基于所述第二定相率与第二截留值的比较,确定第一区域是否包括缺失。
实施方式60.实施方式59的方法,其中当所述第一定相率低于所述第一截留值且第二定相率低于所述第二截留值时,确定所述第一区域包括缺失。
实施方式61.实施方式60的方法,其中所述第一截留值等于所述第二截留值。
实施方式62.实施方式60的方法,其中对于要确定的缺失,要求阈值数量的连续区域具有低于截留值的定相率。
实施方式63.实施方式58的方法,其中鉴定所述多个定相的het包括定相多个het。
实施方式64.实施方式58的方法,其中所述定相het的指定数量为1。
实施方式65.实施方式58的方法,其中所述缺失为半合子缺失。
附图简述
图1的流程图显示了根据本发明的实施方案用于获得短序列读出以组装为长片段的方法100。
图2示出了图表,其显示了根据本发明的实施方案的方法100的步骤。
图3示出了根据本发明的实施方案的测序表现的比较的表300。
图4是根据本发明的实施方案用于将第一个基因座连接到一个或多个het的方法400的流程图。
图5是根据本发明的实施方案用于将第一个基因座连接到重叠群(contig)的方法500的流程图。
图6是根据本发明的实施方案从自生物体获得的样品确定该生物体的单体型的方法600的流程图。
图7A示出了具有不一致数据的连接矩阵(connectivity matrix)700。图7B示出了具有低读出数量的连接矩阵750。
图8A示出了将基因座820连接到多个het的过程的图表800。图8B显示了根据本发明的实施方案,使用将基因座连接到多个het来将无识别(N)转变为碱基识别的过程。
图9A是矩阵900,显示了将该基因座连接到两个单体型。图9B是矩阵950,显示了将该基因座连接到两个单体型。
图10示出了根据本发明的实施方案对于半合子缺失检测的每单体型的面元化覆盖(binned coverage)的图表1000。
图11是根据本发明的实施方案通过分析得自生物体的样品检测该生物体基因组中的半合子缺失的方法1100的流程图。
图12是根据本发明的实施方案用于鉴定外显子缺失的方法1200的流程图。
图13是根据本发明的实施方案用于鉴定长缺失的方法1300的流程图。
图14A描述了根据本发明的实施方案的定相率和脉冲的总数,指示185.5和185.7之间的长缺失(约200Kb)。
图14B是根据本发明的实施方案用于鉴定超长缺失(extra long deletion)的方法1400的流程图。
图15示出了根据本发明的实施方案,识别率随着测序的碱基增加而增加的点状图。
图16示出了根据本发明的实施方案,超过100kb的覆盖可变性的直方图。
图17A和17B示出了根据本发明的实施方案,对于多个胚胎样品的覆盖相对于GC含量的点状图。
图18示出了与根据本发明的实施方案的系统和方法一起使用计算机系统1800的框图。
定义
以下定义可以有助于提供用于理解本发明的实施方案的背景。
“序列读出”或“读出”指代表示构成核酸分子(例如,DNA,cDNA,RNA,包括mRNA,rRNA,siRNA,miRNA等等)的单体单元(例如,碱基)序列的数据。可以通过各种技术从给定的分子测量序列读出。
如本文所使用的,“片段”指代生物样品中的核酸分子。片段可以称为长的或短的,例如,比10Kb长的片段(例如,在50Kb和100Kb之间)可以称为长的,而比1000个碱基短的片段可以称为短的。长片段可以断裂为短片段,对所述短片段进行测序。
“配偶对”或“配对读出”或“成对末端”可以指代不完全重叠(即,覆盖分子的不同部分)的来自同一分子的任意两个读出。两个读出的每一个来自所述同一分子的不同部分,例如,来自分子的两个末端。作为另一个例子,一个读出可以用于分子的一个末端,另一个读出用于分子的中间部分。由于遗传序列可以从头到尾排序,当第一读出开始和/或结束于第二读出的开始和/或结束之前时,可以将分子的第一读出鉴定为比分子的第二读出更早存在于基因组中。当两个读出来自相同分子的不同部分时,两个读出可以称为不同的臂读出(arm read)。对于每个分子可以获得多于两个读出,其中每个读出会针对分子的不同部分。通常在两个读出之间,存在从约100-10000个碱基的未读出序列的缺口(配对缺口)。配对缺口的例子包括500+/-200个碱基和1000+/-300个碱基。
源自同一长片段的小片段可以具有相同的“标签(label)”,其鉴定小片段的起源。标签的一个例子是“孔ID(well ID)”,其指代添加到小片段以确定所述片段来自于哪一个孔(well)的条形码或标签。这样的例子可以当长片段分配到多个孔中,或其它类型的等分试样,并接着片段化为较小的片段时适用。解码(校正)每个读出的标签,并且投射(project)为独特的标签。可以在美国临时申请号61/801,052中找到标签的另一个例子,其中相同的标签可以固定化到同一个长片段的不同分段。
“定位”或“比对”指代将读出(或读出对)关联到与臂读出相似的参照中的零,一个,或多个位置的过程,例如,通过将例化(instantiated)的臂读出匹配到对应参考中位置的索引(index)中的一个或多个键码(key)。
如本文所使用的,“等位基因”对应一个或多个核苷酸(其可以以取代或插入存在)或一个或多个核苷酸的缺失。“基因座”对应基因组中的位置。例如,基因座可以是单个碱基或连续的碱基系列。术语“基因组位置”可以指代基因组中的具体核苷酸位置或核苷酸位置的连续块。“杂合基因座”(也称为“het”)是定位的生物体的参考基因组或特定基因组中的位置,其中染色体的拷贝不具有相同的等位基因(例如单个核苷酸或核苷酸的集合)。当基因座是具有不同等位基因的一个核苷酸时,“het”可以是单核苷酸多态性(SNP)。“het”也可以是位置,其中存在一个或多个核苷酸或一个或多个串联重复的插入或缺失(统称为“indel”)。单核苷酸变异(SNV)对应于具有与具体个人的参考基因组不同的核苷酸的基因组位置。对于个人,SNV可以是纯合的(如果在该位置仅有一种核苷酸),或是杂合的(如果在该位置存在两种等位基因)。杂合SNV是“het”。SNP和SNV在本文中可替换使用。
“定相”指代将不同het的等位基因鉴定为在同一单体型上。定相可以包括确定不同het的等位基因在哪个染色体上。“重叠群(contig)”指代通过多个连接的het限定的染色体连续部分,其中对于二倍体生物,重叠群将具有两个单体型。可以定相重叠群来确定染色体的拷贝。“脉冲”对应于长片段的重构,例如,如可以通过分析与参照的相同区域比对的相同等分试样的读出的覆盖直方图确定。
“连接”指代将序列读出鉴定为与het的特定等位基因在同一单体型上。可以通过域het的等位基因来自同一等分试样来将读出鉴定为在同一单体型上。“孔ID”指代添加到短片段以确定序列读出来自哪个孔(等分试样)的条形码或标签。具有相同孔ID的小片段可以用于重装配长片段。“相het(phase het)”是用于定相以确定重叠群的het。
扩增(例如,复制)可以认为是插入,因为区域的额外拷贝可以与原始拷贝连续插入,或插入到基因组中的另一个位置中。如本文所使用的,术语“染色体”包括DNA的拷贝(例如,如发生在动物中)或RNA的拷贝(例如如发生于病毒中)。半合子缺失对应于被缺失的一条染色体的部分。半合子扩增对应于经扩增以在基因组中超过一次存在的一条染色体的部分。
发明详述
由于自然变异,仅一条染色体中的缺失的身份可能难于鉴定,例如从基因组的一个部分到另一个部分的总覆盖中0.5x-4x的变异有待改进。因此,仅通过比较跨越不同区域的覆盖确定半合子缺失是困难的,特别是对于少量的细胞。另外,伴随着相对较小的样品,无识别(no-call)的数量可以比预期的数目高。另外,错误识别(incorrect call)也可以高于预期。
通过进行定相以确定单体型,实施方案可以提供较大的精确度。接着,可以使用长片段读出(LFR)技术,通过利用读出与对应于单体型的任意读出的共享标签(共享的等分试样)鉴定缺失并解析碱基识别。将基因座连接到多个杂合基因座(het)的单体型可以帮助利用大多数(如果不是全部的话)在基因座处可用的读出,这与仅在两个可能的het之间的连接相反。此外,脉冲的定相率(由具有相同标签的序列读出覆盖的参考基因组的连续部分)可以用于鉴定大缺失。
在实施例中,我们证明了使用提供来自约10个细胞的精确并定相的基因组序列的先进全基因组测序(WGS)测试作为筛选策略来鉴定胚胎基因组中所有潜在的有害缺陷。这将允许避免具有可能导致活分娩失败,或者具有严重遗传疾病的新生儿的遗传性和/或从头遗传缺陷(小到单个核苷酸)的那些胚胎。
I.标签和定相
标签可以用于确定获得序列读出的核酸分子的来源(例如,长片段)。所述来源可以是具体的核酸分子,来自同一核酸分子的序列读出具有相同的标签。作为另一个例子,所述标签可以对应于特定的等分试样(例如,孔),其中每个等分试样包括相对小百分比的基因组。如下文所解释的,等分试样中具有相对小百分比的基因组可以允许这样的假设,即彼此相似的序列读出(例如,彼此对齐或在参考基因组中彼此接近)来自同一个较大的片段。
A.标签的例子(等分试样)
可以追踪获得片段的特定臂读出(armread)的孔。可以使用附着于小片段的条形码确定此孔ID。因此,可以追踪小片段的来源。以下描述了各种实施方案,其可以用于将短片段的读出组装为特定单体型的长片段。例如,可以确定杂合基因座(het),并且所述标签可以用于确定不同het的哪些等位基因是定相的(即,不同het的哪些等位基因在相同单体型上)。
图1是流程图,其显示了根据本发明的实施方案的用于获得短序列读出以组装为长片段,从而获得两个单体型的方法100。方法100将结合图2描述,其示出了显示方法100的步骤的图表。计算机系统可以进行方法100的部分。方法100是示例性的且实施方案可以使用方法100的变型。
在步骤110中,得到包括生物体的核酸分子的一个或多个样品的溶液。样品自身可以是溶液。溶液可以从组织样品或自体液(如血液)获得的样品创建。如图2中所示,样品210为约120pg的高分子量DNA。自每个亲本遗传的DNA突出显示为蓝色(亲本1)和红色(亲本2)。在溶液中,核酸分子倾向于比在将溶液作为等分试样分配(例如从移液器中)到孔中以准备测序后长得多。样品210中的这些非常长的片段的长度可以为约100kb至1mb。
在步骤120中,将溶液分配到物理上不同的池(例如,孔)中。图2在(a)中示出了被物理上分开到384个不同的孔220中的DNA。分开可以是对应亲本DNA片段随机分开到物理上不同的池中。分配的行为通常打断核酸分子,例如随着它们移过移液器的尖端。分配前的核酸分子称作非常长的片段,而分配后的核酸分子称为长片段。在孔(或其它容纳单个等分试样的容器)中的长片段的长度可以是约5Kb至50Kb(或长达几百Kb或甚至更长)。
在一个实施方案中,可以就DNA而言稀释溶液210(例如,少至约10到30个细胞可以在溶液中)。当溶液从移液器中分配时,此稀释可以提供含有约10%(或更少,如1%或0.1%;或更高,如20%或30%)的基因组的等分试样。由于每个池中基因组的分数降低到少于单倍体基因组,在同一池中具有来自两个亲本染色体的对应片段的统计学可能性降低。例如,在每孔0.1个基因组当量下,两个片段将重叠的机会是10%,而那些片段将源自不同的亲本染色体的机会是50%;得到具体孔对于给定片段而言不提供信息的总体机会为5%。因此,考虑到长片段随机分布到整个溶液中,等分试样的原始片段不可能是来自基因组的重叠区域,也不彼此接近,以及不可能来自染色体的不同拷贝。
可以扩增(克隆)这些长片段。例如,可以进行使用修改的基于phi29的多重置换扩增(MDA)的高度一致扩增(Dean,F.B.et al.2002,PNAS Vol.99,pp.5261-6)来将DNA的每个长片段的数量增加到每个孔5,000-10,000个拷贝。扩增可以帮助为覆盖直方图提供更好的统计学数据,例如以确定脉冲。长片段完全不被克隆,或可以在后续步骤中克隆。
在步骤130中,从长片段生成短片段。图2示出了被打断成短片段230的长片段225,如(b)中所示。可以片段化长片段,例如,使用酶促片段化,使用随机引物的多重置换扩增(MDA),和/或物理片段化(例如,使用超声片段化)。短片段源自长片段的片段化。作为酶促过程的一部分或作为额外的步骤,可以扩增所得的短片段。在多个实施方案中,所得的短片段可以是约100-10,000个碱基,或200碱基至5,000个碱基的更窄的范围,并可以是平均500个碱基。
作为片段化为小片段的一部分,通过控制的随机酶促片段化(CoRE),可以将长DNA分子处理为平末端的300-1,500bp的片段。CoRE经由通过尿嘧啶DNA糖基化酶和内切核酸酶IV去除在MDA期间以预先确定的频率掺入的尿苷碱基使DNA片段化。使用大肠杆菌聚合酶1从所得的单碱基缺口的缺口平移可以解析片段并生成平末端。
在步骤140中,将完全特异的条形码衔接头(标签的例子)添加到小片段。因此,可以编码单个等分试样的短片段,如美国专利申请12/816,365中所述(其通过提述并入),从而当来自所有孔的短片段汇集到单个测序方案中时,追踪来自相同孔的短片段。图2示出了添加到短片段230的条形码衔接头235。每个孔具有对于该孔而言独特的条形码。在一个实施方案中,使用高收率、低嵌合体形成方案将独特的10-碱基误差校正条形码衔接头(其经设计以减少由每个条形码的序列和浓度差异引起的任意偏爱)连接到每个孔中的片段化DNA(例如,如美国专利申请12/697,995和Drmanac,R.et al.2010,Science,Vol.327,pp.78-81中所述)。在步骤(b)中的一个实施方案中,将基因组DNA扩增,片段化,并连接到独特的条形码衔接头,全部在同一孔内,没有居间纯化。
在步骤150中,将来自孔的小片段组合到单个测序程序中以提供一个或多个序列(例如,配对的臂读出)。在图2中,在(c),来自全部384个孔的片段组成到单个容器240中,其中条形码衔接头235区分每个小片段的来源。可以使用任意测序平台以获得短片段的整个序列,一个臂读出,或一对配对的读出。在一个实施方案中,可以采用使用对于连接的衔接头通用的引物的不饱和聚合酶链式反应来生成足够的模板用于测序[Drmanac,R.etal.2010]。也可以在测序过程开始之前纯化小片段。或者,可以在分开的过程中测序每个孔,但是这可以是耗费时间的。
询问的单个的池越多,将在分开的池中分析来自母本和父本互补物的片段的次数就越大。例如,每个孔中具有0.1基因组当量的384孔板产生母本和父本等位基因两者的19x理论覆盖。
在步骤160中,将序列定位(比对)到参考基因组并通过条形码分组(例如,通过孔ID)。图2示出了从来自孔1的片段获得的序列的组250,而另一组具有从来自孔2的片段获得的序列。可以追踪孔ID(标签)并用于定相和连接,其中关于连接的进一步细节如下文所述。
在一个实施方案中,可以确定每个孔的一个或多个长片段(脉冲)。长片段的确定可以作为定相的一部分进行,接着长片段可以随后用于连接。在一个实施中,可以从每个组的基因组覆盖确定直方图。可以从直方图的非零或相对高的区域确定脉冲(此类区域可以是连续的,或几乎是连续的,伴有小缺口)。由于每个组对应可能不重叠的长片段,可以确定脉冲对应于长片段220。因而,某些实施方案可以追踪获得测序片段的等分试样(或孔),从而再捕捉关于存在于溶液中的较长片段的信息。此关于较长片段的信息可以提供关于相应染色体的更多的信息。
例如,当使用较低浓度样品时,如果来自相同等分试样(孔)的任意两个片段的臂读出在基因组位置上接近(如通过定位确定),那么可以假设它们源自溶液中同一个原始的长片段。因此,臂读出不必须是相同短片段的,而是可以来自相同等分试样的任意两个片段。这种追踪提供了关于染色体上的大区域的更多信息。
在步骤170中,可以定相比对的序列的组(例如,使用脉冲)以获得两个单倍体基因组。由于脉冲代表了长片段的边界,而亚基因组等分取样中的每个长片段(例如LFR)代表了(具有>95%可信度)单倍体基因组,这样的过程可以显著简化DNA组装的任务。最终,可以生成母本和父本染色体两者的高覆盖完全序列。图2示出了借助于标签知识定相到两个单倍体基因组270中的杂合基因座262的二倍体基因组260。
可以以各种方式完成定相来确定哪个等位基因对应哪个单体型。在一个实施方案中,一组定相的杂合基因座(het)可以称为重叠群。例如,可以定相区域272的het来确定重叠群。并且,可以定相区域274的het来确定重叠群。因此,定相的结果可以是多个重叠群。在另一个实施方案中,可以定相从每个等分试样确定的脉冲(或在其它情况中具有相同的标签),其中het可以仅具有对应于仅一个单体型的定相脉冲。
可能不知道第一个重叠群272的哪个单体型对应于另一个重叠群274的哪个单体型。可以使用通用定相(universal phasing)进行鉴定哪个重叠群的哪个单体型对应于另一个重叠群的单体型。此通用定相可以鉴定对应于第一亲本的所有第一等位基因和对应于第二亲本的所有第二等位基因。注意到两个单倍体基因组270显示通用定相匹配每个重叠群的单体型,从而产生鉴定为亲本2或亲本2的每个重叠群的定相het的结果。进一步的定相可以定相270中的重叠群与另一个重叠群,以配合要来自同一个亲本的两个重叠群的两个单体型。关于定相的另外的信息可以在美国专利申请号13/649,966,13/591,723,和13/591,741中找到。
使用标签确定长片段读出(LFR)可以有效地进行非常长的单一DNA分子的测序,使得用短序列读出组装分开的单体型变得可能[Peters,B.A.et al.Accurate whole-genomesequencing and haplotyping from 10to 20human cells.Nature487,190-195(2012)]。一般来说,定相率非常高,每个基因组中1.65M-2.16M杂合SNP位于N50长度360kb-590kb的单体型重叠群中。这些结果与先前从约150pg DNA制得的LFR文库相比非常有利(图3的表300)。
在确定表300中,将所有文库组装到NCBI build 37的人类参考基因组。高质量的识别基于某些质量的度量,如Carnevali et al中进一步定义的[Carnevali,P.etal.Computational Techniques for Human Genome Resequencing Using Mated GappedReads.Journal of Computational Biology19(2011)]。使用具有修改的GenPhase[Peters,B.A.et al.2012]定相候选变体,例如如本文所述的。对于来自胚胎#8的重复LFR文库,使用来自这两个重复的候选变体,通过每个个别重复进行定相。N50计算基于对NCBIbuild 37人类参考基因组的所有重叠群的总组装长度。如通过符号所标记的,使用从匿名供体收集的5ug基因组DNA,处理欧洲血统的未扩增的对照基因组。如通过符号*所标记的,这些文库从高分子量DNA制得,并具有LFR和STD文库两者。先前在Peters et al.2012中报道了它们,并在本文用于演示如果材料没有限制,那么可以预期定相多少SNV。使用Complete Genomics流水线(pipeline)版本1.5组装NA12892,并使用版本1.8组装NA19420。
B.其它标签
标签的另一个例子可以在美国专利号14/205,145中找到,其中相同的标签可以附着到相同长片段的不同分段。如果将长片段打断为较小的片段,那么每个小片段可以包括相同的标签。在其它实施方案中,相同的长片段的不同分段可以具有相同的标签前缀(prefix),但具有不同的后缀(suffix)。以这种方式,标签可以鉴定两个小片段为源自相同的长片段。在一个实施方案中,根据长片段的数量,不同标签可以作为标记(tag)分配到每个长片段,这可以产生许多(例如,数百万或数十亿)标记。
在另一个实施方案中,每个等分试样中的核酸可以单独测序。以这种方式,在具体的测序操作中获得的所有序列读出可以与相同的标签相关。当读出作为组储存时,可以将此标签分配到读出。
C.预期数量
在各个实施方案中,孔的预期数量可以用于确定将基因座连接到一个或多个het的阈值。例如,如果使用20个细胞,那么应当有约40个对应于人类基因组中的基因组位置的片段(例如,其中所述位置在两条染色体之间相同)。当测序片段时,该信息可以在标签中传达,并用于组装过程。因此,可以预期比对到特定位置处的重叠群的读出的约40种不同的标签(例如,+/-10)。
除了预期的标签数量,还可以使用预期的读出数量。序列读出的预期数量可以源自一般基因组覆盖。例如,如果覆盖为平均40x,那么基于统计学分布,对于健康的基因座可以预期约20x至60x的读出。基因组覆盖(例如,40x)与以基因组大小完成的测序量相关。对于人类基因组,40x乘以3*109=测序的1200亿个碱基。
基因组覆盖可以由要求的精确度和可容忍的成本强制执行(mandate)。如果要求的精确度为60x并且仅有10个细胞,那么那规定需要的最小的扩增量。因此,可以通过需要的测序深度和初始细胞的数量规定扩增的量。扩增后的覆盖量比实际进行的量要高得多。例如,扩增后可以有足够的扩增子以获得1000x,但可以仅测序一部分扩增子,例如,可以测序扩增子以获得40x覆盖。
II.连接
定相het来确定重叠群可以提供关于什么等位基因在相同染色体拷贝上的信息。然而,这些定相的het不提供关于het之间是什么的信息。基因组与定相的het之间的参考基因组不是简单相同的,因为一些基因座可能是不确定的,未测序的,或难以分类的。实施方案涉及解析在连接到het的基因组位置处的一个或多个碱基识别。此类基因组位置可以包括相对于参考基因组的某些类型的变异。
可以需要解析的变异包括插入,缺失,以及区块取代。这些变异可以难以定位到参考,因此相对少量的读出可以对应于这些变异。因此,难以知道在序列读出中是否存在误差或是否实际上存在indel(插入或缺失)。对于大indel而言,该困难增加,特别是由于长度的可变性。
可以试着将这种变异纳入定相过程中,从而使得het的等位基因是这些变异之一。然而,这些变异的相对高的误差率可以导致定相过程的不精确性,从而导致甚至更多的误差(例如,SNP的误差率的10倍)。此外,如果使参数更加宽松(relaxation)(例如,允许读出或参考中的缺口,并允许错配)以允许比对到indel,那么可以导致定位不再独特。因此,灵活性可以导致序列读出定位到参考基因组中的多个位置。
A.使用共享的标签连接
如上文所提到的,在定相中由于某些基因座处的测序误差而可以发生问题。实施方案可以鉴定这些有问题的基因座并不使用它们用于定相。定相后,这些表现出不同于参考基因组的碱基识别的有问题的基因座可以进行进一步的分析(例如,涉及连接)来为重叠群的每个单体型确定这些基因座处正确的碱基。现在描述用于连接的实施方案。
图4是根据本发明的实施方案的用于将第一基因座连接到一个或多个het的方法400的流程图。方法400可以通过计算机系统完全或部分进行,本文所述的其它方法也可以。
在区块410,从生物体的多个核酸分子的测序接收测序数据。核酸分子可以对应于如本文所述的小片段。可以使用任意适合的测序技术进行核酸分子的测序。对于多个核酸分子的每一个的序列数据可以包括核酸分子的至少一部分的一个或多个序列读出。例如,测序数据可以包括配偶对的配对读出,或仅单个序列读出。
序列数据还可以包括对应一个或多个序列读出的标签。单个标签可以对应给定分子的所有序列读出。可以对于每个序列读出储存标签,或对于给定核酸分子的所有读出储存一次。如上文所述,标签指示核酸分子的来源,例如,作为使分子起源的孔或特定长片段的来源。两个核酸分子上相同的标签指示两个核酸分子相同的来源(例如,相同的孔或相同的长片段)。
在区块420,对于测序的多个核酸分子的每一个,核酸分子的至少一个序列读出定位到参考基因组。可以以多种方式并且使用多种标准完成定位。例如,定位可以允许或不允许序列读出和参考基因组之间的错配。对于读出以及对于参考,定位可以使用k-mer指数。匹配k-mer可以指示可能的对齐。
一旦定位了读出,可以对读出的碱基识别追踪读出定位的基因组位置。以这种方式,可以追踪比对到特定基因组位置的读出的各个碱基识别的数量,以及每个读出的各个标签。
在区块430,鉴定了一个或多个het。每个het具有各自的第一等位基因和各自的第二等位基因。可以基于两个不同的等位基因的足够的指示鉴定每个het。例如,可以要求某个数量的具有两个等位基因之每个的读出或标签(即,比对到het的读出的独特标签),以及具有少于特定数量的读出或标签的任意其它等位基因。当存在多个het时,可以定相het以获得重叠群。
在区块440,鉴定了第一基因座。第一基因座可以是单个基因组位置或包括多个基因组位置(其可以是或不是连续的)的区域。可以鉴定第一基因座,因为第一基因座的第一基因组位置具有不确定的碱基识别。例如,比对到第一基因座的读出数量可以相对较低。作为另一个例子,在比对到第一基因组位置的读出上可以鉴定三种不同的碱基识别。第一基因座将不是het的一个。
在区块450,鉴定了共享标签的第一数量。共享的标签在第一基因座和het之间。例如,具有{25,56,95,112}标签的读出可以比对到第一基因座并可以认为是第一组标签。另外,具有标签{25,56,95,156,178}的读出可以比对到任意一个het并认为是第二组标签。因此,即使读出仅比对到het之一,对应的标签将包括于第二组标签中。在这一例子中,共享的标签为{25,56,95}。因而,每个共享的标签对应于一个或多个定位到第一基因座的序列读出,并对应于定位到至少一个het的至少一个序列读出。
在区块460,基于比标签的阈值数量大的共享的标签的第一数量,将第一基因座连接到het。在一个实施方案中,当第一数量比阈值数量大时,第一基因座总是可以连接到het。在其它实施方案中,除了比阈值数量大的第一数量以外,可以要求其它标准。例如,可以要求het在第一基因座的特定距离之内。
一旦第一基因座连接到het,可以分析共享的标签和对应的读出。该分析可以允许检测indel,区块取代,以及一个单体型上无识别向实际碱基识别的变化。这些应用在下文中更详细描述。在下一节中描述了连接的具体实施方案。
在一些实施方案中,基因座可以连接到多于一个het,并且多于一个het可以用于确定基因座是否连接到重叠群的任意het。在这种情况下,在认为标签是共享标签之前,可以要求最小数量的het(例如,绝对数量或百分比)共享标签。例如,如果最小数量的het是两个,那么仅当对于至少两个het出现标签25时认为标签25是共享标签。这可以减少共享孔的鉴定中的假阳性。太大的数量可以导致假阴性,因此适合的阈值可以考虑假阳性和假阴性。接着可以使用共享标签的数量作为基因座是否连接到任意一个het或多个het的重叠群的标准。在一个实施方案中,如果共享标签的数量大于阈值,那么可以连接重叠群的所有het。以这种方式,可以增加基因座是否连接到重叠群的精确性。
在另一个实施方案中,对于与另一个het共享的每个标签,可以增加计数器。因此,如果与更多的het共享标签,那么计数器更高。这一计数器可以用作权重因子(weightingfactor)。这允许使具有来自多个het支持的读出加权得高于具有仅一个het支持的读出。
B.使用窗口连接
如上文所述,第一基因座可以连接到多个het。在连接之前,可以定相这些het以获得重叠群。因此,第一基因座可以连接到重叠群。
图5是根据本发明的实施方案的用于将第一基因座连接到重叠群的方法500的流程图。第一基因座可以是纯合或杂合的,即定位到第一基因座的序列读出可以显示仅一个碱基或多个碱基。因而,可以连接杂合和纯合基因座。第一基因座也可以称为感兴趣的基因座(LOI)。其它实施方案可以采用用于将基因座连接到定相的het的其它技术。
可以在提供多个重叠群的定相过程后进行方法500。在一个实施方案中,对于基因组中的任意位置,至多确定一个重叠群。在其它实施方案中,对于任意基因组位置可以确定多于一个重叠群。
在区块510,鉴定第一基因座。如上文所述,第一基因座可以对应于不确定的基因座,其可以具有低覆盖或矛盾的碱基识别。可以使用多种标准,例如,如本文所述。
在区块520,确定了第一基因座周围感兴趣的窗口(WOI)。可以将WOI的程度与长片段的预期大小(例如,20-100Kb)相关。例如,可以采取WOI以具有两个臂读出之间最大允许配对距离的宽度(例如,10Kb)。也就是说,在基因座的每一侧加或减50%(0.5乘以最大值),其为预期片段大小的分数(例如,20-100Kb)。WOI可以具有仅一个鉴定的het。
在区块530,鉴定了WOI中的重叠群。在一个实施方案中,只要重叠群包括仅一个在WOI中的基因组位置,那么可以认为重叠群在WOI内。在另一个实施方案中,可以要求重叠群的规定数量的基因组位置在WOI内。
在每个基因组位置仅有一个重叠群的实施方案中,方法500可以在WOI的任一末端鉴定重叠群。在一些实施方案中,重叠群可以比WOI小,从而具有多于仅两个重叠群。WOI中重叠群的最长重叠群可以选作鉴定的重叠群。
可以基于除或在长度之外的其它标准选择鉴定的重叠群,例如,确定重叠群的可靠性评分。例如,标准可以包括重叠群的het之间连接(例如,如用于定相步骤)强度的总和。该总和可以用作可靠性的测量。连接可以仅在WOI中的het之间或对于整个重叠群。另一种测量的例子是对于重叠群或整个重叠群感兴趣的区域中的het密度,在一个实施方案中,可以选择具有最大可靠性评分的重叠群。
在一个实施方案中,如果重叠群在WOI内,那么可以将第一基因座连接到重叠群,而方法500可以结束。在另一个实施方案中,使用进一步的标准来确定第一基因座是否连接到重叠群。
在区块540,鉴定具有定位到第一基因座的序列读出的第一标签(例如,孔ID)。可以将序列读出定位到参考基因组以鉴定定位到第一基因座的序列读出。然后,可以鉴定这些定位的读出的标签为对应于第一基因座的第一标签。定位到第一基因座的读出的数量可以比第一标签的数量多,因为来自等分试样的多于一个读出可以定位到第一基因座。
在区块550,鉴定了具有序列读出的第二标签,所述序列读出定位到重叠群的定相het。第二标签可以对应于定位到经鉴定的重叠群的至少一个het的任意读出。第二标签可以对应于来自两个定相的单体型的任一个的读出。以这种方式,可以获得仅一个单体型的信息(如果那是所有可得到的)。
在区块560,将第一标签和第二标签比较以确定所述第一标签和所述第二标签之间共享的标签的数量。共享的标签提供以下指示,即第一基因座的序列读出与重叠群的至少一个定相的het的序列读出在同一个长片段上。如将在后面描述的,这种信息可以帮助解析碱基识别和鉴定半合子缺失。
在区块570,当共享的等分试样比阈值标签数量大时,将第一基因座连接到重叠群。例如,如果两组标签(即,第一标签,第二标签)之间的重叠比允许的阈值(例如,2,3,4或5)大,可以声明第一基因座为连接到鉴定的重叠群。阈值可以是动态值,其取决于目前的样品和其它参数,例如,使用了多少细胞,可能的标签的数量(例如,等分试样的数量),以及每个等分试样中基因组DNA的量,每个等分试样的扩增的量,以及进行了多少测序(例如,测序覆盖和/或深度)。在多个实施方案中,阈值数量可以是总标签的比率或百分比(例如,取决于测序深度,其中更多的测序深度要求更多标签)或绝对数量。
取决于第一基因座的特性,标签的阈值数量可以不同。例如,如果第一基因座是杂合的,那么阈值可以与用于定相的配对过程中的那些阈值相似[Peters,B.A.et al,Nature(2012)]。作为另一个例子,如果第一基因座是纯合的,那么可以简化阈值,例如唯一的要求是共享的标签的数量比阈值数量(例如1,这与等于2是相同的)大。
一旦将区域连接到重叠群或het,标签的序列读出可以与具体的单体型相关,即便该基因座是纯合的。例如,第一基因座的读出可以仅与仅一个单体型共享标签(或多得多的标签)。多个实施方案可以使用第一基因座与het的连接来改进het之间的基因座的确定。
III.使用连接改进碱基识别
连接的基因座通常具有不确定的碱基识别,其可以导致误差或无识别(其对基因组中的缺口具有负面影响)。如果首先完成定相以获得良好质量的重叠群,那么可以将这些不确定的基因座连接到重叠群。接着,可以分析读出和对应的标签来解析碱基识别。由于具有相同标签的读出是读出在同一个长片段上的证据,此附加信息可以帮助解析看上去不一致的数据。
A.方法
图6是根据本发明的实施方案的从得自生物体的样品确定生物体的单体型的方法600的流程图。方法600可以使用将第一基因座连接到多个het的重叠群以解析生物体的一个或多个单体型上的碱基识别。
在区块610,接收序列读出和对应的标签。可以以方法400的区块410相同的方式进行区块610。对于多个核酸分子的每一个的序列数据可以包括一个或多个序列读出和对应的标签,所述标签对应一个或多个序列读出。
在区块620,将序列读出定位到参考基因组。例如,计算机系统可以将核酸分子的至少一个序列读出定位到参考基因组。可以以与区块420相同的方式进行区块620。
在区块630,鉴定了多个het。每个het具有各自的第一等位基因和各自的第二等位基因。可以基于两个不同等位基因的足够指示鉴定每个het,例如,如本文所述。也可以基于与其它het的强连接鉴定het,其中这样的连接可以用于定相。美国专利申请号13/591,723和13/591,741提供了确定het之间连接强度的详细描述。
在区块640,确定了het的第一和第二基因座的定相。定相可以用于确定重叠群,所述重叠群将第一基因座规定为对应第一单体型和第二等位基因为对应第二单体型。可以通过计算测定或仅从存储器中读取定相。
多种技术可以用于定相。例如,定位到het的读出的标签可以用于确定哪个等位基因对应哪个单体型。在一个实施方案中,可以使用het的图表进行定相,其中选择的定相对应图表的最小生成树,如使用het对之间的连接强度所确定的。美国专利申请号13/591,723和13/591,741提供可以用于定相的技术的详情。
在区块650,鉴定了共享的标签的第一数量。共享的标签在第一基因座和het之间。可以基于多种标准选择第一基因座,例如,本文所提到的。第一基因座将不是多个het的一个。
在一个实施方案中,可以从第一组标签和第二组标签确定共享的标签,所述第一组标签对应比对到第一基因座的读出,而所述第二组标签对应比对到任意一个het的读出。两组之间的重叠可以对应一组共享的标签。在另一个实施方案中,可以通过检查每个潜在的标签是否由比对第一基因座的读出和比对到任意一个het的读出共享来鉴定共享的标签。不论使用的技术,每个共享的标签将对应一个或多个定位到第一基因座的序列读出,并且对应至少一个定位到第一重叠群的至少一个het的序列读出。
在区块660,第一基因座连接到第一重叠群。第一基因座是否连接到第一基因座可以基于所述基因座和第一重叠群的第一het处读出中共享的标签。例如,可以基于第一基因座和任意一个第一het中共享标签的第一数量比标签的阈值数量大来连接第一基因座。在另一个实施方案中,除了共享的标签数量的标准以外或代替共享的标签数量的标准,也可以使用具有共享标签的het的数量。例如,可以需要至少两个第一het以与第一基因座处的读出共享标签。
在区块670,将第一碱基解析为第一单体型的第一基因座。因此,可以确定该第一单体型在第一基因座的第一基因座位置具有第一碱基。解析可以基于第一碱基在基因座序列读出(即,第一基因座处的读出)的第一基因座位置处,每个所述基因座序列读出与至少一个het序列读出(即,在第一het之一处的读出)共享标签,所述het序列读出包括第一单体型的第一等位基因。因此,与具体的单体型共享标签。可以要求具有共享标签的het的数量比最小值大(例如,比1大)。因此,het序列可以覆盖至少两个第一het。
作为解析的例子,具有第一基因组位置的第一碱基的序列读出可以一致地与具有第一单体型的het处的一个或多个第一等位基因的序列读出具有相同的标签。以这种方式,可以确定第一碱基对应第一单体型。因此,可以基于所述第一碱基在序列读出的第一基因组位置上解析第一碱基,所述序列读出与包括第一单体型的至少一个第一等位基因的序列读出具有相同的标签。可以解析或不解析第二单体型的第二碱基。
如下文更详细描述的,连接可以以多种方式使用多个het。例如,具有至少两个het(或一些其它的最小数量)与来自第一基因座的读出共享标签的要求可以减少假阳性并除去可能有错误的读出。在这种实施方案中,解析可以仅使用与来自至少最小数量的het的het序列读出共享标签的基因座序列读出。
或者/另外,通过计算每个具有共享标签的het,将对应于与更多het共享的标签的碱基识别加权得更高。在这一实施方案中,可以对第一基因座处的多个碱基识别计算跨越第一het的共享标签的计数总数。可以对每个单体型计算总数,从而潜在提供大小为2x4(代表两个单体型和四个碱基的每一个)的表格。
B.定相
如上文所提及,为了获得重叠群而定相的het可以明确选择为高质量的het来提供精确的定相。高质量het的此选择可以帮助减少误差,其可以导致与错误的单体型相关的等位基因,或来自被鉴定的不正确的等位基因。因此,在没有良好可信度的情况下,实施方案可以丢弃het(例如,等位基因是indel或低质量SNP的情况),并且不使用它们进行定相。然而,这些低可信度的het可以在随后的时间中用于连接过程以解析这样的基因座处的碱基识别。
使用低质量het可以导致由于低质量的het而亚优化(sub-optimized)的图像,所述低质量的het不利地导致选择的错误的路径(即,不正确的定相)。除了转换定相中的错误的高概率之外,低质量het也可以导致短的重叠群。
低质量het(例如,SNP)可以表征为展现出不一致的数据,其可以表现为低质量SNP和另一个SNP之间低的连接强度。例如,低质量SNP的一个等位基因可以与另一个SNP的两个等位基因共享标签,如果低质量SNP也具有第二等位基因的读出,那么这将是不一致的。还有,可以仅存在几个定位到低质量SNP的读出,从而导致低的可信度。具有仅几个读出可以是由indel导致。
在一些实施方案中,可以使用连接矩阵鉴定低质量het。在其它实施方案中,不需要连接矩阵。随后可以使用连接矩阵用于进行校正行为,如本文所述。
图7A示出了具有不一致数据的连接矩阵700。行和列对应两个不同基因组位置的四种不同碱基。矩阵单元格(matrix cell)中的值对应与具有相同标签的选择的等位基因的读出一致性。在多个实施方案中,单元格的特定值对应一些独特的标签,具有相同标签的读出数量的原始数值,或来自每个标签的一致读出的最低数量的总数(例如,如果对于标签#1,C在位置#1处出现三次,对于等分试样#1,C在位置#2处出现两次,那么将数值2添加到{C,A}矩阵要素)。
如所示,位置#1表现出显示C在这两个单体型上,由于其具有对应位置#2上的A和C的标签。这可以是位置#1对于C为纯合的结果,但是接着也存在具有G的读出,其与位置#2处C等位基因具有相同的标签。通过查看两个不同位置的其它连接矩阵可以确定哪个位置是低质量的,例如,相对于位置#3等等。
图7B示出了具有低数量读出的连接矩阵750。对于位置#1或位置#2的不同连接矩阵可以具有较多的值,由于低质量位置(其可以是#1或#2)可以导致该具体连接矩阵的低数量。连接后,由于与仅一个SNP相反,可以与整个重叠群完成连接,可以得到更多读出。
不一致数据或低数量的定位的读出可以是读出误差的结果。不一致读出的结果的结果可以导致某个位置处的无识别或不正确碱基识别(例如,当杂合是正确时为纯合,或反之亦然)。但是,可以使用连接过程恢复那些中一些。
对于indel,问题可以是更显著的。对于SNP,仅存在四乘四的矩阵,其含有所有的组合。对于插入和缺失,如果你想要查看整个空间,那么其实际上是无限的。单个单元格可以用于鉴定另一个类别(category)(例如,代表另一个的“O”),但是这使所有其它可能性混在一起,从而使得分析不那么精确。因此,定相indel是困难的。并且,当将indel连接到SNP时,对于SNP可以要求将其它可能性混在一起。
使用较少het的负面是对于重叠群确定较少的基因组覆盖。因此,技术通常使用任何似乎是het的基因座,甚至indel和具有不确定数据的基因座。但是,如上文所述,误差可能接踵而至。通过使用连接来填补缺口,实施方案可以克服这两个问题(即,覆盖和误差),所述缺口是由于在定相过程中不包括此类低质量het所留下的。因此,所有潜在的het最终用于确定最后的重叠群。
相应地,连接过程允许将定相的任务拆分以两全其美。使用高质量SNP意味着产出(覆盖)受损,但是获得了精确的重叠群。并且,接着使用连接来恢复产出。此外,如果在连接中产生了错误,那么该误差不传播,因为重叠群的进一步组装不依赖于一个基因座的连接。以这种方式,与具有较弱的较宽的主链相反,获得了可以连接到的强主链。并且,降低了在那点后每件事情都是错误的情况下产生转换误差(switching error)的概率。
在多个实施方案中,可以使用两个SNP之间的连接强度,并且基于定位到SNP的读出的碱基识别的质量得分鉴定高质量SNP。碱基识别的质量可以取决于作为测序过程的一部分,序列读出定位到第一het(例如,所述读出是否是对该位置的完美匹配,或者是否存在一个或多个错配),以及覆盖SNP的序列读出的组装(例如,定位到该位置的读出的多个碱基)获得的信号。
除了定相以创建重叠群之外,可以定相重叠群来确定哪些重叠群在同一个单体型上。在通用定相后,可以进行通用连接步骤。通用连接步骤可以用于鉴定更多的共享标签,因为可以使用更多的het(即,来自重叠群的所有het鉴定为在同一个单体型上)。例如,可以连接到基因座两侧的重叠群。这可以允许更多的基因座得到连接(例如,以满足阈值),并可以分析更多的读出(由于更多的het)以帮助解析碱基识别。
C.鉴定无识别
在具体位置的无识别指示不能得到足够的数据来进行精确的测定,或存在不一致数据。无识别可以是缺失,错误的碱基,或低覆盖区域的结果。无识别降低了基因组的识别率。当存在低数量的读出时,该位置通常是无识别。例如,如果存在五个支持C的读出,但是平均期望为40X,那么可以认为五个是太低的。
连接技术可以用于解析无识别的不明确性。例如,如果对于这两种单体型出现具有C的读出,可以鉴定在两个单体型上具有C的位置(即便读出的数量低)。但是,如果仅对于一个单体型出现C,那么系统可以识别C(对于一个单体型),和无识别(对于另一个单体型)。即便一个单体型得到识别,它好于两个单体型都不识别。可以在最终碱基识别中进行这种测定,即在连接过程之后。
引起无识别的不精确性可以是多种原因的结果。例如,单体型之一可能仅仅尚未测序得很多,或该一个单体型可能包括缺失。另一个原因是比对算法缺乏精确性,因为比对可能促进具体的碱基识别。另一个原因是基因座可以在低覆盖区域中,其可以是由于覆盖偏差而发生(例如,由于GC含量所致)。因此,具有低覆盖的单体型可以具有另一个单体型的不到一半的读出。
图8A示出了将基因座820连接到多个het的过程的图表800。Het 810和830-850显示两个单体型的等位基因。标签860示于图表800的右边。对于每个标签,对应标签的读出示于对应于相应het或基因座820的位置的左边。对于读出(例如,对于读出830)示出了水平线以指示等位基因对应哪个单体型。
对于标签3,仅示出了两个读出。基因座820的读出是C,而het 830的读出是C。在一个实施方案中,这种具有共享标签的读出对可以导致标签3被鉴定为与het 830共享的孔。如果仅het 830是连接的并用于解析基因座820处的碱基识别,那么基因座820可以导致两个单体型的无识别,因为仅存在4个读出。另外,het 830上的C连接到基因座820的不同的碱基识别(例如,标签3和标签28具有基因座820的不同的碱基识别),因此单体型#1似乎甚至可以不识别C。在另一个实施方案中,将不添加标签3,因为发现仅一个het具有相同的标签。在再一个实施方案中,仅用1加权标签3,由于发现仅一个het共享该标签。
对于标签11,具有C的基因座820,具有C的het 830,以及具有T的het 840存在读出。此类读出是一致的,因为对于het 830和840的读出都来自单体型#1。考虑到两个het具有共享的标签,可以认为这样的读出关于基因座820上的实际碱基识别具有较高可靠性。
对于标签28,具有G的基因座820,具有C的het 830,以及具有C的het 850存在读出。Het 830和840上的读出不是一致的,由于代表了这两个单体型。因此,基因座820处的碱基识别G是可疑的,并且潜在认为标签28不是共享的标签。如果不考虑het 850,那么在其它情况下已经认为标签28是共享的标签,其可能导致误差。因而,在一个实施方案中,当解析碱基识别时,以及在考虑标签是否为共享标签中,考虑在多个het处的读出的一致性。
对于标签45,具有G的基因座820和具有A的het 840存在读出,其对应单体型#2。取决于实施方案,可以认为(例如,不要求het的最小数量)或不认为(例如,要求het的最小数量大于1)标签45是共享的标签。
对于标签68,具有T的基因座820,具有T的het 810,以及具有G的het 830存在读出。Het 810可以是与het 830-850相同的重叠群的一部分,但可以是不同重叠群的一部分。考虑到存在与基因座820共享标签68的两个het,可以认为T的碱基识别是更可靠的。
对于标签93,具有T的基因座820,具有T的het 810,以及具有A的het 840存在读出。如果仅het 830用于连接基因座820,那么可能丢失该共享的标签。以这种方式,实施方案可以使用更多的数据来解析基因座处的碱基识别。
图8B显示了根据本发明的实施方案的使用将基因座连接到多个het以将无识别(N)转变为碱基识别的过程。再次示出了het 810和830-850以及基因座820。下面,显示了每个het与基因座820的连接矩阵。将这些连接矩阵求和以提供用于连接基因座820的总矩阵。在多个实施方案中,总矩阵可以是连接矩阵的简单总和(因此使用权重)或仅独特的共享孔的简单总和(即,共享的孔仅相加一次)。
为了证明实施方案拯救无识别位置的潜力,示出了三个例子,其中如果仅分析读出并且如果仅分析连接矩阵之一,那么基因座820将通常是无识别。注意每个连接矩阵的一些共享标签在het间可以是相同的。
在示出的例子中,共享孔的分布(对于成对的两个碱基的每一个,具有至少一个读出的孔)允许该碱基识别的再识别(recalling)。因此,这些位置能够由于在相邻的定相het和连接的无识别位置之间共享孔的存在而被“再识别”。使用孔(标签)信息允许具有少至2-3个读出的等位基因的精确识别,若在2-3个预期的孔中发现的话,这比不具有标签信息的情况下少约三倍。因此,可以降低无识别的数量。
对于实例1,het 830和840的连接矩阵显示一些不一致性,和对于het 810的仅一个共享的孔。如果仅考虑这些连接矩阵,那么基因座820可以仍然是无识别。但是,het 820和830间的不一致性是不同的,而当与het 840的连接矩阵组合时,显示下述清楚的指示:基因座820是具有C(对于Hap 1)和具有G(对于Hap 2)的het。
对于实例2,het 810和830的连接矩阵仅具有一个共享的孔,并且het 840和850的连接矩阵显示该基因座可能是het。然而,当对矩阵求和时,清楚的是Hap 1在基因座82具有C。虽然Hap 2将仍然是无识别,但是已经解析了Hap1的碱基识别。
D.变体
通过使用强SNP,假阳性SNP不破坏定相过程并引起重叠群中的误差。另外,连接过程可以消除假阳性杂合SNV或验证其它识别(例如,纯合参考或纯合变体)。连接可以利用以下原理,即在DNA的个别池(pool)中在扩增,测序,以及定位期间掺入的误差不可能仅在一个亲本染色体上重复发生。因此,当存在杂合SNV的强证据时,可以鉴定对应于这两个单体型的读出为误差。
通过将这些SNV连接到周围的杂合SNP,可以评估变体是否与一个或两个单体型同相。那些发现与这两个单体型同相的SNV(杂合变体的不可能性)可能是测序或定位误差。相反,那些与单个单体型同相,但是仅发现于一个DNA池中的变体可能是早期扩增步骤期间掺入的误差。
本研究中分析的4个基因组在分析前使用LFR处理。使用来自胚胎#8的重复文库,我们可以检查通过掺入单体型信息可以做出SNV识别的何种改进。定相了重复1和2之间共享的超过2M(98%)的杂合SNP,如表1中所示。
表1
表1示出了在来自胚胎#8的重复文库之间高度共享定相的SNP。“扩展”标签指代通过标准变体识别程序或LFR定相程序识别的SNP,所述程序供应有来自两个胚胎#8文库的用于定相的候选变体。总体定相率是共享的SNP的总数内的共享并定相的SNP的数量。重复2活组织检查具有13号染色体的部分半合子缺失,导致少26,000个杂合SNP;这解释了文库之间定相的SNP中约一半的差异。SNP中剩余的差异可能是由于重复2中减少的基因组呈现(reprentation),这由于相对于10个细胞从4个细胞起始。这两件事情解释了定相的杂合SNP共享的重复1的较低百分比。
共享SNP的高百分比显示良好的可重复性。这证明了对于共享SNP,每个文库中约99%的SNP定相率,并指示约94%的“定相的发现率”,考虑到任一文库中能再现不识别的约5-6%的杂合SNP,如通过基因组识别率和通过如之前高质量非LFR文库中看到的2.1M共享的SNP所指示的(表300)。
1.杂合SNV
图9A是矩阵900,显示了将基因座连接到两个单体型。由于可以使用用于确定单体型1或单体型2的与任意het共享的标签,相对于两个位置之间的连接矩阵,数值可以是升高的。在示出的实例中(参见图7),由于更多的具有其它共享标签的读出,计数增加。现在基因座在A和C方面杂合的证据更强。
在一个实施方案中,矩阵900可以具有行“其它”,其对应在连接的基因座处具有序列读出的等分试样(或其它标签),但是其中在感兴趣的窗口范围内不存在定相的脉冲(或对应定相的het的读出),所述感兴趣的窗口在给定标签的基因座周围。“其它”行也可以对应发生多个单体型的读出。
2.纯合SNV
连接的优势是可以连接纯合子(纯合基因座),其可以使用定相完成。因而,实施方案可以将纯合SNV“连接”到定相的杂合SNP的重叠群。这允许确认变体存在于两个同源的染色体中,且由于MDA扩增期间的等位基因丢失,变体不识别为纯合的。
图9B是矩阵950,显示了将基因座连接到两个单体型。现在,基因座是在C方面纯合的证据更强。如果参考具有除C外的碱基,那么该基因座将被鉴定为纯合SNV,因为其是相对于参考的变体。
为了更好的理解这可以改进纯合SNV中的误差率,我们可以使用来自胚胎#8的相同重复文库。连接重复之间共享的约1M纯合SNV,这将重复2中的共享纯合SNP的百分比从89.4%增加到97%,如表2中所示。
表2
预期较低的连接率82.6%(与杂合SNV的98%定相率相比),这是由于>20%的基因组不被LFR重叠群覆盖(表300)。先前已经描述过这一现象,并且它是由覆盖该基因组的约30%的低杂合性区域(RLH,具有少于1.4杂合SNP每10kb的30kb基因组区域)所导致的。因此,相对于其他区域,在RLH中连接基因座的能力下降。
从头突变以相等的区域频率发生于整个基因组间。作为结果,当考虑总体基因组识别率时,RLH也将定相的从头突变的检测限制到约82.6%的所有识别的从头突变或限制到79%所有存在的从头突变(对于胚胎#8的重复1,0.826的定相率x 0.96的变体识别率)。未定相的从头样变体通常是误差(在这些文库中我们平均检测到大于30,000个误差,并且预期仅大致约30个未定相的真正的从头突变),并且无法区分。预期较长的基因组片段或亲本完全基因组序列数据的可用性大大减少源自RLH的未定相区域,并增加通过定相验证的从头突变的检测率。例如,较长的片段可以跨越RLH,并因此允许相距非常远的杂合物仍然被连接到RLH中的基因座。
E.连接以联系重叠群
在定相以获得重叠群后,可能存在重叠群无法用下一个het定相的点。在该点,可以使用较低质量的het以连接到重叠群的单体型。如果此较低质量的het在重叠群外部(即,经过重叠群的末端),那么此较低质量的het可以用于扩展重叠群(例如,如果足够,那么可得到一致的数据),并且可能用于桥接两个重叠群。
IV.鉴定半合子缺失
连接还可以用于鉴定半合子缺失。半合子缺失是当一个单体型具有缺失的区域(例如,仅一个碱基,非连续基因座,或连续的碱基组)时。因此,一个单体型包括区域中的碱基,而另一个单体型缺失区域中的碱基。连接可以允许确定两个单体型区域处的序列读出量。当一个单体型的读出量非常低时(例如,相对于另一个单体型的量),那么可以鉴定缺失。
图10示出了根据本发明的实施方案的用于半合子缺失检测的直方图1000。垂直轴对应不同区域(水平轴)处的读出量(也称为覆盖)的计数。具体地,量是标准化的脉冲量,例如,其中脉冲对应重构的长片段的估算值。直方图1000示出了来自每个单体型的标准化的覆盖(蓝色:亲本1001,红色:亲本1002)和来自胚胎#8的重复1的组合单体型的覆盖(绿色-1003),在3号染色体的400kb区域间。
单体型信息可以用于确定每个等位基因的不同覆盖。表明了该间隔中检测的两个缺失。缺失1010显示约7Kb的半合子缺失。亲本1001单体型的覆盖降低几乎到零,但亲本1002单体型覆盖保持接近1。缺失1020显示约10Kb的半合子缺失。对亲本1002单体型的覆盖降低到零,而跨越亲本1001中相同区域的覆盖保持接近1。这两个缺失都发生在MB21D2和HRASLS基因之间的区域中。
作为一个例子,可以使用标签确定不同的单体型覆盖,如上文所述。例如,假设奇数标签对应来自亲本1001的重叠群的读出,而偶数标签对应来自亲本1002的重叠群的读出。如果在某个等位基因仅存在具有A的读出,那么可以确定是否所有的读出来自偶数或奇数标签或两者。如果读出仅(或在很大程度上)具有偶数标签,那么那可以指示亲本1001单体型中在该位置的缺失。可以在将基因座连接到一个或多个重叠群的het后获得标签和读出的量。如果读出仅(或在很大程度上)具有奇数标签,那么那可以指示亲本1002单体型中在该基因座的缺失。如果来自这两种标签的读出量是大约相同或大于阈值,那么可以鉴定为该基因座在A方面纯合,没有缺失。
没有这些单体型信息,鉴定缺失可以是困难的,因为区域可以仅是具有低覆盖的纯合物。例如,区域1030与发生缺失的区域1020具有大约相同的覆盖,但是区域1030中不存在缺失。
A.方法
图11是根据本发明的实施方案的通过分析自生物体获得的样品检测生物体的基因组中的半合子缺失的方法1100的流程图。方法1000可以使用将区域连接到一个或多个het来鉴定区域中的哪些读出(如果有的话)对应哪个单体型,从而允许阈值标准可以集中于对应具体单体型的读出。以这种方式,可以以更好的精确性检测半合子缺失。
在区块1110,接收来自生物体的多个核酸分子的测序的序列数据。序列数据可以如本文所述。例如,对于多个核酸分子中每个的序列数据可以包括核酸分子的至少一部分的一个或多个序列读出,以及对应一个或多个序列读出的标签,其中标签指示核酸分子的来源。
在区块1120,将多个核酸分子的每一个的至少一个序列读出定位到多个核酸分子的每一个的参考基因组。可以使用任意适合的技术进行定位,例如,如本文所述。
在区块1130,将一个或多个het鉴定为连接到第一区域。每个het具有对应第一单体型的第一等位基因和对应第二单体型的第二等位基因。第一区域与一个或多个het的连接可以根据上文所述的实施方案鉴定,例如,使用该区域中一定数量的共享标签和/或重叠群。当使用多于一个het时,可以定相het,使得已知第一het的一个等位基因在第二het的相同单体型上。这些het可以称为定相的het。在多个实施方案中,可以通过一个或多个特定的基因座(即,为对应一个或多个特定的基因座),基因座周围的不同区域,通过第一和最后一个基因座之间的区域,或连续位置的区域来确定第一区域。
在区块1140,鉴定第一标签的第一组。这些第一标签在第一区域和第一单体型之间共享。因此,每个第一标签对应定位到参考基因组的第一区域的一个或多个序列读出。每个第一标签也对应定位到经鉴定的het之一并包括相应的第一等位基因的至少一个序列读出。
在一个实施方案中,具有定位到第一区域的序列读出的一组第一等分试样可以鉴定为第一标签,例如,对应等分试样的条形码。因此,定位到第一区域的序列读出可以与至少一个其它的比对序列相关,这基于以下假设:即两个序列读出潜在源自相同的DNA片段。该假设可以基于两个来自相同等分试样的读出。
在区块1150,确定对应第一标签并且定位到第一区域的第一量的序列读出。在多个实施方案中,第一量可以对应于标签的数量,所有定位到第一区域并具有第一标签之一的读出,或定位到第一区域的输出数目的计数,以及对应于每个标签的第一单体型上的het的最小数量。
在区块1160,将第一量标准化以获得标准化的第一量。可以以多种方式标准化第一量。例如,可以基于进行的测序的量,样品中的细胞数量,或对应第二单体型的序列读出的量来标准化第一量。
在一个实施方案中,鉴定了第二标签的第二组。这些第二标签在第一区域和第二单体型之间共享。因此,每个第二标签对应于定位到参考基因组的第一区域的一个或多个序列读出,每个第二标签也对应于定位到经鉴定的het之一并包括相应的第二等位基因的至少一个序列读出。作为例子,标准化的第一量可以是第一和第二量的比率或差异,其包括两个量的函数的比率(例如,两个量的总和与量之一的比率)。
在区块1170,将标准化的第一量与第一截留值比较以确定第一单体型是否包括第一区域中的缺失。第一截留值可以动态确定,并也取决于进行的测序的量以及样品中细胞的数量。确定可以具有关于缺失可能性的多种分类,其可以对应于不同的截留值。例如,较高的截留值可以指示比较低的截留值更高的缺失可能性,即当标准化的量超过相应的第一量时。分类可以包括在半合子缺失方面不确定,阳性,和阴性,以及阳性或阴性的不同分级。
在一个实施方案中,可以将第一量(第一单体型)与第二量(第二单体型)比较以确定半合子缺失是否存在的分类。在一个实施方案中,可以采取第一量和第二量之间的差异,并可以将差异与一个或多个截留值比较。多个截留值可以对应于不同的分类。在另一个实施方案中,可以采取第一量和第二量之间的比率,并可以将比率与一个或多个截留值比较。
由于区域的序列读出可以针对het或纯合基因座,不管遗传结构如何可以发现缺失。截留值的一些例子是对于正常区域的单体型的10%的平均覆盖,或其它单体型的20%的量。
第一区域可以是各种大小,并可以探索缺失的界限。例如,在确定了第一基因座(例如,单个位置)具有缺失后,那么可以调查临近的基因座以确定临近基因座处是否存在缺失。可以从鉴定缺失的连续基因座发现缺失的大小。为了使用一个或仅几个基因座,可以需要增加测序深度以获得所需的可信度/精确性。
在一个实施方案中,可以使用多个基因座的总和以确定第一区域的量。作为例子,可以要求个别的基因座满足一个标准(例如,第一阈值),并且基因座里的总和需要满足另一个标准(例如,第二阈值)。可以基于基因座的数量标准化以确定适合的截留。也可以基于基因座的总读出,或包括基因组其它区域的总读出标准化。
B.外显子缺失
一些实施方案涉及鉴定外显子中的缺失。在一个实施方案中,可以在某些区域中(即,外显子中)以20个碱基的间隔对外显子区取样,这与每1,000个碱基取样相比是相对密集的取样。可以从数据库(如NCBI)鉴定外显子。间隔可以是任意值,包括每个碱基。外显子中的取样可以用作来自方法1100的第一区域。它甚至可以每个外显子具有一个样品,但是较高的密度可以提供更多的可信度。对外显子区域(其为基因组的约5%)用此取样,存在有比对一般缺失(general deletion)通常完成的呈现更密集的呈现,如后面所描述的。
在一个实施方案中,可以对每个取样基因座测试是否存在缺失。在另一个实施方案中,可以一起检测一组基因座。例如,可以在基因座的组间对来自具体单体型的读出的量求和。
在每20个碱基取样的实例中,对于每个外显子平均获得1到5个取样基因座。外显子长度的平均数或中位数为约30至100个碱基。在一个实施方案中,如果存在有外显子上进行分析以检测缺失的三个基因座,那么可以将来自一个单体型的计数数量的总和与另一个单体型上那三个基因座的每一个的计数的总和比较。
在另一个实施方案中,可以分开测试三个基因座的每一个。在一个实施方案中,仅计数比对到3个基因座的片段。在另一个实施方案中,可以计数比对到区域中任意位置(例如,基因座之间或基因座周围的窗口中)的任何片段。计数可以是孔的数量或来自孔的序列读出的数量,或本文提到的其它值。
在一些实施方案中,可以假设外显子总体缺失。在其他实施方案中,外显子的一部分可以缺失,其可以通过查看比完整外显子小的区域而检测到。由于可以对每个基因座保留计数,可以计算任意亚区域的总和。因此,如果一个基因座表现出缺失而另一个基因座不表现出缺失,那么外显子的一部分可以鉴定为被缺失。在一个方面,实施方案可以不知道缺失的单体型是否来自于母亲或父亲,仅那一个是缺少的。
图12是根据本发明的实施方案的用于鉴定外显子缺失的方法1200的流程图。方法1200可以例如鉴定20bp至2Kb的外显子缺失。在一个实施方案中,通过首先填充2Kb或更小的内部片段缺口,接着通过从每个末端侵蚀(erode)0.5Kb处理原始的长片段。接着,可以片段化长片段以提供用于测序的核酸分子。
在区块1210,将序列读出定位到参考基因组,并鉴定对应的标签。可以通过任意适合的技术进行定位,例如如本文所述。可以如本文所述鉴定标签。
在区块1220,选择一个或多个基因座用于确定基因座处是否存在缺失。在多个实施方案中,基因座可以对应同一基因的不同部分,同一外显子的不同部分,同一基因的不同外显子,或不同基因的任意组合。这些基因座可以对应于方法1000中的第一区域。
在区块1230,确定一个或多个重叠群。重叠群可以经过通用定相。可以通过定相het来测定重叠群以获得具有等位基因的重叠群,所述等位基因鉴定为来自第一单体型或第二单体型。当存在多个重叠群时,单体型的第一指定仅在重叠群内一致。也就是说,一个重叠群的第一单体型不必然与另一个重叠群的单体型相同(来自相同的亲本)。通用定相可以用于匹配来自不同重叠群的单体型,并因此将一个单体型鉴定为来自母亲,而将另一个单体型鉴定为来自父亲。可以通过对重叠群的重叠区鉴定重叠群比对进行通用定相。
在一个实施方案中,het的定相可以使用脉冲,其对应来自具体等分试样的重构的长片段的估算。基于脉冲与哪个单体型一致,这些脉冲可以标记为来自第一亲本(例如母亲)或第二亲本(例如父亲)。例如,可以将脉冲的等位基因与两个单体型的等位基因比较以确定对应的单体型。可以通过鉴定对应的单体型定相脉冲。在这一实施方案中,重叠群的一个单体型可以比重叠群的另一个单体型长。
在区块1240,将一个或多个基因座连接到一个或多个重叠群(或仅一个het)。可以通过本文所述的技术将基因座连接到重叠群。在一个实施方案中,可以基于覆盖基因座或在基因座周围的规定窗口内的脉冲鉴定连接。连接标准可以鉴定不可接近的基因座(或其它区域)。例如,20%的区域可以被鉴定为不可接近的。
在区块1250,使用标签为比对到基因座的读出鉴定相应的单体型。例如,如果读出具有对应于第一单体型的标签,那么可以将读出鉴定为来自母亲。并且,如果读出具有对应第二单体型的标签,那么可以将读出鉴定为来自父亲。读出也可以鉴定为来自这两者(如果存在矛盾),其中这样的读出可以被排除。如果基因座没有连接,那么不可能完成亲本指定。在一个实施方案中,可以通过比对到连接的基因座之一的脉冲鉴定读出的单体型。
在区块1260,确定第一单体型的读出的标准化的第一量。标准化的第一量可以对应一定数量的标签,并可以通过相应基因座的数目(即,在区块1240鉴定的基因座的数量)和通过重叠群的数量标准化。可以计算其它的标准化的值,例如,以确保基因座的足够的读出覆盖,从而避免低精确性区域和避免缺失的假阳性。
在多个实施方案中,可以计算以下值。可以对每个单体型计算“标准化的定相孔”(NPW)(即,对于hap 1的一个值和对于hap 2的另一个值)。每个单体型的NPW以对单体型定相的孔和相应基因座的数量(其补偿在使用较多基因座时)的比率测定。对于hap1定相的孔的数目对应于孔的数目,所述孔具有连接的基因座之一处的读出,并且具有对应于重叠群的hap1的定相het(即重叠群的het)的读出。对于hap2定相的孔的数量可以以相似的方式计算。在一个实施方案中,NPW可以提供每基因座的定相孔的平均数量。
“标准化的定相孔的比率”(RNPW)对应于两个NPW的两个可能比率的最大值,即,大于1的比率。例如,如果RNPW1对应hap1,而RNPW2对应hap2,那么RNPW对应RNPW1/RNPW2和RNPW2/RNPW1中的较大者。
也可以对于每一个单体型计算“标准化区域定相孔”(normalized region phasedwells,NRPW)。区域可以对应于规定长度(例如,1Kb)的一致分布的区域(面元,bin)。区域可以包括所有或一些基因座。单体型的NRPW是单体型的定相脉冲的数量除以该区域中基因座的数量。对于单体型,面元的定相脉冲的数量对应于独特脉冲的数量,所述独特脉冲与该面元重叠,对应于该单体型,并与重叠群重叠(例如,重叠群的一个或多个定相的het)。“标准化区域定相孔的比率”(RNRPW)对应两个NRPW的两个可能比率的最大值,即,大于1的比率。作为例子,RNRPW对应NRPW1/NRPW2和NRPW2/NRPW1中的较大者。
对于每个单体型也可以计算“双重标准化的定相孔”(DNPW)。对于给定的单体型,DNPW是同一单体型的NPW比NRPW的比率。DNPW可以提供基因座的共享孔相对于包括该基因座的至少一部分的区域的共享脉冲的比率。对于没有缺失的区域,DNPW将为约1。还有,如果整个区域缺失,那么DNPW将相对较大,因为NRPW和DNPW将是小的(例如,都为0,其可以取为1)。“双重标准化的定相孔的比率”(RDNPW)对应两个DNPW的可能比率的最大值,即,大于1的比率。
在多个实施方案中,标准化的定相孔的比率,标准化区域定相孔的比率,或双重标准化的定相孔的比率可以用作标准化的第一量。使用比率可以补偿当使用较多细胞时,并且因此产生较多的定相孔或定相的脉冲。使用RDNPW允许排除较大的缺失(即,当缺失连续的区域时,与仅基因座相反)。还有,RDNPW允许避免这两个单体型的缺失,因为比率将为约1,由于两个单体型的DNPW都将相似较低。这些其它类型的缺失可以以其它方式检测。并且,该实施方案可以允许检测缺失多么局部化。
在区块1270,将标准化的第一量与截留值比较。在一个实施方案中,将双重标准化的定相孔与截留值(例如,在5-15之间,例如10)比较。可以使用其它标准化的量,如本文所述。
在区块1280,还可以进一步分析基因座以确定它们是否满足进一步的标准。区块1280可以在区块1270之前或之后进行。当在1270之前进行时,进一步的标准可以规定基因座是否可评估。在一个实施方案中,仅那些可评估的基因座接着在区块1270中分析。可以任选地完成模块1280以避免低覆盖的区域,有效避免缺失的无识别区域。在一个方面,可评估基因座对应于可以进行缺失的确定的区域。如果进一步分析非可评估基因座,那么可能产生假阳性。
作为例子,可以要求标准化的定相孔的最大值比阈值大。还有,可以要求标准化的区域定相孔比特定值小,使得一个单体型的覆盖不显著不同,除了可能的缺失区域外。可以使用标准的各种逻辑组合。在一个实施方案中,该标准的逻辑组合是(a和b)和((c和d和e)或f),其中:
a)基因座属于定相的重叠群(即,基因座是重叠群的一部分或连接到定相的重叠群)。
b)基因座的数量大于或等于指定的数量(例如,1)。
c)标准化的定相孔的最大值大于或等于6(例如,以确保不包括缺失的单体型的足够覆盖)。
d)标准化区域定相孔的最小值大于或等于指定数量。较大的值可以排除整个区域的大型缺失,如此,仅检测较小的外显子缺失。0值将不起滤器作用。
e)标准化区域定相孔的比率小于或等于3(例如,为了确保区域相对平衡)。
f)标准化的定相脉冲的最大值小于6且标准化的定相脉冲的最小值大于或等于2。可以使用其它值并可以基于样品的大小(例如,细胞的数量)改变。这可以确保定相的脉冲的数量落在边界的平衡组中,因此避免可能潜在欺骗缺失检测逻辑的区域。
提供一些结果用于胚胎的分析。对于胚胎#8重复1和2,胚胎#13,以及对照文库的尝试分数(百分比可评估)分别为80.7%,70.6%,61.8%,和58.5%。实施方案鉴定出胚胎#8文库1中的4个基因中的4个外显子缺失;胚胎#8文库2中的6个基因中的6个外显子缺失;从胚胎#13生成的文库中的7个基因中的7个外显子缺失;以及血细胞对照文库中6个基因中的6个外显子缺失。
在从胚胎#8生成的这两个重复文库中检测到仅两个外显子缺失。我们检查了在重复2文库中没有鉴定的重复1中检出的2个缺失,并发现1个被宣称为在重复1的第二个文库中可评估(即,比截留值大)。然而,此缺失的平均“双重标准化定相脉冲的比率”为7.2,即较高,但是低于用于额外标准的阈值10。
在一个实施方案中,可以在外显子中进行较高密度的取样,但是对于基因组的任意部分可以进行较粗的取样(例如,每10,000个碱基)。例如,从每个染色体的开头起始直到它的末端,实施方案可以每10,000个碱基取样(或其它比率)。
C.长缺失
一些实施方案涉及鉴定长缺失。在这些实施方案中,可以将基因组打断为特定长度的面元,例如,0.5Kb。因此,实施方案可以对同一区域中的全部500个碱基取样,其中500个碱基的区域考虑为单个点,通过使用相等的权重对窗口内的任意脉冲计数。例如,对于具体的500-碱基区域(即,500个连续的碱基),对于对应母亲单体型的脉冲的每个碱基,计数器可以递增一个。在其它实施方案中,区域内脉冲的重叠量可以用于提供不同的权重。在一个实施方案中,可以将总和除以500(不论窗口的长度可以是多少)以获得脉冲计数的平均呈现和面元。
图13是根据本发明的实施方案的用于鉴定长缺失的方法1300的流程图。方法1300可以例如鉴定1Kb至40Kb的长缺失。
在区块1310,可以将序列读出定位到参考基因组并鉴定对应的标签。标签可以用于鉴定来自相同孔的读出。来自相同孔和彼此接近的读出可以用于创建脉冲。在一个方面,虽然具有相同标签的多个读出可以比对到相同的基因组位置,但是此类读出可以处理为有助于单个脉冲。此类读出可以源自片段的扩增,从而在相同的基因组位置具有多个读出。因此,实施方案可以具有标签,仅将覆盖1贡献给基因组的任何部分。
在区块1320,选择面元(区域)用于确定缺失是否存在于所述面元中。面元可以对应连续基因组位置的任意连续区域,例如,0.1Kb至1Mb,例如0.5Kb,可以用作面元大小。面元可以是非重叠的,并是连续的,使得以规定的间隔(即,每N个碱基,其中N是面元大小)遇到新的面元。
在区块1330,确定并定相多个脉冲。从具有相同标签的读出创建脉冲,因此脉冲与具体的标签相关。多于一个脉冲可以与相同的标签相关,例如,对应基因组的不同部分的脉冲,孔中的不同长片段的每个脉冲。
一旦确定了脉冲,可以定相具有多种标签的脉冲。定相可以鉴定脉冲来自哪个单体型,例如,脉冲来自母亲或父亲。可以以多种方式完成定相。例如,两个脉冲的重叠(例如,多个het处的共同等位基因)可以用于鉴定来自相同单体型的脉冲。
在区块1340,确定了比对到面元的脉冲的标准化的量。如果脉冲比对到面元中的任意位置,那么可以认为脉冲比对到面元。例如,如果脉冲的最后一个碱基比对到面元的第一个位置,那么可以将脉冲鉴定为比对到面元。其它实施方案可以要求在鉴定比对前较高的重叠碱基数量。在一个实施方案中,脉冲的标准化的量可以是定相率,其以定相的脉冲的数量除以至少部分在面元内的脉冲总数测定。
标准化的脉冲量的其它例子以及其它值的例子(其可以对于每个面元确定)包括以下的。标准化的总脉冲(NTP)可以作为脉冲的总数量除以标准化因子(例如,候选面元的总脉冲的平均值)计算。候选面元对应分析的面元或满足指定标准的进一步子集。单体型的标准化定相脉冲(NPP)对应定相脉冲的数量除以标准化因子,所述标准化因子用于脉冲总数的标准化。标准化的调整脉冲(NAP)对应于标准化的总脉冲数量减去两个标准化的定相脉冲(例如,对于每个单体型)的最小值,其中最小值将对应于具有缺失的单体型(如果存在一个)。
计数器可以确定比对到面元的脉冲数量。例如,每次发现脉冲比对到面元,可以增加计数器。可以对每个单体型使用计数器。计数器可以用于确定本文所述的任意量。
在一个实施方案中,可以确定面元中重叠群的数目。例如,面元可以在一个末端具有一个重叠群,而在另一个末端具有另一个重叠群。取决于面元的大小,面元可以具有多于两个重叠群(例如,一个在中间),但它将是不可能的。在一个实施方案中,具有多于1个重叠群的面元可以从分析丢弃。在其它实施方案中,重叠群的数量可以用于将量标准化。例如,具有两个重叠群的面元可以通过因子2标准化,因为预期脉冲的数量将较大,这是由于两个重叠群在面元内。
PolyN是无识别(N)的序列,其可以起缺失序列的占位符作用。可以要求N的值大于要认为是polyN的阈值。polyN可以是每个面元的二进制值,其中polyN值指示面元中至少一个参考基因座polyN碱基的存在。polyN值可以用于验证来自列表的面元。
在区块1350,将标准化的量与截留值比较。标准化的量可以对应具有较少脉冲的单体型。比较可以确定面元是否是包括缺失的候选,使用额外的标准来进行最终确定。比较还可以确定面元确实具有缺失,而不需要额外的标准。
在一个实施方案中,将两个NPP的最小值与第一截留值(例如,0.15)比较。与这一标准组合或作为不同的标准,可以将两个NPP的绝对差异约束为大于或等于0.7。因此,可以动态地确定截留值,并可以取决于另一个单体型的脉冲的量。在再一个实施方案中,可以要求NAP大于或等于0.9。这些条件(和/或其它条件)中的任一个可以指示两个单体型的脉冲数量显著不同,其可以指示缺失。
在区块1360,确定面元是否满足其它标准,例如,其可以使面元取得候选面元的资格。在区块1350之前或之后,可以将一些或所有其它标准应用到面元。在一个实施方案中,基于以下标准选择候选面元:(a)不是Polyn面元和(b)对于目前的面元,脉冲总数量大于或等于所有面元的总脉冲的平均值的一半和(c)对于目前面元,定相率大于或等于70%。在一个实施方案中,这些标准可以用于鉴定候选面元,接着其它标准可以将标准化的量与截留值比较,以及其它条件。可以以各种顺序进行区块,例如,区块1360可以在区块1350之前进行。
在另一个实施方案中,以下标准组可以用于区块1350和1360中的条件(并且可以与其它条件组合)。在候选面元中,可以将具有以下特性的那些鉴定为缺失:(a)标准化的脉冲总数大于或等于0.5(其可以丢弃具有相对低覆盖的面元,例如,那些无法精确评估的面元);和(b)两个标准化的定相脉冲的最小值小于0.15(其可以是确定缺失存在的截留值,经受其它用于滤出假阳性的标准);和(c)两个标准化的定相脉冲的最大值在0.5和1.5之间(其可以丢弃具有相对低覆盖或太高覆盖的面元);和(d)定相率大于或等于0.5(其可以保证面元以足够的精确性连接到重叠群);和(e)两个标准化的相脉冲的绝对差大于或等于0.7(其也可以滤出低覆盖区域,例如,如果最小值为0.15和最大值为0.5,通过确保一个单体型比区域中另一个单体型更显著呈现);和(f)NAP大于或等于0.9(其也可以提供与(e)相似的功能性)。可以选择这些标准,使得缺失这两个单体型的面元将不通过标准。
提供了胚胎分析的一些结果。鉴定出分别来自自胚胎#8重复1,胚胎#8重复2,胚胎#13,和对照血细胞生成的文库的跨越基因组的48.8%,52.3%,47.4%和22.6%的候选区域。从这些候选区域,实施方案鉴定了从胚胎#8重复1生成的文库中的106个缺失,胚胎#8重复2文库中的452个缺失,和胚胎#13文库中的926个缺失。算法也在从5个血细胞制备的对照文库中鉴定了169个缺失。对于10-细胞文库微调算法的阈值;因此,我们预期胚胎#8,重复1的数量更精确。
D.超长缺失
如果缺失的长度大于2x片段长度,那么将不存在定相的片段以示出以前证明的表型(一个拷贝正常,一个拷贝降低到零)。取而代之,由于缺乏定相(跨越大型缺口),这两个定相的拷贝将接近零。然而,实施方案可以使用签名(signature),所述签名可以用于鉴定超长单拷贝缺失。这可以通过实例示出。
图14A描述了根据本发明实施方案的定相率和脉冲总数,指示185.5和185.7之间的长缺失(约200Kb)。可以如下鉴定此缺失(使用上文对方法1300所述的值):
1.定相率1401(蓝色线)降低到几乎零,和
2.脉冲1402总数量(绿色线)跨越间隔降低。
定相率由于一个或两个染色体拷贝的丧失而可以降低到几乎零。由于定相鉴定这两个单体型,丧失一个单体型可以引起超长区域的定相的缺乏。然而,由于拷贝的总数不降低到零,其意味着存在一个拷贝。因此,存在有半合子缺失。定相的丧失可以源自区域中可观察het的缺乏,这是由于对于半合子缺失仅将观察到一个等位基因。
图14B是根据本发明的实施方案的用于鉴定超长缺失的方法1400的流程图。方法1400的部分可以如本文对其它方法所述的那样进行。
在区块1410,将序列读出定位到参考基因组并鉴定相应的标签。可以如本文对其它方法所述的那样实施区块1410。
在区块1420,鉴定多个定相的het。每个定相的het具有第一单体型的相应第一等位基因和第二单体型的相应第二等位基因。鉴定多个定相的het可以包括定相多个het,或仅从文件读取定相的het。可以使用任意适合的技术鉴定定相的het,例如,如本文所述。
在区块1430,确定与第一区域重叠的脉冲的第一总数。脉冲对应于由具有相同标签的序列读出覆盖的参考基因组的连续部分。可以将重叠限定为规定数量的碱基,例如,10个碱基或仅一个碱基。检测到的缺失可以与脉冲一样大或比脉冲更大。
在区块1440,对第一区域确定定相脉冲的第一定相数量。这些定相的脉冲与第一区域重叠,并覆盖至少规定数量的定相het(即,脉冲包括定相het的位置)。需要覆盖的规定数量的定相het的例子是1-10个碱基之间的任意值,或可能更大。定相的脉冲可以用于任一个单体型。
在区块1450,使用第一定相数量和第一总数的比率计算第一定相率。例如,第一定相率可以是第一定相的数量除以第一总数,或第一定相数量除以第一定相数量和第一总数的总和。可以使用其它比率和缩放(scaling)因子(例如,权重)。
在区块1460,确定第一区域是否包括缺失,基于第一定相率与第一截留值的比较。可以使用进一步的标准,例如,脉冲的总数(或总覆盖直方图)在区域中下降。如果脉冲总数降低到零,那么可以确定两个单体型的缺失。如果脉冲总数降低但是没有到零,那么可以确定一个单体型的缺失(半合子缺失)。
除了使用第一区域的第一定相率来确定第一区域是否包括缺失外,可以使用第二区域的第二定相率(与第一区域连续)以确定第一区域是否包括缺失。例如,可以要求两个区域的定相率低于要确定的缺失的各自截留值(其可以相同)。可以要求连续区域的阈值数量具有低于要确定的缺失的截留值的定相率。
E.插入/扩增
实施方案也可以鉴定扩增。例如,可以标准化区域的每个单体型的量(例如,读出或脉冲的量),使得单体型的单个拷贝将显示为1,而经扩增的区域将显现为2或更多。作为另一个例子,如果两个单体型的覆盖都太大而不能认为是缺失,那么当第一单体型的第一量相对于第二单体型的第二量之间的不一致相对较大(例如,大于2,或潜在地稍低的值,例如1.8)时可以鉴定扩增。可以进行这样的分析来鉴定已知基因组的部分是扩增的。
对于从头插入,实施方案可以对接近插入的一个单体型鉴定小的跌落(dip),因为较少的读出将能够定位到插入交接的边缘。在一个实施方案中,使用高分辨率取样点(例如,高数量的基因座或小面元),或选择的基因座会需要接近插入。对于倒转(inversion),这将起缺失和插入作用。可以如上文所述检测缺失。
在一个实施方案中,可以鉴定插入和缺失之间的差异。可以通过覆盖直方图的丧失(总体或具有缺失的单体型)的深度和该丧失的斜率来鉴定差异。例如,长度的插入和大约相同长度的缺失之间的差异可以是向着缺失或表观确缺失的区域的下降对于两种情况将具有不同的斜率(其中插入通常具有较小的斜率)。例如,插入和非常短的缺失的斜率可能相似,但是由于插入的跌落较小(与较长的缺失比较),来自两侧(即,插入的两侧,其在参考中有效出现于相同位置)的斜率的总和对于插入跌落应当增加表观斜率。
在一个方面,插入(不论插入的大小)当完成面元化(binning)时可以导致丧失的浅深度,由于面元将具有一些在插入周围定位的读出(而缺失将具有从一个单体型缺少的读出)。斜率的变化可以源自定位模块(即,定位到参考)不容许太多误差,因此不定位插入或缺失中的读出。对于定位的缺乏,对于缺失存在更加逐渐的下降,由于有臂的一些部分丧失;并且对于插入,该下降会是更突然的。
对于半合子indel,正常的单体型具有良好的覆盖。并且,如果缺失足够小而配偶对可以跨越indel,那么具有缺失的单体型可能具有适合的克隆覆盖(不是碱基覆盖)。在对面元计数读出或脉冲的实施方案中,对于缺失,覆盖不会跌落得非常低。因此,对于小的缺失,跌落将是浅的。
然而,对于长indel,配偶对不能跨越长indel。因此,覆盖将较低,这是由于读出将不定位到参考基因组。因此,跌落将更深。因此,取决于寻找的indel的大小,可以使用不同的截留值。并且,可以使用不同的截留值来指示indel的可能性和对应的大小。
一个实施方案可以使用以下标准鉴定扩增(例如,长重复)。可以定相脉冲,并可以确定面元中脉冲的量,如上文所述。如果所有的下述这些条件是真的,那么可以选择具有以下特征的候选面元,并标记为重复:(a)标准化的脉冲总数大于或等于2.5(这鉴定具有高覆盖的面元)和(b)两个标准化的相脉冲的最小值在0.5和1.5之间(这确保最小值不会太低或太高,从而对应大约1的标准化值)和(c)两个标准化的定相脉冲的最大值大于或等于2.0(至少为重复);定相率大于或等于0.5(其可以确保面元以足够的精确性连接到重叠群)和(e)两个标准化的定相脉冲的绝对差大于或等于0.9(足够的差异以指示两个单体型具有不同的覆盖)。
F.标准化/截留
上文描述了多种类型的标准化。例如,面元的标准化可以取决于其它面元的平均值。这种标准化将取决于平均值为哪些面元所计算。面元的选择可以引入偏爱(bias)。
实施方案可以鉴定区域以排除,接着相对于基因组的剩余部分计算标准化。例如,如果排除了20%的面元,那么这20%将不用于标准化的分母。因此,其它80%的面元可以用作标准化的分母。作为例子,可以由于区域具有高GC含量或由于区域具有非常高或非常低的计数而排除区域,这可能实际上去除一些实际上具有缺失的区域。
在一个实施方案中,在量的标准化为动态时,可以使用固定的截留值。可以使用可变的截留值,其等同于标准化。因而,标准化可以影响截留值是什么或者等同地如何缩放差异或比率。例如,如果没有使用标准化,那么培增覆盖可以引起截留值的翻倍。
关于测定给定的标准化的截留值,实施方案可以以实验确定标准行为的变化(variance)。例如,对于典型变异,标准偏差的数量。可以基于这一实验确定的变化选择截留值。
V.讨论和实施例
这里,我们描述了通过先进的、高精度的全基因组测序(WGS)技术对整个胚胎基因组的分析。在9个WGS测试了来自7个囊胚阶段的胚胎的高达10个细胞的活组织检查,所述胚胎来自具有导致肌强直营养不良的DMPK1基因中的已知GTC扩展的夫妻。每个胚胎中分析了87%-97%的基因组;在胚胎的亚组中,使用上文所述的长片段读出(LFR)技术产生了高质量单体型数据。在这些LFR分析的胚胎中,我们证明了与标准测序相比在相似的灵敏度的情况下更高水平的精确性,足以实现具有遗传性或从头的致病性遗传缺陷(从点突变到大结构变体)的胚胎的详细PGD和潜在避免。
我们先前已经证明了单体型信息在鉴定失活基因和去除假阳性SNV中的重要性[Peters,B.A.et al.2012]。这里,我们拓展了定相的用途以表明这种类型的数据可以如何用于确认纯合子,鉴定扩展的三个苷酸重复,以及测量CNV获得和丢失。这里,检测半合子短外显子缺失的经证明的能力代表了由LFR实现的新的WGS成就。与调节序列的新近ENCODE注解和通过高质量WGS在大量不相关的个体上使用相同的测序化学获得的一大批群体变体组合,这些分析创建了非常有力的全基因组预测工具。这些类型的分析可以从IVF胚胎测试扩展到任意其中5个或更多细胞可用的组织,开启了通向非侵入性产前遗传检测和从循环肿瘤细胞或微活组织检查进行癌症筛选的大门。
在以下实施例中,我们证明了与用于定相的LFR和增强的精确度组合,高覆盖WGS(约100X)(通过高效的大规模平行测序变得负担得起)可以用于在PDG可行性测试中鉴定有害的SNV,短插入或缺失,重复扩展,线粒体突变,以及其他的较大结构变化。不使用亲本WGS来归因(impute)遗漏的变体或去除误差(其会导致所有从头突变的不想要的去除),我们证明了在定相的SNP检测中94%的灵敏度及每个基因组的很少定相误差。这实现从头SNP的定相和因约79%的精确识别。大多数未定相的从头突变(其通过我们现在的方法与扩增导致的误差不能区分)可能在占据这些基因组的约30%的低杂合性的区域中引入,与我们先前的研究一致[Peters,B.A.et al.2012],并要求更长的DNA片段和进一步优化定相算法。此外,我们示出了由于从少量细胞扩增DNA而积累的假阳性SNV的数量显著地降低WGS方法的灵敏度和精确性,没有某种形式的误差降低,如LFR或者限制WGS以识别仅亲本变体(BGI配套文件(companion paper)。LFR允许这些低误差率和从头点突变的检测,尽管使用仅4至10个细胞起始并进行20,000倍的MDA扩增,其引入超过30,000个DNA突变每样品。
这是首次证明绝大多数的从头突变(其导致高得不成比例的遗传缺陷百分比)可以在PGD中检测到。LFR文库的(与标准文库比较)以及在这一先进的WGS中测序到100X覆盖的较高成本可以通过不测序亲本基因组抵消。然而,除了定相胚胎基因组外,存在着具有亲本WGS的进一步的优势,例如归因通过LFR没有定相的少数百分比的遗传性变体的能力和RLH中的改善定相,其帮助定相和验证更多的从头突变。因为预期WGS的成本随着技术的改进和广泛的应用而降低,而且因为使用亲本WGS作为最终遗传测试也允许实施亲本的基因组医学,我们相信未来的生殖医学将包括夫妻(或充当载体筛选的准父母)和IVF或产前胚胎的先进定相WGS。在数千而不是数百等分试样中使用皮升反应器进行LFR过程可以帮助解析一些特殊重复,并允许测量每个个别染色体的端粒长度。
A.来自胚胎活组织检查的标准WGS
为了证明WGS作为PGD的方法的潜力,从约10个细胞活组织检查生成9个测序文库,所述细胞活组织检查来自7个不同的5天龄囊胚期胚胎。作为对照,从5个血细胞制备了另一个文库,所述血细胞来自不相关的匿名供体。使用修改的多重置换扩增(MDA)方案将每个文库扩增约20,000倍,并在Complete Genomics’DNA微阵列测序平台上分析,所述平台具有每DNB成像单个像素[Drmanac,R.et al.Human genome sequencing using unchained basereads on self-assembling DNA nanoarrays.Science327,78-81(2010)]。尽管进行大量的扩增,对于所有的10个文库都有很好的覆盖,其中87-97%的基因组具有识别的两个等位基因(表300)。
使用不同量的读出覆盖组装了一个胚胎文库(#10);没有出乎意料地,当分析较多的读出时,覆盖更多的基因组,足以产生碱基识别(图15)。在图15中,不出意外地,测序的碱基越多,SNV的总数变得越大,识别的基因组的总体百分比变成越高。使用变化量的读出组装胚胎10的文库:Complete Genomics的标准覆盖为约50X(143GB),它们的高覆盖为约80X(260Gb),以及非常高的覆盖为约140X(429GB)。
完美的变异识别者将导致具有足够覆盖后同样数量的变异。渐进行为可以发生于变异识别者中,其中以高覆盖鉴定几个变异。也在从其他胚胎制备的文库间观察到了这一模式(表300)。重要地,即使在具有测序的最小数目的总碱基(143.4Gb)的样品中,用5个或更多读出覆盖98%的基因组。
制备这些文库要求的大量的扩增以两种重要的方式影响质量。
首先,跨越基因组的总体覆盖变化性为比公开发布的数据组(www.completegenomics.com/public-data/)高约10倍,所述公开发布的数据组在来自大量(>5ug)高质量基因组DNA的相同平台上生成。
尽管这一增加的噪音,仍然可以检测到大扩增和缺失,并用作胚胎消除标准。例如,可容易鉴定胚胎#13中22号染色体的一个同源物的丢失和血细胞对照中的染色体X(图16)。在图16中,对于胚胎#2(红色)和#10(蓝色)的文库和胚胎#13(绿色)和5个血细胞对照(橙色)的LFR文库的连续100kb窗口中对覆盖求平均值。为了比较,还对样品NA12877(紫色)(作为公开数据发布的一部分和使用从5ug的DNA起始的我们的标准程序测序)作图。将样品相对于二倍体覆盖标准化,并且为了清楚偏移3个单元。胚胎#10和NA12877为男性,如通过X和Y染色体的0.5X覆盖所看到的。有意思的是,5个血细胞对照似乎丢失了染色体X的一个拷贝,可能是特纳综合症(Turner Syndrome)的结果,而胚胎#13丢失了22号染色体的一个拷贝。这两个丢失都通过SNP杂合性的丧失得到了证实。
其次,在每个样品中,扩增基因组的GC富集区域中的可注意到的偏爱由于MDA扩增而是明显的(图17A和17B);已经先前描述过的现象。这使得一些基因组区域仅可用100X或更大的平均读出覆盖分析。在图17A和17B中,提供相对覆盖(相对于单体型覆盖标准化),作为GC含量的函数。图17A提供了整个基因组覆盖的结果。图17B提供了外显子组覆盖的结果。注意到与通过我们的标准方法用5ug的基因组DNA测序的那些样品相比,经MDA处理的样品倾向于在GC富集的区域中具有较低的覆盖(NA12877,黑色)。
B.评估灵敏度和降低胚胎基因组中的假阳性变体
我们先前示出了使用高度扩增的DNA组装的基因组具有大量的假阳性单核苷酸变异(SNV),推测是由于聚合酶的误差率所致。为了更好的理解发现和误差率,我们比较了来自胚胎#5的重复文库的结果。对于这一胚胎,在重复之间存在质量差异;然而,仍然可以进行有用的比较。来自胚胎#5的重复文库共享约87%的识别的杂合SNP。应用高可信度滤器以除去较低质量重复中具有低读出覆盖或不良定位质量的SNP将重复之间共享的杂合SNP的百分比增加到超过90%(表3)。尽管这一策略清楚地去除了假阳性,它也去除了重复之间共享并且主要代表真实变体的约192,000个杂合SNP。
表3
表3示出了在重复胚胎#5文库中高可信度滤器假阳性SNV降低。应用高可信度滤器增加了来自相同胚胎的重复文库之间的总体共享率。然而,这一滤器的应用在这些样品中将检测灵敏度降低了约10%。
将这一滤器应用到所有的文库中将每个基因组中识别的SNP的总数目降低了107,000-298,000(表4)并最可能将检测有害变体的能力降低了平均约5%。表4示出了SNP识别的高可信度滤器降低。高可信度滤器的应用将每个文库中识别的SNP的总数降低了3。
尽管在某些情况下灵敏度的此丧失可以是可接受的,仍然有在胚胎#5的最低质量重复中以高质量识别但是不与较高质量的重复共享的150,000个SNV。这些中的约107,000可以解释为不被识别,或是由于全基因组扩增期间重复1中一个或两个等位基因丢失而识别为纯合。
表4
剩下的约43,000个SNV的大多数可能是在扩增过程的早期掺入的聚合酶误差,并难以与真实的变体区分(表5)。没有重复文库,使用仅读出和定位质量度量(metrics),这些剩余的假阳性难以鉴定和去除。表5示出了定相改进灵敏度并去除聚合酶误差。应用LFR定相去除潜在的聚合酶误差,其否则会被识别为高可信度杂合SNP。另外,LFR通过定相大多数低质量SNP改进灵敏度,所述低质量SMP仅使用质量滤器就将被去除。
表5
对插入和缺失(indel)进行了类似的分析。一般来说,indel更难以正确鉴定和识别。作为结果,在胚胎#5的重复2中发现的所有杂合indel的仅59%与重复1共享。当我们应用高可信度滤器时,共享的indel的百分比增加到超过77%,但是再一次降低了检测所有共享的indel的灵敏度(表6)。表6示出了在重复胚胎文库中高可信度滤器indel的假阳性降低。应用高可信度滤器增加来自相同胚胎的重复文库之间的总体共享率。然而,应用该滤器在这些样品中将检测灵敏度降低了12-25%。低或无覆盖标准包括重复1中的纯合识别。
从77%的共享indel率中,我们估算了我们的indel发现率为88%(0.879X0.879=0.774)。我们的测试没有发现的大多数indel定位于同聚物区域,其通常不在基因组的编码或其它功能性区域中发现。
表6
C.鉴定具有多个有害变体的基因
用从四个LFR文库可得到的极度精确并定相的基因组序列,我们着手确定多少基因由于外显子和转录因子结合位点(TFBS)中的有害变体而潜在失活。我们先前证明了[Peters,B.A.et al,Nature(2012)]LFR定相可以用于确定哪些基因在两个等位基因上具有杂合有害变体,导致基因的失活。在本研究中,我们扩展了我们的分析以包括纯合变异,因为我们可以确信,通过将那些变体连接到定位于定相重叠群中的周围杂合SNP,我们避免了将等位基因退出错误识别为同源变体。我们还包括了那些短的纯合插入和缺失,其通过了我们的高质量滤器,因为现在的分析流水线不尝试定相indel。我们发现每个胚胎具有似乎由于编码变体而失活的多于200个基因以及由于编码和TFBS失活而失活的另外300-400个基因。
最近的研究[MacArthur,D.G.&Tyler-Smith,C.Loss-of-function variantsinthe genomes of healthy humans.Hum Mol Genet19,R125-130(2010);MacArthur,D.G.et al.A systematic survey of loss-of-function variants in human protein-coding genes.Science335,823-828(2012)]已经表明人类中许多失活的基因表现为具有冗余的功能或者对于健康存在不是关键的。除去在由Complete Genomics,Inc.测序的54个不相关基因组(completegenomics.com/public-data/)中以10%或更高的频率发现的所有变体以及由MacArthur et al.发现为“功能丧失容许(loss of function tolerant)”的基因导致每个胚胎中可导致不利表型的失活基因数量显著下降到少于20个。
发现胚胎#8在TTN中含有潜在有害的变异。尽管这些具体的变异先前没有描述,TTN中类似的改变已经与心肌病相关。然而,应当注意TTN是人类基因组中最长的基因,并将预期具有较高的收集随机无害变异的可能性。剩下的基因是注释较差的,并不具有可以用于筛选这些胚胎的功能性信息。此外,在去除了54个不相关基因组中存在的所有这些变体后,没有发现新的蛋白截断突变。
有意思的是,来自这一分析的约30%变体对约400万ENCODE工程注释的TFBS之一具有高度有害的影响[Neph,S.et al.An expansive human regulatory lexicon encodedin transcription factor footprints.Nature489,83-90(2012);Thurman,R.E.etal.The accessible chromatin landscape of the human genome.Nature489,75-82(2012)]。Neph et al已经提示了在人类基因组中可能有多达600万的额外TFBS。总之,在这些基因中可能存在>10个额外的被影响的基因,其由于缺乏适当的注释而在本分析中被遗漏。在以相似的方式从来自匿名供体的5个白细胞制备的LFR文库中重复该分析显示近似数量的被影响的基因,提示这些胚胎与正常的个体没有不同。
10%的频率阈值可以排除一些群体中具有高频率的致病性变体;这些中的许多已经得到鉴定并可以单独分析。
D.对罕见的家庭和从头变异的分析
总的来说,我们显示了这一先进的全面WGS分析能够发现IVF胚胎的编码和调控基因组区域中的数以千计的定相的罕见家庭变体和从头突变(不存在于54个公开的基因组中),其(例如,在胚胎#8的重复1中的3280个变体)。这些变体的仅几个(约0.1%)表现为潜在有害的,作为具有在我们的54个公共基因组中具有<10%的较小等位基因频率的其它变异的复合杂合子。这证明了该WGS过程在提供全面PGD中的灵敏度和特异性。复合的有害注释可能太保守,且发现有害的3280个变体的143个中的一些可能严重影响健康,尽管仅影响一条染色体。然而,这些变体中的大多数可能代表着载体负担的实质性部分。
E.高分辨率拷贝数量变体(CNV)分析
以单碱基分辨率检测变异对于真实的全面PGD测试是关键的,但同样重要的是基因组的多碱基区域的获得或丧失的正确量化。通过跨越基因组的位置分析读出覆盖允许从标准的文库生成这类信息。不幸的是,如上文所讨论的,通过从胚胎制备标准文库所要求的扩增引入了大量的读出覆盖可变性(图15),这仅允许检测非常大的扩增和缺失。LFR文库也要求相似量的扩增,导致跨基因组的相同读出覆盖可变性(图15)。
然而,我们可以使用这一事实,即LFR文库的每个孔通常仅含有来自任意基因组区域的一个片段,以将可变读出覆盖转化为具体区域的存在或不存在的信号。尽管噪音的此降低,基因组的许多区域具有波动的片段覆盖,可能是由于LFR文库处理步骤期间的丧失和假读出定位。在这些情况下,我们可以使用定相信息来独立测量每个单体型的覆盖。
通过检查两个单体型之间的比率,我们可以在识别SNV上更加有信心(图10)。使用这一信息,我们能够鉴定大于100个在每个胚胎中清楚丢失的区域。在这些缺失中,几个除去了每个胚胎的一条亲本染色体中的短外显子。在每种情况下,使用上文寻找失活基因的标准对剩下的等位基因筛选有害的杂合SNP。没有发现额外的有害变体,提示这些基因应该各自具有一个活性拷贝。我们在健康对照白细胞文库上进行了相同的分析并发现相似数量的基本不同CNV和缺失的外显子。
VI.材料和方法
A.胚胎方法总结
在常规的卵巢刺激和卵取回后,通过胞浆内精子注射(ICSI)使卵受精以避免PGD测试中的精子污染。在生长到第3天后,使用细玻璃针对胚胎活组织检查并从每个胚胎取出一个细胞。将每个分裂球单独地添加到干净的管,使用分子级别的油覆盖并在冰上运输到Reprogenetics,Inc.(Livingston,NJ)用于PGD。到达后,立即使用测试处理样品,所述测试设计为PCR扩增DMPK1基因中CTG三核苷酸重复扩展的突变和两个连接的标志物。在临床PGD测试和胚胎转移后,将未使用的囊胚阶段的胚胎捐赠到NYU生育中心(New York,NY)并与Reprogenetics共享用于开发新的PGD测试形式。患者被告知研究,且进行的所有工作具有来自合作中心的IRB的完全批准。
从每个胚胎活组织检查高达10个细胞,冷冻,并运输到Complete Genomics,Inc.(Mountain View,CA)用于先进的WGS分析。采用了修改的多重置换扩增(MDA)[Dean,F.B.etal.2002]以生成足够的模板DNA用于全基因组序列分析,使用Complete Genomics’DNA微阵列测序平台进行。简短的说,裂解从每个囊胚分离的细胞,并通过添加1ul的400mM KOH/10mM EDTA使DNA碱变性。1分钟后,将硫保护(thio-protected)的随机8聚体添加到变性的DNA。2分钟后,使用1ul的400mM HCl/600mM Tris-HCl以及含有终浓度为50mM Tris-HCl(pH7.5),10mM MgCl2,10mM(NH4)2SO4,4mM DTT,250uM dNTPs(USB,Cleveland,OH)的主混合物中和混合物,并添加12单位的phi29聚合酶(Enzymatics,Beverly,MA)以使得总反应体积为100ul。MDA反应在37℃孵育45分钟并在65℃失活5分钟。通过MDA反应生成约2ug的DNA用于WGS分析。以上文相似的方式处理LFR文库,除了在全基因组扩增之前,将变性的DNA首先分到384孔板的每个孔中以及在扩增前进行几个额外的步骤,如先前所述[Peters,B.A.etal.2012]。如先前所述,对基因组数据定位和定相[Peters,B.A.et al.2012;Drmanac,R.etal.2010;and Carnevali,P.et al.2011]。
B.单像素成像
现在的Complete Genomics’平台使用DNA纳米球的图案阵列,中心到中心为600nm的间隔。单个的1”x3”显微镜载玻片具有约40亿的DNA点。为了利用图案的DNA格子用于快速成像,将CCD摄像头与DNA阵列对齐,使得每个点用代表4种颜色之一的一个CCD像素读取。这产出了大规模平行基因组测序的理论最大成像效率。在每点约70个碱基及60%的总产出,一个阵列产生每载玻片的人类基因组的>50X覆盖(4B点x 0.6产出x 70个碱基/点/3Gb基因组)。
C.基因组变体注释的方法
为了注释在这些测序文库中鉴定的变体,首先将来自我们的LFR定相算法和来自标准Complete Genomics输出的变体(VAR)文件混合起来以形成较大的VAR文件。每当可用时,从标准输出VAR文件继承变体的质量计分。接着,使用NCBI Genbank人类基因组组装发布版本37.1作为参数文件,使用基因描述和编码区进一步注释该数据组。
使用选择程序来鉴定具有可能有害的变体的基因。有害变体落入两大类中:(I)那些改变氨基酸序列或内含子/外显子结构的变体;和(II)影响转录起始位点或转录调节的变化。
类型I变体落入2个亚类中:
1)导致氨基酸序列中移码,非终止,剪接位点或无义突变的变体。
2)导致氨基酸错义突变的变体,所述氨基酸错义突变导致对使用PolyPhen2的蛋白的显著变化。
使用ENCODE基序模式检测鉴定II变异。我们使用了683种ENCODE基序模式来搜索8,374,968个公开的DNase I足迹。这些DNase I足迹的每一个属于2,890,742个较大的DNase I超敏位点(DHS)的一个,且每个DHS代表了连接到特定基因的启动子区域;因此,我们可以将任意影响ENCODE确定的基序的变体连接到对某个基因的转录的可能效果。我们将任意导致基序计分降低≥4的变体标注为有害的。
含有2个或更多有害变体的基因分组为2类:
类1.都是类型I变体。具有高于阈值的得分的这一类中的所有有害变体评分为相等有害的。这一类还有两个亚类:
类1.1.基于组装和定相数据,2个有害变体位于相同的等位基因上。
类1.2.基于组装和定相数据,2个有害变体位于两个不同的等位基因上。推测,这一亚类中的基因是最有害的,因为这些变体导致野生型蛋白的完全缺乏。
类2.具有至少2个有害变体的基因,其中一个为类型I变体,而另一个位于ENCODEDNase I足迹中,如通过隐藏Markov模式(HMM)所预测的。基于HMM模式计分计算变体的影响。类2含有两个亚类:
类2.1.基于组装和定相数据,2个有害变体位于相同的等位基因上。
类2.2.基于组装和定相数据,2个有害变体位于两个不同的等位基因上。
VII.计算机系统
本文所提及的任意计算机系统可以利用任何适合数量的亚系统。这些亚系统的例子示于图18中在计算机装置1800中。在一些实施方案中,计算机系统包括单个计算机装置,其中所述亚系统可以是计算机装置的组成。在其它实施方案中,计算机系统可以包括多个计算机装置,每一个为亚系统,具有内部组成。
图18中示出的亚系统通过系统总线1875内部互联。显示了另外的亚系统例如打印机1874,键盘1878,存储设备1879,显示器1876(它连接到显示器适配器1882)等。外围设备和输入/输出(I/O)设备(其偶联到I/O控制器1871)可以通过本领域已知的任意数量的方式连接到所述计算机系统。例如,串行端口1877或外部接口1881(例如,Ethernet,Wi-Fi等)可以用于将计算机系统1800连接到广域网例如因特网,鼠标输入设备,或扫描仪。通过系统总线1875的互联允许中心处理器1873与每个亚系统通讯并控制从系统存储器1872和存储设备1879(例如,固定盘,例如硬盘驱动器或光盘)的指令执行,以及亚系统之间的信息交换。系统存储器1872和/或存储设备1879可以包括计算机可读介质。本文提到的任何数据可以从一个组成输出到另一个组成,并可以输出到使用者。
计算机系统可以包括多个相同的组成或亚系统,例如,通过外部接口1881或通过内部接口连接在一起。在一些实施方案中,计算机系统,亚系统,或装置可以通过网络通讯。在这种情况下,可以认为一个计算机是客户机,而另一个计算机为服务器,其中每个可以是相同的计算机系统的一部分。客户机和服务器可以各自包括多个系统,亚系统,或组成。
应当理解本发明的任意实施方案可以以控制逻辑形式使用硬件(例如,应用专门的集成电路或现场可编程门阵列)和/或使用计算机软件使用以模块或集成方式的一般可编程处理器执行。如本文所使用的,处理器包括在同一个集成芯片上的多核处理器,或在单个电路板或网络化的多个处理单元。基于本文提供的公开和教导,本领域的普通技术人员将知道适合的其它方式和/或方法使用硬件以及硬件和软件的组合来实施本发明的实施方案。
在此申请中所述的任何软件组件或功能可以以被处理器执行的软件代码实施,所述软件代码使用任何合适的计算机语言,诸如例如Java、C、C++、C#或脚本语言,诸如Perl或Python,使用例如常规或面向对象的技术。软件代码可以被作为一系列指令或命令存储在用于存储和/或传输的计算机可读介质上,合适的介质包括随机存取存储器(RAM)、只读存储器(ROM)、磁介质(诸如硬盘驱动器或软盘)、或光介质(诸如致密盘(DC)或DVD(数字通用盘))、闪存等。计算机可读介质可以是这些存储器或传输设备的任何组合。
还可以使用适配用于经由符合包括因特网的各种协议的有线、光和/或无线网络传输的载波信号,编码和传输这些程序。如此,可以使用以这些程序编码的数据信号,创建根据本发明的实施方案的计算机可读介质。以程序代码编码的计算机可读介质可以与兼容设备封装在一起、或者与其它设备分开提供(例如,经由因特网下载)。任何这样的计算机可读介质可以驻留在单个计算机程序产品(例如,硬盘驱动器、CD或整个计算机系统)上、或在其内,并且可以存在在系统或网络内的不同计算机程序产品上或内。计算机系统可以包括监视器、打印机或其它合适的显示器,用于提供本文提及的任何结果给用户。
可以完全地或部分地利用包括一个或多个处理器(其可以被配置为实施步骤)的计算机系统执行本文所述的任何方法。因此,实施方案可以涉及配置为实施本文所述的任何方法的步骤的计算机系统,其潜在地具有执行相应步骤或相应步骤组的不同组件。虽然呈现为编号的步骤,但是本文的方法的步骤可以在相同时间、或以不同顺序执行。另外,这些步骤的部分可以与来自其它方法的其它步骤的部分一起使用。而且,步骤的全部或部分可以是可选的。另外,任何方法的任何步骤可以利用用于执行这些步骤的模块、电路或其它部件执行。
特定实施方案的具体细节可以以任何合适方式组合,而不违背本发明的实施方案的精神和范围。然而,本发明的其它实施方案可以涉及与每个单独方面、或这些单独方面的具体组合相关的具体实施方案。
已经为了说明和描述的目的呈现了本发明的示例性实施方案的上述描述。其并非意在穷举的、或者将本发明限于所述精确形式,并且,鉴于以上教示,许多修改和变化是可能的。选择和描述实施方案,以便最好地解释本发明的原理和其实际应用,由此使得本领域其它技术人员能够最好地利用各个实施方案中且具有各种适于预期的特定使用的修改的本发明。
“一”、“一个/一种”、“该”的叙述意在意指“一个或多个/一种或多种”,除非具体指示相反意思。
为了所有目的,通过全文引用纳入本文提及的所有专利、专利申请、公开出版物和描述。它们都不被承认是现有技术。