发明详述
在以下详细描述中,参考了构成本文一部分的附图。在附图中,除非上下文另有说明,类似的符号通常标识类似的组件。在详细描述、附图和权利要求中描述的示例性实施方案并不意味着是限制性的。在不脱离本文提出的主题的精神或范围的情况下,可以采用其他实施方案,并且可以进行其他改变。容易理解的是,如本文所述并在附图中示出的本申请的各方面可以采用各种不同的配置来安排、替换、组合、分离和设计,所有这些在本文中均被明确地考虑,并且构成本文公开内容的一部分。
本文提及的所有专利、公开的专利申请、其他出版物和来自GenBank以及其他数据库的序列,均通过援引方式将涉及相关技术整体并入本文。
定义
除非另有定义,本文使用的技术和科学术语具有与本申请所属领域的普通技术人员通常理解的相同的含义。参见,例如,Singleton et al.,Dictionary of Microbiologyand Molecular Biology 2nd ed.,J.Wiley&Sons(New York,NY 1994);Sambrook et al.,Molecular Cloning,A Laboratory Manual,Cold Spring Harbor Press(Cold SpringHarbor,NY 1989)。出于本申请的目的,以下术语定义如下。
概述
本文公开了基于基因组的非独特部分中的突变来诊断疾病的系统和方法。该系统和方法可用于使用全基因组测序(WGS)数据来确定个体对于SMA的受影响或携带者状态。如果个体仅具有SMN1基因的缺陷拷贝,则个体受SMA影响。如果个体具有至少一个含有至少一个SMN1基因正常拷贝的染色体和至少一个不含SMN1正常拷贝的染色体(即没有SMN1拷贝或仅有SMN1缺陷拷贝),则个体是SMA的携带者。
在一个实施方案中,可以通过将WGS读取与修饰的参考序列比对来确定个体的遗传状态。所述修饰的参考序列可包括SMN1参考序列(人类基因组参考序列hg19或GRCh37上的chr5,70220767-70248842)。修饰的基因组序列可以具有被转化为相等长度的一串N的SMN2序列(chr5,69345350-69373422)的碱基(也称为SMN2抽空或掩蔽的参考基因组序列)。然后可以对映射的WGS读取进行计数,以确定在修饰的参考序列的选择位置处的准等位基因。“准等位基因”是指映射的WGS读取和修饰的参考序列之间的序列差异。差异可能是由于SMN基因的多态性或由于SMN1和SMN2基因之间的差异。SMN基因是指SMN1基因或SMN2基因,差异可能是由于SMN1基因或SMN2基因的多态性。修饰的参考序列的选择位置可以包括SMN1和SMN2之间的固定差异的位置。然后该方法可以调整覆盖度(平均读取深度或每单位长度基因组的读取数量),然后基于计数的在修饰的参考序列的选择位置处支持准等位基因的读取数量,确定功能性SMN1基因拷贝的数量。在一些实施方案中,该方法可以通过对被分析样品的全基因组或全染色体平均值进行覆盖深度(即读取计数)标准化来调整覆盖度。因此,对于相同样品,针对基因组的其他区域来进行覆盖度标准化。
在其他实施方案中,该方法可以通过确定在已知失活突变的WGS读取的序列来确定包含SMN1的已知失活突变的WGS读取。该方法还可以对在选择位置处支持其他准等位基因的读取数量计数。然后,该方法可以调整覆盖度,然后基于所计数的在修饰的参考序列的选择位置处支持准等位基因的读取数量来确定SMN2的拷贝数。本文描述的方法可以扩展到基于基因组的其他非独特部分中的突变进行诊断。
在一些实施方案中,当旁系同源基因(或旁系同源外显子)在基因组参考序列中足够相似而使读取比对模糊时,本文公开的方法可用于区分旁系同源基因。例如,旁系同源基因可以是SMN1/2、DUX4、RPS17、CYP2D6/7。
全基因组测序读取数据与修饰的参考基因组的比对
脊髓性肌萎缩症(SMA)受影响或携带者状态可以根据全基因组测序(WGS)读取数据来确定。图1是显示用于将WGS读取数据与修饰的参考基因组序列进行比对的示例性方法100的流程图,修饰的参考基因组序列具体为SMN2抽空的参考基因组序列。SMN2抽空的参考基因组序列是SMN2的序列被转换成等长的一串N的参考基因组序列。从起始方框104开始之后,方法100前进到方框108。在方框108处,方法100接收样本的WGS读取数据。样本可以来自诸如人类个体的个体。WGS是一个实验室过程,可以一次性确定生物体基因组的完整DNA序列,包括生物体的染色体DNA,以及线粒体中包含的DNA。用于产生WGS的技术包括测序技术,如使用来自Illumina,Inc.(San Diego,CA)的MINISEQ、MISEQ、NEXTSEQ、HISEQ和NOVASEQ测序仪器来通过合成测序。
从方框108,方法100前进到方框112,其中所述方法100将WGS读取与参考基因组序列进行比对。人类个体的参考基因组序列可以是人参考基因组序列,如hg16、hg17、hg18、hg19或hg38参考人基因组序列(这些参考人基因组序列可获自http://hgdownload.cse.ucsc.edu/downloads.html)。将WGS读取与参考基因组序列进行比对的方法可以使用诸如Burrows-Wheeler Aligner(BWA)和iSAAC的比对器。其他比对方法包括BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP和GSNAP、GeneiousAssembler、LAST、MAQ、mrFAST和mrsFAST、MOM、MOSAIK、MPscan、Novoaligh和NovoalignCS、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RT Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3和SOAP3-dp、SOCS、SSAHA和SSAHA2、Stampy、SToRM、Subread和Subjunc、Taipan、UGENE、VelociMapper、XpressAlign和ZOOM。
方法100从方框112前进到方框116,其中方法100选择与对应于SMN1或SMN2基因的参考基因组序列的部分比对的WGS读取,以进一步评估。无论比对的置信度如何,都可以选择对应于SMN1或SMN2基因的WGS读取。比对置信度可以用如MAPQ得分的比对置信度得分来表示。
从方框116,方法100前进到方框120。在方框120处,方法100将在方框116处选择的WGS读取与修饰的参考序列进行比对(也称为重新比对WGS读取,因为WGS读取与参考序列比对之后,将WGS读取与的修饰的参考序列比对)。在方框120处,重新比对WGS读取产生源自SMN1或与SMN1比对的SMN2的读取。修饰的参考序列可以是方框112中使用的参考序列形式,其中SMN2的碱基被转换为等长的一串N。修饰的参考序列可以称为SMN2抽空的参考序列。映射的WGS读取和修饰的参考序列之间的序列差异可以称为“准等位基因”。差异可能是由于SMN基因的多态性或由于SMN1和SMN2基因之间的差异。SMN基因是指SMN1基因或SMN2基因,所述差异可能是由于SMN1基因或SMN2基因的多态性。方法100在方框124处结束。
图2是用于生成源自图1中的SMN1或与SMN1比对的SMN2的WGS读取的输入和输出之间的关系示意图。包括WGS读取的WGS读取数据204,在方框212处与参考基因组序列208比对。在方框216处,可以选择与参考基因组序列208中的SMN1或SMN2比对的WGS读取,以在方框220处重新对比SMN2抽空的参考基因组序列218。方框220处的重新比对产生源自SMN1或与SMN1比对的SMN2的读取224。
确定脊髓性肌萎缩症的受影响和携带者状态
图3是显示使用与图1中的SMN2抽空的参考基因组序列比对的全基因组测序读取数据来诊断脊髓性肌萎缩症的示例性方法300的流程图。示例性方法300可以在执行以上讨论的方法100的之后执行,使得方框308在上述方框120之后发生。
在方框120中与SMN1比对的读取可用于确定SMN1和SMN2中的拷贝数和可能的变体。例如,将WGS读取与SMN2抽空的参考比对,允许对源自SMN1或SMN2的读取进行高可信度识别。因此,与具有高置信度得分的SMN1的高重复部分比对的读取不太可能源自参考序列的其他区域。这些重新比对的读取可用于估计个体基因组中SMN1和SMN2的总拷贝数、SMN1特异性拷贝数和SMN2特异性拷贝数。这些重新比对的读取也可用于估计SMN1参考序列与被分析序列的个体中SMN1或SMN2的拷贝之间的小幅变化。由此,可以获得关于受影响的SMA或携带者状态信息的若干信息。
在诊断SMA状态之前,可以进一步处理在SMN2抽空的参考上与SMN1比对的读取。
在方法300开始于方框304之后,方法300使用源自SMN1或与SMN1比对的SMN2的读取生成“准变体”判断,以用于方框308处的变体判断。准变体判断显示与SMN1参考序列的差异。这样的准变体也可以显示样品中SMN1和SMN2之间的固定差异、多态性或SMN1或SMN2的突变。
准变体判断是确定在被分析的样品中存在与SMN1参考序列可识别地相似、但细节上与SMN1参考序列不同的序列。尽管标准变体判断意味着基因组中特定位置的序列改变,但准变体可能意味着三种或更多种可能性中的一种。这些可能性包括:a)指定位置的序列改变;b)指示位置(SMN1中)与高度相似区域(SMN2)的相应部分之间的差异;或c)在高度相似区域(SMN2)相对于参考的变化。这三种可能性对应于SMN1中的变体,SMN1和SMN2之间的差异,以及SMN2中的变体。短语“准变体”表意模糊,而非简单为“变体”。
从方框308,方法300前进到方框312,其中方法300使用SMN1和SMN2之间固定差异的参考来计数源自SMN1或与SMN1比对的SMN2的读取中支持已知的目标准等位基因的读取数量。
方法300从方框312前进到方框316,其中方法300基于在方框312处计数的读取数量,确定基因特异性的(SMN1或SMN2)拷贝数。通过将源自SMN1或与SMN1比对的SMN2的读取与SMN1和SMN2之间的固定差异进行比较,可以确定SMN1的拷贝数和SMN2的拷贝数。
进一步,基因特异性拷贝数可以用于鉴定个体的受影响或携带者状态,因为相当大多数(约95%的SMA病例和携带者单倍型)是由于两种类型的变化之一导致缺少SMN1形式的外显子7。这可能是由于SMN1形式的外显子7的丧失(对于受影响和携带者分别为完全缺失或量的损失),或外显子7的基因转换,从而SMN1外显子7中的序列与SMN2参考序列匹配。如果个体仅具有SMN1基因的缺陷拷贝,则个体受SMA影响。如果个体具有至少一个含有至少一个SMN1基因正常拷贝的染色体和至少一个不含SMN1正常拷贝的染色体(即没有SMN1拷贝或只有SMN1的有缺陷副本),则个体是SMA的携带者(但不受SMA影响)。
用于SMA分子诊断的SMA的遗传学和现有的非全基因组测序方法已描述于Prior,TW,et al.,Technical standards and guidelines for spinal muscular atrophytesting,Genet Med.2011July,13(7):686-94,将其内容整体并入本文。简而言之,功能性SMN1和SMN2之间存在关键的单碱基差异,其落在SMN1的标准转录物的外显子7中。相当大多数(约95%的SMA病例和携带者单倍型)是由于两种变化类型中的一种,所述变化可以检测为SMN1形式外显子7丧失(对于受影响和携带者分别为完全缺失或量的损失)。一个变化是缺失包括外显子7的全部或部分SMN1。第二个变化是用SMN2的同源序列替换包括SMN1的外显子7的区域的基因转换。
因此,大多数受影响个体的受影响状态可以被检测为在外显子7的特定位置处不存在或几乎不存在(以允许一个或多个测序错误)与SMN1参考碱基匹配的准等位基因。这可以通过检查在SMN1外显子的相关位置处SMN2抽空的变体判断结果(对SMN2特异性准等位基因的纯合判断,指示受SMA影响状态)或通过对支持相关的准等位基因的读取计数进行测试来确定。在一些实施方案中,对支持相关准等位基因的读取计数进行测试可以包括:如果观察到少于X的匹配正常的SMN1序列的读取,则样品被标记为“受影响”。如果观察到多于Y的匹配正常SMN1序列的读取,则可以将样品标记为“未受影响”。可以凭经验确定阈值X和Y。阈值X和Y可以取决于覆盖深度。可选地或此外,可以基于期望的或可接受的精确度来调整阈值X和Y。在一些实施方案中,可以针对边界案例确定期望或可接受的精确度。在一些实施方案中,可以基于概率模型对支持相关准等位基因的读取计数进行测试。可以基于一个或多个测序错误或单倍型采样来生成概率模型。在一些实施方案中,基于人口或家庭的先验可以被纳入这些过程中。
通过可以归因于SMN1而不是SMN2的读取的数量减少,可以为大多数携带者鉴定携带者状态。可能看起来SMN1和SMN2的参考序列中的任何或所有位置差异都可以用于识别携带者状态。但是,经验评估表明,很多这样的差异反映了参考序列中的错误或者DNA提供参考序列的个体中的不常见变体,而不是旁系同源拷贝之间的固定差异。因此,SMN1和SMN2的参考序列的差异位置不能可靠地用于评估SMN1特定性拷贝数。
但是,下文实施例1中描述的对大量未受影响个体的检查确实在外显子7附近确定了若干个(>10)准变体,其几乎在所有样品中都是准杂合的,准等位基因匹配SMN1和SMN2的参考序列中的差异。可能不是所有样品中的变体都是准杂合,因为有零拷贝SMN2的样品或者可能是受SMA影响的个体,在队列中应当预期有这样的样品。支持这些位置的SMN1准等位基因的读取计数可用于推断样品中存在的完整SMN1拷贝数。类似地,可以确定SMN2拷贝数。
当确定基因特异性拷贝以确定受影响或携带者状态时,方法300在方框316处可以执行改善拷贝数判断的一个或多个方法。在一些实施方案中,方法300可以通过对被分析样品的全基因组或全染色体平均量进行覆盖深度(即读取计数)标准化来调整覆盖度。因此,对于相同样品,针对基因组的其他区域来标准化覆盖度。用于改善拷贝数判断的其他方法包括GC校正,针对对照样品组的标准化,或表征序列唯一性以改善结果。GC校正已描述于Benjamini,Y,et al.,Summarizing and correcting the GC content bias in high-throughput sequencing,Nucl.Acids Res.,2012,40(10):e72,doi:10.1093/nar/gks001,和Miller,CA,et al.,ReadDepth:AParallel R Package for Detecting Copy NumberAlterations from Short Sequencing Reads,PLoS One.,2011,6:e16327.doi:10.1371/journal.pone.0016327;将以上各自的内容通过引用整体并入本文。
方法300从方框316前进到方框320,其中方法300基于在方框308处生成的准变体判断来确定已知变体。给定已知变体的列表和一组准变体判断,准变体判断可以被标记为与该列表中已知变体匹配(即一致)或不匹配(不一致)。并非所有受影响的个体都具有零SMN1样外显子7,因为还有其他突变会破坏SMN1的功能。大约5%的受影响个体具有丢失或基因转换的外显子7的一个单倍型,但其他突变在另一个单倍型上。这些中的一部分可以通过方框320处存在特定的已知突变来识别。
方法300从方框320前进到方框324,其中所述方法300基于在方框308处生成的准变体判断来确定新变体。给定已知变体的列表和一组准变体判断,准变体判断可以被标记为与该列表中的已知变体不匹配(即不一致)。这些被标记为与已知变体不匹配的准变体判断可以是新变体。大约5%的受影响个体有一个丢失或基因转换的外显子7的单倍型,但其他突变在另一个单倍型上。这些中的一部分可具有新的或先前未表征的突变,其可在如上文参见方框308所述的准变体中识别。
方法300从方框324前进到方框328。在方框328,方法300通过搜索包含特定kmers的读取或对一个或多个先前变体进行基因分型的其他方法来测试另外的已知变体。方法300可以确定在目标特定已知变体与准变体判断之间的匹配。如果将SMN1特异性拷贝数估计为1,并且检测到已知或新的破坏性(准)变体,则可以将受影响的状态确定为复合杂合性的结果。在一些实施方案中,除了单核苷酸变体(SNV)或插入缺失(indel)检测之外,已知或新变体的检测可包括使用结构变体检测方法。Indel指基因组中碱基的插入或缺失。含有已知的SMN1破坏性变体的携带者的检测可以类似地进行。方法300在方框332处结束。
精确携带者状态测试的一个挑战是存在含有两个(完整)SMN1拷贝的单倍型。具有一个这样的单倍型和另一个没有完整SMN1拷贝的单倍型的个体将是携带者,因为可以传递零拷贝单倍型。由于携带者状态在很大程度上被检测为拷贝数变化,因此这些个体通常可以使用标准方法在携带者筛选中收到假阴性结果。这里描述的方法可能或多或少受此限制。方法300可以通过检测携带两个SMN1拷贝的已知单倍型来实施一种或多种技术以减少该问题的影响。这种技术的一个实例描述于Luo,M,et al.,An Ashkenazi Jewish SMN1haplotype-specific to duplication alleles improves pan-ethnic carrierscreening for spinal muscular atrophy,Genet Med2014,16:149-56,其内容整体并入本文。
上述方法可能给出不准确的答案。拷贝数方法可能被预期的读取数量的随机偏差或仅影响SMN1/SMN2区分准变体的子集的基因转换所干扰。潜在的破坏性准变体可能归因于SMN1,而实际上它们属于SMN2,反之亦然。这些潜在的错误限制了该测试的灵敏度和特异性,但预计这些错误并不常见且同样地影响SMA测试的已被接受的(非NGS)方法。
图4A-4C示意性示出了图3中用于脊髓性肌萎缩症诊断的输入和输出之间的关系。源自SMN1或与SMN1比对的SMN2的读取224可以与SMN1和SMN1之间的固定差异列表404进行比较,以在方框408确定源自SMN1或与SMN1比对的SMN2的读取中支持已知目标准等位基因的读取数量。在方框410处标准化支持已知目标准等位基因的读取数量之后,确定基因特异性(SMN1或SMN2)拷贝数。
在方框416处,可以使用基于kmer的变体基因分型将源自SMN1或与SMN1比对的SMN2的读取224与已知破坏性SMN1变体的列表414进行比较,以测试另外的已知SMN1变体。在方框418处使用源自SMN1或与SMN1比对的SMN2的读取224检测单核苷酸变体(SNV)、插入缺失或结构变体(SV)之后,在方框424处可以通过确定方框419处的已知破坏性SMN1变体414和检测到的SNV或插入缺失的交叉点,测试其他已知的SMN1变体。可以使用诸如GATK、FreeBayes、Platypus或Strelka之类的工具或方法来检测SNV和插入缺失。可以使用诸如CANVAS、GenomeSTRIP或CNVnator的工具或方法来检测CNV。可以使用诸如MANTA、BreakDancer或Pindel之类的工具或方法来检测SV。
在方框428处,可以基于SMN1/SMN2差异和SMN2变体列表426,从方框418处检测到的SNV或插入缺失中减去源自SMN2的读取。可以注释得到的读取,以在方框430处鉴定候选的新SMN1破坏性变体420。
基于图形结构的SMA状态确定
图5A和5B示意性示出了区分旁系同源基因(如SMN1和SMN2)的基于图形结构的方法。基于图形结构的方法可以将旁系同源基因之间的差异和每个旁系同源基因的变体之间的差异编码为图形结构中的不同路径。图形结构可以表示第一旁系同源基因的参考序列、第二旁系同源基因的参考序列和每个旁系同源基因的变体。当旁系同源基因(或旁系同源外显子)在基因组参考序列中足够相似而使读取比对模糊时,该方法可用于进行区分,如DUX4、RPS17、CYP2D6/7。
参见图5A,图形结构500a可包括通过边缘连接的两个非分支节点504a、504b和两个分支节点508a、508b。非分支节点504a、504b表示在每个旁系同源基因内和旁系同源基因之间不变的旁系同源基因的序列。例如,非分支节点504a、504b可以表示在SMN1内、SMN2内以及SMN1和SMN2之间不变的SMN1和SMN2序列的部分。节点504a、504b、508a、508b形成两个路径504a-508a-504b、504a-508b-504b,其编码诸如SMN1的旁系同源基因的变体。旁系同源基因的变体可以是SMN1参考序列的外显子7中位置873处的胞嘧啶碱基或胸嘧啶碱基,其对应于染色体5上的染色体位置70247773。参考序列中染色体5上的位置70247773是胞嘧啶碱基。如果该染色体位置具有胸嘧啶碱基,所得的剪接变体则被翻译成无活性的SMN1蛋白。源自旁系同源基因的个体的序列读取512a-512g可以与图形结构500a比对以确定个体具有的变体。如图5A所示,七个序列读取中的三个512a、512b、512e可以与表示旁系同源基因的不变序列的非分支节点504a、504b比对。七个序列读取中的两个512c、512d可以沿着包含节点504a、508b、504b的路径比对,节点504a、508b、504b表示两个变体中的一个。七个序列读取中的剩余两个512f、512g可以与包含表示另一个变体的节点504a、508a、504b的路径比对。因此,可以确定该个体具有由分支节点508a、508b表示的两个变体。
参见图5B,图形结构500b可包括通过边缘连接的5个非分支节点516a-516c。连接非分支节点516a和非分支节点516c的边缘表示由非分支节点516a、516c所表示的不变序列中缺失至少一个核苷酸。缺失的序列由节点516b表示。非分支节点516a、516-b、516c形成两个路径:表示没有缺失的变体的516a-516b-516c,以及表示具有缺失的变体的516a-516c。节点516d表示由节点516c、516e所表示的不变序列之间至少一个核苷酸的插入序列,连接节点516c和节点516e的边缘表示不存在该插入的替代方案。节点516c、516d、516e形成两个路径:表示没有插入的变体的516c-516e,以及表示具有插入的变体的516c-516d-516e。在一个实施方案中,图形结构500b中由所述路径所表示的插入和缺失表示两个旁系同源基因之间的差异。因此,图形结构500b编码表示具有或没有缺失以及具有或没有插入的变体的所有四种组合。例如,有一个共同长缺失移除了包括外显子7的大部分SMN1(chr5:70244113-70250418)或SMN2(chr5:69351655-69374999)。可以使用非分支节点之间的边缘将这种缺失整合到该图形结构中。
如图5B所示,三个序列读取中的一个520a可以沿着表示具有缺失的变体的边缘516a-516c与非分支节点516a、516c比对。序列读取中的一个520b可以与包含表示具有插入的变体的非分支节点516c和非分支节点516d的路径比对。剩余的序列读取520c可以与表示具有插入的变体的非分支节点516d比对。因此,可以确定个体具有由所述路径516a-516c、516c-516d-516e表示的变体。
区分如SMN1和SMN2的旁系同源基因的基于图形结构的方法可用于确定个体的SMA状态,包括拷贝数估计。图6是显示用于确定SMA状态的示例性基于图形结构的方法600的流程图。在方法600开始于方框604之后,方法600前进到方框608,其中计算系统(如参考图7描述的计算装置700)接收个体的SMN1或SMN2的多个序列读取。
方法600从方框608前进到方框612,其中所述计算系统将每个序列读取映射至包含表示SMN1参考序列以及SMN1参考序列和SMN2参考序列之间的差异的图形结构中至少一个节点的路径。该图形结构包括多个路径。每个路径可以表示为多个分支节点和非分支节点中一个或多个节点的排序列表,其中在每两个后续节点之间存在边缘。通过以列出的顺序连接这些节点的序列,所述路径可以表示运动神经元存活基因1(SMN1)参考序列、SMN1参考序列和运动神经元存活基因2(SMN2)参考序列之间的序列差异、SMN1的变体,以及SMN2的变体。例如,SMN2中的已知变体可用于排除将这些变体视为可能的SMN1破坏,并且还避免过高估计完整SMN2拷贝的数量。
所述多个连接的分支节点和非分支节点可以表示由编码或表示SMN1参考序列、SMN1参考序列和SMN2参考序列之间的差异、SMN1的变体和SMN2的变体的连接节点形成的路径的图形结构。计算系统可以将图形结构存储为数据结构,用于确定个体的SMA状态。计算系统可以生成表示由所述多个边缘连接的所述多个分支节点和所述多个非分支节点的数据结构。计算系统可以图形结构化显示或使得包括由所述多个边缘连接的所述多个分支节点和所述多个非分支节点的图形结构显示为图形结构。
所述多个非分支节点和由两个或更多个边缘连接的所述多个分支节点的子集可以表示SMN1参考序列。参考图5A,非分支节点504a、504b和分支节点508a可以呈现SMN1参考序列。在一个实施方案中,连接到相同的两个非分支节点的两个非分支节点可以表示SMN1参考序列和SMN2参考序列之间的差异,SMN1参考序列与SMN1的变体之间的差异,SMN2参考序列和SMN2的变体之间的区别,或其任何组合。例如,图5A中连接到相同的两个非分支节点504a、504b的分支节点508a、508b可以表示SMN1参考序列和SMN2参考序列之间的差异。在另一个实施方案中,连接到两个非分支节点的一个非分支节点可以表示至少一个核苷酸插入SMN1参考序列,或SMN1参考序列中缺失至少一个核苷酸。参考图5B,连接到两个非分支节点516a、516b的一个非分支节点516c表示SMN1参考序列中由非分支节点516b表示的序列缺失。连接到两个非分支节点516c、516d的一个非分支节点516e可以表示由非分支节点516d表示的序列插入到SMN1参考序列中。
参见图6,方法600从方框612前进到方框616,其中所述计算系统确定映射至包含每个分支节点、非分支节点和/或连接两个节点的边缘的路径的序列读取的数量。参考图5A,每个序列读取512a-512g可以基于读取的序列和由节点504a、504b、508a、508b表示的序列映射至一个或多个节点504a、504b、508a、508b、508B。参考图5B,每个序列读取可以映射至一个或多个节点516a-516e。在一个实施方案中,比对方法确定了对图形结构的最佳局部比对,并且不计算存在多个不同的最佳比对的读取序列,以排除对于旁系同源基因变体之间消除歧义无用的读取。可将排除的读取与具有相同或相似的比对得分的两个或更多个路径比对。
参见图6,方法600从方框616前进到方框620,其中所述计算系统基于映射至所述多个分支节点和边缘中每一个的序列读取数量来确定个体的脊髓性肌萎缩症(SMA)状态。在一个实施方案中,确定所述个体的SMA状态可以包括确定映射至表示SMN1参考序列和SMN2参考序列之间的序列差异的节点(如分支节点508a)的序列读取的数量。例如,分支节点508a可表示SMN1参考序列的外显子7中位置873处的胞嘧啶碱基。如果映射至表示SMN1参考序列的分支节点的序列读取数量低于阈值,则可以将个体的SMA状态确定为受影响的状态。如果映射至表示SMN1参考序列的分支节点的序列读取的数量不低于阈值,则可以将个体的SMA状态确定为携带者状态或未受影响状态。阈值可以是读取的绝对数量、读取总数的百分比、或SMN1和SMN2读取总数的百分比。阈值可以是映射至分支节点508a和任何相关联的分支节点(如图5A中所示的分支节点508b)的SMN1和SMN2读取数量的百分比。作为另一示例,确定个体的SMA状态可以包括确定映射至表示SMN1参考序列和SMN2参考序列之间的序列差异的两个或更多的分支节点(如分支节点508a、508b)的序列读取的数量。分支节点508a、508b可以表示影响拼接的SMN1和SMN2之间的单碱基差异,其可以用于确定个体的SMA的受影响和未受影响的状态。
在一个实施方案中,分支节点可以表示SMN1的功能显著的变体。确定个体的SMA状态可以包括确定映射至表示SMN1的功能显著变体的分支节点的序列读取的数量。如果映射至表示功能显著变体的分支节点的序列读取数量高于阈值,则可以将个体的SMA状态确定为受影响的状态或携带者状态。阈值可以是读取的绝对数量、读取总数的百分比、SMN1和SMN2读取总数的百分比、或者映射至分支节点和/或任何相关的分支节点的SMN1和SMN2读取数量的百分比。因此,方法600可用于检测SMN1中已知但罕见的功能显著的变体,以助于鉴定受影响的其他个体。
在另一个实施方案中,确定个体的SMA状态包括确定SMN1拷贝数。计算系统可以通过首先确定映射至表示SMN1参考序列的第一子序列(如SMN1参考序列的外显子7中位置873处的胞嘧啶碱基)的第一分支节点的序列读取的数量来确定SMN1拷贝数。第一分支节点在本文中也称为功能位点。计算系统可以确定映射至表示SMN1参考序列的第二子序列的第二分支节点的序列读取的数量。第二分支节点在本文可以称为连接位点。第一子序列和第二子序列可以具有高共现概率。表1显示了SMN1的示例性功能位点和连接位点序列。
表1.紧密连接的变体
染色体 |
染色体位置 |
位点分类 |
参考序列 |
可选序列 |
chr5 |
70247773 |
功能 |
C |
T |
chr5 |
70246793 |
连接 |
G |
A |
chr5 |
70247290 |
连接 |
T |
C |
chr5 |
70247724 |
连接 |
G |
A |
chr5 |
70247921 |
连接 |
A |
G |
chr5 |
70248036 |
连接 |
A |
G |
因此,可以基于映射至表示连接位点的第二非分支节点的序列读取数量和/或映射至表示功能位点的第一分支节点的序列读取数量来确定SMN1拷贝数。例如,如果映射至表示功能位点的第一分支节点的序列读取数量等于阈值(如0)或低于阈值,则可以确定SMN1拷贝数为零。如果映射至表示功能位点的第一分支节点的序列读取数量低于第一阈值,则可以确定SMN1拷贝数为一个或多个。如果映射至表示连接位点的第二分支节点的序列读取数量低于第二阈值,则可以确定SMN1拷贝数为1。如果映射至表示连接位点的第二分支节点的序列读取数量高于第二阈值,则可以将SMN1拷贝数确定为两个(或更多个)。阈值可以是读取的绝对数量、读取总数的百分比、SMN1和SMN2读取总数的百分比、映射至表示功能位点的分支节点的SMN1和SMN2读取数量的百分比、或映射至表示连接位点的非分支节点的SMN1和SMN2读取数量的百分比。
在另一个实施方案中,在SMN1中的已知变体可用于鉴定特定的单倍型,其可用于检测在单个染色体上具有两个SMN1拷贝的沉默携带者单倍型,从而改善携带者状态测试。例如,计算系统可以通过确定映射至表示SMN1变体的分支节点的序列读取的数量来确定个体的SMA状态;如果映射至表示SMN1变体的分支节点的序列读取数量高于阈值,则确定个体的脊髓性肌萎缩症(SMA)状态为沉默携带者单倍型。在一个实施方案中,分支节点可以表示SMN1的携带者标签变体,其存在表明携带者状态的高概率。确定个体的SMA状态可以包括确定映射至表示携带者标记变体的分支节点的序列读取的数量。表2示出了示例性携带者标签变体。
表2.携带者标签变体
染色体 |
染色体位置 |
参考序列 |
可选的序列 |
chr5 |
70243571 |
G |
A |
chr5 |
70246957 |
A |
G |
chr5 |
70247901 |
T |
G |
chr5 |
70248471 |
CTA |
C |
计算装置
图7显示了示例性计算装置700的一般架构,其被配置为学习人口统计模型并使用该模型生成预测结果。图7中显示的计算装置700的一般架构包括计算机硬件和软件组件的布置。计算装置700可以包括比图7中所示的元件更多多(或更少)的元件。这并非必须的,但是,所有这些通常为常规元件提供了可行的公开内容。如图所示,计算装置700包括:处理单元740、网络接口745、计算机可读介质驱动器750、输入/输出设备接口755、显示器760和输入设备765,所有这些都可以借助通信总线相互之间通信。网络接口745可以提供到一个或多个网络或计算系统的连接。因此,处理单元740可以经由网络从其他计算系统或服务接收信息和指令。处理单元740还可以与存储器770进行通信,并且还经由输入/输出设备接口755为任选的显示器760提供输出信息。输入/输出设备接口755还可以接受来自任选的输入设备765的输入,如键盘、鼠标、数字笔、麦克风、触摸屏、手势识别系统、语音识别系统、游戏手柄、加速度计、陀螺仪或其他输入设备。
存储器770可以包含处理单元740执行以实现一个或多个实施方案的计算机程序指令(在一个实施方案中被分组为模块或组件)。存储器770通常包括RAM、ROM和/或其他持久性、辅助性或非暂时性的计算机可读介质。存储器770可以存储操作系统772,其提供计算机程序指令以供处理单元740在计算装置700的一般管理和操作中使用。存储器770还可以包括用于实现本申请的各方面的计算机程序指令和其他信息。例如,在一个实施方案中,存储器770包括脊髓性肌萎缩状态确定模块774,其确定脊髓性肌萎缩症的受影响或携带者状态。此外,存储器770可以包括数据存储780和/或一个或多个其他数据存储(其存储用于分析或分析结果的数据)或者与之通信。
实施例
本文讨论的实施方案的一些方面在以下一个或多个实施例中进一步详细公开,其不以任何方式限制本申请的范围。
实施例1
确定SMN1和SMN2特异性拷贝数
该实施例描述了使用在多个位置处的支持准等位基因的读取计数来确定SMN1和SMN2特异性拷贝数。
图8是支持SMN2的读取计数之和相对于支持SMN1的读取计数之和的示例性图,其可用于确定SMN1和SMN2特异性拷贝数。使用Illumina测序仪用全基因组测序分析了超过1300个样品。如参考图1所述通过将测序数据与SMN2抽空的参考基因组比对来处理和分析来自每个样品的测序数据,并且如参考图3所述确定脊髓性肌萎缩症的受影响和携带者状态。图8中的每个点对应一个样品。x值是在每个位置处支持SMN1参考“等位基因”的读取数量的总和(整个“几乎总是het”的位点)。y值是在每个位置处支持SMN2参考“等位基因”的读取数量的总和(在相同的位点)。添加椭圆以突出鉴定的样品群集。每个椭圆的斜率与通过原点的线的斜率和由椭圆鉴定的群集的中心相匹配。群集看来对应于SMN1和SMN2的拷贝数。虚线是在携带者和非携带者之间边界的确定。
以下是SMN1基因中的位置列表(在染色体5上,使用hg19人参考基因组序列),其用于产生图8:70244142、70245876、70246019、70246156、70246320、70246793、70246864、70246919、70247219、70247290、70247724、70247773、70247921和70248036。SMN1中这些位置的碱基不同于SMN2中的类似位置,因此在几乎所有分析的样品中产生准杂合判断。
总之,这些数据表明SMN1基因中至少有14个位置几乎在所有样品中都是准杂合的。在这些位置支持SMN1准等位基因的读取计数可用于推断样品中存在的完整SMN1拷贝数。类似地,可以确定SMN2拷贝数。
在至少一些前述实施方案中,一个实施方案中使用的一个或多个要素可以互换地用于另一个实施方案,除非这种替换在技术上不可行。本领域技术人员将理解,在不脱离请求保护的主题的范围情况下,可以对本文描述的方法和结构进行各种其他省略、添加和修改。所有这些修改和变化都旨在落入由所附权利要求限定的主题范围内。
关于本文中基本上任何复数和/或单数术语的使用,本领域技术人员可以根据上下文和/或应用适当地从复数转换为单数和/或从单数转换为复数。为清楚起见,本文可以明确地阐述各种单数/复数排列。如在本说明书和所附权利要求中所使用的,单数形式“a”、“an”和“the”包括复数指代,除非上下文另有明确说明。除非另有说明,本文对“或”的任何引用旨在涵盖“和/或”。
本领域技术人员将理解,通常,本文使用的术语,尤其是在所附权利要求书(例如,所附权利要求的主体)中,通常旨在作为“开放”术语(例如,术语“包括(including)”应当被解释为“包括但不限于”,术语“具有”应该被解释为“至少具有”,术语“包括(includes)”应该被解释为“包括但不限于”等。本领域技术人员将进一步理解,如果意图引入特定数量的权利要求陈述,则在权利要求中将明确地陈述这样的意图,并且在没有这种陈述的情况下则不存在这样的意图。例如,为了帮助理解,以下所附权利要求可以包含介绍性短语“至少一个”和“一个或多个”的使用以引入权利要求陈述。但是,这些短语的使用不应被解释为暗示,由不定冠词“a”或“an”引入权利要求陈述将包含这种引入的权利要求陈述的任何特定权利要求限制为该实施方案仅包含一个这样的陈述,甚至当相同的权利要求包括引导性短语“一个或多个”或“至少一个”时,不定冠词如“a”或“an”(例如,“a”和/或“an”应该被解释为“至少一个”或“一个或多个”);对于采用用于引入权利要求陈述的定冠词也是如此。
此外,即使明确地写明了特定数量的引入的权利要求陈述,本领域技术人员将认识到这种陈述应该被解释为表示至少所引用的数字(例如,“两个事项”的简单陈述,而没有其他修饰语,表示至少两个事项,或两个或更多个事项)。此外,在使用类似于“A、B和C等中的至少一个”的约定的那些情况下,通常这样的结构意图在本领域技术人员将理解该约定的意义上(例如,“具有A、B和C中的至少一种的系统”将包括但不限于单独有A,单独有B,单独有C,A和B一起,A和C一起,B和C一起,和/或A、B和C一起等的系统)。在使用类似于“A、B或C等中的至少一个”的约定的那些情况下,通常这样的结构意图在本领域技术人员将理解该约定的意义上(例如,“具有A、B或C中至少一个的系统“将包括但不限于单独有A,单独有B,单独有C,A和B一起,A和C一起,B和C一起,和/或A、B和C一起等的系统)。本领域技术人员将进一步理解,实际上任何呈现两个或更多个替代性术语的转折词和/或短语,无论是在说明书、权利要求书或附图中,都应该被理解为考虑到包括这些事项之一的可能性,任何一个事项或两个事项。例如,短语“A或B”将被理解为包括“A”、或“B”、或“A和B”的可能性。
此外,在以马库什群组的形式来描述本申请的特征或方面的情况下,本领域技术人员将认识到,本申请也因此以马库什群组的任何单个成员或成员子群组的形式描述。
如本领域技术人员将理解的,出于任何和所有目的,例如就提供书面描述而言,本文公开的所有范围还涵盖任何和所有可能的子范围及其子范围的组合。任何列出的范围都可以容易地被认识为充分描述并且使得相同的范围被分解为至少相等的一半、三分之一、四分之一、五分之一、十分之一等。作为非限制性示例,这里讨论的每个范围可以是容易分解为下三分之一、中三分之一和上三分之一等。如本领域技术人员还将理解,所有语言如“高达”、“至少”、“大于”、“小于”等,包括所述的数字,并且指的是可以随后分解成如本文所讨论的子范围的范围。最后,如本领域技术人员将理解的,范围包括每个单独的成员。因此,例如,具有1-3个物件的群组是指具有1、2或3个物件的群组。类似地,具有1-5个物件的群组是指具有1、2、3、4或5个物件的群组等等。
虽然本文已经公开了不同的方面和实施方案,但是对于本领域技术人员来说,其他方面和实施方案是显而易见的。这里公开的不同方面和实施方案是出于说明的目的而非限制性的,真实的范围和精神由所附权利要求表明。