CN112955958A

CN112955958A - 用于确定短串联重复区域中的变化的基于序列图的工具

Info

Publication number: CN112955958A
Application number: CN202080005551.0A
Authority: CN
Inventors: 伊戈尔·多尔曾科; 迈克尔·A·埃伯利
Original assignee: Illumina Inc
Current assignee: Illumina Inc
Priority date: 2019-03-07
Filing date: 2020-03-06
Publication date: 2021-06-11
Also published as: KR20210138556A; EP3935637A1; JP2022522565A; US20200286586A1; WO2020181254A1; CA3114759A1; BR112021006402A2; AU2020231246A1; IL281995A; MX2021003718A; SG11202103205QA

Abstract

所公开的实施方案涉及用于对重复序列诸如医学上显著的短串联重复序列(STR)进行基因分型的方法、装置、系统和计算机程序产品。该方法涉及将读段与由序列图表示的重复序列比对，并使用所比对的读段对该重复序列进行基因分型。该序列图是有向图，每个有向图包括表示重复子序列的至少一个自环。在一些具体实施中，该读段是配对末端读段，并且每个读段对的两个匹配可用于对该重复序列进行基因分型。一些具体实施可用于确定简并密码子重复。一些具体实施可用于对各自包括两个或更多个重复子序列的重复序列进行基因分型。一些具体实施可用于对核酸序列进行基因分型，每个核酸序列包括至少一个重复子序列和另一个遗传变异诸如插入、缺失或置换。

Description

用于确定短串联重复区域中的变化的基于序列图的工具

引用合并

PCT申请表格与本说明书同时提交，作为本申请的一部分。本申请要求同时提交的PCT申请表格中确定的权益或优先权的每项申请以引用的方式全文并入本文并用于所有目的。

背景技术

重复扩增是一类涉及短串联重复序列(STR)多态性的特殊微卫星和小卫星变异体。由于当短串联重复序列扩增超过一定大小时的不稳定性，重复扩增也被称为动态突变。由不稳定重复扩增引起的遗传性疾病包括脆性X染色体综合征(FXS)、亨廷顿病和肌萎缩性脊髓侧索硬化症(ALS)。

识别重复扩增在某些遗传性疾病的诊断和治疗中至关重要。然而，使用不完全穿过重复序列的短读段难以确定重复序列。因此，希望开发使用短读段来识别医学相关的重复扩增的方法。

发明内容

本发明所公开的具体实施涉及用于对基因座进行测序的方法、装置、系统和计算机程序产品，该基因座包括重复序列，诸如可与遗传性疾病相关联的短串联重复序列。该方法涉及将读段与各自表示基因座的序列图比对，并使用所比对的读段对基因座中的一个或多个重复序列进行基因分型。序列图是各自包括表示重复序列的至少一个自环的有向图。

本发明的第一个方面提供用于对包括重复序列的基因座进行基因分型的计算机实现的方法。该方法使用包括一个或多个处理器和系统存储器的计算机来实现。该方法可用于对一个或多个重复序列进行基因分型，每个重复序列包括一个或多个重复子序列。该方法包括：(a)使用一个或多个处理器收集来自数据库的试验样品的序列读段；(b)由所述一个或多个处理器将序列读段与各自由序列图表示的所述一个或多个重复序列比对，其中该序列图具有有向图的数据结构，该有向图具有表示核酸序列的顶点和连接该顶点的有向边缘，并且其中该序列图包括一个或多个自环，每个自环表示重复子序列，每个重复子序列包括一个或多个核苷酸的重复单元的重复；以及(c)由所述一个或多个处理器使用与一个或多个重复序列比对的序列读段确定所述一个或多个重复序列的一个或多个基因型。

在一些具体实施中，一个或多个重复序列的重复序列包括特定重复单元，该重复特定单元包括至少一个不完全指定的核苷酸。在一些具体实施中，特定重复单元包括简并密码子。

在一些具体实施中，一个或多个自环包括表示两个或更多个重复子序列的两个或更多个自环。

在一些具体实施中，序列图还包括用于两个或更多个等位基因的两条或更多条另选路径。在一些具体实施中，两个或更多个等位基因包括插入缺失或置换。在一些具体实施中，置换包括单核苷酸变异(SNV)或单核苷酸多态性(SNP)。在一些具体实施中，该方法还包括使用与两条或更多条另选路径比对的序列读段对两个或更多个等位基因进行基因分型。在一些具体实施中，对两个或更多个等位基因进行基因分型包括将两个或更多个另选路径的覆盖度提供给概率模型，以确定两个或更多个等位基因的概率。在一些具体实施中，概率模型模拟等位基因的概率作为等位基因覆盖度的函数，该函数选自泊松分布、负二项分布、二项分布或β-二项分布。在一些具体实施中，泊松分布的速率参数由在基因座处观察到的读段长度和平均深度来估计。

在一些具体实施中，该方法还包括在(b)之前将序列读段与参考基因组比对以确定序列读段的基因组坐标，以及选择序列读段的子集作为待与一个或多个重复序列比对的序列读段，每个重复序列由序列图表示。在一些具体实施中，序列读段的子集包括与由序列图表示的区域比对或在该区域附近的读段。在一些具体实施中，序列读段的子集包括未比对的读段，其匹配映射到由序列图表示的区域或该区域附近。在一些具体实施中，序列读段的子集包括与一个或多个脱靶区域比对的读段，该脱靶区域是用于错比对读段的已知热点。

在一些具体实施中，将序列读段与序列图比对包括：找到序列读段与序列图的路径之间的kmer匹配；以及将kmer匹配延伸至序列图的节点和边缘的完全比对，该序列图包括一个或多个自环。

在一些具体实施中，将序列读段与序列图比对包括通过移除比对的低置信度末端而使该序列图收缩。

在一些具体实施中，将序列读段与序列图比对包括通过以下方式比对合并：将读段的子序列与序列图比对；以及合并子序列的比对以形成序列读段的完全比对。

在一些具体实施中，该方法还包括基于包括基因座的基因座结构的基因座规格来生成序列图。

在一些具体实施中，序列读段包括配对末端读段，并且操作(c)包括：(i)识别配对末端读段中的锚读段和锚定读段，其中锚读段是与一个或多个重复序列比对或一个或多个重复序列附近的读段，并且锚定读段是与锚读段配对的未比对读段；以及(ii)至少使用锚定读段确定一个或多个重复序列的一个或多个基因型。

在一些具体实施中，操作(ii)包括使用锚读段以及锚定读段确定一个或多个重复序列的一个或多个基因型。在一些具体实施中，将锚读段比对到约5kb的重复序列内。在一些具体实施中，未比对的读段包括不能与序列图比对或比对不佳的读段。

在一些具体实施中，一个或多个重复序列包括短串联重复(STR)序列。在一些具体实施中，STR的扩增与脆性X染色体综合征、肌萎缩性脊髓侧索硬化症(ALS)、亨廷顿病、弗里德希氏共济失调、脊髓小脑共济失调、脊髓延髓肌萎缩症、强直性肌营养不良症、马查多-约瑟夫氏病或齿状核红核苍白球路易体萎缩症相关联。

在一些具体实施中，该方法还包括使用测序仪从试验样品生成配对末端读段。

在一些具体实施中，该方法还包括从个体中提取试验样品。

在一些具体实施中，试验样品是血液样品、尿液样品、唾液样品或组织样品。

在一些具体实施中，重复单元包括1至50个核苷酸。

在一些具体实施中，读段短于一个或多个重复序列中的至少一个重复序列。

本公开的另一方面提供用于对包括重复序列的基因座进行基因分型的系统。在一些具体实施中，该系统包括：系统存储器和一个或多个处理器，所述一个或多个处理器被配置为：(a)使用所述一个或多个处理器从数据库收集试验样品的序列读段；(b)由所述一个或多个处理器将序列读段与各自由序列图表示的所述一个或多个重复序列比对，其中序列图具有有向图的数据结构，该有向图具有表示核酸序列的顶点和连接该顶点的有向边缘，并且其中该序列图包括一个或多个自环，每个自环表示重复子序列，每个重复子序列包括一个或多个核苷酸的重复单元的重复；以及(c)由所述一个或多个处理器使用与所述一个或多个重复序列比对的序列读段确定所述一个或多个重复序列的一个或多个基因型。

在一些具体实施中，该系统还包括用于对试验样品的核酸进行测序的测序仪。

在一些具体实施中，一个或多个处理器被配置为执行本文所述的各种方法。

本公开的另一方面提供了一种计算机程序产品，包括存储程序代码的非暂态机器可读介质，该程序代码当由计算机系统的一个或多个处理器执行时，使得计算机系统实施以上用于对包括重复序列的基因座进行基因分型的方法。程序代码包括：(a)用于收集来自数据库的试验样品的序列读段的代码；(b)用于将序列读段与各自由序列图表示的一个或多个重复序列比对的代码，其中序列图具有有向图的数据结构，该有向图具有表示核酸序列的顶点和连接该顶点的有向边缘，并且其中该序列图包括一个或多个自环，每个自环表示重复子序列，每个重复子序列包括一个或多个核苷酸的重复单元的重复；以及(c)用于使用与所述一个或多个重复序列比对的序列读段确定所述一个或多个重复序列的一个或多个基因型的代码。

在一些具体实施中，程序代码包括用于执行本文所述方法的操作的代码。

虽然本文的示例涉及人类并且语言主要针对人类，但本文所述的概念适用于来自任何植物或动物的基因组。本公开的这些和其他目的和特征将根据以下描述和所附权利要求变得更加显而易见，或者可通过如下文所述的本公开的实践来了解。

附图说明

图1A是示出序列读段与参考序列上的重复序列比对困难的示意图。

图1B是示出根据某些公开的具体实施的使用配对末端读段的序列读段的比对以克服图1A所示困难的示意图。

图1C示出了例示根据一些具体实施对包括重复序列的基因座进行基因分型的过程的流程图。

图1D示出了表示第一基因座的第一序列图。

图1E示出了表示第二基因座的第二序列图。

图1F示出了表示第三基因组的第三序列图。

图1G示出了根据一些具体实施的用于确定HTT基因座处的变异体的基因型的过程的示意图，该HTT基因座包括两个STR序列。

图1H示出了根据一些具体实施的用于确定林奇I型基因座处的变异体的基因型的过程的示意图，该林奇I型基因座包括SNV和STR。图1H的左图示出了用于靶向基因分型的一般过程的示意图；右图示出了该过程在与林奇综合征I型相关联的基因座处对变异体进行基因分型的应用。

图2是提供了用于确定样品中重复序列扩增存在与否的方法示例的高级描述的流程图。

图3和图4是示出用于使用配对末端读段来检测重复扩增的方法示例的流程图。

图5是使用不与所关注的任何重复序列相关联的未比对读段来确定重复扩增的方法的流程图。

图6是用于处理试验样品的分散系统的框图。

图7示出了使用不同方法从模拟数据对HTT基因座中的CAG和CCG STR进行基因分型的准确性。

具体实施方式

本公开涉及用于识别所关注重复扩增(诸如医学上显著的重复序列的扩增)的方法、装置、系统和计算机程序产品。重复扩增的示例包括但不限于与遗传性疾病(诸如脆性X染色体综合征、ALS、亨廷顿病、弗里德希氏共济失调、脊髓小脑共济失调、脊髓延髓肌萎缩症、强直性肌营养不良症、马查多-约瑟夫氏病和齿状核红核苍白球路易体萎缩症)相关联的扩增。

除非另外指明，否则本文所公开的方法和系统的实践涉及分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序以及重组DNA领域中常用的常规技术和装置，这些技术和装置在本领域的技术范围内。此类技术和装置是本领域技术人员已知的，并且在许多文本和参考文献中有所描述(参见例如Sambrook等人，“Molecular Cloning:ALaboratory Manual”，第三版(Cold Spring Harbor)，[2001])；和Ausubel等人，“CurrentProtocols in Molecular Biology”[1987])。

数值范围包括限定该范围的数字。在本说明书通篇中给出的每一最大数值限度旨在包括每一更低数值限度，如同此类更低数值限度在本文中明确地写出一样。在本说明书通篇中给出的每一最小数值限度将包括每一更高数值限度，如同此类更高数值限度在本文中明确地写出一样。在本说明书通篇中给出的每一数值范围将包括落入此类更宽数值范围内的每一更窄数值范围，如同此类更窄数值范围均在本文中明确写出一样。

本文提供的标题并非旨在限制本公开。

除非本文中另有定义，否则本文所用的所有技术和科学术语的含义与本发明所属领域的普通技术人员通常理解的含义相同。包括本文所包括的术语的各种科学词典是本领域技术人员熟知的并且是可用的。虽然与本文所述的方法和材料类似或等同的任何方法和材料也可用于本文所公开的实施方案的实践或测试，但本文描述了一些方法和材料。

下文紧接着定义的术语通过整体参考本说明书来进行更全面的描述。应当理解，本公开不限于所述的特定方法、方案和试剂，因为这些方法、方案和试剂可根据本领域技术人员使用它们的上下文而变化。

定义

如本文所用，除非上下文另有明确指示，否则单数术语“一个”、“一种”和“该”包括复数指代。

除非另外指明，否则分别地，以5'至3'的取向从左到右书写核酸，并且以氨基至羧基的取向从左到右书写氨基酸序列。

术语“多个”是指多于一个元件。例如，本文所用的术语是指使用本文所公开的方法足以识别试验样品和对照样品中重复扩增的显著差异的多个核酸分子或序列读段。

术语“重复序列”是指包括较短序列的重复出现的核酸序列。较短的序列在本文中被称为“重复单元”。重复单元的重复出现被称为重复单元的“重复”或“拷贝”。在许多情况下，重复序列的位置与编码蛋白质的基因相关联。在其他情况下，重复序列可位于非编码区域中。重复单元可在重复单元之间具有或不具有中断的情况下以重复序列出现。例如，在正常样品中，FMR1基因往往在CGG重复中包括AGG中断，例如，(CGG)10+(AGG)+(CGG)9。缺少中断以及具有少数中断的长重复序列的样品易于相关联基因的重复扩增，这可导致基因疾病，因为重复扩增高于特定数目。在本公开的各种实施方案中，重复的数目被计数为框内重复，而不管中断如何。用于估计框内重复的方法在下文进一步描述。

在各种实施方案中，重复单元包括1至100个核苷酸。广泛研究的许多重复单元是三核苷酸或六核苷酸单元。已经充分研究并且适用于本文所公开的实施方案的一些其他重复单元包括但不限于4、5、6、8、12、33或42个核苷酸的单元。参见例如Richards，2001年Human Molecular Genetics，第10卷，第20期，第2187-2194页。本发明的应用不限于上述核苷酸碱基的具体数目，只要它们与具有多个重复或重复单元的拷贝的重复序列相比相对较短即可。例如，重复单元可包括至少3、6、8、10、15、20、30、40、50个核苷酸。另选地或除此之外，重复单元可包括至多约100、90、80、70、60、50、40、30、20、10、6或3个核苷酸。

重复序列可在进化、发育和诱变条件下扩增，从而产生相同重复单元的更多拷贝。这在本领域中被称为“重复扩增”。由于重复单元扩增的不稳定性质，该过程也称为“动态突变”。已证实一些重复扩增与遗传性疾病和病理症状相关联。其他重复扩增未被很好地理解或研究。本文所公开的方法可用于识别先前已知的和新的重复扩增两者。在一些实施方案中，具有重复扩增的重复序列长于约100、150、300或500碱基对(bp)。在一些实施方案中，具有重复扩增的重复序列长于约1000bp、2000bp、3000bp、4000bp、5000bp或10000bp等。

在图形理论中，顶点和边缘是从其中构建图形的两个基本单元。顶点或节点是定义图形并且可通过边缘连接的点之一。在图形的示意图中，顶点可由具有标记的形状表示，并且边缘由从一个顶点延伸到另一个顶点的线(无向边缘)或箭头(有向边缘)表示。

由边缘连接的两个顶点被称为边缘的端点。如果图形包含边缘(x,y)，则称顶点x与另一个顶点y相邻。

无向图形由顶点集合和无向边缘集合(连接无序的顶点对)组成，而有向图由顶点集合和有向边缘集合(连接有序的顶点对)组成。

在图形理论中，每个边缘具有与其附接的两个(或在超图中，更多)顶点(称为其端点)。边缘可以是有向的或无向的；无向边缘也称为线，并且有向边缘也称为弧或箭头。

有向边缘是连接上游顶点和下游顶点的边缘，其中上游顶点出现在有向边缘之前并且下游顶点出现在有向边缘之后。

无向边缘是连接两个顶点的边缘，其中任一个顶点可出现在图形路径中的另一个之前。

环、自环和单节点环在本文中可互换使用。环具有一个节点和边缘，其中该边缘两端连接到所述一个节点。

循环是包括两个或更多个顶点的路径，其中循环的路径以相同的顶点开始和结束。简单循环是除开始和结束顶点之外不具有重复顶点或边缘的循环。

循环图是包括至少一个循环的图形。

无环图是不包括任何循环或自环的图形。

有向无环图(DAG)是没有任何循环或自环的有向图。

图形路径是顶点和边缘的序列，其中边缘的两个端点邻近序列中的边缘出现。有向图的图形路径具有出现在有向边缘(或弧或箭头)之前的上游顶点和出现在有向边缘之后的下游顶点。

泊松分布是表示给定数量的事件在固定时间间隔或空间中发生的概率的离散概率分布，如果这些事件以已知的恒定速率发生并且与自上次事件以来的时间无关的话。

完全指定的碱基符号包括G、A、T、C，分别表示鸟嘌呤、腺嘌呤、胸腺嘧啶和胞嘧啶。

不完全指定的核酸命名包括特别是如下的核酸命名。

嘌呤(腺嘌呤或鸟嘌呤)：R

嘧啶(胸腺嘧啶或胞嘧啶)：Y

腺嘌呤或胸腺嘧啶：W

鸟嘌呤或胞嘧啶：S

腺嘌呤或胞嘧啶：M

鸟嘌呤或胸腺嘧啶：K

腺嘌呤或胸腺嘧啶或胞嘧啶：H

鸟嘌呤或胞嘧啶或胸腺嘧啶：B

鸟嘌呤或腺嘌呤或胞嘧啶：V

鸟嘌呤或腺嘌呤或胸腺嘧啶：D

鸟嘌呤或腺嘌呤或胸腺嘧啶或胞嘧啶：N

术语“配对末端读段”是指从配对末端测序获得的读段，该配对末端测序从核酸片段的每个末端获得一个读段。配对末端测序涉及将DNA片段化为称为插入序列的序列。在一些协议(诸如Illumina使用的一些协议)中，来自较短插入序列的读段(例如，大约几十bp至几百bp)被称为短插入序列配对末端读段或简称为配对末端读段。相比之下，来自较长插入序列(例如，大约几千bp)的读段被称为配对读段。在本公开中，可使用短插入序列配对末端读段和长插入序列配对末端读段两者，并且关于用于分析重复扩增的过程不加以区分。因此，术语“配对末端读段”可指短插入序列配对末端读段和长插入序列配对读段两者，这在下文进一步描述。在一些实施方案中，配对末端读段包括约20bp至1000bp的读段。在一些实施方案中，配对末端读段包括约50bp至500bp、约80bp至150bp或约100bp的读段。应当理解，配对末端中的两个读段不需要位于被测序的片段的极端。相反，一个或两个读段可邻近片段的末端。此外，在配对末端读段的情况中，本文例示的方法可使用多种配对读段中的任一种配对末端来执行，而不管该读段是来源于片段的末端还是片段的其他部分。

如本文所用，术语“比对(alignment和aligning)”是指将读段与参考序列进行比较，从而确定参考序列是否包含该读段序列的过程。比对过程试图确定读段是否可映射到参考序列，但并不总是使得读段与参考序列比对。如果参考序列包含该读段，则该读段可映射到参考序列，或者在某些实施方案中，映射到参考序列中的特定位置。在一些情况下，比对简单地告知读段是否为特定参考序列的成员(即，该读段是否存在于该参考序列中)。例如，读段与人类13号染色体的参考序列的比对将告知该读段是否存在于13号染色体的参考序列中。提供该信息的工具可被称为集合成员资格测试仪(set membership tester)。在一些情况下，比对另外指示读段映射到的参考序列中的位置。例如，如果参考序列是人类全基因组序列，则比对可指示读段存在于13号染色体上，并且还可指示该读段存在于13号染色体的特定链和/或位点上。

比对的读段是就其核酸分子顺序而言识别为与已知参考序列诸如参考基因组匹配的一条或多条序列。比对的读段及其在参考序列上的确定位置构成序列标签。比对可手动进行，尽管其通常通过计算机算法来实现，因为不可能在实现本文所公开的方法的合理时间段内比对读段。来自比对序列的算法的一个示例是作为Illumina Genomics分析管线的一部分分布的高效核苷酸数据局部比对(ELAND)计算机程序。另选地，布隆(Bloom)过滤器或类似的集成员资格测试仪可用于将读段与参考基因组进行比对。参见2014年4月25日提交的美国专利申请14/354,528，其全文以引用方式并入本文。比对中序列读段的匹配可以是100％序列匹配或小于100％(例如，非完全匹配)。

本文所用的术语“映射”指通过比对将读段序列分配给较大的序列，例如参考基因组。

在一些情况下，两个配对末端读段中的一个末端读段与参考序列的重复序列比对，而两个配对末端读段中的另一个末端读段未与该参考序列的重复序列比对。在此类情况下，与参考序列的重复序列比对的配对读段被称为“锚读段”。与重复序列未比对但与锚读段配对的配对末端读段被称为锚定读段。因此，未比对的读段可锚定到重复序列并与重复序列相关联。在一些实施方案中，未比对的读段包括不能与参考序列比对的读段和与该参考序列比对不佳的读段两者。当将读段与具有高于某个标准的多个错配碱基的参考序列比对时，则认为该读段比对不佳。例如，在各种实施方案中，当读段与至少约1个、2个、3个、4个、5个、6个、7个、8个、9个或10个错配比对时，认为该读段比对不佳。在一些情况下，一对两个读段均与参考序列比对。在此类情况下，在各种具体实施中，两个读段均可被分析为“锚读段”。

术语“多核苷酸”、“核酸”和“核酸分子”可互换使用，并且是指共价连接的核苷酸(即RNA的核糖核苷酸和DNA的脱氧核糖核苷酸)的序列，其中一个核苷酸的戊糖的3'位置通过磷酸二酯基团连接至下一个核苷酸的戊糖的5'位置。核苷酸包括任何形式的核酸的序列，包括但不限于RNA和DNA分子，诸如游离DNA(cfDNA)分子。术语“多核苷酸”包括但不限于单链多核苷酸和双链多核苷酸。

本文中术语“试验样品”是指通常来源于生物流体、细胞、组织、器官或生物体且包括核酸或核酸混合物的样品，该核酸或核酸混合物具有待筛选拷贝数变异的至少一种核酸序列。在某些实施方案中，样品具有至少一个核酸序列，该核酸序列的拷贝数疑似已发生变异。此类样品包括但不限于痰/口腔液、羊水、血液、血液级分或细针活检样品、尿液、腹膜液、胸膜液等。虽然样品通常取自人类受试者(例如，患者)，但测定可用于任何哺乳动物的拷贝数变异(CNV)，这些哺乳动物包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可按从生物来源获得的原样直接使用，或者经过预处理以改变样品的性质后使用。例如，此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、添加试剂、裂解等。如果对于样品采用此类预处理方法，则此类预处理方法通常使得所关注核酸保留在试验样品中，有时其浓度与未处理的试验样品(例如，即未受到任何此类预处理方法的样品)中的浓度成比例。就本文所述的方法而言，此类“经处理的”或“处理后的”样品仍被视为生物“试验”样品。

对照样品可以是阴性或阳性对照样品。“阴性对照样品”或“未受影响的样品”是指包括已知或预期具有重复的核酸的样品，该重复序列具有在非病原性范围内的多个重复。“阳性对照样品”或“受影响的样品”已知或预期具有这样的重复序列，该重复序列具有在病原性范围内的多个重复。阴性对照样品中重复序列的重复通常尚未扩增到正常范围之外，而阳性对照样品中重复序列的重复通常已经扩增到正常范围之外。因此，可将试验样品中的核酸与一个或多个对照样品进行比较。

本文中术语“所关注序列”是指与健康个体与患病个体的序列表现差异相关联的核酸序列。所关注序列可以是在疾病或遗传病症中扩增的染色体上的重复序列。所关注序列可以是染色体、基因、编码序列或非编码序列的一部分。

本文中术语“下一代测序(NGS)”是指允许对克隆扩增分子和单个核酸分子进行大规模平行测序的测序方法。NGS的非限制性实例包括边连接边测序和使用可逆染料终止子的边合成边测序。

本文中术语“参数”是指表征物理特性的数值。通常，参数以数值方式表征定量数据集和/或定量数据集之间的数值关系。例如，映射到给染色体的序列标签的数目和标签所映射的染色体长度之间的比率(或比率的函数)是参数。

本文中术语“判定标准”是指用作截断值以表征样品(诸如含有来自怀疑具有医学病症的生物体的核酸的试验样品)的任何数目或数量。可将阈值与参数值进行比较，以确定产生此参数值的样品是否表明生物体具有医学病症。在某些实施方案中，使用控制数据集计算阈值并将其用作诊断生物体中重复扩增的极限。在一些具体实施中，如果本文所公开的方法获得的结果超过阈值，则可诊断受检者具有重复扩增。本文所述方法的适当阈值可通过分析针对一组训练样品或对照样品计算的值来识别。阈值也可由经验参数诸如测序深度、读段长度、重复序列长度等来计算。另选地，已知具有重复扩增的受影响样品也可用于确认所选择的阈值可用于区分测试集中的受影响样品与未受影响样品。阈值的选择取决于用户希望必须进行分类的置信水平。在一些实施方案中，用于识别适当阈值的训练集包括至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少200个、至少300个、至少400、至少500个、至少600个、至少700个、至少800个、至少900、至少1000个、至少2000个、至少3000个、至少4000个或更多个合格样品。使用更大的合格样品集来改善阈值的诊断效用可能是有利的。

术语“读段”是指来自核酸样品的一部分的序列读段。通常，尽管不是必须的，读段表示样品中邻接碱基对的短序列。读段可由样品部分的碱基对序列(ATCG形式)象征性地表示。读段可存储在存储器设备中并视情况进行处理，以确定该读段是匹配参考序列还是满足其他标准。读段可直接从测序装置获得或间接从所存储的关于样本的序列信息获得。在一些情况下，读段是足够长度(例如，至少约25bp)的DNA序列，其可用于识别更大的序列或区域，例如，其可被比对并映射到染色体或基因组区域或基因。

术语“基因组读段”用于指个体的全基因组中的任何片段的读段。

术语“位点”是指参考基因组上的唯一位置(即，染色体ID、染色体位置和取向)。在一些实施方案中，位点可以是残基、序列标签或片段在序列上的位置。

如本文所用，术语“参考基因组”或“参考序列”是指可用于参考来自受试者的识别序列的任何生物体或病毒的任何特定已知基因组序列，无论是部分的还是完整的。例如，可在ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center forBiotechnology Information)找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。

在各种实施方案中，参考序列显著大于与其进行比对的读段。例如，参考序列可以是比对读段的至少约100倍大、或至少约1000倍大、或至少约10,000倍大、或至少约10⁵倍大、或至少约10⁶倍大、或至少约10⁷倍大。

在一个示例中，参考序列是全长人类基因组的序列。此类序列可称为基因组参考序列。在另一个示例中，参考序列限于特定的人类染色体，诸如13号染色体。在一些实施方案中，参考染色体是来自人类基因组版本hg19的Y染色体序列。此类序列可称为染色体参考序列。参考序列的其他示例包括其他物种的基因组，以及任何物种的染色体、亚染色体区域(诸如链)等。

在一些实施方案中，用于比对的参考序列的序列长度可以是读段长度的约1至约100倍。在此类实施方案中，比对和测序被认为是靶向比对或测序，而不是全基因组比对或测序。在这些实施方案中，参考序列通常包括所关注基因和/或重复序列。

在各种实施方案中，参考序列是衍生自多个个体的共有序列或其他组合。然而，在某些应用中，参考序列可取自特定个体。

本文中术语“临床相关序列”是指已知或疑似与遗传或疾病病症相关联或相牵连的核酸序列。确定是否存在临床相关序列可用于确定或确认医学病症的诊断，或提供用于疾病发展的预后。

当用于核酸或核酸混合物的上下文时，本文中术语“衍生的”是指从其来源中获得核酸的方式。例如，在一个实施方案中，衍生自两种不同基因组的核酸混合物意指核酸(例如cfDNA)由细胞通过自然发生的过程(诸如坏死或细胞凋亡)自然释放。在另一个实施方案中，衍生自两种不同基因组的核酸混合物意指从来自受试者的两种不同类型的细胞中提取核酸。

当用于获得特定定量值的上下文时，本文中术语“基于”是指使用另一数量作为输入来计算特定定量值作为输出。

本文中术语“患者样品”是指从患者，即医学关注、护理或治疗的接受者中获得的生物样品。患者样品可以是本文所述的任何样品。在某些实施方案中，患者样品通过非侵入性手术获得，例如外周血样品或粪便样品。本文所述的方法不需要限于人类。因此，考虑了各种兽医应用，在这种情况下，患者样品可以是来自非人类哺乳动物(例如，猫科动物、猪、马、牛等)的样品。

本文中术语“生物流体”是指取自生物来源的液体，并且包括例如血液、血清、血浆、痰、灌洗液、脑脊液、尿液、精液、汗液、泪液、唾液等。如本文所用，术语“血液”、“血浆”和“血清”明确地涵盖其级分或加工部分。类似地，在样品取自活检、拭子、涂片等的情况中，“样品”明确地涵盖衍生自活检、拭子、涂片等的处理级分或部分。

如本文所用，术语“对应于”有时是指存在于不同受试者的基因组中的核酸序列(例如基因或染色体)不必在所有基因组中具有相同的序列，而是用于提供所关注序列(例如基因或染色体)的同一性而非遗传信息。

如本文所用，术语“染色体”是指活细胞的携带遗传性的基因载体，其衍生自包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。

本文中术语“受试者”是指人类受试者以及非人受试者，该非人受试者诸如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌和病毒。虽然本文的示例涉及人类并且语言主要针对人类，但本文所公开的概念适用于来自任何植物或动物的基因组，并且可用于兽医学、动物科学、研究实验室等领域。

如本文所用，术语“引物”是指当置于诱导延伸产物合成的条件下(例如，该条件包括核苷酸、诱导剂(诸如DNA聚合酶)以及合适的温度和pH)时能够充当合成起始点的分离寡核苷酸。引物优选地可以是单链的以实现扩增的最大效率，但另选地可以是双链的。如果是双链的，则首先处理引物以分离其链，然后用于制备延伸产物。引物可以是寡脱氧核糖核苷酸。该引物足够长以在诱导剂的存在下引发延伸产物的合成。引物的确切长度将取决于许多因素，包括温度、引物来源、方法的用途和用于引物设计的参数。

简介

短串联重复序列(STR)在整个人类基因组中普遍存在。虽然我们对STR生物学的理解远不完全，但新兴的证据表明STR在基本的细胞过程中起重要作用。

重复扩增是一类涉及STR多态性的特殊微卫星和小卫星变异体。由于当短串联重复序列扩增超过一定大小时的不稳定性，重复扩增也被称为动态突变。STR扩增是超过20种严重神经障碍的主要原因，包括肌萎缩性脊髓侧索硬化症、弗里德赖希共济失调(FRDA)、亨廷顿病(HD)和脆性X染色体综合征。表1例示了与正常样品中的重复序列不同的少量病原性重复扩增。表中的列示出与重复序列相关联的基因、重复单元的核酸序列、正常和病原性序列的重复单元的重复数目、以及与重复扩增相关联的疾病。

表1病原性重复扩增的示例

涉及重复扩增的遗传性疾病在许多方面是异质的。重复单元的大小、扩增程度、相对于受影响基因的位置和病原性机制可因不同疾病而异。例如，ALS涉及核苷酸GGGGCC在位于染色体9开放阅读框72的短臂上的C9orf72基因中的六核苷酸重复扩增。相比之下，脆性X染色体综合征与影响X染色体上脆性X染色体精神发育迟缓1(FMR1)基因的CGG三核苷酸重复(三重重复)的扩增相关联。CGG重复的扩增可导致不能表达正常神经发育所需的脆性X染色体精神发育迟缓蛋白(FMRP)。根据CGG重复序列的长度，等位基因可被分类为正常(不受综合征的影响)、前突变(处于脆性X染色体相关联疾病的风险)或完全突变(通常受综合征的影响)。根据各种估计，在突变的FMR1基因中存在230至4000个CGG重复，其在受影响的患者中引起脆性X染色体综合征，与之相比，在倾向于共济失调的携带者中存在60至230个重复，并且在未受影响的个体中存在5至54个重复。FMR1基因的重复扩增导致自闭症，因为发现约5％的自闭症个体具有FMR1重复扩增。McLennan等人，2011年“Fragile XSyndrome”，Current Genomics，第12卷第3期，第216-224页。脆性X染色体综合征的明确诊断涉及用于确定CGG重复数目的基因检测。

重复扩增相关疾病的各种一般特性已在多项研究中得到识别。重复扩增或动态突变通常表现为重复数目的增加，其中突变率与重复数目相关。罕见事件诸如重复中断的丢失可导致等位基因具有增加的扩增可能性，此类事件被称为创始者事件。重复序列中的重复数目与由重复扩增引起的疾病的严重程度和/或发作之间可存在关系。

因此，识别和判定重复扩增对于各种疾病的诊断和治疗是重要的。然而，识别重复序列，尤其是使用不完全穿过重复序列的读段具有各种挑战。首先，难以将重复序列与参考序列比对，因为在读段和参考基因组之间不存在明显的一对一映射。另外，即使读段与参考序列比对，读段也通常太短而不能完全覆盖医学相关的重复序列。例如，读段可以是约100bp。相比之下，重复扩增可跨越数百到数千个碱基对。例如，在脆性X染色体综合征中，FMR1基因可具有远超过1000个重复，跨越超过3000bp。因此100bp读段不能映射重复扩增的全长。此外，将短读段组装成较长序列可能无法克服短读段与长重复问题，因为由于一个读段中的重复与另一个读段中的重复的模糊比对，因此很难将短读段组装成较长序列。

比对是由于参考序列的不完整性、读段与参考序列上的位点之间的非独特对应性或与参考序列的显著偏差而导致信息丢失的主要原因。系统测序误差和影响读段准确性的其他问题是检测重复序列失败的次要因素。在一些实验方案中，约7％读段未比对或MAPQ评分为0。即使当研究人员致力于改进测序技术和分析工具时，也将总是存在显著量的不可比对和比对不佳的读段。本文所述的方法的具体实施依赖于不可比对或比对不佳的读段来识别重复扩增。

使用长读段来检测重复扩增的方法具有其自身的挑战。在下一代测序中，相比于使用较短读段的技术，当前可用的使用较长读段的技术更慢且更容易出错。此外，长读段对于一些应用是不可行的，诸如对无细胞DNA测序。母体血液中获得的游离DNA可用于产前遗传诊断。使用游离DNA时，游离DNA作为通常短于200的片段存在。本文所述的方法的具体实施使用短读段来识别医学相关的重复扩增。

此外，常规方法不被设计成处理具有多个重复的复杂基因座。此类基因座的重要示例包括使得侧接CCG重复的HD的CAG重复、使得侧接腺苷均聚物的FRDA的GAA重复、以及使得侧接ACT重复的8型脊髓小脑共济失调(SCA8)的CAG重复。甚至更极端的示例是CNBP基因中的CCTG重复，其扩增导致2型强直性肌营养不良症(DM2)。该重复与多态性TG和TCTG重复相邻(J.E.Lee和Cooper，2009年)，使得与该基因座准确比对读段特别困难。另一种类型的复杂重复是多丙氨酸重复，其迄今为止已与至少九种疾病相关联(Shoubridge和Gecz，2012年)。聚丙氨酸重复由a-氨基酸密码子GCA、GCC、GCG或GCT的重复组成。

变异体簇可影响比对和基因分型准确性(Lincoln等人，2019年)。与低复杂性多态性序列相邻的变异体可能另外存在问题，因为用于变异体发现的方法可以在这样的基因组区域中输出不一致地表示的簇或假变异体判定。这部分地归因于此类区域在测序数据中的错误率升高(Benjamini和Speed，2012；Dolzhenko等人，2017年)。一个示例是MSH2中邻近腺苷均聚物的单核苷酸变异(SNV)，其引起林奇综合征I型(Froggatt等人；1999年)。

本文所公开的具体实施可处理如上所述的复杂基因座。它们使用序列图作为每个靶基因座的一般且灵活的模型。

在一些具体实施中，所公开的方法通过利用配对末端测序解决了前述在识别和判定重复扩增方面的挑战。配对末端测序涉及将DNA片段化为称为插入序列的序列。在一些协议(诸如Illumina使用的一些协议)中，来自较短插入序列的读段(例如，大约几十bp至几百bp)被称为短插入序列配对末端读段或简称为配对末端读段。相比之下，来自较长插入序列(例如，大约几千bp)的读段被称为配对读段。如上所述，短插入序列配对末端读段和长插入序列配对读段均可用于本文所公开的方法的各种具体实施中。

图1A是示出将序列读段与参考序列上的重复序列比对的某些困难的示意图，尤其是当比对从具有重复扩增的长重复序列的样品获得的序列读段时。在图1A的底部是参考序列101，其具有由垂直剖面线示出的相对较短的重复序列103。在图中间是患者样品的假想序列105，该假想序列具有也由垂直剖面线示出的具有重复扩增的长重复序列107。在图的顶部示出了在样品序列105的对应位点的位置处示出的序列读段109和序列读段111。在这些序列读段中的一些读段(例如读段111)中，一些碱基对源自长重复序列107，也如垂直剖面线所示并以圆圈突出显示。具有这些重复的读段111可能难以与参考序列101比对，因为重复在参考序列101上不具有清晰的对应位置。由于这些可能未比对的读段不能明显地与参考序列101中的重复序列103相关联，因此难以从这些可能未比对的读段111获得关于重复序列和重复序列扩增的信息。此外，因为这些读段往往短于具有重复扩增的长重复序列107，所以它们不能直接提供关于重复序列107的同一性或位置的确定信息。另外，读段111中的重复使得它们由于其在参考序列101上的模糊对应位置和读段111之间的模糊关系而难以组装。部分来自样品中的长重复序列107的读段(示出为半阴影线和半实心黑色的那些读段)可通过源自重复序列107外部的碱基比对。如果读段在重复序列107之外具有很少的碱基对，则读段的比对可能不佳或可能未比对。因此，具有部分重复的这些读段中的一些读段可被分析为锚读段，并且其他读段可被分析为锚定读段，如下文进一步所述。

图1B是示出如何在一些公开的实施方案中利用配对末端读段来克服图1A所示的困难的示意图。在配对末端测序中，从试验样品中核酸片段的两端进行测序。在图1B的底部示出了参考序列101和样品序列105，以及与图1A所示的读段等同的读段109和读段111。图1B的顶部示出了来源于试验样品序列105的片段125和读段1引物区域131以及读段2引物区域133，用于获得配对末端读段的两个读段135和137。片段125也被称为用于配对末端读段的插入序列。在一些实施方案中，可在存在或不存在PCR的情况下扩增插入序列。一些重复序列，诸如包括大量GC或GCC重复的那些，不能用包括PCR扩增在内的传统方法很好地测序。对于此类序列，扩增可以是无PCR的。对于其他序列，可用PCR进行扩增。

图1B中所示的插入序列125对应于或来源于样品序列105的区段，该区段侧接该图下半部处所示的两个竖直箭头。具体地，插入序列125具有对应于样品序列105中的长重复107的一部分的重复区段127。可针对各种应用来调节插入序列的长度。在一些实施方案中，插入序列可略短于所关注重复序列或具有重复扩增的重复序列。在其他实施方案中，插入序列可具有与重复序列或具有重复扩增的重复序列类似的长度。在另外的实施方案中，插入序列甚至可在一定程度上长于重复序列或具有重复扩增的重复序列。在下文进一步描述的一些实施方案中，此类插入序列可以是用于配对测序的长插入序列。通常，从插入序列获得的读段短于重复序列。因为插入序列比读段长，所以配对末端读段可比单末端读段更好地从样品中重复序列的更长区段捕获信号。

例示的插入序列125在插入序列的两个端部处具有两个读段引物区域131和133。在一些实施方案中，读段引物区域是插入序列固有的。在其他实施方案中，通过连接或延伸将引物区域引入至插入序列。在插入序列的左端示出的是读段1引物区域131，其允许读段1引物132与插入序列125杂交。读段1引物132的延伸产生标记为135的第一读段或读段1。在插入序列125的右端示出的是读段2引物区域133，其允许读段2引物134与插入序列125杂交，从而引发标记为137的第二读段或读段2。在一些实施方案中，插入序列125还可包括索引条形码区域(此处的图中未示出)，从而提供在多重测序过程中识别不同样品的机制。在一些实施方案中，配对末端读段135和137可通过Illumina的合成平台测序获得。在此类平台上实施的测序过程的示例在下文中在测序方法部分中进一步描述，该过程创建两个配对末端读段和两个索引读段。

然后可将如图1B所示获得的配对末端读段与具有相对较短重复序列103的参考序列101比对。因此，一对读段的相对位置和方向是已知的。这允许诸如圆圈111中所示的不可比对或比对不佳的读段通过所读段的对应配对读段109与样品序列105中相对长的重复序列107间接相关联，如图1B的底部处所见。在例示性示例中，从配对末端测序获得的读段为约100bp，插入序列为约500bp。在该示例性设置中，两个配对末端读段的相对位置与其3'末端相距约300个碱基对，并且它们具有相反的方向。读段对之间的关系允许更好地将读段与重复区域相关联。在一些情况下，一对中的第一读段与参考序列上的重复区域侧接的非重复序列比对，并且这对中的第二读段不与参考序列正确比对。参见例如图1B的下半部中所示的一对读段109a和111a，其中该对读段中的左边读段109a为第一读段，右边读段111a为第二读段。鉴于两个读段109a和111a配对，尽管第二读段111a不能与参考序列101比对，但第二读段111a可与样品序列105中的重复区域107相关联。了解第二读段111a相对于第一读段109a的距离和方向，可以进一步确定第二读段111a在长重复区域107内的位置。如果在第二读段111a中的重复之间存在中断，则还可以确定该中断相对于参考序列101的位置。在本公开中，与参考序列比对的读段诸如左读段109a被称为锚读段。未与参考序列比对但与锚读段配对的读段诸如右读段111a被称为锚定读段。因此，未比对的序列可锚定至重复扩增并与重复扩增相关联。这样，可使用短读段来检测长重复扩增。虽然检测重复扩增的挑战通常由于测序难度增加而随扩增长度增加而增加，但本文所公开的方法可检测来自较长重复扩增序列的信号高于来自较短重复扩增序列的信号。这是因为随着重复序列或重复扩增变得更长，更多读段将锚定到扩增区域，更多读段可完全落入重复区域中，并且每个读段可发生更多重复。

在一些实施方案中，本发明所公开的方法涉及分析锚读段和锚定读段中发现的重复数目的频率分布。在一些实施方案中，仅分析锚定读段。在其他实施方案中，分析锚读段和锚定读段两者。可将试验样品的分布与将未受影响样品与受影响样品分开的经验或理论推导的标准进行比较。这样，可确定试验样品是否具有所考虑的重复扩增，并且作出临床相关的判定。

本文所述的方法和装置可采用允许大规模并行测序的下一代测序技术(NGS)。在某些实施方案中，克隆扩增的DNA模板或单个DNA分子在流通池中以大规模并行的方式测序(例如，如Volkerding等人，Clin Chem，第55卷：第641-658页[2009]；Metzker M NatureRev，第11卷：第31-46页[2010]中所述)。NGS测序技术包括但不限于焦磷酸测序、使用可逆染料终止子的边合成边测序、通过寡核苷酸探针连接进行测序和离子半导体测序。来自各个样品的DNA可单独测序(即，单重测序)，或者来自多个样品的DNA可合并并且在单次测序运行上作为索引基因组分子测序(即，多重测序)，以产生最多数十亿个DNA序列读段。可用于获得根据本发明方法的序列信息的测序技术的示例在下文中进一步描述。

使用DNA样品的各种重复扩增分析涉及将来自测序仪的序列读段与参考序列比对或映射。参考序列可以是整个基因组的序列、染色体的序列、亚染色体区域的序列等。从计算角度来看，重复造成比对不明确，这继而甚至在整个染色体计数水平上可产生偏差和误差。在各种实施方案中，与可调节插入序列长度联接的配对末端读段可有助于消除比对重复序列和检测重复扩增的模糊性。

使用序列图在重复序列基因座处对变异体进行基因分型

图1C示出了例示根据一些具体实施对包括重复序列的基因座进行基因分型的过程140的流程图。在一些具体实施中，基因座在包含基因组位置和基因组位置处的基因座结构的变异体目录中是预定义的。图1D、图1E和图1F示出了根据一些具体实施的三种不同序列图。

图1G示出了根据一些具体实施的用于确定HTT基因座处的变异体的基因型的过程的示意图，该HTT基因座包括两个STR序列。图1G中的图(a)示出了变异体目录的一部分，该变异体目录包括作为基因座规格的基因座及其结构。例如，忽略重复，基因座HTT处的序列为CAGCAACAGCGG(SEQ ID NO：2)；基因座CNBP处的序列为CAGGCAGACA(SEQ ID NO：3)。

图1H示出了根据一些具体实施的用于确定林奇I型基因座处的变异体的基因型的过程的示意图，该林奇I型基因座包括SNV和STR。图1H框162示出了基因座规格的一般结构，并且框163示出了林奇I型(MSH2)的基因座规格的具体示例。

在变异体目录中，基因座结构使用正则表达语法的限制性子集来指定。例如，与HD连接的重复区域可以由表示其具有由CAACAG中断分开的可变数量的CAG和CCG重复的表达(CAG)*CAACAG(CGG)*或SEQ ID NO：2(忽略重复)来定义；与FRDA区域连接的区域对应于表达(A)*(GAA)*；与SCA8连接的区域对应于(CTA)*(CTG)*；由三个相邻重复组成的DM2重复区域由(CAGG)*(CAGA)*(CA)*或SEQ ID NO：3限定(忽略重复)；与引起林奇综合征I型的A均聚物相邻的MSH2 SNV对应于(A|T)(A)*。

另外，允许常规表达包含多等位基因或“简并”碱基符号，其可以使用国际纯粹与应用化学联合会(IUPAC)符号(“核酸序列中不完全指定的碱基的命名法，Recommendations1984，国际生化联合命名委员会(NC-IUB)”1986)来指定。

与简并密码子中的碱基相对应的不完全指定的碱基在本文中被称为简并碱基。简并碱基使得有可能表示某些类别的不完美DNA重复序列，其中例如不同的碱基可出现在相同的位置。使用该符号，聚丙氨酸重复可由表达(GCN)*编码，并且聚谷氨酰胺重复序列可由表达(CAR)*编码。

在一些具体实施中，包括在基因座中的重复序列包括短串联重复(STR)序列。在一些具体实施中，FTR的延伸与脆性X染色体综合征、肌萎缩性脊髓侧索硬化症(ALS)、亨廷顿病、弗里德希氏共济失调、脊髓小脑共济失调、脊髓延髓肌萎缩症、强直性肌营养不良症、马查多-约瑟夫氏病或齿状核红核苍白球路易体萎缩症相关联。

过程140涉及从数据库中收集试验样品的核酸序列读段。参见框142。在一些具体实施中，核酸序列读段已初始与参考基因组比对，但此处的过程将序列读段与所关注基因座重新比对，如下文所解释。在另选的具体实施中，读段可直接与序列图比对，而不与参考基因组初始比对。

过程140涉及将序列读段与包含一个或多个重复序列的基因座的序列比对。参见框144。基因座的序列由存储在具有序列图的数据结构的系统存储器中的数据表示。序列图包括具有表示核酸序列的顶点和连接顶点的有向边缘的有向图。顶点中的核酸序列包含一个或多个核酸碱基。序列图包括一个或多个自环。每个自环表示一个或多个重复序列的重复序列。每个重复序列包括一个或多个核苷酸的重复单元的重复。

在一些具体实施中，在将初始比对的读段的子集与表示一个或多个所关注序列的一个或多个序列图比对之前，将序列读段与参考基因组初始比对以确定读段的基因组坐标。在一些具体实施中，将初始比对的读段与序列图进行比对，以确定几十到数千个区域(每个区域对应于序列图)处的重复扩增。在具体实施的每次判定期间与序列图重新比对的初始比对的读段的总数目可在数千至数百万个读段的范围内。

在一些具体实施中，将初始与所关注序列或基因座比对或所关注序列或基因座附近的读段选择为读段的子集，然后将该子集与重复序列比对，每个重复序列由序列图表示，该序列图具有表示一个或多个重复序列的一个或多个自环。在各种具体实施中，来自所关注序列或基因座的处于约10、50、100、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、50,000、100,000个碱基内的读段被认为是在所关注序列或基因座附近。在一些具体实施中，来自所关注基因座的处于约1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000个碱基内的读段在所关注基因座附近。一些原始读段可能初始比对不佳，因为例如它们包括难以明确比对的重复序列。在一些具体实施中，初始比对不佳(例如，如通过比对分数所测量的)但各自与(在配对末端读段对中的)所关注基因座或所关注基因座附近比对的读段配对的读段与序列图比对。在一些具体实施中，将初始与作为已知热点的脱靶区域比对以用于错比对读段的读段与序列图比对。

图1D、图1E和图1F示出了根据一些具体实施的三种不同序列图。图1D示出了表示包括具有三核苷酸重复单元CAG的重复序列的第一基因座的第一序列图1100。第一序列图1100包括分别表示两个侧接序列的顶点1102和1112。第一序列图还包括表示包括三核苷酸重复单元CAG的重复序列的顶点1106。第一序列图包括连接顶点1102(侧接序列)和顶点1106(CAG重复序列)的有向边缘1104，方向从顶点1102到顶点1106。边缘的方向指示两条核酸序列的相对位置。第一序列图还包括连接顶点1102(侧接序列)和顶点1106(CAG重复序列)的有向边缘1104，该方向从顶点1102到顶点1106。第一序列图还包括连接顶点1106(CAG重复序列)和顶点1112(侧接序列)的有向边缘1110，该方向从顶点1106到顶点1112。第一序列图还包括自环1108，该自环表示重复序列包括重复一次或多次的重复单元CAG(在顶点1106中示出)。从序列图的起始顶点到结束顶点的路径表示基因座的序列，其可包括重复序列附近诸如侧接序列的核苷酸。

图1E示出了表示第二基因座的第二序列图1200。第二序列图1200包括分别表示两个侧接序列的顶点1202和1224。第二序列图还包括分别表示包括三核苷酸重复单元CAG的重复序列的顶点1206和包括三核苷酸重复单元CCG的重复序列的顶点1216。第二序列图还包括表示非重复序列CAACAG的顶点1212。第二序列图包括有向边缘1204、1210、1214和1220。这些有向边缘依方向地连接顶点1202、1206、1212、1216和1224，如图所示。第二序列图还包括自环1208，该自环表示重复序列包括重复一次或多次的重复单元CAG(在顶点1206中示出)。第二序列图还包括自环1218，该自环表示重复序列包括重复一次或多次的重复单元CCG(在顶点1216中示出)。

图1F示出表示第三基因座的第三序列图1300。第三序列图1300类似于第二序列图1200，但包括表示两个等位基因CAC和CAT的两条另选路径。这两个等位基因可以是SNV或SNP的等位基因。有向边缘1310、顶点1312和有向边缘1314表示CAC的第一等位基因。有向边缘1316、顶点1318和有向边缘1320表示CAT的第二等位基因。第三序列图包括在其他方面类似于第二序列图中的那些元素的元素，包括顶点1302、1306、1322和1328。第三序列图还包括指示重复序列CAG重复和CCG重复的自环1308和1324。第三序列图还包括有向边缘1304和1326。

在一些具体实施中，使用如下所述的技术将序列读段与序列图比对。

1.Kmer索引建立在整个图上，使得给定来自序列的kmer可以枚举此类kmer开始或结束的所有图节点。在一些情况下，kmer可在一个节点上开始并在另一个节点上结束。

2.对于每个图命中，提取两个子图：一个在kmer的正向上，一个在反向上。子图展开重复扩增直到剩余读段长度，并且不包括比假设重复未扩增的剩余读段长度更远离kmer命中的任何节点。该过程是广度优先搜索，并且产生包含以下各项的数据结构：

-子图中所有节点序列(包括扩增重复)的级联

-节点的索引，使得容易在smith-waterman算法上进行回溯时从序列中的偏移获得节点id

-对于每个节点起始偏移，具有进入的边缘的节点末端的偏移序列

-每个节点的索引，使得容易断定碱基是否在节点的起始处，并且枚举前任节点的所有结束偏移。

3.比对

-支持仿射间隙。

-在给出上述信息和罚分矩阵的情况下，找到序列的最佳评分比对。

有两种不同的接口可用：

-报告了最佳比对和第二最佳比对分数。

-最佳比对和第二最佳比对分数的整个阵列。

比对是对候选kmer和比对序列起点之间的间隙进行罚分的全局比对。在一些具体实施中，调整编译时间参数。

用于矩阵填充的当前算法可用于两个具体实施中：

-具有N*M复杂度的顺序环。

-固定长度编译时间参数的固定大小环的顺序环默认为16，gcc自动识别CPU上的SSE或AVX矢量指令并转换成SSE或AVX矢量指令。

在一些具体实施中，一个或多个重复序列的重复序列的特定重复单元包括至少一个不完全指定的核苷酸。在一些具体实施中，特定重复单元包括简并密码子。

在一些具体实施中，一个或多个自环包括表示两个或更多个重复序列的两个或更多个自环。参见例如图1E、图1F和图1G中的图(b)。

在一些具体实施中，序列图还包括用于两个或更多个等位基因的两条或更多条另选路径。参见例如图1F的参考标号1312和1318。还可参见图1H，基因座林奇I型(MSH2)的参考标号165和167a，其中上路径包括核酸碱基A的顶点，并且下路径包括核酸碱基T的顶点。

在一些具体实施中，两个或更多个等位基因包括插入缺失或置换。在一些具体实施中，置换包括单核苷酸变异(SNV)或单核苷酸多态性(SNP)。参见例如图1F的参考标号1312和1318。

在一些具体实施中，将序列读段与序列图比对包括：找到序列读段与序列图的路径之间的kmer匹配，然后将该路径延伸至完全比对。在一些具体实施中，比对包括提取围绕路径的子图；展开所述子图中的任何环以获得有向无环图；以及执行相对于有向无环图的序列读段的Smith-Waterman比对。

在一些具体实施中，将序列读段与序列图比对包括通过移除比对的低置信度末端而使该序列图收缩。在将读段与图比对后，该方法搜索其他类似的另选比对。这通过将原始读段与通过图的路径重新比对来完成，该路径与原始比对的路径重叠。这允许检测例如初始比对的一端或两端是否具有低置信度，这指示这两端可以不同方式比对。能够检测比对的高置信度部分和低置信度部分允许人们准确地确定读段支持哪些遗传变异体。

在一些具体实施中，该方法还涉及基于包括基因座的基因座结构的基因座规格来生成序列图。在一些具体实施中，基因座规格在如上所述的变异体目录中定义。

还可参见图1G中的图(b)至图(d)，了解读段与HTT基因座的序列图的比对示意图。图1H参考示意性地示出了用于执行读段与序列图的比对的基因座分析仪164，诸如基因座林奇I型(165)。

方法140还涉及使用与序列图比对的序列读段确定一个或多个重复序列的一个或多个基因型。参见框140。还可参见图1G中的图(e)，其示出了确定在HTT基因座处的两个STR(CAG和CCG)。左侧包括CAG重复序列的序列是CAGCAGCAGCAGCAG(SEQ ID NO：4)。左侧包括CCG重复序列的序列是CCGCCGCCGCCGCCG(SEQ ID NO：5)。

图1H示出了用于确定林奇I型基因座处的包括具有A/T等位基因(169a)和A单体重复(169b)的SNV的变异体的变异体基因分型仪模块(168)。图1H还示出了用于策划序列比对数据并将它们提供给变异体基因分型仪(168)的变异体分析仪模块(166)，以及用于具有A/T等位基因(167a)和A单体重复(167b)的SNV的变异体分析仪的具体实施。来自基因分型仪的基因座结果在图1H框170中示出，并且具体地示出为具有A/T等位基因(171a)和A单体重复(171b)的SNV的基因型。

在一些具体实施中，序列图包括两个等位基因的两条另选路径，并且该方法还涉及使用与所述两条或更多条另选路径比对的序列读段对两个或更多个等位基因进行基因分型。在一些具体实施中，对两个或更多个等位基因进行基因分型涉及将两个或更多个另选路径的覆盖度提供给概率模型，以确定两个或更多个等位基因的概率。在一些具体实施中，概率模型模拟等位基因的概率作为等位基因覆盖度的函数，该函数选自泊松分布、负二项分布、二项分布或β-二项分布。

在一些具体实施中，概率函数是泊松分布，并且其速率参数由在基因座处观察到的读段长度和平均深度来估计。

在基于泊松的模型中，等位基因的概率表达如下：

P(Y＝y)＝(C^y×e^-C)/y！

·Y是碱基的读段覆盖度

·C是基因座处的平均深度

在一些具体实施中，平均深度C估计为：

C＝LN/G

·G是基因座的长度

·L是读段长度

·N是所有读段的数目

图形工具库

在一些具体实施中，基本序列图功能应用图形工具库。工具库实现核心图抽象(图本身、图路径和图比对)、对它们的操作以及用于将线性序列与图比对的算法。

在一些具体实施中，序列图由节点和有向边缘组成。允许图包含自环(将节点连接到自身的边缘)，但不包含其他循环。节点包含由核心碱基和IUPAC简并碱基代码组成的序列。

图形路径由路径穿过的节点序列以及第一节点上的路径的起始位置和最后节点上的结束位置限定。使用基于零的半开放坐标系来指定位置。该库定义对路径的多个操作，包括路径延伸和收缩、重叠检查和路径合并。

图比对编码线性查询序列(通常是测序的读段)如何与图比对。在一些具体实施中，图形比对包括图形路径和线性比对序列，该线性比对序列限定查询序列与图形路径的节点的比对。使用路径上的对应操作，图形比对可以与其他图形比对收缩或合并。路径收缩提供了用于移除比对的低置信度末端的机制，而比对合并被图形比对算法用于将查询序列的完全比对与子序列(例如，kmer)的比对拼接在一起。在一些具体实施中，比对算法通过找到查询序列和图之间的kmer匹配，然后将该匹配延伸至完全比对来操作。在一些具体实施中，比对包括提取对应于kmer匹配的路径周围的子图(展开过程中的任何环)。然后其针对所得的有向无环图执行Smith-Waterman比对。在一些具体实施中，算法支持仿射间隙罚分并且使用恒定长度的环来编写以使编译器能够生成SIMD代码。

在一些具体实施中，可利用搜索算法来获得图路径，该搜索算法涉及通过增加或减少由自环表示的重复单元的重复数目来延伸或收缩路径，直到比对达到搜索标准或收敛(例如，比对得分最大化)。

在一些具体实施中，从序列图生成多个图路径，每个图路径表示由自环表示的重复单元的重复的特定数目。查询序列与多个图形路径比对，然后选择满足比对标准的路径用于图比对。

应用架构

一些具体实施被设计为用于靶向变异体基因分型的一般工具(图1H)。在每次运行期间，程序尝试对描述于变异体目录文件中的一组变异体进行基因分型。

彼此紧邻的变异体被分组到同一基因座中。基因座结构使用正则表达(RE)语法的限制性子集来指定。RE包含由核心碱基符号和IUPAC简并碱基代码组成的字母表上的序列，并且必须包含可能由序列中断分开的以下表达中的一者或多者：(<sequence>)？、(<sequence a>|<sequence b>)、(<sequence>)*、(<sequence>)+。这些表达分别对应于插入/缺失、置换、序列重复0次或更多次，以及序列重复至少一次。另外，对每个基因座的描述包含该基因座的一组参考区域和每个组成型变异体的参考坐标。

工作的大部分由LocusAanalyzer类的对象编排，LocusAanalyzer类的对象在初始化期间从相应的RE合成表示基因座的序列图。初始化之后，基因座分析仪通过以下方式处理相关读段：将相关读段与图比对，然后将所得比对结果传递至针对基因座中包含的每个变异体定义的VariantAnalyzer。VariantAnalyzer提取与基因分型相关联的信息并将其传递给执行实际基因分型的基因分型仪。然后使用由每个基因分型仪输出的结果来创建输出VCF文件。

例如，负责处理具有与林奇I型综合征相关联的病原性变异体的基因座的LocusAnalyzer利用SNV分析仪和STR分析仪(图S1，右图)。

Indel基因分型仪

一些STR可在附近具有小的插入或缺失(indel)。此类插入缺失被建模为STR的侧接序列中的附加子图。映射到每个等位基因(或图路径)的读段的数量用泊松分布建模，该泊松分布的速率参数由在基因座处观察到的平均深度和读段长度来估计。在贝叶斯框架下计算基因型可能性。

识别重复扩增

使用本文所公开的实施方案，可以相对于常规方法以高效率、敏感性和/或选择性确定与重复扩增相关的各种遗传条件。本发明的一些实施方案提供了使用不完全穿过重复序列的序列读段来识别和判定医学相关的重复扩增(诸如引起脆性X染色体综合征精神发育迟缓的CGG重复扩增)的方法。短读段诸如100bp读段的长度不足以通过许多重复扩增进行测序。然而，当用本发明所公开的方法分析时，具有重复扩增的样品显示出包含大量重复序列的读段的统计意义上的显著过量。另外，极大的重复扩增包含未比对的读段对，其中两个读段完全或几乎完全由重复序列组成。使用正常样品来识别背景期望。

常规理念是在没有跨整个重复的读段的情况下不能检测到重复扩增。检测重复扩增的现有方法使用具有长读段的靶向测序，并且在一些情况下由于读段不够长而未能跨重复序列，因此是不成功的。一些公开的实施方案的结果已部分地得到惊喜结果，因为它们使用正常(非靶向)序列数据和仅约100bp的读段长度，但却带来用于检测重复扩增的非常高的灵敏度。本文所述的方法可使用具有比整个重复序列的长度短的插入长度(即两个序列读段和间插序列)的成对读段来检测重复扩增中的重复单元的数量。

转到根据一些实施方案的用于确定存在重复扩增的方法的细节，图2示出了提供对用于确定样品中重复序列的重复扩增存在与否的实施方案的高级描述的流程图。重复序列是包括被称为重复单元的短序列的重复出现的核酸序列。上表1提供了重复单元的示例、正常和病原性序列的重复序列中重复单元的重复数目、与重复序列相关的基因以及与重复扩增相关联的疾病。图2中的过程200从获得试验样品的配对末端读段开始。参见框202。已对配对末端读段进行处理以与包括所关注重复序列的参考序列比对。在一些情况下，比对过程也被称为映射过程。试验样品包括核酸并且可以是体液、组织等形式，诸如在下文的样品部分中进一步描述。序列读段已经历比对过程以被映射到参考序列。可使用各种比对工具和算法来尝试将读段与参考序列比对，如本公开其他地方所述。通常，在比对算法中，一些读段与参考序列成功比对，而其他读段可能未与参考序列成功比对或可能与参考序列的比对不佳。与参考序列连续比对的读段与参考序列上的位点相关联。比对的读段及其相关联的位点也称为序列标签。如上所述，一些包含大量重复的序列读段往往更难与参考序列比对。当将读段与具有高于某个标准的多个错配碱基的参考序列比对时，则认为该读段比对不佳。在各种实施方案中，当读段与至少约1、2、3、4、5、6、7、8、9或10个错配比对时，认为读段比对不佳。在其他实施方案中，当读段与至少约5％的错配比对时，认为读段比对不佳。在其他实施方案中，当读段与至少约10％、15％或20％错配碱基比对时，认为读段比对不佳。

如图2所示，过程200继续识别配对末端读段中的锚读段和锚定读段。参见框204。锚读段是与所关注的重复序列比对或所关注重复序列附近的配对末端读段中的读段。例如，锚读段可与参考序列上的位置比对，该参考序列与重复序列分开的序列长度小于插入序列的序列长度。分开长度可更短。例如，锚读段可与参考序列上的位置比对，该参考序列与重复序列分开的序列长度小于锚读段的序列长度或小于锚读段的组合序列长度以及将锚读段连接到锚定读段的序列(即，插入序列的长度减去锚定读段的长度)。在一些实施方案中，所关注重复序列可以是FMR1基因中的重复序列，包括重复单元CGG的重复。在正常参考序列中，FMR1基因中的重复序列包括重复单元CGG的约6-32个重复。当重复扩增至超过200个拷贝时，重复扩增趋于变成病原性的，从而导致脆性X染色体综合征。在一些实施方案中，当读段在所关注重复序列的1000bp内比对时，认为该读段在所关注序列附近比对。在其他实施方案中，可调节该参数，诸如在约100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1500bp、2000bp、3000bp、5000bp等内。另外，该过程还识别锚定读段，该锚定读段是与锚读段配对但与锚定读段的参考序列比对不佳或不能比对的读段。上文描述了比对不佳的读段的附加细节。

过程200还涉及至少部分地基于所识别的锚定读段来确定重复序列的重复扩增是否可能存在于试验样品中。参见框206。该测定步骤可涉及各种合适的分析和计算，如下文进一步所述。在一些实施方案中，该过程使用所识别的锚读段以及锚定读段来确定是否可能存在重复扩增。在一些实施方案中，分析所识别的锚读段和锚定读段中的重复次数，并将其与从理论上推导或从受影响的对照样品的经验数据推导的一个或多个标准进行比较。

在本文所述的各种实施方案中，重复作为框内重复获得，其中相同重复单元的两个重复落入相同的读段框中。阅读框是将核酸(DNA或RNA)分子中的核苷酸序列分成一组连续的、不重叠的三联体的方式。在翻译期间，三联体编码氨基酸，并且被称为密码子。因此，任何特定序列具有三个可能的阅读框。在一些实施方案中，根据三个不同的阅读框对重复进行计数，并且将三个计数中最大的计数确定为读段的对应重复的数目。

涉及附加操作和分析的过程的示例在图3中示出。图3示出了流程图，该流程图示出了使用具有大量重复的配对末端读段来检测重复扩增的过程300。过程300包括用于处理试验样品的附加上游动作。该过程通过对包括核酸的试验样品进行测序以获得配对末端读段而开始。参见框302。在一些实施方案中，试验样品可以各种方式获得和制备，如下文样品部分中进一步描述。例如，试验样品可以是生物流体(例如血浆)或如下所述的任何合适的样品。样品可使用非侵入性规程诸如简单的抽血来获得。在一些实施方案中，试验样品含有核酸分子(例如cfDNA分子)的混合物。在一些实施方案中，试验样品是含有胎儿和母体cfDNA分子混合物的母体血浆样品。

在测序之前，从样品中提取核酸。合适的提取方法和装置在本文其他地方有所描述。在一些具体实施中，该装置一起处理来自多个样品的DNA以提供多重文库和序列数据。在一些实施方案中，装置20并行处理来自八个或更多个试验样品的DNA。如下所述，测序系统可处理提取的DNA以产生编码(例如，条形码)DNA片段的文库。

在一些实施方案中，可进一步处理试验样品中的核酸以制备用于多重或单重测序的测序文库，如下文测序文库制备部分中进一步描述。在处理和制备样品后，可通过各种方法对核酸进行测序。在一些实施方案中，可采用各种下一代测序平台和协议，这在下面的测序方法部分中进一步描述。

无论具体的测序平台和方案如何，在框302中，对样品中包含的核酸的至少一部分进行测序，以产生数万、数十万或数百万的序列读段，例如100bp读段。在一些实施方案中，读段包括配对末端读段。在其他实施方案中，诸如下文参考图5所述的那些，除了配对末端读段之外，还可使用包括超过数百、数千或数万个碱基的单末端长读段来确定重复序列。在一些实施方案中，序列读段包括约20bp、约25bp、约30bp、约35bp、约36bp，约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp。预期的是，技术进步将使单末端读段能够大于500bp，从而在生成配对末端读段时，使读段能够大于约1000bp。

过程300继续将从框302获得的配对末端读段与包括重复序列的参考序列比对。参见框304。在一些实施方案中，重复序列易于扩增。在一些实施方案中，已知重复扩增与遗传性疾病相关联。在其他实施方案中，该重复序列的重复扩增此前尚未进行过研究来建立与遗传性疾病的关联。本文所公开的方法允许检测重复序列和重复扩增，而不管任何相关联的病理。在一些实施方案中，将读段与参考基因组例如hg18比对。在其他实施方案中，将读段与参考基因组(例如染色体或染色体片段)的一部分比对。独特地映射到参考基因组的读段被称为序列标签。在一个实施方案中，至少约3×10⁶个合格的序列标签，至少约5×10⁶个合格的序列标签，至少约8×10⁶个合格的序列标签，至少约10×10⁶个合格的序列标签，至少约15×10⁶个合格的序列标签，至少约20×10⁶个合格的序列标签、至少约30×10⁶个合格的序列标签、至少约40×10⁶个合格的序列标签、或至少约50×10⁶个合格的序列标签从独特地映射到参考基因组的读段获得。

在一些实施方案中，该过程可在比对之前过滤序列读段。在一些实施方案中，读段过滤是由测序仪中实现的软件程序启用的质量过滤过程，以过滤掉错误且低质量的读段。例如，Illumina的测序控制软件(SCS)以及序列和变异软件程序的共有评估，通过将测序反应生成的原始图像数据转化为强度评分、碱基评分、质量评分比对和另外的格式来过滤掉错误的和低质量的读段，以提供用于下游分析的生物相关信息。

在某些实施方案中，通过测序装置产生的读段以电子格式提供。使用如下所述的计算装置来实现比对。将各个读段与参考基因组进行比较，该参考基因组通常非常庞大(数百万个碱基对)以识别读段唯一地与参考基因组对应的位点。在一些实施方案中，比对程序允许读段与参考基因组之间的有限错配。在一些情况下，允许读段中的1、2、3或更多个碱基对与参考基因组中的对应碱基对错配，但仍然进行映射。在一些实施方案中，当读段与参考序列以不超过1、2、3或4个碱基对比对时，认为读段是比对的读段。相应地，未比对的读段是不能比对或比对不佳的读段。比对不佳的读段是具有比比对读段更多错配的读段。在一些实施方案中，当读段与参考序列以不超过1％、2％、3％、4％、5％或10％的碱基对比对时，认为读段是比对读段。

在将配对末端读段与包括所关注重复序列的参考序列比对之后，过程300继续识别配对末端读段中的锚读段和锚定读段。参见框306。如上所述，锚读段是与重复序列比对或重复序列附近的配对末端读段。在一些实施方案中，锚读段是在1kb的重复序列内比对的配对末端读段。锚定读段与锚读段配对，但它们不能与参考序列比对或与参考序列的比对不佳，如上所述。

过程300分析所识别的锚读段和/或锚定读段中重复单元的重复数目，以确定是否存在重复序列的扩增。更具体地讲，过程300涉及使用读段中的重复数目来获得锚读段和/或锚定读段中的高计数读段数目。高计数读段是重复数目超过阈值的读段。在一些实施方案中，高计数读段仅从锚定读段获得。在其他实施方案中，从锚读段和锚定读段两者获得高计数读段。在一些实施方案中，如果重复数目接近读段可能的最大重复数目，则认为读段是高计数读段。例如，如果读段是100bp，并且所考虑的重复单元为3bp，则重复的最大数目将是33。换句话讲，根据配对末端读段的长度和重复单元的长度计算最大值。具体地讲，可通过将读段长度除以重复单元的长度并将该数量四舍五入来获得最大重复数目。在该示例中，各种具体实施可将具有至少约28、29、30、31、32或33个重复的100bp读段识别为高计数读段。可基于经验因素和考虑因素向上或向下调整高计数读段的重复数目。在各种实施方案中，高计数读段的阈值是重复数目最大值的至少约80％、85％、90％或95％。

过程300然后基于高计数读段的数量确定是否可能存在重复序列的重复扩增。参见框310。在一些实施方案中，该分析将所获得的高计数读段与判定标准进行比较，并且如果超过该标准，则确定可能存在重复扩增。在一些实施方案中，判定标准从对照样品的高计数读段的分布获得。例如，分析已知具有或疑似具有正常重复序列的多个对照样品，并且以与上述相同的方式获得对照样品的高计数读段。可获得对照样品的高计数读段的分布，并且可估计具有大于特定值的高计数读段的未受影响样品的概率。该概率允许在给定该特定值处设定的判定标准的情况下确定灵敏度和选择性。在一些实施方案中，判定标准被设置为阈值，使得具有高计数读段大于阈值的未受影响样品的概率小于5％。换句话讲，p值小于0.05。在这些实施方案中，随着重复扩增，重复序列变得更长，更多的读段可能完全源自重复序列内，并且可以获得样品的更多高计数读段。在各种另选的具体实施中，可选择更保守的判定标准，使得具有比阈值更高计数读段的未受影响样品的概率小于约1％、0.1％、0.01％、0.001％、0.0001％等。应当理解，判定标准可基于各种因素以及提高试验的灵敏度或选择性的需要而向上或向下调节。

在一些实施方案中，代替根据经验获得来自对照样品的高计数读段的数量的判定标准或者除了根据经验获得来自对照样品的高计数读段的数量的判定标准之外，可以理论上获得判定标准以用于确定重复扩增。给定多个参数，包括配对末端读段的长度、具有重复扩增的序列的长度和测序深度，可以计算完全在重复内的预期读段数。例如，可使用测序深度来计算比对基因组中的读段之间的平均间距。如果将单个样品测序至30x深度，则测序的总碱基等于基因组的大小乘以深度。对于人类，这将相当于约3×10⁹×30＝9×10¹⁰。如果每个读段是100bp长，则需要总共9×10⁸个读段来实现该深度。由于基因组是二倍体，因此这些读段中的一半对一个染色体/单倍型进行测序，其余的对另一个染色体/单倍型进行测序。每个单倍型有4.5×10⁸个读段，并且将总基因组大小除以该数字产生每个读段的起始位置之间的平均间距，即平均每6.7bp 3×10⁹/4.5×10⁸＝1个读段。可基于特定个体中重复序列的大小，使用该数字来估计将完全在该重复序列内的读段的数量。如果总重复序列大小是300bp，则在该重复序列的前200bp内开始的任何读段将完全在重复序列内(基于100bp读段长度，在最后100bp内开始的任何读段将至少部分地在重复序列之外)。由于预期读段将每6.7bp比对，因此预期200bp/(6.7bp/读段)＝30个读段在重复序列内完全比对。虽然在该数字周围将存在可变性，但这允许估计对于任何扩增大小而言将完全在重复序列内的总读段。根据该方法计算的重复序列长度和在重复序列中完全比对的相应预期读段数在下面的示例1的表2中给出。

在一些实施方案中，根据读段内重复序列的第一次和最后一次观察之间的距离计算判定标准，从而允许重复序列中的突变和测序误差。

在一些实施方案中，该过程还可包括诊断从其获得试验样品的个体具有升高的遗传疾病风险，该遗传性疾病诸如脆性X染色体综合征、ALS、亨廷顿病、弗里德希氏共济失调、脊髓小脑共济失调、脊髓延髓肌萎缩症、强直性肌营养不良症、马查多-约瑟夫氏病或齿状核红核苍白球路易体萎缩症。这种诊断可基于确定重复扩增可能存在于试验样品中，并且基于与重复扩增相关联的基因和重复序列。在其他实施方案中，当遗传性疾病未知时，一些实施方案可检测异常高的重复计数以新识别疾病的遗传原因。

图4是示出根据一些实施方案的用于检测重复扩增的另一过程的流程图。过程400使用试验样品的配对末端读段中的重复数目而不是高计数读段来确定重复扩增的存在。过程400开始于对包括核酸的试验样品进行测序以获得配对末端读段。参见框402，其等同于过程300的框302。过程400通过将配对末端读段与包括重复序列的参考序列比对而继续。参见框404，其等同于过程300中的框304。该过程通过配对末端读段中的识别锚读段和锚定读段继续进行，其中锚读段是与重复序列比对或重复序列附近的读段，并且锚定读段是与锚定件读段配对的未比对读段。在一些实施方案中，未比对的读段包括不能与参考序列比对的读段和与参考序列比对不佳的读段两者。

在识别锚读段和锚定读段之后，过程400从试验样品获得锚读段和/或锚定读段中的重复数目。参见框408。该过程随后获得从试验样品获得的所有锚读段和/或锚定读段的重复数目的分布。在一些实施方案中，仅分析来自锚定读段的重复数目。在其他实施方案中，分析锚读段和锚定读段两者的重复。然后将试验样品的重复数目的分布与一个或多个对照样品的分布进行比较。参见框410。在一些实施方案中，如果试验样品的分布在统计学上显著不同于对照样品的分布，则该方法确定重复序列的重复扩增存在于试验样品中。参见框412。过程400分析包括高计数和低计数读段的读段的重复数目，这不同于仅分析高计数读段的过程，诸如上文相对于过程300所述。

在一些实施方案中，试验样品的分布与对照样品的分布的比较涉及使用曼-惠特尼(Mann-Whitney)等级检验来确定两种分布是否显著不同。在一些实施方案中，如果试验样品的分布相对于对照样品更偏向于更高的重复数目，并且曼惠特尼等级试验的p值小于约0.0001或0.00001，则分析确定试验样品中可能存在重复扩增。可根据需要调节p值以提高测试的选择性或灵敏度。

上文相对于图2至图4所述的用于检测重复扩增的过程使用锚定读段，该锚定读段是与所关注重复序列比对的读段配对的未比对读段。这些过程的变化可包括在未比对的读段中搜索几乎完全由某种类型的重复序列组成的读段对，以发现可能医学相关的新的先前未识别的重复扩增。该方法不量化重复的精确数目，但有效地识别极端的重复扩增或异常值，这些扩增或异常值应被标记以用于进一步量化。与较长读段相结合，该方法能够识别和定量总长度高达200bp或更长的重复序列。

图5示出了使用不与所关注任何重复序列相关联的未比对读段来识别重复扩增的过程500的流程图。过程500可使用整个基因组未比对的读段来检测重复扩增。该过程通过对包括核酸的试验样品进行测序以获得配对末端读段而开始。参见框502。过程500通过将配对末端读段与参考基因组比对而继续进行。参见框504。该过程随后识别整个基因组的未比对读段。未比对读段包括不能与参考序列比对或与参考序列比对不佳的配对末端读段。参见框506。该过程随后分析未比对读段中重复单元的重复数目，以确定重复扩增是否可能存在于试验样品中。该分析可以是对任何特定重复序列不可知的。该分析可应用于各种可能的重复单元，并且可将来自试验样品的不同重复单元的重复数目与多个对照样品的重复数目进行比较。上述试验样品和对照样品之间的比较技术可应用于该分析。如果比较显示试验样品具有异常高的重复数目，则可执行附加分析以确定试验样品是否包括所关注特定重复序列的重复扩增。参见框510。

在一些实施方案中，附加分析涉及非常长的序列读段，其可能跨具有医学上相关的重复扩增的长重复序列。该附加分析中的读段长于配对末端读段。在一些实施方案中，使用单分子测序或合成的长读段测序来获得长读段。在一些实施方案中，重复扩增与遗传性疾病之间的关系是本领域已知的。然而，在其他实施方案中，重复扩增与遗传性疾病之间的关系不需要在本领域中建立。

在一些实施方案中，分析操作510的未比对读段中重复单元的重复数目涉及与图3的操作308的未比对读段中重复单元的重复数目相当的高计数分析。该分析包括获得高计数读段的数量，其中高计数读段是重复数目超过阈值的未比对读段；以及将试验样品中高计数读段的数量与判定标准进行比较。在一些实施方案中，高计数读段的阈值是重复次数最大值的至少约80％，该最大值计算为配对末端读段的长度与重复单元的长度的比率。在一些实施方案中，高计数读段还包括与未比对读段配对并且具有比阈值更多重复的读段。

在一些实施方案中，在操作510的附加分析之前，该过程还涉及(a)识别与未比对的读段配对并且与参考基因组上的重复序列比对或该重复序列附近的配对末端读段；以及(b)提供重复序列作为操作510的所关注特定重复序列。然后，对所关注重复序列的附加分析可采用上文结合图2至图4所述的任何方法。

样品

用于确定重复扩增的样品可包括从包括核酸的任何细胞、流体、组织或器官中获得的样品，其中要确定所关注的一个或多个重复序列的重复扩增。在涉及胎儿诊断的一些实施方案中，有利的是从母体体液获得游离核酸，例如游离DNA(cfDNA)。可通过本领域已知的多种方法从生物样品获得游离核酸(包括游离DNA)，这些生物样品包括但不限于血浆、血清和尿液(参见例如Fan等人，Proc Natl Acad Sci，第105卷：第16266-16271页[2008年]；Koide等人，Prenatal Diagnosis，第25卷：第604-607页[2005年]；Chen等人，Nature Med.，第2卷：第1033-1035页[1996年]；Lo等人，Lancet，第350卷：第485-487页[1997年]；Botezatu等人，Clin Chem，第46卷：第1078-1084页，2000年；和Su等人，J Mol.Diagn.，第6卷：第101-107页[2004年])。

在各种实施方案中，存在于样品中的核酸(例如，DNA或RNA)可在使用之前(例如，在制备测序文库之前)特异性地或非特异性地富集。DNA在以下例示性示例中用作核酸的示例。样品DNA的非特异性富集是指可用于在制备cfDNA测序文库之前增加样品DNA水平的样品基因组DNA片段的全基因组扩增。用于全基因组扩增的方法是本领域已知的。简并寡核苷酸引物PCR(DOP)、引物延伸PCR技术(PEP)和多重置换扩增(MDA)是全基因组扩增方法的示例。在一些实施方案中，样品未富集DNA。

包括应用本文所述方法的核酸的样品通常包括如上所述的生物样品(“试验样品”)。在一些实施方案中，待筛选用于重复扩增的核酸通过多种熟知的方法中的任一种进行纯化或分离。

因此，在某些实施方案中，样品包括经纯化或分离的多核苷酸或基本上由经纯化或分离的多核苷酸组成，或者其可包括样品，诸如组织样品、生物流体样品、细胞样品等。合适的生物流体样品包括但不限于血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳溢液、淋巴液、唾液、脑脊液、灌洗液、骨髓悬浮液、阴道液、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物、羊水、乳汁和白细胞析离样品。在一些实施方案中，样品是易于通过非侵入性手术获得的样品，例如血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳液、唾液或粪便。在某些实施方案中，样品是外周血样品或外周血样品的血浆和/或血清级分。在其他实施方案中，生物样品是拭子或涂片、活检标本或细胞培养物。在另一实施方案中，样品是两种或更多种生物样品的混合物，例如，生物样品可包括生物流体样品、组织样品和细胞培养样品中的两种或更多种。如本文所用，术语“血液”、“血浆”和“血清”明确地涵盖其级分或加工部分。类似地，在样品取自活检、拭子、涂片等的情况中，“样品”明确地涵盖衍生自活检、拭子、涂片等的处理级分或部分。

在某些实施方案中，样品可获自来源，包括但不限于来自不同个体的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体(例如怀疑患有遗传性疾病的个体)的样品、正常个体、在个体疾病的不同阶段获得的样品、从对疾病进行不同治疗的个体获得的样品、受到不同环境因素影响的个体的样品、对病理易感的个体的样品、从暴露于传染病因子的个体获得的样品等。

在一个示例性但非限制性的实施方案中，样品是从妊娠女性(例如，孕妇)中获得的母体样品。在这种情况下，可使用本文所述的方法分析样品以提供胎儿的潜在染色体异常的产前诊断。母体样品可以是组织样品、生物流体样品或细胞样品。作为非限制性示例，生物流体包括血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳溢液、淋巴液、唾液、脑脊液、灌洗液、骨髓悬浮液、阴道液、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物和白细胞析离样品。

在某些实施方案中，也可从体外培养的组织、细胞或其他含多核苷酸的来源中获得样品。培养的样品可从来源中获得，包括但不限于在不同培养基和条件(例如pH、压力或温度)中维持的培养物(例如组织或细胞)、维持不同时长的培养物(例如组织或细胞)、用不同的因子或试剂(例如候选药物或调节剂)处理的培养物(例如组织或细胞)、或不同类型的组织和/或细胞的培养物。

从生物来源分离核酸的方法是熟知的，并且将根据来源的性质而有所不同。本领域技术人员可以容易地从本文所述方法所需的来源分离核酸。在某些情况下，可能有利的是将核酸样品中的核酸分子片段化。片段化可以是随机的，或者它可以是特异性的，如例如使用限制性内切核酸酶消化所实现的。随机片段化的方法是本领域熟知的，并且包括例如限制性DNA酶消化、碱处理和物理剪切。

测序文库制备

在各种实施方案中，测序可在需要制备测序文库的各种测序平台上进行。制备通常涉及使DNA片段化(超声处理、雾化或剪切)，然后进行DNA修复和末端抛光(钝端或A悬垂)，并且与平台特异性衔接子连接。在一个实施方案中，本文所述的方法可利用下一代测序技术(NGS)，其允许在单次测序运行中以基因组分子(即，单重测序)或以包含索引基因组分子的合并样品(例如，多重测序对多个样品进行单独测序。这些方法可生成高达数十亿个DNA序列读段。在各种实施方案中，可使用例如本文所述的下一代测序技术(NGS)来确定基因组核酸和/或索引基因组核酸的序列。在各种实施方案中，可使用如本文所述的一个或多个处理器来执行对使用NGS获得的大量序列数据的分析。

在各种实施方案中，此类测序技术的使用不包括测序文库的制备。

然而，在某些实施方案中，本文设想的测序方法包括测序文库的制备。在一个例示性方法中，测序文库制备涉及随机采集待测序的衔接子修饰的DNA片段(例如，多核苷酸)。可通过逆转录酶的作用从DNA或RNA(包括DNA或cDNA的等同物或类似物，例如由RNA模板产生的互补或拷贝DNA的DNA或cDNA)中制备多核苷酸测序文库。多核苷酸可以双链形式(例如，dsDNA，诸如基因组DNA片段、cDNA、PCR扩增产物等)起始，或者在某些实施方案中，多核苷酸可以单链形式(例如，ssDNA、RNA等)起始并已转化为dsDNA形式。举例来说，在某些实施方案中，单链mRNA分子可拷贝成适用于制备测序文库的双链cDNA。初级多核苷酸分子的精确序列通常对文库制备方法并不重要，并且可以是已知的或未知的。在一个实施方案中，多核苷酸分子是DNA分子。更具体地，在某些实施方案中，多核苷酸分子表示生物体的整个遗传互补序列或生物体的基本上整个遗传互补序列，并且是基因组DNA分子(例如，细胞DNA、游离DNA(cfDNA)等)，其通常包括内含子序列和外显子序列(编码序列)，以及非编码调控序列诸如启动子和增强子序列。在某些实施方案中，初级多核苷酸分子包括人基因组DNA分子，例如存在于怀孕受试者的外周血中的cfDNA分子。

通过使用包含特定范围的片段大小的多核苷酸来促进一些NGS测序平台的测序文库的制备。此类文库的制备通常涉及大的多核苷酸(例如细胞基因组DNA)的片段化，以获得所需大小范围内的多核苷酸，从而确定重复扩增。片段或插入长度长于读段长度，并且通常长于两个读段的长度之和。

在一些示例性实施方案中，样品核酸作为基因组DNA获得，将该基因组DNA片段化为大约100个或更多个、大约200个或更多个、大约300个或更多个、大约400个或更多个、或者大约500个或更多个碱基对的片段，并且NGS方法可容易地应用于这些片段。在一些实施方案中，配对末端读段从约100-5000bp的插入序列获得。在一些实施方案中，插入序列为约100-1000bp长。这些片段有时被实现为常规短插入序列配对末端读段。在一些实施方案中，插入序列为约1000-5000bp长。这些片段有时被实现为如上所述的长插入序列配对读段。

在一些具体实施中，长插入序列被设计用于评估非常长的扩增的重复序列。在一些具体实施中，可应用配对读段来获得由数千个碱基对间隔开的读段。在这些具体实施中，插入序列或片段在数百至数千个碱基对的范围内，其中两个生物素连接衔接子位于插入序列的两端。然后生物素连接衔接子连接插入序列的两端以形成环化分子，然后将其进一步片段化。选择包括生物素连接衔接子和原始插入序列的两个末端的子片段用于在平台上测序，该平台被设计用于对较短的片段进行测序。

可通过本领域技术人员已知的多种方法中的任意一种方法来实现片段化。例如，可通过机械方法来实现片段化，机械方法包括但不限于雾化、超声处理和水剪切。然而，机械片段化通常在C-O、P-O和C-C键处切割DNA主链，从而产生具有断裂的C-O、P-O和/C-C键的平末端和3'-和5'-突出末端的异质混合物(参见例如Alnemri和Liwack，J Biol.Chem，第265卷：第17323-17333页[1990年]；Richards和Boyer，J Mol Biol，第11卷：第327-240页[1965年])，该异质混合物可能需要修复，因为它们可能缺少后续酶反应(例如，制备用于测序的DNA所需的测序衔接子的连接)所必需的5'-磷酸。

相比之下，cfDNA通常以小于约300个碱基对的片段存在，因此片段化通常不是使用cfDNA样品生成测序文库所必需的。

通常，无论多核苷酸是强制片段化的(例如体外片段化的)还是作为片段天然存在的，它们均转化成具有5'-磷酸和3'-羟基的平末端DNA。标准方案，例如，使用例如本文他处所述的Illumina平台进行测序的方案，指示用户对样品DNA进行末端修复，在dA-加尾之前对末端修复的产品进行纯化，以及在文库制备的衔接子连接步骤之前对dA-加尾产品进行纯化。

本文所述的测序文库制备方法的各种实施方案无需执行标准方案通常要求的一个或多个步骤来获得可由NGS测序的经修饰的DNA产物。简化方法(ABB方法)、1步方法和2步方法是用于制备测序文库的方法的示例，其可见于2012年7月20日提交的专利申请13/555,037，该专利申请全文以引用方式并入本文。

测序方法

如上所述，将所制备的样品(例如测序文库)作为用于识别拷贝数变异程序的一部分进行测序。可利用多种测序技术中的任意一种技术。

一些测序技术是可商购获得的，例如从Affymetrix公司(Sunnyvale，CA)获得的边杂交边测序平台，从454Life Sciences(Bradford，CT)、Illumina/Solexa(San Diego，CA)和Helicos Biosciences(Cambridge,MA)获得的边合成边测序平台以及从AppliedBiosystems(Foster City，CA)获得的边连接边测序平台，如下所述。除了使用HelicosBiosciences的边合成边测序进行的单分子测序之外，其他单分子测序技术包括但不限于Pacific Biosciences的SMRT^TM技术、ION TORRENT^TM技术，以及例如由Oxford NanoporeTechnologies开发的纳米孔测序。

虽然自动桑格法(Sanger method)被认为是“第一代”技术，但包括自动桑格测序(Sanger sequencing)的桑格测序也可用于本文所述的方法中。另外的合适测序方法包括但不限于核酸成像技术，例如原子力显微镜(AFM)或透射电子显微镜(TEM)。下文更详细地描述了示例性的测序技术。

在一些实施方案中，所公开的方法涉及通过使用Illumina的边合成边测序和基于可逆终止子的测序化学对数百万个DNA片段进行大规模并行测序来获得试验样品中的核酸的序列信息(例如，如Bentley等人，Nature，第6卷：第53-59页[2009]中所述)。模板DNA可以是基因组DNA，例如细胞DNA或cfDNA。在一些实施方案中，将来自分离细胞的基因组DNA用作模板，并且将其片段化成几百个碱基对的长度。在其他实施方案中，将cfDNA用作模板，并且不需要将其片段化，因为cfDNA是作为短片段存在的。例如，胎儿cfDNA在血流中以长度为约170个碱基对(bp)的片段循环(Fan et al.，Clin Chem，第56卷：第1279-1286页[2010年]，并且不需要在测序之前将该DNA片段化。Illumina的测序技术依赖于将片段化的基因组DNA连接到锚寡核苷酸所结合的平面的光学透明表面。将模板DNA进行末端修复以产生5'-磷酸化的平末端，并且使用克列诺片段(Klenow fragment)的聚合酶活性将单个A碱基添加到平末端磷酸化的DNA片段的3'末端。此添加制备用于连接至寡核苷酸衔接子的DNA片段，所述寡核苷酸衔接子在其3'末端具有单个T碱基的突出端以提高连接效率。衔接子寡核苷酸与流通池锚寡核苷酸互补(不会与重复扩增分析中的锚/锚定读段混淆)。在有限稀释条件下，将衔接子修饰的单链模板DNA添加到流通池中，并通过与锚寡核苷酸杂交进行固定。将连接的DNA片段延伸并桥式扩增以产生具有数亿簇的超高密度测序流通池，每个簇包含约1,000个相同模板的拷贝。在一个实施方案中，随机片段化的基因组DNA在其进行簇扩增之前使用PCR进行扩增。另选地，使用无扩增基因组文库制备，并且仅使用簇扩增来富集随机片段化的基因组DNA(Kozarewa等人，Nature Methods，第6卷：第291-295页[2009])。使用稳健的四色DNA边合成边测序技术对模板进行测序，该技术采用具有可去除荧光染料的可逆终止子。使用激光激发和全内反射光学器件来实现高灵敏度荧光检测。将约几十至几百个碱基对的短序列读段与参考基因组进行比对，并且使用专门开发的数据分析管线软件来识别短序列读段与参考基因组的唯一映射。在第一次读取完成之后，模板可原位再生以能够从片段的相反端进行第二次读取。因此，可使用DNA片段的单末端或配对末端测序。

本发明的各种实施方案可使用允许配对末端测序的边合成边测序。在一些实施方案中，Illumina的边合成边测序涉及聚类片段。进行聚类是其中每个片段分子进行等温扩增的过程。在一些实施方案中，如此处所述的示例，片段具有连接至该片段的两个末端的两种不同衔接子，所述衔接子允许该片段与流通池泳道表面上的两种不同寡核苷酸杂交。片段还包括或连接至片段两端的两个索引序列，所述索引序列提供标记以在多重测序中识别不同的样品。在一些测序平台中，待测序的片段也称为插入序列。

在一些具体实施中，用于在Illumina平台中进行聚类的流通池是具有泳道的载玻片。每个泳道是涂覆有两种类型寡核苷酸的引物苔的玻璃通道。通过在表面上的两种类型寡核苷酸中的第一种寡核苷酸来实现杂交。该寡核苷酸与片段一个末端上的第一接头互补。聚合酶产生杂交片段的互补链。双链分子变性，并且原始模板链被洗掉。剩余的链与许多其他剩余的链平行，通过桥式应用进行克隆扩增。

在桥式扩增中，链的第二末端上的第二衔接子区域域与流通池表面上的第二类型的寡核苷酸杂交。聚合酶产生互补链，从而形成双链桥式分子。该双链分子变性，导致两个单链分子通过两种不同的寡核苷酸连接到流通池。然后反复重复该过程，并且同时在数百万个簇中进行，从而导致所有片段的克隆扩增。在桥式扩增之后，反向链被切割并洗掉，仅留下正向链。封闭3'端以防止不需要的引发。

在聚类之后，测序开始于延伸第一测序引物以生成第一次读取。在每次循环中，荧光标记的核苷酸竞争添加到正在增长的链中。基于模板的序列仅掺入一个荧光标记的核苷酸。在添加每个核苷酸后，簇由光源激发，并发出特征性荧光信号。循环次数决定了读段的长度。发射波长和信号强度决定了碱基判定。同时读取给定簇的所有相同的链。以大规模平行的方式对数以亿计的簇进行测序。在完成第一次读取时，将所读取的产物洗掉。

在包括两种索引引物的方案的下一步骤中，引入索引1引物并将其与模板上的索引1区域杂交。索引区域提供对片段的识别，这可用于在多重测序过程中解复用样品。生成与第一次读取类似地索引1读取。在完成索引1读取之后，将所读取的产物洗掉，并将链的3'末端去保护。然后模板链折叠并结合至流通池上的第二寡核苷酸。以与索引1相同的方式读取索引2序列。然后在步骤结束时洗掉索引2读段产物。

在读取两个索引后，通过使用聚合酶来延伸第二流通池寡核苷酸从而形成双链桥来启动读取2。该双链DNA变性，并且3'端被阻断。原正向链被切割并洗掉，留下反向链。读取2以引入读取2测序引物开始。与读取1一样，重复测序步骤直到实现所需长度。将读取2产物洗掉。该整个过程生成数百万个读段，表示所有片段。基于在样品制备期间引入的唯一索引来分离来自合并样品文库的序列。对于每个样品，对碱基判定的相似延伸的读段进行本地聚类。将正向和反向读段配对，从而产生邻接序列。将这些邻接序列与参考基因组进行比对以进行变异体鉴定。

上述边合成边测序示例涉及配对末端读段，其用于所公开方法的许多实施方案中。配对末端测序涉及从片段两个末端进行的2次读取。配对末端读段用于解决模糊比对。配对末端测序允许使用者选择插入序列(或待测序的片段)的长度并对插入序列的任一端进行测序，从而产生高质量、可比对的序列数据。因为每个配对读段之间的距离是已知的，所以比对算法可以使用该信息更精确地映射重复区域上的读段。这能更好地实现读段比对，特别是在基因组中难以测序的、重复的区域上。配对末端测序可检测重排，包括插入和缺失(插入缺失)和倒位。

配对末端读段可使用不同长度的插入序列(即，待测序的不同片段大小)。作为本公开中的默认含义，配对末端读段用于指从各种插入序列长度中获得的读段。在一些情况下，为了区分短插入序列配对末端读段与长插入序列配对末端读段，后者具体被称为配对读段。在包括配偶对读段的一些实施方案中，首先将两个生物素连接衔接子连接到相对长的插入序列(例如，几kb)的两个末端。然后所述生物素连接衔接子连接插入序列的这两个末端以形成环化分子。然后可通过进一步使该环状化分子片段化来获得包含所述生物素连接衔接子的亚片段。然后可通过与上述短插入序列配对末端测序相同的程序对以相反序列顺序包含原始片段的两个末端的亚片段进行测序。使用Illumina平台的配对测序的更多细节示于以下的网址在线公布中，该网址以引用方式并入：res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf

在DNA片段测序后，将预定长度(例如，100bp)的序列读段映射到已知的参考基因组或与其进行比对。所映射的或比对的读段及它们在参考序列上的对应位置也称为标签。本文所公开的用于确定重复扩增的许多实施方案的分析利用比对不佳或不能比对的读段以及比对读段(标签)。在一个实施方案中，参考基因组序列是NCBI36/hg18序列，其可在万维网上在以下网址获得：genome.ucsc.edu/cgi-bin/hgGateway？org＝Human&db＝hg18&hgsid＝166260105)。另选地，参考基因组序列是GRCh37/hg19，其可在万维网上在以下网址获得：genome.ucsc.edu/cgi-bin/hgGateway。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)和DDBJ(日本DNA数据库)。多种计算机算法可用于比对序列，包括但不限于BLAST(Altschul等人，1990年)、BLITZ(MPsrch)(Sturrock和Collins，1993年)、FASTA(Person和Lipman，1988年)、BOWTIE(Langmead等人，GenomeBiology，10：R25.1-R25.10[2009])或ELAND(Illumina公司，San Diego，CA，USA)。在一个实施方案中，对血浆cfDNA分子的克隆扩增拷贝的一端进行测序，并通过Illumina基因组分析仪的生物信息学比对分析进行处理，该分析仪使用核苷酸数据库(ELAND)软件的高效大规模比对。

在一个例示性但非限制性的实施方案中，本文所述的方法包括使用Helicos True单分子测序(tSMS)技术的单分子测序技术(例如，如Harris T.D.等人，Science，第320卷：第106-109页[2008]中所述)获得试验样品中核酸的序列信息。在tSMS技术中，将DNA样品切割成大约100至200个核苷酸的链，并且将polyA序列添加到每个DNA链的3'端。每条链通过添加荧光标记的腺苷核苷酸进行标记。然后使DNA链与流通池杂交，该流通池包含数百万个固定到流通池表面的寡核苷酸-T捕获位点。在某些实施方案中，模板的密度可为约1亿模板/cm²。然后将流通池加载到仪器例如HeliScope^TM测序仪中，并且激光照射流通池的表面，显露出每个模板的位置。CCD相机可映射模板在流通池表面上的位置。然后切割模板荧光标记并洗掉。测序反应通过引入DNA聚合酶和荧光标记的核苷酸开始。寡-T核酸用作引物。聚合酶以模板指导的方式将标记的核苷酸掺入到引物中。移除聚合酶和未掺入的核苷酸。通过对流通池表面成像来辨别已指导掺入荧光标记的核苷酸的模板。成像后，裂解步骤移除荧光标记，并且用其他荧光标记的核苷酸重复该过程，直到达到所需的读段长度。用每个核苷酸添加步骤收集序列信息。通过单分子测序技术进行的全基因组测序排除或通常排除了测序文库制备中基于PCR的扩增，并且该方法允许直接测量样品，而不是测量该样品的拷贝。

在另一个例示性但非限制性的实施方案中，本文所述的方法包括使用454测序(Roche)获得试验样品中核酸的序列信息(例如，如Margulies，M.等人，Nature，第437卷：第376-380页[2005]中所述)。454测序通常涉及两个步骤。在第一步中，将DNA剪切成大约300至800个碱基对的片段，并且该片段是平末端的。然后将寡核苷酸衔接子连接至片段的末端。衔接子充当用于扩增和测序片段的引物。可使用例如含有5'-生物素标签的衔接子B将片段连接至DNA捕获小珠，例如链霉亲和素包被的小珠。连接在小珠上的片段在油-水乳液的液滴内进行PCR扩增。结果是每个小珠上有克隆扩增的DNA片段的多个拷贝。在第二步中，将小珠捕集在孔(例如皮升大小的孔)中。对每个DNA片段并行进行焦磷酸测序。添加一个或多个核苷酸产生光信号，该光信号由CCD相机记录在测序仪器中。信号强度与掺入的核苷酸数成比例。焦磷酸测序利用核苷酸添加时释放的焦磷酸盐(PPi)。在腺苷5'磷酸硫酸盐的存在下通过ATP硫酸化酶将PPi转化成ATP。荧光素酶使用ATP将荧光素转化为氧荧光素，并且该反应产生被测量和分析的光。

在另一个例示性但非限制性的实施方案中，本文所述的方法包括使用SOLiD^TM技术(来自Applied Biosystems)获得试验样品中核酸的序列信息。在SOLiD^TM边连接边测序中，将基因组DNA剪切成片段，并将衔接子连接到片段的5'和3'端以产生片段文库。另选地，可通过将衔接子连接到片段的5'和3'端、将片段环化、消化所环化片段以产生内部衔接子、以及将衔接子连接到所得片段的5'和3'端以产生配对文库来引入内部衔接子。接下来，在含有小珠、引物、模板和PCR组分的微型反应器中制备克隆小珠群。在PCR后，使模板变性，并富集小珠以使用延伸模板来分离小珠。使所选择的小珠上的模板经受允许粘结到载玻片的3'修改。该序列可通过部分随机寡核苷酸与由特定荧光团识别的中心确定的碱基(或碱基对)的顺序杂交和连接来确定。记录颜色后，切割并移除连接的寡核苷酸，然后重复该过程。

在另一个例示性但非限制性的实施方案中，本文所述的方法包括使用PacificBiosciences的单分子实时(SMRT^TM)测序技术获得试验样品中核酸的序列信息。在SMRT测序中，在DNA合成期间对染料标记的核苷酸的连续掺入进行成像。将单个DNA聚合酶分子连接至单个零模式波长检测器(ZMW检测器)的底表面，该零模式波长检测器获得序列信息，同时将磷酸化的核苷酸掺入生长的引物链中。ZMW检测器包含限制结构，该结构能够在快速扩散到ZMW外的荧光核苷酸背景下(例如，以微秒计)观察DNA聚合酶掺入单个核苷酸。将核苷酸掺入生长链中通常需要若干毫秒。在此期间，荧光标记被激发并产生荧光信号，并且荧光标签被切割。染料的相应荧光的测量结果表明掺入了哪个碱。重复该过程以提供序列。

在另一个例示性但非限制性的实施方案中，本文所述的方法包括使用纳米孔测序获得试验样品中核酸的序列信息(例如，如Soni GV和Meller A，Clin Chem，第53卷：第1996-2001页[2007]中所述)。纳米孔测序DNA分析技术由许多公司开发，包括例如OxfordNanopore Technologies(Oxford，United Kingdom)、Sequenom、NABsys等。纳米孔测序是单分子测序技术，由此当单个分子的DNA穿过纳米孔时对其直接测序。纳米孔是直径通常为大约1纳米的孔。将纳米孔浸没在导电流体中并在其上施加电势(电压)由于离子传导通过纳米孔而导致轻微的电流。流动的电流量对纳米孔的尺寸和形状敏感。当DNA分子穿过纳米孔时，DNA分子上的每个核苷酸以不同程度阻塞纳米孔，从而以不同程度改变通过纳米孔的电流的大小。因此，当DNA分子通过纳米孔时，电流的这种变化提供DNA序列的读段。

在另一个例示性但非限制性的实施方案中，本文所述的方法包括使用化学敏感场效应晶体管(chemFET)阵列获得试验样品中核酸的序列信息(例如，如美国专利申请公布2009/0026082中所述)。在该技术的一个示例中，可将DNA分子置于反应室中，并且可将模板分子与结合到聚合酶的测序引物杂交。在测序引物的3'端将一种或多种三磷酸盐掺入新核酸链可通过chemFET识别为电流的变化。阵列可具有多个chemFET传感器。在另一个示例中，可将单个核酸连接到小珠，并且可在小珠上扩增核酸，并且可将各个小珠转移到chemFET阵列上的各个反应室，其中每个室具有chemFET传感器，并且可对核酸进行测序。

在另一个实施方案中，DNA测序技术是Ion Torrent单分子测序，其将半导体技术与简单的测序化学配对以将化学编码的信息(A、C、G、T)直接转化成半导体芯片上的数字信息(0、1)。在自然界中，当核苷酸通过聚合酶掺入DNA链中时，氢离子作为副产物释放。IonTorrent使用微机械孔的高密度阵列以大规模并行方式执行该生化过程。每个孔容纳不同的DNA分子。孔下面的是离子敏感层并且在离子传感器的下面。当将核苷酸例如C添加到DNA模板并随后掺入DNA链中时，氢离子将被释放。来自该离子的电荷将改变溶液的pH，这可由Ion Torrent的离子传感器检测。测序仪—基本上世界上最小的固态pH计—称为碱，直接从化学信息变为数字信息。Ion个人化基因组测序仪(PGM^TM)用一个核苷酸接一个核苷酸顺序地充满芯片。如果充满芯片的下一个核苷酸不匹配，则将不记录电压变化并且将不判定碱基。如果DNA链上有两个相同的碱基，则电压将加倍，并且芯片将记录称为两个相同的碱基。直接检测允许以秒为单位记录核苷酸掺入。

在另一个实施方案中，本发明方法包括使用杂交测序获得试验样品中核酸的序列信息。边杂交边测序包括使多个多核苷酸序列与多个多核苷酸探针接触，其中所述多个多核苷酸探针中的每一个多核苷酸探针可任选地连接至基板。基底可以是包括已知核苷酸序列的阵列的平坦表面。与阵列的杂交模式可用于确定样品中存在的多核苷酸序列。在其他实施方案中，每个探针连接到小珠，例如磁性小珠等。可确定与小珠的杂交并用于识别样品内的多个多核苷酸序列。

在本文所述方法的一些实施方案中，序列读段为约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp长。预期的是，技术进步将使单末端读段能够大于500bp，在生成配对末端读段时，使读段能够大于约1000bp。在一些实施方案中，配对末端读段用于确定重复扩增，其包括约20bp至1000bp、约50bp至500bp或80bp至150bp长的序列读段。在各种实施方案中，配对末端读段用于评估具有重复扩增的序列。具有重复扩增的序列比读段长。在一些实施方案中，具有重复扩增的序列长于约100bp、500bp、1000bp或4000bp。通过将读段序列与参考序列进行比较以确定经测序的核酸分子的染色体来源来实现序列读段的映射，并且不需要特定的遗传序列信息。可允许小程度的错配(0-2个错配/读段)解释混合样品中参考基因组与基因组之间可能存在的微小多态性。在一些实施方案中，与参考序列比对的读段用作锚读段，并且与该锚读段配对但不能与参考序列比对或比对不佳的读段用作锚定读段。在一些实施方案中，比对不佳的读段每个读段可具有相对较大的错配百分比，例如每个读段具有至少约5％、至少约10％、至少约15％或至少约20％的错配百分比。

通常每个样品获得多个序列标签(即与参考序列比对的读段)。在一些实施方案中，至少约3×10⁶个序列标签，至少约5×10⁶个序列标签，至少约8×10⁶个序列标签，至少约10×10⁶个序列标签，至少约15×10⁶个序列标签，至少约20×10⁶个序列标签、至少约30×10⁶个序列标签、至少约40×10⁶个序列标签、或至少约50×10⁶个序列标签，例如100bp，通过将每个样品的读段映射到参考基因组而获得。在一些实施方案中，将所有序列读段映射到参考基因组的所有区域，从而提供全基因组读段。在其他实施方案中，将读段映射到所关注的序列，例如染色体、染色体片段或所关注重复序列。

用于确定重复扩增的装置和系统

通常使用各种计算机执行的算法和程序来执行测序数据的分析和从其推导的诊断。因此，某些实施方案采用包括存储在一个或多个计算机系统或其他处理系统中或通过一个或多个计算机系统或其他处理系统传输的数据的过程。本文所公开的实施方案还包括用于执行这些操作的装置。该装置可被专门构造用于所需目的，或者其可以由存储在计算机中的计算机程序和/或数据结构来选择性地激活或重新配置的通用计算机(或计算机组)。在一些实施方案中，处理器组协同地(例如，经由网络或云计算)和/或并行地执行所述分析操作中的一些或全部操作。用于执行本文所述的方法的处理器或处理器组可以是各种类型，包括微控制器和微处理器，微处理器诸如可编程设备(例如，CPLD和FPGA)和不可编程设备(诸如门阵列ASIC或通用微处理器)。

一个实施方案提供用于确定包括重复序列的基因座处变异体的基因型的系统，该系统包括用于接收核酸样品并提供来自样品的核酸序列信息的测序仪；处理器；以及机器可读存储介质，该机器可读存储介质具有存储在其上的指令，该指令用于在所述处理器上执行以通过以下方式对该变异体进行基因分型：(a)从数据库收集试验样品的核酸序列读段；(b)将序列读段与各自由序列图表示的一个或多个重复序列比对，其中序列图具有有向图的数据结构，该有向图具有表示核酸序列的顶点和连接该顶点的有向边缘，并且其中该序列图包括一个或多个自环，每个自环表示重复子序列，每个重复子序列包括一个或多个核苷酸的重复单元的重复；以及(c)使用与所述一个或多个重复序列比对的序列读段确定所述一个或多个重复序列的一个或多个基因型。

在本文提供的系统中的任意一种系统的一些实施方案中，测序仪被配置为执行下一代测序(NGS)。在一些实施方案中，测序仪被配置为使用具有可逆染料终止子的边合成边测序来执行大规模并行测序。在其他实施方案中，测序仪被配置为执行边连接边测序。在其他实施方案中，测序仪被配置为执行单分子测序。

此外，某些实施方案涉及有形和/或非暂态计算机可读介质或计算机程序产品，其包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的示例包括但不限于半导体存储器设备、磁性介质(诸如磁盘驱动器)、磁带、光学介质(诸如CD)、磁光介质以及被专门配置为存储和执行程序指令的硬件设备，诸如只读存储器设备(ROM)和随机存取存储器(RAM)。计算机可读介质可由最终用户直接控制，或者所述介质可由最终用户间接控制。直接控制介质的示例包括位于用户设施处的介质和/或不与其他实体共享的介质。间接控制介质的示例包括用户可经由外部网络和/或经由提供共享资源(诸如“云”)的服务间接访问的介质。程序指令的示例包括诸如由编译器产生的机器代码以及包含可由计算机使用解释器执行的较高级代码的文件。

在各种实施方案中，在本发明所公开的方法和装置中采用的数据或信息以电子格式提供。此类数据或信息可包括来源于核酸样品的读段和标签、参考序列(包括仅提供或主要提供多态性的参考序列)、判定诸如重复扩增判定、咨询建议、诊断等。如本文所用，以电子格式提供的数据或其他信息可用于存储在机器上并在机器之间传输。常规地，电子格式的数据以数字方式提供，并且可作为位和/或字节存储在各种数据结构、列表、数据库等中。数据可以电子方式、光学方式等体现。

一个实施方案提供了用于生成输出的计算机程序产品，该输出指示试验样品中是否存在重复扩增。计算机产品可包含用于执行用于确定重复扩增的上述方法中的任何一者或多者的指令。如所解释的，计算机产品可包括非暂态和/或有形计算机可读介质，该非暂态和/或有形计算机可读介质具有记录在其上的计算机可执行或可编译逻辑(例如，指令)，以用于使处理器能够确定锚定读段和该锚定读段中的重复，以及是否存在重复扩增。在一个示例中，计算机产品包括计算机可读介质，该计算机可读介质具有记录在其上的用于使处理器能够诊断重复扩增的计算机可执行或可编译的逻辑(例如，指令)，该计算机可执行或可编译的逻辑包括：用于从经历与重复序列的比对的核酸分子的至少一部分接收测序数据的接收程序；用于分析来自所述接收到的数据的重复扩增的计算机辅助逻辑；以及用于生成输出的输出程序，该输出指示重复扩增的存在、不存在或种类。

可将来自所考虑的样品的序列信息映射到染色体参考序列，以识别与所关注重复序列比对或锚定的配对末端读段，并识别重复序列的重复扩增。在各种实施方案中，参考序列存储在数据库诸如关系数据库或对象数据库中。

应当理解，对于无辅助的人类而言，执行本文所公开的方法的计算操作是不切实际的，甚至在大多数情况下是不可能的。例如，在没有计算装置辅助的情况下，将来自样品的单个30bp读段映射到人类染色体中的任意一条染色体可能需要多年的努力。当然，由于可靠的重复扩增判定通常需要将数千(例如，至少约10,000)或甚至数百万的读段映射到一条或多条染色体，因此该问题是复杂的。

在各种具体实施中，将原始序列读段与表示一个或多个所关注序列的一个或多个序列图比对。在各种具体实施中，至少10,000、100,000、500,000、1,000,000、5,000,000或10,000,000个读段与一个或多个序列图比对。在各种具体实施中，一个或多个序列图包括至少1、2、5、10、50、100、500、1000、5,000、10,000或50,000个序列图。

在一些具体实施中，在将初始比对的读段的子集与表示一个或多个所关注序列的一个或多个序列图比对之前，将原始序列读段与参考基因组初始比对以确定读段的基因组坐标。在各种具体实施中，至少10,000、100,000、500,000、1,000,000、5,000,000、10,000,000或100,000,000个读段与参考基因组初始比对。在一些具体实施中，将初始比对的读段与序列图重新比对以确定多个区域(每个区域对应于序列图)处的重复扩增。在具体实施的每次判定期间与序列图重新比对的读段的总数目可在数千至数百万个读段的范围内。在各种具体实施中，至少10,000,000个读段与每个序列图重新比对。在各种具体实施中，一个或多个序列图包括至少1、2、5、10、50、100、500、1000、5,000、10,000或50,000个序列图。

本文所公开的方法可使用用于确定包含重复序列的基因座处变异体的基因型的系统来执行。该系统可包括：(a)用于从试验样品接收核酸的测序仪，该测序仪从样品提供核酸序列信息；(b)处理器；和(c)一个或多个计算机可读存储介质，该计算机可读存储介质具有存储在其上的指令，该指令用于在所述处理器上执行以对包括重复序列的基因座处的变异体进行基因分型。在一些实施方案中，该方法由其上存储有用于执行用于识别任何重复扩增的方法的计算机可读指令的计算机可读介质指示。因此，一个实施方案提供了一种计算机程序产品，该计算机程序产品包括存储程序代码的非暂态机器可读介质，该程序代码在由计算机系统的一个或多个处理器执行时，使该计算机系统实施用于识别包括核酸的试验样品中的重复序列的重复扩增的方法，其中该重复序列包括核苷酸的重复单元的重复。程序代码可包括：(a)用于收集来自数据库的试验样品的序列读段的代码；(b)用于将序列读段与各自由序列图表示的一个或多个重复序列比对的代码，其中序列图具有有向图的数据结构，该有向图具有表示核酸序列的顶点和连接该顶点的有向边缘，并且其中该序列图包括一个或多个自环，每个自环表示重复子序列，每个重复子序列包括一个或多个核苷酸的重复单元的重复；以及(c)用于使用与所述一个或多个重复序列比对的序列读段确定所述一个或多个重复序列的一个或多个基因型的代码。

在一些实施方案中，指令还可包括自动记录与提供试验样品的人类受检者的患者病历中的重复和锚定读段以及重复扩增存在与否的方法相关的信息。患者病历可以由例如实验室、医师办公室、医院、健康维护组织、保险公司维护，或者个人病历方法可以进一步涉及开处方、开始和/或改变对从人类受试者获得试验样品的治疗。这可涉及对从受试者中获得的另外的样品执行一个或多个另外的测试或分析。

本发明所公开的方法还可使用计算机处理系统来执行，该计算机处理系统适于或被配置成执行用于识别任何重复扩增的方法。一个实施方案提供了适于或被配置为执行如本文所述的方法的计算机处理系统。在一个实施方案中，该装置包括测序设备，该测序设备适于或被构造用于对样品中的核酸分子的至少一部分进行测序，以获得本文其他地方所述的序列信息的类型。该装置还可包括用于处理样品的部件。此类部件在本文他处有所描述。

序列或数据可直接或间接地输入到计算机中或存储在计算机可读介质上。在一个实施方案中，计算机系统直接联接到读取和/或分析来自样品的核酸序列的测序设备。来自此类工具的序列或其他信息经由计算机系统中的接口提供。另选地，由系统处理的序列由序列存储源诸如数据库或其他储存库提供。一旦可供处理装置使用，存储器设备或大容量存储装置就会至少暂时地缓冲或存储核酸序列。此外，该存储器设备可存储各种染色体或基因组等的标签计数。该存储器还可存储用于分析呈现序列或映射数据的各种例程和/或程序。此类程序/例程可包括用于执行统计分析的程序等。

在一个示例中，用户将样品置于测序装置中。通过连接到计算机的测序装置来采集和/或分析数据。计算机上的软件允许数据采集和/或分析。可将数据存储、显示(经由监视器或其他类似设备)和/或发送到另一个位置。计算机可连接到互联网，该互联网用于将数据传输到由远程用户(例如，医师、科学家或分析员)使用的手持设备。应当理解，可在传输之前存储和/或分析数据。在一些实施方案中，采集原始数据并将其发送到将分析和/或存储该数据的远程用户或装置。传输可经由存储在计算机可读介质上而发生，并且该介质可被送达给最终用户(例如，经由邮件)。远程用户可位于相同或不同的地理位置，包括但不限于建筑物、城市、州、国家或洲。

在一些实施方案中，方法还包括采集关于多条多核苷酸序列的数据(例如读段、标记和/或参考染色体序列)并将该数据发送到计算机或其他计算系统。例如，计算机可连接到实验室装备，例如样品采集装置、核苷酸扩增装置、核苷酸测序装置或杂交装置。然后，计算机可采集由实验室设备收集的适用数据。数据可在任何步骤存储在计算机上，例如，在实时收集时、在发送之前、在发送期间或与发送同时、或在发送之后。数据可存储在可从计算机提取的计算机可读介质上。所采集或存储的数据可例如经由局域网或广域网(诸如互联网)从计算机传输到远程位置。在该远程位置处，可对所传输的数据执行各种操作，如下所述。

在本文所公开的系统、装置和方法中，可存储、传输、分析和/或操纵的电子格式数据的类型如下：

通过对试验样品中的核酸测序而获得的读段

通过将读段与参考基因组或其他参考序列进行比对而获得的标签

参考基因组或序列

指示基因座同一性、位置和结构的基因座规格

读段覆盖度

变异体的基因型

序列图

图路径

图形比对信息

重复扩增的实际判定

诊断(与判定相关联的临床病症)

对来源于判定和/或诊断的进一步测试的建议

来源于判定和/或诊断的治疗和/或监测计划

可使用不同的装置在一个或多个位置处获得、存储、分析和/或操纵这些各种类型的数据。处理选项范围很广。在最简单的情况下，在处理试验样品的位置处(如医生办公室或其他临床环境)存储和使用所有或大部分的这些信息。在最复杂的情况下，在一个位置处获得样品，在不同位置处对其进行处理并且任选地测序，在一个或多个不同位置处将读段进行比对并且作出判定，并且在又一个位置(其可以是获得样品的位置)处准备诊断、建议和/或计划。

在各种实施方案中，用测序装置生成读段，然后将读段传输到远程位点，在此处对读段进行处理以产生重复扩增判定。在该远程位置处，例如，将读段与参考序列比对以产生锚读段和锚定读段。在处理操作中，可在不同位置采用以下操作：

样品采集

测序前的样品处理

测序

分析序列数据并导出重复扩增判定

诊断

向患者或保健提供者报告诊断和/或判定

开发用于进一步治疗、测试和/或监测的计划

执行该计划

咨询

这些操作中的任意一个或多个操作可以是自动化的，如本文他处所述。通常，序列数据的测序和分析以及得出重复扩增判定将通过计算来执行。其他操作可手动或自动执行。

图6示出了用于从试验样品中产生判定或诊断的分散系统的一个具体实施。样品收集位置01用于从患者获得试验样品。然后将样品提供给处理和测序位置03，在此处可如上所述对试验样品进行处理和测序。位置03包括用于处理样品的装置以及用于对经处理的样品进行测序的装置。如本文其他地方所述，测序的结果是读段的集合，其通常以电子格式提供并提供给网络诸如互联网，其由图6中的参考标号05指示。

将序列数据提供给执行分析和判定生成的远程位置07。该位置可包括一个或多个强大的计算设备，诸如计算机或处理器。在位置07处的计算资源已完成其分析并根据所接收的序列信息生成判定之后，将该判定中继回到网络05。在一些具体实施中，在位置07处不仅生成判定，而且还生成相关联的诊断。然后将该判定和/或诊断通过网络传输并返回至如图6所示的样品采集位置01。如所解释的，这仅仅是关于如何在各种位置之间划分与生成判定或诊断相关联的各种操作的许多变型中的一种变型。一种常见的变异体涉及在单个位置提供样品收集、处理和测序。另一种变型包括在与分析和判定生成相同的位置处提供处理和测序。

实验

示例

我们将该程序应用于在HTT基因座处包含宽范围CAG和CCG重复大小的模拟数据集。HTT或Huntingtin是与亨廷顿病(HD)有关的疾病基因，亨廷顿病是一种以新生儿神经元损失为特征的神经退行性疾病。这被认为是由亨廷顿蛋白基因中的扩增的、不稳定的三核苷酸重复引起的，该三核苷酸重复在蛋白质产物中作为聚谷氨酰胺重复翻译。已在正常对照中识别出相当宽范围的三核苷酸重复(9-35)，并且超过40的重复数目已被描述为病理的。

可以预知，当读段与包含两个重复的序列图比对时，与当两个重复被独立地分析时相比，使用根据一些具体实施的方法获得的准确度显著更高。与其他STR基因分型工具相比，我们观察到类似改进，所述其他STR基因分型工具不是设计用来处理具有多个邻近NTR的基因座(参见图7)。

为了证明具体实施可对简并DNA重复进行基因分型，我们在150个健康对照和一个具有已知病原扩增的样品中分析PHOX2B基因中的聚丙氨酸重复。PHOX2B含有20个密码子的聚丙氨酸重复，其可扩增至以引起先天性先天性中枢性低通气综合症。与关于该重复的已知相符(Amiel等人，2003年)，除少数对照之外的所有对照均进行基因分型20/20。这些具体实施准确地对具有20/27的扩增的唯一样品进行基因分型；通过桑格测序确认该基因型的正确性。这些具体实施还正确地在获自SeraCare Life Sciences的样品的三个WGS平行测定中检测到MSH2基因中邻近腺苷均聚物的病原性SNV(参见补充材料)。

概括地说，我们开发了一种新型方法，该方法解决了对复杂基因座的更准确基因分型的需求。该方法可对聚丙氨酸重复进行基因分型并解析包含紧邻小变异体的重复和其他重复的困难区域。我们预期，现在在具体实施中采用的序列图框架的灵活性将实现多种新的变异体判定应用。

HTT基因座中CAG和CCG STR的分析

我们使用wgsim(Li，n.d.)模拟CAG和CCG重复基因型的每种组合的短读段样品。我们将读段长度设定为150，将配对末端之间的距离设定为350，将配对末端距离的标准偏差设定为50，将突变速率和碱基错误率设定为0.0010，并且将插入缺失比率设定为0。配对的数量被设定为产生该基因座的40x覆盖度。用BWA-MEM 0.7.17-r1194-dirty将读段与具有的GRCh37参考比对(Li，2013年)。

我们用一些具体实施以两种方式分析这些数据。首先，我们使用表达(CAG)*CAACAG(CCG)*指定HTT基因座的结构，从而确保读段与包含两个重复的序列图比对。然后，我们使用一些具体实施来独立地分析每个重复。在该模式下，读段分别与表示CAG STR的图比对并且表示CCG STR的图比对。最后，我们使用不使用序列图将读段与重复区域比对的GangSTR和TredParse的最新版本独立地对两个重复进行分析(图7)。

图7示出了模拟数据对HTT基因座中的CAG和CCG STR进行基因分型的准确性。(a)当将读段与包含两次重复的序列图比对时，执行具体实施；(b)当独立地分析重复时，执行具体实施；(c)执行GangSTR；(d)执行TredParse。对于每个模拟样品，我们测量预测STR长度与预期STR长度的最大百分比偏差。蓝色虚线对应于参考基因组中的基因型，并且红色实线表示病原扩增的阈值。当对两个重复序列进行基因分型时，该具体实施准确地预测了所有样品的正确基因型。联合基因分型提供了优于用三个工具中的任一个对两个重复进行单独基因分型的高优势，这显示出高相对错误率，尤其是当重复中的一个显著长于另一个时。

数据集

用于分析PHOX2B聚丙氨酸重复的150个不相关对照的无PCR的WGS测序数据是Polaris多样性队列。其由选自国际基因组样品资源库(International Genome SampleResources)(1000Genomes Project Consortium等，2015年)的样品组成(www|.|internationalgenome|.|org/)。WGS数据可从欧洲基因组-表型组归档(European Genome-phenome Archive，EGA)(www|.|ebi|.|ac|.|uk/ega/home；PRJEB20654)和NCBI序列读段归档(Sequence Read Archive，SRA)(www|.|ncbi|.|nlm|.|nih|.|gov/sra；bioproject：387148)。样品的描述(github|.|com/Illumina/Polaris/wiki/HiSeqX-Diversity-Cohort)。

PHOX2B中具有20/27扩增的样品获自剑桥大学(Cambridge University)的阿登布鲁克治疗中心(Addenbrooke's Treatment Centre)的遗传学实验室(分子遗传学)(Genetics Laboratories Molecular Genetics)。

SeraCare Life Sciences样品Seraseq遗传性癌症DNA混合物v1包含已知既致病又难以判定的变异体。已将变异体合成添加到很好表征的细胞系GM24385中，所有变异体的预期变异体频率均为50％。这些工程化突变中的一个对应于MSH2基因中的SNV，其与长均聚物A区域直接相邻。

用Illumina TruSeq PCR Free试剂盒制备SeraCare样品的三个复制品。使用XP工作流程在NovaSeq6000的单个泳道上运行重复，并以2×151个读段长来进行测序。使用‘Sentieon DNASeq FASTQ to VCF’和‘Whole Genome Resequencing v8.0.0’Basespace应用来分析复制品(https://basespace.illumina.com)。Sentieon可被视为Broad的BWA-GATK软件包的变异体检出性能的代理，因为Sentieon实施相同的算法。软件解决方案都不能正确地识别MSH2 SNV。通过Basespace提供Fastq文件和分析结果：https://basespace.illumina.com/s/HAQNxJyEtJLP

本公开可以以其它特定形式体现而不脱离其精神或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。因此，本公开的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

序列表

<110> 伊鲁米那股份有限公司

伊戈尔·多尔曾科

<120> 用于确定短串联重复区域中的变化的基于序列图的工具

<130> ILMNP037

<150> US 62/815,322

<151> 2019-03-07

<160> 5

<170> 专利版本3.5

<210> 1

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成

<400> 1

cagcaacagc cg 12

<210> 2

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成

<400> 2

cagcaacagc gg 12

<210> 3

<211> 14

<212> DNA

<213> 人工序列

<220>

<223> 合成

<400> 3

tcgtcggcag cgtc 14

<210> 4

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 合成

<400> 4

cagcagcagc agcag 15

<210> 5

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 合成

<400> 5

ccgccgccgc cgccg 15

Claims

1.一种使用包括一个或多个处理器和系统存储器的计算机实现的方法，所述方法用于对一个或多个重复序列进行基因分型，每个重复序列包括一个或多个重复子序列，所述方法包括：

(a)使用所述一个或多个处理器收集来自数据库的试验样品的序列读段；

(b)由所述一个或多个处理器将所述序列读段与各自由序列图表示的所述一个或多个重复序列比对，其中所述序列图具有有向图的数据结构，所述有向图具有表示核酸序列的顶点和连接所述顶点的有向边缘，并且其中所述序列图包括一个或多个自环，每个自环表示重复子序列，每个重复子序列包括一个或多个核苷酸的重复单元的重复；以及

(c)由所述一个或多个处理器使用与所述一个或多个重复序列比对的所述序列读段确定所述一个或多个重复序列的一个或多个基因型。

2.根据权利要求1所述的方法，其中所述一个或多个重复序列中的重复序列包括特定重复单元，所述特定重复单元包括至少一个不完全指定的核苷酸。

3.根据权利要求2所述的方法，其中所述特定重复单元包括简并密码子。

4.根据前述权利要求中任一项所述的方法，其中所述一个或多个自环包括表示两个或更多个重复子序列的两个或更多个自环。

5.根据前述权利要求中任一项所述的方法，其中所述序列图还包括两个或更多个等位基因的两条或更多条另选路径。

6.根据权利要求5所述的方法，其中所述两个或更多个等位基因包括插入缺失或置换。

7.根据权利要求5所述的方法，其中所述置换包括单核苷酸变异(SNV)或单核苷酸多态性(SNP)。

8.根据权利要求5所述的方法，还包括使用与所述两条或更多条另选路径比对的序列读段对所述两个或更多个等位基因进行基因分型。

9.根据权利要求8所述的方法，其中对所述两个或更多个等位基因进行基因分型包括将所述两条或更多条另选路径的覆盖度提供给概率模型，以确定所述两个或更多个等位基因的概率。

10.根据权利要求9所述的方法，其中所述概率模型模拟等位基因的概率作为所述等位基因的覆盖度的函数，所述函数选自泊松分布、负二项分布、二项分布或β-二项分布。

11.根据权利要求10所述的方法，其中所述泊松分布的速率参数由在基因座处观察到的读段长度和平均深度来估计。

12.根据前述权利要求中任一项所述的方法，还包括在(b)之前将所述序列读段与参考基因组比对以确定所述序列读段的基因组坐标，以及选择序列读段的子集作为待与所述一个或多个重复序列比对的所述序列读段，每个重复序列由序列图表示。

13.根据权利要求12所述的方法，其中所述序列读段的子集包括与由序列图表示的区域比对或所述区域附近的读段。

14.根据权利要求12所述的方法，其中所述序列读段的子集包括未比对的读段，所述未比对的读段的匹配映射到由序列图表示的区域或所述区域的附近。

15.根据权利要求12所述的方法，其中所述序列读段的子集包括与一个或多个脱靶区域比对的读段，所述脱靶区域是用于错比对读段的已知热点。

16.根据前述权利要求中任一项所述的方法，其中将序列读段与所述序列图比对包括：

找到所述序列读段与所述序列图的路径之间的kmer匹配；以及

将所述kmer匹配延伸至所述序列图的节点和边缘的完全比对，所述序列图包括一个或多个自环。

17.根据前述权利要求中任一项所述的方法，其中将序列读段与所述序列图比对包括通过移除所述比对的低置信度末端来使图收缩。

18.根据前述权利要求中任一项所述的方法，其中将序列读段与所述序列图比对包括通过以下方式的比对合并：

将所述读段的子序列与序列图比对；以及

合并所述子序列的比对以形成所述序列读段的完全比对。

19.根据前述权利要求中任一项所述的方法，还包括基于包括所述基因座的基因座结构的基因座规格来生成所述序列图。

20.根据前述权利要求中任一项所述的方法，其中所述序列读段包括配对末端读段，并且操作(c)包括：

(i)识别所述配对末端读段中的锚读段和锚定读段，其中所述锚读段是与所述一个或多个重复序列比对或所述一个或多个重复序列附近的读段，并且所述锚定读段是与所述锚读段配对的未比对读段；以及

(ii)使用至少所述锚定读段确定所述一个或多个重复序列的所述一个或多个基因型。

21.根据权利要求20所述的方法，其中操作(ii)包括使用所述锚读段以及所述锚定读段确定所述一个或多个重复序列的所述一个或多个基因型。

22.根据权利要求20或权利要求21所述的方法，其中将所述锚读段比对到约5kb的重复序列内。

23.根据权利要求20至22中任一项所述的方法，其中所述未比对读段包括不能与所述序列图比对或比对不佳的读段。

24.根据前述权利要求中任一项所述的方法，其中所述一个或多个重复序列包括短串联重复(STR)序列。

25.根据权利要求24所述的方法，其中所述STR的扩增与脆性X染色体综合征、肌萎缩性脊髓侧索硬化症(ALS)、亨廷顿病、弗里德希氏共济失调、脊髓小脑共济失调、脊髓延髓肌萎缩症、强直性肌营养不良症、马查多-约瑟夫氏病或齿状核红核苍白球路易体萎缩症相关联。

26.根据前述权利要求中任一项所述的方法，还包括使用测序仪从所述试验样品生成配对末端读段。

27.根据前述权利要求中任一项所述的方法，还包括从个体中提取所述试验样品。

28.根据前述权利要求中任一项所述的方法，其中所述试验样品是血液样品、尿液样品、唾液样品或组织样品。

29.根据前述权利要求中任一项所述的方法，其中所述重复单元包括1至50个核苷酸。

30.根据前述权利要求中任一项所述的方法，其中所述读段短于所述一个或多个重复序列中的至少一个重复序列。

31.一种系统，所述系统包括：

系统存储器；和

一个或多个处理器，所述一个或多个处理器被配置为：

(a)收集来自数据库的试验样品的序列读段；

(b)将所述序列读段与各自由序列图表示的所述一个或多个重复序列比对，其中所述序列图具有有向图的数据结构，所述有向图具有表示核酸序列的顶点和连接所述顶点的有向边缘，并且其中所述序列图包括一个或多个自环，每个自环表示重复子序列，每个重复子序列包括一个或多个核苷酸的重复单元的重复；以及

(c)使用与所述一个或多个重复序列比对的所述序列读段确定所述一个或多个重复序列的一个或多个基因型。

32.一种计算机程序产品，所述计算机程序产品包括存储程序代码的非暂态机器可读介质，所述程序代码在由计算机系统的一个或多个处理器执行时，使得所述计算机系统实现用于对包括核酸的试验样品中的重复序列进行基因分型的方法，所述程序代码包括：

(a)用于收集来自数据库的试验样品的序列读段的代码；

(b)用于将所述序列读段与各自由序列图表示的所述一个或多个重复序列比对的代码，其中所述序列图具有有向图的数据结构，所述有向图具有表示核酸序列的顶点和连接所述顶点的有向边缘，并且其中所述序列图包括一个或多个自环，每个自环表示重复子序列，每个重复子序列包括一个或多个核苷酸的重复单元的重复；和

(c)用于使用与所述一个或多个重复序列比对的所述序列读段确定所述一个或多个重复序列的一个或多个基因型的代码。