CN107077537B - 用短读测序数据检测重复扩增 - Google Patents
用短读测序数据检测重复扩增 Download PDFInfo
- Publication number
- CN107077537B CN107077537B CN201580058531.9A CN201580058531A CN107077537B CN 107077537 B CN107077537 B CN 107077537B CN 201580058531 A CN201580058531 A CN 201580058531A CN 107077537 B CN107077537 B CN 107077537B
- Authority
- CN
- China
- Prior art keywords
- reads
- repeat
- sequence
- test sample
- paired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
公开的实施方案涉及确定是否存在感兴趣的重复扩增,包括医学上重要的重复序列的重复扩增的方法、设备、系统和计算机程序产品。一些实施方案提供使用锚定读取鉴定和调用医学上相关的重复扩增的方法。锚定读取为与考虑中的重复序列未对齐的双端读取,但其与锚读取配对,所述锚读取与重复序列对齐或对齐到重复序列附近。一些实施方案使用锚读取和锚定读取来确定是否存在重复扩增。还提供用于实施所公开的方法来确定重复扩增的系统、设备和计算机程序产品。
Description
相关申请的交叉引用
本申请基于35U.S.C.§119(e)要求于2014年9月12日提交的标题是用短读测序数据检测重复扩增(DETECTING REPEAT EXPANSIONS WITH SHORT READ SEQUENCING DATA)的美国临时专利申请第62/049,925号的权益,将其通过引用整体并入本文用于所有目的。
背景
重复扩增是涉及短串联重复序列(STR)多态性的一种特殊类别的微卫星和小卫星变体。当短串联重复序列扩增超过某些大小时,重复扩增由于其不稳定性也被称为动态突变。由不稳定的重复扩增引起的遗传病症尤其包括脆性X综合征(FXS)、亨廷顿病和肌萎缩侧索硬化症(ALS)。
鉴定重复扩增在某些遗传病症的诊断和治疗中是重要的。然而,使用未完全跨越重复序列的短读来确定重复序列是困难的。因此,期望开发使用短读来鉴定医学上相关的重复扩增的方法。
概述
本公开的实施方式涉及用于确定感兴趣的重复扩增,如与遗传病症相关的重复序列的扩增的方法、设备、系统和计算机程序产品。公开的实施方式使用双端测序。提供检测局部遗传区域中的一个或多个重复单元的重复的方法。如果测试样品的局部区域在该局部区域具有比未受影响的群体多的重复,则测试样品可以被鉴定为具有考虑中的重复扩增。
本公开的第一方面提供使用锚定读取来鉴定和调用医学上相关的重复扩增的方法。一些实施方案使用锚读取和锚定读取来确定是否存在重复扩增。在一个实例中,提供确定包含核酸的测试样品中是否存在重复序列的重复扩增的方法,其中所述重复序列包含核苷酸的重复单元的重复。所述方法涉及(a)获得测试样品的双端读取,其中所述双端读取已经被处理以与包含重复序列的参考序列对齐。所述方法还涉及(b)鉴定双端读取中的锚读取和锚定读取,其中所述锚读取是与重复序列对齐或对齐到所述重复序列附近的读取,并且所述锚定读取是与锚读取配对的未对齐的读取。所述方法还涉及(c)至少部分地基于鉴定的锚定读取确定重复扩增是否可能存在于测试样品中。在一些实施方式中,基于鉴定的锚读取和鉴定的锚定读取确定是否可能存在重复扩增。在一些实施方式中,还基于鉴定的读取中重复单元的重复数目确定是否可能存在重复扩增。
在一些实施方式中,确定是否可能存在重复扩增涉及:获得为高计数读取的鉴定的读取的数目,其中所述高计数读取包括具有比阈值多的重复的读取;以及将测试样品中的高计数读取的数目与调用标准进行比较。在一些实施方式中,高计数读取的阈值是重复的最大数目的至少约80%,由双端读取的长度和重复单元的长度计算该最大值。在一些实施方式中,高计数读取的阈值是重复的最大数目的至少约90%。在一些实施方式中,由对照样品的高计数读取的分布获得调用标准。在一些实施方式中,由双端读取的长度、具有重复扩增的序列的长度和测序深度计算调用标准。在一些实施方式中,由读取内首次观察到的重复序列与末次观察到的重复序列之间的距离计算调用标准。
在一些实施方式中,锚读取与重复序列对齐或在所述重复序列的约5kb内。在一些实施方式中,锚读取与重复序列对齐或在所述重复序列的约1kb内。在一些实施方式中,未对齐的读取包括不能与参考序列对齐或与参考序列对齐较差的读取。
在一些实施方式中,参考序列包括参考基因组。在一些实施方式中,所述方法还涉及确定由其获得测试样品的个体具有下述之一的升高的风险:脆性X综合征、肌萎缩侧索硬化症(ALS)、亨廷顿病、弗里德赖希共济失调、脊髓小脑性共济失调、脊髓延髓肌肉萎缩症、强直性肌营养不良症、马查多-约瑟夫病或齿状核红核苍白球路易体萎缩症。
在一些实施方式中,(c)包括将针对测试样品鉴定的读取中重复单元的重复数目的分布与一个或多个对照样品的重复数目的分布进行比较。在一些实施方式中,将测试样品的分布与对照样品的分布进行比较包括,使用曼-惠特尼秩检验以确定测试样品的分布是否在统计学上显著不同于对照样品的分布。在一些实施方式中,所述方法还涉及确定如果与对照样品相比,测试样品的分布更多地向较高的重复数目倾斜,并且曼-惠特尼秩检验的p值小于约0.0001,则重复扩增可能存在于测试样品中。在一些实施方式中,所述方法还涉及确定如果与对照样品相比,测试样品的分布更多地向较高的重复数目倾斜,并且曼-惠特尼秩检验的p值小于约0.00001,则重复扩增可能存在于测试样品中。
在一些实施方式中,所述方法还涉及使用测序仪产生来自测试样品的双端读取。在一些实施方式中,所述方法还包括从个体提取测试样品。
在一些实施方式中,重复数目是框内重复的数目。在一些实施方式中,测试样品是血液样品、尿样品、唾液样品或组织样品。在一些实施方式中,测试样品包括无胎儿和母体细胞的核酸。在一些实施方式中,重复单元包含2至50个核苷酸。
在一些实施方式中,双端读取短于具有重复扩增的重复序列。在一些实施方式中,双端读取包括约20bp至1000bp的读取。在一些实施方式中,双端读取包括约50bp至500bp的读取、或约80bp至150bp的读取。在一些实施方式中,具有重复扩增的序列长于约100bp。在一些实施方式中,具有重复扩增的序列长于约500bp。在一些实施方式中,具有重复扩增的序列长于约1000bp。
在一些实施方式中,双端读取获自约100-5000bp的插入物。在一些实施方式中,插入物的长度为约100-1000bp。在一些实施方式中,插入物的长度为约1000-5000bp。
公开的第二方面提供检测包含核酸的测试样品中的重复扩增的方法。在一些实施方式中,所述方法涉及:(a)获得测试样品的双端读取;(b)将双端读取与参考基因组对齐;(c)从全基因组鉴定未对齐的读取,其中所述未对齐的读取包括不能与参考序列对齐或与参考序列对齐较差的双端读取;以及(d)分析未对齐的读取中重复单元的重复数目以确定重复扩增是否可能存在于测试样品中。在一些实施方式中,分析未对齐的读取中重复单元的重复数目包括:获得高计数读取的数目,其中所述高计数读取包括具有比阈值多的重复的未对齐的读取;以及将测试样品中的高计数读取的数目与调用标准进行比较。在一些实施方式中,高计数读取的阈值为重复的最大数目的至少约80%,该最大值被计算为双端读取的长度与重复单元的长度的比值。在一些实施方式中,高计数读取还包括与未对齐的读取配对并且具有比阈值多的重复的读取。
在一些实施方式中,方法还涉及在确定重复扩增可能存在于测试样品中后,进行额外的分析以确定测试样品是否包含感兴趣的特定重复序列的重复扩增。在一些实施方式中,额外的分析包括使用长于双端读取的读取分析测试样品。在一些实施方式中,额外的分析包括使用单分子测序或合成的长读取测序分析测试样品。
在一些实施方式中,所述方法还涉及在进行额外的分析之前,鉴定与未对齐的读取配对并且与参考基因组上的重复序列对齐或对齐到参考基因组上的重复序列附近的双端读取;以及将所述重复序列提供为感兴趣的特定重复序列。在一些实施方式中,额外的分析包括使用本公开的第一方面的任何方法中的方法进行的分析。
本公开的另一方面提供确定包含核酸的测试样品中是否存在重复序列的重复扩增的系统,其中所述重复序列包含重复单元的重复。在一些实施方式中,所述系统涉及:测序仪,其用于对测试样品的核酸进行测序;处理器;以及一个或多个计算机可读存储介质,其具有在其上存储的用于在所述处理器上执行以评价测试样品中的拷贝数的指令。所述指令包括:(a)将双端读取与包含重复序列的参考序列对齐;(b)鉴定双端读取中的锚读取和锚定读取,其中所述锚读取是与重复序列对齐或对齐到所述重复序列附近的读取,并且所述锚定读取是与锚读取配对的未对齐的读取;以及(c)至少部分地基于鉴定的锚定读取确定重复扩增是否可能存在于测试样品中。在一些实施方式中,(c)包括至少部分地基于鉴定的读取中重复单元的重复数目确定重复扩增是否可能存在于测试样品中。在一些实施方式中,(c)包括:获得为高计数读取的鉴定的读取的数目,其中所述高计数读取包括具有比阈值多的重复的读取;以及将测试样品中的高计数读取的数目与调用标准进行比较。
本公开的另一方面提供包含存储程序代码的非瞬态机器可读介质的计算机程序产品,程序代码由计算机系统的一个或多个处理器执行,使计算机系统实施用于鉴定包含核酸的测试样品中的重复序列的重复扩增的方法,其中所述重复序列包含核苷酸的重复单元的重复,所述程序代码包含:(a)获得已经被处理以与包含重复序列的参考序列对齐的测试样品的双端读取的代码;(b)鉴定双端读取中锚读取和锚定读取的代码,其中所述锚读取是与重复序列对齐或对齐到所述重复序列附近的读取,并且所述锚定读取是与锚读取配对的未对齐的读取;以及(c)至少部分地基于鉴定的锚定读取确定重复扩增是否可能存在于测试样品中的代码。在一些实施方式中,(c)包括分析鉴定的读取中重复单元的重复数目的代码。在一些实施方式中,(c)包括:获得为高计数读取的鉴定的读取的数目的代码,其中所述高计数读取包括具有比阈值多的重复的读取;以及将测试样品中的高计数读取的数目与调用标准进行比较的代码。
尽管本文的实例涉及人,并且语言主要针对人文关怀,但本文所述的概念可适用于来自任何植物或动物的基因组。本公开的这些和其他目标和特征将从下述描述和所附权利要求中变得更充分地显而易见,或者可以通过下文示出的实践而得知。
通过引用并入
本文提及的所有专利、专利申请和其他出版物(包括这些参考文件内公开的所有序列)通过引用明确地并入本文,其程度如同单独的出版物、专利或专利申请各自具体地和单独地表示为通过引用并入。在相关部分引用的所有文件通过引用整体并入本文为了通过本文其引用的上下文所表示的目的。然而,任何文件的引用不应被解释为承认其为关于本公开的现有技术。
附图简述
图1A为示出序列读取与参考序列上的重复序列的对齐中的困难的示意图。
图1B为示出使用根据某些公开的实施方式以克服图1A中所示的困难的双端读取的序列读取的对齐的示意图。
图2为提供用于确定样品中是否存在重复序列的扩增的方法的实例的高水平描述的流程图。
图3和4为示出使用双端读取检测重复扩增的方法的实例的流程图。
图5为使用与感兴趣的任何重复序列未关联的未对齐的读取来确定重复扩增的方法的流程图。
图6为用于处理测试样品的分散系统的框图。
图7显示与来自1013个对照样品的FMR1基因对齐或锚定的双端读取中CGG三联体计数的分布。
图8显示对照样品的曼-惠特尼(MW)秩检验的p值的分布。
图9显示具有最高的MW秩检验得分和最低p-值的样品的重复数目的分布。
图10显示已知具有FMR1基因的重复扩增和脆性X综合征的女性患者样品的数据。
图11显示在X染色体上具有645个拷贝的CGG三联体的男性脆性X患者样品的数据。
图12显示了对照样品的曼-惠特尼秩检验的p值的分布,这与图8一样,其中额外指示四个最高得分的女性样品和四个最高得分的男性样品。
图13显示具有不同数目的高计数读取的样品数目,所述样品包括具有阴影柱中所示的脆性X综合征的样品。
图14显示完全在60个三联体的重复序列内的读取的预期数目的理论模拟分布。
图15显示基于利用与图14相同的实验条件的模拟,完全在具有不同数目的三联体的重复序列中的读取的预期数目的平均值、第5个百分位数和第95个百分位数。
图16显示与图15相同的数据,同时鉴定具有完全在重复序列中的20个读取的观察结果。
图17显示具有不同数目的高计数读取的样品的数目,所述样品包括具有阴影柱中所示的肌萎缩侧索硬化症(ALS)的样品。
详述
公开涉及用于鉴定感兴趣的重复扩增,如医学上重要的重复序列的扩增的方法、设备、系统和计算机程序产品。重复扩增的实例包括但不限于与诸如以下的遗传病症相关的扩增:脆性X综合征、ALS、亨廷顿病、弗里德赖希共济失调、脊髓小脑性共济失调、脊髓延髓肌肉萎缩症、强直性肌营养不良症、马查多-约瑟夫病和齿状核红核苍白球路易体萎缩症。
除非另外指出,否则本文公开的方法和系统的实践涉及在本领域技术范围内的分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序、以及重组DNA领域中常用的常规技术和设备。此类技术和设备为本领域技术人员已知的,并且描述在许多文章和参考著作(参见,例如,Sambrook等人,“Molecular Cloning:A Laboratory Manual,”第三版(Cold Spring Harbor),[2001]);和Ausubel等人,“Current Protocols in MolecularBiology”[1987])中。
数值范围包括限定范围的数值。预期在整个本说明书中给出的每个最大的数值限制包括每个较低的数值限制,如同此类较低的数值限制在本文明确写出一样。在整个本说明书中给出的每个最小的数值限制包括每个较高的数值限制,如同此类较高的数值限制在本文明确写出一样。在整个本说明书中给出的每个数值范围包括落入此类较宽数值范围内的每个较窄数值范围,如同此类较窄数值范围均在本文明确写出一样。
本文提供的标题不旨在限制本公开。
除非本文另有限定,否则本文使用的所有技术和科学术语与本领域普通技术人员通常理解的具有相同的意义。包括本文所包括的术语的各种科学词典为本领域技术人员众所周知且可获得的。虽然与本文所述的方法和材料类似或等同的任何方法和材料可用于本文所公开的实施方案的实践或检验,但仍描述了一些方法和材料。
下文紧接着定义的术语通过参考整个说明书进行更充分地描述。应理解本公开不限于所述的特定方法、方案和试剂,因为这些可根据本领域技术人员使用的环境而改变。
定义
如本文所用,除非上下文另外清楚地指示,否则单数术语“一个/种(a/an)”和“所述(the)”包括复数指代物。
除非另外指出,否则核酸以5’至3’的方向从左至右书写,以及氨基酸序列以氨基至羧基的方向从左至右书写。
术语“多个”是指不止一个元素。例如,该术语在本文用于提及使用本文公开的方法足以鉴定测试样品与对照样品中重复扩增的显著差异的核酸分子或序列读取的数目。
术语“重复序列”是指包含较短序列的重复出现的较长核酸序列。较短序列在本文被称为“重复单元”。重复单元的重复出现被称为重复单元的“重复”或“拷贝”。在许多背景中,重复序列与编码蛋白的基因相关。在其他情境中,重复序列可以在非编码区。可以在重复单元之间具有或没有间断的重复序列中出现重复单元。例如,在正常样品中,FMR1基因倾向于在CGG重复中包含AGG间断,例如(CGG)10+(AGG)+(CGG)9。没有间断的样品以及具有很少间断的长重复序列倾向于重复相关基因的扩增,当重复扩增大于具体数值时,这可导致遗传疾病。在本公开的多个实施方案中,不管间断如何,重复数目被算作框内重复。下文还描述用于估计框内重复的方法。
在多个实施方案中,重复单元包含2至100个核苷酸。广泛研究的许多重复单元为三核苷酸或六核苷酸单元。已经充分研究且可适用于本文公开的实施方案的一些其他重复单元包括但不限于4、5、6、8、12、33或42个核苷酸的单元。参见,例如Richards(2001)HumanMolecular Genetics,Vol.10,No.20,2187-2194。本公开的应用不限于以上所述的核苷酸碱基的具体数目,只要与具有多个重复或拷贝的重复单元的重复序列相比,它们相对较短即可。例如,重复单元可以包含至少3、6、8、10、15、20、30、40、50个核苷酸。可选地或另外地,重复单元可以包含至多约100、90、80、70、60、50、40、30、20、10、6或3个核苷酸。
重复序列可以在进化、发育和突变条件下扩增,产生同一重复单元的更多拷贝。这在本领域中被称为“重复扩增”。由于重复单元的扩增的不稳定性质,该过程也被称为“动态突变”。一些重复扩增已经显示出与遗传病症和病理症状相关。其他重复扩增并未被充分理解或研究。可以将本文公开的方法用于鉴定先前已知的和新的重复扩增。在一些实施方案中,具有重复扩增的重复序列长于约500个碱基对(bp)。在一些实施方案中,具有重复扩增的重复序列长于约1000bp、2000bp、3000bp、4000bp或5000bp等。
术语“双端读取”是指获自双端测序的读取,所述双端测序获得来自核酸片段的各端的一个读取。双端测序涉及将DNA片段化成被称为插入物的序列。在诸如Illumina使用的一些方案中,来自较短插入物(例如,大约数十至数百个bp)的读取被称为短插入物双端读取或仅仅为双端读取。相比之下,来自较长插入物(例如大约数千个bp)的读取被称为配对读取。在本公开中,对于分析重复扩增的过程,短插入物双端读取和长插入物配对读取均可以使用并且无差别。因此,术语“双端读取”可以指短插入物双端读取和长插入物配对读取,这在下文中会进一步描述。在一些实施方案中,双端读取包含约20bp至1000bp的读取。在一些实施方案中,双端读取包含约50bp至500bp、约80bp至150bp或约100bp的读取。应理解,双端中的两个读取不必位于测序的片段的最末端。相反,一个或两个读取可以靠近片段的末端。此外,在双端读取的上下文中于此例示的方法可以利用多种配对读取中的任一种进行,而不依赖于读取是否来源于片段的末端或片段的其它部分。
如本文所用,术语“对齐(alignment/aligning)”是指将读取与参考序列比较,从而确定参考序列是否含有读取序列的过程。对齐过程试图确定读取是否可以映射至参考序列,但并不总是产生与参考序列对齐的读取。如果参考序列含有读取,则读取可以被映射至参考序列,或在某些实施方案中,映射至参考序列的特定位置。在一些情况下,对齐仅能判断读取是否是特定参考序列的成员(即读取是否存在于参考序列中)。例如,读取序列与人类13号染色体的参考序列的对齐判断读取序列是否存在于13号染色体的参考序列中。提供该信息的工具可以被称为组成员资格测试仪(set membership tester)。在一些情况下,对齐另外地指示读取序列映射于参考序列中的位置。例如,如果参考序列是整个人类基因组序列,则对齐可以指示读取序列存在于13号染色体,以及还可以还指示读取序列在13号染色体的特定链和/或位点。
对齐的读取是在其核酸分子与诸如参考基因组的已知参考序列的顺序方面被鉴定为匹配的一种或多种序列。对齐的读取及其在参考序列上确定的位置构成序列标签。可以手动进行对齐,尽管通常通过计算机算法实施该对齐,因为为了实施本文公开的方法,将不可能在合理的时间段内对齐读取。来自对齐序列的算法的一个实例是作为Illumina基因组分析流水线(Illumina Genomics Analysis pipeline)的一部分分配的高效的核苷酸数据局部对齐(Efficient Local Alignment of Nucleotide Data)(ELAND)计算机程序。可选地,可以采用布隆过滤器(Bloom filter)或类似的组成员资格测试仪以将读取与参考基因组对齐。参见2014年4月25日提交的美国专利申请第14/354,528号,将其通过引用整体并入本文。对齐中序列读取的匹配可以为100%的序列匹配或小于100%(即不完全匹配)。
本文使用的术语“映射(mapping)”是指通过对齐将读取序列指定到较大序列,例如参考基因组。
在一些情况下,两个双端读取的一端读取与参考序列的重复序列对齐,而两个双端读取的另一端读取是未对齐的。在此种情况下,与参考序列的重复序列对齐的配对读取被称为“锚读取”。与重复序列未对齐的但与锚读取配对的一个双端读取被称为锚定读取。因此,未对齐的读取可以被锚定至重复序列,并且与其相关。在一些实施方案中,未对齐的读取包括不能与参考序列对齐的读取以及与参考序列对齐较差的读取。当读取以高于某一标准的多个错配碱基与参考序列对齐时,该读取被认为是对齐较差的。例如,在多个实施方案中,当以至少约1、2、3、4、5、6、7、8、9或10个错配对齐时,读取被认为是对齐较差的。在一些情况下,一对的两个读取均与参考序列对齐。在此种情况下,两个读取可以在多个实施方式中被分析成“锚读取”。
术语“多核苷酸”、“核酸”和“核酸分子”可互换使用,并且是指共价连接的核苷酸(即,对于RNA,为核糖核苷酸;以及对于DNA,为脱氧核糖核苷酸)序列,其中一个核苷酸的戊糖的3’位与下一个核苷酸的戊糖的5’位通过磷酸二酯基团连接。核苷酸包括任何形式的核酸的序列,包括但不限于RNA和DNA分子,如无细胞DNA(cfDNA)分子。术语“多核苷酸”包括但不限于单链多核苷酸和双链多核苷酸。
术语“测试样品”在本文是指通常来源于生物流体、细胞、组织、器官或生物体的样品,其包含具有至少一种待筛选拷贝数变异的核酸序列的核酸或核酸的混合物。在某些实施方案中,样品具有至少一种这样的核酸序列,该核酸序列的拷贝数疑似经历变异。此类样品包括但不限于痰液/口液、羊水、血液、血液级分或细针活检样品、尿、腹水、胸液等。虽然样品通常取自人对象(例如,患者),但可以将分析用于来自任何哺乳动物的样品中的拷贝数变异(CNV),所述哺乳动物包括但不限于犬、猫、马、山羊、绵羊、牛、猪等。样品可以如从生物来源获得的那样直接使用,或者在预处理以改变样品的特性后使用。例如,此类预处理可以包括由血液制备血浆、稀释粘性流体等。预处理的方法还可以涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、试剂的添加、裂解等。如果对于样品采用此类预处理方法,则此类预处理方法通常使得感兴趣的核酸保留在测试样品中(有时以与未经处理的测试样品(例如,即未经受任何此类预处理方法的样品)中感兴趣的核酸成比例的浓度)。对于本文所述的方法,此类“经处理的”或“经处理的”样品仍被认为是生物“测试”样品。
对照样品可以为阴性或阳性对照样品。“阴性对照样品”或“未受影响的样品”是指包含已知或预期具有重复序列的核酸的样品,所述重复序列含有不致病范围内的多个重复。“阳性对照样品”或“受影响的样品”已知或预期具有含致病范围内的多个重复的重复序列。阴性对照样品中重复序列的重复通常并未扩增超出正常范围,而阳性对照样品中重复序列的重复通常已经扩增超出正常范围。因此,测试样品中的核酸可以与一个或多个对照样品比较。
术语“感兴趣的序列”在本文是指与健康个体相对于患病个体的序列表现中的差异相关的核酸序列。感兴趣的序列可以为染色体上的重复序列,其在患病或遗传病况中扩增。感兴趣的序列可以为染色体、基因、编码序列或非编码序列的一部分。
术语“下一代测序(NGS)”在本文是指允许克隆扩增的分子和单个核酸分子的大规模平行测序的测序方法。NGS的非限制性实例包括使用可逆染料终止剂的边合成边测序和边连接边测序。
术语“参数”在本文是指表征物理性质的数值。通常,参数用数字表征定量数据集和/或定量数据集之间的数值关系。例如,映射至染色体的序列标签的数目与标签被映射至染色体的长度之间的比率(或比率的函数)是参数。
术语“调用标准”在本文是指被用作截止值以表征样品,如含有来自疑似患有医学病况的生物体的核酸的测试样品的任何数目或数量。可以将阈值与参数值比较以确定产生此类参数值的样品是否表明生物体患有医学病况。在某些实施方案中,使用对照数据集计算阈值,并且该阈值用作诊断生物体中重复扩增的界限。在一些实施方式中,如果获自本文公开的方法的结果超过阈值,则对象可以被诊断为具有重复扩增。可以通过分析针对样品或对照样品的训练集计算的数值鉴定本文所述方法的适当阈值。也可以由经验参数,如测序深度、读取长度、重复序列长度等计算阈值。可选地,已知具有重复扩增的受影响的样品也可以用于确认选择的阈值可用于区分测试集中受影响的样品和未受影响的样品。阈值的选择依赖于用户希望必须进行分类的置信水平。在一些实施方案中,用于鉴定适当阈值的训练集包含至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少2000、至少3000、至少4000或更多个合格的样品。使用较大合格样品的集合以改善阈值的诊断效用可能是有利的。
术语“读取”是指从一部分核酸样品读取的序列。通常,尽管非必要,读取代表样品中连续碱基对的短序列。读取可以由样品部分的碱基对序列(在ATCG中)符号化表示。其可以被存储在存储器装置中,并且视情况被处理以确定其是否匹配参考序列或满足其他标准。读取可以从测序设备直接获得,或者从关于样品的存储序列信息间接获得。在一些情况下,读取是可以用于鉴定较长序列或区域,例如可以被对齐并映射至染色体或基因组区域或基因的足够长度(例如至少约25bp)的DNA序列。
术语“基因组读取”在提及个体的全部基因组中的任何区段读取时使用。
术语“位点”是指参考基因组上的独特位置(即染色体ID、染色体位置和方向)。在一些实施方案中,位点可以是序列上的残基、序列标签或区段的位置。
如本文所用,术语“参考基因组”或“参考序列”是指任何生物体或病毒的任何特定的已知基因组序列(不论部分或全部),其可以用于参考来自对象的鉴定序列。例如,用于人对象以及多种其他生物体的参考基因组见于ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center for Biotechnology Information)。“基因组”是指以核酸序列表示的生物体或病毒的全部遗传信息。
在多个实施方案中,参考序列显著大于与其对齐的读取。例如,其可以大至少约100倍、或大至少约1000倍、或大至少约10,000倍、或大至少约105倍、或大至少约106倍、或大至少约107倍。
在一个实例中,参考序列为全长的人基因组序列。此类序列可以被称为基因组参考序列。在另一实例中,参考序列限于特定的人染色体,如13号染色体。在一些实施方案中,参考Y染色体是来自人基因组形式hg19的Y染色体序列。此类序列可以被称为染色体参考序列。参考序列的其他实例包括其他物种的基因组以及任何物种的染色体、亚染色体区域(如链)等。
在一些实施方案中,用于对齐的参考序列可以具有读取长度的约1至约100倍的序列长度。在此类实施方案中,对齐和测序被认为是靶向对齐或测序,而非全基因组对齐或测序。在这些实施方案中,参考序列通常包含感兴趣的基因和/或重复序列。
在多个实施方案中,参考序列是来源于多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可以取自特定个体。
术语“临床上相关的序列”在本文是指已知或疑似与遗传或疾病病况相关或有关的核酸序列。确定是否存在临床上相关的序列可以用于确定诊断或确认医学病况的诊断,或为疾病的发展提供预后。
当在核酸或核酸的混合物的上下文中使用时,术语“来源”在本文是指核酸获自其所源于的来源的手段。例如,在一个实施方案中,来源于两种不同基因组的核酸的混合物意指核酸例如cfDNA通过诸如坏死或细胞凋亡的天然存在的过程由细胞自然地释放。在另一实施方案中,来源于两种不同基因组的核酸的混合物意指从来自对象的两种不同类型的细胞中提取核酸。
当在获得特定定量数值的上下文中使用时,术语“基于”在本文是指使用作为输入的另一数量以计算作为输出的特定定量数值。
术语“患者样品”在本文是指获自患者,即医疗看护、护理或治疗的接受者的生物样品。患者样品可以为本文所述的任何样品。在某些实施方案中,通过非侵入性程序获得患者样品,例如外周血样品或粪便样品。本文所述的方法不必限于人。因此,考虑各种兽医应用,在该情况下,患者样品可以为来自非人哺乳动物(例如猫科动物、猪科动物、马科动物、牛科动物等)的样品。
术语“生物流体”在本文是指取自生物来源的液体,并且包括例如血液、血清、血浆、痰、灌洗液、脑脊液、尿、精液、汗液、眼泪、唾液等。如本文所用,术语“血液”、“血浆”和“血清”明确涵盖其级分或经处理的部分。类似地,如果样品取自活检、拭子、涂片等,“样品”明确地涵盖来源于活检、拭子、涂片等的经处理的级分或部分。
如本文所用,术语“对应于”有时是指存在于不同对象的基因组中,并且不一定在全部基因组中具有相同序列,但用来提供感兴趣的序列,例如基因或染色体的身份而非遗传信息的核酸序列,例如基因或染色体。
如本文所用,术语“染色体”是指活细胞的具有遗传性的基因载体,其来源于包含DNA和蛋白质组分(特别是组蛋白)的染色质链。本文采用常规的国际上认可的个体人基因组染色体编号系统。
如本文所用,术语“多核苷酸长度”是指参考基因组的序列或区域中核酸单体亚单元(核苷酸)的绝对数。术语“染色体长度”是指碱基对中给出的染色体的已知长度,例如人染色体的NCBI36/hg18集合中提供的,参见World Wide Web上的|genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=。
术语“对象”在本文是指人对象以及非人对象,如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌和病毒。尽管本文的实例涉及人,并且语言主要针对人文关怀,但本文公开的概念可适用于来自任何植物或动物的基因组,并且可用于兽药、动物科学、研究实验室等领域。
本文使用的术语“引物”是指当置于诱导扩增产物合成的条件(例如该条件包括核苷酸、诱导剂如DNA聚合酶、以及合适的温度和pH)下时,能够充当合成起始点的分离的寡核苷酸。为了扩增的最大效率,引物可以优选是单链的,但可选地可以是双链的。如果是双链的,则首先处理引物以使其链分开,然后用于制备延伸产物。引物可以为寡脱氧核糖核苷酸。引物足够长以在诱导剂的存在下引发延伸产物的合成。引物的确切长度取决于多种因素,包括温度、引物来源、使用方法和用于引物设计的参数。
引言
重复扩增是涉及STR多态性的一种特殊类别的微卫星和小卫星变体。当短串联重复序列扩增超过某些大小时,重复扩增由于其不稳定性也被称为动态突变。由不稳定的重复扩增引起的遗传病症包括脆性X综合征、亨廷顿病和ALS。表1例示不同于正常样品中重复序列的较小数目的致病重复扩增。列显示与重复序列相关的基因、重复单元的核酸序列、正常和致病序列的重复单元的重复数目、以及与重复扩增相关的疾病。
表1.致病重复扩增的实例
基因 | 重复 | 正常 | 致病 | 疾病 |
FMR1 | CGG | 6-60 | 200-900 | 脆性X |
AR | CAG | 9-36 | 38-62 | 脊髓延髓肌肉萎缩症 |
GHTT | CAG | 11-34 | 40-121 | 亨廷顿病 |
FXN | GAA | 6-32 | 200-1700 | 弗里德赖希共济失调 |
ATXN1 | CAG | 6-39 | 40-82 | 脊髓小脑性共济失调 |
ATXN10 | ATTCT | 10-20 | 500-4500 | 脊髓小脑性共济失调 |
ATXN2 | CAG | 15-24 | 32-200 | 脊髓小脑性共济失调 |
ATXN3 | CAG | 13-36 | 61-84 | 脊髓小脑性共济失调 |
ATXN7 | CAG | 4-35 | 37-306 | 脊髓小脑性共济失调 |
C9ofr72 | GGGGCC | <30 | 100’s | ALS |
涉及重复扩增的遗传病症在许多方面为多样化的。重复单元的大小、扩增程度、关于受影响基因的位置和致病机理可以在不同病症之间改变。例如,ALS涉及位于9号染色体短臂上开放阅读框72的C9orf72基因中核苷酸GGGGCC的六核苷酸重复扩增。相比之下,脆性X综合征与影响X染色体上脆性X智力迟钝1(FMR1)基因的CGG三核苷酸重复(三联体重复)的扩增相关。CGG重复的扩增可以导致未能表达脆性X智力迟钝蛋白(FMRP),其是正常神经发育所必需的。根据CGG重复的长度,等位基因可以被分类为正常(未受综合征的影响)、前突变(处于脆性X相关病症的风险中)或全突变(通常受综合征影响)。根据多种估计,与倾向于共济失调的携带者中的60至230个重复,以及未受影响的个体中的5至54个重复相比,在受影响的患者中引起脆性X综合征的突变的FMR1基因中存在230至4000个CGG重复。FMR1基因的重复扩增是孤独症的起因,因为发现约5%的孤独症个体具有FMR1重复扩增。McLennan,等人(2011),Fragile X Syndrome,Current Genomics 12(3):216–224。脆性X综合征的确定诊断涉及确定CGG重复的数目的遗传测试。
已经在多个研究中鉴定重复扩增相关疾病的多种一般特性。重复扩增或动态突变通常表现为重复数目的增加,其中突变率与重复数目相关。稀有事件如重复中断的丢失可以导致等位基因扩增的可能性增加,其中此类事件被称为创立者事件(founder events)。在重复序列中重复数目与重复扩增引起的疾病的严重性和/或发作之间可能存在关联。
因此,鉴定和调用重复扩增在多种疾病的诊断和治疗中是重要的。然而,鉴定重复序列,尤其是使用未完全跨越重复序列的读取具有多种挑战。首先,将重复与参考序列对齐是困难的,因为在读取与参考基因组之间没有清晰的一对一映射。另外,即使读取与参考序列对齐,读取通常太短而不能完全覆盖医学上相关的重复序列。例如,读取可以为约100bp。相比之下,重复扩增可以跨越数百至数千个碱基对。例如,在脆性X综合征中,FMR1基因可以具有远超过1000个重复,跨越超过3000bp。因此,100-bp读取不能映射重复扩增的全长。此外,将短读组装成较长序列可能并不能克服短读相对于长重复的问题,因为一个读取中的重复与另一读取中的重复的不明确对齐,将短读组装成较长序列是困难的。
由于参考序列的不完整性、读取与参考序列上的位点之间不唯一的对应性、或来自参考序列的显著偏差,对齐是信息丢失的主要元凶。系统测序误差和影响读取准确性的其他问题是检测重复序列失败的次要因素。在一些实验方案中,约7%的读取是未对齐的或MAPQ评分是0。即使当研究者工作以改善测序技术和分析工具时,总会有显著量的不可对齐的和对齐较差的读取。方法的实施方式在本文依靠不可对齐的或对齐较差的读取以鉴定重复扩增。
使用长读取检测重复扩增的方法具有其自身的挑战。在下一代测序中,使用较长读取的当前可用的技术比使用较短读取的技术慢,并且更容易出错。此外,对于一些应用,如无细胞DNA测序,长读取不可行。可以将在母体血液中获得的无细胞DNA用于产前遗传诊断。无细胞DNA以通常短于200bp的片段存在。因此,使用长读取的方法对于使用无细胞DNA的产前遗传诊断不可行。本文所述方法的实施方式使用短读鉴定医学上相关的重复扩增。
在一些实施方式中,公开的方法通过利用双端测序解决了鉴定和调用重复扩增的前述挑战。双端测序涉及将DNA片段化成被称为插入物的序列。在诸如Illumina使用的一些方案中,来自较短插入物(例如,大约数十至数百个bp)的读取被称为短插入物双端读取或仅仅为双端读取。相比之下,来自较长插入物(例如大约数千个bp)的读取被称为配对读取。如上所述,可以将短插入物双端读取和长插入物配对读取用于本文公开方法的多个实施方式中。
图1A是显示将序列读取与参考序列上的重复序列对齐,尤其是当对齐获自具有重复扩增的长重复序列的样品的序列读取中的某些困难的示意图。在图1A的底部是具有通过垂直阴影线示出的相对短的重复序列103的参考序列101。在图的中部是具有包含重复扩增的长重复序列107(也通过垂直阴影线示出)的患者样品的假定序列105。在图上部示出的是在样品序列105的对应位点的位置示出的序列读取109和111。在这些序列读取的一些中,例如读取111,一些碱基对源于长重复序列107,如也通过垂直阴影线示出和用圆突出的。具有这些重复的读取111可能很难对齐参考序列101,因为重复在参考序列101上没有清晰的对应位置。因为这些可能未对齐的读取不能与参考序列101中的重复序列103清晰地关联,所以从这些可能未对齐的读取111获得关于重复序列和重复序列扩增的信息是困难的。此外,因为这些读取倾向短于包含重复扩增的长重复序列107,所以它们不能直接提供关于重复序列107的身份或位置的确定信息。另外,由于读取111中的重复在参考序列101上不明确的对应位置和读取111之间不明确的关系,读取111中的重复使其难以组装。部分来自样品中长重复序列107的读取(以半阴影和半实心黑示出的那些)可以通过源自重复序列107外部的碱基对齐。如果读取在重复序列107外部具有太少的碱基对,则读取可能对齐较差或不能对齐。因此,这些具有部分重复的读取中的一些可以被分析为锚读取,以及其他被分析为锚定读取,如下文进一步描述。
图1B为示出如何可以将双端读取用于一些公开的实施方案中以克服图1A中所示的困难的示意图。在双端测序中,测序从测试样品中核酸片段的两端发生。在图1B的底部示出的是等同于图1A中示出的参考序列101和样品序列105,以及读取109和111。在图1B的上部示出的是来源于测试样品序列105的片段125以及用于获得双端读取的两个读取135和137的读取1引物区131和读取2引物区133。片段125也被称为双端读取的插入物。在一些实施方案中,可以利用或不用PCR扩增插入物。一些重复序列,如包含大量GC或GCC重复的那些重复序列,不能用包括PCR扩增的传统方法很好地测序。对于此类序列,扩增可能是无PCR的。对于其他序列,可以用PCR进行扩增。
图1B中示出的插入物125对应于或来源于样品序列105的一段,其两侧为图的下半部分示出的两个垂直箭头。具体地,插入物125包含对应于样品序列105中长重复107的一部分的重复部分127。插入物的长度可以针对不同应用进行调整。在一些实施方案中,插入物可以稍微短于感兴趣的重复序列或具有重复扩增的重复序列。在其他实施方案中,插入物可以具有与重复序列或具有重复扩增的重复序列类似的长度。在其他实施方案中,插入物甚至可以稍微长于重复序列或具有重复扩增的重复序列。在下文还描述的一些实施方案中,对于配对测序,此类插入物可以是长插入物。通常,获自插入物的读取短于重复序列。因为插入物长于读取,所以双端读取可以比单端读取更好地捕获来自样品中较长段的重复序列的信号。
示出的插入物125在插入物的两端具有两个读取引物区131和133。在一些实施方案中,读取引物区为插入物所固有。在其他实施方案中,通过连接或延伸将引物区引入插入物。在插入物的左端示出的是读取1引物区131,其允许读取1引物132与插入物125的杂交。读取1引物132的延伸产生被标记为135的第一读取或读取1。在插入物125的右端示出的是读取2引物区133,其允许读取2引物134与插入物125的杂交,引发被标记为137的第二读取或读取2。在一些实施方案中,插入物125也可以包含索引条形码区(未在此处的图中显示),从而在多重测序过程中提供鉴定不同样品的机制。在一些实施方案中,可以通过合成平台的Illumina测序获得双端读取135和137。在此平台上实施的测序过程的实例在下文中的测序方法部分进一步描述,该过程产生两个双端读取和两个索引读取。
然后,可以将如图1B所示获得的双端读取与具有相对短的重复序列103的参考序列101对齐。因此,了解一对读取的相对位置和方向。这允许不可对齐的或对齐较差的读取,如圆111中所示的通过图1B的底部看到的读取的对应配对读取109与样品序列105中相对长的重复序列107间接关联的那些。在示例性实例中,获自双端测序的读取为约100bp,以及插入物为约500bp。在该实例设置中,两个双端读取的相对位置从其3’端相距约300个碱基对,并且它们具有相反方向。读取对之间的关系允许读取与重复区更好地关联。在一些情况下,一对中的第一读取与参考序列上重复区侧翼的非重复序列对齐,以及一对中的第二读取未与参考序列适当地对齐。参见,例如,图1B的下半部分中示出的一对读取109a和111a,其中该对的左边读取109a为第一读取,以及右边读取111a为第二读取。尽管存在第二读取111a不能与参考序列101对齐的事实,但考虑到两个读取109a和111a的配对,第二读取111a可以与样品序列105中的重复区107关联。了解第二读取111a相对于第一读取109a的距离和方向,可以进一步确定第二读取111a在长重复区107内的位置。如果第二读取111a中的重复之间存在中断,则也可以确定中断相对于参考序列101的位置。诸如与参考对齐的左边读取109a的读取在本公开中被称为锚读取。诸如未与参考序列对齐但与锚读取配对的右边读取111a的读取被称为锚定读取。因此,可以将未对齐的序列锚定至重复扩增以及与其关联。以此方式,可以使用短读来检测长重复扩增。虽然检测重复扩增的挑战通常随着扩增长度而增加(由于增加的测序难度),但与来自较短重复扩增序列的信号相比,本文公开的方法可以检测更高的来自较长重复扩增序列的信号。如此是因为随着重复序列或重复扩增变得越长,更多的读取锚定至扩增区,更多的读取可完全落入重复区,以及每次读取可出现更多重复。
在一些实施方案中,公开的方法涉及分析锚读取和锚定读取中存在的重复数目的频率分布。在一些实施方案中,仅分析锚定读取。在其他实施方案中,分析锚读取和锚定读取。可以将测试样品的分布与分离未受影响的样品和受影响的样品的经验或理论来源的标准进行比较。以此方式,可以确定测试样品是否具有考虑中的重复扩增,并且进行临床上相关的调用。
本文所述的方法和设备可以采用下一代测序技术(NGS),其允许大规模平行测序。在某些实施方案中,在流动池内以大规模平行方式对克隆扩增的DNA模板或单个DNA分子进行测序(例如,如Volkerding等人,Clin Chem 55:641-658[2009];Metzker M Nature Rev11:31-46[2010]中所述)。NGS的测序技术包括但不限于焦磷酸测序、利用可逆染料终止剂的边合成边测序、通过寡核苷酸探针连接的测序和离子半导体测序。来自单独样品的DNA可以单独地测序(即,单重测序),或者可以合并来自多个样品的DNA,并在单次测序运行上以指示的基因组分子进行测序(即多重测序),以产生多达数亿个DNA序列的读取。在下文进一步描述根据本发明的方法可以用于获得序列信息的测序技术的实例。
使用DNA样品的各种重复扩增分析涉及将来自测序仪的序列读取对齐或映射至参考序列。参考序列可以为全基因组序列、染色体序列、亚染色体区的序列等。从计算角度来看,重复在对齐中产生不明确性,这转而可以甚至在整个染色体计数水平产生偏差和错误。在多个实施方案中,与可调整的插入物长度偶联的双端读取可以有助于消除重复序列对齐和重复扩增检测的不明确性。
鉴定重复扩增
使用本文公开的实施方案,可以以相对于常规方法更高的效率、灵敏度和/或选择性确定与重复扩增有关的各种遗传病况。本发明的一些实施方案提供使用未完全跨越重复序列的序列读取来鉴定和调用医学上相关的重复扩增如引起脆性X综合征智力迟钝的CGG重复扩增的方法。诸如100bp读取的短读并不足够长以测通多个重复扩增。然而,当用公开的方法分析时,具有重复扩增的样品显示统计学上显著过量的含有大量重复序列的读取。另外,极大的重复扩增含有未对齐的读取对,其中两个读取均完全地或几乎完全地由重复序列组成。正常样品被用于鉴定背景期望。
常规的看法是在没有跨越整个重复的读取的情况下不能检测重复扩增。检测重复扩增的先前方法使用长读取的靶向测序,以及在一些情况下由于读取并不足够长以跨越重复序列而导致失败。一些公开的实施方案的结果引起了经验,部分是因为它们使用正常(非靶向)序列数据和仅约100bp的读取长度,但导致检测重复扩增的非常高的灵敏度。本文示出的方法可以使用具有短于整个重复序列长度的插入物长度(即两个序列读取和间插序列)的配对读取检测重复扩增中重复单元的数目。
转向根据一些实施方案确定重复扩增存在的方法的详细内容,图2显示提供用于确定样品中是否存在重复序列的重复扩增的实施方案的高水平描述的流程图。重复序列是包含重复出现的被称为重复单元的短序列的核酸序列。上文的表1提供重复单元的实例、正常和致病序列的重复序列中重复单元的重复数目、与重复序列相关的基因以及与重复扩增相关的疾病。图2中的过程200通过获得测试样品的双端读取开始。参见框202。双端读取已经被处理以与包含感兴趣的重复序列的参考序列对齐。在一些背景下,对齐过程也被称为映射过程。测试样品包括核酸,并且也可以呈体液、组织等的形式,如下文样品部分中进一步描述的。序列读取已经经历对齐过程,以映射至参考序列。可以将各种对齐工具和算法用于尝试将读取与参考序列对齐,如在本公开的别处所述的。照例,在对齐算法中,一些读取与参考序列成功地对齐,而其他读取可能与参考序列未成功对齐或对齐较差。与参考序列相继对齐的读取与参考序列上的位点关联。对齐的读取及其关联位点也被称为序列标签。如上文所解释的,一些含有大量重复的序列读取倾向于与参考序列较难对齐。当读取以高于某一标准的多个错配碱基与参考序列对齐时,读取被认为是对齐较差的。在多个实施方案中,当以至少约1、2、3、4、5、6、7、8、9或10个错配对齐时,读取被认为是对齐较差的。在其他实施方案中,当读取以至少约5%的错配对齐时,它们被认为是对齐较差的。在其他实施方案中,当读取以至少约10%、15%或20%的错配碱基对齐时,它们被认为是对齐较差的。
如图2所示,过程200继续以鉴定双端读取中的锚读取和锚定读取。参见框204。锚读取是与感兴趣的重复序列对齐或对齐到该感兴趣的重复序列附近的双端读取中的读取。例如,锚读取可以与参考序列上与重复序列间隔这样的序列长度的位置对齐:该序列长度小于插入物的序列长度。间隔长度可以更短。例如,锚读取可以与参考序列上与重复序列间隔这样的序列长度的位置对齐:该序列长度小于锚读取的序列长度或小于锚读取和连接锚读取与锚定读取的序列的组合序列长度(即插入物的长度减去锚定读取的长度)。在一些实施方案中,感兴趣的重复序列可以为FMR1基因中的重复序列包括重复单元CGG的重复。在正常参考序列中,FMR1基因中的重复序列包含重复单元CGG的约6-32个重复。当重复扩增超过200个拷贝时,重复扩增倾向于变成致病的,引起脆性X综合征。在一些实施方案中,当在感兴趣的重复序列的1000bp内对齐时,读取被认为在该感兴趣的序列附近对齐。在其他实施方案中,可以将该参数调整,如在约100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1500bp、2000bp、3000bp、5000bp等内。另外,该过程还鉴定锚定读取,其是与锚读取配对,但与其参考序列对齐较差或不能对齐的读取。上文描述对齐较差读取的另外的详细内容。
过程200还涉及至少部分地基于鉴定的锚定读取确定重复序列的重复扩增是否可能存在于测试样品中。参见框206。该确定步骤可以涉及多种合适的分析和计算,如下文进一步描述的。在一些实施方案中,该过程使用鉴定的锚读取以及锚定读取来确定重复扩增是否可能存在。在一些实施方案中,分析鉴定的锚读取和锚定读取中的重复数目,并且将其与理论来源的或来源于受影响的对照样品的经验数据的一个或多个标准比较。
在本文所述的多个实施方案中,以框内重复获得重复,其中相同重复单元的两个重复落入同一阅读框中。阅读框是将核酸(DNA或RNA)分子中的核苷酸序列分成一组连续的非重叠三联体的一种方式。在翻译期间,三联体编码氨基酸,并且被称为密码子。因此,任何特定的序列具有三个可能的阅读框。在一些实施方案中,根据三个不同的阅读框计算重复,并且三次计数的最大值确定为针对读取的对应重复的数目。
涉及额外操作和分析的过程的实例示于图3中。图3显示示出使用具有大量重复的双端读取检测重复扩增的过程300的流程图。过程300包括处理测试样品的额外的上游行为。过程通过对包含核酸的测试样品进行测序以获得双端读取开始。参见框302。在一些实施方案中,可以以多种方式获得和制备测试样品,如下文样品部分进一步描述的。例如,测试样品可以为生物流体,例如血浆或如下文所述的任何合适的样品。可以使用非侵入性程序如简单的抽血获得样品。在一些实施方案中,测试样品含有核酸分子,例如cfDNA分子的混合物。在一些实施方案中,测试样品是含有胎儿和母体cfDNA分子的混合物的母体血浆样品。
在测序之前,从样品提取核酸。在本文别处描述合适的提取方法和设备。在一些实施方式中,设备同时处理来自多个样品的DNA以提供多重文库和序列数据。在一些实施方案中,设备平行处理来自八个或更多个测试样品的DNA。如下文所述,测序系统可以处理提取的DNA以产生编码的(例如条形码的)DNA片段的文库。
在一些实施方案中,可以进一步处理测试样品中的核酸以制备多重或单重测序的测序文库,如在下文测序文库制备部分中进一步描述的。在处理和制备样品之后,可以通过多种方法进行核酸的测序。在一些实施方案中,可以采用多种下一代测序平台和方案,其在下文测序方法部分进一步描述。
不管具体的测序平台和方案如何,在框302中,对样品中含有的至少一部分核酸测序以产生数万、几十万或数百万序列读取,例如100bp的读取。在一些实施方案中,读取包括双端读取。在其他实施方案中,如在下文参考图5描述的那些,除双端读取之外,可以将包含超过数百、数千或数万个碱基的单端长读取用于确定重复序列。在一些实施方案中,序列读取包含约20bp、约25bp、约30bp、约35bp、约36bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp。预期技术进步将使单端读取能够大于500bp,以及当产生双端读取时,使读取能够大于约1000bp。
过程300继续以将获自框302的双端读取与包含重复序列的参考序列对齐。参见框304。在一些实施方案中,重复序列倾向于扩增。在一些实施方案中,已知重复扩增与遗传病症相关。在其他实施方案中,先前并未研究重复序列的重复扩增以建立与遗传病症的关联。不管任何相关的病理如何,本文公开的方法允许重复序列和重复扩增的检测。在一些实施方案中,读取与参考基因组,例如hg18对齐。在其他实施方案中,读取与参考基因组的一部分,例如染色体或染色体区段对齐。与参考基因组唯一映射的读取被称为序列标签。在一个实施方案中,至少约3x106个合格的序列标签、至少约5x106个合格的序列标签、至少约8x106个合格的序列标签、至少约10x106个合格的序列标签、至少约15x106个合格的序列标签、至少约20x106个合格的序列标签、至少约30x106个合格的序列标签、至少约40x106个合格的序列标签或至少约50x106个合格的序列标签获自与参考基因组唯一映射的读取。
在一些实施方案中,在对齐之前,过程可以过滤序列读取。在一些实施方案中,读取过滤是在测序仪中执行的软件程序能够进行的质量过滤过程以过滤掉错误的和低质量的读取。例如,Illumina的测序控制软件(SCS)以及序列和变异的一致性评估软件程序通过将由测序反应产生的最初图像数据转化成强度分数、碱基调用、质量得分对齐和额外的形式过滤掉错误的和低质量的读取以提供用于下游分析的生物相关信息。
在某些实施方案中,以电子格式提供测序设备产生的读取。使用计算设备完成对齐,如下文所讨论的。将单独的读取与通常为巨大(数百万的碱基对)的参考基因组比较,以鉴定读取与参考基因组唯一对应的位点。在一些实施方案中,对齐程序许可读取与参考基因组之间的有限错配。在一些情况下,许可读取中的1、2、3或更多个碱基对错配参考基因组中对应的碱基对,但是仍得出映射。在一些实施方案中,当读取以不超过1、2、3或4个碱基对与参考序列对齐时,读取被认为是对齐的读取。相应地,未对齐的读取是不能被对齐或对齐较差的读取。对齐较差的读取是具有比对齐的读取多的错配的读取。在一些实施方案中,当读取以不超过1%、2%、3%、4%、5%或10%的碱基对与参考序列对齐时,读取被认为是对齐的读取。
在将双端读取与包含感兴趣的重复序列的参考序列对齐之后,过程300继续以鉴定双端读取中的锚读取和锚定读取。参见框306。如以上提及的,锚读取是与重复序列对齐或对齐到所述重复序列附近的双端读取。在一些实施方案,锚读取是在重复序列的1kb内对齐的双端读取。锚定读取与锚读取配对,但它们不能与参考序列对齐或与该参考序列对齐较差,如上文所解释的。
过程300分析鉴定的锚读取和/或锚定读取中重复单元的重复数目以确定是否存在重复序列的扩增。更具体地,过程300涉及使用读取中的重复数目以获得锚读取和/或锚定读取中高计数读取的数目。高计数读取是具有比阈值多的重复的读取。在一些实施方案中,仅从锚定读取获得高计数读取。在其他实施方案中,从锚读取和锚定读取获得高计数读取。在一些实施方案中,如果重复数目接近读取可能的重复的最大数目,则读取被认为是高计数读取。例如,如果读取是100bp,并且考虑中的重复单元是3bp,则重复的最大数目为33。换言之,由双端读取的长度和重复单元的长度计算最大值。具体地,可以通过将读取长度除以重复单元的长度,并对该数值进行下舍入来获得重复的最大数目。在该实例中,多个实施方式可以将具有至少约28、29、30、31、32或33个重复的100bp读取鉴定为高计数读取。基于经验系数和考虑可以向上或向下调整高计数读取的重复数目。在多个实施方案中,高计数读取的阈值是重复的最大数目的至少约80%、85%、90%或95%。
然后,过程300基于高计数读取的数目,确定是否可能存在重复序列的重复扩增。参见框310。在一些实施方案中,分析将获得的高计数读取与调用标准进行比较,并确定如果超过标准,则可能存在重复扩增。在一些实施方案中,调用标准获自对照样品的高计数读取的分布。例如,分析已知具有或疑似具有正常重复序列的多个对照样品,以及以与如上所述相同的方式获得对照样品的高计数读取。可以获得对照样品的高计数读取的分布,以及可以估计具有超出特定值的高计数读取的未受影响的样品的概率。考虑到在该特定值下设定的调用标准,该概率允许确定灵敏度和选择性。在一些实施方案中,将调用标准设置在阈值,使得具有超出阈值的高计数读取的未受影响的样品的概率小于5%。换言之,p-值小于.05。在这些实施方案中,随着重复扩增,重复序列变长,更多的读取可能完全源于重复序列内,以及可以获得样品的更多的高计数读取。在多个替代实施方式中,可以选择更保守的调用标准,使得具有比阈值多的高计数读取的未受影响的样品的概率小于约1%、0.1%、0.01%、0.001%、0.0001%等。应理解,可以基于各种因素和需求向上或向下调整调用标准以增加测试的灵敏度或选择性。
在一些实施方案中,并非凭经验获得来自对照样品的高计数读取的数目的调用标准或除此之外,可以在理论上获得确定重复扩增的调用标准。考虑到多个参数包括双端读取的长度、具有重复扩增的序列的长度和测序深度,计算完全在重复内的读取的预期数目是可能的。例如,可以使用测序深度来计算对齐的基因组中读取之间的平均间隔。如果已经将单个样品测序至30x深度,则测序的全部碱基等于基因组的大小乘以深度。对于人,这相当于约3x109x30=9x1010。如果每个读取的长度是100bp,则存在总计9x108个实现该深度所需的读取。由于基因组是二倍体,这些读取中的一半是对一套染色体/单体型进行测序,以及剩余的是对另一套染色体/单体型进行测序。对于每个单体型,存在4.5x108个读取,并且将总基因组大小除以该数值产生每个读取的起始位置之间的平均间隔-即3x109/4.5x108=平均每6.7bp 1个读取。可以使用该数值基于特定个体中重复序列的大小来估计将完全在该重复序列内的读取的数目。如果总重复序列大小是300bp,则该重复序列的前200bp内起始的任何读取将完全在重复序列内(基于100bp读取长度,在最后100bp内起始的任何读取至少部分地在重复序列之外)。由于预期读取每6.7bp对齐,预期200bp/(6.7bp/读取)=30个读取完全在重复序列内对齐。虽然在该数值周围存在变化性,但这允许估计完全在任何扩增大小的重复序列内的总读取。下文实施例1的表2中给出重复序列长度和对应的根据该方法计算的在重复序列中完全对齐的读取的预期数目。
在一些实施方案中,由读取内首次观察到的重复序列与末次观察到的重复序列之间的距离计算调用标准,由此允许重复序列的突变和测序误差。
在一些实施方案中,过程还可以包括诊断获得测试样品的个体具有升高的遗传病症的风险,所述遗传病症如脆性X综合征、ALS、亨廷顿病、弗里德赖希共济失调、脊髓小脑性共济失调、脊髓延髓肌肉萎缩症、强直性肌营养不良症、马查多-约瑟夫病、齿状核红核苍白球路易体萎缩症等。此类诊断可以基于重复扩增可能存在于测试样品的确定,以及基于与重复扩增相关的基因和重复序列。在其他实施方案中,当遗传病症未知时,一些实施方案可以检测异常高的重复计数以新鉴定疾病的遗传成因。
图4是示出根据一些实施方案检测重复扩增的另一过程的流程图。过程400使用测试样品的双端读取而非高计数读取中的重复数目以确定重复扩增的存在。过程400通过对包含核酸的测试样品进行测序以获得双端读取开始。参见框402,其等同于过程300的框302。过程400通过将双端读取与包含重复序列的参考序列对齐来继续。参见框404,其等同于过程300的框304。过程通过鉴定双端读取中的锚读取和锚定读取而继续,其中锚读取是与重复序列对齐或对齐到重复序列附近的读取,而锚定读取是与锚读取配对的未对齐的读取。在一些实施方案,未对齐的读取包括不能与参考序列对齐的读取以及与参考序列对齐较差的读取。
在鉴定锚读取和锚定读取之后,过程400获得来自测试样品的锚读取和/或锚定读取中的重复数目。参见框408。然后,该过程获得从测试样品获得的所有锚读取和/或锚定读取中重复数目的分布。在一些实施方案中,仅分析来自锚定读取的重复数目。在其他实施方案中,分析锚定读取和锚读取的重复。然后,将测试样品中重复数目的分布与一个或多个对照样品的分布比较。参见框410。在一些实施方案中,如果测试样品的分布在统计学上显著不同于对照样品的分布,则该过程确定重复序列的重复扩增存在于测试样品中。参见框412。过程400分析包括高计数读取以及低计数读取在内的读取的重复数目,其不同于仅分析高计数读取的过程,如上文结合过程300所述的。
在一些实施方案中,测试样品的分布与对照样品的分布的比较涉及使用曼-惠特尼秩检验以确定两种分布是否显著不同。在一些实施方案中,如果与对照样品相比,测试样品的分布更多地向较高的重复数目倾斜,并且曼-惠特尼秩检验的p-值小于约0.0001或0.00001,则分析确定重复扩增可能存在于测试样品中。可以根据需要调整p-值以改善测试的选择性或灵敏度。
以上结合图2-4所述的用于检测重复扩增的过程使用锚定读取,其是未对齐的读取,并与和感兴趣的重复序列对齐的读取配对。这些过程的变化可以包括,搜遍几乎完全由一些类型的重复序列组成的读取对的未对齐的读取,以发现新的、先前未鉴定的可能是医学上相关的重复扩增。该方法不能定量重复的精确数目,但在鉴定应被标记用于进一步定量的极端重复扩增或异常值中是强大的。与较长读取组合,该方法可能能够鉴定和定量总长度高达200bp或更多的重复。
图5示出使用与感兴趣的任何重复序列无关联的未对齐的读取鉴定重复扩增的过程500的流程图。过程500可以使用全基因组未对齐的读取以检测重复扩增。过程通过对包含核酸的测试样品进行测序以获得双端读取开始。参见框502。过程500通过将双端读取与参考基因组对齐而继续。参见框504。然后,该过程鉴定全基因组的未对齐的读取。未对齐的读取包括不能与参考序列对齐或与参考序列对齐较差的双端读取。参见框506。然后,该过程分析未对齐的读取中重复单元的重复数目以确定重复扩增是否可能存在于测试样品中。该分析可以未知任何特定重复序列。可以将该分析应用于各种可能的重复单元,以及可以将来自测试样品的不同重复单元的重复数目与多个对照样品的重复数目比较。可以将以上所述的测试样品与对照样品之间的比较技术应用于该分析中。如果比较显示测试样品具有异常高数目的重复单元的重复,则可以进行额外的分析以确定测试样品是否包含感兴趣的特定重复序列的重复扩增。参见框510。
在一些实施方案中,额外的分析涉及非常长的序列读取,其可以潜在地跨越具有医学上相关的重复扩增的长重复序列。在该额外分析中的读取长于双端读取。在一些实施方案中,单分子测序或合成的长读取测序被用于获得长读取。在一些实施方案中,重复扩增与遗传病症之间的关系为本领域已知的。然而,在其他实施方案中,在本领域不需要建立重复扩增与遗传病症之间的关系。
在一些实施方案中,分析操作510的未对齐的读取中重复单元的重复数目涉及高计数分析,其与图3的操作308的高计数分析相当。该分析包括获得高计数读取的数目,其中高计数读取是具有比阈值多的重复的未对齐的读取;以及将测试样品中的高计数读取的数目与调用标准进行比较。在一些实施方案中,高计数读取的阈值是重复的最大数目的至少约80%,该最大值被计算为双端读取的长度与重复单元的长度的比值。在一些实施方式中,高计数读取还包括与未对齐的读取配对并且具有比阈值多的重复的读取。
在一些实施方案中,在操作510的额外分析之前,过程还涉及(a)鉴定与未对齐的读取配对并且与参考基因组上的重复序列对齐或对齐到参考基因组上的重复序列附近的双端读取;以及(b)将重复序列提供为操作510的感兴趣的特定重复序列。然后,感兴趣的重复序列的额外分析可以采用以上结合图2-4所述的任何方法。
样品
用于确定重复扩增的样品可以包括取自包含核酸的任何细胞、流体、组织或器官的样品,其中一个或多个感兴趣的重复序列的重复扩增待确定。在涉及胎儿诊断的一些实施方案,从母体体液获得无细胞核酸,例如无细胞DNA(cfDNA)是有利的。无细胞核酸(包括无细胞DNA)可以通过本领域已知的多种方法从生物样品获得,所述生物样品包括但不限于血浆、血清和尿(参见,例如Fan等人,Proc Natl Acad Sci 105:16266-16271[2008];Koide等人,Prenatal Diagnosis 25:604-607[2005];Chen等人,Nature Med.2:1033-1035[1996];Lo等人,Lancet 350:485-487[1997];Botezatu等人,Clin Chem.46:1078-1084,2000;和Su等人,J Mol.Diagn.6:101-107[2004])。
在多个实施方案中,在使用之前(例如在制备测序文库之前),可以特异性或非特异性富集样品中存在的核酸(例如DNA或RNA)。在以下示例性实例中,DNA被用作核酸的实例。样品DNA的非特异性富集是指样品的基因组DNA片段的全基因组扩增,其可以在制备cfDNA测序文库之前被用于增加样品DNA的水平。全基因组扩增的方法为本领域已知的。简并寡核苷酸引发的PCR(DOP)、引物延伸PCR技术(PEP)和多重置换扩增(MDA)是全基因组扩增方法的实例。在一些实施方案中,对于DNA,样品是未富集的。
应用本文所述方法的包含核酸的样品通常包括如上文所述的生物样品(“测试样品”)。在一些实施方案中,筛选用于重复扩增的核酸通过许多众所周知方法中的任一种纯化或分离。
因此,在某些实施方案中,样品包括纯化的或分离的多核苷酸,或基本上由其组成,或者其可以包括诸如组织样品、生物流体样品、细胞样品等的样品。合适的生物流体样品包括但不限于血液、血浆、血清、汗液、眼泪、痰、尿、痰、耳流出物、淋巴液、唾液、脑脊液、灌洗液、骨髓悬液、阴道流出物、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物、羊水、乳汁和白细胞透入(leukophoresis)样品。在一些实施方案中,样品是通过非侵入性程序容易获得的样品,例如血液、血浆、血清、汗液、眼泪、痰、尿、痰、耳流出物、唾液或排泄物。在某些实施方案中,样品是外周血样品、或外周血样品的血浆和/或血清级分。在其他实施方案中,生物样品是拭子或涂片、活检样本或细胞培养物。在另一实施方案中,样品是两种或更多种生物样品的混合物,例如生物样品可以包含生物流体样品、组织样品和细胞培养物样品中的两种或更多种。如本文所用,术语“血液”、“血浆”和“血清”明确涵盖其级分或经处理的部分。类似地,在样品取自活检、拭子、涂片等的情况下,“样品”明确涵盖来源于活检、拭子、涂片等的经处理的级分或部分。
在某些实施方案中,样品可以从以下来源获得,所述来源包括但不限于来自不同个体的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体(例如疑似具有遗传病症的个体)的样品、来自正常个体的样品、在个体的疾病的不同阶段获得的样品、从经受疾病的不同治疗的个体获得的样品、来自经受不同环境因素的个体的样品、来自具有病理倾向的个体的样品、来自暴露于传染病介质的个体的样品等。
在一个示例性但非限制性的实施方案中,样品是获自怀孕雌性,例如孕妇的母体样品。在该情况中,可以使用本文所述的方法分析样品以提供胎儿中可能的染色体异常的产前诊断。母体样品可以是组织样品、生物流体样品或细胞样品。作为非限制性的实例,生物流体包括血液、血浆、血清、汗液、眼泪、痰、尿、痰、耳流出物、淋巴液、唾液、脑脊液、灌洗液、骨髓悬液、阴道流出物、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物以及白细胞透入样品。
在某些实施方案中,样品也可以获自体外培养的组织、细胞或其他含多核苷酸的来源。培养的样品可以取自以下来源,其包括但不限于保持在不同培养基和条件(例如pH、压力或温度)中的培养物(例如组织或细胞)、保持不同时间长度的培养物(例如组织或细胞)、用不同因子或试剂(例如药物候选物或调节剂)处理的培养物(例如组织或细胞)或不同类型的组织和/或细胞的培养物。
从生物来源分离核酸的方法是众所周知的,并且将根据来源的性质而不同。对于本文所述的方法,本领域技术人员能够根据需要容易地从来源分离核酸。在一些情况下,将核酸样品中的核酸分子片段化可能是有利的。片段化可以是随机的,或者其可以是特异的,如例如,使用限制性内切酶消化所实现的。随机片段化的方法是本领域众所周知的,并且包括例如限制性DNA酶消化、碱处理和物理剪切。
测序文库的制备
在多个实施方案中,可以在需要制备测序文库的各种测序平台上进行测序。制备通常涉及将DNA片段化(超声、雾化或剪切),随后进行DNA修复和末端修饰(平端或A悬突)以及平台-特异性衔接子连接。在一个实施方案中,本文所述的方法可以利用下一代测序技术(NGS),其允许多个样品在单一测序运行中作为基因组分子(即单重测序)或作为包含索引基因组分子的合并的样品(例如多重测序)分别测序。这些方法可以产生DNA序列的多达数亿个读取。在多个实施方案中,可以使用例如本文所述的下一代测序技术(NGS)测定基因组核酸和/或索引的基因组核酸的序列。在多个实施方案中,使用NGS获得的大量序列数据的分析可以使用如本文所述的一个或多个处理器进行。
在多个实施方案中,此类测序技术的使用不涉及测序文库的制备。
然而,在某些实施方案中,本文考虑的测序方法涉及测序文库的制备。在一个示例性方法中,测序文库的制备涉及准备被测序的衔接子-修饰的DNA片段(例如多核苷酸)的随机收集物的产生。多核苷酸的测序文库可以由以下制备:DNA或RNA,包括DNA或cDNA的等同物、类似物,例如,通过逆转录酶的作用由RNA模板产生的DNA或互补的cDNA或拷贝DNA。多核苷酸可以起源于双链形式(例如dsDNA,如基因组DNA片段、cDNA、PCR扩增产物等),或者,在某些实施方案中,多核苷酸可以起源于单链形式(例如ssDNA、RNA等)并且已经被转化成dsDNA形式。举例来说,在某些实施方案中,可以将单链mRNA分子拷贝成适合用于制备测序文库的双链cDNA。主要多核苷酸分子的精确序列通常不是文库制备方法中的材料,并且可以是已知或未知的。在一个实施方案中,多核苷酸分子为DNA分子。更具体地,在某些实施方案中,多核苷酸分子代表生物体的全部基因互补物或生物体的基本上全部的基因互补物,并且为通常包含内含子序列和外显子序列(编码序列)以及非编码调控序列,如启动子和增强子序列的基因组DNA分子(例如细胞DNA、无细胞DNA(cfDNA)等)。在某些实施方案中,主要的多核苷酸分子包括人基因组DNA分子,例如怀孕对象的外周血中存在的cfDNA分子。
通过使用包含特定范围的片段大小的多核苷酸来促进一些NGS测序平台的测序文库的制备。此类文库的制备通常涉及大的多核苷酸(例如细胞基因组DNA)的片段化以获得期望大小范围内的多核苷酸。
将双端读取用于本文公开的用于确定重复扩增的方法和系统中。插入物长度的片段长于读取长度,并且通常长于两个读取的长度的总和。
在一些示例性实施方案中,样品核酸以基因组DNA获得,将该基因组DNA片段化成大约100或更多、大约200或更多、大约300或更多、大约400或更多、或者大约500或更多碱基对的片段,以及可以将NGS方法容易地应用至该基因组DNA。在一些实施方案中,双端读取获自约100-5000bp的插入物。在一些实施方案中,插入物的长度为约100-1000bp。这些有时被实施为常规的短插入物双端读取。在一些实施方案中,插入物长度为约1000-5000bp。这些有时被实施为如上文所述的长插入物配对读取。
在一些实施方式中,长插入物被设计成用于评价非常长的扩增的重复序列。在一些实施方式中,可以应用配对读取以获得被数千个碱基对间隔开的读取。在这些实施方式中,插入物或片段的范围是几百至几千个碱基对,在插入物的两端具有两个生物素连接的衔接子。然后,生物素连接的衔接子连接插入物的两端以形成环形分子,然后,其进一步被片段化。选择包含生物素连接的衔接子和最初插入物两端的亚片段在被设计成对较短片段进行测序的平台上测序。
可以通过本领域技术人员已知的许多方法中的任一种实现片段化。例如,可以通过机械手段实现片段化,所述机械手段包括但不限于雾化、超声和水切力(hydroshear)。然而,机械片段化通常在C-O、P-O和C-C键切割DNA主链,导致具有断裂的C-O、P-O和/C-C键的平端以及3’-和5’-悬突端的多样化混合物(参见,例如Alnemri和Liwack,J Biol.Chem265:17323-17333[1990];Richards和Boyer,J Mol Biol 11:327-240[1965]),当可能没有用于随后酶促反应的必需的5’-磷酸时,其可能需要被修复,例如连接对于制备用于测序的DNA所必需的测序衔接子。
相比之下,cfDNA通常以小于约300个碱基对的片段存在,因此,片段化对于使用cfDNA样品生成测序文库通常不是必需的。
通常,无论多核苷酸被强行片段化(例如在体外片段化)还是以片段天然存在,它们被转化成具有5’-磷酸和3’-羟基的平端DNA。标准方案,例如使用例如如本文别处所述的Illumina平台进行测序的方案,指导用户末端修复样品DNA、在dA-加尾之前纯化末端修复的产物以及在文库制备的衔接子连接步骤之前纯化dA-加尾产物。
本文所述的序列文库的制备方法的多个实施方案避免进行通常由标准方案强制执行的一个或多个步骤以获得可以通过NGS进行测序的修饰的DNA产物的需要。简化法(ABB方法)、1-步方法和2-步方法为制备测序文库的方法的实例,其可见于2012年7月20日提交的专利申请13/555,037,将其通过引用整体并入。
测序方法
如上所示,对制备的样品(例如测序文库)进行测序作为鉴定拷贝数变化的程序的一部分。可以利用多种测序技术中的任一种。
一些测序技术为商业上可得的,如来自Affymetrix Inc.(Sunnyvale,CA)的边杂交边测序平台,来自454Life Sciences(Bradford,CT)、Illumina/Solexa(San Diego,CA)和Helicos Biosciences(Cambridge,MA)的边合成边测序平台,以及来自AppliedBiosystems(Foster City,CA)的边连接边测序平台,如下文所述。除使用HelicosBiosciences的边合成边测序进行的单分子测序之外,其他单分子测序技术包括但不限于Pacific Biosciences的SMRTTM技术、ION TORRENTTM技术和例如,由Oxford NanoporeTechnologies研发的纳米孔测序。
虽然自动化的Sanger方法被认为是‘第一代’技术,但也可以在本文所述的方法中采用包括自动化的Sanger测序的Sanger测序。其他合适的测序方法包括但不限于核酸成像技术,例如原子力显微镜(AFM)或透射电子显微镜(TEM)。下文更详细地描述示例性测序技术。
在一些实施方案中,公开的方法涉及使用Illumina的边合成边测序和基于可逆终止剂的测序化学方法通过数百万的DNA片段的大规模平行测序获得测试样品中核酸的序列信息(例如,如Bentley等人,Nature 6:53-59[2009]中所述)。模板DNA可以为基因组DNA,例如细胞DNA或cfDNA。在一些实施方案中,来自分离的细胞的基因组DNA被用作模板,并将其片段化成数百个碱基对的长度。在其他实施方案中,cfDNA被用作模板,并且片段化不是必需的,因为cfDNA以短片段存在。例如,胎儿cfDNA以长度为大约170个碱基对(bp)的片段在血流中循环(Fan等人,Clin Chem 56:1279-1286[2010]),并且在测序之前,不需要DNA的片段化。Illumina的测序技术依赖于片段化的基因组DNA与寡核苷酸锚所结合的平的透光的表面的连接。模板DNA是末端修复的以产生5’-磷酸化平端,以及克列诺片段的聚合酶活性被用于将单个A碱基添加至平端的磷酸化DNA片段的3’端。该添加制备用于连接至寡核苷酸衔接子的DNA片段,其在其3’端具有单个T碱基的悬突以增加连接效率。衔接子寡核苷酸与流动池锚寡核苷酸(不要与重复扩增分析中的锚/锚定读取混淆)互补。在有限稀释条件下,将衔接子-修饰的单链模板DNA添加至流动池,以及通过与锚寡核苷酸杂交而固定化。将连接的DNA片段延伸并桥式扩增以产生具有数亿簇的超高密度测序流动池,每个流动池含有约1,000个拷贝的相同模板。在一个实施方案中,在进行簇扩增之前,将随机片段化的基因组DNA使用PCR进行扩增。可选地,使用无扩增的基因组文库制备物,以及使用单独的簇扩增富集随机片段化的基因组DNA(Kozarewa等人,Nature Methods 6:291-295[2009])。使用稳健的四色DNA边合成边测序技术对模板进行测序,该技术采用具有可去除的荧光染料的可逆终止剂。使用激光激发和全内反射光学器件实现高灵敏度荧光检测。将约十至几百个碱基对的短序列读取针对参考基因组对齐,以及使用特别研发的数据分析管道软件鉴定短序列读取与参考基因组的唯一映射。在第一读取完成之后,模板可以原位再生以使来自片段的相对端的第二读取能够进行。因此,可以使用DNA片段的单端或双端测序。
本公开的多个实施方案可以使用允许双端测序的合成测序。在一些实施方案中,通过Illumina的合成测序平台涉及聚类片段。聚类是每个片段分子等温扩增的过程。在一些实施方案中,作为此处所述的实例,片段具有与片段的两端连接的两个不同的衔接子,该衔接子允许片段与流动池泳道表面上的两个不同的寡核苷酸杂交。片段还包括在该片段两端的两个索引序列或与其连接,该索引序列提供鉴定多重测序中不同样品的标记。在一些测序平台中,待测序的片段也被称为插入物。
在一些实施方式中,Illumina平台中用于聚类的流动池为具有泳道的载玻片。每个泳道为涂覆有一平层(lawn)的两种类型的寡核苷酸的玻璃槽。杂交能够通过在表面上的两种类型的寡核苷酸中的第一类型的寡核苷酸进行。该寡核苷酸与在片段一端的第一衔接子互补。聚合酶产生杂交片段的互补链。双链分子被变性,并且最初的模板链被冲洗掉。剩余链与许多其它剩余链平行地通过桥式应用进行克隆扩增。
在桥式扩增中,链的第二端的第二衔接子区与在流动池表面的第二类型的寡核苷酸杂交。聚合酶产生互补链,形成双链桥式分子。该双链分子变性,导致两个单链分子通过两个不同的寡核苷酸拴系至流动池。然后,反复重复该过程,以及对数百万簇同时进行该过程,导致所有片段的克隆扩增。在桥式扩增之后,切割并洗掉反向链,仅留下正向链。封闭3’端以防止不需要的引发。
在聚类之后,用延伸第一测序引物以产生第一读取开始测序。对于每个循环,荧光标记的核苷酸竞争添加至生长链中。基于模板的序列仅一个荧光标记的核苷酸被掺入。在添加每个核苷酸之后,光源激发簇,并发射特征性荧光信号。循环数决定读取长度。发射波长和信号强度决定碱基调用。对于给定簇,同时读取全部相同的链。以大规模平行方式对数亿个簇进行测序。在第一读取完成时,冲洗掉读取产物。
在涉及两个索引引物的方案的下一步中,将索引1引物被引入,并且与模板上的索引1区杂交。索引区提供片段的鉴定,其可用于多重测序过程中的非多重样品。与第一读取类似,产生索引1读取。在索引1读取完成之后,冲洗掉读取产物,并且将链的3’端去保护。然后,模板链折叠,并且结合流动池上的第二寡核苷酸。索引2序列以与索引1相同的方式读取。然后,在步骤完成时,洗掉索引2读取产物。
在读取两个索引之后,通过使用聚合酶延伸第二流动池寡核苷酸引发读取2,形成双链桥。该双链DNA被变性的,并封闭3’端。切割并冲洗掉最初的正向链,留下反向链。读取2开始于读取2测序引物的引入。与读取1一样,重复测序步骤直至获得期望长度。冲洗掉读取2产物。该整个过程产生数百万读取,代表所有片段。基于样品制备期间引入的独特索引分离来自合并样品文库的序列。对于每个样品,类似区段的碱基调用的读取被局部聚类。将正向读取和反向读取配对,产生连续序列。将这些连续序列与参考基因组对齐用于变体识别。
以上所述的合成测序实例涉及双端读取,其被用于所公开方法的多个实施方案中。双端测序涉及来自片段两端的2个读取。双端读取被用于解决不明确的对齐。双端测序允许用户选择插入物(或待被测序片段)的长度和插入物任一端的序列,产生高质量、可对齐的序列数据。因为每个配对读取之间的距离是已知的,所以对齐算法可以使用该信息以更精确地将读取映射在重复区上。这导致读取较好的对齐,特别是基因组的难以测序的重复区。双端测序可以检测重排,包括插入和缺失(插入和缺失(indels))以及倒置。
双端读取可以使用不同长度(即待测序的不同片段大小)的插入物。作为本公开中的默认含义,双端读取被用于指获自不同插入物长度的读取。在一些情况下,为区分短插入物双端读取与长插入物双端读取,后者被特定地称为配对读取。在涉及配对读取的一些实施方案中,两个生物素连接的衔接子首先被连接至相对长的插入物(例如数kb)的两端。然后,生物素连接的衔接子连接插入物的两端以形成环形分子。然后,可以通过使环形分子进一步片段化获得涵盖生物素连接的衔接子的亚片段。然后,可以通过与以上所述的短插入物双端测序相同的程序对包含呈相反序列顺序的最初片段的两端的亚片段测序。使用Illumina平台的配对测序的其他详细内容显示在下述地址的线上出版物中,将其通过引用整体并入:res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf
在DNA片段测序之后,将预定长度,例如100bp的序列读取与已知的参考基因组映射或对齐。映射或对齐的读取及其在参考序列上的相应位置也被称为标签。本文公开的用于确定重复扩增的多个实施方案的分析使用对齐较差或不能对齐的读取,以及对齐的读取(标签)。在一个实施方案中,参考基因组序列为NCBI36/hg18序列,其可在万维网上以genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)获得。可选地,参考基因组序列为GRCh37/hg19,其可在万维网上以genome.ucsc.edu/cgi-bin/hgGateway获得。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室(European Molecular Biology Laboratory))和DDBJ(日本DNA数据库(DNADatabank of Japan))。用于对齐序列的多个计算机算法是可获得的,包括但不限于BLAST(Altschul等人,1990)、BLITZ(MPsrch)(Sturrock&Collins,1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead等人,Genome Biology 10:R25.1-R25.10[2009])或ELAND(Illumina,Inc.,San Diego,CA,USA)。在一个实施方案中,对血浆cfDNA分子的克隆扩增的拷贝的一端测序,并通过Illumina基因组分析仪的生物信息学对齐分析对其进行处理,所述生物信息学对齐分析使用核苷酸数据库的有效大规模对齐(ELAND)软件。
在一个示例性但非限制性实施方案中,本文所述的方法包括使用Helicos真正单分子测序(tSMS)技术的单分子测序技术,获得测试样品中核酸的序列信息(例如,如HarrisT.D.等人,Science 320:106-109[2008]中所述的)。在tSMS技术中,DNA样品被切割成大约100至200个核苷酸的链,以及将polyA序列添加至各DNA链的3’端。通过添加荧光标记的腺苷核苷酸对各链进行标记。然后,DNA链与流动池杂交,所述流动池含有固定在流动池表面上的数百万个oligo-T捕获位点。在某些实施方案中,模板的密度可以为约1亿个模板/cm2。然后,将流动池装载至仪器,例如HeliScopeTM测序仪中,并且激光照射流动池的表面,揭示每个模板的位置。CCD相机能够映射流动池表面上模板的位置。然后,切割并冲洗掉模板荧光标记。测序反应通过引入DNA聚合酶和荧光标记的核苷酸开始。oligo-T核酸用作引物。聚合酶将标记的核苷酸以模板指导的方式掺入引物。去除聚合酶和未掺入的核苷酸。指导荧光标记的核苷酸掺入的模板通过使流动池表面成像来识别。在成像之后,切割步骤去除荧光标记,并且用其他荧光标记的核苷酸重复该过程直至获得期望的读取长度。利用每个核苷酸添加步骤收集序列信息。通过单分子测序技术的全基因组测序排除或通常避免测序文库制备物中的基于PCR的扩增,并且该方法允许样品的直接测量,而不是该样品的拷贝的测量。
在另一示例性但非限制性实施方案中,本文所述的方法包括使用454测序(Roche)获得测试样品中核酸的序列信息(例如,如Margulies,M.等人,Nature 437:376-380[2005]中所述的)。454测序通常涉及两个步骤。在第一步中,DNA被剪切成大约300-800个碱基对的片段,并且片段为平端的。然后,将寡核苷酸衔接子连接至片段的末端。衔接子充当片段的扩增和测序的引物。使用,例如含有5’-生物素标签的衔接子B,可以将片段连接至DNA捕获珠,例如链霉亲和素-包被的珠。连接至珠的片段是在油-水乳状液的液滴中PCR扩增的。结果为在每个珠上的多个拷贝的克隆扩增的DNA片段。在第二步中,珠被捕获在孔(例如皮升-大小的孔)中。在每个DNA片段上平行进行焦磷酸测序。一个或多个核苷酸的添加产生由测序仪器中CCD相机记录的光信号。信号强度与掺入的核苷酸数目成比例。焦磷酸测序使用焦磷酸(PPi),其在核苷酸添加时被释放。在腺苷5’磷酰硫酸酯的存在下,通过ATP硫酸化酶,PPi被转化成ATP。荧光素酶使用ATP将荧光素转化成氧化荧光素,并且该反应产生被测量和分析的光。
在另一示例性但非限制性实施方案中,本文所述的方法包括使用SOLiDTM技术(Applied Biosystems)获得测试样品中核酸的序列信息。在SOLiDTM边连接边测序中,基因组DNA被剪切成片段,以及衔接子被连接至片段的5’端和3’端以产生片段文库。可选地,可以通过以下引入内部衔接子:将衔接子连接至片段的5’和3’端,使片段环化,消化环化的片段以产生内部衔接子,以及将衔接子连接至所得片段的5’端和3’端以产生配对文库。然后,在含有珠、引物、模板和PCR组分的微反应器中制备克隆珠群。在PCR之后,使模板变性,以及富集珠以分离具有延伸模板的珠。在选定的珠上的模板经历许可与载玻片结合的3’修饰。可以通过部分随机的寡核苷酸与由特定荧光团所鉴定的中心确定的碱基(或碱基对)的相继杂交和连接来确定序列。在记录颜色之后,切割并去除连接的寡核苷酸,然后重复该过程。
在另一示例性但非限制性实施方案中,本文所述的方法包括使用PacificBiosciences的单分子实时(SMRTTM)测序技术获得测试样品中核酸的序列信息。在SMRT测序中,在DNA合成期间,对染料标记的核苷酸的连续掺入成像。单个DNA聚合酶分子被连接至获得序列信息的单独的零模式波长检测器(ZMW检测器)的底面,同时磷连接的核苷酸被掺入生长的引物链。ZMW检测器包括限制结构,其能够针对迅速地扩散进入和扩散出ZMW(例如以微秒计)的荧光核苷酸的背景观察通过DNA聚合酶掺入的单个核苷酸。将核苷酸掺入生长链通常花费数毫秒。在此期间,荧光标记被激发,产生荧光信号,并且切割荧光标签。染料的对应荧光的测量表明哪个碱基被掺入。重复该过程以提供序列。
在另一示例性但非限制性实施方案中,本文所述的方法包括使用纳米孔测序获得测试样品中核酸的序列信息(例如,如Soni GV和Meller A.Clin Chem 53:1996-2001[2007]中所述的)。纳米孔测序DNA分析技术由多个公司研发,所述公司包括例如Oxford纳米孔技术(Oxford,United Kingdom)、Sequenom、NABsys等。纳米孔测序为单分子测序技术,由此,当单个DNA分子通过纳米孔时,直接对其进行测序。纳米孔为直径通常是1纳米量级的小孔。将纳米孔浸入导电流体,并且施加跨越纳米孔的电势(电压)导致由于离子通过纳米孔的电导而产生的轻微电流。流动的电流的量对纳米孔的大小和形状是敏感的。当DNA分子通过纳米孔时,DNA分子上的每个核苷酸在不同程度上阻塞纳米孔,从而在不同程度上改变通过纳米孔的电流的量级。因此,当DNA分子通过纳米孔时电流的这种变化提供DNA序列的读取。
在另一示例性但非限制性实施方案中,本文所述的方法包括使用化学敏感场效应晶体管(chemFET)阵列获得测试样品中核酸的序列信息(例如,如美国专利申请公开第2009/0026082号中所述)。在该技术的一个实例中,可以将DNA分子置于反应室中,并且可以将模板分子与结合聚合酶的测序引物杂交。将一个或多个三磷酸掺入测序引物3’端的新核酸链可以被识别为通过chemFET的电流的变化。阵列可以具有多个chemFET传感器。在另一实例中,可以将单个核酸连接至珠,可以在珠上扩增核酸,可以将单独的珠转移至chemFET阵列上的单独反应室中,其中每个室具有chemFET传感器,以及可以对核酸测序。
在另一实施方案中,DNA测序技术为Ion Torrent单分子测序,其使半导体技术与简单的测序化学方法成对以将化学编码的信息(A、C、G、T)直接译成半导体芯片上的数字信息(0、1)。本质上,当通过聚合酶将核苷酸掺入DNA链时,氢离子作为副产物释放。IonTorrent使用微机械孔的高密度阵列来以大规模平行方式进行该生化过程。每个孔保留不同的DNA分子。在孔下方是离子感应层,以及在离子感应层下方是离子传感器。当核苷酸,例如C被添加至DNA模板中,然后被掺入DNA链中时,氢离子将被释放。来自该离子的电荷改变溶液的pH,这可以被Ion Torrent的离子传感器检测到。测序仪-基本上是世界上最小的固态pH计-调用碱基,使化学信息直接到达数字信息。然后,Ion personal Genome Machine(PGMTM)测序仪用一个接一个的核苷酸依序涌入芯片。如果涌进芯片的下一个核苷酸不匹配,则将记录无电压变化,以及不调用碱基。如果DNA链上存在两个相同的碱基,则电压会加倍,并且芯片会记录调用的两个相同碱基。直接检测允许以秒计的核苷酸掺入的记录。
在另一实施方案中,本方法包括使用杂交测序获得测试样品中核酸的序列信息。杂交测序包括使多个多核苷酸序列与多个多核苷酸探针接触,其中多个多核苷酸探针各自可以任选地被拴系至基底。基底可以为包含已知核苷酸序列的阵列的平整表面。可以将与阵列杂交的模式用于确定样品中存在的多核苷酸序列。在其他实施方案中,每个探针被拴系至珠,例如磁珠等。与珠的杂交可以被确定并且被用于鉴定样品内的多个多核苷酸序列。
在本文所述方法的一些实施方案中,序列读取为约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、about90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp。预期技术进步能够进行大于500bp的单端读取,当产生双端读取时,能够进行大于约1000bp的读取。在一些实施方案中,双端读取被用于确定重复扩增,其包含约20bp至1000bp、约50bp至500bp、或80bp至150bp的序列读取。在多个实施方案中,双端读取被用于评价具有重复扩增的序列。具有重复扩增的序列长于读取。在一些实施方案中,具有重复扩增的序列长于约100bp、500bp、1000bp或4000bp。通过将读取序列与参考序列比较以确定测序的核酸分子的染色体来源来实现序列读取的映射,并且不需要特定的遗传序列信息。可以允许小程度的错配(0-2个错配/读取)来解释参考基因组与混合样品中的基因组之间可能存在的较小的多态性。在一些实施方案中,与参考序列对齐的读取被用作锚读取,以及与锚读取配对但不能与参考序列对齐或与参考序列对齐较差的读取被用作锚定读取。在一些实施方案中,对齐较差的读取可能具有相对大数目的错配/读取百分比,例如至少约5%、至少约10%、至少约15%或至少约20%的错配/读取。
通常每个样品获得多个序列标签(即,与参考序列对齐的读取)。在一些实施方案中,每个样品的例如100bp的至少约3x106个序列标签、至少约5x106个序列标签、至少约8x106个序列标签、至少约10x106个序列标签、至少约15x106个序列标签、至少约20x106个序列标签、至少约30x106个序列标签、至少约40x106个序列标签或至少约50x106个序列标签获自映射至参考基因组的读取。在一些实施方案中,所有序列读取映射参考基因组的所有区域,提供了全基因组读取。在其他实施方案中,读取映射感兴趣的序列,例如染色体、染色体的区段或感兴趣的重复序列。
确定重复扩增的设备和系统
通常使用各种计算机执行的算法和程序进行测序数据的分析和由其得到的诊断。因此,某些实施方案采用涉及存储在一个或多个计算机系统或其他处理系统中的或通过一个或多个计算机系统或其他处理系统转移的数据的过程。本文公开的实施方案还涉及进行这些操作的设备。该设备可以特别地针对所需目的构建,或者其可以为被存储在计算机中的计算机程序和/或数据结构选择性激活或重新配置的通用计算机(或一组计算机)。在一些实施方案中,一组处理器合作地(例如经由网络或云计算)和/或平行地进行所述分析性操作中的一些或全部。进行本文所述方法的处理器或处理器组可以为各种类型,包括微控制器和微处理器,如可编程设备(例如CPLD和FPGA)和不可编程设备,如门阵列ASIC或通用微处理器。
一个实施方案提供用于确定包含核酸的测试样品中是否存在重复扩增的系统,所述系统包括测序仪,其用于接收核酸样品并提供来自样品的核酸序列信息;处理器;和机器可读存储介质,其具有在其上存储的用于在所述处理器上执行以通过下述评价测试样品中的拷贝数的指令:(a)将双端读取与包含重复序列的参考序列对齐;(b)鉴定双端读取中的锚读取和锚定读取,其中锚读取是与重复序列对齐或对齐到所述重复序列附近的读取,以及锚定读取是与锚读取配对的未对齐的读取;以及(c)至少部分地基于鉴定的锚定读取,确定重复扩增是否可能存在于测试样品中。在一些实施方案中,(c)涉及至少部分地基于鉴定的锚读取和/或锚定读取中的重复单元的重复数目确定重复扩增是否可能存在于测试样品中。在一些实施方案中,(c)涉及:获得高计数读取的锚读取和/或锚定读取的数目,其中高计数读取包含具有比阈值多的重复的读取;以及将测试样品中的高计数读取的数目与调用标准进行比较。
在本文提供的任何系统的一些实施方案中,测序仪被配置为进行下一代测序(NGS)。在一些实施方案中,测序仪被配置为使用边合成边测序利用可逆染料终止剂进行大规模平行测序。在其他实施方案中,测序仪被配置为进行边连接边测序。在其他实施方案中,测序仪被配置为进行单分子测序。
另外,某些实施方案涉及有形的和/或非暂时性计算机可读介质或计算机程序产品,其包含用于进行各种计算机-实施的操作的程序指令和/或数据(包含数据结构)。计算机可读介质的实例包括但不限于半导体存储器装置,磁性介质如磁盘驱动器、磁带,光学介质如CD、磁光介质以及特别地被配置成存储和执行程序指令的硬件装置,如只读存储器装置(ROM)和随机存取存储器(RAM)。计算机可读介质可以由最终用户直接控制,或者介质可以由最终用户间接控制。直接控制的介质的实例包括位于用户设施的介质和/或不与其他实体共享的介质。间接控制的介质的实例包括经由外部网络和/或经由提供共享资源的服务,如“云”用户可间接得到的介质。程序指令的实例包括诸如编译程序产生的机器代码,以及含有可以由计算机使用解释器执行的较高水平代码的文件。
在多个实施方案中,公开的方法和设备中采用的数据或信息以电子格式提供。此类数据或信息可以包括来源于核酸样品的读取和标签、参考序列(包括仅提供或主要提供多态性的参考序列),调用如重复扩增调用,咨询建议,诊断等。如本文所用,以电子格式提供的数据或其他信息对机器上的存储和机器之间的传输是可获得的。照惯例,电子格式的数据以数字方式提供,并且可以在各种数据结构、列表、数据库等中被存储成二进制数字和/或字节。数据可以以电子方式、光学方式等呈现。
一个实施方案提供用于产生指示测试样品中是否存在重复扩增的输出的计算机程序产品。计算机产品可以含有用于进行确定重复扩增的上述方法的任何一种或多种的指令。如所解释的,计算机产品可以包括非暂时性和/或有形的计算机可读介质,其具有在其上记录的计算机可执行或可编译逻辑(例如指令),用于使处理器能够确定锚定读取和锚定读取中的重复,以及是否存在重复扩增。在一个实例中,计算机产品包含计算机可读介质,其具有在其上记录的计算机可执行或可编译逻辑(例如指令),用于使处理器能够诊断重复扩增,这包括:接收程序,其用于接收来自生物样品的至少一部分核酸分子的测序数据,其中所述测序数据包含经历与重复序列对齐的双端读取;计算机辅助逻辑,其用于分析来自所述接收数据的重复扩增;以及输出程序,其用于产生指示所述重复扩增的存在、不存在或种类的输出。
可以将来自考虑中样品的序列信息映射至染色体参考序列以鉴定与感兴趣的重复序列对齐或锚定的双端读取,以及鉴定重复序列的重复扩增。在多个实施方案中,参考序列被存储在诸如相关或对象数据库的数据库中。
应理解,未受协助的人进行本文公开方法的计算操作是不切实际的,或者甚至在大多数情况下是不可能的。例如,在没有计算设备的帮助下,将来自样品的单个30bp读取映射至人类染色体中的任一个可能需要多年的努力。当然,问题是复杂的,因为可靠的重复扩增调用通常需要将数千(例如至少约10,000)或甚至数百万个读取映射至一个或多个染色体。
可以使用用于评价测试样品中感兴趣的重复序列的重复扩增的系统进行本文公开的方法。系统可以包括:(a)测序仪,其用于接收来自测试样品的核酸,提供来自样品的核酸序列信息;(b)处理器;以及(c)一个或多个计算机可读存储介质,其具有在其上存储的用于在所述处理器上执行以评价测试样品中的重复扩增的指令。在一些实施方案中,方法通过计算机可读介质指导,该计算机可读介质具有在其上存储的用于实施鉴定任何重复扩增的方法的计算机可读指令。因此,一个实施方案提供包含存储程序代码的非瞬态机器可读介质的计算机程序产品,程序代码由计算机系统的一个或多个处理器执行时,使计算机系统实施用于鉴定包含核酸的测试样品中的重复序列的重复扩增的方法,其中重复序列包含核苷酸的重复单元的重复。程序代码可以包括:(a)获得已经被处理以与包含重复序列的参考序列对齐的测试样品的双端读取的代码;(b)鉴定双端读取中的锚读取和/或锚定读取的代码,其中锚读取是与重复序列对齐或对齐到所述重复序列附近的读取,以及锚定读取是与锚读取配对的未对齐的读取;以及(c)至少部分地基于鉴定的锚读取和/或锚定读取确定重复扩增是否可能存在于测试样品中的代码。
在一些实施方案中,(c)包括分析锚读取和锚定读取的代码。在一些实施方案中,(c)包括用于分析鉴定的锚读取和/或锚定读取中重复单元的重复数目的代码。在一些实施方案中,(c)包括获得高计数读取的锚读取和/或锚定读取的数目的代码,以及将测试样品中的高计数读取的数目与调用标准进行比较。
在一些实施方案中,指令还可以包括自动记录与方法有关的信息,如重复和锚定读取,以及提供测试样品的人对象的患者医疗记录中是否存在重复扩增。患者医疗记录可以通过例如实验室、医师的办公室、医院、保健组织、保险公司或个人医疗记录网站保持。而且,基于处理器-实施的分析的结果,方法还可以涉及规定、启动和/或改变测试样品所取自的人对象的治疗。这可以涉及在取自对象的额外样品上进行一个或多个额外的测试或分析。
也可以使用适于或配置成进行鉴定任何重复扩增的方法的计算机处理系统进行公开的方法。一个实施方案提供适于或配置成进行如本文所述方法的计算机处理系统。在一个实施方案中,设备包括测序装置,其适于或配置成用于对样品中的至少一部分核酸分子进行测序以获得本文别处所述的序列信息类型。设备还可以包括处理样品的组件。在本文别处描述了此类组件。
可以将序列或其他数据输入计算机或者直接或间接地存储在计算机可读介质上。在一个实施方案中,计算机系统与读取和/或分析来自样品的核酸序列的测序装置直接连接。经由计算机系统中的界面提供来自此类工具的序列或其他信息。可选地,通过系统处理的序列由序列存储源如数据库或其他存储库(repository)提供。一旦处理设备可获得的,存储器装置或大容量存储装置至少临时地缓冲或存储核酸序列。另外,存储器装置可以存储多种染色体或基因组等的标签计数。存储器也可以存储用于分析呈现的序列或映射数据的各种例行程序和/或程序。此类程序/例行程序可以包括含进行统计分析等的程序。
在一个实例中,用户向测序设备中提供样品。通过与计算机连接的测序设备收集和/或分析数据。计算机上的软件允许数据收集和/或分析。可以将数据存储、显示(经由显示器或其他类似装置)和/或发送至另一位置。可以将计算机连接至因特网,其被用于将数据传输至远程用户(例如医师、科学家或分析师)利用的手持装置。应理解,在传输之前,可以存储和/或分析数据。在一些实施方案中,将原始数据收集并发送至分析和/或存储数据的远程用户或设备。传输可以经由因特网发生,但也可以经由卫星或其他连接发生。可选地,可以将数据存储在计算机可读介质上,以及可以将介质运送到最终用户(例如经由邮件)。远程用户可以在相同或不同的地理位置,其包括但不限于建筑物、城市、州、国家或大陆。
在一些实施方案中,方法还包括收集关于多个多核苷酸序列(例如读取、标签和/或参考染色体序列)的数据,并将该数据发送至计算机或其他计算系统。例如,可以将计算机连接至实验室仪器,例如样品收集设备、核苷酸扩增设备、核苷酸测序设备或杂交设备。然后,计算机可以收集实验室装置收集的可适用的数据。可以在任何步骤将数据存储在计算机上,例如实时收集时、发送之前、在发送期间或与发送结合或发送后。可以将数据存储在可以从计算机提取的计算机可读介质上。可以例如经由局部网络或广域网络如因特网将收集或存储的数据从计算机传输到远程位置。在远程位置,可以在传输的数据上进行如下文所述的各种操作。
可以在本文公开的系统、设备和方法中被存储、传输、分析和/或操作的电子格式数据的类型为下述:
通过对测试样品中的核酸测序获得的读取
通过将读取与参考基因组或其他参考序列对齐获得的标签
参考基因组或序列
调用作为受影响的、未受影响的、或无调用的测试样品的阈值
重复扩增的实际调用
诊断(与调用相关的临床病况)
来源于调用和/或诊断的进一步测试的推荐
来源于调用和/或诊断的治疗和/或监测计划
可以使用不同的设备在一个或多个位置获得、存储、传输、分析和/或操作这些不同类型的数据。处理选项跨越宽范围。在范围的一端,该信息的全部或许多在处理测试样品的位置,例如医生的办公室或其他临床环境被存储和使用。在其他极端情况中,在一个位置获得样品,在不同位置对样品进行处理和任选测序,在一个或多个不同位置对齐读取和进行调用,以及在另一位置(其可以为获得样品的位置)准备诊断、推荐和/或计划。
在多个实施方案中,利用测序设备产生读取,然后将其传输至远程位点,在那,对其进行处理以产生重复扩增调用。在该远程位置,例如,将读取与参考序列对齐以产生锚读取和锚定读取。可以在不同位置采用的处理操作为下述:
样品收集
在测序之前的样品处理
测序
分析序列数据和得到重复扩增调用
诊断
向患者或健康护理提供者报告诊断和/或调用
研究进一步治疗、测试和/或监测的计划
执行计划
咨询
这些操作中的任何一个或多个可以是自动化的,如本文别处所述。通常,计算进行序列数据的测序和分析以及得到重复扩增调用。其他操作可以手动地或自动地进行。
图6显示从测试样品产生调用或诊断的分散系统的一个实施方式。样品收集位置01被用于从患者获得测试样品。然后,将样品提供至处理和测序位置03,在那可以如上文所述对测试样品进行处理和测序。位置03包括用于处理样品的设备以及对处理的样品进行测序的设备。如在本文别处所述的,测序的结果为读取的收集,所述读取通常以电子格式提供,并且被提供至诸如因特网的网络,其通过图6中的参考编号05指示。
序列数据被提供至远程位置07,在那进行分析和调用产生。该位置可以包括一个或多个强大的计算装置,如计算机或处理器。在位置07的计算资源已经完成它们的分析并产生来自从接收的序列信息的产生调用之后,调用被中继回网络05。在一些实施方式中,不仅在位置07产生调用,而且还产生相关诊断。然后,调用和/或诊断传输跨过经网络传输并回到样品收集位置01,如图6所示。如所解释的,这仅仅是与产生调用或诊断相关的各种操作如何可以在各种不同的位置中分开的许多多种变化中的一种。一种常见的变化型涉及在单个位置提供样品收集以及处理和测序。另一变化涉及在与分析和调用产生相同的位置提供处理和测序。
实验
实施例1
确定与脆性X综合征相关的重复扩增
本实施例呈现旨在使用100bp读取长度的相对短的双端读取确定与脆性X综合征相关的重复扩增的研究。脆性X综合征(FXS)与染色体X上FMR1中CGG三联体的重复单元有联系。其为X-连锁的性状,其中男性中的发病率为1/4,000,以及女性中的发病率为1/6,000。当重复小于60个拷贝时,表型通常是正常的,其中重复序列中最常见的基因具有约30个重复。在一些研究中,重复单元的60-200个拷贝或重复是前突变,这可能导致脆性X震颤共济失调综合征。脆性X的迟发性病症的特征在于运动和认知能力的问题。扩增的风险随着重复数目大于65而以指数方式增加。大于200个拷贝的重复三联体通常导致轻微至严重智力迟钝的脆性X综合征。参考基因组中的代表是(CGG)10+(AGG)+(CGG)9。重复中AGG的存在通过保持重复的稳定性而被认为是保护性的。大于30个相邻CGG三联体的节段被认为更倾向于扩增。无AGG的较长节段更倾向于下一代扩增。
虽然是直观地,可能似乎读取必须跨越全部重复序列以确定被测序个体是否具有医学上重要的重复扩增,但是比重复序列短得多的读取可以用于确定是否存在重复扩增。使用本文公开的方法,在存在重复扩增存在的情况下,存在大量读取对,其中一个读取在重复外部的侧翼序列中对齐,以及另一个读取在完全在重复内对齐。这在正常样品中不会出现,或仅在小数目的读取对中出现。另外,极长的重复扩增具有许多多个读取对,其中每个读取几乎完全地由重复单元组成。这些读取以未对齐结束,并且应不应存在于正常样品中。对每种类型的重复序列的期望可以通过检查来自随机组的正常样品的全基因组测序数据定量。
使用上述方法,检查来自分别具有193和645个拷贝的三联体重复的两个脆性X综合征样品的序列数据。如上文所讨论的,正常样品具有约30个重复,并且具有大于60个重复的重复扩增被认为是医学上相关的。鉴定到了与正常样品相比,在脆性X样品中具有大量CGG重复的过量的读取。另外,两个脆性X样品均显示过量的读取对,其具有显示重复的两个读取。下文讨论的图7-13显示针对局部分析和全基因组分析的脆性X样品与正常样品的比较。曼-惠特尼秩检验显示脆性X样品的分布具有比正常样品显著多的重复(p=2x10-7和p=2x10-13)。
在该实施例中,对于每个样品,提取核酸并进行双端测序,随后对齐以鉴定锚读取和锚定的未对齐的读取,锚读取为在FMR1基因的重复序列的1kb内与参考序列对齐的读取,而锚定读取为与不能对齐或对齐较差的与锚读取配对的读取。对于样品中的每个锚读取或锚定读取,计算框内CGG的数目。然后,将样品的框内CGG的数目分布与来自随机选择的对照样品的零分布进行比较以确定是否存在过量的具有许多CGG的读取。由1,013个未受影响的样品计算零分布。
该实施例中的一些分析涉及两个脆性X样品。一个是被标记为NA20239(20+193)的女性样品,指示在一个染色体上20个拷贝的重复长度以及在另一染色体上193个拷贝的重复长度。第二脆性X样品是被标记为NA04025(645)的男性样品,指示在单个X染色体上一个基因拷贝的645个拷贝的重复长度。
图7显示与来自1,013个对照样品的FMR1基因对齐或锚定的双端读取中CGG三联体计数的分布。图7显示不同数目的框内重复的百分数。因为读取长度为100bp,所以读取的最大可能数目的三联体重复是33。如从图7的右手边显而易见,非常少的读取具有30或更多的重复。这可能是由于AGG三联体的保护作用,限制正常样品中可见的最大重复。如以上提及的,在正常样品中,AGG三联体经常被发现散布在CGG重复中,如在序列(CGG)10+(AGG)+(CGG)9中。CGG重复中AGG的存在通过保持序列的稳定性而被认为是保护性的。
图8显示对照样品的曼-惠特尼秩检验的p值的分布。MW秩检验为非参数统计检验,其将个体的重复的秩频率与对照样品的秩频率进行比较,提供p-值指示假阳性调用的概率。该图显示1,013个对照样品中仅3个样品具有p<10-4。因此,使用p-值为10-4的相同分析可能能够鉴定具有FMR1基因的重复扩增的测试样品。
图9显示具有最高的MW检验得分和最低p-值,p=2.7x10-5的样品的重复数目的分布。最高得分样品的分布显示在对照样品的旁边,其中最高得分样品的分布通过阴影柱显示,以及对照样品通过实心黑色柱显示。最高得分样品具有较低的低计数重复的百分数和较高的高计数重复的百分数。然而,其不具有含有超过30个重复的任何读取。这可能是由于重复序列中AGG三联体的存在。
图10显示已知具有FMR1基因的重复扩增和脆性X综合征的女性患者样品NA20239(20+193)的类似数据。患者样品的数据显示在阴影柱中,以及对照的数据显示在实心黑色柱中。样品在两个X染色体中的一个上具有193个拷贝的CGG三联体。如图的右端所示,样品具有大百分数的含有31、32或33个重复的读取。该区域中的过量显然是由于读取完全在具有较少或无中断的扩增的重复序列内。MW检验显示样品的p-值是3.8x10-7。
图11显示在X染色体上具有645个拷贝的CGG三联体的男性脆性X患者样品NA04025(645)的数据。患者样品的数据显示在阴影柱中,以及对照的数据显示在实心黑色柱中。如图的右手边所示,与女性NA20239患者样品相比,该样品具有甚至更大百分数的含有32和33个重复的读取。超过30%的所有读取具有32或33个重复。MW检验显示样品的p-值是2.2x10-13。
使用上述数据分析方法对两个患者样品以及具有边界大数目的重复的其他样品的进一步分析揭示了性别偏差。图12显示了对照样品的曼-惠特尼秩检验的p值的分布,这与图8一样,其中额外指示四个最高得分的女性样品和四个最高得分的男性样品。如箭头显示,所有四个女性样品均具有小于8的-log10(p-值),以及所有四个男性样品均具有大于8的-log10(p-值)。这并不令人惊讶,因为女性样品具有两个拷贝的FMR1基因,其中两个拷贝之一具有小于30的正常数目的重复。该拷贝的正常FMR1基因使女性样品的分布向对照样品的分布偏斜。
使用上述方法,考虑到重复序列的长度、测序深度和双端读取的长度,可以计算部分重复和全部重复的预期数目。表2列出了不同长度的重复序列(以三联体拷贝显示)的部分重复和全部重复的近似的预期数目。具有大量重复拷贝的重复序列是医学上相关的,以及受影响的女性样品(具有两个X染色体)倾向具有一个长重复序列和一个短重复序列。
表2.近似单倍体重复期望值对比三联体长度
*部分/全部重复表明读取部分或完全地在重复内
对长重复序列,如具有100个拷贝的三联体的序列(对应于读取中的30或更多个重复)中的区域设计新的分析。图13显示此类分析确实去除性别偏差。图13显示具有不同数目的高计数读取的样品数目,其中高计数读取为含有多于29个CGG重复的读取。引人注目的是,大多数对照样品具有非常少的高计数读取。更具体地,1,013个对照样品中有828个样品具有0个高计数读取;1,013个对照样品中有85个样品有1个高计数读取;以及33个样品具有2个高计数读取。注意该图中三个最左边的柱缩短了。图12中显示的四个最高得分的女性样品和四个最高得分的男性样品具有最大数目的高计数读取。这些样品通过图右端的阴影柱所示,具有18至30个高计数读取。除了最高得分样品以外的对照样品通过实心灰色柱所示。更重要地,高得分的男性和女性样品在18至30范围内混合。基于对照样品的高计数读取的经验分布和多种三联体拷贝的全部重复的预期数目,可以选择判定标准以区分正常重复序列和具有致病重复扩增的重复序列。例如,60个三联体拷贝对应于12个全部重复。将12用作高计数读取的截止值,可以鉴定出一名男性和一名女性已知患者,以及7个最高得分对照样品。将17个全部重复用作调用标准值,可以排除第7个最高得分样品。可以基于不同考虑,如灵敏度和选择性的需要调整调用标准值。
如表2所示,单倍体重复期望值基于不同的三联体长度而变化。例如,在给定实验条件下,完全在60个三联体的重复序列中的读取的预期数目是12。完全在重复序列中的这些读取构成本文呈现的分析中的高计数读取。如果测试样品具有比该期望值多的高计数读取,以致于样品的高计数读取的数目落在对照样品(它们的重复序列具有60个三联体)的分布之外,则可以推断测试样品具有长于60个三联体的重复序列(即,重复扩增)。因此,基于对照样品的高计数读取的分布,获得调用重复扩增的阈值是可能的。图14显示完全在60个三联体的重复序列内的读取的预期数目的理论模拟分布。x-轴显示的是完全在重复序列中的读取的数目。y-轴指示具有特定数目的读取的样品的百分数。关于读取的数目,左垂直线指示第5个百分位数,以及右垂直线指示第95个百分位数。因此,在完全在重复序列中的读取的数目方面,90%的具有60个三联体重复序列的样品落在两条垂直线之间的范围内。人们可以使用该分布来指定调用重复扩增的置信区间。例如,人们可以将19设置为调用具有多于60个三联体的重复扩增的阈值,并且置信区间将高于95%。
图15显示基于利用与图14相同的实验条件的模拟,完全在具有不同数目的三联体的重复序列中的读取的预期数目的平均值、第5个百分位数和第95个百分位数。图15包含图14的相关数据点并且将其扩展至具有一系列的三联体重复计数的重复序列。x-轴显示的是三联体重复计数的数目。y-轴显示的是完全在重复序列中的读取的数目。平均值以实线显示,以及第5个百分位数和第95个百分位数以平均值侧翼的虚线显示。垂直线指示60个重复三联体计数,对应于图14的重复三联体计数。在一些实施方式中,可以将第95个百分位数值用于调用指定重复计数之上的重复扩增。例如,可以设置完全在重复序列中的约40个读取的标准以调用100个三联体重复序列的扩增。
图16显示与图15相同的模拟数据,同时鉴定具有完全在重复序列中的20个读取的观察结果。该图显示95%的具有61个三联体的重复序列的样品具有小于20个完全在重复序列中的读取。换言之,当20个读取被观察为完全在重复中时,可以调用超过61个三联体重复的具有95%的置信的重复扩增。此外,5%的具有92个三联体的重复序列的样品具有多于20个完全在重复中的读取。
实施例2
确定与ALS相关的重复扩增
该实施例呈现以与实施例1中所述的相同方式分析的肌萎缩侧索硬化症(ALS)患者的数据。在相当百分数的患者中,家族ALS涉及位于9号染色体短臂上开放阅读框72的C9ofr72基因中核苷酸GGGGCC的六核苷酸重复扩增。
图17中涉及的分析与图13中的分析是相当的。图17显示具有不同数目的高计数读取的样品的数目,其中高计数读取为含有多于13个拷贝的六核苷酸GGGGCC的读取。对照样品通过实心灰色柱显示,以及患者样品通过阴影柱显示。大多数对照样品具有非常少的高计数读取。事实上,大于96%的对照样品具有0个高计数读取。注意该图中最左边的柱缩短了。一名家族ALS患者具有24个高计数读取,以及另一名患者(图中未示出)具有35个高计数读取。
本实施例显示可以将本文公开的方法用于有效地检测ALS患者中的重复扩增。
本公开可以在没有背离其精神或或基本特征的情况下体现在其他具体形式中。所述实施方案在所有方面仅被视为示例性而非限制性的。因此,本公开的范围通过所附权利要求而不是前述说明书表明。落入与权利要求书等同的意义和范围内的所有改变包含在其范围内。
Claims (48)
1.确定包含核酸的测试样品中是否存在重复序列的重复扩增的方法,其中所述重复序列包含核苷酸的重复单元的重复,所述方法包括:
(a)获得所述测试样品的双端读取,其中所述双端读取已经被处理以与包含所述重复序列的参考序列对齐,其中所述双端读取包括对齐的读取和未对齐的读取,其中所述对齐的读取与所述参考序列中的特定位置对齐,并且其中所述未对齐的读取包括不能与所述参考序列对齐或与所述参考序列对齐较差的读取;
(b)鉴定所述双端读取中的锚读取和锚定读取,其中鉴定所述锚读取包括鉴定与重复序列对齐或对齐到所述重复序列附近的对齐的读取,并且鉴定所述锚定读取包括鉴定与所述锚读取配对的未对齐的读取;以及
(c)至少部分地基于鉴定的锚定读取,确定所述重复扩增是否存在于所述测试样品中。
2.如权利要求1所述的方法,其中(c)包括基于鉴定的锚读取和鉴定的锚定读取确定所述重复扩增是否存在于所述测试样品中。
3.如权利要求2所述的方法,其中(c)包括基于鉴定的读取中所述重复单元的重复数目确定重复扩增是否存在于所述测试样品中。
4.如权利要求3所述的方法,其中(c)包括:
获得为高计数读取的鉴定的读取的数目,其中所述高计数读取包括具有比阈值多的重复的读取;以及
将所述测试样品中的高计数读取的数目与调用标准进行比较。
5.如权利要求4所述的方法,其中高计数读取的阈值为重复的最大数目的至少80%,该最大数目由双端读取的长度和重复单元的长度计算。
6.如权利要求4所述的方法,其中所述高计数读取的阈值为重复的最大数目的至少90%。
7.如权利要求4所述的方法,其中所述调用标准获自对照样品的高计数读取的分布。
8.如权利要求4所述的方法,其中由所述双端读取的长度、具有所述重复扩增的序列的长度和测序深度计算所述调用标准。
9.如权利要求4所述的方法,其中由所述读取内首次观察到的重复序列与末次观察到的重复序列之间的距离计算所述调用标准。
10.如前述权利要求中任一项所述的方法,其中所述锚读取与所述重复序列对齐或在所述重复序列的5 kb内。
11.如权利要求1-9中任一项所述的方法,其中所述锚读取与所述重复序列对齐或在所述重复序列的1 kb内。
12.如权利要求1-9中任一项所述的方法,其中所述参考序列包括参考基因组。
13.如权利要求1-9中任一项所述的方法,其还包括确定由其获得所述测试样品的个体具有下述之一的升高的风险:脆性X综合征、肌萎缩侧索硬化症(ALS)、亨廷顿病、弗里德赖希共济失调、脊髓小脑性共济失调、脊髓延髓肌肉萎缩症、强直性肌营养不良症、马查多-约瑟夫病或齿状核红核苍白球路易体萎缩症。
14.如权利要求1-9中任一项所述的方法,其中(c)包括将针对所述测试样品鉴定的读取中所述重复单元的重复数目的分布和一个或多个对照样品的重复数目的分布进行比较。
15.如权利要求14所述的方法,其中将所述测试样品的分布与所述对照样品的分布进行比较包括,使用曼-惠特尼秩检验以确定所述测试样品的分布是否在统计学上显著不同于所述对照样品的分布。
16.如权利要求15所述的方法,其还包括如果与所述对照样品相比,所述测试样品的分布更多地向较高的重复数目倾斜则确定所述重复扩增存在于所述测试样品中。
17.如权利要求16所述的方法,其还包括如果与所述对照样品相比,所述测试样品的分布更多地向较高的重复数目倾斜,并且所述曼-惠特尼秩检验的p值小于0.00001,则确定所述重复扩增存在于所述测试样品中。
18.如权利要求3-9中任一项所述的方法,其中所述重复数目为框内重复的数目。
19.如权利要求1-9中任一项所述的方法,其还包括使用测序仪产生来自所述测试样品的双端读取。
20.如权利要求1-9中任一项所述的方法,其还包括从个体提取所述测试样品。
21.如权利要求1-9中任一项所述的方法,其中所述测试样品为血液样品、尿样品、唾液样品或组织样品。
22.如权利要求1-9中任一项所述的方法,其中所述测试样品包括无胎儿和母体细胞的核酸。
23.如权利要求1-9中任一项所述的方法,其中所述重复单元包含2至50个核苷酸。
24.如权利要求1-9中任一项所述的方法,其中所述双端读取短于具有所述重复扩增的重复序列。
25.如权利要求24所述的方法,其中所述双端读取包括20 bp至1000 bp的读取。
26.如权利要求24所述的方法,其中所述双端读取包括50 bp至500 bp的读取。
27.如权利要求24所述的方法,其中所述双端读取包括80 bp至150 bp的读取。
28.如权利要求24所述的方法,其中具有所述重复扩增的序列长于100 bp。
29.如权利要求24所述的方法,其中具有所述重复扩增的序列长于500 bp。
30.如权利要求24所述的方法,其中具有所述重复扩增的序列长于1000 bp。
31.如权利要求1-9中任一项所述的方法,其中所述双端读取获自100-5000 bp的插入物。
32.如权利要求1-9中任一项所述的方法,其中所述双端读取获自100-1000 bp的插入物。
33.如权利要求1-9中任一项所述的方法,其中所述双端读取获自1000-5000 bp的插入物。
34.检测包含核酸的测试样品中的重复扩增的方法,所述方法包括:
(a)获得所述测试样品的双端读取;
(b)将所述双端读取与参考基因组对齐;
(c)从全基因组鉴定未对齐的读取,其中所述未对齐的读取包括不能与参考基因组对齐或与所述参考基因组对齐较差的双端读取对;以及
(d)分析所述未对齐的读取中重复单元的重复数目以确定重复扩增是否存在于所述测试样品中。
35.如权利要求34所述的方法,其中分析所述未对齐的读取中重复单元的重复数目包括:
获得高计数读取的数目,其中所述高计数读取包括具有比阈值多的重复的未对齐的读取;以及
将所述测试样品中的高计数读取的数目与调用标准进行比较。
36.如权利要求35所述的方法,其中高计数读取的阈值为重复的最大数目的至少80%,所述最大数目被计算为所述双端读取的长度与所述重复单元的长度的比值。
37.如权利要求35所述的方法,其中所述高计数读取还包括与所述未对齐的读取配对并且具有比所述阈值多的重复的读取。
38.如权利要求34-37中任一项所述的方法,其还包括在确定所述重复扩增存在于所述测试样品中后,进行额外的分析以确定所述测试样品是否包含感兴趣的特定重复序列的重复扩增。
39.如权利要求38所述的方法,其中所述额外的分析包括使用长于所述双端读取的读取分析所述测试样品。
40.如权利要求39所述的方法,其中所述额外的分析包括使用单分子测序或合成的长读取测序分析所述测试样品。
41.如权利要求38所述的方法,其还包括在进行所述额外的分析之前,
鉴定与所述未对齐的读取配对并且与所述参考基因组上的重复序列对齐或对齐到所述参考基因组上的重复序列附近的双端读取;以及
将所述重复序列提供为所述感兴趣的特定重复序列。
42.检测包含核酸的测试样品中的重复扩增的方法,所述方法包括:
(a)获得所述测试样品的双端读取;
(b)将所述双端读取与参考基因组对齐;
(c)从全基因组鉴定未对齐的读取,其中所述未对齐的读取包括不能与参考基因组对齐或与所述参考基因组对齐较差的双端读取对;以及
(d)分析所述未对齐的读取中重复单元的重复数目以确定重复扩增是否存在于所述测试样品中,
其中所述方法还包括在确定所述重复扩增存在于所述测试样品中后,进行额外的分析以确定所述测试样品是否包含感兴趣的特定重复序列的重复扩增,其中所述额外的分析包括使用权利要求1至33中任一项所述的方法进行的分析。
43.确定包含核酸的测试样品中是否存在重复序列的重复扩增的系统,其中所述重复序列包含重复单元的重复,所述系统包括:
测序仪,其用于对所述测试样品的核酸进行测序;
处理器;以及
一个或多个计算机可读存储介质,其具有在其上存储的用于在所述处理器上执行以通过下述评价所述测试样品中的拷贝数的指令:
(a) 获得所述测试样品的双端读取,其中所述双端读取已经被处理以与包含所述重复序列的参考序列对齐,其中所述双端读取包括对齐的读取和未对齐的读取,其中所述对齐的读取与所述参考序列中的特定位置对齐,并且其中所述未对齐的读取包括不能与所述参考序列对齐或与所述参考序列对齐较差的读取;
(b)鉴定所述双端读取中的锚读取和锚定读取,其中鉴定所述锚读取包括鉴定与所述重复序列对齐或对齐到所述重复序列附近的对齐的读取,并且鉴定所述锚定读取包括鉴定与所述锚读取配对的未对齐的读取;以及
(c)至少部分地基于鉴定的锚定读取确定所述重复扩增是否存在于所述测试样品中。
44.如权利要求43所述的系统,其中(c)包括至少部分地基于鉴定的读取中所述重复单元的重复数目确定所述重复扩增是否存在于所述测试样品中。
45.如权利要求44所述的系统,其中(c)包括:
获得为高计数读取的鉴定的读取的数目,其中所述高计数读取包括具有比阈值多的重复的读取;以及
将所述测试样品中的高计数读取的数目与调用标准进行比较。
46.计算机可读存储介质,其包含存储程序代码的非瞬态机器可读介质,所述程序代码由计算机系统的一个或多个处理器执行时,使计算机系统实施用于鉴定包含核酸的测试样品中的重复序列的重复扩增的方法,其中所述重复序列包含核苷酸的重复单元的重复,所述程序代码包含:
(a)获得已经被处理以与包含所述重复序列的参考序列对齐的所述测试样品的双端读取的代码,其中所述双端读取包括对齐的读取和未对齐的读取,其中所述对齐的读取与所述参考序列中的特定位置对齐,并且其中所述未对齐的读取包括不能与所述参考序列对齐或与所述参考序列对齐较差的读取;
(b)鉴定所述双端读取中锚读取和锚定读取的代码,其中鉴定所述锚读取包括鉴定与所述重复序列对齐或对齐到所述重复序列附近的对齐的读取,并且鉴定所述锚定读取包括鉴定与所述锚读取配对的未对齐的读取;以及
(c)至少部分地基于鉴定的锚定读取确定所述重复扩增是否存在于所述测试样品中的代码。
47.如权利要求46所述的计算机可读存储介质,其中(c)包括用于分析鉴定的读取中所述重复单元的重复数目的代码。
48.如权利要求47所述的计算机可读存储介质,其中(c)包括:
获得为高计数读取的鉴定的读取的数目的代码,其中所述高计数读取包括具有比阈值多的重复的读取;以及
将所述测试样品中的高计数读取的数目与调用标准进行比较的代码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110612189.XA CN113362891A (zh) | 2014-09-12 | 2015-09-11 | 用短读测序数据检测重复扩增 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462049925P | 2014-09-12 | 2014-09-12 | |
US62/049,925 | 2014-09-12 | ||
PCT/EP2015/070902 WO2016038220A1 (en) | 2014-09-12 | 2015-09-11 | Detecting repeat expansions with short read sequencing data |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110612189.XA Division CN113362891A (zh) | 2014-09-12 | 2015-09-11 | 用短读测序数据检测重复扩增 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107077537A CN107077537A (zh) | 2017-08-18 |
CN107077537B true CN107077537B (zh) | 2021-06-22 |
Family
ID=54207462
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580058531.9A Active CN107077537B (zh) | 2014-09-12 | 2015-09-11 | 用短读测序数据检测重复扩增 |
CN202110612189.XA Pending CN113362891A (zh) | 2014-09-12 | 2015-09-11 | 用短读测序数据检测重复扩增 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110612189.XA Pending CN113362891A (zh) | 2014-09-12 | 2015-09-11 | 用短读测序数据检测重复扩增 |
Country Status (11)
Country | Link |
---|---|
US (2) | US10699801B2 (zh) |
EP (2) | EP4092680A1 (zh) |
CN (2) | CN107077537B (zh) |
AU (2) | AU2015314114B2 (zh) |
DK (1) | DK3191993T3 (zh) |
ES (1) | ES2915399T3 (zh) |
HU (1) | HUE058678T2 (zh) |
LT (1) | LT3191993T (zh) |
PL (1) | PL3191993T3 (zh) |
PT (1) | PT3191993T (zh) |
WO (1) | WO2016038220A1 (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9892230B2 (en) | 2012-03-08 | 2018-02-13 | The Chinese University Of Hong Kong | Size-based analysis of fetal or tumor DNA fraction in plasma |
ES2890136T3 (es) | 2014-07-18 | 2022-01-17 | Univ Hong Kong Chinese | Análisis de patrones de metilación de tejidos en una mezcla de ADN |
PL3191993T3 (pl) * | 2014-09-12 | 2022-06-20 | Illumina Cambridge Limited | Wykrywanie ekspansji powtórzeń na podstawie danych sekwencjonowania krótkich odczytów |
US10364467B2 (en) | 2015-01-13 | 2019-07-30 | The Chinese University Of Hong Kong | Using size and number aberrations in plasma DNA for detecting cancer |
US10395759B2 (en) | 2015-05-18 | 2019-08-27 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
CN115273970A (zh) | 2016-02-12 | 2022-11-01 | 瑞泽恩制药公司 | 用于检测异常核型的方法和系统 |
US10508305B2 (en) | 2016-02-28 | 2019-12-17 | Damoun Nashtaali | DNA sequencing and processing |
EP3539039A1 (en) * | 2016-11-10 | 2019-09-18 | Life Technologies Corporation | Methods, systems and computer readable media to correct base calls in repeat regions of nucleic acid sequence reads |
EP3548632A4 (en) | 2016-11-30 | 2020-06-24 | The Chinese University Of Hong Kong | ANALYSIS OF CELLULAR DNA IN URINE AND OTHER SAMPLES |
WO2019028189A2 (en) * | 2017-08-01 | 2019-02-07 | Human Longevity, Inc. | DETERMINING THE STR LENGTH BY SHORT READ SEQUENCING |
CN110366598B (zh) * | 2017-12-29 | 2022-05-10 | 行动基因生技股份有限公司 | 序列比对与突变位点分析的方法及系统 |
GB2611500B (en) | 2018-04-02 | 2023-06-28 | Grail Llc | Methylation markers and targeted methylation probe panels |
AU2019351130A1 (en) | 2018-09-27 | 2021-04-08 | Grail, Llc | Methylation markers and targeted methylation probe panel |
WO2020181254A1 (en) * | 2019-03-07 | 2020-09-10 | Illumina, Inc. | Sequence-graph based tool for determining variation in short tandem repeat regions |
US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
US11347965B2 (en) | 2019-03-21 | 2022-05-31 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
US11593649B2 (en) | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
EP4069864A4 (en) * | 2020-02-05 | 2023-01-25 | The Chinese University Of Hong Kong | MOLECULAR ANALYZES USING LONG CELL-FREE FRAGMENTS IN PREGNANCY |
US11211147B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing |
US11211144B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Methods and systems for refining copy number variation in a liquid biopsy assay |
US11475981B2 (en) | 2020-02-18 | 2022-10-18 | Tempus Labs, Inc. | Methods and systems for dynamic variant thresholding in a liquid biopsy assay |
KR20220143854A (ko) | 2020-02-20 | 2022-10-25 | 일루미나, 인코포레이티드 | 인공 지능 기반 다-대-다 염기 호출 |
US20220336054A1 (en) | 2021-04-15 | 2022-10-20 | Illumina, Inc. | Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures |
US20230207049A1 (en) * | 2021-06-11 | 2023-06-29 | Illumina, Inc. | Determining pathogenic rfc1 expansions from sequencing data |
CN114807331B (zh) * | 2022-05-12 | 2024-06-18 | 中国海洋大学 | 一种短链dna的纳米孔测序方法 |
WO2024073278A1 (en) * | 2022-09-26 | 2024-04-04 | Illumina, Inc. | Detecting and genotyping variable number tandem repeats |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8262900B2 (en) | 2006-12-14 | 2012-09-11 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale FET arrays |
WO2013041577A1 (en) * | 2011-09-20 | 2013-03-28 | Vib Vzw | Methods for the diagnosis of amyotrophic lateral sclerosis and frontotemporal lobar degeneration |
JP5972448B2 (ja) * | 2012-04-05 | 2016-08-17 | ビージーアイ ダイアグノーシス カンパニー リミテッドBgi Diagnosis Co., Ltd. | コピー数変異を検出する方法及びシステム |
CN102766688B (zh) * | 2012-04-17 | 2014-04-02 | 盛司潼 | 一种检测基因序列的方法 |
US9916416B2 (en) * | 2012-10-18 | 2018-03-13 | Virginia Tech Intellectual Properties, Inc. | System and method for genotyping using informed error profiles |
PL3191993T3 (pl) * | 2014-09-12 | 2022-06-20 | Illumina Cambridge Limited | Wykrywanie ekspansji powtórzeń na podstawie danych sekwencjonowania krótkich odczytów |
-
2015
- 2015-09-11 PL PL15771527T patent/PL3191993T3/pl unknown
- 2015-09-11 ES ES15771527T patent/ES2915399T3/es active Active
- 2015-09-11 PT PT157715277T patent/PT3191993T/pt unknown
- 2015-09-11 LT LTEPPCT/EP2015/070902T patent/LT3191993T/lt unknown
- 2015-09-11 EP EP22168725.4A patent/EP4092680A1/en active Pending
- 2015-09-11 EP EP15771527.7A patent/EP3191993B1/en active Active
- 2015-09-11 CN CN201580058531.9A patent/CN107077537B/zh active Active
- 2015-09-11 DK DK15771527.7T patent/DK3191993T3/da active
- 2015-09-11 AU AU2015314114A patent/AU2015314114B2/en active Active
- 2015-09-11 HU HUE15771527A patent/HUE058678T2/hu unknown
- 2015-09-11 CN CN202110612189.XA patent/CN113362891A/zh active Pending
- 2015-09-11 WO PCT/EP2015/070902 patent/WO2016038220A1/en active Application Filing
- 2015-09-11 US US15/510,219 patent/US10699801B2/en active Active
-
2020
- 2020-05-07 US US16/869,455 patent/US20200335178A1/en active Pending
-
2021
- 2021-04-08 AU AU2021202149A patent/AU2021202149B2/en active Active
Non-Patent Citations (1)
Title |
---|
RepeatExplorer_ a Galaxy-based web server for genome-wide characterization of eukaryotic repetitive elements from next-generation sequence reads;Petr Novak 等;《Bioinformation》;20130315;第29卷(第6期);第792-793页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3191993B1 (en) | 2022-04-20 |
EP4092680A1 (en) | 2022-11-23 |
US10699801B2 (en) | 2020-06-30 |
PL3191993T3 (pl) | 2022-06-20 |
AU2021202149B2 (en) | 2023-03-02 |
CN113362891A (zh) | 2021-09-07 |
WO2016038220A1 (en) | 2016-03-17 |
EP3191993A1 (en) | 2017-07-19 |
AU2015314114B2 (en) | 2021-01-21 |
US20170249421A1 (en) | 2017-08-31 |
PT3191993T (pt) | 2022-06-20 |
US20200335178A1 (en) | 2020-10-22 |
DK3191993T3 (da) | 2022-07-25 |
AU2015314114A1 (en) | 2017-03-30 |
LT3191993T (lt) | 2022-05-25 |
CN107077537A (zh) | 2017-08-18 |
HUE058678T2 (hu) | 2022-09-28 |
AU2021202149A1 (en) | 2021-05-06 |
ES2915399T3 (es) | 2022-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021202149B2 (en) | Detecting repeat expansions with short read sequencing data | |
AU2019250200B2 (en) | Error Suppression In Sequenced DNA Fragments Using Redundant Reads With Unique Molecular Indices (UMIs) | |
CN106795558B (zh) | 检测胎儿亚染色体非整倍性和拷贝数变异 | |
AU2023219911A1 (en) | Using cell-free DNA fragment size to detect tumor-associated variant | |
CN112955958A (zh) | 用于确定短串联重复区域中的变化的基于序列图的工具 | |
US20220254442A1 (en) | Methods and systems for visualizing short reads in repetitive regions of the genome |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |