CN108456717A - 检测遗传变异的系统和方法 - Google Patents
检测遗传变异的系统和方法 Download PDFInfo
- Publication number
- CN108456717A CN108456717A CN201810260746.4A CN201810260746A CN108456717A CN 108456717 A CN108456717 A CN 108456717A CN 201810260746 A CN201810260746 A CN 201810260746A CN 108456717 A CN108456717 A CN 108456717A
- Authority
- CN
- China
- Prior art keywords
- sequence
- sequences
- oligonucleotides
- primer
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
Abstract
本发明提供了用于对一个或多个样品中的特定靶序列进行高通量扩增测序的方法、装置和组合物。在一些方面,对条形码标记的多核苷酸进行同时测序,以及基于条形码序列鉴定样品来源。在一些方面,将测序数据用于测定一个或多个包含致病性遗传变体的基因座的一个或多个基因型。在一些方面,提供了检测遗传变异的系统和方法。
Description
本申请是申请日为2013年7月17日,申请号为201380045879.5,发明名称为“检测遗传变异的系统和方法”的中国专利申请的分案申请。
发明背景
下一代测序(NGS)允许小型、廉价的基因组测序,其周转时间以天计算。然而,正如对NGS的一般执行和理解,基因组的所有区域以大致相等的概率被测序,这意味着大量的基因组序列被收集并弃去,以收集来自相对低的百分比的区域的序列信息,在所述区域中功能已被充分了解,足以诠释潜在突变。一般而言,作为与测序分开的步骤,仅从全基因组样品纯化那些人们感兴趣的区域。其在当前技术水平上通常是持续数天的低效方法。
直接靶向测序(DTS)是对一个由Illumina公司采用的标准测序方案的修改,其还允许测序基板(即流动池)成为基因组序列捕获基板。由于不向典型的下一代测序方案的正常流程添加另一个仪器,因此DTS方案修改测序表面以从专门制备的文库捕获gDNA。随后如对正常gDNA文库一样对捕获的文库进行测序。然而,测序基板和根据先前建议的伴随文库制备的修改导致低效率,降低的可靠性和可重复性,并且浪费宝贵的样品。因此期望改进DTS过程。
发明概述
在一个方面,本发明提供了用于对多个靶多核苷酸进行测序的装置和制造装置方法。在一个实施方案中,该方法包括:(a)提供具有反应性表面的固体载体;以及(b)将多个寡核苷酸附接于固体载体。在一些实施方案中,所述多个寡核苷酸包括:(i)多个不同的包含序列A和序列B的第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的第一寡核苷酸是不同的,位于每一个第一寡核苷酸的3'末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的的序列互补;(ii)多个在各自的3'端包含序列A的第二寡核苷酸;和(iii)多个在各自的3'端包含序列C的第三寡核苷酸,其中序列C与由多个不同的靶多核苷酸共享的序列相同。在一些实施方案中,A、B和C是不同的序列,并且各自包含5个或更多个核苷酸。
在一些实施方案中,序列A、B和C彼此具有低于90%的序列同一性。在一些实施方案中,所述多个寡核苷酸包含反应性部分,以便反应性表面与反应性部分之间的反应将所述多个寡核苷酸附接于固体载体。在一些实施方案中,多个第一寡核苷酸包含至少约100个不同的各自包含不同的序列B的第一寡核苷酸。在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B包含选自图4中显示的SEQ ID NO 22-121的序列。在一些实施方案中,固体载体是流动池的通道。在一些实施方案中,反应性表面包含官能化聚丙烯酰胺,其可从包含丙烯酰胺、N-(5-溴乙酰氨基戊基)丙烯酰胺、四甲基乙二胺和过硫酸钾的聚合混合物产生。在一些实施方案中,多个第二寡核苷酸的量比多个第一寡核苷酸的量高至少约1000倍或10000倍;并且多个第二寡核苷酸的量与多个第三寡核苷酸的量以约1:1的比率存在。在一些实施方案中,将第一寡核苷酸的每一个以约50pM的浓度添加至固体载体。在一些实施方案中,多个第二寡核苷酸和多个第三寡核苷酸的浓度为约500nM。在一些实施方案中,本发明提供了对多个靶多核苷酸进行测序的方法,所述方法包括将根据本发明的方法产生的装置暴露于包含靶多核苷酸和非靶多核苷酸的样品,其中相对于非靶基因组序列富集靶基因组序列的测序数据。在一些实施方案中,多个不同的第一寡核苷酸还包括包含序列A和序列B的另外的第一寡核苷酸,其中序列B对于每一个不同的另外的第一寡核苷酸是不同的,位于每一个另外的第一寡核苷酸的3’末端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
在一个方面,本发明提供了用于对样品中的多个靶多核苷酸进行测序的方法。在一个实施方案中,所述方法包括:(a)对靶多核苷酸进行片段化以产生片段化多核苷酸;(b)将衔接头寡核苷酸连接于片段化多核苷酸,每一个衔接头寡核苷酸包含序列D,以产生衔接头连接的多核苷酸,其在所述衔接头连接的多核苷酸的两个末端包含与互补序列D’杂交的序列D,任选地其中序列D’通过靶多核苷酸3’末端的延伸产生;(c)使用包含序列C、序列D和与样品相关的条形码的扩增引物扩增适合的多核苷酸,其中序列D位于扩增引物的3’末端;(d)将经扩增的靶多核苷酸与附接于固体表面的多个不同的第一寡核苷酸杂交;(e)在固体表面上进行桥扩增;和(f)对来自步骤(e)的多个多核苷酸进行测序。固体表面可包含多个本文中描述的寡核苷酸,包括本文中描述的和任选地按照本文中描述的方法产生的装置。在一些实施方案中,固体表面包含(i)多个不同的包含序列A和序列B的第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的寡核苷酸是不同的,位于每一个第一寡核苷酸的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;(ii)多个第二寡核苷酸,所述寡核苷酸在各自的3’末端包含序列A;和(iii)多个第三寡核苷酸,所述寡核苷酸在各自的3’末端包含序列C。在一些实施方案中,序列A、B和C是不同的序列并且各自包含5个或更多个核苷酸。
在一些实施方案中,所述方法还包括在步骤(d)之前包括第二扩增步骤,其中使用第二扩增引物扩增经扩增的多核苷酸,所述引物具有包含与在步骤(c)中添加至靶多核苷酸的一个或多个序列的至少一部分互补的序列的3'末端。在一些实施方案中,序列A、B和C彼此具有小于90%的序列同一性。在一些实施方案中,多个第一寡核苷酸包含至少约100个不同的各自包含不同的序列B的第一寡核苷酸。在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B包含选自SEQ ID NO 22-121的序列,如图4中所示的。在一些实施方案中,每一个条形码与一池两个或更多个样品中的每一个其它条形码在至少3个核苷酸位置上相异。在一些实施方案中,将样品混合,以使所有四个核苷酸碱基A、G、C和T大致均匀地出现在沿着池中的每一个条形码的每一个位置上。在一些实施方案中,一个或多个条形码选自AGGTCA、CAGCAG、ACTGCT、TAACGG、GGATTA、AACCTG、GCCGTT、CGTTGA、GTAACC、CTTAAC、TGCTAA、GATCCG、CCAGGT、TTCAGC、ATGATC和TCGGAT。在一些实施方案中,条形码位于序列C与序列D之间。在一些实施方案中,所述方法还包括基于条形码序列鉴定靶多核苷酸所源自的样品的步骤。在一些实施方案中,片段化多核苷酸具有约200至约1000个碱基对的中值长度。在一些实施方案中,步骤(f)包括(i)通过延伸与位于条形码3’的位置杂交的第一测序引物进行的测序;和随后(ii)通过延伸与位于条形码的5’的位置杂交的第二测序引物进行测序。在一些实施方案中,固体载体为流动池的通道。在一些实施方案中,利用自动化系统例如处理机(例如Biomek FXP)进行步骤(b)和(c)。在一些实施方案中,利用自动化系统例如包含cBot机器的系统进行步骤(d)。在一些实施方案中,进行步骤(d)的自动化系统也进行步骤(e)。在一些实施方案中,产生至少约100个不同的靶多核苷酸的测序数据。在一些实施方案中,步骤(d)在单个流动池中使用至少约10μg DNA。在一些实施方案中,并行地对多个样品进行所述方法。在一些实施方案中,以一式四份对多个样品中的每一个样品进行步骤(c)。在一些实施方案中,在步骤(a)、(b)和(c)的一个或多个步骤完成时测量DNA的量。在一些实施方案中,步骤(a)、(b)和(c)的一个或多个步骤对于在该步骤结束时剩余的以用于下一步骤的DNA的量具有最小阈值,例如分别为1μg、0.8μg、13μg。在一些实施方案中,在单个反应中产生至少约108个靶序列的测序数据。在一些实施方案中,在单个反应中产生少于约107个靶序列的测序数据。在一些实施方案中,测定一个或多个致病性遗传变体的存在或不存在,准确度为至少约90%。在一些实施方案中,多个不同的第一寡核苷酸还包括包含序列A和序列B的另外的第一寡核苷酸,其中序列B对于每一个不同的另外的第一寡核苷酸是不同的,位于在每一个另外的第一寡核苷酸的3'端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
在一个方面,本发明提供了富集样品中的多个不同的靶多核苷酸的方法。在一些实施方案中,该方法包括:(a)将衔接头寡核苷酸联接于每一个靶多核苷酸,其中衔接头寡核苷酸包含序列Y;(b)将多个不同的寡核苷酸引物与衔接头连接的靶多核苷酸杂交,其中每一个寡核苷酸引物包含序列Z和序列W;其中序列Z在所有寡核苷酸引物中是共同的;并且另外地其中序列W对于每一个不同的寡核苷酸引物是不同的,位于每一个寡核苷酸引物的3'末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;(c)在延伸反应中,沿衔接头连接的靶多核苷酸延伸寡核苷酸引物,以产生包含序列Z和序列Y'的延伸的引物,其中序列Y'与序列Y互补;和(d)使用一对扩增引物指数扩增延伸的引物,所述引物对包括:(i)第一扩增引物,其包含序列V和序列Z,其中序列Z位于第一扩增引物的3’末端;和(ii)第二扩增引物,其包含序列X和序列Y,其中序列Y位于第二扩增引物的3'末端。在一些实施方案中,序列W、Y和Z是不同的序列,并且各自包含5个或更多个核苷酸。每一个寡核苷酸引物可包括或可以不包括第一结合伴侣。在一些实施方案中,该方法还包括,在步骤(d)之前,将延伸的引物暴露于包含结合第一结合伴侣的第二结合伴侣的固体表面,由此将延伸的引物从延伸反应的一个或多个组分纯化出来。在一些实施方案中,所述方法不包括纯化步骤。
在一些实施方案中,所述多个寡核苷酸引物包含至少约100个不同的各自包含不同序列W的寡核苷酸引物。在一些实施方案中,所述多个寡核苷酸引物的一个或多个的序列W包含选自SEQ ID NO 22-121的序列,如图4中所示。在一些实施方案中,靶多核苷酸包含片段化的多核苷酸。在一些实施方案中,片段化的多核苷酸具有约200至约1000个碱基对的中值长度。在一些实施方案中,在步骤(a)之前处理片段化的多核苷酸以产生钝端或具有确定的悬突,例如由腺嘌呤组成的悬突。在一些实施方案中,第一结合伴侣和第二结合伴侣是结合对的成员,例如链霉亲和素和生物素。在一些实施方案中,固体表面是珠粒,例如响应于磁场的珠粒。在一些实施方案中,所述纯化步骤包括施加磁场以纯化珠粒。在一些实施方案中,将延伸的引物从靶多核苷酸纯化出来。在一些实施方案中,所述方法还包括对步骤(d)的产物进行测序。在一些实施方案中,测序包括利用附接于固体载体的结合的寡核苷酸,通过桥扩增来扩增步骤(d)的产物,以产生双链桥多核苷酸;在结合的寡核苷酸中的切割位点上切割桥多核苷酸的一条链;使切割的桥多核苷酸变性,以产生包含附接于固体载体的靶序列的游离单链多核苷酸;和通过延伸与在步骤(a)、(c)或(d)的一个或多个步骤过程中添加的一个或多个序列的至少一部分杂交的测序引物来对靶序列进行测序。在一些实施方案中,测序包括通过延伸固定在固体载体上的结合的引物以产生结合的模板来扩增步骤(d)的产物,将测序引物与结合的模板杂交,延伸测序引物,和鉴定通过测序引物的延伸添加的核苷酸。在一些实施方案中,多个不同的寡核苷酸引物还包括另外的寡核苷酸引物,其包含序列Z与序列W,其中序列W对于每一个另外的寡核苷酸引物是不同的,位于每一个另外的寡核苷酸引物的3'末端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
在一个方面,本发明提供了富集样品中的多个不同的靶多核苷酸的方法。在一些实施方案中,所述方法包括:(a)将多个不同的寡核苷酸引物与靶多核苷酸杂交,其中每一个寡核苷酸引物包含序列Z和序列W;其中序列Z在所有寡核苷酸引物中是共同的;并且另外地其中序列W对于每一个不同的寡核苷酸引物是不同的,位于每一个寡核苷酸引物的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;(b)在延伸反应中,沿着靶多核苷酸延伸寡核苷酸引物以产生延伸的引物;(c)将衔接头寡核苷酸连接于每一个延伸的引物,其中衔接头寡核苷酸包含序列Y’,并且另外地其中序列Y’为序列Y的互补序列;和(d)使用一对扩增引物指数扩增延伸的引物,所述引物对包含(i)第一扩增引物,其包含序列V和序列Z,其中序列Z位于第一扩增引物的3’末端;和(ii)第二扩增引物,其包含序列X和序列Y,其中序列Y位于第二扩增引物的3’末端。在一些实施方案中,序列W、Y和Z是不同的序列,并且各自包含5个或更多个核苷酸。每一个寡核苷酸引物可包含或可以不包含第一结合伴侣。在一些实施方案中,所述方法在步骤(d)之前还包括将延伸的引物暴露于固体表面(其包含结合第一结合伴侣的第二结合伴侣),由此将延伸的引物从延伸反应的一个或多个组分纯化出来。在一些实施方案中,所述方法不包括纯化步骤。
在一些实施方案中,所述多个寡核苷酸引物包括至少约100个不同的各自包含不同的序列W的寡核苷酸引物。在一些实施方案中,所述多个寡核苷酸引物的一个或多个的序列W包含选自SEQ ID NO 22-121的序列,如图4中显示的。在一些实施方案中,靶多核苷酸包含片段化多核苷酸。在一些实施方案中,片段化多核苷酸具有约200至约1000个碱基对的中值长度。在一些实施方案中,步骤(b)还在步骤(c)之前包括处理延伸的引物和与它们杂交的靶多核苷酸以产生钝端或具有确定的悬突,例如由腺嘌呤组成的悬突。在一些实施方案中,第一结合伴侣和第二结合伴侣为结合对的成员,例如链霉亲和素和生物素。在一些实施方案中,固体表面是珠粒,例如响应于磁场的珠粒。在一些实施方案中,纯化步骤包括施加磁场以纯化珠粒。在一些实施方案中,将延伸的引物从靶多核苷酸纯化出来。在一些实施方案中,所述方法还包括对步骤(d)的产物进行测序。在一些实施方案中,测序包括利用附接至固体载体的结合的寡核苷酸,通过桥扩增来扩增步骤(d)的产物,以产生双链桥多核苷酸,在结合的寡核苷酸中的切割位点上切割桥多核苷酸的一条链,使切割的桥多核苷酸变性以产生附接于固体载体的包含靶序列的游离单链多核苷酸,和通过延伸与在步骤(b)、(c)或(d)的一个或多个步骤过程中添加的一个或多个序列的至少一部分杂交的测序引物来对靶序列进行测序。在一些实施方案中,测序包括通过延伸固体载体上的结合的引物扩增步骤(d)的产物以产生结合的模板,将测序引物与结合的模板杂交,延伸测序引物,和鉴定通过延伸测序引物添加的核苷酸。在一些实施方案中,多个不同的寡核苷酸引物还包括另外的包含序列Z和序列W的寡核苷酸引物,其中序列W对于每一个不同的另外的寡核苷酸引物是不同的,位于每一个另外的寡核苷酸引物的3’末端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
在一个方面,本发明提供了检测受试者的基因组的遗传变异的方法。在一些实施方案中,所述方法包括:(a)提供多个簇的多核苷酸,其中(i)每一个簇包含多个拷贝的附接于载体的核酸双链体;(ii)簇中的每一个双链体包含从5’至3’包含序列A-B-G’-D’-C’的第一分子和从5’至3’包含序列C-D-G-B’-A’的第二分子;(iii)序列A’与序列A互补,序列B’与序列B互补,序列C’与序列C互补,序列D’与序列D互补,以及序列G’与序列G互补;(iv)序列G为来自受试者的靶多核苷酸序列的一部分,并且对于多个簇的每一个是不同的;和(v)序列B’在对应的靶多核苷酸序列中相对于序列G位于5’;(b)通过延伸包含序列D的第一引物对序列G’进行测序,以产生每一个簇的R1序列;(c)通过延伸包含序列A的第二引物以产生每一个簇的R2序列来对序列B’进行测序;(d)使用第一算法将所有R1序列与第一参考序列比对来进行第一比对;(e)使用第二算法局部比对在所述第一比对中被鉴定为相对于第一参考序列可能包含插入或缺失的R1序列来进行第二比对,以产生针对每一个插入或缺失的单个共有序列比对;(f)通过将所有R2序列与第二参考序列比对来进行R2比对;和(g)将鉴定通过步骤(d)至(f)鉴定的序列变异的报告传送给接收者。
在一些实施方案中,第一参考序列包括参考基因组。在一些实施方案中,第二参考序列由每一个不同的靶多核苷酸的每一个序列B组成。在一些实施方案中,将R2序列独立于R1序列进行比对。在一些实施方案中,所述方法还包括弃去与第一参考序列中的第一位置比对的R1序列,所述第一位置距离相同簇的R2序列与其比对的第一参考序列中的第二位置超过10,000个碱基对。在一些实施方案中,所述方法还包括当要删除的R1序列的部分与簇的序列B’的至少一部分相同并且序列G比该簇的R1序列短时,删除该簇的R1序列的一部分。在一些实施方案中,所述方法还包括当要删除的R1序列的部分与任何序列B’的至少一部分相同时,删除该簇的R1序列的一部分时,所述部分包括R1的5'或3'核苷酸,并且(i)未产生簇的R2序列或(ii)产生的R2序列与任何序列B不相同。在一些实施方案中,相较于当系统使用第二算法进行第一比对时花费的时间和/或使用的系统内存,使用第一算法进行与系统的第一比对花费更少的时间和/或使用更少的系统内存来比对所有R1读数。在一些实施方案中,第一算法基于Burrows-Wheeler转化。在一些实施方案中,第二算法基于Smith-Waterman算法或哈希函数。在一些实施方案中,产生至少100个不同靶多核苷酸的R1和R2序列。在一些实施方案中,序列A、B、C和D的长度为至少5个核苷酸。在一些实施方案中,每一个簇的序列G的长度为1至1000个核苷酸。在一些实施方案中,多个簇的每一个探针序列B与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补。在一些实施方案中,一个或多个簇的序列B包含选自SEQ ID NO:22-121的序列。在一些实施方案中,在单个反应中产生至少约108个簇的R1序列。在一些实施方案中,测定一个或多个致病性遗传变体的存在、不存在或等位基因比率,精确度为至少约90%。在一些实施方案中,共有序列鉴定靶多核苷酸中的插入、缺失或插入和缺失,精确度为至少约90%。在一些实施方案中,多个簇的每一个探针序列B与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。在一些实施方案中,测定一个或多个非主题序列的存在或不存在,精确度为至少约90%。在一些实施方案中,所述方法还包括基于受试者的R1序列计算多个概率并将所述概率包含在报告中,其中每一个概率为受试者或受试者的后代患有或患上疾病或性状的概率。
在一些实施方案中,每一个第一分子包含条形码序列。在一些实施方案中,每一个条形码不同于并行分析的多个不同的条形码中的每一个其它的条形码。在一些实施方案中,条形码序列与在单个反应中测序的一池样品中的单个样品相关。在一些实施方案中,多个条形码序列的每一个与在单个反应中测序的一池样品中的单个样品独特地相关。在一些实施方案中,条形码序列位于序列D’的5’。在一些实施方案中,所述方法还包括将第三引物与序列C’杂交并通过延伸第三引物对条形码序列进行测序,以产生每一个簇的条形码序列。在一些实施方案中,所述方法还包括基于条形码序列将来自簇的序列分组。在一些实施方案中,所述方法还包括除了在条形码序列分组内具有相同序列和比对的多个R1序列的一个外弃去所有其余R1序列。
在一个方面,本发明提供了检测受试者的基因组的遗传变异的方法。在一些实施方案中,所述方法包括:(a)提供多个簇的多核苷酸的测序数据,其中(i)每一个簇包含多个拷贝的附接于载体的核酸双链体;(ii)簇中的每一个双链体包含从5’至3’包含序列A-B-G’-D’-C’的第一分子和从5’至3’包含序列C-D-G-B’-A’的第二分子;(iii)序列A’与序列A互补,序列B’与序列B互补,序列C’与序列C互补,序列D’与序列D互补,以及序列G’与序列G互补;(iv)序列G为来自受试者的靶多核苷酸序列的一部分并且对于多个簇的每一个是不同的;(v)序列B’在对应的靶多核苷酸序列中相对于序列G位于5’;(viii)测序数据包含通过延伸包含序列D的第一引物产生的R1序列;和(vi)测序数据包含通过延伸包含序列A的第二引物产生的R2序列;(b)使用第一算法将所有R1序列与第一参考序列比对来进行第一比对;(c)使用第二算法局部比对在所述第一比对中被鉴定为相对于第一参考序列可能包含插入或缺失的R1序列来进行第二比对,以产生针对每一个插入或缺失的单个共有序列比对;(d)通过将所有R2序列与第二参考序列比对来进行R2比对;和(e)将鉴定通过步骤(b)至(d)鉴定的序列变异的报告提交给接收者。
在一些实施方案中,第一参考序列包括参考基因组。在一些实施方案中,第二参考序列由每一个不同的靶多核苷酸的每一个序列B组成。在一些实施方案中,将R2序列独立于R1序列比对。在一些实施方案中,所述方法还包括弃去与第一参考序列中的第一位置比对的R1序列,所述第一位置距离相同簇的R2序列与其比对的第一参考序列中的第二位置超过10,000个碱基对。在一些实施方案中,所述方法还包括当要删除的R1序列的部分与该簇的序列B’的至少一部分相同并且序列G比该簇的R1序列短时,删除该簇的R1序列的一部分。在一些实施方案中,所述方法还包括当要删除的R1序列的部分与任何序列B’的至少一部分相同时,删除该簇的R1序列的一部分,所述部分包括R1的5’或3’核苷酸,并且(i)未产生簇的R2序列或(ii)产生的R2序列与任何序列B不同。在一些实施方案中,相较于当系统使用第二算法来进行第一比对时花费的时间和/或使用的系统内存,利用使用第一算法的系统进行第一比对花费更少的时间和/或使用更少的系统内存来比对所有R1读数。在一些实施方案中,第一算法基于Burrows-Wheeler转化。在一些实施方案中,第二算法基于Smith-Waterman算法或哈希函数。在一些实施方案中,测序数据包含至少100个不同的靶多核苷酸的R1和R2序列。在一些实施方案中,序列A、B、C和D的长度为至少5个核苷酸。在一些实施方案中,每一个簇的序列G的长度为1至1000个核苷酸。在一些实施方案中,多个簇的每一个探针序列B与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补。在一些实施方案中,一个或多个簇的序列B包含选自SEQ ID NO:22-121的序列。在一些实施方案中,测序数据包含至少约108个来自单个反应的R1序列。在一些实施方案中,测定一个或多个致病性遗传变体的存在、不存在或等位基因比率,准确度为至少约90%。在一些实施方案中,共有序列鉴定了靶多核苷酸的插入、缺失或插入和缺失,准确率为至少约90%。在一些实施方案中,多个簇的每一个探针序列B与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。在一些实施方案中,测定一个或多个非主题序列的存在或不存在,准确率为至少约90%。在一些实施方案中,所述方法还包括基于受试者的R1序列计算多个概率并将概率包含在报告中,其中每一个概率是受试者或受试者的后代患有或患上疾病或性状的概率。
在一些实施方案中,每一个第一分子包含条形码序列。在一些实施方案中,每一个条形码与并行分析的多个不同的条形码中的每一个其它条形码不同。在一些实施方案中,条形码序列与在单个反应中测序的一池样品中的单个样品相关并且显示于测序数据中。在一些实施方案中,多个条形码序列的每一个独特地与在单个反应中测序的一池样品中的单个样品相关。在一些实施方案中,条形码序列位于序列D’的5’。在一些实施方案中,测序数据还包含通过延伸包含序列C的第三引物产生的每一个簇的条形码序列。在一些实施方案中,所述方法还包括基于条形码序列将来自簇的序列分组。在一些实施方案中,所述方法还包括除在条形码序列分组内具有相同序列和比对的多个R1序列的一个外弃去所有其余R1序列。
本发明包括以下技术方案:
1.一种产生用于对多个靶多核苷酸进行测序的装置的方法,所述方法包括:
(a)提供具有反应性表面的固体载体;和
(b)将多个寡核苷酸附接于固体载体;其中所述多个寡核苷酸包含
(i)多个不同的第一寡核苷酸,其包含序列A和序列B,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的第一寡核苷酸是不同的,位于每一个第一寡核苷酸的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;
(ii)多个第二寡核苷酸,其在各自的3’末端包含序列A;和
(iii)多个第三寡核苷酸,其在各自的3’末端包含序列C,其中序列C与由多个不同的靶多核苷酸共享的序列相同;
其中序列A、B和C是不同的序列并且各自包含5个或更多个核苷酸。
2.根据项1所述的方法,其中序列A、B和C彼此具有低于90%的序列同一性。
3.根据项1所述的方法,其中所述多个寡核苷酸包含反应性部分,以便所述反应性表面与所述反应性部分之间的反应将所述多个寡核苷酸附接于所述固体载体。
4.根据项1所述的方法,其中所述多个第一寡核苷酸包含至少约100个不同的各自包含不同序列B的第一寡核苷酸。
5.根据项1所述的方法,其中所述固体载体是流动池的通道。
6.根据项1所述的方法,其中所述多个第二寡核苷酸的量比所述多个第一寡核苷酸的量高至少约1,000倍;并且所述多个第二寡核苷酸的量和所述多个第三寡核苷酸的量以约1:1的比率存在。
7.根据项6所述的方法,其中所述多个第二寡核苷酸的量比所述多个第一寡核苷酸的量高至少约10,000倍。
8.根据项1所述的方法,其中所述多个不同的第一寡核苷酸还包含另外的包含序列A和序列B的第一寡核苷酸,其中所述序列B对于每一个不同的另外的第一寡核苷酸是不同的,位于每一个另外的第一寡核苷酸的3’末端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
9.一种对多个靶多核苷酸进行测序的方法,其包括将根据项1所述的方法产生的装置暴露于包含靶多核苷酸和非靶多核苷酸的样品,其中相对于非靶基因组序列富集靶基因组序列的测序数据。
10.一种用于对样品中多个不同的靶多核苷酸进行测序的方法,所述方法包括:
(a)将所述靶多核苷酸片段化以产生片段化多核苷酸;
(b)将衔接头寡核苷酸联接于所述片段化多核苷酸,每一个衔接头寡核苷酸包含序列D,以产生衔接头连接的多核苷酸,其在所述衔接头连接的多核苷酸的两个末端包含与互补序列D’杂交的序列D,任选地其中序列D’通过靶多核苷酸3’末端的延伸产生;
(c)使用包含序列C、序列D和与样品相关的条形码的扩增引物扩增所述衔接头连接的多核苷酸,其中所述序列D位于扩增引物的3’末端;
(d)将经扩增的靶多核苷酸与附接于固体表面的多个不同的第一寡核苷酸杂交;
(e)在固体载体上进行桥扩增,所述固体载体包含
(i)多个不同的包含序列A和序列B的第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的第一寡核苷酸是不同的,位于每一个第一寡核苷酸的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;
(ii)多个第二寡核苷酸,其在各自的3’末端包含序列A;和
(iii)多个第三寡核苷酸,其在各自的3’末端包含序列C;其中序列A、B和C是不同的序列并且各自包含5个或更多个核苷酸;和
(f)对来自步骤(e)的多个核苷酸进行测序。
11.根据项10所述的方法,其还包括在步骤(d)之前包括第二扩增步骤,其中使用第二扩增引物扩增经扩增的多核苷酸,所述引物具有包含与在步骤(c)中添加至靶多核苷酸的一个或多个序列的至少一部分互补的序列的3'末端。
12.根据项10所述的方法,其中序列A、B和C彼此具有小于90%的序列同一性。
13.根据项10所述的方法,其中所述多个第一寡核苷酸包含至少约100个不同的各自包含不同的序列B的第一寡核苷酸。
14.根据项10所述的方法,其中所述每一个条形码与一池两个或更多个样品中的每一个其它条形码在至少3个核苷酸位置上相异。
15.根据项10所述的方法,其中所述条形码位于序列C与序列D之间。
16.根据项10所述的方法,其还包括基于条形码序列鉴定靶多核苷酸所源自的样品的步骤。
17.根据项10所述的方法,其中所述片段化多核苷酸具有约200至约1000个碱基对的中值长度。
18.根据项10所述的方法,其中步骤(f)包括(i)通过延伸与位于条形码5’的序列杂交的第一测序引物进行的测序;和随后(ii)通过延伸与位于条形码的3’的序列杂交的第二测序引物进行的测序。
19.根据项10所述的方法,其中所述固体载体为流动池的通道。
20.根据项10所述的方法,其中利用自动化系统进行步骤(b)和(c)。
21.根据项10所述的方法,其中利用自动化系统进行步骤(d)。
22.根据项21所述的方法,其中所述自动化系统也进行步骤(e)。
23.根据项10所述的方法,其中产生至少约100个不同的靶多核苷酸的测序数据。
24.根据项10所述的方法,其中步骤(d)在单个流动池中使用至少约10μg DNA。
25.根据项10所述的方法,其中在单个反应中产生至少约108个靶序列的测序数据。
26.根据项10所述的方法,其中在单个反应中产生少于约107个靶序列的测序数据。
27.根据项10所述的方法,其中测定一个或多个致病性遗传变体的存在或不存在,准确度为至少约90%。
28.根据项10所述的方法,其中所述多个不同的第一寡核苷酸还包括包含序列A和序列B的另外的第一寡核苷酸,其中序列B对于每一个不同的另外的第一寡核苷酸是不同的,位于在每一个另外的第一寡核苷酸的3'端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
29一种富集样品中的多个不同的靶多核苷酸的方法,所述方法包括:
(a)将衔接头寡核苷酸联接于每一个靶多核苷酸,其中所述衔接头寡核苷酸包含序列Y;
(b)将多个不同的寡核苷酸引物与衔接头连接的靶多核苷酸杂交,其中每一个寡核苷酸引物包含序列Z和序列W;其中序列Z在所有寡核苷酸引物中是共同的;并且另外地其中序列W对于每一个不同的寡核苷酸引物是不同的,位于每一个寡核苷酸引物的3'末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;
(c)在延伸反应中,沿所述衔接头连接的靶多核苷酸延伸所述寡核苷酸引物,以产生包含序列Z和序列Y'的延伸的引物,其中序列Y'与序列Y互补;和
(d)使用一对扩增引物指数扩增延伸的引物,所述引物对包括:(i)第一扩增引物,其包含序列V和序列Z,其中序列Z位于所述第一扩增引物的3’末端;和(ii)第二扩增引物,其包含序列X和序列Y,其中序列Y位于所述第二扩增引物的3'末端;
其中序列W、Y和Z是不同的序列,并且各自包含5个或更多个核苷酸。
30.根据项29所述的方法,其中所述靶多核苷酸包含所述片段化多核苷酸。
31.根据项30所述的方法,其中在步骤(a)之前处理片段化多核苷酸以产生钝端或以具有确定的悬突。
32.根据项29所述的方法,其还包括对步骤(d)的产物进行测序。
33.根据项32所述的方法,其中所述测序包括利用附接至固体载体的结合的寡核苷酸,通过桥扩增来扩增步骤(d)的产物,以产生双链桥多核苷酸,在结合的寡核苷酸中的切割位点上切割桥多核苷酸的一条链;使所述切割的桥多核苷酸变性以产生附接于固体载体的包含靶序列的游离单链多核苷酸;和通过延伸与在步骤(a)、(c)或(d)的一个或多个步骤过程中添加的一个或多个序列的至少一部分杂交的测序引物来对所述靶序列进行测序。
34.根据项32所述的方法,其中所述测序包括通过延伸固体载体上的结合的引物扩增步骤(d)的产物以产生结合的模板,将测序引物与结合的模板杂交,延伸测序引物,和鉴定通过延伸测序引物添加的核苷酸。
35.一种富集样品中的多个不同靶多核苷酸的方法,所述方法包括:
(a)将多个不同的寡核苷酸引物与所述靶多核苷酸杂交,其中每一个寡核苷酸引物包含序列Z和序列W;其中序列Z在所有寡核苷酸引物中是共同的;并且另外地其中序列W对于每一个不同的寡核苷酸引物是不同的,位于每一个寡核苷酸引物的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;
(b)在延伸反应中,沿着所述靶多核苷酸延伸所述寡核苷酸引物以产生延伸的引物;
(c)将所述衔接头寡核苷酸联接于每一个延伸的引物,其中所述衔接头寡核苷酸包含序列Y’,并且另外地其中序列Y’与序列Y互补;和
(d)使用一对扩增引物指数扩增所述延伸的引物,所述扩增引物包含(i)第一扩增引物,其包含序列V和序列Z,其中序列Z位于所述第一扩增引物的3’末端;和(ii)第二扩增引物,其包含序列X和序列Y,其中序列Y位于第二扩增引物的3’末端;
其中序列W、Y和Z是不同的序列并且各自包含5或更多个核苷酸。
36.根据项29或35所述的方法,其中所述每一个寡核苷酸引物包含第一结合伴侣。
37.根据项36所述的方法,其中所述方法还包括在步骤(d)之前,将延伸的引物暴露于包含结合第一结合伴侣的第二结合伴侣的固体表面,从而将所述延伸的引物从延伸反应的一个或多个组分纯化出来。
38.根据项29或35所述的方法,其中所述多个寡核苷酸引物包含至少约100个不同的各自包含不同的序列W的寡核苷酸引物。
39.根据项35所述的方法,其中所述靶多核苷酸包含所述片段化多核苷酸。
40.根据项30或39所述的方法,其中所述片段化多核苷酸具有200至1000个碱基对的中值长度。
41.根据项35所述的方法,其中步骤(b)还在步骤(c)之前包括处理延伸的引物和与它们杂交的靶多核苷酸以产生钝端或以具有确定的悬突。
42.根据项37所述的方法,其中所述第一结合伴侣和所述第二结合伴侣是结合对的成员。
43.根据项37所述的方法,其中所述固体是珠粒。
44.根据项35所述的方法,其还包括对步骤(d)的产物进行测序。
45.根据项44所述的方法,其中所述测序包括用附接至固体载体的结合的寡核苷酸,通过桥扩增来扩增步骤(d)的产物,以产生双链桥多核苷酸;在结合的寡核苷酸中的切割位点上切割桥多核苷酸的一条链;使所述切割的桥多核苷酸变性以产生附接于固体载体的包含靶序列的游离单链多核苷酸;和通过延伸与在步骤(b)、(c)或(d)的一个或多个中添加的一个或多个序列的至少一部分杂交的测序引物来对所述靶序列进行测序。
46.根据项44所述的方法,其中所述测序包括通过延伸固体载体上的结合的引物扩增步骤(d)的产物以产生结合的模板,将测序引物与结合的模板杂交,延伸所述测序引物,和鉴定通过延伸测序引物添加的核苷酸。
47.根据项29或35所述的方法,其中所述多个不同的寡核苷酸引物还包括另外的包含序列Z和序列W的寡核苷酸引物,其中序列W对于每一个不同的另外的寡核苷酸引物是不同的,位于每一个另外的寡核苷酸引物的3’末端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
48.一种检测受试者的基因组的遗传变异的方法,其包括:
(a)提供多个簇的多核苷酸,其中(i)每一个簇包含多个拷贝的附接于载体的核酸双链体;(ii)簇中的每一个双链体包含从5’至3’包含序列A-B-G’-D’-C’的第一分子和从5’至3’包含序列C-D-G-B’-A’的第二分子;(iii)序列A’与序列A互补,序列B’与序列B互补,序列C’与序列C互补,序列D’与序列D互补,以及序列G’与序列G互补;(iv)序列G为来自受试者的靶多核苷酸序列的一部分,并且对于多个簇的每一个是不同的;和(v)序列B’在对应的靶多核苷酸序列中相对于序列G位于5’;
(b)通过延伸包含序列D的第一引物来对序列G’进行测序,以产生每一个簇的R1序列;
(c)通过延伸包含序列A的第二引物以产生每一个簇的R2序列来对序列B’进行测序;
(d)使用第一算法将所有R1序列与第一参考序列比对来进行第一比对;
(e)使用第二算法局部比对在所述第一比对中被鉴定为相对于第一参考序列可能包含插入或缺失的R1序列来进行第二比对,以产生针对每一个插入或缺失的单个共有序列比对;
(f)通过将所有R2序列与第二参考序列比对来进行R2比对;和
(g)将鉴定通过步骤(d)至(f)鉴定的序列变异的报告传送给接收者。
49.根据项48所述的方法,其中产生至少100个不同的靶多核苷酸的R1和R2序列。
50.根据项48所述的方法,其中每一个第一分子包含条形码序列。
51.根据项50所述的方法,其中所述条形码序列与在单个反应中测序的一池样品中的单个样品相关。
52.根据项50所述的方法,其还包括将第三引物与序列C’杂交并通过延伸第三引物以产生每一个簇的条形码序列,来对条形码序列进行测序。
53.根据项48所述的方法,其中在单个反应中产生至少约108个簇的R1序列。
54.根据项48所述的方法,其中测定一个或多个非主题序列的存在或不存在,准确性为至少约90%。
55.一种检测受试者的基因组的遗传变异的方法,其包括:
(a)提供多个簇的多核苷酸的测序数据,其中(i)每一个簇包含多个拷贝的连接于载体的核酸双链体;(ii)簇中的每一个双链体包含从5’至3’包含序列A-B-G’-D’-C’的第一分子和从5’至3’包含序列C-D-G-B’-A’的第二分子;(iii)序列A’与序列A互补,序列B’与序列B互补,序列C’与序列C互补,序列D’与序列D互补,以及序列G’与序列G互补;(iv)序列G为来自受试者的靶多核苷酸序列的一部分并且对于多个簇的每一个是不同的;(v)序列B’在对应的靶多核苷酸序列中相对于序列G位于5’;(viii)测序数据包含通过延伸包含序列D的第一引物产生的R1序列;和(vi)测序数据包含通过延伸包含序列A的第二引物产生的R2序列;
(b)使用第一算法将所有R1序列与第一参考序列来进行第一比对;
(c)使用第二算法局部比对在所述第一比对中被鉴定为相对于第一参考序列可能包含插入或缺失的R1序列来进行第二比对,以产生针对每一个插入或缺失的单个共有序列比对;
(d)通过将所有R2序列与第二参考序列比对来进行R2比对;和
(e)将鉴定通过步骤(b)至(d)鉴定的序列变异的报告传送给接收者。
56.根据项48或55所述的方法,其中所述第一参考序列包含参考基因组。
57.根据项48或55所述的方法,其中所述第二参考序列由每一个不同的靶多核苷酸的每一个序列B组成。
58.根据项48或55所述的方法,其中将R2序列独立于R1序列比对。
59.根据项48或55所述的方法,其还包括弃去与第一参考序列中的第一位置比对的R1序列,所述第一位置距离相同簇的R2序列与其比对的第一参考序列中的第二位置超过10,000个碱基对。
60.根据项48或55所述的方法,其还包括当要删除的R1序列的部分与簇的序列B’的至少一部分相同并且序列G比所述簇的R1序列短时,删除所述簇的R1序列的一部分。
61.根据项48或55所述的方法,其还包括当要删除的R1序列的部分与任何序列B’的至少一部分相同时,删除所述簇的R1序列的一部分,所述部分包括R1的5’或3’核苷酸,并且(i)未产生所述簇的R2序列或(ii)产生的R2序列与任何序列B不同。
62.根据项48或55所述的方法,其中所述第一算法基于Burrows-Wheeler转化。
63.根据项48或55所述的方法,其中所述第二算法基于Smith-Waterman算法或哈希函数。
64.根据项55所述的方法,其中所述测序数据包含至少100个不同的靶多核苷酸的R1和R2序列。
65.根据项55所述的方法,其中每一个第一分子包含条形码序列。
66.根据项50或65所述的方法,其中所述每一个条形码与并行分析的多个不同的条形码中的每一个其它条形码不同。
67.根据项65所述的方法,其中所述条形码序列与在单个反应中进行测序的一池样品中的单个样品相关并且显示于测序数据中。
68.根据项50或65所述的方法,其中所述多个条形码序列的每一个唯一地与在单个反应中测序的一池样品中的单个样品相关。
69.根据项50或65所述的方法,其中所述条形码序列位于序列D’的5’。
70.根据项65所述的方法,其中所述测序数据还包含通过包含序列C的第三引物的延伸产生的每一个簇的条形码序列。
71.根据项52或70所述的方法,其还包括基于条形码序列将来自所述簇的序列分组。
72.根据项71所述的方法,其还包括除在条形码序列分组内具有相同序列和比对的多个R1序列的一个外弃去所有其余R1序列。
73.根据项48或55所述的方法,其中多个簇的每一个探针序列B与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补。
74.根据项55所述的方法,其中所述测序数据包含至少约108个来自单个反应的R1序列。
75.根据项48或55所述的方法,其中测定一个或多个致病性遗传变体的存在、不存在或等位基因比率,准确性为至少约90%。
76.根据项48或55所述的方法,其中所述共有序列鉴定靶多核苷酸中的插入、缺失或插入和缺失,准确性为至少约90%。
77.根据项48或55所述的方法,其中多个簇的每一个探针序列B与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
78.根据项55所述的方法,其中测定一个或多个非主题序列的存在或不存在,准确性为至少约90%。
79.根据项48或55所述的方法,其还包括基于受试者的R1序列计算多个概率并将所述概率包含在报告中,其中每一个概率为患有或发展疾病或性状的受试者或受试者的后代的概率。
通过引用并入
在本说明书中提及的所有出版物、专利和专利申请在此通过引用并入,其程度就如同每个单独的出版物、专利或专利申请被特别地和单独地指出通过引用并入本文。
附图简述
本发明的创新特性特别地示于所附权利要求中。本发明的特性和优势方面的更好理解将通过参考列出说明性实施方案的下列详细说明及其附图获得,于示例性实施方案中使用本发明的原理,在附图中:
图1举例说明包含附接的寡核苷酸的示例性固体载体的一部分,和扩增靶多核苷酸的示例性桥扩增法中的第一步骤。
图2举例说明根据本发明的实施方案的示例性捕获和扩增法。
图3提供了示例性致病性遗传变体的表。
图4提供了与示例性特定靶序列互补的示例性序列的表。
图5举例说明根据本发明的实施方案的示例性扩增过程。
图6举例说明靶扩增、桥扩增和测序的示例性过程。
图7举例说明根据本发明的实施方案的示例性扩增过程。
图8举例说明用于本发明的方法的计算机系统的非限制性实例。
图9提供了区分不同群体的许多AIM。条目是指dbSNP数据库(美国政府维持的遗传变体的数据库:www.ncbi.nlm.nih.gov/projects/SNP/)中的项。dbSNP中的策划记录包含描述遗传变体的序列和位置以及何处可获得这些变异体的等位基因在不同群体中的频率的信息。rs编号(例如,rs332、rs25等)为用于索引dbSNP数据库的部分的ID编号。
图10举例说明用于比对测序数据的示例性数据处理过程。
图11举例说明用于使用测序数据产生比对的示例性过程。
图12A和12B举例说明在示例性比对过程中在fix_align步骤之前和之后的比对。
图13A和13B举例说明示例性局部比对步骤之前和之后的比对。
图14-17显示递送用户是罕见遗传病的携带者的概率的示例性过程。
图18举例说明用于两个假设亲本:鸡妈妈(Jane Doe)和鸡爸爸(John Doe)的报告产生的示例性输入和输出步骤。
图19举例说明样品探针设计过程的步骤中考虑的序列区域的位置关系。
发明详述
术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”和“寡核苷酸”可互换使用。它们是指具体任意长度的核苷酸(脱氧核糖核苷酸或核糖核苷酸或其类似物)的聚合体形式。多核苷酸可具有任何三维结构,并且可进行任何功能(已知的或未知的)。下列为多核苷酸的非限制性实例:基因或基因片段的编码或非编码区、基因组DNA、从连接分析定义的基因座(基因座)、外显子、内含子、信使RNA(mRNA)、转运RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微-RNA(miRNA)、小核仁RNA、核酶、cDNA、重组多核苷酸、分枝多核苷酸、质粒、载体、任意序列的分离的DNA、任意序列的分离的RNA、核酸探针、衔接头和引物。多核苷酸可包含修饰核苷酸,例如甲基化核苷酸和核苷酸类似物。如果存在,则可在聚合物装配之前或之后赋予对核苷酸结构的修饰。可通过非核苷酸组分间断核苷酸的序列。可在聚合之后,例如通过与标记组分、标签、反应性部分或结合伴侣缀合来进一步修饰多核苷酸。除非另外指出,否则当提供时,以5’至3’的方向列出多核苷酸序列。
如本文中所用,术语“靶多核苷酸”是指核酸分子的群体中具有本发明的一个或多个寡核苷酸被设计来与其杂交的靶序列的核酸分子或多核苷酸。在一些实施方案中,靶序列独特地鉴定来源于样品例如特定的基因组、线粒体、细菌、病毒的序列,或RNA(例如mRNA、miRNA、初级miRNA或miRNA前体)序列。在一些实施方案中,靶序列是由多个不同的靶多核苷酸共享的共同序列,例如联接于不同靶多核苷酸的共同的衔接头序列。“靶多核苷酸”可用于指在一条或两条链上包含靶序列的双链核酸分子,或包含靶序列的单链核酸分子,并且可来源于任何来源或用于分离或产生核酸分子的方法。靶多核苷酸可包含一个或多个(例如1、2、3、4、5、6、7、8、9、10个或更多个)靶序列,其可以相同或不同。一般而言,不同的靶多核苷酸包含不同的序列,例如一个或多个不同的核苷酸或一个或多个不同的靶序列。
“杂交”和“退火”是指其中一个或多个多核苷酸反应以形成通过核苷酸残基的碱基之间的氢键合稳定的复合物的反应。氢键合可通过Watson Crick碱基配对、Hoogstein结合或以任何其它序列特异性方式发生。复合物可包含两条形成双链体结构的链,3或更多条形成多链复合物的链,自身杂交单链或这些链的任意组合。杂交反应可构成更广泛过程例如PCR的起始或核酶对多核苷酸的酶促切割中的步骤。可通过与第二序列的核苷酸残基的碱基氢键合稳定的第一序列被认为是“可与第二序列杂交的”。在这样的情况下,还可认为第二序列是可与第一序列杂交的。
一般而言,给定的序列的“互补序列”是与给定的序列完全互补和可与其杂交的序列。一般而言,可与第二序列或第二序列的组杂交的第一序列可与第二序列或第二序列的组特异性或选择性杂交,以便在杂交反应过程中对第二序列或第二序列的组的杂交优先(例如在给定的一组条件,例如本领域中通常使用的严格条件下在热力学上更稳定)于与非靶序列的杂交。通常,可杂交的序列在它们各自的长度的整个或部分长度上共有一定程度的序列互补性,例如25%-100%的互补性,包括至少约25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%和100%的序列互补性。
术语“杂交的”,当用于多核苷酸时,是指通过核苷酸残基的碱基之间的氢键合稳定的复合物中的多核苷酸。氢键合可通过Watson Crick碱基配对、Hoogstein结合或以任何其它序列特异性方式发生。复合物可包含形成双链体结构的两条链,形成多链复合物的3条或更多条链,自身杂交的单链或这些链的组合。杂交反应可构成更广泛过程,例如PCR反应的起始、连接反应、测序反应或切割反应中的步骤。
除非另有所指,否则本发明的实施应用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术,所述技术在本领域普通技术人员的能力之内。参见,例如,Sambrook,Fritsch和Maniatis,MOLECULAR CLONING:A LABORATORYMANUAL,第2版(1989);CURRENT PROTOCOLS IN MOLECULAR BIOLOGY(F.M.Ausubel等人编辑,(1987));系列METHODS IN ENZYMOLOGY(Academic Press,Inc.):PCR 2:A PRACTICALAPPROACH(M.J.MacPherson,B.D.Hames和G.R.Taylor,编辑(1995)),Harlow和Lane,编辑(1988)ANTIBODIES,A LABORATORY MANUAL以及ANIMAL CELL CULTURE(R.I.Freshney,编辑(1987))。
在一个方面,本发明提供了产生用于对多个靶多核苷酸测序的装置的方法。在一个实施方案中,所述方法包括(a)提供具有反应性表面的固体载体;和(b)将多个寡核苷酸附接于固体载体。在一些实施方案中,所述多个寡核苷酸包括(i)多个不同的包含序列A和序列B的第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的第一寡核苷酸是不同的,位于每一个第一寡核苷酸的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;(ii)多个在各自的3’末端包含序列A的第二核苷酸;和(iii)多个在各自的3’末端包含序列C的第三寡核苷酸,其中序列C与由多个不同的靶多核苷酸共享的序列相同。在一些实施方案中,序列A、B和C的一个或多个是不同的序列。在一些实施方案中,序列A、B和C的一个或多个与序列A、B和C的另外的一个或多个相异约、小于约或大于约5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%或更大的百分比(例如具有低于约10%、20%、30%、40%、50%、60%、70%、80%、90%或更高的序列同一性)。在一些实施方案中,序列A、B和C的一个或多个各自包含约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20或更多个核苷酸。
多种适合的固体载体材料在本领域中是公知的。固体载体材料的非限制性实例包括基于二氧化硅的基板,如玻璃、熔融硅石和其它含二氧化硅材料;硅氢化物或塑料材料,如聚乙烯、聚苯乙烯、聚(氯乙烯)、聚丙烯、尼龙、聚酯、聚碳酸酯、聚(甲基丙烯酸甲酯)和环烯烃聚合物基板;以及其它固体载体材料,例如金、二氧化钛或硅载体。固体载体的材料可以以任何合适的形式提供、包括但不限于:珠粒、纳米颗粒、纳米晶体、纤维、微纤维、纳米纤维、纳米线、纳米管、垫、纸型片、平面晶片或载玻片、多孔板、光学载玻片、流动池和通道。固体载体还可包括一种或多种另外的结构,例如通道、微流体通道、毛细管和孔。在一些实施方案中,固体载体是流动池的通道。
当提及分子(例如核酸)于固相载体的固定或附接时,术语“固定的”和“附接的”可在本文中互换使用,并且除非另有说明,否则两个术语旨在包括直接或间接、共价或非共价连接。在本发明的一些实施方案中,共价连接可以是优选的,但一般地只需要分子(例如核酸)在其中期望例如在核酸扩增和/或测序应用中使用载体的条件下,保持固定或附接于载体。
在一些实施方案中,固体载体材料包含具有反应性的材料,以例得指定的条件下,分子(例如寡核苷酸或修饰寡核苷酸)可以被直接附接于固体载体的表面。在一些实施方案中,固体载体材料包含惰性基板或基质(例如玻璃载玻片、聚合物珠粒或其他固体载体材料),所述基板或基质已例如通过应用一个中间材料层或涂层而被“官能化”,所述中间材料包含允许附接于(例如共价附接)生物分子如多核苷酸的反应基团。此类载体的实例包括但不限于,惰性基板例如玻璃上支持的聚丙烯酰胺水凝胶。在这样的实施方案中,生物分子(例如寡核苷酸)可被直接共价附接于中间材料(例如水凝胶),但中间材料本身可以非共价地附接于基板或基质(例如玻璃基板)。
反应性表面的非限制性实例包括生物素化白蛋白(BSA)的使用(以通过蛋白质至表面上的物理吸附来形成生物素基团的稳定附接)。共价修饰可使用硅烷来进行,所述硅烷已被用于将分子附接于固体载体(通常是载玻片)。例如,四乙氧基硅烷和三乙氧基溴代乙酰胺基丙基-硅烷的混合物(例如以1:100的比率)可用于制备官能化玻璃载片,该载玻片允许包含硫代磷酸酯或磷硫酰官能度的核酸附着。可使用适当的反应性种类例如与氨基表面反应的生物素-PEG-琥珀酰亚胺酯将生物素分子附接于表面。
在一些实施方案中,附接于固体载体的寡核苷酸包含反应性部分。一般而言,反应性部分包括通过与反应性表面反应促进至固体载体的附接的任何部分。在一些实施方案中,官能化聚丙烯酰胺水凝胶被用于附接多个包含反应性部分的寡核苷酸,其中反应性部分是含硫亲核基团。适当的含硫亲核基团的多核苷酸的实例公开于Zhao等人(NucleicAcids Research,2001,29(4),955-959)和Pirrung等人(Langmuir,2000,16,2185-2191)中,包括例如简单的硫醇、硫代磷酸酯和硫代磷酰胺酯。优选水凝胶是从(i)作为丙烯酰胺、甲基丙烯酰胺、甲基丙烯酸羟乙酯或N-乙烯基吡咯烷酮的第一共聚单体和(ii)作为官能化丙烯酰胺或丙烯酸酯,例如N-(5-溴乙酰氨基戊基)丙烯酰胺、四甲基乙二胺的第二共聚单体的混合物形成的那些水凝胶。在一些实施方案中,包含官能化聚丙烯酰胺的反应性表面是从包含丙烯酰胺、N-(5-溴乙酰氨基戊基)丙烯酰胺、四甲基乙二胺和过硫酸钾的聚合混合物产生的。载体材料和反应性表面的其它示例性非限制性实例由US20120053074和WO2005065814(其通过引用整体并入本文)提供。
将固体载体暴露于其以进行附接的寡核苷酸可具有任何适合的长度,并且可包含一个或多个序列元件。序列元件的实例包括但不限于一个或多个扩增引物退火序列或其互补序列,一个或多个测序引物退火序列或其互补序列,一个或多个在多个不同的寡核苷酸或不同的寡核苷酸的亚组中共享的共同序列,一个或多个限制性内切酶识别位点,与一个或多个靶多核苷酸序列互补的一个或多个靶识别序列,一个或多个随机或接近随机的序列(例如随机地选自一组两个或更多个在一个或多个位置上相异的核苷酸的一个或更多个核苷酸,每一个选择的在一个或多个位置上不同的核苷酸代表一池包含随机序列的寡核苷酸),一个或多个间隔子及其组合。两个或更多个序列元件彼此可以是非相邻的(例如通过一个或更多个核苷酸隔开),彼此相邻的,部分重叠或完全重叠的。例如,扩增引物退火序列还可用作测序引物退火序列。序列元件可位于寡核苷酸的3’末端或接近3’末端,5’末端或接近5’末端,或在其内部。一般而言,如本文中所用,位于“3’末端上”的序列元件包括寡核苷酸的3’最末端核苷酸,位于“5’末端上”的序列元件包括寡核苷酸的5’最末端核苷酸。在一些实施方案中,序列元件的长度为约、少于约或多于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、50或更多个核苷酸。在一些实施方案中,寡核苷酸的长度为约、少于约或多于约5、10、15、20、25、30、35、40、45、50、60、70、80、90、100或更多个核苷酸。
间隔子可由重复的单核苷酸(例如一连串的1、2、3、4、5、6、7、8、9、10或更多个相同核苷酸)或重复1、2、3、4、5、6、7、8、9、10或更多次的2、3、4、5、6、7、8、9、10或更多个核苷酸的序列组成。间隔子可包含特定序列(例如不与样品中的任何靶序列杂交的序列)或由所述序列组成。间隔子可包含随机选择的核苷酸的序列或由所述序列组成。
在一些实施方案中,将多个不同的第一寡核苷酸附接于固体载体,每一个寡核苷酸包含在所有第一寡核苷酸中是共同的序列A和对于每一个不同的第一寡核苷酸是不同的序列B。在一些实施方案中,每一个第一寡核苷酸的序列B与不同的靶序列互补。在一些实施方案中,多个第一寡核苷酸包含约、少于约或多于约5、10、25、50、75、100、125、150、175、200、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多个不同的第一寡核苷酸,每一个寡核苷酸包含不同的序列B。在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B包含选自SEQ ID NO 22-121的序列,如图4中显示的(例如1、5、10、25、50、75或100个不同的寡核苷酸,其各自具有来自图4的不同的序列)。在一些实施方案中,序列B或与其特异性杂交的靶序列包含致病性遗传变体。在一些实施方案中,序列B或与其特异性杂交的靶序列在致病性遗传变体的约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内。致病性遗传变体通常位于第一寡核苷酸的下游,以便致病性遗传变体的至少部分用作用于第一寡核苷酸延伸的模板。一般而言,致病性遗传变体是对于其存在与疾病或性状的关联性的统计学、生物学和/或功能性证据的遗传变体。单个致病性遗传变体可与超过一种疾病或性状相关。在一些实施方案中,致病性遗传变体可与孟德尔性状、非孟德尔性状或两者相关。致病性遗传变体可表现为多核苷酸中的变异,例如1、2、3、4、5、6、7、8、9、10、20、50或更多个序列差异(例如在包含致病性遗传变体的多核苷酸与在相同相关基因组位置上不存在致病性遗传变体的多核苷酸之间)。致病性遗传变体的类型的非限制性实例包括单核苷酸多态性(SNP),插入/缺失多态性(DIP),拷贝数变异(CNV),短串联重复(STR),限制性片段长度多态性(RFLP),简单序列重复(SSR),可变数目的串联重复(VNTR),随机扩增多态性DNA(RAPD),扩增片段长度多态性(AFLP),跨反转录转座子扩增多态性(IRAP),长和短散在元件(LINE/SINE),长串联重复序列(LTR),可动元件,反转录转座子微卫星扩增多态性,基于逆转录转座子的插入多态性,序列特异性扩增多态性和可遗传的表观遗传修饰(例如,DNA甲基化)。致病性遗传变体还可以是一组密切相关的致病性遗传变体。一些致病性遗传变体可作为RNA多核苷酸中的序列变异施加影响。在该水平上,一些致病性遗传变体也通过一种RNA多核苷酸的存在或不存在来指示。同样地,一些致病性遗传变体还导致蛋白质多肽的序列变异。许多致病性遗传变体在本领域中是已知的。作为SNP的致病性遗传变体的实例为引发镰状细胞性贫血的血红蛋白的Hb S变体。作为DIP的致病性遗传变体的实例为引发囊性纤维化的CFTR基因的Δ508突变。作为CNV的致病性遗传变体的实例为21-三体,其引发唐氏综合征。作为STR的致病性遗传变体的实例为引发亨廷顿病的串联重复。图3提供了致病性遗传变体的非限制性实例和相关疾病的表。致病性遗传变体的非限制性实例也描述于US20100022406(其在此处通过引用整体并入)中。
致病性遗传变体最初可通过个人、家族和群体的基因型和表型的统计和分子遗传学分析来发现。通常在两阶段过程中鉴定孟德尔性状的致病性遗传变体。在第一阶段中,检查其中多个个体具有性状的家族的基因型和表型。将来自这些家族的基因型和表型数据用于建立孟德尔性状的存在与许多遗传标记的存在之间的统计相关性。该相关性建立致病性遗传变体可能定位于其中的候选区域。在第二阶段中,鉴定致病性遗传变体本身。第二步骤通常需要对候选区域进行测序。通过利用允许直接鉴定致病性遗传变体或鉴定更小的候选区域的更先进技术,更复杂的一阶段过程是可能的。在发现一个针对性状的致病性遗传变体后,可通过简单方法发现针对相同性状的另外的变体。例如,可对具有性状的个体或它们的亲戚的与性状相关的基因进行测序。用于发现致病性遗传变体的新方法的发现是一个活跃的研究领域。现有方法中的应用和新方法的整合预计将继续导致另外的致病性遗传变体的发现,可利用本文中的装置、系统和方法使用或测试所述致病性遗传变体。许多致病性遗传变体被编目在数据库,包括在线人类孟德尔遗传(OMIM)和人类基因突变数据库(HGMD)中。还在学术文献中,会议上以及学者之间的个人通信中报告了致病性遗传变体。
致病性遗传变体可以以任何频率存在于指定群体中。在一些实施方案中,致病性遗传变体的至少一个导致在参考群体中具有不超过1%的发病率的性状。在另一个实施方案中,致病性遗传变体的至少一个导致在参考群体中具有不超过1/10,000的发病率的性状。在一些实施方案中,致病性遗传变体与疾病或性状相关。在一些实施方案中,致病性遗传变体是其存在使患有或患上疾病或性状的风险增加约、小于约或大于约1%、5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、100%、200%、300%、400%、500%或更多的遗传变体。在一些实施方案中,致病性遗传变体是其存在使患有或患上疾病或性状的风险增加约、小于约或大于约1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、25倍、50倍、100倍、500倍、1000倍、10000倍或更多倍的遗传变体。在一些实施方案中,致病性遗传变体是其存在使患有或患上疾病或性状的风险增加任何统计学上显著的量,例如具有约0.1、0.05、10-3、10-4、10-5、10-6、10-7、10-8、10-9、10-10、10-11、10-12、10-13、10-14、10-15或更小或小于所述数值的p值的增加的遗传变体。
在一些实施方案中,致病性遗传变体在两个或更多个不同的个体的群体之间,例如两个或更多个人类群体之间具有不同程度的与疾病或性状的相关性。在一些实施方案中,致病性遗传变体仅在一个或多个群体例如一个或多个人群体内具有统计学上显著的与疾病或性状的相关性。人群体可以是共享共同的基因遗传的一群人,例如种族群(例如,高加索人)。人群体可以是单倍型群体或单倍型群体的组(例如,单倍型H1、M52)。人群体可以是国家群体(例如,美国人、英国人、爱尔兰人)。人群体可以是人口统计群体例如按照年龄、性别和社会经济因素划定。人类群体可以为历史群体。群体可由分布在大的地理区域的个体组成,以便处于分布极端值的个体可能永不能彼此相遇。群体的个体可以在地理上分散成不连续的区域。人群可以提供关于生物地理祖先的信息。群体还可通过祖先来定义。遗传研究可确定群体。在一些实施方案中,群体可基于祖先和遗传学,大部分人群体对应于大陆规模分组,其包括欧亚西部人、撒哈拉以南非洲人、东亚人和美洲本地人。可基于祖先将大多数人分配至这些群体的至少一个群体。许多较小的群体也被区别为大陆群体,包括澳大利亚土著、大洋洲和布须曼人。
经常地,可将群体进一步分成亚群。群体与亚群之间的关系可以是分层的。例如,大洋州人群体可进一步细分为亚群,包括玻利尼西亚人、美拉尼西亚人和密克罗尼西亚人。西方欧亚人群体可进一步细分为亚群,包括欧洲人,西亚/中亚人,南亚人和北非人。欧洲人口可以进一步细分成亚群包括北西欧人,南欧人和北欧犹太人群体。北西欧人群体可进一步细分为全国人群,包括英国人、爱尔兰人、德国人、芬兰人等。东亚人群体可进一步细分为中国人、日本人、韩国人亚群。南亚人群体可进一步细分为印度人和巴基斯坦人群体。印度人群可以进一步细分为达罗毗荼人、布拉灰人、Kannadigas、马拉雅兰人、泰米尔人、泰卢固人、Tuluvas和Gonds。为了鉴定致病性遗传变体,可将亚群用作群体。
在一些实施方案中,致病性遗传变体与疾病例如罕见遗传病相关。可与致病性遗传变体相关的疾病的实例包括但不限于:21羟化酶缺乏症、ABCC8相关的高胰岛素血症、ARSACS、软骨发育不全、全色盲、磷酸腺苷脱氨酶1、伴有神经病变的胼胝体发育不全、尿黑酸尿、α-1抗胰蛋白酶缺乏、α甘露糖苷贮积症、α-肌聚糖病、α地中海贫血、阿尔茨海默症、血管紧张素II受体I型、载脂蛋白E基因分型、精氨琥珀酸尿、天冬氨酰葡糖胺尿症、共济失调与维生素E缺乏、共济失调毛细血管扩张症、1型自身免疫性多内分泌腺病综合征、BRCA1遗传性乳腺癌/卵巢癌、BRCA2遗传性乳腺癌/卵巢癌、一种或多种其他类型的癌症、巴比二氏综合征、贝斯特氏卵黄状黄斑营养不良、β-肌聚糖病、β-地中海贫血、生物素缺乏症、布劳综合征(Blau Syndrome)、布卢姆综合征(Bloom Syndrome)、CFTR相关疾病、CLN3相关神经元蜡样脂褐质沉积症、CLN5相关神经元蜡样脂褐质沉积症、CLN8相关神经元蜡样脂褐质沉积症、脂褐质、卡纳万病、肉碱棕榈酰转移酶IA缺乏症、肉碱棕榈酰转移酶II缺乏症、软骨毛发育不全、脑海绵状血管瘤、无脉络膜、科恩综合征、先天性白内障、面部畸形、和神经病变、糖基化Ia的先天性疾病、糖基化Ib的先天性疾病、先天性芬兰肾病、克罗恩病、胱氨酸病、DFNA9(COCH)、糖尿病和听力丧失、早发性原发性肌张力障碍(DYTI)、赫利茨-皮尔森型交界型大疱性表皮松解症、FANCC相关范可尼贫血、FGFR1相关颅缝早闭、FGFR2相关颅缝早闭、FGFR3相关颅缝早闭、凝血因子V莱顿血栓形成倾向、凝血因子V R2突变血栓形成倾向、因子XI缺乏、因子XIII缺乏、家族性腺瘤性息肉病、家族性自律神经失调、家族性高胆固醇血症B型、家族性地中海热、游离唾液酸贮积病、伴有帕金森-17的额颞痴呆、延胡索酸酶缺乏症、GJB2相关DFNA3非综合征性听力丧失和耳聋、GJB2相关DFNB1非综合征性听力丧失和耳聋、GNE相关肌病、半乳糖血症、戈谢病、葡萄糖-6-磷酸脱氢酶缺乏症、1型戊二酸血症、1a型糖原贮积症、Ib型糖原贮积症、Ⅱ型糖原贮积病、Ⅲ型糖原贮积病、Ⅴ型糖原贮积病、竹叶综合症、HFE-相关遗传性血色病、Halder AIM、血红蛋白Sβ-地中海贫血、遗传性果糖不耐受症、遗传性胰腺炎、遗传性胸腺嘧啶-尿嘧啶尿症、己糖胺酶A缺乏症、出汗性外胚层发育不良2、由胱硫醚β合成酶缺乏引起的高胱氨酸尿症、1型高血钾周期性麻痹、高鸟氨酸血症-高氨血症-高瓜氨酸尿综合征、原发性1型高草酸尿症、原发性2型高草酸尿症、软骨发育不良、1型低钾性周期性麻痹、2型低钾性周期性麻痹、低磷酸酯酶症、婴儿肌病和乳酸性酸中毒(致命和非致命表格)、异戊酸血症、克拉贝疾病、LGMD2I、莱伯氏遗传性视神经病、法裔加拿大型雷吉氏综合症、长链3-羟酰辅酶A脱氢酶缺乏症、MELAS、MERRF、MTHFR缺乏、MTHFR变异耐热、MTRNR1相关性听力丧失和耳聋、MTTS1相关的听力丧失和耳聋、MYH-相关性息肉病、1A型枫糖尿病(Maple Syrup Urine Disease)、1B型枫糖尿病、麦-奥二氏(McCune-Albright)综合征、中链酰基辅酶A脱氢酶缺乏症、巨脑性白质脑病伴皮层下囊肿、异染性脑白质营养不良、心肌线粒体病、线粒体DNA-相关雷吉氏综合症和NARP、IV型粘脂贮积病、I型粘多糖贮积症、IIIA型粘多糖贮积症、VII型粘多糖贮积症、2型多发性内分泌腺瘤病、眼部肌肉脑疾病、线形体肌病、神经表型、由神经髓磷脂酶缺乏引起的尼曼-匹克病、C1型尼曼-皮克病(Niemann-Pick Disease)、奈梅亨断裂综合症(Nijmegen Breakage Syndrome)、PPT1相关的神经元蜡样质脂褐质沉积症、PROP1相关的垂体性生长激素缺乏、Pallister-Hall综合征、先天性副肌强直症、彭德莱综合症(Pendred Syndrome)、过氧化物酶体双功能酶缺乏症、综合性精神发育障碍、苯丙氨酸羟化酶缺乏症、纤溶酶原激活物抑制剂I、常染色体隐性多囊肾病、凝血酶原G20210A血栓形成倾向、假维生素D缺乏性佝偻病、致密成骨不全症、波的尼亚型常染色隐性视网膜色素变性、雷特综合征、1型肢近端型点状软骨发育不良、短链酰基辅酶A脱氢酶缺乏症、施-戴综合征(Shwachman-Diamond Syndrome)、舍格伦-拉松综合征(Sjogren-Larsson Syndrome)、史-伦-奥三氏综合征(Smith-Lemli-Opitz Syndrome)、痉挛性截瘫13、硫酸盐转运蛋白相关的骨软骨发育不良、TFR2相关遗传性血色病、TPP1相关神经元蜡样质脂褐质沉积病、致死性发育不良、甲状腺素淀粉样变、三功能蛋白缺陷、酪氨酸羟化酶缺陷DRD、I型酪氨酸血症、威尔逊病、X连锁型青少年视网膜劈裂症和齐薇格综合征谱。
在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B或与其特异性杂交的靶序列包含非主题序列。在一些实施方案中,序列B或与其特异性杂交的靶序列在非主题序列的约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内。一般而言,非主题序列对应于来源于除将测试的个体外的生物的多核苷酸,例如来自细菌、古细菌、病毒、原生生物、真菌或其它生物的DNA或RNA。非主题序列可指示生物体的身份或生物体的种类,并且还可指示疾病状态例如感染。用于鉴定生物体的非主题序列的实例包括但不限于rRNA序列,例如16s rRNA序列(参见例如WO2010151842)。在一些实施方案中,分析非主题序列而非致病性遗传变体,或将其与致病性遗传变体单独分析。在一些实施方案中,例如在同一样品(例如使用第一寡核苷酸的混合物,一些具有与包含致病性遗传变体或致病性遗传变体附近的序列特异性杂交的序列B,以及一些具有与包含非主题序列或非主题序列附近的序列特异性杂交的序列B)中和/或相同的报告中并行分析致病性遗传变体和非主题序列。
在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B或与其特异性杂交的靶序列包含祖先信息标记(AIM)。在一些实施方案中,序列B或与其特异性杂交的靶序列在AIM的约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内。一般而言,AIM是在两个或更多个个体的群体,例如两个或更多个人群体之间频率不同的遗传变体,其可用于单独地或与一个或多个其它AIM组合地推断受试者的祖先。AIM可用于将人分类为属于或不属于一个或多个群体,例如处于增加的具有致病性遗传变体之一的风险中的群体。例如,AIM对于其中性状的流行增加的群体可具有诊断价值。在某些情况下,AIM可以以更细的粒度区分群体,例如次大陆组群或相关种族群。在一些实施方案中,分析AIM而非致病性遗传变体和/或非主题序列,或将AIM与致病性遗传变体和/或非主题序列单独分析。在一些实施方案中,例如在同一样品(例如使用第一寡核苷酸的混合物,一些具有与包含致病性遗传变体或致病性遗传变体附近的序列特异性杂交的序列B,以及一些具有与包含AIM或接近AIM的序列特异性杂交的序列B)和/或相同报告中并行分析AIM、致病性遗传变体和/或非主题序列。AIM的类型的非限制性实例包括单核苷酸多态性(SNP),插入/缺失多态性(DIP),拷贝数变异(CNV),短串联重复(STR),限制性片段长度多态性(RFLP),简单序列重复(SSR),可变数目串联重复(VNTR),随机扩增多态性DNA(RAPD),扩增片段长度多态性(AFLP),跨反转录转座子扩增多态性(IRAP),长和短散在元件(LINE/SINE),长串联重复序列(LTR),移动元件、反转录转座子微卫星扩增多态性,基于反转录转座子的插入多态性,序列特异性扩增多态性和可遗传的表观遗传修饰(例如,DNA甲基化)。AIM还可以是RNA多聚核苷酸的序列变异。一些AIM也可通过一种RNA多核苷酸的存在或浓度来指示。一些AIM也可以是蛋白质多肽的序列变异。一些AIM也可通过一种蛋白质多肽的存在或不存在来指示。图9中标识了许多祖先信息标记。其他AIM在美国2007/0037182中进行了描述。AIM可以是或也可以不是致病性遗传变体。例如,Duffy Null(FY*0)遗传变异体引起血液抗原的不存在。该变体在撒哈拉以南非洲人群体中接近100%的频率,在撒哈拉以南非洲之外的人群中接近0%的频率。许多与色素沉着相关的致病性遗传变体也是AIM。不是致病性遗传变体的AIM可与由其它AIM引起的性状间接相关。
AIM可通过测定多个群体中的遗传变体的频率来发现。这可通过测定已知变体在来自不同群体的个体中的频率来实现。其还可在变体发现的过程中固有地实现。这两个任务由国际HapMap项目承担,所述项目将SNP多态性编目。祖先信息标记可通过多种判断它们的预测能力的测量分级。一个测量是Wright'sF-统计,被称为Fst或FST。该变量还以其它名称为人所知,包括固定指数。另一个用于为AIM评级的度量是信息量。为AIM分级的另一个方法Paschou等人的PCA-相关SNP法(Paschou等人PCA-correlated SNPs for structureidentification in worldwide human populations.PLoS Genet(2007)第3卷(9)第1672-86页)。
为了实现基于祖先信息标记的祖先推断的预先选择的置信度(例如至少约80%、85%、90%、95%、97.5%、99%或更多),和为了多个群体实现祖先推断,可能必需检查超过一个祖先信息标记。足够大的小组的随机选择的遗传变体可用于推断祖先(例如约或超过约5、10、15、25、50、100、250、500、1000、2500、5000或更多个AIM)。可构建一个靶组的特别合适的AIM。许多研究人员已发表了建议的祖先信息标记的列表(例如:Seldin等人Application of ancestry informative markers to association studies inEuropean Americans.PLoS Genet(2008)第4卷(1)第e5页;Halder等人A panel ofancestry informative markers for estimating individual biogeographicalancestry and admixture from four continents:utility and applications.HumMutat(2008)第29卷(5)第648-58页;Tian等人Analysis and application of Europeangenetic substructure using300K SNP information.PLoS Genet(2008)第4卷(1)第e4页;Price等人Discerning the ancestry of European Americans in geneticassociation studies.PLoS Genet(2008)第4卷(1)第e236页;Paschou等人PCA-correlated SNPs for structure identification in worldwide humanpopulations.PLoS Genet(2007)第3卷(9)第1672-86页;和Bauchet等人MeasuringEuropean population stratification with microarray genotype data.Am J HumGenet(2007)第80卷(5)第948-56页)。这些和类似的列表可用于建立一小组AIM,本文中的装置或方法可被构造来测试所述AIM。
在一些实施方案中,除了多个第一核苷酸以外,还将多个第二核苷酸和多个第三核苷酸附接于固体载体。在一些实施方案中,第二核苷酸均在3'末端包含序列A,其中多个第二寡核苷酸中的序列A与所有第一寡核苷酸中的序列A相同。在一些实施方案中,第三寡核苷酸在3'末端包含序列C,其中序列C与由多个不同靶多核苷酸共享的序列互补。在一些实施方案中,第一寡核苷酸沿着用作模板的靶多核苷酸的延伸产生包含序列C'的延伸产物,所述序列C'与序列C互补并与其特异性杂交。在一些实施方案中,暴露于固体载体的多个第二寡核苷酸的量为暴露于固体载体的多个第一寡核苷酸的量的约10倍、50倍、100倍、1000倍、5000倍、7500倍、10000倍、12500倍、15000倍、20000倍、50000倍、100000倍或更多倍、或小于所述倍数,或大于所述倍数,例如在用于将所述多个寡核苷酸附接于固体载体的反应中。在一些实施方案中,多个第二寡核苷酸的量与暴露于固体载体的第三寡核苷酸的量的比率(或成反比)为约1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1或更大,或低于所述比率,或高于所述比率。在一些实施方案中,将多个第一寡核苷酸以约、低于约或高于约0.5pM、1pM、5pM、10pM、25pM、50pM、75pM、100pM、200pM、500pM、1nM、10nM、100nM、500nM或更高的浓度添加至固体载体。在一些实施方案中,将多个第二寡核苷酸和/或第三寡核苷酸的浓度为约、低于约或高于约0.5nM、1nM、5nM、10nM、25nM、50nM、75nM、100nM、200nM、500nM、1μM、5μM、10μM、25μM、50μM、100μM、500μM或更高的浓度。
在一些实施方案中,一个或多个所述多个寡核苷酸包含一个或多个封闭基团。一般而言,封闭基团是例如通过聚合酶、连接酶和/或其他酶产生的阻止寡核苷酸的3'末端延伸的任何修饰。可在将寡核苷酸附接于固体载体之前或之后添加封闭基团。在一些实施方案中,在扩增或测序方法中添加封闭基团。封闭基团的实例包括但不限于烷基、非核苷酸衔头、硫代磷酸酯、烷烃-二醇残基、肽核酸和不存在3'-OH的核苷酸衍生物,包括例如虫草素。
在一些实施方案中,附接于基板的一个或多个寡核苷酸包括切割位点,以便在该位点上的切割从与固体载体的附接释放全部或一部分切割的多核苷酸。在一些实施方案中,切割产生可沿多核苷酸模板延长的3'末端。在一些实施方案中,多个的第一、第二和/或第三寡核苷酸仅一部分包含切割位点(例如约,小于约,或大于约10%、20%、30%、40%、50%、60%、70%、80%、90%或更多)。切割位点可通过任何合适的方法,包括但不限于化学、酶促和光化学裂解来切割。裂解基团可定位在第一核苷酸与固体载体之间,或在寡核苷酸中的任何数目的核苷酸上或之后,例如离与固体载体的附着点约、少于约或多于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20或更多个核苷酸。
用于化学、酶促和光化学裂解的方法,以及通过这样的方法切割的切割位点在本领域是已知的。切割方法的实例包括但不限于限制性酶消化,在该情况下,切割位点是指导双链模板的1条或两条链的切割的酶的适当的限制性位点;脱氧核糖核苷酸与核糖核苷酸之间的键的RNA酶消化或化学裂解,在该情况下,切割位点可包括一个或多个核糖核苷酸;利用还原剂(例如TCEP)进行的二硫键的化学还原,在该情况下,切割位点应包括适当的二硫键;利用高碘酸盐进行的二醇键的化学裂解,在该情况下,切割位点应包括二醇键;无碱基位点的产生和随后的水解。切割后,可以通过封闭以产生3'末端,该3'末端不能通过聚合酶、连接酶和/或其它酶延伸。封闭剂的例子包括但不限于胺(例如乙醇胺),其可在加入切割剂之前、期间或之后添加。切割方法和切割位点的另外的非限制性实例描述于US20120053074(其通过引用整体并入)中。
在一些实施方案中,按照方法扩增多个靶多核苷酸,所述方法包括:将包含多个靶多核苷酸的样品暴露于本发明的装置。在一些实施方案中,扩增方法包括桥扩增。用于进行标准桥扩增的一般方法是本领域已知的。例如,WO/1998/044151和WO/2000/018957均描述了核酸扩增方法,所述方法允许扩增产物被固定在固体载体上以形成由簇组成的阵列,或从多个相同的固定多核苷酸链和多个相同的固定互补链形成的“集落”。在一些实施方案中,根据方法对多核苷酸测序,该方法包括:将包含多个靶多核苷酸的样品暴露于本发明的装置。用于使用附接于固体载体的多个寡核苷酸进行测序的一般方法在本领域是已知的,例如在US20120053074和US20110223601(其在此通过引用整体并入)中公开的方法。非限制性的示例性的方法,本文中提供了用于根据本发明的方法和装置扩增靶多核苷酸和/或对测序靶多核苷酸进行测序的示例性方法。一般而言,特定靶多核苷酸的扩增允许产生相对于非靶多核苷酸,针对靶多核苷酸(例如靶基因组序列)富集的测序数据。在一些实施方案中,靶多核苷酸的相对于非靶多核苷酸的测序数据(特别是致病性遗传变体的测序数据)的富集为约、至少约10倍、100倍、500倍、1000倍、5000倍、10000倍、50000倍、100000倍、1000000倍或更多倍。
包含寡核苷酸的基板、用于产生其的方法和用于它们的操作的系统和方法的非限制性实例提供于WO/2008/002502(其在此通过引用整体并入)中。
在一个方面,本发明提供了用于对样品中的多个靶多核苷酸进行测序的方法。在一个实施方案中,该方法包括:(a)对靶多核苷酸进行片段化,以产生片段化多核苷酸;(b)将衔接头寡核苷酸连接于片段化多核苷酸,每一个衔接头寡核苷酸包含序列D,以产生在衔接头连接的多核苷酸的两个末端包含与互补序列D’杂交的序列D的衔接头连接的多核苷酸,任选其中序列D'通过靶多核苷酸的3'末端延伸而产生;(c)使用包含序列C、序列D的扩增引物和与样品相关的条形码扩增衔接头连接的多核苷酸,其中序列D被置于扩增引物的3'末端;(d)将经扩增的靶多核苷酸与附接于固体表面的多个不同的第一寡核苷酸杂交;(e)在固体表面上进行桥扩增;和(f)对来自步骤(e)的多个多核苷酸进行测序。固体表面可包含本文中描述的多个寡核苷酸,包括本文中描述的装置,并任选地根据本文中描述的方法产生所述固体表面。在一些实施方案中,固体表面包含(i)多个不同的包含序列A和序列B的第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的第一寡核苷酸是不同的,位于每一个第一寡核苷酸的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;(ii)多个在各自的3’末端包含序列A的第二寡核苷酸;和(iii)多个在各自的3’末端包含序列C的第三寡核苷酸。在一些实施方案中,序列A、B、C和D的一个或多个是不同的序列。在一些实施方案中,序列A、B、C和D的一个或多个与序列A、B、C和D的另外的一个或多个具有约、小于或多于约5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%或更多的差异(例如具有小于约10%、20%、30%、40%、50%、60%、70%、80%、90%或更多的序列同一性)。在一些实施方案中,序列A、B、C和D的一个或多个各自包含约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20或更多个核苷酸。
靶多核苷酸所源自的样品可包含多个来自相同个体的样品、来自不同个体的样品及其组合。在一些实施方案中,样品包含多个来自单个个体的多核苷酸。在一些实施方案中,样品包含多个来自两个或更多个个体的多核苷酸。个体是靶多核苷酸可源自的任何生物体或其部分,其非限制性实例包括植物、动物、真菌、原生生物、无核原生物(moneran)、病毒、线粒体和叶绿体。可从受试者,例如来源于其的细胞样品、组织样品、体液样品或器官样本(或源自这些样品的任一种的细胞培养物),包括例如培养的细胞系、活检样品、血液样品,颊拭子或含有细胞的流体样品(例如唾液)分离样品多核苷酸。受试者可以是动物,包括但不限于牛、猪、小鼠、大鼠、鸡、猫、狗等,并且通常是哺乳动物,例如人。样品也可人为地衍生,例如通过化学合成。在一些实施方案中,样品包含DNA。在一些实施方案中,样品包含基因组DNA。在一些实施方案中,样品包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体、寡核苷酸标签、来自除从其采集所述样品的受试者外的生物体(例如细菌、病毒或真菌)的多核苷酸、或其组合。在一些实施方案中,样品包括通过扩增(例如通过使用引物与DNA聚合酶的任何合适的组合的引物延伸反应,包括但不限于聚合酶链反应(PCR)、反转录及其组合进行的)产生的DNA。其中,用于引物延伸反应的模板是RNA,逆转录的产物被称为互补DNA(cDNA)。用于引物延伸反应的引物可包含对于一个或多个靶是特异性的序列、随机序列、部分随机序列及其组合。适于引物延伸反应的反应条件在本领域是已知的。一般而言,样品多核苷酸包含存在于样品中的任何多核苷酸,其可包含或可以不包含靶多核苷酸。在一些实施方案中,来自单个个体的样品被分成多个单独的样品(例如2、3、4、5、6、7、8、9、10或更多个单独的样品),将所述单独的样品独立地经受本发明的方法,例如以一式二份、一式三份、一式四份或更多份进行的分析。
用于核酸的提取和纯化的方法在本领域是公知的。例如,核酸可以通过利用苯酚、苯酚/氯仿/异戊醇或类似制剂(包括的TRIzol和TriReagent)的有机提取来纯化。提取技术的其他非限制性实例包括:(1)有机提取,随后用乙醇沉淀,例如,使用苯酚/氯仿有机试剂(Ausubel等人,1993),使用或不使用自动化核酸提取仪,例如,可从Applied Biosystems(Foster City,Calif.)获得的Model 341DNA提取仪;(2)固定相吸附法(美国专利号5,234,809;Walsh等人,1991);和(3)盐诱导核酸酸沉淀方法(Miller等人,(1988),这样的沉淀法通常称为“盐析”法。核酸分离和/或纯化的另一个例子包括使用核酸能够特异性或非特异性结合其的磁性粒子,随后使用磁体分离珠粒,以及洗涤和从珠洗脱核酸(参见例如美国专利号5,705,628)。在一些实施方案中,可在上述分离方法之前,进行酶消化步骤,以帮助消除来自样品的不想要的蛋白质,例如,使用蛋白酶K或其他类似的蛋白酶的消化。参见,例如,美国专利号7,001,724。必要时,可将RNA酶抑制剂添加至裂解缓冲液。对于某些细胞或样品类型,可能需要向方案中添加蛋白质变性/消化步骤。纯化方法可用于分离DNA、RNA或两者。当在提取程序期间或之后将DNA和RNA一起分离出来时,可采用另外的步骤来纯化出一种或将两者彼此单独纯化出来。还可产生提取的核酸的亚级分,例如,根据大小、序列或其它物理或化学特征进行的纯化。除了初始核酸分离步骤以外,还可在本发明的方法的任何步骤之后进行核酸的纯化,例如以除去过量或不需要的试剂、反应物或产物。用于测定样品中核酸的量和/或纯度的方法在本领域中是已知的,包括吸光度(例如在260nm、280nm处的吸光度以及这些吸光度的比值)和标记(例如荧光染料和嵌入剂,如SYBR绿、SYBR蓝、DAPI、碘化丙啶、Hoechst染色、SYBR金、溴化乙锭)的检测。
在一些实施方案中,将靶多核苷酸片段化成具有一个或多个特定尺寸范围的多个片段化多核苷酸。在一些实施方案中,经历片段化的样品多核苷酸的量为约、小于约或大于约50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1000ng、1500ng、2000ng、2500ng、5000ng、10μg或或更多。在一些实施方案中,从约、小于约或大于约1、10、100、1000、10000、100000、300000、500000或更多的基因组当量的起始DNA产生片段。片段化可通过本领域中已知的方法,包括化学、酶促、机械片段化来完成。在一些实施方案中,片段具有约10至约10,000个核苷酸的平均或中值长度。在一些实施方案中,片段具有约50至约2,000个核苷酸的平均或中值长度。在一些实施方案中,所述片段具有约、小于约、大于约或介于约100-2500、200-1000、10-800、10-500、50-500、50-250、或50-150个核苷酸的平均或中值长度。在一些实施方案中,片段具有约、小于约、大于约200、300、500、600、800、1000,1500或更多个核苷酸的平均或中值长度。在一些实施方案中,通过机械方式实现片段化,包括将样品多核苷酸经历超声处理。在一些实施方案中,片段化包括在适于一种或多种酶产生双链核酸断裂的条件下用所述一种或多种酶处理样品多核苷酸。用于产生多核苷酸片段的酶的实例包括序列特异性和非序列特异性核酸酶。核酸酶的非限制性实例包括DNA酶I、片段化酶、限制性内切酶、其变体及其组合。例如,利用DNA酶I的消化可在Mg++不存在和在Mn++存在的情况下诱导DNA的随机双链断裂。在一些实施方案中,片段化包括用一种或多种限制性内切核酸酶处理样品多核苷酸。片段化可产生具有5'悬突、3'悬突、钝端或其组合的片段。在一些实施方案中,例如当片段化包括使用一种或多种限制性内切核酸酶时,样品多核苷酸的切割留下具有可预测的序列的悬突。在一些实施方案中,所述方法包括通过标准方法例如柱纯化或从琼脂糖凝胶的分离来大小选择片段的步骤。在一些实施方案中,所述方法包括:在片段化后测定平均和/或中值片段长度。在一些实施方案中,将具有高于期望阈值的平均和/或中值片段长度的样品再次进行片段化。在一些实施方案中,弃去具有低于期望阈值的平均和/或中值片段长度的样品。
在一些实施方案中,在利用一个或多个衔接头寡核苷酸(也称为“衔接头”)连接之前,不修饰片段化多核苷酸的5'和/或3'末端核苷酸序列。例如,还可将通过限制性内切核酸酶进行的片段化用于留下可预测的悬突,随后用一个或多个包含与多核苷酸片段上的可预测的悬突互补的悬突的衔接头寡核苷酸进行连接。在另一个实例中,可在利用留下可预测的钝端的酶切割后,可将钝端多核苷酸片段连接于包含钝端的衔接头寡核苷酸。在一些实施方案中,在被联接于衔接头之前,将片段化多核苷酸进行钝端抛光(或“末端修复”)以产生具有钝端的多核苷酸片段。钝端抛光步骤可通过用适合的酶,例如具有3'至5'外切核酸酶活性和5'至3'聚合酶活性的DNA聚合酶(例如T4聚合酶)温育来实现。在一些实施方案中,在末端修复后,添加1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸,例如一个或多个腺嘌呤(“A加尾”),一个或多个胸腺嘧啶、一或多个鸟嘌呤或一个或多个胞嘧啶,或以所述多核苷酸的添加结尾,来产生悬突。可以例如在连接反应中将具有悬突的多核苷酸片段联接于一个或多个具有互补悬突的衔接头寡核苷酸。例如,可使用不依赖于模板的聚合酶将单个腺嘌呤添加至末端修复的多核苷酸片段的3'末端,随后将其连接于一个或多个各自在其3'末端具有悬突胸腺嘧啶的衔接头。在一些实施方案中,可将衔接头寡核苷酸联接于钝端双链DNA片段分子,所述DNA片段分子已通过用一个或多个核苷酸延伸3'末端,随后通过5'磷酸化进行过修饰。在某些情况下,可利用聚合酶例如Klenow聚合酶或本领域中已知的任何其它合适的聚合酶,或通过使用末端脱氧核苷酸转移酶,在一个或多个dNTP存在的情况下,在含有镁的适合的缓冲液中进行3'末端的延长。在一些实施方案中,将具有钝端的靶多核苷酸联接于一个或多个包含钝端的衔接头。可以例如利用T4多核苷酸激酶在含ATP和镁的适合的缓冲液中进行片段化多核苷酸的5'末端的磷酸化。可任选地,例如通过使用本领域中已知的酶例如磷酸酶处理片段化多核苷酸以在5'末端或3'末端进行脱磷酸化。
在一些实施方案中,在片段化后,将衔接头寡核苷酸连接于片段化多核苷酸。衔接头寡核苷酸包括具有其至少部分是已知的,可被联接于靶多核苷酸的序列的任何寡核苷酸。衔接头寡核苷酸可包括DNA、RNA、核苷酸类似物、非规范核苷酸、标记核苷酸、修饰核苷酸或其组合。衔接头寡核苷酸可以是单链、双链或部分双链体。一般而言,部分双链体衔接头包含一个或多个单链区域和一个或多个双链的区域。双链衔接头可含两个彼此杂交的单独的寡核苷酸(也称为“寡核苷酸双链体”),并且杂交可留下一个或多个钝端,一个或多个3'悬突,一个或多个5'悬突,一个或多个因错配和/或未配对核苷酸引起的凸起或这些形式的任意组合。在一些实施方案中,单链衔接头包含两个或更多个能够彼此杂交的序列。当两个这样的杂交序列包含在单链衔接头中时,杂交产生发夹结构(发夹衔接头)。当衔接头的两个杂交区域彼此通过非杂交区域分隔时,“泡”结构产生。包含气泡结构的衔接头可由单个包含内部杂交的衔接头寡核苷酸组成,或可包含两个或更多彼此杂交的衔接头寡核苷酸。内部序列的杂交,例如在衔接头中的两个可杂交的序列之间,可在单链衔接头寡核苷酸中产生双链结构。可组合使用不同类型的衔接头,例如发夹衔接头和双链衔接头或具有不同序列的衔接头。可在相继的反应中或同时地将不同衔接头联接于靶多核苷酸。在一些实施方案中,将相同衔接头添加至靶多核苷酸的两个末端。例如,可将第一和第二衔接头添加至相同反应中。可在与靶多核苷酸组合之前操作衔接头。例如,可添加或移除末端磷酸盐。
在一些实施方案中,衔接头是通过使两个部分互补多核苷酸链退火(以便当两条链退火时提供至少一个双链区域和至少一个不匹配区域)形成的错配衔接头。衔接头的“双链区”是短双链区域,通常包含通过两个部分互补的多核苷酸链的退火形成的5或更多个连续碱基对。该术语仅仅指其中两条链退火的核酸的双链区,并且不意味着任何特定的结构构象。在一些实施方案中,双链区域在长度上为约、小于约、或大于约5、10、15、20、25、30或更多个核苷酸。通常有利地错配衔接头的双链区尽可能地短而不丧失功能。本说明书中的“功能”是指双链区域在用于酶催化的核酸连接反应的标准反应条件下形成稳定的双链体,该条件对于本领域普通技术人员来说是已知的(例如,在适用于酶的连接缓冲液中在4℃至25℃的范围内的温度下温育),以便形成衔接头的两条链在衔接头与靶分子的连接过程中保持部分退火。双链区域在通常用于引物延伸或PCR反应的退火步骤的的条件下是稳定的不是绝对必需的。通常,双链区域邻近衔接头的“可连接的”末端,即在连接反应中联接于靶多核苷酸的末端。衔接头的可连接末端可以是钝端,或在其他实施方案中,一个或多个核苷酸的短的5'或3'悬突可存在以帮助/促进连接。衔接头的可连接末端上的5'末端核苷酸通常被磷酸化来使得能够与样品多核苷酸上的3'羟基形成磷酸二酯键。术语“不匹配区域”是指其中形成衔接头的两个多核苷酸链的序列显示一定程度的非互补性(以便两条链不能在用于引物延伸或PCR反应的标准退火条件下彼此退火)的衔接头的区域。不匹配区域中的两条链可在用于酶催化的连接反应的标准反应条件下显示某种程度的退火,其前提是两条链在退火条件下恢复至单链形式。
衔接头寡核苷酸可以包含一个或多个各种序列元件,包括但不限于,一个或多个扩增引物退火序列或其互补序列、一个或多个测序引物退火序列或其互补序列、一个或更个条形码序列,一个或在多个在不同的衔接头或不同衔接头的亚组间共享的共同序列、一个或多个限制性内切酶识别位点,一个或多个与一个或多个靶多核苷酸悬突互补的悬突、一个或多个探针结合位点(例如用于附接于测序平台,例如用于大规模并行测序的流动池,例如本文所述的装置,或例如由Illumina,Inc.开发的流动池)、一个或多个随机或近随机序列(例如随机地选自一组两个或更多个在一个或多个位置上不同的核苷酸的一个或多个核苷酸,每一个在一个或多个位置上选择的不同核苷酸代表一池包含随机序列的衔接头),及其组合。两个或更多序列元件可以是非彼此相邻的(例如由一个或多个核苷酸分隔),彼此相邻的,部分重叠的或完全重叠的。例如,扩增引物退火序列还可用作测序引物退火序列。序列元件可位于衔接头寡核苷酸的3'末端或邻近其3'末端,位于其5'端或邻近其5'端或位于其内部。当衔接头寡核苷酸能够形成二级结构,例如发夹时,序列元件可部分或完全地位于二级结构之外,部分或完全地位于二级结构内部,或位于参与二级结构的序列之间。序列元件可具有任何适合的长度,例如长度约、小于约或大于约3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50或更多个核苷酸。衔接头寡核苷酸可具有任何适合的长度,至少足以容纳一个或多个组成它们的序列元件。在一些实施方案中,衔接头在长度上为约、小于约或大于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200或更多个核苷酸。
在一些实施方案中,联接于来自一个样品的片段化多核苷酸的衔接头寡核苷酸包含一个或多个对于所有衔接头是共同的序列和对于联接于该特定样品的多核苷酸的衔接头是唯一的条形码,以便条形码序列可用于区分源自一个样品或衔接头连接反应的多核苷酸与源自另一个样品或衔接头连接反应的多核苷酸。在一些实施方案中,衔接头寡核苷酸包含5’悬突、3’悬突或两者,所述悬突与一个或多个靶多核苷酸悬突互补。互补悬突在长度上可以是1个或更多个核苷酸,包括但不限于在长度上为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个核苷酸。互补悬突可包含固定序列。衔接头寡核苷酸的互补悬突可包含一个或多个核苷酸的随机序列,以便一个或更多个核苷酸随机选自在一组两个或更多个在一个或多个位置上不同的核苷酸,在一个或多个位置上选择的每一个不同的核苷酸代表一池具有包含随机序列的互补悬突的衔接头。在一些实施方案中,衔接头悬突与通过限制性内切核酸酶消化产生的靶多核苷酸悬突互补。在一些实施方案中,衔接头悬突由腺嘌呤或胸腺嘧啶组成。
在一些实施方案中,衔接头寡核苷酸包含一条包含序列元件序列D的链。在一些实施方案中,衔接头寡核苷酸包含与互补序列D’杂交的序列D,其中序列D’与序列D在相同或不同的链上。在一些实施方案中,将靶多核苷酸的3’末端延着衔接头寡核苷酸延伸以产生互补序列D’。在优选实施方案中,组合并处理片段化多核苷酸和衔接头寡核苷酸(例如通过连接和任选地通过片段延伸),以产生包含在两个末端联接于衔接头寡核苷酸序列的片段化多核苷酸序列的双链的、衔接头连接的多核苷酸,其中多核苷酸的两个末端均包含与序列D’杂交的序列D。在一些实施方案中,进行衔接头连接的片段化多核苷酸的量为约、少于约或多于约50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1000ng、1500ng、2000ng、2500ng、5000ng、10μg或更多(例如阈值量)。在一些实施方案中,在进行衔接头连接之前测定片段化多核苷酸的量,其中如果所述量低于阈值量则不进行衔接头连接。
如本文中所用,关于两个多核苷酸例如衔接头寡核苷酸和样品多核苷酸,术语“联接”和“连接”是指两个单独的多核苷酸的共价附接,以产生具有连续主链的单个更大的多核苷酸。用于联接两个多核苷酸的方法在本领域中是已知的,包括但不限于酶促和非酶促(例如化学)方法。为非酶促的连接反应的实例描述于美国专利号5,780,613和5,476,930(其在此通过引用并入)中。在一些实施方案中,通过连接酶例如DNA连接酶或RNA连接酶将衔接头寡核苷酸联接于片段化多核苷酸。多种各自具有表征的反应条件的连接酶在本领域中是已知的,包括但不限于NAD+依赖性连接酶,包括tRNA连接酶、Taq DNA连接酶、丝状栖热菌(Thermus filiformis)DNA连接酶、大肠杆菌(Escherichia coli)DNA连接酶、Tth DNA连接酶、水管致黑栖热菌(Thermus scotoductus)DNA连接酶(I和II)、热稳定性连接酶、Ampligase热稳定性DNA连接酶、VanC型连接酶、9°N DNA连接酶、TspDNA连接酶和通过生物勘测方法发现的新型连接酶;ATP依赖性连接酶,包括T4RNA连接酶、T4DNA连接酶、T3DNA连接酶、T7DNA连接酶、Pfu DNA连接酶、DNA连接酶1、DNA连接酶III、DNA连接酶IV和通过生物勘测方法发现的新型连接酶;以及其野生型、突变同种型和遗传工程化变体。连接可在于具有可杂交序列的多核苷酸例如互补悬突之间。连接还可在两个钝端之间。一般而言,在连接反应中利用5’磷酸。5’磷酸可由片段化多核苷酸、衔接头寡核苷酸或两者提供。根据需要,可将5’磷酸添加至待连接的多核苷酸或从其移除。用于添加或移除5’磷酸的方法在本领域是已知的,包括但不限于酶促和化学方法。用于5’磷酸的添加和/或移除的酶包括激酶、磷酸酶和聚合酶。在一些实施方案中,在连接反应中联接的两个末端(例如衔接头末端和片段化多核苷酸末端)均提供5’磷酸,以便在联接两个末端中在片段化多核苷酸的一个或两个末端产生两个共价键。在一些实施方案中,在连接之前移除3’磷酸。在一些实施方案中,将衔接头寡核苷酸添加至片段化多核苷酸的两个末端,其中将每一个末端上的一条或两条链联接于一个或多个衔接头寡核苷酸。在一些实施方案中,使用包含对于每一个样品至少一种不同的条形码序列的不同的衔接头寡核苷酸对不同样品进行单独的连接反应,以便将条形码序列联接于不超过一个待并行分析的样品的靶多核苷酸。
衔接头寡核苷酸的非限制性实例包括通过使CACTCAGCAGCACGACGATCACAGATGTGTATAAGAGACAGT(SEQ ID NO:17)与GTGAGTCGTCGTGCTGCTAGTGTCTACACATATTCTCTGTC(SEQ ID NO:18)杂交形成的双链。衔接头寡核苷酸的另外的非限制性实例描述于US20110319290和US20070128624(其通过引用并入本文)。
在一些实施方案中,将衔接头连接的多核苷酸经历扩增样品中的靶多核苷酸的扩增反应。在一些实施方案中,扩增使用包含序列C、序列D和与样品相关的条形码的引物,其中序列D位于扩增引物的3’末端。扩增引物可具有任何适合的长度,例如约、小于约或大于约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或更多个核苷酸,其任意部分或全部可与引物所杂交的对应靶序列(例如约、小于约或大于约5、10、15、20、25、30、35、40、45、50或更多个核苷酸)互补。“扩增”是指籍以增加靶序列的拷贝数的任何过程。用于靶多核苷酸的引物指导的扩增方法在本领域是已知的,包括但不限于基于聚合酶链式反应(PCR)的方法。有利于通过PCR扩增靶序列的条件在本领域是已知的,可在方法中的不同步骤上进行最优化,并且取决于反应中元件的特征,例如靶类型、靶浓度、待扩增的序列长度、靶序列和/或一个或多个引物、引物长度、引物浓度、使用的聚合酶、反应体积、一个或多个元件对一个或多个其它元件的比率等等,其一些或全部可被改变。一般而言,PCR包括如下步骤:将待扩增的靶变性(如果是双链的话),将一个或多个引物与靶杂交和利用DNA聚合酶延伸引物,重复(或“循环”)步骤以扩增靶序列。可以为了各种结果例如增加产率、减少假产物的形成和/或增强或减弱引物退火的特异性对该方法中的步骤最优化。最优化的方法在本领域是公知的,包括在扩增反应中对元件的类型或量和/或方法中给定步骤的条件,例如特定步骤的温度、特定步骤的持续时间和/或循环次数的调整。在一些实施方案中,扩增反应包括至少5、10、15、20、25、30、35、50或更多个循环。在一些实施方案中,扩增反应包含不超过5、10、15、20、25、35、50或更多个循环。循环可包括任意数目的步骤,例如1、2、3、4、5、6、7、8、9、10或更多步骤。步骤可包括适合用于实现给定步骤的目的(包括但不限于标准变性、引物退火和引物延伸)的任意温度或温度的梯度。步骤可具有任何持续时间,包括但不限于约、少于约或多于约1、5、10、15、20、25、30、35、40、45、50、55、60、70、80、90、100、120、180、240、300、360、420、480、540、600或更多秒,包括无限地直至人工中断。可按任何顺序组合包括不同步骤的任何次数的循环。
在一些实施方案中,扩增包括扩增引物的3’末端上的序列D与序列D’之间的杂交、扩增引物沿着衔接头连接的多核苷酸的延伸(以产生包含来源于扩增引物的序列D和在引物延伸过程中产生的序列D’的引物延伸产物)。在一些实施方案中,通过使引物延伸产物与模板多核苷酸变性和使用引物延伸产物作为用于进一步的引物延伸反应的模板重复扩增过程来重复扩增过程一或多次。在一些实施方案中,使用与用于第一引物延伸反应的引物相同的引物重复第一循环的引物延伸,例如进行约、少于约或多于约5、10、15、20、25、30、35、50或更多个循环。在一些实施方案中,在通过扩增引物进行一个或多个引物延伸后,使用第二扩增引物进行一个或多个扩增循环,所述第二扩增引物具有包含与通过利用第一扩增引物(例如与序列C或其部分的互补序列的互补性)的扩增添加至衔接头连接的多核苷酸的序列互补的序列的3’末端。在一些实施方案中,第二扩增引物在3’末端包含序列C或其部分。第二扩增引物的非限制性实例包括CGAGATCTACACGCCTCCCTCGCGCC ATCAG(SEQ ID NO:19)。在一些实施方案中,利用第二扩增引物的扩增包括约、小于约或大于约5、10、15、20、25、30、35、50或更多个循环。在一些实施方案中,进行扩增的衔接头连接的多核苷酸的量为约、小于约或大于约50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1000ng、1500ng、2000ng、2500ng、5000ng、10μg或更多(例如阈值量)。在一些实施方案中,在进行扩增之前测定衔接头连接的多核苷酸的量,其中如果所述量低于阈值量则不进行扩增。
在一些实施方案中,扩增引物包含条形码。如本文中所用,术语“条形码”是指允许与条形码连接的多核苷酸的一些特性被鉴定的已知的核酸序列。在一些实施方案中,待鉴定的多核苷酸的特性是从所述多核苷酸所源自的样品。在一些实施方案中,条形码在长度上为约或至少约3、4、5、6、7、8、9、10、11、12、13、14、15或更多个核苷酸。在一些实施方案中,条形码在长度上短于10、9、8、7、6、5或4个核苷酸。在一些实施方案中,与一些多核苷酸连接的条形码具有与与其它多核苷酸连接的条形码不同的长度。一般而言,条形码具有足够的长度,并且包含充分不同的序列,以允许基于与它们相关的条形码来鉴定样品。在一些实施方案中,条形码以及与其相关的样品来源,可在条形码序列中一个或多个核苷酸的突变、插入或缺失,例如1、2、3、4、5、6、7、8、9、10或更多个核苷酸的突变、插入或缺失后被准确地鉴定。在一些实施方案中,多个条形码中的每一个条形码在至少3个核苷酸位置,例如至少3、4、5、6、7、8、9、10或更多个核苷酸位置上与多个条形码中的每一个其它条形码相异。多个条形码可代表一池样品,每一个样品包含含有一个或多个条形码的多核苷酸,所述条形码与来源于样品池中另外的样品的多核苷酸中包含的条形码不同。可基于它们所联接至的条形码序列混合包含一个或多个条形码的多核苷酸的样品,以便所有四个核苷酸碱基A、G、C和T大致均匀地出现在沿着样品池中每一个条形码的一个或多个位置(例如在1、2、3、4、5、6、7、8或更多位置,或条形码的所有位置)上。在一些实施方案中,本方法的发明还包括基于靶多核苷酸所联接的条形码序列鉴定所述靶多核苷酸所源自的样品。一般而言,条形码包括当被联接于靶多核苷酸时用作所述靶多核苷酸所源自的样品的标识符的核酸序列。
在一些实施方案中,使用对于每一个样品包含至少一种不同的条形码序列的扩增引物对单独的样品进行单独的扩增反应,以便条形码序列被联接于两个或多个样品的样品池中不超过一个样品的靶多核苷酸。在一些实施方案中,在进行多核苷酸的随后处理之前(例如在于固体支持物上扩增和/或测序之前),将来源于不同样品并且包含不同条形码的经扩增的多核苷酸混合。样品池可包含总的组成扩增反应的任何级分,包括总的反应体积。可均匀或不均匀地混合样品。在一些实施方案中,可基于它们所联接至的条形码混合靶多核苷酸。样品池可包含来源于约、小于约或大于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、20、25、30、40、50、75、100或更多种不同的样品的多核苷酸。可将样品以为4的倍数的份数(例如4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64、96、128、192、256、384等)混合,以便所有4种核苷酸碱基A、G、C和T均匀地出现在沿着条形码的一个或多个位置上。条形码的非限制性实例包括AGGTCA、CAGCAG、ACTGCT、TAACGG、GGATTA、AACCTG、GCCGTT、CGTTGA、GTAACC、CTTAAC、TGCTAA、GATCCG、CCAGGT、TTCAGC、ATGATC和TCGGAT。在一些实施方案中,条形码被定位在扩增引物的序列D与序列C之前,或以5'至3'方向在序列C和序列D之后(“下游”)。在一些实施方案中,扩增引物包含如下序列或由如下序列组成:CGAGATCTACACGCCTCCCTCGCGCCATCAGXXXXXXCACTCAGCAGCACGACGATCAC(SEQ ID NO:21),其中每个“X”代表条形码的0、1或多个核苷酸。
扩增引物的非限制性实例提供于表1中:
表1:
在一些实施方案中,靶多核苷酸与多个附接于固体载体(例如本文中描述的任何装置)的寡核苷酸杂交。杂交可在一个或多个样品处理步骤(例如衔接头联接和扩增)之前或之后。在优选实施方案中,在两个衔接头联接和一个或多个扩增反应后,将靶多核苷酸与固体载体上的寡核苷酸杂交。固体载体上的寡核苷酸可与如下序列杂交:随机多核苷酸序列、对于多个不同的靶多核苷酸是共同的特异性序列(例如一个或多个来源于衔接头寡核苷酸的序列,例如序列D、D',或其部分;一个或多个来自源于扩增引物的序列,例如序列C、C'或其部分;这些序列的组合)、对于不同的靶多核苷酸是特异性的序列(例如由本文中描述的序列B表示的)或这些序列的组合。在一些实施方案中,固体载体包括:多个不同的包含序列A和序列B的第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的第一寡核苷酸是不同的,位于每一个第一寡核苷酸的3'末端。在一些实施方案中,多个第一寡核苷酸包含约、小于约或大于约5、10、25、50、75、100、125、150、175、200、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多种不同的寡核苷酸,所述寡核苷酸各自包含不同的序列B。在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B包含选自SEQ ID NO 22-121的序列,如图4中显示的(例如,1、5、10、25、50、75或100个不同的各自具有来自图4的不同序列的不同的寡核苷酸)。在一些实施方案中,序列B或与其特异性杂交的靶序列包含致病性遗传变体,如本文所描述的。在一些实施方案中,序列B或与其特异性杂交的靶序列在致病性遗传变体的约、小于约或大于约1、2、3、4、5、6、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内,如本文所描述的。致病性遗传变体通常位于第一寡核苷酸的下游,以便至少一部分致病性遗传变体用作用于第一寡核苷酸延伸的模板。固体载体还可以包含多个第二寡核苷酸和多个第三寡核苷酸,所述第二寡核苷酸在每一个第二寡核苷酸的3'末端包含序列A,所述第三寡核苷酸在每一个第三寡核苷酸的3'末端包含序列C,如本文中所描述的。
在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B或与其特异性杂交的靶序列包含非主题序列。在一些实施方案中,序列B或与其特异性杂交的靶序列在非主题序列的约、小于约或大于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸列内。一般而言,非主题序列对应于来源于除待测试或样品所获自的个体外的生物体的多核苷酸,例如来自细菌、古细菌、病毒、真菌或其它生物体的DNA或RNA。非主题序列还可包括来自胎儿的核酸,例如来自胎儿的无细胞核酸(也称为细胞外核酸)。非主题序列可指示生物体的身份或生物体的种类,并且还可以是指示疾病状态,例如感染。用于鉴定生物体的非主题序列的实例包括但不限于例如rRNA序列,例如16srRNA序列(参见例如WO2010151842)。在一些实施方案中,分析非主题序列而非致病性遗传变体,或将非主题序列与致病性遗传变体单独分析。在一些实施方案中,例如在同一样品中(例如使用第一寡核苷酸的混合物,一些具有与包含致病性遗传变体的序列或致病性遗传变体附近的序列特异性杂交的序列B,一些具有与包含非主题序列的序列或非主题序列附近的序列特异性杂交的序列B)和/或在同一份报告中,对致病性遗传变异体和非主题序列进行并行分析。
在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B或与其特异性杂交的靶序列包含祖先信息标记(AIM)。在一些实施方案中,序列B或与其特异性杂交的靶序列在AIM的约、小于约或大于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内。AIM可以用于将人归类为属于或不属于一个或多个人群,例如处于增加的具有致病性遗传变体之一的风险中的群体。例如,AIM对于其中性状处于增加的流行中的群体具有诊断价值。在某些情况下,AIM可以以更细的粒度区分群体,例如区分次大陆人群或相关种族群。在一些实施方案中,分析AIM而非致病性遗传变体和/或非主题序列,或将AIM与非致病性遗传变体和/或非主题序列单独分析。在一些实施方案中,例如在同一样品中(例如,使用第一寡核苷酸的混合物,一些具有与包含致病性遗传变体的序列或致病性遗传变体附近的序列特异性杂交的序列B,一些具有与包含AIM的序列或AIM附近的序列特异性杂交的B序列)和/或在相同的报告中,对AIM、致病性遗传变体和/或非主题序列进行并行分析。
在一些实施方案中,所述方法还包括在固体载体进行桥扩增。一般而言,桥扩增使用如下重复步骤:使引物退火与模板退火、延伸引物和使延伸的引物与模板分离。通常可使用PCR(或反转录酶加PCR)技术中对于本领域普通技术人员来说是已知的的试剂和条件进行这些步骤。在PCR中的试剂和条件下进行,这些步骤(或反转录酶加PCR)技术。因此,可将核酸聚合酶与多个核苷三磷酸分子(或用作存在于DNA/RNA中的核苷酸的前体的其它分子,例如修饰的核苷三磷酸前体)的供应一起使用,以在适合的模板存在的情况下延伸引物。期望提供过量的脱氧核苷三磷酸。缩写为优选的脱氧核苷三磷酸:dTTP(脱氧胸苷核苷三磷酸)、dATP(脱氧腺苷核苷三磷酸)、dCTP(脱氧胞苷核苷三磷酸)和dGTP(脱氧鸟苷核苷三磷酸)。优选核苷三磷酸是UTP、ATP、CTP和GTP。然而,替代是可能的。这些核苷三磷酸可以是天然或非天然存在的。还可提供通常用于PCR反应的类型的缓冲液。用于在引物延伸过程中掺入核苷酸的核酸聚合酶,优选在用于使用的反应条件下是稳定的,以便其可被使用数次。因此,当将加热用于将新合成的核酸链与其模板分离时,核酸聚合酶优选在所使用的温度下是热稳定的。这样的热稳定聚合酶对于本领域普通技术人员来说是已知的。它们可获自嗜热微生物,并且包括称为Taq聚合酶的DNA依赖性DNA聚合酶以及其热稳定性衍生物。
通常,引物对其模板的退火在25至90℃的温度下发生。通常也在引物延伸过程中使用该范围内的温度,该温度可与在退火和/或变性过程中使用的温度相同或不同。一旦足够的时间已经过去,以允许退火,以及也允许期望程度的引物延伸发生,必要时可升高温度,以允许链分离。在此阶段,通常将温度升高至60至100℃的温度。还使用高的温度以减少在退火之前的非特异性引发的问题,和/或控制扩增起始的定时,例如以同步许多样品的扩增起始。或者,可通过用具有低盐和高pH(>12)的溶液处理或通过使用离液盐(例如盐酸胍)或通过有机溶剂(例如甲酰胺)来分离链。
在链分离(例如通过加热)后,进行洗涤步骤。在初始轮的退火、引物延伸和链分离之间可省略洗涤步骤,例如如果期望在固定引物的附近维持相同模板的话。这允许模板被使用数次来起始群体形成。可以例如通过控制发生的退火、引物延伸和链分离的轮数来控制通过在固体载体上扩增产生的集落的大小。还可控制影响集落大小的其它因素。这些因素包括在固定引物的表面上的数目和排列、引物被固定于其上的载体的构造、模板和/或引物分子的长度和刚性、温度以及可在其中进行上述循环的流体的离子强度和粘性。
根据本发明的方法的扩增法的非限制性实例示于图1中和在下文中进行描述。首先,附接于固体载体并且在其3’末端包含序列B的第一寡核苷酸与互补靶序列B’,例如对于多个不同的靶多核苷酸(例如特定基因组DNA序列)中的特定靶多核苷酸是独特的序列特异性杂交。这样,序列B用作探针。图1中的靶多核苷酸包含来源于衔接头寡核苷酸(例如序列D和D’)和来自扩增引物(例如C和C’)的序列。第一寡核苷酸的延伸产生附接于固体载体的第一延伸产物,第一延伸产物从5’至3’包含序列A、B、C’和D’,其中序列C’与序列C互补并且序列D’与序列D互补。随后将第一延伸产物与靶多核苷酸模板(例如通过加热或化学变性)分离。第一延伸产物的序列C’随后与附接于固体载体的多个第三寡核苷酸之一杂交,第三寡核苷酸在其3’末端包含序列C。第三寡核苷酸的延伸产生附接于固体载体的第二延伸产物,第二延伸产物从5’至3’包含序列C、D、B’和A’,其中序列B’与序列B互补并且序列A’与序列A互补。两个延伸产物形成双链多核苷酸“桥”,一条链在两个末端附接于固体载体。随后使第一和第二延伸产物变性,随后延伸产物与其它寡核苷酸之间发生序列杂交,随后延伸复制第一和第二延伸产物。例如,每一个第一延伸产物可与另外的第三寡核苷酸杂交以产生另外拷贝的第二延伸产物。此外,第二延伸产物可与附接于固体载体的多个第二寡核苷酸之一杂交,第二寡核苷酸在其3’末端包含序列A。第二寡核苷酸的延伸产生包含第一延伸产物的序列的延伸产物。连续轮的沿着延伸产物延伸从初始第一延伸产物向外辐射,产来源于单个靶多核苷酸的第一延伸产物及其互补第二延伸产物的簇或“集落”。可改进该方法以容纳包含不同序列或序列排列的寡核苷酸、不同的靶多核苷酸或靶多核苷酸的组合、数类固体载体以及取决于特定桥扩增反应的其它考虑。一般而言,该方法提供了在固定表面上进行的来自包含靶多核苷酸和非靶多核苷酸的样品多核苷酸的特定靶多核苷酸的扩增。一般而言,选择性扩增靶多核苷酸,同时不扩增样品中的非靶多核苷酸,或将其扩增至低得多的程度,例如约或小于约一个或多个靶多核苷酸的约1/10、1/100、1/500、1/1000、1/2500、1/5000、1/10000、1/25000、1/50000、1/100000、1/1000000或更小分数。
在一些实施方案中,经历桥扩增的来自先前扩增步骤的经扩增的多核苷酸的量为约、小于约或大于约50ng、100ng、500ng、1μg、2μg、3μg、4μg、5μg、6μg、7μg、8μg、9μg、10μg、11μg、12μg、13μg、14μg、15μg、20μg、25μg、26μg、27μg、28μg、29μg、30μg、40μg、50μg或更多(例如阈值量)。在一些实施方案中,在进行桥扩增之前,测定来自先前扩增步骤的经扩增的多核苷酸的量,其中如果量低于阈值量,则不进行桥扩增。
在一些实施方案中,在桥扩增后,对附接至固体载体的多个寡核苷酸进行测序来进行桥扩增。用于对附接于固体载体的多核苷酸进行测序的一般方法,包括试剂和反应条件,在本领域中是已知的。在一些实施方案中,测序包括单末端测序或由其组成。在一些实施方案中,测序包括配对末端测序。可使用任何适当的测序技术进行测序,其中将核苷酸连接地添加至游离3′羟基,从而导致以5′至3′方法合成多核苷酸链。优选在每一个核苷酸添加后确定添加的核苷酸的身份。使用通过连接进行的测序的测序技术(其中不对每一个连续碱基进行测序)和其中从表面上的链除去碱基而非添加碱基的技术例如大规模并行信号测序(MPSS)也在本发明的范围内,使用焦磷酸释放的检测的技术(焦磷酸测序)也在本发明的范围内。这种基于焦磷酸测序的技术特别适用于对珠粒的测序阵列,在所述阵列中珠粒在乳液中已被扩增,以便来自文库分子的单个模板在每一个珠粒上被扩增。
可用于本发明的方法的一个具体测序方法依赖于可充当可逆链终止子的修饰核苷酸。这样的可逆链终止包括可移除的3'封闭基团,例如如在WO04018497和US7057026中所描述的。一旦这样的修饰核苷酸被掺入正在生长的与待测序的模板的区域互补的核苷酸链,则无游离3'-OH基团可用于指导进一步序列延伸,从而聚合酶不能添加另外的核苷酸。一旦掺入生长链的碱基的身份已被确定,则3'块可被移除以允许添加下一个连续的核苷酸。通过定购使用这些修饰核苷酸衍生的产品,可能推断出DNA模板的DNA序列。可在单个实验中进行这样的反应,如果每一个修饰核苷酸已连接有不同的标记(已对应于特定碱基),以有利于区分在每一个掺入步骤添加的碱基。合适的标记的非限制性实例描述于WO/2007/135368(其内容通过引用整体并入本文)。或者,可进行单独的反应以包含每一个单独添加的修饰核苷酸。
经修饰的核苷酸可以携带标记来以帮助它们的检测。在一个具体的实施方案中,标记是荧光标记。每一个核苷酸类型可携带不同的荧光标记。然而,可检测标记不必是荧光标记。可使用允许检测核苷酸至DNA序列中的掺入的任何标记。一种用于检测荧光标记的核苷酸的方法包括使用对于标记核苷酸是特异性的波长的激光,或使用其它适合的照明光源。可利用CCD照相机或其它适合的检测工具来检测来自掺入的核苷酸上的标记的荧光。适合的检测工具描述于WO/2007/123744(其内容通过引用整体并入本文)中。
在一些实施方案中,从通过在附接于固体载体的寡核苷酸中包含的切割位点上切割产生的3'末端进行第一测序反应,该寡核苷酸在桥扩增过程中延长。在一些实施方案中,在通过附接的寡核苷酸的延伸测序之前,将切割的链与其互补链分离。在一些实施方案中,使用具有链置换活性的聚合酶延伸具有通过切割产生的新的游离3'末端的附接的寡核苷酸,以便当延伸新链时,切割链被置换。在一些实施方案中,附接的寡核苷酸的延伸沿着来自扩增反应的全长模板延伸产物进行,这在一些实施方案中包括延伸超出最后识别的核苷酸。在一些实施方案中,随后在附接于固体载体的寡核苷酸中包含的切割位点上切割模板延伸产物,随后对在测序反应过程中延伸的寡核苷酸进行线性化,用以产生游离的第一测序延伸产物。随后第一测序产物的5'端可用作第二测序反应的模板,这可通过测序引物的延伸来进行(例如本文所述的测序引物)或通过从在切割位点上切割产生的3'末端延伸来进行)。在一些实施方案中,沿着待测序的模板多核苷酸鉴定的核苷酸的平均或中值数为约、小于约或大于约10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、300、400、500个或更多个。
在一些实施方案中,测序包括处理桥扩增产物以大体上全部除去或除去或置换“桥”结构中的固定链之一的至少一部分,以产生为至少部分单链的模板。为单链的模板的一部分从而将可用于与测序引物杂交。除去桥接双链核酸结构中的一个固定链的全部或部分的过程在本文中称可为“线性化”,并进一步详细地描述于WO07010251(其内容通过引用整体并入本文)中。
桥接模板结构可通过用限制性内切核酸酶切割一条或两条链或通过用切口内切核酸酶切割一条链来进行线性化。切割的其它方法可用作对限制性内切酶或切口酶的替代,包括但不限于:化学切割(例如利用高碘酸盐进行的二醇键的切割)、通过利用内切核酸酶的切割进行的无碱基位点的切割(例如,“USER”,如由NEB提供的,部分号M5505S),通过对热或碱的暴露,掺入其余部分由脱氧核糖核苷酸组成的扩增产物的核糖核苷酸的切割、肽接头的光化学裂解或裂解。在一些实施方案中,可能要避免线性化步骤,例如当仅用一个共价固定的扩增寡核苷酸和另一个在溶液中游离的扩增寡核苷酸进行固相扩增时。按照裂解步骤,无论用于切割的方法是什么,可将切割反应的产物经历变性条件以除去未附接于固体载体的切割链的部分。适合的变性条件,例如氢氧化钠溶液、甲酰胺溶液或热在本领域是已知的,如在标准分子生物学方案(Sambrook等人,2001,Molecular Cloning,ALaboratory Manual,第3版,Cold Spring Harbor Laboratory Press,Cold SpringHarbor Laboratory Press,NY;Current Protocols,编辑Ausubel等人)中描述的。变性导致部分或大体上为单链的测序模板产生。随后可通过将测序引物与模板的单链部分杂交启动测序反应。因此,本发明包括这样的方法,其中核酸测序反应包括将测序引物与线性化的扩增产物的单链区杂交,随后依次将一个或多个核苷酸掺入与待测序的扩增模板的区域互补的多核苷酸链,鉴定存在于一个或多个掺入的核苷酸中的碱基,从而测定模板链的区域的序列。
在一些实施方案中,测序引物包含与来源于衔接头寡核苷酸、扩增引物、附接于固体载体的寡核苷酸或这些序列的组合的一个或多个序列互补的序列。在一些实施方案中,测序引物包含序列D或其部分。在一些实施方案中,测序引物包含序列C或其部分。测序引物可具有任何适合的长度,例如约、小于约或大于约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或更多个核苷酸,其任意部分或全部可与和引物杂交的对应的靶序列(例如约、小于约或大于约5、10、15、20、25、30、35、40、45、50或更多个核苷酸)互补。在一些实施方案中,测序引物包含序列CACTCAGCAGCACGACGATCACAGATGTGTATAAGAGACAG(SEQIDNO:20)。
一般而言,测序引物的延伸产生测序延伸产物。在测序方法中鉴定的添加至测序延伸产物的核苷酸的数目可取决于许多因素,包括模板序列、反应条件、所用试剂和其它因素。在一些实施方案中,沿着正在生长的测序引物鉴定的核酸的平均或中值数为约、小于约或大于约10、15、20、25、30、35、40、45、50、60、70、80、90、100、150、200、300、400、500或更多个。在一些实施方案中,测序引物沿着来自扩增反应的模板引物延伸产物的全长延伸,在一些实施方案中,这包括延伸超出最后识别的核苷酸。
在一些实施方案中,将测序延伸产物经历变性条件以从与其杂交的附接的模板链除去测序延伸产物,以使该模板部分地或完全地成为单链并且可用于与第二测序引物杂交。第二测序引物可与第一测序引物相同或不同。在一些实施方案中,第二测序引物与比与第一测序引物杂交的序列更靠近靶序列的5'末端的序列杂交。在一些实施方案中,第二测序引物与比与第一测序引物杂交的序列更靠近靶核酸的3'末端的序列杂交。在一些实施方案中,第一和第二测序引物仅有一个沿着条形码序列被延长,从而鉴定条形码序列的核苷酸。在一些实施方案中,一个测序引物(例如,第一测序引物)与位于条形码的5'的序列杂交(以便该测序引物的延伸不产生与条形码互补的序列),另一个测序引物(例如,第二测序引物)与位于条形码的3'的序列杂交(以便该测序引物的延伸产生与条形码互补的序列)。在一些实施方案中,第二测序引物包含SEQ ID NO:19。
本发明无意限制于上述测序方法的使用,因为可使用基本上任何依赖于核苷酸至多核苷酸链中的连续掺入的测序方法。适当的技术包括例如US6306597、US20090233802、US20120053074和US20110223601(其在此通过引用整体并入)中描述的技术。在其中使用链再合成的情况下,必须以允许一部分固定的链随后释放的方式将两条链固定于表面。这可通过WO07010251(其内容在此通过引用整体并入本文)中描述的许多机制来实现。例如,一个引物可包含尿嘧啶核苷酸,这意指可使用除去核苷酸碱基的尿嘧啶DNA糖基化酶(UDG)和切割无碱基核苷酸的内切核酸酶VIII在尿嘧啶上切割链。该酶组合可作为USERTM从NewEngland Biolabs(NEB部件编号M5505)获得。第二引物可包含8-羟基鸟嘌呤核苷酸,随后其利用酶FPG(NEB部件号M0240)切割。该引物的设计提供了对该引物在过程中的哪个点上进行切割以及还有在簇中哪个位置上进行切割的完整控制。还可以例如用二硫化物或二醇修饰对引物进行化学修饰,所述修饰允许在指定的位置进行化学切割。
在一些实施方案中,在单个反应容器(例如流动池中的通道)中从约、少于约或多于约5、10、25、50、100、150、200、250、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多个不同的来自样品的靶多核苷酸产生测序数据。在一些实施方案中,并行地产生多个样品例如约、少于约或多于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000或更多个样品的测序数据。在一些实施方案中,在单个反应容器(例如流动池中的通道)中产生多个样品例如约、少于约或多于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000或更多个样品的测序数据,随后按照测序的多核苷酸所源自的样品将测序数据分组。在单个反应中,产生约或至少约106、107、108、2x108、3x108、4x108、5x108、109、1010或更多个来自桥扩增反应的靶多核苷酸或簇的测序数据,对于反应中的每一个样品其可包含约、少于约或多于约104、105、106、2x106、3x106、4x106、5x106、107、108或更多个靶多核苷酸或簇的测序数据。在一些实施方案中,基于测序数据测定样品的约、少于约或多于约5、10、25、50、75、100、125、150、175、200、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多个致病性遗传变体的存在、不存在或基因型。可测定一个或多个致病性遗传变体的存在、不存在或基因型,准确度为约或高于约80%、85%、90%、95%、97.5%、99%、99.5%、99.9%或更高。
在一些实施方案中,例如通过使用一个或多个自动化设备使本发明的方法中的一个或多个或所有步骤自动化。一般而言,自动化设备是能够在无人指导的情况下运行的设备—这种自动化系统可在人已完成采取任何促进功能的行动后的时间过程中进行功能,例如通过将指令输入计算机,之后自动化设备进行一个或多个步骤而无需进一步的人操作。软件和程序,包括执行本发明的实施方案的代码,可贮存在一些类型的数据存储介质上,例如CD-ROM、DVD-ROM、磁带、闪存驱动器或软盘或其它适当的计算机可读介质。还可以仅以硬件或软件与硬件的组合实现本发明的各种实施方案。例如,在一个实施方案中,使用可编程逻辑控制器(PLC)而非常规个人计算机。如对于本领域普通技术人员是已知的,PLC被频繁地用于多种其中一般目的的计算机的花费不是必需的过程控制。PLC可以以已知的方式构造来执行一个或多个控制程序,并且能够以与个人计算机的方式相似的方式接收来自用户或另一台设备的输入和/或给用户或另一个设备提供输出。因此,虽然根据一般目的计算机描述了本发明的实施方案,但应当理解,一般目的计算的使用仅是示例性的,因为可使用其它构型。
在一些实施方案中,自动化可包括一个或多个液体处理器和相关软件的使用。几个商购可得的液体处理系统可用于运行这些过程的自动化(参见例如来自例如Perkin-Elmer,Beckman Coulter,Caliper Life Sciences,Tecan,Eppendorf,Apricot Design,Velocity 11的液体处理器)。在一些实施方案中,自动化步骤包括片段化、末端修复、A加尾(腺嘌呤悬突的添加)、衔接头联接、PCR扩增、样品定量(例如DNA的量和/或纯度)和测序的一项或多项。在一些实施方案中,使扩增多核苷酸对附接于固体表面的寡核苷酸的杂交、沿着作为模板的扩增多核苷酸的延伸和/或桥扩增自动化(例如通过使用Illumina cBot)。用于进行桥扩增的设备的非限制性实例描述于WO2008002502中。在一些实施方案中,使测序自动化。多种自动化测序机器是商购可得的,包括由Life Technologies(SOLiD平台,和基于pH的检测)、Roche(454平台)、Illumina(例如基于流动池的系统,例如Genome Analyzer,HiSeq,或MiSeq系统)制造的测序仪。2、3、4、5或更多个自动化设备之间(例如液体处理器、桥扩增设备和测序设备的一个或多个之间)的转移可以是人工的或自动化的。在一些实施方案中,本发明的方法中的一个或多个步骤(例如所有步骤或所有自动化步骤)在约或少于约72、48、24、20、18、16、14、12、10、9、8、7、6、5、4、3、2、1或更少小时内完成。在一些实施方案中,从样品接收、DNA提取、片段化、衔接头联接、扩增或桥扩增至测序数据的产生的时间为约或少于约72、48、24、20、18、16、14、12、10、9、8、7、6、5、4、3、2、1或更少小时。
在一个方面,本发明提供了富集样品中的多个不同的靶多核苷酸的方法。在一些实施方案中,所述方法包括:(a)将衔接头寡核苷酸联接于每一个靶多核苷酸,其中衔接头寡核苷酸包含序列Y;(b)将多个不同的寡核苷酸引物与衔接头连接的靶多核苷酸杂交,其中每一个寡核苷酸引物包含序列Z和序列W;其中序列Z对于所有寡核苷酸引物是共同的;并且另外地其中序列W对于每一个不同的寡核苷酸引物是不同的,位于每一个寡核苷酸引物的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;(c)在延伸反应中,沿着衔接头连接的靶多核苷酸延伸寡核苷酸引物以产生包含序列Z和序列Y’的延伸的引物,其中序列Y’与序列Y互补;和(d)使用一对含引物指数扩增延伸的引物,所述扩增引物包含(i)包含序列V和序列Z的第一扩增引物,其中序列Z位于第一扩增引物的3’末端;和(ii)包含序列X和序列Y的第二扩增引物,其中序列Y位于第二扩增引物的3’末端。在一些实施方案中,每一个寡核苷酸引物包含第一结合伴侣。在一些实施方案中,所述方法还包括在步骤(d)之前,将延伸的引物暴露于包含结合第一结合伴侣的第二结合伴侣的固体表面,从而将延伸的引物从延伸反应的一个或多个组分纯化出来。在一些实施方案中,序列V、W、X、Y和Z的一个或多个是不同的序列。在一些实施方案中,序列V和序列X是相同的。在一些实施方案中,序列V和/或序列X未包含在它们各自的引物中。在一些实施方案中,序列V、W、X、Y和Z的一个或多个与序列V、W、X、Y和Z的另一个的一个或多个相应约、少于约或多于约5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%或更多(例如具有低于约10%、20%、30%、40%、50%、60%、70%、80%、90%或更高的序列同一性)。在一些实施方案中,序列V、W、X、Y和Z的一个或多个各自包含约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20或更多个核苷酸。在一些实施方案中,序列V或序列Z等同于序列A,序列W等同于序列B,序列X等同于序列C,和/或序列Y等同于序列D,如关于本发明的其它方面所描述的。
在一个方面,本发明提供了富集样品的多个不同的靶多核苷酸的方法。在一些实施方案中,所述方法包括:(a)将多个不同的寡核苷酸引物与靶多核苷酸杂交,其中每一个寡核苷酸引物包含序列Z和序列W;其中序列Z在所有寡核苷酸引物中是共同的;并且另外地其中序列W对于每一个不同的寡核苷酸引物是不同的,位于每一个寡核苷酸引物的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;(b)在延伸反应中,沿着靶多核苷酸延伸寡核苷酸引物以产生延伸的引物;(c)将衔接头寡核苷酸联接于每一个延伸的引物,其中衔接头寡核苷酸包含序列Y’,并且另外地其中序列Y’与序列Y互补;和(d)使用一对扩增引物指数扩增延伸的引物,所述扩增引物包含(i)第一扩增引物,其包含序列V和序列Z,其中序列Z位于第一扩增引物的3’末端;和(ii)第二扩增引物,其包含序列X和序列Y,其中序列Y位于第二扩增引物的3’末端。在一些实施方案中,每一个寡核苷酸引物包含第一结合伴侣。在一些实施方案中,所述方法还包括在步骤(c)之前,将延伸的引物暴露于包含结合第一结合伴侣的第二结合伴侣的固体表面,从而将延伸的引物从延伸反应的一个或多个组分纯化出来。在一些实施方案中,序列V、W、X、Y和Z的一个或多个是不同的序列。在一些实施方案中,序列V和序列X是相同的。在一些实施方案中,序列V和/或序列X不包含在它们各自的引物中。在一些实施方案中,序列V、W、X、Y和Z的一个或多个与序列V、W、X、Y和Z的另一个的一个或多个相异约、小于约或大于约5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%或更多(例如,具有低于约10%、20%、30%、40%、50%、60%、70%、80%、90%或更高的序列同一性)。在一些实施方案中,序列V、W、X、Y和Z的一个或多个各自包含约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20或更多个核苷酸。在一些实施方案中,序列V或序列Z等同于序列A,序列W等同于序列B,序列X等同于序列C,和/或序列Y等同于序列D,如关于本发明的其它方面所描述的。
靶多核苷酸所源自的样品可包含来自相同个体的多个样品,来自不同个体的样品,或其组合。在一些实施方案中,样品包含多个来自单个个体的多核苷酸。在一些实施方案中,样品包含多个来自两个或更多个个体的多核苷酸。样品多核苷酸的来源和用于它们的纯化的方法在本文中进行了描述,例如关于本发明的其它方面所描述的。
在一些实施方案中,将靶多核苷酸片段化成具有一个或多个指定尺寸范围的片段化多核苷酸的群体。在一些实施方案中,经历片段化的样品多核苷酸的量为约、少于约或多于约50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1000ng、1500ng、2000ng、2500ng、5000ng、10μg或更多。在一些实施方案中,从约、少于约或多于约1、10、100、1000、10000、100000、300000、500000或更多个起始DNA的基因组等同物产生片段。可通过本领域已知的方法实现片段化,所述方法包括化学、酶促和机械片段化。在一些实施方案中,片段具有约10至约10,000个核苷酸的平均或中值长度。在一些实施方案中,片段具有约50至约2,000个核苷酸的平均或中值长度。在一些实施方案中,片段具有约、少于约或多于约100-2500、200-1000、10-800、10-500、50-500、50-250或50-150个核苷酸的平均或中值长度。在一些实施方案中,片段具有约、少于约或多于约200、300、500、600、800、1000、1500或更多个核苷酸的平均或中值长度。在本文中描述了片段化和任选的末端修复(包括任选的A加尾)的示例性方法在本文中,例如关于本发明的其它方面所描述的。可在衔接头寡核苷酸的联接之前的任何步骤,例如在寡核苷酸引物的延伸之前或之后进行末端修复。
在一些实施方案中,在片段化或寡核苷酸引物延伸后,将衔接头寡核苷酸连接于片段化的或延伸的多核苷酸(参见例如图5和7)。本文中描述了衔接头寡核苷酸以及用于它们的操作和至靶多核苷酸的联接的方法的实例,例如关于本发明的其它方面所描述的。在一些实施方案中,衔接头寡核苷酸包含一条包含序列元件序列Y的链。在一些实施方案中,衔接头寡核苷酸包含一条包含序列元件序列Y’的链,所述序列Y’为序列Y的互补序列。在一些实施方案中,衔接头寡核苷酸包含与互补序列Y’杂交的序列Y,其中序列Y’与序列Y在相同或不同的链上。在一些实施方案中,沿着衔接头寡核苷酸延伸靶多核苷酸或延伸的引物的3’末端以产生序列Y或序列Y’。在一些实施方案中,组合和处理片段化多核苷酸和衔接头寡核苷酸(例如通过连接和任选地通过片段延伸)以产生包含在两个末端联接于衔接头寡核苷酸序列的片段化多核苷酸的双链的、衔接头连接的多核苷酸,其中衔接头连接的多核苷酸的两个末端包含与序列Y’杂交的序列Y。在一些实施方案中,组合和处理与靶多核苷酸杂交的延伸的引物(例如通过连接和任选地通过3’末端延伸)以产生在一个末端包含与序列Y’杂交的序列Y的双链的、衔接头连接的多核苷酸。在一些实施方案中,经历进一步操作(例如衔接头联接或寡核苷酸引物延伸)的片段化多核苷酸的量为约、少于约或多于约50ng、100ng、200ng、300ng、400ng、500ng、600ng、700ng、800ng、900ng、1000ng、1500ng、2000ng、2500ng、5000ng、10μg或更多(例如阈值量)。在一些实施方案中,在进行进一步操作之前测定片段化多核苷酸的量,其中如果量低于阈值量则不进行进一步操作。
在一些实施方案中,在延伸反应中产生包含与靶多核苷酸序列互补的序列的引物延伸产物。一般而言,延伸反应包括与靶多核苷酸杂交的寡核苷酸引物的延伸。寡核苷酸引物可具有任何合适的长度,例如约、少于约或多于约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或更多个核苷酸,其任意部分或全部可与引物所杂交的对应的靶序列(例如约、少于约或多于约5、10、15、20、25、30、35、40、45、50或更多个核苷酸)互补。引物延伸可包括一个或多个循环的PCR反应,例如变性、引物退火和引物延伸,可在利用或不利用反向引物的情况下重复所述循环任意数次。例如,在反向引物不存在的情况下,可使用多个循环,在不使用延伸的引物作为进一步扩增的模板的情况下,通过沿着对应靶的引物的重复延伸来线性扩增一个或多个靶多核苷酸。在本文中提供了用作引物的寡核苷酸以及将它们用于引物延伸反应(例如扩增)的方法的实例,例如关于本发明的其它方面所描述的。扩增法的非限制性实例的举例说明提供于图2中。
在一些实施方案中,寡核苷酸引物包含序列Z,其对于反应中的多个不同的寡核苷酸引物的每一个是共同的,和序列W,其对于每一个不同的寡核苷酸引物是不同的并且位于每一个寡核苷酸引物的3’末端。在一些实施方案中,所述多个寡核苷酸引物包含约、少于约或多于约5、10、25、50、75、100、125、150、175、200、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多个不同的寡核苷酸,每一个寡核苷酸包含不同的序列W。在一些实施方案中,所述多个寡核苷酸引物的一个或多个的序列W包含选自图4中显示的SEQID NO 22-121的序列(例如1、5、10、25、50、75或100个各自具有不同的来自图4的序列的不同的寡核苷酸)。在一些实施方案中,序列W或与其特异性杂交的靶序列包含致病性遗传变体,如本文中描述的。在一些实施方案中,序列W或与其特异性杂交的靶序列在致病性遗传变体的约、少于约或多于约1、2、3、4、5、6、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内,如本文中描述的。致病性遗传变体通常位于寡核苷酸引物的下游,以便致病性遗传变体的至少部分用作用于寡核苷酸引物延伸的模板。通常,寡核苷酸引物沿着包含来源于衔接头寡核苷酸的序列Y的靶多核苷酸的延伸产生引物延伸产物,所述引物延伸产物在5’末端包含引物来源的序列A和与3’末端附近的衔接头来源的序列互补的序列(例如序列Y’,Y的互补序列)。
在一些实施方案中,所述多个寡核苷酸引物的一个或多个的序列W或与其特异性杂交的靶序列包含非主题序列。在一些实施方案中,序列W或与其特异性杂交的靶序列在非主题序列的约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内。一般而言,非主题序列对应于来源于除待测试的个体外的生物体的多核苷酸,例如来自细菌、古细菌、病毒、原生动物、真菌或其它生物体的DNA或RNA。非主题序列可指示生物体的身份或生物体的种类,并且还可指示疾病状态,例如感染。用于鉴定生物体的非主题序列的实例包括但不限于rRNA序列,例如16s rRNA序列(参见例如WO2010151842)。在一些实施方案中,分析非主题序列而致病性遗传变体,或将非主题序列与致病性遗传变体单独分析。在一些实施方案中,在同一样品(例如使用寡核苷酸引物的混合物,一些具有与包含致病性遗传变体的序列或致病性遗传变体附近的序列特异性杂交的序列W,并且一些具有与包含非主题序列的序列或非主题序列附近的序列特异性杂交的序列W)中和/或在同一报告中并行分析致病性遗传变体和非主题序列。
在一些实施方案中,所述多个寡核苷酸引物的一个或多个的序列W或其特异性结合的靶序列包含祖先信息标记(AIM)。在一些实施方案中,序列W或其特异性结合的靶序列在AIM的约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内。AIM可用于将个人分类为属于或不属于一个或多个群体,例如处于增加的具有致病性遗传变体之一的风险中的群体。例如,AIM对于其中性状处于增加的流行的群体可具有诊断价值。在某些情况下,AIM可以以更细的粒度区分群体,例如区分次大陆人群或相关种族群。在一些实施方案中,分析AIM而非致病性遗传变体和/或非主题序列,或将AIM与致病性遗传变体和/或非主题序列单独分析。在一些实施方案中,例如在同一样品中(例如使用的第一寡核苷酸的混合物,一些具有与包含致病性遗传变体的序列或致病性遗传变体附近的序列特异性杂交的序列B,并且一些具有与包含AIM的序列或AIM序列附近的序列特异性杂交的序列B)和/或在同一份报告中,对AIM、致病性遗传变体和/或非主题序列进行并行分析。
在一些实施方案中,寡核苷酸引物包含第一结合伴侣,如结合对的成员。一般而言,“结合伴侣”是指第一和第二部分之一,其中第一和第二部分具有针对彼此的特异性结合亲和力。用于本发明的适合的结合对包括但不限于抗原/抗体(例如,地高辛/抗地高辛、二硝基苯(DNP)/抗DNP、丹酰-X-抗丹酰、荧光素/抗荧光素、荧光黄/抗荧光黄、罗丹明和抗罗丹明);生物素/抗生物素蛋白(或生物素/链霉亲和素);钙调素结合蛋白(CBP)/钙调蛋白;激素/激素受体;外源凝集素/糖类;肽/细胞膜受体;蛋白A/抗体;半抗原/抗半抗原抗体;酶/辅助因子和酶/底物。其它适合的结合对包括多肽例如FLAG-肽(Hopp等人,BioTechnology,6:1204-1210(1988));KT3表位肽(Martin等人,Science,255:192-194(1992));微管蛋白表位肽(Skinner等人,J.Biol.Chem.,266:15163-15166(1991));以及T7基因10蛋白肽标签(Lutz-Freyermuth等人,Proc.Natl.Acad.Sci.USA,87:6393-6397(1990))和各自针对其的抗体。结合伴侣的其它非限制性实例包括针对细胞膜受体的激动剂和拮抗剂、毒素和毒液,病毒表位,激素例如类固醇,激素受体,肽,酶和其它催化多肽,酶底物,辅因子,药物(包括小有机分子药物),鸦片制剂,阿片受体,凝集素糖,糖类(包括多糖),蛋白质和抗体(包括单克隆抗体和合成抗体片段),细胞,细胞膜和本文中的部分(包括细胞膜受体和细胞器)。在一些实施方案中,第一结合伴侣是反应性部分,并且第二结合伴侣是与反应性部分反应的反应性部分,例如在本文中针对本发明的其它方面描述的反应部分。在一些实施方案中,在起始延伸反应之前将寡核苷酸引物附接于固体表面。用于将结合伴侣添加至寡核苷酸的方法在本领域是已知的,包括在合成过程中(例如通过使用包含结合伴侣的修饰核苷酸)或合成后的添加。
在一些实施方案中,在寡核苷酸引物延伸后,纯化固体表面上延伸的引物。在一些实施方案中,在衔接头联接后纯化固体表面上延伸的引物。通常,固体表面包含第二结合伴侣,其为结合对的第二成员并且结合第一结合伴侣。在一些实施方案中,固体表面可具有许多种形式,包括膜、载玻片、平板、微机械加工的芯片、微粒、珠粒等。固体表面可以包括多种材料,包括但不限于玻璃、塑料、硅、烷基硫醇衍生的金、纤维素、低交联和高交联的聚苯乙烯、硅胶、聚酰胺等,并且可以具有各种形状和特征(例如,阱、凹槽、通道等)。表面可以是亲水性的或能够被赋予亲水性,并且可以包含无机粉末,例如二氧化硅,硫酸镁和氧化铝;天然聚合材料,尤其是纤维素材料和由纤维素衍生的材料,例如含纤维纸、例如滤纸、色谱纸等;合成或修饰的天然存在的聚合物,如硝酯纤维素、乙酸纤维素、聚(氯乙烯)、聚丙烯酰胺、交联葡聚糖、琼脂糖、聚丙烯酸酯、聚乙烯、聚丙烯、聚(4-甲基丁烯)、聚苯乙烯、聚甲基丙烯酸酯、聚(对苯二甲酸乙二醇酯)、尼龙、聚(丁酸乙烯酯)等;或通过本身使用或与其它材料结合;可用作生物玻璃的玻璃、陶瓷、金属等。还可使用天然或合成的组件,例如脂质体、磷脂囊泡和细胞。表面可以具有多种形状的任一种,例如条状、棒状、颗粒,包括珠粒等。
在一些实施方案中,固体表面包含珠粒或多个珠粒。珠粒可具有任意方便的尺寸,并且由任何数目的已知材料制造。这样的材料的实例包括:无机物、天然聚合物和合成聚合物。这些材料的具体实例包括:纤维素、纤维素衍生物、丙烯酸树脂、玻璃、硅胶、聚苯乙烯、明胶、聚乙烯吡咯烷酮、乙烯基和丙烯酰胺的共聚物、与二乙烯基苯交联的聚苯乙烯或类似物(如所述的,例如,在Merrifield,Biochemistry 1964,3,1385-1390中)、聚丙烯酰胺、胶乳凝胶、聚苯乙烯、葡聚糖、橡胶、硅、塑料、硝酸纤维素、天然海绵、硅胶、可控孔玻璃、金属、交联葡聚糖(例如,Sephadex)琼脂糖凝胶(Sepharose)和为本领域普通技术人员已知的其它固相载体。珠粒的直径一般为约2至约100μm,或约5至约80pm,在某些情况下,约10至约40μm。在一些实施方案中,珠粒可以是磁性的,顺磁性的,或以其他方式响应于磁场。具有响应于磁场的珠粒可用于分离和纯化具有与其连接的多核苷酸的珠粒,例如通过施加磁场和分离珠粒(例如通过从溶液中取出珠粒,或从珠粒除去溶液)。响应于磁场的珠粒的非限制性实例包括由Life Technologies(Carlsbad,CA)制造的Dynabeads。还可使用其它分离珠粒的方法。例如,可用可使核酸-珠粒复合物发荧光的荧光部分标记捕获珠粒。可以例如通过流式细胞术或荧光细胞分选仪分离目标捕获珠粒复合物。还可通过离心分离珠粒。通过附接于珠粒分离多核苷酸还可包括例如在适合的洗涤液中洗涤珠的步骤。一般而言,引物延伸产物的纯化包括从引物延伸反应的一种或多种组分纯化出来,以使从其纯化出延伸产物的一个或多个组分的量减少至例如1/10、1/5、1/100、1/500、1/1000、1/10000、1/100000或更少,或低于可检测的水平。在一些实施方案中,纯化包括变性步骤,以便将引物延伸产物从与它们杂交的靶多核苷酸纯化出来。
可将延伸的引物经历扩增,例如线性或指数扩增。用于扩增的方法在本领域中是已知的,其实例在本文中进行了描述,例如关于本发明的其他方面所描述的。指数扩增包括PCR扩增,以及其中引物延伸产物用作另外轮的引物延伸的模板的任何其他扩增方法。扩增通常利用一个或多个扩增引物,其实例在本文中进行了描述,如关于本发明的其他方面所描述的。扩增引物可具有任何适合的长度,例如约、小于约或大于约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或更多个核苷酸,其任意部分或全部可与与引物杂交的对应靶序列(例如约,少于约或多于约5、10、15、20、25、30、35、40、45、50或更多个核苷酸)互补。一般而言,PCR包括待扩增的靶的变性(如果是双链的话)、一个或多个引物对靶的杂交和DNA聚合酶对引物的延伸,重复(或“循环”)所述步骤,以扩增靶序列的步骤。为了各种结果,例如为了增加产率、减少虚假产物的形成和/或提高或降低引物退火的特异性,可最优化该过程。最优化的方法在本领域是公知的,包括对扩增反应中的元件的类型或量和/或对过程中给定步骤的条件,例如特定步骤中的温度、特定步骤的持续时间和/或循环次数的调整。在一些实施方案中,扩增反应包括至少5、10、15、20、25、30、35、50或更多个循环。在一些实施方案中,扩增反应包括不超过5、10、15、20、25、35、50或更多个循环。循环可以包含任何数量的步骤,例如1、2、3、4、5、6、7、8、9、10或更多个步骤。步骤可以包括适合于实现给定步骤的目的(包括但不限于链变性、引物退火和引物延伸)的任何温度或温度的梯度。步骤可以具有任何持续时间,包括但不限于约、小于约或大于约1、5、10、15、20、25、30、35、40、45、50、55、60、70、80、90、100、120、180、240、300、360、420、480、540、600或更多秒,包括无限期直到手动中断。任何数目的包括不同步骤的循环可以以任意顺序进行组合。
在一些实施方案中,扩增包括使用一对扩增引物产生引物延伸产物。扩增引物可包含与来源于衔接头寡核苷酸序列的序列的全部或一个或多个部分、来源于寡核苷酸引物序列的序列、不与模板多核苷酸互补的序列(例如5’非互补序列)、一个或多个其它序列元件(例如本文中描述的序列元件)或这些序列的组合。在一些实施方案中,第二扩增引物包含序列X和序列Y,其中序列Y位于第二扩增引物的3'末端。
图2举例说明了扩增过程的非限制性实例。在示例性指数扩增反应的第一步骤中,第二扩增引物的序列Y与来自先前寡核苷酸引物延伸反应的延伸的引物的互补序列Y’杂交。第二扩增引物的延伸(例如通过聚合酶)产生以5'至3'方向包含序列X、Y、W'和Z'的第二扩增引物延伸产物,其中序列W'为序列W的互补序列,序列Z'为序列Z的互补序列。随后将引物延伸产物变性,从而释放模板靶多核苷酸(以用作模板,用于与另外的第二扩增引物杂交并延伸所述第二引物)和延伸产物(以用于与第一扩增引物杂交并延伸第一扩增引物)。在一些实施方案中,第一扩增引物包含序列V和序列Z,其中序列Z位于第一扩增引物的3’末端。在本示例性扩增反应中,序列Z与第二扩增引物延伸产物的序列Z’杂交。第一扩增引物的延伸(例如通过聚合酶)产生以5'至3'方向包含序列V、Z、W、Y’和X’的第一扩增引物延伸产物,其中序列X’与序列X互补,其本身可用作用于第二扩增引物延伸的模板。重复的变性、杂交和延伸的循环从而产生引物延伸产物的双链体,所述双链体包含与第二链(共包含序列X、Y、W’、Z’和V’(从5’至3’))杂交的一条链(其包含V、Z、W、Y’和X’(从5’至3’))。根据该示例性扩增反应,靶多核苷酸序列通常位于一条链上的序列Z与Y’之间,和另一条链上的序列Z’与Y之间。
在一些实施方案中,寡核苷酸引物和/或一个或多个扩增引物包含条形码。条形码的实例在本文中进行了描述,例如关于本发明的其它方面所描述的。在一些实施方案中,使用包含对于每一个样品至少一种不同的条形码序列的扩增引物对单独的样品进行单独的扩增反应,以便将没有条形码序列联接于不超过一个待并行分析的样品的靶多核苷酸。在一些实施方案中,在进行随后的多核苷酸的操作之前(例如在测序之前),混合来源于不同样品并且包含不同条形码的经扩增的多核苷酸。混合物可包含来源于约、少于约或多于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、40、50、75、100或更多个不同样品的多核苷酸。随后可将混合物经历测序,可基于它们连接的条形码鉴定已测序的靶多核苷酸的来源样品。
在一些实施方案中,对指数扩增的靶多核苷酸进行测序。可按照本领域已知的任何测序方法进行测序,包括本文中描述的测序方法,例如关于本发明的其它方面所描述的。使用模板依赖性合成的序列分析可包括许多不同的方法。例如,在广泛实践的四色桑格测序法中,将一组模板分子用于产生一组互补片段序列。在四种天然存在的核苷酸存在的情况下进行引物延伸,一个亚群的染料标记有终止核苷酸,例如双脱氧核糖核苷酸,其中每一个类型的终止子(ddATP、ddGTP、ddTTP、ddCTP)包括不同的可检测标记。作为结果,产生一组嵌套片段,其中片段在超出引物的序列中的每一个核苷酸上终止,并以允许鉴定终止核苷酸方式被标记。随后将嵌套片段群体经历基于大小的分离,例如使用毛细管电泳,和鉴定与每一个不同大小的片段结合的标记以鉴定终止核苷酸。作为结果,标签移动经过分离系统的检测器的顺序提供了合成片段的序列信息的直接读出,并且按照互补性,提供了底层模板的序列(参见,例如,US 5171534)。
模板依赖性测序法的其它实例包括通过合成过程的测序,其中反复地鉴定单个核苷酸,因为它们被添加至正在生长的引物延伸产物。
焦磷酸测序是通过合成过程进行测序的实例,其通过测定所得合成混合物的测序反应的副产品即焦磷酸的存在,来鉴定核苷酸的掺入。具体地,将引物/模板/聚合酶复合物与单个类型的核苷酸接触。如果该核苷酸被掺入,则聚合反应切割三磷酸链的α与β磷酸之间的核苷三磷酸,从而释放焦磷酸盐。然后,使用化学发光酶报告系统,鉴定释放的焦磷酸盐存在,所述系统利用AMP将焦磷酸盐转化成ATP,随后使用萤光素酶测量ATP以产生可测量的光信号。当检测到光时,碱基被掺入,当未检测到光时,碱基未被掺入。在适当的洗涤步骤后,将各种碱循环地与复合物接触以连续地鉴定模板序列中的后续碱基。参见,例如US6210891。
在相关方法中,将引物/模板/聚合酶复合物固定在基板上,将复合物与标记核苷酸接触。复合物的固定可通过引物序列、模板序列和/或聚合酶,并且可以是共价的或非共价的。例如,复合物的固定可以是通过聚合酶或引物与基板表面之间的连接。在替代构型中,提供了具有和不具有可移除的终止基团的核苷酸。在掺入后,将标记与复合物偶联,从而是可检测的。在具有终止子的核苷酸的情况下,将所有4种不同的单个地具有可鉴定标记的核苷酸与复合物接触。标记核苷酸的掺入通过终止子的存在阻止延伸,并将标记添加至复合物,从而允许鉴定掺入的核苷酸。随后从掺入的核苷酸移除标记和终止子,重复该过程。在非终止核苷酸的情况下,将单个类型的标记核苷酸添加至复合物以确定其是否被掺入,如对于焦磷酸测序一样。在移除核苷酸上的标记基团和适当的洗涤步骤后,在相同过程中通过反应混合物循环各种不同的核苷酸。参见,例如,US 6833246,为了所有目的其通过引用整体并入本文。例如,Illumina基因组分析系统基于WO 98/44151(其在此通过引用并入)中描述的技术,其中DNA分子通过锚探针结合位点(另外地称为流动池结合位点)结合于测序平台,并在载玻片上原位扩增。在其上扩增DNA分子的固体表面通常包含多个第一和第二结合寡核苷酸,所述第一结合寡核苷酸与靶多核苷酸邻近或一个末端上的序列互补,第二结合寡核苷酸与靶多核苷酸附近或一个末端上的序列互补。该排列允许桥扩增,例如本文中描述的桥扩增。随后使DNA分子与测序引物退火,使用可逆终止子法逐碱基地对其进行并行测序。可在测序引物杂交之前,在锚定桥的结合的寡核苷酸之一中的切割位点上切割双链桥多核苷酸的一条链,从而产生一条不结合于固体基板的单链,其可通过变性除去,和另一条结合的且可用于与测序引物杂交的链。通常,Illumina基因组分析仪系统使用具有8个通道的流动池,产生长度为18至36个碱基的测序读数,从而每运行产生>1.3Gbp的高质量数据(参见www.illumina.com)。
在其它通过合成过程进行的测序中,当进行模板依赖性合成时,实时观察差异标记的核苷酸的掺入。具体地,当掺入荧光标记的核苷酸时,观察到单个固定的引物/模板/聚合酶复合物,从而允许实时鉴定每一个添加的碱基(当其被添加时)。在该过程中,将标记基团附接于在掺入过程中被切割的核苷酸的部分。例如,通过将标记基团附接于在掺入过程中被移除的磷酸链的部分(核苷酸多磷酸上的β、γ或其它末端磷酸),标记未被掺入新生链,相反地,产生天然DNA。单个分子的观察通常牵涉极小照明体积内复合物的光学限制。通过光学限制复合物,因此创建监控区域,在所述区域中,随机扩散的分子出现极短时间,然而掺入的核苷酸在观察体积内停留更长时间,因为它们被掺入。这导致与掺入事件相关的特征信号,所述信号的特征还在于作为被添加的碱基的特征的信号特征谱。在相关方面,可对聚合酶或复合物的其它部分和掺入核酸提供交互标记组分,例如荧光共振能量转移(FRET)染料对,以便掺入事件交互邻近地放置标记组分,和提供特征信号结果,该结果再次地也是被掺入的碱基的特征(参见,例如,美国专利号6,056,661、6,917,726、7,033,764、7,052,847、7,056,676、7,170,050、7,361,466和7,416,844;和US 20070134128)。
在一些实施方案中,样品中的核酸可通过连接来测序。该方法使用DNA连接酶来鉴定靶序列,例如,如在聚合酶群落方法和SOLiD技术中使用的(Applied Biosystems,现为Invitrogen)。一般而言,提供一池具有固定长度的所有可能的寡核苷酸,按照测序位置进行标记。使寡核苷酸退火并进行连接;通过DNA连接酶对匹配序列的优先连接导致对应于该位置上的互补序列的信号。
在一些实施方案中,并行地产生多个样品例如约、少于约或多于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000或更多样品的测序数据。在一些实施方案中,在单个反应容器(例如流动池中的通道)中产生多个样品,例如约、少于约或多于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000或更多个样品的测序数据,和随后按照测序的多核苷酸所源自的样品(例如基于条形码序列)将测序数据分组。
在一些实施方案中,在单个反应容器(例如流动池中的通道)中产生来自样品的约、少于约或多于约5、10、25、50、100、150、200、250、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多个不同的靶多核苷酸的测序数据。在一些实施方案中,并行地产生多个样品例如约、少于约或多于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000或更多个样品的测序数据。在一些实施方案中,在单个反应容器(例如流动池中的通道)中产生多个样品例如约、少于约或多于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000或更多个样品的测序数据,随后按照测序的多核苷酸所源自的样品将测序数据分组。在单个反应中,产生约或至少约106、107、108、2x108、3x108、4x108、5x108、109、1010或更多个来自桥扩增反应的靶多核苷酸或簇的测序数据,对于反应中的每一个样品,其可包括约、少于约或多于约104、105、106、2x106、3x106、4x106、5x106、107、108个靶多核苷酸或簇的测序数据。在一些实施方案中,基于测序数据测定约、少于约或多于约5、10、25、50、75、100、125、150、175、200、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多个致病性遗传变体在样品中的存在或不存在。可测定一个或多个致病性遗传变体的存在或不存在,准确性为约或高于约80%、85%、90%、95%、97.5%、99%、99.5%、99.9%或更高。
在一些实施方案中,例如通过使用一个或多个自动化设备使本发明的方法中的一个或多个或所有步骤自动化。一般而言,自动化设备是能够在无人指导的情况下运行的设备—这种自动化系统可在人已完成采取任何促进功能的行动后的时间过程中进行功能,例如通过将指令输入计算机,之后自动化设备进行一个或多个步骤而无需进一步的人操作。软件和程序,包括执行本发明的实施方案的代码可贮存在一些类型的数据存储介质上,例如CD-ROM、DVD-ROM、磁带、闪存驱动器或软盘或其它适当的计算机可读介质。还可以仅以硬件或软件与硬件的组合实现本发明的各种实施方案。例如,在一个实施方案中,使用可编程逻辑控制器(PLC)而非常规个人计算机。如对于本领域普通技术人员是已知的,PLC被频繁地用于多种其中一般目的的计算机的花费不是必需的过程控制应用。PLC可以以已知的方式构造来执行一个或多个控制程序,并且能够以与个人计算机的方式相似的方式接收来自用户或另一台设备的输入和/或给用户或另一个设备提供输出。因此,虽然根据一般目的计算机描述了本发明的实施方案,但应当理解,一般目的计算的使用仅是示例性的,因为可使用其它构型。
在一些实施方案中,自动化可包括一个或多个液体处理器和相关软件的使用。几个商购可得的液体处理系统可用于运行这些过程的自动化(参见例如来自例如Perkin-Elmer,Beckman Coulter,Caliper Life Sciences,Tecan,Eppendorf,Apricot Design,Velocity 11的液体处理器)。在一些实施方案中,自动化步骤包括片段化、末端修复、A加尾(腺嘌呤悬突的添加)、衔接头联接、PCR扩增、样品定量(例如DNA的量和/或纯度)和测序的一项或多项。在一些实施方案中,使桥扩增自动化(例如通过使用Illumina cBot)。用于进行桥扩增的设备的非限制性实例描述于WO2008002502中。在一些实施方案中,使测序自动化。多种自动化测序机器是商购可得的,包括由Life Technologies(SOLiD平台,和基于pH的检测)、Roche(454平台)、Illumina(例如基于流动池的系统,例如Genome Analyzer设备)制造的测序仪。2、3、4、5或更多个自动化设备之间(例如液体处理器、桥扩增设备和测序设备的一个或多个之间)的转移可以是人工的或自动化的。在一些实施方案中,本发明的方法中的一个或多个步骤(例如所有步骤或所有自动化步骤)在约或少于约72、48、24、20、18、16、14、12、10、9、8、7、6、5、4、3、2、1或更少小时内完成。在一些实施方案中,从样品接收、DNA提取、片段化、衔接头联接、扩增或桥扩增至测序数据的产生的时间为约或少于约72、48、24、20、18、16、14、12、10、9、8、7、6、5、4、3、2、1或更少小时。
在一个方面,本发明提供了检测受试者的基因组的遗传变异的方法。在一些实施方案中,所述方法包括产生和分析测序数据。在一个实施方案中,所述方法包括:(a)提供多个簇的多核苷酸,其中(i)每一个簇包含多个拷贝的附接于载体的核酸双链体;(ii)簇中的每一个双链体包含从5’至3’包含序列A-B-G’-D’-C’的第一分子和从5’至3’包含序列C-D-G-B’-A’的第二分子;(iii)序列A’与序列A互补,序列B’与序列B互补,序列C’与序列C互补,序列D’与序列D互补,以及序列G’与序列G互补;(iv)序列G为来自受试者的靶多核苷酸序列的部分并且对于多核苷酸簇的每一个簇是不同的;和(v)序列B’在对应靶多核苷酸序列中相对于序列G位于5’;(b)通过延伸包含序列D的第一引物以产生针对每一个簇的R1序列来对序列G’进行测序;(c)通过延伸包含序列A的第二引物以产生针对每一个簇的R2序列来对序列B’进行测序;(d)使用第一算法将所有R1序列与一个或多个第一参考序列比对,来进行第一比对;(e)使用第二算法局部比对在所述第一比对中被鉴定为相对于一个或多个第一参考序列可能包含插入或缺失的R1序列来进行第二比对,以产生针对每一个插入或缺失的单个共有序列比对;(f)通过将所有R2序列与一个或多个第二参考序列比对来进行R2比对;和(g)将鉴定通过步骤(d)至(f)鉴定的序列变异的报告传送给接收者。在一些实施方案中,序列A、B、C和D分别对应于序列A、B、C和D,如关于本发明的其它方面描述的。
在一些实施方案中,所述方法包括:(a)提供多个簇的多核苷酸的测序数据,其中(i)每一个簇包含多个拷贝的附接于载体的核酸双链体;(ii)簇中的每一个双链体包含从5’至3’包含序列A-B-G’-D’-C’的第一分子和从5’至3’包含序列C-D-G-B’-A’的第二分子;(iii)序列A’与序列A互补,序列B’与序列B互补,序列C’与序列C互补,序列D’与序列D互补,以及序列G’与序列G互补;(iv)序列G为来自受试者的靶多核苷酸序列的一部分,并且对于多个簇的每一个是不同的;(v)序列B’在对应的靶多核苷酸序列中相对于序列G位于5’;(viii)测序数据包含通过延伸包含序列D的第一引物产生的R1序列;和(vi)测序数据包含通过延伸包含序列A的第二引物产生的R2序列;(b)使用第一算法将所有R1序列与一个或多个第一参考序列比对来进行第一比对;(c)使用第二算法局部比对在所述第一比对中被鉴定为相对于一个或多个第一参考序列可能包含插入或缺失的R1序列来进行第二比对,以产生针对每一个插入或缺失的单个共有序列比对;(d)通过将所有R2序列与一个或多个第二参考序列比对来进行R2比对;和(e)将鉴定通过步骤(b)至(d)鉴定的序列变异的报告传送给接收者。在一些实施方案中,序列A、B、C和D分别对应于序列A、B、C和D,如关于本发明的其它方面描述的。
一般而言,一簇多核苷酸包含多个拷贝的共定位于载体上的位置的核酸双链体。多个适合的固体载体和载体材料在本领域是已知的,本文中提供了其非限制性实例,例如关于本发明的其它方面所描述的。多核苷酸的簇可通过桥扩增产生。本文中提供了用于进行桥扩增的适合的方法和装置,例如关于本发明的其它方面所描述的。在一些实施方案中,固体载体包含多个簇,多个簇中的每一个簇通过不同的靶多核苷酸序列的扩增形成。待扩增的靶多核苷酸序列的部分例如序列G可在包括延伸固定于载体上的第一寡核苷酸的过程中被结合于载体。在一些实施方案中,固体载体包含多个不同的包含序列A和序列B的第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的第一寡核苷酸是不同的,并且位于每一个第一寡核苷酸的3’末端。在一些实施方案中,多个第一寡核苷酸包含约、少于约或多于约5、10、25、50、75、100、125、150、175、200、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多个不同的寡核苷酸,每一个寡核苷酸包含不同的序列B。在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B包含选自图4中显示的SEQ ID NO22-121的序列(例如1、5、10、25、50、75或100个各自具有不同的来自图4的序列的不同的寡核苷酸)。在一些实施方案中,序列B或与其特异性杂交的靶序列包含致病性遗传变体,如本文中描述的。在一些实施方案中,序列B或与其特异性杂交的靶序列在致病性遗传变体的约、少于约或多于约1、2、3、4、5、6、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内,如本文中描述的。致病性遗传变体通常位于第一寡核苷酸的下游,以便致病性遗传变体的至少一部分用作用于第一寡核苷酸的延伸的模板。固体载体还可包含多个在每一个第二寡核苷酸的3’末端包含序列A的第二寡核苷酸,和多个在每一个第三寡核苷酸的3’末端包含序列C的第三寡核苷酸,如本文中描述的。图1中举例说明了使用结合的第一、第二和第三寡核苷酸进行靶多核苷酸序列的部分的桥扩增以产生双链体的簇的实例,序列G'由序列B与D’之间的黑线代表,序列G由序列B’与D之间的黑线代表。
在一些实施方案中,多个第一寡核苷酸的一个或多个序列B或与其特异性杂交的靶序列包含非主题序列。在一些实施方案中,序列B或与其特异性杂交的靶序列在非主题序列的约、少于约或多于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内。一般而言,非主题序列对应于来源于除被测试的或从其采集样品的个体外的生物体的多核苷酸,例如来自细菌、古细菌、病毒、原生生物、真菌或其它生物的DNA或RNA。非主题序列还可包括来自胎儿的核酸,例如来自胎儿的无细胞核酸(也称为细胞外核酸)。非主题序列可指示生物体的身份或生物体的种类,并且还可指示疾病状态,例如感染。用于鉴定生物体的非主题序列的实例包括但不限于rRNA序列,例如16srRNA序列(参见例如WO2010151842)。在一些实施方案中,分析非主题序列而非致病性遗传变体,或将其与致病性遗传变体单独分析。在一些实施方案中,例如在同一样品(例如使用第一寡核苷酸的混合物,一些具有与包含致病性遗传变体或致病性遗传变体附近的序列特异性杂交的序列B,以及一些具有与包含非主题序列或非主题序列附近的序列特异性杂交的序列B)中和/或相同的报告中并行分析致病性遗传变体和非主题序列。
在一些实施方案中,多个第一寡核苷酸的一个或多个的序列B或与其特异性杂交的靶序列包含祖先信息标记(AIM)。在一些实施方案中,序列B或与其特异性杂交的靶在AIM的约、小于约或多于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、500或更多个核苷酸内。AIM可以用于将人归类为属于或不属于一个或多个人群,例如处于增加的具有致病性遗传变体之一的风险中的群体。例如,AIM对于其中性状处于增加的流行中的群体具有诊断价值。在某些情况下,AIM可以以更细的粒度区分群体,例如区分次大陆人群或相关种族群。在一些实施方案中,分析AIM而非致病性遗传变体和/或非主题序列,或将AIM与非致病性遗传变体和/或非主题序列单独分析。在一些实施方案中,例如在同一样品中(例如,使用第一寡核苷酸的混合物,一些具有与包含致病性遗传变体的序列或致病性遗传变体附近的序列特异性杂交的序列B,一些具有与包含AIM的序列或AIM附近的序列特异性杂交的B序列)和/或在相同的报告中,对AIM、致病性遗传变体和/或非主题序列进行并行分析。
在一些实施方案中,对多个簇的一个或多个序列进行测序。测序的示例性方法在本文中进行了描述,例如关于本发明的其它方面所描述的。可通过延伸每一个簇的一个或多个测序引物来产生测序数据。测序引物可具有任何适合的长度,例如约、少于约或多于约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或更多个核苷酸,其任意部分或全部可与引物所杂交的对应的靶序列(例如约、少于约或多于约5、10、15、20、25、30、35、40、45、50或更多个核苷酸)互补。测序引物,引物D可包含序列D或由其组成,以便其与互补序列序列D’特异性杂交。在一些实施方案中,序列D’下游的第一个核苷酸是序列G’的第一个核苷酸,以便引物D的延伸中添加的第一个核苷酸对应于序列G。测序引物,引物C可包含序列C或由其组成,以便其与互补C’特异性杂交。在一些实施方案中序列C’下游的第一个核苷酸是条形码序列的第一个核苷酸,以便引物C的延伸中添加的第一个核苷酸对应于条形码序列。测序引物,引物A可包含序列A或由其组成,以便其与互补序列A’特异性杂交。在一些实施方案中,序列A’下游的第一个核苷酸是序列B’的第一个核苷酸,以便在引物A的延伸中添加的第一个核苷酸对应于序列B。在一些实施方案中,测序引物包含序列CACTCAGCAGCACGACGATCACAGATGTGTATAAGAGACAG(SEQ ID NO:20)。
两个或更多个不同的测序引物可用于连续测序反应以产生每一个簇的多相测序读数。例如可以以任意顺序(例如引物D,随后引物C,随后引物A)对引物A、B和D的每一个进行连续测序反应。可在测序反应之前进行如下步骤的一个或多个:链切割、链变性或洗涤步骤以除去先前反应的一个或多个组分(例如测序引物)。测序反应可包括多个循环的单个核苷酸引物延伸,在每一个添加之后进行确定添加的碱基的身份的鉴定步骤。单个核苷酸延伸的循环数,例如对于用于连续测序反应的多个测序引物的每一个,或总体上对于用于连续测序反应的所有测序引物,为约或超过约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100、150、200、250、500或更多。在一些实施方案中,基于待鉴定的序列例如条形码或探针序列的长度选择单个碱基延伸的循环数,其可以少于约30、25、20、15、10、9、8、7、6、5或更少循环。用于连续测序反应的多个测序引物的每一个的循环数可以不同。例如,可在59个循环的引物D的延伸之后,进行6个循环的引物C延伸,之后可进行15个循环的引物A的延伸,总共进行80个循环的延伸。
对于每一个簇,第一测序引物、第二测序引物和为索引引物的第三引物的延伸可分别产生R1、R2和条形码序列。一般而言,基于连续延伸反应的物理共定位,例如簇的阵列上的位置,多个序列被鉴定为源自单个簇。在一些实施方案中,在单个反应容器(例如流动池中的通道)中,例如通过一个或多个测序引物的延伸产生约、少于约或多于约5、10、25、50、100、150、200、250、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多个不同的来自样品的靶多核苷酸的测序数据(例如R1和/或R2序列)。在一些实施方案中,并行产生多个样品例如约、少于约或多于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000或更多个样品的测序数据。在一些实施方案中,在单个反应容器(例如流动池中的通道)中产生多个样品,例如约、少于约或多于约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、24、48、96、192、384、768、1000或更多个样品的测序数据,随后按照测序的多核苷酸所源自的样品将测序数据分组(例如基于条形码序列)。可在进行一个或多个比对(例如如本文中描述的)之前和任选地在根据分析除去一个或多个序列之前,进行基于条形码序列的测序数据的分组。一般而言,一旦基于条形码将测序读数分组,则不依赖于其它组进一步处理每一组的读数。在一些实施方案中,并行分析多个不同条形码中的每一个条形码与并行分析的多个不同条形码中的每一个其它条形码不同。通常,条形码序列与在单个反应中测序的一池样品中的单个样品相关。在一些实施方案中,多个条形码序列的每一个唯一地与同时测序的一池样品中的单个样品相关。在一些实施方案中,条形码序列位于序列D’的5’。
在单个反应中,可产生约或至少约106、107、108、2x108、3x108、4x108、5x108、109、1010或更多个来自桥扩增反应的靶多核苷酸或簇的测序数据(例如R1和/或R2序列),对于反应中的每一个样品其可包含约、少于约或多于约104、105、106、2x106、3x106、4x106、5x106、107、108个靶多核苷酸或簇的测序数据。测序系统可以以多种输出数据文件类型或格式(包括但不限于*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv)的任一种输出测序数据。在一些实施方案中,基于测序数据测定样品的约、少于约或多于约5、10、25、50、75、100、125、150、175、200、300、400、500、750、1000、2500、5000、7500、10000、20000、50000或更多个病性遗传变体的存在或不存在。可测定一个或多个致病性遗传变体的存在、不存在或等位基因比率,准确性为约或高于约80%、85%、90%、95%、97.5%、99%、99.5%、99.9%或更高。在一些实施方案中,测定一个或多个非主题序列和/或一个或多个AIM的存在、不存在或量,准确性为约或高于约80%、85%、90%、95%、97.5%、99%、99.5%、99.9%或更高。
在一些实施方案中,将在多个簇的一个或多个测序反应中鉴定的序列与参考序列比对。一般而言,比对包括将一个序列A沿着另一个序列放置,沿着每一个序列反复引入缺口,对两个序列匹配得好坏进行评分,优选针对沿着参考序列的不同位置进行重复。最佳评分匹配被认为是比对,并且代表关于两个序列之间的关系的程度的推断。在一些实施方案中,与测序读数相比较的参考序列为参考基因组,例如与受试者相同物种的成员的基因组。参考基因组可以是完全的或不完全的。在一些实施方案中,参考基因组仅由包含靶多核苷酸的区域组成。在一些实施方案中,参考序列包含人基因组或由其组成。在一些实施方案中,参考序列包含除待测试的或从其采集样品的个体外的一个或多个生物体的多核苷酸或由其组成,例如来自一个或多个细菌、古细菌、病毒、原生生物、真菌或其它生物体的序列。在一些实施方案中,参考序列包含多个已知的序列例如所有用于扩增靶多核苷酸序列的探针序列(例如针对每一个靶多核苷酸的每一个序列B和/或序列B’)或由其组成。可将从一个引物(例如来自序列D的R1序列)的延伸产生的测序数据与与从另一个引物(例如来自引物A的R2序列)的延伸产生的测序数据相同或不同的参考序列比对。可将从一个引物延伸产生的测序数据与参考序列比对两次或更多次,每一次比对使用不同的比对算法。可不依赖于R2序列比对R1序列。R1和R2序列的第一次比对可使用相同比对算法。
在比对中,沿着参考序列中非匹配碱基的测序读数中的碱基表明置换突变已在该点上发生。类似地,当一个序列包括沿着另一个序列中的碱基的缺口时,推断插入或缺失突变(“插入缺失”)已发生。当期望明确说明将一个序列彼此比对时,比对有时称为指定成对比对。多序列比对通常是指两个或更多个序列的比对,包括例如通过一系列配对比对进行的比对。在一些实施方案中,对比对评分包括设置置换和插入缺失的概率的值。当比对单个碱基时,匹配或错配通过置换概率赋予比对评分,所述评分可以是例如1分(对于匹配)和0.33分(对于错配)。插入缺失从比对评分扣除缺口罚分,其可以是例如-1。缺口罚分和置换概率可基于经验知识或关于序列突变的先验假设。它们的值影响所得的比对。用于进行比对的算法的实例包括但不限于Smith-Waterman(SW)算法、Needleman-Wunsch(NW)算法、基于Burrows-Wheeler转化(BWT)的算法和哈希函数对准例如Novoalign(NovocraftTechnologies;可在www.novocraft.com上获得)、ELAND(Illumina,San Diego,CA)、SOAP(可在soap.genomics.org.cn上获得)和Maq(可在maq.sourceforge.net上获得)。
在一些实施方案中,使用计算机程序进行根据本发明的比对。一个执行BWT法的示例性比对程序是可获自由Geeknet(Fairfax,Va.)维护的SourceForge网站的Burrows-Wheeler Aligner(BWA)。BWT通常占据每核苷酸2比特内存,这使得可能利用常见台式或膝上型计算机索引长至4G碱基对的核苷酸序列。预处理包括BWT(即,索引参考序列)的构建和支持辅助数据结构。BWA包括两个不同的算法,两者基于BWT。利用BWA的算法可使用被设计用于达到约200bp,具有低错误率(<3%)的短查询的算法bwa-short来进行(Li H.和DurbinR.Bioinformatics,25:1754-60(2009))。第二算法BWA-SW被设计用于长读数,具有更多误差(Li H.和Durbin R.(2010)。Fast and accurate long-read alignment with Burrows-Wheeler Transform.Bioinformatics,Epub.)。本领域普通技术人员将认识到bwa-sw有时称为“bwa-long”、“bwa长比对”或类似名称。
执行Smith-Waterman算法的一个版本的比对程序是MUMmer,其可从由Geeknet(Fairfax,Va.)维护的SourceForge网站获得。MUMmer是用于快速比对整个基因组(无论以完成形式还是以草案形式)的系统(Kurtz,S.等人,Genome Biology,5:R12(2004);Delcher,A.L.等人,Nucl.Acids Res.,27:11(1999))。例如,MUMmer 3.0可在2.4GHz Linux台式计算机上使用78MB的内存,在13.7秒内在一对5兆碱基基因组之间找出所有20-碱基对或更长的准确匹配。MUMmer还可比对不完整的基因组;其可容易地处理100s或1000s的来自鸟枪测序项目的重叠群,并且使用系统中包含的NUCmer程序将它们与另一组重叠群或基因组比对。
比对程序的其它非限制性实例包括:来自Kent Informatics(Santa Cruz,Calif.)的BLAT(Kent,W.J.,Genome Research 4:656-664(2002));SOAP2,来自北京基因组研究所(Beijing,CN)或BGI Americas Corporation(Cambridge,Mass.);Bowtie(Langmead等人,Genome Biology,10:R25(2009));核苷酸数据库的高效大规模比对(EfficientLarge-Scale Alignment of Nucleotide Databases)(ELAND)或序列和变异的共有序列评估(CASAVA)软件的ELANDv2组件(Illumina,San Diego,Calif.);来自Real TimeGenomics,Inc.(San Francisco,Calif.)的RTG Investigator;来自Novocraft(Selangor,Malaysia)的Novoalign;Exonerate,欧洲生物信息学研究所(Hinxton,UK)(Slater,G.和Birney,E.,BMC Bioinformatics 6:31(2005))、来自University College Dublin(Dublin,Ireland)的Clustal Omega(Sievers F.等人,Mol Syst Biol 7,论文539(2011));来自University College Dublin(Dublin,Ireland)的ClustalW或ClustalX(Larkin M.A.等人,Bioinformatics,23,2947-2948(2007));和FASTA,欧洲生物信息学研究所(Hinxton,UK)(Pearson W.R.等人,PNAS 85(8):2444-8(1988);Lipman,D.J.,Science227(4693):1435-41(1985))。
在一些实施方案中,可使本发明的任何或所有步骤自动化。例如,可编写Perl脚本或外壳脚本以调用上述各种程序的任一个(参见,例如,Tisdall,Mastering Perl forBioinformatics,O'Reilly&Associates,Inc.,Sebastopol,Calif.2003;Michael,R.,Mastering Unix Shell Scripting,Wiley Publishing,Inc.,Indianapolis,Ind.2003)。或者,可将本发明的方法可完全或部分地体现在一个或多个专用的程序中,例如每一个程序任选地以汇编语言例如C++编写,随后被汇编和分配为二进制。可将本发明的方法完全或部分地作为现有序列分析平台内的模块来执行,或可通过调用所述平台内的功能来执行。在某些实施方案中,本发明的方法包括许多步骤,所述步骤全部响应单个起始队列(例如,获自人活动、另一个计算机程序或机器的触发事件的一个或组合)而被自动调用。因此,本发明提供了其中所述步骤的任一步骤或多个步骤或任意组合可响应队列而自动地进行的方法。可以以计算文件的形式提供输出。在某些实施方案中,输出为包含序列数据例如与参考基因组的序列比对的核酸的序列的FASTA文件、VCF文件、文本文件或XML文件。在其它实施方案中,输出包含描述与参考基因组相关的主题核酸的一个或多个突变的坐标或字符串。本领域已知的比对字符串包括简单的无间隙比对报告(SUGAR)、详细有用的标记缺口的比对报告(VULGAR)和紧凑的特殊缺口比对报告(Compact Idiosyncratic GappedAlignment Report)(CIGAR)(Ning,Z.等人,Genome Research 11(10):1725-9(2001))。在一些实施方案中,输出为序列比对—例如,序列比对图谱(SAM)或二进制比对图谱(BAM)文件—包含CIGAR串(SAM形式描述于例如Li等人,The Sequence Alignment/Map format andSAMtools,Bioinformatics,2009,25(16):2078-9中)。在一些实施方案中,CIGAR显示或包括每行一个缺口比对。CIGAR是报告为CIGAR字符串的压缩成对比对格式。
在一些实施方案中,来自簇的R1序列包含来自多个不同的靶多核苷酸的序列G,来自簇的R2序列包含序列B,其中序列B是用于产生一簇扩增的双链体的探针序列。当每一个序列B被选择来靶向特定靶多核苷酸时,其序列和在参考序列(例如参考基因组)内的定位通常是已知的,并且来自相同簇的R1序列可预期落在预计的核苷酸距离内。预计的核苷酸距离可基于包含片段化样品多核苷酸的样品的平均或中值片段长度,或上阈值距离代表基于这样的中值或平均片段长度是不可能的片段长度。因此,在一些实施方案中,与比距离来自相同簇的R2序列的阈值距离还远的位置比对的R1序列可能是错误的,从而被弃去。在一些实施方案中,沿着比对的来自相同簇的R1与R2序列之间的参考序列的上限阈值距离(高于其的簇的序列读数被弃去)为约或多于约1000、2500、5000、7500、10000、12500、15000、20000或更多个碱基对。在一些实施方案中,R1序列与参考序列(例如参考基因组)的非唯一区域的比对被弃去,将序列与参考序列内的更小亚组的唯一序列重新比对。
通常,确定测序结果中的每一个核苷酸的碱基质量评分,该评分与特定碱基调用是错误的概率相关。碱基质量评分的实例为Phred质量评分Q,其中Q=-10log10P,并且其中P代表对应的碱基调用是不正确的概率。在一些实施方案中,碱基质量评分用于评价测序读数与参考序列的比对,例如通过测定多个比对的每一个的映射质量评分来进行。用于计算映射质量评分的方法在本领域中是已知的。例如,具有低于阈值的质量评分的比对可被弃去,重新与具有更高评分的替代比对比对,或被所述替代比对替代。在一些实施方案中,将具有低于阈值的映射质量评分并且具有超过一个最佳比对的比对与参考序列内的一个亚组的序列,例如仅包含靶多核苷酸的参考基因组的区域重新比对。在一些实施方案中,阈值映射质量评分为约或低于约100、75、50、25、20、10、5、4、3、2、1或0。
在一些实施方案中,在初始比对后除去可能为重复型的测序读数。当将测序读数映射时,通过比对算法将重复型读数标记为重复。例如,比对算法中的标记重复子程序检查比对序列的文件(例如*.BAM文件)中的所有记录并且确定哪个读数是其它读数的重复。一般而言,存在两个类型的重复:光学重复,其通常由初步分析软件中的缺陷造成,和PCR重复,其由重复PCR反应造成。然而从计算的观点来看,光学重复和PCR重复是不可区分的。确定两个序列读数是重复的还是不是重复的一个方法是比较碱基序列—两个重复读数应当具有重复碱基序列。然而,由于测序错误,情况可能是这样:对两个重复读数进行测序,以便一个读数的测序错误将使其碱基序列与另一个读数显著不同。因此,与比较碱基序列以确定两个序列是否是重复相反,可替代地比较它们的比对。如果两个读数是重复,则两个读数的整个组的比对通常是相同的。在一些实施方案中,使用一个或多个与比对算法不同的算法将重复标记为去除的和/或弃去的。一般而言,当使用条形码序列时,当在相同条形码序列分组中内进行时,只删除测序读数。
在一些实施方案中,在使用第一算法的第一比对后进行使用第二算法的第二比对。可将第二比对与与第一比对相同的参考序列、与第一比对中使用的参考序列不同的参考序列相比较,或不使用参考序列(例如当将在特定区域重叠的所有测序读数彼此比对时)。例如,可将在第一比对中被鉴定为相对于第一参考序列可能包含插入和/或缺失(插入缺失)的序列局部比对,以产生靶多核苷酸中包含的插入和/或缺失的单个共有序列。第一算法可独立地将单个序列与参考序列比对。在一些情况下,当具有多个错配的比对模型评分高于含插入缺失的比对时,可将具有真实插入缺失的测序读数与多个错配而非插入缺失比对。通常,以重叠单个核苷酸位置的方式(例如以平铺方式)比对多个序列。包含超过预测量的序列变异(例如,对于人受试者的基因组中的唯一基因座超过两个等位基因)的重叠区域可表示插入缺失的可能存在。特定参考序列的一些插入缺失的位置可以是已知的,以便与已知插入缺失的位置重叠的序列将序列鉴定为可能地包含插入缺失。可基于一个或多个这样的因素,用数字表示包含插入缺失的可能性,例如至少约60%、70%、80%、90%、95%、99%或更大的可能性。在一些实施方案中,使用第二算法局部比对所有与目标区域例如致病性遗传变体重叠和任选地还包含或可能包含插入缺失的序列,以产生目标区域的单个共有序列。目标区域可具有任意适合的大小,例如在长度上约、少于约或多于约5、10、15、20、25、50、100、250、500或更多个核苷酸。第二比对可以是重叠一个或多个核苷酸位置的所有测序读数的局部多重-序列比对。在一些实施方案中,第二比对通过最优化所有测序读数在一个位置上的比对来鉴定单个共有序列。在一些实施方案中,通过第二比对产生的共有序列相对于参考序列比一个或多个被重新比对来产生共有序列的序列包含相对于参考序列少至少1、2、3、4、5、6、7、8、9、10、15、20或25个核苷酸的错配。在一些实施方案中,用于进行第二比对的算法能够鉴定相对于参考序列的约或多于约1、2、3、4、5、6、7、8、9、10、15、20、25或更多个核苷酸的插入和/或缺失,准确性为约或高于约80%、85%、90%、95%、97%、99%或更高。
通常,第二算法与第一算法不同,第二算法可能需要更多的系统资源(例如计算机系统)运行算法来进行相同数目的比对。例如,使用第一算法,利用系统进行第一比对可花比当系统使用第二算法来进行所有R1读数的第一比对时所花的时间更少的时间比对所有R1读数。在一些实施方案中,利用第一算法进行第一比对花费约或少于约90%、80%、70%、60%、50%、40%、30%、25%、20%、15%、10%、5%或更少的使用第二算法利用相同系统进行第一比对所花的时间。作为另一个实例,使用第一算法利用系统进行第一比对可使用比当系统使用第二算法进行所有R1读数的第一比对时所用的系统内存更少的系统内存来将所有R1读数比对。在一些实施方案中,利用第一算法进行第一比对使用约或少于约90%、80%、70%、60%、50%、40%、30%、25%、20%、15%、10%、5%或更少的由系统使用第二算法进行第一比对所使用的内存。在一些实施方案中,第一比对基于Burrows-Wheeler转换,例如Burrows-Wheeler Aligner。在一些实施方案中,第二算法基于Smith-Waterman算法。
在一些实施方案中,来源于样品的一个或多个靶多核苷酸的扩增序列(例如来自至少75%、80%、85%、90%、95%或100%的所有簇的序列G)的长度为1个核苷酸至约、少于约或多于约10、25、50、100、250、500、1000、2000、5000或更多个核苷酸。一般而言,如果来源于簇的靶多核苷酸的扩增序列(例如序列G)比在对扩增序列测序中进行的核苷酸延伸的循环数(也称为“读数长度”)短,则返回该测序读数的序列数据将可能包含用于最初捕获扩增序列的第一寡核苷酸序列(例如序列B或B’)。当序列B或B’存在于参考序列(例如参考基因组)中时,序列可正确比对,但靶多核苷酸中的任何真实突变可被掩蔽或以更低的置信度推断出来。为了避免R1序列中包含的第一寡核苷酸序列的负面作用,可删除可能对应于簇的序列B或B’的碱基调用。簇的序列B或B’可在单独的测序反应中进行鉴定,例如产生R2序列。随后将R1序列与相同簇的R2序列进行比较,以确定R1的一个或或多个核苷酸是否对应于序列B或B’。如果对于簇未获得的R2序列(或无包含任何序列B的R2序列),当待删除的R1序列的部分与任何序列B’(例如任何簇中发现的,或对应用于扩增靶多核苷酸的序列B的任何B’)的至少部分相同时,则删除第一寡核苷酸序列可包括删除簇的R1序列的部分,所述部分包括R1的5’或3’核苷酸,并且(i)对于簇未产生R2序列或或(ii)产生的R2序列不与任何序列B相同。一般而言,包含在R1序列的内部中发现的序列B或B’的核苷酸序列(即,不包括测序读数的5’或3’末端)表明扩增序列可通过使用更远的序列B来捕获。
在一些实施方案中,通过本发明的方法检测的遗传变异用于计算多个概率。每一个概率可以是受试者或受试者目前或将来的后代患有或发展疾病或性状的概率。在一些实施方案中,每一个概率基于受试者的R1序列,可将一个或多个这样的概率可包括在分析结果的报告中。一般而言,被测试的受试者具有疾病或性状或将发生所述疾病或性状的概率的计算基于与一个或多个测试的致病性遗传变体、非主题序列和/或AIM相关的风险的水平。例如,如果两个致病性遗传变体以累加的方式促成发生疾病的风险,则受试者中两个致病性遗传变体的存在表明受试者患该疾病的风险增加了通过将每一个致病性遗传变体相关的风险相加产生的值。一般而言,受试者的后代患有疾病或性状的概率的计算基于与一个或多个测试的致病性遗传变体和/或AIM相关的风险的水平和后代将遗传致病性遗传变体和/或AIM的概率。风险计算可基于一个或多个数据库中维持的风险相关性,所述数据库可基于被测试受试者的基因分型结果和相关表型的外部报告和/或记录。在一些实施方案中,由计算机按照计算机可读媒介中包含的指令进行计算。在一些实施方案中,受试者或受试者的后代患有疾病或性状或患上所述疾病或性状的概率的统计置信度为至少约70%、80%、85%、90%、95%、97.5%、99%或更高。置信度可基于许多因素,例如测序准确性的置信度、测试的相关遗传变体的数目和与每一个遗传变体相关的风险的置信度。用于计算概率的示例性方法描述于US20100022406中。
在本发明的任何方面的一些实施方案中,计算机系统用于执行所描述的方法的一个或多个步骤。图8举例说明用于本发明的方法的计算机系统的非限定性实例。在一些实施方案中,将计算机系统整合入分析系统并且为分析系统的部分,如液体处理器、桥扩增系统(例如Illumina cBot)和/或测序系统(例如Illumina Genome Analyzer、HiSeq或MiSeq系统)。在一些实施方案中,将计算机系统连接至或接入分析系统。在一些实施方案中,通过网络连接将计算机系统连接至分析系统。计算机系统(或数字设备)可用于接收和存储结果,分析结果和/或产生结果和分析的报告。计算机系统可被理解为逻辑装置,其可阅读来自介质(例如软件)和/或网络端口(例如来自国际互联网)的指令,可任选地将其连接至具有固定介质的服务器。计算机系统可包括一个或多个CPU、磁盘驱动器、输入设备例如键盘和/或鼠标和显示器(例如监视器)。数据通讯例如指令或报告的传输可通过通讯介质到达本地或远程位置的服务器。通讯介质可包括传输和/或接收数据的任何工具。例如,通讯介质可以是网络连接,无线连接或国际互联网连接。这样的连接可通过国际互联网提供通讯。可设想与本发明相关的数据可通过这样的网络或连接(或用于传输信息的任何其它适合的工具,包括但不限于邮寄物理报告(例如打印出的报告))传输以供接收者接收和/或审核。接收者可以是但不限于个体、保健提供者、医疗保健管理者或电子系统(例如一台或多台计算机,和/或一个或多个服务器)。在一些实施方案中,计算可读介质包括适合用于传输生物样品的分析结果的介质。介质可包括关于个体的遗传特征谱的分析的结果,其中使用本文中描述的方法推断出这样的结果。在可显示器例如监视器上在任何时间显示数据和/或结果,并且可将所述数据和/或结果以遗传报告的形式贮存或打印。
可从科学文献获得与表型相关的致病性遗传变体并将其传送给计算机系统,以与来自受试者的样品的序列结果相比较。可通过计算机系统(或其它数字设备)传送、存储和分析来自生物样品的致病性遗传变体的基因型和结果,这产生了基因组数据的结果和分析报告。接收者例如保健提供者可通过在线入口或网站访问结果和分析。结果和分析可被在线审核,存储在接收者的计算机上,打印出来或邮寄给接收者。结果可以例如在医生或其它健康专业人员的指导下用于个性化健康管理。例如,受试者可求助于或联系遗传咨询师以接受遗传咨询。
数据库可具有多种任选组成部分的一种或多种,所述组成部分例如提供更多由本发明的方法产生的关于测序结果的信息。在一些实施方案中,提供了利用计算机可执行软件编码的计算机可读介质,所述介质包括用于计算机执行与鉴定的致病性遗传变体相关的功能的说明书。取决于期望完成的评价的类型,这样的计算机系统可包括这样的代码或计算可执行软件的任意组合。计算机系统还可具有使每一个序列(例如致病性遗传变体的基因型)与至少一个表型例如病况,例如医学病况(包括但不限于具有或发生所述表型的风险)关联的代码。反过来可使每一个医学病况与通过医学专家和代码提供的至少一个建议发生关联,以生成包含建议的报告。系统还可具有代码,用于生成报告。可以生成不同类型的报告,例如,基于接收者可能想要或已为其支付的细节内容的水平的报告。细节的接收机可能希望或水平的报告已经支付。例如,接收者可能已订购单个表型例如病况的分析,从而报告可包括单个表型例如病况的结果。另一个接收者可能已要求一小组对象或器官系统的遗传图谱,或另一个体可能已要求全面的遗传图谱,包括所有临床相关致病性遗传变体的分析。报告可包括如下方面的一个或多个方面:受试者信息(例如姓名、出生日期、种族、样品类型、采样日期和/或样品接收日期);分析方法的说明;所有测试的致病性遗传变体的结果;所有测试的疾病或性状的结果;具有正得分的疾病或性状(例如高于阈值水平的风险,例如约或大于约1/50000、1/25000、1/10000、1/5000、1/2500、1/1000、1/500、1/100、1/50、1/10或更高)的结果;与具有正得分的疾病或性状相关的致病性遗传变体的结果;两个或更多个个体(例如作为父母或打算要孩子的个体)的结果;患有疾病或性状或发生疾病或性状的风险;当前或将来孩子患有或发展疾病或性状的风险;胎儿患有或发展疾病或性状的风险;风险计算的方法和采取进一步行动的建议。
生成的报告可由遗传咨询师和/或其它医学专家,例如管理医生或执业医生或其它第三方审核和进一步分析。遗传咨询师或医学专家或两者或其它第三方可与个体会面以讨论结果、分析和遗传报告。讨论可包括关于如下方面的信息:致病性遗传变体,例如被测试(存在、不存在和/或基因型)的致病性遗传变体,致病性遗传变体可如何被遗传或传递的(例如使用从问卷调查生成的家谱)、致病性遗传变体的流行;相关表型的流行或发病率;以及关于相关表型(例如,特定病况或性状,例如医学或临床相关病况)的信息,例如表型可如何影响个体以及可采用的预防措施。遗传咨询师或医学专家可在他们的分析和与个体的讨论中整合其它信息,例如其它遗传信息或来自问卷调查的信息。关于表型例如病况或性状的信息,可包括建议例如随访建议,例如进一步的遗传咨询、预测医学建议或个体的私人医生或其它保健提供者的预防医学建议。如果发现个体处于乳腺癌的高风险中,例如可讨论筛查信息,例如乳腺癌筛查的方法。可讨论的其它话题包括生活方式的改变和用药。例如,可提出生活方式改变,诸如饮食改变,可建议专门的饮食计划或可提出锻炼方案,可给个体推荐专门的训练设施或教练。还可包括常见的误解,从而使个体注意到可能被视为有帮助的或有用的,但在公开的文献中已被显示是无益或实现上有害的预防措施或其他干预。还可包括替代疗法,例如替代药物,例如膳食补充剂,或替代疗法,例如针刺或瑜伽。计划生育选项也可被包括在内,以及监测的选项,例如筛选检查或实验室测试,其可检测或帮助监测表型的存在,或表型的进展。可为个体建议可阻止表型,例如个体易患的疾病、限制其发作或延迟其进展的药物,或具有高效低副作用的药物,或因有不良反应的可能性,个体应当避免的药物或药物种类。例如,医疗专业人员可评估个人的可能药物反应,包括代谢、功效和/或安全性。医疗专业人员还可基于单独的或与关于个人的环境因素(如生活方式、习惯、诊断的医学病况、目前的药物等)的信息组合的来自个体的基因谱的信息,讨论治疗方法,如预防性治疗和监测(例如医生出诊和检查、放射学检查、自我检查或实验室测试)治疗的潜在需要或疗效。还可列出额外资源,例如包括用于个体或个体的医生或其它保健专业人员获取关于表型、致病性遗传变体或两者的额外信息的信息,例如对包含关于表型的信息的网站,例如来自生成遗传报告的公司的内部网站或外部网站,例如关于基因型的国家组织的链接。其他资源还可包括对个体可寻求以获得更多关于表型、致病性遗传变体或两者的信息的电话号码、书籍或人的提及。
在一个方面,本发明提供了包括提供第一服务和任选地第二服务的方法,其中:a)第一服务包括预测夫妻的后代将具有由致病性遗传变体引起的多个性状的每一个的概率,其中预测基于所述夫妻中两个个体的各自基因型;和b)第二服务包括预测夫妻的后代的多个性状的可能表型,其中基于夫妻中个体的各自表型和/或家族史测定概率。在一个实施方案中,至少一个预测还基于个体的各自遗传上推断的祖先。在另一个实施方案中,第一服务作为免费服务提供,第二服务作为免费服务提供。
在一个方面,本发明提供了包括系统,其包括:a)被配置来存储一对夫妻的每个成员的家族史信息的计算机可读介质;b)被配置来存储包含关于夫妻的每个成员的遗传信息的数据的计算机可读介质;c)包含计算机代码的计算机可读介质,所述代码,当被执行时:i)预测每一个个体的关于由遗传信息中鉴定的等位基因引起的性状的携带者状况;或ii)预测可通过家族史和/或遗传信息确定的夫妻的后代的可能性状;和d)显示器,其显示:i)夫妻的至少一个成员的携带者状况或ii)后代的可能性状。在一些实施方案中,该系统还包括e)配置来接受购买DNA检测试剂盒的报价的网页。在一些实施方案中,显示是电子的,例如网页。在一些实施方案中,系统还包括e)显示器,其显示基于遗传信息至遗传咨询师和/或其他医疗专业人员(例如,医学遗传学家或产科医师/妇科医师)的转诊。
互联网和万维网提供了信息的接入和分布。在一些实施方案中,网站可特别适合于高效地提供各种功能,以允许客户购买遗传测试和接收遗传测试的结果。该系统通常包括网站驻留在其上的服务器。用户使用连接至服务器的接口,例如计算机显示器或电话屏幕,以通过点击或滚过该弹出信息或将用户指引到另一个网页的链接来与网站进行交互。网站通常是交互式的,从而允许用户输入信息或查询,并在接口上获得反应。
在系统和商业方法的一些实施方案中,网站可以允许客户购买、管理和查看遗传测试的结果,以及更一般地获得潜在后代将发生疾病或性状的概率。例如,客户可以是寻求了解他们的后代是否处于发生孟德尔疾病的风险中的一对准父母。可给客户提供测定如下项目的一项或多项的遗传测试的报价:(i)客户的携带者病况;(ii)客户将发生一种或多种疾病或性状的可能性;和(iii)基于客户的DNA中鉴定的致病性遗传变体,客户后代会发生一种或多种疾病或性状的概率或性状的概率。
如果客户选择购买遗传检测,则客户可以例如通过网上信用卡交易支付费用,例如,以换取遗传检测、与遗传咨询师对公司员工的直接电话咨询和/或至遗传咨询师和/或其它相关医疗专业人员的转诊。可在购买点为遗传测试和转诊支付费用,或可将其包括在初始用户注册费中。在一些实施方案中,服务是免费的,收入由公司通过对与特定产品结合的其它产品做广告来产生。例如,在客户在线下订单后,订单被发送至服务器以进行处理。一旦付款已经被核实,订单处理服务器可以发送电子通知到装运商以将DNA收集试剂盒邮寄给客户。在实施方案中,DNA收集试剂盒是与遗传测试服务分开的,或者用户或客户已经拥有或获得来自另一个来源的DNA收集试剂盒。通知还可定期以电子方式发送给客户,包括订单和发货状态的订单确认和更新。在本发明的商业方法的一些实施方案中,客户可将样品存放在收集试剂盒中。可将对于本领域普通技术人员来说是显然的任何样本存入收集试剂盒中或存放至其上。样品可以是包含待分析的核酸的任何材料,其对于本领域普通技术人员来说是显而易见的,例如体液如唾液或血液。随后可将收集试剂盒返回至公司以发送至基因分型实验室或直接返回至基因分型实验室进行处理。基因分型实验室(公司内部的与公司签约工作的,或公司外部的)可从提供的样品中分离客户的DNA。在已从样品分离DNA后,基因分型设备(如本文中所描述的装置)可用于测试DNA的(i)祖先信息标记、(ii)致病性遗传变体和(iii)非主题序列(其中的一个或多个在本文中也称为原始基因型信息)的一个或多个的存在。在一些实施方案中,该DNA无须从所述样品中分离来测试DNA的原始基因型信息的存在。
可将原始基因型信息以电子方式发送到服务器进行存储和处理。服务器上的计算机代码可执行原始基因型信息以推断客户的祖先和/或确认致病性遗传变体和/或非主题序列的存在(如果有的话)。随后可将经处理的基因型信息以电子方式发送给服务器,其中服务器上的计算机代码可以执行经处理的基因型信息以预测客户的后代将具有由被发现存在于客户的经处理的基因型信息中的致病性遗传变体引起的多个性状的每一个的概率。随后可将结果以电子方式传送到服务器进行存储。
在实例中,可将通知发送至客户以向客户提醒结果的可用性。该通知可以电子化的,其非限制性实例包括文本消息、电子邮件或其他数据包;或通知可以是非电子化的,其非限制性实例包括来自遗传咨询师的电话或印刷通信,例如通过邮件发送一个报告。提供给客户的结果可告知客户针对一个或多个疾病或性状的客户的携带者状态和/或客户或客户的后代将发生一种或多种疾病或性状的可能性。在客户已收到结果和推荐后,客户的订单可以被认为实现了,结果和推荐仍然可通过在线网站帐户访问到客户。随后如果客户非常想要但网站的权限之外,则客户可以选择另外地线下购买推荐。
在一个方面,本发明提供了可用于上述方法的组合物。本发明的组合物可包含本文中描述的元件的任一种或多种。例如,组合物可包含下列元件的一种或多种:一个或多个包含附接于其的寡核苷酸的固体载体、一种或多种用于至固体载体的附接的寡核苷酸、一种或多种衔接头寡核苷酸、一种或多种扩增引物、一种或多种包含第一结合伴侣的寡核苷酸引物、一个或多个包含第二结合伴侣的固体表面(例如珠粒)、一种或多种测序引物、用于使用这些元件的试剂、包含这些元件中的任一种的反应混合物、以及使用这些元件的任一种的说明书。
在一个方面,本发明提供了包含上述方法和组合物中公开的元件的任一个或多个。在一些实施方案中,试剂盒将本发明的组合物包含在一个或多个容器中。例如,试剂盒可包含下列元件的一个或多个:一个或多个包含附接于其的寡核苷酸的固体载体、一种或多种用于至固体载体的附接的寡核苷酸、一种或多种衔接头寡核苷酸、一种或多种扩增引物、一种或多种包含第一结合伴侣的寡核苷酸引物、一个或多个包含第二结合伴侣的固体表面(例如珠粒)、一种或多种测序引物、用于使用这些元件的试剂以及使用这些元件的任一种的说明书。在一些实施方案中,试剂盒还包含如下元件的一种或多种:(a)DNA连接酶、(b)DNA依赖性DNA聚合酶、(c)RNA依赖性DNA聚合酶、(d)随机引物、(e)在3′末端包含至少4个胸苷的引物、(f)DNA内切核酸酶、(g)具有3′至5′外切核酸酶活性的DNA依赖性DNA聚合酶、(h)多个引物,每一个引物具有多个选择的序列之一,(i)DNA激酶、(j)DNA外切核酸酶、(k)磁珠和(l)一种或多种适用于试剂盒中包含的一个或多个元件的缓冲液。衔接头、引物、其它寡核苷酸和试剂可以是但不限于本文中描述的衔接头、引物、其它寡核苷酸和试剂。还可以以(但不限于)任意量和/或组合(例如在相同试剂盒或相同容器中)提供试剂盒的元件。试剂盒还可包含用于根据本发明的用途的另外的试剂。可在任何适合的容器(包括但不限于试管、小瓶、烧瓶、瓶、安瓿、注射器等)中提供试剂盒元件。可以以可直接用于本发明的方法的形式或以需要在使用前配制(例如在冻干试剂的重建中)的形式提供试剂。可以以用于单次使用的等分提供试剂或以可从其获得多次使用(例如在许多反应中)的原液提供试剂。
实施例
下面的实施例是为了举例说明本发明的实施方案的目的提供的,并且不意味着以任何方式限制本发明。本实施例连同本文描述的方法目前代表优选的实施方案,是示例性的,并且不旨在作为对本发明的范围的限制。包括在由权利要求的范围内界定的本发明的精神内的本文中的变化和其它用途将为本领域普通技术人员所熟悉。
实施例1:样品制备和测序方法
96孔格式中提取基因组DNA(gDNA),使孔A1、G12和H12空置(其将在后来分别包含无模板对照,含缺乏每一个测试的致病性遗传变体的Coriell样品NA12878基因组DNA的通用阴性标准,和包含多个已知的致病性遗传变体之一的样品)。将来自每一个孔的50μL转移至吸收板的对应孔中。使用Tecan M200板读数器测量260nm处的吸光度以计算DNA的量。将50μL的gDNA从吸收板转移至Eppendorf twin.tec板中。将对照样品添加至twin.tec板上的它们各自的位置。按照下列方案在10℃于SonicMan(Matrical,Spokane WA)超声仪中片段化gDNA和对照:预冷180秒,循环100次,超声3.0秒,功率35%,盖冷却1.0秒,板冷却0秒,后期冷却0秒。使用片段分析仪(Advanced Analytical Technologies,Ames IA)分析2μL样品的碎片大小分布。将具有至少200个碱基对的中值片段大小但不超过1000bp的样品经历进一步处理。具有低于200bp的中值片段大小的样品被弃去,并从提取的gDNA重新处理。将具有1000bp以上的中值片段大小的样品经历进一步超声处理以达到所需的尺寸范围,或将其弃去,并从提取的gDNA重新处理。
将超声处理的gDNA转移至圆底样品板以用于与贝克曼Beckman Biomek FXP结合使用。该Biomek自动进行末端修复、腺嘌呤悬突的添加和衔接头连接的过程。Biomek系统包括Agencourt SPRIPlate超级磁铁板、具有多通道移液器和Span-8移液器的BiomekFXP双臂系统(带泵控制模块、计算机和显示器、珀尔帖控制器、两个废液容器和两个盛水容器)和BioMekFXP控制软件。该工艺利用SPRIworks HT片段化文库试剂盒,其包含末端修复缓冲液和酶、a-加尾缓冲液和酶、连接缓冲液和酶,以及Agencourt AMPureXP珠粒。在每个反应后,经加工的gDNA使用磁珠分离来清洗。衔接头连接随后通过使用260nm吸光度定量经处理的样品中的DNA来进行,如通过Tecan M200测定的。少于900ng的样品不进行进一步处理,相反地从原始提取样品重新处理。在吸光度读数后,将样品板返回至BiomekFXP以用于PCR扩增。第一步骤是将每一个样品在384孔板上分成四个独立的样品,以便以一式四份进行每一个样品源的扩增。扩增引物包括条形码序列以允许鉴定序列的样品来源。PCR包括使用具有双384孔区块的ABI GeneAmp PCR系统9700、1.5mL管架、24通道200μL多道移液器和96孔铝板夹持器。样品按照以下方案自动地进行热循环:95C持续5分钟;27个循环:98℃持续20秒,65℃持续15秒,72℃持续1分钟。当扩增完成后,将来自每一个样品源的四个分样品重新组合成96孔板的单个孔。
通过磁珠分离纯化经扩增的多核苷酸。将1.8样品体积的磁珠添加至每个样品,使其在室温下静置约5分钟。将板放置在磁性分离器上,持续约2分钟,直至浆料完全澄清,并且所有珠子已被收集在每个孔的侧面。然后吸出缓冲溶液,添加200μL 70%的乙醇。使乙醇在室温下静置约30秒,随后对其抽吸。随后将板从磁体取出,在约40μL洗脱缓冲液(EB;10mM的Tris-HCl,pH 8.5)中洗脱DNA。将板返回至磁体,并在室温下静置约2分钟,直至珠粒已被收集在孔的侧面。随后将来自每一个孔的40μL样品转移至新的吸光度定量板的对应孔中。每一个孔中的DNA量通过如上测量260nm处的吸光度来检测。进一步处理具有至少为500ng/μL的浓度的样品以用于测序。具有更低浓度的孔未被检测出,并且重新扩增对应的样品。
将96孔板中的扩增样品整行混合,以产生12个样品,其中每个样品的扩增多核苷酸包含对于池中的12个样品中的该样品是唯一的条形码。计算添加至池中的每一个样品的体积,以使提交用于测序的样品中的DNA的总量为约11.25μg。通过如上对磁珠进行清洗浓缩每一个池,于38.5μL EB中进行洗脱。将每一个池的1μL用于在NanoDrop机(ThermoScientific的,Wilmington DE)上定量总DNA。低于10μg的样品未被检测出,重复混合和清洗。将具有至少10μg的样品进行进一步处理用以用于测序。
在附接、桥扩增每一个池中的多核苷酸以及对其进行测序之前,制备cBot试剂板。使用商业提供的具有HF缓冲液、不含去垢剂Phusion HF Buffer Pack(New EnglandBiolabs)、0.1N NaOH、HT1缓冲液(5x SSC+0.05%Tween20)和HT2缓冲液(0.3x SSC+0.05%Tween 20)的Phusion High-Fidelity PCR主混合物(New England Biolabs),一次制备10个试剂板。将5个Nova Biostorage 8管带置于10个单独的Nova Biostorage RoBo架的位置1、2、3、7和10。将1.25mL的Phusion主混合物添加15mL管中,随后添加1.25mL无RNA酶和无DNA酶的水,并涡旋振荡10秒,以产生1x Phusion主混合物。将440μL的5x Phusion HF缓冲液添加至另一个15mL标记有“HF”的管中,随后添加1760μL无RNA酶和无DNA酶的水,并混合以产生1x HF缓冲液。如下将试剂分配入试剂板的行中:行1--720μL HT1缓冲液;行2--230μL的Phusion主混合物;行3--200μL 1xHF缓冲液;行7--300μL HT2缓冲液;和行10--215μL0.1N NaOH。随后用Nova Biostage覆盖每一个管带,将所有板冷冻直至需要。
随后制备每一个样品池,以用于通过至流动池的附接进行的测序。用于附接和桥扩增的系统包括cBot系统、NanoDrop吸收光谱仪、Applied Biosystems Veriti 96孔热循环仪(0.2mL)、Veriti热循环程序和cBot附接及桥扩增程序。将样品加热至95℃,持续5分钟。将12.5μL的4X杂交缓冲(10X SSC+0.2%Tween-20)添加至每一个样品中,将其放置在冰上,直至装载在Illumina cBot机器上。随后将吸管梳、流动池、试剂板和样品管加载在cBot上。对于每一个样品池,多核苷酸是通过延长附接于通道的表面的寡核苷酸将多核苷酸附接于流动池的通道(图1“靶捕获”的步骤)。该附接的寡核苷酸包含不同的寡核苷酸的集合,所述寡核苷酸与位于所选择的致病性遗传变体上游的约5000种不同的询问位置的集合的成员特异性杂交。随后使用标准方法在cBot上产生桥扩增的序列的簇。
使用Genome Analyzer IIx(GAIIx;Illumina,San Diego CA)对簇进行测序。测序系统包括Genome AnalyzerIIx、配对末端模块、测序控制软件,GAIIx程序(排序、预洗涤、引发,后洗涤)、500mL容量的塑料烧杯、大方形冰桶以及具有0.1g容差的标尺。测序进行两轮。在第一轮中,从第一引物杂交产生测序数据,所述第一引物与条形码的下游(3'沿着延伸链)杂交并且邻接靶基因组DNA序列,由此产生包含致病性遗传变体的靶gDNA区域的测序数据。在第二轮中,从第二引物杂交产生测序数据,所述第二引物与条形码序列的上游(5'沿着延伸链)杂交,以便产生每一个簇的条形码序列数据。可以颠倒这些测序反应的顺序。随后将每一个簇的条形码与它们对应的gDNA序列进行匹配,以便可鉴定每一个gDNA序列的样品来源。用标准Illumina软件将来自GAIIx的原始数据组合成单个读数,每一个具有质量分数。使用Burrows-Wheeler Aligner将读数比对,使用基因组分析工具盒GATK从该比对发现变体。随后将列出所有发现的测序读数与参考装配体之间的差异的来自GATK的输出文件用于产生基因型报告,将该报告安全地发送至订购医师以用于给提供样品的患者提供咨询。
实施例2:扩增和测序方法
用于扩增多个不同的靶多核苷酸的示例性方法示于图2和5中,其主要区别在于图2中包括固相纯化步骤。图7还举例说明了示例性扩增方法,并且图2中举例说明的方法不同之处主要在于在衔接头联接之前而非在衔接头联接之后进行寡核苷酸引物延伸。扩增可以包括或可以不包括固相纯化步骤。图6举例说明了图5中显示的扩增方法,以及还有示例性桥扩增和测序法。可将图6中举例说明的扩增法结合任何桥扩增法和相关测序方法一起使用。
首先,将部分单链衔接头连接于片段化多核苷酸。部分单链衔接头在一个末端具有双链区(与互补序列序列U'杂交的序列U)和单链序列Y,所述序列Y在所使用的杂交和延伸条件下不与多核苷酸杂交。连接将序列Y添加至靶多核苷酸的5'末端。随后,将多个不同的各自在3'末端具有不同的靶特异性序列W的寡核苷酸引物与它们各自的靶多核苷酸杂交,随后延伸,从而产生在3'末端具有序列Y'(Y的互补序列)的延伸的寡核苷酸。要在衔接头联接之前进行延伸,如图7中举例说明的。寡核苷酸引物可以缺乏第一结合伴侣,如在图5中,或可包含第一结合伴侣,如图2和7中的小悬突环中。如果延伸的寡核苷酸确实包含结合伴侣,则它们可通过对包含结合第一结合伴侣的第二结合伴侣的固体表面选择性结合来进行纯化,如在图2中的珠粒(更大的圆圈)中。结合并延伸的寡核苷酸可以例如通过在磁场存在的情况下原位保持在磁反应性珠粒上,同时除去反应溶液,洗涤珠粒,和添加新的反应溶液(例如进一步扩增反应的组分)来进行纯化。随后使用一对扩增引物扩增延伸的寡核苷酸(纯化的或未纯化的)。一种扩增引物包含序列X和序列Y,3'末端上的序列Y用于与序列Y'杂交。将X-Y引物沿着延伸的寡核苷酸延伸,以产生多个延伸的X-Y寡核苷酸,所述X-Y寡核苷酸含有序列X、Y、W'和Z'(5'至3';其中,W'为W的互补序列,Z'为Z的互补序列)。另一个扩增引物包括包含序列V和Z,3'末端上的Z用于与延伸的X-Y引物的序列Z'杂交。将V-Z引物沿着延伸的X-Y引物延伸以产生多个包含V、Z、Y'和X'的序列(5'至3',其中X'为X的互补序列),随后可将其用作模板以延伸另外的V-Z引物,对于扩增过程中的每一个相继的X-Y引物延伸反应依此类推。占优势的扩增序列包含多个不同的靶多核苷酸,其各自包含在多核苷酸中,所述多核苷酸包含一条包含序列V、Z、W、Y'和X'(5'至3')的链,和另一条包含序列X、Y、W'、Z'和V'(5'至3')的链,靶多核苷酸序位于Z/Y'之间和Z'/Y之间。随后可将这些扩增的多核苷酸经历测序。
测序可遵循在图6的下半部分显示的过程。第一结合的寡核苷酸与经扩增的多核苷酸附近的序列或3'末端上的序列杂交,通常通过与在指数扩增过程中添加的序列的互补性(从而特异性扩增经指数扩增的产物,最终对其进行测序)。第一结合的寡核苷酸的延伸提供了用于桥扩增的成核点,以产生具有相同序列的双链桥多核苷酸的簇。使第一结合的寡核苷酸的延伸产物变性,以除去杂交模板。随后将延伸的第一结合的寡核苷酸与第二结合的寡核苷酸杂交,通常地通过与3'末端上或邻近3'末端的序列和来源于在指数扩增步骤过程中添加的序列的序列的互补性。随后可将延伸的第二结合的寡核苷酸用作模板以用于另外的第一寡核苷酸的延伸,随后可所述延伸的第一寡核苷酸用作模板以延伸另外的第二寡核苷酸,依此类推。此处,一些或所有第一寡核苷酸包含切割位点,该切割位点在完成桥扩增过程之后被切割。随后将结合的多核苷酸经历变性条件下,例如加热(例如约95℃)或化学变性变性,以去除多个结合的桥多核苷酸的一条链。随后剩下的结合的链自由地用于测序引物杂交,在图6中在“第一读数”上方举例说明的。随后通过核苷酸延伸和检测、延伸测序引物的连续步骤来产生测序数据。随后可将延伸的第一测序引物变性,并从模板取出,以从与第一测序引物不同的第二测序引物重复测序法。其中只用一个测序引物就可产生足够的测序数据来鉴定条形码序列,该测序反应可以比其它测序反应显著更短(例如少于约3、4、5、6、7、8、9、10、11、12、13、14、15或更多个循环的核苷酸添加)。而图6仅举例说明单个靶多核苷酸的桥扩增和测序列,桥扩增和测序通常涉及多个不同的在先前扩增步骤中扩增的靶多核苷酸,其全部是桥扩增的,并且并行地对其进行测序。
实施例3:非主题序列的鉴定
使用本领域中已知的标准方法,从从疑似包含病毒和/或细菌的多核苷酸的受试者的样品提取多核苷酸(例如DNA和/或RNA)。将样品多核苷酸片段化,末端修饰和加尾(例如在实施例1中)。随后将包含序列D的衔接头寡核苷酸联接于样品多核苷酸,随后使用包含序列C、序列D和条形码的扩增引物对其扩增。将经扩增的靶多核苷酸与多个不同附接于固体表面的第一寡核苷酸杂交。每一个第一寡核苷酸包含序列A和序列B,其中序列B对于每一个不同的第一寡核苷酸是不同的,位于每一个第一寡核苷酸的3’末端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。具体而言,第一寡核苷酸被选择来扩增具有受试者的基因组外部的高深度序列,例如对于特定种类、目、科、属、种或其它分类组群的病毒或细菌是唯一的病毒或细菌序列。经扩增的序列可包括16srRNA序列。同时处理来自健康对照的多核苷酸。随后按照本发明的方法对靶多核苷酸进行桥扩增和测序。针对非主题序列产生的测序数据可用于鉴定感染剂。针对非主题序列产生的测序数据可用于检测细菌的不同分类群组检测的相对水平(例如一个或多个分类群对一个或多个另外的分类组的比率),或这些水平的偏移。随后将细菌或感染剂的标识或相对水平用作用于提出医疗建议或采取医疗行动的基础。
实施例4:用于检测遗传变异的核酸序列的比对
本示例性序列操作和比对过程(“管道”)始于来自Genome Analyzer IIx(GAIIx)或HiSeq测序仪(Illumina;San Diego,CA)的原始数据,以从患者样品推断基因型和计算指标。按照本方法发明以每流动池泳道12x多重配置从条形码标记的样品的运行产生测序数据。测序仪原始数据包括基础调用(basecall)(BCL文件)以及各种质量控制和校准指标。首先将原始基础调用和指标编译成QSEQ文件,然后过滤,合并,和多路分解(基于条形码序列)转换成样品特异性FASTQ文件。将FASTQ读数与HG19基因组比对以创建初始BAM文件。该BAM文件经过了几次转化,以筛选,剪辑,和细化比对,并重新校准质量指标。将终BAM文件用于推断已知的变体的基因型和发现新的变体,从而产生调用组(callset)。随后使用各种调用指标过滤所述调用组(VCF文件),以创建最终组的每样品的高置信度(诸如约或大于约80%、85%、90%、95%、99%或更高的置信度)变体调用。最后,计算每样品、泳道和批次的各种指标,将调用和指标加载至实验室信息管理系统(LIMS)以进行可视化,审核和最终报告的生成。可局部和/或使用云计算,例如在Amazon云上运行(整体地或部分地)该管道。用户可以使用任何适当的通信机制与管道进行交互。例如,相互作用可以是通过Django管理命令((Django Software Foundation,Lawrence,KS)(一个用于执行管首的每一个步骤的外壳脚本),或以适当的编程语言编写的应用程序接口(例如PHP,Ruby on Rails,Django,或界面样Amazon EC2)进行的。本示例性管道的操作的概述示于图10和11中。
在具有8个泳道的流动池中进行测序。每个泳道具有12个(或更多个,对于HiSeq)样品,每一个样品具有独特的6-7个核苷酸的条形码序列。每一个泳道被划分为一定数量的拼贴块(120,对于GAIIx,48,对于HiSeq)。对于每一个流动池簇,测序仪输出3个读数。读数1(R1)是通过第一引物的延伸产生的gDNA片段的一个边缘上的序列(59bp)。读数2通过第三引物的延伸产生的条形码序列(6bp)。读数3(R2)是通过第二引物的延伸产生的探针序列的部分(15bp)。
在管道的第一步骤中产生的原始测序数据(创建FASTQ文件)通常较大(例如约或大于约100GB、150GB、200GB、250GB、300GB、400GB、500GB、1000GB或更多)。因此,可以有利地利用云计算来进行某些或所有分析步骤。在本实施例中,第一步骤是在本地运行,并将所得的FASTQ文件上载至Amazon S3(由Amazon提供的在线存储网络服务;Seattle,WA)并使用Amazon EC2实例(由Amazon提供的云计算网络服务;Seattle,WA)进行处理。Amazon的简单队列服务(SQS)用于分配任务。随后下载最终的调用和指标并装入本地数据库。EC2实例拉动分别来自SQS和S3的任务和FAQSTQ文件,对其进行处理,并把结果上传到S3。可人工启动和/或终止实例,或可使实例部分或完全自动化。
图10显示针对Illumina GAIIx测序数据上的管道的临时和档案存储空间和处理运行时间。对整个批次运行BCL2FASTQ步骤,然后对每个样品运行随后的步骤。为了减少处理时间,在本地运行BCL2QSEQ,在96亚马逊EC2实例上运行剩余步骤,每样品运行一次。取决于批次产率,使用云运行管道需要7至10个小时。对一个或多个数据处理步骤使用云计算可使产生样品的最终比对所需的总时间减少超过约10%、25%、50%、75%、90%或更多。
图11显示了示例性测序数据操作程序。BCL2FASTQ程序将原始碱基调用转化成过滤的、合并的和多路分解的读数,并且包括bcl2qseq和process_lane步骤。bcl2qseq的输入为测序批次的原始数据目录,使用Illumina工具将其转换为QSEQ文件(每拼贴块和读数代码一个),在本地对整个批次运行所述Illumina工具。在process_lane中处理QSEQ文件以过滤掉较差的读数(利用Illumina“节制过滤器(chastity filter)”),合并来自不同的拼贴块的读数,使用读数2中的条形码将读数1和读数3多路分解成样品特异性FASTQ文件。可并行地运行各泳道。
FASTQ2BAM过程将读数与基因组比对,并进一步处理比对。按需进行格式变化、分选和索引被按需要进行。对单个样品的文件运行所有步骤,并且可在不同机器上并行地运行批次中代表的所有样品。FASTQ2BAM中的步骤包括align_bwa、fix_align、mark_duplicates、realign_bam、recalibrate_bam和clip_alignment。在align_bwa步骤中,使用BWA比对器将FASTQ文件中的读数与参考基因组比对。这个步骤被调用2次,一次将读数1与参考基因组比对,一次将读数3与用于扩增靶多核苷酸的探针序列的集合比对。将输出序列比对/图谱(SAM)文件转换成二进制比对/图谱(BAM)文件,随后进行分类和索引。为了提高插入缺失的检测,如下修改默认BWA参数:将种子长度减少至16;使比对中允许的缺口数增加至3;将缺口开放和延伸罚分分别减少至6和2;将允许的缺口延伸数目增加至20(对于更大的变体,可将定制重叠群添加至基因组来推断它们的存在)。随后fix_alignment步骤修改一些比对,以提高它们的准确性,并除去可能是错误的比对。因为读数3在这种情况下以可变的距离读数1的距离包含探针来源的序列,因此其不适合某些由比对器所作的统计假设(例如读数之间预期的距离),常规配对末端映射将是低效率的。为了提高对准确度,独立地比对读数1和读数3(其通常比配对末端映射更快),随后将fix_alignment步骤处理结果以:弃去任何其中读数1和读数3在不同的链上或彼此相距多于10000个碱基的读数(如果读数3不映射的话,则不过滤读数1);和将具有多个最佳评分的位置的读数重新映射至仅由目标区域(ROI;例如包含致病性遗传变体、非主题序列或AIM的区域;通常地邻近探针序列)组成的一个亚组的基因组。图12A和12B分别举例说明在fix_align之前和之后,CFTR外显子中的读数分别与非唯一区域的示例性比对,该比对关闭了举例说明的序列堆积中的人工缺口。
mark_duplicates步骤使用来自Picard工具套件的工具(以BAM格式处理测序数据的基于java的命令使用;可从由Geeknet(Fairfax,Va.)维护的Source Forge网站获得)鉴定并标记PCR和光学重复。在不弃去重复的情况下,参考和备选等位基因之间的非均一PCR效率可导致等位基因偏差,其中可通过PCR使参考和变体的备选等位基因的计数偏倚。在无附加信息的情况下,假设映射至相同位置的来自样品的两个读数是重复,从而除一个外全部被标记为重复并从随后的分析排除外。可通过在相同样品中使用具有不同条形码的引物来增加覆盖的深度,以便如果来自各自簇的相关条形码不同,具有与另一个读数相同的序列的另外读数不被弃去。
realign_bam步骤执行围绕插入缺失的多重序列Smith-Waterman比对,和通常具有更好的鉴定真实插入缺失,以及减少或消除假阳性SNP的数目的作用。初始比对器(BWA或任何类似的工具)独立地和启发式地比对各读数。具有真实插入缺失的读数可作为读数与一个簇的SNP比对,因为在给定一组使用的参数和启发的情况下,该比对模型评分好于利用插入缺失的比对模型。在相同读数的多重序列比对中,比对器试图最优化所有读数的比对模型的评分(针对参考和针对对方);因此,除非SNP位点的同一个簇可比对所有读数,否则真实的比对通常具有更高评分。重新比对步骤执行围绕在ROI中发现的任何插入缺失(INDEL)的多重序列精确重新比对。图13A和13B显示局部重新比对之前和之后的相同读数。可围绕ROI中的任何插入缺失进行重新比对。可选择地或另外地,可围绕已知的插入缺失,例如围绕一个或多个参考组的插入缺失中的插入缺失进行重新比对(如Mills等人,GenomeRes.(2011)6月;21(6):830–839;Durbin等人,Nature(2010)10月28日;467(7319):1061–1073;和Bhangale等人,Nature Genetics(2006)38,1457–1462中报导的组)。
recalibrate_bam步骤使用经验批次数据重新校准碱基质量。Illumina软件使用测序化学的简单模型来估计每一个碱基的质量值—所述模型不考虑特定错误模式。在该步骤中,使用高评分比对的GATK工具用于确定经验碱基质量,分析被测序的碱基的许多特性(报告的质量,周围碱基,读数位置等)之间的经验质量的协方差,并且使用协方差模型的质量重新校准所有质量。该步骤提供了导致更准确的调用统计数据的更准确的碱基质量。
clip_alignment步骤从比对的读数除去碱基,所述读数包含来自对应簇的探针序列。对于来自受试者的比读数-长度更短的扩增序列,读数1通常包含来自对应探针的序列。当探针序列来源于参考基因组时,这些读数将比对至基因组,但会屏蔽掉任何真正的SNP,从而向参考序列引入等位基因偏差。该步骤鉴定读数何时与其自己的探针重叠并选择性地从读数除去重叠碱基。对于其中读数1和读数3都映射并且读数1与探针重叠的所有读数,读数1的重叠碱基被从比对中除去(“剪除”)。如果读数的读数3不映射,则当其与任何探针重叠,且仅当重叠在读数(不包括末端碱基的探针序列表示未从该探针产生读数)的任一末端发生时,读数1被剪除。在任一情况下,剪除通过修改CIGAR比对串以包括剪除的碱基的“S”操作,更新起始位置,将剪裁的碱基的碱基质量设置为0。因此,序列仍然存在,但比对被修改来排除剪除的碱基。
BAM2VCF过程使用终比对(来自FASTQ2BAM过程的BAM文件)来使用贝叶斯法(其用于基于测序数据和先前的知识来计算变体的概率)确定基因型。对单个样品的文件运行所有步骤,并且可在不同机器上并行地运行所述步骤。用于变体鉴定(“调用”)的策略是使用非常宽松的阈值(以最大限度地提高灵敏度)来创建一组初始鉴定的变体(“调用组”),然后基于调用指标和其它标准对其进行过滤。BAM2VCF过程中的步骤包括genome_whitelist、genotype_novel和hard_filter_vcf步骤。genome_whitelist步骤基于与给定的一个参考列表的已知变体的位置和这些位置上的等位基因的比较推断输入BAM文件的基因型。在这个步骤中,经编程以鉴定变体的计算机算法(“调用者”)被配置来输出所有变体以及略过任何基于置信度的过滤。该步骤的输出是在另外的步骤中进一步处理的变体调用格式(VCF)文件。
genotype_novel步骤鉴定ROI内的变体位点,所述变体位点与参考基因组不同,并在推断这些位点上的基因型。在此步骤中,调用者被配置来仅输出不包括在先前步骤中使用的已知变体的参考列表中的基因型,以及略过任何基于置信度的过滤。来自genotype_novel步骤的调用可包含许多假阳性。hard_filter_vcf步骤使用几个调用指标来过滤基因型确定。这些指标可分成两大类:(1)定量碱基调用、映射、变体或基因型确定的置信度的那些指标,和(2)定量错误例如链偏差的共同来源的可能性,或序列特性例如已知引起Illumina化学错误的同聚物运行的存在的那些指标。修饰的阈值可基于由基因组分析工具套件(GATK)提出的建议。可选择地或另外地,机器学习法可用于鉴定针对期望的灵敏度和特异度的阈值。
为了在本实施例中帮助该过程的评价,每一个样品的记录由如下项的编号组成:具有对应条形码的读数、映射至基因组的读数、fix_align步骤之后的读数、在排除PCR/光学重复后的读取、其中读数1和读数3映射相隔超过10000bp的读数、fix_align步骤尝试重新映射的非唯一区域中的读数、被剪除并且具有相应的读数3的读数、X和Y染色体中的读数(其可用于推断性别)以及匹配参考基因中的SNP身份的SNP调用。可设置关于这些指标中的任何一个或组合的阈值,以便下降至低于阈值的任何样品的结果被弃去。除了每泳道的读数的总数和通过初始过滤的读数的数目以外,还可汇集整个测序泳道的这些指标的任一个或组合。还可设置关于测序泳道指标的任一个或组合的阈值以用于排除因泳道不能通过阈值而产生的数据。可分析任何两个调用组之间的协方差和不一致以进行验证研究或用于设置用于将来的样品分析的阈值。
对于任何已鉴定的基因组变体,可生成堆积图像,其举例说明为任何变体调用的基础的所有读数的比对。可使用基因组数据可视化工具例如Integrative GenomicsViewer(IGV;由Broad Institute,Cambridge,MA提供的)产生堆积图像。为了实现这一点,生成IGV脚本,该脚本(1)加载基因组和BAM文件和(2)在每一个变异位置进行迭代,并且输出堆积的快照PNG。在虚拟帧缓冲(例如xvfb)下运行IGV,裁剪(使用命令行工具Imagick)所得的PNG文件(使用命令行Imagick工具)以除去IGV谷歌浏览器(chrome)。
实施例5:选择探针序列
将算法用于选择最佳探针序列的过程,所述探针序列用于初步捕获用于扩增和测序的靶序列(这一过程也称为“探针设计”)。随后可将探针序列用于产生结合于固体载体的寡核苷酸引物或第一寡核苷酸的集合。可重复探针设计过程,例如以将添加包含至待测序的变体和对应靶序列的列表。因此,所述算法允许添加先前设计的目标区域(ROI)和探针,以便已被先前设计的ROI覆盖的区域不被重新设计。
探针设计的初始单位为目标区域(ROI),其可以是一列基因的外显子、为非编码的单个基因组碱基、区域或点、或可以可能重叠的这些的组合。所述过程的第一步骤是加载,随后协调针对其设计探针的所有不同区域。“设计引擎”级跟踪要考虑的所有ROI,随后,跟踪所有已针对每一个ROI设计的探针。将小的ROI,例如最初作为点突变输入的变体,在进行进一步处理之前填充至100bp的长度。然后,将所有重叠ROI组合成单个ROI,以便重复探针不被设计。
当且仅当它们减少覆盖组合的ROI的ROI拼贴块的数目时,合并两个ROI。将覆盖两个分开的区域的拼贴块的数目连同覆盖假想联接的ROI的拼贴块的数目一起计算。将需要最少拼贴块的情况用于探针设计的后续步骤。将算法用于确定覆盖给定的基因组区域的拼贴块的数量。
一旦已填充和合并ROI,那么所有ROI长度为至少100个基点长,并且没有重叠。所得的ROI是长的(例如长于指定的拼贴块长度)或短的(例如小于或等于指定的拼贴块长度)。长的ROI被细分成ROI拼贴块,所述拼贴块是将针对其设计探针的序列的单元长度。不细分小于或等于拼贴块长度的短的ROI。基于从它设计的探头如何良好地进行评估每一个潜在的ROI拼贴块。根据其表现针对探针设计得如何来评价每一个潜在的ROI拼贴块。拼贴块的最大数目也被计算为该计算的上限。按从拼贴块的最少数目至最大数目的顺序考虑可能的拼贴块的最小与最大数目之间的所有拼贴块数目。取决于将要计算的数目,拼贴块的这些数目相当于待根据ROI的最小或最大长度划分的ROI中的碱基数目的上限。这些数目为ROI_TILE(250个碱基)和MAX_ROI_TILE,其中MAX_ROI_TILE=(TILE_SIZE)-(READ_LENGTH)-(RECESS)。将TILE_SIZE的长度设置300-440个碱基之间。READ_LENGTH长度为40-60个碱基。将RECESS的长度设置在10个碱基。一旦发现一些其探针设计产生所有有效探针的拼贴块,迭代结束。这实际上使覆盖区域所需的拼贴块的数目减至最少,同时确保按照下列标准选择最佳探针。
探针设计算法适用于在与其他ROI拼贴块分离的给定的ROI拼贴块,因此ROI拼贴块可被认为是该探针设计过程的基本单元。每一个ROI拼贴块将具有针对其设计的正向和反向拼贴块设,以便可在测序后从任一链证实所有碱基。探针设计算法的工作方式是考虑针对每一个ROI拼贴块计算的“探针设计窗口”中的每一个READ_LENGTH拼贴块的正向和反向引物。随后基于下文中描述的标准对该窗口中的每个探针进行评分,以创建一组从最重要至最不重要的评分,其中对于所有分数,更低的分数更好。因此,最好的探针仅仅是第一次出现在多字段升序排序的探针评分组中的探针。每个ROI拼贴块分区导致要对每一个可能的ROH拼贴块运行探针设计算法。迭代始于最少ROI拼贴块的条件,并且如果这样的分区不产生有效的探针(其条件将在下文中描述),由增加ROI拼贴块的数目并且重新进行分区。
如下定义探针窗口:(1)将探头窗口的长度被定义为(TILE_SIZE)-(当前的ROI拼贴块的长度)-(RECESS);(2)起始坐标于是被定义为距离ROI本身的末端的RECESS bp,停止坐标通过将上述探针窗口的长度添加至RECESS坐标来计算;以及(3)随后将该范围内的所有40聚体当作探针来进行评估。图19提供了在此步骤中考虑的序列区域的位置关系的举例说明。
按照考虑的顺序评估每一种探针所使用的标准,包括“近24聚体”的独特性、与在近24聚体中的任何常见SNP的重叠、完整40聚体的映射能力、NtBspQI重叠、重复掩蔽、与完整40聚体中的任何常见SNP的重叠、近24聚体与疾病变体的重叠、40聚体与疾病变体的重叠、GC%和与ROI的距离。虽然理想的探针在整个基因组中是唯一的,但有时发现这样的邻近任意位点的位置是不可能的。为了进行补偿,尽可能独特地选择“近24聚体”(定义为包含探针序列或其互补序列的寡核苷酸的3'最末端的24个碱基)。因为所捕获的基因组种类的延伸从5'至3'进行,所以最靠近双链与单链接合的碱基对结合位点的质量对捕获的效率具有很大的影响-更强的键使得捕获的序列延伸更长。为了测量结合的质量,使用加州大学圣克鲁斯24聚体映射能力追踪(可通过UCSC基因组浏览器获得),这为基因组中的每一个碱基赋予了始于该碱基的24聚体的映射评分。所述评分给定为1/N,其中N是基因组中对该24聚体的匹配数量。该测试只考虑两个结果:评分等于1(即是唯一的)还是小于1(即具有多个结合位点)。所述第一情况是优选的。
与近24聚体中常见SNP的重叠是不想要的。捕获探针的结合位点中的任何错配降低结合效率。由于附近的SNP往往处于连锁不平衡,因此结合效率的这种差异会引入大量等位基因偏差。因此,对于任何发现的等位基因期望具有可能的最大机会来具有与该基因中的其它等位基因相同的探针结合位点。UCSC常见SNP追踪用于进行该计算。存在两类:没有重叠的那些探针结合位点和具有一个或多个重叠的那些探针结合位点。前者是极优选的。
完整40聚体的映射能力确定与24聚体映射能力相同的评分和相同的的类别,但使用UCSC40聚体映射能力追踪替代24聚体追踪。这种新的追踪有类似的定义,只考虑40聚体映射能力而非24聚体映射能力。
酶NtBspQI可用于寡核苷酸合成或操纵。因此,对探针与酶的识别位点之间的重叠碱基数进行评分。
在评价重复掩蔽中,UCSC重复掩模追踪(注释的重复)被用于计算组成每一个40聚体的碱基的加权平均值。取决于其被掩蔽还是未被掩蔽,重复掩模追踪赋予每一个碱基值0或1。因此,分数越高,越被掩蔽。不期望为掩蔽碱基设计探针,因此更低,理想为0的分数更好。这些分数被分为四等份:因此,达到25%的掩蔽包括类(得分为0),达到50%包括另一类,对于75%和100%也是如此。
正如评价探针的近24聚体与任何常见的SNP的重叠一样,也对完整40聚体探针序列与任何共同的SNP的重叠进行评价和评分。
还评价近24聚体是否与疾病变体重叠。除评价近24聚体与任何待测序的致病性遗传变体的重叠外,该测试与常见SNP重叠测试类似。对于无重叠给予为0的评分,对于重叠的存在给予为1的评分。随后针对完整的40聚体进行的。
探针序列的GC%接受两个评分之一:0(对于20-80%的GC%),和1(对于该范围外的GC%)。最后,评价至ROI的距离。所有其他条件相同,最靠近的ROI的探针是优选的。针对ROI距离的评分等于探针的端部与其靶向的ROI的起始之间的碱基对的数目。
有效探针是符合以下所有标准,并对于其无需对针对ROI的探针设计进一步迭代的探针:(1)近24聚体的映射能力≥1/3.5;(2)完整40聚体的映射能力≥1/3.5;(3)重复分数≤0.25;(4)不与近24聚体中的常见SNP重叠;在探针序列中无NtBspQI识别位点。
实施例6:样品收集和分析
图14-17演示递送用户是罕见遗传性疾病的载体的概率的示例性过程。图14-15分别举例说明了用于网络和医疗客户的订单履行的管道。可由医生或消费者放置订单。可放置用于单次测试或用于一对夫妇或家庭的订单。可通过网站接受订单。订购系统可接收联系信息、人口统计信息和计费信息。联系信息可包括但不限于姓名、地址、电话号码和电子邮件地址。人口统计信息可以包括但不限于性别、出生日期和自报种族。可使用所提供的联系信息发送订单确认通知。可接受的订单被添加至数据库中,并且这些命令的状态随后可由状态机器来维护。
随后将样品收集试剂盒发送给用户。收集为任何人组织或体液的样品。样品还可以是来自人的分离的DNA。用于本实施例的样品的实例包括但不限于:唾液、血液、尿液、口腔细胞、羊水、细胞碎屑和细胞培养物。随后使用本文中描述的设备对样品进行基因分型。可与样品处理并行地进行表型征集,例如,用户的表型性状的检索自我识别。
样品收集可以在家里,在医生的办公室或在专门的收集点进行。样品收集和返回可通过推进顺序跟踪状态机的状态进行追踪。可通过推进它们在状态机中的状态将由访问设施接收的样品注册在数据库系统中。在访问设施接收后,可将样品输送到基因分型设施。基因分型设施可利用安全文件传输协议将原始基因组数据返回至安全数据存储服务器。文件上传可以触发状态机的推进。该推进可触发被配置来进行基因型调用的服务器检索来自数据存储服务器的原始基因组数据,以及与该命令相关联的任何表型数据。基因分型算法可以产生全概率基因型调用。
图16-17分别举例说明高水平样品处理管道和详细计算管道。接收样品的批次,并为了质量控制目的对其进行测量(批次传递QC)。将信息例如家族史、性别或自我报告的祖先用作对每一个样品的调用的独立检查(检索的批样品的表现型数据)。与该处理并行地,不断更新关于孩子预测的报告。交付第一预测试风险计算,该计算基于表型(例如家族史和对在线问卷的其它答案)。一旦基因型样品被接收和处理,给出测试后计算。随后生成报告,将其送至管道的最后阶段,用于实验室工作人员和医生的批准,如图16中所示。
质量控制指标可以从调用过程产生。示例性质量控制指标是概率基因型调用的百分比,其中至少一个基因型具有比阈值更大的事后概率。一起处理一批样品。当作为一批处理时,个体概率基因型调用可用于生成批次水平的质量控制统计数据。可将概率基因型调用存储在数据库中。成功的基因型调用可触发订单状态的推进。对于一对夫妇或家庭的订单,状态机可容纳整个订单的完成,否则可将单个订单传递至下一个状态。如果表型数据是风险计算所需的,则状态机可延迟处理,直至所有的表型数据被收集。状态机还可触发通知给患者该表型数据是必需的。如果所有基因型和表型数据已准备好,则状态机可向前推进,触发风险计算服务器来执行风险计算。风险计算的结果可以被序列化并转移到结果报告系统。这是结果的机器可读格式。当传输完成时,状态机可推进订单。结果报告服务器可结合风险概率计算与适当的文本和格式以生成人可读的报告。可将该人可读报告进一步格式化以显示在网站上。可将该人可读报告格式化用于其他媒介如PDF文件,以进行打印。最终的结果报告可使用自动验证系统来自动发布。人可以查看发布的报告。评审者可以是临床实验室的科学家和医生。通过链接至结果的视图和质量控制指标的摘要的门户网站访问结果。临床实验室科学家对报告的接受将结果发布给医师。医生可在类似的门户网站检查结果和批准结果的最终发布。
图18举例说明用于两个假设亲代:鸡妈妈和鸡爸爸的报告生成的示例性输入和输出步骤。产生融合母亲和父亲的基因型、母亲和父亲的表型以及亲戚的基因型和表型的孩子预测。任何或所有这些变量可以是缺失值,从人口统计学类似的个体初始化默认值(如果这是未知的,从世界人口)。所得的孩子预测不仅可包括疾病或性状的风险,而且还包括其它变量例如身高和体重。孩子预测中的不同变量将使用不同权重的基因型和表型。
尽管已在本文示出并描述本发明的优选实施方案,但对于本领域技术人员来说很明显的是,这样的实施方案仅以举例说明的方式提供。在不偏离本发明的情况下,对于本领域技术人员,可发生许多变化、改变和替换。应当理解,本文中描述的本发明的实施方案的各种替代方案可用于实施本发明。其意图是,下列权利要求限定本发明的范围,并且这些权利要求及其等同物的范围内的方法和结构由此被涵盖。
Claims (107)
1.检测受试者的基因组的遗传变异的方法,其包括:
(a)提供多个簇的多核苷酸,其中(i)每一个簇包含多个拷贝的附接于载体的核酸双链体;(ii)簇中的每一个双链体包含从5’至3’包含序列A-B-G’-D’-C’的第一分子和从5’至3’包含序列C-D-G-B’-A’的第二分子;(iii)序列A’与序列A互补,序列B’与序列B互补,序列C’与序列C互补,序列D’与序列D互补,以及序列G’与序列G互补;(iv)序列G为来自受试者的靶多核苷酸序列的一部分,并且对于多个簇的每一个是不同的;(v)序列B’在对应的靶多核苷酸序列中相对于序列G位于3’;和(vi)每一个第一分子包含条形码序列;
(b)将第一引物与所述第一分子的序列杂交,其中所述第一引物杂交所述条形码的3’或5’,并且通过延伸所述第一引物来对所述第一分子测序以产生
(1)R1序列并以鉴定每一个簇的条形码,如果所述第一引物杂交所述条形码的3’,或者
(2)每一个簇的R1序列,如果所述第一引物杂交所述条形码的5’,
(c)将第二引物与所述第二分子的序列杂交,其中所述第二引物杂交与所述条形码互补的序列的3’或5’,并通过延伸所述第二引物来对所述第二分子测序以产生R2序列并且,任选地,以鉴定每一个簇的条形码,如果所述第二引物杂交与所述第一分子的条形码互补的序列的3’,
(d)当在步骤(b)或(c)中未鉴定出条形码时,
i)将第三引物与所述第一分子杂交以产生每一个簇的条形码序列;
或者
ii)将第三引物与所述第二分子杂交以产生与每一个簇的条形码互补的序列;
(e)使用算法进行比对以将所有R1和R2序列与参考序列对齐;和
进行至少以下步骤之一:
(f)(i)确定通过步骤(e)鉴定的序列变异的存在或不存在,和/或
(f)(ii)基于受试者的R1序列计算多个概率并将所述概率包含在报告中,其中每一个概率为患有或发展疾病或性状的受试者或受试者的后代的概率;
其中步骤(b)和(c)可以以任何顺序完成。
2.权利要求1的方法,其还包括将报告传递给接受者,其中所述报告包含步骤(f)(i)中确定的序列变异;和/或步骤(f)(ii)中计算的概率。
3.权利要求1的方法,其中将所述R1和所述R2序列与相同的参考序列比对。
4.前述权利要求中任一项的方法,其中使用相同的算法将所述R1和R2序列比对。
5.前述权利要求中任一项的方法,其还包括弃去与参考序列中的第一位置比对的R1序列,所述第一位置距离相同簇的R2序列与其比对的参考序列中的第二位置超过10,000个碱基对;和/或
其还包括当要删除的R1序列的部分与簇的序列B’的至少一部分相同并且序列G比所述簇的R1序列短时,删除所述簇的R1序列的一部分;和/或
其还包括当要删除的R1序列的部分与任何序列B’的至少一部分相同时,删除所述簇的R1序列的一部分,所述部分包括R1的5’或3’核苷酸,并且(i)未产生所述簇的R2序列或(ii)产生的R2序列与任何序列B不同。
6.前述权利要求中任一项的方法,其中针对至少100个不同的靶多核苷酸产生R1和R2序列。
7.前述权利要求中任一项的方法,其中其中在单个反应中产生至少约108个簇的R1序列。
8.前述权利要求中任一项的方法,其中所述每一个条形码与在并行反应中分析的多个不同的条形码中的每一个其它条形码不同;和/或
其中所述条形码序列与在单个反应中进行测序的一池样品中的单个样品相关;和/或
其中所述多个条形码序列的每一个唯一地与在单个反应中测序的一池样品中的单个样品相关。
9.前述权利要求中任一项的方法,其还包括基于条形码序列将来自所述簇的序列分组。
10.前述权利要求中任一项的方法,其还包括除在条形码序列分组内具有相同序列和比对的多个R1序列的一个外弃去所有其余R1序列。
11.前述权利要求中任一项的方法,其中序列A、B、C和D是至少5个核苷酸长度;和/或
其中每一个簇的序列G是1至1000个核苷酸长度。
12.前述权利要求中任一项的方法,其中多个簇的每一个探针序列B与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补。
13.前述权利要求中任一项的方法,其中一个或多个所述簇的序列B包含选自由SEQ IDNOs:22-121组成的组的序列。
14.前述权利要求中任一项的方法,其中其中测定一个或多个致病性遗传变体的存在、不存在或等位基因比率,准确性为至少约90%;和/或
其中所述共有序列鉴定靶多核苷酸中的插入、缺失或插入和缺失,准确性为至少约90%。
15.前述权利要求中任一项的方法,其中多个簇的每一个探针序列B与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
16.权利要求15的方法,其中所述方法包括确定一个或多个非主题序列的存在或不存在,任选地,其中以至少约90%的准确性来确定一个或多个非主题序列的存在或不存在。
17.检测受试者的基因组的遗传变异的方法,其包括:
(a)提供多个簇的多核苷酸,其中(i)每一个簇包含多个拷贝的附接于载体的核酸双链体;(ii)簇中的每一个双链体包含从5’至3’包含序列A-B-G’-D’-C’的第一分子和从5’至3’包含序列C-D-G-B’-A’的第二分子;(iii)序列A’与序列A互补,序列B’与序列B互补,序列C’与序列C互补,序列D’与序列D互补,以及序列G’与序列G互补;(iv)序列G为来自受试者的靶多核苷酸序列的一部分,并且对于多个簇的每一个是不同的;和(v)序列B’在对应的靶多核苷酸序列中相对于序列G位于5’;
(b)通过延伸包含序列D的第一引物来对序列G’进行测序,以产生每一个簇的R1序列;
(c)通过延伸包含序列A的第二引物以产生每一个簇的R2序列来对序列B’进行测序;
(d)使用第一算法将所有R1序列与第一参考序列比对来进行第一比对;
(e)使用第二算法局部比对在所述第一比对中被鉴定为相对于第一参考序列可能包含插入或缺失的R1序列来进行第二比对,以产生针对每一个插入或缺失的单个共有序列比对;
(f)通过将所有R2序列与第二参考序列比对来进行R2比对。
18.根据权利要求17所述的方法,其中产生至少100个不同的靶多核苷酸的R1和R2序列。
19.根据权利要求17所述的方法,其中每一个第一分子包含条形码序列。
20.根据权利要求19所述的方法,其中所述条形码序列与在单个反应中测序的一池样品中的单个样品相关。
21.根据权利要求19所述的方法,其还包括将第三引物与序列C杂交并通过延伸第三引物以产生每一个簇的条形码序列,来对条形码序列进行测序。
22.根据权利要求17所述的方法,其中在单个反应中产生至少约108个簇的R1序列。
23.根据权利要求17所述的方法,其中测定一个或多个非主题序列的存在或不存在,准确性为至少约90%。
24.权利要求17的方法,其还包括:
(g)将鉴定通过步骤(d)至(f)鉴定的序列变异的报告传送给接收者。
25.权利要求17的方法,其中每一个第一分子包含条形码序列。
26.权利要求25的方法,其还包括将第三引物与序列C’杂交并通过延伸第三引物以产生每一个簇的条形码序列,来对条形码序列进行测序。
27.检测受试者的基因组的遗传变异的方法,其包括:
(a)提供多个簇的多核苷酸的测序数据,其中(i)每一个簇包含多个拷贝的连接于载体的核酸双链体;(ii)簇中的每一个双链体包含从5’至3’包含序列A-B-G’-D’-C’的第一分子和从5’至3’包含序列C-D-G-B’-A’的第二分子;(iii)序列A’与序列A互补,序列B’与序列B互补,序列C’与序列C互补,序列D’与序列D互补,以及序列G’与序列G互补;(iv)序列G为来自受试者的靶多核苷酸序列的一部分并且对于多个簇的每一个是不同的;(v)序列B’在对应的靶多核苷酸序列中相对于序列G位于5’;(viii)测序数据包含通过延伸包含序列D的第一引物产生的R1序列;和(vi)测序数据包含通过延伸包含序列A的第二引物产生的R2序列;
(b)使用第一算法将所有R1序列与第一参考序列来进行第一比对;
(c)使用第二算法局部比对在所述第一比对中被鉴定为相对于第一参考序列可能包含插入或缺失的R1序列来进行第二比对,以产生针对每一个插入或缺失的单个共有序列比对;和
(d)通过将所有R2序列与第二参考序列比对来进行R2比对。
28.权利要求17或27的方法,其中所述第一参考序列包含参考基因组。
29.权利要求17或27的方法,其中所述第二参考序列由每一个不同的靶多核苷酸的每一个序列B组成。
30.权利要求17或27的方法,其中将R2序列独立于R1序列比对。
31.权利要求17或27的方法,其还包括弃去与第一参考序列中的第一位置比对的R1序列,所述第一位置距离相同簇的R2序列与其比对的第一参考序列中的第二位置超过10,000个碱基对。
32.权利要求17或27的方法,其还包括当要删除的R1序列的部分与簇的序列B’的至少一部分相同并且序列G比所述簇的R1序列短时,删除所述簇的R1序列的一部分。
33.权利要求17或27的方法,其还包括当要删除的R1序列的部分与任何序列B’的至少一部分相同时,删除所述簇的R1序列的一部分,所述部分包括R1的5’或3’核苷酸,并且(i)未产生所述簇的R2序列或(ii)产生的R2序列与任何序列B不同。
34.权利要求17或27的方法,其中所述第一算法基于Burrows-Wheeler转化。
35.权利要求17或27的方法,其中所述第二算法基于Smith-Waterman算法或哈希函数。
36.权利要求27的方法,其中所述测序数据包含至少100个不同的靶多核苷酸的R1和R2序列。
37.权利要求27的方法,其中每一个第一分子包含条形码序列。
38.权利要求19或37的方法,其中所述每一个条形码与并行分析的多个不同的条形码中的每一个其它条形码不同。
39.权利要求37的方法,其中所述条形码序列与在单个反应中进行测序的一池样品中的单个样品相关并且显示于测序数据中。
40.权利要求19或37的方法,其中所述多个条形码序列的每一个唯一地与在单个反应中测序的一池样品中的单个样品相关。
41.权利要求19或37的方法,其中所述条形码序列位于序列D’的5’。
42.权利要求37的方法,其中所述测序数据还包含通过包含序列C的第三引物的延伸产生的每一个簇的条形码序列。
43.权利要求21或42的方法,其还包括基于条形码序列将来自所述簇的序列分组。
44.权利要求43的方法,其还包括除在条形码序列分组内具有相同序列和比对的多个R1序列的一个外弃去所有其余R1序列。
45.权利要求17或27的方法,其中多个簇的每一个探针序列B与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补。
46.权利要求27的方法,其中所述测序数据包含至少约108个来自单个反应的R1序列。
47.权利要求17或27的方法,其中测定一个或多个致病性遗传变体的存在、不存在或等位基因比率,准确性为至少约90%。
48.权利要求17或27的方法,其中所述共有序列鉴定靶多核苷酸中的插入、缺失或插入和缺失,准确性为至少约90%。
49.权利要求17或27的方法,其中多个簇的每一个探针序列B与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
50.权利要求27的方法,其中测定一个或多个非主题序列的存在或不存在,准确性为至少约90%。
51.权利要求27的方法,其还包括:
(e)将鉴定通过步骤(b)至(d)鉴定的序列变异的报告传送给接收者。
52.权利要求24或51的方法,其还包括基于受试者的R1序列计算多个概率并将所述概率包含在报告中,其中每一个概率为患有或发展疾病或性状的受试者或受试者的后代的概率。
53.用于对样品中多个不同的靶多核苷酸进行测序的方法,所述方法包括:
(a)将所述靶多核苷酸片段化以产生片段化多核苷酸;
(b)将衔接头寡核苷酸联接于所述片段化多核苷酸,每一个衔接头寡核苷酸包含序列D,以产生衔接头连接的多核苷酸,其在所述衔接头连接的多核苷酸的两个末端包含与互补序列D’杂交的序列D,任选地其中序列D’通过靶多核苷酸3’末端的延伸产生;
(c)使用包含序列C、序列D和与样品相关的条形码的扩增引物扩增所述衔接头连接的多核苷酸,其中所述序列D位于扩增引物的3’末端;
(d)将经扩增的靶多核苷酸与附接于固体表面的多个不同的第一寡核苷酸杂交;
(e)在固体载体上进行桥扩增,所述固体载体包含:
(i)多个不同的包含序列A和序列B的第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的第一寡核苷酸是不同的,位于每一个第一寡核苷酸的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;
(ii)多个第二寡核苷酸,其在各自的3’末端包含序列A;和
(iii)多个第三寡核苷酸,其在各自的3’末端包含序列C;其中序列A、B和C是不同的序列并且各自包含5个或更多个核苷酸;和
(f)对来自步骤(e)的多个核苷酸进行测序。
54.权利要求53的方法,其还包括在步骤(d)之前包括第二扩增步骤,其中使用第二扩增引物扩增经扩增的多核苷酸,所述引物具有包含与在步骤(c)中添加至靶多核苷酸的一个或多个序列的至少一部分互补的序列的3'末端。
55.权利要求53的方法,其中序列A、B和C彼此具有小于90%的序列同一性。
56.权利要求53的方法,其中所述多个第一寡核苷酸包含至少约100个不同的各自包含不同的序列B的第一寡核苷酸。
57.权利要求53的方法,其中所述每一个条形码与一池两个或更多个样品中的每一个其它条形码在至少3个核苷酸位置上相异。
58.权利要求53的方法,其中所述条形码位于序列C与序列D之间。
59.权利要求53的方法,其还包括基于条形码序列鉴定靶多核苷酸所源自的样品的步骤。
60.权利要求53的方法,其中所述片段化多核苷酸具有约200至约1000个碱基对的中值长度。
61.权利要求53的方法,其中步骤(f)包括(i)通过延伸与位于条形码5’的序列杂交的第一测序引物进行的测序;和随后(ii)通过延伸与位于条形码的3’的序列杂交的第二测序引物进行的测序。
62.权利要求53的方法,其中所述固体载体为流动池的通道。
63.权利要求53的方法,其中利用自动化系统进行步骤(b)和(c)。
64.权利要求53的方法,其中利用自动化系统进行步骤(d)。
65.权利要求64的方法,其中其中所述自动化系统也进行步骤(e)。
66.权利要求53的方法,其中产生至少约100个不同的靶多核苷酸的测序数据。
67.权利要求53的方法,其中步骤(d)在单个流动池中使用至少约10μg DNA。
68.权利要求53的方法,其中在单个反应中产生至少约108个靶序列的测序数据。
69.权利要求53的方法,其中在单个反应中产生少于约107个靶序列的测序数据。
70.权利要求53的方法,其中测定一个或多个致病性遗传变体的存在或不存在,准确度为至少约90%。
71.权利要求53的方法,其中所述多个不同的第一寡核苷酸还包括包含序列A和序列B的另外的第一寡核苷酸,其中序列B对于每一个不同的另外的第一寡核苷酸是不同的,位于在每一个另外的第一寡核苷酸的3’端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
72.富集样品中的多个不同的靶多核苷酸的方法,所述方法包括:
(a)将衔接头寡核苷酸联接于每一个靶多核苷酸,其中所述衔接头寡核苷酸包含序列Y;
(b)将多个不同的寡核苷酸引物与衔接头连接的靶多核苷酸杂交,其中每一个寡核苷酸引物包含序列Z和序列W;其中序列Z在所有寡核苷酸引物中是共同的;并且另外地其中序列W对于每一个不同的寡核苷酸引物是不同的,位于每一个寡核苷酸引物的3'末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;
(c)在延伸反应中,沿所述衔接头连接的靶多核苷酸延伸所述寡核苷酸引物,以产生包含序列Z和序列Y’的延伸的引物,其中序列Y’与序列Y互补;和
(d)使用一对扩增引物指数扩增延伸的引物,所述引物对包括:(i)第一扩增引物,其包含序列V和序列Z,其中序列Z位于所述第一扩增引物的3’末端;和(ii)第二扩增引物,其包含序列X和序列Y,其中序列Y位于所述第二扩增引物的3’末端;
其中序列W、Y和Z是不同的序列,并且各自包含5个或更多个核苷酸。
73.权利要求72的方法,其中所述靶多核苷酸包含所述片段化多核苷酸。
74.其中在步骤(a)之前处理片段化多核苷酸以产生钝端或以具有确定的悬突。
75.权利要求72的方法,其还包括对步骤(d)的产物进行测序。
76.权利要求75的方法,其中所述测序包括利用附接至固体载体的结合的寡核苷酸,通过桥扩增来扩增步骤(d)的产物,以产生双链桥多核苷酸,在结合的寡核苷酸中的切割位点上切割桥多核苷酸的一条链;使所述切割的桥多核苷酸变性以产生附接于固体载体的包含靶序列的游离单链多核苷酸;和通过延伸与在步骤(a)、(c)或(d)的一个或多个步骤过程中添加的一个或多个序列的至少一部分杂交的测序引物来对所述靶序列进行测序。
77.权利要求75的方法,其中所述测序包括通过延伸固体载体上的结合的引物扩增步骤(d)的产物以产生结合的模板,将测序引物与结合的模板杂交,延伸测序引物,和鉴定通过延伸测序引物添加的核苷酸。
78.富集样品中的多个不同靶多核苷酸的方法,所述方法包括:
(a)将多个不同的寡核苷酸引物与所述靶多核苷酸杂交,其中每一个寡核苷酸引物包含序列Z和序列W;其中序列Z在所有寡核苷酸引物中是共同的;并且另外地其中序列W对于每一个不同的寡核苷酸引物是不同的,位于每一个寡核苷酸引物的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;
(b)在延伸反应中,沿着所述靶多核苷酸延伸所述寡核苷酸引物以产生延伸的引物;
(c)将所述衔接头寡核苷酸联接于每一个延伸的引物,其中所述衔接头寡核苷酸包含序列Y’,并且另外地其中序列Y’与序列Y互补;和
(d)使用一对扩增引物指数扩增所述延伸的引物,所述扩增引物包含(i)第一扩增引物,其包含序列V和序列Z,其中序列Z位于所述第一扩增引物的3’末端;和(ii)第二扩增引物,其包含序列X和序列Y,其中序列Y位于第二扩增引物的3’末端;
其中序列W、Y和Z是不同的序列并且各自包含5或更多个核苷酸。
79.权利要求72或78的方法,其中所述每一个寡核苷酸引物包含第一结合伴侣。
80.权利要求79的方法,其中所述方法还包括在步骤(d)之前,将延伸的引物暴露于包含结合第一结合伴侣的第二结合伴侣的固体表面,从而将所述延伸的引物从延伸反应的一个或多个组分纯化出来。
81.权利要求72或78的方法,其中所述多个寡核苷酸引物包含至少约100个不同的各自包含不同的序列W的寡核苷酸引物。
82.权利要求78的方法,其中一个或多个所述多个寡核苷酸引物的序列W包含选自由SEQ ID NOs 22-121组成的组的序列。
83.权利要求78的方法,其中所述靶多核苷酸包含所述片段化多核苷酸。
84.权利要求73或83的方法,其中所述片段化多核苷酸具有200至1000个碱基对的中值长度。
85.权利要求73或83的方法,其中在步骤(a)之前处理所述片段化多核苷酸以生产钝末端或具有确定的悬突。
86.权利要求78的方法,其中步骤(b)还在步骤(c)之前包括处理延伸的引物和与它们杂交的靶多核苷酸以产生钝端或以具有确定的悬突。
87.权利要求85或86的方法,其中所述确定的悬突由一个腺嘌呤组成。
88.权利要求80的方法,其中其中所述第一结合伴侣和所述第二结合伴侣是结合对的成员。
89.权利要求88的方法,其中所述结合对是链霉亲和素和生物素。
90.权利要求80的方法,其中所述固体表面是珠粒。
91.权利要求90的方法,其中所述珠粒响应磁场。
92.权利要求91的方法,其中所述纯化步骤包括应用磁场以纯化所述珠粒。
93.权利要求78的方法,其中将所述延伸的引物从目标多核苷酸中纯化出来。
94.权利要求78的方法,其还包括对步骤(d)的产物进行测序。
95.权利要求94的方法,其中所述测序包括利用附接至固体载体的结合的寡核苷酸,通过桥扩增来扩增步骤(d)的产物,以产生双链桥多核苷酸,在结合的寡核苷酸中的切割位点上切割桥多核苷酸的一条链;使所述切割的桥多核苷酸变性以产生附接于固体载体的包含靶序列的游离单链多核苷酸;和通过延伸与在步骤(b)、(c)或(d)的一个或多个步骤过程中添加的一个或多个序列的至少一部分杂交的测序引物来对所述靶序列进行测序。
96.权利要求94的方法,其中所述测序包括通过延伸固体载体上的结合的引物扩增步骤(d)的产物以产生结合的模板,将测序引物与结合的模板杂交,延伸测序引物,和鉴定通过延伸测序引物添加的核苷酸。
97.权利要求72或78的方法,其中所述多个不同的寡核苷酸引物还包括另外的包含序列Z和序列W的寡核苷酸引物,其中序列W对于每一个不同的另外的寡核苷酸引物是不同的,位于每一个另外的寡核苷酸引物的3’末端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
98.产生用于对多个靶多核苷酸进行测序的装置的方法,所述方法包括:
(a)提供具有反应性表面的固体载体;和
(b)将多个寡核苷酸附接于固体载体;其中所述多个寡核苷酸包含:
(i)多个不同的第一寡核苷酸,其包含序列A和序列B,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B对于每一个不同的第一寡核苷酸是不同的,位于每一个第一寡核苷酸的3’末端,并且与包含致病性遗传变体的序列或致病性遗传变体的200个核苷酸内的序列互补;
(ii)多个第二寡核苷酸,其在各自的3’末端包含序列A;和
(iii)多个第三寡核苷酸,其在各自的3’末端包含序列C,其中序列C与由多个不同的靶多核苷酸共享的序列相同;
其中序列A、B和C是不同的序列并且各自包含5个或更多个核苷酸。
99.权利要求98的方法,其中序列A、B和C彼此具有低于90%的序列同一性。
100.权利要求98的方法,其中所述多个寡核苷酸包含反应性部分,以便所述反应性表面与所述反应性部分之间的反应将所述多个寡核苷酸附接于所述固体载体。
101.权利要求98的方法,其中所述多个第一寡核苷酸包含至少约100个不同的各自包含不同序列B的第一寡核苷酸。
102.权利要求98的方法,其中所述固体载体是流动池的通道。
103.权利要求98的方法,其中所述多个第二寡核苷酸的量比所述多个第一寡核苷酸的量高至少约1,000倍;并且所述多个第二寡核苷酸的量和所述多个第三寡核苷酸的量以约1:1的比率存在。
104.权利要求103的方法,其中所述多个第二寡核苷酸的量比所述多个第一寡核苷酸的量高至少约10,000倍。
105.权利要求98的方法,其中所述多个不同的第一寡核苷酸还包含另外的包含序列A和序列B的第一寡核苷酸,其中所述序列B对于每一个不同的另外的第一寡核苷酸是不同的,位于每一个另外的第一寡核苷酸的3’末端,并且与包含非主题序列的序列或非主题序列的200个核苷酸内的序列互补。
106.对多个靶多核苷酸进行测序的方法,其包括将根据权利要求98所述的方法产生的装置暴露于包含靶多核苷酸和非靶多核苷酸的样品,其中相对于非靶基因组序列对测序数据富集靶基因组序列。
107.权利要求98的方法,其中一个或多个所述多个寡核苷酸包含一个或多个封闭基团;和/或
其中所述致病性遗传变体是具有与疾病或性状相关的统计学,生物学和/或功能性证据的遗传变体。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/551,590 US20140024542A1 (en) | 2012-07-17 | 2012-07-17 | Methods and compositions for enrichment of target polynucleotides |
US13/551,590 | 2012-07-17 | ||
US13/551,584 US20140024536A1 (en) | 2012-07-17 | 2012-07-17 | Apparatus and methods for high-throughput sequencing |
US13/551,587 | 2012-07-17 | ||
US13/551,584 | 2012-07-17 | ||
US13/551,587 US20140024541A1 (en) | 2012-07-17 | 2012-07-17 | Methods and compositions for high-throughput sequencing |
US13/665,671 | 2012-10-31 | ||
US13/665,671 US9092401B2 (en) | 2012-10-31 | 2012-10-31 | System and methods for detecting genetic variation |
CN201380045879.5A CN104812947B (zh) | 2012-07-17 | 2013-07-17 | 检测遗传变异的系统和方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380045879.5A Division CN104812947B (zh) | 2012-07-17 | 2013-07-17 | 检测遗传变异的系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108456717A true CN108456717A (zh) | 2018-08-28 |
Family
ID=49949370
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810260746.4A Pending CN108456717A (zh) | 2012-07-17 | 2013-07-17 | 检测遗传变异的系统和方法 |
CN201380045879.5A Expired - Fee Related CN104812947B (zh) | 2012-07-17 | 2013-07-17 | 检测遗传变异的系统和方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380045879.5A Expired - Fee Related CN104812947B (zh) | 2012-07-17 | 2013-07-17 | 检测遗传变异的系统和方法 |
Country Status (9)
Country | Link |
---|---|
EP (2) | EP2875173B1 (zh) |
JP (3) | JP6285929B2 (zh) |
CN (2) | CN108456717A (zh) |
AU (2) | AU2013292610B2 (zh) |
CA (1) | CA2876505A1 (zh) |
ES (1) | ES2637538T3 (zh) |
HK (1) | HK1246372A1 (zh) |
IL (1) | IL236269A0 (zh) |
WO (1) | WO2014015084A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109686439A (zh) * | 2018-12-04 | 2019-04-26 | 东莞博奥木华基因科技有限公司 | 遗传病基因检测的数据分析方法、系统及存储介质 |
CN110349624A (zh) * | 2019-05-30 | 2019-10-18 | 山东省农业科学院玉米研究所 | sam文件flag标签定位T-DNA插入位点的方法 |
CN112397144A (zh) * | 2020-10-29 | 2021-02-23 | 无锡臻和生物科技有限公司 | 检测基因突变及表达量的方法及装置 |
Families Citing this family (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8835358B2 (en) | 2009-12-15 | 2014-09-16 | Cellular Research, Inc. | Digital counting of individual molecules by stochastic attachment of diverse labels |
ES2663234T3 (es) | 2012-02-27 | 2018-04-11 | Cellular Research, Inc | Composiciones y kits para recuento molecular |
KR102402446B1 (ko) | 2013-08-28 | 2022-05-30 | 벡톤 디킨슨 앤드 컴퍼니 | 대량의 동시 단일 세포 분석 |
JP2017504307A (ja) | 2013-10-07 | 2017-02-09 | セルラー リサーチ, インコーポレイテッド | アレイ上のフィーチャーをデジタルカウントするための方法およびシステム |
US11859246B2 (en) | 2013-12-11 | 2024-01-02 | Accuragen Holdings Limited | Methods and compositions for enrichment of amplification products |
US11286519B2 (en) | 2013-12-11 | 2022-03-29 | Accuragen Holdings Limited | Methods and compositions for enrichment of amplification products |
CN104946737B (zh) | 2013-12-11 | 2019-02-22 | 安可济控股有限公司 | 用于检测罕见序列变体的组合物和方法 |
US9859394B2 (en) | 2014-12-18 | 2018-01-02 | Agilome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
US9618474B2 (en) | 2014-12-18 | 2017-04-11 | Edico Genome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
CA2971589C (en) | 2014-12-18 | 2021-09-28 | Edico Genome Corporation | Chemically-sensitive field effect transistor |
US10006910B2 (en) | 2014-12-18 | 2018-06-26 | Agilome, Inc. | Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same |
US10020300B2 (en) | 2014-12-18 | 2018-07-10 | Agilome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
US9857328B2 (en) | 2014-12-18 | 2018-01-02 | Agilome, Inc. | Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same |
EP3766988B1 (en) | 2015-02-19 | 2024-02-14 | Becton, Dickinson and Company | High-throughput single-cell analysis combining proteomic and genomic information |
US20160257993A1 (en) * | 2015-02-27 | 2016-09-08 | Cellular Research, Inc. | Methods and compositions for labeling targets |
US9727810B2 (en) | 2015-02-27 | 2017-08-08 | Cellular Research, Inc. | Spatially addressable molecular barcoding |
JP7508191B2 (ja) | 2015-03-30 | 2024-07-01 | ベクトン・ディキンソン・アンド・カンパニー | コンビナトリアルバーコーディングのための方法および組成物 |
CN107580632B (zh) | 2015-04-23 | 2021-12-28 | 贝克顿迪金森公司 | 用于全转录组扩增的方法和组合物 |
WO2016196229A1 (en) | 2015-06-01 | 2016-12-08 | Cellular Research, Inc. | Methods for rna quantification |
JP6940484B2 (ja) | 2015-09-11 | 2021-09-29 | セルラー リサーチ, インコーポレイテッド | ライブラリー正規化のための方法および組成物 |
CN108368545B (zh) | 2015-10-09 | 2022-05-17 | 安可济控股有限公司 | 用于富集扩增产物的方法及组合物 |
CN105177160B (zh) * | 2015-10-16 | 2018-10-16 | 浙江大学 | 检测多种新生儿遗传代谢病致病基因的引物及试剂盒 |
WO2017165463A1 (en) | 2016-03-22 | 2017-09-28 | Counsyl, Inc. | Combinatorial dna screening |
CN109155149A (zh) * | 2016-03-29 | 2019-01-04 | 瑞泽恩制药公司 | 遗传变体-表型分析系统和使用方法 |
ES2956757T3 (es) | 2016-05-02 | 2023-12-27 | Becton Dickinson Co | Codificación con códigos de barras moleculares precisa |
EP3459115A4 (en) | 2016-05-16 | 2020-04-08 | Agilome, Inc. | GRAPHEN-FET DEVICES, SYSTEMS AND METHODS FOR USE THEREOF FOR SEQUENCING NUCLEIC ACIDS |
US11427866B2 (en) | 2016-05-16 | 2022-08-30 | Accuragen Holdings Limited | Method of improved sequencing by strand identification |
US10301677B2 (en) | 2016-05-25 | 2019-05-28 | Cellular Research, Inc. | Normalization of nucleic acid libraries |
CN109074430B (zh) | 2016-05-26 | 2022-03-29 | 贝克顿迪金森公司 | 分子标记计数调整方法 |
US10202641B2 (en) | 2016-05-31 | 2019-02-12 | Cellular Research, Inc. | Error correction in amplification of samples |
US10640763B2 (en) | 2016-05-31 | 2020-05-05 | Cellular Research, Inc. | Molecular indexing of internal sequences |
EP3472319B1 (en) * | 2016-06-15 | 2024-03-27 | President and Fellows of Harvard College | Methods for rule-based genome design |
SG11201901296TA (en) | 2016-08-15 | 2019-03-28 | Accuragen Holdings Ltd | Compositions and methods for detecting rare sequence variants |
KR102363716B1 (ko) | 2016-09-26 | 2022-02-18 | 셀룰러 리서치, 인크. | 바코딩된 올리고뉴클레오티드 서열을 갖는 시약을 이용한 단백질 발현의 측정 |
WO2018081113A1 (en) * | 2016-10-24 | 2018-05-03 | Sawaya Sterling | Concealing information present within nucleic acids |
EP3539035B1 (en) | 2016-11-08 | 2024-04-17 | Becton, Dickinson and Company | Methods for expression profile classification |
EP3538672A1 (en) | 2016-11-08 | 2019-09-18 | Cellular Research, Inc. | Methods for cell label classification |
CN106611106B (zh) * | 2016-12-06 | 2019-05-03 | 北京荣之联科技股份有限公司 | 基因变异检测方法及装置 |
EP3568234B1 (en) | 2017-01-13 | 2023-09-06 | Cellular Research, Inc. | Hydrophilic coating of fluidic channels |
WO2018144240A1 (en) | 2017-02-01 | 2018-08-09 | Cellular Research, Inc. | Selective amplification using blocking oligonucleotides |
US10676779B2 (en) | 2017-06-05 | 2020-06-09 | Becton, Dickinson And Company | Sample indexing for single cells |
CN108004301B (zh) * | 2017-12-15 | 2022-02-22 | 格诺思博生物科技南通有限公司 | 基因目标区域富集方法及建库试剂盒 |
EP3728636B1 (en) | 2017-12-19 | 2024-09-11 | Becton, Dickinson and Company | Particles associated with oligonucleotides |
CN108251502B (zh) * | 2017-12-27 | 2021-12-24 | 深圳华大基因股份有限公司 | 一种外周血游离肿瘤dna的富集方法、试剂盒及其应用 |
CN108197433A (zh) * | 2017-12-29 | 2018-06-22 | 厦门极元科技有限公司 | 快速dna测序数据分析平台的数据内存和硬盘分流存储方法 |
US11203782B2 (en) | 2018-03-29 | 2021-12-21 | Accuragen Holdings Limited | Compositions and methods comprising asymmetric barcoding |
US20210230666A1 (en) | 2018-04-27 | 2021-07-29 | X Gen Us Co. | Methods and compositions for preparing polynucleotides |
EP3788170A1 (en) | 2018-05-03 | 2021-03-10 | Becton, Dickinson and Company | Molecular barcoding on opposite transcript ends |
CN112272710A (zh) | 2018-05-03 | 2021-01-26 | 贝克顿迪金森公司 | 高通量多组学样品分析 |
WO2019241290A1 (en) | 2018-06-12 | 2019-12-19 | Accuragen Holdings Limited | Methods and compositions for forming ligation products |
EP3815091A4 (en) * | 2018-06-29 | 2022-03-23 | Rady Children's Hospital Research Center | PROCEDURE AND SYSTEM TO ENSURE IDENTITY OF SAMPLES |
GB201810901D0 (en) * | 2018-07-03 | 2018-08-15 | Ucb Biopharma Sprl | Method |
CN109182483A (zh) * | 2018-09-04 | 2019-01-11 | 天津诺禾致源生物信息科技有限公司 | 基因变异解读的方法及装置 |
US11639517B2 (en) | 2018-10-01 | 2023-05-02 | Becton, Dickinson And Company | Determining 5′ transcript sequences |
MX2021004434A (es) * | 2018-10-17 | 2021-09-10 | Quest Diagnostics Invest Llc | Sistema de seleccion de secuenciacion genomica. |
EP3877520A1 (en) | 2018-11-08 | 2021-09-15 | Becton Dickinson and Company | Whole transcriptome analysis of single cells using random priming |
CN113195717A (zh) | 2018-12-13 | 2021-07-30 | 贝克顿迪金森公司 | 单细胞全转录组分析中的选择性延伸 |
US11371076B2 (en) | 2019-01-16 | 2022-06-28 | Becton, Dickinson And Company | Polymerase chain reaction normalization through primer titration |
WO2020154247A1 (en) | 2019-01-23 | 2020-07-30 | Cellular Research, Inc. | Oligonucleotides associated with antibodies |
CN113454234A (zh) | 2019-02-14 | 2021-09-28 | 贝克顿迪金森公司 | 杂合体靶向和全转录物组扩增 |
WO2020214642A1 (en) | 2019-04-19 | 2020-10-22 | Becton, Dickinson And Company | Methods of associating phenotypical data and single cell sequencing data |
JP6953586B2 (ja) * | 2019-06-19 | 2021-10-27 | シスメックス株式会社 | 患者検体の核酸配列の解析方法、解析結果の提示方法、提示装置、提示プログラム、及び患者検体の核酸配列の解析システム |
EP4004231A1 (en) | 2019-07-22 | 2022-06-01 | Becton, Dickinson and Company | Single cell chromatin immunoprecipitation sequencing assay |
BE1027463B1 (fr) | 2019-07-26 | 2021-02-23 | Safran Aero Boosters Sa | Outil de marquage par micro percussion, machine outil comprenant un outil de marquage et méthode de marquage par micro percussion |
WO2021092386A1 (en) | 2019-11-08 | 2021-05-14 | Becton Dickinson And Company | Using random priming to obtain full-length v(d)j information for immune repertoire sequencing |
US11649497B2 (en) | 2020-01-13 | 2023-05-16 | Becton, Dickinson And Company | Methods and compositions for quantitation of proteins and RNA |
US11978532B2 (en) | 2020-04-30 | 2024-05-07 | Optum Services (Ireland) Limited | Cross-variant polygenic predictive data analysis |
US11574738B2 (en) | 2020-04-30 | 2023-02-07 | Optum Services (Ireland) Limited | Cross-variant polygenic predictive data analysis |
US11610645B2 (en) * | 2020-04-30 | 2023-03-21 | Optum Services (Ireland) Limited | Cross-variant polygenic predictive data analysis |
US11482302B2 (en) | 2020-04-30 | 2022-10-25 | Optum Services (Ireland) Limited | Cross-variant polygenic predictive data analysis |
US11967430B2 (en) | 2020-04-30 | 2024-04-23 | Optum Services (Ireland) Limited | Cross-variant polygenic predictive data analysis |
EP4150118A1 (en) | 2020-05-14 | 2023-03-22 | Becton Dickinson and Company | Primers for immune repertoire profiling |
US11932901B2 (en) | 2020-07-13 | 2024-03-19 | Becton, Dickinson And Company | Target enrichment using nucleic acid probes for scRNAseq |
WO2022071952A1 (en) * | 2020-10-01 | 2022-04-07 | Google Llc | Linked dual barcode insertion constructs |
WO2022109343A1 (en) | 2020-11-20 | 2022-05-27 | Becton, Dickinson And Company | Profiling of highly expressed and lowly expressed proteins |
WO2024158685A1 (en) | 2023-01-23 | 2024-08-02 | Illumina, Inc. | Inferring microorganism of origin for antimicrobial resistance markers in targeted metagenomics |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101460633A (zh) * | 2006-03-14 | 2009-06-17 | 基尼宗生物科学公司 | 用于核酸测序的方法和装置 |
US20100015626A1 (en) * | 2000-02-07 | 2010-01-21 | Illumina, Inc. | Multiplex nucleic acid reactions |
US20120157322A1 (en) * | 2010-09-24 | 2012-06-21 | Samuel Myllykangas | Direct Capture, Amplification and Sequencing of Target DNA Using Immobilized Primers |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5171534A (en) | 1984-01-16 | 1992-12-15 | California Institute Of Technology | Automated DNA sequencing technique |
US5234809A (en) | 1989-03-23 | 1993-08-10 | Akzo N.V. | Process for isolating nucleic acid |
WO1994024143A1 (en) | 1993-04-12 | 1994-10-27 | Northwestern University | Method of forming oligonucleotides |
US5705628A (en) | 1994-09-20 | 1998-01-06 | Whitehead Institute For Biomedical Research | DNA purification and isolation using magnetic particles |
US5750341A (en) | 1995-04-17 | 1998-05-12 | Lynx Therapeutics, Inc. | DNA sequencing by parallel oligonucleotide extensions |
US5780613A (en) | 1995-08-01 | 1998-07-14 | Northwestern University | Covalent lock for self-assembled oligonucleotide constructs |
GB9620209D0 (en) | 1996-09-27 | 1996-11-13 | Cemu Bioteknik Ab | Method of sequencing DNA |
ES2563643T3 (es) | 1997-04-01 | 2016-03-15 | Illumina Cambridge Limited | Método de secuenciación de ácido nucleico |
US20020076735A1 (en) * | 1998-09-25 | 2002-06-20 | Williams Lewis T. | Diagnostic and therapeutic methods using molecules differentially expressed in cancer cells |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
US7056661B2 (en) | 1999-05-19 | 2006-06-06 | Cornell Research Foundation, Inc. | Method for sequencing nucleic acid molecules |
US6056661A (en) | 1999-06-14 | 2000-05-02 | General Motors Corporation | Multi-range transmission with input split planetary gear set and continuously variable transmission unit |
WO2001023610A2 (en) | 1999-09-29 | 2001-04-05 | Solexa Ltd. | Polynucleotide sequencing |
DE60136166D1 (de) * | 2000-02-07 | 2008-11-27 | Illumina Inc | Nukleinsäure-nachweisverfahren mit universellem priming |
US6917726B2 (en) | 2001-09-27 | 2005-07-12 | Cornell Research Foundation, Inc. | Zero-mode clad waveguides for performing spectroscopy with confined effective observation volumes |
US7001724B1 (en) | 2000-11-28 | 2006-02-21 | Applera Corporation | Compositions, methods, and kits for isolating nucleic acids using surfactants and proteases |
US6558907B2 (en) * | 2001-05-16 | 2003-05-06 | Corning Incorporated | Methods and compositions for arraying nucleic acids onto a solid support |
US7057026B2 (en) | 2001-12-04 | 2006-06-06 | Solexa Limited | Labelled nucleotides |
US20030175828A1 (en) * | 2002-03-15 | 2003-09-18 | Lazar James G. | Signal amplification by Hybrid Capture |
US20070037182A1 (en) | 2002-05-28 | 2007-02-15 | Gaskin James Z | Multiplex assays for inferring ancestry |
US7541444B2 (en) | 2002-08-23 | 2009-06-02 | Illumina Cambridge Limited | Modified nucleotides |
US20090124514A1 (en) * | 2003-02-26 | 2009-05-14 | Perlegen Sciences, Inc. | Selection probe amplification |
WO2005065814A1 (en) | 2004-01-07 | 2005-07-21 | Solexa Limited | Modified molecular arrays |
US7170050B2 (en) | 2004-09-17 | 2007-01-30 | Pacific Biosciences Of California, Inc. | Apparatus and methods for optical analysis of molecules |
US20080187918A1 (en) * | 2004-11-19 | 2008-08-07 | Otsuka Pharmaceutical Co., Ltd. | Method of Diagnosing the Risk of Thermolabile Phenotype Diseases by Using Gene |
CA2606156C (en) * | 2005-04-18 | 2013-01-08 | Ryan Parr | Mitochondrial mutations and rearrangements as a diagnostic tool for the detection of sun exposure, prostate cancer and other cancers |
GB0514910D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Method for sequencing a polynucleotide template |
GB0514909D0 (en) * | 2005-07-20 | 2005-08-24 | Solexa Ltd | Methods of nucleic acid amplification and sequencing |
GB0514936D0 (en) | 2005-07-20 | 2005-08-24 | Solexa Ltd | Preparation of templates for nucleic acid sequencing |
GB0522310D0 (en) | 2005-11-01 | 2005-12-07 | Solexa Ltd | Methods of preparing libraries of template polynucleotides |
EP1969153A2 (en) | 2005-11-28 | 2008-09-17 | Pacific Biosciences of California, Inc. | Uniform surfaces for hybrid material substrates and methods for making and using same |
CN100540680C (zh) * | 2006-01-24 | 2009-09-16 | 中国药品生物制品检定所 | 乙型肝炎病毒“a”决定簇的突变检测基因芯片 |
EP2018622B1 (en) | 2006-03-31 | 2018-04-25 | Illumina, Inc. | Systems for sequence by synthesis analysis |
US8178360B2 (en) | 2006-05-18 | 2012-05-15 | Illumina Cambridge Limited | Dye compounds and the use of their labelled conjugates |
WO2008002502A2 (en) | 2006-06-23 | 2008-01-03 | Illumina, Inc. | Devices and systems for creation of dna cluster arrays |
JP2009544317A (ja) * | 2006-07-26 | 2009-12-17 | イェール ユニバーシティー | 加齢性黄斑変性の診断および治療 |
US7754429B2 (en) | 2006-10-06 | 2010-07-13 | Illumina Cambridge Limited | Method for pair-wise sequencing a plurity of target polynucleotides |
EP2121983A2 (en) | 2007-02-02 | 2009-11-25 | Illumina Cambridge Limited | Methods for indexing samples and sequencing multiple nucleotide templates |
TWI460602B (zh) | 2008-05-16 | 2014-11-11 | Counsyl Inc | 廣用的懷孕前篩檢裝置 |
CA2766312C (en) | 2009-06-26 | 2020-04-14 | Gary L. Andersen | Methods and systems for phylogenetic analysis |
US9023769B2 (en) * | 2009-11-30 | 2015-05-05 | Complete Genomics, Inc. | cDNA library for nucleic acid sequencing |
US20110319290A1 (en) | 2010-06-08 | 2011-12-29 | Nugen Technologies, Inc. | Methods and Compositions for Multiplex Sequencing |
BR112013002299A2 (pt) * | 2010-08-27 | 2016-05-24 | Genentech Inc | método de captura e sequenciamento de uma molécula alvo de ácido nucleíco e método de determinação do estado de metilação de um fragmento de dna genônimo |
-
2013
- 2013-07-17 CA CA2876505A patent/CA2876505A1/en not_active Abandoned
- 2013-07-17 CN CN201810260746.4A patent/CN108456717A/zh active Pending
- 2013-07-17 CN CN201380045879.5A patent/CN104812947B/zh not_active Expired - Fee Related
- 2013-07-17 EP EP13820115.7A patent/EP2875173B1/en not_active Not-in-force
- 2013-07-17 ES ES13820115.7T patent/ES2637538T3/es active Active
- 2013-07-17 JP JP2015523238A patent/JP6285929B2/ja not_active Expired - Fee Related
- 2013-07-17 EP EP17170936.3A patent/EP3243937A1/en not_active Withdrawn
- 2013-07-17 AU AU2013292610A patent/AU2013292610B2/en not_active Ceased
- 2013-07-17 WO PCT/US2013/050965 patent/WO2014015084A2/en active Application Filing
-
2014
- 2014-12-15 IL IL236269A patent/IL236269A0/en unknown
-
2017
- 2017-08-18 JP JP2017157845A patent/JP6234629B1/ja not_active Expired - Fee Related
- 2017-10-24 JP JP2017204976A patent/JP2018038417A/ja active Pending
-
2018
- 2018-05-03 HK HK18105718.0A patent/HK1246372A1/zh unknown
- 2018-08-17 AU AU2018217306A patent/AU2018217306A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100015626A1 (en) * | 2000-02-07 | 2010-01-21 | Illumina, Inc. | Multiplex nucleic acid reactions |
CN101460633A (zh) * | 2006-03-14 | 2009-06-17 | 基尼宗生物科学公司 | 用于核酸测序的方法和装置 |
US20120157322A1 (en) * | 2010-09-24 | 2012-06-21 | Samuel Myllykangas | Direct Capture, Amplification and Sequencing of Target DNA Using Immobilized Primers |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109686439A (zh) * | 2018-12-04 | 2019-04-26 | 东莞博奥木华基因科技有限公司 | 遗传病基因检测的数据分析方法、系统及存储介质 |
CN110349624A (zh) * | 2019-05-30 | 2019-10-18 | 山东省农业科学院玉米研究所 | sam文件flag标签定位T-DNA插入位点的方法 |
CN112397144A (zh) * | 2020-10-29 | 2021-02-23 | 无锡臻和生物科技有限公司 | 检测基因突变及表达量的方法及装置 |
CN112397144B (zh) * | 2020-10-29 | 2021-06-15 | 无锡臻和生物科技股份有限公司 | 检测基因突变及表达量的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2875173A2 (en) | 2015-05-27 |
JP2015531588A (ja) | 2015-11-05 |
AU2018217306A1 (en) | 2018-09-20 |
CN104812947A (zh) | 2015-07-29 |
CA2876505A1 (en) | 2014-01-23 |
JP6234629B1 (ja) | 2017-11-22 |
ES2637538T3 (es) | 2017-10-13 |
HK1246372A1 (zh) | 2018-09-07 |
IL236269A0 (en) | 2015-02-26 |
WO2014015084A3 (en) | 2014-03-06 |
CN104812947B (zh) | 2018-04-27 |
JP2018019701A (ja) | 2018-02-08 |
EP3243937A1 (en) | 2017-11-15 |
EP2875173B1 (en) | 2017-06-28 |
JP6285929B2 (ja) | 2018-02-28 |
AU2013292610A1 (en) | 2015-01-22 |
JP2018038417A (ja) | 2018-03-15 |
AU2013292610B2 (en) | 2018-05-17 |
WO2014015084A2 (en) | 2014-01-23 |
EP2875173A4 (en) | 2015-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104812947B (zh) | 检测遗传变异的系统和方法 | |
US20220254443A1 (en) | System and methods for detecting genetic variation | |
US12104212B2 (en) | Personalized methods for detecting circulating tumor DNA | |
Gupta et al. | Next generation sequencing and its applications | |
Nguyen et al. | Single cell RNA sequencing of rare immune cell populations | |
Metzker | Sequencing technologies—the next generation | |
Duan et al. | Recent advances in detecting mitochondrial DNA heteroplasmic variations | |
Kidd et al. | Mapping and sequencing of structural variation from eight human genomes | |
US20140162278A1 (en) | Methods and compositions for enrichment of target polynucleotides | |
US20140024541A1 (en) | Methods and compositions for high-throughput sequencing | |
CN108485940A (zh) | 拷贝数变异的检测和分类 | |
CA3049455C (en) | Sequencing adapter manufacture and use | |
JP7434243B2 (ja) | 遺伝子サンプルを識別且つ区別するためのシステムと方法 | |
Kacmarczyk et al. | “Same difference”: comprehensive evaluation of four DNA methylation measurement platforms | |
Huang et al. | Recent advances in experimental whole genome haplotyping methods | |
Han et al. | Transposable element profiles reveal cell line identity and loss of heterozygosity in Drosophila cell culture | |
Kehl et al. | Review of Molecular Technologies for Investigating Canine Cancer | |
CN114875118A (zh) | 确定细胞谱系的方法、试剂盒和装置 | |
Sharma | Microarray Analysis: Biochips and Eradication of All Diseases | |
Cannon et al. | Capturing genomic signatures of DNA sequence variation using a standard anonymous microarray platform | |
Saleem et al. | Single Cell Sequencing, Its Application and Future Challenges | |
Martin et al. | From First to Second: How Stickler’s Diagnostic Genetics Has Evolved to Match Sequencing Technologies | |
Tree et al. | Gene Expression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180828 |