CN114096682A - 通过合成方法的快进测序 - Google Patents

通过合成方法的快进测序 Download PDF

Info

Publication number
CN114096682A
CN114096682A CN202080048933.1A CN202080048933A CN114096682A CN 114096682 A CN114096682 A CN 114096682A CN 202080048933 A CN202080048933 A CN 202080048933A CN 114096682 A CN114096682 A CN 114096682A
Authority
CN
China
Prior art keywords
region
sequence
primer
polynucleotide
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080048933.1A
Other languages
English (en)
Inventor
M·普拉特
G·阿尔莫吉
D·布林扎
E·特雷帕涅尔
O·巴拉德
Y·埃齐奥尼
F·奥伯斯特拉斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Altima Genomics
Original Assignee
Altima Genomics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Altima Genomics filed Critical Altima Genomics
Publication of CN114096682A publication Critical patent/CN114096682A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文描述了针对多核苷酸生成偶联测序读段对的方法,以及分析偶联测序读段对的方法。可以分析偶联测序读段对来检测多核苷酸变体,包括在偶联测序读段对内不直接测序的基因座处。其他分析方法包括使用偶联测序读段对来构建或验证共有序列。可以如下针对多核苷酸生成偶联测序读段对:通过使用标记的核苷酸延伸引物,通过针对第一区域生成测序数据;使用以第二区域流动顺序提供的核苷酸进一步将引物延伸通过第二区域,其中引物延伸第二区域比引物延伸通过第一区域进行得更快;和通过使用标记的核苷酸进一步延伸引物来生成与多核苷酸的第三区域的序列相关的测序数据。

Description

通过合成方法的快进测序
相关申请的交叉引用
本申请要求于2019年5月3日提交的美国临时专利申请序列号码62/842,534;2019年9月23日提交的美国临时专利申请序列号码62/904,274;以及于2020年2月7日提交的美国临时专利申请序列号码62/971,530的优先权权益;将其各自的内容通过引用整体并入本文中。
以ASCII文本文件提交序列表
以下提交的ASCII文本文件的内容通过引用整体并入本文中:计算机可读形式(CRF)的序列表(文件名:165272000440SEQLIST.TXT,记录日期:2020年4月27日,大小:5KB)。
发明领域
本文描述了对多核苷酸进行测序的方法,包括生成偶联测序读段对的方法,以及分析从该测序方法获得的测序数据的方法。
背景
配对末端测序法已被用于获得多核苷酸分子3'和5'端的测序数据。通常,将测序引物与待测序的DNA多核苷酸杂交,并对几个碱基测序以获得多核苷酸第一端的测序数据。然后将第二测序引物与多核苷酸另一端附近的互补链杂交,并对其测序以确定多核苷酸另一端的测序数据。基于测序数据是从相同测序簇获得的事实,将多核苷酸的3'和5'端的测序数据偶联。配对末端测序法经常用于下一代测序(NGS)方案中。
然而,使用传统的配对末端测序,对于多核苷酸的3’和5’端之间的区域,没有(或很少)得到信息。尽管配对末端测序数据可用于某些分析目的,但它不能用于检测多核苷酸的未测序区域中的特定变体。已经开发了某些长程测序技术,以对于在使用传统的配对末端测序法时通常缺失的多核苷酸区域进行测序。然而,长程测序相对缓慢并且易于出现显著测序错误。
发明简述
本文描述了对多核苷酸进行测序的方法,包括生成偶联测序读段对的方法,以及分析从该测序方法获得的测序数据的方法。
从多核苷酸生成偶联测序读段对的方法包括:(a)将多核苷酸与引物杂交以形成杂交模板;(b)通过延伸使用标记的核苷酸的引物、并检测整合的标记的核苷酸的存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;(c)使用第二区域流动顺序提供的核苷酸将步骤(b)中所延伸的引物进一步延伸使其通过第二区域,其中(i)引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在,(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物通过第二区域的延伸比步骤(b)中的引物延伸进行得更快;和(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第三区域的序列相关的测序数据。在一些实施方案中,引物通过第二区域的延伸比步骤(b)中的引物延伸进行得更快。在一些实施方案中,生成偶联测序读段对的方法包括将第一区域的测序数据与第三区域的测序数据相关联。
在一些实施方案中,从多核苷酸生成偶联测序读段对的方法包括(a)将引物与多核苷酸的第一区域杂交以形成杂交模板;(b)使用以第二区域流动顺序提供的核苷酸将引物延伸通过第二区域,其中(i)引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在,或(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物;和(c)通过使用标记的核苷酸进一步延伸步骤(b)中延伸的引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第三区域的序列相关的测序数据。在一些实施方案中,第一区域包括被引物所靶向的天然存在的序列。
在一些实施方案中,引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸标记存在或不存在。在一些实施方案中,用于延伸引物通过第二区域的核苷酸的至少一部分是未标记的核苷酸。在一些实施方案中,用于延伸引物通过第二区域的核苷酸是未标记的核苷酸。
在一些实施方案中,在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物。
在生成偶联测序读段对的方法的一些实施方案中,第二区域流动顺序包括五个或更多个核苷酸流。在一些实施方案中,每个核苷酸流包括单个核苷酸碱基。在一些实施方案中,对于5%或更多的随机测序起始位置处的50%或更多的可能SNP排列,第二区域流动顺序在多于两个流动位置处诱导信号变化。在一些实施方案中,诱导的信号变化是信号强度的变化,或者新的基本上零(或新的零)或新的基本上非零(或新的非零)信号。在一些实施方案中,诱导的信号变化是新的基本上零(或新的零)或新的基本上非零(或新的非零)信号。在一些实施方案中,第二区域流动顺序具有每个流动整合0.6或更多个碱基的效率。
在一些实施方案中,生成偶联测序读段对的方法包括使用参考序列和第二区域流动顺序确定第二区域的预期测序数据。在一些实施方案中,使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域,并且该方法还包括使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列确定第三区域的预期测序数据。在一些实施方案中,第三区域流动顺序包括五个或更多个核苷酸流。在一些实施方案中,每个核苷酸流包括单个核苷酸碱基。在一些实施方案中,对于5%或更多的随机测序起始位置处的50%或更多的可能SNP排列,第三区域流动顺序在多于两个流动位置处诱导信号变化。在一些实施方案中,诱导的信号变化是信号强度的变化,或者新的基本上零(或新的零)或新的基本上非零(或新的非零)信号。在一些实施方案中,诱导的信号变化是新的基本上零(或新的零)或新的基本上非零(或新的非零)信号。在一些实施方案中,第三区域流动顺序具有每个流动整合0.6或更多个碱基的效率。
在生成偶联测序读段对的方法的一些实施方案中,使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域,该方法还包括使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及与第三区域的序列相关的测序数据确定第三区域的预期测序数据,其中与第三区域的序列相关的测序数据是相同或不同的针对第三区域生成的测序数据。在一些实施方案中,第二区域或第三区域的预期参考数据包括二进制或非二进制流动图。在一些实施方案中,该方法还包括使用第二区域流动顺序和第二区域的第二参考序列确定第二区域的预期测试变体测序数据,其中第二参考序列包含测试变体。在一些实施方案中,使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域,并且该方法还包括使用第二区域的第二参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列确定第三区域的预期测试变体测序数据。在一些实施方案中,使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域,并且该方法还包括使用第二区域的第二参考序列、第二区域流动顺序、第三区域流动顺序以及与第三区域的序列相关的测序数据确定第三区域的预期测试变体测序数据,其中与第三区域的序列相关的测序数据是相同或不同的针对第三区域生成的测序数据。在一些实施方案中,第二区域或第三区域的预期参考测序数据包括二进制或非二进制流动图。
在一些实施方案中,生成偶联测序读段对的方法包括使用参考序列和第二区域流动顺序确定第二区域的预期测序数据。在一些实施方案中,使用以第三区域流动顺序提供的核苷酸延伸步骤(d)中延伸的引物,并且该方法还包括使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列确定第三区域的预期测序数据。在一些实施方案中,使用以第三区域流动顺序提供的核苷酸延伸步骤(d)中延伸的引物,并且该方法还包括使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及与第三区域的序列相关的测序数据确定第三区域的预期测序数据,其中与第三区域的序列相关的测序数据是相同或不同的步骤(d)中生成的测序数据。在一些实施方案中,第二区域或第三区域的预期参考数据包括二进制或非二进制流动图。在一些实施方案中,该方法包括使用第二区域流动顺序和第二区域的第二参考序列确定第二区域的预期测试变体测序数据,其中第二参考序列包括测试变体。在一些实施方案中,使用以第三区域流动顺序提供的核苷酸延伸步骤(d)中延伸的引物,并且该方法还包括使用第二区域的第二参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列确定第三区域的预期测试变体测序数据。在一些实施方案中,使用以第三区域流动顺序提供的核苷酸延伸步骤(d)中延伸的引物,并且该方法还包括使用第二区域的第二参考序列、第二区域流动顺序、第三区域流动顺序以及与第三区域的序列相关的测序数据确定第三区域的预期测试变体测序数据,其中与第三区域的序列相关的测序数据是相同或不同的步骤(d)中生成的测序数据。在一些实施方案中,第二区域或第三区域的预期参考测序数据包括二进制或非二进制流动图。
在一些实施方案中,生成偶联测序读段对还包括:(e)使用以第四区域流动顺序提供的核苷酸将步骤(d)中延伸的引物进一步延伸通过第四区域,其中(i)引物延伸通过第四区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在,(ii)在第四区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物通过第四区域的延伸比步骤(b)或步骤(d)中的引物延伸进行得更快;和(f)通过使用标记的核苷酸进一步延伸步骤(e)中延伸的引物,并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第五区域的序列相关的测序数据。在一些实施方案中,该方法还包括将第五区域的测序数据与第一区域的测序数据或第三区域的测序数据相关联。
本文还描述了一种将偶联测序读段对映射到参考序列的方法,包括:将偶联测序读段的第一区域或其部分或者第三区域或其部分映射到参考序列;以及使用指示第二区域的长度的距离信息将未映射的第一区域或其部分或者未映射的第三区域或其部分映射到参考序列。
还提供了一种检测结构变体的方法,包括将偶联测序读段对的第一区域或其部分或者第三区域或其部分映射到参考序列;使用指示第二区域的长度的距离信息,确定未映射的第一区域或其部分或者未映射的第三区域或其部分的参考序列内的预期基因座;基于参考序列确定预期基因座处的序列的预期测序数据;以及通过将未映射的第一区域或其部分或者未映射的第三区域或其部分的测序数据与预期测序数据进行比较来检测结构变体,其中未映射的第一区域或其部分或者未映射的第三区域或其部分的测序数据与预期测序数据之间的差异指示结构变体。
本文还提供了一种检测结构变体的方法,包括将偶联测序读段对的第一区域或其部分或者第三区域或其部分映射到参考序列,其中未映射的第一区域或未映射的第三区域在参考序列内是不可映射的。在一些实施方案中,所述方法还包括基于指示第二区域的长度的预期距离信息来确定参考序列内的结构变体的基因座。
在一些实施方案中,未映射的第一区域或其部分,或者未映射的第三区域或其部分,位于相对于参考序列的插入内。在一些实施方案中,未映射的第一区域或其部分,或者未映射的第三区域或其部分,桥接到相对于参考序列的插入的起始或末端处。
本文还提供了一种检测结构变体的方法,包括将偶联测序读段对的第一区域或其部分和第三区域或其部分映射到参考序列;确定映射的第一区域和映射的第三区域之间映射的距离信息;以及通过将映射的距离信息与第二区域的预期距离信息进行比较来检测结构变体,其中映射的距离信息和预期的距离信息之间的差异指示结构变体。在一些实施方案中,结构变体是染色体融合、倒位、插入或缺失。在一些实施方案中,变体是第二区域内的插入或缺失。
在本文所述方法的一些实施方案中,使用与第二区域流动顺序相关的信息和第二区域中碱基的概率分布来确定距离信息。在一些实施方案中,与第二区域流动顺序相关的信息是同时用于步骤(c)中延伸引物的不同类型的核苷酸碱基的数量。在一些实施方案中,第二区域中碱基的概率分布由基因组内碱基的分布来确定。
在本文所述方法的一些实施方案中,距离信息源自使用参考序列和第二区域流动顺序确定的第二区域的预期测序数据。在一些实施方案中,预期测序数据包括二进制或非二进制流动图。
本文进一步描述了一种将偶联测序读段对映射到参考序列的方法,包括:将偶联测序读段对的第一区域或其部分和第三区域或其部分映射到包含第一位置和第二位置的两个或更多个不同位置对处的参考序列;以及对于两个或更多个位置对,使用指示第二区域长度的第一距离信息和指示第一位置与第二位置之间的距离的第二距离信息来选择正确的位置对。在一些实施方案中,使用与第二区域流动顺序相关的信息和第二区域中碱基的概率分布来确定第一距离信息。在一些实施方案中,与第二区域流动顺序相关的信息是同时用于步骤(c)中延伸引物的不同类型的核苷酸碱基的数量。在一些实施方案中,第二区域中碱基的概率分布由基因组内碱基的分布来确定。在一些实施方案中,第一距离信息源自使用参考序列和第二区域流动顺序确定的第二区域的预期测序数据。在一些实施方案中,预期参考测序数据包括二进制或非二进制流动图。
本文还描述了一种检测根据上述任一种方法生成的偶联测序读段对的两个测序区域之间的变体的方法,其中使用以第三区域流动顺序提供的核苷酸延伸步骤(d)中延伸的引物,包括:将第一区域或其部分映射到参考序列;使用(1)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列,或(2)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及生成的与第三区域的序列相关的测序数据,来确定第三区域或其部分的预期测序数据,其中生成的与第三区域的序列相关的序列数据是相同或不同的步骤(d)中生成的序列数据;并通过将第三区域的预期测序数据与生成的与第三区域的序列相关的测序数据进行比较来检测变体的存在。在一些实施方案中,变体是结构变体。在一些实施方案中,结构变体是染色体融合、倒位、插入或缺失。在一些实施方案中,变体是单核苷酸多态性(SNP)。在一些实施方案中,该方法用于检测测试变体,并且参考序列包含测试变体。在一些实施方案中,通过鉴定第二多核苷酸内的测试变体来选择测试变体。在一些实施方案中,该方法还包括将检测到的测试变体与在多核苷酸的第一区域或第三区域中测序的等位基因相关联。
本文还描述了一种检测根据上述任一种方法生成的偶联测序读段对的两个测序区域之间的变体的方法,其中延伸的引物使用以第三区域流动顺序提供的核苷酸延伸通过第三区域,所述方法包括:将第一区域或其部分映射到参考序列;使用(1)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列,或(2)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及生成的与第三区域的序列相关的测序数据,来确定第三区域或其部分的预期测序数据,其中生成的与第三区域的序列相关的序列数据是相同或不同的针对第三区域生成的序列数据;并通过将第三区域的预期测序数据与生成的与第三区域的序列相关的测序数据进行比较来检测变体的存在。在一些实施方案中,变体是结构变体。在一些实施方案中,结构变体是染色体融合、倒位、插入或缺失。在一些实施方案中,变体是单核苷酸多态性(SNP)。在一些实施方案中,该方法用于检测测试变体,并且参考序列包含测试变体。在一些实施方案中,通过鉴定第二多核苷酸内的测试变体来选择测试变体。在一些实施方案中,该方法包括将检测到的测试变体与在多核苷酸的第一区域或第三区域中测序的等位基因相关联。
本文进一步描述了一种生成偶联测序读段对的方法,所述偶联测序读段对用于检测多核苷酸的未测序区域中碱基颠换的存在,所述方法包括:(a)将多核苷酸与引物杂交以形成杂交模板;(b)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;(c)使用包含(1)胞嘧啶和胸腺嘧啶以及(2)腺嘌呤和鸟嘌呤的交替核苷酸对的流动顺序进一步延伸步骤(b)中延伸的引物通过第二区域;以及(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,来生成与多核苷酸的第三区域的序列相关的测序数据。在一些实施方案中,延伸引物通过第二区域,而不检测整合到延伸引物中的核苷酸的标记存在或不存在。
本文还描述了一种从多核苷酸生成偶联测序读段对的方法,包括:(a)将引物与多核苷酸的第一区域杂交以形成杂交模板;(b)使用包含(1)胞嘧啶和胸腺嘧啶以及(2)腺嘌呤和鸟嘌呤的交替核苷酸对的流动顺序将引物延伸通过第二区域;和(c)通过使用标记的核苷酸进一步延伸步骤(b)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,来生成与多核苷酸的第三区域的序列相关的测序数据。在一些实施方案中,第一区域包括由引物靶向的天然存在的序列。在一些实施方案中,引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在。
在一些实施方案中,检测多核苷酸的未测序区域中碱基颠换的存在的方法包括:将根据以上描述的方法生成的偶联测序读段对的第一区域或其部分和第三区域或其部分映射到参考序列,其中使用以第三区域流动顺序提供的核苷酸延伸步骤(d)中延伸的引物;使用第二区域流动顺序、第三区域流动顺序和参考序列来确定第三区域的预期测序数据;以及基于第三区域的预期测序数据与生成的第三区域的测序数据之间的差异检测碱基颠换的存在。在一些实施方案中,使用第二区域流动顺序、第三区域流动顺序、第二区域的参考序列和第三区域的参考序列来确定第三区域的预期测序数据。在一些实施方案中,使用第二区域流动顺序、第三区域流动顺序、第二区域的参考序列以及生成的与第三区域的序列相关的序列数据来确定第三区域的预期测序数据,其中所生成的第三区域的序列相关的序列数据是相同或不同的步骤(d)中生成的序列数据。在一些实施方案中,第三区域的预期测序数据包括二进制或非二进制流动图。
本文进一步描述了一种生成一个或多个共有序列的方法,包括组装多个偶联测序读段对。在一些实施方案中,使用指示多个偶联测序读段对的第二区域的长度的距离信息组装一个或多个共有序列。在一些实施方案中,使用第二区域中碱基的概率分布和第二区域流动顺序相关的信息来确定距离信息。在一些实施方案中,与第二区域流动顺序相关的信息是同时用于步骤(c)中延伸引物的不同类型的核苷酸碱基的数量。在一些实施方案中,第二区域中碱基的概率分布由基因组内碱基的分布确定。在一些实施方案中,距离信息源自使用参考序列和第二区域流动顺序确定的第二区域的预期参考测序数据。在一些实施方案中,预期参考测序数据包括二进制或非二进制流动图。
在一些实施方案中,生成一个或多个共有序列的方法还包括验证选自一个或多个共有序列的共有序列的一部分,所述方法使用与所选的共有序列的一部分相关的所选的偶联测序读段,其中使用以第三区域流动顺序提供的核苷酸延伸引物,所述引物在生成所选的偶联测序读段时在步骤(d)中延伸,所述验证包括:使用第二区域流动顺序、第三区域流动顺序和所选的共有序列的部分来确定所选的偶联测序读段的第三区域的预期测序数据;以及通过将所选的偶联测序读段的第三区域的预期测序数据与生成的第三区域的测序数据进行比较来验证所选的共有序列的部分。
还描述了一种验证测试变体状态的方法,包括:在多个重叠的偶联测序读段对上比较变体状态,所述多个重叠的偶联测序读段对包含对应于测试变体的基因座的基因座;基于比较来验证变体状态。在一些实施方案中,所选的偶联测序读段的第一区域或第三区域与多个重叠的偶联测序读段中的其他偶联测序读段的至少一部分的第二区域重叠。在一些实施方案中,所选的偶联测序读段的变体状态指示所选的偶联测序读段的第一区域或第三区域中的变体。在一些实施方案中,所选的偶联测序读段的第二区域与多个重叠的偶联测序读段中的其他偶联测序读段的至少一部分的第二区域重叠。在一些实施方案中,所选的偶联测序读段的变体状态指示所选的偶联测序读段的第二区域中的变体。
本文进一步描述了用于检测测试样品中的短遗传变体的方法,包括:根据上述任一种方法生成偶联测序读段对;将与多核苷酸的第三区域的序列相关的测序数据与多核苷酸的第三区域的预期序列的预期测序数据进行比较;并判定多核苷酸的第二区域中短遗传变体的存在或不存在。在一些实施方案中,将与多核苷酸的第三区域的序列相关的测序数据与多核苷酸的第三区域的预期测序数据进行比较包括确定匹配分数,所述分数指示针对多核苷酸的第三区域生成的测序数据与多核苷酸的第三区域的预期测序数据匹配的可能性;并且判定多核苷酸的第二区域中靶短遗传变体的存在或不存在包括使用确定的匹配分数。在一些实施方案中,通过计算机模拟多核苷酸的第三区域的测序和预期序列获得多核苷酸的第三区域的预期测序数据。在一些实施方案中,与第一区域的序列相关的测序数据或与第三区域的序列相关的测序数据包括表示碱基计数的流动信号,所述碱基计数指示在多个流动位置内的每个流动位置处整合的碱基数。在一些实施方案中,流动信号包括指示每个流动位置处的至少一个碱基计数的碱基计数可能性的统计参数。在一些实施方案中,流动信号包括指示每个流动位置处的多个碱基计数的碱基计数可能性的统计参数。在一些实施方案中,与第三区域的序列相关的测序数据包含表示碱基计数的流动信号,所述碱基计数指示在多个流动位置内的每个流动位置处整合的碱基数,其中流动信号包括指示多个碱基计数的碱基计数可能性的统计参数;并且所述方法还包括选择测序数据中的每个流动位置处对应于该流动位置处的预期序列的碱基计数的统计参数,并确定指示测序数据集与预期序列匹配的可能性的匹配分数。在一些实施方案中,匹配分数是在测序数据中的跨流动位置上所选的统计参数的组合值。
在以上方法的一些实施方案中,流动循环顺序包括四个单独分开的以相同顺序重复的流。
在以上方法的一些实施方案中,流动循环顺序包括五个或更多个单独分开的流。
在以上方法的一些实施方案中,生成偶联测序读段对还包括:使用以第四区域流动顺序提供的核苷酸进一步延伸引物通过第四区域,其中(i)引物延伸通过第四区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在,(ii)在第四区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物通过第四区域的延伸比引物通过第一区域或第三区域的延伸进行得更快;以及通过使用标记的核苷酸进一步延伸通过第四区域延伸的引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第五区域的序列相关的测序数据。在一些实施方案中,该方法还包括将第五区域的测序数据与第一区域的测序数据或第三区域的测序数据相关联。
在以上方法的一些实施方案中,多核苷酸使用滚环扩增来扩增。
本文还描述了一种检测测试样品中的短遗传变体的方法,包括:(a)使用滚环扩增(RCA)扩增多核苷酸以生成RCA扩增的多核苷酸,其至少包含多核苷酸的第一拷贝和多核苷酸的第二拷贝;(b)使RCA扩增的多核苷酸与引物杂交以形成杂交模板;(c)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第一拷贝内的多核苷酸的第一区域的序列相关的测序数据;(d)使用以第二区域流动顺序提供的核苷酸使引物进一步延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,其中(i)引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,而不检测整合到延伸引物中的核苷酸的标记存在或不存在,(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物通过多核苷酸的第一拷贝内的多核苷酸的第二区域的延伸比引物通过第一区域的延伸进行得更快;(e)通过使用标记的核苷酸进一步延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第三区域的序列相关的测序数据;(f)将针对多核苷酸的第三区域生成的测序数据与针对多核苷酸的第三区域的预期序列预期的测序数据进行比较;(g)判定多核苷酸的第二区域中短遗传变体的存在;(h)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据;和(i)判定多核苷酸的第二区域中的短遗传变体的身份。在一些实施方案中,引物通过多核苷酸的第一拷贝内的多核苷酸的第二区域的延伸比引物通过多核苷酸的第一拷贝内的多核苷酸的第一区域的延伸进行得更快。在一些实施方案中,基于判定多核苷酸的第二区域中短遗传变体的存在,动态地生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据。在一些实施方案中,引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在。在一些实施方案中,用于使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域的核苷酸的至少一部分是未标记的核苷酸。在一些实施方案中,用于使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域的核苷酸是未标记的核苷酸。在一些实施方案中,在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物。在一些实施方案中,在第二区域流动顺序的至少一个步骤中使用三种不同类型的核苷酸碱基的混合物。
本文进一步描述了一种检测测试样品中的短遗传变体的方法,包括:(a)使用滚环扩增(RCA)扩增多核苷酸以生成RCA扩增的多核苷酸,所述RCA扩增的多核苷酸包括至少多核苷酸的第一拷贝和多核苷酸的第二拷贝;(b)使引物与多核苷酸的第一拷贝内的多核苷酸的第一区域杂交以形成杂交模板;(c)使用以第二区域流动顺序提供的核苷酸使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,其中(i)引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在,或(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物;(d)通过使用标记的核苷酸进一步延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第三区域的序列相关的测序数据;(e)将针对多核苷酸的第三区域生成的测序数据与针对多核苷酸的第三区域的预期序列的预期测序数据进行比较;(f)判定多核苷酸的第二区域中短遗传变体的存在;(g)通过使用标记的核苷酸延伸引物,并检测整合的标记的核苷酸存在或不存在,来生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据;以及(h)判定多核苷酸的第二区域中的短遗传变体的身份。在一些实施方案中,第一区域包括由引物靶向的天然存在的序列。在一些实施方案中,基于判定多核苷酸的第二区域中短遗传变体的存在,动态地生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据。在一些实施方案中,引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在。在一些实施方案中,用于使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域的核苷酸的至少一部分是未标记的核苷酸。在一些实施方案中,用于使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域的核苷酸是未标记的核苷酸。在一些实施方案中,在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物。在一些实施方案中,在第二区域流动顺序的至少一个步骤中使用三种不同类型的核苷酸碱基的混合物。
本文还描述了一种使测序簇内的测序引物同步的方法,包括:(a)使引物与测序簇内的多核苷酸拷贝杂交;(b)使用根据第一区域流动循环的标记的核苷酸将引物延伸通过多核苷酸拷贝的第一区域;(c)使用一个或多个重定相流动使引物延伸通过多核苷酸拷贝的第二区域,其中在所述一个或多个重定相流动中的至少一个中使用至少两种不同类型的核苷酸碱基的混合物;和(d)使用根据第三区域流动循环的标记的核苷酸将引物延伸通过多核苷酸拷贝的第三区域。在一些实施方案中,在一个或多个重定相流动中的至少一个中使用三种不同类型的核苷酸碱基的混合物。在一些实施方案中,一个或多个重定相流动包括四个或更多个流动步骤。在一些实施方案中,一个或多个重定相流动以任何顺序包括:(i)包括包含A、C和G核苷酸并省略T核苷酸的混合物的第一流动;(ii)包括包含T、C和G核苷酸并省略A核苷酸的混合物的第二流动;(iii)包括包含T、A和G核苷酸并省略C核苷酸的混合物的第三流动;和(iv)包括包含T、A和C核苷酸并省略G核苷酸的混合物的第四流动。在一些实施方案中,该方法包括在将引物延伸通过第一区域的同时通过检测整合的标记的核苷酸存在或不存在来生成与第一区域的序列相关的测序数据。在一些实施方案中,该方法包括在将引物延伸通过第三区域的同时通过检测整合的标记的核苷酸存在或不存在来生成与第三区域的序列相关的测序数据。
本文还描述了一种系统,包括一个或多个处理器;以及非暂时性存储介质,所述非暂时性存储介质包含一个或多个程序,所述一个或多个程序可由一个或多个处理器来执行以接收与一个或多个偶联测序读段相关的信息;并且执行上述方法中的任何一种或多种。
附图简述
图1说明了从多核苷酸生成偶联测序读段对的示例性方法的示意图。
图2说明了使用参考序列生成预期测序数据的示例性方法的示意图。
图3说明了偶联测序读段对的第三区域映射到两个不同的基因座时,如何使用指示偶联测序读段对的第二区域的长度的距离信息将偶联测序读段对映射到参考序列。
图4说明了偶联测序读段对的第三区域映射到重复区域时,如何使用指示偶联测序读段对的第二区域的长度的距离信息将偶联测序读段对映射到参考序列。
图5说明了如何将偶联测序读段对用于检测受试者基因组中的插入的示意图。
图6说明了使用偶联测序读段对检测结构变体的示例性方法。
图7说明了使用偶联测序读段对检测受试者基因组中的结构变体的示意图,其中结构变体是插入。
图8说明了使用偶联测序读段对检测受试者基因组中的结构变体的示意图,其中结构变体是缺失。
图9说明了使用偶联测序读段对检测受试者基因组中的结构变体的示意图,其中结构变体是倒位。
图10说明了使用偶联测序读段对检测受试者基因组中的结构变体的示意图,其中结构变体是染色体融合。
图11说明了使用偶联测序读段对检测结构变体的示例性方法。
图12说明了一个示意图,该示意图证明了如何使用指示偶联测序读段对的第二区域的长度的距离信息将偶联测序读段对用于检测结构变体的一个实例。
图13说明了检测偶联测序读段对的两个测序区域之间的变体的示例性方法。
图14A显示了使用T-A-C-G的重复流动循环顺序,通过用序列5’-TATGGTCGTCGA-3’(SEQ ID NO:15)延伸引物获得的测序数据。测序数据表示延伸的引物链,并且对于可以容易地确定的互补模板链的测序信息是同等有效的。图14B显示了图14A中所示的测序数据,鉴于测序数据,基于每个流位置处的最高可能性(如星号所示)选择最可能的序列。图14C显示了图14A中所示的测序数据,其中迹线表示两个不同的候选序列(各自由其互补序列来表示):TATGGTCATCGA(SEQ ID NO:16)(实心圆)和TATGGTCGTCGA(SEQ ID NO:15)(空心圆)。可以按每个流动位置与候选序列匹配的可能性的乘积来确定测序数据与给定序列匹配的可能性。
图15A显示了测序读段R1(SEQ ID NO:15)、R2(SEQ ID NO:17)和R3(SEQ ID NO:18)(各自由延伸引物的序列来表示)与两个候选序列H1(SEQ ID NO:19)和H2(SEQ ID NO:20)(每个由它们的互补序列来表示)比对的比对结果。图15B显示了对应于R1的测序数据,其中迹线表示H1(实心圆)和H2(空心圆)。图15C显示了对应于R2的测序数据,其中迹线表示H1(实心圆)和H2(空心圆)。图15D显示了对应于R3的测序数据,其中迹线表示H1(实心圆)和H2(空心圆)。
图16显示了使用A-T-G-C流动循环顺序测序的假定核酸分子的测序数据。可以使用潜在的单倍型序列(各自由其互补序列来表示)TATGGTCG-TCGA(SEQ ID NO:21)(H1)和TATGGTCGATCG(SEQ ID NO:22)(H2)生成迹线,其中H1相对于H2具有1个碱基缺失。测序数据与H2候选序列具有更好的匹配,并且在该序列中没有判定出插入缺失。
图17显示了用于比较偶联测序读段对以确定测试变体状态的示例性示意图。
图18说明了根据一个实施方案的计算装置的实例,其可用于实施如本文中所述的方法。
图19A显示了将测序引物延伸通过多核苷酸时,来自每个流动测序循环后在第一和第三区域中整合的碱基的信号。在第二区域内未收集数据,因为引物通过这个区域的延伸加速了而没有检测的碱基整合。
图19B显示了将测序引物延伸通过多核苷酸时,来自每个流动测序循环后在第一和第三区域中整合的碱基的信号。通过第二区域收集数据,但未显示以压缩图的大小。
图20A-20E显示了在100个核苷酸流(图20A)和设计为使测序簇内的引物同步的重定相流动后,在示例性模拟的测序方案中,针对相同的多核苷酸模板延伸的引物数。所示的重定相流动顺序是四步顺序,其包括核苷酸流101(图20B)、流动102(图20C)、流动103(图20D)和流动104(图20E)。
图21A-21E显示了在100个核苷酸流(图21A)和设计为使测序簇内的引物同步的重定相流动后,在另一个示例性模拟的测序方案中,针对相同的多核苷酸模板延伸的引物数。所示的重定相流动顺序是四步顺序,其包括核苷酸流101(图21B)、流动102(图21C)、流动103(图21D)和流动104(图21E)。
图22A-22E显示了在100个核苷酸流(图22A)和设计为使测序簇内的引物同步的重定相流动后,在另一个示例性模拟的测序方案中,针对相同的多核苷酸模板延伸的引物数。所示的重定相流动顺序是四步顺序,其包括核苷酸流101(图22B)、流动102(图22C)、流动103(图22D)和流动104(图22E)。
图23显示了对于四个示例性流动循环顺序(包括其中三个是扩展的流动循环顺序),在给定随机测序起始位置的情况下检测的SNP排列的灵敏度。在图23中,x轴指示流动相(或片段化起始位置)的分数,而y轴指示在多于两个流动位置处具有诱导的信号变化(即,新的零或新的非零信号)的SNP排列的分数。
图24显示了矩阵,该矩阵显示了使用模拟快进测序方案检测的各种SNP变体的碱基检测灵敏度,其中使用重复的四步流动循环对合成多核苷酸的第二区域进行测序,每个流动具有单个核苷酸碱基。
图25A显示了对于一个使用重复的四步流动循环的模拟快进测序方案,第一、第二和第三区域中的流动的平均碱基整合,其中每个流动包括三种不同核苷酸碱基的混合物。图25B中电势了变体碱基对参考碱基检测灵敏度的矩阵。图25C显示了合成读段中碱基覆盖的分布。
图26A显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中在每个第24次流动之后使用含有C和G的混合物的重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加超前定相误差)的分布。平均值和标准偏差显示在图例中。还显示了对照和重定相方案的分布积分。
图26B显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中在每个第48次流动之后使用含有C和G的混合物的重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加上超前定相误差)的分布。平均值和标准偏差显示在图例中。还显示了对照和重定相方案的分布积分。
图26C显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中在每个第96次流动之后使用含有C和G的混合物的重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加上超前定相误差)的分布。平均值和标准偏差显示在在图例中。还显示了对照和重定相方案的分布积分。
图26D显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中在每个第192次流动之后使用含有C和G的混合物的重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加上超前定相误差)的分布。平均值和标准偏差显示在在图例中。还显示了对照和重定相方案的分布积分。
图26E显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中在每个第48次流动之后使用含有C、G和T的混合物的重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加上超前定相误差)的分布。平均值和标准偏差显示在在图例中。还显示了对照和重定相方案的分布积分。
图26F显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中在每个第96次流动之后使用含有C、G和T的混合物的重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加上超前定相误差)的分布。平均值和标准偏差显示在在图例中。还显示了对照和重定相方案的分布积分。
图26G显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中在每个第96次流动之后使用含有C、G和T的混合物的第一重定相流动以及含有A、C和G的混合物的第二重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加上超前定相误差)的分布。平均值和标准偏差显示在在图例中。还显示了对照和重定相方案的分布积分。
图26H显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中在每个第192次流动之后使用含有C、G和T的混合物的第一重定相流动以及含有A、C和G的混合物的第二重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加上超前定相误差)的分布。平均值和标准偏差显示在在图例中。还显示了对照和重定相方案的分布积分。
图26I显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中每个第96次流动之后使用含有C、G和T的混合物的第一重定相流动,含有A、C和T的混合物的第二重定相流动,含有A、G和T的混合物的第三重定相流动以及含有A、C和G的混合物的第四重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加上超前定相误差)的分布。平均值和标准偏差显示在在图例中。还显示了对照和重定相方案的分布积分。
图26J显示了对于对照方案(105轮T-G-C-A流动循环)或重定相方案(105轮T-G-C-A流动循环,其中每个第192次流动之后使用含有C、G和T的混合物的第一重定相流动,含有A、C和T的混合物的第二重定相流动,含有A、G和T的混合物的第三重定相流动以及含有A、C和G的混合物的第四重定相流动),在10,000个模拟流动图上累积的总定相误差之和(滞后定相误差加上超前定相误差)的分布。平均值和标准偏差显示在在图例中。还显示了对照和重定相方案的分布积分。
发明详述
本文描述了从多核苷酸生成偶联测序读段对的方法,以及分析该偶联测序读段对的方法。可以分析偶联测序读段对,例如,以将偶联测序读段对映射到参考序列,来检测结构变体、检测多核苷酸的偶联配对末端之间的区域中的变体(例如SNP)、检测颠换,或确定或验证共有序列。
多核苷酸可以与测序引物杂交,其通过多核苷酸的第一区域(即3’端)以对第一区域进行测序。然后引物延伸通过多核苷酸的第二区域,这可以以比引物延伸通过第一区域更快的速率发生。加速的通过第二区域的引物延伸可以称为“快进测序”。如本文进一步讨论的,因为引物延伸通过第二区域(而不是如在更传统的配对末端测序中发生的那样,第二区域被引物完全跳过),所以即使第二区域不以与第一区域相同的方式测序也可以得到第二区域的一些信息(可能包括一些测序数据)。例如,引物可以仅使用未标记的核苷酸延伸通过第二区域。一旦测序引物延伸通过第二区域,引物就延伸到多核苷酸的第三区域(即,5'端)中以对第三区域进行测序。该区域和第三区域的测序数据可以偶联,产生多核苷酸的偶联测序读段对,并且如本文进一步描述的,可以从第二区域衍生另外的测序数据。
在一个实例中,可以通过以下步骤生成来自多核苷酸的偶联测序读段对:(a)将多核苷酸与引物杂交以形成杂交模板;(b)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;(c)使用以第二区域流动顺序中提供的核苷酸进一步延伸步骤(b)中延伸的引物通过第二区域,其中引物通过第二区域的延伸比步骤(b)中引物的延伸进行得更快;和(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。第一区域的测序数据可以与第三区域的测序数据相关联,其表示偶联测序读段对。用于使引物延伸通过第二区域的核苷酸可以是未标记的。
在一些实施方案中,可以通过以下步骤生成来自多核苷酸的偶联测序读段对:(a)将多核苷酸与引物杂交以形成杂交模板;(b)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;(c)使用以第二区域流动顺序中提供的核苷酸进一步延伸步骤(b)中延伸的引物通过第二区域,其中引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在;和(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,来产生与多核苷酸的第三区域的序列相关的测序数据。第一区域的测序数据可以与第三区域的测序数据相关联,其指示偶联测序读段对。用于使引物延伸通过第二区域的核苷酸可以是未标记的。
在一些实施方案中,可以通过以下步骤生成来自多核苷酸的偶联测序读段对:(a)将多核苷酸与引物杂交以形成杂交模板;(b)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;(c)使用以第二区域流动顺序中提供的核苷酸将步骤(b)中延伸的引物进一步延伸通过第二区域,其中在流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物;和(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,来生成与多核苷酸的第三区域的序列相关的测序数据。第一区域的测序数据可以与第三区域的测序数据相关联,其指示偶联测序读段对。用于使引物延伸通过第二区域的核苷酸可以是未标记的。
在一些实施方案中,引物延伸通过第二区域以重定相(re-phase,即同步)测序簇内的多个测序反应。将核苷酸整合到延伸引物中的化学过程经常是不完美的,导致测序簇内的链之间的失同步。随着读段长度增加,检测核苷酸整合到延伸引物中的存在或不存在时,失同步化可能导致信号降解,并因此导致准确度降低。再同步的结果是抵消信号损失,这允许更长的有效读段长度。为了使测序反应重定相,使用重定相循环使引物延伸通过第二区域,其中在第二区域流动顺序的多个步骤中使用至少两种(例如,两种或三种)不同类型的核苷酸碱基的混合物。在一些实施方案中,可能无法检测到在重定相循环期间整合的核苷酸,这将产生所得读段中的缺口。然而,将序列与参考序列或其他序列比对时,这个读段缺口是可以处置的。
参考序列可以用于提取第二区域的测序数据,即使第二区域可能没有直接或完全测序。例如,通过检测整合到延伸引物中的标记核苷酸存在或不存在,可以从多核苷酸的第一区域和/或第三区域获得测序数据。然而,引物可以使用未标记的核苷酸延伸通过第二区域,或者不检测整合的核苷酸存在或不存在。使用未标记的核苷酸(或通过不允许用来检测整合的标记的测序系统时间)使得更快的引物延伸通过第二区域,但不能直接确定测序数据。然而,因为使用以预定流动顺序提供的核苷酸将引物延伸通过第二区域,所以第二区域中的变体可以影响第三区域内确定的测序数据。参考序列可以用于确定预期的测序数据(例如,预期的流动图),将其与生成的测序数据(如检测到的流动图)进行比较以检测变体,包括第二区域内的变体。预期的测序信息(例如,预期的流动图)与生成的测序数据(例如,生成的流动图)之间的比较可以在第三区域中进行(以检测第二区域中的变体)。这种方法学提供了优于传统配对末端测序方法的显著优点,对于传统配对末端测序方法,多核苷酸的3'端或5'端的测序数据不受多核苷酸的3'端和5'端之间的多核苷酸中的变体的影响。
定义
如本文所用的,单数形式“一个(a)”、“一种(an)”和“该(the)”包括复数指代,除非上下文另有明确规定。
本文提及“约”某一值或参数包括(和描述)针对该值或参数本身的变化。例如,提及“约X”的描述包括“X”的描述。
“预期测序数据”是指如果用于生成偶联测序读段对的多核苷酸的序列或所述多核苷酸的区域的序列与参考序列匹配,将预期的测序数据。
“流(动)顺序”是指用于使用非终止核苷酸对核酸分子进行测序的单独分开的核苷酸流的顺序。流(动)顺序可以划分成重复单元的循环,并且重复单元的流(动)顺序被称为“流(动)循环顺序”。“流(动)位置”是指在测序过程期间给定的单独的核苷酸流的顺序位置。
术语“个体”、“患者”和“受试者”同义使用,并且是指包括人在内的动物。
如本文所用,术语“标记”是指与或可以与另一部分(例如核苷酸或核苷酸类似物)偶联的可检测部分。标记可以发射信号或改变传递到标记的信号,使得可以检测标记的存在或不存在。在一些情况下,偶联可以通过连接子(linker)进行,所述连接子可以是可切割的,如可光切割的(例如,在紫外光下可切割的)、可化学切割的(例如,通过还原剂,如二硫苏糖醇(DTT)、三(2-羧乙基)膦(TCEP))或可酶促切割的(例如,通过酯酶、脂肪酶、肽酶或蛋白酶)。在一些实施方案中,标记是荧光团。
“非终止核苷酸”是如下核酸部分:可以使用聚合酶或转录酶连接到多核苷酸的3’端,并且可以使用聚合酶或转录酶将另一个非终止核酸连接到其上,而不需要从核苷酸上除去保护基团或可逆终止子。天然存在的核酸是一类非终止核酸。非终止核酸可以是标记的或未标记的。
“短遗传变体”在本文中用于描述长度为10个连续碱基或更少(即长度为10、9、8、7、6、5、4、3、2或1个碱基)的遗传多态性(即突变)。该术语包括单核苷酸多态性(SNP)、多核苷酸多态性(MNP)和长度为10个连续碱基或更少的插入缺失。
应当理解,本文所述的本发明的方面和变化包括“由方面和变化组成”和/或“基本上由方面和变化组成”。
提供值的范围时,将理解在该范围的上限和下限之间的每个中间值,以及在该状态范围中的任何其他所述值或中间值,都包括在本公开的范围内。在所述范围包括上限或下限的情况下,排除那些包括的限值中的任一个的范围也包括在本公开中。
本文所述的一些分析方法包括将序列映射到参考序列,确定序列信息,和/或分析序列信息。在本领域中充分理解的是,可以容易地确定和/或分析互补序列,并且本文提供的描述涵盖参考互补序列进行的分析方法。
本文使用的章节标题仅用于组织目的,而不应被解释为限制所描述的主题。呈现该描述以使本领域普通技术人员能够制造和使用本发明,并且在专利申请及其需求的上下文中提供该描述。对所描述的实施方案的各种修改对于本领域技术人员而言将是显而易见的,并且本文的一般原理可以应用于其他实施方案。因此,本发明不旨在限于所示的实施方案,而是符合与本文描述的原理和特征一致的最宽范围。
附图显示了根据各种实施方案的过程。在示例性过程中,一些块任选地被组合,一些块的顺序任选地被改变,并且一些块任选地被省略。在一些实例中,额外的步骤可以与示例性过程来组合进行。因此,如所示的(并且在下面更详细描述的)操作本质上是示例性的,因此不应被视为限制。
本文提及的所有出版物、专利和专利申请的公开内容各自通过引用整体并入本文中。在通过引用并入的任何参考文献与本公开冲突的情况下,应以本公开为准。
流动测序方法
可以使用流动测序方法来生成测序数据,所述方法包括根据预定的流动循环延伸与模板多核苷酸分子结合的引物,在预定的流动循环中,单一类型的核苷酸在任何给定的流动位置可接近正在延伸的引物。在一些实施方案中,至少一些特定类型的核苷酸包括标记,在将标记的核苷酸整合到延伸引物中时,标记产生可检测信号。通过此类核苷酸整合到延伸引物中的所得序列应为模板多核苷酸分子序列的反向互补序列。在一些实施方案中,例如,使用流动测序方法生成测序数据,所述方法包括使用标记的核苷酸延伸引物,并检测整合到延伸引物中的标记的核苷酸存在或不存在。流动测序方法也可以称为“天然的边合成边测序(sequencing-by-synthesis)”或“非终止的边合成边测序”方法。示例性方法描述于美国专利No.8,772,473中,将其通过引用整体并入本文中。虽然参考流动测序方法提供了以下描述,但是应当理解,可以使用其他测序方法对测序区域的全部或一部分进行测序。
流动测序包括使用核苷酸来延伸与多核苷酸杂交的引物。如果模板链中存在互补碱基,则可以将给定碱基类型(例如,A、C、G、T、U等)的核苷酸与杂交的模板混合以延伸引物。核苷酸可以是例如非终止核苷酸。当核苷酸非终止时,如果模板链中存在多于一个连续的互补碱基,则可以将多于一个连续的碱基整合到正在延伸的引物链中。与非终止核苷酸形成对比的是具有3'可逆终止子的核苷酸,其中通常在连接连续的核苷酸之前除去封闭基团。如果模板链中不存在互补碱基,则引物延伸停止,直到引入与模板链中的下一个碱基互补的核苷酸。可以标记核苷酸的至少一部分,使得其整合可以被检测。最常见的是,一次仅引入单一核苷酸类型(即,离散添加),尽管在某些实施方案中可以同时引入两种或三种不同类型的核苷酸。与这种方法学可以形成对比的是使用可逆终止子的测序方法,其中引物延伸在每个单个碱基延伸之后停止,之后终止子反转以允许下一个后续碱基的整合。
可以在引物延伸过程中以确定的顺序引入核苷酸,其可以进一步分成循环。逐步添加核苷酸,这允许将添加的核苷酸整合到存在模板链中的互补碱基的测序引物的末端。循环可以具有相同的核苷酸顺序和不同碱基类型的数量,或不同的核苷酸顺序和/或不同数量的不同碱基类型。然而,没有对应于给定流动步骤的碱基组(即,在单个流动步骤中同时使用的一个或多个不同碱基)在相同的循环(如本文使用的术语)中重复,其可以提供作为区分不同循环的标志物。仅作为示例,第一循环的顺序可以是A-T-G-C,并且第二循环的顺序可以是A-T-C-G。此外,一个或多个循环可以省略一个或多个核苷酸。仅作为示例,第一循环的顺序可以是A-T-G-C,并且第二循环的顺序可以是A-T-C。本领域技术人员可以容易地设想替代顺序。在引入不同核苷酸之间,可以去除未整合的核苷酸,例如通过用洗液洗涤测序平台。
通过以模板依赖性方式在引物末端整合一个或多个核苷酸,可以将聚合酶用于延伸测序引物。在一些实施方案中,聚合酶是DNA聚合酶。聚合酶可以是天然存在的聚合酶或合成的(例如,突变)聚合酶。可以在引物延伸的初始步骤添加聚合酶,但是可以任选地在测序期间添加补充聚合酶,例如伴随核苷酸的逐步添加或在多个流动循环之后。示例性聚合酶包括DNA聚合酶、RNA聚合酶、热稳定聚合酶、野生型聚合酶、修饰的聚合酶、Bst DNA聚合酶、Bst 2.0DNA聚合酶、Bst 3.0DNA聚合酶、Bsu DNA聚合酶、大肠杆菌DNA聚合酶I、T7 DNA聚合酶、噬菌体T4 DNA聚合酶、Φ29(phi29)DNA聚合酶、Taq聚合酶、Tth聚合酶、Tli聚合酶、Pfu聚合酶和SeqAmp DNA聚合酶。
确定模板链的序列时,引入的核苷酸可以包括标记的核苷酸,并且可以检测整合的标记核酸的存在或不存在以确定序列。标记可以是例如光学活性标记(例如荧光标记)或放射性标记,并且可以使用检测器检测由标记发射或改变的信号。可以检测整合到与模板多核苷酸杂交的引物中的标记核苷酸的存在或不存在,这允许对序列的确定(例如,通过产生流动图)。在一些实施方案中,标记的核苷酸用荧光、发光或其他发光部分标记。在一些实施方案中,标记经由连接子(linker)连接核苷酸。在一些实施方案中,连接子是可切割的,例如通过光化学或化学切割反应。例如,可以在检测之后和在整合连续核苷酸之前切割标记。在一些实施方案中,标记(或连接子)连接核苷酸碱基,或连接核苷酸上的另一个位点,不干扰DNA的新生链的延伸。在一些实施方案中,连接子包括二硫化物或含PEG的部分。
在一些实施方案中,引入的核苷酸仅包括未标记的核苷酸,并且在一些实施方案中,核苷酸包括标记的和未标记的核苷酸的混合物。例如,在一些实施方案中,与总核苷酸相比,标记的核苷酸部分为约90%或更少、约80%或更少、约70%或更少、约60%或更少、约50%或更少、约40%或更少、约30%或更少、约20%或更少、约10%或更少、约5%或更少、约4%或更少、约3%或更少、约2.5%或更少、约2%或更少、约1.5%或更少、约1%或更少、约0.5%或更少、约0.25%或更少、约0.1%或更少、约0.05%或更少、约0.025%或更少,或约0.01%或更少。在一些实施方案中,与总核苷酸相比,标记的核苷酸部分为约100%、约95%或更多、约90%或更多、约80%或更多、约70%或更多、约60%或更多、约50%或更多、约40%或更多、约30%或更多、约20%或更多、约10%或更多、约5%或更多、约4%或更多、约3%或更多、约2.5%或更多、约2%或更多、约1.5%或更多、约1%或更多、约0.5%或更多、约0.25%或更多、约0.1%或更多、约0.05%或更多,约0.025%或更多,或约0.01%或更多。在一些实施方案中,与总核苷酸相比,标记的核苷酸部分为约0.01%至约100%,诸如约0.01%至约0.025%、约0.025%至约0.05%、约0.05%至约0.1%、约0.1%至约0.25%、约0.25%至约0.5%、约0.5%至约1%、约1%至约1.5%、约1.5%至约2%、约2%至约2.5%、约2.5%至约3%、约3%至约4%、约4%至约5%、约5%至约10%、约10%至约20%、约20%至约30%、约30%至约40%、约40%至约50%、约50%至约60%、约60%至约70%、约70%至约80%、约80%至约90%、约90%至小于100%或约90%至约100%。
测序数据,诸如流动图,可以基于对整合的核苷酸的检测和核苷酸引入的顺序来生成。例如,流动模板序列:CTG和CAG,以及T-A-C-G的重复流动循环(即,顺序添加T、A、C和G核苷酸,其仅在互补碱基存在于模板多核苷酸中时才整合到引物中)。所得流动图显示于表1中,其中1指示引入的核苷酸的整合且0指示引入的核苷酸未整合。流动图可用于确定模板链的序列。
表1
Figure BDA0003452187140000211
流动图可以是二进制或非二进制的。二进制流动图检测整合的核苷酸的存在(1)或不存在(0)。非二进制流动图可以更定量地确定来自每个逐步引入的整合核苷酸数。例如,CCG的序列将整合两个G碱基,并且任何由标记的碱基发射的信号将随着单个碱基的整合而具有更大的强度。这在表1中显示。非二进制流动图也指示碱基的存在或不存在,但可以提供另外的信息,包括在给定步骤整合的碱基数。
在生成测序数据之前,将多核苷酸与测序引物杂交以产生杂交模板。多核苷酸可以在测序文库制备期间与接头(adapter)连接。接头可以包括与测序引物杂交的杂交序列。例如,接头的杂交序列可以是跨多个不同多核苷酸的均一序列,并且测序引物可以是均一测序引物。这允许测序文库中不同多核苷酸的多重测序。
多核苷酸可以附着于表面(例如固体支持物)用于测序。可以扩增多核苷酸(例如,通过桥式扩增或其他扩增技术)以生成多核苷酸测序集落。簇内扩增的多核苷酸基本上相同或互补(在扩增过程期间可能引入一些误差,使得多核苷酸的一部分可能不一定与原始多核苷酸相同)。集落形成使得信号放大,从而检测器可以准确地检测每个集落的标记核苷酸的整合。在一些情况下,使用乳液PCR在珠球上形成集落,并将珠球分布在测序表面上。用于测序的系统和方法的实例可以在美国专利序列号10,344,328中找到,其通过引用整体并入本文中。
与多核苷酸杂交的引物延伸通过多核苷酸的第一区域、第二区域和第三区域。可以如上所述生成与第一区域和/或第三区域内的序列相关联的测序数据。然而,使用加速的“快进”过程将引物延伸通过第二区域(其在第一区域和第三区域之间)。也就是说,引物延伸通过多核苷酸的第一区域和第三区域之间的第二区域可以比引物延伸通过第一区域和/或第三区域更快地进行。例如,引物延伸通过第二区域可以通过延伸引物而不检测整合到延伸引物中的标记核苷酸的存在或不存在而进行。在流动测序期间,如上所述,将标记的核苷酸整合到延伸引物中,洗涤杂交的模板,并使用检测器来检测来自核苷酸标记的信号,所述信号指示核苷酸是否已整合到延伸的引物中。然而,检测过程需要时间,并且可以通过跳过检测过程来加速引物通过第二区域的延伸。在一些实施方案中,使用未标记的核苷酸(或仅使用未标记的核苷酸)使引物延伸通过第二区域,这可以进一步加速引物延伸的速率。
通过在引物延伸通过第二区域期间使用的流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸的混合物,可以可选地或另外地加速引物延伸通过第二区域。例如,可以在同一步骤中同时使用两种不同的碱基,例如G和C,如果存在互补的C或G碱基则其会延伸引物。这样会通过将连续碱基整合到引物中来加速引物的延伸,即使那些碱基具有不同的碱基类型。在一些实施方案中,流动顺序的至少一个步骤包括2个不同的碱基。在一些实施方案中,流动顺序的至少一个步骤包括3个不同的碱基。举例来说,考虑SEQ ID NO:1的序列以及表2中所示的相应的流动顺序和流动图。用于延伸与含有SEQ ID NO:1的多核苷酸杂交的测序引物的流动顺序过程包括5个循环,其中循环1、4和5彼此相同,并且循环2和3彼此相同(其中循环1、4和5不同于循环2和3)。在这个示例中,每个循环具有4个步骤,其中循环1、4和5包括A-C-T-G核苷酸的按序和独立添加,其中在每个循环步骤添加单一碱基类型。循环2和3包括四个循环步骤,其中步骤1省略A核苷酸(即,包括C、T和G),步骤2省略C核苷酸(即,包括A、T和G),步骤3省略T核苷酸(即,包括A、C和G),以及步骤4省略G核苷酸(即,包括A、C和T)。因为循环2和3在引物延伸期间同时包括多种不同的核苷酸碱基类型,所以与在任何给定步骤中仅使用单一碱基类型相比,引物延伸得更快。表2中所示的使用这个流动顺序针对SEQ ID NO:1模板延伸引物的流动图导致在引物延伸的快进部分期间添加多达6个碱基(循环3,步骤3)。相比之下,表3显示了使用A-C-T-G循环的相同SEQ ID NO:1的流动图,其中在每个步骤使用单个核苷酸(类似于表2中的循环1、4和5)。用于延伸表3中所示引物的流动顺序需要10个四步循环以使引物延伸通过多核苷酸,这基本上比使用表2中提供的流动顺序用于使引物延伸通过多核苷酸的5个四步循环慢。
Figure BDA0003452187140000231
快进方法特别适用于加速引物延伸通过不直接测序的区域。例如,参考表2,循环1、4和5以逐步方式使用标记的核苷酸以生成与第一区域(循环1)和第三区域(循环4和5)相关的测序数据,同时引物快速延伸通过第一和第三区域之间的第二区域(循环2和3)。
使用流动测序的引物延伸允许长度为数百甚至数千个碱基量级的长范围测序。可以增加或减少流动步骤或循环的数量以获得所需的测序长度。引物在第一区域或第三区域中的延伸可以包括使用具有一种或多种不同碱基类型的核苷酸逐步延伸引物的一个或多个流动步骤。在一些实施方案中,引物在第一区域中的延伸或引物在第三区域中的延伸包括1至约1000个流动步骤,如1至约10个流动步骤、约10至约20个流动步骤、约20至约50个流动步骤、约50至约100个流动步骤、约100至约250个流动步骤、约250至约500个流动步骤或约500至约1000个流动步骤。流动步骤可以分割成相同或不同的流动循环。在第一区域或第三区域中整合到引物中的碱基数分别取决于第一区域或第三区域的序列,以及用于在第一区域或第三区域中延伸引物的流动顺序。在一些实施方案中,第一区域或第三区域为约1个碱基至约4000个碱基长,诸如约1个碱基至约10个碱基长、约10个碱基至约20个碱基长、约20个碱基至约50个碱基长、约50个碱基至约100个碱基长、约100个碱基至约250个碱基长、约250个碱基至约500个碱基长、约500个碱基至约1000个碱基长、约1000个碱基至约2000个碱基长,或约2000个碱基至约4000个碱基长。
通过第二区域的引物延伸可以通过任何数量的流动步骤进行。在一些实施方案中,引物延伸通过第二区域省略了标记的核苷酸,这进一步增加了引物的可行延伸距离而没有聚合酶停滞。在一些实施方案中,引物延伸通过第二区域包括1至约10,000个流动步骤,诸如1至约10个流动步骤、约10至约20个流动步骤、约20至约50个流动步骤、约50至约100个流动步骤、约100至约250个流动步骤、约250至约500个流动步骤、约500至约1000个流动步骤、约1000个流动步骤至约2500个流动步骤、约2500个流动步骤至约5000个流动步骤。或约5000个流动步骤至约10,000个流动步骤。在一些实施方案中,引物延伸通过第二区域包括多于约10,000个流动步骤。整合第二区域中的引物中的碱基数取决于第二区域的序列和用于在第二区域中延伸引物的流动顺序。在一些实施方案中,第二区域为约1个碱基至约50,000个碱基长,如约1个碱基至约10个碱基长、约10个碱基至约20个碱基长、约20个碱基至约50个碱基长、约50个碱基至约100个碱基长、约100个碱基至约250个碱基长、约250个碱基至约500个碱基长、约500个碱基至约1000个碱基长、约1000个碱基至约2000个碱基长、约2000个碱基至约2500个碱基长、约2500至约5000个碱基长、约5000至约10,000个碱基长、约10,000至约25,000个碱基长,或约25,000至约50,000个碱基长。在一些实施方案中,第二区域的长度大于约50,000个碱基。
引物的延伸可以通过第一区域、第二区域和第三区域进行,其中引物使用标记的核苷酸延伸通过第一区域和第三区域。可以检测整合到延伸引物中的核苷酸的检测以生成测序数据。引物通过第二区域的延伸可以以比引物通过第一和/或第三区域的延伸更快的速率发生,例如不检测整合到延伸引物中的核苷酸的标记的存在或不存在,或者通过包括至少两种不同类型的核苷酸碱基的混合物来延伸引物(其中引物通过第一和/或第三的延伸依赖于更少的不同类型的核苷酸碱基)。引物的延伸可以以交替模式进一步延伸。例如,在引物延伸通过第三区域之后,其可以进一步延伸到第四区域中。引物通过第四区域的延伸可以以比引物通过第一和/或第三区域的延伸更快的速率发生,例如不检测整合到延伸引物中的核苷酸的标记的存在或不存在,或者通过包括至少两种不同类型的核苷酸碱基的混合物来延伸引物。然后可以使用标记的核苷酸将引物延伸到第五区域中,并且可以通过检测整合到延伸引物中的核苷酸来生成第五区域的测序数据。这个过程可以根据需要重复多次变更循环。可以将来自任何两个区域的测序数据相关联以生成偶联测序读段对,并且可以如本文所述地分析偶联测序读段对(例如,通过将选定区域之间的区域视为如针对本文提供的分析方法所述的“第二区域”)。
图1说明了从多核苷酸(如DNA)产生偶联测序读段对的示例性方法的示意图。在102,使多核苷酸104与引物106杂交以形成杂交模板。在一些实施方案中,多核苷酸包括接头(adapter)区108,其可以在测序文库制备期间连接靶多核苷酸的3'。接头区108可以包括杂交区,并且引物106可以与接头区108的杂交区杂交。在步骤110,通过使用标记的核苷酸延伸引物106并检测整合的标记的核苷酸的存在或不存在来生成多核苷酸104的第一区域112的测序数据。用于延伸引物的核苷酸还可以包括未标记的核苷酸,尽管用于检测核苷酸整合以生成测序数据的是标记的核苷酸。在一些实施方案中,根据第一区域流动顺序在一个或多个循环中逐步添加核苷酸以使引物106延伸通过第一区域112,并且可以在循环步骤之后洗涤杂交的模板以在检测整合的标记核苷酸存在或不存在之前去除未整合的核苷酸。在步骤114,根据第二区域流动顺序,引物106延伸通过多核苷酸104的第二区域116。引物106可以以比步骤110中的引物延伸更快的速率延伸通过第二区域116。这种加速的引物延伸可以称为该方法的“快进”部分。根据第二区域流动顺序,在一个或多个循环中将核苷酸(在一些实施方案中,其是未标记的)逐步添加到杂交的模板中。在一些实施方案中,在给定的循环步骤中同时使用多于一种(例如,两种或三种)不同的碱基类型,这加速了引物延伸。在一些实施方案中,核苷酸是未标记的,这允许比标记的核苷酸更快的引物延伸。在一些实施方案中,延伸引物而不检测核苷酸标记的存在或不存在。在步骤118,通过使用标记的核苷酸延伸引物106并检测整合的标记的核苷酸存在或不存在来生成多核苷酸104的第三区域118的测序数据。第三区域118的测序数据的生成可以以与针对第一区域112生成测序数据所述的类似方式进行。在步骤122,将针对第一区域112生成的测序数据与针对第三区域120生成的测序数据相关联,这产生了针对多核苷酸104的偶联测序读段对124。在第一区域和第三区域之间相关联的测序数据可以包括第一区域和第三区域的序列。偶联测序读段对124包括第一区域112和第三区域120的测序数据,第一区域112和第三区域120被第二区域116分开,第二区域116的测序数据不一定是已知的。
不需要根据本文所述的一些实施方案来生成多核苷酸第一区域的测序数据。例如,测序引物可以通过与靶向区域杂交而用于靶向测序。在靶向测序中,多核苷酸的第一区域是已知的,并且引物被设计成特异性地结合到第一区域。然后可以如所述的将引物延伸通过第二和第三区域,生成第三区域的测序数据。在一些实施方案中,从多核苷酸生成偶联测序读段对的方法包括:(a)将引物与多核苷酸的第一区域杂交以形成杂交模板;(b)使用以第二区域流动顺序提供的核苷酸将引物延伸通过第二区域,其中(i)引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记物存在或不存在,或(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物;和(c)通过使用标记的核苷酸进一步延伸步骤(b)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。
参考序列可以用于确定第一区域、第二区域和/或第三区域的预期测序数据(如流动图)。第一和第三区域的序列可以从针对那些区域生成的测序数据确定。例如,参考表2,循环1与第一区域相关,其序列容易被确定为碱基的互补序列(即,碱基流A-C-T-G对应于TGAC的序列),并且循环4和5与第三区域相关,其序列被确定为CTGAC(即,G-A-C-T-G的互补序列)。因此,使用从第一区域和/或第三区域生成的测序数据,可以将第一区域和/或第三区域(或第一区域和/或第三区域的至少一部分)映射到参考序列。一旦映射到参考序列,就可以使用用于使引物延伸通过第二区域的流动顺序和参考序列来生成第二区域的预期测序数据。
还可以使用第二区域的参考序列、第二区域的流动顺序、第三区域的流动顺序和关于第三区域序列的信息来确定第三区域的预期测序数据。类似地,可以使用第二区域的参考序列、第二区域的流动顺序、第一区域的流动顺序和关于第一区域序列的信息来确定第一区域的预期测序数据。关于第三区域(或第一区域)序列的信息可以获自例如参考序列(或不同的参考序列),或获自生成的测序数据,诸如通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸存在或不存在而生成的测序数据或通过其他方法(例如,独立地对多核苷酸的第三区域的第三区域进行测序)获得的测序数据。
举例来说,可以使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列来确定第三区域的预期测序数据。第一区域(或其一部分)可以映射到参考序列,并且对应于第二区域的参考序列和第二区域流动顺序可以用于确定第二区域的预期参考测序数据。类似地,可以使用第三区域的参考序列以及第三区域流动顺序,以确定第三区域的预期参考测序数据。可以使用类似的方法确定第一区域的预期测序数据。例如,可以使用第二区域的参考序列、第二区域流动顺序、第一区域流动顺序和第一区域的参考序列来确定第一区域的预期测序数据。第三区域(或其一部分)可以映射到参考序列,并且对应于第二区域的参考序列和第二区域流动顺序可以用于确定第二区域的预期参考测序数据。类似地,可以使用第一区域的参考序列以及第一区域流动顺序来确定第一区域的预期参考测序数据。
在另一个示例中,可以使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及与第三区域的测序相关的测序数据来确定第三区域的预期测序数据,所述测序数据可以与如前所述生成的测序数据相同或不同。第一区域(或其一部分)可以映射到参考序列,并且对应于第二区域的参考序列和第二区域流动顺序可以用于确定第二区域的预期参考测序数据。第三区域的测序数据可以用于确定第三区域的序列。此外,可以使用第三区域的序列以及第三区域流动顺序来确定第三区域的预期测序数据。
图2说明了用于生成预期测序数据的示例性方法的示意图。在步骤202,将偶联测序读段对映射到参考序列。映射偶联测序读段对可以包括将偶联测序读段对(或其部分)的第一区域(或其部分)映射到参考序列,将偶联测序读段对的第三区域(或其部分)映射到参考序列,或将第一区域(或其部分)和第三区域(或其部分)两者映射到参考序列。在步骤204,使用第二区域流动顺序和参考序列来确定第二区域的预期测序数据(诸如预期流动图)。在流动顺序和参考测序已知的情况下,可以容易地获得确定预期的测序数据(即,如果多核苷酸的第二区域与参考序列匹配,则测序数据将是预期的)。此外,第二区域的预期测序数据可以用于确定第二区域的预期5'端。第二区域的5'端可以根据该区域的流动顺序和第二区域的序列而变化。因此,第三区域的3'端也可以基于第二区域的第二区域流动顺序和序列而变化,因为第三区域的3'端与第二区域的5'端相邻。如步骤206中所示的,一旦设立了第三区域的3'端(例如,如使用第二区域的预期测序数据确定的),就可以确定第三区域的预期测序数据。如本文进一步描述的,第三区域的预期测序数据可以用于确定变体,如多核苷酸的第二区域内的变体。
如果多核苷酸包括第二区域内的变体,则生成的与第三区域相关的测序数据(例如,流动图)可以不同于(取决于序列背景和变体尺寸)与第三区域相关的预期测序数据。因此,在一些实施方案中,基于预期的测序数据和生成的测序数据之间的差异来检测变体。
参考序列可以是与多核苷酸相同种的任何合适的序列,并且在参考序列和多核苷酸序列之间可能存在一些差异。在本文所述方法的一些实施方案中,可以检测这些差异或变体。在一些实施方案中,测试变体(即,目的变体)包括在参考序列中,并且在其他实施方案中,测试变体从参考序列中省略。在一些实施方案中,可以用两种不同的参考序列进行分析,其中一种参考序列包括测试变体,而另一种参考序列省略测试变体。在一些实施方案中,两个参考序列之间的唯一差异是测试变体的存在或不存在。
本文所述的变体检测方法的灵敏度可以取决于变体的背景和/或用于在第一、第二和/或第三区域中延伸引物的流动顺序。在第一、第二和/或第三区域中,给定流动顺序的错失的变体可以使用不同的流动顺序来检测。因此,在本文所述方法的一些实施方案中,使用不同的用于将引物延伸通过多核苷酸的第一、第二和/或第三区域中的一个或多个的流动顺序来生成多于一种的偶联测序读段对。
用于本文所述方法中的多核苷酸可以从任何合适的生物来源获得,例如组织样品、血液样品、血浆样品、唾液样品、粪便样品或尿液样品。多核苷酸可以是DNA或RNA多核苷酸。在一些实施方案中,在多核苷酸与测序引物杂交之前,将RNA多核苷酸逆转录成DNA多核苷酸。在一些实施方案中,多核苷酸是无细胞DNA(cfDNA),诸如循环肿瘤DNA(ctDNA)或胎儿无细胞DNA。
可以通过已知方法制备多核苷酸文库。在一些实施方案中,多核苷酸可以与接头(adapter)序列连接。接头序列可以包括杂交序列,其与在偶联测序读段对生成期间延伸的引物杂交。
在一些实施方案中,在建立测序集落(也称为测序簇)之前不扩增核酸分子的情况下获得测序数据。用于生成测序集落的方法包括桥式扩增或乳液PCR。依赖于鸟枪法测序并判定共有序列的方法通常使用独特分子标识符(UMI)标记核酸分子并将核酸分子扩增以生成相同的独立测序的核酸分子的许多拷贝。然后可以将扩增的核酸分子连接到一个表面并桥接扩增以生成独立测序的测序簇。然后可以使用UMI来缔合独立测序的核酸分子。然而,扩增过程可能将错误引入核酸分子中,例如由于DNA聚合酶的有限保真度。在一些实施方案中,在扩增以生成用于获得测序数据的集落之前,不扩增核酸分子。在一些实施方案中,在不使用独特分子标识符(UMI)的情况下获得核酸测序数据。
在一些实施方案中,流动式测序方法与滚环扩增(RCA)测序一起使用。RCA允许形成以线性序列共价连接的核酸分子的多个拷贝。参见例如Dean等,Rapid Amplificationof Plasmid and Phage DNA Using Phi29 DNA Polymerase and Multiply-PrimedRolling Circle Amplification,Genome Research,vol.11,pp.1095-1099(20001);和美国专利No.5,714,320,其各自的内容通过引用并入本文中。因为可以对核酸分子的多个拷贝进行线性测序,所以随着测序的进行,可以以“暗”或模式或“亮”模式交替地对给定区域进行测序。在一些实施方案中,可以动态地(并且任选地,自动地)确定测序模式切换。例如,可以在“暗”区内检测到变体,但是所生成的有限信息阻止了特定变体被判定。因此,可以动态地调整测序流以在亮模式下对含有变体的核酸分子的区域进行测序。例如,检测测试样品中的短遗传变体的方法可以包括(a)使用滚环扩增(RCA)扩增多核苷酸以生成RCA扩增的多核苷酸,其至少包含多核苷酸的第一拷贝和多核苷酸的第二拷贝;(b)将RCA扩增的多核苷酸与引物杂交以形成杂交模板;(c)通过使用标记的核苷酸延伸引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第一拷贝内的多核苷酸的第一区域的序列相关的测序数据;(d)使用以第二区域流动顺序提供的核苷酸使所述引物进一步延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,其中(i)引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,而不检测整合到延伸引物中的核苷酸的标记存在或不存在,(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或者(iii)引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域比引物延伸通过第一区域更快地进行;(e)通过使用标记的核苷酸进一步延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第三区域的序列相关的测序数据;(f)将针对多核苷酸的第三区域生成的测序数据与多核苷酸的第三区域的预期序列的预期测序数据进行比较;(g)判定多核苷酸的第二区域中短遗传变体的存在;(h)通过使用标记的核苷酸延伸引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据;以及(i)判定多核苷酸的第二区域中的短遗传变体的身份。在一些实施方案中,基于判定多核苷酸的第二区域中短遗传变体的存在,动态地生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据。
扩展的流动循环
流动循环顺序不需要限于四个基本流动循环(例如,A、G、C和T中的每一个,以任何重复顺序),并且可以是在循环中具有多于四种基本类型的扩展的流动循环。可以重复扩展循环顺序以获得所需数量的循环来延伸测序引物。例如,在一些实施方案中,扩展的流动顺序包括流动循环顺序中的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个单独的核苷酸流。循环可以包括A、G、C和T中的每一个的至少一个,但是在循环重复之前在循环内重复一个或多个碱基类型。延伸流动循环可以用于例如根据本文所述的方法将引物延伸通过第二区域。
与具有四个重复碱基的流动循环顺序相比,延伸流动循环顺序可以用于检测更大比例的小基因组变体(例如SNP)。例如,存在192种以XYZ→XQZ形式的有效构型的取代SNP,其中Q≠Y(并且Q、X、Y和Z各自是A、C、G和T中的任一种)。在这些中,168个可以在测序数据集(例如,流动图)中产生新信号(即,新的非零信号或新的零信号)。鉴于变体中相对于参考的相同尾部序列,与敏感流动顺序组合的新的零或非零信号可以针对多个流动位置产生传播的信号(例如,流动移位,其可以延伸多于循环的长度)。应注意,均聚物的插入或缺失,而不是均聚物长度变化,可导致信号差异传播。剩余的24种变体在受影响的流动位置处引起均聚物长度变化,但是这种变化不会引起传播信号变化。因此,87.5%的SNP的理论最大值可以产生不同于参考(或候选)序列的针对多于两个流动位置的新信号。如上所述,传播的信号差异增加了测试测序数据集与不正确匹配的候选序列之间的差异可能性。此外,传播的信号变化取决于跨越变体的流动顺序。
使用流动顺序延伸测序引物时,对测试样品中已经随机片段化的核酸分子进行测序导致变体流动顺序内容的随机移位。即,变体的流动位置可以根据测序的核酸分子的起始位置而改变。对于所有87.5%的SNP,并非所有流动循环组合都能够检测多于两个流动位置处的信号变化,即使利用核酸分子序列中的所有测序起始位置。例如,对于41.7%的SNP,四碱基流动循环顺序T-A-C-G可以导致测试测序数据集在多于两个流动位置处与参考测序数据集不同。如本文进一步讨论的,鉴于足够高的测序深度(即,采样足够大量的起始位置),已经设计了扩展的流动循环顺序,使得SNP的所有理论最大值(即,87.5%的可能SNP,或除了导致均聚物长度变化的那些之外的所有SNP)可以在测试测序数据集和参考测序数据集之间在多于两个流动位置处产生差异。
扩展的测序流动顺序可以具有不同的效率(即,用于对人参考基因组测序时,每个流动的平均整合数)。在一些实施方案中,流动顺序具有约0.6或更大(如约0.62或更大、约0.64或更大、约0.65或更大、约0.66或更大,或约0.67或更大)的效率。在一些实施方案中,流动顺序具有约0.6至约0.7的效率。表4中显示了流动循环顺序和相应的估计效率的示例。
在一些实施方案中,选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少5%的随机测序起始位置的约50%至87.5%的SNP排列中SNP不同的核酸分子相关。在一些实施方案中,选择扩展的测序流动顺序以在与核酸分子相关的两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少5%的随机测序起始位置(即,“流动相(flow phase)”)的约60%至87.5%的SNP排列中SNP不同的核酸分子相关。在一些实施方案中,选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少5%的随机测序起始位置的约70%至87.5%的SNP排列中SNP不同的核酸分子相关。在一些实施方案中,选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少5%的随机测序起始位置的约80%至87.5%的SNP排列中SNP不同的核酸分子相关。
在一些实施方案中,选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少10%的随机测序起始位置的约50%至87.5%的SNP排列中SNP不同的核酸分子相关。在一些实施方案中,选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少10%的随机测序起始位置的约60%至87.5%的SNP排列中SNP不同的核酸分子相关。选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少10%的随机测序起始位置的约70%至87.5%的SNP排列中SNP不同的核酸分子相关。选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少10%的随机测序起始位置的约80%至87.5%的SNP排列中SNP不同的核酸分子相关。
在一些实施方案中,选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少20%的随机测序起始位置的约50%至87.5%的SNP排列中SNP不同的核酸分子相关。在一些实施方案中,选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少20%的随机测序起始位置的约60%至87.5%的SNP排列中SNP不同的核酸分子相关。选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少20%的随机测序起始位置的约70%至87.5%的SNP排列中SNP不同的核酸分子相关。选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少20%的随机测序起始位置的约80%至87.5%的SNP排列中SNP不同的核酸分子相关。
在一些实施方案中,选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少30%的随机测序起始位置的约50%至87.5%的SNP排列中SNP不同的核酸分子相关。在一些实施方案中,选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少30%的随机测序起始位置的约60%至87.5%的SNP排列中SNP不同的核酸分子相关。选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少30%的随机测序起始位置的约70%至87.5%的SNP排列中SNP不同的核酸分子相关。选择扩展的测序流动顺序以在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异,所述两个测序数据集与在至少30%的随机测序起始位置的约80%至87.5%的SNP排列中SNP不同的核酸分子相关。
在一些实施方案中,扩展的测序流动顺序是表4中的任一个扩展的测序流动顺序。“移位灵敏度(shift sensitivity)”是指在所有可能的SNP排列上在两个测序数据集(例如,测试或靶测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异的最大灵敏度。“最大移位灵敏度”是指在所有可能的处于维持该灵敏度的最高分数的流动相下的SNP排列上在两个测序数据集(例如,测试或目标测序数据集和候选或参考测序数据集)之间的多于两个流动位置处产生信号差异的最大灵敏度。
Figure BDA0003452187140000331
Figure BDA0003452187140000341
Figure BDA0003452187140000351
在一些实施方案中,对于5%随机测序起始位置处50%或更多的可能SNP排列,流动循环顺序在多于两个流动位置处诱导信号变化。在一些实施方案中,诱导的信号变化是信号强度的变化,或者新的基本上零(或新的零)或新的基本上非零(或新的非零)信号。在一些实施方案中,诱导的信号变化是新的基本上零(或新的零)或新的基本上非零(或新的非零)信号。在一些实施方案中,流动循环顺序具有每个流动整合0.6或更多个碱基的效率。在一些实施方案中,流动循环是表4中列出的流动循环顺序中的任一种。
重定相流动
一个或多个重新定相流动可以用作第二区域或在第二区域内用于重定相(即同步)测序簇内的平行测序反应。测序簇包括紧密附着在共同表面(例如,珠球或流动池)上的多个多核苷酸拷贝。可以例如通过将多核苷酸附着在表面并扩增附着的多核苷酸(例如,通过桥式扩增)来形成簇。可以作为整体从测序簇收集测序数据,因为通过基于相同的模板整合核苷酸同时延伸与每个多核苷酸杂交的引物。然而,将核苷酸整合到延伸引物中的化学过程通常是不完美的,导致测序簇内的链之间的失同步化。也就是说,某些引物可能相对于簇内的其他延伸引物滞后。当随着读段长度增加而检测整合到延伸引物中的核苷酸存在或不存在时,失同步化可能导致信号衰减,并因此导致准确度降低。再同步的结果可以抵消信号损失,这允许更长的有效读段长度。为了使测序反应重定相,使用一个或多个重定相流动使引物延伸通过第二区域,其中在第二区域流动顺序的多个步骤中使用至少两种(例如,两种或三种)不同类型的核苷酸碱基的混合物。在一些实施方案中,可能未检测到重定相流动期间整合的核苷酸,这将导致所得读段中的缺口。然而,当序列与参考或其他序列比对时,可以处置这个读段缺口。通过包括这样的“追赶流”,滞后引物可以追赶簇内的其他延伸引物。
一种使包含多个多核苷酸拷贝的测序簇(例如,在测序簇内)再同步的方法可以包括使用再定相流动顺序延伸与多核苷酸拷贝杂交的引物,其中在重定相流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物。在一些实施方案中,使测序簇内的测序引物同步的方法包括(a)使引物与测序簇内的多核苷酸拷贝杂交;(b)根据第一区域流动循环使用标记的核苷酸将引物延伸通过多核苷酸拷贝的第一区域;(c)使用一个或多个重定相流动将引物延伸通过多核苷酸拷贝的第二区域,其中在一个或多个重定相流动中的每一个中使用至少两种不同类型的核苷酸碱基的混合物;和(d)根据第三区域流动循环使用标记的核苷酸将引物延伸通过多核苷酸拷贝的第三区域。
从多个多核苷酸拷贝(例如,在测序簇内)生成测序读段的方法可以包括再同步方法。例如,从多个多核苷酸拷贝生成测序读段的方法可以包括(a)使多核苷酸拷贝与引物杂交以形成杂交模板;(b)通过使用标记的核苷酸延伸引物,检测整合的标记的核苷酸存在或不存在,生成与多核苷酸拷贝的第一区域的序列相关的测序数据;(c)使用在一个或多个重定相流动中提供的核苷酸将步骤(b)中延伸的引物进一步延伸通过第二区域,其中在一个或多个重定相流动中的每一个中使用至少两种不同类型的核苷酸碱基的混合物;和(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。
重定相流动顺序(或重定相流动循环)包括一个或多个允许滞后引物赶上测序簇中的领先引物的步骤。重定相流动顺序中的至少一个步骤(例如,1、2、3、4或更多个)包括两种或更多种(例如,三种)不同类型的核苷酸碱基的混合物。在一些实施方案中,重定相流动顺序包括1、2、3、4、5或更多个流动,各自包括两种或三种不同类型的核苷酸碱基。
重定相流动顺序配置成在重定相流动顺序之后增加同步延伸引物的部分。在一些实施方案中,重定相流动顺序以任何顺序包括(i)包括包含A、C和G核苷酸的混合物并省略T(和/或U)核苷酸的流动步骤(也称为“非T”(和/或“非U”)步骤);(ii)包括包含T(和/或U)、C和G核苷酸的混合物并省略A核苷酸的流动步骤(也称为“非A”步骤);(iii)包括包含T(和/或U)、A和G核苷酸的混合物并省略C核苷酸的流动步骤(也称为“非C”步骤);和(iv)包括包含T(和/或U)、A和C核苷酸的混合物并省略G核苷酸的流动步骤(也称为“非G”步骤)。
可以确定其它重定相流动。举例来说,在一些实施方案中,重定相流动(以重定相流动顺序)以任何顺序包括以下中的一个或多个:(i)包括包含A和C核苷酸的混合物并省略G和T(和/或U)核苷酸的流动步骤;(ii)包括包含T(和/或U)和G核苷酸的混合物并省略A和C核苷酸的流动步骤;(iii)包括包含A和G核苷酸的混合物并省略T(和/或U)和C核苷酸的流动步骤;(iv)包括包含T(和/或U)和C核苷酸的混合物并省略A和G核苷酸的流动步骤;(v)包括包含A和T(和/或U)核苷酸的混合物并省略G和C核苷酸的流动步骤;(vi)包括包含C和G核苷酸的混合物并省略A和T(和/或U)核苷酸的流动步骤;(vii)包括包含A、G和C核苷酸的混合物并省略T核苷酸的流动步骤;(viii)包括包含T(和/或U)、A和G核苷酸的混合物并省略C核苷酸的流动步骤;(ix)包括包含C、T(和/或U)和A核苷酸的混合物并省略G核苷酸的流动步骤;和/或(x)包括包含G、C和T(和/或U)核苷酸的混合物并省略A核苷酸的流动步骤。
包括所有四种类型的非终止核苷酸的混合物(即,包含A、C、G和T(和/或U)的混合物)可导致不受控制的引物延伸。然而,所有四种类型的核苷酸的混合物可以用于重定相流动顺序中,其中三种碱基类型是非终止核苷酸,并且一种碱基类型包括可逆终止子。例如,在一些实施方案中,重定相流动顺序包括(i)包括包含非终止A核苷酸、非终止C核苷酸、非终止G核苷酸和包含可逆终止子的T(和/或U)核苷酸的混合物的流动步骤;或(ii)包括包含(或由以下组成)非终止T(和/或U)核苷酸、非终止A核苷酸、非终止C核苷酸和包含可逆终止子的G核苷酸的混合物的流动步骤;或(iii)包括包含(或由以下组成)非终止G核苷酸、非终止T(和/或U)核苷酸、非终止A核苷酸和包含可逆终止子的C核苷酸的混合物的流动步骤;或(iv)包括包含(或由以下组成)非终止C核苷酸、非终止G核苷酸、非终止T(和/或)核苷酸和包含可逆终止子的A核苷酸的混合物的流动步骤。通过整合基于模板链的核苷酸来延伸引物,直到整合包含可逆终止子的核苷酸,其使测序簇内碱基处的延伸引物与可逆终止子同步。然后可以去除可逆终止子,且随后可以用同步引物进行测序过程。
在一些实施方案中,重定相流动顺序包括(i)以任何顺序,包括C、G和T(和/或U)碱基的混合物(省略A碱基)的第一重定相流动,和包括A、C和G碱基的混合物(省略T和/或U碱基)的第二重定相流动顺序。
本文所述的用于使测序簇内的延伸引物同步的方法可以用于边合成边测序方法中,其使用非终止核苷酸来延伸引物。在一些实施方案中,该方法与本文所述的其他方法组合使用,如本文所述的快进测序方法(例如,产生“暗”区的测序方法)。
将偶联测序读段对映射到参考序列
可以将偶联测序读段对映射到参考序列,其可以包括或不包括目的测试变体。第一区域或第三区域的测序数据可分别用于导出第一区域或第三区域的序列。可以将第一区域或第一区域的一部分,或第三区域或第三区域的一部分映射到参考序列。可以确定或估计第一区域和第三区域之间的距离(即,第二区域的长度),为未映射的第三或第一区域提供近似基因座。使用近似基因座,然后可以将未映射的第一或第三区域容易地映射到参考序列。
映射序列是指一个序列(如区域或其部分的序列)与另一个序列(如参考序列)的比对。可映射(mappable)序列是可以根据选择的映射阈值(即,映射分数)映射另一序列(例如参考序列)的序列(如区域或其部分的序列)。因此,不可映射(unmappable)序列是根据所选择的映射阈值(映射分数)不能映射到另一序列的序列。可以基于错误风险容限来预定(即,在映射之前选择)分数。例如,将一个序列映射到另一个序列时,可以使用Smith-Waterman算法,并且可以选择映射阈值以区分“可映射”序列与“不可映射”序列。举例来说,映射分数阈值可以是+5或更高、+6或更高、+8或更高、+10或更高、+12或更高、+14或更高、+16或更高、+18或更高、或+20或更高,其中匹配分数为+1、错配分数为-1、缺口开放分数为-2、缺口延伸分数为-2。本领域技术人员可以选择其他分数或惩罚分数。
序列,如偶联测序读段对的一个或多个区域,可以用任何合适的作图软件作图,例如GATK、Bowtie、Bowtie2、BWA、BWA-MEM、NovoAlign、SOAP2、SOAP3和其它,包括其它基于Burrows-Wheeler变换(BWT)的比对器。参见例如,Miller等,Assembly algorithms fornext-generation sequencing data,Genomics,vol.95,pp.315-327(2010);Chaisson等,De novo fragment assembly with short mate-paired reads:does the read lengthmatter?Genome Research,第19卷,第336-346页(2009);Mielczarek等,Review ofalignment and SNP calling algorithms for next-generation sequencing data,J.Appl.Genetics,第57卷,第71-79页(2016);Nielsen等,Genotype and SNP callingfrom next-generation sequencing data,Nature Reviews Genetics,第2卷,第443-451页(2011);和Hwang等,Systematic comparison of variant calling pipelines usinggold standard personal exome variants,Sci Rep.,vol.5,17875(2015);出于所有目的将其各自通过引用并入本文中。
距离信息用于将多核苷酸区域的基因座近似到参考序列的用途,对于检测多核苷酸第二区域内的结构变体(如插入或缺失)或分解基因组内的多个可映射基因座(例如,第一区域或第三区域包括重复区域后其他非独特序列)是有用的。如本文讨论的距离信息涉及两个点之间的空间量(例如,区域的起始和结束),并且可以在不同的参考系中考虑。例如,物理空间中的距离信息可以指碱基数或物理距离(例如,如果多核苷酸是线性定位的,则一维空间中的微米数)。测序数据空间(例如,流动图空间)中的距离信息可以指用于以给定流动顺序在空间内延伸引物的流动步骤的数量。如果序列(或参考序列)和流动顺序是已知的,则物理空间中的距离信息和测序数据空间中的距离信息在分析上是可互换的。
距离信息指示第二区域的长度,尽管不需要是第二区域的精确长度,因为未映射区域最终映射在由距离信息近似的位置内。在一个示例中,使用第二区域流动顺序(或与第二区域流动顺序相关的信息)和第二区域中碱基的概率分布来确定距离信息。第二区域中碱基的概率分布可以是例如整个基因组中碱基的假定分布,或者可以是基于第一区域或第三区域的映射基因座的更局部化的概率。与第二区域流动顺序相关的信息可以是例如同时用于使引物延伸通过第二区域的不同类型的核苷酸碱基的数量。举例来说,在重复循环中使用三碱基流动步骤以在第二区域内延伸引物(例如,使用(非A)-(非C)-(非T)-(非G)的循环步骤,每个循环步骤包括三个其他碱基)并假设第二区域中碱基的分布与作为整体的基因组的大致相同,则预期引物在循环中的每个步骤延伸约4.7个碱基。因此,第二区域的长度可以近似为第二区域流动顺序中的步骤数的4.7倍。
在一些实施方案中,距离信息源自第二区域的预期参考测序数据。如本文所讨论的,可以使用参考序列和第二区域流动顺序来确定第二区域的预期参考测序数据。一旦将多核苷酸的第一或第三区域映射到参考序列,就确定预期的序列信息,包括预期的序列长度,其提供多核苷酸的第一区域和第三区域之间的长度。
在参考序列内可获得多于一个的可映射位置时,距离信息可用于将偶联测序读段对映射到参考序列。例如,在一些实施方案中,第一区域可以以高置信度映射到参考序列,但是第三区域可以映射到参考序列内的多个不同位置。在一些实施方案中,第三区域可以以高置信度映射到参考序列,但是第一区域可以映射到参考序列内的多个不同位置。在一些实施方案中,第一区域和第三区域都可以映射到参考序列内的多个不同位置。可以使用第二区域的距离信息来选择映射到参考序列的第一区域和第二区域的正确位置对。例如,将偶联测序读段对映射到参考序列的方法可以包括将偶联测序读段对的第一区域(或其部分)和第三区域(或其部分)在包含第一位置和第二位置的两个或更多个不同位置对处映射到参考序列。然后可以将指示多核苷酸的第二区域长度的距离信息与指示第一位置和第二位置之间的长度的距离信息进行比较。如果比较的距离信息彼此接近或匹配,则可以选择正确的位置对。然而,如果第二区域的长度与第一位置和第二位置之间的距离显著不同,则可以拒绝该位置对。
图3说明了如何使用指示偶联测序读段对的第二区域长度的距离信息将偶联测序读段对映射到参考序列。偶联测序读段对304包括第一区域306、第二区域308和第三区域310。第一区域306可以映射到参考序列302的参考第一区域312,但是第三区域310可以映射到参考第三区域,选项A,314和参考第三区域,选项B,316。参考第一区域312的末端与参考第三区域,选项A,314的起点之间的距离的长度为n个碱基(基于参考序列),并且参考第一区域312的末端与参考第三区域,选项B,316的起点之间的距离的长度为m个碱基(基于参考序列)。第二区域的距离信息指示第二区域的长度约为n个碱基。因此,可以得出结论,第三区域310适当地映射到参考第三区域,选项A,314。即使存在用于第一区域的多个可映射基因座和/或用于第三区域的多个可映射基因座,也可以进行类似的分析。
此外,当第一区域或第三区域由于在第一区域或第三区域的基因座处的重复区域而不能明确地映射到精确位置时,距离信息可以用于将偶联测序读段对映射到参考序列。图4说明了当偶联测序读段对的第三区域映射到重复区域时,如何使用指示偶联测序读段对的第二区域的长度的距离信息将偶联测序读段对映射到参考序列。图4显示了参考序列402和偶联测序读段对404。偶联测序读段对包括第一区域406、第二区域408和第三区域410。第一区域406可以映射到参考第一区域412内的特定基因座,但是第三区域410可以映射到重复区域414内的任何地方。通过知道第二区域408的长度,第三区域410可以更准确地映射在重复区域414内。例如,如果第二区域408的长度约为n个碱基,则一旦第一区域406被映射,该距离信息就可以用于定位第三区域410。类似地,当可以精确地映射第三区域但第一区域映射在重复区域内时,可以使用这种方法。
结构变体的检测
从源自基因组的多核苷酸产生的偶联测序读段对可用于检测变体,如基因组内的结构变体。结构变体可以包括插入、缺失、倒位和染色体融合变体,其可以位于多核苷酸的第一、第二或第三区域内,或者可以位于桥接多核苷酸的第一、第二或第三区域的位置处。
基因组中的插入可以是任何大小,如长度为1个碱基至数百或数千千碱基或更长。此外,插入可以是内源插入(即,插入源自受试者基因组中其他地方的基因座中的序列),或者可以是外源插入(如插入源自受试者基因组以外的来源的基因座中的序列,如插入受试者基因组中的病毒基因组)。外源插入导致参考序列内不存在的核酸序列,对检测或定位受试者基因组内的外源插入变体提出了额外的挑战。本文所述的方法可用于检测和/或定位外源插入以及其他结构变体。
在一个示例中,使用偶联测序读段对检测基因组内的结构变体(如外源插入)的方法包括将偶联测序读段对的第一区域(或其部分)映射到参考序列,并尝试将第三区域(或其部分)映射到参考序列。如果第三区域(或其部分)是不可映射的,则可以识别外源插入的存在。这是因为参考序列不包括对应于第三区域的序列。类似地,使用偶联测序读段对检测基因组内的外源插入的方法可以包括将偶联测序读段对的第三区域(或其部分)映射到参考序列,并尝试将第一区域(或其部分)映射到参考序列。如果第一区域(或其部分)是不可映射的,则可以识别外源插入的存在。这是因为参考序列不包括对应于第一区域的序列。此外(并且在任一示例中),可以基于指示第二区域长度的预期距离信息来确定参考序列内的外源插入的基因座。图5说明了检测外源插入的示例性方法的示意图。偶联测序读段对502包括第一区域504、第二区域506和第三区域508,其中第二区域506在第一区域504和第三区域508之间。第三区域508包括存在于受试者的基因组512中的外源插入元件510,尽管不存在于参考序列514中。参考元件516存在于受试者的基因组512和参考序列514两者中,尽管与参考第一区域518间隔不同。第一区域504映射到参考序列内的参考第一区域518。然而,第三区域508在参考序列514内不具有待映射的对应区域(即,它是不可映射的)。这表明第三区域508的序列是受试者基因组内外源插入的结果。第二区域506的距离信息也可以用于确定外源基因组相对于参考第一区域518的基因座。也就是说,如果第二区域506的长度为约n个碱基,则外源插入位于距第一区域504的末端约n个碱基处。
在另一个示例中,偶联测序读段对可以用于检测结构变体(如插入、缺失、倒位或染色体融合),使用预期测序数据并将产生的测序数据与预期测序数据进行比较来检测。例如,可以将偶联测序读段对的第一区域(或其部分)或第三区域(或其部分)中的一个映射到参考序列。可以使用指示第二区域长度的距离信息来确定未映射的第一区域(或其部分)或未映射的第三区域(或其部分)的参考序列内的基因座。例如,如本文所述,可以确定距离信息。一旦确定了未映射的第一区域(或其部分)或未映射的第三区域(或其部分)的基因座,就可以确定该基因座处的预期测序数据参考序列。例如,可以基于第二区域的序列、第二区域流动顺序、与未映射区域的序列相关的信息以及未映射区域流动顺序来确定预期序列数据。然后可以将预期的测序数据与生成的未映射区域的测序数据进行比较。未映射区域的测序数据与预期测序数据之间的差异指示该基因座处的结构变体。
图6说明了使用偶联测序读段对检测结构变体的示例性方法。在步骤602,将第一区域或其部分(或第三区域或其部分)中的一个映射到参考序列。在步骤604,确定第三区域或其部分(或第一区域或其部分)在参考测序内的预期基因座。也就是说,如果在步骤602期间映射第一区域或其部分,则在步骤604处确定第三区域或其部分的预期基因座,并且如果在步骤602期间映射第三区域或其部分,则在步骤604处确定第一区域或其部分的预期基因座。在步骤606,确定第三区域或其部分(或第一区域或其部分)在确定的预期基因座处的预期测序数据。在步骤608,将第三区域或其部分(或第一区域或其部分)的预期测序数据与确定的第三区域或其部分(或第一区域或其部分)的测序数据进行比较,其中确定的测序数据和预期的测序数据之间的差异指示结构变体。
图7说明了使用偶联测序读段对用于检测受试者基因组中的结构变体的示意图,其中结构变体是插入。受试者的基因组702包括第一区域704和第一参考区域708与第二参考区域710之间的插入706。参考序列712包括第一区域704、第一参考区域708和第二参考区域710,但不包括第一参考区域708和第二参考区域710之间的插入706(插入可以对应于在参考区域的另一部分中发现的区域,或者可以是完全外源的序列)。偶联测序读段对714包括第一区域716(对应于第一区域704)和第三区域718(对应于插入706),第二区域720分开。偶联测序读段对714的第一区域716映射到参考序列712的第一区域704。距离信息指示偶联测序读段对714的第二区域720的长度为大约n个碱基的长度。因此,确定第三区域718的预期基因座722的起点从第一区域704的末端大约n个碱基开始。然后如本文所述的可以确定预期基因座的预期测序数据。例如,可以使用参考序列712(例如,第一区域704到预期基因座和/或包括预期基因座的参考序列)、第二区域的流动顺序和第三区域的流动顺序来确定预期基因座的预期测序数据。在图7说明的示例中,如果第三区域718是第二参考区域710,预期测序数据则对应于获得的测序数据,因为第二参考区域710在预期基因座处。如果预期基因座的预期测序数据不同于生成的偶联测序读段对714的第三区域718的测序数据(这是图7中说明的示例的情况),则检测到结构变体。
图8说明了使用偶联测序读段对检测受试者基因组中的结构变体的示意图,其中结构变体是缺失。受试者的基因组802包括第一区域804、第一参考区域806和第二参考区域808。参考序列810包括第一区域804、第一参考区域806和第二参考区域808,以及位于第一参考区域806和第二参考区域808之间的附加区域812。尽管附加区域812存在于参考序列810中,但是附加区域812已经从受试者的基因组802中缺失。偶联测序读段对814包括第一区域816(对应于第一区域804)和第三区域818(对应于第二参考区域808),其将第二区域820分开。偶联测序读段对814的第一区域816映射到参考序列810的第一区域804。距离信息指示偶联测序读段对814的第二区域820的长度为大约n个碱基长。因此,确定第三区域818的预期基因座822的起点为从第一区域804的末端大约n个碱基开始。然后如本文所述的可以确定预期基因座的预期测序数据。例如,可以使用参考序列812(例如,第一区域804到预期基因座和/或包括预期基因座的参考序列)、第二区域的流动顺序和第三区域的流动顺序来确定预期基因座的预期测序数据。在图8说明的示例中,如果第三区域818是附加区域812(在受试者的基因组中缺失),则预期的测序数据对应于获得的测序数据,因为附加区域812在预期基因座处。如果预期基因座的预期测序数据不同于生成的偶联测序读段对814的第三区域818的测序数据(这是图8中说明的示例的情况),则检测到结构变体。
图9说明了使用偶联测序读段对检测受试者基因组中的结构变体的示意图,其中结构变体是倒位。受试者的基因组902包括第一区段904、第二区段906和第三区段908。参考序列910还包括第一区段904、第二区段906和第三区段908。然而,在参考序列910中,第二区段906相对于第三区段908靠近5'端,而在受试者的基因组902中,第二区段906相对于第三区段908靠近3'端。因此,受试者基因组902中的第二区段906和第三区段908相对于参考序列910反向。偶联测序读段对912包括第一区域914(对应于第一区段904)和第三区域916(对应于第三区段908),其将第二区域918分开。偶联测序读段对912的第一区域914映射到参考序列910的第一区段904。距离信息指示偶联测序读段对912的第二区域918的长度为大约n个碱基长。因此,确定第三区段908的预期基因座920的开始从第一区段904的末端大约n个碱基开始。然后如本文所述的可以确定预期基因座的预期测序数据。例如,可以使用参考序列910(例如,第一区段904到预期基因座和/或包括预期基因座的参考序列)、第二区域的流动顺序和第三区域的流动顺序来确定预期基因座的预期测序数据。在图9说明的示例中,如果第三区域916对应于第二区段906,则预期测序数据对应于获得的测序数据,因为第二区段906(而不是第三区段908)在参考序列910中的预期基因座处。如果预期基因座的预期测序数据不同于生成的偶联测序读段对912的第三区域916的测序数据(这是图9说明的示例的情况),则检测到结构变体。
图10说明了使用偶联测序读段对检测受试者基因组中的结构变体的示意图,其中结构变体是染色体融合。染色体融合由染色体重排事件导致,其中染色体的一部分与染色体(相同染色体或不同染色体)的另一部分融合。参考序列1002包括染色体A,其包括第一区段1004和第二区段1006,以及染色体B,其包括第三区段1008。受试者的基因组1010包括在参考基因组1002的1012点和1014点处的染色体A和染色体B的染色体融合。这形成了染色体A/B,其包括染色体A的3’端和染色体B的5’端,以及形成了染色体B/A,其包括染色体B的3’端和染色体A的5’端。因此,染色体A/B包括第一区段1004和第三区段1008,并且染色体B/A包括第二区段1006。偶联测序读段对1016源自受试者基因组1010的染色体A/B,并且包括第一区域1018(对应于第一区段1004)和第三区域1020(对应于第三区段1008),第二区域1022分开。偶联测序读段对1016的第一区域1018映射到参考序列1002的第一片段1004。距离信息指示偶联测序读段对1016的第二区域1022的长度为大约n个碱基长。因此,确定第三片段1020的预期基因座1024的起始为从第一片段1004的末端大约n个碱基开始。然后可以如本文所述的确定预期基因座的预期测序数据。例如,可以使用参考序列1002的染色体A(例如,第一区段1004与预期基因座之间和/或包括预期基因座的参考序列,第二区段1006),第二区域1022的流动顺序和第三区域1020的流动顺序来确定预期基因座的预期测序数据。在图10所示的实例中,预期测序数据对应于如果第三区域1020对应于第二区段1006而获得的测序数据,因为第二区段1006(而不是第三区段1008)在参考序列1002中的预期基因座处。如果预期基因座的预期测序数据不同于生成的偶联测序读段对1016的第三区域1020的测序数据(这是图10中所示的实例的情况),则检测到结构变体。
结构变体(例如插入、缺失、染色体融合或倒位)相对于参考序列的连接不需要跨越偶联测序读段对的整个第一区域或第三区域。在一些实施方案中,结构变体的至少一部分终于偶联测序读段对的第一区域或第三区域内。预期的测序数据将仍然不同于针对第一或第三区域确定的测序数据。
第二区域内变体的检测
在一些实施方案中,偶联测序读段对用于检测第二区域内的变体,即使不需要检测核苷酸整合到通过第二区域延伸的引物中。可检测的变体包括结构变体(如插入、缺失、倒位或染色体融合)或单核苷酸多态性(SNP)。
检测结构变体(例如染色体融合、倒位、插入或缺失)的方法可以包括将偶联测序读段对的第一区域(或其部分)和第三区域(或其部分)映射到参考序列。完全发生在第二区域内的倒位的距离信息通常参考第二区域流动顺序(例如,在流动图空间中)来考虑,而不完全发生在第二区域中(例如,至少部分地在第一区域或第三区域中)的染色体融合、插入或缺失的距离信息可以参考物理空间或第二区域流动顺序来考虑。可以确定映射到参考序列的第一区域和映射到参考序列的第三区域之间的距离信息(即,映射的距离信息)。映射的距离信息指示映射到参考序列的第一区域的映射位置和映射到参考序列的第三区域的映射位置之间的距离,例如第一和第三映射区域之间的碱基数。还可以确定指示偶联测序读段对的第二区域的长度的预期距离信息(例如使用第二区域和参考序列的流动顺序,或如本文另外描述的)。预期距离信息与映射距离信息之间的比较可用于检测结构变体。例如,如果预期距离短于映射距离,则指示受试者基因组内的结构变体,如插入或染色体融合变体。如果预期距离长于映射距离,则指示受试者基因组内的缺失变体。
图11说明了检测结构变体的示例性方法,其包括在步骤1102,将偶联测序读段对的第一区域(或其部分)和第三区域(或其部分)映射到参考序列。在步骤1104,确定映射的序列距离信息,其指示映射到参考序列的第一区域和映射到参考序列的第三区域之间的距离。在步骤1106,基于序列区域流动顺序和关于第二区域的序列的信息(例如,来自参考序列的第二区域的序列)来确定第二区域的预期距离信息。在步骤1108,通过将预期的距离信息与映射的距离信息进行比较来识别结构变体,其中映射的距离信息和预期的距离信息之间的差异指示结构变体。
图12说明了一个示意图,证明了如何使用偶联测序读段对来检测结构变体的一个实例。所示的实例显示了受试者基因组中的插入,但是将该方法类似地应用于其他结构变体(例如,缺失或染色体融合)。参考序列1202包括第一区段1204和第二区段1206。受试者的基因组1208也包括第一区段1204和第二区段1206,但还包括第一区段1204和第二区段1206之间的插入物1210。从受试者的基因组1208生成的偶联测序读段对1212包括对应于第一区段1204的第一区域1214和对应于第二区段1206的第三区域1216。第二区域1218将第一区域1214和第三区域1216分开。可以将第一区域1214和第三区域1216的序列分别在第一区段1204和第二区段1206处映射到参考序列1202。一旦映射,指示映射到参考序列1202的第一区域1214和第三区域1216之间的距离(即,参考序列1202的第一区段1204和第二区段1206之间的距离)的映射距离信息被确定为距离n。第二区域1218的长度的预期距离信息也可以被确定为m。然后可以通过将映射的距离信息n与预期的距离信息m进行比较来确定结构变体。
在检测第二区域内变体(例如结构变体或SNP)的另一种方法中,将预期的测序数据与确定的测序数据进行比较。例如,在一些实施方案中,检测偶联测序读段对的两个测序区域之间的变体的方法(其中使用以第一区域流动顺序提供的核苷酸将引物延伸通过第一区域和/或使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域)包括将第一区域(或其部分)和/或第三区域(或其部分)映射到参考序列。然后确定其他区域或其部分的预期参考测序数据(即,如果第一区域或部分被映射,则其他区域是指第三区域或其部分;并且如果第三区域或其部分被映射,则另一区域指的是第一区域或其部分)。例如,可以使用第二区域的参考序列、第二区域流动顺序、其他区域或其部分的参考序列(即,如果第一区域或其部分是映射的区域,则为第三区域或其部分,如果第三区域或其部分是映射的区域,则为第一区域或其部分)以及其他区域或其部分的流动顺序来确定预期的测序数据。在另一个实例中,使用第二区域的参考序列、第二区域流动顺序、其他区域的流动顺序以及与其他区域的序列相关的测序数据(其可以是在生成偶联测序读段对时生成的相同测序数据,或通过其他方式生成的测序数据)来确定预期测序数据。可以将确定的其他区域的预期测序数据与生成的其他区域的测序数据进行比较。预期的和生成的测序数据之间的差异指示变体的存在。
在一些实施方案中,检测偶联测序读段对的两个测序区域之间的变体(如结构变体(例如染色体融合、倒位、插入或缺失)或SNP)的方法(其中使用以第三区域流动顺序提供的核苷酸延伸引物)包括将第一区域或其部分映射到参考序列;使用(1)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列,或(2)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及生成的与第三区域的序列相关的测序数据,确定第三区域或其部分的预期测序数据;以及通过将第三区域的预期测序数据与生成的与第三区域的序列相关的测序数据进行比较来检测变体的存在。在一些实施方案中,检测偶联测序读段对的两个测序区域之间的变体(如结构变体(例如,染色体融合、倒位、插入或缺失)或SNP)的方法(其中使用以第一区域流动顺序提供的核苷酸延伸引物)包括将第三区域或其部分映射到参考序列;使用(1)第二区域的参考序列、第二区域流动顺序、第一区域流动顺序和第一区域的参考序列,或(2)第二区域的参考序列、第二区域流动顺序、第一区域流动顺序和生成的与第一区域的序列相关的测序数据,确定第一区域或其部分的预期测序数据;以及通过将第一区域的预期测序数据与生成的与第一区域的序列相关的测序数据进行比较来检测变体的存在。
图13说明了检测偶联测序读段对的两个测序区域之间的变体的示例性方法。在步骤1302,将偶联测序读段对的第一区域或其部分或者第三区域或其部分映射到参考序列。在步骤1304,确定第三区域或其部分或第一区域或其部分的预期测序数据。在步骤1306,通过将第一区域或第三区域的预期测序数据与生成的与第一区域或第三区域的序列相关的测序数据进行比较来检测变体的存在。示例性变体检测方法在实施例中提供。
检测变体的方法可以使用参考序列,其可以包括或不包括测试变体。可以选择测试变体,例如,鉴定第二多核苷酸内的或来自生物标志物组的测试变体。举例来说,测试变体可以用于确定多核苷酸的单倍型。可以在多核苷酸中鉴定等位基因或变体,并且本文所述的方法可以用于确定产生偶联测序读段对的多核苷酸是否与具有所鉴定的等位基因或变体的多核苷酸是相同的单倍型或不同的单倍型。偶联测序读段对中检测到的测试变体可以与在多核苷酸的第一区域或第三区域中测序的等位基因相关。
检测测试变体的存在时,参考序列可以包括测试变体,并且可以通过将第三区域或其部分的预期测试变体测序数据与确定的第三区域或其部分的测序数据进行比较来检测受试者基因组内测试变体的存在。如果预期的测试变体测序数据与确定的测序数据匹配,则在参考序列内检测到测试变体。例如,在一些实施方案中,检测偶联测序读段对的两个测序区域之间的测试变体的方法(其中已经使用以第一区域流动顺序提供的核苷酸将引物延伸通过第一区域和/或已经使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域)包括将第一区域或其部分映射到包括测试变体的参考序列。然后确定其他区域或其部分的测试变体预期的参考测序数据(即,如果第一区域或部分被映射,则其他区域是指第三区域或其部分)。可以例如使用参考序列确定测试变体预期的测序数据,所述参考序列包括第二区域的测试变体、第二区域流动顺序、其他区域或其部分的参考序列以及其他区域或其部分的流动顺序。在另一个实例中,使用具有第二区域的测试变体的参考序列、第二区域流动顺序、其他区域的流动顺序以及与其他区域的序列相关的测序数据(其可以是生成偶联测序读段对时生成的相同测序数据,或通过其他手段生成的测序数据)来确定预期的测序数据。可以将所确定的其他区域的测试变体预期测序数据与生成的其他区域的测序数据进行比较。预期和生成的测序数据之间的匹配指示测试变体的存在。
短遗传变体的检测
本文所述的方法可用于检测第二区域内的短遗传变体(例如,SNP或短插入缺失(长度小于10个连续碱基))(例如,引物延伸通过第二区域而不检测整合延伸引物中的核苷酸标记的存在或不存在时,或通过包括至少两种不同类型的核苷酸碱基的混合物来延伸引物)。可以通过分析检测下游(例如,第三)区域中核苷酸的整合时获得的信号来检测第二区域内的短遗传变体。短遗传变体可以是例如在个体亚群内发现的变体或突变,或单个或特定个体特有的变体或突变。短遗传变体可以是种系变体或体细胞变体。
测序数据可以基于整合的核苷酸的检测和核苷酸引入的顺序来生成。例如,取流动的延伸序列(即,相应模板序列的每个反向互补序列):CTG、CAG、CCG、CGT和CAT(假设没有前一序列或后一序列用于测序方法),以及T-A-C-G的重复流动循环(即,在重复循环中按序添加T、A、C和G核苷酸)。只有模板多核苷酸中存在互补碱基时,给定流动位置处的特定类型的核苷酸才会整合到引物中。示例性所得流动图显示于表5中,其中1指示引入的核苷酸的整合且0指示未掺入引入的核苷酸。流动图可用于导出模板链的序列。例如,本文讨论的测序数据(例如,流动图)代表延伸的引物链的序列,并且其反向互补序列可以容易地确定为代表模板链的序列。表5中的星号(*)表示如果在延伸的测序链(例如,较长的模板链)中整合另外的核苷酸,则测序数据中可能存在信号。
表5
Figure BDA0003452187140000481
流动图可以是二进制或非二进制的。二进制流动图检测整合的核苷酸存在(1)或不存在(0)。非二进制流动图可以更定量地确定从每次逐步引入整合的核苷酸的数目。例如,CCG的延伸序列将包括在同一C流动内(例如,在流动位置3处)的延伸引物中整合两个C碱基,并且由标记的碱基发出的信号将具有大于对应于单碱基整合的强度水平的强度。这在表5中显示。非二进制流动图还指示碱基的存在或不存在,并且可以提供另外的信息,包括可能在给定流动位置整合到每个延伸引物中的碱基数。这些值不需要是整数。在一些情况下,这些值可以反映在给定流动位置处整合的碱基数量的不确定性和/或可能性。
在一些实施方案中,测序数据集包括表示碱基计数的流动信号,所述碱基计数指示在每个流动位置处整合的测序核酸分子中的碱基数。例如,如表5中所示,使用T-A-C-G流动循环顺序用CTG序列延伸的引物在位置3处具有值1,表明在该位置处碱基计数为1(1个碱基是C,其与测序的模板链中的G互补)。同样在表5中,使用T-A-C-G流动循环顺序用CCG序列延伸的引物在位置3处具有值2,表明在该流动位置期间延伸引物在该位置处的碱基计数为2。在此,2个碱基是指延伸引物序列中CCG序列起始处的C-C序列,并且其与模板链中的G-G序列互补。
测序数据集中的流动信号可以包括一个或多个统计参数,其指示每个流动位置处的一个或多个碱基计数的可能性或置信区间。在一些实施方案中,流动信号由在测序过程期间检测到的模拟信号来确定,如在测序期间整合到测序引物中的一个或多个碱基的荧光信号。在一些情况下,可以处理模拟信号以生成统计参数。例如,机器学习算法可用于校正模拟测序信号的语境效应,如公开的国际专利申请WO2019084158Al中所述的,将其通过引用整体并入本文中。尽管在任何给定的流动位置处整合整数的零或更多个碱基,但是给定的模拟信号可能不与模拟信号完全匹配。因此,给定检测到的信号,可以确定指示在流动位置处整合的碱基数量的可能性的统计参数。仅举例来说,对于表5中的CCG序列,流动信号指示在流动位置3处整合2个碱基的可能性可以是0.999,并且流动信号指示在流动位置3处整合1个碱基的可能性可以是0.001。测序数据集可以被格式化为稀疏矩阵,其中流动信号包括指示每个流动位置处的多个碱基计数的可能性的统计参数。仅举例来说,使用T-A-C-G的重复流动循环顺序用以下序列延伸的引物:TATGGTCGTCGA(SEQ ID NO:15)可以产生图14A中所示的测序数据集。统计参数或可能性值可以例如基于在测序期间检测模拟信号期间存在的噪声或其他伪像而变化。在一些实施方案中,如果统计参数或可能性低于预定阈值,则可以将参数设置为基本上为零的预定非零值(即,一些非常小的值或可忽略的值),以辅助本文进一步讨论的统计分析,其中真零值可能引起计算误差或不充分地区分不可能性的水平,例如,非常不可能(0.0001)和不可思议的(0)。
指示给定序列的测序数据集的可能性的值可以从没有序列比对的测序数据集确定。例如,在给定数据的情况下,可以通过选择在每个流动位置处具有最高可能性的碱基计数来确定最可能的序列,如图14B中的星形所示(使用图14A中所示的相同数据)。因此,可以根据每个流动位置处的最可能的碱基计数来确定引物延伸的序列:TATGGTCGTCGA(SEQ IDNO:15)。由此,可以容易地确定反向互补序列(即模板链)。此外,鉴于TATGGTCGTCGA(SEQ IDNO:15)序列(或反向互补序列),这个测序数据集的可能性可以确定为在每个流动位置处所选的可能性的乘积。
可以将与核酸分子相关的测序数据集与一个或多个(例如,2、3、4、5、6或更多个)可能的候选序列进行比较。测序数据集与候选序列之间的紧密匹配(基于匹配分数,如下文讨论的)指示测序数据集可能来自具有与紧密匹配的候选序列相同序列的核酸分子。在一些实施方案中,可以将测序的核酸分子的序列映射到参考序列(例如使用Burrows-Wheeler比对(BWA)算法或其他合适的比对算法)以确定序列的基因座(或一个或多个基因座)。如上所述,流动空间中的测序数据集可以容易地转换为碱基空间(或者如果流动顺序是已知的,则反之亦然),并且可以在流动空间或碱基空间中进行映射。与映射序列相对应的基因座(或多个基因座)可以与一个或多个变体序列相关,所述变体序列可以作为本文所述的分析方法的候选序列(或单倍型序列)来操作。本文所述方法的一个优点是在一些情况下,测序的核酸分子的序列不需要使用比对算法与每个候选序列比对,这通常在计算上是昂贵的。相反,可以使用流动空间中的测序数据确定每个候选序列的匹配分数,这是一种计算效率更高的操作。
匹配分数指示测序数据集支持候选序列的程度。例如,在给定候选序列的预期测序数据的情况下,可以通过选择与该流动位置的碱基计数对应的每个流动位置处的统计参数(例如,可能性)来确定指示测序数据集与候选序列匹配的可能性的匹配分数。所选统计参数的乘积可以提供匹配分数。例如,假设了图14A中显示的延伸引物的测序数据集,以及TATGGTCATCGA(SEQ ID NO:16)的候选引物延伸序列。图14C(显示图14A中的相同测序数据集)显示了候选序列的迹线(实心圆圈)。作为比较,TATGGTCGTCGA(SEQ ID NO:15)序列(参见图14B)的迹线在图14C中使用空心圆显示。指示测序数据与第一候选序列TATGGTCATCGA(SEQ ID NO:16)匹配的可能性的匹配分数基本上不同于指示测序数据与第二候选序列TATGGTCGTCGA(SEQ ID NO:15)匹配的可能性的匹配分数,即使序列仅因单个碱基改变而变化。如图14C中所示,在流动位置12处观察到迹线之间的差异,并且传播至少9个流动位置(并且如果测序数据延伸跨过附加流动位置,则可能更长)。这种跨过一个或多个流动循环的持续传播可以被称为“流动移位”或“循环移位”,并且如果测序数据集与候选序列匹配,则通常是非常不可能的事件。
然后可以确定每个测序数据集和候选序列(或每个候选序列)之间的匹配分数。例如,可以使用给定候选序列的每个流动位置处的所选碱基计数的可能性(例如,其乘积)来确定测序数据集匹配给定候选序列的可能性L(Rj|Hi)。
匹配分数可用于将测试测序数据和/或与测试测序数据相关的核酸分子分类。分类器可以指示核酸分子包括变体(例如,候选序列中包括的变体),核酸分子不包括变体,或者可以指示空判定。空判定既不指示与测试测序数据相关的核酸分子中存在或不存在变体,而是指示匹配分数不能用于进行具有所需统计置信度的判定。例如,如果匹配分数高于期望的置信度阈值,则测试测序数据或核酸分子可以被分类为具有变体。相反,例如,如果匹配分数低于期望的置信度阈值,则测试测序数据或核酸分子可以被分类为不具有变体。
上述分析可以应用于从两个或更多个不同的候选序列中选择候选序列。可以确定指示测序数据集与每个候选序列匹配的可能性的匹配分数。例如,可以为每个候选序列选择测序数据集中的每个流动位置处的与该流动位置处的候选序列的碱基计数相对应的统计参数。在一些实施方案中,这种分析包括生成候选测序的预期测序数据,假设候选序列使用用于生成测序的测试核酸分子的测序数据集的相同流动顺序进行测序。这可以通过用候选序列对核酸分子进行测序来生成,或者通过基于候选序列和流动顺序在计算机上生成候选测序数据集来生成。示例性候选测序数据集显示在图14C中的测试数据测序数据集下方,其中第一候选序列(TATGGTCATCGA(SEQ ID NO:16))对应于实心圆迹线,并且第二候选序列(TATGGTCGTCGA(SEQ ID NO:15))对应于空心圆迹线。在一些实施方案中,例如,如果确定两个或更多个不同候选序列的匹配分数,则测试测序数据或核酸分子可以被分类为具有两个或更多个候选序列之一的变体,不具有两个或更多个候选序列之一的变体,或者可以在两个或更多个候选序列之间进行空判定(例如,如果不能对任何候选序列进行判定,或者如果匹配分数指示在相同基因座处的两个或更多个不同变体)。
一旦确定了候选序列的测序数据集的匹配分数,就可以基于匹配分数选择具有短遗传变体的候选序列(例如,从两个或更多个候选序列中产生具有最高可能性匹配的匹配分数的候选序列)。由具有短遗传变体的序列核酸分子产生的测序数据将与具有短遗传变体的候选序列匹配,并且可以选择该候选序列,而拒绝的(或未选择的)候选序列不包括短遗传变体,如由较小可能性匹配所指示的(基于那些候选序列的确定的匹配分数)。未选择的候选序列可以在两个或更多个流动位置处与所选择的候选序列(其与测序的核酸分子测序数据集最佳地匹配)不同,所述两个或更多个流动位置可以是两个或更多个连续流动位置或者两个或更多个非连续流动位置。在一些实施方案中,未选择的候选序列在3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个,或10个或更多个流动位置处不同于所选的候选序列。在一些实施方案中,未选择的候选序列在1个或更多个、2个或更多个、3个或更多个、4个或更多个或5个或更多个流动循环中不同于所选择的候选序列。在一些实施方案中,未选择的候选序列在X个碱基位置处不同于所选的候选序列,其中与序列核酸分子相关的测序数据集在(X+2)个或更多个流动位置处不同于未选择的候选序列。所选择的候选序列与未选择的候选序列之间的不同流动位置的数量的增加(其中测序的核酸分子测序数据集与所选择的候选序列最佳匹配)降低了从使用未选择的候选序列对核酸分子进行测序而得到的测序的核酸分子测序数据集的可能性。
测序的核酸分子的测序数据集与未选择的候选序列匹配的可能性优选低,如小于0.05、小于0.04、小于0.03、小于0.02、小于0.01、小于0.005、小于0.001、小于0.0005或小于0.0001。测序的核酸分子的测序数据集与所选的候选序列匹配的可能性优选高,如大于0.95、大于0.96、大于0.97、大于0.98、大于0.99、大于0.995或大于0.999。
在一些实施方案中,用于检测测试样品中的短遗传变体的方法可以包括分析多个测试测序数据集,其中每个测试测序数据集与测试样品中分开的测试核酸分子相关。例如,如果核酸分子的序列与参考序列比对,则核酸分子在基因座处至少部分重叠。核酸分子的至少一部分可以具有不同的测序起始位置(相对于基因座),这导致序列内给定碱基的不同流动位置和/或不同的流动顺序环境。以这种方式,相同的候选序列可以用来分析多个测试测序数据集。对于每个候选序列,可以确定指示多个测试测序数据集与候选序列匹配的可能性的匹配分数,并且可以选择具有最高可能性匹配的候选序列(并且因此,包括短遗传变体)。使用多个测试测序数据集检测短遗传变体的示例性分析显示在图15A-15D中。在图15A中,将对应于三个测序的测试核酸分子(R1、R2和R3,各自由延伸的引物的序列表示)的序列在与两个候选序列(HI和H2)相关的重叠基因座处与参考序列比对。图15B、图15C和图15D分别显示了R1、R2和R3的示例性测序数据集,以及测序数据集中与H1(实心圆)或H2(空心圆)的碱基相对应的每个流动位置处的所选统计参数。
可以使用一个或多个确定的匹配分数来判定测试样品中短遗传变体的存在(或身份)或不存在。在一些实施方案中,例如,被分类为具有变体的单个核酸分子(或相关的测试测序数据集)可能足以判定变体的存在、身份或不存在,例如如果匹配分数指示以期望或预设的置信度与候选序列匹配。在一些实施方案中,预定数目(例如,1个或更多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个等)的核酸分子(或与核酸分子相关的测试测序数据集)在针对测试样品判定变体之前被分类为具有变体。在一些实施方案中,根据匹配分数动态地选择核酸分子(或与核酸分子相关的测试测序数据集)的数目;例如,可以使用被分类为具有高置信度匹配分数的变体的单个核酸分子来判定变体,或者可以使用被分类为具有较低置信度匹配分数的变体的两个或更多个核酸分子来判定变体。
任选地,共同分析测序数据集的单独的匹配分数,以确定多个测试测序数据集的匹配分数。例如,一旦使用本文所述的方法确定了每个候选序列的每个测试测序数据集的匹配分数,就可以使用已知的贝叶斯方法,例如,使用基因组分析工具包(GATK)中包括的HaplotypeCaller算法,确定指示多个测试测序数据集与候选序列匹配的可能性的匹配分数,并且可以选择具有最高可能性匹配的候选序列。参见,例如,Depristo等,A frameworkfor variation discovery and genotyping using next-generation DNA sequencingdata,Nature Genetics 43,491-498(2011);以及Poplin等,Scaling Accurate GeneticVariant Discovery to Tens of Kestomen of Samples,BioRxiv,www.bioRxiv.org/content/10.1101/201178v3(2018年7月24日);Hwang等,Systematic Comparison ofVariant Calling Pipelines Using Gold Standard Personal Exome Variants,Scientific Reports,第5卷,第17875号(2015);其各自的内容并入本文中。
假设实施例1-SNP检测。根据流动循环顺序A-T-G-C,使用在单独的核苷酸流中提供的非终止核苷酸对假设的核酸分子进行测序,得到图14A中所示的测试测序数据集。测序数据集中的每个值指示每个流动位置处指示的碱基计数正确的可能性。基于测序数据集,初步序列被确定为TATGGTCGTCGA(SEQ ID NO:15),其被映射到参考基因组的基因座。参考基因组的基因座与潜在的单倍型序列TATGGTCGTCGA(SEQ ID NO:15)(H1)和TATGGTCATCGA(SEQ ID NO:16)(H2)相关。针对每一单倍型,选择与每一流动位置的单倍型序列的碱基计数相关的可能性值。通过乘以与每个流动位置的单倍型序列的碱基计数相关的可能性值来确定给定的每个单倍型的测序数据集的可能性。如果H1是正确序列,则测序数据集的对数可能性是-0.015,并且如果H2是正确序列,则测序数据集的对数可能性是-27.008。因此,选择H1的序列用于该核酸分子。
假设实施例2-插入缺失检测。根据流动循环顺序A-T-G-C,使用在分开的核苷酸流中提供的非终止核苷酸对假设的核酸分子进行测序,得到图16中所示的测试测序数据集。测序数据集中的每个值指示每个流动位置处指示的碱基计数正确的可能性。基于测序数据集(即,通过选择每个流动位置处的最可能的碱基计数),初步序列被确定为TATGGTCGATCG(SEQ ID NO:22),其被映射到参考基因组的基因座。参考基因组的基因座与潜在的单倍型序列TATGGTCGTCGA(SEQ ID NO:21)(H1)和TATGGTCGATCG(SEQ ID NO:22)(H2)相关。针对每一单倍型,选择与每一流动位置的单倍型序列的碱基计数相关的可能性值。通过乘以与每个流动位置的单倍型序列的碱基计数相关的可能性值来确定给定的每个单倍型的测序数据集的可能性。如果H1是正确序列,则测序数据集的对数可能性为-24.009,并且如果H2是正确序列,则测序数据集的对数可能性为-0.015。因此,选择H2的序列用于该核酸分子。
由于第二(即,“暗”)区域中的变体引起的信号差异传播到第三区域(即,检测到核苷酸整合的区域)时,可以在第三区域中检测到由第二区域中的变体引起的流动偏移。在上面讨论的假设示例中,例如,循环3可以被认为是“暗”或第二区域(其可以是任何数量的循环),并且循环4和循环5可以是第三区域(其也可以是任何数量的循环)。
颠换的检测
颠换是将嘌呤交换为嘧啶或反之亦然的SNP。可以实施本文所述的方法以对于检测偶联测序读段对的第二区域内的颠换特别敏感。例如,使用包含嘧啶(C+T)与嘌呤(A+G)的交替核苷酸对的第二区域流动顺序通过第二区域的引物延伸将对颠换高度敏感。
例如,用于检测多核苷酸中碱基颠换的存在的偶联测序读段对可以通过以下步骤产生:(a)将多核苷酸与引物杂交以形成杂交模板;(b)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸的存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;(c)使用包含(1)胞嘧啶和胸腺嘧啶以及(2)腺嘌呤和鸟嘌呤的交替核苷酸对的流动顺序进一步延伸步骤(b)中延伸的引物通过第二区域;和(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸的存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。即使不检测整合到延伸通过第二区域的引物中的核苷酸的标记的存在或不存在,也可以在第二区域中检测颠换。
用于颠换检测生成的偶联测序读段对可用于通过映射偶联测序读段对的第一区域或其部分(或第三区域或其部分)来检测颠换;使用第二区域流动顺序、第三区域流动顺序和参考序列确定第三区域或其部分(或所述第一区域或其部分)的预期测序数据;以及基于第三区域的预期参考测序数据与第三区域的生成测序数据之间的差异来检测碱基颠换的存在。
第三区域或其部分(或第一区域或其部分)的预期参考测序数据可以通过例如使用第二区域流动顺序、第三区域流动顺序、第二区域的参考序列和第三区域的参考序列来确定。在一些实施方案中,使用第二区域流动顺序、第三区域流动顺序、第二区域的参考序列和生成的与第三区域的序列相关的序列数据来确定第三区域的预期参考测序数据,其中生成的与第三区域的序列相关的序列数据是生成偶联测序读段对时生成的相同或不同的序列数据。
变体验证
多个至少部分重叠的偶联测序读段可用于验证变体状态。由于在核苷酸整合延伸引物的正常过程期间可能偶尔发生测序错误(例如,由于聚合酶错误或读段错误),因此变体验证可有助于最小化报告假阳性或假阴性。另外,本文所述方法的灵敏度可以根据将引物延伸通过第二区域时使用的变体的内容和流动顺序而变化。因此,为了使假阳性或假阴性错误最小化,可以比较重叠或至少部分重叠的偶联测序读段对以验证变体。用于验证变体的多个偶联测序读段对可以包括不同的起始点(例如,不同的第一区域起始点、不同的第二区域起始点和/或不同的第三区域起始点),或者可以使用不同的第二区域流动顺序生成。
可以选择目的测试变体,并且分析多个重叠的偶联测序读段对以确定偶联测序读段对内测试变体的状态(例如,变体是存在还是不存在)。重叠的偶联测序读段对包括对应于测试变体基因座的基因座。在一些实施方案中,测试变体在偶联测序读段对的至少一部分的第一区域内。在一些实施方案中,测试变体在偶联测序读段对的至少一部分的第二区域内。在一些实施方案中,测试变体在偶联测序读段对的至少一部分的第三区域内。
可以选择一个容限阈值来判定测试变体存在或不存在于该基因座上。如果多个偶联测序读段中肯定地识别测试变体高于识别测试变体的预定阈值,则例如,测试变体被肯定地判定。可以根据风险容限的需要来设置阈值。例如,容限阈值可以是识别测试变体的偶联测序读段对的60%或更高、70%或更高、80%或更高、90%或更高、或95%或更高。
图17显示了用于比较偶联测序读段对以确定测试变体状态的示例性示意图。将多个重叠的偶联测序读段对1402与参考序列1404比对。在基因座1406处,五个重叠的偶联测序读段对中的四个允许鉴定在偶联测序读段对之一中未鉴定的变体。具体地,偶联测序读段对1408、1410、1414和1416分别包括在基因座1418、1420、1424和1426处鉴定的变体。每个偶联测序读段对处的变体的基因座与参考序列1404的基因座1406对齐。偶联测序读段对1412未识别基因座1422处的变体(例如,由于测序读段错误或由于变体的内容与第二区域以及用于生成偶联测序读段对1412的流动顺序)。
共有序列的构建或验证
根据本文所述方法生成的偶联测序读段对可用于通过组装该偶联测序读段对来产生一个或多个共有序列。配对末端测序先前已用于组装共有序列,但可用于多核苷酸的测序末端之间的区域的有限信息导致较低质量的共有序列,具有频繁错误比对的序列。参见例如Zerbino等,Velvet:Algorithms for de novo short read assembly using deBruinn graphs,Genome Research,第18卷,第821-820页(2008),其出于所有目的通过引用并入本文中。本文所述的方法允许从测序的第一区域和第三区域之间的未测序的第二区域提取基本上更多的信息。这个附加信息允许更稳健和准确的共有序列。
在一个实例中,使用指示偶联测序读段对的第二区域的长度的距离信息来组装一个或多个共有序列。可以如本文所述确定距离信息。在一个实例中,使用第二区域流动顺序(或与第二区域流动顺序相关的信息)和第二区域中碱基的概率分布来确定距离信息。第二区域中碱基的概率分布可以是例如整个基因组中碱基的假定分布,或者可以是基于第一区域或第三区域的映射基因座的更局部化的概率。与第二区域流动顺序相关的信息可以是例如同时用于使引物延伸通过第二区域的不同类型的核苷酸碱基数量。举例来说,在重复循环中使用三碱基流动步骤以在第二区域内延伸引物(例如,使用(非A)-(非C)-(非T)-(非G)的循环步骤,每个循环步骤包括三个其他碱基)并假设第二区域中碱基的分布与整个基因组大致相同,预期引物在循环中的每个步骤延伸约4.7个碱基。因此,第二区域的长度可以近似为第二区域流动顺序中的步骤数的4.7倍。
在一些实施方案中,距离信息源自第二区域的预期参考测序数据。如本文所讨论的,可以使用参考序列和第二区域流动顺序来确定第二区域的预期参考测序数据。一旦将多核苷酸的第一或第三区域映射到参考序列,就确定预期的序列信息,包括预期的序列长度,其提供多核苷酸的第一区域和第三区域之间的长度。
偶联测序读段对可用于验证一个或多个共有序列或一个或多个共有序列的一部分。鉴于可用数据,共有序列组装可带来多个可能的序列组装,并且可以使用传统的配对末端测序数据来挑战选择这些可能的序列中的哪一个是正确的共有序列。因为可以从偶联测序读段对的第二区域提取另外的信息,所以使用本文所述的方法,共有序列验证更稳健。为了验证共有序列,可以将第一区域或其部分(或第三区域或其部分)映射到所选的共有序列。其他区域或其部分(即,如果第一区域或其部分被映射,则第三区域或其部分,或者如果第三区域或其部分被映射,则第一区域或其部分)的预期测序数据。例如,可以如本文所述的来确定预期的测序数据。在一个实例中,使用第二区域流动顺序、所选的共有序列和第一区域流动顺序(如果预期的测序数据是针对第一区域或其部分)或第三区域流动顺序(如果预期的测序数据是针对第三区域或其部分)来确定预期的测序数据。然后可以将预期的测序数据与对应区域处生成的偶联测序读段对的测序数据进行比较,以验证共有序列部分。与生成的测序数据匹配的预期测序数据指示共有序列部分被正确组装。预期的测序数据与生成的测序数据不匹配表明共有序列部分被不正确地组装。
在一些实施方案中,构建或验证了一个以上的共有序列。例如,某些生物体是多倍体(例如,健康人是二倍体生物体,并且每个染色体具有两个拷贝(男性中的性染色体除外)。可以对应于一个或多个染色体拷贝来组装共有序列(例如,可以针对人序列中的每个染色体对组装共有序列)。将偶联测序读段对分配给多倍体生物体的相应染色体的过程可以称为单倍型分析。本文所述的方法可用于提高单倍型分析的准确性或效率。例如,可以使用来自本文所述的偶联测序读段对的第二区域的信息将测试变体与第一染色体或第二染色体(或来自多倍体生物体的其他另外的染色体)相关。
系统、设备和报告
上述操作(包括参考图1-17所述的那些操作)任选地由图18中所描绘的部件来实现。本领域的普通技术人员会清楚地知道可如何基于图18中所描绘的部件来实现其他过程,例如,上述全部或部分操作的组合或子组合。本领域普通技术人员还将清楚,本文描述的方法、技术、系统和设备可以如何全部或部分地彼此组合,那些方法、技术、系统和/或设备是否由图18描绘的组件实现和/或提供。
图18说明了根据一个实施方案的计算设备的实例。设备1800可以是连接网络的主机计算机。设备1800可以是客户端计算机或服务器。如图18所示,设备1800可以是任何合适类型的基于微处理器的设备,如个人计算机、工作站、服务器或手持式计算设备(便携式电子设备),如电话或平板电脑。设备可以包括例如处理器1810、输入设备1820、输出设备1830、存储装置1840和通信设备1860中的一个或多个。输入设备1820和输出设备1830通常可以对应于上述那些,并且可以与计算机连接或集成。
输入设备1820可以是提供输入的任何合适的设备,如触摸屏、键盘或小键盘、鼠标或语音识别设备。输出设备1830可以是提供输出的任何合适的设备,如触摸屏、触觉设备或扬声器。
存储器1840可以是提供存储的任何合适的设备,如电、磁或光存储器,包括RAM、缓存、硬盘驱动器或可移动存储盘。通信设备1860可以包括能够通过网络发送和接收信号的任何合适的设备,如网络接口芯片或设备。计算机的组件可以以任何合适的方式连接,如经由物理总线或无线连接。
可以存储在存储器1840中并由处理器1810执行的软件1850可以包括例如体现本公开的功能的编程(例如,如在上述设备中体现的)。
软件1850还可以在任何非暂时性计算机可读存储介质内存储和/或传输,以供指令执行系统、装置或设备使用或与其整合,如上述那些,其可以从指令执行系统、装置或设备获取与软件相关的指令并执行指令。在本公开的内容中,计算机可读存储介质可以是任何介质,如存储装置1840,其可以包含或存储程序以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备整合。
软件1850还可以在任何传输介质内传播,以供指令执行系统、装置或设备使用或与其整合,如上述那些,其可以从指令执行系统、装置或设备获取与软件相关的指令并执行指令。在本公开的内容中,传输介质可以是可以传送、传播或传输程序以供指令执行系统、装置或设备使用或与其整合的任何介质。传输可读介质可以包括但不限于电子、磁、光、电磁或红外有线或无线传播介质。
设备1800可以连接网络,其可以是任何合适类型的互连通信系统。网络可以实现任何合适的通讯协议并且可以通过任何合适的安全协议来保护。网络可以包括可以实现网络信号的传输和接收的任何合适布置的网络链接,如无线网络连接、T1或T3线路、电缆网络、DSL或电话线。
设备1800可以实现适合于在网络上操作的任何操作系统。软件1850可以用任何合适的编程语言编写,诸如C、C++、Java或Python。在各种实施方案中,体现本公开的功能的应用软件可以以不同的配置部署,如以客户端/服务器布置或例如通过web浏览器作为基于web的应用或web服务。
本文描述的方法任选地进一步包括报告使用分析方法确定的信息和/或生成包含使用分析方法确定的信息的报告。例如,在一些实施方案中,该方法还包括报告或生成包含与源自受试者的多核苷酸中(例如,在受试者的基因组内)的变体的鉴定相关的报告。报告的信息或报告内的信息可以与例如映射到参考序列的偶联测序读段对的基因座、检测到的变体(如检测到的结构变体或检测到的SNP)、一个或多个组装的共有序列和/或一个或多个组装的共有序列的验证统计相关。可以将报告分发给接受者,或者可以将信息报告给接受者,例如临床医生、受试者或研究人员。
示例性实施方案
以下实施方案是示例性的,并不旨在限制所要求保护的发明的范围。
实施方案1.一种从多核苷酸生成偶联测序读段对的方法,包括:
(a)使多核苷酸与引物杂交以形成杂交模板;
(b)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸的存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;
(c)使用以第二区域流动顺序中提供的核苷酸将步骤(b)中延伸的引物进一步延伸通过第二区域,其中(i)引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记的存在或不存在;(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物通过第二区域的延伸比步骤(b)中引物的延伸进行得更快;和
(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。
实施方案2.实施方案1所述的方法,其中引物通过第二区域的延伸比引物通过第一区域的延伸进行得更快。
实施方案3.实施方案1或2的方法,还包括将第一区域的测序数据与第三区域的测序数据相关联。
实施方案4.一种从多核苷酸生成偶联测序读段对的方法,包括:
(a)使引物与多核苷酸的第一区域的一部分杂交以形成杂交模板;
(b)通过使用第二区域流动顺序中提供的核苷酸将引物延伸通过第二区域,其中(i)将引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记的存在或不存在,或(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物;和
(c)通过使用标记的核苷酸进一步延伸步骤(b)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。
实施方案5.实施方案4的方法,其中第一区域包含由引物靶向的天然存在的序列。
实施方案6.实施方案1-5任一个的方法,其中引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在。
实施方案7.实施方案1-6任一个的方法,其中用于使引物延伸通过第二区域的核苷酸的至少一部分是未标记的核苷酸。
实施方案8.实施方案1-6任一个的方法,其中用于使引物延伸通过第二区域的核苷酸是未标记的核苷酸。
实施方案9.实施方案1-8任一个的方法,其中在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物。
实施方案10.实施方案1-9任一个的方法,其中第二区域流动顺序包含五个或更多个核苷酸流。
实施方案11.实施方案10任一个的方法,其中核苷酸流中的每一个包含单个核苷酸碱基。
实施方案12.实施方案10或11的方法,其中对于在5%或更多的随机测序起始位置处的50%或更多的可能SNP排列,第二区域流动顺序在多于两个流动位置处诱导信号变化。
实施方案13.实施方案10-12任一个的方法,其中第二区域流动顺序具有每个流动整合0.6个或更多个碱基的效率。
实施方案14.实施例1-13任一个的方法,还包括使用参考序列和第二区域流动顺序确定第二区域的预期测序数据。
实施方案15.实施方案1-14任一个的方法,其中使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域,该方法还包括使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列来确定第三区域的预期测序数据。
实施方案16.实施方案15的方法,其中第三区域流动顺序包含五个或更多个核苷酸流。
实施方案17.实施方案16的方法,其中核苷酸流中的每一个包含单个核苷酸碱基。
实施方案18.实施方案16或17的方法,其中对于5%或更多的随机测序起始位置处的50%或更多的可能SNP排列,第三区域流动顺序在多于两个流动位置处诱导信号变化。
实施方案19.实施方案16-18中任一个的方法,其中第二区域流动顺序具有每个流动整合0.6个或更多个碱基的效率。
实施方案20.实施方案1-19中任一个的方法,其中使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域,该方法还包括使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及与第三区域的序列相关的测序数据来确定第三区域的预期测序数据,其中与第三区域的序列相关的测序数据是相同或不同的针对第三区域生成的测序数据。
实施方案21.实施方案14-20中任一个的方法,其中第二区域或第三区域的预期参考数据包括二进制或非二进制流动图。
实施方案22.实施例14-21中任一个的方法,还包括使用第二区域流动顺序和第二区域的第二参考序列确定第二区域的预期测试变体测序数据,其中第二参考序列包含测试变体。
实施方案23.实施方案22的方法,其中使用以第三区域流动顺序中提供的核苷酸将引物延伸通过第三区域,该方法还包括使用第二区域的第二参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列确定第三区域的预期测试变体测序数据。
实施方案24.实施方案22的方法,其中使用以第三区域流动顺序中提供的核苷酸将引物延伸通过第三区域,该方法还包括使用第二区域的第二参考序列、第二区域流动顺序、第三区域流动顺序以及与第三区域的序列相关的测序数据确定第三区域的预期测试变体测序数据,其中与第三区域的序列相关的测序数据是相同或不同的针对第三区域生成的测序数据。
实施方案25.实施方案22-24任一个的方法,其中第二区域或第三区域的预期参考测序数据包括二进制或非二进制流动图。
实施方案26.一种将偶联测序读段对映射到参考序列的方法,包括:
将根据实施方案1-25任一个的方法生成的偶联测序读段对的第一区域或其部分,或第三区域或其部分映射到参考序列;和
使用指示所述第二区域长度的距离信息将未映射的第一区域或其部分,或未映射的第三区域或其部分映射到参考序列。
实施方案27.一种检测结构变体的方法,包括:
将根据实施方案1-25任一个的方法生成的偶联测序读段对的第一区域或其部分或第三区域或其部分映射到参考序列;
使用指示第二区域长度的距离信息,确定未映射的第一区域或其部分或未映射的第三区域或其部分的参考序列内的预期基因座;
基于参考序列确定预期基因座处的序列的预期测序数据;和
通过将未映射的第一区域或其部分或未映射的第三区域或其部分的测序数据与预期测序数据进行比较来检测结构变体,其中未映射的第一区域或其部分或未映射的第三区域或其部分的测序数据与预期测序数据之间的差异指示结构变体。
实施方案28.一种检测结构变体的方法,包括:
将根据实施方案1-25任一个的方法生成的偶联测序读段对的第一区域或其部分或第三区域或其部分映射到参考序列,其中未映射的第一区域或未映射的第三区域在参考序列内是不可映射的。
实施方案29.实施方案28的方法,还包括基于指示第二区域长度的预期距离信息确定参考序列内的结构变体的基因座。
实施方案30.实施方案27-29任一个的方法,其中未映射的第一区域或其部分或未映射的第三区域或其部分在相对于参考序列的插入内。
实施方案31.实施方案27-29中任一个的方法,其中未映射的第一区域或其部分或未映射的第三区域或其部分桥接到相对于参考序列的插入的起始或末端处。
实施方案32.一种检测结构变体的方法,包括:
将根据实施方案1-25任一个的方法生成的偶联测序读段对的第一区域或其部分和第三区域或其部分映射到参考序列;
确定映射的第一区域和映射的第三区域之间的映射距离信息;和
通过将映射的距离信息与第二区域的预期距离信息进行比较来检测结构变体,其中映射的距离信息与预期的距离信息之间的差异指示结构变体。
实施方案33.实施方案27-32任一个的方法,其中结构变体是染色体融合、倒位、插入或缺失。
实施方案34.实施方案27-32任一个的方法,其中变体是第二区域内的插入或缺失。
实施方案35.根据实施方案26-32任一个的方法,其中使用与第二区域流动顺序相关的信息和第二区域中碱基的概率分布来确定距离信息。
实施方案36.实施方案35的方法,其中与第二区域流动顺序相关的信息是同时用于使引物延伸通过第二区域的不同类型的核苷酸碱基的数量。
实施方案37.实施方案35或36所述的方法,其中第二区域中碱基的概率分布由基因组内的碱基分布来确定。
实施方案38.实施方案26-35任一个的方法,其中距离信息源自使用参考序列和第二区域流动顺序确定的第二区域的预期测序数据。
实施方案39.实施方案38的方法,其中预期测序数据包括二进制或非二进制流动图。
实施方案40.一种将偶联测序读段对映射到参考序列的方法,包括:
将根据实施方案1-25任一个的方法生成的偶联测序读段对的第一区域或其部分和第三区域或其部分映射到包含第一位置和第二位置的两个或更多个不同位置对处的参考序列;和
对于所述两个或更多个位置对,使用指示第二区域长度的第一距离信息和指示第一位置与第二位置之间的距离的第二距离信息来选择正确的位置对。
实施方案41.实施方案40的方法,其中使用与所述第二区域流动顺序相关的信息和第二区域中碱基的概率分布来确定第一距离信息。
实施方案42.实施方案41的方法,其中与第二区域流动顺序相关的信息是同时用于延伸引物通过第二区域的不同类型的核苷酸碱基的数量。
实施方案43.实施方案41或42的方法,其中第二区域中的碱基概率分布由基因组内的碱基分布来确定。
实施方案44.实施方案40的方法,其中第一距离信息源自使用参考序列和第二区域流动顺序确定的第二区域的预期测序数据。
实施方案45.实施方案44的方法,其中预期参考测序数据包括二进制或非二进制流动图。
实施方案46.一种检测根据实施方案1-25任一个生成的偶联测序读段对的两个测序区域之间的变体的方法,其中使用以第三区域流动顺序中提供的核苷酸将延伸的引物延伸通过第三区域,该方法包括:
将第一区域或其部分映射到参考序列;
使用(1)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列,或(2)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及生成的与第三区域的序列相关的测序数据,确定第三区域或其部分的预期测序数据,其中生成的与第三区域的序列相关的序列数据是相同或不同的针对第三区域生成的序列数据;和
通过将第三区域的预期测序数据与生成的与第三区域的序列相关的测序数据进行比较来检测变体的存在。
实施方案47.实施方案46的方法,其中变体是结构变体。
实施方案48.实施方案47的方法,其中结构变体是染色体融合、倒位、插入或缺失。
实施方案49.实施方案46的方法,其中变体是单核苷酸多态性(SNP)。
实施方案50.实施方案46-49任一个的方法,其中将方法用于检测测试变体,并且参考序列包含测试变体。
实施方案51.实施方案50的方法,其中通过鉴定第二多核苷酸内的测试变体来选择测试变体。
实施方案52.实施方案50或51的方法,包括将检测到的测试变体与在多核苷酸的第一区域或第三区域中测序的等位基因相关联。
实施方案53.一种生成用于检测多核苷酸未测序区域中的碱基颠换存在的偶联测序读段对的方法,其包括:
(a)使多核苷酸与引物杂交以形成杂交模板;
(b)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸的存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;
(c)使用包含(1)胞嘧啶和胸腺嘧啶以及(2)腺嘌呤和鸟嘌呤的交替核苷酸对的流动顺序进一步将步骤(b)中延伸的引物延伸通过第二区域;和
(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸的存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。
实施方案54.一种从多核苷酸生成偶联测序读段对的方法,其包括:
(a)使引物与多核苷酸的第一区域杂交以形成杂交模板;
(b)使用包含(1)胞嘧啶和胸腺嘧啶以及(2)腺嘌呤和鸟嘌呤的交替核苷酸对的流动顺序使引物延伸通过第二区域;和
(c)通过使用标记的核苷酸进一步延伸步骤(b)中延伸的引物,并检测整合的标记的核苷酸的存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。
实施方案55.实施方案54的方法,其中第一区域包含由引物靶向的天然存在的序列。
实施方案56.实施方案54或55的方法,其中引物延伸通过第二区域,而不检测整合延伸引物中的核苷酸的标记存在或不存在。
实施方案57.一种检测多核苷酸未测序区域中的碱基颠换存在的方法,其包括:
将根据实施方案54-56任一个生成的偶联测序读段对的第一区域或其部分和第三区域或其部分映射到参考序列,其中使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域;
使用第二区域流动顺序、第三区域流动顺序和参考序列确定第三区域的预期测序数据;和
基于第三区域的预期测序数据与生成的第三区域的测序数据之间的差异检测碱基颠换的存在。
实施方案58.实施方案57的方法,其中使用第二区域流动顺序、第三区域流动顺序、第二区域的参考序列和第三区域的参考序列确定第三区域的预期测序数据。
实施方案59.实施方案57的方法,其中使用第二区域流动顺序、第三区域流动顺序、第二区域的参考序列和生成的与第三区域的序列相关的序列数据确定第三区域的预期测序数据,其中生成的与第三区域的序列相关的序列数据是相同或不同的针对第三区域生成的序列数据。
实施方案60.实施方案57-59中任一项的方法,其中第三区域的预期测序数据包括二进制或非二进制流动图。
实施方案61.一种生成一个或多个共有序列的方法,其包括组装根据实施方案1-25任一个生成的多个偶联测序读段对。
实施方案62.实施方案61的方法,其中使用指示多个偶联测序读段对的第二区域长度的距离信息来组装一个或多个共有序列。
实施方案63.实施方案61的方法,其中使用与第二区域流动顺序相关的信息和第二区域中的碱基概率分布来确定距离信息。
实施方案64.实施方案63的方法,其中与第二区域流动顺序相关的信息是同时用于将引物延伸通过第三区域的不同类型的核苷酸碱基的数量。
实施方案65.实施方案63或64的方法,其中第二区域中碱基的概率分布由基因组内的碱基分布来确定。
实施方案66.实施方案62的方法,其中距离信息源自使用参考序列和第二区域流动顺序确定的第二区域的预期参考测序数据。
实施方案67.实施方案66的方法,其中预期参考测序数据包括二进制或非二进制流动图。
实施方案68.实施方案61-67任一个的方法,还包括使用与所选的共有序列的部分相关的所选的偶联测序读段来验证选自一个或多个共有序列的共有序列的部分,其中当生成所选的偶联测序读段时的延伸通过第三区域的引物是使用以第三区域流动顺序提供的核苷酸延伸的,所述验证包括:
使用第二区域流动顺序、第三区域流动顺序和所选的共有序列的部分确定所选的偶联测序读段的第三区域的预期测序数据;和
通过将所选的偶联测序读段的第三区域的预期测序数据与生成的第三区域的测序数据进行比较来验证所选的共有序列的部分。
实施方案69.一种验证测试变体状态的方法,包括:
在根据实施方案1-25任一个生成的多个重叠偶联测序读段对上比较变体的状态,所述多个重叠偶联测序读段对包含对应于测试变体的基因座的基因座;
基于比较来验证变体的状态。
实施方案70.实施方案69的方法,其中所选偶联测序读段的第一区域或第三区域与多个重叠偶联测序读段中的其他偶联测序读段的至少一部分的第二区域重叠。
实施方案71.实施方案69或70的方法,其中所选偶联测序读段的变体状态指示所选偶联测序读段的第一区域或第三区域中的变体。
实施方案72.实施方案71的方法,其中所选偶联测序读段的第二区域与多个重叠偶联测序读段中的其他偶联测序读段的至少一部分的第二区域重叠。
实施方案73.实施方案71或72所述的方法,其中所选偶联测序读段的变体状态指示所选偶联测序读段的第二区域中的变体。
实施方案74.一种用于检测测试样品中的短遗传变体的方法,包括:
根据实施方案1-25任一个生成偶联测序读段对;
将与多核苷酸的第三区域的序列相关的测序数据与多核苷酸的第三区域的预期序列的预期测序数据进行比较;和
判定多核苷酸的第二区域中存在或不存在短遗传变体。
实施方案75.实施方案74的方法,其中:
将与多核苷酸的第三区域的序列相关的测序数据与多核苷酸的第三区域的预期测序数据进行比较,其包括确定指示针对多核苷酸的第三区域生成的测序数据与多核苷酸的第三区域的预期测序数据匹配的可能性的匹配分数;和
判定多核苷酸的第二区域中存在或不存在短遗传变体,包括使用所确定的匹配分数。
实施方案76.实施方案74或75的方法,其中通过计算机上的多核苷酸的第三区域的测序和预期序列获得多核苷酸的第三区域的预期测序数据。
实施方案77.实施方案1-76任一个的方法,其中与第一区域的序列相关的测序数据或与第三区域的序列相关的测序数据包含表示碱基计数的流动信号,所述碱基计数指示在多个流动位置内的每个流动位置处整合的碱基数。
实施方案78.实施方案77的方法,其中所述流动信号包含指示每个流动位置处的至少一个碱基计数的碱基计数可能性的统计参数。
实施方案79.实施方案78的方法,其中所述流动信号包含指示每个流动位置处的多个碱基计数的碱基计数可能性的统计参数。
实施方案80.实施方案75或76的方法,其中:
与第三区域的序列相关的测序数据包括表示碱基计数的流动信号,所述碱基计数指示在多个流动位置内的每个流动位置处整合的碱基数,其中流动信号包含指示多个碱基计数的碱基计数可能性的统计参数;和
该方法还包括选择测序数据中的每个流动位置处的统计参数,其对应于该流动位置处的预期序列的碱基计数,并确定指示测序数据集与预期序列匹配的可能性的匹配分数。
实施方案81.实施方案80的方法,其中匹配分数是测序数据中跨流动位置的所选统计参数的组合值。
实施方案82.实施方案1-81任一个的方法,其中流动循环顺序包括以相同顺序重复的4个单独的流。
实施方案83.实施方案1-81任一个的方法,其中流动循环顺序包括5个或更多个单独的流。
实施方案84.实施方案1-83任一个的方法,其中生成所述偶联测序读段对还包括:
使用以第四区域流动顺序提供的核苷酸进一步将引物延伸通过第四区域,其中(i)将引物延伸通过第四区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在,(ii)在第四区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物延伸通过第四区域比引物延伸通过第一区域或第三区域更快地进行;和
通过使用标记的核苷酸将延伸通过第四区域的引物进一步延伸,并检测整合的标记的核苷酸存在或不存在,生成与所述多核苷酸的第五区域的序列相关的测序数据。
实施方案85.实施方案84所述的方法,还包括将第五区域的测序数据与第一区域的测序数据或第三区域的测序数据相关联。
实施方案86.实施方案1-85任一个的方法,其中使用滚环扩增来扩增多核苷酸。
实施方案87.一种检测测试样品中的短遗传变体的方法,包括:
(a)使用滚环扩增(RCA)扩增多核苷酸以生成至少包含所述多核苷酸的第一拷贝和多核苷酸的第二拷贝的RCA扩增的多核苷酸;
(b)使RCA扩增的多核苷酸与引物杂交以形成杂交模板;
(c)通过使用标记的核苷酸延伸引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第一拷贝内的多核苷酸的第一区域的序列相关的测序数据;
(d)使用以第二区域流动顺序提供的核苷酸使引物进一步延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,其中(i)将引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,而不检测整合到延伸引物中的核苷酸的标记存在或不存在,(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域比引物延伸通过第一区域更快地进行;
(e)通过使用标记的核苷酸进一步延伸引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据;
(f)将针对多核苷酸的第三区域生成的测序数据与针对多核苷酸的第三区域的预期序列预期的测序数据进行比较;
(g)判定多核苷酸的第二区域中短遗传变体的存在;
(h)通过使用标记的核苷酸延伸引物,并检测整合的标记核苷酸的存在或不存在,生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据;和
(i)判定多核苷酸的第二区域中的短遗传变体的身份。
实施方案88.实施方案87的方法,其中引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域比引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第一区域进行得更快。
实施方案89.一种检测测试样品中的短遗传变体的方法,包括:
(a)使用滚环扩增(RCA)扩增多核苷酸以生成至少包含多核苷酸的第一拷贝和多核苷酸的第二拷贝的RCA扩增的多核苷酸;
(b)使引物与多核苷酸的第一拷贝内的多核苷酸的第一区域杂交以形成杂交模板;
(c)使用以第二区域流动顺序提供的核苷酸使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,其中(i)将引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,而不检测整合到延伸引物中的核苷酸的标记存在或不存在,或(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物;
(d)通过使用标记的核苷酸进一步延伸引物,并检测整合的标记的核苷酸存在或不存在,以生成与多核苷酸的第三区域的序列相关的测序数据;
(e)将针对多核苷酸的第三区域生成的测序数据与针对多核苷酸的第三区域的预期序列预期的测序数据进行比较;
(f)判定多核苷酸的第二区域中短遗传变体的存在;
(g)通过使用标记的核苷酸延伸引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据;和
(h)判定多核苷酸的第二区域中的短遗传变体的身份。
实施方案90.实施方案89的方法,其中第一区域包含由引物靶向的天然存在的序列。
实施方案91.实施方案87-90任一个的方法,其中基于判定多核苷酸的第二区域中短遗传变体的存在,动态地生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据。
实施方案92.实施方案87-91任一个的方法,其中将引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,而不检测整合到延伸引物中的核苷酸的标记存在或不存在。
实施方案93.实施方案87-92任一个的方法,其中用于使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域的核苷酸的至少一部分是未标记的核苷酸。
实施方案94.实施方案87-92任一个的方法,其中用于使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域的核苷酸是未标记的核苷酸。
实施方案95.实施方案87-94任一个的方法,其中在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物。
实施方案96.实施方案87-95任一个的方法,其中在第二区域流动顺序的至少一个步骤中使用三种不同类型的核苷酸碱基的混合物。
实施方案97.一种使测序簇内的测序引物同步的方法,包括:
(a)使引物与测序簇内的多核苷酸拷贝杂交;
(b)根据第一区域流动循环使用标记的核苷酸将引物延伸通过多核苷酸拷贝的第一区域;
(c)使用一个或多个重定相流动使引物延伸通过多核苷酸拷贝的第二区域,其中在一个或多个重定相流动中的至少一个中使用至少两种不同类型的核苷酸碱基的混合物;和
(d)根据第三区域流动循环使用标记的核苷酸将引物延伸通过多核苷酸拷贝的第三区域。
实施方案98.实施方案97的方法,其中在一个或多个重定相流动中的至少一个中使用三种不同类型的核苷酸碱基的混合物。
实施方案99.实施方案97或98的方法,其中一个或多个重定相流动包括四个或更多个流动步骤。
实施方案100.实施方案99的方法,其中,所述一个或多个重定相流动以任何顺序包括:
(i)包括包含A、C和G核苷酸并省略T核苷酸的混合物的第一流动;
(ii)包括包含T、C和G核苷酸并省略A核苷酸的混合物的第二流动;
(iii)包括包含T、A和G核苷酸并省略C核苷酸的混合物的第三流动;和
(iv)包括包含T、A和C核苷酸并省略G核苷酸的混合物的第四流动。
实施方案101.实施方案97-100任一个的方法,包括通过在将引物延伸通过第一区域的同时检测整合的标记的核苷酸存在或不存在来生成与第一区域的序列相关的测序数据。
实施方案102.实施方案97-101任一个的方法,包括通过在将引物延伸通过第三区域的同时检测整合的标记的核苷酸存在或不存来生成与第三区域的序列相关的测序数据。
实施方案103.一种系统,包括:
一个或多个处理器;和
非暂时性存储介质,其包含一个或多个程序,所述一个或多个程序可由一个或多个处理器来执行以:
接收与一个或多个偶联测序读段相关的信息;和
执行实施方案26-52和57-86任一个的方法。
实施方案104.实施方案103的系统,其中根据实施方案1-25、53-56和87-96任一个的方法生成一个或多个偶联测序读段。
实施例
通过参考作为本申请的示例性实施方案提供的以下非限制性实施例,可以更好地理解本申请。提供以下实施例是为了更全面地说明实施方案,然而决不应被解释为限制本申请的广泛范围。虽然本文已经显示和描述了本申请的某些实施方案,显而易见的是这些实施方案仅以示例的方式提供。在不脱离本发明的精神和范围的情况下,本领域技术人员可以想到许多变化、改变和替换。应当理解,本文所述的实施方案的各种替代方案可用于实践本文所述的方法。
实施例1
使用包括快进区域的流动测序方法,并再次使用标准流动测序方法(即,其不包括快进区),对具有262个碱基的核酸构建体进行测序。将多核苷酸连接接头(adapter)序列并栓系至珠球,将其扩增并与测序表面缔合。将测序引物与接头序列内的杂交区域杂交,这允许启动流动测序方法。在第一种方法中,通过使用单一类型的荧光标记的非终止核苷酸的交替流动延伸测序引物来对62个碱基进行测序,并且使用荧光检测器确定每个步骤后的核苷酸整合。将接下来的177个碱基暴露于未标记的非终止核苷酸的交替流动,其中每个流动存在四种核苷酸中的三种(即,“快进”模式)以允许引物延伸通过第二区域。在引物延伸通过“暗的”(即,未检测整合的核苷酸)第二区域后,对另外23个碱基进行测序,使单一类型的荧光标记的非终止核苷酸交替流动,并且使用荧光检测器确定每个步骤后的核苷酸整合。结果显示在图19A中,其显示了水平通道上的流动步骤数和垂直通道中的测序信号(即,归一化的荧光信号)的测量。该方法产生了遵循快进机制的高质量测序数据。
在标准流动测序方法中对相同的262个碱基的构建体进行完整测序,而没有中间的快进方案。即,交替流动单一类型的荧光标记的非终止核苷酸,对全部262个碱基进行测序,并使用荧光检测器确定每个步骤后的核苷酸整合。结果显示在图19B中,其省略了来自相应177个碱基区域的数据以压缩该图。
使用快进流动测序方法比使用标准流动测序方法,测序构建体更快地前进。可以将来自多核苷酸两端的测序数据相关联以生成偶联测序读段对并进行分析。
实施例2
在这个实施例中描述了SEQ ID NO:4内变体的检测(相对于参考序列SEQ ID NO:1,在碱基位置15处具有C→G单核苷酸多态性变体)。通过将引物与SEQ ID NO:4的5'端的杂交序列杂交,并使用流动测序方法延伸引物,可以生成SEQ ID NO:4的偶联测序读段对。在这个实施例中,使用5个循环,其中循环1用于将引物延伸通过第一区域,循环2和循环3用于将引物延伸通过第二区域,且循环4和循环5用于延伸引物通过第三区域。循环1、循环4和循环5使用标记的核苷酸来延伸引物,并且在每个循环步骤后检测核苷酸向引物中的整合。相反,在循环2和循环3期间,核苷酸整合到引物中可以被略过。每个循环具有4个步骤,其中循环1、4和5包括A-C-T-G标记的核苷酸的顺序和独立添加,其中在每个循环步骤添加单一碱基类型,并且在每个步骤后检测标记的核苷酸的整合。循环2和循环3以“快进”模式实施,并且包括4个循环步骤,其中步骤1省略A核苷酸(即,包括C、T和G),步骤2省略C核苷酸(即,包括A、T和G),步骤3省略T核苷酸(即,包括A、C和G),并且步骤4省略G核苷酸(即,包括A、C和T)。在循环2和循环3的快进模式期间未检测核苷酸整合。因为循环2和3在引物延伸期间同时包括多种不同的核苷酸碱基类型,所以与在任何给定步骤中仅使用单一碱基类型相比,引物延伸得更快。SEQ ID NO:1(参考序列)和SEQ ID NO:4(SNP序列)的流动图显示于表6中。测序数据指示SEQ ID NO:1的第三区域(循环4和循环5)是3'-CTGAC-5'(SEQ ID NO:5),并且SEQ ID NO:4的第三区域(循环4和循环5)是3'-CCTGC-5'(SEQ ID NO:7)。SEQ ID NO:1和SEQ ID NO:4之间的测序数据之间的差异指示第二区域内变体的存在。
Figure BDA0003452187140000711
Figure BDA0003452187140000721
Figure BDA0003452187140000731
Figure BDA0003452187140000741
实施例3
在这个实施例中描述了SEQ ID NO:8内变体的检测(其包括相对于参考序列SEQID NO:1在碱基位置23后的ATC插入)。可以使用包括通过第二区域的快进部分的流动测序方法针对SEQ ID NO:1和SEQ ID NO:8生成偶联测序读段对。在这个实施例中,使用5个循环,其中循环1用于将引物延伸通过第一区域,循环2和循环3用于将引物延伸通过第二区域,而循环4和循环5用于将引物延伸通过第三区域。循环1、循环4和循环5使用标记的核苷酸来延伸引物,并且在每个循环步骤后检测核苷酸向引物中的整合。相反,在循环2和循环3期间,核苷酸整合到引物中可以被略过。每个循环具有4个步骤,其中循环1、4和5包括A-C-T-G标记的核苷酸的顺序和独立添加,其中在每个循环步骤添加单一碱基类型,并且在每个步骤后检测标记的核苷酸的整合。循环2和循环3以“快进”模式实施,并且包括4个循环步骤,其中步骤1省略A核苷酸(即,包括C、T和G),步骤2省略C核苷酸(即,包括A、T和G),步骤3省略T核苷酸(即,包括A、C和G),并且步骤4省略G核苷酸(即,包括A、C和T)。在循环2和循环3的快进模式期间未检测核苷酸整合。因为循环2和3在引物延伸期间同时包括多种不同的核苷酸碱基类型,所以与在任何给定步骤中仅使用单一碱基类型相比,引物延伸得更快。SEQID NO:1(参考序列)和SEQ ID NO:8的流动图显示于表7中。测序数据指示SEQ ID NO:1的第三区域(循环4和循环5)是3'-CTGAC-5'(SEQ ID NO:5),并且SEQ ID NO:8的第三区域(循环4和循环5)是3'-AC-5'。SEQ ID NO:1和SEQ ID NO:8之间的测序数据之间的差异表明第二区域内存在变体。
实施例4
在这个实施例中描述了SEQ ID NO:9内变体(其相对于参考序列SEQ ID NO:1包括在碱基位置17后的GCCTGCA(SEQ ID NO:13)碱基的缺失)的检测。可以使用包括通过第二区域的快进部分的流动测序方法针对SEQ ID NO:1和SEQ ID NO:9生成偶联测序读段对。在这个实施例中,使用5个循环,其中循环1用于将引物延伸通过第一区域,循环2和循环3用于将引物延伸通过第二区域,并且循环4和循环5用于将引物延伸通过第三区域。循环1、循环4和循环5使用标记的核苷酸来延伸引物,并且在每个循环步骤后检测核苷酸向引物中的整合。相反,在循环2和循环3期间,核苷酸整合到引物中可以被略过。每个循环具有4个步骤,其中循环1、4和5包括A-C-T-G标记的核苷酸的顺序和独立添加,其中在每个循环步骤添加单一碱基类型,并且在每个步骤后检测标记的核苷酸的整合。循环2和循环3以“快进”模式实施,并且包括4个循环步骤,其中步骤1省略A核苷酸(即,包括C、T和G),步骤2省略C核苷酸(即,包括A、T和G),步骤3省略T核苷酸(即,包括A、C和G),并且步骤4省略G核苷酸(即,包括A、C和T)。在循环2和循环3的快进模式期间未检测核苷酸整合。因为循环2和3在引物延伸期间同时包括多种不同的核苷酸碱基类型,所以与在任何给定步骤中仅使用单一碱基类型相比,引物延伸得更快。SEQ ID NO:1(参考序列)和SEQ ID NO:9的流动图显示于表8中。测序数据指示SEQ ID NO:1的第三区域(循环4和循环5)是3'-CTGAC-5'(SEQ ID NO:5),并且SEQ IDNO:9的第三区域(循环4和循环5)是3'-AC-5'。SEQ ID NO:1和SEQ ID NO:8之间的测序数据之间的差异表明第二区域内存在变体。
实施例5
在这个实施例中描述了SEQ ID NO:12内变体的检测(其相对于参考序列SEQ IDNO:1包括在碱基位置17后的碱基GCCTGCA(SEQ ID NO:13)的倒位)。可以使用包括通过第二区域的快进部分的流动测序方法针对SEQ ID NO:1和SEQ ID NO:12生成偶联测序读段对。在这个实施例中,使用5个循环,其中循环1用于将引物延伸通过第一区域,循环2和循环3用于将引物延伸通过第二区域,并且循环4和循环5用于将引物延伸通过第三区域。循环1、循环4和循环5使用标记的核苷酸来延伸引物,并且在每个循环步骤后检测核苷酸向引物中的整合。相反,在循环2和循环3期间,核苷酸整合到引物中可以被略过。每个循环具有4个步骤,其中循环1、4和5包括A-C-T-G标记的核苷酸的顺序和独立添加,其中在每个循环步骤添加单一碱基类型,并且在每个步骤后检测标记的核苷酸的整合。循环2和循环3以“快进”模式实施,并且包括4个循环步骤,其中步骤1省略A核苷酸(即,包括C、T和G),步骤2省略C核苷酸(即,包括A、T和G),步骤3省略T核苷酸(即,包括A、C和G),并且步骤4省略G核苷酸(即,包括A、C和T)。在循环2和循环3的快进模式期间未检测核苷酸整合。因为循环2和3在引物延伸期间同时包括多种不同的核苷酸碱基类型,所以与在任何给定步骤中仅使用单一碱基类型相比,引物延伸得更快。SEQ ID NO:1(参考序列)和SEQ ID NO:12的流动图显示于表9中。测序数据指示SEQ ID NO:1的第三区域(循环4和循环5)是3'-CTGAC-5'(SEQ ID NO:5),并且SEQ ID NO:12的第三区域(循环4和循环5)是3'-G-5'。SEQ ID NO:1和SEQ ID NO:12之间的测序数据之间的差异表明第二区域内存在变体。
实施例6
边合成边测序方法通常不完全将核苷酸整合到延伸引物中。随着时间的推移,在测序簇内,引物可能变得不同步,引起信号衰减和进行碱基整合判定的置信度降低。通过假设具有10,000个相同模板链的测序簇,并使用假设A-C-T-G流动顺序的非终止核苷酸对模板链进行测序来模拟测序簇内的引物失同步化,其中每个流动具有单个核苷酸。整合失败的概率(即,模板指示核苷酸应当已整合时,核苷酸未整合到延伸引物链中)设定为0.5%。图20A显示了在100个流动步骤后在每个读段碱基处延伸的引物(链)的数量,其中第100个流动具有G非终止核苷酸。测序簇包括了与领先(leading)测序引物杂交的模板,其中G核苷酸整合到延伸引物中,使得下一个预期整合的核苷酸是A;与第一滞后(lagging)引物杂交的模板,其中G核苷酸整合到延伸引物中,使得下一个预期整合的核苷酸是C;以及与第二滞后引物杂交的模板,没有核苷酸从第100个流动整合到延伸引物中。第一滞后引物和第二滞后引物代表的是在测序过程期间的某个点将预期的核苷酸整合到延伸引物中而失败的引物。
使用同步化流动顺序模拟使用重定相流动顺序的延伸引物的同步化。在流动101,使用G、C和A非终止核苷酸的混合物延伸引物(图20B),其延伸第一和第二滞后引物直至与领先引物同步。因为流动101不包含T核苷酸,所以它不进一步延伸。模拟的同步化流动顺序继续流动102,其具有G、C和T非终止核苷酸的混合物(图20C)、流动103,其具有G、T和A非末端核苷酸的混合物(图20D);流动104,其具有T、A和C非终止核苷酸的混合物(图20E)。
如图21A-21E和图22A-22E所示的,使用附加序列测试模拟的同步化流动顺序。使用同步化流动顺序和不同的模板序列进行其他成功的模拟。
实施例7
在计算机上测试了多于一百万个扩展的测序流动顺序,以确定它们在所有可能的SNP的集合(XYZ→XQZ,其中Q≠Y(并且Q、X、Y和Z各自是A、C、G和T中的任何一个))上在多于两个流动位置处诱导信号变化的可能性。扩展的流动顺序设计为具有最少12个碱基序列,具有所有有效的2-碱基流动排列,并且去除具有顺序碱基重复的流动顺序。测试了针对流动顺序的所有可能的起始位置,以评估扩展流动顺序在多于两个流动位置处诱导信号变化的灵敏度。图23和表4显示了这个分析的示例性结果。在图23中,x轴指示流动相(或片段化起始位置)的分数,并且y轴指示在多于两个流动位置处诱导信号变化的SNP排列的分数。对于大约10%的读段(或流动起始位置),几种流动顺序在所有可能的(87.5%)SNP排列处诱导两个或更多个信号差异。四碱基周期性流动仅在42%的可能SNP中诱导循环移位,但它对所有读段或流动相都如此。针对人类参考基因组的百万读段子集进行效率的最终评估以确立可行性。这是在实际组织中给定模式和偏置的情况下,流动顺序如何有效地扩展序列的实际测量。
实施例8
为了测试快进测序检测SNP的灵敏度,通过计算机模拟了测序方法,对hg 38参考基因组内的大约1.14万个合成核酸分子进行测序,每个合成核酸分子是参考基因组内具有随机起始点的2千碱基片段。生成来自每个合成测序读段的502bp区段,并且查询在~502bp区段内的每个碱基处查询的所有三种可能的单碱基突变(即,总共500×~1.14M×3个可能的变体(即,ABC→ADC,其中B≠D))用于SNP检测。对于每种SNP变体ABC→ADC,当(A=B和D=C)或(A=D和B=C)时,认为SNP是不可检测的,因为任一种SNP都不会在流动图中生成新的零或新的非零信号。图24中显示了变体碱基对参考碱基检测灵敏度的矩阵。
然后使用四步流动循环对合成核酸分子进行计算机测序,其中每个流动在中间(第二)区域包括三种核苷酸的混合物。根据四步流动循环使用80个核苷酸流对合成的核酸分子的第一区域进行测序,其中每个步骤包括单核苷酸碱基类型。测序引物在第一区域中的80个流动中延伸54±7个碱基(每个流动~0.675个碱基)。根据四步流动循环使用200个核苷酸对合成核酸分子的第二区域进行测序,其中每个步骤包括三种核苷酸碱基类型并且省略一种核苷酸碱基类型(即,(i)A、C、T,且无G;(ii)G、A、C,且无T;(iii)T、G、A,且无C;和(iv)C、T、G,且无A)。测序引物在第二区域中的200个流动中延伸915±89个碱基(每个流动~4.575个碱基)。根据四步流动循环使用80个核苷酸流对合成的核酸分子的第三区域进行测序,其中每个步骤包括单核苷酸碱基类型。测序引物在第三区域中的80个流动中延伸54±7个碱基(每个流动~0.675个碱基)。将每个合成的变体核酸分子的第三(下游)区域的流动图与相应的合成野生型核酸分子的第三区域的流动图进行比较。与相应的合成野生型核酸分子相比,合成变体核酸分子的第三区域中的新的非零流动图条目和/或新的零流动图条目表明检测到引入第二区域中的SNP。图25A显示了第一、第二和第三区域中跨流动的平均碱基整合。图25B显示了变体碱基对参考碱基检测灵敏度的矩阵。图25C显示了合成读段中碱基覆盖率的分布。
实施例9
使用模拟测序方法学研究了使用具有两种或三种不同核苷酸碱基的混合物的重定相流动步骤的重定相效果。
通过从人基因组随机起始位点选择产生约10,000个合成测序读段,每个长度为600bp。在对照组中,使用105轮T-G-C-A流动循环(420个总流动)通过对合成测序读段进行计算机测序来生成模拟流动图。滞后定相的概率(即,模板指示核苷酸应该整合每个正确整合的核苷酸时未整合到延伸引物链中的核苷酸的分数)设定为0.2%,并且超前定相的概率(即,其中每个流动后将额外核苷酸整合到延伸引物中的测序读段的分数)设定为0.5%。对照组的平均读段长度为322bp±18bp。
在一系列测试组中,使用105轮T-G-C-A流动循环(总共420个流动)通过对合成的测序读数进行计算机测序来产生模拟流动图,不同之处在于以下条件之一:(1)在每第24个流动后,插入含有C和G的混合物的重定相流动(图26A);(2)在每第48个流动后,插入含有C和G的混合物的重定相流动(图26B);(3)在每第96个流动后,插入含有C和G的混合物的重定相流动(图26C);(4)在每第192个流动之后,插入含有C和G的混合物的重定相流动(图26D);(5)在每第48个流动之后,插入含有C、G和T的混合物的重定相流动,随后是单个A流动(以避免冗余流动),然后根据对照方案恢复回到T-G-C-A循环(图26E);(6)在每第96个流动后,插入含有C、G和T的混合物的重定相流动,随后是单个A流动(以避免冗余流动),然后根据对照方案恢复回到T-G-C-A循环(图26F);(7)在每第96个流动后,插入含有C、G和T的混合物的重定相流动,然后插入含有A、C和G的混合物的重定相流动(图26G);(8)在每第192个流动后,插入含有C、G和T的混合物的重定相流动,然后插入含有A、C和G的混合物的重定相流动(图26H);(9)在每第96个流动后,插入含有C、G和T的混合物的重定相流动,接着插入含有A、C和T的混合物的重定相流动,接着插入含有A、G和T的混合物的重定相流动,接着插入含有A、C和G的混合物的重定相流动(图26I);或(10)在每第192个流动后,插入含有C、G和T的混合物的重定相流动,然后插入含有A、C和T的混合物的重定相流动,然后插入含有A、G和T的混合物的重定相流动,然后插入含有A、C和G的混合物的重定相流动(图26J)。
与对照相比,在全轮计算机测序后,使用任何测试的重定相流动都带来总定相误差(即,相对于没有引入滞后或超前误差的标称测序链,具有滞后定相误差的链的分数和具有超前定相误差的链的分数的总和)显著降低,测序数据的损失最小。图26A-26J显示了对于对照方案和每个相应的重定相流动方案,总定相误差之和的分布。在每第24个流动后使用包含C和G的混合物的重定相流动将平均总累积定相误差减小到31.2±9.6%(与51.5±1.3%对照相比)(图26A),在每第48个流动后,平均总累积定相误差减小到36.9±9.7%(图26B),在每第96个流动后,平均总累积定相误差减小到40.2±10.1%(图26C),并且在每192个流动后,平均总累积定相误差减小到42.8±10.4%(图26D),同时每个重定相流动仅产生~1bp的平均引物延伸(即,测序间隙)。在每第48个流动后使用含有C、G和T的混合物的重定相流动将平均总累积定相误差减小到28.5±10.6%(图26E),并且在每第96个流动后将平均总累积定相误差减小到31.1±12.2%(图26F),同时每个重定相流动仅产生~5bp的平均引物延伸。在每第96个流动后使用包含C、G和T的混合物的第一重定相流动和包含A、C和G的混合物的第二重定相流动将平均总累积定相误差减小到25.3±10.6%(图26G),并且在每192个流动后,将平均总累积定相误差减小到26.6±12.6%(图26H),而每个重定相双联体流动仅产生~9bp平均引物延伸。使用包含C、G和T的混合物的第一重定相流动、包含A、C和T的混合物的第二重定相流动、包含A、G和T的混合物的第三重定相流动以及在每第96个流动后包含A、C和G的混合物的第四重定相流动将平均总累积定相误差减小到20.6±9.4%(图26I),并且在每192个流动后,平均总累积相位误差减小到20.9±11.2%(图26J),而每个重定相四联体流动仅产生~18bp的平均引物延伸。
Figure IDA0003452187200000011
Figure IDA0003452187200000021
Figure IDA0003452187200000031
Figure IDA0003452187200000041
Figure IDA0003452187200000051
Figure IDA0003452187200000061

Claims (71)

1.一种从多核苷酸生成偶联测序读段对的方法,包括:
(a)使多核苷酸与引物杂交以形成杂交模板;
(b)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸的存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;
(c)使用以第二区域流动顺序中提供的核苷酸将步骤(b)中延伸的引物进一步延伸通过第二区域,其中(i)引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记的存在或不存在;(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物通过第二区域的延伸比步骤(b)中引物的延伸进行得更快;和
(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。
2.权利要求1的方法,其中引物通过第二区域的延伸比引物通过第一区域的延伸进行得更快。
3.权利要求1或2的方法,还包括将第一区域的测序数据与第三区域的测序数据相关联。
4.一种从多核苷酸生成偶联测序读段对的方法,包括:
(a)使引物与多核苷酸的第一区域的一部分杂交以形成杂交模板;
(b)通过使用第二区域流动顺序中提供的核苷酸将引物延伸通过第二区域,其中(i)将引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记的存在或不存在,或(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物;和
(c)通过使用标记的核苷酸进一步延伸步骤(b)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据。
5.权利要求4的方法,其中第一区域包含由引物靶向的天然存在的序列。
6.权利要求1-5任一项的方法,其中引物延伸通过第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在。
7.权利要求1-6任一项的方法,其中用于使引物延伸通过第二区域的核苷酸的至少一部分是未标记的核苷酸。
8.权利要求1-6任一项的方法,其中用于使引物延伸通过第二区域的核苷酸是未标记的核苷酸。
9.权利要求1-8任一项的方法,其中在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物。
10.权利要求1-9任一项的方法,其中第二区域流动顺序包含五个或更多个核苷酸流。
11.权利要求10任一项的方法,其中核苷酸流中的每一个包含单个核苷酸碱基。
12.权利要求10或11的方法,其中对于在5%或更多的随机测序起始位置处的50%或更多的可能SNP排列,第二区域流动顺序在多于两个流动位置处诱导信号变化。
13.权利要求10-12任一项的方法,其中第二区域流动顺序具有每个流动整合0.6个或更多个碱基的效率。
14.权利要求1-13任一项的方法,还包括使用参考序列和第二区域流动顺序确定第二区域的预期测序数据。
15.权利要求1-14任一项的方法,其中使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域,该方法还包括使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列来确定第三区域的预期测序数据。
16.权利要求15的方法,其中第三区域流动顺序包含五个或更多个核苷酸流。
17.权利要求16的方法,其中核苷酸流中的每一个包含单个核苷酸碱基。
18.权利要求16或17的方法,其中对于5%或更多的随机测序起始位置处的50%或更多的可能SNP排列,第三区域流动顺序在多于两个流动位置处诱导信号变化。
19.权利要求16-18中任一项的方法,其中第二区域流动顺序具有每个流动整合0.6个或更多个碱基的效率。
20.权利要求1-19中任一项的方法,其中使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域,该方法还包括使用第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及与第三区域的序列相关的测序数据来确定第三区域的预期测序数据,其中与第三区域的序列相关的测序数据是相同或不同的针对第三区域生成的测序数据。
21.权利要求14-20中任一项的方法,其中第二区域或第三区域的预期参考数据包括二进制或非二进制流动图。
22.权利要求14-21中任一项的方法,还包括使用第二区域流动顺序和第二区域的第二参考序列确定第二区域的预期测试变体测序数据,其中第二参考序列包含测试变体。
23.权利要求22的方法,其中使用以第三区域流动顺序中提供的核苷酸将引物延伸通过第三区域,该方法还包括使用第二区域的第二参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列确定第三区域的预期测试变体测序数据。
24.权利要求22的方法,其中使用以第三区域流动顺序中提供的核苷酸将引物延伸通过第三区域,该方法还包括使用第二区域的第二参考序列、第二区域流动顺序、第三区域流动顺序以及与第三区域的序列相关的测序数据确定第三区域的预期测试变体测序数据,其中与第三区域的序列相关的测序数据是相同或不同的针对第三区域生成的测序数据。
25.权利要求22-24任一项的方法,其中第二区域或第三区域的预期参考测序数据包括二进制或非二进制流动图。
26.一种将偶联测序读段对映射到参考序列的方法,包括:
将根据权利要求1-25任一项的方法生成的偶联测序读段对的第一区域或其部分,或第三区域或其部分映射到参考序列;和
使用指示所述第二区域长度的距离信息将未映射的第一区域或其部分,或未映射的第三区域或其部分映射到参考序列。
27.一种检测结构变体的方法,包括:
将根据权利要求1-25任一项的方法生成的偶联测序读段对的第一区域或其部分或第三区域或其部分映射到参考序列;
使用指示第二区域长度的距离信息,确定未映射的第一区域或其部分或未映射的第三区域或其部分的参考序列内的预期基因座;
基于参考序列确定预期基因座处的序列的预期测序数据;和
通过将未映射的第一区域或其部分或未映射的第三区域或其部分的测序数据与预期测序数据进行比较来检测结构变体,其中未映射的第一区域或其部分或未映射的第三区域或其部分的测序数据与预期测序数据之间的差异指示结构变体。
28.一种检测结构变体的方法,包括:
将根据权利要求1-25任一项的方法生成的偶联测序读段对的第一区域或其部分或第三区域或其部分映射到参考序列,其中未映射的第一区域或未映射的第三区域在参考序列内是不可映射的。
29.一种检测结构变体的方法,包括:
将根据实施方案1-25任一个的方法生成的偶联测序读段对的第一区域或其部分和第三区域或其部分映射到参考序列;
确定映射的第一区域和映射的第三区域之间的映射距离信息;和
通过将映射的距离信息与第二区域的预期距离信息进行比较来检测结构变体,其中映射的距离信息与预期的距离信息之间的差异指示结构变体。
30.权利要求27-29任一项的方法,其中结构变体是染色体融合、倒位、插入或缺失。
31.权利要求27-30任一项的方法,其中变体是第二区域内的插入或缺失。
32.一种将偶联测序读段对映射到参考序列的方法,包括:
将根据权利要求1-25任一项的方法生成的偶联测序读段对的第一区域或其部分和第三区域或其部分映射到包含第一位置和第二位置的两个或更多个不同位置对处的参考序列;和
对于所述两个或更多个位置对,使用指示第二区域长度的第一距离信息和指示第一位置与第二位置之间的距离的第二距离信息来选择正确的位置对。
33.一种检测根据权利要求1-25任一项生成的偶联测序读段对的两个测序区域之间的变体的方法,其中使用以第三区域流动顺序提供的核苷酸将延伸的引物延伸通过第三区域,包括:
将第一区域或其部分映射到参考序列;
使用(1)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序和第三区域的参考序列,或(2)第二区域的参考序列、第二区域流动顺序、第三区域流动顺序以及生成的与第三区域的序列相关的测序数据,来确定第三区域或其部分的预期序列数据,其中生成的与第三区域的序列相关的序列数据是相同或不同的针对第三区域生成的序列数据;和
通过将第三区域的预期测序数据与生成的与第三区域的序列相关的测序数据进行比较来检测变体的存在。
34.权利要求33的方法,其中变体是结构变体。
35.权利要求34的方法,其中结构变体是染色体融合、倒位、插入或缺失。
36.权利要求33的方法,其中变体是单核苷酸多态性(SNP)。
37.权利要求33-36任一项的方法,其中将该方法用于检测测试变体,并且参考序列包括测试变体。
38.权利要求37的方法,其中通过鉴定第二多核苷酸内的测试变体来选择测试变体。
39.权利要求37或38的方法,包括将检测的整合变体与多核苷酸的第一区域或第三区域中测序的等位基因相关联。
40.一种生成用于检测多核苷酸未测序区域中碱基颠换存在的偶联测序读段对的方法,包括:
(a)将多核苷酸与引物杂交以形成杂交模板;
(b)通过使用标记的核苷酸延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第一区域的序列相关的测序数据;
(c)使用包含(1)胞嘧啶和胸腺嘧啶以及(2)腺嘌呤和鸟嘌呤的交替核苷酸对的流动顺序进一步延伸步骤(b)中延伸的引物通过第二区域;和
(d)通过使用标记的核苷酸进一步延伸步骤(c)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,来生成与多核苷酸的第三区域的序列相关的测序数据。
41.一种从多核苷酸生成偶联测序读段对的方法,包括:
(a)将引物与多核苷酸的第一区域杂交以形成杂交模板;
(b)使用包含(1)胞嘧啶和胸腺嘧啶以及(2)腺嘌呤和鸟嘌呤的交替核苷酸对的流动顺序将引物延伸通过第二区域;和
(c)通过使用标记的核苷酸进一步延伸步骤(b)中延伸的引物,并检测整合的标记的核苷酸存在或不存在,来生成与多核苷酸的第三区域的序列相关的测序数据。
42.权利要求41的方法,其中第一区域包括由引物靶向的天然存在的序列。
43.权利要求41或42的方法,其中引物延伸通过第二区域,而不检测整合到延伸引物中的核苷酸的标记存在或不存在。
44.一种检测多核苷酸的未测序区域中碱基颠换存在的方法,包括:
将根据权利要求41-43任一项生成的偶联测序读段对的第一区域或其部分和第三区域或其部分映射到参考序列,其中使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域;
使用第二区域流动顺序、第三区域流动顺序和参考序列来确定第三区域的预期测序数据;和
基于第三区域的预期测序数据与生成的第三区域的测序数据之间的差异检测碱基颠换的存在。
45.权利要求44的方法,其中使用第二区域流动顺序、第三区域流动顺序和第二区域的参考序列和第三区域的参考序列来确定第三区域的预期测序数据。
46.权利要求44的方法,其中使用第二区域流动顺序、第三区域流动顺序和第二区域的参考序列以及生成的与第三区域的序列相关的序列数据来确定第三区域的预期测序数据,其中生成的与第三区域的序列相关的序列数据是相同或不同的针对第三区域生成的序列数据。
47.权利要求44-46任一项的方法,其中第三区域的预期测序数据包括二进制或非二进制流程图。
48.一种生成一个或多个共有序列的方法,包括组装根据权利要求1-25任一项生成的多个偶联测序读段对。
49.权利要求48的方法,还包括使用与所选的共有序列的一部分相关的所选的偶联测序读段来验证选自一个或多个共有序列的共有序列的部分,其中当生成所选的偶联测序读段时,使用以第三区域流动顺序提供的核苷酸将引物延伸通过第三区域,所述验证包括:
使用第二区域流动顺序、第三区域流动顺序和所选的共有序列的部分来确定所选的偶联测序读段的第三区域的预期测序数据;和
通过将所选的偶联测序读段的第三区域的预期测序数据与生成的第三区域的测序数据进行比较来验证所选的共有序列的部分。
50.一种验证测试变体状态的方法,包括:
在根据权利要求1-25任一项生成的多个重叠的偶联测序读段对上比较变体状态,所述多个重叠的偶联测序读段对包括对应于测试变体的基因座的基因座;
基于比较来验证变体状态。
51.一种用于检测测试样品中的短遗传变体的方法,包括:
根据权利要求1-25任一项生成偶联测序读段对;
将与多核苷酸的第三区域的序列相关的测序数据与多核苷酸的第三区域的预期序列的预期测序数据进行比较;和
判定多核苷酸的第二区域中短遗传变体的存在或不存在。
52.权利要求1-51任一项的方法,其中与第一区域的序列相关的测序数据或与第三区域的序列相关的测序数据包括表示碱基计数的流动信号,所述碱基计数指示在多个流动位置内的每个流动位置处整合的碱基数。
53.权利要求1-52任一项的方法,其中流动循环顺序包括以相同顺序重复的4个单独分开的流。
54.权利要求1-52任一项的方法,其中流动循环顺序包括5或更多个单独分开的流。
55.权利要求1-54任一项的方法,其中生成偶联测序读段对还包括:
使用以第四区域流动顺序提供的核苷酸进一步延伸引物通过第四区域,其中(i)引物延伸通过第四区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在,(ii)在第四区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物通过第四区域的延伸比引物通过第一区域或第三区域的延伸进行得更快;和
通过使用标记的核苷酸进一步延伸通过第四区域延伸的引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第五区域的序列相关的测序数据。
56.权利要求55的方法,还包括将第五区域的测序数据与第一区域的测序数据或第三区域的测序数据相关联。
57.权利要求1-56任一项的方法,其中使用滚环扩增来扩增多核苷酸。
58.一种检测测试样品中的短遗传变体的方法,包括:
(a)使用滚环扩增(RCA)扩增多核苷酸以生成至少包含所述多核苷酸的第一拷贝和多核苷酸的第二拷贝的RCA扩增的多核苷酸;
(b)使RCA扩增的多核苷酸与引物杂交以形成杂交模板;
(c)通过使用标记的核苷酸延伸引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第一拷贝内的多核苷酸的第一区域的序列相关的测序数据;
(d)使用以第二区域流动顺序提供的核苷酸使引物进一步延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,其中(i)将引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,而不检测整合到延伸引物中的核苷酸的标记存在或不存在,(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物,或(iii)引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域比引物延伸通过第一区域更快地进行;
(e)通过使用标记的核苷酸进一步延伸引物,并检测整合的标记的核苷酸存在或不存在,生成与多核苷酸的第三区域的序列相关的测序数据;
(f)将针对多核苷酸的第三区域生成的测序数据与针对多核苷酸的第三区域的预期序列预期的测序数据进行比较;
(g)判定多核苷酸的第二区域中短遗传变体的存在;
(h)通过使用标记的核苷酸延伸引物,并检测整合的标记核苷酸的存在或不存在,生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据;和
(i)判定多核苷酸的第二区域中的短遗传变体的身份。
59.权利要求58的方法,其中引物通过多核苷酸的第一拷贝内的多核苷酸的第二区域的延伸比引物通过多核苷酸的第一拷贝内的多核苷酸的第一区域的延伸进行得更快。
60.一种检测测试样品中的短遗传变体的方法,包括:
(a)使用滚环扩增(RCA)扩增多核苷酸以生成至少包含多核苷酸的第一拷贝和多核苷酸的第二拷贝的RCA扩增的多核苷酸;
(b)使引物与多核苷酸的第一拷贝内的多核苷酸的第一区域杂交以形成杂交模板;
(c)使用以第二区域流动顺序提供的核苷酸使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域,其中(i)引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在,或(ii)在第二区域流动顺序的至少一个步骤中使用至少两种不同类型的核苷酸碱基的混合物;
(d)通过使用标记的核苷酸进一步延伸引物并检测整合的标记的核苷酸存在或不存在来生成与多核苷酸的第三区域的序列相关的测序数据;
(e)将针对多核苷酸的第三区域生成的测序数据与针对多核苷酸的第三区域的预期序列的预期测序数据进行比较;
(f)判定多核苷酸的第二区域中短遗传变体的存在;
(g)通过使用标记的核苷酸延伸引物,并检测整合的标记的核苷酸存在或不存在,来生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据;和
(h)判定多核苷酸的第二区域中的短遗传变体的身份。
61.权利要求60的方法,其中第一区域包括由引物靶向的天然存在的序列。
62.权利要求58-61任一项的方法,其中基于判定多核苷酸的第二区域中短遗传变体的存在,动态地生成与多核苷酸的第二拷贝内的多核苷酸的第二区域的序列相关的测序数据。
63.权利要求58-62任一项的方法,其中引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域而不检测整合到延伸引物中的核苷酸的标记存在或不存在。
64.权利要求58-63任一项的方法,用于使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域的核苷酸的至少一部分是未标记的核苷酸。
65.权利要求58-64任一项的方法,用于使引物延伸通过多核苷酸的第一拷贝内的多核苷酸的第二区域的核苷酸是未标记的核苷酸。
66.一种使测序簇内的测序引物同步的方法,包括:
(a)使引物与测序簇内的多核苷酸拷贝杂交;
(b)根据第一区域流动循环使用标记的核苷酸将引物延伸通过多核苷酸拷贝的第一区域;
(c)使用一个或多个重定相流动使引物延伸通过多核苷酸拷贝的第二区域,其中在所述一个或多个重定相流动中的至少一个中使用至少两种不同类型的核苷酸碱基的混合物;和
(d)根据第三区域流动循环使用标记的核苷酸将引物延伸通过多核苷酸拷贝的第三区域。
67.权利要求66的方法,其中在一个或多个重定相流动中的至少一个中使用三种不同类型的核苷酸碱基的混合物。
68.权利要求66或67的方法,其中一个或多个重定相流动包括四个或更多个流动步骤。
69.权利要求68的方法,其中一个或多个重定相流动以任何顺序包括:
(i)包括包含A、C和G核苷酸并省略T核苷酸的混合物的第一流动;
(ii)包括包含T、C和G核苷酸并省略A核苷酸的混合物的第二流动;
(iii)包括包含T、A和G核苷酸并省略C核苷酸的混合物的第三流动;和
(iv)包括包含T、A和C核苷酸并省略G核苷酸的混合物的第四流动。
70.权利要求66-69任一项的方法,包括通过在将引物延伸通过第一区域的同时检测整合的标记的核苷酸存在或不存在来生成与第一区域的序列相关的测序数据。
71.权利要求66-70任一项的方法,包括通过在将引物延伸通过第三区域的同时检测整合的标记的核苷酸存在或不存来生成与第三区域的序列相关的测序数据。
CN202080048933.1A 2019-05-03 2020-05-01 通过合成方法的快进测序 Pending CN114096682A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962842534P 2019-05-03 2019-05-03
US62/842,534 2019-05-03
US201962904274P 2019-09-23 2019-09-23
US62/904,274 2019-09-23
US202062971530P 2020-02-07 2020-02-07
US62/971,530 2020-02-07
PCT/US2020/031163 WO2020227143A1 (en) 2019-05-03 2020-05-01 Fast-forward sequencing by synthesis methods

Publications (1)

Publication Number Publication Date
CN114096682A true CN114096682A (zh) 2022-02-25

Family

ID=73050882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080048933.1A Pending CN114096682A (zh) 2019-05-03 2020-05-01 通过合成方法的快进测序

Country Status (9)

Country Link
US (4) US20200377937A1 (zh)
EP (1) EP3963104A4 (zh)
JP (1) JP2022533801A (zh)
KR (1) KR20220032516A (zh)
CN (1) CN114096682A (zh)
AU (1) AU2020269377B2 (zh)
CA (1) CA3138862A1 (zh)
IL (1) IL287707A (zh)
WO (1) WO2020227143A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020227137A1 (en) 2019-05-03 2020-11-12 Ultima Genomics, Inc. Methods for detecting nucleic acid variants
CN114096682A (zh) * 2019-05-03 2022-02-25 阿尔缇玛基因组学公司 通过合成方法的快进测序
WO2021007495A1 (en) 2019-07-10 2021-01-14 Ultima Genomics, Inc. Rna sequencing methods
CA3165571C (en) 2019-12-23 2023-02-07 Singular Genomics Systems, Inc. Methods for long read sequencing
US20240018599A1 (en) * 2020-11-18 2024-01-18 Ultima Genomics, Inc. Methods and systems for detecting residual disease

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101415839A (zh) * 2006-02-08 2009-04-22 亿明达剑桥有限公司 对多核苷酸模板进行测序的方法
CN103717753A (zh) * 2011-05-27 2014-04-09 吉纳普赛斯股份有限公司 用于遗传和生物分析的系统和方法
CN103917654A (zh) * 2011-04-01 2014-07-09 桑特里莱恩科技控股公司 用于对长核酸进行测序的方法和系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5714320A (en) 1993-04-15 1998-02-03 University Of Rochester Rolling circle synthesis of oligonucleotides and amplification of select randomized circular oligonucleotides
EP3034626A1 (en) * 1997-04-01 2016-06-22 Illumina Cambridge Limited Method of nucleic acid sequencing
US8364417B2 (en) 2007-02-15 2013-01-29 454 Life Sciences Corporation System and method to correct out of phase errors in DNA sequencing data by use of a recursive algorithm
ES2626620T3 (es) 2006-02-16 2017-07-25 454 Life Sciences Corporation Sistema y método para corregir errores de extensión de cebadores en datos de secuencias de ácidos nucleicos
WO2008097887A2 (en) 2007-02-02 2008-08-14 Emory University Methods of direct genomic selection using high density oligonucleotide microarrays
US20090053724A1 (en) 2007-06-28 2009-02-26 454 Life Sciences Corporation System and method for adaptive reagent control in nucleic acid sequencing
EP2607496B1 (en) 2008-12-23 2014-07-16 Illumina, Inc. Methods useful in nucleic acid sequencing protocols
US8772473B2 (en) 2009-03-30 2014-07-08 The Regents Of The University Of California Mostly natural DNA sequencing by synthesis
US20100330569A1 (en) * 2009-04-23 2010-12-30 Intelligent Bio-Systems, Inc. Hydroxymethyl Linkers For Labeling Nucleotides
WO2011137368A2 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
US8753816B2 (en) 2010-10-26 2014-06-17 Illumina, Inc. Sequencing methods
US20130090860A1 (en) 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
WO2012138921A1 (en) 2011-04-08 2012-10-11 Life Technologies Corporation Phase-protecting reagent flow orderings for use in sequencing-by-synthesis
US20130345066A1 (en) 2012-05-09 2013-12-26 Life Technologies Corporation Systems and methods for identifying sequence variation
US10192024B2 (en) 2012-05-18 2019-01-29 454 Life Sciences Corporation System and method for generation and use of optimal nucleotide flow orders
US20140052381A1 (en) 2012-08-14 2014-02-20 Life Technologies Corporation Systems and Methods for Detecting Homopolymer Insertions/Deletions
US20140296080A1 (en) 2013-03-14 2014-10-02 Life Technologies Corporation Methods, Systems, and Computer Readable Media for Evaluating Variant Likelihood
EP3965111A1 (en) 2013-08-30 2022-03-09 Personalis, Inc. Methods and systems for genomic analysis
US9817944B2 (en) 2014-02-11 2017-11-14 Seven Bridges Genomics Inc. Systems and methods for analyzing sequence data
WO2016064703A1 (en) * 2014-10-21 2016-04-28 Life Technologies Corporation Methods, systems, and computer-readable media for blind deconvolution dephasing of nucleic acid sequencing data
US10584378B2 (en) 2015-08-13 2020-03-10 Centrillion Technology Holdings Corporation Methods for synchronizing nucleic acid molecules
WO2019084158A1 (en) 2017-10-26 2019-05-02 Ultima Genomics, Inc. METHODS AND SYSTEMS FOR SEQUENCE CALL
US10273528B1 (en) 2017-11-17 2019-04-30 Ultima Genomics, Inc. Methods and systems for analyte detection and analysis
AU2019411267A1 (en) 2018-12-17 2021-01-07 Illumina Cambridge Limited Primer oligonucleotide for sequencing
WO2020227137A1 (en) 2019-05-03 2020-11-12 Ultima Genomics, Inc. Methods for detecting nucleic acid variants
CN114096682A (zh) * 2019-05-03 2022-02-25 阿尔缇玛基因组学公司 通过合成方法的快进测序
EP3969617A4 (en) 2019-05-17 2023-08-16 Ultima Genomics, Inc. METHODS AND SYSTEMS FOR DETECTING RESIDUAL DISEASE
WO2021007495A1 (en) 2019-07-10 2021-01-14 Ultima Genomics, Inc. Rna sequencing methods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101415839A (zh) * 2006-02-08 2009-04-22 亿明达剑桥有限公司 对多核苷酸模板进行测序的方法
CN103917654A (zh) * 2011-04-01 2014-07-09 桑特里莱恩科技控股公司 用于对长核酸进行测序的方法和系统
CN103717753A (zh) * 2011-05-27 2014-04-09 吉纳普赛斯股份有限公司 用于遗传和生物分析的系统和方法

Also Published As

Publication number Publication date
EP3963104A1 (en) 2022-03-09
US20230060685A1 (en) 2023-03-02
WO2020227143A1 (en) 2020-11-12
IL287707A (en) 2021-12-01
EP3963104A4 (en) 2023-11-08
CA3138862A1 (en) 2020-12-10
US20220170089A1 (en) 2022-06-02
AU2020269377A1 (en) 2021-11-25
US11459609B2 (en) 2022-10-04
AU2020269377B2 (en) 2024-06-13
KR20220032516A (ko) 2022-03-15
JP2022533801A (ja) 2022-07-25
US20210054442A1 (en) 2021-02-25
US20200377937A1 (en) 2020-12-03

Similar Documents

Publication Publication Date Title
US11459609B2 (en) Accelerated sequencing methods
JP7143486B2 (ja) 深層ニューラルネットワークに基づくバリアント分類器
US10777301B2 (en) Hierarchical genome assembly method using single long insert library
US20190318806A1 (en) Variant Classifier Based on Deep Neural Networks
US20210210164A1 (en) Systems and methods for mapping sequence reads
US11763915B2 (en) Methods for detecting nucleic acid variants
Orton et al. Distinguishing low frequency mutations from RT-PCR and sequence errors in viral deep sequencing data
US20140129201A1 (en) Validation of genetic tests
JP2018513445A (ja) 構造変異の特定及びバリアントコールデータを用いたフェージングのためのシステム及び方法
Natsoulis et al. A flexible approach for highly multiplexed candidate gene targeted resequencing
US20240141425A1 (en) Correcting for deamination-induced sequence errors
US20240043918A1 (en) Methods and systems for determinng sequencing read distances
Bolognini Unraveling tandem repeat variation in personal genomes with long reads
Ho et al. Whole‐Genome Sequencing Analysis Using Next‐Generation Sequencing Data
Chiara BIOINFORMATIC TOOLS FOR NEXT GENERATION GENOMICS
Morris et al. Introduction to RNA Sequencing and Quality Control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination