CN113015813A - 测序算法 - Google Patents

测序算法 Download PDF

Info

Publication number
CN113015813A
CN113015813A CN201980067627.XA CN201980067627A CN113015813A CN 113015813 A CN113015813 A CN 113015813A CN 201980067627 A CN201980067627 A CN 201980067627A CN 113015813 A CN113015813 A CN 113015813A
Authority
CN
China
Prior art keywords
nucleic acid
template nucleic
target template
acid molecule
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980067627.XA
Other languages
English (en)
Inventor
迈克尔·伊梅尔福特
利·G·莫纳罕
乔伊斯·多
凯瑟琳·M·伯克
艾伦·E·达尔林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Singapore Pte Ltd
Original Assignee
Langs Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1813171.4A external-priority patent/GB201813171D0/en
Priority claimed from GBGB1907101.8A external-priority patent/GB201907101D0/en
Application filed by Langs Technology Co ltd filed Critical Langs Technology Co ltd
Publication of CN113015813A publication Critical patent/CN113015813A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Oscillators With Electromechanical Resonators (AREA)

Abstract

本发明涉及使用非突变序列读数和突变序列读数来确定至少一个靶模板核酸分子的序列的方法。本发明还涉及用于确定样品中至少一个靶模板核酸分子的序列的方法,该方法涉及控制或标准化样品中靶模板核酸分子的数目。本发明还涉及适于执行该方法的计算机程序,包括该计算机程序的计算机可读介质以及计算机实现的方法。

Description

测序算法
技术领域
本发明涉及使用非突变序列读数和突变序列读数来确定至少一个靶模板核酸分子的序列的方法。本发明还涉及用于确定样品中至少一个靶模板核酸分子的序列的方法,该方法涉及控制或标准化样品中靶模板核酸分子的数目。本发明还涉及适于执行该方法的计算机程序,包括该计算机程序的计算机可读介质以及计算机实现的方法。
背景技术
在众多不同应用程序中,对核酸分子进行测序的能力是非常有用的工具。然而,可能难以确定包含不确定结构的核酸分子(例如包含重复区域的核酸分子)的准确序列。解析结构变异,例如二倍体和多倍体生物的单倍型结构也可能是困难的。
许多更现代的技术(所谓的下一代测序技术)只能对短核酸分子进行精确测序。可以使用下一代测序技术对更长的核酸序列进行测序,但这通常是困难的。下一代测序技术可用于产生与核酸分子的部分的序列对应的短序列读数,完整序列可由短序列读数组装而成。当核酸分子包含重复区域时,使用者可能不清楚具有相似序列的两个序列读数是对应于一个较长序列中的两个重复序列还是相同序列的两个重复体。类似地,使用者可能想要同时对两个相似的核酸分子进行测序,并且可能难以确定具有相似序列的两个序列读数是对应于相同的原始核酸分子的序列还是两个不同的原始核酸分子的序列。
可以使用诱变(SAM)技术辅助的测序来辅助由短序列读数组装序列。通常,SAM涉及将突变引入靶模板核酸序列中。引入的突变模式可以帮助该方法的使用者由短序列读数组装核酸分子的序列。
例如,在模板核酸分子包含重复区域的情况下,可以通过不同的突变模式将重复区域彼此区分开,从而使重复区域能够被正确解析和组装。
通常,SAM技术涉及使靶模板核酸分子的拷贝突变,然后基于其突变模式组装突变拷贝的序列。然后,使用者可以由突变拷贝的序列来创建共有序列。由于不同的突变拷贝将在不同位置包含突变,因此共有序列可以是原始模板核酸分子的代表。然而,共有序列可能包含来自突变过程的假象。此外,创建共有序列涉及使用复杂且处理密集的计算机程序。
因此,仍然需要用于确定至少一个靶模板核酸分子的序列的方法,其中可以准确、快速并且高效地组装序列读数。
发明内容
本发明人已经开发了用于确定至少一个靶模板核酸分子的序列的新的改进方法。因此,在本发明的第一个方面中,提供用于确定至少一个靶模板核酸分子的序列的方法,该方法包括:
(a)提供成对样品,每个样品包含至少一个靶模板核酸分子;
(b)对该成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序以提供非突变序列读数;
(c)将突变引入该成对样品的第二样品中的至少一个靶模板核酸分子中以提供至少一个突变的靶模板核酸分子;
(d)对至少一个突变的靶模板核酸分子的区域进行测序以提供突变序列读数;
(e)对突变序列读数进行分析,并使用对突变序列读数进行分析获得的信息以由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列。
因此,在本发明的第二个方面中,提供用于产生至少一个靶模板核酸分子的序列的方法,该方法包括:
(a)获得数据,该数据包括:
(i)非突变序列读数;和
(ii)突变序列读数;
(b)对突变序列读数进行分析,并使用对突变序列读数进行分析获得的信息以由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列。
在本发明的第三个方面中,提供适于执行本发明的方法的计算机程序。
在本发明的第四个方面中,提供包含本发明的计算机程序的计算机可读介质。
在本发明的第五个方面中,提供包含本发明的方法的计算机实现的方法。
在本发明的第六个方面中,提供用于确定至少一个靶模板核酸分子的序列的方法,该方法包括:
(a)提供至少一个样品,该至少一个样品包含至少一个靶模板核酸分子;
(b)对至少一个靶模板核酸分子的区域进行测序;及
(c)由至少一个靶模板核酸分子的区域的序列来组装至少一个靶模板核酸分子的序列,
其中:
(i)提供包含至少一个靶模板核酸分子的至少一个样品的步骤包括:控制至少一个样品中的靶模板核酸分子的数目;和/或
(ii)通过合并两个或更多个子样品来提供至少一个样品,并且使每个子样品中的靶模板核酸分子的数目标准化。
在本发明的第六个方面中,提供用于确定至少一个靶模板核酸分子的序列的方法,该方法包括:
(a)提供至少一个样品,该至少一个样品包含至少一个靶模板核酸分子;
(b)对至少一个靶模板核酸分子的区域进行测序;及
(c)由至少一个靶模板核酸分子的区域的序列来组装至少一个靶模板核酸分子的至少一部分的序列,
其中:
(i)提供包含至少一个靶模板核酸分子的至少一个样品的步骤包括:控制至少一个样品中的靶模板核酸分子的数目;和/或
(ii)通过合并两个或更多个子样品来提供至少一个样品,并且使每个子样品中的靶模板核酸分子的数目标准化。
附图说明
图1示出了在存在或不存在dPTP的情况下,使用三种不同的聚合酶实现的突变水平。A组示出了使用Taq(Jena Biosciences)获得的数据,B组示出了使用LongAmp(NewEngland Biolabs)获得的数据,以及C组示出了使用Primestar GXL(Takara)获得的数据。深灰色条示出了在不存在dPTP的情况下获得的结果,浅灰色条示出了在0.5mM dPTP存在下获得的结果;
图2描述了通过使用热球菌(Thermococcus)聚合酶(Primestar GXL;Takara)对具有不同的G+C含量的模板进行dPTP诱变获得的突变率。对于来自金黄色葡萄球菌(S.aureus)的低GC模板(33%GC),观察到的突变率中值为~7%,而其他模板的中值约为8%;
图3是序列表;
图4描述了使用实施例5中描述的方法获得的片段的长度;
图5描述了对模拟数据使用变分推断的值的分布。A组示出了对模拟数据使用变分推断而推测出的M值。身份([1,1]、[2,2]、[3,3]、[4,4])的真值是0.895,转换([1,3]、[2,4]、[3,1]、[4,2])的真值是0.1,以及颠换(所有其他条目)的真值是0.005。B组示出了对模拟数据使用变分推断而推测出的z值。对于same[1:5],z的真值为1,对于same[91:95],z的真值为0;
图6是使用100至10000范围内、以100为单位的截断值的模拟数据的精确召回图。每个阈值执行了2000次测试,其中包括1000个确实源自同一模板的读数对和1000个并非源自同一模板的读数对;
图7是流程图,该流程图示出了用于确定本发明的至少一个靶模板核酸分子的序列的方法;
图8是流程图,该流程图示出了用于产生本发明的至少一个靶模板核酸分子的序列的方法;
图9在A组中描绘了组装图,并在B组中将突变序列读数绘谱到组装图中;
图10描绘了使用彼此退火的衔接子(右侧线)或使用标准衔接子(左侧线)扩增的靶核酸分子的大小;
图11是描述样品稀释因子和观察到的独特模板的数目之间的线性关系的图。对靶模板核酸分子的起始样品进行连续稀释,并进行最终测序以对每个稀释液中独特模板的数目进行识别和定量;
图12是示出池中各个样品之间的模板计数的标准化的图。(A)示出了66个条形码化的细菌基因组的独特模板计数,这些计数是在标准化之前由合并的样品而确定的。(B)示出了标准化后相同样品的模板计数(以基因组含量的每兆碱基(Mb)表示),表明变异性小得多;
图13示出了根据本发明的用于组装细菌基因组的工作流程;
图14示出了针对标准读数组装相比本发明的组装(Morphoseq组装),来自65个细菌基因组的组装统计的比较;
图15示出了针对短读数组装相比本发明的组装,细菌基因组的组装的示例性组装度量;
图16示出了用于产生合成的长读数的本发明的示例性工作流程。(a)准备长突变模板。首先对目标基因组DNA进行标签片段化,以产生包含末端衔接子的长模板。然后,在诱变核苷酸类似物dPTP的存在下扩增模板,该dPTP在两条产品链的A和G残基对面随机掺入(诱变PCR)。该步骤还引入了:(i)样品标签,和;(ii)在模板末端的附加衔接子序列,以利于下游扩增含P碱基的产物。在不存在dPTP的情况下进行进一步扩增(回收PCR),在此过程中,模板P残基被天然核苷酸取代,以产生转换突变(用红线示出)。然后对样品进行大小选择(8kb-10kb),将其限制为固定数量的独特模板,然后选择性地富集以创建每个独特分子的许多拷贝。(b)短读数文库的制备、测序和分析。通过进一步的标签片段化和文库扩增,对长突变模板进行短读数测序。在此步骤中,使用靶向原始模板末端衔接子(深灰色)和内部标签片段化衔接子(浅灰色)的不同的引物,将衍生自全长模板的最末端的片段与随机的“内部”片段分别进行扩增和条形码化。对这两个文库进行测序,同时并行生成了一个非突变参照文库,并且使用自定义算法来重构合成的长读数。这涉及由参照数据创建组装图,在组装图上突变读数通过不同的重叠突变模式绘谱并连接在一起。最终的合成的长读数对应于通过非突变组装图的识别路径。
具体实施方式
通用定义
除非另有定义,否则本文使用的技术和科学术语均具有如本发明所属的领域中的技术人员通常所理解的相同含义。
通常,术语“包括”旨在表示包括但不限于。例如,短语“用于确定至少一个靶模板核酸分子的序列的方法包括[某些步骤]”应解释为意味着该方法包括所记载的步骤,但是可以执行其他步骤。
在本发明的一些实施方式中,词语“包括”替换为“由......组成”。术语“由......组成”旨在为限制性的。例如,短语“用于确定至少一个靶模板核酸分子的序列的方法由[某些步骤]组成”应理解为意指该方法包括所记载的步骤,并且不执行其他步骤。
用于确定至少一个靶模板核酸分子的序列的方法
在一些方面,本发明提供用于确定至少一个靶模板核酸分子的序列的方法或用于产生至少一个靶模板核酸分子的序列的方法。
为了本发明的目的,术语“确定”和“产生”可以互换使用。然而,“确定”序列的方法通常包括步骤,例如测序步骤,而“产生”序列的方法则可能限于可以由计算机实现的步骤。
该方法可以用于确定或产生至少一个靶模板核酸分子的完整序列。或者,该方法可用于确定或产生部分序列,即至少一个靶模板核酸分子的一部分的序列。例如,如果不可能或不直接确定完整的序列,则使用者可以判断至少一个靶模板核酸分子的一部分的序列对于他的目的是有用的或甚至是足够的。
为了本发明的目的,“核酸分子”是指任何长度的核苷酸的聚合形式。核苷酸可以是脱氧核糖核苷酸、核糖核苷酸或其类似物。优选地,至少一个靶模板核酸分子由脱氧核糖核苷酸或核糖核苷酸组成。甚至更优选地,至少一个靶模板核酸分子由脱氧核糖核苷酸组成,即,至少一个靶模板核酸分子是DNA分子。
至少一个“靶模板核酸分子”可以是使用者想要测序的任何核酸分子。“至少一个靶模板核酸分子”可以是单链的,或者可以是双链复合物的一部分。如果至少一个靶模板核酸分子由脱氧核糖核苷酸组成,则其可以形成双链DNA复合物的一部分。在这种情况下,一条链(例如编码链)将被认为是至少一个靶模板核酸分子,而另一条链是与该至少一个靶模板核酸分子互补的核酸分子。至少一个靶模板核酸分子可以是与基因相对应的DNA分子,可以包含内含子,可以是基因间区域,可以是基因内区域,可以是跨越多个基因的基因组区域,或者实际上可以是生物体的整个基因组。
术语“至少一个靶模板核酸分子(at least one target template nucleic acidmolecule)”和“至少一个靶模板核酸分子(at least one target template nucleic acidmolecules)”被认为是同义词,并且可以在本文中互换使用。
在本发明的方法中,可以同时对任意数量的至少一个靶模板核酸分子进行测序。因此,在本发明的一个实施方式中,至少一个靶模板核酸分子包含多个靶模板核酸分子。可选地,至少一个靶模板核酸分子包括至少10个、至少20个、至少50个、至少100个或至少250个靶模板核酸分子。可选地,至少一个靶模板核酸分子包括10个至1000个、20个至500个或50个至100个靶模板核酸分子。
用于确定至少一个靶模板核酸分子的序列的方法可以包括:
(a)提供成对样品,每个样品包含至少一个靶模板核酸分子;
(b)对该成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序以提供非突变序列读数;
(c)将突变引入该成对样品的第二样品中的至少一个靶模板核酸分子中以提供至少一个突变的靶模板核酸分子;
(d)对至少一个突变的靶模板核酸分子的区域进行测序以提供突变序列读数;
(e)对突变序列读数进行分析,并使用对突变序列读数进行分析获得的信息以由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列。
用于产生至少一个靶模板核酸分子的序列的方法可以包括:
(a)获得数据,该数据包括:
(i)非突变序列读数;和
(ii)突变序列读数;
(b)对突变序列读数进行分析,并使用对突变序列读数进行分析获得的信息以由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列。
提供成对样品,每个样品包含至少一个靶模板核酸分子
用于确定至少一个靶模板核酸分子的序列的方法可以包括:提供成对样品的步骤,每个样品包含至少一个靶模板核酸分子。
本发明的方法使用对突变序列读数进行分析获得的信息以由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列。本发明的方法可以包括将突变引入该成对样品的第二样品中的至少一个靶模板核酸分子中。因此,该成对样品中的第二样品中的至少一个突变的靶模板核酸分子的区域进行测序可用于提供突变序列读数,而该成对样品中的第一样品中的至少一个突非变的靶模板核酸分子的区域进行测序可用于提供非突变序列读数。
为了让使用者能够使用通过对来自第二样品的突变序列读数进行分析而获得的信息来组装主要包含来自第一样品的非突变序列的序列,则一些突变序列读数和一些非突变序列读数将对应于同一原始靶模板核酸分子。
例如,如果使用者希望确定靶模板核酸分子A和B的序列,则第一样品将包含模板核酸分子A和B,并且第二样品将包含模板核酸分子A和B。可以对第一样品中的A和B进行测序以提供A和B的非突变序列读数,并且可以使第二样品中的A和B突变并进行测序以提供A和B的突变序列读数。
由于该成对样品中的第一样品和该成对样品中的第二样品都包含至少一个靶模板核酸分子,因此该成对样品可以衍生自同一靶生物体或取自同一原始样品。
例如,如果使用者旨在对样品中的至少一个靶模板核酸分子进行测序,则使用者可以从同一原始样品中获取成对样品。可选地,使用者可以在从原始样品中获取该成对样品之前,在原始样品中复制至少一个靶模板核酸分子。使用者可以旨在对来自特定生物体,例如大肠杆菌(E.coli)的各种核酸分子进行测序。如果是这种情况,则该成对样品的第一样品可以是来自一个来源的大肠杆菌样品,而该成对样品的第二样品可以是来自第二个来源的大肠杆菌样品。
该成对样品可以源自任何包含或疑似包含该至少一个靶模板核酸分子的来源。该成对样品可以包含来源于人的核酸分子样品,例如从人类患者皮肤拭子提取的样品。可替代地,该成对样品可以来源于其他来源,例如水源。这种样品可能含有数十亿个模板核酸分子。使用本发明的方法可以同时对这些数十亿个靶模板核酸分子中的每一个靶核酸分子进行测序,因此可用于本发明的方法的靶模板核酸分子的数目没有上限。
在一个实施方式中,可以提供多对样品。例如,可以提供2、3、4、5、6、7、8、9、10、11、15、20、25、50、75或100对样品。可选地,提供少于100个、少于75个、少于50个、少于25个、少于20个、少于15个、少于11个、少于10个、少于9个、少于8个、少于7个、少于6个、少于5个或少于4个样品。可选地,提供2对至100对、2对至75对、2对至50对、2对至25对、5对至15对或7对至15对样品。
在提供多对样品的情况下,可以用不同的样品标签来标记不同成对样品中的至少一个靶模板核酸分子。例如,如果使用者旨在提供2对样品,则可以用样品标签A来标记第一对样品中的全部或基本上全部至少一个靶模板核酸分子,并且可以用样品标签B来标记第二对样品中的全部或基本上全部至少一个靶模板核酸分子。样品标签在标题“样品标签和条形码”下进行了更详细的讨论。
控制样品中靶模板核酸分子的数目
如上所述,本发明的测序方法包括使用对相应的突变序列读数进行分析而获得的信息以由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列。通常,可以将样品中的靶模板核酸分子进行组装以产生样品中存在的一个或多个更大的核酸分子的序列。举个代表性实施方式,可以将靶模板核酸分子进行组装以产生基因组的序列。进行测序运行以获得的测序读数的形式产生某些有限数量的数据。为了从由靶模板核酸分子获得的测序读数来组装该靶模板核酸分子的序列(从而组装该靶模板核酸分子以产生一个或多个更大的靶模板核酸分子的序列),在不会为每个靶模板核酸分子产生过度的冗余(即重复的)测序读数的情况下,优选确保在测序读数中该靶模板核酸分子的覆盖范围是足够的(即足以组装该序列)。例如,如果样品包含太多的靶模板核酸分子,以至于无法从每个靶模板核酸分子产生足量的测序读数,则可能无法组装每个靶模板核酸分子的序列(即每个模板可能没有足够的数据)。另一方面,如果样品包含的靶模板核酸分子太少,虽然有可能组装每个靶模板核酸分子,但可能无法组装该靶模板核酸分子以产生较大的核酸分子的序列,例如可能无法产生基因组序列(即每个模板的数据可能过多,因此整个样品的数据不足)。
考虑到这些,对使用者来说有利的是能够控制存在于该成对样品的第一样品中和/或该成对样品的第二样品中的特有的靶模板核酸分子的数目。然后使用者可以选择存在于该成对样品的第一样品中和/或该成对样品的第二样品中的特有的靶模板核酸分子的最佳数目。特有的靶模板核酸分子的最佳数目可以取决于使用者将重视的许多不同因素。例如,如果靶模板核酸分子是较长的,则它们将更难以测序,并且使用者可能希望选择较少数量的特有的靶模板核酸分子。
因此,本发明的方法可以包括提供成对样品的步骤,每个样品包括至少一个靶模板核酸分子,该步骤包括控制在该成对样品的第一样品和/或第二样品中的靶模板核酸分子的数目。
控制成对样品的第一样品中的靶模板核酸分子的数目可能是有用的。然而,特别优选的是,针对该成对样品的第二样品(即,包含将引入突变的至少一个靶模板核酸分子的样品),控制该成对样品的第二样品中的靶模板核酸分子的数目。在本发明的方法中,使成对样品的第二样品中的至少一个靶模板核酸分子突变,并用于重构靶模板核酸分子的序列。在这种情况下,该成对样品的第二样品中的靶模板核酸分子的数目可能至关重要。因此,控制成对样品的第二样品中的靶模板核酸分子的数目可能是特别有利的。
类似地,在本发明的一个方面中,提供用于确定至少一个靶模板核酸分子的序列的方法,该方法包括:
(a)提供至少一个样品,该至少一个样品包含至少一个靶模板核酸分子;
(b)对至少一个靶模板核酸分子的区域进行测序;及
(c)由至少一个靶模板核酸分子的区域的序列来组装至少一个靶模板核酸分子的序列,
其中提供包含至少一个靶模板核酸分子的至少一个样品的步骤包括:控制至少一个样品中的靶模板核酸分子的数目。
类似地,在本发明的一个方面中,提供用于确定至少一个靶模板核酸分子的序列的方法,该方法包括:
(a)提供至少一个样品,该至少一个样品包含至少一个靶模板核酸分子;
(b)对至少一个靶模板核酸分子的至少一部分的区域进行测序;及
(c)由至少一个靶模板核酸分子的区域的序列来组装至少一个靶模板核酸分子的序列,
其中提供包含至少一个靶模板核酸分子的至少一个样品的步骤包括:控制至少一个样品中的靶模板核酸分子的数目。
为了本申请的目的,短语“控制”样品中的“靶模板核酸分子的数目”是指提供样品中所需的一些靶模板核酸分子。根据某些特定的实施方式,这可以包括操纵或调节样品以使其包含所需数目的靶模板核酸分子(例如通过稀释样品或将样品与也包含靶模板核酸分子的另一样品合并)。
应当理解,“控制靶模板核酸分子的数目”可能不是完全精确的,因为例如,难以通过使用常规技术稀释样品来获得精确数目的模板核酸分子。然而,如果使用者发现样品中包含所需靶模板核酸分子的两倍左右,则使用者可以稀释样品并获得包含大约为原始样品中存在的靶模板核酸分子的数目的一半的稀释样品(例如原始样品中存在的靶模板核酸分子数目的45%至55%)。
控制靶模板核酸分子的数目可以包括测量样品中靶模板核酸分子的数目(例如,使用者可以测量成对样品的第一样品、成对样品中的第二样品或至少一个样品中的靶模板核酸分子的数目)。术语“测量”在本文中可以由术语“估计”代替。通常,测量样品中靶模板核酸分子的数目被用作控制样品中靶模板核酸分子的数目的步骤的一部分,并且控制样品中靶模板核酸分子数目的步骤可用于帮助使用者确保样品包含适合(即在所需范围内)用于特定测序方法的若干靶模板核酸分子。然而,这种控制靶模板核酸分子的数目的步骤并不要求完全准确。用于近似控制样品中靶模板核酸分子的数目的方法将有助于改进对靶模板核酸分子进行测序的方法。在一个实施方式中,“测量靶模板核酸分子的数目”是指将样品中的靶模板核酸分子的数目确定为至少在正确的数量级之内,即与真实数字相比在10倍之内,或更优选地在5倍、4倍、3倍或2倍之内。更优选地,样品中靶模板核酸分子的数目可以确定为在真实数目的至少50%,或至少40%,或至少30%,或至少25%,或至少20%,或至少15%,或至少10%之内。可以使用任何方法来测量样品中靶模板核酸分子的数目。
可以在测量样品中靶模板核酸分子的数目之前或过程中对样品(例如,成对样品的第一样品、成对样品的第二样品或至少一个样品)进行稀释。例如,如果使用者认为样品包含大量靶模板核酸分子,则他可能希望稀释样品以获得具有合适数目的靶模板核酸分子的样品,从而通过,例如,测序来进行精确测量。因此,可以提供稀释样品。因此,可以在稀释样品中测量靶模板核酸分子的数目,从而确定样品中靶模板核酸分子的数目。
根据某些实施方式,制备不止一个稀释样品,每个样品具有不同的稀释因子可能是有利的。例如,如果使用者不知道样品中存在多少个靶模板核酸分子,他可能希望制备一个稀释系列并测量每个稀释液(即每个稀释样品)中靶模板核酸分子的数目。因此,测量靶模板核酸分子的数目可以包括:制备成对样品的第一样品、该成对样品的第二样品或至少一个样品的稀释系列,以提供包含稀释样品的稀释系列。稀释系列可以包含1至50个、1至25个、1至20个、1至15个、1至10个、1至5个稀释样品,5至25个、5至20个、5至15个或5至10个稀释样品。
这种稀释系列可以通过进行系列稀释来制备。可选地,可以将样品稀释2倍至20倍、5倍至15倍或大约10倍。例如,为了获得10个样品的稀释系列,每个样品稀释10倍,使用者将制备样品的10倍稀释,然后分离一部分稀释样品,然后再稀释10倍,以此类推,直到获得10个稀释样品。
使用者可以制备10个稀释样品,但只确定少于10个稀释样品中靶模板核酸分子的数目。例如,如果使用者确定了5个稀释样品中的靶模板核酸分子的数目,并且准确地确定了第五个稀释样品中的靶模板核酸分子的数目,则无需进一步确定任何其他稀释样品中的靶模板核酸分子的数目。在其他实施方式中,使用者可以将来自多个稀释样品的结果进行关联,以便对结果更有信心。有利地,这还可以向使用者提供关于动态范围的信息,在该动态范围上可以在给定的一组条件下准确地确定样品中的靶模板核酸分子的数目。然而,使用者可以仅执行单次稀释以准确确定样品中靶模板核酸分子的数目。
根据某些特定实施方式,可以通过确定样品中靶模板核酸分子的摩尔浓度来测量样品(或稀释样品)中靶模板核酸分子的数目。这可以例如通过电泳来完成。根据一个特定的实施方式,样品中靶模板核酸分子的数目可以通过高分辨率微流控电泳(Highresolution microfluidic electrophoresis)来确定,由此可以将样品加载到微通道中,并且可以电泳分离靶模板核酸分子,并通过其荧光进行检测。以这种方式测量靶模板核酸分子的数目的合适系统包括Agilent 2100Bioanalyzer和Agilent 4200Tapestation。
在替代实施方式中,靶模板核酸分子的数目可以通过以下来测量:对成对样品的第一样品、该成对样品的第二样品、至少一个样品或一个或多个稀释样品中的靶模板核酸分子进行测序。
根据一个特定的实施方式,该方法可以包括通过对一个或多个稀释样品中的靶模板核酸分子进行测序来测量靶模板核酸分子的数目。
可以使用任何测序方法对靶模板核酸进行测序。可能的测序方法的示例包括:马克萨姆·吉尔伯特测序(Maxam Gilbert Sequencing)、桑格测序(Sanger Sequencing)、包含桥式扩增的测序(例如桥式PCR)或任何高通量测序(High throughput sequencing,HTS)方法,如Maxam AM,Gilbert W(February 1977),“A new method for sequencing DNA”,Proc.Natl.Acad.Sci.U.S.A.74(2):560-4;Sanger F,Coulson AR(May1975),“A rapidmethodfor determining sequences in DNA by primed synthesis with DNApolymerase”,J.Mol.Biol.94(3):441-8;以及Bentley DR,Balasubramanian S,et al.(2008),“Accurate whole human genome sequencing using reversible terminatorchemistry”,Nature,456(7218):53-59中所描述的。
测量靶模板核酸分子的数目可以包括:使成对样品的第一样品、该成对样品的第二样品、至少一个样品或一个或多个稀释样品中的靶模板核酸分子扩增,然后对其(或从另一个角度来说,扩增的靶模板核酸分子)进行测序。扩增靶模板核酸分子为使用者提供了靶模板核酸分子的多个拷贝,从而让使用者能够更准确地对靶模板核酸分子进行测序(由于测序技术并不完全准确,因此对靶模板核酸序列的多个拷贝进行测序,然后由这些拷贝的序列计算出共有序列提高了准确性)。制备样品中固定数目的特有的靶模板核酸分子的多个拷贝,并对全部(扩增的)样品的一部分进行测序,可以从所有靶模板核酸分子中获取序列信息。
用于扩增至少一个靶模板核酸分子的合适方法是本领域已知的。例如,通常使用PCR。在下文“将突变引入至少一个靶模板核酸分子中”的标题下更详细地描述了PCR。
在典型的实施方式中,测序步骤可以涉及桥式扩增。可选地,使用大于5秒、大于10秒、大于15秒或大于20秒的延伸时间进行桥式PCR步骤。使用桥式PCR的一个实例在Illumina基因组分析测序仪中。优选地,使用配对末端测序。
测量靶模板核酸分子的数目可以包括:使成对样品的第一样品、该成对样品的第二样品、至少一个样品或一个或多个稀释样品中的靶模板核酸分子片段化。例如,在测序平台排除使用长核酸分子作为模板的情况下,这可能是特别有利的。可以使用任何合适的技术进行片段化。可以使用限制性消化、或以与至少一个突变的靶核酸分子的至少一个内部区域互补的引物使用PCR,来进行片段化。优选地,使用产生任意片段的技术进行片段化。术语“任意片段”是指随机生成的片段,例如通过标签片段化生成的片段。使用限制性内切酶生成的片段不是“任意”的,因为限制性消化发生在由所用的限制性内切酶所限定的特定的DNA序列处。甚至更优选地,通过标签片段化进行片段化。如果通过标签片段化进行片段化,则标签片段化反应可选地将衔接子区域引入至少一个突变的靶核酸分子中。该衔接子区域是短DNA序列,其可以编码例如衔接子,以允许使用Illumina技术对至少一个靶核酸分子进行测序。
在特定的实施方式中,测量靶模板核酸分子的数目包括:使成对样品的第一样品、该成对样品的第二样品、至少一个样品或一个或多个稀释样品中的靶模板核酸分子扩增和片段化,然后对靶模板核酸分子(或从另一个角度来说,扩增的和片段化的靶模板核酸分子)进行测序。扩增和片段化可以在测序之前以任何顺序进行。在一个实施方式中,测量靶模板核酸分子的数目可以包括:使成对样品的第一样品、该成对样品的第二样品、至少一个样品或一个或多个稀释样品中的靶模板核酸分子扩增,接着使其片段化并且然后进行测序。或者,测量靶模板核酸分子的数目可以包括:使成对样品的第一样品、该成对样品的第二样品、至少一个样品或一个或多个稀释样品中的靶模板核酸分子片段化,接着使其扩增,且然后进行测序。或者,扩增和片段化可以同时进行,即在单个步骤中。当靶模板核酸分子非常长(例如太长以至于不能使用常规技术测序)时,该方法包括使靶模板核酸分子片段化然后进行扩增是有用的。
测量靶模板核酸分子的数目可以包括识别样品中靶模板核酸分子的总数。然而,优选地,测量靶模板核酸分子的数目包括:识别成对样品的第一样品、该成对样品的第二样品、至少一个样品或一个或多个稀释样品中的特有的靶模板核酸分子序列的数目。如上所述,当至少一个靶模板核酸序列是包含许多不同靶模板核酸序列的样品的一部分时,确定至少一个靶模板核酸序列的序列更加困难。因此,减少特有的靶模板核酸分子的数目使得确定至少一个靶模板核酸分子的序列的方法更简单。
如本文其他地方所讨论的,将突变引入靶模板核酸序列中可以促进靶模板核酸序列的至少一部分的组装。例如,在识别序列读数是否可能源自同一靶模板核酸分子时,或序列读数是否可能源自不同的靶模板核酸分子时,使靶模板核酸分子突变可能是特别有益的。因此,根据本发明本方面的某些实施方式,在通过测序来测量靶模板核酸分子的数目的情况下,将突变引入靶模板核酸分子中可能是有益的。因此,在特定的这种实施方式中,测量靶模板核酸分子的数目可以包括使靶模板核酸分子突变。
使靶模板核酸分子突变可以通过任何方便的方式进行。特别地,可以如本文其他地方所述来进行靶模板核酸分子突变。根据一个特别优选的实施方式,可以通过使用低偏向DNA聚合酶来引入突变。在另外的或替代的实施方式中,使靶模板核酸分子突变可以包括在核苷酸类似物,例如dPTP存在的情况下扩增靶模板核酸分子。
根据优选的实施方式,测量靶模板核酸分子的数目可以包括:
(ii)使靶模板核酸分子突变以提供突变的靶模板核酸分子;
(ii)对该突变的靶模板核酸分子的区域进行测序;及
(iii)基于特有的突变的靶模板核酸分子序列的数目来识别特有的突变的靶模板核酸分子的数目。
为了对样品中靶模板核酸分子的数目进行定量,使用者不需要每个靶模板核酸分子的完整序列。准确地说,所需要的是足够的关于样品中不同的靶模板核酸分子(或在适用情况下,扩增和片段化的靶模板核酸分子)的序列的信息,以允许使用者估计靶模板核酸分子的总数和/或特有的靶模板核酸分子的数目。因此,使用者可以选择仅对每个靶模板核酸分子的区域进行测序。例如,在某些实施方式中,使用者可以选择对每个独特靶模板核酸分子或片段化的靶模板核酸分子的末端区域进行测序,作为测量特有的靶模板核酸分子的数目的步骤的一部分。因此,使用者可以对靶模板核酸分子或片段化的靶模板核酸分子的3'末端区域和/或5'末端区域进行测序,作为测量靶模板核酸分子的数目的步骤的一部分。靶模板核酸分子的末端区域包含靶模板核酸分子中的末端(例如5'末端或3'末端)核苷酸(即靶模板核酸分子中最5’端的或最3'端的核苷酸)和与其相邻的期望长度的核苷酸的连续片段。
根据某些代表性的实施方式,测量靶模板核酸分子的数目可以包括将条形码(在本文中也被称为特有的分子标签或特有的分子标识符,如下面所描述的)或一对条形码引入靶模板核酸分子(或换一种说法,用条形码或一对条形码标记该靶模板核酸分子),以提供条形码化的靶模板核酸分子。如本文其他地方所描述的,条形码被适当地简并,基本上每个靶模板核酸分子可以包含特有或基本上特有的序列,从而每个(或基本上每个)靶模板核酸分子被标记了不同的条形码序列。可以如本文其他地方描述的来将条形码引入到靶模板核酸分子中。在特定实施方式中,条形码序列可以被引入靶模板核酸分子的末端,即在靶模板核酸分子中作为额外的5'端引入到5'端(或最5'端)核苷酸或作为额外的3'端引入到3'端(或最3'端)核苷酸。
在一个优选的实施方式中,可以对用条形码序列标记的靶模板核酸分子进行测序,以测量样品中靶模板核酸分子的数目。更特别地,可以对包含条形码序列的靶模板核酸分子的区域进行测序,以测量样品中靶模板核酸分子的数目。条形码序列是基本上特有的,并且用条形码序列标记靶模板核酸分子,因此将基本上特有的(并因此可计数的)序列引入靶模板核酸分子中。因此,通过根据这种实施方式进行测序识别的特有的条形码的数目可以允许确定样品中特有的靶模板核酸分子的数目。
因此,根据特定的实施方式,测量靶模板核酸分子的数目可以包括:
(i)对条形码化的靶模板核酸分子的区域进行测序,该条形码化的靶模板核酸分子包括条形码或成对条形码;及
(ii)基于特有的条形码或成对条形码的数目识别特有的条形码化的靶模板核酸分子的数目。
根据又一个实施方式,可能不必使用一个或多个条形码以确定样品中存在的靶模板核酸分子的数目。在一个特定的代表性实施方式中,可以通过对靶模板核酸分子的末端区域进行测序来确定靶模板核酸分子的数目。可选地,然后使用者识别存在的特有的末端序列的数目,和/或然后使用者将末端区域的序列相对于参照序列,例如参照基因组绘谱。在不希望理论所束缚的情况下,据信这种方法可以允许确定靶模板核酸分子的数目,因为每个靶模板核酸分子的序列可以起始于参照序列中的不同位点。
此外,根据本发明该方面的测序步骤可以是“粗略的”测序步骤,因为使用者可能不需要精确的序列信息以便能够测量样品中靶模板核酸分子的数目。举个代表性例子,测序步骤可以在扩增差的分子组上进行,这可以允许该步骤更快地和/或以更低的成本进行。
可选地,测量样品中特有的靶模板核酸分子的数目可以包括对包含条形码或成对条形码的条形码化的靶模板核酸分子的末端区域进行测序。因此,提及对靶模板核酸分子的末端区域进行测序可以包括对条形码化的靶模板核酸分子的末端区域进行测序,该条形码化的靶模板核酸分子可以包括条形码或一对条形码。
一旦测得了样品中特有的靶模板核酸分子的数目,就可以调节样品以便控制样品中的靶模板核酸分子的数目,以使样品包含所需数目的特有的靶模板核酸分子。根据某些实施方式,这可以包括对样品进行稀释的步骤。因此,控制样品中靶模板核酸分子的数目可以包括测量样品中靶模板核酸分的数目,并稀释样品以使样品包含所需数目的靶模板核酸分子。
如上所述,根据本发明该方面的样品可以是任何样品,并且特别地可以是根据本发明方法的第一样品或第二样品。因此,根据特定的实施方式,控制成对样品的第一样品和/或成对样品的第二样品中的靶模板核酸分子的数目包括:测量靶模板核酸分子的数目以及对该成对样品的第一样品和/或该成对样品的第二样品进行稀释,以使该成对样品的第一样品和/或该成对样品的第二样品包含所需数目的靶模板核酸分子。
合并子样品以提供样品
可以通过合并若干个子样品来提供样品。这可以允许对来自多个样品(例如来自多个来源)的靶模板核酸分子同时进行测序,这进而可以实现更大的样品通量,从而减少了确定靶模板核酸分子的序列所需的成本和时间。
因此,本发明的方法可以在通过合并两个或更多个子样品而提供的样品上进行。根据某些实施方式,可以通过合并两个或更多个子样品来提供成对样品中的第一样品。在又一个实施方式中,可以通过合并两个或更多个子样品来提供该成对样品中的第二样品。因此,可以通过合并两个或更多个子样品来提供第一样品和/或第二样品。可替代地,可以从合并的样品中获取第一样品和第二样品,并对其进行本发明的方法。
因此,本发明的该方面允许来自两个或更多个较小样品的每一个样品的至少一个靶模板核酸分子的序列,该两个或更多个较小样品被合并以提供待测定的样品。
与用于测序的合并的样品有关的一个问题是每个样品可能包含不同数目的靶核酸分子。因此,对于合并的样品而言,以期望的量,更具体地以期望的比例包含来自其每个组成子样品的靶模板核酸分子可能是有益的。换句话说,对于合并的样品而言,包含适当的(即在期望的范围内)来自其每个子样品的若干个特有的靶模板核酸分子可能是有益的,这样就可以使用特定的测序方法对来自合并的样品中每个子样品的靶模板核酸分子进行测序。
举个代表性例子,可以提供两个单独的子样品:样品Y和样品Z。如果样品Y中的靶模板核酸分子的总数是样品Z中的靶模板核酸分子的总数的100倍,则将样品Y和样品Z等量合并并对合并的样品执行测序方法有望导致样品Y中靶模板核酸分子产生的测序读数的数目是样品Z中靶模板核酸分子产生的测序读数的数目的100倍。因此,以这种方式合并样品不仅会导致样品Z产生的测序读数不足,以致于无法使用从样品Z获得的序列读数执行序列组装步骤,这也可能会使对从样品Y获得的序列读数执行的序列组装步骤复杂化。
因此,本发明的方法可以包括使每个合并的子样品中的靶模板核酸分子的数目标准化的步骤,以提供该成对样品的第一样品和/或该成对样品的第二样品。
然而,更通常地,本发明提供用于确定至少一个靶模板核酸分子的序列的方法,该方法包括:
(a)提供至少一个样品,该至少一个样品包含至少一个靶模板核酸分子;
(b)对至少一个靶模板核酸分子的区域进行测序;及
(c)由至少一个靶模板核酸分子的区域的序列来组装至少一个靶模板核酸分子的序列,
其中通过合并两个或更多个子样品来提供至少一个样品,并且使每个子样品中的靶模板核酸分子的数目标准化。
为了本申请的目的,短语“使每个子样品中的靶模板核酸分子的数目标准化”和“使每个合并的子样品中的靶模板核酸分子的数目标准化”是指以这样的方式合并子样品:以所需的量提供源自每个子样品的合并的样品中靶模板核酸分子的总数。在一些实施方式中,使特有的靶模板核酸分子的数目标准化。“特有的靶模板核酸分子”是包含不同核酸序列的靶模板核酸分子。可选地,至少一个靶模板核酸分子中的每个靶模板核酸分子是特有的靶模板核酸分子。特有的靶模板核酸分子可以在序列上只相差单个核苷酸,或者可以基本上彼此不同。
标准化步骤可以有利地允许以期望的比例提供来自每个子样品的靶模板核酸分子的数目。根据某些实施方式,这可以包括操纵或调节每个子样品,使得当合并时,合并的样品包含来自每个子样品的期望数目的靶模板核酸分子。从另一个角度来看,可以看出该步骤允许控制来自两个或更多个子样品中的每个子样品的合并样品中靶模板核酸分子的数目,或者控制来自两个或更多个子样品的至少一个样品中的靶模板核酸分子的数目。
另一方面,本发明因此提供了用于确定至少一个靶模板核酸分子的序列的方法,该方法包括:
(a)提供至少一个样品,该至少一个样品包含至少一个靶模板核酸分子;
(b)对至少一个靶模板核酸分子的区域进行测序;及
(c)由至少一个靶模板核酸分子的区域的序列组装至少一个靶模板核酸分子的序列,其中,提供包含至少一个靶模板核酸分子的至少一个样品的步骤包括合并两个或更多个子样品以及控制来自两个或更多个子样品的至少一个样品中的靶模板核酸分子的数目。
根据某些实施方式,使每个子样品中的靶模板核酸分子的数目标准化可以包括:在来自每个子样品的合并样品中提供相似数目的靶模板核酸分子(即,以大约1:1的比例)。这种实施方式可能是特别有用的,例如,在每个子样品源自包含相似大小的基因组的样品的情况下。然而,在替代实施方式中,可以以不同的量提供靶模板核酸分子的数目,即,与来自第二子样品的靶模板核酸分子的数目相比,可以以更高的丰度提供来自第一子样品的靶模板核酸分子的数目。例如,如果第一子样品源自较大的基因组并且第二子样品源自包含较小基因组的样品,则这种实施方式可能是期望的。
将理解的是,“使每个合并的子样品中的靶模板核酸分子的数目标准化”可能不是完全精确的,因为例如可能难以测量每个子样品中的靶模板核酸分子的数目。然而,如果使用者发现子样品中包含所需靶模板核酸分子的两倍左右,则使用者可以使子样品中的靶模板核酸分子的数目标准化,以使合并样品中的靶模板核酸分子的数目大约为子样品中存在的靶模板核酸分子的数目的一半(例如,子样品中存在的靶模板核酸分子数目的45%至55%)。
广义上来讲,使每个子样品中的靶模板核酸分子的数目标准化可以被视为相当于控制来自提供于合并样品中的每个子样品中的靶模板核酸分子的数目。因此,使靶模板核酸分子的数目标准化可以包括测量每个子样品中的靶模板核酸分子的数目。
根据某些实施方式,如本文其他地方所述,特别是在用于控制样品中靶模板核酸分子数目的方法的情况下,可以测量子样品中的靶模板核酸分子的数目。
在优选的实施方式中,使每个子样品中的靶模板核酸分子的数目标准化可以包括用不同的样品标签来标记来自不同子样品的靶模板核酸分子。样品标签是用于标记样品中的至少一个靶模板核酸分子的大部分或全部靶模板核酸分子的标签。用不同的样品标签标记不同子样品中的靶模板核酸分子可以允许区分源自不同子样品的模板靶核酸分子。样品标签因此可以在本发明的这个方面中特别有用,因为它们的使用可以允许同时测量两个或更多个子样品中的每个子样品的靶模板核酸分子的数目。特别地,样品标签可以允许在单个样品中测量两个或更多个子样品中的每个子样品中靶模板核酸分子的数目。优选地,在合并子样品之前,可以用样品标签标记靶模板核酸分子。因此,在特定的实施方式中,本发明的当前方面可以包括:准备子样品的预备池,每个子样品的预备池包含用样品标签标记的靶模板核酸分子;并测量预备池中的用各样品标签标记的靶模板核酸分子的数目。
从另一个角度来看,本发明提供了用于测量两个或更多个子样品中的靶模板核酸分子的数目的方法,该方法包括:
(a)用不同的样品标签标记来自两个或更多个不同子样品的靶模板核酸分子;
(b)合并两个或更多个子样品,以提供子样品的预备池;及
(c)测量预备池中的用各样品标签标记的靶模板核酸分子的数目。
可选地,可以制备两个或更多个预备池,例如每个预备池包含以不同的量或比例提供的子样品,和/或由不同的子样品(例如,子样品的不同组合)组成。
根据某些实施方式,可以使用本文其他地方描述的用于测量样品中靶模板核酸分子的数目的技术来测量预备池中用各样品标签标记的靶模板核酸分子的数目(特别是在控制样品中靶模板核酸分子的数目的情况下)。在这方面,技术人员将理解,基于每个样品所包含的样品标签,来自每个样品中的靶模板核酸分子是可区分的,并因此测量在预备池中用任何给定的样品标签标记的靶模板核酸分子的数目可以通过使方法适于测量特定样品中存在的靶模板核酸分子的总数来进行。
在这方面,根据某些实施方式,可以在测量用各样品标签标记的靶模板核酸分子的数目之前或过程中稀释预备池。可以如本文其他地方所述进行稀释。例如,在某些实施方式中,可以对预备池进行系列稀释,以提供包含稀释的预备池的系列稀释液。
如在其他地方提到的,可以制备两个或更多个不同的预备池。每个预备池可以稀释到不同的程度,例如根据不同的系列稀释。
根据一个特别优选的实施方式,可以通过对在预备池或稀释的预备池中标记的(样品标签化的)靶模板核酸分子进行测序来测量在预备池中用各样品标签标记的靶模板核酸分子的数目。可以根据任何方便的测序方法来进行测序,例如本文其他地方所述的方法。优选地,对标记的靶模板核酸分子进行测序可以包括对标记的靶模板核酸分子的样品标签进行测序。
在特定的实施方式中,测量预备池中的用各样品标签标记的靶模板核酸分子的数目可以包括扩增步骤。用于扩增标记的靶模板核酸分子的合适方法在本领域中是已知的,并且例如可以如本文其他地方所述进行扩增。在某些实施方式中,测量预备池中的用各样品标签标记的靶模板核酸分子的数目可以包括:对靶模板核酸分子进行扩增然后进行测序。
在某些实施方式中,可以扩增子样品中的靶模板核酸分子,即在合并两个或更多个子样品以提供合并的预备样品之前。扩增可以在用样品标签标记子样品中的靶模板核酸分子之前进行,或者在某些优选的实施方式中,可以与用样品标签(例如使用包含样品条形码的PCR引物)标记子样品中的靶模板核酸分子同时进行。在其他实施方式中,可以在提供合并的预备样品之前扩增用样品标签标记的靶模板核酸分子。
根据另外的实施方式,测量预备池中的用各样品标签标记的靶模板核酸分子的数目可以包括:扩增预备池中的用样品标签标记的靶模板核酸分子,即在合并两个或更多个子样品之后。
可选地,可以进行两个或更多个扩增步骤,例如在用样品标签标记子样品中的靶模板核酸分子之前或同时进行的第一扩增,以及扩增用样品标签标记的靶模板核酸分子的第二扩增(如上所述该第二扩增可以在子样品或合并的预备样品上进行)。
扩增后,测量预备池中的用各样品标签标记的靶模板核酸分子的数目可以包括:对预备池或稀释的预备池中的用各样品标签标记的靶模板核酸分子(即样品标签标记的靶模板核酸分子)进行测序。在优选的实施方式中,测量预备池中的用各样品标签标记的靶模板核酸分子的数目因此可以包括:对预备池或稀释的预备池中的用各样品标签标记的靶模板核酸分子进行扩增然后进行测序。
测量预备池中的用各样品标签标记的靶模板核酸分子的数目可以包括片段化步骤。优选地,即在制备合并的样品之后,将合并的样品中的靶模板核酸分子片段化。可以使用任何合适的技术来进行片段化,包括本文其他地方描述的任何技术。
在特定实施方式中,测量用各样品标签标记的靶模板核酸分子的数目可以包括:在对预备池或稀释的预备池中的靶模板核酸分子进行测序之前,进行扩增和片段化步骤。根据优选的实施方式,因此,在合并两个或更多个子样品以提供合并的预备样品并对靶模板核酸进行测序之前,可以将子样品中的靶核酸分子扩增、片段化并用样品标签标记。扩增和片段化可以以任何顺序进行。在一个实施方式中,子样品中的靶模板核酸分子可以被扩增,然后被片段化,或者先被片段化接着扩增,然后用样品标签标记。在进一步的实施方式中,靶模板核酸分子可以同时,即在单个步骤中被扩增、片段化和标记。在单个步骤中对靶模板核酸分子进行扩增、片段化和标记的特别优选的方法可以使用标签片段化和PCR,特别是使用包含样品标签的PCR引物来进行。因此,在该步骤之后的扩增和片段化的靶核酸分子将用样品标签标记,并且一旦被合并到合并的预备样品中,例如当测序时,就可以被识别为源自特定的子样品。
测量预备池中的用各样品标签标记的靶模板核酸分子的数目可以包括:识别预备池(或稀释的预备池)中的具有各样品标签(即用各样品标签标记的)的靶模板核酸分子(可选地特有的靶模板核酸分子)的数目。然而,优选地,测量具有各样品标签的靶模板核酸分子的数目包括:识别预备池(或稀释的预备池)中具有各样品标签的特有的靶模板核酸序列的数目。
如在别处讨论的,例如,在识别序列读数是否可能源自同一靶模板核酸分子或不同的靶模板核酸分子时,使靶模板核酸分子突变可能是特别有益的。因此,这在确定预备池中源自特定子样品的靶模板核酸分子的数目中可能是有益的。
因此,根据某些实施方式,测量预备池(或稀释的预备池)中的用各样品标签标记的靶模板核酸分子的数目可以包括使靶模板核酸分子突变。在某些实施方式中,可以使合并的预备样品中的靶模板核酸分子突变。然而,使靶模板核酸分子突变可优选在子样品中发生,即在合并两个或更多个样品以提供合并的样品之前发生。在特别优选的实施方式中,可以在用样品标签标记靶模板核酸分子之前或与之同时使靶模板核酸分子突变。可能优选不使用于标记靶模板核酸分子的样品标签序列突变。使靶模板核酸分子突变可以通过任何方便的方式进行,包括本文其他地方描述的任何方式。因此,在一个实施方式中,可以通过使用低偏向DNA聚合酶来引入突变。在另外的实施方式中,使靶模板核酸分子突变可以包括在核苷酸类似物,例如dPTP存在的情况下扩增靶模板核酸分子。
根据特定的实施方式中,测量预备池中的用各样品标签标记的靶模板核酸分子的数目可以包括:
(i)使靶模板核酸分子突变以提供突变的靶模板核酸分子;
(ii)对该突变的靶模板核酸分子的区域进行测序;及
(iii)基于用各样品标签标记的特有的突变的靶模板核酸分子的数目来识别具有各样品标签的特有的突变的靶模板核酸分子的数目。
如以上更详细地概述的,为了定量靶模板核酸分子,不一定需要获得每个靶模板核酸分子的完整序列,简单地对每个标记的靶模板核酸分子的末端区域进行测序作为测量预备池中的用各样品标签标记的靶模板核酸分子的数目的步骤的一部分可能就足够了。因此,使用者可以选择仅对每个靶模板核酸分子的末端区域进行测序。如上所述,样品标签将优选被测序。
根据某些代表性的实施方式,测量靶模板核酸分子的数目可以包括将条形码或一对条形码引入靶模板核酸分子中以提供条形码化的、样品标签化的靶模板核酸分子。适用于该步骤的条形码以及用于将条形码引入靶模板核酸分子的方法在本文其他地方进行了更详细的描述。
优选地,可以在合并子样品之前,即在合并子样品以提供临时的合并样品之前,将条形码引入靶模板核酸分子中。可以以任何顺序将条形码和样品标签引入靶模板核酸分子。例如,在一个实施方式中,可以将条形码引入靶模板核酸分子中,随后引入样品标签。在另一个实施方式中,可以将样品标签引入靶模板核酸分子中,随后引入条形码。在另外的实施方式中,可以同时引入样品标签和条形码标签。无论如何,在某些实施方式中,可以用样品标签和条形码同时标记来自子样品的靶模板核酸分子。在这方面,应当指出,样品标签对于将预备样品中的特定的靶模板核酸分子识别为源自特定的子样品特别有利,而条形码对于允许测量来自每个子样品中的特有的靶模板核酸分子的数目可能特别有利。
因此,根据特别优选的实施方式,测量用各样品标签标记的靶模板核酸分子的数目可以包括:
(i)对条形码化的、样品标签化的靶模板核酸分子的区域进行测序;及
(ii)基于与各样品标签相关的特有的条形码或成对条形码序列的数目,识别具有各样品标签的特有的条形码化的靶模板核酸分子的数目。
如本文其他地方所述,测量靶模板核酸分子的数目的测序步骤可以是“粗略的”测序步骤,因为使用者可能不需要精确的序列信息以便能够测量样品中靶模板核酸分子的数目。相反,测序足以识别样品标签、条形码和/或靶模板核酸分子就足够了。
在某些代表性的实施方式中,一旦已经测量了包含不同样品标签的靶模板核酸分子的数目,就可以计算出包含不同样品标签的靶模板核酸分子的数目的比率。在进一步的代表性实施方式中,一旦测量了包含不同样品标签的靶模板核酸分子的数目,就有可能确定由每个子样品产生的(在合并的预备样品中的)靶模板核酸分子的数目,从而计算每个子样品中存在的靶模板核酸分子的数目。
关于包含不同样品标签的靶模板核酸分子的比例的信息和/或由每个子样品产生的靶模板核酸分子的数目的信息,可用于制备用于本发明方法的合并的样品。特别地,这种信息可以在标准化步骤中使用,以使从合并的样品中的两个或更多个子样品中的每一个子样品中提供的靶模板核酸分子的数目标准化,从而将来自每个子样品的靶模板核酸分子以期望的比例提供在合并的样品中。
因此,将看到,本发明提供用于确定至少一个靶模板核酸分子的序列的方法,该方法包括:
(a)提供至少一个样品,该至少一个样品包含至少一个靶模板核酸分子;
(b)对至少一个靶模板核酸分子的区域进行测序;及
(c)由至少一个靶模板核酸分子的区域的序列来组装至少一个靶模板核酸分子的序列,其中
至少一个样品由以下方式提供:
(i)通过合并两个或更多个子样品来提供合并的预备样品;
(ii)测量由两个或更多个子样品中的每一个子样品产生的合并的预备样品中靶模板核酸分子的数目;及
(iii)合并两个或更多个子样品;
其中使来自每个子样品的样品中的靶模板核酸分子的数目标准化。
如上所述,通过合并两个或更多个子样品来使样品中靶模板核酸分子的数目标准化可以包括:以期望的比例提供来自每个子样品的靶模板核酸分子。根据某些实施方式,通过合并两个或更多个子样品形成的样品可以被视为是重新合并的样品,其中每个子样品中的靶模板核酸分子以期望的比例(即,在提供预备池并测量由两个或更多个子样品中的每一个子样品产生的所述预备池中的靶模板核酸分子的数目之后)提供在该重新合并的样品中。因此,测量子样品中的靶模板核酸分子的数目使得在重新合并子样品时,使来自每个子样品的样品中的靶模板核酸分子的数目标准化。
根据本发明的当前方面,可以通过合并两个或更多个子样品来提供样品。因此,为了提供用于本发明的方法的样品(即合并的样品),可以合并2个或更多个,优选3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000个或更多个子样品。根据某些实施方式,可以合并2个至5000个、10个至1000、或25个至150个子样品。
术语“合并两个或多个子样品”不需要将整个子样品与另一个子样品合并以提供样品,而是最好是指获得每个子样品的等分试样,并组合等分试样以提供样品。类似地,提及将条形码或标签引入子样品中的靶模板核酸分子或使子样品中的靶模板核酸分子突变可以理解为意指对子样品的等分试样或一部分执行这种步骤。
根据某些特定的实施方式,“合并两个或更多个子样品”可以包括稀释子样品并组合稀释的子样品以提供样品。在进一步的实施方式中,该术语可以包括获得样品的等分试样并稀释所述等分试样,并且将子样品的稀释的等分试样合并以提供样品。稀释子样品(或等分试样)可以包括在合并子样品(或等分试样)以提供样品之前执行的单独的稀释步骤。然而,将会看到,合并两个或更多个子样品(或等分试样)以提供样品可能实际上降低了样品中提供的来自每个子样品中的靶模板核酸分子的浓度,并且可能因此,代表了稀释步骤。技术人员将能够确定每个子样品可能需要稀释的程度,包括可能由于合并两个或更多个子样品(或等分试样)而发生的任何稀释。
对至少一个靶模板核酸分子或至少一个突变的靶模板核酸分子的区域进行测序
用于确定至少一个靶模板核酸分子的序列的方法可以包括对成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序以提供非突变序列读数的步骤和/或对至少一个突变的靶模板核酸分子的区域进行测序以提供突变序列读数的步骤。
测序步骤可以使用任何测序方法进行。可能的测序方法的示例包括:马克萨姆·吉尔伯特测序、桑格测序、包含桥式扩增的测序(例如桥式PCR)或任何高通量测序(HTS)方法,如Maxam AM,Gilbert W(February 1977),“A new method for sequencing DNA”,Proc.Natl.Acad.Sci.U.S.A.74(2):560-4;Sanger F,Coulson AR(May 1975),“A rapidmethod for determining sequences in DNA by primed synthesis with DNApolymerase”,J.Mol.Biol.94(3):441-8;以及Bentley DR,Balasubramanian S,et al.(2008),“Accurate whole human genome sequencing using reversible terminatorchemistry”,Nature,456(7218):53-59中所描述的。
在典型的实施方式中,至少一个或优选两个测序步骤涉及桥式扩增。可选地,使用大于5秒、大于10秒、大于15秒或大于20秒的延伸时间进行桥式PCR步骤。使用桥式PCR的一个实例在Illumina基因组分析测序仪中。
可选地,对成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序以提供非突变序列读数的步骤(i)和对至少一个突变的靶模板核酸分子的区域进行测序以提供突变序列读数的步骤(ii)使用相同的测序方法进行。可选地,对成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序以提供非突变序列读数的步骤(i)和对至少一个突变的靶模板核酸分子的区域进行测序以提供突变序列读数的步骤(ii)使用不同的测序方法进行。
可选地,对成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序以提供非突变序列读数的步骤(i)和对至少一个突变的靶模板核酸分子的区域进行测序以提供突变序列读数的步骤(ii)可以使用不止一种测序方法进行。例如,可以使用第一种测序方法对成对样品的第一样品中的至少一个靶模板核酸分子的一部分进行测序,并且可以使用第二种测序方法对成对样品的第一样品中的至少一个靶模板核酸分子的一部分进行测序。类似地,可以使用第一种测序方法对至少一个突变的靶模板核酸分子的一部分进行测序,并且可以使用第二种测序方法对至少一个突变的靶模板核酸分子的一部分进行测序。
可选地,对成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序以提供非突变序列读数的步骤(i)和对至少一个突变的靶模板核酸分子的区域进行测序以提供突变序列读数的步骤(ii)在不同的时间进行。可替代地,步骤(i)和(ii)可以差不多同时地进行,例如相对于彼此的一年之内。成对样品的第一样品和该成对样品的第二样品不必彼此同时进行。在两个样品均来自同一生物体的情况下,他们可以以基本上不同的时间(甚至相隔数年)提供,因此两个测序步骤也可能间隔数年。此外,即使该成对样品中的第一样品和该成对样品中的第二样品都来自同一原始样品,生物样品也可以存储一段时间,因此,无需同时进行测序步骤。
突变序列读数和/或非突变序列读数可以是单个末端或配对末端序列读数。
可选地,突变序列读数和/或非突变序列读数大于50bp、大于100bp、大于500bp、小于200000bp、小于15000bp、小于1000bp、介于50bp和200000bp之间、介于50bp和15000bp之间、或介于50bp和1000bp之间。读数长度越长,将越容易使用对突变序列读数进行分析获得的信息以由非突变序列读数来组装至少一个靶模板核酸分子的至少一部分的序列。例如,如果使用组装图,则使用较长的序列读数将使识别串通组装图的有效路径变得更加容易。例如,如下面更详细地描述的,识别串通组装图的有效路径可以包括识别特征k-mer,并且较大的读数长度可以允许较长的k-mer。
可选地,使用每至少一个靶模板核酸分子每核苷酸0.1个至500个读数、0.2个至300个读数或0.5个至150个读数的测序深度来进行测序步骤。测序深度越大,确定/产生的序列的准确性就越高,但是组装可能会更加困难。
将突变引入至少一个靶模板核酸分子中
该方法可以包括将突变引入成对样品的第二样品中的至少一个靶模板核酸分子中以提供至少一个突变的靶模板核酸分子的步骤。
该突变可以是置换突变、插入突变或缺失突变。为了本发明的目的,术语“置换突变”应解释为意指核苷酸被不同的核苷酸取代。例如,序列ATCC转换成序列AGCC的引入了单个置换突变。为了本发明的目的,术语“插入突变”应解释为意指添加至少一个核苷酸到序列中。例如,序列ATCC转换成序列ATTCC是插入突变的一个例子(插入了另外的T核苷酸)。为了本发明的目的,术语“缺失突变”应解释为意指从序列中除去至少一个核苷酸。例如,序列ATTCC转换成ATCC是缺失突变的一个例子(T核苷酸被除去)。优选地,突变是置换突变。
短语“将突变引入至少一个靶模板核酸分子中”是指将成对样品的第二样品中的至少一个靶模板核酸分子暴露于使至少一个靶模板核酸分子突变的条件下。这可以使用任何合适的方法来实现。例如,可以通过化学诱变和/或酶促诱变来引入突变。
可选地,将突变引入至少一个靶模板核酸分子中的步骤使至少一个靶模板核酸分子的1%至50%、3%至25%、5%至20%或大约8%的核苷酸突变。可选地,至少一个突变的靶模板核酸分子包含1%至50%、3%至25%、5%至20%或大约8%的突变。
使用者可通过执行以下步骤来确定至少一个突变的靶模板核酸分子中包含多少突变,和/或将突变引入至少一个靶模板核酸分子的步骤使至少一个靶模板核酸分子突变的程度:在已知序列的核酸分子上引入突变,对所得核酸分子进行测序,并确定与原始序列相比已改变的核苷酸总数的百分比。
可选地,将突变引入至少一个靶模板核酸分子的步骤以基本上随机的方式使至少一个靶模板核酸分子突变。可选地,至少一个突变的靶模板核酸分子包括基本上随机的突变模式。
如果至少一个突变的靶模板核酸分子在其整个长度上包含基本上相似的水平的突变,则该至少一个突变的靶模板核酸分子包括基本上随机的突变模式。例如,使用者可通过使已知序列的测试核酸分子突变以提供突变的测试核酸分子来确定至少一个突变的靶模板核酸分子是否包含基本上随机的突变模式。可以将突变的测试核酸分子的序列与测试核酸分子进行比较,以确定每个突变的位置。然后,使用者可通过以下方法确定突变是否在突变的测试核酸分子的整个长度上以基本上相似的水平发生:
(i)计算每个突变之间的距离;
(ii)计算距离的平均值;
(iii)对距离进行二次采样而不替换为较小的数字,例如500个或1000个;
(iv)构造与几何分布相距500个或1000个距离的模拟集,其平均值由矩量法给出,以与先前根据观测到的距离计算出的平均值相匹配;及
(v)根据两个分布计算克默果夫-史密洛夫(Kolmolgorov-Smirnov)。
如果D<0.15、D<0.2、D<0.25或D<0.3,则取决于非突变读数的长度,可以认为该至少一个突变的靶模板核酸分子包含基本上随机的突变模式。
类似地,如果所得的至少一个突变的靶模板核酸分子包含基本上随机的突变模式,则将突变引入到至少一个靶模板核酸分子中的步骤以基本上随机的方式使至少一个靶模板核酸分子突变。可以通过进行将突变引入已知序列的测试核酸分子上的至少一个靶模板核酸分子的步骤以提供突变的测试核酸分子,来确定将突变引入至少一个靶模板核酸分子的步骤是否确实以基本上随机的方式使至少一个靶模板核酸分子突变。然后,使用者可以对突变的测试核酸分子进行测序,以识别已经引入了哪些突变,并确定突变的测试核酸分子是否包含基本上随机的突变模式。
可选地,至少一个突变的靶模板核酸分子包含无偏突变模式。可选地,将突变引入至少一个靶模板核酸分子的步骤以无偏方式引入突变。如果引入的突变类型是随机的,则至少一个突变的靶模板核酸分子包含无偏突变模式。如果引入的突变是置换突变,则如果引入相似比例的A(腺苷)核苷酸、T(胸腺嘧啶)核苷酸、C(胞嘧啶)核苷酸和G(鸟嘌呤)核苷酸,则引入的突变是随机的。短语“引入相似比例的A(腺苷)核苷酸、T(胸腺嘧啶)核苷酸、C(胞嘧啶)核苷酸和G(鸟嘌呤)核苷酸”,我们的意思是被引入的腺苷核苷酸的数量、胸腺嘧啶核苷酸的数量、胞嘧啶核苷酸的数量和鸟嘌呤核苷酸的数量在彼此的20%以内(例如,可引入20个A核苷酸、18个T核苷酸、24个C核苷酸和22个G核苷酸)。
可以通过进行将突变引入已知序列的测试核酸分子上的至少一个靶模板核酸分子的步骤以提供突变的测试核酸分子,来确定将突变引入至少一个靶模板核酸分子的步骤是否确实以无偏方式使至少一个靶模板核酸分子突变。然后,使用者可以对突变的测试核酸分子进行测序,以识别已经引入了哪些突变,并确定突变的测试核酸分子是否包含无偏突变模式。
有用的是,即使将突变引入至少一个靶模板核酸分子的步骤引入了不均匀分布的突变,也可以使用产生至少一个靶模板核酸分子的序列的方法。因此,在一个实施方式中,至少一个突变的靶模板核酸分子包含不均匀分布的突变。可选地,将突变引入至少一个突变的靶模板核酸分子的步骤引入了不均匀分布的突变。如果以有偏方式引入突变,则认为突变是“不均匀分布的”,即,引入的腺苷核苷酸数量、胸腺嘧啶核苷酸啶数量、胞嘧啶核苷酸数量和鸟嘌呤核苷酸数量不在彼此的20%之内。至少一个突变的靶模板核酸分子是否包含不均匀分布的突变,或将突变引入到至少一个靶模板核酸分子中的步骤是否引入了不均匀分布的突变,可以通过与上述用于确定将突变引入至少一个靶模板核酸分子的步骤是否以无偏方式引入突变类似的方式来确定。
类似地,即使当突变序列读数和/或非突变序列读数包括不均匀分布的测序错误时,也可以使用产生至少一个靶模板核酸分子的序列的方法。因此,在一个实施方式中,突变序列读数和/或所述非突变序列读数包括不均匀分布的测序错误。类似地,在一个实施方式中,对至少一个靶模板核酸分子的区域进行测序和/或对至少一个突变的靶模板核酸分子的区域进行测序的步骤引入了不均匀分布的测序错误。
对至少一个靶模板核酸分子的区域进行测序和/或对至少一个突变的靶模板核酸分子的区域进行测序的特定步骤是否引入了不均匀分布的序列误差,将很可能取决于测序仪器的准确性,并且使用者可能会了解。然而,使用者可以通过对已知序列的核酸分子执行测序方法,并将产生的序列读数与已知序列的原始核酸分子的序列读数进行比较,来调查对至少一个靶模板核酸分子的区域进行测序和/或对至少一个突变的靶模板核酸分子的区域进行测序的步骤是否引入了不均匀分布的序列误差。然后,使用者可以应用实施例6中讨论的概率函数,确定M和E的值。如果E值和矩阵模型的值不相等或基本上不相等(在彼此的10%之内),则对至少一个靶模板核酸分子的区域进行测序的步骤引入了不均匀分布的序列误差。
通过化学诱变将突变引入至少一种靶模板核酸分子中可以通过使至少一个靶模板核酸暴露于化学诱变剂来实现。合适的化学诱变剂包括:丝裂霉素C(MMC)、N-甲基-N-亚硝基脲(MNU)、亚硝酸(NA)、双环氧丁烷(DEB)、1,2,7,8-双环氧辛烷(DEO)、乙基甲磺酸(EMS)、甲基甲磺酸(MMS)、N-甲基-N'-硝基-N-亚硝基胍(MNNG)、4-硝基喹啉1-氧化物(4-NQO)、2-甲氧基-6-氯-9(3-[乙基-2-氯乙基]-氨丙基氨基)-吖啶二盐酸盐(ICR-170)、2-氨基嘌呤(2A)、亚硫酸氢盐和羟胺(HA)。例如,当核酸分子暴露于亚硫酸氢盐时,亚硫酸氢盐使胞嘧啶脱去氨基形成尿嘧啶,有效地引入了C-T置换突变。
如上所述,将突变引入至少一个靶模板核酸分子中的步骤可以通过酶促诱变来进行。可选地,使用DNA聚合酶进行酶促诱变。例如,一些DNA聚合酶容易出错(是低保真聚合酶),并且使用容易出错的DNA聚合酶复制至少一个靶模板核酸分子将引入突变。Taq聚合酶是低保真聚合酶的一个实例,并且可以通过使用Taq聚合酶,例如通过PCR来复制至少一个靶模板核酸分子来进行将突变引入到至少一个靶模板核酸分子中的步骤。
DNA聚合酶可以是低偏向DNA聚合酶,这将在下面更详细地讨论。
如果使用DNA聚合酶来进行将突变引入至少一个靶模板核酸分子的步骤,则可以在适合于DNA聚合酶的条件下将至少一个靶模板核酸分子与DNA聚合酶和合适的引物一起孵育,以催化至少一个突变的靶模板核酸分子的产生。
合适的引物包含与这样的区域互补的短核酸分子:所述至少一个靶核酸分子侧翼的区域、或与所述至少一个靶核酸分子互补的核酸分子的侧翼的区域。例如,如果至少一个靶模板核酸分子是染色体的一部分,则引物将与以下区域互补:染色体中紧靠至少一个靶模板核酸分子的3'末端至该3’末端的区域以及紧靠至少一个靶模板核酸分子的5'末端至5'末端的区域,或者引物将与以下区域互补:染色体中紧靠与至少一个靶模板核酸分子互补的核酸分子的3'末端至该3’末端的区域,以及紧靠与至少一个靶模板核酸分子互补的核酸分子的5'末端至该5'末端的区域。
合适的条件包括DNA聚合酶可复制至少一个靶模板核酸分子的温度。例如,40℃至90℃、50℃至80℃、60℃至70℃、或大约68℃的温度。
将突变引入至少一个靶模板核酸分子的步骤可以包括多轮复制。例如,将突变引入至少一个靶模板核酸分子的步骤优选包括:
i)对至少一个靶模板核酸分子进行成轮的复制以提供与至少一个靶模板核酸分子互补的至少一个核酸分子;及
ii)对至少一个靶模板核酸分子进行成轮的复制以提供至少一个靶模板核酸分子的复制品。
可选地,将突变引入至少一个靶模板核酸分子的步骤包括复制至少一个靶模板核酸分子至少2轮、至少4轮、至少6轮、至少8轮、至少10轮、小于10轮、小于8轮、大约6轮、2至8轮、或1至7轮。使用者可以选择使用少量的成轮复制以减少引入扩增偏向的可能性。
可选地,将突变引入至少一个靶模板核酸分子的步骤包括在60℃至80℃的温度下复制至少2轮、至少4轮、至少6轮、至少8轮、至少10轮、小于10轮、小于8轮、大约6轮、2至8轮、或1至7轮。
可选地,将突变引入至少一个靶模板核酸分子的步骤使用聚合酶链反应(Polymerase chain reaction,PCR)进行。PCR是一个涉及进行多轮以下步骤来复制核酸分子的过程:
a)解链;
b)退火;及
c)延伸和伸长。
使核酸分子(例如至少一个靶模板核酸分子)与合适的引物和聚合酶混合。在解链步骤中,将核酸分子加热至90℃以上的温度,以使双链核酸分子变性(分离成两条链)。在退火步骤中,将核酸分子冷却至75℃以下的温度,例如55℃至70℃、大约55℃、或大约68℃,以使引物与核酸分子退火。在延伸和伸长步骤中,将核酸分子加热至高于60℃的温度,以使DNA聚合酶催化引物延伸、添加与模板链互补的核苷酸。
可选地,将突变引入至少一个靶模板核酸分子的步骤包括:在容易出错的反应条件下,使用Taq聚合酶复制至少一个靶模板核酸分子。例如,将突变引入至少一个靶模板核酸分子的步骤可以包括:在Mn2+、Mg2+或不等dNTP浓度(例如过量的胞嘧啶、鸟嘌呤、腺嘌呤或胸腺嘧啶)存在下使用Taq聚合酶进行PCR。
获得包含非突变序列读数和突变序列读数的数据
本发明的方法可以包括获得包括非突变序列读数和突变序列读数的数据的步骤。可以从任何来源获得非突变序列读数和突变序列读数。
可选地,通过对成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序来获得非突变序列读数。可选地,通过将突变引入成对样品的第二样品中的至少一个靶模板核酸分子中以提供至少一个突变的靶模板核酸分子,并对该至少一个突变的靶模板核酸分子的区域进行测序来获得突变序列读数。
可选地,非突变序列读数包括成对样品的第一样品中的至少一个靶模板核酸分子的区域的序列,该突变序列读数包括成对样品的第二样品中的至少一个突变的靶模板核酸分子的区域的序列,并且该成对样品取自同一原始样品或衍生自同一生物体。
分析突变序列读数,并使用通过分析突变序列读数获得的信息来组装序列
如上所述,第一样品和第二样品包含至少一个靶模板核酸分子。因此,存在于突变序列读数中的突变模式可以帮助使用者组装该至少一个靶模板核酸分子的至少一部分的序列。
如上所述,如果,例如序列的区域彼此相似或该序列包含重复部分,则组装序列可能是困难的。然而,使用者可能能够使用从与非突变序列读数对应的突变序列读数获得的信息,更有效地由非突变序列读数组装序列。例如,突变序列读数可用于识别由非突变序列读数计算出的节点,所述节点构成串通序列组装图的有效路径的一部分。
根据某些实施方式,可以使用来自多个突变读数的信息来组装序列。如下面更详细描述的,可以识别可能源自同一突变的靶模板核酸分子的突变序列读数。根据某些实施方式,可以组装突变序列读数,和/或由多个突变序列读数产生共有序列。在一个特定的实施方式中,可以由源自同一突变的靶模板核酸分子的多个部分重叠的突变读数重构长突变读数(即合成的长突变读数),以提供信息来组装序列。这种合成的长读数可以与串通非突变组装图的识别路径对应,如本文其他地方所讨论的。
准备组装图
对突变序列读数进行分析,并使用对突变序列读数进行分析获得的信息以由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列的步骤包括:准备组装图。
为了本发明的目的,“组装图”是包括由非突变序列读数计算的节点以及路径的图,该路径(在有效路径的情况下)可对应于至少一个靶模板核酸分子的部分。例如,节点可以代表由组装的非突变序列读数计算出的共有序列。
可以由非突变序列读数来计算节点。然而,如果至少一个靶模板核酸分子中的一些靶模板核酸分子未正确测序,则可能没有足够的非突变序列读数来组装至少一个靶模板核酸分子的完整序列。如果是这种情况,则可以由非突变序列读数和突变序列读数的组合来计算节点,其中突变序列读数用于补充组装图的表示缺少的非突变序列读数的区域。可选地,由非突变序列读数和突变序列读数计算节点。单独使用由非突变序列读数计算的节点是有益的,因为非突变序列读数精确地对应于原始靶模板核酸分子。因此,使用由非突变序列读数计算的节点组成的组装图可以避免突变步骤引入的假象。
在图9的A组中提供了合适的组装图的图示。
可选地,组装图的节点是unitig。为了本发明的目的,术语“unitig”意指至少一个靶模板核酸分子的一部分,其序列可以以高置信度定义。例如,组装图的节点可以包括与一个或多个非突变序列读数的全部或部分和/或一个或多个突变序列读数的全部或部分的共有序列相对应的unitig。优选地,组装图的节点包括与一个或多个非突变序列读数的全部或部分的共有序列相对应的unitig。
组装图可以是重叠图、unitig图或加权图。例如,组装图可以是de Bruijn图。
识别构成串通组装图的有效路径的一部分的节点
使用对突变序列读数进行分析获得的信息以由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列可以包括:使用通过对突变序列读数进行分析获得的信息识别由非突变序列读数计算的节点,该节点构成串通所述组装图的有效路径的一部分。串通组装图的每条有效路径可以表示至少一个靶模板核酸分子的一部分的序列。如果组装图包括从节点到节点的众多推定路径,则可以使用通过突变序列读数进行分析获得的信息来获得节点的顺序。在进一步的实施方式中,通过对突变序列读数进行分析获得的信息可用于确定基因组中给定序列的拷贝数。
可选地,对突变序列读数进行分析包括:识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数。本发明的方法可以导致提供多个突变序列读数,该多个突变序列读数包括对应于相同区域的突变序列,即对应于相同区域的多组突变序列读数。该组中的一些突变序列读数可能重叠,并且该组中的一些突变序列读数可能是重复的。当将该组突变序列读数绘谱到组装图时,如图9B所示,它们可以用于识别串通组装图的有效路径,因为它们可以链接由非突变序列读数计算的节点。
因此,可选地,对突变序列读数进行分析包括:识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数。可选地,使用通过对突变序列读数进行分析获得的信息识别构成串通组装图的有效路径的一部分的节点可以包括:
(i)由非突变序列读数计算节点;
(ii)将突变序列读数绘谱到组装图;
(iii)识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数;以及
(iv)识别通过突变序列读数连接的节点,该突变序列读数可能源自同一至少一个突变的靶模板核酸分子的突变序列读数,
其中通过突变序列读数连接的节点可能源自同一至少一个突变的靶模板核酸分子,并构成串通所述组装图的有效路径的一部分。
可选地,将可能源自同一突变的靶模板核酸分子的突变序列读数分组。
识别可能源自同一突变的靶模板核酸分子的突变序列读数
如所讨论的,对突变序列读数进行分析可以包括:识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数。
可选地,如果突变序列读数具有共同的突变模式,则突变序列读数可能源自同一至少一个突变的靶模板核酸分子。可选地,具有共同的突变模式的突变序列读数包括共同的特征k-mer或共同的特征突变。优选地,具有共同的突变模式的突变序列读数包括至少1个、至少2个、至少3个、至少4个、至少5个或至少k个共同的特征k-mer和/或共同的特征突变。
当通过合并两个或更多个子样品来提供样品时,识别可能源自同一至少一个突变靶模板核酸分子的突变序列读数可能具有特殊的用途。在某些实施方式中,在确定通过合并两个或更多个子样品而提供的样品中至少一个靶模板核酸分子的序列时,可以使用这样的步骤。更具体地说,在确定来自被合并以提供样品的两个或更多个子样品的每一个子样品的至少一个靶模板核酸分子的序列时,可以使用这样的步骤。在测量子样品中的靶模板核酸分子发生突变下来自两个或多个子样品中的每一个子样品的样品中的靶模板核酸分子的数目时,这样的步骤也可能具有特殊的用途。
特征k-mer或特征突变
具有共同的突变模式的突变序列读数可以包括共同的特征k-mer和/共同的特征突变。优选地,具有共同的突变模式的突变序列读数包括至少1个、至少2个、至少3个、至少4个、至少5个或至少k个共同的特征k-mer和/或共同的特征突变。
在本发明的上下文中,“k-mer”表示长度为k的核酸序列,其包含在序列读数中。“特征k-mer”可以是不出现在非突变序列读数中,但在突变序列读数中至少出现两次的k-mer。在一个实施方式中,特征k-mer是在突变序列读数中的出现频率为在非突变序列读数中的出现频率至少n倍的k-mer,其中n是任何整数,例如2、3、4或5。可选地,特征k-mer是在突变序列读数中出现至少两次、至少三次、至少四次、至少五次或至少十次的k-mer。因此,使用者可以通过将突变序列读数划分为k-mer并将非突变序列读数划分为k-mer,来确定突变序列读数是否包含共同的特征k-mer。然后使用者可以比较突变序列读数k-mer和非突变序列读数k-mer,并确定哪些k-mer出现在突变序列读数k-mer中而不出现在非突变序列读数k-mer中(或者哪些k-mer在突变序列读数k-mer中比在非突变读数k-mer中更频繁出现)。然后,使用者可以评估出现在突变序列读数k-mer中而不出现(或较不频繁出现)在非突变序列读数k-mer中的k-mer,并对它们进行计数。在突变序列读数k-mer中出现至少两次、至少三次、至少四次、至少五次或至少十次而不出现在非突变序列读数k-mer中的任何k-mer是特征k-mer。在突变序列读数k-mer中出现小于k次、小于5次、小于4次、小于3次或一次但在非突变序列读数k-mer中不出现(或较不频繁出现)的任何k-mer都可以是测序错误的结果,因此应忽略。
k值可以由使用者选择,并且可以是任何值。可选地,k值为至少5、至少10、至少15、小于100、小于50、小于25、5至100、10至50或15至25。通常,使用者将选择一个尽可能长的k值,同时确保读数中的k-mer的部分中包含一个或多个低测序错误。优选地,在包含测序错误的读数中,k-mer的比例小于50%、小于40%、小于30%、在0%与50%之间、在0%与40%之间或在0%与30之间。
“特征突变”可以是在突变序列读数中出现至少两次而不出现在非突变序列读数中的相应位置的核苷酸。在一个实施方式中,特征突变是在突变序列读数中出现频率为在非突变序列读数中出现频率的至少n倍的突变,其中n是任何整数,例如2、3、4或5。可选地,特征突变是在突变读数中出现至少两次、至少三次、至少四次、至少五次或至少十次但不出现(或较不频繁出现)在非突变读数中的相应位置的突变。
可选地,特征突变是共生突变。“共生突变”是在同一突变序列读数中发生的两个或更多个特征突变。例如,如果突变序列读数包含三个特征突变,则它包含三个共生突变对或一个共生突变3元组。如果突变序列读数包含四个特征突变,则它包含六个共生突变对、四个共生突变3元组和一个共生突变4元组。
可选地,如果特征突变不满足某些标准,则该特征突变可以被忽略,这表明所识别的特征突变是假的或无助于组装至少一个靶模板核酸分子的至少一部分的序列。
可选地,如果具有特征突变的突变序列读数中的相应位置处的至少1个、至少2个、至少3个或至少5个核苷酸彼此不同,则忽略该特征突变。例如,如果两个突变序列读数重叠,并且在重叠中具有共同的特征突变,则重叠的核苷酸应相同。如果它们的同一性水平较低,则可能出现了错误,因此应忽略该突变序列读数。例如,可以容忍一个核苷酸差异,因为这可能是一个简单的测序错误。
可选地,如果特征突变是意料之外的突变,则忽略该特征突变。短语“意料之外的突变”是指使用将突变引入至少一个靶模板核酸分子的特定步骤不太可能发生的突变。例如,如果将突变引入至少一个靶模板核酸分子的步骤是使用仅将鸟嘌呤置换为腺嘌呤的化学诱变剂进行的,则胞嘧啶的任何置换都是意料之外的,并且包含这种突变的突变序列读数应被忽略。
可选地,识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数的步骤包括:识别与至少一个靶模板核酸分子的特定区域相对应的突变序列读数。例如,使用者可能只对识别包含与其他突变序列读数重叠的区域中的特征突变的突变序列读数感兴趣,并且可以忽略在其他区域中发生的特征突变。
通常,具有较大的交集并且具有较小的对称差异的特征突变组的突变序列读数更可能源自同一至少一个突变的靶模板核酸分子。对于两个具有特征突变SM(A)和SM(B)的突变序列读数A和B,如果满足以下条件,则可以假定A和B源自同一至少一个突变的靶模板核酸分子:
交集(SM(A),SM(B))>=C
以及
对称差异(SM(A),SM(B))<交集(SM(A),SM(B))
其中,C大于4、大于5、小于20或小于10,SM(X)是突变序列读数X的特征突变的集合,其可以是X的特征突变的子集。
可选地,在下面的等式中,可以使用共生突变的集合代替特征突变。
交集(SM(A),SM(B))>=C
以及
对称差异(SM(A),SM(B))<C2*交集(SM(A),SM(B))
其中,C2小于3、小于2,或小于或等于1.5,SM(X)是突变序列读数X的共生突变的集合,其可以是X的特征突变的子集。
可以将具有共同的特征k-mer或共同的特征突变的突变序列读数分组在一起。优选地,如果突变序列读数具有至少1个、至少2个、至少3个、至少4个、至少5个或至少k个共同的特征k-mer和/或共同的特征突变,则将突变序列读数分组在一起。在这种实施方式中,“k”是所使用的k-mer的长度。
确定两个突变序列读数源自同一突变的靶模板核酸分子的可能性
可以通过计算以下优势比来识别可能源自同一突变的靶模板核酸分子的突变序列读数:
突变序列读数源自同一突变的靶模板核酸分子的概率:不源自同一突变的靶模板核酸分子的突变序列读数的概率。
如果优势比超过阈值,则突变序列读数可能源自同一至少一个突变的靶模板核酸分子。类似地,如果与绘谱到组装图的相同区域的第一突变序列读数和其他突变序列读数相比,第一突变序列读数和第二突变序列读数的优势比更高,则第一突变序列读数可能源自与第二突变序列读数相同的至少一个靶模板核酸分子。
所应用的阈值可以处于任何级别。实际上,使用者将根据他们的要求来确定任何给定测序方法的阈值。
例如,使用者可以确定所需的严格程度。如果使用者正在使用该方法来确定或产生至少一个靶模板核酸分子的序列,对于该序列而言,其准确性并不重要,那么所选择的阈值可以比以下情况的阈值低得多:使用者正在使用该方法来产生或确定准确性至关重要的至少一个靶模板核酸分子的序列。如果使用者使用该方法来确定或产生样品中的靶模板核酸的序列,例如要确定样品是包含多个细菌菌株还是仅包含一个细菌菌株,则与以下情况相比,可能需要较低的准确度:使用者正在使用该方法确定或产生特定变体基因的序列,以确定其与天然基因有何不同。因此,可以基于所需的严格性来改变(确定)阈值。
类似地,使用者可以根据将突变引入至少一个靶模板核酸分子的步骤中使用的突变率来改变阈值。如果突变率较高,则更容易确定两个突变序列读数是否源自同一突变的靶模板核酸分子,因此可以使用更高的概率阈值。
类似地,使用者可以根据至少一个靶模板核酸分子的大小来改变阈值。至少一个靶模板核酸分子的大小越大,在没有任何测序错误的情况下对全长进行测序就越困难,因此使用者可能希望对较长的至少一个靶模板核酸分子使用较高的阈值。
类似地,使用者可以根据时间限制和资源限制来改变阈值。如果这些限制较高,则使用者可能会满足于较低的阈值,从而提供较不准确的序列。
另外,使用者可以根据对至少一个突变的靶模板的区域进行测序的步骤的错误率来改变阈值,以提供突变序列读数。如果错误率高,则使用者可以设置比错误率低时更高的阈值。这是因为,如果错误率高,则有关两个突变序列读数是否源自同一突变的靶模板核酸分子的数据的信息可能较少,尤其是如果错误以与引入的突变相似的方式偏向时。
可选地,识别可能源自同一突变的靶模板核酸分子的突变序列读数包括基于以下参数使用概率函数:
a.突变序列读数的每个位置上的核苷酸的矩阵(N)和组装图;
b.使给定核苷酸(i)突变以读取核苷酸(j)的概率(M);
c.错误读取给定核苷酸(i)从而以所述核苷酸被错误读取为条件读取核苷酸(j)的概率(E);及
d.错误读取Y位置上的核苷酸的概率(Q)。
概率函数可用于确定优势比:
突变序列读数源自同一突变的靶模板核酸分子的概率:突变序列读数不源自同一突变的靶模板核酸分子的概率。
可选地,通过对突变序列读数和非突变序列读数进行统计分析来获得Q值,或基于测序方法的准确性的现有知识来获得Q值。例如,Q取决于所使用的测序方法的准确性。因此,使用者可通过对已知序列的核酸分子进行测序,并确定被错误读取的核苷酸平均数,来确定Q值。或者,使用者可选择突变序列读数和非突变序列读数的一个子组,并进行比较。突变序列读数和非突变序列读数之间的差异可能是由于测序错误或突变的引入。使用者可使用统计分析来近似估计由于测序错误而产生的差异数目。
可选地,基于对突变序列读数和非突变序列读数的子集进行的统计分析来估计M和E的值,其中,该子集包括因绘谱到参照组装图的同一区域而被选择的突变序列读数和非突变序列读数。实施例6中提供了一个如何确定M和E的示例。简而言之,使用者可以对突变序列读数和非突变序列读数的子集进行统计分析,以获得M和E的最佳拟合值(通过无监督学习)。由于无监督学习从计算方面上讲可能是宝贵的过程,因此有利的是对突变序列读数和非突变序列读数的子集执行该步骤,然后将M和E的值应用于完整的突变序列读数和非突变序列读数的集合。
可选地,使用贝叶斯推断(Bayesian inference)、例如哈密顿蒙特卡洛(Hamiltonian Monte Carlo)的蒙特卡洛(Monte Carlo)方法、变分推断(variationalinference)或贝叶斯推断的最大似然模拟来执行统计分析。
可选地,识别可能源自同一突变的靶模板核酸分子的突变序列读数包括:使用机器学习或神经网络;例如,如Russell&Norvig“Artificial Intelligence,a modernapproach”中详细描述的。
预聚类
可选地,该方法包括预聚类步骤。例如,使用者可以进行初始计算以将突变序列读数分配为组,其中同一组的每个成员具有合理的源自同一至少一个突变的靶模板核酸分子的可能性。每个组中的突变序列读数可以绘谱到组装图上的共同的位置和/或具有共同的突变模式。如果组中的两个突变序列读数绘谱到同一区域,或者它们在组装图中重叠,则它们绘谱到组装图上的共同的位置。在预聚类步骤中应用的似然阈值可以低于在识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数的步骤中所应用的似然阈值,即,与识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数的步骤相比,预聚类步骤可以是较低严格性的步骤。
可选地,识别可能源自同一突变的靶模板核酸分子的突变序列读数受到预聚类步骤的结果的约束。例如,使用者可以应用较低严格性的预聚类步骤来对绘谱到组装图的共同的区域并且具有合理的源自同一至少一个突变的靶模板核酸分子的突变序列读数的可能性的突变序列读数进行分组。然后,使用者可以将识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数的更高严格性的步骤应用于一组成员中的每个成员,以查看其中哪些成员确实可能源自同一至少一个突变的靶模板核酸分子。使用预聚类步骤的优势在于,相比较低严格性的步骤,较高严格性的步骤将使用更大的处理能力,并且在此示例中,较高严格性的步骤仅应用于通过较低严格性的步骤而分配到同一组的突变序列读数,从而降低了所需的总体处理能力。
可选地,预聚类步骤包括马尔可夫聚类(Markov clustering)或鲁汶聚类(Louvain clustering)(https://micans.org/mcl/以及https://arxiv.org/abs/ 0803.0476)。
可选地,通过将突变序列读数分配到如上所述的具有至少1个、至少2个、至少3个、至少5个或至少k个特征k-mer或至少1个、至少2个、至少3个或至少5个特征突变的同一组中来进行预聚类步骤。可选地,如果突变序列读数具有共同的突变模式,则它们合理地可能源自同一至少一个突变的靶模板核酸分子,并且具有共同的突变模式的突变序列读数是包含至少1个、至少2个、至少3个、至少5个或至少k个共同的特征k-mer或共同的特征突变的突变序列读数。
可选地,如标题“特征k-mer或特征突变”下所述,特征k-mer是不出现(或较不频繁出现)在非突变序列读数中、但在突变序列读数中出现至少两次(可选地至少三次、至少四次、至少五次或至少十次)的k-mer。可选地,特征突变是在突变序列读数中出现至少两次(可选地至少三次、至少四次、至少五次或至少十次)但不出现(或较不频繁出现)在非突变序列读数中的相应位置的核甘酸。
忽略串通组装图的推定路径
在本发明的一些实施方式中,识别构成串通组装图的有效路径的一部分的节点包括:忽略串通组装图的推定路径。
例如,在以下情况下,可以忽略串通组装图的推定路径:
(i)它们的末端与末端序列库中存在的末端不匹配;
(ii)它们是模板碰撞的结果;
(iii)它们长于或短于预期;和/或
(iv)它们具有非典型的覆盖深度。
术语“模板碰撞”是指这样的情况:识别出串通组装图的两条推定路径,它们对应于一个或多个相同的突变序列读数或具有含有相同的突变模式的突变序列读数(两条推定路径发生碰撞)。
忽略串通组装图的末端不匹配的推定路径
该方法可以包括制备至少一个突变的靶模板核酸分子的末端对的序列的文库。例如,文库可以指定第一至少一个靶模板核酸分子具有A末端序列和B末端序列,而第二至少一个靶模板核酸分子具有C末端序列和D末端序列。可以通过对至少一个靶模板核酸分子进行配对末端测序来制备文库。可选地,该方法包括使用末端配对测序对至少一个靶模板核酸分子的末端进行测序。
在这种实施方式中,识别构成串通组装图的有效路径的一部分的节点包括忽略具有错配的末端的推定路径,即,推定路径的末端的序列与文库中的成对末端中的一对不对应。例如,如果文库指定第一至少一个靶模板核酸分子具有A末端序列和B末端序列,而第二至少一个靶模板核酸分子具有C末端序列和D末端序列,则将A末端与D末端配对的推定路径将是错误的路径,应将其忽略。
为了忽略具有错配末端的推定路径,使用者可以将至少一个靶模板核酸分子的末端的序列绘谱到组装图中。可选地,为了帮助使用者由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列,使用者还可能希望将至少一个靶模板核酸分子的末端的序列绘谱到组装图上,以识别每个至少一个靶模板核酸分子在组装图上的起始位置和终止位置。
可选地,至少一个靶模板核酸分子包含至少一个条形码。可选地,至少一个靶模板核酸分子在每个末端包含条形码。术语“在每个末端”意指条形码基本上存在于接近至少一个靶模板核酸分子的两端,例如在至少一个靶模板核酸分子的末端的50个碱基对之内、25个碱基对之内或10个碱基对之内。如果至少一个靶模板核酸分子包含至少一个条形码,则使用者更容易确定推定的路径是否具有错配的末端。这是因为末端序列更具区别性,并且更容易确定看起来错配的两个末端的序列是否确实错配,或者是否已将测序错误引入到末端之一的序列中。
条形码和样品标签
为了本发明的目的,条形码(在本文中也称为“特有的分子标签”或“特有的分子标识符”)是核苷酸的简并序列或随机产生的序列。靶模板核酸分子可以包含1个、2个或3个条形码。根据某些实施方式,每个条形码可以具有与所产生的每一个其他条形码不同的序列。然而,在其他实施方式中,两个或更多个条形码序列可以是相同的,即,条形码序列可以出现不止一次。例如,至少90%的条形码序列可以与每一个其他条形码序列的序列不同。仅要求条形码适当地简并,以使每个靶模板核酸分子与成对样品中的每个其他靶模板核酸分子相比包含特有或基本上特有的序列的条形码。因此,用条形码标记(或标签化)靶模板核酸分子使得靶模板核酸分子彼此区分开,从而有利于本文其他地方讨论的方法。因此,条形码可以被视为特有的分子标签(Unique molecular tag,UMT)。条形码的长度可以为5个、6个、7个、8个、5个至25个、6个至20个或更多个核苷酸。
可选地,如上所述,可以用不同的样品标签来标记不同成对样品中的至少一个靶模板核酸分子。
为了本发明的目的,样品标签是用于标记样品中的至少一个靶模板核酸分子的大部分靶模板核酸分子的标签。可以在其他样品中使用不同的样品标签,以区分哪个至少一个靶模板核酸分子是从哪个样品中衍生出来的。样品标签是已知的核苷酸序列。样品标签的长度可以为5个、6个、7个、8个、5个至25个、6个至20个或更多个核苷酸。
可选地,本发明的方法包括将至少一个条形码或样品标签引入至少一个靶模板核酸分子中的步骤。可以使用任何合适的方法来引入至少一个条形码或样品标签,包括靶核酸的PCR、标签片段化和物理剪切或限制性消化,随后再结合衔接子连接(可选地,粘性末端连接)。例如,可以使用能够与至少一个靶核酸分子杂交的第一组引物,对至少一个靶模板核酸分子进行PCR。可以使用引物通过PCR将至少一个条形码或样品标签引入至少一个靶模板核酸分子的每一个中,该引物包括包含条形码、样品标签和/或衔接子的部分(5'末端部分)、和具有能够与至少一个靶核酸分子杂交(可选地互补)的序列的部分(3'末端部分)。这种引物将与至少一个靶模板核酸分子杂交,然后PCR引物延伸将提供包含条形码、和/或样品标签的至少一个靶模板核酸分子。用这些引物进行的PCR的进一步循环可用于可选地向至少一个靶模板核酸分子的另一端添加其他条形码或样品标签。引物可以是简并的,即,引物的3’末端部分可以彼此相似但不相同。
至少一个条形码或样品标签可以使用标签片段化来引入。至少一个条形码或样品标签可通过以下方式来引入:使用直接标签片段化;或者通过标签片段化引入限定的序列随后使用包括能够与限定的序列杂交的部分和含有条形码、样品标签和/或衔接子的部分的引物进行两个PCR循环。至少一个条形码或样品标签可通过对原始的至少一个靶核酸分子进行限制性消化,随后连接包含条形码和/或样品标签的核酸来引入。应执行原始的至少一个靶核酸分子的限制性消化,以使消化产生包含待测序区域(至少一个靶模板核酸分子)的核酸分子。至少一个条形码或样品标签可以通过剪切至少一个靶核酸分子,随后进行末端修复、A-尾巴连接,然后连接包含条形码和/或样品标签的核酸来引入。
忽略由于模板碰撞而导致的推定路径
该方法可以包括忽略由于模板碰撞而导致的推定路径。如上所述,术语“模板碰撞”是指这样的情况:识别出串通组装图的两条推定路径,它们对应于一个或多个相同的突变序列读数或具有含有相同的突变模式的突变序列读数(两条推定路径发生碰撞)。由于每个有效路径都应包含一组特有的突变序列读数,因此,很有可能相碰撞的两个推定路径中至少有一个是错误的。由于这些原因,忽略由于模板碰撞而导致的推定路径可能会减少所识别的错误路径的数量。
类似地,有可能两个不同的至少一个突变的靶模板核酸分子可能具有相似或相同的突变模式,因为它们在将突变引入至少一个靶模板核酸分子的步骤中没有接受许多突变,或他们偶然接受到的突变是相同的。如果是这种情况,将再次看到模板碰撞。在这种情况下,实际上不可能使用通过分析这些突变较差的至少一个突变靶模板核酸分子而获得的信息以由非突变序列来组装至少一个靶模板核酸分子的至少一部分的序列,并应忽略与由源自这种突变较差的至少一个突变的靶模板核酸分子的非突变序列读数计算的节点相对应的推定路径。
忽略比预期长或短的推定路径
至少一个靶模板核酸分子的长度可以是已知或可预测。
该长度可以通过在实验室环境中对至少一个靶模板核酸分子的长度进行分析来定义。例如,使用者可以使用凝胶电泳来分离至少一个靶模板核酸分子的样品,并将该样品用于本发明的方法。在这种情况下,待确定或产生序列的全部至少一个靶模板核酸分子将在已知的大小范围内。例如,使用者可以从已经暴露于凝胶电泳的凝胶中提取一条条带,该条带对应于长度为6000bp-14000bp或18000bp-12000bp的至少一个靶模板核酸分子。可替代地或另外地,可以使用多种用于确定核酸分子大小的方法,包括凝胶电泳,来对至少一个靶模板核酸分子的大小进行定量。例如,使用者可以使用仪器,例如Agilent Bioanalzyer或FemtoPulse机器。
当至少一个靶模板核酸分子的大小是已知的或可预测的时,比定义的长度更长和更短的推定路径可能是不正确的并应该忽略。
忽略具有非典型覆盖深度的推定路径
本发明的方法可以包括扩增至少一个突变的靶模板核酸分子的步骤,即复制至少一个突变的靶核酸分子以提供至少一个突变的靶模板核酸分子的拷贝。例如,该方法可以包括使用PCR扩增至少一个突变的靶模板核酸分子。扩增将可能导致该至少突变的靶模板核酸分子中的一些比其他的复制次数更多。如果至少一个突变的靶模板核酸分子中的一些比其他至少一个突变的靶模板核酸分子扩增程度更大(具有更高的覆盖深度),则与其他至少一个突变的靶模板核酸分子相比,更大数量的突变序列读数将与对应于那些至少一个突变的靶模板核酸分子的推定路径相关联。类似地,人们期望覆盖深度在至少一个模板核酸分子的长度上将是一致的。因此,人们期望有效路径的不同部分将具有与其相关联的相似数量的突变序列读数(相似的覆盖深度)。如果推定路径包括覆盖深度低的部分和覆盖深度高的部分,则这两个部分可能与同一有效路径不对应,则推定路径是错误的并且应该忽略。
组装至少一个靶模板核酸分子的至少一部分的序列
可选地,由非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列,该非突变序列读数构成串通组装图的有效路径的一部分。
可选地,该方法不包括由突变序列读数产生共有序列。可选地,该方法不包括组装至少一个突变的靶模板核酸分子的序列或至少一个突变的靶模板核酸分子的大部分的步骤。
“共有序列”旨指这样的序列:该序列在每个位置上包含通过分析一组彼此对齐的序列读数来定义的可能的核苷酸,例如,一组彼此对齐的序列读数中每个位置上最频繁出现的核苷酸。
该方法包括以下步骤:由节点组装至少一个靶模板核酸分子的至少一部分的序列,该节点构成串通组装图的有效路径。可选地,组装至少一个靶模板核酸分子的至少一部分的序列的步骤包括:由节点组装至少一个靶模板核酸分子的至少一部分的序列,该节点构成串通组装图的有效路径的一部分。
可选地,组装至少一个靶模板核酸分子的至少一部分的序列包括识别“端壁(endwall)”。端壁是组装图上对应于多个“末端读数+内部读数(int read)”的位置(末端读数对应于至少一个靶模板核酸分子的末端之一,而内部读数对应于内部序列(即,不在至少一个靶模板核酸分子的末端的序列))。可以使用例如配对末端测序方法来产生末端读数。可选地,将端壁识别为组装图上绘谱至少5个端部读数的位置。可选地,将端壁识别为组装图上绘谱2至4个端部读数和绘谱至少5个端部读数或内部读数的位置。可选地,组装至少一个靶模板核酸分子的至少一部分的序列的步骤包括:由节点组装至少一个靶模板核酸分子的至少一部分的序列,该节点构成串通组装图的有效路径的一部分,并且该组装步骤起始于端壁。
如上所述,串通组装图的有效路径可以包括连接的节点。当一系列连接的节点形成(由一个或多个节点组成)串通组装图的单个路径(例如,其中所述图的节点可以是unitig)时,则连接的节点所覆盖的序列表示至少一个靶模板核酸分子的至少一部分。然后可以通过使用标准技术,例如canu(https://github.com/marbl/canu)或miniasm(https://github.com/lh3/miniasm),将节点连接起来,从而组装这些部分。例如,使用者可以由形成有效路径的节点来制备共有序列。
可选地,组装的序列包括主要由非突变序列读数计算出的节点。如果序列是由超过50%的非突变序列读数计算出的节点组装而成的,则组装的序列将包含主要由非突变序列读数计算出的节点。从主要由非突变序列读数计算出的节点组装序列是有利的,因为该组装的序列更可能精确地对应于原始的至少一个靶模板核酸分子序列。然而,如果不可能将非突变序列读数绘谱到串通组装图的推定路径的一部分,则可以从由突变序列读数计算出的节点来组装缺失部分的序列。优选地,组装的序列包括由大于50%、大于60%、大于70%、大于80%、大于90%、大于98%、50%至100%、60%至100%、70%至100%或80%至100%的非突变序列读数计算出的节点。
扩增至少一个靶模板核酸分子
方法可以包括:在对该成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序的步骤之前,对该至少一个靶模板核酸分子进行扩增的步骤。方法可以包括:在对该成对样品的第二样品中的至少一个靶模板核酸分子的区域进行测序的步骤之前,对至少一个靶模板核酸分子进行扩增的步骤。
用于扩增至少一个靶模板核酸分子的合适方法是本领域已知的。例如,通常使用PCR。在上文“将突变引入至少一个靶模板核酸分子中”的标题下更详细地描述了PCR。
使至少一个靶模板核酸分子片段化
该方法可以包括:在对该成对样品的第一样品中的至少一个靶模板核酸分子的区域进行测序的步骤之前,使该至少一个靶模板核酸分子片段化的步骤。可选地,该方法包括:在对该成对样品的第二样品中的至少一个突变的靶模板核酸分子的区域进行测序的步骤之前,使该至少一个突变的靶模板核酸分子片段化的步骤。
可以使用任何合适的技术使至少一个靶模板核酸分子片段化。可以使用限制性消化、或通过与至少一个突变的靶核酸分子的至少一个内部区域互补的引物使用PCR,来进行片段化。优选地,使用产生任意片段的技术进行片段化。术语“任意片段”是指随机生成的片段,例如通过标签片段化生成的片段。使用限制性内切酶生成的片段不是“任意”的,因为限制性消化发生在由所用的限制性内切酶所限定的特定的DNA序列处。甚至更优选地,通过标签片段化进行片段化。如果通过标签片段化进行片段化,则标签片段化反应可选地将衔接子区域引入至少一个突变的靶核酸分子中。该衔接子区域是短DNA序列,其可以编码例如衔接子,以允许使用Illumina技术对至少一个突变的靶核酸分子进行测序。
低偏向DNA聚合酶
如上所述,可以使用低偏向DNA聚合酶引入突变。低偏向DNA聚合酶可以随机地均匀地引入突变,这在本发明的方法中可能是有益的,因为如果以均匀随机的方式引入突变,那么模板核酸分子的任何给定部分会具有特有的突变模式的可能性将更高。如上所述,特有的突变模式可用于识别串通组装图的有效路径。
另外,使用具有高模板扩增偏向的DNA聚合酶进行的方法可能受到限制。具有高模板扩增偏向的DNA聚合酶对一些靶模板核酸分子比对其他靶模板核酸分子的复制和/或突变更好,因此使用这种高偏向DNA聚合酶的测序方法可能无法很好地对一些靶模板核酸分子进行测序。
低偏向DNA聚合酶可以具有低模板扩增偏向和/或低突变偏向。
低突变偏向
展示出低突变偏向的低偏向DNA聚合酶是一种能够以相似的速率使腺嘌呤和胸腺嘧啶、腺嘌呤和鸟嘌呤、腺嘌呤和胞嘧啶、胸腺嘧啶和鸟嘌呤、胸腺嘧啶和胞嘧啶、或鸟嘌呤和胞嘧啶突变的DNA聚合酶。在一个实施方式中,低偏向DNA聚合酶能够以相似的速率使腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶突变。
可选地,低偏向DNA聚合酶能够分别以0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2、或大约1:1的率比使腺嘌呤和胸腺嘧啶、腺嘌呤和鸟嘌呤、腺嘌呤和胞嘧啶、胸腺嘧啶和鸟嘌呤、胸腺嘧啶和胞嘧啶、或鸟嘌呤和胞嘧啶突变。优选地,低偏向DNA聚合酶能够分别以0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2、或大约1:1的率比使鸟嘌呤或腺嘌呤突变。优选地,低偏向DNA聚合酶能够分别以0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2、或大约1:1的率比使胸腺嘧啶和胞嘧啶突变。
在这种实施方式中,在将突变引入多个靶模板核酸分子的步骤中,低偏向DNA聚合酶分别以0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2、或大约1:1的率比使至少一个靶模板核酸分子中的腺嘌呤核苷酸和胸腺嘧啶核苷酸、腺嘌呤核苷酸和鸟嘌呤核苷酸、腺嘌呤核苷酸和胞嘧啶核苷酸、胸腺嘧啶核苷酸和鸟嘌呤核苷酸、胸腺嘧啶核苷酸和胞嘧啶核苷酸、或鸟嘌呤核苷酸和胞嘧啶核苷酸突变。优选地,低偏向DNA聚合酶分别以0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2、或大约1:1的率比使至少一个靶模板核酸分子中的鸟嘌呤核苷酸和腺嘌呤核苷酸突变。优选地,低偏向DNA聚合酶分别以0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2、或大约1:1的率比使至少一个靶模板核酸分子中的胸腺嘧啶核苷酸和胞嘧啶核苷酸突变。
可选地,低偏向DNA聚合酶能够分别以0.5-1.5:0.5-1.5:0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4:0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2:0.8-1.2:0.8-1.2、或大约1:1:1:1的率比使腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶突变。优选地,低偏向DNA聚合酶能够以0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3的率比使腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶突变。
在这种实施方式中,在将突变引入成对样品的第二样品中的至少一个靶模板核酸分子中的步骤中,低偏向DNA聚合酶可以分别以0.5-1.5:0.5-1.5:0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4:0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2:0.8-1.2:0.8-1.2、或大约1:1:1:1的率比使至少一个靶模板核酸分子中的腺嘌呤核苷酸、胸腺嘧啶核苷酸、鸟嘌呤核苷酸和胞嘧啶核苷酸突变。优选地,低偏向DNA聚合酶以0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3的率比使至少一个靶模板核酸分子中的腺嘌呤核苷酸、胸腺嘧啶核苷酸、鸟嘌呤核苷酸和胞嘧啶核苷酸突变。
腺嘌呤、胸腺嘧啶、胞嘧啶和/或鸟嘌呤可以被另一个核苷酸置换。例如,如果低偏向DNA聚合酶能够使腺嘌呤突变,则使用低偏向DNA聚合酶的酶促诱变可以用胸腺嘧啶、鸟嘌呤、或胞嘧啶来置换核酸分子中的至少一个腺嘌呤核苷酸。类似地,如果低偏向DNA聚合酶能够使胸腺嘧啶突变,则使用低偏向DNA聚合酶的酶促诱变可以用腺嘌呤、鸟嘌呤或胞嘧啶来置换至少一个胸腺嘧啶核苷酸。如果低偏向DNA聚合酶能够使鸟嘌呤突变,则使用低偏向DNA聚合酶的酶促诱变可以用胸腺嘧啶、鸟嘌呤、或胞嘧啶来置换至少一个腺嘌呤核苷酸。如果低偏向DNA聚合酶能够使胞嘧啶突变,则使用低偏向DNA聚合酶的酶促诱变可以用胸腺嘧啶、鸟嘌呤、或腺嘌呤来置换至少一个胞嘧啶核苷酸。
低偏向DNA聚合酶可能无法直接置换核苷酸,但其仍可能能够通过取代互补链上的相应核苷酸来使核苷酸突变。例如,如果靶模板核酸分子包含胸腺嘧啶,则在与至少一个靶模板核酸分子互补的至少一个核酸分子的相应位置中将存在腺嘌呤核苷酸。低偏向DNA聚合酶可能能够用鸟嘌呤取代与至少一个靶模板核酸分子互补的至少一个核酸分子的腺嘌呤核苷酸,因此,当与至少一个靶模板核酸分子互补的至少一个核酸分子被复制时,这将导致胞嘧啶存在于相应的复制的至少一个靶模板核酸分子中,原始为胸腺嘧啶(胸腺嘧啶向胞嘧啶置换)处。
在一个实施方式中,低偏向DNA聚合酶使至少一个靶模板核酸中的1%至15%、2%至10%、或大约8%的核苷酸突变。在这种实施方式中,使用低偏向DNA聚合酶的酶促诱变以这种方式进行:至少一个靶模板核酸中有1%至15%、2%至10%、或大约8%核苷酸突变。例如,如果使用者希望使靶模板核酸分子中的大约8%的核苷酸突变,而低偏向DNA聚合酶每轮复制使大约1%的核苷酸突变,则通过酶促诱变将突变引入多个靶模板核酸分子的步骤可以包括在低偏向DNA聚合酶存在下进行8轮复制。
在一个实施方式中,低偏向DNA聚合酶每轮复制能够使至少一个靶模板核酸分子中的0%至3%、0%至2%、0.1%至5%、0.2%至3%、或大约1.5%的核苷酸突变。在一个实施方式中,低偏向DNA聚合酶每轮复制使至少一个靶模板核酸分子中的0%至3%、0%至2%、0.1%至5%、0.2%至3%、或大约1.5%的核苷酸突变。每轮发生的实际突变量可能会变化,但可能平均为0%至3%、0%至2%、0.1%至5%、0.2%至3%、或大约1.5%。
DNA聚合酶是否能够使核苷酸突变,以及如果能够使核苷酸突变,以什么速率突变
低偏向DNA聚合酶每轮复制是否能够使至少一个靶模板核酸分子中一定比例的核苷酸突变,可以通过在低偏向DNA聚合酶存在下扩增已知序列的核酸分子一定数量的复制轮数来确定。然后可以对所得的扩增的核酸分子进行测序,并计算每轮复制中突变的核苷酸的百分比。例如,已知序列的核酸分子可以在低偏向DNA聚合酶存在下使用10轮PCR来扩增。然后可以对所得的核酸分子进行测序。如果所得核酸分子包含10%与在原始已知序列中的相应核苷酸不同的核苷酸,则使用者将理解,低偏向DNA聚合酶平均每轮复制能够使至少一个靶模板核酸分子中的1%的核苷酸突变。类似地,要查看低偏向DNA聚合酶是否在给定方法中使至少一个靶模板核酸分子中一定比例的核苷酸突变,使用者可以对已知序列的核酸分子执行该方法并使用测序来确定该方法完成后突变的核苷酸的百分比。
如果低偏向DNA聚合酶用于扩增核酸分子时,其提供在一些情况下核苷酸(诸如腺嘌呤)被置换或缺失的核酸分子,则该低偏向DNA聚合酶能够使该核苷酸突变。优选地,术语“突变”是指置换突变的引入,并且在一些实施方式中,术语“突变”可以用“引入...中的置换”来取代。
如果在进行使用低偏向DNA聚合酶将突变引入多个靶模板核酸分子的步骤时,低偏向DNA聚合酶使至少一个靶模板核酸分子中的核苷酸如腺嘌呤突变,则该步骤导致一些情况下有核苷酸突变的突变的至少一个靶模板核酸分子。例如,如果在进行使用低偏向DNA聚合酶将突变引入多个靶模板核酸分子的步骤时,低偏向DNA聚合酶使至少一个靶模板核酸分子中的腺嘌呤突变,则该步骤导致有至少一个腺嘌呤被置换或缺失的突变的至少一个靶模板核酸分子。
为了确定DNA聚合酶是否能够引入某些突变,技术人员仅需要使用已知序列的核酸分子来测试DNA聚合酶。合适的已知序列的核酸分子是来自已知序列的细菌基因组例如大肠杆菌MG1655的片段。技术人员可以在低偏向DNA聚合酶存在下使用PCR来扩增已知序列的核酸分子。然后,技术人员可以对扩增的核酸分子进行测序,并确定其序列是否与原始已知序列相同。如果不相同,则技术人员可以确定突变的性质。例如,如果技术人员希望来确定DNA聚合酶是否能够使用核苷酸类似物使腺嘌呤突变,则技术人员可以在核苷酸类似物存在下使用PCR来扩增已知序列的核酸分子,并对所得的扩增的核酸分子进行测序。如果扩增的DNA在与已知序列中腺嘌呤核苷酸对应的位置具有突变,则技术人员将知道DNA聚合酶可以使用核苷酸类似物使腺嘌呤突变。
率比可以按类似的方式计算。例如,如果技术人员希望确定鸟嘌呤核苷酸和胞嘧啶核苷酸突变的率比,则技术人员可以在低偏向DNA聚合酶存在下使用PCR来扩增具有已知序列的核酸分子。然后,技术人员可以对所得的扩增的核酸分子进行测序,并识别多少个鸟嘌呤核苷酸已被置换或缺失,以及多少个胞嘧啶核苷酸已被置换或缺失。率比是已被置换或缺失的鸟嘌呤核苷酸的数目与已被置换或缺失的胞嘧啶核苷酸的数目之比。例如,如果16个鸟嘌呤核苷酸已被取代或缺失,并且8个胞嘧啶核苷酸已被取代或缺失,则鸟嘌呤核苷酸和胞嘧啶核苷酸已分别以16:8或2:1的率比发生突变。
使用核苷酸类似物
低偏向DNA聚合酶可能无法直接(至少不能以高频)用其他核苷酸来取代核苷酸,但是低偏向DNA聚合酶可能仍然能够使用核苷酸类似物使核酸分子突变。低偏向DNA聚合酶可能能够用其他天然核苷酸(即胞嘧啶、鸟嘌呤、腺嘌呤或胸腺嘧啶)或用核苷酸类似物来取代核苷酸。
例如,低偏向DNA聚合酶可以是高保真DNA聚合酶。通常,高保真DNA聚合酶倾向于引入很少的突变,因为其是高度精确的。然而,本发明人已经发现,一些高保真DNA聚合酶可能仍然能够使靶模板核酸分子突变,因为其可能能够将核苷酸类似物引入靶模板核酸分子中。
在一个实施方式中,在不存在核苷酸类似物的情况下,高保真DNA聚合酶每轮复制引入小于0.01%、小于0.0015%、小于0.001%、0%至0.0015%、或0%至0.001%的突变。
在一个实施方式中,低偏向DNA聚合酶能够将核苷酸类似物掺入至少一个靶模板核酸分子中。在一个实施方式中,低偏向DNA聚合酶将核苷酸类似物掺入至少一个靶模板核酸分子中。在一个实施方式中,低偏向DNA聚合酶可以使用核苷酸类似物使腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶突变。在一个实施方式中,低偏向DNA聚合酶使用核苷酸类似物使至少一个靶模板核酸分子中的腺嘌呤、胸腺嘧啶、鸟嘌呤和/或胞嘧啶突变。在一个实施方式中,DNA聚合酶用核苷酸类似物来取代鸟嘌呤、胞嘧啶、腺嘌呤和/或胸腺嘧啶。在一个实施方式中,DNA聚合酶可以用核苷酸类似物来取代鸟嘌呤、胞嘧啶、腺嘌呤和/或胸腺嘧啶。
将核苷酸类似物掺入到至少一个靶模板核酸分子中可以用于使核苷酸突变,因为核苷酸类似物可以代替现有的核苷酸掺入并且核苷酸类似物可以与相反链中的核苷酸配对。例如,可以将dPTP代替嘧啶核苷酸掺入核酸分子(可以取代胸腺嘧啶或胞嘧啶)中。一旦处于核酸链中,在为亚氨基互变异构形式时,dPTP可以与腺嘌呤配对。因此,当形成互补链时,该互补链可在与dPTP互补的位置具有腺嘌呤。类似地,一旦处于核酸链中,在为氨基互变异构形式时,dPTP可与鸟嘌呤配对。因此,当形成互补链时,该互补链可在与dPTP互补的位置具有鸟嘌呤。
例如,如果将dPTP引入本发明的至少一个靶模板核酸分子中,则当形成与该至少一个靶模板核酸分子互补的至少一个核酸分子时,与该至少一个靶模板核酸分子互补的至少一个核酸分子将在与至少一个靶模板核酸分子中的dPTP互补的位置上包含腺嘌呤或鸟嘌呤(取决于dPTP是处于其氨基形式还是亚氨基形式)。当复制与至少一个靶模板核酸分子互补的至少一个核酸分子时,所得的至少一个靶模板核酸分子的复制品将在与至少一个靶模板核酸分子中的dPTP互补的位置上包含胸腺嘧啶或胞嘧啶。因此,可将对胸腺嘧啶或胞嘧啶的突变引入突变的至少一个靶模板核酸分子中。
可替代地,如果在形成至少一个靶模板核酸分子的复制品时,将dPTP引入与至少一个靶模板核酸分子互补的至少一个核酸分子中,则该至少一个靶模板核酸分子的复制品将在与该至少一个靶模板核酸分子互补的至少一个核酸分子中的与dPTP互补的位置上包含腺嘌呤或鸟嘌呤(取决于dPTP的互变异构形式)。因此,可以将对腺嘌呤或鸟嘌呤的突变引入突变的至少一个靶模板核酸分子中。
在一个实施方式中,低偏向DNA聚合酶可以用核苷酸类似物取代胞嘧啶或胸腺嘧啶。在另一个实施方式中,低偏向DNA聚合酶使用核苷酸类似物分别以0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2、或大约1:1的率比引入鸟嘌呤核苷酸或腺嘌呤核苷酸。鸟嘌呤核苷酸或腺嘌呤核苷酸可通过使其与核苷酸类似物(如dPTP)相对地配对的低偏向DNA聚合酶而引入。在另一个实施方式中,低偏向DNA聚合酶使用核苷酸类似物分别以0.7-1.3:0.7-1.3的率比引入鸟嘌呤或腺嘌呤核苷酸。
技术人员可以使用常规方法来确定低偏向DNA聚合酶是否能够将核苷酸类似物掺入到至少一个靶模板核酸分子中、或使用常规方法用核苷酸类似物使至少一个靶模板核酸分子中的腺嘌呤、胸腺嘧啶、鸟嘌呤和/或胞嘧啶突变。
例如,为了确定低偏向DNA聚合酶是否能够将核苷酸类似物掺入至少一个靶模板核酸分子中,技术人员可以使用低偏向DNA聚合酶扩增核酸分子以进行两轮复制。第一轮复制应在核苷酸类似物存在下进行,并且第二轮复制应在不存在核苷酸类似物的情况下进行。可以对所得的扩增的核酸分子进行测序,以查看是否已引入突变,如果已经引入突变,则引入了多少突变。使用者应在没有核苷酸类似物的情况下重复实验,并比较有和没有核苷酸类似物时引入的突变的数量。如果有核苷酸类似物时引入的突变的数量明显高于没有核苷酸类似物引入时的突变的数量,则使用者可以得出:低偏向DNA聚合酶能够使核苷酸类似物掺入。类似地,技术人员可以使用核苷酸类似物来确定DNA聚合酶是否使核苷酸类似物掺入或使腺嘌呤、胸腺嘧啶、鸟嘌呤和/或胞嘧啶突变。技术人员仅需要在核苷酸类似物存在下执行该方法,并查看该方法是否在初始被腺嘌呤、胸腺嘧啶、鸟嘌呤和/或胞嘧啶占据的位置上导致突变。
如果使用者希望使用核苷酸类似物使至少一个靶模板核酸分子突变,则该方法可以包括使用低偏向DNA聚合酶扩增至少一个靶模板核酸分子的步骤,其中使用低偏向DNA聚合酶扩增至少一个靶模板核酸分子的步骤在核苷酸类似物存在下进行,并且扩增至少一个靶模板核酸分子的步骤提供包含核苷酸类似物的至少一个靶模板核酸分子。
合适的核苷酸类似物包括dPTP(2'脱氧-P-核苷-5'-三磷酸)、8-氧代-dGTP(7,8-二氢-8-氧鸟嘌呤)、5Br-dUTP(5-溴代-2'-脱氧-尿苷-5'-三磷酸)、2OH-dATP(2-羟基-2'-脱氧腺苷-5'-三磷酸)、dKTP(9-(2-脱氧-β-D-呋喃核糖基)-N6-甲氧基-2,6,-二氨基嘌呤-5'-三磷酸)和dITP(2'-脱氧肌苷5'-三磷酸)。核苷酸类似物可以是dPTP。核苷酸类似物可用于引入表1中所述的置换突变。
表1
核苷酸 置换
8-氧代-dGTP A:T至C:G和T:A至G:C
dPTP A:T至G:C和G:C至A:T
5Br-dUTP A:T至G:C和T:A至C:G
2OH-dATP A:T至C:G、G:C至T:A和A:T至G:C
dITP A:T至G:C和G:C至A:T
dKTP A:T至G:C和G:C至A:T
不同的核苷酸类似物可以单独或组合使用,以将不同的突变引入至少一个靶模板核酸分子中。因此,低偏向DNA聚合酶可以使用核苷酸类似物来引入鸟嘌呤向腺嘌呤置换突变、胞嘧啶向胸腺嘧啶置换突变、腺嘌呤向鸟嘌呤置换突变、以及胸腺嘧啶向胞嘧啶置换突变。低偏向DNA聚合酶可能能够可选地使用核苷酸类似物来引入鸟嘌呤向腺嘌呤置换突变、胞嘧啶向胸腺嘧啶置换突变、腺嘌呤向鸟嘌呤置换突变、以及胸腺嘧啶向胞嘧啶置换突变。
低偏向DNA聚合酶可能能够分别以0.5-1.5:0.5-1.5:0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4:0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2:0.8-1.2:0.8-1.2、或大约1:1:1:1的率比引入鸟嘌呤向腺嘌呤置换突变、胞嘧啶向胸腺嘧啶置换突变、腺嘌呤向鸟嘌呤置换突变、以及胸腺嘧啶向胞嘧啶置换突变。优选地,低偏向DNA聚合酶能够分别以0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3的率比引入鸟嘌呤向腺嘌呤置换突变、胞嘧啶向胸腺嘧啶置换突变、腺嘌呤向鸟嘌呤置换突变、以及胸腺嘧啶向胞嘧啶置换突变。用于确定低偏向DNA聚合酶是否能够引入置换突变以及以什么率比引入的合适方法在“DNA聚合酶是否能够使核苷酸突变,以及如果能够使核苷酸突变,以什么速率突变”的标题下描述。
在一些方法中,低偏向DNA聚合酶分别以0.5-1.5:0.5-1.5:0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4:0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2:0.8-1.2:0.8-1.2、或大约1:1:1:1的率比引入鸟嘌呤向腺嘌呤置换突变、胞嘧啶向胸腺嘧啶置换突变、腺嘌呤向鸟嘌呤置换突变、以及胸腺嘧啶向胞嘧啶置换突变。优选地,低偏向DNA聚合酶分别以0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3的率比引入鸟嘌呤向腺嘌呤置换突变、胞嘧啶向胸腺嘧啶置换突变、腺嘌呤向鸟嘌呤置换突变、以及胸腺嘧啶向胞嘧啶置换突变。用于确定是否引入了置换突变以及以什么率比引入的合适方法在“DNA聚合酶是否能够使核苷酸突变,以及如果能够使核苷酸突变,以什么速率突变”的标题下描述。
通常,当低偏向DNA聚合酶使用核苷酸类似物引入突变时,这需要多于一轮的复制。在第一轮复制中,低偏向DNA聚合酶引入核苷酸类似物来代替核苷酸,而在第二轮复制中,该核苷酸类似物与天然核苷酸配对以在互补链中引入置换突变。第二轮复制可以在核苷酸类似物存在下进行。然而,该方法可以进一步包括在不存在核苷酸类似物的情况下扩增成对样品的第二样品中的包含核苷酸类似物的至少一个靶模板核酸分子的步骤。在不存在核苷酸类似物的情况下扩增包含核苷酸类似物的至少一个靶模板核酸分子的步骤可以使用低偏向DNA聚合酶来进行。
低模板扩增偏向
低偏向DNA聚合酶可以具有低模板扩增偏向。如果低偏向DNA聚合酶每个循环能够以相似的成功程度来扩增不同的靶模板核酸分子,则该低偏向DNA聚合酶具有低模板扩增偏向。高偏向DNA聚合酶可能难以扩增包含高G:C含量或含有很大程度的二级结构的模板核酸分子。在一个实施方式中,低偏向DNA聚合酶对于长度小于25000个核苷酸、小于10000个核苷酸、为1至15000或1至10000个核苷酸的模板核酸分子具有低模板扩增偏向。
在一个实施方式中,为了确定DNA聚合酶是否具有低模板扩增偏向,技术人员可以使用DNA聚合酶扩增一系列不同的序列,并通过对所得的扩增的DNA进行测序来查看不同的序列是否以不同的水平扩增。例如,技术人员可以选择具有不同特性的一系列短(可能为50个核苷酸)核酸分子,包括具有高GC含量的核酸分子、具有低GC含量的核酸分子、具有很大程度的二级结构的核酸分子以及具有低程度的二级结构的核酸分子。然后,使用者可以使用DNA聚合酶扩增那些序列,并量化核酸分子中的每个核酸分子的扩增水平。在一个实施方式中,如果水平在彼此的25%、20%、10%、或5%之内,则DNA聚合酶具有低模板扩增偏向。
可替代地,在一个实施方式中,如果DNA聚合酶能够以小于0.1、小于0.09、或小于0.08的克默果夫-史密洛夫D(Kolmolgorov-Smirnov D)扩增7kbp-10kbp的片段,则该DNA聚合酶具有低模板扩增偏向。特殊的低偏向DNA聚合酶能够扩增7kbp-10kbp片段的克默果夫-史密洛夫D可用使用实施例4中提供的试验来确定。
低偏向DNA聚合酶可以是高保真DNA聚合酶。高保真DNA聚合酶是一种不是很容易出错的DNA聚合酶,因此当在不存在核苷酸类似物的情况下将高保真DNA聚合酶用于扩增靶模板核酸分子时,通常不会引入大量突变。高保真DNA聚合酶通常不用于引入突变的方法中,因为通常认为容易出错的DNA聚合酶是更有效的。然而,本申请证明了某些高保真聚合酶能够使用核苷酸类似物引入突变,并且与容易出错的DNA聚合酶(例如Taq聚合酶)相比,可以以较低的偏向引入那些突变。
高保真DNA聚合酶具有其他的优势。当与核苷酸类似物一起使用时,高保真DNA聚合酶可用于引入突变,但是在没有核苷酸类似物的情况下,高保真DNA聚合酶可以高度精确地复制靶模板核酸分子。这意味着使用者可以使用相同的DNA聚合酶使至少一个靶模板核酸分子高效突变,并以高精度扩增突变的至少一个靶模板核酸分子。如果用低保真DNA聚合酶来使靶模板核酸分子突变,则可能需要在扩增靶模板核酸分子之前将低保真DNA聚合酶从反应混合物中移除。
高保真DNA聚合酶可具有校对读码活性。校对读码活性可以帮助DNA聚合酶以高精度扩增靶模板核酸序列。例如,低偏向DNA聚合酶可包含校对读码结构域。校对读码结构域可以确认已通过聚合酶添加的核苷酸是否正确(检查其与互补链的相应的核酸正确配对),如果不正确,则从核酸分子中切除该核苷酸。发明人已惊讶地发现,在一些DNA聚合酶中,校对读码结构域将接受天然核苷酸与核苷酸类似物的配对。合适的校对读码结构域的结构和序列是技术人员已知的。包含校对读码结构域的DNA聚合酶包括DNA聚合酶家族I、II和III的成员,例如Pfu聚合酶(衍生自强烈火球菌(Pyrococcus furiosus))、T4聚合酶(衍生自噬菌体T4)和下面详细介绍的热球菌(Thermococcal)聚合酶。
在一个实施方式中,在不存在核苷酸类似物的情况下,高保真DNA聚合酶每轮复制引入小于0.01%、小于0.0015%、小于0.001%、0%至0.0015%、或0%至0.001%的突变。
另外,低偏向DNA聚合酶可包含持续合成能力增强结构域(processivityenhancing domain)。持续合成能力增强结构域允许DNA聚合酶更快地扩增靶模板核酸分子。这是有利的,因为这允许更快地执行本发明的方法。
热球菌聚合酶
在一个实施方式中,低偏向DNA聚合酶是包含SEQ ID NO.2、SEQ ID NO.4、SEQ IDNO.6或SEQ ID NO.7的多肽的片段或变体。SEQ ID NO.2、4、6和7的多肽是热球菌聚合酶。SEQ ID NO.2、SEQ ID NO.4、SEQ ID NO.6或SEQ ID NO.7的聚合酶是具有高保真度的低偏向DNA聚合酶,并且其可以通过掺入核苷酸类似物(例如dPTP)使靶模板核酸分子突变。SEQID NO.2、SEQ ID NO.4、SEQ ID NO.6或SEQ ID NO.7的聚合酶是特别有利的,因为其具有低突变偏向和低模板扩增偏向。SEQ ID NO.2、SEQ ID NO.4、SEQ ID NO.6或SEQ ID NO.7的聚合酶也是具有高度持续合成能力的,并且是包含校对读码结构域的高保真聚合酶,这意味着,在不存在核苷酸类似物的情况下,其可以快速且精确地扩增突变的靶模板核酸分子。
低偏向DNA聚合酶可包含以下序列中的至少400、至少500、至少600、至少700、或至少750个连续氨基酸的片段:
a.SEQ ID NO.2的序列;
b.与SEQ ID NO.2至少95%、至少98%、或至少99%相同的序列;
c.SEQ ID NO.4的序列;
d.与SEQ ID NO.4至少95%、至少98%、或至少99%相同的序列;
e.SEQ ID NO.6的序列;
f.与SEQ ID NO.6至少95%、至少98%、或至少99%相同的序列;
g.SEQ ID NO.7的序列;或
h.与SEQ ID NO.7至少95%、至少98%、或至少99%相同的序列。
优选地,低偏向DNA聚合酶包含以下序列中的至少700个连续氨基酸的片段:
a.SEQ ID NO.2的序列;
b.与SEQ ID NO.2至少98%、或至少99%相同的序列;
c.SEQ ID NO.4的序列;
d.与SEQ ID NO.4至少98%、或至少99%相同的序列;
e.SEQ ID NO.6的序列;
f.与SEQ ID NO.6至少98%、或至少99%相同的序列;
g.SEQ ID NO.7的序列;或
h.与SEQ ID NO.7至少98%、或至少99%相同的序列。
低偏向DNA聚合酶可以包含:
a.SEQ ID NO.2的序列;
b.与SEQ ID NO.2至少95%、至少98%、或至少99%相同的序列;
c.SEQ ID NO.4的序列;
d.与SEQ ID NO.4至少95%、至少98%、或至少99%相同的序列;
e.SEQ ID NO.6的序列;
f.与SEQ ID NO.6至少95%、至少98%、或至少99%相同的序列;
g.SEQ ID NO.7的序列;或
h.与SEQ ID NO.7至少95%、至少98%、或至少99%相同的序列。
优选地,低偏向DNA聚合酶包含:
a.SEQ ID NO.2的序列;
b.与SEQ ID NO.2至少98%、或至少99%相同的序列;
c.SEQ ID NO.4的序列;
d.与SEQ ID NO.4至少98%、或至少99%相同的序列;
e.SEQ ID NO.6的序列;
f.与SEQ ID NO.6至少98%、或至少99%相同的序列;
g.SEQ ID NO.7的序列;或
h.与SEQ ID NO.7至少98%、或至少99%相同的序列。
低偏向DNA聚合酶可以是热球菌聚合酶或其衍生物。SEQ ID NO.2、4、6和7的DNA聚合酶是热球菌聚合酶。热球菌聚合酶是有利的,因为其通常是可用于使用核苷酸类似物以低突变和模板扩增偏向来引入突变的高保真聚合酶。
热球菌聚合酶是具有从热球菌属的菌株分离的聚合酶的多肽序列的聚合酶。热球菌聚合酶的衍生物可以是热球菌聚合酶的至少400、至少500、至少600、至少700、或至少750个连续氨基酸的片段,或与热球菌聚合酶的至少400、至少500、至少600、至少700、或至少750个连续氨基酸的片段至少95%、至少98%、至少99%或100%相同。热球菌聚合酶的衍生物可以与热球菌聚合酶至少95%、至少98%、至少99%、或100%相同。热球菌聚合酶的衍生物可以与热球菌聚合酶至少98%相同。
在本发明的上下文中,来自任何菌株的热球菌聚合酶可以是有效的。在一个实施方式中,热球菌聚合酶衍生自选自由柯达砂热球菌(T.kodakarensis)、速生热球菌(T.celer)、热球菌嗜热古菌(T.siculi)和热球菌属(T.sp)KS-1组成的组的热球菌菌株。来自这些菌株的热球菌聚合酶描述于SEQ ID NO.2、SEQ ID NO.4、SEQ ID NO.6和SEQ IDNO.7。
可选地,低偏向DNA聚合酶是在50℃至90℃、60℃至80℃、或大约68℃的温度具有高催化活性的聚合酶。
实施例
实施例1-使用PrimeStar GXL或其他聚合酶使核酸分子突变
使用标签片段化将DNA分子片段化至合适的大小(例如10kb),并在每个末端连接限定的序列引物位点(衔接子)。
第一步是标签片段化反应以使DNA片段化。在以下条件下,对4μl或更少体积的一种或多种细菌菌株中的50ng高分子量基因组DNA进行标签片段化。将50ng DNA与4μlNextera转座酶(稀释至1:50)和8μl 2×标签片段化缓冲液(20mM Tris[pH7.6],20mMMgCl,20%(v/v)二甲基甲酰胺)合并,总体积为16μl。反应在55℃孵育5分钟,将4μl的NT缓冲液(或0.2%SDS)添加到反应中,反应在室温下孵育5分钟。
按照制造商的说明使用SPRIselect珠粒(Beckman Coulter)清洁标签片段化反应,使用0.6体积的珠粒进行左侧大小选择,并在分子级水中对DNA进行洗脱。
随后在有限的6个循环中结合标准dNTP和dPTP进行PCR。使用Primestar GXL,添加12.5ng标签片段化且纯化的DNA,的总反应体积为25μl,包含:1×GXL缓冲液;dATP、dTTP、dGTP和dCTP各200μM;以及0.5mM dPTP和0.4μM定制引物(表2)。
表2:
Figure BDA0003018947550000271
表2.用于对10kbp模板进行诱变PCR的定制引物。XXXXXX是确定的、具有样品特异性的6nt-8nt条形码(样品标签)序列。NNNNNN是6nt随机核苷酸区域。
反应在Primestar GXL存在下进行以下热循环。最初的空位延伸在68℃进行3分钟,随后在98℃进行10秒,在55℃进行15秒以及68℃进行10分钟,6个循环。
下一阶段是不使用dPTP的PCR,以从模板中除去dPTP并将其取代为转换突变(“回收PCR”)。用SPRIselect珠粒清洁PCR反应除去过量的dPTP和引物,然后使用与在dPTP掺入循环期间引入的片段末端退火的引物再进行10轮(最少1轮,最多20轮)扩增(表3)。
表3
i7流动槽(Flow cell)引物 CAAGCAGAAGACGGCATACGA
i5流动槽引物 AATGATACGGCGACCACCGA
随后进行凝胶提取步骤,以按大小选择在所需大小范围中的扩增和突变的片段,例如7kb-10kb。凝胶提取可以手动或通过自动化系统(例如BluePippin)来完成。随后进行另一轮PCR,16-20个循环(“富集PCR”)。
在扩增限定数量的长突变模板后,对模板进行随机片段化以生成一组重叠的较短片段用于测序。通过标签片段化进行片段化。
使来自上一步骤的长DNA片段进行标准的标签片段化反应(例如Nextera XT或Nextera Flex),不同之处在于将反应分为三个池进行PCR扩增。这使得能够对衍生自原始模板的每个末端的片段(包括样品标签)、以及来自两个末端均已进行新标签片段化的长模板的内部片段进行选择性扩增。这有效地创建了三个池,用于在Illumina仪器(例如MiSeq或HiSeq)上进行测序。
使用标准的Taq(Jena Biosciences)以及Taq和称为LongAmp(新英格兰生物学实验室)的校对读码聚合酶(DeepVent)的混合物重复该方法。
从该实验获得的数据如图1所描绘。没有将dPTP用作对照。读数相对于大肠杆菌(E.coli)基因组进行绘谱,中值突变率达到~8%。
实施例2-比较不同的DNA聚合酶的突变频率
对一系列不同的DNA聚合酶执行诱变(表4)。如实施例1的方法所述,对来自大肠杆菌菌株MG1655的基因组DNA进行标签片段化以产生长片段并清洗珠粒。然后在存在0.5mMdPTP的情况下进行6个循环的“诱变PCR”,SPRIselect珠粒纯化、并在不存在dPTP的情况下进行另外14-16个循环的“回收PCR”。然后使所得的长突变模板进行标准的标签片段化反应(参见实施例1),并在Illumina MiSeq仪器上对“内部”片段进行扩增和测序。
突变率在表4中描述,其中通过dPTP诱变反应使碱基置换的频率标准化,如使用来自已知参照基因组的DNA的Illumina测序所测得的。对于Taq聚合酶,即使在为热球菌聚合酶而优化的缓冲液中使用时,仅~12%的突变发生在模板G+C位点。热球菌属类(Thermococcus-like)聚合酶在模板G+C位点产生58%-69%的突变,而衍生自火球菌(Pyrococcus)的聚合酶在模板G+C位点产生88%的突变。
酶从Jena Biosciences(Taq)、Takara(Primestar变体)、默克密理博(MerckMillipore)(KOD DNA聚合酶)和新英格兰生物学实验室(Phusion)获得。
Taq用提供的缓冲液进行测试,并且还使用Primestar GXL缓冲液(Takara)进行该实验。所有其他反应均使用为每种聚合酶提供的标准缓冲液进行。
表4
Figure BDA0003018947550000281
实施例3-确定dPTP诱变率
我们在一单组反应条件下使用热球菌聚合酶(Primestar GXL;Takara)对具有不同G+C含量(33%-66%)水平的一系列基因组DNA样品执行了dPTP诱变。按在实施例1的方法中所述执行诱变和测序,不同之处在于执行了10个循环的“回收PCR”。如预测的那样,尽管G+C含量存在多样性,但样品之间的突变率大致相似(中值率为7%-8%)(图2)。
实施例4-测量模板扩增偏向
测量了两种聚合酶的模板扩增偏向:Kapa HiFi,其为Illumina测序方案中常用的校对读码聚合酶;以及PrimeStar GXL,其为KOD家族聚合酶,以其扩增长片段的能力而闻名。在第一个实验中,使用Kapa HiFi来扩增有限数量的大小约为2kbp的大肠杆菌基因组DNA模板。然后对这些扩增片段的末端进行测序。用PrimeStar GXL对来自大肠杆菌的大约7kbp-10kbp的片段进行了类似的实验。每个末端序列读数的位置通过相对于大肠杆菌参照基因组绘谱来确定。测量相邻片段末端之间的距离。将这些距离与从均匀分布中随机采样的一组距离进行比较。通过非参数Kolmolgorov-Smirnov检验比较D。当两个样品来自同一分布时,D的值接近零。对于低偏向PrimeStar聚合酶,我们在对50,000个片段末端进行测量时观察到与50,000个基因组位置的均匀随机样品相比D=0.07。对于Kapa HiFi聚合酶,我们在50,000个片段末端观察到D=0.14。
实施例5-测量重构的大小范围
产生突变序列读数和非突变序列读数,并使用计算机实现的方法步骤来确定非突变序列读数的序列。
为了产生突变序列读数,使用片段实施例1中描述的方法产生了突变的靶模板核酸分子片段,不同之处在于片段大小范围限制为1kb-2kb。使用具有V2 500循环流动槽的Illumnia MiSeq对突变的靶模板核酸分子片段进行测序。
为了产生非突变序列读数,进行了以下步骤。第一步是标签片段化反应以使DNA片段化。在以下条件下,对4μl或更少体积的一种或多种细菌菌株中的50ng高分子量基因组DNA进行标签片段化。将50ng DNA与4μl Nextera转座酶(稀释至1∶50)和8μl2×标签片段化缓冲液(20mM Tris[pH7.6],20mM MgCl,20%(v/v)二甲基甲酰胺)混合,总体积为16μl。将反应在55℃孵育5分钟,将4μl的NT缓冲液(或0.2%SDS)添加到反应中,并将反应在室温下孵育5分钟。
按照制造商的说明使用SPRIselect珠粒(Beckman Coulter)清洁标签化反应,使用0.6体积的珠粒进行左侧大小选择,并在分子级水中对DNA进行洗脱。使来自上一步骤的长DNA片段进行标准的标签片段化反应(例如Nextera XT或Nextera Flex),不同之处在于将反应分为三个池进行PCR扩增。这使得能够对衍生自原始模板的每个末端的片段(包括样品标签)、以及来自两个末端均已进行新标签片段化的长模板的内部片段进行选择性扩增。这有效地创建了三个池,用于在Illumina仪器(例如MiSeq或HiSeq)上进行测序。
通过将突变序列读数预聚类为读数组,然后使用A5-miseq组装流程的第1步和第2步对每组突变读数进行从头组装(Coil et al 2015 Bioinformatics),来确定靶模板核酸分子的序列。该分析产生了53053个虚拟片段,其长度分布如图4所示。
实施例6-测试概率算法
使用概率算法来确定两个突变序列读数是否源自同一原始的至少一个模板核酸分子。概率算法的细节如下。
给定两个已与非突变参照序列R进行比对的突变序列读数中的非突变序列读数S1和S2,此处描述的模型试图确定S1和S2是否已被测序出来自同一至少一个突变的模板核酸分子或来自不同的模板。这三个序列的比对可以表示为比对位点的3×N矩阵N,例如单个核苷酸s1,i:s2,j:rk的N个3元组,比对的核苷酸出现在N的同一列y中,例如n.,y。为方便起见,定义将核苷酸A、C、G和T绘谱为整数1、2、3和4,以使A绘谱为1,C绘谱为2,等等。在以下描述的其余部分中暗含了这种绘谱。然后,定义两个4×4概率矩阵:M和E。每个条目mi,j记录了核苷酸i通过诱变过程突变为核苷酸j的概率,i,j∈{A,C,G,T}。类似地,条目ei,j记录了错误地将核苷酸i读取为核苷酸j的条件概率,i,j∈{A,C,G,T},以错误地读取核苷酸为条件。进一步,定义2×N矩阵Q,其中条目q1,y和q2,y表示由测序仪器报告的序列S1和S2的比对位置y上的核苷酸分别被错误读取的概率。最后,使用z∈{0,1}作为是否有两个序列读数源自同一突变模板的指标值,其中z=1表示已测序出S1和S2来自同一模板片段,而z=0表示已测序出S1和S2来自不同的模板片段。
Q和N的值由测序和随后的读数绘谱过程提供/确定,但是M、E和z的值通常是未知的。幸运的是,可以使用多种技术中的任何一种技术,由数据估计这些值(以及任何其他未知参数)。可以基于突变过程的知识,对未知参数的值施加先验分布。在M的行上施加Dirichlet分布,使得:m1,·~Dirichlet(α+β,1-β,1-α,1-β),其中条目对应于事件A→A(无突变)、A→C(颠换)、A→G(转换)、A→T(颠换)。这里,α是未知的转换速率超参数,而β是未知的颠换速率超参数。M的完整先验指定为:
m1,·~Dirichlet(α+β,1-β,1-α,1-β)
m2,·~Dirichlet(1-β,α+β,1-β,1-α)
m3,·~Dirichlet(1-α,1-β,α+β,1-β)
m4,·~Dirichlet(1-β,1-α,1-β,α+β)
实验人员通常可以获得突变过程的先验知识(例如,聚合酶或其他诱变剂的特性的知识),并且可以允许在α和β项上应用超先验。对M的先验可能有更通用的结构。均匀先验适用于矩阵E以及z。
给定上述表示法,给定模型的数据的似然性可以表示为:
P(N,QIM,E,z)=Π=1(z)f(N,QIM,E,i)+(1-z)g(N,QIM,E,i)
其中:
Figure BDA0003018947550000301
Figure BDA0003018947550000302
这里,矩阵下标的中心点表示行或列的所有成员,向量乘法表示点积。1{}是指标函数,如果下标中的表达式为真,则值为1,否则为0。
将似然性与上述先验相结合,得出对未知值进行贝叶斯推断所需的元素。有许多方法可以实现贝叶斯推断,包括用于易于通过分析处理的后验概率分布的精确方法以及一系列蒙特卡洛方法(Monte Carlo)和用于近似后验分布的相关方法。在当前情况下,该模型是以Stan建模语言(参见代码清单X1)实现的,其有助于使用哈密顿蒙特卡洛进行推理以及使用平均场近似和全阶近似进行变分推理。所使用的变分推理近似方法取决于随机梯度下降以使证据下界(Evidence lower bound,ELBO)最大化((Kucukelbir et al 2015https://arxiv.org/abs/1506.03431),这要求概率模型是连续且可微分的。为了满足此要求,z被实现为支撑[0,1]上的连续参数,并且在将z的后验质量集中在0和1附近之前,将β(0.1,0.1)分布应用稀疏化。这种使用离散随机变量的连续松弛的方法被称为“Concrete分布”,并在https://arxiv.org/abs/1611.00712中进行了描述。使用变分推理将模型拟合成至少100个碱基长度的约100个模拟序列比对的集合上在笔记本电脑上仅花费几分钟的CPU时间,即可估算出未知参数的后验,产生图5所示的模型参数的后验分布。
尽管变分推理比许多蒙特卡洛方法要快,但它还不足以分析典型测序运行中生成的数百万个序列读数,因此,开发了一种更快的方法来计算两个读数r0和r1来源于或不来源于同一至少一个突变的靶模板核酸分子的概率。给定诱变过程和测序错误,这些概率可表示为:
P相同-模板(r0,r1)=P(N,QIM,E,z=1)=Π=1f(N,QIM,E,i) (式1)
P不同_模板(r0,r1)=P(N,QIM,E,z=0)=Π=1g(N,QIM,E,i) (式2)
其中,M和E的值已固定为最大后验概率或具有高后验概率的类似值,这是使用总数据集的一个小子集由贝叶斯(或最大似然)推断确定的。N和Q的取值对应于r0和r1与参照序列的比对。然后,可以将源自共同模板的两个读数的对数优势记分(log-odds score)简单地计算为:
分数=log(P相同_模板)-log(P不同_模板) (式3)
如果突变序列读数的成对得分高于某个预定的临界值,则认为它们源自同一至少一个靶模板核酸分子。在当前情况下,该值设置为1000。对模拟数据的测试表明,该对数优势记分可区分两个突变读数是否来自具有高精度和召回性的共同的至少一个靶模板核酸分子(图6)。
实施例7-使用两个相同的引物结合位点和单个引物序列优先扩增更长的模板
如上所述,标签片段化可用于使DNA分子片段化,并同时将引物结合位点(衔接子)引入片段的末端。Nextera标签片段化系统(Illumina)利用装载有两个特有衔接子(在此称为X和Y)之一的转座酶。这生成了随机的产物混合物,其中一些具有相同的末端序列(X-X、Y-Y),而另一些具有特有的末端(X-Y)。标准Nextera方案使用两个不同的引物序列来选择性扩增在每个末端上包含不同衔接子(使用Illumina技术进行测序所必需的)的“X-Y”产物。然而,也可以使用单个引物序列来扩增具有相同的末端衔接子的“X-X”或“Y-Y”片段。
为了生成包含相同的末端衔接子的长突变模板,如实施例1中所述,首先使50ng高分子量基因组DNA(大肠杆菌菌株MG1655)进行标签片段化,然后用SPRIselect珠粒进行清洁。随后按实施例1中详细所述,结合标准dNTP和dPTP进行5个循环的“诱变PCR”,不同之处在于使用了单个引物序列(表5)。
用SPRIselect珠粒对PCR反应进行清除,以除去过量的dPTP和引物,然后在不存在dPTP的情况下再进行10个循环的“回收PCR”,以用转换突变取代模板中的dPTP。用与在dPTP掺入循环期间引入的片段末端退火的单个引物进行回收PCR,从而使得能够选择性扩增在先前PCR步骤中生成的突变模板。
表5:
Figure BDA0003018947550000311
表5.引物用于生成在两个末端均具有相同的基本衔接子结构的突变模板。引物“single_mut”用于对通过Nextera标签片段化生成的DNA片段进行诱变PCR。该引物含有5'部分,该5'部分在片段末端引入另外的引物结合位点。引物“single_rec”能够退火至该位点,并在回收PCR期间用于选择性扩增用single_mut引物生成的突变模板。XXXXXXXXXXXXX是确定的、具有样品特异性的13nt标签序列。NNN是3nt随机核苷酸区域。
作为对照,使用与上述相同的方案生成在每个末端具有不同衔接子的突变模板,不同之处在于,在诱变PCR(见表2)和回收PCR(见表3)期间均使用了两个不同的引物序列。用SPRIselect珠粒对最终的PCR产物进行清洁,并使用2100生物分析仪系统(Agilent)在高灵敏度DNA芯片上进行分析。如图10所示,使用相同的末端衔接子生成的模板平均比包含双衔接子的对照样品明显更长。可以检测到的对照模板的大小最小为~800bp,而单个衔接子样品中没有观察到2000bp以下的模板。
在Agilent 2100生物分析仪(高灵敏度DNA试剂盒)上运行具有相同的末端衔接子(蓝色)的突变模板和具有双衔接子的对照模板,以比较大小特性。相同的末端衔接子的使用抑制了<2kbp的模板的扩增。数据展示在图10中。
实施例8-样品稀释和末端测序以定量DNA模板
将用于分析的长突变模板的初始样品稀释到数量明确的特有的模板分子,以准备进行下游处理、测序和分析,确保每个模板均产生足够的序列数据用于进行有效的模板组装。
首先,使用实施例7中概述的方法从人基因组DNA(基因组NA12878)制备长突变模板。进行了五个诱变PCR循环和六个回收循环,然后进行凝胶提取以选择8kb-10kb大小范围的模板。使用表5中所示的引物,产生侧翼具有相同的衔接子序列的模板。
接着将选定大小的模板样品按10倍的步骤进行连续稀释,然后使用DNA测序来确定每个稀释液中存在的特有的模板的数量。这涉及首先扩增稀释样品以产生每个特有的模板的许多拷贝。使用单个引物(5’-CAAGCAGAAGACGGCATACGA-3’)进行PCR,该引物与在上一个回收PCR步骤中引入的片段末端退火,从而选择性扩增已完成dPTP掺入和取代过程的模板,以产生转换突变。总共需要16-30个PCR循环(取决于样品稀释倍数)来产生足够的材料用于下游处理。
然后使用标准标签片段化反应使每个PCR产物片段化(参见实施例1),并选择性扩增来自模板末端的片段(包括样品标签和特有的分子标签),以准备进行Illumina测序。这是使用一对引物实现的,一个引物与原始模板末端(5’-CAAGCAGAAGACGGCATACGA-3’)特异性退火,另一个引物与标签片段化过程中引入的衔接子(i5定制索引引物;表2)退火。在Illumina MiSeq仪器上对样品进行测序后,基于与原始模板分子的最末端相对应的序列信息,识别出特有的模板。为此,使用了聚类算法(例如vsearch)将具有可能来自同一原始特有的模板的相同序列的读数组合在一起。其他类型的序列信息,例如特有的分子标签,也可以用于此目的。如图11所示,在样品稀释因子和观察到的特有的模板的数量之间观察到清晰的线性关系。利用该信息,可以确定将第二样品中的突变的靶模板核酸分子的数目控制为特有的模板的所需数量而需要的精确稀释因子,以为随后的测序和模板组装作准备。
实施例9-稀释和末端测序以使合并的模板样品标准化
使用上述样品稀释和末端测序方法来定量合并的预备样品中的多个模板库。随后使用该信息将合并样品中各个样品之间的模板数目标准化。
首先,如实施例5所述,对来自96个不同的细菌菌株的基因组DNA样品进行标签片段化和5个循环的诱变PCR,对于每个反应使用具有特有的样品标签的单个引物(single_mut设计;表5)。然后合并等体积的各样品标签化的诱变产物,并用SPRIselect珠粒清洁合并的样品,以去除过量的dPTP和引物。随后使用single_rec引物(表5)进行6个循环的回收PCR以及凝胶提取以选择8kb-10kb大小范围的模板。接着将合并的模板样品以1:1000稀释,并进行末端测序以确定稀释池中的每个细菌菌株中存在的特有的模板的数目。这是使用实施例7中概述的方法实现的。
发现稀释池中各菌株之间的模板计数差异很大,从不可检测到的若干菌株模板到其他菌株有1000多种特有模板不等。选择具有非零模板计数的66个菌株进行标准化。
根据观察到的模板数和每种菌株的已知基因组大小,通过组合不同体积的样品标签化的诱变PCR产物来制备标准化池,目的是使每个菌株的每单位基因组含量(例如每Mb)获得恒定数量的特有的模板。然后如上所述对标准化池进行末端测序,并确定每个菌株的特有的模板的数量。正如预期的,标准化后菌株之间的模板计数变化很小(图12)。
实施例10-利用组装算法组装细菌基因组序列
细菌菌株和DNA的准备
从BEI资源获得62种细菌菌株的DNA。这些菌株是作为人类微生物组计划的一部分而进行测序的分离株。它们代表了一系列的GC含量(25%至69%),表6中提供了更多详细信息。
表6
Figure BDA0003018947550000321
Figure BDA0003018947550000331
Figure BDA0003018947550000341
Figure BDA0003018947550000351
作为对照,包括了另外三种良好表征的基因组的菌株(大肠杆菌K12 MG1655、金黄色葡萄球菌ATCC 25923和富盐菌DS2),它们也涵盖了大范围的的GC含量。按照制造商的说明,使用Qiagen DNeasy UltraClean微生物试剂盒由这些菌株制备DNA,并进行以下更改。将过夜培养物(每个菌株20mL)以3200g离心5分钟以获得细胞沉淀,并且将每个沉淀用5mL无菌的0.9%氯化钠溶液洗涤。在继续进行制造商的方案之前,将每个沉淀重悬于300ul的PowerBead溶液中。针对大肠杆菌和金黄色葡萄球菌,用预热至42℃的50uL洗脱缓冲液洗脱DNA,而富盐菌(H.volcanii)DNA则在35uL洗脱缓冲液中洗脱。
使用Quant-iT PicoGreen dsDNA试剂盒(Thermo Scientific)测量所有样品的DNA浓度。对于物种的子集,还通过Nanodrop(Thermo Scientific)分光光度法和琼脂糖凝胶电泳对DNA的纯度和分子量进行了评估。
Morphoseq文库制备
标签片段化以产生长片段
将来自每个细菌基因组的DNA排列到96孔板中,并将浓度标准化为10ng/ul。大肠杆菌MG1655DNA被包括在两个独立的孔中,以提供用于样品处理和下游数据分析的内部对照。使用在存储缓冲液(5mM Tris-HCl[pH 8.0]、0.5mM EDTA、50%(v/v)甘油)中以1比50稀释的Nextera DNA标签片段化酶(Tagment Enzyme)(TDE1;Illumina)进行标签片段化。对于每个样品,在1×标签片段化缓冲液(10mM Tris-HCl[pH7.6]、10mM MgCl、10%(v/v)二甲基甲酰胺)中制备了包含50ng DNA和4μl稀释的TDE1的16μl标签片段化反应。每个反应在55℃孵育5分钟,然后冷却至10℃。加入SDS至终浓度为0.04%,并将反应在25℃再孵育15分钟。使用SPRIselect磁珠(Beckman Coulter)(0.6×体积的磁珠)对反应物进行左侧清洁,并按照制造商的说明在20μl分子级水中洗脱。
长DNA片段的诱变
掺入诱变性核苷酸类似物dPTP的PCR如下进行。将5μl每个上述清洁的标签片段化反应用作25μl的PCR反应中的模板,该25μl的PCR反应中包含0.625U PrimeStar GXL聚合酶、1×Primestar GXL缓冲液和0.2mM dNTP(均购自Takara),以及0.5mM dPTP(TriLinkBiotechnologies)和0.4mM Morphoseq索引引物(参见表7;每个样品的特有索引)。在诱变PCR期间使用单个引物来扩增在两端均包含相同的Nextera标签片段化衔接子序列的模板。反应按以下循环条件进行:在68℃进行3分钟,随后在98℃进行10秒,在55℃进行15秒以及68℃进行10分钟,进行5个循环。
此时,将等体积的每个反应(4μl)合并到一个单独的池中,然后使用0.6×体积的珠粒对该池进行另一个SPRIselect左侧珠粒清洁。将纯化的池在45μl分子级水中进行洗脱,并使用Qubit dsDNA HS分析试剂盒(Thermo Fisher Scientific)进行定量。
然后,在不存在dPTP的情况下,将合并的包含dPTP的模板样品进一步扩增,从而用天然dNTP取代核苷酸类似物,并通过dPTP的矛盾碱基配对性质产生转换突变。该“回收”PCR包含1.25U PrimeStar GXL聚合酶、1×Primestar GXL缓冲液和0.2mM dNTP(Takara),以及0.4μM回收引物(参见表7)和10ng合并的模板样品,总体积为50μl。使该反应在98℃进行10秒,在55℃进行15秒以及在68℃进行10分钟,进行6个循环。
长模板大小选择
根据大小选择回收PCR产物,以使用DNA凝胶电泳方法除去不需要的短片段。将25μl的回收PCR反应以及DNA大小标准品装载到0.9%琼脂糖凝胶上,并在18V在1×TBE缓冲液中运行过夜(900分钟)。切下与8kb-10kb大小区域相对应的凝胶切片,并按照制造商的说明,使用Wizard SV Gel和PCR Clean-Up试剂盒(Promega)提取DNA。使用Qubit dsDNA HS分析试剂盒(Thermo Fisher Scientific)对按大小选择的DNA进行定量,并使用Bioanalyzer高灵敏度DNA芯片(Agilent)确认大小范围。
模板标准化和定量
在合并的且按大小选择的产物内,使用以下方法来评估单个样品标签化的样品之间的模板的丰度。首先,将按大小选择的DNA稀释至0.1pg/μl,并将2μl稀释液(0.2pg)用作富集PCR的投入物,以制作每个特有的模板的许多拷贝。初步实验表明,这种稀释水平限制了特有模板的多样性足以允许从单个Illumina MiSeq运行的序列输出中进行准确的模板定量。50μl富集PCR还包含1.25U PrimeStar GXL聚合酶,1×Primestar GXL缓冲液和0.2mMdNTPs(Takara),以及0.4μM富集引物(参见表7)。设计富集引物以使其与在先前的回收PCR步骤中引入的片段末端衔接子退火,从而选择性扩增已完成dPTP掺入和取代过程的模板,以产生转换突变。反应进行22个循环,在98℃持续10秒,在55℃持续15秒以及在68℃持续10分钟,随后通过SPRIselect左侧珠粒清洁使用0.6×体积的珠粒进行纯化,并洗脱到20μl分子级水中。然后使用Qubit dsDNA HS分析试剂盒(Thermo Fisher Scientific)对样品进行定量,并使用Bioanalyzer高灵敏度DNA芯片(Agilent)确认大小范围。
接下来,通过第二个标记片段化反应将全长富集产物片段化,并扩增源自原始模板末端的片段(包括样品条形码)以进行Illumina测序。如上所述,为了长模板的产生进行标记片段化,除了使用2ng而不是50ng的起始DNA。经过SDS处理后,通过添加KAPA HiFiHotStart ReadyMix(Kapa Biosystems)至终浓度为1×,与0.23μM富集引物(与位于全长模板的最末端的Illumina p7流动槽衔接子退火)和0.23μM定制i5索引引物(与第二轮标记片段化过程中引入的内部衔接子退火;参见表7)一起来制备末端文库PCR反应。反应如下循环:72℃进行3分钟;98℃进行30秒;98℃进行15秒,55℃进行30秒以及72℃进行30秒,进行12个循环;随后在72℃进行最终延伸5分钟。如上对末端文库进行纯化和定量,得到全长富集产物。
使用V3化学法在MiSeq上进行llumina测序,并产生2×75nt配对末端读数。通过首先基于索引1(i7)读数序列对末端读数数据进行解复用,然后将读取的2个序列(对应于原始基因组插入物的最末端)绘谱到每个菌株的公开可获得的参照基因组,来确定稀释池中每个单独的细菌基因组样品的特有的模板计数。特有模板的数目是通过对特有的绘谱起始位点(对应于模板的起始端或终端)的数目进行计数来计算的,注意每个模板预期有两个位点。
稀释池中各个基因组的观察到的模板计数各不相同,从若干样品的模板的不可检测到其他样品有1000多种特有模板不等。为简单起见,选择了具有非零模板计数的66个样品进行进一步的处理、测序和组装。根据观察到的模板计数和这些样品中的每个样品的已知基因组大小,通过组合不同体积的原始条形码化的诱变PCR产物来制备标准化池,目的是使每个菌株的每单位基因组含量(例如每Mb)获得恒定数量的特有模板。为了验证标准化是否已经成功,通过重复上述文库制备和测序的所有后续步骤(回收PCR、大小选择、模板稀释和富集、末端文库制备、Illumina测序和分析),对标准化池进行进一步处理以进行模板定量。正如预期的,标准化后菌株之间的模板计数变化很小(图11)。
模板瓶颈化(bottlenecking)、富集和短读库处理
根据标准化样品库中的模板定量数据以及已知的长片段大小,我们选择处理总计150万个特有模板的目标,以进行Morphoseq测序和组装。这将确保每个单独的基因组至少20倍的理论长模板覆盖率(最多90倍)。为此,通过以下来制备最终的长模板样品:将前一步骤中按大小选择的回收PCR产物稀释至75万个模板/μl,并使用2μl的稀释液作为富集PCR的投入物,以制备每个特有模板的许多拷贝。如上所述进行富集PCR,不同之处在于进行了16个扩增循环而不是22个扩增循环。
为了处理用于短读(Illumina)测序的最终的长模板样品,首先根据上一节概述的方法来制备、纯化和定量条形码化的末端文库。还使用了Nextera DNA Flex文库制备试剂盒(Nextera DNA Flex Library Prep Kit)(Illumina)并对制造商的方案进行了一些修改,制备了第二个文库,该第二个文库包含从长模板中随机生成的内部片段。具体而言,将BLT(珠链转座体(Bead-Linked Transposome))试剂以1比50的比例稀释在分子级水中,并将10μl的该稀释液用于与10ng长模板DNA的标签片段化反应中。使用定制i5索引引物和定制i7索引引物(表7)而不使是标准Illumina衔接子,进行了十二个文库扩增循环。
制备非突变参照文库
为在最终Morphoseq池中包括的所有66个基因组生成了参照文库。使用10ng基因组DNA作为投入物,根据上述针对内部Morphoseq文库的步骤进行了文库制备,但对NexteraDNA Flex方法进行了进一步的修改。具体来说,将Illumina TB1缓冲液替换为定制标签片段化缓冲液(参见前述),使用KAPA HiFi HotStart ReadyMix(1×终浓度;KapaBiosystems)代替试剂盒聚合酶,并用SPRIselect磁珠(Beckman Coulter)代替Illumina样品纯化珠粒(Sample Purification Bead,SPB)。用于参照文库扩增的热循环条件如下:72℃进行3分钟;98℃进行30秒;98℃进行15秒,55℃进行30秒以及72℃进行30秒,进行12个循环;随后在72℃进行最终延伸5分钟。
为了使参照文库标准化,首先合并等体积的每个样品,然后使用MiSeq试剂纳米试剂盒(MiSeq Reagent Nano Kit)(Illumina)对合并的文库进行测序,用MiSeq V2化学法产生了2×150nt配对末端读数。通过对所得序列数据进行解复用来确定每个单独的基因组的读数计数。然后,通过结合不同体积的每个原始参照文库,将这些计数用于制备标准化池,目的在于实现每个基因组的同等覆盖。
Illumina测序
通过以1:1:20的摩尔比分别组合标准化参比池、morphoseq末端文库和morphoseq内部文库,来制备用于Illumina测序的最终样品。使用NovaSeq 6000仪器和S1流动槽在新南威尔士大学(University of New South Wales)(澳大利亚悉尼)的Ramaciotti基因组学中心(Ramaciotti Centre for Genomics)进行测序,以产生2×150nt配对末端读数。
细菌基因组的组装
细菌基因组组装的工作流程概述如图13所示。
非突变参照组装
每个细菌菌株的基因组均由非突变的末端配对的150个碱基对读数组装而成。使用bbduk v36.99进行初始质量过滤,以除去低质量序列和切除文库衔接子。使用定制python脚本对读数进行解复用,并使用MEGAHIT v1.1.3结合以下定制参数进行组装:修剪级别=3,低局部比例=0.1以及max-tip-len=280,选择这些参数以降低所得的基因组图的复杂性,并有助于在下一阶段中更好地对突变序列进行绘谱(如下所述)。所得的图形化片段组装(gfa文件)用作VG(索引)v1.14.0的投入物,以创建适合绘谱的索引。所得图称为“索引化非突变参照组装图”或仅称为“索引图”。
合成的长读数(morphoread)的生成
使用默认参数的VG(图)v1.14.0将来自每个末端文库(末端读数)的突变读数和合并的内部文库(内部读数)绘谱到其相应的索引化VG细菌基因组组装上,以生成每个样品的一对图形化比对图(Graphical alignment map,GAM)文件。将来自每个样品的GAM对中的数据都与相应的非突变参照组装中的信息结合,使用定制工具进行处理,并存储在HDF5格式的数据库中,这便于对重构原始模板的序列的许多剩余的步骤进行并行处理。Morphoread产生过程由三个主要阶段组成:“端壁识别”、“引发(seeding)”和“扩展”。
用于将靶DNA片段化为长片段并生成最终的短读文库的过程的性质造成了这样一种情况:任何原始模板最末端的序列将只能在成对的Illumina文库的第二读数中找到。当将这些读数绘谱到参照基因组时,它们似乎会突然堆积在与原始长DNA模板的末端相对应的位置。这些位置称为“端壁”,并通过查找绘谱到参照组装中相同位置处的末端组和内部读数组来识别。在上述图案中绘谱有至少五个末端读数的任何位点都标记为端壁。使用内部读数来增大在具有两个至四个绘谱末端读数的位点处的绘谱计数,如果总增大计数至少为五个,则这些位点也被标记为端壁。
端壁指示了参照组装中算法将开始构建合成的长读数的位置,但是每当2个或更多个模板具有相同的起始位置或终止位置时,就有可能具有与不止一个原始DNA模板相对应的单个端壁。每个DNA模板将具有特有的突变模式,因此源自给定模板的读数将包含其模式的子集,这些子集将在VG绘谱中显示为转换错配(transition mismatche)。“引发”阶段分析在末端中的这些突变模式以及每个端壁处的内部读数,将具有相似模式的读数聚类在一起,并为每个聚类创建单个短(400bp-600bp)morphoread实例。每个morphoread实例都包含绘谱的突变读数的基于有向非循环图的表示,它包含被称为“共有图(Consensusgraph)”的情况。共有图的结构大致相当于索引图的子图,并且共有图中的读数位置相当于读数相对于索引图的绘谱位置。共有图和与其对应的索引图的子图之间的主要区别在于,共有图中节点之间的边缘表示通过索引图的绘谱读数的路径,并且每当这种路径遵循索引图中的环路时,该环路中的节点就被复制,从而有效地将索引图中的环路展开,从而消除了任何循环。因此,索引图中的各个节点相当于共有图中的多个节点,并且共有图中的边缘经常(但不总是)相当于索引图中的边缘。共有图存储有关索引组装和绘谱的突变读数的信息,因此可用于创建“共有序列”,该共有序列对应于通过索引图的路径(即不包含任何突变)以及“突变集”,该突变集包含在所有包括的内部读数和末端读数中发现的共有的突变模式。
在“扩展”阶段期间,算法沿着共有图从端壁开始移动,如果它们与共有序列(>90%同一性,>=100bp重叠)相匹配,并且他们的突变模式与突变集共享至少3个突变,且包含的与该突变集不同的突变不超过5个,则将末端读数和内部读数迭代添加到morphoread中。需要大量不同的突变,以减少伪装为突变的单个读数的错误的影响,并且还因为经测试包含在morphoread中的读数可能会绘谱到超出当前共有图的末端并且可能包含尚未包含在morphoread的突变集中的突变的节点上。每次在morphoread中包含新读数时,可以将新节点添加到共有图,因此共有片段可能会变得更长。该算法继续沿着扩展的共有图前进,直到将一个末端读数掺入到morphoread中,这表明已达到原始长DNA模板的远端,或者找不到可用于继续延伸的读数。将每个morphoread的最终共有片段写入FASTA文件,并丢弃所有小于500bp的morphoread。该算法还生成一个BAM文件,该BAM文件含有写入共有序列的所包括的末端读数和内部读数的位置以及每个morphoread的一些概要统计。
杂交基因组组装
使用具有默认参数的Unicycler v0.4.6,将高质量的morphoreads以及非突变参照读数结合到杂交基因组组装中。
结果
与仅短读组装相比,Morphoseq方法始终生产出具有明显更少但更大的支链的组装(Kruskal Wallis,p<0.001)(图14)。对于Morphoseq和仅短读组装,最大支链长度的中位数占基因组大小的百分比分别为55.84%和10.15%,而支链的中位数分别为17和192。细菌基因组的示例性组装度量可在图15中找到。
表7
Figure BDA0003018947550000371
Figure BDA0003018947550000381
Figure BDA0003018947550000391
Figure BDA0003018947550000401
表S2:本研究中使用的引物
a.样品标签序列以粗体显示。
b.在诱变PCR期间,每个样品均使用特有的Morphoseq索引引物。
c.定制i7索引和定制i5索引引物的特有组合用于每个非突变参照文库。
序列表
<110> 朗斯科技有限公司
<120> 测序算法
<130> N411618WO
<150> GB1907101.8
<151> 2018-08-13
<150> GB1813171.4
<151> 2018-08-13
<160> 291
<170> PatentIn version 3.5
<210> 1
<211> 2325
<212> DNA
<213> Thermococcus sp. KS-1
<400> 1
atgatcctcg acactgacta cataactgag aatggaaaac ccgtcataag gattttcaag 60
aaggagaacg gcgagtttaa gattgagtac gataggactt ttgaacccta catttacgcc 120
ctcctgaagg acgattctgc cattgaggag gtcaagaaga taaccgccga gaggcacgga 180
acggttgtaa cggttaagcg ggctgaaaag gttcagaaga agttcctcgg gagaccagtt 240
gaggtctgga aactctactt tactcaccct caggacgtcc cagcgataag ggacaagata 300
cgagagcatc cagcagttat tgacatctac gagtacgaca tacccttcgc caagcgctac 360
ctcatagaca agggattagt gccaatggaa ggcgacgagg agctgaaaat gcttgccttt 420
gatatcgaga cgctctacca tgagggcgag gagttcgccg aggggccaat ccttatgata 480
agctacgccg acgaggaagg ggccagggtg ataacgtgga agaacgcgga tctgccctac 540
gttgacgtcg tctcgacgga gagggagatg ataaagcgct tcctaaaggt ggtcaaagag 600
aaagatcctg acgtcctaat aacctacaac ggcgacaact tcgacttcgc ctacctaaaa 660
aaacgctgtg aaaagcttgg aataaacttc acgctcggaa gggacggaag cgagccgaag 720
attcagagga tgggcgacag gtttgccgtc gaagtgaagg gacggataca cttcgatctc 780
tatcctgtga taagacggac gataaacctg cccacataca cgcttgaggc cgtttatgaa 840
gccgtcttcg gtcagccgaa ggagaaggtc tacgctgagg agatagctac agcttgggag 900
agcggtgaag gccttgagag agtagccaga tactcgatgg aagatgcgaa ggtcacatac 960
gagcttggga aggagttttt ccctatggag gcccagcttt ctcgcttaat cggccagtcc 1020
ctctgggacg tctcccgctc cagcactggc aacctcgttg agtggttcct cctcaggaag 1080
gcctacgaga ggaatgagct ggccccgaac aagcccgatg aaaaggagct ggccagaaga 1140
cgacagagct atgaaggagg ctatgtaaaa gagcccgaga gagggttgtg ggagaacata 1200
gtgtacctag attttagatc tctgtacccc tcaatcatca tcacccacaa cgtctcgccg 1260
gatactctca acagggaagg atgcaaggaa tatgacgttg ccccccaggt cggtcaccgc 1320
ttctgcaagg acttcccagg atttatcccg agcctgcttg gagacctcct agaggagagg 1380
cagaagataa agaagaagat gaaggccacg attgacccga tcgagaggaa gctcctcgat 1440
tacaggcaga gggccatcaa gatcctggcc aacagctact acggttacta cggctatgca 1500
agggcgcgct ggtactgcaa ggagtgtgca gagagcgtaa cggcctgggg aagggagtac 1560
ataacgatga ccatcagaga gatagaggaa aagtacggct ttaaggtaat ctacagcgac 1620
accgacggat tttttgccac aatacctgga gccgatgctg aaaccgtcaa aaagaaggcg 1680
atggagttcc tcaagtatat caacgccaaa ctcccgggcg cgcttgagct cgagtacgag 1740
ggcttctaca aacgcggctt cttcgtcacg aagaagaagt acgcggtgat agacgaggaa 1800
ggcaagataa caacgcgcgg acttgagatt gtgaggcgcg actggagcga gatagcgaaa 1860
gagacgcagg cgagggttct tgaagctttg ctaaaggacg gtgacgtcga gaaggccgtg 1920
aggatagtca aagaagttac cgaaaagctg agcaagtacg aggttccgcc ggagaagctg 1980
gtgatccacg agcagataac gagggattta aaggactaca aggcaaccgg tccccacgtt 2040
gccgttgcca agaggttggc cgcgagagga gtcaaaatac gccctggaac ggtgataagc 2100
tacatcgtgc tcaagggctc tgggaggata ggcgacaggg cgataccgtt cgacgagttc 2160
gacccgacga agcacaagta cgacgccgag tactacattg agaaccaggt tctcccagcc 2220
gttgagagaa ttctgagagc cttcggttac cgcaaggaag acctgcgcta ccagaagacg 2280
agacaggttg gtctgggagc ctggctgaag ccgaagggaa cttga 2325
<210> 2
<211> 774
<212> PRT
<213> Thermococcus sp. KS-1
<400> 2
Met Ile Leu Asp Thr Asp Tyr Ile Thr Glu Asn Gly Lys Pro Val Ile
1 5 10 15
Arg Ile Phe Lys Lys Glu Asn Gly Glu Phe Lys Ile Glu Tyr Asp Arg
20 25 30
Thr Phe Glu Pro Tyr Ile Tyr Ala Leu Leu Lys Asp Asp Ser Ala Ile
35 40 45
Glu Glu Val Lys Lys Ile Thr Ala Glu Arg His Gly Thr Val Val Thr
50 55 60
Val Lys Arg Ala Glu Lys Val Gln Lys Lys Phe Leu Gly Arg Pro Val
65 70 75 80
Glu Val Trp Lys Leu Tyr Phe Thr His Pro Gln Asp Val Pro Ala Ile
85 90 95
Arg Asp Lys Ile Arg Glu His Pro Ala Val Ile Asp Ile Tyr Glu Tyr
100 105 110
Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Val Pro
115 120 125
Met Glu Gly Asp Glu Glu Leu Lys Met Leu Ala Phe Asp Ile Glu Thr
130 135 140
Leu Tyr His Glu Gly Glu Glu Phe Ala Glu Gly Pro Ile Leu Met Ile
145 150 155 160
Ser Tyr Ala Asp Glu Glu Gly Ala Arg Val Ile Thr Trp Lys Asn Ala
165 170 175
Asp Leu Pro Tyr Val Asp Val Val Ser Thr Glu Arg Glu Met Ile Lys
180 185 190
Arg Phe Leu Lys Val Val Lys Glu Lys Asp Pro Asp Val Leu Ile Thr
195 200 205
Tyr Asn Gly Asp Asn Phe Asp Phe Ala Tyr Leu Lys Lys Arg Cys Glu
210 215 220
Lys Leu Gly Ile Asn Phe Thr Leu Gly Arg Asp Gly Ser Glu Pro Lys
225 230 235 240
Ile Gln Arg Met Gly Asp Arg Phe Ala Val Glu Val Lys Gly Arg Ile
245 250 255
His Phe Asp Leu Tyr Pro Val Ile Arg Arg Thr Ile Asn Leu Pro Thr
260 265 270
Tyr Thr Leu Glu Ala Val Tyr Glu Ala Val Phe Gly Gln Pro Lys Glu
275 280 285
Lys Val Tyr Ala Glu Glu Ile Ala Thr Ala Trp Glu Ser Gly Glu Gly
290 295 300
Leu Glu Arg Val Ala Arg Tyr Ser Met Glu Asp Ala Lys Val Thr Tyr
305 310 315 320
Glu Leu Gly Lys Glu Phe Phe Pro Met Glu Ala Gln Leu Ser Arg Leu
325 330 335
Ile Gly Gln Ser Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu
340 345 350
Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala
355 360 365
Pro Asn Lys Pro Asp Glu Lys Glu Leu Ala Arg Arg Arg Gln Ser Tyr
370 375 380
Glu Gly Gly Tyr Val Lys Glu Pro Glu Arg Gly Leu Trp Glu Asn Ile
385 390 395 400
Val Tyr Leu Asp Phe Arg Ser Leu Tyr Pro Ser Ile Ile Ile Thr His
405 410 415
Asn Val Ser Pro Asp Thr Leu Asn Arg Glu Gly Cys Lys Glu Tyr Asp
420 425 430
Val Ala Pro Gln Val Gly His Arg Phe Cys Lys Asp Phe Pro Gly Phe
435 440 445
Ile Pro Ser Leu Leu Gly Asp Leu Leu Glu Glu Arg Gln Lys Ile Lys
450 455 460
Lys Lys Met Lys Ala Thr Ile Asp Pro Ile Glu Arg Lys Leu Leu Asp
465 470 475 480
Tyr Arg Gln Arg Ala Ile Lys Ile Leu Ala Asn Ser Tyr Tyr Gly Tyr
485 490 495
Tyr Gly Tyr Ala Arg Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu Ser
500 505 510
Val Thr Ala Trp Gly Arg Glu Tyr Ile Thr Met Thr Ile Arg Glu Ile
515 520 525
Glu Glu Lys Tyr Gly Phe Lys Val Ile Tyr Ser Asp Thr Asp Gly Phe
530 535 540
Phe Ala Thr Ile Pro Gly Ala Asp Ala Glu Thr Val Lys Lys Lys Ala
545 550 555 560
Met Glu Phe Leu Lys Tyr Ile Asn Ala Lys Leu Pro Gly Ala Leu Glu
565 570 575
Leu Glu Tyr Glu Gly Phe Tyr Lys Arg Gly Phe Phe Val Thr Lys Lys
580 585 590
Lys Tyr Ala Val Ile Asp Glu Glu Gly Lys Ile Thr Thr Arg Gly Leu
595 600 605
Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln Ala
610 615 620
Arg Val Leu Glu Ala Leu Leu Lys Asp Gly Asp Val Glu Lys Ala Val
625 630 635 640
Arg Ile Val Lys Glu Val Thr Glu Lys Leu Ser Lys Tyr Glu Val Pro
645 650 655
Pro Glu Lys Leu Val Ile His Glu Gln Ile Thr Arg Asp Leu Lys Asp
660 665 670
Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Arg Leu Ala Ala
675 680 685
Arg Gly Val Lys Ile Arg Pro Gly Thr Val Ile Ser Tyr Ile Val Leu
690 695 700
Lys Gly Ser Gly Arg Ile Gly Asp Arg Ala Ile Pro Phe Asp Glu Phe
705 710 715 720
Asp Pro Thr Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn Gln
725 730 735
Val Leu Pro Ala Val Glu Arg Ile Leu Arg Ala Phe Gly Tyr Arg Lys
740 745 750
Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Gly Ala Trp
755 760 765
Leu Lys Pro Lys Gly Thr
770
<210> 3
<211> 2325
<212> DNA
<213> Thermococcus celer
<400> 3
atgatcctcg acgctgacta catcaccgaa gatgggaagc ccgtcgtgag gatattcagg 60
aaggagaagg gcgagttcag aatcgactac gacagggact tcgagcccta catctacgcc 120
ctcctgaagg acgattcggc catcgaggag gtgaagagga taaccgttga gcgccacggg 180
aaggccgtca gggttaagcg ggtggagaag gtcgaaaaga agttcctcaa caggccgata 240
gaggtctgga agctctactt caatcacccg caggacgttc cggcgataag ggacgagata 300
aggaagcatc cggccgtcgt tgatatctac gagtacgaca tccccttcgc caagcgctac 360
ctcatcgata aggggctcgt cccgatggag ggggaggagg agctcaaact gatggccttc 420
gacatcgaga ccctctacca cgagggagac gagttcgggg aggggccgat cctgatgata 480
agctacgccg acggggacgg ggcgagggtc ataacctgga agaagatcga cctcccctac 540
gtcgacgtcg tctcgaccga gaaggagatg ataaagcgct tcctccaggt ggtgaaggag 600
aaggacccgg acgtgctcgt aacttacaac ggcgacaact tcgacttcgc ctacctgaag 660
agacgctccg aggagcttgg attgaagttc atcctcggga gggacgggag cgagcccaag 720
atccagcgca tgggcgaccg cttcgccgtc gaggtgaagg ggaggataca cttcgacctc 780
tacccggtga taaggcgcac cgtgaacctg ccgacctaca cgctcgaggc ggtctacgag 840
gccatcttcg ggaggccaaa ggagaaggtc tacgccgggg agatagtgga ggcctgggaa 900
accggcgagg gtcttgagag ggttgcccgc tactccatgg aggacgcaaa ggttaccttc 960
gagctcggga gggagttctt cccgatggag gcccagctct cgaggctcat cggccagggt 1020
ctctgggacg tctcccgctc gagcaccggc aacctggtcg agtggttcct cctgaggaag 1080
gcctacgaga ggaacgaact ggccccgaac aagccgagcg gccgggaagt ggagatcagg 1140
aggcgtggct acgccggtgg ttacgttaag gagccggaga ggggtttatg ggagaacatc 1200
gtgtacctcg actttcgctc tctttacccc tccatcatca taacccacaa cgtctcgccc 1260
gataccctaa acagggaggg ctgtgagaac tacgacgtcg ccccccaggt ggggcataag 1320
ttctgcaaag attttccggg cttcatcccg agcctgctcg gaggcctgct tgaggagagg 1380
cagaagataa agcggaggat gaaggcctct gtggatcccg ttgagcggaa gctcctcgat 1440
tacaggcaga gggccatcaa gatactggcc aacagcttct acggatacta cggctacgcg 1500
agggcgaggt ggtactgcag ggagtgcgcg gagagcgtta ccgcctgggg cagggagtac 1560
atcgataggg tcatcaggga gctcgaggag aagttcggct tcaaggtgct ctacgcggac 1620
acggacggac tgcacgccac gatccccggg gcggacgccg ggaccgtcaa ggagagggcg 1680
agggggttcc tgagatacat caaccccaag ctccccggcc tcctggagct cgagtacgag 1740
gggttctacc tgaggggttt cttcgtgacg aagaagaagt acgcggtcat agacgaggag 1800
ggcaagataa ccacgcgcgg cctcgagata gtcaggcggg actggagcga ggtggccaag 1860
gagacgcagg cgagggtcct ggaggcgata ctgaggcacg gtgacgtcga ggaggccgtt 1920
agaatcgtca gggaggtaac cgaaaagctg agcaagtacg aggttccgcc ggagaaactg 1980
gtgatccacg agcagataac gagggatttg agggactaca aagccacggg accgcacgtg 2040
gcggtggcga agcgcctggc cgggaggggg gtaaggatac gccccgggac ggtgataagc 2100
tacatcgtcc tcaagggctc cggaaggata ggggacaggg cgattccctt cgacgagttc 2160
gacccgacta agcacaggta cgacgccgac tactacatcg agaaccaggt tctgccagcc 2220
gtcgagagga tcctgaaggc cttcggctac cgcaaggagg acctgaaata ccagaagacg 2280
aggcaggtgg gcctgggtgc gtggctcaac gcggggaagg ggtga 2325
<210> 4
<211> 774
<212> PRT
<213> Thermococcus celer
<400> 4
Met Ile Leu Asp Ala Asp Tyr Ile Thr Glu Asp Gly Lys Pro Val Val
1 5 10 15
Arg Ile Phe Arg Lys Glu Lys Gly Glu Phe Arg Ile Asp Tyr Asp Arg
20 25 30
Asp Phe Glu Pro Tyr Ile Tyr Ala Leu Leu Lys Asp Asp Ser Ala Ile
35 40 45
Glu Glu Val Lys Arg Ile Thr Val Glu Arg His Gly Lys Ala Val Arg
50 55 60
Val Lys Arg Val Glu Lys Val Glu Lys Lys Phe Leu Asn Arg Pro Ile
65 70 75 80
Glu Val Trp Lys Leu Tyr Phe Asn His Pro Gln Asp Val Pro Ala Ile
85 90 95
Arg Asp Glu Ile Arg Lys His Pro Ala Val Val Asp Ile Tyr Glu Tyr
100 105 110
Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Val Pro
115 120 125
Met Glu Gly Glu Glu Glu Leu Lys Leu Met Ala Phe Asp Ile Glu Thr
130 135 140
Leu Tyr His Glu Gly Asp Glu Phe Gly Glu Gly Pro Ile Leu Met Ile
145 150 155 160
Ser Tyr Ala Asp Gly Asp Gly Ala Arg Val Ile Thr Trp Lys Lys Ile
165 170 175
Asp Leu Pro Tyr Val Asp Val Val Ser Thr Glu Lys Glu Met Ile Lys
180 185 190
Arg Phe Leu Gln Val Val Lys Glu Lys Asp Pro Asp Val Leu Val Thr
195 200 205
Tyr Asn Gly Asp Asn Phe Asp Phe Ala Tyr Leu Lys Arg Arg Ser Glu
210 215 220
Glu Leu Gly Leu Lys Phe Ile Leu Gly Arg Asp Gly Ser Glu Pro Lys
225 230 235 240
Ile Gln Arg Met Gly Asp Arg Phe Ala Val Glu Val Lys Gly Arg Ile
245 250 255
His Phe Asp Leu Tyr Pro Val Ile Arg Arg Thr Val Asn Leu Pro Thr
260 265 270
Tyr Thr Leu Glu Ala Val Tyr Glu Ala Ile Phe Gly Arg Pro Lys Glu
275 280 285
Lys Val Tyr Ala Gly Glu Ile Val Glu Ala Trp Glu Thr Gly Glu Gly
290 295 300
Leu Glu Arg Val Ala Arg Tyr Ser Met Glu Asp Ala Lys Val Thr Phe
305 310 315 320
Glu Leu Gly Arg Glu Phe Phe Pro Met Glu Ala Gln Leu Ser Arg Leu
325 330 335
Ile Gly Gln Gly Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu
340 345 350
Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala
355 360 365
Pro Asn Lys Pro Ser Gly Arg Glu Val Glu Ile Arg Arg Arg Gly Tyr
370 375 380
Ala Gly Gly Tyr Val Lys Glu Pro Glu Arg Gly Leu Trp Glu Asn Ile
385 390 395 400
Val Tyr Leu Asp Phe Arg Ser Leu Tyr Pro Ser Ile Ile Ile Thr His
405 410 415
Asn Val Ser Pro Asp Thr Leu Asn Arg Glu Gly Cys Glu Asn Tyr Asp
420 425 430
Val Ala Pro Gln Val Gly His Lys Phe Cys Lys Asp Phe Pro Gly Phe
435 440 445
Ile Pro Ser Leu Leu Gly Gly Leu Leu Glu Glu Arg Gln Lys Ile Lys
450 455 460
Arg Arg Met Lys Ala Ser Val Asp Pro Val Glu Arg Lys Leu Leu Asp
465 470 475 480
Tyr Arg Gln Arg Ala Ile Lys Ile Leu Ala Asn Ser Phe Tyr Gly Tyr
485 490 495
Tyr Gly Tyr Ala Arg Ala Arg Trp Tyr Cys Arg Glu Cys Ala Glu Ser
500 505 510
Val Thr Ala Trp Gly Arg Glu Tyr Ile Asp Arg Val Ile Arg Glu Leu
515 520 525
Glu Glu Lys Phe Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly Leu
530 535 540
His Ala Thr Ile Pro Gly Ala Asp Ala Gly Thr Val Lys Glu Arg Ala
545 550 555 560
Arg Gly Phe Leu Arg Tyr Ile Asn Pro Lys Leu Pro Gly Leu Leu Glu
565 570 575
Leu Glu Tyr Glu Gly Phe Tyr Leu Arg Gly Phe Phe Val Thr Lys Lys
580 585 590
Lys Tyr Ala Val Ile Asp Glu Glu Gly Lys Ile Thr Thr Arg Gly Leu
595 600 605
Glu Ile Val Arg Arg Asp Trp Ser Glu Val Ala Lys Glu Thr Gln Ala
610 615 620
Arg Val Leu Glu Ala Ile Leu Arg His Gly Asp Val Glu Glu Ala Val
625 630 635 640
Arg Ile Val Arg Glu Val Thr Glu Lys Leu Ser Lys Tyr Glu Val Pro
645 650 655
Pro Glu Lys Leu Val Ile His Glu Gln Ile Thr Arg Asp Leu Arg Asp
660 665 670
Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Arg Leu Ala Gly
675 680 685
Arg Gly Val Arg Ile Arg Pro Gly Thr Val Ile Ser Tyr Ile Val Leu
690 695 700
Lys Gly Ser Gly Arg Ile Gly Asp Arg Ala Ile Pro Phe Asp Glu Phe
705 710 715 720
Asp Pro Thr Lys His Arg Tyr Asp Ala Asp Tyr Tyr Ile Glu Asn Gln
725 730 735
Val Leu Pro Ala Val Glu Arg Ile Leu Lys Ala Phe Gly Tyr Arg Lys
740 745 750
Glu Asp Leu Lys Tyr Gln Lys Thr Arg Gln Val Gly Leu Gly Ala Trp
755 760 765
Leu Asn Ala Gly Lys Gly
770
<210> 5
<211> 2328
<212> DNA
<213> Thermococcus siculi
<400> 5
atgatcctcg acacggacta catcacggaa gatgggaaac ccgtcataag gatattcaag 60
aaagagaacg gcgagttcaa gatcgagtac gacaggactt ttgaacccta catctacgcc 120
ctcctgaagg acgactccgc gattgaggat gttaaaaaga taaccgccga gaggcacgga 180
acggtggtga aggtcaagcg cgccgaaaag gtgcagaaga agttcctagg caggccggtt 240
gaagtctgga agctctactt cacccacccc caagatgtcc cggcgataag ggacaagatt 300
aggaagcatc cagctgtaat tgacatctac gagtacgaca taccattcgc caagcgctac 360
ctcatcgaca agggcctgat tccgatggag ggtgaagaag agcttaagat gctcgccttc 420
gacattgaga cgctctacca tgagggtgag gagttcgccg aggggcctat tctgatgata 480
agctacgccg acgagagcga ggcacgcgtc atcacctgga agaaaatcga cctcccctac 540
gttgacgtcg tctcaacgga gaaggagatg ataaagcgct tcctccgcgt tgtgaaggag 600
aaagatcccg atgtcctcat aacctacaac ggcgacaact tcgacttcgc ctacctgaag 660
aagcgctgtg aaaagcttgg aataaacttc ctccttggaa gggacgggag cgagccgaag 720
atccagagaa tgggtgaccg cttcgccgtt gaggtgaagg ggaggataca cttcgacctc 780
tatcctgtaa taaggcgcac gataaacctg ccgacctaca tgcttgaggc agtctacgag 840
gccatctttg ggaagccaaa ggagaaggtt tacgccgagg agatagccac cgcttgggaa 900
accggagagg gccttgagag ggtggctcgc tactctatgg aggacgcgaa ggtcacgttt 960
gagcttggaa aggagttctt cccgatggag gcccaacttt cgaggttggt cggccagagc 1020
ttctgggatg tcgcgcgctc aagcacgggc aatctggtcg agtggttcct cctcaggaag 1080
gcctacgaga ggaacgagct ggctccaaac aagccctctg gaagggaata tgacgagagg 1140
cgcggtggat acgccggcgg ctacgtcaag gaaccggaaa agggcctgtg ggagaacata 1200
gtctacctcg actataaatc tctctacccc tcaatcatca tcacccacaa cgtctcgccc 1260
gataccctca accgcgaggg ctgtaaggag tatgacgtag ctccacaggt cggccaccgc 1320
ttctgcaagg actttccagg cttcatcccg agcctgctcg gggatctcct ggaggagagg 1380
cagaagataa agaggaagat gaaggcaaca attgacccga tcgagagaaa gctccttgat 1440
tacaggcaac gggccatcaa gatccttcta aatagttttt acggctacta cggctacgca 1500
agggctcgct ggtactgcaa ggagtgtgcc gagagcgtta cggcatgggg aagggaatat 1560
atcaccatga caatcaggga aatagaagag aagtatggct ttaaagtact ttatgcggac 1620
actgacggct tcttcgcgac gattcccggg gaagatgccg agaccatcaa aaagagggcg 1680
atggagttcc tcaagtacat aaacgccaaa ctccccggtg cgctcgaact tgagtacgag 1740
gacttctaca ggcgcggctt cttcgtcacc aagaagaaat acgcggttat cgacgaggag 1800
ggcaagataa caacgcgcgg gctggagatc gtcaggcgcg actggagcga gatagccaag 1860
gagacgcagg cgcgggttct ggaggccctt ctgaaggacg gtgacgtcga agaggccgtg 1920
agcatagtca aagaagtgac cgagaagctg agcaagtacg aggttccgcc ggagaagctc 1980
gttatccacg agcagataac gcgcgagctg aaggactaca aggcaacggg accacacgtg 2040
gcgatagcga agaggttagc cgcgagaggc gtcaaaatcc gccccgggac agtcatcagc 2100
tacatcgtgc tcaagggctc cgggaggata ggcgacaggg cgattccctt cgacgagttc 2160
gaccccacga agcacaagta cgatgcagag tactacatcg agaaccaggt tctacctgcc 2220
gtcgagagga ttctgaaggc cttcggctat cgcggtgagg agctcagata ccagaagacg 2280
aggcaggttg gacttggggc gtggctgaag ccgaagggga aggggtga 2328
<210> 6
<211> 775
<212> PRT
<213> Thermococcus siculi
<400> 6
Met Ile Leu Asp Thr Asp Tyr Ile Thr Glu Asp Gly Lys Pro Val Ile
1 5 10 15
Arg Ile Phe Lys Lys Glu Asn Gly Glu Phe Lys Ile Glu Tyr Asp Arg
20 25 30
Thr Phe Glu Pro Tyr Ile Tyr Ala Leu Leu Lys Asp Asp Ser Ala Ile
35 40 45
Glu Asp Val Lys Lys Ile Thr Ala Glu Arg His Gly Thr Val Val Lys
50 55 60
Val Lys Arg Ala Glu Lys Val Gln Lys Lys Phe Leu Gly Arg Pro Val
65 70 75 80
Glu Val Trp Lys Leu Tyr Phe Thr His Pro Gln Asp Val Pro Ala Ile
85 90 95
Arg Asp Lys Ile Arg Lys His Pro Ala Val Ile Asp Ile Tyr Glu Tyr
100 105 110
Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Ile Pro
115 120 125
Met Glu Gly Glu Glu Glu Leu Lys Met Leu Ala Phe Asp Ile Glu Thr
130 135 140
Leu Tyr His Glu Gly Glu Glu Phe Ala Glu Gly Pro Ile Leu Met Ile
145 150 155 160
Ser Tyr Ala Asp Glu Ser Glu Ala Arg Val Ile Thr Trp Lys Lys Ile
165 170 175
Asp Leu Pro Tyr Val Asp Val Val Ser Thr Glu Lys Glu Met Ile Lys
180 185 190
Arg Phe Leu Arg Val Val Lys Glu Lys Asp Pro Asp Val Leu Ile Thr
195 200 205
Tyr Asn Gly Asp Asn Phe Asp Phe Ala Tyr Leu Lys Lys Arg Cys Glu
210 215 220
Lys Leu Gly Ile Asn Phe Leu Leu Gly Arg Asp Gly Ser Glu Pro Lys
225 230 235 240
Ile Gln Arg Met Gly Asp Arg Phe Ala Val Glu Val Lys Gly Arg Ile
245 250 255
His Phe Asp Leu Tyr Pro Val Ile Arg Arg Thr Ile Asn Leu Pro Thr
260 265 270
Tyr Met Leu Glu Ala Val Tyr Glu Ala Ile Phe Gly Lys Pro Lys Glu
275 280 285
Lys Val Tyr Ala Glu Glu Ile Ala Thr Ala Trp Glu Thr Gly Glu Gly
290 295 300
Leu Glu Arg Val Ala Arg Tyr Ser Met Glu Asp Ala Lys Val Thr Phe
305 310 315 320
Glu Leu Gly Lys Glu Phe Phe Pro Met Glu Ala Gln Leu Ser Arg Leu
325 330 335
Val Gly Gln Ser Phe Trp Asp Val Ala Arg Ser Ser Thr Gly Asn Leu
340 345 350
Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala
355 360 365
Pro Asn Lys Pro Ser Gly Arg Glu Tyr Asp Glu Arg Arg Gly Gly Tyr
370 375 380
Ala Gly Gly Tyr Val Lys Glu Pro Glu Lys Gly Leu Trp Glu Asn Ile
385 390 395 400
Val Tyr Leu Asp Tyr Lys Ser Leu Tyr Pro Ser Ile Ile Ile Thr His
405 410 415
Asn Val Ser Pro Asp Thr Leu Asn Arg Glu Gly Cys Lys Glu Tyr Asp
420 425 430
Val Ala Pro Gln Val Gly His Arg Phe Cys Lys Asp Phe Pro Gly Phe
435 440 445
Ile Pro Ser Leu Leu Gly Asp Leu Leu Glu Glu Arg Gln Lys Ile Lys
450 455 460
Arg Lys Met Lys Ala Thr Ile Asp Pro Ile Glu Arg Lys Leu Leu Asp
465 470 475 480
Tyr Arg Gln Arg Ala Ile Lys Ile Leu Leu Asn Ser Phe Tyr Gly Tyr
485 490 495
Tyr Gly Tyr Ala Arg Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu Ser
500 505 510
Val Thr Ala Trp Gly Arg Glu Tyr Ile Thr Met Thr Ile Arg Glu Ile
515 520 525
Glu Glu Lys Tyr Gly Phe Lys Val Leu Tyr Ala Asp Thr Asp Gly Phe
530 535 540
Phe Ala Thr Ile Pro Gly Glu Asp Ala Glu Thr Ile Lys Lys Arg Ala
545 550 555 560
Met Glu Phe Leu Lys Tyr Ile Asn Ala Lys Leu Pro Gly Ala Leu Glu
565 570 575
Leu Glu Tyr Glu Asp Phe Tyr Arg Arg Gly Phe Phe Val Thr Lys Lys
580 585 590
Lys Tyr Ala Val Ile Asp Glu Glu Gly Lys Ile Thr Thr Arg Gly Leu
595 600 605
Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln Ala
610 615 620
Arg Val Leu Glu Ala Leu Leu Lys Asp Gly Asp Val Glu Glu Ala Val
625 630 635 640
Ser Ile Val Lys Glu Val Thr Glu Lys Leu Ser Lys Tyr Glu Val Pro
645 650 655
Pro Glu Lys Leu Val Ile His Glu Gln Ile Thr Arg Glu Leu Lys Asp
660 665 670
Tyr Lys Ala Thr Gly Pro His Val Ala Ile Ala Lys Arg Leu Ala Ala
675 680 685
Arg Gly Val Lys Ile Arg Pro Gly Thr Val Ile Ser Tyr Ile Val Leu
690 695 700
Lys Gly Ser Gly Arg Ile Gly Asp Arg Ala Ile Pro Phe Asp Glu Phe
705 710 715 720
Asp Pro Thr Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn Gln
725 730 735
Val Leu Pro Ala Val Glu Arg Ile Leu Lys Ala Phe Gly Tyr Arg Gly
740 745 750
Glu Glu Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Gly Ala Trp
755 760 765
Leu Lys Pro Lys Gly Lys Gly
770 775
<210> 7
<211> 774
<212> PRT
<213> Thermococcus kodakarensis
<400> 7
Met Ile Leu Asp Thr Asp Tyr Ile Thr Glu Asp Gly Lys Pro Val Ile
1 5 10 15
Arg Ile Phe Lys Lys Glu Asn Gly Glu Phe Lys Ile Glu Tyr Asp Arg
20 25 30
Thr Phe Glu Pro Tyr Phe Tyr Ala Leu Leu Lys Asp Asp Ser Ala Ile
35 40 45
Glu Glu Val Lys Lys Ile Thr Ala Glu Arg His Gly Thr Val Val Thr
50 55 60
Val Lys Arg Val Glu Lys Val Gln Lys Lys Phe Leu Gly Arg Pro Val
65 70 75 80
Glu Val Trp Lys Leu Tyr Phe Thr His Pro Gln Asp Val Pro Ala Ile
85 90 95
Arg Asp Lys Ile Arg Glu His Pro Ala Val Ile Asp Ile Tyr Glu Tyr
100 105 110
Asp Ile Pro Phe Ala Lys Arg Tyr Leu Ile Asp Lys Gly Leu Val Pro
115 120 125
Met Glu Gly Asp Glu Glu Leu Lys Met Leu Ala Phe Asp Ile Glu Thr
130 135 140
Leu Tyr Glu Glu Gly Glu Glu Phe Ala Glu Gly Pro Ile Leu Met Ile
145 150 155 160
Ser Tyr Ala Asp Glu Glu Gly Ala Arg Val Ile Thr Trp Lys Asn Val
165 170 175
Asp Leu Pro Tyr Val Asp Val Val Ser Thr Glu Arg Glu Met Ile Lys
180 185 190
Arg Phe Leu Arg Val Val Lys Glu Lys Asp Pro Asp Val Leu Ile Thr
195 200 205
Tyr Asn Gly Asp Asn Phe Asp Phe Ala Tyr Leu Lys Lys Arg Cys Glu
210 215 220
Lys Leu Gly Ile Asn Phe Ala Leu Gly Arg Asp Gly Ser Glu Pro Lys
225 230 235 240
Ile Gln Arg Met Gly Asp Arg Phe Ala Val Glu Val Lys Gly Arg Ile
245 250 255
His Phe Asp Leu Tyr Pro Val Ile Arg Arg Thr Ile Asn Leu Pro Thr
260 265 270
Tyr Thr Leu Glu Ala Val Tyr Glu Ala Val Phe Gly Gln Pro Lys Glu
275 280 285
Lys Val Tyr Ala Glu Glu Ile Thr Thr Ala Trp Glu Thr Gly Glu Asn
290 295 300
Leu Glu Arg Val Ala Arg Tyr Ser Met Glu Asp Ala Lys Val Thr Tyr
305 310 315 320
Glu Leu Gly Lys Glu Phe Leu Pro Met Glu Ala Gln Leu Ser Arg Leu
325 330 335
Ile Gly Gln Ser Leu Trp Asp Val Ser Arg Ser Ser Thr Gly Asn Leu
340 345 350
Val Glu Trp Phe Leu Leu Arg Lys Ala Tyr Glu Arg Asn Glu Leu Ala
355 360 365
Pro Asn Lys Pro Asp Glu Lys Glu Leu Ala Arg Arg Arg Gln Ser Tyr
370 375 380
Glu Gly Gly Tyr Val Lys Glu Pro Glu Arg Gly Leu Trp Glu Asn Ile
385 390 395 400
Val Tyr Leu Asp Phe Arg Ser Leu Tyr Pro Ser Ile Ile Ile Thr His
405 410 415
Asn Val Ser Pro Asp Thr Leu Asn Arg Glu Gly Cys Lys Glu Tyr Asp
420 425 430
Val Ala Pro Gln Val Gly His Arg Phe Cys Lys Asp Phe Pro Gly Phe
435 440 445
Ile Pro Ser Leu Leu Gly Asp Leu Leu Glu Glu Arg Gln Lys Ile Lys
450 455 460
Lys Lys Met Lys Ala Thr Ile Asp Pro Ile Glu Arg Lys Leu Leu Asp
465 470 475 480
Tyr Arg Gln Arg Ala Ile Lys Ile Leu Ala Asn Ser Tyr Tyr Gly Tyr
485 490 495
Tyr Gly Tyr Ala Arg Ala Arg Trp Tyr Cys Lys Glu Cys Ala Glu Ser
500 505 510
Val Thr Ala Trp Gly Arg Glu Tyr Ile Thr Met Thr Ile Lys Glu Ile
515 520 525
Glu Glu Lys Tyr Gly Phe Lys Val Ile Tyr Ser Asp Thr Asp Gly Phe
530 535 540
Phe Ala Thr Ile Pro Gly Ala Asp Ala Glu Thr Val Lys Lys Lys Ala
545 550 555 560
Met Glu Phe Leu Lys Tyr Ile Asn Ala Lys Leu Pro Gly Ala Leu Glu
565 570 575
Leu Glu Tyr Glu Gly Phe Tyr Glu Arg Gly Phe Phe Val Thr Lys Lys
580 585 590
Lys Tyr Ala Val Ile Asp Glu Glu Gly Lys Ile Thr Thr Arg Gly Leu
595 600 605
Glu Ile Val Arg Arg Asp Trp Ser Glu Ile Ala Lys Glu Thr Gln Ala
610 615 620
Arg Val Leu Glu Ala Leu Leu Lys Asp Gly Asp Val Glu Lys Ala Val
625 630 635 640
Arg Ile Val Lys Glu Val Thr Glu Lys Leu Ser Lys Tyr Glu Val Pro
645 650 655
Pro Glu Lys Leu Val Ile His Glu Gln Ile Thr Arg Asp Leu Lys Asp
660 665 670
Tyr Lys Ala Thr Gly Pro His Val Ala Val Ala Lys Arg Leu Ala Ala
675 680 685
Arg Gly Val Lys Ile Arg Pro Gly Thr Val Ile Ser Tyr Ile Val Leu
690 695 700
Lys Gly Ser Gly Arg Ile Gly Asp Arg Ala Ile Pro Phe Asp Glu Phe
705 710 715 720
Asp Pro Thr Lys His Lys Tyr Asp Ala Glu Tyr Tyr Ile Glu Asn Gln
725 730 735
Val Leu Pro Ala Val Glu Arg Ile Leu Arg Ala Phe Gly Tyr Arg Lys
740 745 750
Glu Asp Leu Arg Tyr Gln Lys Thr Arg Gln Val Gly Leu Ser Ala Trp
755 760 765
Leu Lys Pro Lys Gly Thr
770
<210> 8
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 8
tagaattgaa gaa 13
<210> 9
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 9
tggccatagc tac 13
<210> 10
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 10
gtcatctgcg acc 13
<210> 11
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 11
ttcgcgcttg gac 13
<210> 12
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 12
cgcgaaccgt tag 13
<210> 13
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 13
ttgcagcctc taa 13
<210> 14
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 14
tctactagta cga 13
<210> 15
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 15
gtaggttcta ctg 13
<210> 16
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 16
gccaatatca agt 13
<210> 17
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 17
ctatcttgct ggt 13
<210> 18
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 18
gttctcatag gta 13
<210> 19
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 19
gtctatgaac caa 13
<210> 20
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 20
cggagcgctt att 13
<210> 21
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 21
tatgccatga gga 13
<210> 22
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 22
atacgactcg gag 13
<210> 23
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 23
gatggaactc agc 13
<210> 24
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 24
ggacctgcat gaa 13
<210> 25
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 25
tagactggaa ctt 13
<210> 26
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 26
gaattacctc gtt 13
<210> 27
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 27
aggatcaggc tac 13
<210> 28
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 28
acgcgtagaa gag 13
<210> 29
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 29
cttcgagact tac 13
<210> 30
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 30
gacggctaac tcc 13
<210> 31
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 31
ttagcattct ctt 13
<210> 32
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 32
gcaaggcata gta 13
<210> 33
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 33
acctagatat gga 13
<210> 34
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 34
acgccaaggc gta 13
<210> 35
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 35
tatgacggat ccg 13
<210> 36
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 36
cctccattag aga 13
<210> 37
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 37
attgaatact ctg 13
<210> 38
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 38
gagatgagaa gaa 13
<210> 39
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 39
tctgagtagc cgg 13
<210> 40
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 40
aataggtagt acg 13
<210> 41
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 41
gtcgaagaag tcc 13
<210> 42
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 42
tactgcatct cgt 13
<210> 43
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 43
gacgtattag agc 13
<210> 44
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 44
cctgcattat tcg 13
<210> 45
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 45
acgaatgatg ctc 13
<210> 46
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 46
tactagcaga gat 13
<210> 47
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 47
ctcctcatct tcc 13
<210> 48
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 48
tcctctgcgc tgc 13
<210> 49
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 49
ccttctcagt ccg 13
<210> 50
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 50
cagcttcata gcg 13
<210> 51
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 51
ttgactctcg cgc 13
<210> 52
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 52
tatcctgagc gat 13
<210> 53
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 53
aacgcctagc cga 13
<210> 54
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 54
ccgaagacgt cat 13
<210> 55
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 55
gagttctcca gat 13
<210> 56
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 56
tgcatccgcg ctt 13
<210> 57
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 57
cctgaactca agt 13
<210> 58
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 58
ggtcgtatgc gta 13
<210> 59
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 59
aggcctctct acc 13
<210> 60
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 60
gtactccatc caa 13
<210> 61
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 61
cagcggacgc gct 13
<210> 62
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 62
atctctctta gca 13
<210> 63
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 63
aagcaataat aat 13
<210> 64
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 64
aaggcgactc cga 13
<210> 65
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 65
acgtctctag gag 13
<210> 66
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 66
ccatcagacc tct 13
<210> 67
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 67
acttaatcgt act 13
<210> 68
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 68
tggaattctc caa 13
<210> 69
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 69
ccatacgatc agg 13
<210> 70
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 70
ttatggagca ata 13
<210> 71
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 71
gctcggcgtt cga 13
<210> 72
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 72
ttggccagtc gct 13
<210> 73
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 73
cagatacgta gag 13
<210> 74
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 74
aatgctatta tcc 13
<210> 75
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 75
gcagcatgcc gat 13
<210> 76
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 76
ggagagttac ctc 13
<210> 77
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 77
gagagtccat gat 13
<210> 78
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 78
caatctattc tga 13
<210> 79
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 79
gctcttagta tcc 13
<210> 80
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 80
ccatagttat ggt 13
<210> 81
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 81
tgcgagatcg aag 13
<210> 82
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 82
agagaagtcg agt 13
<210> 83
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 83
ggtaactcca tat 13
<210> 84
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 84
tgctattcca ggc 13
<210> 85
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 85
aaccgcgagg ctc 13
<210> 86
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 86
ttctagagat acc 13
<210> 87
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 87
ttcgctcaag tat 13
<210> 88
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 88
cagagaaggc gca 13
<210> 89
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 89
tagaattggc ctc 13
<210> 90
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 90
ggccattctc cag 13
<210> 91
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 91
tccaacgcgc gtt 13
<210> 92
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 92
gccgcagatt acg 13
<210> 93
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 93
gcagttcgaa cgc 13
<210> 94
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 94
ttctctctgc agg 13
<210> 95
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 95
taagctacca gcg 13
<210> 96
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 96
ctgcatgagg ttg 13
<210> 97
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 97
ttgcctagcg agg 13
<210> 98
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 98
caactgaatt agg 13
<210> 99
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 99
aagcggtcct ctt 13
<210> 100
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 100
aatggaagga ccg 13
<210> 101
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 101
gagttagtaa gtt 13
<210> 102
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 102
ttcctaattc caa 13
<210> 103
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 103
gttctggttc gct 13
<210> 104
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 104
gttcatctct tcc 13
<210> 105
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 105
attccgagga aga 13
<210> 106
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 106
cttagccgag aga 13
<210> 107
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 107
gtctgctacg ctt 13
<210> 108
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 108
atggcgccgc gca 13
<210> 109
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 109
taattggtta tct 13
<210> 110
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 110
tcggttataa gtc 13
<210> 111
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 111
tgcctgagaa cgt 13
<210> 112
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 112
agatgcggtt aac 13
<210> 113
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 113
atggaatagg cga 13
<210> 114
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 114
agagatgcga tcg 13
<210> 115
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 115
ctccaactaa cgt 13
<210> 116
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 116
gccttgctac tgg 13
<210> 117
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 117
cttcgtctct acg 13
<210> 118
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 118
acgctcatag cct 13
<210> 119
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 119
gtcgaagata agg 13
<210> 120
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 120
gccggagtcc tcg 13
<210> 121
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 121
tatacggcga cct 13
<210> 122
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 122
aggtagatat tcg 13
<210> 123
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 123
ttaaggtact gct 13
<210> 124
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 124
cggatctggt ata 13
<210> 125
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 125
gaggtctcgg agg 13
<210> 126
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 126
ggcatcgatg gac 13
<210> 127
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 127
gatctccgat ata 13
<210> 128
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 128
gattcggaat act 13
<210> 129
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 129
ctgcgatccg gcc 13
<210> 130
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 130
gatccggttg caa 13
<210> 131
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 131
cgtcaggctt gac 13
<210> 132
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 132
tcggcaaggc gag 13
<210> 133
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 133
gaacggcgaa cgc 13
<210> 134
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 134
cctcaagcgg act 13
<210> 135
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 135
gaagccagat ggt 13
<210> 136
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> Sample tag sequence
<400> 136
tgctcatacc aat 13
<210> 137
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> i7 custom index primer (Table 2)
<220>
<221> misc_feature
<222> (25)..(36)
<223> n is a, c, g or t
<400> 137
caagcagaag acggcatacg agatnnnnnn nnnnnngtct cgtgggctcg g 51
<210> 138
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> i5 custom index primer (Table 2)
<220>
<221> misc_feature
<222> (30)..(41)
<223> n is a, c, g, or t
<400> 138
aatgatacgg cgaccaccga gatctacacn nnnnnnnnnn ntcgtcggca gcgtc 55
<210> 139
<211> 21
<212> DNA
<213> Artificial Sequence
<220>
<223> i7 flow cell primer (Table 3)
<400> 139
caagcagaag acggcatacg a 21
<210> 140
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> i5 flow cell primer (Table 3)
<400> 140
aatgatacgg cgaccaccga 20
<210> 141
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> single_mut primer for mutagenesis (Table 5)
<220>
<221> misc_feature
<222> (19)..(34)
<223> n is a, c, g, or t
<400> 141
tcggtctgcg cctctagcnn nnnnnnnnnn nnnngtctcg tgggctcgga g 51
<210> 142
<211> 42
<212> DNA
<213> Artificial Sequence
<220>
<223> single_rec primer for recovery (Table 5)
<400> 142
caagcagaag acggcatacg agattcggtc tgcgcctcta gc 42
<210> 143
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A1
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 143
tcggtctgcg cctctagcnn nctctatcga cgtagtctcg tgggctcgga g 51
<210> 144
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A2
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 144
tcggtctgcg cctctagcnn ntaagtctgg tctagtctcg tgggctcgga g 51
<210> 145
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A3
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 145
tcggtctgcg cctctagcnn nacctgcgta acctgtctcg tgggctcgga g 51
<210> 146
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A4
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 146
tcggtctgcg cctctagcnn ncgtctctag gatggtctcg tgggctcgga g 51
<210> 147
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A5
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 147
tcggtctgcg cctctagcnn ntcattaggt atatgtctcg tgggctcgga g 51
<210> 148
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A6
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 148
tcggtctgcg cctctagcnn naagtattcc atgagtctcg tgggctcgga g 51
<210> 149
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A7
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 149
tcggtctgcg cctctagcnn nttctggtac ttcagtctcg tgggctcgga g 51
<210> 150
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A8
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 150
tcggtctgcg cctctagcnn natgcctcct gcttgtctcg tgggctcgga g 51
<210> 151
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A9
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 151
tcggtctgcg cctctagcnn ntggtaatac gcctgtctcg tgggctcgga g 51
<210> 152
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A10
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 152
tcggtctgcg cctctagcnn nactgacgat tggtgtctcg tgggctcgga g 51
<210> 153
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A11
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 153
tcggtctgcg cctctagcnn nttagagtag ttgcgtctcg tgggctcgga g 51
<210> 154
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_A12
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 154
tcggtctgcg cctctagcnn naagccgttg aatagtctcg tgggctcgga g 51
<210> 155
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B1
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 155
tcggtctgcg cctctagcnn ntagcctcgc tctcgtctcg tgggctcgga g 51
<210> 156
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B2
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 156
tcggtctgcg cctctagcnn ncttggcctt gcaagtctcg tgggctcgga g 51
<210> 157
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B3
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 157
tcggtctgcg cctctagcnn nctatcttca actggtctcg tgggctcgga g 51
<210> 158
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B4
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 158
tcggtctgcg cctctagcnn natccatacg gactgtctcg tgggctcgga g 51
<210> 159
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B5
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 159
tcggtctgcg cctctagcnn ncgctcgctc atatgtctcg tgggctcgga g 51
<210> 160
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B6
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 160
tcggtctgcg cctctagcnn ncgtatcgaa ttcagtctcg tgggctcgga g 51
<210> 161
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B7
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 161
tcggtctgcg cctctagcnn nattcttctc ggtagtctcg tgggctcgga g 51
<210> 162
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B8
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 162
tcggtctgcg cctctagcnn ncaagttgca gcaggtctcg tgggctcgga g 51
<210> 163
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B9
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 163
tcggtctgcg cctctagcnn nactaatctg gtacgtctcg tgggctcgga g 51
<210> 164
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B10
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 164
tcggtctgcg cctctagcnn ncaggaagat tagtgtctcg tgggctcgga g 51
<210> 165
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B11
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 165
tcggtctgcg cctctagcnn naataactag cttggtctcg tgggctcgga g 51
<210> 166
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_B12
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 166
tcggtctgcg cctctagcnn ntacgactta ctaagtctcg tgggctcgga g 51
<210> 167
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C1
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 167
tcggtctgcg cctctagcnn nctcggcttc tcctgtctcg tgggctcgga g 51
<210> 168
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C2
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 168
tcggtctgcg cctctagcnn nttcctctct atcagtctcg tgggctcgga g 51
<210> 169
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C3
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 169
tcggtctgcg cctctagcnn natggattcc tagagtctcg tgggctcgga g 51
<210> 170
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C4
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 170
tcggtctgcg cctctagcnn nttcttgagt aagggtctcg tgggctcgga g 51
<210> 171
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C5
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 171
tcggtctgcg cctctagcnn nactactacg aagggtctcg tgggctcgga g 51
<210> 172
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C6
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 172
tcggtctgcg cctctagcnn ncatcgctat cgttgtctcg tgggctcgga g 51
<210> 173
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C7
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 173
tcggtctgcg cctctagcnn naagttccgc attagtctcg tgggctcgga g 51
<210> 174
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C8
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 174
tcggtctgcg cctctagcnn nacttaagtt gaaggtctcg tgggctcgga g 51
<210> 175
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C9
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 175
tcggtctgcg cctctagcnn ntgagtaatt cgacgtctcg tgggctcgga g 51
<210> 176
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C10
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 176
tcggtctgcg cctctagcnn nagctgaaga cttagtctcg tgggctcgga g 51
<210> 177
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C11
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 177
tcggtctgcg cctctagcnn ncaaggatag aattgtctcg tgggctcgga g 51
<210> 178
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_C12
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 178
tcggtctgcg cctctagcnn nagcatgatt gcgggtctcg tgggctcgga g 51
<210> 179
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D1
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 179
tcggtctgcg cctctagcnn nacctgaagc tgctgtctcg tgggctcgga g 51
<210> 180
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D2
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 180
tcggtctgcg cctctagcnn ncatatggta acgtgtctcg tgggctcgga g 51
<210> 181
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D3
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 181
tcggtctgcg cctctagcnn natggaatac gcgggtctcg tgggctcgga g 51
<210> 182
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D4
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 182
tcggtctgcg cctctagcnn ntctattact ctcagtctcg tgggctcgga g 51
<210> 183
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D5
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 183
tcggtctgcg cctctagcnn ntcgattact caaggtctcg tgggctcgga g 51
<210> 184
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D6
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 184
tcggtctgcg cctctagcnn nctgcttata ttcagtctcg tgggctcgga g 51
<210> 185
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D7
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 185
tcggtctgcg cctctagcnn ntatgccatc tagtgtctcg tgggctcgga g 51
<210> 186
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D8
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 186
tcggtctgcg cctctagcnn naatgcttga atgggtctcg tgggctcgga g 51
<210> 187
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D9
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 187
tcggtctgcg cctctagcnn nacgttcagg agatgtctcg tgggctcgga g 51
<210> 188
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D10
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 188
tcggtctgcg cctctagcnn ntcttcctag cttagtctcg tgggctcgga g 51
<210> 189
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D11
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 189
tcggtctgcg cctctagcnn naagtcggat catggtctcg tgggctcgga g 51
<210> 190
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_D12
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 190
tcggtctgcg cctctagcnn ncagaaccgg aagagtctcg tgggctcgga g 51
<210> 191
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E1
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 191
tcggtctgcg cctctagcnn natgctggct ctcggtctcg tgggctcgga g 51
<210> 192
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E2
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 192
tcggtctgcg cctctagcnn ntggcctgat gaacgtctcg tgggctcgga g 51
<210> 193
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E3
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 193
tcggtctgcg cctctagcnn naatggacgc caaggtctcg tgggctcgga g 51
<210> 194
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E4
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 194
tcggtctgcg cctctagcnn nctcaactgg acctgtctcg tgggctcgga g 51
<210> 195
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E5
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 195
tcggtctgcg cctctagcnn naattcatcg tctggtctcg tgggctcgga g 51
<210> 196
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E6
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 196
tcggtctgcg cctctagcnn ntcggactaa ggtagtctcg tgggctcgga g 51
<210> 197
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E7
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 197
tcggtctgcg cctctagcnn ncgaagctcc tccagtctcg tgggctcgga g 51
<210> 198
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E8
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 198
tcggtctgcg cctctagcnn ntgccataga tagcgtctcg tgggctcgga g 51
<210> 199
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E9
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 199
tcggtctgcg cctctagcnn ntaactctcg gtatgtctcg tgggctcgga g 51
<210> 200
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E10
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 200
tcggtctgcg cctctagcnn naattctgga tctcgtctcg tgggctcgga g 51
<210> 201
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E11
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 201
tcggtctgcg cctctagcnn nattgaagag agtcgtctcg tgggctcgga g 51
<210> 202
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_E12
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 202
tcggtctgcg cctctagcnn ntcataggtt ctgagtctcg tgggctcgga g 51
<210> 203
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F1
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 203
tcggtctgcg cctctagcnn natcatagta ttatgtctcg tgggctcgga g 51
<210> 204
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F2
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 204
tcggtctgcg cctctagcnn ncgctggatt cggtgtctcg tgggctcgga g 51
<210> 205
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F3
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 205
tcggtctgcg cctctagcnn nttagcggaa tggagtctcg tgggctcgga g 51
<210> 206
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F4
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 206
tcggtctgcg cctctagcnn naagaagtcg tctggtctcg tgggctcgga g 51
<210> 207
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F5
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 207
tcggtctgcg cctctagcnn naagaaggag ttacgtctcg tgggctcgga g 51
<210> 208
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F6
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 208
tcggtctgcg cctctagcnn ncgctctcgt cagggtctcg tgggctcgga g 51
<210> 209
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F7
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 209
tcggtctgcg cctctagcnn naccgcgttc tcttgtctcg tgggctcgga g 51
<210> 210
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F8
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 210
tcggtctgcg cctctagcnn ntccagaaga agaagtctcg tgggctcgga g 51
<210> 211
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F9
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 211
tcggtctgcg cctctagcnn ntcttcggtc caacgtctcg tgggctcgga g 51
<210> 212
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F10
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 212
tcggtctgcg cctctagcnn natatgccaa taacgtctcg tgggctcgga g 51
<210> 213
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F11
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 213
tcggtctgcg cctctagcnn ntctatcgta agtcgtctcg tgggctcgga g 51
<210> 214
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_F12
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 214
tcggtctgcg cctctagcnn ntgctaaggt cttcgtctcg tgggctcgga g 51
<210> 215
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G1
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 215
tcggtctgcg cctctagcnn naggaccaag gctcgtctcg tgggctcgga g 51
<210> 216
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G2
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 216
tcggtctgcg cctctagcnn ntcaacgtca tgctgtctcg tgggctcgga g 51
<210> 217
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G3
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 217
tcggtctgcg cctctagcnn nttcaaggat caaggtctcg tgggctcgga g 51
<210> 218
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G4
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 218
tcggtctgcg cctctagcnn nacggtactg cttagtctcg tgggctcgga g 51
<210> 219
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G5
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 219
tcggtctgcg cctctagcnn nttcgaacca tccggtctcg tgggctcgga g 51
<210> 220
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G6
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 220
tcggtctgcg cctctagcnn ntggatgcat gaacgtctcg tgggctcgga g 51
<210> 221
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G7
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 221
tcggtctgcg cctctagcnn nctcagaagg tactgtctcg tgggctcgga g 51
<210> 222
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G8
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 222
tcggtctgcg cctctagcnn ntggacggcc ttgcgtctcg tgggctcgga g 51
<210> 223
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G9
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 223
tcggtctgcg cctctagcnn naatcgtata gcaagtctcg tgggctcgga g 51
<210> 224
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G10
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 224
tcggtctgcg cctctagcnn ntacggcaag ctatgtctcg tgggctcgga g 51
<210> 225
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G11
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 225
tcggtctgcg cctctagcnn ncaaccaagg aagcgtctcg tgggctcgga g 51
<210> 226
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_G12
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 226
tcggtctgcg cctctagcnn ntgcgaataa tgcggtctcg tgggctcgga g 51
<210> 227
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H1
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 227
tcggtctgcg cctctagcnn natctcttaa gaatgtctcg tgggctcgga g 51
<210> 228
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H2
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 228
tcggtctgcg cctctagcnn naagatatga ttaagtctcg tgggctcgga g 51
<210> 229
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H3
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 229
tcggtctgcg cctctagcnn natctcaata ataagtctcg tgggctcgga g 51
<210> 230
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H4
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 230
tcggtctgcg cctctagcnn nctgcatcta tggagtctcg tgggctcgga g 51
<210> 231
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H5
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 231
tcggtctgcg cctctagcnn naggagtctt agcagtctcg tgggctcgga g 51
<210> 232
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H6
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 232
tcggtctgcg cctctagcnn naataggact ctgcgtctcg tgggctcgga g 51
<210> 233
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H7
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 233
tcggtctgcg cctctagcnn ntcttacgtt gccggtctcg tgggctcgga g 51
<210> 234
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H8
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 234
tcggtctgcg cctctagcnn ntggcatgaa gtatgtctcg tgggctcgga g 51
<210> 235
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H9
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 235
tcggtctgcg cctctagcnn ncaatatgcc aggtgtctcg tgggctcgga g 51
<210> 236
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H10
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 236
tcggtctgcg cctctagcnn ncataaggag gtaagtctcg tgggctcgga g 51
<210> 237
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H11
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 237
tcggtctgcg cctctagcnn nacggtaagc aagcgtctcg tgggctcgga g 51
<210> 238
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Morphoseq_index_H12
<220>
<221> misc_feature
<222> (19)..(21)
<223> n is a, c, g, or t
<400> 238
tcggtctgcg cctctagcnn naactgcttc gatcgtctcg tgggctcgga g 51
<210> 239
<211> 42
<212> DNA
<213> Artificial Sequence
<220>
<223> Recovery primer
<400> 239
caagcagaag acggcatacg agattcggtc tgcgcctcta gc 42
<210> 240
<211> 21
<212> DNA
<213> Artificial Sequence
<220>
<223> Enrichment primer
<400> 240
caagcagaag acggcatacg a 21
<210> 241
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_end
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 241
aatgatacgg cgaccaccga gatctacaca agttcnnnnn ntcgtcggca gcgtc 55
<210> 242
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_int
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 242
caagcagaag acggcatacg agatnnnnnn ttaggagtct cgtgggctcg g 51
<210> 243
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_int
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 243
aatgatacgg cgaccaccga gatctacact aaccgnnnnn ntcgtcggca gcgtc 55
<210> 244
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_1
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 244
caagcagaag acggcatacg agatnnnnnn ctacctgtct cgtgggctcg g 51
<210> 245
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_2
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 245
caagcagaag acggcatacg agatnnnnnn tctgaagtct cgtgggctcg g 51
<210> 246
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_3
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 246
caagcagaag acggcatacg agatnnnnnn aatacggtct cgtgggctcg g 51
<210> 247
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_4
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 247
caagcagaag acggcatacg agatnnnnnn atactcgtct cgtgggctcg g 51
<210> 248
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_5
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 248
caagcagaag acggcatacg agatnnnnnn aggagcgtct cgtgggctcg g 51
<210> 249
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_6
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 249
caagcagaag acggcatacg agatnnnnnn aagttcgtct cgtgggctcg g 51
<210> 250
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_7
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 250
caagcagaag acggcatacg agatnnnnnn tatagtgtct cgtgggctcg g 51
<210> 251
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_8
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 251
caagcagaag acggcatacg agatnnnnnn cggaatgtct cgtgggctcg g 51
<210> 252
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_9
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 252
caagcagaag acggcatacg agatnnnnnn ggaacggtct cgtgggctcg g 51
<210> 253
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_10
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 253
caagcagaag acggcatacg agatnnnnnn ggcttggtct cgtgggctcg g 51
<210> 254
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_11
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 254
caagcagaag acggcatacg agatnnnnnn aggcctgtct cgtgggctcg g 51
<210> 255
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_12
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 255
caagcagaag acggcatacg agatnnnnnn cttgccgtct cgtgggctcg g 51
<210> 256
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_13
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 256
caagcagaag acggcatacg agatnnnnnn tagcgcgtct cgtgggctcg g 51
<210> 257
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_14
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 257
caagcagaag acggcatacg agatnnnnnn gaccgggtct cgtgggctcg g 51
<210> 258
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_15
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 258
caagcagaag acggcatacg agatnnnnnn ccatgagtct cgtgggctcg g 51
<210> 259
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_16
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 259
caagcagaag acggcatacg agatnnnnnn ttggaggtct cgtgggctcg g 51
<210> 260
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_17
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 260
caagcagaag acggcatacg agatnnnnnn gcctgcgtct cgtgggctcg g 51
<210> 261
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_18
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 261
caagcagaag acggcatacg agatnnnnnn ggcaacgtct cgtgggctcg g 51
<210> 262
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_19
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 262
caagcagaag acggcatacg agatnnnnnn taaccggtct cgtgggctcg g 51
<210> 263
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_20
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 263
caagcagaag acggcatacg agatnnnnnn cgcgaggtct cgtgggctcg g 51
<210> 264
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_21
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 264
caagcagaag acggcatacg agatnnnnnn aaccatgtct cgtgggctcg g 51
<210> 265
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_22
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 265
caagcagaag acggcatacg agatnnnnnn tcatacgtct cgtgggctcg g 51
<210> 266
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_23
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 266
caagcagaag acggcatacg agatnnnnnn acggttgtct cgtgggctcg g 51
<210> 267
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i7_index_24
<220>
<221> misc_feature
<222> (25)..(30)
<223> n is a, c, g, or t
<400> 267
caagcagaag acggcatacg agatnnnnnn ggttctgtct cgtgggctcg g 51
<210> 268
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_1
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 268
aatgatacgg cgaccaccga gatctacact taggannnnn ntcgtcggca gcgtc 55
<210> 269
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_2
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 269
aatgatacgg cgaccaccga gatctacaca ggagcnnnnn ntcgtcggca gcgtc 55
<210> 270
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_3
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 270
aatgatacgg cgaccaccga gatctacaca cggttnnnnn ntcgtcggca gcgtc 55
<210> 271
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_4
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 271
aatgatacgg cgaccaccga gatctacacg cctgcnnnnn ntcgtcggca gcgtc 55
<210> 272
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_5
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 272
aatgatacgg cgaccaccga gatctacact agcgcnnnnn ntcgtcggca gcgtc 55
<210> 273
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_6
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 273
aatgatacgg cgaccaccga gatctacacg gttctnnnnn ntcgtcggca gcgtc 55
<210> 274
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_7
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 274
aatgatacgg cgaccaccga gatctacaca ggcctnnnnn ntcgtcggca gcgtc 55
<210> 275
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_8
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 275
aatgatacgg cgaccaccga gatctacacc ttgccnnnnn ntcgtcggca gcgtc 55
<210> 276
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_9
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 276
aatgatacgg cgaccaccga gatctacacc tacctnnnnn ntcgtcggca gcgtc 55
<210> 277
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_10
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 277
aatgatacgg cgaccaccga gatctacact catacnnnnn ntcgtcggca gcgtc 55
<210> 278
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_11
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 278
aatgatacgg cgaccaccga gatctacacg tcgcgnnnnn ntcgtcggca gcgtc 55
<210> 279
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_12
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 279
aatgatacgg cgaccaccga gatctacaca accatnnnnn ntcgtcggca gcgtc 55
<210> 280
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_13
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 280
aatgatacgg cgaccaccga gatctacacc tggtannnnn ntcgtcggca gcgtc 55
<210> 281
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_14
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 281
aatgatacgg cgaccaccga gatctacacg accggnnnnn ntcgtcggca gcgtc 55
<210> 282
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_15
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 282
aatgatacgg cgaccaccga gatctacacc ggaatnnnnn ntcgtcggca gcgtc 55
<210> 283
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_16
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 283
aatgatacgg cgaccaccga gatctacact atagtnnnnn ntcgtcggca gcgtc 55
<210> 284
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_17
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 284
aatgatacgg cgaccaccga gatctacacc aatatnnnnn ntcgtcggca gcgtc 55
<210> 285
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_18
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 285
aatgatacgg cgaccaccga gatctacacg gcttgnnnnn ntcgtcggca gcgtc 55
<210> 286
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_19
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 286
aatgatacgg cgaccaccga gatctacaca atacgnnnnn ntcgtcggca gcgtc 55
<210> 287
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_20
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 287
aatgatacgg cgaccaccga gatctacacc catgannnnn ntcgtcggca gcgtc 55
<210> 288
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_21
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 288
aatgatacgg cgaccaccga gatctacact ctgaannnnn ntcgtcggca gcgtc 55
<210> 289
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_22
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 289
aatgatacgg cgaccaccga gatctacacg gcaacnnnnn ntcgtcggca gcgtc 55
<210> 290
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_23
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 290
aatgatacgg cgaccaccga gatctacaca tactcnnnnn ntcgtcggca gcgtc 55
<210> 291
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Custom_i5_index_24
<220>
<221> misc_feature
<222> (36)..(41)
<223> n is a, c, g, or t
<400> 291
aatgatacgg cgaccaccga gatctacact tggagnnnnn ntcgtcggca gcgtc 55

Claims (135)

1.用于确定至少一个靶模板核酸分子的序列的方法,所述方法包括:
(a)提供成对样品,每个样品包含至少一个靶模板核酸分子;
(b)对所述成对样品的第一样品中的所述至少一个靶模板核酸分子的区域进行测序以提供非突变序列读数;
(c)将突变引入所述成对样品的第二样品中的所述至少一个靶模板核酸分子中以提供至少一个突变的靶模板核酸分子;
(d)对所述至少一个突变的靶模板核酸分子的区域进行测序以提供突变序列读数;
(e)对所述突变序列读数进行分析,并使用对所述突变序列读数进行分析获得的信息以由所述非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列。
2.用于产生至少一个靶模板核酸分子的序列的方法,所述方法包括:
(a)获得数据,所述数据包括:
(i)非突变序列读数;和
(ii)突变序列读数;
(b)对所述突变序列读数进行分析,并使用对所述突变序列读数进行分析获得的信息以由所述非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列。
3.根据权利要求1或2所述的方法,其特征在于,对所述突变序列读数进行分析,并使用对所述突变序列读数进行分析获得的信息以由所述非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列的步骤包括:准备组装图。
4.根据权利要求3所述的方法,其特征在于,所述组装图包括由非突变序列读数计算的节点,并且通过包括所述节点的所述组装图的每个有效路径表示至少一个靶模板核酸分子的至少一部分的序列。
5.根据权利要求4所述的方法,其特征在于,所述节点是unitig。
6.根据权利要求3至5中任一项所述的方法,其特征在于,使用对所述突变序列读数进行分析获得的信息以由所述非突变序列读数组装至少一个靶模板核酸分子的至少一部分的序列包括:使用通过对所述突变序列读数进行分析获得的信息识别构成串通所述组装图的有效路径的一部分的节点。
7.根据权利要求4至6中任一项所述的方法,其特征在于,由构成串通所述组装图的有效路径的一部分的节点组装至少一个靶模板核酸分子的至少一部分的序列。
8.根据权利要求1或3至7中任一项所述的方法,其特征在于,所述成对样品取自同一原始样品或衍生自同一生物体。
9.根据权利要求2至7中任一项所述的方法,其特征在于,所述非突变序列读数包括成对样品的第一样品中的至少一个靶模板核酸分子的区域的序列,所述突变序列读数包括成对样品的第二样品中的至少一个突变的靶模板核酸分子的区域的序列,并且所述成对样品取自同一原始样品或衍生自同一生物。
10.根据前述权利要求中任一项所述的方法,其特征在于,所述方法不包括由突变序列读数来组装序列。
11.根据前述权利要求中任一项所述的方法,其特征在于,所述方法不包括组装至少一个突变的靶模板核酸分子的序列或至少一个突变的靶模板核酸分子的大部分的序列。
12.根据前述权利要求中任一项所述的方法,其特征在于,对所述突变序列读数进行分析包括:识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数。
13.根据权利要求6所述的方法,其特征在于,使用通过对所述突变序列读数进行分析获得的信息识别构成串通所述组装图的有效路径的一部分的节点包括:
(i)由非突变序列读数计算节点;
(ii)将所述突变序列读数绘谱至所述组装图;
(iii)识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数;以及
(iv)识别通过可能源自同一至少一个突变的靶模板核酸分子的突变序列读数连接的节点,
其中通过突变序列读数连接的节点可能源自同一至少一个突变的靶模板核酸分子,并构成串通所述组装图的有效路径的一部分。
14.根据权利要求12或13所述的方法,其特征在于,将可能源自同一至少一个突变的靶模板核酸分子的突变序列读数分组。
15.根据权利要求12至14中任一项所述的方法,其特征在于,如果突变序列读数具有共同的突变模式,则所述突变序列读数可能源自同一突变的靶模板核酸分子。
16.根据权利要求12至15中任一项所述的方法,其特征在于,对所述突变序列读数进行分析包括:识别具有共同的突变模式的突变序列读数。
17.根据权利要求15或16所述的方法,其特征在于,具有共同的突变模式的突变序列读数包括至少1个、至少2个、至少3个、至少4个、至少5个或至少k个共同的特征k-mer和/或共同的特征突变。
18.根据权利要求17所述的方法,其特征在于,特征k-mer是不出现在所述非突变序列读数中、但在所述突变序列读数中出现至少两次、至少三次、至少四次、至少五次或至少十次的k-mer。
19.根据权利要求17所述的方法,其特征在于,特征突变是在所述突变序列读数中出现至少两次、至少三次、至少四次、至少五次或至少十次且不出现在所述非突变序列读数中的相应位置的核苷酸。
20.根据权利要求19所述的方法,其特征在于,所述特征突变是共生突变。
21.根据权利要求19或20所述的方法,其特征在于,如果具有所述特征突变的突变序列读数中的相应位置处的至少1个、至少2个、至少3个或至少5个核苷酸彼此不同,则忽略所述特征突变。
22.根据权利要求19至21中任一项所述的方法,其特征在于,如果特征突变是意料之外的突变,则忽略所述特征突变。
23.根据权利要求19至22中任一项所述的方法,其特征在于,识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数的步骤包括:识别与所述至少一个靶模板核酸分子的特定区域相对应的突变序列读数。
24.根据权利要求12至16或23中任一项所述的方法,其特征在于,如果以下优势比超过了阈值,则突变序列读数可能源自同一突变的靶模板核酸分子:所述突变序列读数源自同一突变的靶模板核酸分子的概率:所述突变序列读数并非源自同一突变的靶模板核酸分子的概率。
25.根据权利要求24所述的方法,其特征在于,如果第一突变序列读数与第二突变序列读数的优势比高于所述第一突变序列读数与绘谱到所述组装图的相同区域的其他突变序列读数的优势比,则突变序列读数可能源自同一突变的靶模板核酸分子。
26.根据权利要求24或25所述的方法,其特征在于,所述阈值是基于以下因素中的一个或多个来确定的:
(i)所需的严格程度;和/或
(ii)对所述至少一个突变的靶模板核酸分子的区域进行测序以提供突变序列读数的步骤的错误率;和/或
(iii)在将突变引入至少一个靶模板核酸分子的步骤中使用的突变率;和/或
(iv)所述至少一个靶模板核酸分子的大小;和/或
(v)时间限制;和/或
(vi)资源限制。
27.根据权利要求12至16或23至26中任一项所述的方法,其特征在于,识别可能源自同一突变的靶模板核酸分子的突变序列读数包括基于以下参数使用概率函数:
e.所述突变序列读数的每个位置上的核苷酸的矩阵(N)和所述组装图;
f.使给定核苷酸(i)突变以读取核苷酸(j)的概率(M);
g.错误读取给定核苷酸(i)从而以错误读取了所述核苷酸为条件读取核苷酸(j)的概率(E);及
h.错误读取Y位置上的核苷酸的概率(Q)。
28.根据权利要求27所述的方法,其特征在于,通过对所述突变序列读数和非突变序列读数进行统计分析来获得Q值,或基于测序方法的准确性的现有知识来获得Q值。
29.根据权利要求27或权利要求28所述的方法,其特征在于,基于对所述突变序列读数和非突变序列读数的子集进行的统计分析来估计M和E的值,其中,所述子集包括由于绘谱到所述组装图的同一区域而被选择的突变序列读数和非突变序列读数。
30.根据权利要求29所述的方法,其特征在于,使用贝叶斯推断、例如哈密顿蒙特卡洛的蒙特卡洛方法、变分推断或贝叶斯推断的最大似然模拟来执行所述统计分析。
31.权利要求12至16或23至30中任一项所述的方法,其特征在于,识别可能源自同一突变的靶模板核酸分子的突变序列读数包括:使用机器学习或神经网络。
32.根据权利要求12至31中任一项所述的方法,其特征在于,所述方法包括预聚类步骤。
33.根据权利要求32所述的方法,其特征在于,识别可能源自同一突变的靶模板核酸分子的突变序列读数受到所述预聚类步骤的结果的约束。
34.根据权利要求32或33所述的方法,其特征在于,所述预聚类步骤包括:将突变序列读数分配到组,其中同一组的每个成员具有合理的源自同一突变的靶模板核酸分子的可能性。
35.根据权利要求32至34中任一项所述的方法,其特征在于,所述预聚类步骤包括马尔可夫聚类或鲁汶聚类。
36.根据权利要求34至35中任一项所述的方法,其特征在于,同一组的每个成员绘谱到所述组装图上的共同位置,和/或具有共同的突变模式。
37.根据权利要求36所述的方法,其特征在于,具有共同的突变模式的突变序列读数是包括至少1个、至少2个、至少3个、至少4个、至少5个或至少k个共同的特征k-mer和/或共同的特征突变的突变序列读数。
38.根据权利要求37所述的方法,其特征在于,特征k-mer是不出现在所述非突变序列读数中、但在所述突变序列读数中出现至少两次、至少三次、至少四次、至少五次或至少十次的k-mer。
39.根据权利要求37所述的方法,其特征在于,特征突变是在所述突变序列读数中出现至少两次、至少三次、至少四次、至少五次或至少十次且不出现在所述非突变序列读数中的相应位置的核苷酸。
40.根据权利要求39所述的方法,其特征在于,所述特征突变是共生突变。
41.根据权利要求39或40所述的方法,其特征在于,如果具有所述特征突变的突变序列读数中的相应位置处的至少1个、至少2个、至少3个或至少5个核苷酸彼此不同,则忽略所述特征突变。
42.根据权利要求39至41中任一项所述的方法,其特征在于,如果特征突变是意料之外的突变,则忽略所述特征突变。
43.根据权利要求39至42中任一项所述的方法,其特征在于,识别可能源自同一至少一个突变的靶模板核酸分子的突变序列读数的步骤包括:识别与所述至少一个靶模板核酸分子的特定区域相对应的突变序列读数。
44.根据前述权利要求中任一项所述的方法,其特征在于,所述方法包括:使用配对末端测序对所述至少一个靶模板核酸分子的末端进行测序。
45.根据前述权利要求中任一项所述的方法,其特征在于,所述方法包括:将所述至少一个靶模板核酸分子的所述末端的序列绘谱到组装图上。
46.根据前述权利要求中任一项所述的方法,其特征在于,所述至少一个靶模板核酸分子在每个末端包含条形码。
47.根据权利要求46所述的方法,其特征在于,所述方法包括:将所述至少一个靶模板核酸分子的所述末端的所述序列绘谱到组装图上并且基本上每个末端都包含条形码。
48.根据权利要求6至47中任一项所述的方法,其特征在于,识别构成串通所述组装图的有效路径的一部分的节点包括:忽略具有错配末端的推定路径。
49.根据权利要求6至48中任一项所述的方法,其特征在于,识别构成串通所述组装图的有效路径的一部分的节点包括:忽略由于模板碰撞而导致的推定路径。
50.根据权利要求6至49中任一项所述的方法,其特征在于,识别构成串通所述组装图的有效路径的一部分的节点包括:忽略比预期长或短的推定路径。
51.根据权利要求6至50中任一项所述的方法,其特征在于,识别构成串通所述组装图的有效路径的一部分的节点包括:忽略具有非典型覆盖深度的推定路径。
52.根据前述权利要求中任一项所述的方法,其特征在于,所述至少一个突变的靶模板核酸分子包含1%至50%、3%至25%、5%至20%或大约8%的突变。
53.根据前述权利要求中任一项所述的方法,其特征在于,所述至少一个突变的靶模板核酸分子包含不均匀分布的突变。
54.根据前述权利要求中任一项所述的方法,其特征在于,所述突变序列读数和/或所述非突变序列读数包括不均匀分布的测序错误。
55.根据前述权利要求中任一项所述的方法,其特征在于,将突变引入至少一个突变的靶模板核酸分子的步骤引入了不均匀分布的突变。
56.根据前述权利要求中任一项所述的方法,其特征在于,对所述至少一个靶模板核酸分子的区域进行测序和/或对所述至少一个突变的靶模板核酸分子的区域进行测序的步骤引入了不均匀分布的测序错误。
57.根据前述权利要求中任一项所述的方法,其特征在于,所述至少一个突变的靶模板核酸分子包含基本上随机的突变模式。
58.根据前述权利要求中任一项所述的方法,其特征在于,提供多对样品。
59.根据权利要求58所述的方法,其特征在于,用不同的样品标签标记不同成对样品中的所述至少一个靶模板核酸分子。
60.根据权利要求1或3至59中任一项所述的方法,其特征在于,所述方法还包括:在对所述成对样品的所述第一样品中的所述至少一个靶模板核酸分子的区域进行测序的步骤之前,对所述至少一个靶模板核酸分子进行扩增的步骤。
61.根据权利要求1或3至60中任一项所述的方法,其特征在于,所述方法还包括:在对所述成对样品的所述第二样品中的所述至少一个突变的靶模板核酸分子的区域进行测序的步骤之前,对所述至少一个靶模板核酸分子进行扩增的步骤。
62.根据权利要求1或3至61中任一项所述的方法,其特征在于,所述方法还包括:在对所述成对样品的第一样品中的所述至少一个靶模板核酸分子的区域进行测序的步骤之前,使所述至少一个靶模板核酸分子片段化的步骤。
63.根据权利要求1或3至62中任一项所述的方法,其特征在于,所述方法还包括:在对所述成对样品的第二样品中的所述至少一个突变的靶模板核酸分子的区域进行测序的步骤之前,使所述至少一个靶模板核酸分子或所述至少一个突变的靶模板核酸分子片段化的步骤。
64.根据前述权利要求中任一项所述的方法,其特征在于,所述至少一个靶模板核酸分子大于2kbp、大于4kbp、大于5kbp、大于7kbp、大于8kbp、小于200kbp、小于100kbp、小于50kbp、介于2kbp和200kbp之间或介于5kbp和100kbp之间。
65.根据权利要求1或3至64中任一项所述的方法,其特征在于,将突变引入所述成对样品的第二样品中的所述至少一个靶模板核酸分子中的步骤是通过化学诱变或酶促诱变进行的。
66.根据权利要求65所述的方法,其特征在于,所述酶促诱变是使用DNA聚合酶进行的。
67.根据权利要求66所述的方法,其特征在于,所述DNA聚合酶是低偏向DNA聚合酶。
68.根据权利要求67所述的方法,其特征在于,所述低偏向DNA聚合酶引入置换突变。
69.根据权利要求67至68中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶分别以0.5-1.5:0.5-1.5:0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4:0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2:0.8-1.2:0.8-1.2、或大约1:1:1:1的率比使所述至少一个靶模板核酸分子中的腺嘌呤核苷酸、胸腺嘧啶核苷酸、鸟嘌呤核苷酸和胞嘧啶核苷酸突变。
70.根据权利要求67至69中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶分别以0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3的率比使所述至少一个靶模板核酸分子中的腺嘌呤核苷酸、胸腺嘧啶核苷酸、鸟嘌呤核苷酸和胞嘧啶核苷酸突变。
71.根据权利要求67至70中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶使所述至少一个靶模板核酸分子中的1%至15%、2%至10%、或大约8%的核苷酸突变。
72.根据权利要求67至71中任一项所述的方法,其特征在于,每轮复制,所述低偏向DNA聚合酶使所述至少一个靶模板核酸分子中的0%至3%、或0%至2%的核苷酸突变。
73.根据权利要求67至72中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶将核苷酸类似物掺入所述至少一个靶模板核酸分子中。
74.根据权利要求67至74中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶使用核苷酸类似物使所述至少一个靶模板核酸分子中的腺嘌呤、胸腺嘧啶、鸟嘌呤和/或胞嘧啶突变。
75.根据权利要求67至74中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶用核苷酸类似物取代鸟嘌呤、胞嘧啶、腺嘌呤和/或胸腺嘧啶。
76.根据权利要求67至75中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶使用核苷酸类似物分别以0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2、或大约1:1的率比引入鸟嘌呤核苷酸或腺嘌呤核苷酸。
77.根据权利要求67至76中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶使用核苷酸类似物分别以0.7-1.3:0.7-1.3的率比引入鸟嘌呤核苷酸或腺嘌呤核苷酸。
78.根据权利要求67至77中任一项所述的方法,其特征在于,所述方法包括使用低偏向DNA聚合酶扩增所述成对样品的第二样品中的所述至少一个靶模板核酸分子的步骤,使用低偏向DNA聚合酶扩增所述至少一个靶模板核酸分子的步骤是在所述核苷酸类似物的存在下进行的,并且扩增所述至少一个靶模板核酸分子的步骤提供所述成对样品的第二样品中的包含所述核苷酸类似物的至少一个靶模板核酸分子。
79.根据权利要求67至78中任一项所述的方法,其特征在于,所述核苷酸类似物是dPTP。
80.根据权利要求79所述的方法,其特征在于,所述低偏向DNA聚合酶引入鸟嘌呤向腺嘌呤置换突变、胞嘧啶向胸腺嘧啶置换突变、腺嘌呤向鸟嘌呤置换突变以及胸腺嘧啶向胞嘧啶置换突变。
81.根据权利要求80所述的方法,其特征在于,所述低偏向DNA聚合酶分别以0.5-1.5:0.5-1.5:0.5-1.5:0.5-1.5、0.6-1.4:0.6-1.4:0.6-1.4:0.6-1.4、0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3、0.8-1.2:0.8-1.2:0.8-1.2:0.8-1.2、或大约1:1:1:1的率比引入鸟嘌呤向腺嘌呤置换突变、胞嘧啶向胸腺嘧啶置换突变、腺嘌呤向鸟嘌呤置换突变以及胸腺嘧啶向胞嘧啶置换突变。
82.根据权利要求80或81所述的方法,其特征在于,所述低偏向DNA聚合酶分别以0.7-1.3:0.7-1.3:0.7-1.3:0.7-1.3的率比引入鸟嘌呤向腺嘌呤置换突变、胞嘧啶向胸腺嘧啶置换突变、腺嘌呤向鸟嘌呤置换突变、以及胸腺嘧啶向胞嘧啶置换突变。
83.根据前述权利要求67至82中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶是高保真DNA聚合酶。
84.根据权利要求83所述的方法,其特征在于,在不存在核苷酸类似物的情况下,所述高保真DNA聚合酶每轮复制引入小于0.01%、小于0.0015%、小于0.001%、0%至0.0015%、或0%至0.001%的突变。
85.根据权利要求83或84所述的方法,其特征在于,所述方法包括进一步的在不存在核苷酸类似物的情况下扩增包含核苷酸类似物的所述至少一个靶模板核酸分子的步骤。
86.根据权利要求85所述的方法,其特征在于,在不存在核苷酸类似物的情况下扩增包含核苷酸类似物的所述至少一个靶模板核酸分子的步骤使用低偏向DNA聚合酶进行。
87.根据权利要求67至86中任一项所述的方法,其特征在于,所述方法提供至少一个突变的靶模板核酸分子,并且所述方法还包括进一步的使用所述低偏向DNA聚合酶扩增所述突变的至少一个突变的靶模板核酸分子的步骤。
88.根据权利要求67至87中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶具有低模板扩增偏向。
89.根据权利要求67至88中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶包含校对读码结构域和/或持续合成能力增强结构域。
90.根据权利要求67至89中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶包含以下序列中的至少400、至少500、至少600、至少700、或至少750个连续氨基酸的片段:
a.SEQ ID NO.2的序列;
b.与SEQ ID NO.2至少95%、至少98%、或至少99%相同的序列;
c.SEQ ID NO.4的序列;
d.与SEQ ID NO.4至少95%、至少98%、或至少99%相同的序列;
e.SEQ ID NO.6的序列;
f.与SEQ ID NO.6至少95%、至少98%、或至少99%相同的序列;
g.SEQ ID NO.7的序列;或
h.与SEQ ID NO.7至少95%、至少98%、或至少99%相同的序列。
91.根据权利要求67至90中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶包括:
a.SEQ ID NO.2的序列;
b.与SEQ ID NO.2至少95%、至少98%、或至少99%相同的序列;
c.SEQ ID NO.4的序列;
d.与SEQ ID NO.4至少95%、至少98%、或至少99%相同的序列;
e.SEQ ID NO.6的序列;
f.与SEQ ID NO.6至少95%、至少98%、或至少99%相同的序列;
g.SEQ ID NO.7的序列;或
h.与SEQ ID NO.7至少95%、至少98%、或至少99%相同的序列。
92.根据权利要求91所述的方法,其特征在于,所述低偏向DNA聚合酶包括与SEQ IDNO.2至少98%相同的序列。
93.根据权利要求91所述的方法,其特征在于,所述低偏向DNA聚合酶包括与SEQ IDNO.4至少98%相同的序列。
94.根据权利要求91所述的方法,其特征在于,所述低偏向DNA聚合酶包括与SEQ IDNO.6至少98%相同的序列。
95.根据权利要求91所述的方法,其特征在于,所述低偏向DNA聚合酶包括与SEQ IDNO.7至少98%相同的序列。
96.根据权利要求67至95中任一项所述的方法,其特征在于,所述低偏向DNA聚合酶是热球菌聚合酶或其衍生物。
97.根据权利要求96所述的方法,其特征在于,所述低偏向DNA聚合酶是热球菌聚合酶。
98.根据权利要求96或97所述的方法,其特征在于,所述热球菌聚合酶衍生自热球菌菌株,所述热球菌菌株选自由柯达砂热球菌、速生热球菌、热球菌嗜热古菌和热球菌属KS-1组成的组。
99.计算机程序,所述计算机程序适于执行前述权利要求中任一项所述的方法。
100.计算机可读介质,所述计算机可读介质包括根据权利要求99所述的计算机程序。
101.计算机实现的方法,所述计算机实现的方法包括根据权利要求1至98中任一项所述的方法。
102.根据权利要求1或3至98中任一项所述的方法,其特征在于,提供成对样品的步骤包括控制在所述成对样品的第一样品中的靶模板核酸分子的数目,每个样品包括至少一个靶模板核酸分子。
103.根据权利要求1、3至98或102中任一项的方法,其特征在于,提供成对样品的步骤包括控制在所述成对样品的第二样品中的靶模板核酸分子的数目,每个样品包括至少一个靶模板核酸分子。
104.根据权利要求1、3至98或102至103中任一项所述的方法,其特征在于,通过合并两个或更多个子样品来提供所述成对样品的所述第一样品。
105.根据权利要求1、3至98或102至104中任一项所述的方法,其特征在于,通过合并两个或更多个子样品来提供所述成对样品的所述第二样品。
106.根据权利要求104或105所述的方法,其特征在于,所述方法进一步包括使每个合并的所述子样品中的靶模板核酸分子的数目标准化的步骤,以提供所述成对样品的第一样品和/或所述成对样品的第二样品。
107.用于确定至少一个靶模板核酸分子的序列的方法,所述方法包括:
(a)提供至少一个样品,所述至少一个样品包含至少一个靶模板核酸分子;
(b)对所述至少一个靶模板核酸分子的区域进行测序;及
(c)由所述至少一个靶模板核酸分子的所述区域的序列组装所述至少一个靶模板核酸分子的序列,
其中:
(i)提供包含所述至少一个靶模板核酸分子的至少一个样品的步骤包括:控制所述至少一个样品中的靶模板核酸分子的数目;和/或
(ii)通过合并两个或更多个子样品来提供所述至少一个样品,其中使每个所述子样品中的靶模板核酸分子的数目标准化。
108.根据权利要求102至107中任一项所述的方法,其特征在于,控制靶模板核酸分子的数目包括:测量所述成对样品的所述第一样品、所述成对样品的所述第二样品或所述至少一个样品中的靶模板核酸分子的数目。
109.根据权利要求108所述的方法,其特征在于,测量靶模板核酸分子的数目包括:制备所述成对样品的所述第一样品、所述成对样品的所述第二样品或所述至少一个样品的稀释系列,以提供包含稀释样品的稀释系列。
110.根据权利要求108至109中任一项所述的方法,其特征在于,测量靶模板核酸分子的数目包括:对所述成对样品的所述第一样品、所述成对样品的所述第二样品、所述至少一个样品或一个或多个所述稀释样品中的靶模板核酸分子进行测序。
111.根据权利要求110所述的方法,其特征在于,测量靶模板核酸分子的数目包括:对所述成对样品的所述第一样品、所述成对样品的所述第二样品、所述至少一个样品或一个或多个所述稀释样品中的所述靶模板核酸分子进行扩增然后进行测序。
112.根据权利要求110或111所述的方法,其特征在于,测量靶模板核酸分子的数目包括:使所述成对样品的所述第一样品、所述成对样品的所述第二样品、所述至少一个样品或一个或多个所述稀释样品中的所述靶模板核酸分子扩增和片段化,然后对所述靶模板核酸分子进行测序。
113.根据权利要求110至112中任一项所述的方法,其特征在于,测量靶模板核酸分子的数目包括:识别所述成对样品的所述第一样品、所述成对样品的所述第二样品、所述至少一个样品或一个或多个所述稀释样品中的特有的靶模板核酸分子序列的数目。
114.根据权利要求110-113中任一项所述的方法,其特征在于,测量靶模板核酸分子的数目包括:使所述靶模板核酸分子突变。
115.根据权利要求114所述的方法,其特征在于,使所述靶模板核酸分子突变包括:在核苷酸类似物存在的情况下扩增所述靶模板核酸分子。
116.根据权利要求115所述的方法,其特征在于,所述核苷酸类似物是dPTP。
117.根据权利要求110至116中任一项所述的方法,其特征在于,测量靶模板核酸分子的数目包括:
(i)使靶模板核酸分子突变以提供突变的靶模板核酸分子;
(ii)对所述突变的靶模板核酸分子的区域进行测序;及
(iii)基于特有的突变的靶模板核酸分子序列的数目来识别特有的突变的靶模板核酸分子的数目。
118.根据权利要求108至117中任一项所述的方法,其特征在于,测量靶模板核酸分子的数目包括:将条形码或成对条形码引入所述靶模板核酸分子中以提供条形码化的靶模板核酸分子。
119.根据权利要求118所述的方法,其特征在于,测量靶模板核酸分子的数目包括:
(i)对所述条形码化的靶模板核酸分子的区域进行测序,所述条形码化的靶模板核酸分子包括所述条形码或所述成对条形码;及
(ii)基于特有的条形码或成对条形码的数目识别特有的条形码化的靶模板核酸分子的数目。
120.根据权利要求102至119中任一项所述的方法,其特征在于,控制所述成对样品的第一样品和/或所述成对样品的第二样品中的靶模板核酸分子的数目包括:测量靶模板核酸分子的数目以及对所述成对样品的所述第一样品和/或所述成对样品的所述第二样品进行稀释,以使所述成对样品的所述第一样品和/或所述成对样品的第二样品包含所需数目的靶模板核酸分子。
121.根据权利要求106至120中任一项所述的方法,其特征在于,使每个所述子样品中的靶模板核酸分子的数目标准化包括:用不同的样品标签对来自不同子样品的靶模板核酸分子进行标记,优选地,其中对来自不同样品的靶模板核酸分子进行标记在合并所述子样品之前进行。
122.根据权利要求121所述的方法,其特征在于,所述方法包括:制备所述子样品的预备池,所述子样品的预备池将形成所述成对样品的所述第一样品和/或所述成对样品的所述第二样品;并测量所述预备池中的用各样品标签标记的靶模板核酸分子的数目。
123.根据权利要求122所述的方法,其特征在于,测量所述预备池中的用各样品标签标记的靶模板核酸分子的数目包括:对预备池进行系列稀释,以提供包含稀释的预备池的系列稀释液。
124.根据权利要求122至123中任一项所述的方法,其特征在于,测量所述预备池中的用各样品标签标记的靶模板核酸分子的数目包括:对所述预备池或稀释的预备池中的靶模板核酸分子进行测序。
125.根据权利要求124所述的方法,其特征在于,测量所述预备池中的用各样品标签标记的靶模板核酸分子的数目包括:对所述靶模板核酸分子进行扩增然后进行测序。
126.根据权利要求124或125所述的方法,其特征在于,测量所述预备池中的用各样品标签标记的靶模板核酸分子的数目包括:使所述靶模板核酸分子扩增、片段化然后进行测序。
127.根据权利要求122至126中任一项所述的方法,其特征在于,测量所述预备池中的用各样品标签标记的靶模板核酸分子的数目包括:识别具有各样品标签的特有的靶模板核酸分子序列的数目。
128.根据权利要求122至126中任一项所述的方法,其特征在于,测量所述预备池中的用各样品标签标记的靶模板核酸分子的数目包括:使所述靶模板核酸分子突变。
129.根据权利要求128所述的方法,其特征在于,使所述靶模板核酸分子标签突变包括:在核苷酸类似物存在的情况下扩增所述靶模板核酸分子。
130.根据权利要求129所述的方法,其特征在于,所述核苷酸类似物是dPTP。
131.根据权利要求122至130中任一项所述的方法,其特征在于,测量所述预备池中的用各样品标签标记的靶模板核酸分子的数目包括:
(i)使靶模板核酸分子突变以提供突变的靶模板核酸分子;
(ii)对所述突变的靶模板核酸分子的区域进行测序;及
(iii)基于特有的突变的靶模板核酸分子的数目来识别具有各样品标签的特有的突变的靶模板核酸分子的数目。
132.根据权利要求122至131中任一项所述的方法,其特征在于,测量靶模板核酸分子的数目包括:将条形码或成对条形码引入所述靶模板核酸分子中以提供条形码化的、样品标签化的靶模板核酸分子。
133.根据权利要求132所述的方法,其特征在于,测量用各样品标签标记的靶模板核酸分子的数目包括:
(i)对所述条形码化的、样品标签化的靶模板核酸分子的区域进行测序;及
(ii)基于与各样品标签相关的特有的条形码或成对条形码序列的数目,识别具有各样品标签的特有的条形码化的靶模板核酸分子的数目。
134.根据权利要求121至133中任一项所述的方法,其特征在于,所述方法包括:计算包含不同样品标签的靶模板核酸分子的数目的比率。
135.权利要求104至134中任一项所述的方法,其特征在于,通过重新合并所述子样品提供所述成对样品的所述第一样品和/或所述第二样品以使每个所述子样品中的靶模板核酸分子的数目处于所需比例。
CN201980067627.XA 2018-08-13 2019-08-12 测序算法 Pending CN113015813A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GBGB1813171.4A GB201813171D0 (en) 2018-08-13 2018-08-13 Sequencing method
GB1813171.4 2018-08-13
GBGB1907101.8A GB201907101D0 (en) 2019-05-20 2019-05-20 Sequencing method
GB1907101.8 2019-05-20
PCT/GB2019/052264 WO2020035669A1 (en) 2018-08-13 2019-08-12 Sequencing algorithm

Publications (1)

Publication Number Publication Date
CN113015813A true CN113015813A (zh) 2021-06-22

Family

ID=67660402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980067627.XA Pending CN113015813A (zh) 2018-08-13 2019-08-12 测序算法

Country Status (12)

Country Link
US (1) US20210174905A1 (zh)
EP (3) EP4293123A3 (zh)
JP (2) JP7437383B2 (zh)
KR (1) KR20210081326A (zh)
CN (1) CN113015813A (zh)
AU (1) AU2019321208A1 (zh)
CA (2) CA3108947A1 (zh)
DK (1) DK3710597T3 (zh)
ES (2) ES2965194T3 (zh)
HU (1) HUE064110T2 (zh)
SG (1) SG11202101019YA (zh)
WO (1) WO2020035669A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113791952A (zh) * 2021-09-16 2021-12-14 上海擎创信息技术有限公司 一种告警场景挖掘方法
WO2023230553A2 (en) * 2022-05-26 2023-11-30 Illumina, Inc. Preparation of long read nucleic acid libraries

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002079502A1 (en) * 2001-03-28 2002-10-10 The University Of Queensland A method for nucleic acid sequence analysis
CN104508144A (zh) * 2012-07-18 2015-04-08 伊鲁米纳剑桥有限公司 用于确定单倍型和定相单倍型的方法和系统
WO2016057947A1 (en) * 2014-10-10 2016-04-14 Cold Spring Harbor Laboratory Random nucleotide mutation for nucleotide template counting and assembly
US20170191124A1 (en) * 2015-12-30 2017-07-06 Bio-Rad Laboratories, Inc. Split-cycle and tape amplification
CN107002120A (zh) * 2014-05-23 2017-08-01 悉尼科技大学 测序方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002090A1 (en) * 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
US20180201916A1 (en) * 2015-07-06 2018-07-19 Uvic Industry Partnerships Inc. Variants of the subtilisin carlsberg polypeptide with decreased thermostability

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002079502A1 (en) * 2001-03-28 2002-10-10 The University Of Queensland A method for nucleic acid sequence analysis
CN104508144A (zh) * 2012-07-18 2015-04-08 伊鲁米纳剑桥有限公司 用于确定单倍型和定相单倍型的方法和系统
CN107002120A (zh) * 2014-05-23 2017-08-01 悉尼科技大学 测序方法
WO2016057947A1 (en) * 2014-10-10 2016-04-14 Cold Spring Harbor Laboratory Random nucleotide mutation for nucleotide template counting and assembly
US20170191124A1 (en) * 2015-12-30 2017-07-06 Bio-Rad Laboratories, Inc. Split-cycle and tape amplification

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOTOND SIPOS等: "An Improved Protocol for Sequencing of Repetitive Genomic Regions and Structural Variations Using Mutagenesis and Next Generation Sequencing", PLOS ONE, vol. 7, no. 8, 17 August 2012 (2012-08-17), pages 43359 *
HANNA L. SLADITSCHEK等: "Hanna L. Sladitschek等", CELL, vol. 181, 14 May 2020 (2020-05-14), pages 922 - 935 *

Also Published As

Publication number Publication date
CA3222084A1 (en) 2020-02-20
JP7437383B2 (ja) 2024-02-22
JP2024054291A (ja) 2024-04-16
HUE064110T2 (hu) 2024-02-28
US20210174905A1 (en) 2021-06-10
EP4293123A3 (en) 2024-01-17
DK3710597T3 (da) 2021-09-20
KR20210081326A (ko) 2021-07-01
ES2892349T3 (es) 2022-02-03
AU2019321208A1 (en) 2021-02-18
JP2021533775A (ja) 2021-12-09
EP3950958B1 (en) 2023-10-04
EP3950958A1 (en) 2022-02-09
CA3108947A1 (en) 2020-02-20
EP3710597B1 (en) 2021-07-14
ES2965194T3 (es) 2024-04-11
SG11202101019YA (en) 2021-02-25
EP3710597A1 (en) 2020-09-23
EP4293123A2 (en) 2023-12-20
WO2020035669A1 (en) 2020-02-20

Similar Documents

Publication Publication Date Title
Carøe et al. Single‐tube library preparation for degraded DNA
RU2698125C2 (ru) Библиотеки для секвенирования нового поколения
AU2021204166B2 (en) Reagents, kits and methods for molecular barcoding
CN106554957A (zh) 测序文库及其制备和应用
JP2024054291A (ja) 配列決定アルゴリズム
CN108138228A (zh) 用于下一代测序的高分子量dna样品追踪标签
US10570386B2 (en) PCR-based method for generating multisite saturation mutagenic DNA libraries
CN110331446A (zh) Dna甲基化标志物筛查试剂盒及方法
CN115715323A (zh) 一种高兼容性的PCR-free建库和测序方法
Chatellier et al. Combinatorial scanning site-directed mutagenesis
Psonis et al. Testing a series of modifications on genomic library preparation methods for ancient or degraded DNA
EP3918091A1 (en) Method of sequencing nucleic acid with unnatural base pairs
Penev et al. Eukaryotic-like ribosomal RNA in Asgard archaea
EP3673084B1 (en) Method for introducing mutations
CA3200114C (en) Rna probe for mutation profiling and use thereof
Wei Single Cell Phylogenetic Fate Mapping: Combining Microsatellite and Methylation Sequencing for Retrospective Lineage Tracing
CN117625739A (zh) 同时进行基因组和甲基化组测序的测序接头组合物、建库方法和测序方法
US20120171680A1 (en) Single-molecule pcr for amplification from a single nucleotide strand

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221114

Address after: Singapore, Singapore City

Applicant after: ILLUMINA SINGAPORE Pte. Ltd.

Address before: New South Wales, Sydney, Australia

Applicant before: Langs Technology Co.,Ltd.

TA01 Transfer of patent application right