CN110872615A - 一种用于对核苷酸双链进行测序的高通量二代测序方法 - Google Patents

一种用于对核苷酸双链进行测序的高通量二代测序方法 Download PDF

Info

Publication number
CN110872615A
CN110872615A CN201910806584.4A CN201910806584A CN110872615A CN 110872615 A CN110872615 A CN 110872615A CN 201910806584 A CN201910806584 A CN 201910806584A CN 110872615 A CN110872615 A CN 110872615A
Authority
CN
China
Prior art keywords
sequencing
detected
dna
coding
double
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910806584.4A
Other languages
English (en)
Inventor
李进
常咏
江明星
高雅
李游
刘建
万金桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitgen Inc
Original Assignee
Hitgen Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitgen Inc filed Critical Hitgen Inc
Publication of CN110872615A publication Critical patent/CN110872615A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种高通量测序试剂盒,它包括如下组分:1)上游测序接头;2)M个行编码接头;3)N个列编码接头;4)下游测序接头;其中,M、N均为大于等于1的整数。本发明还公开了一种高通量测序方法。本发明方法可以实现高通量测序定量分析,应用前景优良。

Description

一种用于对核苷酸双链进行测序的高通量二代测序方法
技术领域
本发明公开了一种基于兼并组合编码对核苷酸双链进行测序的高通量二代测序方法。
背景技术
近年来高通量二代测序技术不断进步,测序通量极大地提高且成本显著降低,在医学和生物学领域的应用不断拓展。除了对双链DNA进行常规的高通量测序分析外,利用双链DNA进行编码或功能分析的技术也广泛地被用于DNA编码化合物库和其他基于测序手段读出的多种检测方法上,如对蛋白催化中心或结合区的改造和分析、对抗体可变区的改造和分析、对DNA结合位点的检测、基因启动区功能分析等。这些应用需要使用大量的双链DNA进行编码或序列的筛选富集,且需要同时保证合成出的DNA双链的质量。
以DNA编码化合物库合成技术为例,该技术结合了组合化学和分子生物学技术,通过将一个片段化合物与一段独特序列的双链DNA(通常叫DNA编码)在分子水平进行连接,利用组合化学的“组合-拆分”策略通过两个至多个循环快速地构建数量巨大的化合物库。其中,化合物库中每一个化合物都由不同片段化合物组成,并由相应的特异碱基序列的DNA进行编码标识。目前工业上应用的DNA编码化合物库的规模可以达到千亿至万亿级,能通过筛选和测序的方法进行识别。该技术使得先导化合物的筛选变得前所未有的快捷和高效,已成为下一代化合物库筛选技术的趋势,并开始在国外制药行业广泛应用,产生了诸多积极的效果(Accounts of ChemicalResearch,2014,47,1247-1255)。该技术在建库过程中,需要用到大量具有特异序列的双链DNA以对片段化合物进行编码标记。然而,这些具有特异序列的编码DNA多数都是通过人工合成,而在DNA的合成和使用过程中不可避免会出现合成质量的差异或流程操作上的错误。使用低质量或错误的DNA序列构建DNA编码化合物库,会造成化合物库中化合物与特异序列编码DNA的对应关系不一致,从而可能导致最终筛选测序得到的编码对应错误的化合物。因此,确保所用DNA序列的正确性且能够快速实现对大量编码DNA的高通量分析,是建立高质量DNA编码化合物库的重要前提,我们需要采用比传统方法更高效更精准的检测方法对所用的编码DNA进行质量控制。
由于双链DNA化学结构的特殊性,一般的检测方法(如电泳、液相质谱LCMS或一代测序等)并不能准确地检查出单碱基序列的错误和低浓度污染或杂质等。目前使用最广泛且相对精确度较高的液相质谱LCMS只能基于分子量来判断合成目标分子的质量,并不能高精度确定DNA编码中哪个核苷酸出现错误。同时,液相质谱LCMS的方法是线性串联式的分析方法,在通量上无法实现大量样品的高通量平行分析。因此,需要开发一种快速、高通量、高精度的检测双链DNA质量的方法来分析大量的编码DNA,以满足DNA编码化合物库技术的迫切需求。
发明内容
为了解决上述问题,本发明提供了一种高通量测序方法。本发明克服了现有主要检测方法的低通量。提供了一种利用多维编码的组合建库且可以选择性引入兼并编码的二代测序方法,可实现对待测样品的高通量和单碱基分辨率的高精度定量评估。
本发明提供了一种高通量测序试剂盒,它包括如下组分:
1)上游测序接头;
2)M个行编码接头;
4)N个列编码接头;
5)下游测序接头;
其中,M、N均为大于等于1的整数。
进一步地,上游测序接头可选带P1个组编码,下游测序接头带P2个组编码,P1和P2均为大于等于0的整数。
进一步地,P1或P2之和大于等于1。
进一步地,所述行编码接头和/或列编码接头带有兼并编码,兼并编码为长度4~16的完全随机碱基序列或部分随机碱基序列;优选地,所述兼并编码长度为6-12个。
部分随机碱基序列:是指碱基序列并非任意随时,其GC含量或者碱基排布方式有限制。
进一步地,所述部分随机碱基序列的GC含量为40-60%,不出现连续4个及以上的GC类或AT类碱基序列,不出现连续4个及以上相同碱基序列。
进一步地,行编码接头和列编码接头包括1~2个通用序列、可选兼并编码序列、行或列编码序列,以及与待测DNA匹配的特定末端序列;优选接头中的黏性末端与待测DNA的黏性末端反向互补进行连接,接头中的平末端与待测DNA的平末端直接连接。
进一步地,所述行编码接头、列编码接头中,通用序列为0~100bp,优选为0~30bp;编码序列长度为4~30bp,优选为8~12bp;黏性末端为1~10bp,优选为2~4bp。
进一步地,所述行编码接头、列编码接头无回文结构、发卡结构,GC含量在40%-60%之间。
进一步地,带组编码的上游测序接头和下游测序接头可以是商业测序平台中商业试剂盒的上游测序接头和下游测序接头;所述上游测序接头和下游测序接头含单端或双端index,所述index作为P1个上游组编码及P2个下游组编码。
本发明还提供了前所述试剂盒在测序中的应用。
进一步地,待检的序列为双链DNA或者单链DNA,当待测DNA为单链DNA时,增加通用序列与单链DNA的末端互补,形成部分双链的结构。
进一步地,待测DNA的长度是6~300bp,优选为6~100bp。
进一步地,待测DNA的两端需要具有不对称性;更进一步的,其结构类型包括:A.待测双链DNA带两个不对称黏性末端,所述是两个粘性末端的突出方向不同、末端长度不同、末端序列不同或末端长度和序列均不同;B.待测双链DNA仅一端为黏性末端,而另一端为平末端;C.含通用序列的待测单链DNA,其两个末端形成特殊不对称双链结构。
特殊不对称双链结构:是指链的末端为双链,中间为单链的结构,如
Figure BDA0002183222510000031
进一步地,待测双链DNA或待测单链DNA形成的特殊不对称双链结构的5’端需磷酸化;优选地,当5’端未磷酸化,通过样本的后处理进行磷酸化,优选用激酶反应添加。
本发明高通量测序方法,它包括如下步骤:
(1)将每一待测双链DNA或待测单链DNA形成的特殊不对称双链结构与其对应的行编码接头、列编码接头混合;
(2)加入连接酶和缓冲溶液,反应后灭活;
(3)将灭活的连接产物进行混合;
(4)纯化混合后的连接产物;
(5)对连接产物用Klenow酶完成末端修复补平,进一步纯化,以及定量;
(6)构建带有单端或双端组编码测序接头的测序文库和上机测序;
(7)分析测序数据,计算序列比对后的各类型实测序列读数与行编码、列编码所对应的总读数的比例。
进一步地,步骤(1)中,待测DNA、行编码接头、列编码接头分别为水溶液,浓度范围为0.001mM至0.5mM。
进一步地,步骤(2)中,所述连接酶为T4连接酶;所述缓冲液是包含有Tris-HCl、NaCl、MgCl2、ATP的水溶液。
进一步地,步骤(2)中,反应温度为10~40℃;反应时间为10分钟至4小时;更进一步的,反应中取样用琼脂糖凝胶检测反应进程;
进一步地,步骤(2)中,灭活的方法包括以下的一种或几种:a、在高于65℃的温度下维持10分钟以上;b、加入乙醇沉淀;c、调节pH值大于9或小于5;d、加入阴离子表面活性剂;e、加入重金属离子。更进一步的,灭活的方法为在高于85℃的温度下维持10分钟。
进一步地,步骤(4)中,纯化方法包括以下的一种或几种:a、琼脂糖凝胶电泳,回收目的条带;b、磁珠纯化。更进一步的,纯化后用Qubit核酸定量仪器为样品定量。
进一步地,步骤(5)中,对连接产物用Klenow酶完成末端修复补平,如果行列码的末端为不带兼并编码的平末端,则不用进行末端修复补平。
进一步地,步骤(5)中,采用Qubit核酸定量仪器为样品定量。
进一步地,步骤(6)中,测序建库需在行编码接头和列编码接头已经进行连接且末端补平的产物上连接上下游测序接头(选带1-2个组编码)。更进一步地,所述带组编码的上游和下游测序接头的添加可以根据不同测序平台,使用兼容该测序平台的商业试剂盒。
本发明中所述的单链DNA形成的特殊不对称双链结构,指含通用序列的待测单链DNA,其与对应的通用序列形成的两个末端不对称的双链结构。如图1C所示。
本发明中所述的“通用序列”是指根据特定实验设计需要,进行双链DNA配对、PCR扩增或测序等所使用的特定DNA序列。
本发明中所述的index即索引序列,在高通量测序中常用于对不同样本来源的DNA进行标记。
本方法将待测片段进行多维度组合编码,且可在行码接头和列码接头上选择性地引入带有兼并碱基编码的特殊设计,用廉价、易于操作的方式实现了大规模测序及高精度准确定量评估。该方法的优势是:(1)该方法的多维度组合编码可以经济地实现对大量待测DNA序列的编码测序,因为可编码的通量为行、列和组编码通量的乘积,能大幅度提高测序通量。(2)对于不对称待测双链DNA序列的行列组合编码设计,可保证待测序列有方向性的插入,可实现多段编码与待测序列同时连接,从而避免测序结果出现歧义,并节省建库时间提高建库效率。(3)通过连接反应加入行、列编码的流程和方法,不会引入类似PCR方法加编码可能引起的对待测样品的扩增突变。(4)可选择性兼并碱基编码的引入可将由PCR富集的测序结果过滤分类,复原测序样品中单分子原始拷贝数的定量,实现对待测样本初始状态的准确数字化定量;还能避免对整条测序Reads进行去重复计算,可显著减少计算机在去重复运算上的负担,显著缩短去重复计算分析的时间。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1.适用于本方法的待测双链DNA结构示意图。待测DNA的两端需要具有不对称性以保证测序的方向,其结构类型包括:A.待测DNA双链带两个不对称黏性末端,可以是两个粘性末端的突出方向不同、末端长度不同、末端序列不同或末端长度和序列均不同;B.待测DNA双链仅一端为黏性末端,而另一端为平末端;C.含通用序列的单链DNA,能在其两个末端形成不对称双链结构:以两端均为黏性末端(3’端突出)示例。
图2.对待测DNA双链进行高通量测序建库的行和列组合编码设计:A.根据添加兼并编码的3类应用需求,对待测DNA(以双端均为3’突出黏性末端为例)添加不同类行码和列码接头组合的结构示意图。B.连接行码和列码的待测DNA通过Klenow完成末端补齐的结构。
图3.添加带有组编码测序接头的方法,适用于illumina、Thermo Fisher和华大等高通量测序平台。A.通过酶连添加带组编码测序接头;B.利用PCR引物添加组编码接头C.完成组合编码得到的全长测序文库。
图4.基于行、列和组编码进行测序文库构建的操作方法流程图
图5.供应商3提供双链DNA样本中两个代表性样本(测序质量相对较差样本及测序正确率较高样本)在LCMS上的一致检测结果及数据结果对比。A.双链DNA样本中测序质量相对较差样本A及测序正确率较高样本B的测序检测结果汇总。B.测序质量相对较差样本A的LCMS检测结果。C.测序正确率较高样本B的LCMS检测结果。
具体实施方式
实施例1对大量待测双链序列平行进行二维的行、列组合编码方法
本实施例描述了对大量待测双链DNA平行进行二维的行、列组合编码方法。构建好的序列结构包含三个部分,如图2B所示,从5’端开始依次为上游行编码接头、待测双链DNA和下游列编码接头。各部分的具体特征如下:
待测双链DNA:双端均为2个碱基突出的3’粘性末端,且黏性末端序列不同。
行编码接头、列编码接头:如图2所示,行、列编码接头可以根据实际需要,选择添加或不添加兼并编码区,以及添加1个或2个兼并编码区。下面分别用图2的A和B类型的设计来示意不添加兼并编码的行、列编码接头设计,以及含兼并编码的列码接头设计。
针对A类型-不含兼并编码的行码接头和列码接头设计:(1)行编码接头的两条链长短不同:正义链从5’开始依次包含了20个碱基的外侧通用序列,11个碱基的行编码序列,2个碱基的黏性末端(与待测序列上游黏性末端反向互补),总长度33个碱基;反义链从5’开始依次包含了11个碱基的行编码序列(与正义链的该区域反向互补),20个碱基的外侧通用序列(与正义链的该区域反向互补),总长度31个碱基。(2)列编码接头的两条链长短不同:正义链从5’开始依次包含了13个碱基的列编码序列,19个碱基的外侧通用序列,总长度32个碱基;反义链从5’开始依次包含了19个碱基的外侧通用序列(与正义链的该区域反向互补),13个碱基的列编码序列(与正义链的该区域反向互补),2个碱基的黏性末端(与待测序列下游黏性末端反向互补),总长度34个碱基。行编码接头、列编码接头无回文结构、发卡结构,GC含量在40%-60%之间,通用序列相同,行、列编码序列用于在测序时唯一标识待测DNA。
针对B类型-一端含兼并编码(行码或列码)的行码接头和列码接头设计(以列编码含兼并编码示例):(1)行编码接头不含兼并编码,设计同A类型行编码接头。(2)列编码接头的两条链长短不同:正义链仅包含了13个碱基的列编码序列,总长度13个碱基;反义链从5’开始依次包含了19个碱基的外侧通用序列,8个随机碱基的兼并编码序列,13个碱基的列编码序列(与正义链的该区域反向互补),2个碱基的黏性末端(与待测序列下游黏性末端反向互补),总长度42个碱基。行编码接头、列编码接头无回文结构、发卡结构,GC含量在40%-60%之间,通用序列相同,行、列编码序列用于在测序时唯一标识待测DNA。
本实施例的具体流程操作方法见图4,其中还包含所使用的T4连接酶及其连接缓冲液。
1)将待测DNA稀释至0.02mM,行编码接头和列编码接头稀释至0.025mM。
2)将行编码接头和列编码接头通过排列组合的方式加入到编码板上。
3)将稀释后的待测DNA加入到相对应的编码板中,并加入T4连接酶和连接缓冲液。所用浓度、体积如下表所示:
Figure BDA0002183222510000071
其中,10X T4连接缓冲液的成分为:Tris 0.5M,NaCl 0.5M,MgCl20.1M,ATP0.025M。
4)将样品在20℃下反应1h。抽取样品用3%的琼脂糖凝胶检测。连接反应成功后,将T4连接酶灭活。将同组样品混合到一起。
5)将混合样品用3%的琼脂糖凝胶电泳。回收目的条带,并纯化目的片段DNA。用Qubit核酸定量仪器为样品定量。
6)对回收样品用Klenow酶(厂商:Thermo Scientific,货号EP0051)按照其试剂盒的标准20ul体系完成末端修复,用凯杰PCR回收试剂盒进行纯化,用Qubit进行定量。如果行编码接头和列编码接头均为平末端,不需要进行该步骤,直接进行步骤7。
7)回收的混合样品可根据特定测序平台的要求,按照图3A提供的方法加入带组编码的特定测序接头进行测序。
实施例2基于illumina测序平台Hiseq2500的高通量组合建库及测序
本实施例描述了基于i1lumina测序平台Hiseq2500(通用于illumina测序平台其他测序仪)的高通量组合建库和测序方法。图3A描述了通过酶连添加带组编码测序接头的方法;通过该方法最终完成组合编码得到的全长测序文库如图3C所示,包含五个部分,从5’端开始依次上游测序接头、上游行编码接头、待测双链DNA,下游列编码接头和带组编码的下游测序接头。
本实施例通过酶连添加带组编码测序接头(如图3A所示),使用与illumina测序平台兼容的商用建库试剂盒Bioo Scientific建库试剂盒Nextflex Rapid DNA-Seq Kit(5144-08)能有效进行组合编码。在本方法的预实验(见实验例1)中,我们设计了36个不同的行编码,40个不同的列编码,和下游测序接头自带的96个组编码,可以通过组合编码唯一标识138240条(=36*40*96)待测DNA,在同一芯片上平行检测。该实验的测序试剂盒为:Hiseq SR Cluster kit V4-cBot,SBS 50-cycle-Hiseq V4。
实施例3基于Thermo Fisher测序平台The Ion Proton System的高通量组合建库及测序
本实施例描述了基于Thermo Fisher测序平台The Ion Proton System(通用于Thermo Fisher测序平台其他测序仪)的高通量组合建库和测序方法。该方法的建库流程与实施例2所使用的方法基本一样。通过酶连添加带组编码测序接头(如图3A所示)的建库方法可以借用常规商用的Ion Torrent文库构建试剂盒简单地完成建库。具体实验使用BiooScientific建库试剂盒Ion Torrent Compatible DNA-Seq Library Prep Kit能实现组合编码。该实验的测序试剂盒为:IonPITMChip。
实施例4基于华大测序平台MGISEQ-2000的高通量组合建库及测序
本实施例描述了基于华大测序平台MGISEQ-2000(通用于华大测序平台其他测序仪)的高通量组合建库和测序方法。该方法的建库试剂可借用MGIEasy DNA文库制备试剂盒和MGIEasy环化模块。该实验的测序试剂盒为:MGI-2000FCL芯片高通量测序试剂套装。
实施例5基于不同测序平台得到测序数据的通用分析
对于不同测序平台得到的原始测序数据,需对其行编码、列编码和组编码的测序数据进行分类整理,还原其样本序列信息,步骤如下:
1.首先将测序仪的每一条读数基于非兼并碱基组编码(上游或下游仅有1个测序接头带组编码)或组编码组合(上下游测序接头均含组编码)进行分类;
2.对每个组编码归类后的组内每一条读数基于行编码和列编码的组合进行再次分类,该分类后的每一个单元的读数汇总对应了该预设组合编码的待检DNA的检测情况;
3.将分类后的每一个单元基于兼并碱基进行去重复,实现对待测DNA序列的原始拷贝数定量;
4.将分类后每个单元的测序读数去除行编码、列编码序列和组编码信息后得到的样本序列信息;
5.将每条测定的样本序列信息与设计序列进行比对分析,并计算汉明距离差距。
以下用实验例的方式来验证本发明的有益效果:
实验例1采用实施例1组合实施例2的方法评估三个不同供应商合成双链DNA的质量
1、检测方法
按照实施例1结合实施例2的方法,对不同供应商合成的双链DNA质量进行了评估。三家供应商分别合成提供了大量的双链DNA样品,两条单链的长度均为13bp,双链的两端均有2个碱基突出的3’粘性末端。
2、检测结果
三家不同供应商单批次样品的基本信息和测序结果汇总如下表所示,三家的测序通过率均较高,供应商3略差一点。
Figure BDA0002183222510000091
基于汉明距离分析三家供应商合成双链DNA样本测序通过部分的测试结果汇总见下表,用样本的均值%表征。从中我们明显看出供应商3合成样品的质量相对较差,出现掉1bp核酸的比例相对较高。
Figure BDA0002183222510000092
实验例2测序判定结果与LCMS判定结果一致
1、检测方法
用液相质谱(LCMS)平行对比分析了实验例1中3家供应商提供的双链DNA样品。
2、检测结果
用LCMS平行对比分析了3家供应商提供的双链DNA样品,LCMS的检测结果与测序结果的结论基本一致。图5汇总展示了供应商3提供双链DNA样本中测序质量相对较差样本及测序正确率较高样本在LCMS上的一致检测结果及数据结果对比。其中,图5A列举了两个代表性样本的测序检测结果及各类合成错误分项比例。
图5B示例了测序质量相对较差样本的LCMS检测结果。对于测序检测1bp缺失比例较高(7.8%)的样本,LCMS给出的比例为6%。虽然LCMS基于离子响应强度的质谱定量分析方法会受到所分析不同杂质的离子化能力差异影响及检测灵敏度的影响,定量准确性会有一些偏差,但在可接受方法间偏差范围内该结果与测序结果的结论是基本一致的。此外,作为测序方法的一个优势,该方法可以准确定量每个位点的缺失和突变比例并辅助DNA合成工艺的优化;而LCMS仅能对待测样本的4类碱基进行分类定量,且测序结果中占比较少的各类合成错误无法检测到。
图5C示例了测序正确率较高样本的LCMS检测结果。对于测序分析正确率较高的样本,测序结果中占比较少的各类合成错误无法检测到。该结果也显示了两种方法对合成质量较好样本的一致判定,且测序检测的灵敏度相较于LCMS方法更高更检测微量杂质组分。
实验例3:用一端含有兼并碱基的列编码进行96个双链DNA样品的批量检测
1.检测方法:
选择96个两端均有2个碱基突出的双链DNA样品进行一端含兼并列编码的批量建库测试。按照图2的A-2方法用含有8个兼并碱基的列编码构建测序文库,采用实施例2的方法进行illumina测序,基于兼并碱基的分析去除样品中由于PCR扩增产生的重复读数,并在此基础上分析待测样品的合成准确性。
2.检测结果:
该文库的测序数据和去重复兼并序列读数分析见下表。通过去除重复兼并序列的读数,有86.9%的非重复读数可进行后续分析。
Figure BDA0002183222510000101
96个待测双链DNA在去兼并读数后的合成准确性分析结果如下,该方法能有效去除PCR富集过程产生的重复计数,实现样品的批量平行分析,能更准确地定量分析样品的合成质量指标。
Figure BDA0002183222510000102
实验例4:用一端含有兼并碱基的列编码进行3个5’端和3’端含有通用序列的部分单链DNA样品(图1C结构)的平行检测
1.检测方法:
选择3个图1C结构的5’端和3’端含有通用序列的部分单链DNA样品进行一端含兼并列编码的测试分析。首先将单链DNA和与其的通用序列反向互补的单链DNA退火,后续文库构建和数据分析采用与实验例3相同的流程和方法进行。
2.检测结果:
该文库的测序数据和去重复兼并序列读数分析见下表。通过去除重复兼并序列的读数,这三个样品有~70%的非重复读数可进行后续分析。
Figure BDA0002183222510000111
3个待测部分单链DNA样品在去兼并读数后的合成准确性分析结果如下,该方法能有效去除PCR富集过程产生的重复计数,实现样品的批量平行分析,能更准确地定量分析样品的合成质量指标。
Figure BDA0002183222510000112
综上,本发明的方法,一方面可基于行编码、列编码和组编码序列对DNA文库,尤其是对编码化合物库的DNA进行多维度编码,能大幅度提高测序通量。另一方面,可基于兼并编码对序列进行去重复分析,去重复效果良好。

Claims (23)

1.一种高通量测序试剂盒,其特征在于:它包括如下组分:
1)上游测序接头;
2)M个行编码接头;
3)N个列编码接头;
4)下游测序接头;
其中,M、N均为大于等于1的整数。
2.根据权利要求1所述的试剂盒,其特征在于:上游测序接头带P1个组编码,下游测序接头带P2个组编码,P1和P2均为大于等于0的整数。
3.根据权利要求2所述的试剂盒,其特征在于:P1或P2之和大于等于1。
4.根据权利要求1所述的试剂盒,其特征在于:所述行编码接头和/或列编码接头带有兼并编码,兼并编码为长度4~16的完全随机碱基序列或部分随机碱基序列;优选地,所述兼并编码长度为6-12个。
5.根据权利要求4所述的试剂盒,其特征在于:所述部分随机碱基序列的GC含量为40-60%,不出现连续4个及以上的GC类或AT类碱基序列,不出现连续4个及以上相同碱基序列。
6.根据权利要求1所述的试剂盒,其特征在于:行编码接头和列编码接头包括1~2个通用序列、可选兼并编码序列、行或列编码序列,以及与待测DNA匹配的特定末端序列;优选接头中的黏性末端与待测DNA的黏性末端反向互补进行连接,接头中的平末端与待测DNA的平末端直接连接。
7.根据权利要求1所述的试剂盒,其特征在于:所述行编码接头、列编码接头中,通用序列为0~100bp,优选为0~30bp;编码序列长度为4~30bp,优选为8~12bp;黏性末端为1~10bp,优选为2~4bp。
8.根据权利要求1所述的试剂盒,其特征在于:所述行编码接头、列编码接头无回文结构、发卡结构,GC含量在40%-60%之间。
9.根据权利要求1所述的试剂盒,其特征在于:带组编码的上游测序接头和下游测序接头可以是商业测序平台中商业试剂盒的上游测序接头和下游测序接头;所述上游测序接头和下游测序接头含单端或双端index,所述index作为P1个上游组编码及P2个下游组编码。
10.权利要求1~9任意一项所述试剂盒在测序中的应用。
11.根据权利要求10所述的应用,其特征在于:待检的序列为双链DNA或者单链DNA,当待测DNA为单链DNA时,增加通用序列与单链DNA的末端互补,形成部分双链的结构。
12.根据权利要求11所述的应用,其特征在于:待测DNA的长度是6~300bp,优选为6~100bp。
13.根据权利要求11所述的应用,其特征在于:待测DNA的两端需要具有不对称性;更进一步的,其结构类型包括:A.待测双链DNA带两个不对称黏性末端,所述是两个粘性末端的突出方向不同、末端长度不同、末端序列不同或末端长度和序列均不同;B.待测双链DNA仅一端为黏性末端,而另一端为平末端;C.含通用序列的待测单链DNA,其两个末端形成特殊不对称双链结构。
14.根据权利要求11所述的应用,其特征在于:待测双链DNA或待测单链DNA形成的特殊不对称双链结构的5’端需磷酸化;优选地,当5’端未磷酸化,通过样本的后处理进行磷酸化,优选用激酶反应添加。
15.一种高通量测序方法,其特征在于:它包括如下步骤:
(1)将每一待测双链DNA或待测单链DNA形成的特殊不对称双链结构与其对应的行编码接头、列编码接头混合;
(2)加入连接酶和缓冲溶液,反应后灭活;
(3)将灭活的连接产物进行混合;
(4)纯化混合后的连接产物;
(5)对连接产物用Klenow酶完成末端修复补平,进一步纯化,以及定量;
(6)构建带有单端或双端组编码测序接头的测序文库和上机测序;
(7)分析测序数据,计算序列比对后的各类型实测序列读数与行编码、列编码所对应的总读数的比例。
16.根据权利要求15所述的方法,其特征在于:步骤(1)中,待测DNA、行编码接头、列编码接头分别为水溶液,浓度范围为0.001mM至0.5mM。
17.根据权利要求15所述的方法,其特征在于:步骤(2)中,所述连接酶为T4连接酶;所述缓冲液是包含有Tris-HCl、NaCl、MgCl2、ATP的水溶液。
18.根据权利要求15所述的方法,其特征在于:步骤(2)中,反应温度为10~40℃;反应时间为10分钟至4小时;更进一步的,反应中取样用琼脂糖凝胶检测反应进程。
19.根据权利要求15所述的方法,其特征在于:步骤(2)中,灭活的方法包括以下的一种或几种:a、在高于65℃的温度下维持10分钟以上;b、加入乙醇沉淀;c、调节pH值大于9或小于5;d、加入阴离子表面活性剂;e、加入重金属离子。更进一步的,灭活的方法为在高于85℃的温度下维持10分钟。
20.根据权利要求15所述的方法,其特征在于:步骤(4)中,纯化方法包括以下的一种或几种:a、琼脂糖凝胶电泳,回收目的条带;b、磁珠纯化。更进一步的,纯化后用Qubit核酸定量仪器为样品定量。
21.根据权利要求15所述的方法,其特征在于:步骤(5)中,对连接产物用Klenow酶完成末端修复补平,如果行列码的末端为不带兼并编码的平末端,则不用进行末端修复补平。
22.根据权利要求15所述的方法,其特征在于:步骤(5)中,采用Qubit核酸定量仪器为样品定量。
23.根据权利要求15所述的方法,其特征在于:步骤(6)中,测序建库需在行编码接头和列编码接头已经进行连接且末端补平的产物上连接上下游测序接头。
CN201910806584.4A 2018-08-31 2019-08-28 一种用于对核苷酸双链进行测序的高通量二代测序方法 Pending CN110872615A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811014068 2018-08-31
CN201811014068X 2018-08-31

Publications (1)

Publication Number Publication Date
CN110872615A true CN110872615A (zh) 2020-03-10

Family

ID=69642866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910806584.4A Pending CN110872615A (zh) 2018-08-31 2019-08-28 一种用于对核苷酸双链进行测序的高通量二代测序方法

Country Status (2)

Country Link
CN (1) CN110872615A (zh)
WO (1) WO2020043174A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113588392B (zh) * 2021-07-28 2022-03-04 北京金匙基因科技有限公司 一种改善测序混样均匀性的定量混样方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102877136A (zh) * 2012-09-24 2013-01-16 上海交通大学 基于基因组简化与二代测序dna文库构建方法及试剂盒
CN104313172A (zh) * 2014-11-06 2015-01-28 中国海洋大学 一种大量样本同时分型的方法
CN105200530A (zh) * 2015-10-13 2015-12-30 北京百迈客生物科技有限公司 一种适用于高通量全基因组测序的多样品混合文库的构建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102061335B (zh) * 2010-11-15 2014-07-23 苏州众信生物技术有限公司 一种二代高通量测序的不对称dna双链接头及其应用
CN102978206A (zh) * 2012-11-27 2013-03-20 北京诺禾致源生物信息科技有限公司 一种应用于混合建库的高通量测序接头及其建库方法
CN105154444A (zh) * 2015-10-15 2015-12-16 南京普东兴生物科技有限公司 一种有效提高建库效率的非对称高通量测序接头及其应用
CN105602936A (zh) * 2015-11-18 2016-05-25 中国人民解放军第四军医大学 一种双barcode二代测序文库的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102877136A (zh) * 2012-09-24 2013-01-16 上海交通大学 基于基因组简化与二代测序dna文库构建方法及试剂盒
CN104313172A (zh) * 2014-11-06 2015-01-28 中国海洋大学 一种大量样本同时分型的方法
CN105200530A (zh) * 2015-10-13 2015-12-30 北京百迈客生物科技有限公司 一种适用于高通量全基因组测序的多样品混合文库的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHARLES C BELL 等: "A high-throughput screening strategy for detecting CRISPR-Cas9 induced mutations using next-generation sequencing" *
曲海强: "DNA文库中Barcode的设计" *

Also Published As

Publication number Publication date
WO2020043174A1 (zh) 2020-03-05

Similar Documents

Publication Publication Date Title
Bronner et al. Improved protocols for illumina sequencing
CN106048009B (zh) 一种用于超低频基因突变检测的标签接头及其应用
US11274341B2 (en) Assay methods using DNA binding proteins
CN107969138B (zh) 条形码序列和有关系统与方法
CN113005121B (zh) 接头元件、试剂盒及其相关应用
KR20200027927A (ko) 동종중합체 코딩된 핵산 메모리
CN112840023B (zh) 使用索引和条形码识别阵列上的配体的方法和组合物
CA2788583A1 (en) Complexity reduction method
KR20170133270A (ko) 분자 바코딩을 이용한 초병렬 시퀀싱을 위한 라이브러리 제조방법 및 그의 용도
CN106834428B (zh) 高通量多位点人类短片段串联重复序列检测试剂盒及其制备和应用
CN113373524A (zh) 一种ctDNA测序标签接头、文库、检测方法和试剂盒
CN110872615A (zh) 一种用于对核苷酸双链进行测序的高通量二代测序方法
CN110724731A (zh) 一种在多重pcr体系内加入内参定量核酸拷贝数的方法
US20210087613A1 (en) Methods and compositions for identifying ligands on arrays using indexes and barcodes
EP2333104A1 (en) RNA analytics method
Edwards Whole-genome sequencing for marker discovery
CN1336960A (zh) 采用多种dna聚合酶的dna测序方法和所用的试剂盒
Rothberg et al. Semiconductor sequencing for life
CN111979298A (zh) 一种用于mgi/bgi平台ngs文库制备的接头及其应用
EP3143159A1 (en) Systems and methods for validation of sequencing results
CN111433374A (zh) 用于检测串联重复区的方法、系统和计算机可读介质
US11965880B2 (en) Next-generation sequencing for protein measurement
WO2022107814A1 (ja) 変異プロファイリングのためのrnaプローブ及びその使用
Urmanov et al. ANALYSIS OF THE EVOLUTION OF TECHNOLOGIES FOR DETERMINING THE NUCLEOTIDE SEQUENCE OF A DNA MOLECULE
WO2022101162A1 (en) Paired end sequential sequencing based on rolling circle amplification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination