CN117887806A - 标记序列、接头、试剂盒以及dna甲基化测序方法 - Google Patents
标记序列、接头、试剂盒以及dna甲基化测序方法 Download PDFInfo
- Publication number
- CN117887806A CN117887806A CN202311777970.8A CN202311777970A CN117887806A CN 117887806 A CN117887806 A CN 117887806A CN 202311777970 A CN202311777970 A CN 202311777970A CN 117887806 A CN117887806 A CN 117887806A
- Authority
- CN
- China
- Prior art keywords
- sequence
- adaptor
- sequencing
- linker
- banking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000003550 marker Substances 0.000 title claims abstract description 46
- 238000012164 methylation sequencing Methods 0.000 title claims abstract description 28
- 230000007067 DNA methylation Effects 0.000 title abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 107
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims abstract description 32
- 229940104302 cytosine Drugs 0.000 claims abstract description 15
- 230000000295 complement effect Effects 0.000 claims description 23
- 108091033319 polynucleotide Proteins 0.000 claims description 22
- 102000040430 polynucleotide Human genes 0.000 claims description 22
- 239000002157 polynucleotide Substances 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 21
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 claims description 9
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 8
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 claims description 6
- 239000002253 acid Substances 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 5
- 238000011282 treatment Methods 0.000 claims description 5
- FHSISDGOVSHJRW-UHFFFAOYSA-N 5-formylcytosine Chemical compound NC1=NC(=O)NC=C1C=O FHSISDGOVSHJRW-UHFFFAOYSA-N 0.000 claims description 4
- 102000012410 DNA Ligases Human genes 0.000 claims description 4
- 108010061982 DNA Ligases Proteins 0.000 claims description 4
- 230000002255 enzymatic effect Effects 0.000 claims description 4
- 150000002500 ions Chemical class 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- BLQMCTXZEMGOJM-UHFFFAOYSA-N 5-carboxycytosine Chemical compound NC=1NC(=O)N=CC=1C(O)=O BLQMCTXZEMGOJM-UHFFFAOYSA-N 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 125000006850 spacer group Chemical group 0.000 claims description 2
- 238000012864 cross contamination Methods 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 4
- 108020004414 DNA Proteins 0.000 description 12
- 238000010276 construction Methods 0.000 description 10
- 238000012408 PCR amplification Methods 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 5
- 102000003960 Ligases Human genes 0.000 description 4
- 108090000364 Ligases Proteins 0.000 description 4
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 229930024421 Adenine Natural products 0.000 description 3
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 3
- 229960000643 adenine Drugs 0.000 description 3
- 238000011109 contamination Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- SUYVUBYJARFZHO-RRKCRQDMSA-N dATP Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-N 0.000 description 2
- 230000001973 epigenetic effect Effects 0.000 description 2
- 230000030279 gene silencing Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- 108091092584 GDNA Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 150000003833 nucleoside derivatives Chemical class 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及二代测序领域,尤其是涉及甲基化测序领域,具体涉及标记序列、包含该标记序列的接头、包含该序列或接头的试剂盒以及应用该接头或试剂盒的DNA甲基化测序方法。标记序列包括位于插入片段一侧或两侧的聚胞嘧啶序列,其中每一侧的每一个位点的胞嘧啶存在修饰或未修饰的两种状态。本发明可以降低测序样本间的交叉污染,并且能够适用于DNA甲基化检测。
Description
技术领域
本发明涉及二代测序(Next Generation Sequencing,NGS)领域,尤其是涉及甲基化测序领域,具体涉及标记序列、包含该标记序列的接头、包含该序列或接头的试剂盒以及应用该接头或试剂盒的DNA甲基化测序方法。
背景技术
二代测序是一种高通量测序方法,在测序过程中,多个样本是并行处理的,因而,在样本处理的各个阶段不可避免地会发生样本之间的交叉污染。现有二代测序平台通常利用接头中的索引(Index)序列来标记样本。其在一定程度上降低了样本间的交叉污染,但是在添加索引序列之前还存在多个实验步骤,单纯依靠索引序列无法避免由实验步骤带来的样本污染。因此,采用索引标记样本的二代测序平台仍然会存在一定程度的样本间交叉污染。
DNA甲基化是一种稳定沉默标记,在表观遗传学沉默转录过程中承担关键的角色。它们不影响碱基配对,但是会影响DNA与蛋白的相互作用。为检测DNA序列的甲基化状态,通常需要对样本进行特殊处理,以重亚硫酸盐处理为例,重亚硫酸盐处理会将所有未甲基化的胞嘧啶(C)转化为尿嘧啶(U),这些尿嘧啶(U)会在随后的PCR扩增中变成胸腺嘧啶(T)。甲基化胞嘧啶(mC)在这个过程中保持不变,从而区分未甲基化的胞嘧啶(C)和甲基化的胞嘧啶(mC)。这一步骤能使平时检测不到的表观遗传学信息,转变成为容易检出的序列信息,分辨率达到单个碱基。在甲基化测序过程中,为了降低样本间交叉污染的问题,现有测序平台同样会采用索引序列对样本进行标记。但是,如前所述,由于索引序列的添加时间靠后,其仍然存在前述的样本间交叉污染问题。
因此,本领域亟需一种能够进一步降低样本间交叉污染的能够适用于DNA甲基化检测的二代测序方法。
发明内容
本发明提供一种标记序列、包含该标记序列的接头、包含该序列或接头的试剂盒以及应用该序列、接头或试剂盒的DNA甲基化测序方法,其可以降低测序样本间的交叉污染,并且能够适用于DNA甲基化检测。
在第一方面,本发明提供一种标记序列,其包括位于插入片段一侧或两侧的聚胞嘧啶序列,其中每一侧的胞嘧啶存在修饰或未修饰的两种状态。
在一种实施方式中,所述聚胞嘧啶序列的每一侧的每一个位点的胞嘧啶存在修饰或未修饰的两种状态。
在一种实施方式中,位于插入片段每一侧的聚胞嘧啶序列的长度各自独立地分别为至少1个碱基,例如,至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个碱基,或者由这些范围中的任意值组成的子范围的碱基个数。
在一种实施方式中,修饰状态的胞嘧啶选自5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)或5-羧基胞嘧啶(5CaC)中的一种。
在一种实施方式中,位于插入片段两侧的聚胞嘧啶长度可以相同或不同。
在一种实施方式中,位于插入片段两侧的聚胞嘧啶的修饰可以相同或不同。
在一种实施方式中,聚胞嘧啶序列一端与插入片段直接连接或间隔A/T连接,另一端与二代测序接头直接连接。
在一种实施方式中,聚胞嘧啶序列为聚5-甲基胞嘧啶(5mC)、聚5-羟甲基胞嘧啶(5hmC)、聚5-甲酰基胞嘧啶(5fC)、聚5-羧基胞嘧啶(5CaC)或聚未修饰的胞嘧啶(C)。
在一种实施方式中,所述插入片段中各碱基占比均为约20%-30%,例如,20、21、22、23、24、25、26、27、28、29、30%,或者由这些范围中的任意值组成的子范围。
在一种实施方式中,所述二代测序接头可以是Illumina测序平台、IonTorrent测序平台或MGI测序平台中所使用的二代测序接头。例如,Illumina测序平台的P5和P7端接头,Ion Torrent测序平台的P1和A接头或P1和X接头,MGI测序平台的线性接头和泡状接头。
在一种实施方式中,所述二代测序接头中的胞嘧啶已经经过修饰,使得其在甲基化测序的建库过程不发生转化,例如,二代测序接头中的胞嘧啶均为5-甲基胞嘧啶。
在第二方面,本发明提供一种用于单链建库的接头,其包含本发明第一方面的标记序列。
在一种实施方式中,用于单链建库的接头包括5’端接头和3’端接头,5’端接头包括5’端二代测序接头、与其连接的本发明第一方面的一侧的标记序列、与5’端二代测序接头的序列和该侧标记序列互补配对连接的互补序列,以及与该互补序列连接的聚核苷酸(PolyN)序列;3’端接头包括3’端二代测序接头、与其连接的本发明第一方面的另一侧的标记序列、与3’端二代测序接头的序列和标记序列互补配对连接的互补序列,以及与该侧互补序列连接的另一聚核苷酸序列。
在一种实施方式中,用于单链建库的接头为包含多种聚核苷酸序列部分的混合物,其中至少一种可以与插入片段末端互补配对。
在一种实施方式中,5’端接头和3’端接头中的聚核苷酸序列的长度各自独立地为至少1个碱基,例如,至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个碱基,或者由这些范围中的任意值组成的子范围的碱基个数。
在一种实施方式中,所述聚核苷酸序列中各碱基占比均为约20%-30%,例如,20、21、22、23、24、25、26、27、28、29、30%,或者由这些范围中的任意值组成的子范围。
在一种实施方式中,5’端接头和3’端接头中的聚核苷酸序列可以相同或不同。
在一种实施方式中,用于单链建库的接头包括5’端接头和3’端接头,5’端接头包括Illumina测序平台的P5端接头、与其连接的本发明第一方面的一侧的标记序列、与Illumina测序平台的P5端接头的序列和该侧标记序列互补配对连接的互补序列,以及与该互补序列连接的聚核苷酸序列;3’端接头包括Illumina测序平台的P7端接头、与其连接的本发明第一方面的另一侧的标记序列、与Illumina测序平台的P7端接头的序列和该标记序列互补配对连接的互补序列,以及与该互补序列连接的聚核苷酸序列。
在第三方面,本发明提供一种用于双链建库的接头,其包含本发明第一方面的标记序列。
在一种实施方式中,用于双链建库的接头包括5’端二代测序接头、与其连接的本发明第一方面的单侧的标记序列、与该标记序列互补配对连接并与3’端二代测序接头连接的聚鸟嘌呤序列以及连接在该标记序列末尾的T;或者用于双链建库的接头包括3’端二代测序接头、与其连接的本发明第一方面的单侧的标记序列、与该标记序列互补配对连接并与5’端二代测序接头连接的聚鸟嘌呤序列以及连接在该聚鸟嘌呤序列末尾的T。
在一种实施方式中,用于双链建库的接头包括Illumina测序平台的P5端接头、与其连接的本发明第一方面的单侧的标记序列、与该标记序列互补配对连接并与Illumina测序平台的P7端接头连接的聚鸟嘌呤序列以及连接在该标记序列末尾的T;或者用于双链建库的接头包括Illumina测序平台的P7端测序接头、与其连接的本发明第一方面的单侧的标记序列、与该标记序列互补配对连接并与Illumina测序平台的P5端接头连接的聚鸟嘌呤序列以及连接在该聚鸟嘌呤序列末尾的T。
在第四方面,本发明提供一种试剂盒,其包含本发明第一方面的标记序列、第二方面的用于单链建库的接头或第三方面的用于双链建库的接头。
在第五方面,本发明提供一种使用本发明第二方面的用于单链建库的接头或第四方面的试剂盒的甲基化测序方法,包括将插入片段与用于单链建库的接头连接。
在一种实施方式中,所述连接过程具体包括,将所述接头与所述插入片段混合,利用DNA连接酶(例如,T4连接酶)将用于单链建库的接头与插入片段连接。
在一种实施方式中,该甲基化测序方法进一步包括对已建文库进行转化。
在一种实施方式中,所述方法包括通过酶法或重亚硫酸盐法对文库进行转化。
在一种实施方式中,该甲基化测序方法进一步包括对转化后的文库进行PCR扩增。
在一种实施方式中,该甲基化测序方法进一步包括上机测序,然后进行数据分析,其包括通过索引序列和/或标记序列对读长进行拆分。
在一种实施方式中,所述方法包括根据索引序列和/或标记序列统计目标样本的读长占比和/或非目标样本的读长占比。
在第六方面,本发明提供一种使用本发明第三方面的用于双链建库的接头或第四方面的试剂盒的甲基化测序方法,包括将插入片段与用于双链建库的接头连接。
在一种实施方式中,所述连接过程具体包括,对插入片段进行3’端加A尾处理,将所述接头与所述插入片段混合,利用DNA连接酶(例如,T4连接酶)将用于单链建库的接头与插入片段连接。
在一种实施方式中,所述方法包括通过酶法或重亚硫酸盐法对文库进行转化。
在一种实施方式中,该甲基化测序方法进一步包括对转化后的文库进行PCR扩增。
在一种实施方式中,该甲基化测序方法进一步包括上机测序,然后进行数据分析,其包括通过索引序列和/或标记序列对读长进行拆分。
在一种实施方式中,所述方法包括根据索引序列和/或标记序列统计目标样本的读长占比和/或非目标样本的读长占比。
本发明的接头有着较高的连接效率,并且具有较好的连接效率一致性。采用本发明的标记序列、接头、试剂盒以及DNA甲基化测序方法可以进一步有效降低样本之间的交叉污染,并且本发明可应用于甲基化检测。
本发明所述的术语“插入片段”是指样本DNA被打碎的较小片段,具体长度由测序平台的读长决定。本发明中,除非另外说明,涉及单链建库时,“插入片段”指单链DNA,并且未经其他处理;涉及双链建库时,“插入片段”指双链DNA,序列已经过补齐和5’端磷酸化处理,但是尚未在3’端加A尾,并且未经其他处理。本发明描述插入片段的两侧/一侧可以指紧邻插入片段的位置,也可以指与插入片段有一定间隔的位置,例如,间隔有A/T;插入片段的两侧/一侧可以指插入片段的两侧/一侧的正义和/或负义链的5’端和/或3’端,或者与其5’端和/或3’端有一定间隔的位置,例如,间隔有A/T。
本发明所述的术语“二代测序接头”可以包括各种二代测序平台的所用的接头,例如,Illumina测序平台、Ion Torrent测序平台或MGI测序平台中所使用的二代测序接头,具体指其上机测序片段的非插入片段和非A尾部分(即,上机测序所需要的各种辅助序列,例如,索引序列)。除非另有说明,本发明所述的术语“二代测序接头”可以包括5’端和3’端的完整接头(指含有上机测序所需要的各种辅助序列,例如,含有索引序列),也可以包括其至少一部分;上机测序时,其为完整状态。除非另有说明,本发明所述的“P5端接头”和“P7端接头”,即为Illumina测序平台的“P5端接头”和“P7端接头”,其可以是完整接头(指含有上机测序所需要的各种辅助序列,例如,含有索引序列),也可以包括其至少一部分;上机测序时,其为完整状态。
本发明所述的术语“5’端接头”和“3’端接头”是指与插入片段的DNA链的5’端和3’端直接连接或间隔一定距离(例如,间隔有A/T)连接的接头;本发明所述的术语“5’端二代测序接头”和“3’端二代测序接头”是指,在现有技术中,与插入片段的DNA链的5’端和3’端直接连接或间隔一定距离(例如,间隔有A/T)连接的二代测序接头,例如,5’端二代测序接头可以指Illumina测序平台的P5端接头,3’端二代测序接头可以指Illumina测序平台的P7端接头。
本发明所述的术语“碱基”(包括腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U))视具体语境和本领域的习惯可以指代碱基本身或包含该碱基的化合物(例如,相应的(脱氧)核苷或者(脱氧)核苷酸)。除非另有说明,本发明对于各种碱基以及包含各种碱基的化合物,仅以碱基部分加以区分。例如,腺嘌呤可以指代该碱基腺嘌呤(A)本身或者包含该碱基的脱氧腺苷三磷酸(dATP)等化合物。其中,对于胞嘧啶而言,在未作说明的情况下,其可以包括各种修饰的或未修饰的胞嘧啶,或者包含该修饰的或未修饰的胞嘧啶的化合物。
本发明中的“约”是指本数±本数*5%的数值范围,包括端点。
本发明中百分比数值均为通过四舍五入取整数部分的约数,例如,20%可以是19.5%-20.4%之间的任意百分比。
本发明描述序列信息时,若无特殊说明或本领域特定习惯,N指代任意核苷酸或碱基,顺序为从5’端至3’端。
本发明中,除非另有说明,在指明胞嘧啶中的修饰状态的情况下,聚该胞嘧啶是指其中的胞嘧啶均为同种修饰状态,例如,聚5-甲基胞嘧啶指其中所有的胞嘧啶均为5-甲基胞嘧啶(例如,含3个5-甲基胞嘧啶的序列,可以标记为mCmCmC),又例如,聚未修饰的胞嘧啶指其中所有的胞嘧啶均为未修饰的胞嘧啶(例如,含3个未修饰的胞嘧啶的序列,可以标记为CCC);相反,除非另有说明,未指明聚胞嘧啶的修饰状态的情况下,聚胞嘧啶中的每一个位点的胞嘧啶可以独立地为修饰或未修饰状态。
附图说明
图1为一种使用了本发明标记序列的高通量测序流程示意图(省略部分步骤)。
图2展示了DNA样本经重亚硫酸盐处理与PCR过程中的碱基变化。
OT-original top strand原始top链
CTOT-complementary to original top strand原始top链的互补链
OB-original bottom strand原始bottom链
CTOB-complementary to original bottom strand原始bottom链互补链
图3为本发明的单链建库示意图,使用的是Illumina测序平台。
图4为本发明的双链建库示意图,使用的是Illumina测序平台。
图5为本发明防污染的原理示意图(图中的防污染序列,即为本文中所述的标记序列,防污染序列1和防污染序列2为两种标记序列)。
具体实施方式
为了更好地理解本发明,下面结合实施例进一步阐述本发明的内容,但本发明的内容不仅仅局限于下面的实施例。下述实施例中所述实验操作,如无特殊说明,均为常规操作;所述试剂和材料,如无特殊说明,均可从商业途径获得。
该部分所用测序平台均为Illumina测序平台,上机测序部分的设置参数和具体操作按照厂家说明书进行设置和操作。上机测序前的操作(例如,样本制备和建库步骤),无特殊说明的情况下,均按照厂家推荐的标准参数和操作进行。
该部分中,索引序列均通过PCR扩增过程引入待测序的序列中(具体为通过PCR的引物引入,为Illumina推荐的连接索引序列的方法之一)。索引序列均为来自IDT的目录号为10005922的市售产品。具体索引序列信息详见下表6。PCR扩增过程使用的引物为IlluminaP5和P7序列。具体的引物序列信息见表7。
实施例1单链建库
设计了4组接头。每组接头包括5’端接头和3’端接头,5’端接头包括P5端接头、与其连接的该侧标记序列、与P5端接头的序列和该侧标记序列互补配对连接的互补序列,以及与该互补序列连接的聚核苷酸序列;3’端接头包括P7端接头、与其连接的该侧标记序列、与P7端接头的序列和该侧标记序列互补配对连接的互补序列,以及与该互补序列连接的另一聚核苷酸序列。两端接头的标记序列均为三个碱基长度的聚胞嘧啶(标记序列的修饰情况具体见表1),两端聚核苷酸均为六个碱基长度。两端聚核苷酸的碱基组成是多样的,每个位点上的四种碱基的出现概率均约为25%。
每组接头分别与一份DNA样本混合,通过T4连接酶催化连接。用重亚硫酸盐法对文库进行转化。然后,对转化后的各组文库进行PCR扩增,循环数为11。PCR扩增过程使用的引物为IlluminaP5和P7序列(见表7),每个循环中变性温度为98℃,持续20s;退火温度为60℃,持续30s;延伸温度为72℃,持续1min(实施例2、3以及对比例1、2与此相同)。
为评估各种接头的连接效率,各组所用样本均为合成的150nt的寡核苷酸,各组各重复投入量均为2ng。该寡核苷酸的具体序列信息如下(序列1):NNNNNNNNNNNNNNNNATTGTTGGATCATATTCGTGACTTGCCTACGCCACCAGCTACAGTCATTTTCAGCAGGCCGGCAAGTTCTGAGGGCATTGGGTGGCCTTGGGAAGATATTTATGCAGTTTAGAACCTGNNNNNNNNNNNNNNN。
表1使用4组不同接头的单链建库的文库产量
经计算,各组文库产量的均值(Mean)为502.5ng,变异系数(CV)为9.30%。变异系数(CV)<10%,这说明各组接头的连接效率一致。
对比例1标准Illumina单链建库
采用与实施例1相同的样本,用标准Illumina建库流程进行建库操作(不使用实施例1中的标记序列,仅使用Illumina的推荐接头和索引序列),循环数为11,两组重复投入量均为2ng。两组重复的文库产量分别为396和366ng。
比较实施例1和对比例1的数据可知,单链建库过程中,使用带有实施例1中标记序列的接头,并没有影响连接效率。
实施例2双链建库之一
设计了4组接头。每组接头包括P5端接头、与其连接的单侧的标记序列、与该标记序列互补配对连接并与P7端接头连接的聚鸟嘌呤序列以及连接在该标记序列末尾的T;或者包括P7端测序接头、与其连接的单侧的标记序列、与该标记序列互补配对连接并与P5端接头连接的聚鸟嘌呤序列以及连接在该聚鸟嘌呤序列末尾的T。标记序列的修饰情况具体见表2。
DNA样本进行3’端加A尾处理。每组接头分别与一份DNA样本混合,通过T4连接酶催化连接。用重亚硫酸盐法对文库进行转化。然后,对转化后的各组文库进行PCR扩增,循环数为15。
为评估各种接头的连接效率,各组所用样本均为Lambda DNA的PCR扩增的产物,投入量均为5.4ng。Lambda DNA的具体序列信息如下(序列2):TGGCAGCGACATGGTTTGTTGTTATATGGCCTTCAGCTATTGCCTCTCGGAATGCATCGCTCAGTGTTGATCTGATTAACTTGGCTGACGCCGCCTTGCCCTCGTCTATGTATCCATTGAGCATTGCCGCAATTTCTTTTGTGGTGATGTCTT。
表2使用4组不同接头的双链建库的文库产量之一
经计算,各组文库产量的均值(Mean)为1980.0ng,变异系数(CV)为8.00%。变异系数(CV)<10%,这说明各组接头的连接效率一致。
对比例2标准Illumina双链建库
采用与实施例2相同的样本,用标准Illumina建库流程进行建库操作(不使用实施例2中的标记序列,仅使用Illumina的推荐接头和索引序列),循环数为15,投入量为5.4ng。所得文库产量为1875.42ng。
比较实施例2和对比例2的数据可知,双链建库过程中,使用带有实施例2中标记序列的接头,并没有影响连接效率。
实施例3双链建库之二
使用上述接头和流程重复一次,各组所用循环数为6,样本为NA12878细胞团块抽提的gDNA的超声打断样本(片段长度约200bp),投入量为100ng。
表3使用4组不同接头的双链建库的文库产量之二
经计算,各组文库产量的均值(Mean)为790.2ng,变异系数(CV)为2.48%。变异系数(CV)<10%,这说明各组接头的连接效率一致。
对实施例1和2所得的文库进行上机测序。以下实施例4和5对测序结果进行了数据分析。所用的分析软件涉及FastQC(v0.12.1)、fastp(fastp 0.23.4)和Python(3.10.12)。若无特殊说明,所用参数和操作流程均为软件说明书、软件作者或Illumina推荐的参数和操作流程。
实施例4单链文库的测序数据分析
对实施例1的文库(对于各组均选取重复一)测序后数据进行分析。先通过P5和P7端接头中的索引序列拆分读长,然后通过标记序列对读长进一步拆分。根据索引序列和标记序列统计分析目标读长占比。
表4单链文库的测序数据分析
可见,在单链建库过程中,本实施例中的接头可以降低在索引序列连接前的实验步骤中引入的污染。
实施例5双链文库的测序数据分析
对实施例2的文库测序后数据进行分析。先通过P5和P7端接头中的索引序列拆分读长,然后通过标记序列对读长进一步拆分。根据索引序列和标记序列统计分析目标读长占比。
表5双链文库的测序数据分析
可见,在双链建库过程中,本实施例中的接头可以降低在索引序列连接前的实验步骤中引入的污染。
表6索引序列信息
表7建库PCR扩增所使用的引物序列
/>
Claims (28)
1.一种标记序列,其特征在于,其包括位于插入片段一侧或两侧的聚胞嘧啶序列,其中每一侧的胞嘧啶存在修饰或未修饰的两种状态。
2.根据权利要求1所述的一种标记序列,其中,位于插入片段每一侧的聚胞嘧啶序列的长度各自独立地分别为至少1个碱基;优选地,位于插入片段每一侧的聚胞嘧啶序列的长度各自独立地分别为1-12个碱基;更优选地,位于插入片段每一侧的聚胞嘧啶序列的长度各自独立地分别为3-10个碱基。
3.根据前述任一项权利要求所述的标记序列,其中,修饰状态的胞嘧啶选自5-甲基胞嘧啶、5-羟甲基胞嘧啶、5-甲酰基胞嘧啶或5-羧基胞嘧啶中的一种。
4.根据前述任一项权利要求所述的标记序列,其中,位于插入片段两侧的聚胞嘧啶长度可以相同或不同,其修饰可以相同或不同。
5.根据前述任一项权利要求所述的标记序列,其中,聚胞嘧啶序列一端与插入片段直接连接或间隔A/T连接,另一端与二代测序接头直接连接。
6.根据前述任一项权利要求所述的标记序列,其中,修饰状态的胞嘧啶为5-甲基胞嘧啶。
7.根据前述任一项权利要求所述的标记序列,其中,所述二代测序接头是Illumina测序平台、Ion Torrent测序平台或MGI测序平台中所使用的二代测序接头;优选地,所述二代测序接头是Illumina测序平台的P5和P7端接头,Ion Torrent测序平台的P1和A接头或P1和X接头,MGI测序平台的线性接头和泡状接头;更优选地,所述二代测序接头是Illumina测序平台的P5和P7端接头。
8.根据前述任一项权利要求所述的标记序列,其中,所述二代测序接头中的胞嘧啶已经经过修饰,使得其在甲基化测序的建库过程不发生转化;优选地,二代测序接头中的胞嘧啶均为5-甲基胞嘧啶。
9.一种用于单链建库的接头,其包含权利要求1-8中任一项所述的标记序列。
10.根据权利要求9所述的用于单链建库接头,所述用于单链建库的接头包括5’端接头和3’端接头,5’端接头包括5’端二代测序接头、与其连接的一侧的标记序列、与5’端二代测序接头的序列和该侧标记序列互补配对连接的互补序列,以及与该互补序列连接的聚核苷酸(PolyN)序列;3’端接头包括3’端二代测序接头、与其连接另一侧的标记序列、与3’端二代测序接头的序列和标记序列互补配对连接的互补序列,以及与该侧互补序列连接的另一聚核苷酸序列。
11.根据权利要求9-10中任一项所述的用于单链建库的接头,其中,用于单链建库的接头为包含多种聚核苷酸序列部分的混合物,其中至少一种可以与插入片段末端互补配对。
12.根据权利要求9-11中任一项所述的用于单链建库的接头,其中,5’端接头和3’端接头中的聚核苷酸序列的长度各自独立地为至少1个碱基;优选地,5’端接头和3’端接头中的聚核苷酸序列的长度各自独立地为3-8个碱基。
13.根据权利要求9-12中任一项所述的用于单链建库的接头,其中,所述聚核苷酸序列中各碱基占比均为约20%-30%。
14.根据权利要求9-13中任一项所述的用于单链建库的接头,其中,所述用于单链建库的接头包括5’端接头和3’端接头,5’端接头包括Illumina测序平台的P5端接头、与其连接的一侧的标记序列、与Illumina测序平台的P5端接头的序列和该侧标记序列互补配对连接的互补序列,以及与该互补序列连接的聚核苷酸序列;3’端接头包括Illumina测序平台的P7端接头、与其连接的另一侧的标记序列、与Illumina测序平台的P7端接头的序列和该标记序列互补配对连接的互补序列,以及与该互补序列连接的聚核苷酸序列。
15.一种用于双链建库的接头,其包含权利要求1-8中任一项所述的标记序列。
16.根据权利要求15所述的用于双链建库的接头,其中,用于双链建库的接头包括5’端二代测序接头、与其连接的单侧的标记序列、与该标记序列互补配对连接并与3’端二代测序接头连接的聚鸟嘌呤序列以及连接在该标记序列末尾的T;或者用于双链建库的接头包括3’端二代测序接头、与其连接的单侧的标记序列、与该标记序列互补配对连接并与5’端二代测序接头连接的聚鸟嘌呤序列以及连接在该聚鸟嘌呤序列末尾的T。
17.根据权利要求15-16中任一项所述的用于双链建库的接头,其中,用于双链建库的接头包括Illumina测序平台的P5端接头、与其连接的单侧的标记序列、与该标记序列互补配对连接并与Illumina测序平台的P7端接头连接的聚鸟嘌呤序列以及连接在该标记序列末尾的T;或者用于双链建库的接头包括Illumina测序平台的P7端测序接头、与其连接的单侧的标记序列、与该标记序列互补配对连接并与Illumina测序平台的P5端接头连接的聚鸟嘌呤序列以及连接在该聚鸟嘌呤序列末尾的T。
18.一种试剂盒,其包含权利要求1-8中任一项所述的标记序列、权利要求9-14中任一项所述的用于单链建库的接头或权利要求15-17中任一项所述的用于双链建库的接头。
19.一种使用权利要求9-14中任一项所述的用于单链建库的接头或权利要求18的试剂盒的甲基化测序方法,包括将插入片段与用于单链建库的接头连接。
20.根据权利要求19所述的甲基化测序方法,所述连接过程具体包括,将所述接头与所述插入片段混合,利用DNA连接酶将用于单链建库的接头与插入片段连接。
21.根据权利要求19-20中任一项所述的甲基化测序方法,其中,所述方法包括对已建文库进行转化;优选地,通过酶法或重亚硫酸盐法对文库进行转化。
22.根据权利要求19-21中任一项所述的甲基化测序方法,其中,所述方法包括上机测序,然后进行数据分析,其包括通过索引序列和/或标记序列对读长进行拆分。
23.根据权利要求19-22中任一项所述的甲基化测序方法,其中,包括根据索引序列和/或标记序列统计目标样本的读长占比和/或非目标样本的读长占比。
24.一种使用权利要求15-17中任一项所述的用于双链建库的接头或权利要求18的试剂盒的甲基化测序方法,包括将插入片段与用于双链建库的接头连接。
25.根据权利要求24所述的甲基化测序方法,其中,所述连接过程具体包括,对插入片段进行3’端加A尾处理,将所述接头与所述插入片段混合,利用DNA连接酶将用于双链建库的接头与插入片段连接。
26.根据权利要求24-25中任一项所述的甲基化测序方法,其中,包括通过酶法或重亚硫酸盐法对文库进行转化。
27.根据权利要求24-26中任一项所述的甲基化测序方法,其中,所述方法包括上机测序,然后进行数据分析,其包括通过索引序列和/或标记序列对读长进行拆分。
28.根据权利要求24-27中任一项所述的甲基化测序方法,其中,所述方法包括根据索引序列和/或标记序列统计目标样本的读长占比和/或非目标样本的读长占比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311777970.8A CN117887806A (zh) | 2023-12-21 | 2023-12-21 | 标记序列、接头、试剂盒以及dna甲基化测序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311777970.8A CN117887806A (zh) | 2023-12-21 | 2023-12-21 | 标记序列、接头、试剂盒以及dna甲基化测序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117887806A true CN117887806A (zh) | 2024-04-16 |
Family
ID=90638725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311777970.8A Pending CN117887806A (zh) | 2023-12-21 | 2023-12-21 | 标记序列、接头、试剂盒以及dna甲基化测序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117887806A (zh) |
-
2023
- 2023-12-21 CN CN202311777970.8A patent/CN117887806A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108138364B (zh) | 一种核酸单链环状文库的构建方法和试剂 | |
Zhong et al. | High-throughput illumina strand-specific RNA sequencing library preparation | |
Higuchi | Using PCR to engineer DNA | |
CN107541546B (zh) | 用于标靶核酸富集的组合物、方法、系统和试剂盒 | |
EP0994969B1 (en) | Categorising nucleic acid | |
US20240043832A1 (en) | Method for generating extended sequence reads | |
EP1910563B1 (en) | Improved strategies for sequencing complex genomes using high throughput sequencing technologies | |
EP3910069A1 (en) | Methods and composition for dna profiling | |
CN105986015B (zh) | 一种基于高通量测序的多样本的一个或多个靶序列的检测方法和试剂盒 | |
EP2272976A1 (en) | Method for differentiation of polynucleotide strands | |
AU2004233293A1 (en) | Method for characterising polynucleotides | |
EP2531610A1 (en) | Complexitiy reduction method | |
CN111041026B (zh) | 一种高通量测序用核酸接头和文库构建方法 | |
WO2017204572A1 (ko) | 분자 바코딩을 이용한 초병렬 시퀀싱을 위한 라이브러리 제조방법 및 그의 용도 | |
CN106834428B (zh) | 高通量多位点人类短片段串联重复序列检测试剂盒及其制备和应用 | |
CN108504651B (zh) | 基于高通量测序的pcr产物大样本量混合建库的文库构建方法和试剂 | |
CN117887806A (zh) | 标记序列、接头、试剂盒以及dna甲基化测序方法 | |
US20240076653A1 (en) | Method for constructing multiplex pcr library for high-throughput targeted sequencing | |
CN109136217B (zh) | 一种测序文库构建的方法、建库试剂及其应用 | |
WO2016058121A1 (zh) | 一种核酸片段化方法和序列组合 | |
WO2019088069A1 (ja) | 次世代シーケンサーを用いるdnaメチル化分析方法および特定dna断片群の濃縮方法 | |
CN113817804B (zh) | 一种测序文库自连接头消除的方法及应用 | |
CN111788316A (zh) | 库制备 | |
KR102187795B1 (ko) | 디옥시우리딘을 이용한 차세대 염기서열 분석을 위한 라이브러리 제조 방법 | |
CN114686561B (zh) | 用于核酸样本扩增的组合物、试剂盒、方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |