CN114214734A - 一种单分子靶标基因建库方法及其试剂盒 - Google Patents
一种单分子靶标基因建库方法及其试剂盒 Download PDFInfo
- Publication number
- CN114214734A CN114214734A CN202111572277.8A CN202111572277A CN114214734A CN 114214734 A CN114214734 A CN 114214734A CN 202111572277 A CN202111572277 A CN 202111572277A CN 114214734 A CN114214734 A CN 114214734A
- Authority
- CN
- China
- Prior art keywords
- sequencing
- dna
- sequence
- adaptor
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 111
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012163 sequencing technique Methods 0.000 claims abstract description 211
- 239000000523 sample Substances 0.000 claims abstract description 152
- 238000010276 construction Methods 0.000 claims abstract description 73
- 238000006243 chemical reaction Methods 0.000 claims abstract description 72
- 108020004414 DNA Proteins 0.000 claims abstract description 39
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 36
- 230000003321 amplification Effects 0.000 claims abstract description 35
- 102000053602 DNA Human genes 0.000 claims abstract description 25
- 230000000295 complement effect Effects 0.000 claims abstract description 23
- 108020004682 Single-Stranded DNA Proteins 0.000 claims abstract description 14
- 238000002156 mixing Methods 0.000 claims abstract description 9
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000002844 melting Methods 0.000 claims abstract description 8
- 230000008018 melting Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 239000011324 bead Substances 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 20
- 239000002773 nucleotide Substances 0.000 claims description 18
- 125000003729 nucleotide group Chemical group 0.000 claims description 18
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 claims description 7
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 6
- 102000012410 DNA Ligases Human genes 0.000 claims description 6
- 108010061982 DNA Ligases Proteins 0.000 claims description 6
- 210000001124 body fluid Anatomy 0.000 claims description 5
- 238000004925 denaturation Methods 0.000 claims description 5
- 230000036425 denaturation Effects 0.000 claims description 5
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 4
- 239000010839 body fluid Substances 0.000 claims description 4
- 239000002299 complementary DNA Substances 0.000 claims description 4
- 238000003505 heat denaturation Methods 0.000 claims description 4
- 238000010309 melting process Methods 0.000 claims description 3
- 238000010839 reverse transcription Methods 0.000 claims description 3
- 102000003960 Ligases Human genes 0.000 claims description 2
- 108090000364 Ligases Proteins 0.000 claims description 2
- 238000009412 basement excavation Methods 0.000 claims description 2
- 238000010438 heat treatment Methods 0.000 claims description 2
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 claims 2
- 239000012188 paraffin wax Substances 0.000 claims 1
- 239000000047 product Substances 0.000 description 73
- 230000004927 fusion Effects 0.000 description 58
- 230000000052 comparative effect Effects 0.000 description 37
- 238000001514 detection method Methods 0.000 description 36
- 206010028980 Neoplasm Diseases 0.000 description 28
- 108091093088 Amplicon Proteins 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 24
- 239000000203 mixture Substances 0.000 description 21
- 230000036438 mutation frequency Effects 0.000 description 20
- 238000002474 experimental method Methods 0.000 description 17
- 239000000126 substance Substances 0.000 description 14
- 239000012634 fragment Substances 0.000 description 11
- 238000000746 purification Methods 0.000 description 11
- 238000009396 hybridization Methods 0.000 description 10
- 230000035772 mutation Effects 0.000 description 10
- 238000007481 next generation sequencing Methods 0.000 description 10
- 238000000137 annealing Methods 0.000 description 9
- 206010064571 Gene mutation Diseases 0.000 description 8
- 239000003153 chemical reaction reagent Substances 0.000 description 8
- 229910021642 ultra pure water Inorganic materials 0.000 description 8
- 239000012498 ultrapure water Substances 0.000 description 8
- 238000007400 DNA extraction Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 7
- 230000027455 binding Effects 0.000 description 7
- 238000012165 high-throughput sequencing Methods 0.000 description 7
- 238000007403 mPCR Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000010561 standard procedure Methods 0.000 description 7
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 6
- 101150033839 4 gene Proteins 0.000 description 6
- 239000007984 Tris EDTA buffer Substances 0.000 description 6
- 239000007795 chemical reaction product Substances 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 5
- 238000006731 degradation reaction Methods 0.000 description 5
- 238000013467 fragmentation Methods 0.000 description 5
- 238000006062 fragmentation reaction Methods 0.000 description 5
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical group C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 4
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 4
- 108010090804 Streptavidin Proteins 0.000 description 4
- 229960002685 biotin Drugs 0.000 description 4
- 239000011616 biotin Substances 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- 239000012467 final product Substances 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 201000005202 lung cancer Diseases 0.000 description 4
- 208000020816 lung neoplasm Diseases 0.000 description 4
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical group [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 3
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 3
- 108091034117 Oligonucleotide Proteins 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 235000020958 biotin Nutrition 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004128 high performance liquid chromatography Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000011259 mixed solution Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000011451 sequencing strategy Methods 0.000 description 3
- ANRHNWWPFJCPAZ-UHFFFAOYSA-M thionine Chemical compound [Cl-].C1=CC(N)=CC2=[S+]C3=CC(N)=CC=C3N=C21 ANRHNWWPFJCPAZ-UHFFFAOYSA-M 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010828 elution Methods 0.000 description 2
- 230000002255 enzymatic effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000009871 nonspecific binding Effects 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 125000006850 spacer group Chemical group 0.000 description 2
- LDHYTBAFXANWKM-UHFFFAOYSA-N 2-amino-3,7-dihydropurin-6-one Chemical compound O=C1NC(N)=NC2=C1NC=N2.O=C1NC(N)=NC2=C1N=CN2 LDHYTBAFXANWKM-UHFFFAOYSA-N 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 102000004594 DNA Polymerase I Human genes 0.000 description 1
- 108010017826 DNA Polymerase I Proteins 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 241000508725 Elymus repens Species 0.000 description 1
- 102100030708 GTPase KRas Human genes 0.000 description 1
- 102100039788 GTPase NRas Human genes 0.000 description 1
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 1
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 1
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 1
- 208000002151 Pleural effusion Diseases 0.000 description 1
- 101710086015 RNA ligase Proteins 0.000 description 1
- 239000013614 RNA sample Substances 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000006209 dephosphorylation reaction Methods 0.000 description 1
- 239000012153 distilled water Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 1
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000005457 ice water Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 238000012164 methylation sequencing Methods 0.000 description 1
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
Landscapes
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biochemistry (AREA)
- Health & Medical Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种单分子靶标基因建库方法及其试剂盒,该方法包括:延伸步骤,包括将模板分子、串联有第一测序接头的靶标探针混合,靶标探针结合至模板分子的靶标区域并延伸,获得靶标探针延伸产物;第二测序接头连接步骤,包括加入第二测序接头,第二测序接头具有互补配对的正向链、反向链,正向链的5’端可串联连接至靶标探针延伸产物的3’端,反向链的3’端串联有随机序列,反应得到第二测序接头连接产物;解链处理,去除产物中串联有随机序列的单链分子,得到串联有第一测序接头的单链产物;双链合成步骤,包括加入第一引物、第二引物,反应得到扩增产物。本发明将建库与靶向基因富集整合,广泛适用于各种长度和高低起始量的单链或双链DNA样本。
Description
技术领域
本发明涉及基因测序技术领域,具体涉及一种单分子靶标基因建库方法及其试剂盒。
背景技术
现有的下一代测序(NGS)的靶向测序样本制备需要经历建库、捕获前扩增、杂交捕获和捕获后扩增四大步骤,这几部分彼此串联缺一不可,整个流程加起来需要约2到3天时间,不仅费时费钱,而且各个步骤之间的衔接有一定的难度。并且,还需要对起始DNA进行打断前处理,并在建库后做文库片段长度筛选。因此,现有的建库技术难以针对严重降解的样本或者微量DNA样本(一般DNA量低于20ng即难以保证建库质量)。另外,捕获前后的两轮扩增均为指数性扩增,会带来大量错误和偏好性,造成过高的技术错误本底,而导致低频率(低于千分之一)的基因突变检测无法进行。
发明内容
根据第一方面,一种实施例中提供一种单分子靶标基因建库方法,包括:
延伸步骤,包括将模板分子、串联有第一测序接头的靶标探针混合,所述靶标探针靶向结合至模板分子的靶标区域并延伸反应,获得靶标探针延伸产物;
第二测序接头连接步骤,包括向延伸步骤所得的反应体系中加入第二测序接头,所述第二测序接头含有互补配对的正向链、反向链,所述第二测序接头的正向链的5’端可串联连接至所述靶标探针延伸产物的3’端,所述反向链的3’端串联有随机核苷酸序列,反应得到第二测序接头连接产物,然后解链处理,去除产物中串联有随机核苷酸序列的单链,得到串联有第一测序接头的单链产物;
双链合成步骤,包括向串联有第一测序接头的单链产物中加入第一引物、第二引物,反应得到可用于上机测序的扩增产物,所述第一引物含有互补配对于所述第一测序接头的序列,所述第二引物含有互补配对于所述第二测序接头的序列。
根据第二方面,一种实施例中提供采用第一方面所述方法构建得到的文库。
根据第三方面,一种实施例中提供一种试剂盒,包括第一测序接头、第二测序接头,所述第一测序接头串联连接有靶标探针,所述靶标探针可结合至模板分子的靶标区域并延伸反应,所述第二测序接头含有互补配对的正向链、反向链,所述第二测序接头的正向链的5’端可串联连接至靶标探针延伸产物的3’端,所述反向链的3’端串联连接有随机核苷酸序列。
依据上述实施例的单分子靶标基因建库方法及其试剂盒,将建库步骤与靶向基因富集步骤相结合,无需片段化处理,有效缩短建库所需时间,提高建库效率。本方法或试剂盒可适用于各种长度的单链或双链DNA样本,RNA逆转录成的cDNA、亚硫酸氢盐处理的DNA(用于DNA甲基化测序)、各类严重降解的DNA(福尔马林固定和石蜡包埋(FFPE)组织或法医样本提取的DNA、体液所含游离DNA(cfDNA)等),且起始量适用范围广谱(0.1至1000纳克)。
附图说明
图1为一实施例中的建库流程图;
图2为一实施例中的第二测序接头图。
图3为实施例2的FFPE DNA片段长度图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
本文中,高通量测序样本DNA文库构建,简称建库。常规的建库技术流程为:通过一系列酶促反应将双链DNA分子末端修平整,再于DNA分子两端分别连接上双链的第一测序接头和第二测序接头。
本文中,“μM”是指μmol/L,为浓度单位,中文为微摩尔每升。
发夹式结构(hairpin structure,也可表述为发卡式结构)是指:由一对反向重复序列折叠配对形成的特定空间结构。
现有技术中,NGS靶向文库的制备流程(包括新型建库方法单链建库)一般分为两套流程,主流的捕获建库方法需要经历文库构建、捕获前扩增、杂交捕获、捕获后扩增四个必需步骤,全流程一般耗时长达2到3天。另一种常见方法称为扩增子建库,一般先做多重PCR,后对PCR产物建库,有的商业化试剂盒会在做多重PCR时在引物的5’端外侧加上对应NGS平台的接头序列,以将上述两步整合为一步。
第一种主流技术路线必须将文库构建和杂交捕获严格分开,步骤繁多,周期长,且依赖基于链霉亲和素与生物素连接的磁珠捕获,磁珠价格昂贵且依赖进口。第二种技术路线虽然流程较前者更简洁,但因其基于多重PCR,有如下诸多问题:1、建库起始投入量需要较高;2、同一反应体系里靶标位点数(plex数)无法过多,导致较大探针库(panel)的基因检测很难通过单管反应完成,只能分成多个单管反应,然后合并产物来实现,大大升高了成本和操作时间,限制了单管反应检测通量,不利于推广;3.PCR需要两端引物配对,导致其无法检测未知基因融合(novel fusion)和病毒插入位点等结构性变异;4.PCR的指数性扩增导致基因拷贝数变异无法检测;5、多重PCR不可避免地扩增偏好性导致均一度低,导致panel的靶标区域中部分区域不能很好覆盖,而部分区域过多覆盖。
相比而言,在一些实施例中,本发明将建库和靶标基因富集这两个步骤整合为一个流程,这一革命性的创新不仅克服了主流的建库加杂交捕获流程的步骤繁多成本高昂的缺点,同时也通过线性扩增规避了扩增子建库所固有的单管反应检测通量小、均一性差、无法有效检测基因组结构性变异和基因拷贝数变异等缺陷。
在一些实施例中,因为建成的文库的P5端带分子标签,可有效矫正PCR和测序错误,从而实现超低频检测。
在一些实施例中,本发明在适用样本上也有巨大优势,适用的DNA样本类型广泛,对严重降解和微量这些常规NGS技术无法胜任的样本,而临床检测应用中的很多样本均属此类,如FFPE(福尔马林固定和石蜡包埋)样本提取的DNA、体液(血浆、胸腔积液、尿液等)的胞外游离DNA等。而且对样本长度无要求,对长片段的完整的基因组DNA无需打断,节省时间和成本。
在一些实施例中,适用于本发明的样本起始量在0.1至1000ng之间,尤其适用于低起始量的样本。
第一方面,在一些实施例中,提供一种单分子靶标基因建库方法,包括:
延伸步骤,包括将模板分子、串联有第一测序接头的靶标探针混合,所述靶标探针靶向结合至模板分子的靶标区域并延伸反应,获得靶标探针延伸产物;
第二测序接头连接步骤,包括向延伸步骤所得的反应体系中加入第二测序接头,所述第二测序接头含有互补配对的正向链、反向链,所述第二测序接头的正向链的5’端可串联连接至所述靶标探针延伸产物的3’端,所述反向链的3’端串联有随机核苷酸序列,反应得到第二测序接头连接产物,然后解链处理,去除产物中串联有随机核苷酸序列的单链,得到串联有第一测序接头的单链产物;
双链合成步骤,包括向串联有第一测序接头的单链产物中加入第一引物、第二引物,反应得到可用于上机测序的扩增产物,所述第一引物含有互补配对于所述第一测序接头的序列,所述第二引物含有互补配对于所述第二测序接头的序列。
在一些实施例中,所述模板分子为单链DNA,所述靶标探针延伸产物也为单链DNA。
在一些实施例中,所述模板分子可为各类DNA分子为单链DNA,包括且不限于单链DNA、双链DNA解链处理后得到的单链DNA,起始量适用范围广谱(0.1至1000纳克),且对各种长度的DNA分子均可,省略了常规建库技术之前需要对DNA样本做打断处理的步骤(即通过各种物理或化学方法将长片段的DNA分子打断至300bp长度左右,否则会降低建库效率,且让后续的高通量测序无法测通DNA分子的序列)。
在一些实施例中,所述模板分子来源于亚硫酸氢盐处理的DNA、福尔马林固定和石蜡包埋(FFPE)组织的DNA、法医样本提取的DNA、体液所含游离DNA(cfDNA)、古生物化石或考古发掘的生物遗存中提取的DNA样本等等中的至少一种,对于双链DNA样本,通常可通过热变性等方式解离为单链,得到模板分子。
在一些实施例中,对双链DNA解链处理的方法可与第二测序接头连接步骤中的解链处理方法相同,通常可以是热变性处理。
本发明适用的DNA样本类型广泛,可以是严重降解和/或微量样本等常规NGS建库技术无法胜任的样本,而且对样本中模板分子的长度无要求,对长片段的完整的基因组DNA无需打断。
在一些实施例中,延伸步骤中,还包括对靶标探针延伸产物进行纯化处理,获得纯化后的靶标探针延伸产物。
在一些实施例中,第二测序接头连接步骤中,包括向纯化后的靶标探针延伸产物中加入第二测序接头。
在一些实施例中,所述纯化包括但不限于磁珠纯化。
在一些实施例中,所述第二测序接头的正向链的5’端修饰有磷酸基团。
在一些实施例中,所述第一测序接头与所述靶标探针之间串联有分子标签。
在一些实施例中,所述分子标签为随机核苷酸序列。
在一些实施例中,所述分子标签的长度为4-19nt。具体可以为4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt等等。
在一些实施例中,所述反向链的3’端串联的随机核苷酸序列的长度为5-15nt,具体可以为5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt等等。
在一些实施例中,所述第一引物含有可与所述第一测序接头互补配对的序列,所述第二引物含有可与所述第二测序接头互补配对的序列。
在一些实施例中,所述第一引物含有内接头序列、外接头序列,所述内接头序列的5’端串联连接至所述外接头序列的3’端,所述内接头序列可与所述第一测序接头反向互补配对。
在一些实施例中,所述第一引物含有或不含有第一样本标签。
在一些实施例中,所述第一引物含有第一样本标签时,所述第一样本标签位于所述内接头序列、外接头序列之间。
在一些实施例中,所述第一样本标签的长度为4-15nt,具体可以为4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt等等。
在一些实施例中,所述第二引物含有内接头序列、外接头序列,所述内接头序列的5’端串联连接至所述外接头序列的3’端,所述内接头序列可与所述第二测序接头反向互补配对。
在一些实施例中,所述第二引物含有或不含有第二样本标签。
在一些实施例中,所述第二引物含有第二样本标签时,所述第二样本标签位于所述内接头序列、外接头序列之间。
在一些实施例中,所述第二样本标签的长度为4-15nt,具体可以为4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt等等。
在一些实施例中,延伸步骤中,延伸反应的扩增循环数≥10。循环反应的次数不受限制,可根据需要进行选择。
在一些实施例中,延伸步骤中,延伸反应的扩增循环数为10-500个循环。
在一些实施例中,延伸步骤中,每个循环反应如下:94-98℃,10-60秒;55-65℃,10-60秒;68-72℃,10-60秒。
在一些实施例中,延伸步骤中,还包括在获得靶标探针延伸产物后,对所得靶标探针延伸产物进行纯化处理。
在一些实施例中,采用磁珠纯化处理延伸所得的产物。纯化用的磁珠可从市场上购买得到,示例但非限制性的,可以是购自南京诺唯赞生物科技股份有限公司等等。
在一些实施例中,第二测序接头连接步骤中,连接反应时,具体是在22-40℃下反应0.5-2小时。
在一些实施例中,第二测序接头连接步骤中,采用的连接酶包括但不限于T4 DNA连接酶。T4 DNA连接酶可以从市场上购买得到。
在一些实施例中,第二测序接头连接步骤中,解链处理通常可以为变性处理。
在一些实施例中,所述变性处理通常可以为热变性处理。
在一些实施例中,热变性处理具体可以是将目标分子加热到至少80℃保持至少1min。
在一些实施例中,热变性可以是在80-98℃下变性处理1-30min,即可得到单链模板分子。
在一些实施例中,所述第一测序接头包括但不限于Illumina测序平台的P5端测序接头、MGI测序平台的P2端测序接头中的任意一种。
在一些实施例中,所述第二测序接头包括但不限于Illumina测序平台的P7端测序接头、MGI测序平台的P1端测序接头中的任意一种。
在一些实施例中,第二测序接头的接头如图2所示,其具有互补配对的正向链、反向链,正向链的5’端修饰有磷酸基团,反应链的3’端串联有随机核苷酸序列,该随机核苷酸序列可以为5-15nt。反向链的5’端未修饰磷酸基团。
第二方面,在一些实施例中,提供采用第一方面所述的方法构建得到的文库。
在一些实施例中,本发明将建库和靶向基因富集相结合,有效缩短实验步骤,无需分别进行文库构建、扩增、捕获、再次扩增,显著减少物料消耗,缩短实验时间。
在一些实施例中,第二测序接头为发卡式接头,不带生物素,无需链霉亲和素磁珠捕获(链霉亲和素磁珠造价昂贵)。
在一些实施例中,对每个单管反应,位点数可从1到1万个,每个位点对应一个带有特定靶标基因结合区的引物。
第三方面,在一些实施例中,提供一种试剂盒,包括第一测序接头、第二测序接头,所述第一测序接头串联连接有靶标探针,所述靶标探针可结合至模板分子的靶标区域并延伸反应,所述第二测序接头含有互补配对的正向链、反向链,所述第二测序接头的正向链的5’端可串联连接至靶标探针延伸产物的3’端,所述反向链的3’端串联连接有随机核苷酸序列。
在一些实施例中,所述模板分子为单链DNA,所述靶标探针延伸产物也为单链DNA。
在一些实施例中,所述第二测序接头的正向链的5’端修饰有磷酸基团。
在一些实施例中,所述第一测序接头与所述靶标探针之间串联有分子标签;
在一些实施例中,所述分子标签的长度为4-19nt。
在一些实施例中,所述第二测序接头的反向链的3’端串联的随机核苷酸序列的长度为5-15nt。
在一些实施例中,所述试剂盒还含有第一引物、第二引物,所述第一引物含有可与所述第一测序接头互补配对的序列,所述第二引物含有可与所述第二测序接头互补配对的序列。
在一些实施例中,所述第一引物含有内接头序列、外接头序列,所述内接头序列的5’端串联连接至所述外接头序列的3’端,所述内接头序列可与所述第一测序接头反向互补配对。
在一些实施例中,所述第一引物含有或不含有第一样本标签。
在一些实施例中,所述第一引物含有第一样本标签时,所述第一样本标签位于所述内接头序列、外接头序列之间。
在一些实施例中,所述第一样本标签的长度为4-15nt,具体可以为4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt等等。
在一些实施例中,所述第二引物含有内接头序列、外接头序列,所述内接头序列的5’端串联连接至所述外接头序列的3’端,所述内接头序列可与所述第二测序接头反向互补配对。
在一些实施例中,所述第二引物含有或不含有第二样本标签。
在一些实施例中,所述第二引物含有第二样本标签时,所述第二样本标签位于所述内接头序列、外接头序列之间。
在一些实施例中,所述第二样本标签的长度为4-15nt,具体可以为4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt等等。
在一些实施例中,所述第一测序接头包括但不限于Illumina测序平台的P5端测序接头、MGI测序平台的P2端测序接头中的任意一种。
在一些实施例中,所述第二测序接头包括但不限于Illumina测序平台的P7端测序接头、MGI测序平台的P1端测序接头中的任意一种。
以下实施例以国际常用的Illumina测序平台的文库为例,但可兼容其他NGS平台,只需更换为对应测序平台的接头即可。
实施例1
制备突变频率为万分之三的突变游离核酸(cfDNA)标准品,取三等份30ng该cfDNA标准品,各用于三个独立的文库构建实验,分别采用本实施例的方法(本实施例1)、现有的杂交捕获建库方法(对比例1)和现有的扩增子建库方法(对比例2)制备用于上机测序的文库,且三组实验所设计的靶标基因区域基本一致,然后在同样的高通两测序平台上上机测序,并测序相同数据量,最后采用同样的数据分析流程,检查同样的8个靶标基因位点的突变检测情况,以评估三种高通量测序靶标基因文库构建方法的性能差别。
本实施例的标准品购自菁良基因科技(深圳)有限公司,具体为肺癌ctDNA标准品套装GW-OCTM009,其中含有野生型DNA标准品和突变频率为0.1%的ctDNA标准品,将两者按照7:3的质量比混合,得到突变频率为0.03%的稀释标准品。
靶标检测位点如表1所示。
表1
所需全部寡聚体(oligo)如下表2、表3所示(由南京金斯瑞生物科技有限公司合成、HPLC纯化)。
表2
表3
带第一测序接头的靶标基因探针(IS1-UMI-GSP)的结构说明如下:
“ACACTCTTTCCCTACACGACGCTCTTCCGATCT”为第一测序接头,“NNNNNNNNN”为分子标签,“XXXXXXXXXXXXXXXXXXXX”为与靶标基因区域互补配对的序列。
P7-index-1的结构中,下划直线标记的序列“TGATAG”为样本标签。
对表2、表3中的符号说明如下:(1)IS2revcomp-sp-Pho和IS2-splint退火成发卡式接头,即第二测序接头。含有表3所示探针库的混合物,命名为睿法4基因panel。
(2)“N”代表随机碱基。
(3)“X”代表与靶标基因区域互补配对的序列,长度为20个核苷酸,在靶标基因区域每10个核苷酸向前排布一个该种序列,即2×瓦片式覆盖。
(4)“Pho”代表磷酸基团。
(5)“*”表示二硫键,用以加固核苷酸之间的连接,防止该多聚寡核苷酸被降解。。
(6)“SpacerC12”表示12个空的碳骨架,以防止引物的非特异性结合。
(6)第二测序接头反向链中,“SpacerC12”表示12个空的碳骨架,以防止引物的非特异性结合。
(7)第二测序接头反向链中,“AmC6”表示6号碳位上的氨基修饰,以封闭该多聚寡核苷酸的3’端。
试剂及仪器说明如下:
1、各接头连接反应均采用T4 DNA Ligase(Rapid)(货号:N103-01)(南京诺唯赞生物科技股份有限公司出品)。
2、文库扩增反应采用VAHTS HiFi Amplification Mix(货号:N616-01)(南京诺唯赞生物科技股份有限公司出品)。
3、PCR产物纯化磁珠VAHTS DNA Clean Beads(货号:N411-01)(南京诺唯赞生物科技股份有限公司出品)。
4、对照组采用国际通用的甲基化建库试剂盒(for illumina)(美国SwiftBiosciences公司出品,货号Catalog No 30024)。
5、与单链接头反向互补的引物延伸采用DNA polymerase I Klenow fragment(货号:N104-01)(南京诺唯赞生物科技股份有限公司出品)。
6、DNA样本去磷酸化反应所需T4 RNA ligase buffer(10X)和FastAP(1U/μL)分别采用NEB有限公司货号B0216L产品和英潍捷基(上海)贸易有限公司货号EF0651产品。
7、结合单链连接产物所用链霉亲和素磁珠采DynabeadsTM MyOneTM StreptavidinC1(英潍捷基(上海)贸易有限公司,货号65001)。
8、各步实验所用超纯水均采用ULtraPureTM DNase/RNase-Free Distilled Water(英潍捷基(上海)贸易有限公司,货号10977023)。
9、仪器:ABI veriti96型PCR仪(英潍捷基(上海)贸易有限公司出品),恒温混匀仪(杭州佑宁,货号HC-100),四维旋转混合仪(海门市其林贝尔仪器制造有限公司,BE-1100),磁力架(无锡百格生物科技有限公司,货号BMB16-1.5-2),QubitTM 4Fluorometer,withWiFi(英潍捷基(上海)贸易有限公司,货号Q33238),Bioptic全自动多重核酸检测系统(杭州厚泽生物科技有限公司,货号Qsep-100),Eppendorf牌移液器1000μL量程、100μL量程、10μL量程(德国Eppendort公司出品)。
本实施例的TE缓冲液组成如下:10mmol/L Tris-HCl、1mmol/L EDTA,pH=8.0。
如图1所示,实验步骤如下:
1、取菁良基因-肺癌ctDNA标准品套装-GW-OCTM009,其中含有野生型DNA标准品和突变频率为0.1%的ctDNA标准品,按照野生型DNA标准品:突变频率为0.1%的ctDNA标准品=7:3的质量比混合形成0.03%的突变频率的cfDNA样本30ng,放入95℃、2分钟变性。
2、制备第二测序接头
2.1在200μL PCR管中配制以下反应体系:
表4
2.2退火反应条件:95℃,10秒;加入RAMP 4%,以0.1℃/s的速率降温至14℃。
2.3在上述反应产物体系(50μL)中加入50μL的TE缓冲液,所得的体系中第二测序接头的终浓度为100μM。制备好产物体系可存放在-20℃长期保存,或者4℃保存8小时。
3、将表3中各5′端带第一测序接头的靶标基因探针等摩尔数混合,得到混合液,该混合液中各5′端带第一测序接头的靶标基因探针的终浓度为200μM。
4、5′端带第一测序接头的靶标基因探针混合物的退火和延伸,具体如下:
对每个单管反应,检测的靶标基因位点数可从1到1万个,每个位点对应一个带有特定靶标基因结合区的引物,因此对每个单管反应最多可混合1万个该类探针。本实施例的靶标检测位点数为8个,具体如表1所示。
在200微升PCR管里配制如下反应体系:
表5
组分 | 体积(μL) |
5′端带第一测序接头的靶标基因探针混合物 | 5 |
0.03%的突变频率的cfDNA样本30ng(20ng/μL) | 1.5 |
超纯水 | 18.5 |
VAHTS HiFi Amplification Mix | 25 |
总体积 | 50 |
涡旋混匀并短暂离心,置于PCR仪中做如下反应:
5′端带illumina P5接头和分子标签的多重可变位点引物在基因组的靶标区域退火和延伸,在PCR仪中进行,反应条件如下:
表6
反应完成后,采用VAHTS DNA Clean Beads磁珠纯化产物,按该磁珠纯化PCR产物的标准操作进行,最后一步用20微升超纯水洗脱最终产物。
5、在200微升PCR管里配制如下反应体系:
表7
组分 | 体积(μL) |
靶标基因探针延伸产物 | 19 |
2×Rapid Ligation Buffer | 25 |
第二测序接头(100μM) | 2 |
T4 DNA Ligase(Rapid)(600U/μL) | 4 |
总体积 | 50 |
总反应体积为50μL,在PCR仪内,37℃下反应1小时做连接反应,然后95℃下反应1到10分钟,将连接产物变性成单链,从而去除发卡接头中带N的互补链。
6、直接在第二接头连接反应产物所在的200微升PCR管里配制如下反应体系(illumina indexing PCR):
表8
按表8配成100微升反应体系做PCR,反应条件如下:
表9
反应完成后,采用VAHTS DNA Clean Beads磁珠纯化产物,按该磁珠纯化PCR产物的标准操作进行,最后一步用25微升超纯水洗脱最终产物,建成P7端带样本标签的illumina靶标基因文库,即为可上机测序的文库。
对比例1
本对比例提供杂交捕获对照实验。
取菁良基因-肺癌ctDNA标准品套装GW-OCTM009,其中含有野生型DNA标准品和突变频率为0.1%的ctDNA标准品,按照野生型DNA标准品:突变频率为0.1%的ctDNA标准品=7:3的质量比混合形成0.03%的突变频率的DNA样本,所得样本的总质量为30ng,采用与实施例1相同的探针库,即睿法4基因panel,采用购自南京金斯瑞生物科技有限公司的建库和杂交捕获试剂盒,按照标准操作流程进行文库构建,包括依次进行捕获前扩增、杂交捕获、捕获后扩增,获得可上机测序的文库。
对比例2
本对比例提供扩增子建库对照实验(基于多重PCR技术)。
取菁良基因-肺癌ctDNA标准品套装GW-OCTM009,其中含有野生型DNA标准品和突变频率为0.1%的ctDNA标准品,按照野生型DNA标准品:突变频率为0.1%的ctDNA标准品=7:3的质量比混合,形成突变频率为0.03%的DNA样本30ng,采用与实施例1相同的探针库,即睿法4基因panel,采用南京金斯瑞生物科技有限公司所提供的扩增子建库试剂盒,按照标准操作流程进行扩增子建库,获得可上机测序的文库。
上机测序
取实施例1、对比例1、对比例2制得的文库产物,均用Qubit4.0测定浓度,并各取20ng,上机测序。测序仪器型号为Illumina HiSeq 4000,测序策略为PE150,每个样本数据量为1Gb。
测序数据质控和分析流程
原始数据处理采用fastp软件,基因组比对采用BWA软件(即Burrows-Wheeler-Alignment Tool,算法为BWA-MEM),参考基因组采用GRCh38(亦称hg38,为国际通用人类参考基因组序列),使用sambamba软件进行标记(markdup)。
分析结果如下:
实施例1的文库所得测序结果为10个index拆分的读段数(reads数)的合集,具体见下表:
表10
由上表可见,各index间reads数分布偏好性低(各index所拆分的reads数相近),且无法列入index的reads数仅占总reads数的万分之七,说明实施例1使用的P7端带样本标签的indexing扩增系统已经可以精准地对多个样本进行混合靶标基因建库和测序。
突变检测结果如下表:
表11
表11中,raw base是指原始数据量。
GC含量是指鸟嘌呤(Guanine)和胞嘧啶(Cytosine)所占的比率。
Q30代表正确率在99.9%的reads占总reads数的比例。
depth in target是指靶标位点的测序深度。
ref_reads表示人类参考基因组上对应的reads数。
alt reads表示突变(variant)的reads数。
MAF(Mutation Allele Frequency)为突变频率,具体为alt reads与ref_reads的比值。
由上表可见,实施例1构建的文库的测序数据质量相对于其他两项现有技术所构建文库的测序结果更高,具体地,Q30比例更高,Q30代表正确率在99.9%的reads占总reads数的比例;且基于实施例1的文库所检测得到的靶标基因突变的频率更接近真实值,即MAF(Mutation Allele Frequency)更接近万分之三的预设值。因此,实施例1的文库构建方法在对人类等复杂基因组的特定靶标基因做测序检测时的性能更优,且耗时更短,对比例1的杂交捕获建库需72-80小时,对比例2的扩增子建库需24-32小时,实施例1的建库方法仅需10小时,且实施例1所需步骤少,所需各种试剂和耗材少,因此成本更低。综上,实施例1的建库方法在临床检测、医学研究和基因组科学研究中有更广阔的应用前景。
实施例2
本实施例从福尔马林固定和石蜡包埋(FFPE)组织标准品(购自菁良基因科技(深圳)有限公司,具体为肿瘤野生型FFPE标准品和肿瘤SNV 5%FFPE标准品)所提取DNA中制备成突变频率为万分之五的肿瘤突变标准品(FFPE DNA片段长度如图3所示,此为Qsep检测结果图),取三等份,各30ng,该DNA标准品各用于三个独立的文库构建实验,分别采用本实施例的方法技术、杂交捕获建库方法和扩增子建库方法作为测序文库的文库制备方法,且三组实验所设计的靶标基因区域基本一致,然后在同样的高通两测序平台上上机测序,并测序相同数据量,最后采用同样的数据分析流程,检查同样的7个靶标基因突变位点(这7各位点分布于4个基因的外显子区域,这4个基因分别为NRAS、KRAS、PIK3CA、EGFR,这也是睿法4基因panel的检测内容)的检测情况,以评估三种高通量测序靶标基因文库构建技术的性能差别(本实施例、杂交捕获建库和扩增子建库)。
DNA标准品购自菁良基因科技(深圳)有限公司,具体为肿瘤野生型FFPE标准品(突变频率为0,货号GW-OPSM005)和肿瘤SNV 5%FFPE标准品(货号GW-OPSM003)。
FFPE标准品的DNA提取采用广州美基生物科技有限公司磁珠法石蜡包埋组织DNA提取试剂盒(货号:D6323-02B)。
FFPE总DNA片段化(即将10kb以上的长片段总DNA打断成200-500bp长的短片段)采用美国KAPA Biosystem公司生产的KAPA Frag Kit for Enzymatic Fragmentation试剂盒(货号KK8600)做酶切打断。
靶标检测位点如下表所示。
表12
所需全部寡聚体(oligo)如下表13、表14所示(由南京金斯瑞生物科技有限公司合成、HPLC纯化)。
表13
表14
试剂及仪器同实施例1。
本实施例的TE缓冲液组成如下:10mmol/L Tris-HCl、1mmol/L EDTA,pH=8.0。
实验步骤如下:
1、采用购自广州美基生物科技有限公司的磁珠法石蜡包埋组织DNA提取试剂盒(货号:D6323-02B)对肿瘤野生型FFPE标准品(购自采用菁良基因科技(深圳)有限公司,突变频率为0,货号GW-OPSM005)和肿瘤SNV 5%FFPE标准品(购自采用菁良基因科技(深圳)有限公司,货号GW-OPSM003)做总DNA提取,按照该试剂盒标准操作流程进行,最终按50微升体积洗脱获得DNA提取物。
2、用Qubit4.测定浓度,野生型和5%SNV的FFPE DNA浓度分别为15.54ng/μL和14.78ng/μL,总量分别为777ng和739ng,肿瘤野生型FFPE标准品DNA 297ng和肿瘤SNV 5%FFPE标准品DNA 3ng混合(即按质量比99比1混合),形成0.05%的突变频率的FFPE DNA样本300ng,涡旋充分混匀。
3、取上一步产物中的30ng放入一个200微升PCR管中,采用美国KAPA Biosystem公司出品KAPA Frag Kit for Enzymatic Fragmentation试剂盒做酶切打断。
4、将上一步产物(仍置于原200微升PCR管中)置于PCR仪中,95℃、2分钟变性。
5、制备第二测序接头
5.1在200μL PCR管中配制以下反应体系:
表15
5.2退火反应条件:95℃,10秒;加入RAMP 4%,以0.1℃/s的速率降温至14℃。
5.3在上述反应产物(50μL)中加入50μL的TE缓冲液,第二测序接头的终浓度为100μM。
6、将表14中的各5′端带第一测序接头的靶标基因探针等摩尔数混合,得到混合液,该混合液中各5′端带第一测序接头的靶标基因探针的终浓度为200μM。
7、5′端带第一测序接头的靶标基因探针混合物的退火和延伸,具体如下:
对每个单管反应,检测的靶标基因位点数可从1到1万个,每个位点对应一个带有特定靶标基因结合区的引物,因此对每个单管反应最多可混合1万个该类探针。本实施例的靶标检测位点数为7个,具体如表12所示。
在200微升PCR管里配制如下反应体系:
表16
组分 | 体积(μL) |
5′端带第一测序接头的靶标基因探针混合物 | 5 |
0.05%的突变频率的cfDNA样本30ng(15ng/μL) | 20 |
VAHTS HiFi Amplification Mix | 25 |
总体积 | 50 |
涡旋混匀并短暂离心,置于PCR仪中做如下反应:
5′端带illumina P5接头和分子标签的多重可变位点引物在基因组的靶标区域退火和延伸,在PCR仪中进行,反应条件如下:
表17
反应完成后,采用VAHTS DNA Clean Beads磁珠纯化产物,按该磁珠纯化PCR产物的标准操作进行,最后一步用20微升超纯水洗脱最终产物。
8、在200微升PCR管里配制如下反应体系:
表18
总反应体积为50μL,在PCR仪内,37℃下反应1小时做连接反应,然后95℃下反应1到10分钟,将连接产物变性成单链,从而去除发卡接头中带N的互补链。
9、直接在第二接头连接反应产物所在的200微升PCR管里配制如表8所示反应体系(illumina indexing PCR)。
按表8配成100微升反应体系做PCR,反应条件如表9所示。
反应完成后,采用VAHTS DNA Clean Beads磁珠纯化产物,按该磁珠纯化PCR产物的标准操作进行,最后一步用25微升超纯水洗脱最终产物,建成P7端带样本标签的illumina靶标基因文库,即为可上机测序的文库。
对比例3
本对比例提供杂交捕获对照实验。
取购自菁良基因科技(深圳)有限公司的肿瘤野生型FFPE标准品和肿瘤SNV 5%FFPE标准品,按照肿瘤野生型FFPE标准品:肿瘤SNV 5%FFPE标准品=99:1的质量比混合,形成突变频率为0.05%的DNA样本30ng,采用与实施例2相同的探针库,即睿法4基因panel(不含IS1-UMI-EGFR V769_D770 insASV-1、IS1-UMI-EGFR V769_D770 insASV-2),采用购自南京金斯瑞生物科技有限公司的建库和杂交捕获试剂盒,按照标准操作流程进行文库构建,包括依次进行捕获前扩增、杂交捕获、捕获后扩增,并送测序。
对比例4
本对比例提供扩增子建库对照实验(基于多重PCR技术)。
取购自菁良基因科技(深圳)有限公司的肿瘤野生型FFPE标准品和肿瘤SNV 5%FFPE标准品,按照肿瘤野生型FFPE标准品:肿瘤SNV 5%FFPE标准品=99:1的质量比混合,形成突变频率为0.05%的DNA样本30ng,采用与实施例2相同的探针库,即睿法4基因panel(不含IS1-UMI-EGFR V769_D770 insASV-1、IS1-UMI-EGFR V769_D770 insASV-2),采用购自金斯瑞生物科技股份有限公司的扩增子建库试剂盒,按照标准操作流程进行扩增子建库,并送测序。
上机测序
取实施例2、对比例3、对比例4制得的文库产物,均用Qubit4.0测定浓度,并各取20ng,上机测序。测序仪器型号为Illumina HiSeq 4000,测序策略为PE150,每个样本数据量为1Gb。
测序数据质控和分析流程
原始数据处理采用fastp软件,基因组比对采用BWA软件(即Burrows-Wheeler-Alignment Tool,算法为BWA-MEM),参考基因组采用GRCh38(亦称hg38,为国际通用人类参考基因组序列),使用sambamba软件进行标记(markdup)。
分析结果如下:
实施例2的文库所得测序结果为10个index拆分的读段数(reads数)的合集,具体见下表:
表19
index No. | reads数 | 比例 |
1 | 669620 | 10.025% |
2 | 665293 | 9.960% |
3 | 666929 | 9.984% |
4 | 667302 | 9.990% |
5 | 667409 | 9.991% |
6 | 668722 | 10.011% |
7 | 666038 | 9.971% |
8 | 665957 | 9.970% |
9 | 669152 | 10.018% |
10 | 668382 | 10.006% |
无法列入index的reads数 | 5002 | 0.075% |
总reads数 | 6679806 | 100.000% |
由上表可见,各index间reads数分布偏好性低(各index所拆分的reads数相近),且无法列入index的reads数仅占总reads数的万分之七点五,说明实施例2使用的P7端带样本标签的indexing扩增系统已经可以精准地对多个样本进行混合靶标基因建库和测序。
突变检测结果如下表:
表20
由上表可见,实施例2构建的文库的测序数据质量相对于其他两项现有技术测序结果更高,具体地,Q30比例更高,Q30代表正确率在99.9%的reads占总reads数的比例;且基于实施例2的文库所检测得到的靶标基因突变的频率更接近真实值,即MAF(MutationAllele Frequency)更接近万分之五的预设值。因此,实施例2的文库构建方法在对人类等复杂基因组的特定靶标基因做测序检测时的性能更优,且耗时更短,对比例3的杂交捕获建库需72-80小时,对比例4的扩增子建库需24-32小时,实施例2的建库方法仅需10小时,且实施例2所需步骤少,所需各种试剂和耗材少,因此成本更低。综上,实施例2的建库方法在临床检测、医学研究和基因组科学研究中有更广阔的应用前景。
实施例3
本实施例从福尔马林固定和石蜡包埋(FFPE)组织标准品(购自菁良基因科技(深圳)有限公司,具体为肿瘤融合多位点FFPE(DNA/RNA)标准品)所提取DNA中取4等份各30ng分别用于3组独立的文库构建实验中的1组,其中本实施例使用2份,对比例5(采用杂交捕获建库作为测序文库的制备方法)使用1份,对比例6(采用扩增子建库方法作为测序文库的制备方法)使用1份,且三组实验所设计的靶标基因区域一致。然后在同样的高通两测序平台上上机测序,并测序相同数据量,最后采用同样的数据分析流程,检查同样的6个靶标融合基因断点(这6个融合断点所涉及的也是睿法融合基因fusion-core-panel的检测内容)的检测情况,以评估三种高通量测序靶标基因文库构建技术的性能差别(本实施例、杂交捕获建库和扩增子建库)。
DNA标准品购自菁良基因科技(深圳)有限公司,具体为肿瘤野生型FFPE标准品(购自采用菁良基因科技(深圳)有限公司,无融合基因突变,货号GW-OPSM005)和肿瘤融合多位点FFPE(DNA/RNA)标准品(货号GW-RPSM1006),对两者做DNA抽提和纯化,将两者所提纯DNA按照49:1的质量比混合,得到含0.12%~0.6%频率的融合基因突变的DNA。
FFPE标准品的DNA提取采用广州美基生物科技有限公司磁珠法石蜡包埋组织DNA提取试剂盒(货号:D6323-02B)。
靶标检测位点如下表所示。
表21
所需全部寡聚体(oligo)如下表22、表23所示(由南京金斯瑞生物科技有限公司合成、HPLC纯化)。
表22
表23
表22、表23中各符号的含义同表2、表3。
试剂及仪器同实施例1。
本实施例的TE缓冲液组成如下:10mmol/L Tris-HCl、1mmol/L EDTA,pH=8.0。
实验步骤如下:
1、采用购自广州美基生物科技有限公司的磁珠法石蜡包埋组织DNA提取试剂盒(货号:D6323-02B)对肿瘤野生型FFPE标准品(购自采用菁良基因科技(深圳)有限公司,无融合基因突变,货号GW-OPSM005)和肿瘤融合多位点FFPE(DNA/RNA)标准品(购自采用菁良基因科技(深圳)有限公司,货号GW-RPSM1006)做总DNA提取,按照该试剂盒标准操作流程进行,最终按50微升体积洗脱获得DNA提取物。
2、用Qubit4.0测定浓度,野生型和肿瘤融合多位点FFPE标准品DNA浓度分别为15.63ng/μL和16.24ng/μL,总量分别为781.5ng和812ng,取肿瘤野生型FFPE标准品DNA294ng和肿瘤SNV 5%FFPE标准品DNA 6ng混合(即按质量比49比1混合),将两者所提纯DNA按照19:1的质量比混合,得到含0.3%-1.5%频率的融合基因突变的DNA(以下简称融合基因DNA样本),涡旋充分混匀。
3、从上一步产物中取两份样品,每份样品30ng,各放入一个200微升PCR管中,置于PCR仪中,95℃、2分钟变性。
4、待第3步完成后,将两个200微升PCR管置于冰水混合物中存放。
5、制备第二测序接头
5.1在200μL PCR管中配制以下反应体系:
表24
5.2退火反应条件:95℃,10秒;加入RAMP 4%,以0.1℃/s的速率降温至14℃。
5.3在上述反应产物(50μL)中加入50μL的TE缓冲液,第二测序接头的终浓度为100μM。
6、将表23中名称以“-1”结尾的6条5′端带第一测序接头的靶标融合基因探针(如IS1-UMI-EML4-ALK-1)等摩尔数混合,所得混合液(下称混合探针1)中各5′端带第一测序接头的靶标基因探针的终浓度为200μM;将表23中名称以“-2”结尾的6条引物(如IS1-UMI-EML4-ALK-2)等摩尔数混合,所得混合液(下称混合探针2)中各5′端带第一测序接头的靶标基因探针的终浓度为200μM。
7、5′端带第一测序接头的靶标基因探针混合物的退火和延伸,具体如下:
对每个单管反应,检测的靶标基因位点数可从1到1万个,每个位点对应一个带有特定靶标基因结合区的引物,因此对每个单管反应最多可混合1万个该类探针。本实施例的靶标检测位点数为7个,具体如表21所示。
在两个200微升PCR管里分别配制如下反应体系:
表25
组分 | 体积(μL) |
混合探针1 | 5 |
融合基因DNA样本30ng(15ng/μL) | 20 |
VAHTS HiFi Amplification Mix | 25 |
总体积 | 50 |
表26
组分 | 体积(μL) |
混合探针2 | 5 |
融合基因DNA样本30ng(15ng/μL) | 20 |
VAHTS HiFi Amplification Mix | 25 |
总体积 | 50 |
涡旋混匀并短暂离心,置于PCR仪中做如下反应:
5′端带illumina P5接头和分子标签的多重可变位点引物在基因组的靶标区域退火和延伸,在PCR仪中进行,反应条件如下:
表27
反应完成后,采用VAHTS DNA Clean Beads磁珠纯化产物,按该磁珠纯化PCR产物的标准操作进行,最后一步用20微升超纯水洗脱最终产物。
8、在两个200微升PCR管里配制如下反应体系:
表28
组分 | 体积(μL) |
靶标融合基因探针延伸产物1 | 19.5 |
2×Rapid Ligation Buffer | 25 |
第二测序接头(100μM) | 2 |
T4 DNA Ligase(Rapid)(600U/μL) | 3.5 |
总体积 | 50 |
表29
组分 | 体积(μL) |
靶标融合基因探针延伸产物2 | 19.5 |
2×Rapid Ligation Buffer | 25 |
第二测序接头(100μM) | 2 |
T4 DNA Ligase(Rapid)(600U/μL) | 3.5 |
总体积 | 50 |
总反应体积为50μL,在PCR仪内,37℃下反应1小时做连接反应,然后95℃下反应5分钟,将连接产物变性成单链,从而去除发卡接头中带N的互补链。
9、直接在第二接头连接反应产物所在的200微升PCR管里配制如表27、表28所示反应体系(illumina in dexing PCR)。
按表27、表28配成100微升反应体系做PCR,反应条件如实施例1的表9所示。
反应完成后,采用VAHTS DNA Clean Beads磁珠纯化产物,按该磁珠纯化PCR产物的标准操作进行,最后一步用25微升超纯水洗脱最终产物,建成P7端带样本标签的illumina靶标融合基因文库(编号为靶标融合基因文库1和靶标融合基因文库2),可供直接测序。
对比例5
本对比例提供杂交捕获对照实验。
本对比例检测的样品同实施例3,采用与实施例3完全相同的靶标区域所设计的杂交捕获探针库如下表。
表30
表29中,“-Biotin”代表3’端生物素修饰。
上表中各融合基因杂交捕获探针及其配套的建库和杂交捕获试剂盒均购自南京金斯瑞生物科技有限公司,其中杂交捕获探针按照杂交捕获探针单条合成模式定制。按照其建库和杂交捕获试剂盒标准操作流程进行文库构建,包括依次进行捕获前扩增、杂交捕获、捕获后扩增,并送测序。本对比例的文库构建流程同对比例3。
对比例6
本对比例提供扩增子建库对照实验(基于多重PCR技术)。
本对比例检测的样品同实施例3,采用与实施例3完全相同的靶标区域所设计扩增子探针库如下表。
表31
对比例6所用扩增子建库探针 | 靶标融合基因扩增子探针序列(5’-3’) | 序列编号 |
primer-EML4-ALK-fwd | GATGTTCTTACTGGAGACTC | SEQ ID NO.45 |
primer-EML4-ALK-rvs | GCCTTGTTGATGTGGACATG | SEQ ID NO.46 |
primer-SLC34A2-ROS1-fwd | TCCAAGGGATTGGGAGATTG | SEQ ID NO.47 |
primer-SLC34A2-ROS1-rvs | CAACGTTCCTGATTTCTAATC | SEQ ID NO.48 |
primer-TPM3-NTRK1-fwd | GCCTCGATGGTGGTGATC | SEQ ID NO.49 |
primer-TPM3-NTRK1-rvs | GTTTCGTCCTTCTTCTCCAC | SEQ ID NO.50 |
primer-ETV6-NTRK3-fwd | CTGACAAAGTCCCACTCTC | SEQ ID NO.51 |
primer-ETV6-NTRK3-rvs | ATCGTGTGTAGACCTGTATC | SEQ ID NO.52 |
primer-FGFR2-COL14-fwd | CTCACAAGACAACCAAGGAC | SEQ ID NO.53 |
primer-FGFR2-COL14-rvs | ATGCGTTCATTGCCTTCTCAC | SEQ ID NO.54 |
primer-FGFR3-TACC3-fwd | AGGAGTACCTGGACCTGTCG | SEQ ID NO.55 |
primer-FGFR3-TACC3-rvs | GAAGAGCTTGAGCAGTCCAG | SEQ ID NO.56 |
上表中各融合基因扩增子探针及其配套的扩增子建库试剂盒均购自南京金斯瑞生物科技有限公司。其中扩增子探针按照普通PCR引物单条合成模式定制。按照扩增子建库试剂盒标准操作流程进行扩增子建库,并送测序。本对比例的文库构建流程同对比例4。
上机测序
取实施例3所得2个文库,以及对比例5、对比例6制得的文库,共4个文库,均用Qubit4.0测定浓度,并各取20ng,上机测序。测序仪器型号为Illumina HiSeq 4000,测序策略为PE150,每个文库下单数据量为1Gb。
测序数据质控和分析流程
原始数据处理采用fastp软件,基因组比对采用BWA软件(即Burrows-Wheeler-Alignment Tool,算法为BWA-MEM),参考基因组采用GRCh38(亦称hg38,为国际通用人类参考基因组序列),使用sambamba软件进行标记(markdup)。
分析结果如下:
实施例3的两个文库所得测序结果为10个index拆分的读段数(reads数)的合集,具体见下表:
表32
表33
index No. | reads数 | 比例 |
1 | 668927 | 10.01% |
2 | 665848 | 9.96% |
3 | 666937 | 9.98% |
4 | 667822 | 9.99% |
5 | 667936 | 9.99% |
6 | 668802 | 10.01% |
7 | 666862 | 9.98% |
8 | 665625 | 9.96% |
9 | 669937 | 10.02% |
10 | 668521 | 10.00% |
无法列入index的reads数 | 7002 | 0.10% |
总reads数 | 6684219 | 100.00% |
由上表可见,各index间reads(读段)数分布偏好性低(各index所拆分的reads数相近),且无法列入index的reads数仅占总reads数的约千分之一,说明实施例3使用的P7端带样本标签的indexing扩增系统已经可以精准地对多个样本进行混合靶标基因建库和测序。
各组实验融合基因检测结果比较如下表:
表34
由上表可见,实施例3构建的文库的测序数据质量相对于其他两项现有技术测序结果更高,具体地,Q30比例更高,Q30代表正确率在99.9%的reads占总reads数的比例;且基于实施例3的文库所检测得到的靶标融合基因的频率更接近真实值,即MAF(MutationAllele Frequency,突变等位基因频率)更接近融合基因频率的预设值。因此,实施例3的文库构建方法在对人类等复杂基因组的靶标融合基因做测序检测时的性能更优,且耗时更短,对比例5的杂交捕获建库需72~80小时,对比例6的扩增子建库需24~32小时,实施例3的建库方法仅需10小时,且实施例3所需步骤少,所需各种试剂和耗材少,因此成本更低。
另外,在实施例3中,靶标融合基因文库1和靶标融合基因文库2的融合基因检测结果高度相似且均高度接近预设值。而此二文库构建过程中所用融合基因靶标探针末尾编号分别为-1和-2,这两组探针中一组内的每条探针和另一组中的一条探针一一对应,具体定位在基因组中的位置为同一个融合断点的左侧和右侧,然后探针向前延伸,最后所得靶标融合基因文库的测序结果高度相似,说明无论在融合断点的哪一侧设计探针,无论另一侧的融合伴侣(fusion partner)为何种DNA序列,均可准确捕获并检测到融合的断点。因此本方法可用于精准检测位置融合基因,即仅需获知融合断点一侧的序列,另一侧为任何序列均不影响融合基因于的检测。而对比例5所用杂交捕获的探针基于融合断点两侧序列同时获知,在断点两侧的全长序列上设计,若断点的某一侧变为一个新的或未知的融合伴侣,则会极大地降低其检测效果。而对比例6所用扩增子建库技术对融合基因断点的检测基于PCR扩增,PCR反应的原理是需要靶标DNA的两端序列均已知,如此才能设计所需的一对引物用于PCR,若断点的某一侧变为一个新的或未知的融合伴侣,则基于原两侧融合伴侣序列设计的一对引物即失效,导致PCR无法进行,因此该方法无法检测未知融合基因。
在临床医学检测和科研中,特别在肿瘤样本中,未知融合基因常常出现,即融合基因断点的一侧为熟知的一个融合伴侣,而断点另一侧为不同样本或患者有不同的融合伴侣,甚至在同一份肿瘤样本中也常见在断点另一侧有不同的融合伴侣(这是肿瘤异质性的固有性质造成的)。这些断点一侧的融合伴侣固定而断点另一侧的融合伴侣不同的各融合基因有不同的基因表达产物,相互之间的生物学和病理学性质各异,因此准确和全面的检测融合基因(含熟知的融合基因和新发现或未知的融合基因),具有重大科学,医学和商业检测价值。
综上,实施例3的靶标融合基因建库方法在临床检测、医学研究和基因组科学研究中有更广阔的应用前景。
在一些实施例中,本发明适用的DNA样本类型广泛,对严重降解和微量这些常规NGS技术无法胜任的样本,而且对样本长度无要求,对长片段的完整的基因组DNA无需打断。
在一些实施例中,本发明可将现有建库技术中分离的步骤整合为一体,流程短,只需约5小时,操作简易。
在一些实施例中,本发明采用自配试剂,可完全摆脱试剂进口。
在一些实施例中,建库起始模板以单链形式,可适用于严重降解和微量样本。
在一些实施例中,基于线性扩增且在靶标基因分子上直接加分子标签,减少指数型扩增带来的错误和偏好性,可实现定量检测,超低频突变检测和基因组结构性变异检测,如基因拷贝数变化、融合基因和病毒插入序列等。
现有的NGS建库需要将DNA样本打断至200至500bp长的范围以适应NGS测序的实际读长(目前最常用的测序模式为PE150,即双向测序,各150bp长),在建库的过程中做复杂的文库片段长度筛选(一般采用两步词组筛选法),在一些实施例中,本发明的起始DNA不需要打断,建库过程中也无需做文库片段长度筛选。
在一些实施例中,起始量可底至0.1ng,真正实现超微量DNA建库。
在一些实施例中,RNA样本逆转录为cDNA后可自动兼容本发明,且无需二链合成,节省物料和时间,且避免现有的二链合成过程中随机引物带来的一系列错误和偏好性。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
SEQUENCE LISTING
<110> 深圳市睿法生物科技有限公司
<120> 一种单分子靶标基因建库方法及其试剂盒
<130> 21I33078
<160> 56
<170> PatentIn version 3.3
<210> 1
<211> 34
<212> DNA
<213> 人工序列
<400> 1
agatcggaag agcacacgtc tgaactccag tcac 34
<210> 2
<211> 43
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (37)..(43)
<223> n is a, c, g, or t
<400> 2
aagtgactgg agttcagacg tgtgctcttc cgatctnnnn nnn 43
<210> 3
<211> 60
<212> DNA
<213> 人工序列
<400> 3
caagcagaag acggcatacg agattgatag gtgactggag ttcagacgtg tgctcttccg 60
<210> 4
<211> 60
<212> DNA
<213> 人工序列
<400> 4
caagcagaag acggcatacg agattatacg gtgactggag ttcagacgtg tgctcttccg 60
<210> 5
<211> 60
<212> DNA
<213> 人工序列
<400> 5
caagcagaag acggcatacg agatcgatca gtgactggag ttcagacgtg tgctcttccg 60
<210> 6
<211> 60
<212> DNA
<213> 人工序列
<400> 6
caagcagaag acggcatacg agatatacac gtgactggag ttcagacgtg tgctcttccg 60
<210> 7
<211> 60
<212> DNA
<213> 人工序列
<400> 7
caagcagaag acggcatacg agatatagcg gtgactggag ttcagacgtg tgctcttccg 60
<210> 8
<211> 60
<212> DNA
<213> 人工序列
<400> 8
caagcagaag acggcatacg agattgttca gtgactggag ttcagacgtg tgctcttccg 60
<210> 9
<211> 60
<212> DNA
<213> 人工序列
<400> 9
caagcagaag acggcatacg agatagatac gtgactggag ttcagacgtg tgctcttccg 60
<210> 10
<211> 60
<212> DNA
<213> 人工序列
<400> 10
caagcagaag acggcatacg agattagctg gtgactggag ttcagacgtg tgctcttccg 60
<210> 11
<211> 60
<212> DNA
<213> 人工序列
<400> 11
caagcagaag acggcatacg agatgtatgt gtgactggag ttcagacgtg tgctcttccg 60
<210> 12
<211> 60
<212> DNA
<213> 人工序列
<400> 12
caagcagaag acggcatacg agatggctca gtgactggag ttcagacgtg tgctcttccg 60
<210> 13
<211> 60
<212> DNA
<213> 人工序列
<400> 13
caagcagaag acggcatacg agatcatgct gtgactggag ttcagacgtg tgctcttccg 60
<210> 14
<211> 60
<212> DNA
<213> 人工序列
<400> 14
caagcagaag acggcatacg agattcatcg gtgactggag ttcagacgtg tgctcttccg 60
<210> 15
<211> 51
<212> DNA
<213> 人工序列
<400> 15
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct t 51
<210> 16
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 16
acactctttc cctacacgac gctcttccga tctnnnnnnn nntgatttgt agtggagaag 60
ga 62
<210> 17
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 17
acactctttc cctacacgac gctcttccga tctnnnnnnn nntggcctgg cttgcttacc 60
tt 62
<210> 18
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 18
acactctttc cctacacgac gctcttccga tctnnnnnnn nngcatctgc ctcacctcca 60
cc 62
<210> 19
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 19
acactctttc cctacacgac gctcttccga tctnnnnnnn nntccaggag gcagccgaag 60
gg 62
<210> 20
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 20
acactctttc cctacacgac gctcttccga tctnnnnnnn nnggaaactg aattcaaaaa 60
ga 62
<210> 21
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 21
acactctttc cctacacgac gctcttccga tctnnnnnnn nngaccttac cttatacacc 60
gt 62
<210> 22
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 22
acactctttc cctacacgac gctcttccga tctnnnnnnn nngaaataaa tacagatctg 60
tt 62
<210> 23
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 23
acactctttc cctacacgac gctcttccga tctnnnnnnn nnaaaaggaa ttccataact 60
tc 62
<210> 24
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 24
acactctttc cctacacgac gctcttccga tctnnnnnnn nngacgatac agctaattca 60
ga 62
<210> 25
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 25
acactctttc cctacacgac gctcttccga tctnnnnnnn nnacaagttt atattcagtc 60
at 62
<210> 26
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 26
acactctttc cctacacgac gctcttccga tctnnnnnnn nntgagagac caatacatga 60
gg 62
<210> 27
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 27
acactctttc cctacacgac gctcttccga tctnnnnnnn nntatgtcca acaaacaggt 60
tt 62
<210> 28
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 28
acactctttc cctacacgac gctcttccga tctnnnnnnn nnagaaggtg agaaagttaa 60
aa 62
<210> 29
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 29
acactctttc cctacacgac gctcttccga tctnnnnnnn nntcacatcg aggatttcct 60
tg 62
<210> 30
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 30
acactctttc cctacacgac gctcttccga tctnnnnnnn nnccctccct ccaggaagcc 60
ta 62
<210> 31
<211> 62
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (34)..(42)
<223> n is a, c, g, or t
<400> 31
acactctttc cctacacgac gctcttccga tctnnnnnnn nnaggcagat gcccagcagg 60
cg 62
<210> 32
<211> 99
<212> DNA
<213> 人工序列
<400> 32
ttagtcatta caaataactc ctttatttcc gttccctctc ccctcaaatg gctcatgtcc 60
acatcaacaa ggcaaggaaa catctatgac cccaactat 99
<210> 33
<211> 99
<212> DNA
<213> 人工序列
<400> 33
ctacacattg ttgtcagtga gactttggtc aaagtggtta ttgactgcaa gcaagtgggt 60
gagaaggcaa tgaacgcatc agctaatatc acgtcagat 99
<210> 34
<211> 99
<212> DNA
<213> 人工序列
<400> 34
tcttggggaa tggagatgtt cttactggag actcaggtgg agtcatgctt atatggagca 60
aaactactgt agagcccaca cctgggaaag gacctaaag 99
<210> 35
<211> 99
<212> DNA
<213> 人工序列
<400> 35
ggtgagtgag ttcccctctc gccgctccag catcatgggg acctgacaaa gtcccactct 60
cccctgtgat ctttgcagcc agcctcgcac cattcccaa 99
<210> 36
<211> 99
<212> DNA
<213> 人工序列
<400> 36
actccaacca acagccaaca ggggagtgtg tgtgtaaaac actacgcatg tctcacaaga 60
caaccaagga caaggggctt ctagaaggaa gttcttacc 99
<210> 37
<211> 99
<212> DNA
<213> 人工序列
<400> 37
gggcacagcc tgggcacaga ggtggctgtg cgaagagggg ctcggtggca cagcgctcac 60
cccgcctccc gccagcagga gtacctggac ctgtcggcg 99
<210> 38
<211> 99
<212> DNA
<213> 人工序列
<400> 38
acactaacag cacatctgga gacccggtgg agaagaagga cgaaacacct tttggggtga 60
gataggaagt agaagcttgt gcagactttg ggaccggga 99
<210> 39
<211> 99
<212> DNA
<213> 人工序列
<400> 39
ttgttgtttt atactttatt tgagaagaga ccctacataa actatgtcag gaggatacag 60
gtctacacac gatttcatca atcaataaat ggagttgtt 99
<210> 40
<211> 99
<212> DNA
<213> 人工序列
<400> 40
caggcagctg gtatggggat tgctacaact gaaaccaaat ggctctcaga accaagatta 60
gaaatcagga acgttgcatt gtttatttgg agttataga 99
<210> 41
<211> 99
<212> DNA
<213> 人工序列
<400> 41
tcttccaagg gattgggaga ttgattttac ttctcggatt tctctacttt ttcgtgtgct 60
ccctggatat tcttagtagc gccttccagc tggttggag 99
<210> 42
<211> 99
<212> DNA
<213> 人工序列
<400> 42
cccaggtgcc ctggctgacc tggactgctc aagctcttcc cagagcccag gaagttctga 60
gaaccaaatg gtgtctccag gaaaagtgtc tggcagccc 99
<210> 43
<211> 51
<212> DNA
<213> 人工序列
<400> 43
cctggatctt gcgcttcacc gcctcgatgg tggtgatccc agccatggtg c 51
<210> 44
<211> 48
<212> DNA
<213> 人工序列
<400> 44
ccacccagct actgctcgcg ctccggttcc tgcctcctcc gctcggcg 48
<210> 45
<211> 20
<212> DNA
<213> 人工序列
<400> 45
gatgttctta ctggagactc 20
<210> 46
<211> 20
<212> DNA
<213> 人工序列
<400> 46
gccttgttga tgtggacatg 20
<210> 47
<211> 20
<212> DNA
<213> 人工序列
<400> 47
tccaagggat tgggagattg 20
<210> 48
<211> 21
<212> DNA
<213> 人工序列
<400> 48
caacgttcct gatttctaat c 21
<210> 49
<211> 18
<212> DNA
<213> 人工序列
<400> 49
gcctcgatgg tggtgatc 18
<210> 50
<211> 20
<212> DNA
<213> 人工序列
<400> 50
gtttcgtcct tcttctccac 20
<210> 51
<211> 19
<212> DNA
<213> 人工序列
<400> 51
ctgacaaagt cccactctc 19
<210> 52
<211> 20
<212> DNA
<213> 人工序列
<400> 52
atcgtgtgta gacctgtatc 20
<210> 53
<211> 20
<212> DNA
<213> 人工序列
<400> 53
ctcacaagac aaccaaggac 20
<210> 54
<211> 21
<212> DNA
<213> 人工序列
<400> 54
atgcgttcat tgccttctca c 21
<210> 55
<211> 20
<212> DNA
<213> 人工序列
<400> 55
aggagtacct ggacctgtcg 20
<210> 56
<211> 20
<212> DNA
<213> 人工序列
<400> 56
gaagagcttg agcagtccag 20
Claims (10)
1.一种单分子靶标基因建库方法,其特征在于,包括:
延伸步骤,包括将模板分子、串联有第一测序接头的靶标探针混合,所述靶标探针靶向结合至模板分子的靶标区域并延伸反应,获得靶标探针延伸产物;
第二测序接头连接步骤,包括向延伸步骤所得的反应体系中加入第二测序接头,所述第二测序接头含有互补配对的正向链、反向链,所述第二测序接头的正向链的5’端可串联连接至所述靶标探针延伸产物的3’端,所述反向链的3’端串联有随机核苷酸序列,反应得到第二测序接头连接产物,然后解链处理,去除产物中串联有随机核苷酸序列的单链,得到串联有第一测序接头的单链产物;
双链合成步骤,包括向串联有第一测序接头的单链产物中加入第一引物、第二引物,反应得到可用于上机测序的扩增产物,所述第一引物含有互补配对于所述第一测序接头的序列,所述第二引物含有互补配对于所述第二测序接头的序列。
2.如权利要求1所述的单分子靶标基因建库方法,其特征在于,所述模板分子为单链DNA;
和/或,所述模板分子选自双链DNA解链处理后得到的单链DNA、RNA逆转录得到的cDNA中的至少一种;
和/或,所述模板分子来源于亚硫酸氢盐处理的DNA、福尔马林固定和石蜡包埋组织的DNA、法医样本提取的DNA、体液所含游离DNA、古生物化石或考古发掘的生物遗存中提取的DNA样本中的至少一种;
和/或,所述模板分子的起始量为0.1至1000纳克;
和/或,所述靶标探针延伸产物为单链DNA;
和/或,延伸步骤中,还包括对靶标探针延伸产物进行纯化处理,获得纯化后的靶标探针延伸产物;
和/或,第二测序接头连接步骤中,包括向纯化后的靶标探针延伸产物中加入第二测序接头;
和/或,所述纯化包括磁珠纯化。
3.如权利要求1所述的单分子靶标基因建库方法,其特征在于,所述第二测序接头的正向链的5’端修饰有磷酸基团;
和/或,所述第一测序接头与所述靶标探针之间串联有分子标签;
和/或,所述分子标签的长度为4-19nt。
4.如权利要求1所述的单分子靶标基因建库方法,其特征在于,所述第二测序接头的反向链的3’端串联的随机核苷酸序列的长度为5-15nt。
5.如权利要求1所述的单分子靶标基因建库方法,其特征在于,所述第一引物含有可与所述第一测序接头互补配对的序列,所述第二引物含有可与所述第二测序接头互补配对的序列;
和/或,所述第一引物含有内接头序列、外接头序列,所述内接头序列的5’端串联连接至所述外接头序列的3’端,所述内接头序列可与所述第一测序接头反向互补配对;
和/或,所述第一引物含有或不含有第一样本标签;
和/或,所述第一引物含有第一样本标签时,第一样本标签位于所述内接头序列、外接头序列之间;
和/或,所述第一样本标签的长度为4-15nt;
和/或,所述第二引物含有内接头序列、外接头序列,所述内接头序列的5’端串联连接至所述外接头序列的3’端,所述内接头序列可与所述第二测序接头反向互补配对;
和/或,所述第二引物含有或不含有第二样本标签;
和/或,所述第二引物含有第二样本标签时,所述第二样本标签位于所述内接头序列、外接头序列之间;
和/或,所述第二样本标签的长度为4-15nt;
和/或,延伸步骤中,延伸反应的扩增循环数≥1;
和/或,延伸步骤中,延伸反应的扩增循环数为5-500个循环;
和/或,延伸步骤中,每个循环反应如下:94-98℃,10-60秒;55-65℃,10-60秒;68-72℃,10-60秒。
6.如权利要求1所述的单分子靶标基因建库方法,其特征在于,第二测序接头连接步骤中,连接反应时,具体是在22-40℃下反应0.5-2小时;
和/或,第二测序接头连接步骤中,采用的连接酶为T4 DNA连接酶。
7.如权利要求1所述的单分子靶标基因建库方法,其特征在于,第二测序接头连接步骤中,所述解链处理为变性处理;
和/或,所述变性处理为热变性处理;
和/或,所述热变性处理具体是将目标分子加热到至少80℃保持至少1min;
和/或,所述第一测序接头选自Illumina测序平台的P5端测序接头、MGI测序平台的P2端测序接头中的任意一种;
和/或,所述第二测序接头选自Illumina测序平台的P7端测序接头、MGI测序平台的P1端测序接头中的任意一种。
8.如权利要求1-7任意一项所述方法构建得到的文库。
9.一种试剂盒,其特征在于,包括第一测序接头、第二测序接头,所述第一测序接头串联连接有靶标探针,所述靶标探针可结合至模板分子的靶标区域并延伸反应,所述第二测序接头含有互补配对的正向链、反向链,所述第二测序接头的正向链的5’端可串联连接至靶标探针延伸产物的3’端,所述反向链的3’端串联连接有随机核苷酸序列。
10.如权利要求9所述的试剂盒,其特征在于,所述模板分子为单链DNA;
和/或,所述模板分子为双链DNA解链处理后得到的单链DNA、RNA逆转录得到的cDNA中的至少一种;
和/或,所述模板分子选自亚硫酸氢盐处理的DNA、各类严重降解的DNA;
和/或,所述各类严重降解的DNA包括福尔马林固定和石蜡包埋(FFPE)组织的DNA、法医样本提取的DNA、体液所含游离DNA(cfDNA);
和/或,所述模板分子的起始量为0.1至1000纳克;
和/或,所述靶标探针延伸产物为单链DNA;
和/或,所述第二测序接头的正向链的5’端修饰有磷酸基团;
和/或,所述第一测序接头与所述靶标探针之间串联有分子标签;
和/或,所述分子标签的长度为4-19nt;
和/或,所述第二测序接头的反向链的3’端串联的随机核苷酸序列的长度为5-15nt;
和/或,所述试剂盒还含有第一引物、第二引物,所述第一引物含有可与所述第一测序接头互补配对的序列,所述第二引物含有可与所述第二测序接头互补配对的序列;
和/或,所述第一引物含有内接头序列、外接头序列,所述内接头序列的5’端串联连接至所述外接头序列的3’端,所述内接头序列可与所述第一测序接头反向互补配对;
和/或,所述第一引物含有或不含有第一样本标签;
和/或,所述第一引物含有第一样本标签时,所述第一样本标签位于所述内接头序列、外接头序列之间;
和/或,所述第一样本标签的长度为4-15nt;
和/或,所述第二引物含有内接头序列、外接头序列,所述内接头序列的5’端串联连接至所述外接头序列的3’端,所述内接头序列可与所述第二测序接头反向互补配对;
和/或,所述第二引物含有或不含有第二样本标签;
和/或,所述第二引物含有第二样本标签时,所述第二样本标签位于所述内接头序列、外接头序列之间;
和/或,所述第二样本标签的长度为4-15nt;
和/或,所述第一测序接头选自Illumina测序平台的P5端测序接头、MGI测序平台的P2端测序接头中的任意一种;
和/或,所述第二测序接头选自Illumina测序平台的P7端测序接头、MGI测序平台的P1端测序接头中的任意一种。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2020115331125 | 2020-12-22 | ||
CN202011533112.5A CN112575388A (zh) | 2020-12-22 | 2020-12-22 | 一种单分子靶标基因建库方法及其试剂盒 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114214734A true CN114214734A (zh) | 2022-03-22 |
Family
ID=75139421
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011533112.5A Pending CN112575388A (zh) | 2020-12-22 | 2020-12-22 | 一种单分子靶标基因建库方法及其试剂盒 |
CN202111572277.8A Pending CN114214734A (zh) | 2020-12-22 | 2021-12-21 | 一种单分子靶标基因建库方法及其试剂盒 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011533112.5A Pending CN112575388A (zh) | 2020-12-22 | 2020-12-22 | 一种单分子靶标基因建库方法及其试剂盒 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112575388A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024138672A1 (zh) * | 2022-12-30 | 2024-07-04 | 深圳华大生命科学研究院 | 一种改进的核酸捕获方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101967476A (zh) * | 2010-09-21 | 2011-02-09 | 深圳华大基因科技有限公司 | 一种基于接头连接的DNA PCR-Free标签文库构建方法 |
US20150119261A1 (en) * | 2013-03-19 | 2015-04-30 | New England Biolabs, Inc. | Enrichment of Target Sequences |
CN107236729A (zh) * | 2017-07-04 | 2017-10-10 | 上海阅尔基因技术有限公司 | 一种基于探针捕获富集的快速构建靶核酸测序文库的方法和试剂盒 |
CN108504649A (zh) * | 2017-02-24 | 2018-09-07 | 上海基致生物医药科技有限公司 | 编码pcr二代测序建库方法、试剂盒及检测方法 |
CN109234356A (zh) * | 2018-09-18 | 2019-01-18 | 南京迪康金诺生物技术有限公司 | 一种构建杂交捕获测序文库的方法及应用 |
CN110656156A (zh) * | 2019-10-14 | 2020-01-07 | 湖南大地同年生物科技有限公司 | 一种超低频突变核酸片段检测方法、文库构建方法、引物设计方法和试剂 |
CN110734967A (zh) * | 2018-07-19 | 2020-01-31 | 深圳华大智造科技有限公司 | 一种接头组合物及其应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3286334A4 (en) * | 2015-04-20 | 2018-09-12 | Neogenomics Laboratories, Inc. | Method to increase sensitivity of next generation sequencing |
-
2020
- 2020-12-22 CN CN202011533112.5A patent/CN112575388A/zh active Pending
-
2021
- 2021-12-21 CN CN202111572277.8A patent/CN114214734A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101967476A (zh) * | 2010-09-21 | 2011-02-09 | 深圳华大基因科技有限公司 | 一种基于接头连接的DNA PCR-Free标签文库构建方法 |
US20150119261A1 (en) * | 2013-03-19 | 2015-04-30 | New England Biolabs, Inc. | Enrichment of Target Sequences |
CN108504649A (zh) * | 2017-02-24 | 2018-09-07 | 上海基致生物医药科技有限公司 | 编码pcr二代测序建库方法、试剂盒及检测方法 |
CN107236729A (zh) * | 2017-07-04 | 2017-10-10 | 上海阅尔基因技术有限公司 | 一种基于探针捕获富集的快速构建靶核酸测序文库的方法和试剂盒 |
CN110734967A (zh) * | 2018-07-19 | 2020-01-31 | 深圳华大智造科技有限公司 | 一种接头组合物及其应用 |
CN109234356A (zh) * | 2018-09-18 | 2019-01-18 | 南京迪康金诺生物技术有限公司 | 一种构建杂交捕获测序文库的方法及应用 |
CN110656156A (zh) * | 2019-10-14 | 2020-01-07 | 湖南大地同年生物科技有限公司 | 一种超低频突变核酸片段检测方法、文库构建方法、引物设计方法和试剂 |
Non-Patent Citations (2)
Title |
---|
MARIE-THERES GANSAUGE等: "Single-stranded DNA library preparation for the sequencing of ancient or damaged DNA", vol. 8, no. 4, pages 737 - 749 * |
陈丹等: "用于高通量测序的基因组靶序列捕获方法的建立", 遗传, vol. 32, no. 12, pages 1296 - 1303 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024138672A1 (zh) * | 2022-12-30 | 2024-07-04 | 深圳华大生命科学研究院 | 一种改进的核酸捕获方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112575388A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3555305B1 (en) | Method for increasing throughput of single molecule sequencing by concatenating short dna fragments | |
CN108300716B (zh) | 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法 | |
CN113005121B (zh) | 接头元件、试剂盒及其相关应用 | |
CN107604046B (zh) | 用于微量dna超低频突变检测的双分子自校验文库制备及杂交捕获的二代测序方法 | |
CN107699957B (zh) | 基于dna的融合基因定量测序建库、检测方法及其应用 | |
CN111471754B (zh) | 一种通用型高通量测序接头及其应用 | |
US11761037B1 (en) | Probe and method of enriching target region applicable to high-throughput sequencing using the same | |
EP3674413A1 (en) | Probe and method for high-throughput sequencing targeted capture target region used for detecting gene mutations as well as known and unknown gene fusion types | |
CN106939344B (zh) | 用于二代测序的接头 | |
CN110628880A (zh) | 一种同步使用信使rna与基因组dna模板检测基因变异的方法 | |
CN112410331A (zh) | 带分子标签和样本标签的接头及其单链建库方法 | |
KR20240069835A (ko) | 대규모 병렬 서열분석을 위한 dna 라이브러리를 생성하기 위한 개선된 방법 및 키트 | |
KR20170133270A (ko) | 분자 바코딩을 이용한 초병렬 시퀀싱을 위한 라이브러리 제조방법 및 그의 용도 | |
US20140336058A1 (en) | Method and kit for characterizing rna in a composition | |
CN112680796A (zh) | 一种靶标基因富集建库方法 | |
CN112941147B (zh) | 一种高保真靶标基因建库方法及其试剂盒 | |
CN114214734A (zh) | 一种单分子靶标基因建库方法及其试剂盒 | |
CN113416769B (zh) | 基于二代测序技术检测无对照样本的微卫星不稳定的方法、组合物和用途 | |
CN114277096B (zh) | 鉴别地中海贫血αααanti4.2杂合型和HKαα杂合型的方法和试剂盒 | |
WO2020005159A1 (en) | Method for detection and quantification of genetic alterations | |
CN113584135B (zh) | 一种混样检测rna修饰并实现精准定量的方法 | |
CN114277114A (zh) | 一种扩增子测序添加唯一性标识符的方法及应用 | |
KR102342490B1 (ko) | 분자 인덱스된 바이설파이트 시퀀싱 | |
CN107904297B (zh) | 用于微生物多样性研究的引物组、接头组和测序方法 | |
CN112251491A (zh) | 一种毛细管96孔板的cDNA建库方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |