CN110168087B - Dna标签及其应用 - Google Patents
Dna标签及其应用 Download PDFInfo
- Publication number
- CN110168087B CN110168087B CN201780083033.9A CN201780083033A CN110168087B CN 110168087 B CN110168087 B CN 110168087B CN 201780083033 A CN201780083033 A CN 201780083033A CN 110168087 B CN110168087 B CN 110168087B
- Authority
- CN
- China
- Prior art keywords
- dna
- sequence
- sequencing
- nucleic acid
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012163 sequencing technique Methods 0.000 claims description 73
- 238000000034 method Methods 0.000 claims description 50
- 238000000746 purification Methods 0.000 claims description 22
- 238000003776 cleavage reaction Methods 0.000 claims description 19
- 238000000137 annealing Methods 0.000 claims description 18
- 108020004707 nucleic acids Proteins 0.000 claims description 18
- 102000039446 nucleic acids Human genes 0.000 claims description 18
- 150000007523 nucleic acids Chemical class 0.000 claims description 18
- 230000007017 scission Effects 0.000 claims description 18
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 17
- 230000000295 complement effect Effects 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 12
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000004873 anchoring Methods 0.000 claims description 6
- 238000012408 PCR amplification Methods 0.000 claims description 5
- 239000011324 bead Substances 0.000 claims description 4
- 238000001976 enzyme digestion Methods 0.000 claims description 4
- 239000002773 nucleotide Substances 0.000 claims description 2
- 125000003729 nucleotide group Chemical group 0.000 claims description 2
- 108091008146 restriction endonucleases Proteins 0.000 claims description 2
- 108020004414 DNA Proteins 0.000 description 61
- 230000035772 mutation Effects 0.000 description 55
- 238000006243 chemical reaction Methods 0.000 description 28
- 238000001514 detection method Methods 0.000 description 28
- 239000000872 buffer Substances 0.000 description 19
- 239000000203 mixture Substances 0.000 description 18
- 230000036438 mutation frequency Effects 0.000 description 16
- 235000019441 ethanol Nutrition 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 14
- 208000024172 Cardiovascular disease Diseases 0.000 description 13
- 206010028980 Neoplasm Diseases 0.000 description 13
- 230000004770 neurodegeneration Effects 0.000 description 13
- 208000015122 neurodegenerative disease Diseases 0.000 description 13
- 238000012216 screening Methods 0.000 description 13
- 210000001082 somatic cell Anatomy 0.000 description 13
- 210000001988 somatic stem cell Anatomy 0.000 description 13
- 201000011510 cancer Diseases 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 239000003153 chemical reaction reagent Substances 0.000 description 10
- 238000012795 verification Methods 0.000 description 9
- 239000012154 double-distilled water Substances 0.000 description 8
- 238000002156 mixing Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 238000003556 assay Methods 0.000 description 7
- 108091035707 Consensus sequence Proteins 0.000 description 6
- 101001100327 Homo sapiens RNA-binding protein 45 Proteins 0.000 description 6
- 102100038823 RNA-binding protein 45 Human genes 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000003321 amplification Effects 0.000 description 5
- 238000012165 high-throughput sequencing Methods 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 206010020751 Hypersensitivity Diseases 0.000 description 4
- 208000026935 allergic disease Diseases 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000009610 hypersensitivity Effects 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007664 blowing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000002779 inactivation Effects 0.000 description 3
- 239000007788 liquid Substances 0.000 description 3
- 238000004321 preservation Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000007480 sanger sequencing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 102000012410 DNA Ligases Human genes 0.000 description 2
- 108010061982 DNA Ligases Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- 230000032683 aging Effects 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010369 molecular cloning Methods 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007789 sealing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000009736 wetting Methods 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 101150044325 DRB1 gene Proteins 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 102000004533 Endonucleases Human genes 0.000 description 1
- 108010067770 Endopeptidase K Proteins 0.000 description 1
- 101100268646 Homo sapiens ABL1 gene Proteins 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 108091081021 Sense strand Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229910021642 ultra pure water Inorganic materials 0.000 description 1
- 239000012498 ultrapure water Substances 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07H—SUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
- C07H21/00—Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
- C07H21/04—Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids with deoxyribosyl as saccharide radical
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Abstract
提供一种用于检测微量变异的DNA标签,该标签具有选自下列至少之一的序列:(1)HHATHHHTCACCHHATHHH;或(2)HHHTAHHTAHHHTAHH,其中,H代表A、T或C。
Description
优先权信息
无
技术领域
本发明涉及生物测序领域,具体地,本发明涉及DNA标签、DNA接头、构建测序文库的方法、测序文库以及测序方法。
背景技术
高通量测序技术的迅猛发展将基因组学水平的研究带入一个新的时期。它不仅可以进行大规模基因组测序,还可以用于基因表达分析、非编码小分析RNA的鉴定等。在医学领域,高通量测序技术打破了疾病研究过程中的通量限制,使得对疾病的多层面、全方位研究成为可能,为疾病的预防、诊断及治疗提供了有效手段。在基因组、基因表达研究或医学遗传学检测中,DNA测序测定、DNA分子定量、RNA丰度分析等具有重要意义。然而,由于高通量测序技术在测序前需要对样本DNA/RNA进行PCR扩增,PCR普遍存在扩增偏向性、扩增错误等问题,同时基于特定测序平台和测序环境,在测序过程中也会产生测序错误,从而导致约1%的碱基不能正确识别,进而限制了对罕见变异和低频变异的检测。
单分子标签(Unique Molecular Identifiers,UMI)技术是通过在DNA/RNA分子片段末端随机添加一段人工合成序列(一般5-12bp),作为识别该DNA片段的唯一标签,用于记录样本原始DNA/RNA信息。早在2011年由Isaac Kinde,Jian Wu等人为了检测罕见突变运用了唯一标示符(Unique Identifier,UID)技术,这一技术与UMI技术类同。紧接着在2012年,为了解决确定单样本中两个不同分子的相对丰度或多分子的绝对定量,由Teemu Kivioja,Anna 等人首次使用了单分子标签(UMI)技术进行多分子绝对量的计数。同年Michael W.Schmitt等人采用了进一步UMI和双工测序(Duplex Sequencing,DS)技术进行极罕见突变的检测。同样是Scott R Kennedy,Michael W Schmitt等在2014年又针对有效的DS接头合成、文库制备、目标富集以及数据分析流程概述提供了详细的协议。接下来在2015年Michael W Schmitt等又运用DS技术对ABL1基因上的罕见突变进行了检测。
然而,对于基因组极微量变异的检测仍需要进一步开拓。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
本申请发明人基于独创性的UMI序列,研发了一套基因组极微量变异检测和验证系统。本系统可以检测的突变频率最低可以达到0.01%,可以实现与体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。
在本发明的第一方面,本发明提出了一种DNA标签。根据本发明的实施例,所述标签具有选自下列至少之一的序列:(1)HHATHHHTCACCHHATHHH(SEQ ID NO:10);以及(2)HHHTAHHTAHHHTAHH(SEQ ID NO:11),其中,H代表A、T或C。利用根据本发明实施例的标签,可实现对极微量(突变频率低至0.01%)变异的检测和验证,对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有重要意义。
在本发明的第二方面,本发明提出了一种DNA接头。根据本发明的实施例,所述DAN接头含有前面所述的DNA标签。利用根据本发明实施例的DNA接头构建测序文库,进而对测序文库进行测序,可检测出极微量的变异,对突变频率低至0.01%的微量突变或罕见突变的检测灵敏度高。根据本发明实施例的DNA接头对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有十分重要的意义。
在本发明的第三方面,本发明提出了前面所述的DNA标签和前面所述的DNA接头在在检测微量变异中的应用。利用根据本发明实施例的标签和接头,可实现对极微量(突变频率低至0.01%)变异的检测和验证,对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有重要意义。
在本发明的第四方面,本发明提出了一种构建测序文库的方法。根据本发明的实施例,所述方法包括将连接有前面所述的DNA接头的核酸分子进行富集处理,以便获得测序文库。利用根据本发明实施例的方法构建的测序文库,可用于极微量变异的检测,极微量变异的突变频率可低至0.01%。
在本发明的第五方面,本发明提出了一种测序文库。根据本发明的实施例,所述测序文库是通过前面所述的构建测序文库的方法获得。对该测序文库进行高通量测序,可以检测的突变频率最低可以达到0.01%,可以实现对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。
在本发明的第六方面,本发明提出了一种测序方法。根据本发明的实施例,所述方法包括将前面所述的测序文库进行测序和数据分析处理。利用根据本发明实施例的测序方法,可实现低频突变的检测和验证,同时根据测序深度的不同UMI技术可以检测的突变频率可以达到0.01%,可以有效应用于体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的极微量变异检测系统整体分析流程图;
图2为根据本发明一个实施例的数据分析处理流程图;
图3为根据本发明一个实施例的PCR产物的纯化定量及Sanger测序验证图;
图4为根据本发明一个实施例的利用检测2100检测加“T”策略制备的接头的结果图;
图5为根据本发明一个实施例的利用检测2100检测加anchor策略制备的接头的结果图;
图6为根据本发明一个实施例的利用检测2100检测酶切策略制备的接头的结果图;
图7为根据本发明一个实施例的利用检测2100检测测序文库的结果图;
图8为根据本发明一个实施例的样本的累积深度分布图;
图9为根据本发明一个实施例的样本的深度分布图;
图10为根据本发明实施例的样本的UMI序列集分布图;以及
图11为根据本发明实施例的构建双工一致性序列结果图。
发明详细描述
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
对于本发明说明书和权利要求书中所提及的核酸,本领域技术人员应当理解,实际包括互补双链的任意一条,或者两条。为了方便,在本说明书和权利要求书中,虽然多数情况下只给出了一条链,但实际上也公开了与之互补的另一条链。例如,提及SEQ ID NO:1,实际包括其互补序列。本领域技术人员还可以理解,利用一条链可以检测另一条链,反之亦然。
DNA标签
在本发明的第一方面,本发明提出了一种用于检测微量变异的DNA标签。根据本发明的实施例,所述标签具有选自下列至少之一的序列:(1)HHATHHHTCACCHHATHHH;以及(2)HHHTAHHTAHHHTAHH,其中,H代表A、T或C。利用根据本发明实施例的标签,可实现对极微量(突变频率低至0.01%)变异的检测和验证,对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有重要意义。
DNA接头
在本发明的第二方面,本发明提出了一种DNA接头。根据本发明的实施例,所述DAN接头含有前面所述的DNA标签。利用根据本发明实施例的DNA接头构建测序文库,进而对测序文库进行测序,可检测出极微量的变异,对突变频率低至0.01%的微量突变或罕见突变的检测灵敏度高。根据本发明实施例的DNA接头对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有十分重要的意义。
根据本发明的再一具体实施例,所述接头具有粘性末端dT。进而,可通过快速的T-A连接,实现接头与待测序基因片段的有效快速连接。
根据本发明的具体实施例,所述DNA接头进一步包括:锚定序列,所述锚定序列形成在所述粘性末端dT与所述标签序列之间。锚定序列和标签序列进行退火反应时,两序列互补配对直至锚定序列3’末端突出碱基T为终止。分子克隆里,平端连接形成突出碱基的稳定性比较差,同时存在一定的失败率;而通过两条序列(其中锚定序列多出dT碱基)进行退火反应,经两条序列的互补配对,最后形成突出的dT端,后者没有连接反应的要求,只要两引物一一互补配对即可,因此引入锚定序列相对于常用的3’端平端连接dT更高效,更牢固。
根据本发明的具体示例,所述锚定序列具有SEQ ID NO:1所示的核苷酸序列。CTATGTCGATGC(SEQ ID NO:1)。根据本发明实施例的锚定序列严格不与其互补序列以外的序列互补,且自身不容易发生连接。此外,dDTP不含dC碱基,因此延伸反应终止,从而可以有效保护锚定序列的互补结构不被破坏。
根据本发明的实施例,所述粘性末端dT形成在所述DNA标签的3’末端。进而可与5’末端连接A的待测序片段进行快速、高效的T-A连接。
根据本发明的具体实施例,连接有锚定序列的接头是依次通过梯度退火处理、dDTP延伸处理以及酒精纯化补nick处理获得的。具体步骤如下所述:
1、梯度退火,具体步骤包括:
1)分别按管壁mol参数加ddH2O(OAB buffer)稀释至150uM,然后分别取12μl三种序列等体积混合,具体见表1;
表1:
备注:经过实验发现,锚定序列在合成时加dT比接头制备好后再连接dT的稳定性和效率更好,因此在制备有连接锚定序列的接头时,锚定序列合成时就加dT。
2)置PCR仪进行退火反应;
3)反应完成后放置在-20℃保存,标记为pre-Mix-ac;
2、dDTP延伸,具体步骤包括:
1)取35μl pre-Mix-ac,加入试剂,吹打混匀,所得体系如表2所示:
表2:
pre-Mix-ac | 35μl |
10×Blue buffer | 5μl |
dDTP(25mM each) | 5μl |
Klenow(3’→5’exo-)(5U/μl) | 5μl |
In Total | 50μl |
2)37℃孵育1h;
3)酒精纯化,用ddH2O溶出50μl;
4)放置在-20℃保存,标记为ac-Adpater-1.T.1。
3、酒精纯化补nick,具体步骤包括:
1)取45μl ac-Adpater-1.T.1,加入以下试剂,吹打混匀,所得体系如表3所示;
表3:
ac-Adpater-1.T.1 | 45μl |
2x Rapid ligation buffer | 50μl |
T4 DNA Ligase(600U/μl) | 5μl |
In Total | 50μl |
2)37℃孵育30min。
4、酒精纯化,用ddH2O溶出30μl。取1μl稀释,用于检测2100;
5、反应完成后-20℃保存。
根据本发明的具体示例,所述DNA接头进一步包括:酶切序列,所述酶切序列形成在所述DNA标签的末端,其中,所述酶切序列携带适于产生粘性末端dT的限制性内切酶识别位点。内切酶可切割正义链酶切识别位点后8位碱基,和反义链酶切识别位点后7位碱基,形成3’末端突出1位dT碱基的粘性末端。连接有酶切序列的接头形成3’端突出T末端结构更稳定。
根据本发明的再一具体示例,所述酶切序列为HphI特异性识别位点。HphI特异性识别位点被HphI特异性识别和酶切后,在DNA接头的3’端可以产生粘性末端dT,进而可与待测序片段进行快速、高效的T-A连接。
根据本发明的再一具体示例,连接有HphI特异性识别位点酶切序列的接头是依次通过梯度退火处理、dDTP延伸处理以及Hphl酶切处理获得的。具体地,可通过酶切后短PCR和酶切后长PF两种方式获得。
酶切后短PCR的方式具体如下所述:
1、梯度退火,具体步骤包括:
1)分别按管壁mol参数加ddH2O(OAB buffer)稀释至100uM,然后分别取20μl等体积混合;
2)置PCR仪进行退火反应;
3)反应完成后放置在-20℃保存,标记为pre-Mix-S。
2、dDTP延伸,具体步骤包括:
1)取35ul pre-Mix-S,加入试剂,吹打混匀,体系如表4所示;
表4:
pre-Mix-S | 35μl |
10×Blue buffer | 5μl |
dDTP(25mM each) | 5μl |
Klenow(3’→5’exo-) | 5μl |
In Total | 50μl |
2)37℃孵育1h;
3)酒精纯化,用ddH2O溶出20μl,取1μl稀释,用于检测2100高敏;
4)放置在-20℃保存,标记为pre-Adpater-S。
3、Hphl酶切,具体步骤包括:
1)分别取下表体积加入pre-Adpater-S混合,体系如表5所示;
表5:
2)37℃孵育16h,65℃孵育20min灭活;
3)酒精纯化,用ddH2O溶出30μl,取1μl稀释,用于检测2100高敏;
4)反应完成后-20℃保存。
酶切后长PF(PCR-Free)的方式具体如下所述:
1、梯度退火,具体步骤包括:
1)分别按管壁mol参数加ddH2O(OAB buffer)稀释至100uM,然后分别取20μl等体积混合;
2)置PCR仪进行退火反应;
3)反应完成后放置在-20℃保存,标记为pre-Mix-L57。
2、dDTP延伸,具体步骤包括:
1)取35ul pre-Mix-L57,加入以下试剂,吹打混匀,体系如表6所示;
表6:
pre-Mix-L57 | 35μl |
10×Blue buffer | 5μl |
dDTP(250nM each) | 5μl |
Klenow(3’→5’exo-) | 5μl |
In Total | 50μl |
2)37℃孵育1h;
3)酒精纯化,用ddH2O溶出20μl,取1μl稀释,用于检测2100高敏;
4)置-20℃保存,分别标记为pre-Adpater-L57。
3、Hphl酶切,具体步骤包括:
1)分别取下表体积加入pre-Adpater-L57混合,体系如表7所示;
表7:
2)37℃孵育16h;65℃孵育20min灭活;
3)酒精纯化,用ddH2O溶出30μl,取1μl稀释,用于检测2100高敏;
4)反应完成后放置在-20℃保存。
DNA标签和DNA接头在在检测微量变异中的用途
在本发明的第三方面,本发明提出了前面所述的DNA标签和前面所述的DNA接头在在检测微量变异中的用途。利用根据本发明实施例的标签和接头,可实现对极微量(突变频率低至0.01%)变异的检测和验证,在科学研究中,利用根据本发明实施例的标签和接头检测出极微量(突变频率低至0.01%)变异,对极微量变异的科学研究提供了可靠的检测手段,如体细胞线粒体突变率检测、罕见DNA变异检测(如novel易感位点的检测)、利用单分子计数精确计算DNA/RNA拷贝数、遗传性疾病的研究,衰老的研究(如与衰老相关的甲基化位点检测)等。另外,对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查具有重要意义。
构建测序文库的方法
在本发明的第四方面,本发明提出了一种构建测序文库的方法。根据本发明的实施例,所述方法包括将连接有前面所述的DNA接头的核酸分子进行富集处理,以便获得测序文库。利用根据本发明实施例的方法构建的测序文库,可用于极微量变异的检测,极微量变异的突变频率可低至0.01%。
具体地,根据本发明的实施例,所述核酸分子是通过如下方式获得的:(1)将待测核酸样本进行PCR扩增,以便获得核酸样本片段;(2)将所述核酸样本片段进行3’末端加A处理;(3)将前面所述的DNA接头与步骤(2)所获得的核酸样本片段进行连接,以便获得所述连接有前面所述的DNA接头的核酸分子。
根据本发明的再一实施例,3’仅具有粘性末端dT或在粘性末端dT与标签序列之间具有锚定序列的DNA接头与待测样本片段连接后,所述富集处理是通过PCR富集实现的。具体步骤如下所述:
1)实验准备。根据实验任务单和样本数编制《PCR反应表》;
2)加模板。根据《PCR反应表》的排版顺序将DNA样本加入到96孔PCR反应板中,批量样本每孔3μL,重扩重提样本每孔5μL。注意核对DNA信息是否与PCR反应表一致,管底或靠壁加样,封口膜封口后2000rpm短暂离心30s,检查管底加样情况,待用;
3)Mix分装。将配制好的mix分装至待用反应板中,批量样本每孔22μL,重扩样本每孔加20μL,悬空加mix。盖胶垫后1500rpm 30s短暂离心,并立即进行PCR仪循环扩增;
4)PCR仪循环扩增;
5)扩增后产物检测,PCR扩增后产物2,000rpm、30秒短暂离心,转移至电泳房待检测。如下机产物不能及时检测时,于4℃保存。
根据本发明的再一实施例,具有酶切序列的接头与待测样本连接后,所述富集处理也可通过上述的PCR富集方式实现。根据本发明的再一具体示例,当具有酶切序列的接头是通过上述的酶切后长PF(PCR-Free)的方式获得的,则具有酶切序列的接头与待测样本连接后,富集处理过程可以省略。
根据本发明的具体示例,所述富集处理之前,进一步包括对连接有前面所述的DNA接头的核酸分子进行纯化处理。具体地,所述纯化处理可通过磁珠纯化进行的。纯化处理过程可去除连接处理过程中相关酶以及相关缓冲液,进而排除对后续富集处理的干扰,连接产物的富集成功率和效率显著提高。
测序文库
在本发明的第五方面,本发明提出了一种测序文库。根据本发明的实施例,所述测序文库是通过前面所述的构建测序文库方法获得的。根据本发明的实施例,所述测序文库是通过前面所述的构建测序文库的方法获得。对该测序文库进行高通量测序,可以检测的突变频率最低可以达到0.01%,可以实现对体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。
测序方法
在本发明的第六方面,本发明提出了一种测序方法。根据本发明的实施例,所述方法包括将前面所述的测序文库进行测序和数据分析处理。利用根据本发明实施例的测序方法,可实现低频突变的检测和验证,可以有效应用于体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。
根据本发明的具体实施例,所述测序是通过Hiseq2500平台进行的。在Hiseq2500平台上进行高通量测序,可以大幅度降低成本,保证实验数据和分析结果的稳定性,更重要的是根据测序深度的不同UMI技术可以检测的突变频率可以达到0.01%。
根据本发明的具体示例,所述数据分析处理流程参考图2,具体如下所述:
1)数据预处理。对原始测序数据进行预处理,包括过滤低质量的reads,提取UMI接头序列,统计reads信息和UMI接头序列信息等;
2)比对。使用BWA(V0.5.9-r16)把预处理之后的reads比对到参考序列上;
3)过滤比对结果。对比对结果进行统计和过滤;
4)排序。使用samtools(V 0.1.16)对比对结果进行排序;
5)构建单链一致性序列。根据UMI序列集构建单链一致性序列;
6)排序。使用samtools(V0.1.16)对单链一致性序列进行排序;
7)构建双工一致性序列。根据UMI序列集中的互补序列构建双工一致性序列;
8)排序。使用samtools(V0.1.16)对双工一致性序列进行排序;
9)过滤和排序。使用samtools(V0.1.16)对双工一致性序列进行过滤,并对过滤后的结果进行排序;
10)局部比对。使用GATK(V2.4-9)对双工一致性序列进行局部比对;
11)突变信息分析。按照设定的突变率对突变信息进行分析和统计。
综上所述,利用根据本发明实施例的DNA标签、DNA接头、构建测序文库的方法、测序文库以及测序方法,可实现低频突变的检测和验证,可以检测的突变频率最低可以达到0.01%,进而可以有效应用于体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。具体如下所述:由于本发明采用了特殊的文库制备和分析策略,即用制备好的接头序列与样本DNA进行连接,虽然接头序列中包含10个简并碱基,但是具体到每个分子,还是有其特定的序列。样本DNA加好接头后,得到的原始测序模板,而每个模板的末端都被加上了19个碱基的分子标签,那每个模板的左、右两端加起来就有38个碱基的分子标签。每个兼并碱基有3种选择,20个碱基就是3^20,等于近3.5亿万种可能性。这保证了每个原始模板在原始文库里都是独一无二的。PCR扩增原始文库,每个模板会形成基于原始模板的2个中间序列互补的分子家族:正向和反向。基于这种文库制备和测序策略,在具体分析中可以通过以下策略排除一些假阳性的突变位点,具体策略如下:
1)在一个分子家族中只出现一次、或者少数几次的突变。而且互补分子家族没有出现同样的突变,这说明这种突变是随机错误,或者是PCR过程中后引入的复制错误,或者是Hiseq机器判读碱基有误。同时说明样本在该位置没有突变;
2)在一个分子家族中统一出现,但在与之互补的分子家族中不出现,这说明这种突变是在PCR的第一个循环中引入的复制错误;
3)在分子家族中统一出现,而且与互补链出现对应的突变。这说明这种突变是真的、可信的。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著,黄培堂等译的《分子克隆实验指南》,第三版,科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品,例如可以采购自Illumina公司。
本发明的实施例用2组DNA样本进行目标区域的PCR,经Sanger测序法确定各自特异碱基点后,以摩尔比例为1:1,1:100,1:1000,1:10000分别混合成4组产物,最后,依次对应三种UMI策略进行测试,详细如表8所示。
表8:
目标区域如表9所示。
目标序列以DRB1*01:01:01(说明:此型别对应的序列是DRB1基因的参考序列,下面展示的序列是该型别在目标区域内的序列)为例,序列如下:
ATGGTGTGTCTGAAGCTCCCTGGAGGCTCCTGCATGACAGCGCTGACAGTGACACTGATGGTGCTGAGCTCCCCACTGGCTTTGGCTGGGGACACCCGAC(SEQ ID NO:4)。
表9:
基因名 | 外显子 | 起始位置 | 终止位置 | 序列长度 |
DRB1 | Exome1 | 211 | 310 | 100bp |
依据极微量变异检测系统整体分析流程图(参考图1),以下依次介绍每个步骤的实施情况。
1、DNA提取,具体步骤如下:
(1)向1.5mL离心管中加入20μL蛋白酶K溶液;
(2)向管中加入200μL血液样本;
(3)向管中加入200μL缓冲液AL,涡旋振荡15秒,充分混匀;
(4)56℃水浴10分钟;
(5)在微型离心机中适当离心,使所有液体降到管底;
(6)加入200μL无水乙醇,涡旋振荡15秒,混匀,在微型离心机中适当离心,使所有液体沉到管底;
(7)将上步所得到的所有液体小心转移到纯化柱中,不要沾湿边缘,在高速离心机中8000rpm离心1分钟,弃掉收集管,更换新的收集管;
(8)小心打开管盖,加入500μL缓冲液AW1,不要沾湿边缘,在高速离心机中8000rpm离心1分钟,弃掉收集管,更换新收集管;
(9)打开管盖,加入500μL缓冲液AW2,在高速离心机中,14000rpm,离心3分钟;
(10)弃掉收集管,更换新离心管,在高速离心机中,14000rpm,离心1分种;
(11)弃掉收集管,将纯化柱放入1.5mL离心管中,晾3分钟,加入50μL缓冲液AE或是超纯水,室温下放置5分钟,在高速离心机中,8000rpm,离心1分钟,弃纯化柱,盖上离心管;
(12)在nanodrop 2000上测OD值,记录测量结果;
(13)将提取好的DNA做上标记,放入-20℃冰箱保存。
2、PCR扩增,具体步骤如下:
(1)引物设计;
在上述目标区域上下游区域通过生物信息学分析确定特异且保守的区域作为引物设计的候选区域,再根据引物设计原则完成引物设计。为提高数据利用率PCR引物扩增区域在满足覆盖目标区域条件下尽量短。
按照技术方案中的设计原则,针对以上目标区域最终确定引物序列如表10所示。
表10:
基因名 | 外显子 | 正向引物 | 反向引物 | 扩增长度 |
DRB1 | Exome1 | CCCTGGAGGCTCCTG(SEQ ID NO:5) | CACCCRCAATGTGCA(SEQ ID NO:6) | 75bp |
(2)采用高保真PCR酶及已制备的引物对上述DNA样本进行PCR扩增,实现目标序列富集。
3、PCR产物的纯化定量及Sanger测序验证(详见附图3a和b);
4、末端修复,取200ng以上产物进行末端修复,并纯化;
5、3’末端加dA,即3’末端加“A”,并纯化;
6、加UMI接头,具体步骤如下:
(1)接头制备,具体步骤按照图1三种策略依次进行介绍:
I、加“T”策略,即3’端加dT,具体步骤如下:
1)梯度退火,具体步骤包括:
a)分别按管壁mol参数加ddH2O(OAB buffer)稀释至100μM,然后分别取20μl等体积混合,具体如表11所示;
表11:
b)置于PCR仪进行退火反应;
c)反应完成后放置在-20℃保存,标记为pre-Mix-T。
2)dDTP延伸,具体步骤包括:
a)取35μl pre-Mix-T,加入试剂,体系如表12所示,吹打混匀:
表12:
pre-Mix-T | 35μl |
10×Blue buffer | 5μl |
dDTP(25mM each) | 5μl |
Klenow(3’→5’exo-)(5U/μl) | 5μl |
In Total | 50μl |
b)37℃孵育1h;
c)酒精纯化,用ddH2O溶出42ul。
3)加dT,具体步骤包括:
a)在上一步产物中,加入表13试剂。
表13:
上一步产物 | 42μl |
10×Blue buffer | 5μl |
dTTP(10mM) | 1μl |
Klenow(3’→5’exo-)(5U/μl) | 2μl |
In Total | 50μl |
b)37℃孵育30min。
4)酒精纯化,用ddH2O溶出30μl。取1μl稀释,用于检测2100;(详见附图4)
5)反应完成后-20℃保存,标记为dT-Adpater-T。
II加anchor策略,具体步骤如下:
1)梯度退火,具体步骤包括:
a)分别按管壁mol参数加ddH2O(OAB buffer)稀释至150uM,然后分别取12μl等体积混合,具体见表1;
b)置PCR仪进行退火反应;
c)反应完成后放置在-20℃保存,标记为pre-Mix-ac;
2)dDTP延伸,具体步骤包括:
a)取35μl pre-Mix-ac,加入试剂,体系如表2所示,吹打混匀:
b)37℃孵育1h;
c)酒精纯化,用ddH2O溶出50μl。
d)放置在-20℃保存,标记为ac-Adpater-1.T.1。
3)酒精纯化补nick,具体步骤包括:
a)取45μl ac-Adpater-1.T.1,加入以下试剂,体系如表14所示,吹打混匀;
表14:
ac-Adpater-1.T.1 | 45μl |
2x Rapid ligation buffer | 50μl |
T4 DNA Ligase(600U/μl) | 5μl |
In Total | 50μl |
b)37℃孵育30min。
4)酒精纯化,用ddH2O溶出30μl。取1μl稀释,用于检测2100;(详见附图5)
5)反应完成后-20℃保存,标记为ac-Adpater。
III、酶切策略,即Hphl酶切,包括短序列方案(S)和长序列方案(L),即PCR方案和PCR-Free方案,具体步骤如下:
1)梯度退火,具体步骤包括:
a)分别按管壁mol参数加ddH2O(OAB buffer)稀释至100uM,然后分别取20μl等体积混合;
短序列方案的引物如表15所示:
表15:
长序列方案的引物如表16所示:
表16:
b)置PCR仪进行退火反应;
c)反应完成后放置在-20℃保存,分别标记为pre-Mix-S和pre-Mix-L57。
2)dDTP延伸,具体步骤包括:
a)分别取pre-Mix-S和pre-Mix-L57,加入试剂,体系如表17所示,吹打混匀;
表17:
pre-Mix-S/pre-Mix-L57 | 35μl |
10×Blue buffer | 5μl |
dDTP(25mM each) | 5μl |
Klenow(3’→5’exo-)(5U/μl) | 5μl |
In Total | 50μl |
b)37℃孵育1h;
c)酒精纯化,用ddH2O溶出20μl。
d)放置在-20℃保存,分别标记为pre-Adpater-S和pre-Adpater-L57。
3)Hphl酶切,具体步骤包括:
a)a)分别取表18和表19所示体系混合;
表18:
表19:
b)b)37℃孵育16h,65℃孵育20min灭活。
4)酒精纯化,用ddH2O溶出30μl。取1μl稀释,用于检测2100;(详见附图6a和b)。
5)反应完成后-20℃保存,分别标记为Adpater-S和Adpater-L。
(2)连接制备好的UMI接头
(3)磁珠纯化
7、PCR富集(酶切的长序列方案即PCR-Free此步骤省略),磁珠纯化
8、文库pooling,即送检2100(详见图7的a、b、c、d)和QPCR定量,QPCR定量结果如表20所示,然后pooling等待上机测序。
表20:
9、PE测序
10、数据分析
限于篇幅,以下实施例仅以酶切长序列方法的样本为例进行说明。
1)对Hiseq2500平台测序下机的PE90的数据进行预处理并提取UMI序列。
2)剔除引物序列并比对(BWA(V0.5.9-r16);
3)对比对结果进行处理和统计,样本的累积深度分布图和深度分布图分别见附图8和附图9,限于篇幅仅展示UMI-LT57-1的结果.
4)对处理之后的比对结果进行排序(samtools(V 0.1.16));
5)构建单链一致性序列,该样本的UMI序列集分布图见附图10,限于篇幅仅展示UMI-LT57-1的结果;
6)对单链一致性序列进行排序(samtools(V 0.1.16));
7)构建双工一致性序列,构建结果以SAM文件格式存储,结果截图见附图11,限于篇幅仅展示UMI-LT57-1的结果;
8)排序,过滤并再次排序(samtools(V 0.1.16));
9)局部比对(GATK(V2.4-9));
10)突变信息分析,统计结果如表22-25所示,限于篇幅仅显示包含预设突变位点的区域。
表21:UMI-LT57-1突变信息分析结果表
Chr | Ref | Pos | Total_Depth | Eff_Depth | Total_Mut | A_Mut_Fre | T_Mut_Fre | C_Mut_Fre | G_Mut_Fre |
D_ref | C | 243 | 22612 | 22546 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | A | 244 | 22615 | 22450 | 2 | 0->0.0000 | 0->0.0000 | 1->0.0000 | 1->0.0000 |
D_ref | T | 245 | 22616 | 22410 | 1 | 1->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | G | 246 | 22617 | 22550 | 2 | 0->0.0000 | 1->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | A | 247 | 22620 | 22416 | 18128 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 18128->0.8087 |
D_ref | C | 248 | 22621 | 22533 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | A | 249 | 22612 | 22296 | 2 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 1->0.0000 |
D_ref | G | 250 | 22498 | 22440 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | C | 251 | 22403 | 22123 | 17802 | 0->0.0000 | 17802->0.8047 | 0->0.0000 | 0->0.0000 |
D_ref | G | 252 | 22393 | 22180 | 17846 | 0->0.0000 | 17845->0.8046 | 1->0.0000 | 0->0.0000 |
D_ref | C | 253 | 22391 | 22335 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
备注:确定的突变位点全部检出,加粗表示:分别是A247G,C251T,G252T;表格标题各列的含义:Chr表示参考序列标识符;Ref表示参考碱基;Pos表示参考序列上的位置信息;Total_Depth表示总深度;Eff_Depth表示有效深度;Total_Mut表示总突变碱基数;A_Mut_Fre表示发生A碱基突变的碱基数和该碱基数占有效深度的比率;T_Mut_Fre表示发生T碱基突变的碱基数和该碱基数占有效深度的比率;C_Mut_Fre表示发生C碱基突变的碱基数和该碱基数占有效深度的比率;G_Mut_Fre表示发生G碱基突变的碱基数和该碱基数占有效深度的比率。以下三个表格类同。
表22:UMI-LT57-2突变信息分析结果表
表23:UMI-LT57-3突变信息分析结果表
表24:UMI-LT57-4突变信息分析结果表
Chr | Ref | Pos | Total_Depth | Eff_Depth | Total_Mut | A_Mut_Fre | T_Mut_Fre | C_Mut_Fre | G_Mut_Fre |
D_ref | C | 243 | 5273 | 5252 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | A | 244 | 5273 | 5199 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | T | 245 | 5273 | 5193 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | G | 246 | 5286 | 5247 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | A | 247 | 5288 | 5187 | 1 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 1->0.0002 |
D_ref | C | 248 | 5288 | 5258 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | A | 249 | 5288 | 5161 | 1 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 1->0.0002 |
D_ref | G | 250 | 5288 | 5261 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
D_ref | C | 251 | 5288 | 5241 | 2 | 0->0.0000 | 2->0.0004 | 0->0.0000 | 0->0.0000 |
D_ref | G | 252 | 5288 | 5246 | 1 | 0->0.0000 | 1->0.0002 | 0->0.0000 | 0->0.0000 |
D_ref | C | 253 | 5288 | 5253 | 0 | 0->0.0000 | 0->0.0000 | 0->0.0000 | 0->0.0000 |
从分析结果可以看出,检出比例与样本混合比例有很好对应关系,当混合比例为10000:1时也能正确检出确定的突变位点。因此,本系统设计的UMI序列可以检测突变率为0.01%的突变。
工业实用性
本发明的方法,能够有效地应用于低频突变的检测和验证,可以检测的突变频率最低可以达到0.01%,可以有效应用于体细胞、干细胞等累积突变诱发的癌症、神经退行性疾病、心血管疾病等的早期筛查。
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
SEQUENCE LISTING
<110> 深圳华大基因股份有限公司
<120> DNA标签及其应用
<130> PIOC3168040PCN
<160> 12
<170> PatentIn version 3.3
<210> 1
<211> 12
<212> DNA
<213> Artificial
<220>
<223> 锚定序列
<400> 1
ctatgtcgat gc 12
<210> 2
<211> 58
<212> DNA
<213> Artificial
<220>
<223> pre-Mix-ac正向引物、pre-Mix-T正向引物、pre-Mix-S正向引物、pre-Mix-L57正向引物
<400> 2
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 3
<211> 62
<212> DNA
<213> Artificial
<220>
<223> pre-Mix-ac引物,H代表A、T或C
<400> 3
gcatcgacat aghhhtahht ahhhtahhag atcggaagag cacacgtctg aactccagtc 60
ac 62
<210> 4
<211> 100
<212> DNA
<213> Artificial
<220>
<223> DRB1*01:01:01在目标区域内的序列
<400> 4
atggtgtgtc tgaagctccc tggaggctcc tgcatgacag cgctgacagt gacactgatg 60
gtgctgagct ccccactggc tttggctggg gacacccgac 100
<210> 5
<211> 15
<212> DNA
<213> Artificial
<220>
<223> DRB1外显子Exome1正向引物的序列
<400> 5
ccctggaggc tcctg 15
<210> 6
<211> 15
<212> DNA
<213> Artificial
<220>
<223> DRB1外显子Exome1反向引物序列
<400> 6
cacccrcaat gtgca 15
<210> 7
<211> 62
<212> DNA
<213> Artificial
<220>
<223> pre-Mix-T引物序列,H代表A、T或C
<400> 7
ctcactcaah hathhhtcac chhathhhag atcggaagag cacacgtctg aactccagtc 60
ac 62
<210> 8
<211> 62
<212> DNA
<213> Artificial
<220>
<223> pre-Mix-S引物序列,H代表A、T或C
<400> 8
ctcactcaah hathhhtcac chhathhhag atcggaagag cacacgtctg aactccagtc 60
ac 62
<210> 9
<211> 94
<212> DNA
<213> Artificial
<220>
<223> pre-Mix-L57引物序列,H代表A、T或C
<400> 9
ctcactcaah hathhhtcac chhathhhag atcggaagag cacacgtctg aactccagtc 60
acgcgactcc atctcgtatg ccgtcttctg cttg 94
<210> 10
<211> 19
<212> DNA
<213> Artificial
<220>
<223> 标签序列,H代表A、T或C
<400> 10
hhathhhtca cchhathhh 19
<210> 11
<211> 16
<212> DNA
<213> Artificial
<220>
<223> 标签序列,H代表A、T或C
<400> 11
hhhtahhtah hhtahh 16
<210> 12
<211> 13
<212> DNA
<213> Artificial
<220>
<223> pre-Mix-ac引物
<400> 12
ctatgtcgat gct 13
Claims (19)
1.一种DNA标签,其特征在于,具有如下所示的序列:
HHATHHHTCACCHHATHHH;
其中,H代表A、T或C。
2.一种DNA接头,其特征在于,含有权利要求1所述的DNA标签。
3.根据权利要求2所述的DNA接头,其特征在于,所述接头具有粘性末端dT。
4.根据权利要求3所述的DNA接头,其特征在于,进一步包括:
锚定序列,所述锚定序列形成在所述粘性末端dT与所述标签序列之间。
5.根据权利要求4所述的DNA接头,其特征在于,所述锚定序列具有如SEQ ID NO:1所示的核苷酸序列。
6.根据权利要求3所述的DNA接头,其特征在于,所述粘性末端dT形成在所述DNA标签的3’末端。
7.根据权利要求5所述的DNA接头,其特征在于,所述接头是依次通过梯度退火处理、dDTP延伸处理以及酒精纯化补nick处理获得的。
8.根据权利要求3所述的DNA接头,其特征在于,进一步包括:
酶切序列,所述酶切序列形成在所述DNA标签的末端,
其中,
所述酶切序列携带适于产生粘性末端dT的限制性内切酶识别位点。
9.根据权利要求8所述的DNA接头,其特征在于,所述酶切序列为HphI特异性识别位点。
10.根据权利要求9所述的DNA接头,其特征在于,所述接头是依次通过梯度退火处理、dDTP延伸处理以及Hphl酶切处理获得的。
11.权利要求1所述的DNA标签或权利要求2-10任一项所述的DNA接头在检测微量变异中的用途。
12.一种构建测序文库的方法,其特征在于,将连接有权利要求2~10任一项所述的DNA接头的核酸分子进行富集处理,以便获得测序文库。
13.根据权利要求12所述的方法,其特征在于,所述核酸分子是通过如下方式获得的:
(1)将待测核酸样本进行PCR扩增,以便获得核酸样本片段;
(2)将所述核酸样本片段进行3’末端加A处理;
(3)将权利要求2~10任一项所述的DNA接头与步骤(2)所获得的核酸样本片段进行连接,以便获得所述连接有权利要求2~10任一项所述的DNA接头的核酸分子。
14.根据权利要求12所述的方法,其特征在于,所述富集处理是通过PCR富集实现的。
15.根据权利要求12所述的方法,其特征在于,所述富集处理之前,进一步包括对连接有权利要求2~10任一项所述的DNA接头的核酸分子进行纯化处理。
16.根据权利要求15所述的方法,其特征在于,所述纯化处理是通过磁珠纯化进行的。
17.一种测序文库,其特征在于,是通过权利要求12~16任一项所述的方法获得的。
18.一种测序方法,其特征在于,包括将权利要求17所述的测序文库进行测序和数据分析处理。
19.根据权利要求18所述的方法,其特征在于,所述测序是通过Hiseq2500平台进行的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310265316.2A CN116121243A (zh) | 2017-04-27 | 2017-04-27 | Dna标签及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/082281 WO2018195878A1 (zh) | 2017-04-27 | 2017-04-27 | Dna标签及其应用 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310265316.2A Division CN116121243A (zh) | 2017-04-27 | 2017-04-27 | Dna标签及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110168087A CN110168087A (zh) | 2019-08-23 |
CN110168087B true CN110168087B (zh) | 2023-11-14 |
Family
ID=63917812
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310265316.2A Pending CN116121243A (zh) | 2017-04-27 | 2017-04-27 | Dna标签及其应用 |
CN201780083033.9A Active CN110168087B (zh) | 2017-04-27 | 2017-04-27 | Dna标签及其应用 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310265316.2A Pending CN116121243A (zh) | 2017-04-27 | 2017-04-27 | Dna标签及其应用 |
Country Status (2)
Country | Link |
---|---|
CN (2) | CN116121243A (zh) |
WO (1) | WO2018195878A1 (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012008831A1 (en) * | 2010-07-13 | 2012-01-19 | Keygene N.V. | Simplified de novo physical map generation from clone libraries |
CN104946639A (zh) * | 2015-07-01 | 2015-09-30 | 益善生物技术股份有限公司 | 构建基因突变测序文库的引物和方法以及试剂盒 |
CN106048009A (zh) * | 2016-06-03 | 2016-10-26 | 人和未来生物科技(长沙)有限公司 | 一种用于超低频基因突变检测的标签接头及其应用 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10655173B2 (en) * | 2013-10-18 | 2020-05-19 | The Broad Institute, Inc. | Spatial and cellular mapping of biomolecules in situ by high-throughput sequencing |
KR102433825B1 (ko) * | 2013-12-30 | 2022-08-31 | 아트레카, 인크. | 핵산 바코드를 이용하는 단일 세포와 관련된 핵산의 분석 |
WO2017044893A1 (en) * | 2015-09-11 | 2017-03-16 | The Broad Institute, Inc. | Dna microscopy |
-
2017
- 2017-04-27 CN CN202310265316.2A patent/CN116121243A/zh active Pending
- 2017-04-27 WO PCT/CN2017/082281 patent/WO2018195878A1/zh active Application Filing
- 2017-04-27 CN CN201780083033.9A patent/CN110168087B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012008831A1 (en) * | 2010-07-13 | 2012-01-19 | Keygene N.V. | Simplified de novo physical map generation from clone libraries |
CN104946639A (zh) * | 2015-07-01 | 2015-09-30 | 益善生物技术股份有限公司 | 构建基因突变测序文库的引物和方法以及试剂盒 |
CN106048009A (zh) * | 2016-06-03 | 2016-10-26 | 人和未来生物科技(长沙)有限公司 | 一种用于超低频基因突变检测的标签接头及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN110168087A (zh) | 2019-08-23 |
WO2018195878A1 (zh) | 2018-11-01 |
CN116121243A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021200391B2 (en) | Differential tagging of RNA for preparation of a cell-free DNA/RNA sequencing library | |
US11725241B2 (en) | Compositions and methods for identification of a duplicate sequencing read | |
Salk et al. | Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations | |
US20220033901A1 (en) | Universal sanger sequencing from next-gen sequencing amplicons | |
EP3763825B1 (en) | High multiplex pcr with molecular barcoding | |
CN106048009B (zh) | 一种用于超低频基因突变检测的标签接头及其应用 | |
CN111808854B (zh) | 带有分子条码的平衡接头及快速构建转录组文库的方法 | |
WO2019144582A1 (zh) | 用于检测基因突变和已知、未知基因融合类型的高通量测序靶向捕获目标区域的探针和方法 | |
CN111471754B (zh) | 一种通用型高通量测序接头及其应用 | |
EP3702457A1 (en) | Reagents, kits and methods for molecular barcoding | |
US20220364169A1 (en) | Sequencing method for genomic rearrangement detection | |
WO2018148289A2 (en) | Duplex adapters and duplex sequencing | |
JP2015500012A (ja) | 組成物中のrnaを特徴づける方法およびキット | |
CN113373524A (zh) | 一种ctDNA测序标签接头、文库、检测方法和试剂盒 | |
US20180100180A1 (en) | Methods of single dna/rna molecule counting | |
CN110168087B (zh) | Dna标签及其应用 | |
CN107406891A (zh) | Pcr方法 | |
CN114774522A (zh) | 一种高保真测序文库构建的方法、试剂盒及应用 | |
CN114350782A (zh) | 一种基因突变位点的定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |