CN114507707B - 一种富集目标区域再酶切构建单倍型的方法 - Google Patents
一种富集目标区域再酶切构建单倍型的方法 Download PDFInfo
- Publication number
- CN114507707B CN114507707B CN202011276075.4A CN202011276075A CN114507707B CN 114507707 B CN114507707 B CN 114507707B CN 202011276075 A CN202011276075 A CN 202011276075A CN 114507707 B CN114507707 B CN 114507707B
- Authority
- CN
- China
- Prior art keywords
- nucleic acid
- target nucleic
- guide sequence
- acid region
- haplotype
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 102000054766 genetic haplotypes Human genes 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001976 enzyme digestion Methods 0.000 title claims abstract description 15
- 239000012634 fragment Substances 0.000 claims abstract description 41
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 40
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 35
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 35
- 238000012163 sequencing technique Methods 0.000 claims abstract description 28
- 108091008146 restriction endonucleases Proteins 0.000 claims abstract description 17
- 238000003776 cleavage reaction Methods 0.000 claims description 21
- 230000007017 scission Effects 0.000 claims description 20
- 108020004414 DNA Proteins 0.000 claims description 16
- 230000003321 amplification Effects 0.000 claims description 11
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 11
- 230000029087 digestion Effects 0.000 claims description 4
- 239000000872 buffer Substances 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 102000053602 DNA Human genes 0.000 claims description 2
- 108020004682 Single-Stranded DNA Proteins 0.000 claims description 2
- 230000027455 binding Effects 0.000 claims description 2
- 210000000349 chromosome Anatomy 0.000 description 15
- 239000011324 bead Substances 0.000 description 13
- 102000004190 Enzymes Human genes 0.000 description 8
- 108090000790 Enzymes Proteins 0.000 description 8
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 8
- 239000003153 chemical reaction reagent Substances 0.000 description 8
- 239000000047 product Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 7
- 108700028369 Alleles Proteins 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 239000006228 supernatant Substances 0.000 description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 238000012408 PCR amplification Methods 0.000 description 3
- 238000010790 dilution Methods 0.000 description 3
- 239000012895 dilution Substances 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 239000000499 gel Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 239000011543 agarose gel Substances 0.000 description 2
- 238000000137 annealing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010367 cloning Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000000839 emulsion Substances 0.000 description 2
- 239000000706 filtrate Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000003205 genotyping method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 239000012264 purified product Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 239000008223 sterile water Substances 0.000 description 2
- JKMHFZQWWAIEOD-UHFFFAOYSA-N 2-[4-(2-hydroxyethyl)piperazin-1-yl]ethanesulfonic acid Chemical compound OCC[NH+]1CCN(CCS([O-])(=O)=O)CC1 JKMHFZQWWAIEOD-UHFFFAOYSA-N 0.000 description 1
- 102000008682 Argonaute Proteins Human genes 0.000 description 1
- 108010088141 Argonaute Proteins Proteins 0.000 description 1
- 102000012410 DNA Ligases Human genes 0.000 description 1
- 108010061982 DNA Ligases Proteins 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 239000007995 HEPES buffer Substances 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000020584 Polyploidy Diseases 0.000 description 1
- 241000205156 Pyrococcus furiosus Species 0.000 description 1
- 108091036333 Rapid DNA Proteins 0.000 description 1
- 102000008579 Transposases Human genes 0.000 description 1
- 108010020764 Transposases Proteins 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 239000010836 blood and blood product Substances 0.000 description 1
- 229940125691 blood product Drugs 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 210000004700 fetal blood Anatomy 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000036438 mutation frequency Effects 0.000 description 1
- 230000009871 nonspecific binding Effects 0.000 description 1
- 230000002974 pharmacogenomic effect Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000011535 reaction buffer Substances 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/172—Haplotypes
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及分子生物学技术领域,特别是涉及一种富集目标区域再酶切构建单倍型的方法,所述方法包括以下步骤:1)富集目标核酸区域;2)设计仅能与目标核酸区域中的一个单倍体结合的向导序列,利用向导序列以及限制性核酸内切酶酶切步骤1)富集的目标核酸区域,分别回收酶切片段和/或未被酶切的片段;3)利用步骤2)回收的酶切片段和/或未被酶切的片段分别制备测序文库并测序,数据分析分别得到酶切片段和/或未被酶切的片段的核酸序列的SNP信息,即为目标核酸区域的单倍型信息。本发明的方法可以靶向基因组上一个较小区域且实验操作简便、成本低。
Description
技术领域
本发明涉及分子生物学技术领域,特别是涉及一种富集目标区域再酶切构建单倍型的方法。
背景技术
人是二倍体生物,即含有两组染色体,单组染色体即为单倍体。在单倍体中,紧密连锁的多个等位基因的线性组合,每种组合方式即为一种单倍型。单倍型可以由多个SNP位点构成,包含丰富的遗传信息,研究单倍型比单个SNP位点具有更好的分析效果,更能有效反映出疾病的遗传机制,其在遗传病检测领域有着广泛的需求。
遗传信息的变异是所有基因组的共同特征,而单碱基对的差异,也称单核苷酸多态性(SNP)是变异中最常见的一种形式,占所有已知多态性的90%以上。SNP位点并不是独立遗传的,而是在染色体上成组地遗传。一般来说,一个SNP位点只有两种等位基因,因此又叫双等位基因。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据,因此被广泛用于群体遗传学研究和疾病相关基因的研究,在药物基因组学、诊断学和生物医学研究中起重要作用。
基因分型(Phasing)还称为基因定相、单倍体分型或单倍体构建。基因分型是指把二倍体(甚至是多倍体)基因组上的等位基因(包括杂合位点,例如SNP),按照其亲本正确地定位到父亲或者母亲的染色体上,最终使得所有来自同一个亲本的等位基因都能够排列在同一条染色体里。
目前单倍型分析技术主要分为两大类,间接推断法和直接实验法。间接推断法是借助计算机通过统计学方法,从参考基因组中推断出样本单倍型。随着新一代测序技术的快速发展,人们可以比较容易获得大量的基因组信息,这是间接推断法的基础。间接推断法根据研究对象的不同又可分为两类:群体推断法和家族推断法。群体推断法是通过构建一些关联群体的基因池并用统计学方法对预测结果进行分析推断样本的单倍型。如果群体中存在一些突变频率较低的个体,它受连锁不平衡程度的影响往往会被遗漏而无法获得其单倍型信息。家族推断法是根据同一家族众多个体的基因型信息对待测样本进行推断获得其单倍型信息,在使用前要确保同一家族中这些样本基因型信息的可靠性。总之,间接推断法需要依靠大量样本的支持,并不是针对个体样本的单倍型分析,准确性受到不同算法的影响较大。
直接实验法是指用单分子稀释、染色体微切割和流式分离法等特殊实验方法在一段有限的染色体区域或单染色体获得精确的单倍型信息。直接实验法又可分为两大类:稠密位点单倍型(Dense)法和稀疏位点单倍型(Sparse)法。
稠密位点单倍型法能精确检测到单染色体局部区域的单倍型,组装结果更完整,在染色体上的排布较密集,是目前最为常用的方法。它主要包括单分子稀释法(Single-molecule dilution)、长片段插入克隆法(Long-insert cloning)、保留邻近性转座酶测序法(Contiguity-preserving transposition sequencing,CPT-seq)、目标位点扩增(Targeted locus amplification,TLA)等。然而这些方法多是针对全基因组的单倍型组装,需要大量的测序数据,成本非常高,同时实验操作复杂,流程长,在数据分析阶段依赖如hapcut2这类软件的复杂算法。
而稀疏位点单倍型法能获得单染色体上几乎所有区域的单倍型信息,它们包括单染色体测序法(Single chromosome sequencing)、单倍型测序法(HaploSeq)、乳液PCR法(Emulsion PCR-based methods)等。但是获得的位点在染色体上的排布比较稀疏,有时不能准确定位该样本单倍型在染色体上的物理位置,甚至会遗漏一些位点。这些方法同样存在着实验操作复杂,涉及特殊的仪器设备,成本高等问题,且很难靶向较小区域的单倍型信息。
可见现有的方法(三代测序、TLA、10x Genmoics等)只能构建全基因组范围的单倍型,而且在数据分析阶段也都依赖复杂的生信算法,因此单倍型分析领域目前缺少一种可以靶向基因组上一个较小区域、且实验操作和数据分析均简便、成本低的技术方案。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种构建单倍型的方法,用于解决现有技术中的问题。
为实现上述目的及其他相关目的,本发明提供一种构建单倍型的方法,所述方法包括以下步骤:
1)富集目标核酸区域;
2)设计仅能与目标核酸区域中的一个单倍体结合的向导序列,利用向导序列以及限制性核酸内切酶酶切步骤1)富集的目标核酸区域,分别回收酶切片段和/或未被酶切的片段;
3)利用步骤2)回收的酶切片段和/或未被酶切的片段分别制备测序文库并测序,数据分析分别得到酶切片段和/或未被酶切的片段的核酸序列的SNP信息,即为目标核酸区域的单倍型信息。
所述向导序列满足以下条件中的一项或几项:
1)向导序列的长度为10nt~40nt;
2)向导序列的5’端第一个碱基为T;
3)杂合SNP位点对应向导序列的第8~14位;
4)与所述向导序列互补的核酸模板片段上仅有一个杂合SNP位点。
如上所述,本发明的构建单倍型的方法,具有以下有益效果:在单倍型研究的必须步骤即对目标基因所在区域进行富集的步骤中即可实现提高酶切特异性的目的,无需增加额外的实验步骤,方法简便且节约成本;可以靶向基因组上一个较小区域构建其单倍型,相对于现有的方法显著降低了实验操作难度和测序成本。单倍型构建的准确度高,无需复杂的生信分析算法,直接根据数据中杂合SNP两个等位基因的覆盖深度即可判断单倍型。
附图说明
图1显示为本发明构建单倍型的方法流程图。
图2显示为经过PfAgo酶切的结果图,其中1为PCR扩增产物,2为经过PfAgo酶切的产物,有两条明显的短片段,分别对应4891bp和5451bp两个片段。
图3显示为目标区域SNP的比例变化图。
具体实施方式
如图1所示,本发明提供一种构建单倍型的方法,所述方法包括以下步骤:
1)富集目标核酸区域;
2)设计仅能与目标核酸区域中的一个单倍体结合的向导序列,利用向导序列以及限制性核酸内切酶酶切步骤1)富集的目标核酸区域,分别回收酶切片段和/或未被酶切的片段;
3)利用步骤2)回收的酶切片段和/或未被酶切的片段分别制备测序文库并测序,数据分析分别得到酶切片段和/或未被酶切的片段的核酸序列的SNP信息,即为目标核酸区域的单倍型信息。
所述富集目标核酸区域的方法即从核酸的初始集合中选择性PCR扩增目标核酸区域。所述目标核酸区域为含有杂合SNP位点的区域。所述目标核酸区域中是否含有杂合SNP位点可以通过测序方法获知。
步骤1)中,所述目标核酸区域的最短长度可达5kb。所述目标核酸区域的最长长度取决于PCR扩增的长度,例如目标核酸区域的长度选自以下范围中的一个:5~10kb、10~15kb、15~20kb、20~25kb、25~30kb。
PCR扩增时设计的引物只要能够在PCR实施条件下特异性地识别各自的特异性识别区域(优选在单一的反应容器内使用的引物之间不发生退火及自退火)即可。对于各引物的长度而言,只要能够特异性地识别对应的特异性识别区域、且引物之间不发生杂交即可,没有特别限制。
在一种实施方式中,所述向导序列的对数为一对或多对。例如两对、三对、四对或更多对。当使用多对向导序列时,可以酶切多个基因。所述向导序列包括一条正链和一条负链。所述正链和负链均为5’端磷酸化的单链DNA。
设计仅能与目标核酸区域中的一个单倍体结合的向导序列,一种可行的方法是:设计的向导序列对应的核酸模板上仅有一个杂合SNP位点。该向导序列对应的核酸模板的杂合SNP位点可为野生型序列或突变型序列之中的任一。杂合SNP位点可以通过对包含目标核酸区域的核酸片段测序获得。具体的,例如当测序结果中,针对一个SNP位点的野生型或突变型占比接近50%时,可确定该SNP位点为杂合型SNP位点。
所述向导序列(或称guide序列)满足以下条件中的一项或几项:
1)正链和负链的长度均为10nt~40nt;
2)正链和负链的5’端第一个碱基为T;
3)杂合SNP位点对应向导序列的第8~14位;
所述向导序列的长度选自以下范围中的一种或几种:10~13nt、13~16nt、16~20nt、20~25nt、25~30nt、30~35nt或35~40nt。在一较佳实施方式中,所述向导序列长度优选为13nt~25nt。
正链和负链的5’端第一个碱基为T时,无论这个T是否与模板互补,均能提高限制性核酸内切酶酶活性。
在一较佳实施方式中,杂合SNP位点对应向导序列的第10~12号位置。在这个区间内,限制性核酸内切酶对guide非特异性结合的容错率更低,即限制性核酸内切酶的特异性更高。
向导序列对应的核酸模板上若有多个SNP位点会使guide的结合效率降低,导致限制性核酸内切酶的酶活性降低。
在一种实施方式中,步骤2)中酶切时的酶切体系中包括:目标核酸区域的扩增产物、限制性核酸内切酶、向导序列、缓冲液、水。
在一种实施方式中,以酶切体系的总体积为基准,所述酶切体系中扩增产物的浓度为4ng/μl~8ng/μl。优选的,扩增产物的浓度为5~7ng/μl。
在一种实施方式中,以酶切体系的总体积为基准,所述酶切体系中限制性核酸内切酶的终浓度为0.045~3.84μM。优选的,限制性核酸内切酶的终浓度为0.225-1.92μM。
在一种实施方式中,以酶切体系的总体积为基准,所述酶切体系中向导序列的正链和负链的终浓度分别为0.45μM~38.4μM。优选的,正链和负链的终浓度分别为2.25~19.2μM。
在一种实施方式中,酶切条件为85~99℃、10~15min,再将缓慢降至10℃。
所述限制性核酸内切酶是可以识别并附着特定的脱氧核苷酸序列,并对每条链中特定部位的两个脱氧核糖核苷酸之间的磷酸二酯键进行切割的一类酶。在一种实施方式中,所述限制性核酸内切酶为PfAgo。
PfAgo是一种从强烈炽热球菌提取出的Argonaute蛋白(PfAgo)构建而成的人工限制酶。用PfAgo特异性地切割基因组上的一个杂合位点(SNP),被切割的基因型所在的DNA序列发生断裂,而未被切割的基因型所在的DNA序列完整的被保留,对未被切割的DNA序列进行回收,可获得该杂合位点附近的单倍型信息。PfAgo的识别序列可达到16bp,但是这个长度在基因组上依然存在非常多的识别位置,直接对基因组进行切割会产生很多的非特异片段。发明人经过大量实验发现在酶切前先对目标核酸区域进行富集,可以极大改善切割非特异性片段的问题。
在一种实施方式中,测序文库的制备和测序的方法可采用本领域常用的方法。在一种实施方式中,使用illumina平台的Nextseq 500进行测序。
本领域技术人员均了解,数据分析可以采用现有软件的功能实现。例如现有的软件bwa,samtools,gatk。
数据分析时,针对一个杂合SNP,观察其酶切后突变型或野生型出现的比例相对其酶切前的比例发生的变化。具体的,可以统计酶切片段或未被酶切的片段中突变型基因测序时出现的次数(Alt Depth),再分别除以该位点各基因型出现次数的总和(TotalDepth),再乘以100%,得到一个Alt的占比,自然状态下,杂合SNP上Alt的占比接近50%,经过酶切后,Alt的占比发生变化,可能会大于50%或小于50%,考虑到测序带来的误差,通常认为一个区域内连续的几个SNP上的Alt的占比都超过60%或者低于40%,判定为该区域的单倍体被成功分离,由于酶切时仅切断二倍体中的其中一个单倍体,因此未被酶切的片段即为其中一个单倍体,而被酶切的片段构成另一个单倍体。同理,也可以按照上述方法统计野生型的占比进行数据分析。
以上数据分析方法无需复杂的生信分析算法,直接根据数据中杂合SNP两个等位基因的覆盖深度即可判断单倍型。
本申请的目标核酸区域来源于各种分离或获至对象的生物样本。例如羊水、血液或血液制品、脐带血、绒毛、脑脊液、脊髓液中的一种或几种。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
在进一步描述本发明具体实施方式之前,应理解,本发明的保护范围不局限于下述特定的具体实施方案;还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围;在本发明说明书和权利要求书中,除非文中另外明确指出,单数形式“一个”、“一”和“这个”包括复数形式。
当实施例给出数值范围时,应理解,除非本发明另有说明,每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义,本发明中使用的所有技术和科学术语与本技术领域技术人员通常理解的意义相同。除实施例中使用的具体方法、设备、材料外,根据本技术领域的技术人员对现有技术的掌握及本发明的记载,还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。
实施例1
1、目标区域扩增
测试所选择的酶切位点SNP所在位置为chr11:5220001,rs号为rs6578582,扩增区域为chr11:5215110-5225452。
所用试剂:TaKaRa LA Hot Start Version,货号:RR042Q。引物为生工生物工程(上海)股份有限公司合成。
引物序列:
F:5‘-GCTCTGGTAATCCCAAAAGGCTGATAGTC-3’(SEQ ID NO.1)
R:5‘-TCATTCCTCCTGTCTTGGGTTGTTCATC-3’(SEQ ID NO.2)
扩增体系:
试剂 | 体积/总量 |
TaKaRa LA Taq HS(5U/μl) | 0.5μl |
10×LA PCR Buffer II(Mg2+plus) | 5μl |
dNTP Mixture(2.5mM each) | 8μl |
DNA | 50ng |
引物(10μM) | 1μl |
水 | up to 50μl |
PCR反应条件:
2、酶切
本实施例所挑选标准品NA12878在人基因组chr11:5220001位置为杂合基因型T/C,即其中一个单倍体基因型为T/A型,另一个单倍体基因型为C/G。针对其中一个单倍体T/A设计Guide序列。DNA Guide序列如下:
Guide-Top:5‘-TTGCATAGTGTTGTAC-3‘(SEQ ID NO.3)
Guide-Down:5‘-TTCAGGTACGAAACTA-3’(SEQ ID NO.4)
根据酶切位点和PCR的扩增区域,理论上酶切产生的片段如下表:
富集区域起始/结束位置 | 酶切位置 | 酶切后产生片段长度 |
chr11:5215110 | chr11:5220001 | 4891bp |
chr11:5225452 | chr11:5220001 | 5451bp |
所用试剂:PfAgo(45μM),10x Reaction Buffer(20mM HEPES,250mM NaCl,0.5mMMnCl2),DNA Guide。
DNA Guide由生工生物工程(上海)股份有限公司合成。
酶切体系:
酶切条件:
温度 | 时间 |
87℃ | 15min |
10℃ | 缓慢降温至10℃ |
酶切结果如图2所示。
3、片段回收
使用胶回收试剂盒分别对步骤2中的2号孔的10k的片段及5k附近的两个片段进行回收。
所用试剂:TaKaRa MiniBEST Agarose Gel DNA Extraction Kit Ver.4.0,货号:9762。
在紫外灯下切出含有10k及5k附近的琼脂糖凝胶,用纸巾吸尽凝胶表面液体。
称量胶块重量,以1mg=1μl进行计算,向胶块加入等质量体积的Buffer GM体积,均匀混合后室温溶解胶块。
当凝胶完全溶解后,将全部溶液转移至Spin Column中,12000rpm离心1min,弃滤液。
将700ul的Buffer WB加入Spin Column中,12000rpm离心30s,弃滤液。重复此步骤1次。
将Spin Column进行12000rpm离心1min,除去残留的Buffer WB。
将Spin Column置于1.5ml离心管中,在Spin Column膜中央加入30ul灭菌水,室温静置1min。
室温12000rpm离心1min洗脱DNA。
4、二代测序文库制备
所用试剂:YEASEN HieffFast-PaceTM DNA Fragmentation Reagent快速片段化/末端修复/A尾添加模块,货号:12609ES24;
YEASEN HieffFast-Pace DNA Ligation Module快速DNA连接模块,货号:12607ES08;
YEASEN HieffDNA Selection Beads分选磁珠Kapa HiFi Hot StartReady Mix,货号:KK2602。
快速片段化/末端修复/A尾反应体系:
反应条件:
温度 | 时间 |
4℃ | 1min |
30℃ | 18min |
72℃ | 20min |
4℃ | ∞ |
接头连接反应体系:
试剂 | 体积 |
DNA | 60ul |
5x Fast-Pace Ligation Buffer | 20μl |
Fast Pace T4 DNA Ligase | 5μl |
DNA Adapter | 1μl |
水 | up to 100ul |
反应条件:
温度 | 时间 |
20℃ | 15min |
磁珠纯化:
向连接产物所在离心管中加入100μl磁珠,室温孵育5min。将离心管置于磁力架上直至溶液澄清,用移液器吸弃上清。将离心管保持在磁力架上,加入80%乙醇洗涤磁珠后用移液器吸弃上清,重复此步骤一次,切勿干扰到磁珠。用移液器吸弃残留的80%乙醇,室温晾干磁珠。将离心管从磁力架上取下,加入25μl灭菌水重悬浮磁珠,室温孵育2min。将离心管置于磁力架上直至溶液澄清,用移液器转移全部上清至新的离心管,获得纯化产物。
文库扩增体系:
试剂 | 体积 |
DNA | 24μl |
2x Kapa HiFi Hot Start Reaction Mix | 25μl |
Primer | 1μl |
反应条件:
文库纯化:
向连接产物所在离心管中加入50μl磁珠,室温孵育5min。将离心管置于磁力架上直至溶液澄清,用移液器吸弃上清。将离心管保持在磁力架上,加入80%乙醇洗涤磁珠后用移液器吸弃上清,重复此步骤一次,切勿干扰到磁珠。用移液器吸弃残留的80%乙醇,室温晾干磁珠。将离心管从磁力架上取下,加入30ul灭菌水重悬浮磁珠,室温孵育2min。将离心管置于磁力架上直至溶液澄清,用移液器转移全部上清至新的离心管,获得纯化产物。
5、二代测序
使用illumina平台的Nextseq 500进行测序,每个样本数据量50Mbps。
6、单倍型分析
标准品NA12878在目标区域的所有杂合SNP点的信息如下表,数据参考自HapMap/1000Genomes CEU female NA12878:
Ref代表野生基因型,即自然界人群中最高频率的表型,Alt代表突变型,即相对于野生型突变而来的基因型。Depth即测序平台测到的该基因型的次数,当野生型和突变型测到的次数接近1:1时,即认为该点为杂合SNP点。0代表野生型,1代表突变型,”|”两边分别构成一种单倍型。
经过酶切实验后,10k片段相同位点的杂合SNP信息,如下表:
位置 | Ref | Ref Depth | Alt | Alt Depth | Total Depth |
chr11:5216780 | A | 614 | G | 1556 | 2173 |
chr11:5217884 | C | 665 | G | 1982 | 2650 |
chr11:5217920 | C | 1993 | T | 658 | 2652 |
chr11:5219224 | T | 523 | G | 1066 | 1591 |
chr11:5219262 | G | 639 | A | 1762 | 2402 |
chr11:5220001 | T | 228 | C | 1076 | 1305 |
chr11:5221132 | G | 2168 | A | 4434 | 6605 |
chr11:5221645 | C | 2229 | G | 4960 | 7199 |
chr11:5221825 | G | 1679 | A | 3740 | 5423 |
chr11:5222215 | C | 415 | T | 842 | 1258 |
chr11:5222379 | G | 567 | A | 1299 | 1866 |
chr11:5222992 | T | 1255 | C | 2848 | 4103 |
chr11:5223435 | T | 122 | C | 297 | 419 |
chr11:5223750 | T | 539 | C | 1210 | 1751 |
chr11:5223822 | C | 556 | T | 1098 | 1655 |
chr11:5223871 | C | 612 | G | 1225 | 1840 |
chr11:5224660 | G | 744 | T | 1937 | 2685 |
chr11:5224733 | C | 1475 | T | 3101 | 4578 |
chr11:5224783 | G | 1658 | T | 3510 | 5175 |
chr11:5225120 | G | 1700 | C | 3231 | 4937 |
经过酶切后5k附近片段相同位点的杂合SNP信息,如下表:
将3组数据中的Alt Depth除以Total Depth,计算出Alt Depth占Total Depth比例并进行对比,获得如下结果,0代表野生型,1代表突变型:
根据比例做图,结果如图3所示。
最终获得单倍型如下:
/>
实验结果:
目标区域共计20个SNP,在10k片段当中,19个杂合子的Alt Depth占Total Depth比例发生明显提高,1个杂合子(chr11:5217920)Alt Depth占Total Depth比例发生明显下降。5k片段当中,19个杂合子Alt Depth占Total Depth比例发生明显下降,1个杂合子(chr11:5217920)Alt Depth占Total Depth比例发生明显提高。酶切产生的片段(5k)和未被酶切片段(10k)构成两个单倍型,且与原始数据结果一致,证明本技术方案可以有效富集人基因组目标区域两个单倍体,构建该目标区域两个单倍型。
以上的实施例是为了说明本发明公开的实施方案,并不能理解为对本发明的限制。此外,本文所列出的各种修改以及发明中方法的变化,在不脱离本发明的范围和精神的前提下对本领域内的技术人员来说是显而易见的。虽然已结合本发明的多种具体优选实施例对本发明进行了具体的描述,但应当理解,本发明不应仅限于这些具体实施例。事实上,各种如上所述的对本领域内的技术人员来说显而易见的修改来获取发明都应包括在本发明的范围内。
序列表
<110> 上海韦翰斯生物医药科技有限公司
<120> 一种富集目标区域再酶切构建单倍型的方法
<160> 4
<170> SIPOSequenceListing 1.0
<210> 1
<211> 29
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
gctctggtaa tcccaaaagg ctgatagtc 29
<210> 2
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
tcattcctcc tgtcttgggt tgttcatc 28
<210> 3
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
ttgcatagtg ttgtac 16
<210> 4
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
ttcaggtacg aaacta 16
Claims (10)
1.一种构建单倍型的方法,其特征在于,所述方法包括以下步骤:
1)用PCR扩增目标核酸区域;
2)设计仅能与目标核酸区域中的一个单倍体结合的一对向导序列,其中向导序列包括正链和负链,利用向导序列以及限制性核酸内切酶PFAgo酶切步骤1)用PCR扩增的目标核酸区域,分别回收酶切片段和/或未被酶切的片段;
3)利用步骤2)回收的酶切片段和/或未被酶切的片段分别制备测序文库并测序,数据分析分别得到酶切片段和/或未被酶切的片段的核酸序列的SNP信息,即为目标核酸区域的单倍型信息;
与所述向导序列互补的核酸模板片段上仅有一个杂合SNP位点;
杂合SNP位点对应向导序列的第10~12位。
2.根据权利要求1所述的方法,其特征在于,所述向导序列满足以下条件中的一项或几项:
1)所述正链和负链均为5’端被磷酸化的单链DNA;
2)所述向导序列的长度为13nt~25nt。
3.根据权利要求2所述的方法,其特征在于,所述向导序列的正链和负链的5’端第一个碱基均为T。
4.根据权利要求1所述的方法,其特征在于,步骤2)中酶切时的酶切体系中包括:目标核酸区域的扩增产物、限制性核酸内切酶PfAgo、向导序列和缓冲液。
5.根据权利要求4所述的方法,其特征在于,以酶切体系的总体积为基准,所述酶切体系中扩增产物的浓度为4ng/μl~8 ng/μl。
6.根据权利要求5所述的方法,其特征在于,所述扩增产物的浓度为5~7 ng/μl。
7.根据权利要求4所述的方法,其特征在于,以酶切体系的总体积为基准,所述酶切体系中限制性核酸内切酶PfAgo的终浓度为0.045~3.84μM。
8.根据权利要求7所述的方法,其特征在于,所述限制性核酸内切酶PfAgo的终浓度为0.225-1.92μM。
9.根据权利要求4所述的方法,其特征在于,以酶切体系的总体积为基准,所述酶切体系中向导序列的正链和负链的终浓度分别为0.45μM~38.4μM。
10.根据权利要求9所述的方法,其特征在于,所述正链和负链的终浓度分别为2.25~19.2μM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276075.4A CN114507707B (zh) | 2020-11-16 | 2020-11-16 | 一种富集目标区域再酶切构建单倍型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276075.4A CN114507707B (zh) | 2020-11-16 | 2020-11-16 | 一种富集目标区域再酶切构建单倍型的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114507707A CN114507707A (zh) | 2022-05-17 |
CN114507707B true CN114507707B (zh) | 2024-05-31 |
Family
ID=81547035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011276075.4A Active CN114507707B (zh) | 2020-11-16 | 2020-11-16 | 一种富集目标区域再酶切构建单倍型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114507707B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104357563A (zh) * | 2014-10-30 | 2015-02-18 | 东南大学 | 二次dna片段化的基因组单倍型高通量测序方法 |
CN105368930A (zh) * | 2015-10-13 | 2016-03-02 | 中国农业大学 | 测序基因分型技术中测序酶切组合的确定方法 |
CN108138164A (zh) * | 2015-08-21 | 2018-06-08 | 孟山都技术公司 | 基因组基因座的增强的重组 |
CN109880891A (zh) * | 2019-04-22 | 2019-06-14 | 上海交通大学 | 基于核酸酶偶联pcr原理富集低丰度dna突变的检测技术体系及应用 |
CN110218781A (zh) * | 2019-04-23 | 2019-09-10 | 河北医科大学 | 21个微单倍型位点的复合扩增体系、下一代测序分型试剂盒及分型方法 |
-
2020
- 2020-11-16 CN CN202011276075.4A patent/CN114507707B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104357563A (zh) * | 2014-10-30 | 2015-02-18 | 东南大学 | 二次dna片段化的基因组单倍型高通量测序方法 |
CN108138164A (zh) * | 2015-08-21 | 2018-06-08 | 孟山都技术公司 | 基因组基因座的增强的重组 |
CN105368930A (zh) * | 2015-10-13 | 2016-03-02 | 中国农业大学 | 测序基因分型技术中测序酶切组合的确定方法 |
CN109880891A (zh) * | 2019-04-22 | 2019-06-14 | 上海交通大学 | 基于核酸酶偶联pcr原理富集低丰度dna突变的检测技术体系及应用 |
CN110218781A (zh) * | 2019-04-23 | 2019-09-10 | 河北医科大学 | 21个微单倍型位点的复合扩增体系、下一代测序分型试剂盒及分型方法 |
Non-Patent Citations (4)
Title |
---|
Discovery and genotyping of structural variation from long-read haploid genome sequence data;John Huddleston等;《Genome Res》;第27卷(第5期);第677-685页 * |
一种单核苷酸多态性的单倍型分析技术;苏智广等;《遗传学报》;第32卷(第3期);第243-247页 * |
单倍型分析技术研究进展;李双双等;《生物工程学报》;第34卷(第6期);第852-861页 * |
鸡lmbr1基因外显子16的SNP检测和单倍型分析;黄艳群等;《畜牧兽医学报》;第38卷(第8期);标题、第1.2、1.3、2.2、2.3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN114507707A (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200385810A1 (en) | Methods for determining fraction of fetal nucleic acids in maternal samples | |
EP2663655B1 (en) | Paired end random sequence based genotyping | |
EP2971182B1 (en) | Methods for prenatal genetic analysis | |
CN105039313B (zh) | 用于多态性的高通量鉴定和检测的策略 | |
US10662474B2 (en) | Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing | |
US11339431B2 (en) | Methods and compositions for enrichment of target polynucleotides | |
US20110033862A1 (en) | Methods for cell genotyping | |
US20110218115A1 (en) | Test probes, common oligonucleotide chips, nucleic acid detection method, and their uses | |
US11993811B2 (en) | Systems and methods for identifying and quantifying gene copy number variations | |
US20210180050A1 (en) | Methods and Compositions for Enrichment of Target Polynucleotides | |
JP2014507164A (ja) | ハプロタイプ決定のための方法およびシステム | |
WO2014101655A1 (zh) | 一种高通量核酸分析方法及其应用 | |
US20150065358A1 (en) | Method for verifying bioassay samples | |
CN114507707B (zh) | 一种富集目标区域再酶切构建单倍型的方法 | |
US7794982B2 (en) | Method for identifying gene with varying expression levels | |
CN114250279B (zh) | 一种单倍型的构建方法 | |
Alizadeh et al. | A primate-specific (GCC) repeat in SMAD9 undergoes natural selection in humans and harbors unambiguous genotypes in late-onset neurocognitive disorder. | |
US20200362408A1 (en) | Multiplexed Method for Detecting DNA Mutations and Copy Number Variations | |
CN110938681A (zh) | 等位基因核酸富集和检测方法 | |
KR101663171B1 (ko) | 다운증후군 진단을 위한 바이오마커 및 그의 용도 | |
Amr et al. | Targeted Hybrid Capture for Inherited Disease Panels | |
Al-Mamoori et al. | The Efficiency of the Alu Insertion Sequence in Discrimination Among some Individuals | |
CN117965748A (zh) | 一种基于snv和indel甄别同卵双胞胎的鉴定方法 | |
CN116334110A (zh) | 一种abo基因767位碱基替换诱导的剪接变体及应用 | |
CN117940581A (zh) | 核酸的富集和检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |