CN111564182B - 一种高重复原鮡属鱼类的染色体级别组装的方法 - Google Patents
一种高重复原鮡属鱼类的染色体级别组装的方法 Download PDFInfo
- Publication number
- CN111564182B CN111564182B CN202010398939.3A CN202010398939A CN111564182B CN 111564182 B CN111564182 B CN 111564182B CN 202010398939 A CN202010398939 A CN 202010398939A CN 111564182 B CN111564182 B CN 111564182B
- Authority
- CN
- China
- Prior art keywords
- genome
- chromosome
- dna
- fish
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000251468 Actinopterygii Species 0.000 title claims abstract description 30
- 210000000349 chromosome Anatomy 0.000 title claims abstract description 30
- 206010033307 Overweight Diseases 0.000 title description 3
- 238000011084 recovery Methods 0.000 title description 3
- 238000012163 sequencing technique Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000011835 investigation Methods 0.000 claims abstract description 4
- 239000011324 bead Substances 0.000 claims description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 7
- 238000011002 quantification Methods 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 3
- 102000004533 Endonucleases Human genes 0.000 claims description 2
- 108010042407 Endonucleases Proteins 0.000 claims description 2
- 241001072909 Salvia Species 0.000 claims description 2
- 235000017276 Salvia Nutrition 0.000 claims description 2
- 230000002759 chromosomal effect Effects 0.000 claims 2
- 239000012634 fragment Substances 0.000 abstract description 3
- 238000007400 DNA extraction Methods 0.000 abstract description 2
- 238000009395 breeding Methods 0.000 abstract description 2
- 230000001488 breeding effect Effects 0.000 abstract description 2
- 230000002068 genetic effect Effects 0.000 abstract description 2
- 241000218691 Cupressaceae Species 0.000 abstract 1
- 238000001712 DNA sequencing Methods 0.000 abstract 1
- 108020004414 DNA Proteins 0.000 description 32
- 102000053602 DNA Human genes 0.000 description 32
- 241000894007 species Species 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 10
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 239000002096 quantum dot Substances 0.000 description 5
- 230000033616 DNA repair Effects 0.000 description 3
- 210000000683 abdominal cavity Anatomy 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012268 genome sequencing Methods 0.000 description 3
- 210000004185 liver Anatomy 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 241001417864 Sisoridae Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000005119 centrifugation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000008188 pellet Substances 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 208000035719 Maculopathy Diseases 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 241001560086 Pachyrhizus Species 0.000 description 1
- 206010035148 Plague Diseases 0.000 description 1
- 241000186429 Propionibacterium Species 0.000 description 1
- 241000252496 Siluriformes Species 0.000 description 1
- 239000007983 Tris buffer Substances 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003149 assay kit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 201000006824 bubonic plague Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008303 genetic mechanism Effects 0.000 description 1
- 230000031142 liver development Effects 0.000 description 1
- 208000002780 macular degeneration Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000012146 running buffer Substances 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
发明涉及一种高重复原鮡属鱼类的染色体级别组装的方法,其步骤为:1)基于短片段的序列进行基因组调查;2)大于200kb的高质量DNA提取;3)DNA测序文库构建及其纳米孔测序;4)对于测序结果进行组装获得染色体级别组装结果。本发明相对于以往方法测序深度只有五分之一,可以组装到染色体完成图,组装结果提高10倍以上。本发明在开发原鮡属鱼类的基因组上具有重要意义,进一步对于降低高原原鮡属的成本、获得高质量遗传资源、研究高原鱼类的适应性进而对养殖推广具有重要意义。
Description
【技术领域】
本发明涉及染色体组装技术,具体为通过长序列对一种高重复原鮡属鱼类的染色体级别组装的方法。
【背景技术】
染色体(英语:chromosome)是真核生物特有的构造,主要由双股螺旋的去氧核糖核酸和5种被称为组蛋白的蛋白质构成,其中双股螺旋的去氧核糖核酸(DNA)是基因的主要载体。基因决定了一个物种的各个方面,从生老病死,到环境适应,到物种差异,种内差异。对于一个物种的基因组测序可以解释这个物种的所有信息,知道信息后后就可以改造物种,如进行人工选择育种,转基因等。全基因组测序是对未知基因组序列ATCG四种碱基组合进行准确测定,即所谓的物种进行个体的基因组测序。一般物种的染色体都会大于50Mb,但是目前的测序技术只能读取150bp–100kb,只有很少的序列能够达到1Mbp,所有需要一个组装过程(assembly)。
原鮡属鱼类属于鲇形目(Siluriformes)、鮡科(Sisoridae)、原鮡属(Glyptosternum),分布于青藏高原腹心地带雅鲁藏布江中游,海拔2800-4200米范围内,此类别的鱼类是研究鱼类高原适应的重要种植资源,同时因为高原环境的特殊性也分化出特别多的表型,如黑斑原鮡,该鱼腹腔内除具有正常肝脏外,在皮肤与体壁肌肉之间分生出一个与腹腔内肝脏连接的相同功能的组织—腹腔外肝,但目前对于黑斑原鮡特殊的肝脏发育分子机制及其在适应性进化中的生理功能变化情况尚不清楚。黑斑原鮡参考基因组的公布,将会为研究鱼类高海拔适应性机制以及高原鱼类种质资源保护提供了理论支持。
然而原鮡属鱼类比普通的基因组大,有750Mb左右,杂合度较高,大于0.5%,研究表明黑斑原鮡有近期的重复序列扩张,重复序列达到了基因组的34%以上,重复序列是基因组上高度相似的区域,基因组的组装是根据相邻区域的重叠(overlap)将测序的短序列还原为染色体序列,然而有了重复序列问题,构建重叠群的过程中会将染色体上不在一起的区域进行错误的组装,主要是由于较多重复区域的DNA和较大结构变异的存在,采用短读长技术难以克服。
因此需要一种新的测序组装方法,采用更长的测序读长,使基因组以更少、更长的片段进行测序,重叠更佳,进而使基因组组装更加便捷。
【发明内容】
为了解决背景技术利用短读长技术进行组装出现的问题,本发明提供一种新的测序组装方法,能够更得到更长的测序读长,测序readN50达到100kb以上,同时通过调试的组装参数得到染色体水平的组装结果。
本发明解决其技术问题所采用的技术方案是:
一种高重复原鮡属鱼类的染色体级别组装的方法,包括如下步骤:
1.基因组调查:搜集物种相关信息,包括基因组大小、重复序列、及其杂合度,从数据库查到;
进一步地,所述步骤1选用Kmer估计基因组大小的大小,然后综合评价获得基因组大小;
进一步地,所述步骤1选取短片段数据100倍基因组深度,基于GenomeScope给出基因组大小,重复序列,杂合度等信息。
2.基因组DNA提取:选用Qigen可以提取高质量DNA的试剂盒,提取的DNA长度在200kb左右,DNA总含量大于10ug。
3.测序文库构建及测序获得读长序列:将获得的高质量DNA,通过转座子内切酶进行打断,控制DNA在2M以内。然后进行修复,洗脱,构建文库,加入测序接头进行测序,并获得读长序列。
进一步地,所述步骤3通过荧光定量法(Qubit)定量1μl等分试样,保留500ng以上的DNA;
进一步地,所述步骤3中使用基因组DNA的标准快速适配器(RAD002)(SQK-RAD002快速测序试剂盒,ONT)协议,修改并省略了标准加载珠,避免构建文库与粘性文库混合时结块过多;
优选地,所述步骤3将构建好的DNA文库使用R9/R9.4流通池(FLO-MIN105/FLO-MIN106,ONT)对MinION进行测序。使用牛津纳米孔技术公司的MinKNOW软件控制MinION测序。根据fast5文件使用Albacor软件获得高质量的碱基,同时过滤掉长度小于100kb的序列。
优选地,步骤3测序所得序列质量平均值大于10。
4.染色体级别的基因组组装:对于获得的高质量的序列使用序列比对软件进行比对,选取20X最长的大于50kb的序列,并计算其比对结果,然后构建重叠群,将重叠群的结果输入到组装软件,通过使用为测试优化的数据和参数可以得到染色体级别的组装结果;
进一步地,所述步骤4中所述序列比对软件为GraphMap,使用grapmap ower模式计算其比对结果;
进一步地,所述步骤4中20X最长的大于100kb的序列,使用grapmap ower模式计算其比对结果,将重叠群的结果输入到组装软件canu,使用canu用于组装初始20倍覆盖率数据集,使用设定的优化参数可以得到染色体级别的组装结果;
优选地,所述步骤4中组装软件canu的优化测试参数为:canu-p asm-d asm=1ggridOptionsJobName=na12878nano”gridOptions=–时间72:00:00–partition norm”-nanopore-raw rel2*.fastq.gz corMinCoverage=0corMaxEvidenceErate=0.22errorRate=0.045。
其中,以上所述步骤1至步骤4基因组测序用的样品选自同一个体,组装过程如附图1所示。
本发明与现有技术相比的有益效果:
本发明提供的方法选用长序列测序,获得序列的平均长度大于100kb,测序成本低,相对于常规的100倍测序数据,仅需要20倍左右的数据,进而使基因组组装更加便捷;
本发明提供的方法,利用Canu的低覆盖率参数,最大可能地降低了错误率;
本发明提供的方法组装结果延续性好,不需要遗传图谱等技术连接组装结果,就可以获得染色体序列。通过该方法可以在2个月内构建一个高重复序列的的原鮡属鱼类的完成图,为后续该物种的遗传机制及高原适应性研究提供了一个低成本,高效率的技术;
本发明提供的方法可以有效克服原鮡属鱼类的所有高重复区域,通过测序组装直接获得染色体序列。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是原鮡属鱼类染色体水平组装说明图。
图2是原鮡属基因组调查kmer示意图。
【具体实施方式】
下面结合实施例对本发明作进一步的说明,但本发明并不局限于此实施例。本实施例利用该发明提供的一种高重复原鮡属鱼类的染色体级别组装的方法用于原鮡属的基因组组装发明。
实施例1:基因组调查
基于数据库(http://www.genomesize.com/)查询原鮡属的基因在700-1000Mb之间。选用Kmer估计基因组的大小,然后综合评价获得基因组大小。选取短片段数据100倍基因组深度,及测序70Gb的数据,基于GenomeScope给出基因组大小,重复序列,杂合度等信息,结果为:基因大小771.2Mb,重复序列45%,杂合度0.16%。
原鮡属基因组调查kmer示意图如附图2所示。
实施例2:基因组DNA的提取
a.使用QIAamp DNAmini试剂盒(Qiagen)从细胞中提取DNA。
b.鱼类血细胞以300g离心5分钟沉淀。将细胞重悬于200μlPBS中,并根据制造商的说明提取DNA。
c.通过在TapeStation 2200(安捷伦)的基因组ScreenTape上运行1μl来评估DNA质量,以确保DNA完整性数(DIN)>7(NA12878的值为9.3)。
d.在Qubit荧光计(Thermo Fisher)上使用dsDNAHS分析法评估DNA的浓度。
实施例3:测序文库构建及其测序
a.将1.5–2.5μg鱼类基因组DNA在以5,000–6,000r.p.m离心的Covaris g-TUBE中剪切。在Eppendorf5424(或等效产品)离心机中离心2×1分钟,在离心步骤之间将试管倒置。然后对于获得的DNA进行DNA修复(NEBNext FFPE DNA修复混合物,NEB M6630),而不对新鲜提取的DNA进行。
b.将8.5μl无核酸酶水(NFW),6.5μl FFPE修复缓冲液和2μlLFFPE DNA修复混合物添加到46μl剪切的DNA中。将混合物在20℃下温育15分钟,使用0.4x体积的AMPure XP珠粒(62μl)清洗,在室温下温和混合温育5分钟,用200μl新鲜的70%乙醇洗涤两次,沉淀将其干燥2分钟,并用46μlNFW或EB(10mM Tris pH 8.0)洗脱DNA。
c.通过荧光定量法(Qubit)定量1μl等分试样,以确保保留了≥1μgDNA。
d.然后通过添加7μl Ultra II End-Prep缓冲液,3μlUltra II End-Prep酶混合物和5μlNFW进行末端修复和dA-tailing(NEBNext Ultra II末端修复/dA-tailing模块)。将混合物在20℃下孵育10分钟,并在65℃下孵育10分钟。进行了1倍体积(60μl)的AMPureXP净化,并在31μlNFW中洗脱了DNA。通过荧光定量法(Qubit)定量1μl等分试样,以确保保留了≥700ng DNA。
e.然后通过向30μldA-中添加20μlAdapter Mix(SQK-LSK108 LigationSequencing Kit 1D,OxfordNanopore Technologies(ONT))和50μlNEB Blunt/TAMasterMix(NEB,目录号M0367)进行连接。尾DNA,轻轻混合并在室温下孵育10分钟。
f.通过添加0.4x体积(40μl)的AMPure XP珠粒,在室温下孵育5分钟,然后将沉淀物在140μlABB(SQK-LSK108)中重悬两次,来清除与衔接子连接的DNA。加入25μlELB(SQK-LSK108)并重悬珠子,在室温下孵育10分钟,再次沉淀珠子,然后将上清液(预测序混合物或PSM)转移到新的纯化的连接的DNA中,通过荧光定量法(Qubit)定量1μl等分试样,以确保保留了≥500ng DNA。
g.为了获得超长读段,对基因组DNA的标准快速适配器(RAD002)协议(SQK-RAD002快速测序试剂盒,ONT)进行了如下修改。用截断的P20移液器吸头操作,将约1μg/μl的Sambrook提取液中的16μlDNA放入0.2ml PCR管中,取出1μl以确认定量值。加入5μlFRM,并通过轻轻移液,并仅移动12μl的截止移液器吸头将其缓慢混合十次。混合后,将样品在30℃下孵育1分钟,然后在热循环仪上在75℃下孵育1分钟。此后,使用仅移动14μl十倍的截止尖端通过移液缓慢混合,加入1μlRAD和1μlBlunt/TA连接酶。然后将文库在室温下孵育30分钟,以连接RAD。为了加载库,将25.5μlRBF(带有燃料混合物的运行缓冲液)与27.5μlNFW混合,然后将其添加到库中。使用设置为75μl的P100截止尖端,通过缓慢移液五次来混合该文库。将该极粘的样品加载到“spot on”端口上,并通过毛细管作用进入流通池。由于与粘性文库混合时结块过多,因此从该协议中省略了标准加载珠。
h.构建好的DNA文库使用R9/R9.4流通池(FLO-MIN105/FLO-MIN106,ONT)对MinION进行测序。使用牛津纳米孔技术公司的MinKNOW软件控制MinION测序。所使用的软件的特定版本因运行而异,但可以通过检查数据集中的fast5文件来确定。根据fast5文件使用Albacor软件获得高质量的碱基,同时过滤掉长度小于100kb的序列。质量平均值大于10的序列才会用于后续的基因组组装。为了获得20倍的测序深度用于后续组装,我们测序15Gb的数据量为止。该结果获得read数目为5M,总数据量为20G,达到了基因组的20X覆盖度。
实施例4:染色体级别基因组组装
GraphMap是一种序列比对软件,它设计用于以非常高的灵敏度和准确性处理牛津纳米孔MinION 1d和2d测序读长,选取20倍基因组大小并且最长大于50kb的序列,使用grapmap ower模式计算其比对结果,然后构建重叠群,将重叠群的结果输入到组装软件Canu中,使用canu v1.4r8006(4a7090bd17c914f5c21bacbebf4add163e492d54)用于组装初始20倍覆盖率数据集:canu-p asm-d asm=1g gridOptionsJobName=na12878nano”gridOptions=–时间72:00:00–partition norm”-nanopore-raw rel2*.fastq.gzcorMinCoverage=0corMaxEvidenceErate=0.22errorRate=0.045。该参数是我们根据原鮡属的鱼类基因进行测试优化的,使用我们的数据和参数可以得到染色体级别的组装结果。这些是Canu文档中建议的低覆盖率参数,最大可能地降低错误率。在确定MinHash重叠算法由于读取中的系统错误而低估了错误率之后,将该特定参数减小以减少内存需求。手动降低为此偏差调整的最大重叠错误率阈值。组装花费了40K CPU小时(纠正为25K,组装为15K)。
该方法获得原鮡属鱼黑斑岩鮡鱼的24条染色体序列,基因组大小为772Mb,和预期结果一致,误差范围1%。
本发明并不仅仅限于说明书和实施方式中所描述,因此对于熟悉领域的人员而言可容易地实现另外的优点和修改,故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下,本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。
Claims (8)
1.一种高重复原鮡属鱼类的染色体级别组装的方法,其特性在于,包括如下步骤:
S1. 基因组调查:从数据库查到原鮡属鱼基因大小范围,结合Kmer估计基因组大小的大小,然后综合评价获得基因组大小;
S2. 基因组DNA 提取:使用DNA的试剂盒,提取DNA;
S3. 测序文库构建及测序获得长序列:用内切酶打断DNA,修复,洗脱,构建文库加入测序接头进行测序,获取长序列;
S4. 染色体级别的基因组组装:使用序列比对软件处理读长,选取20X最长的大于100kb的序列,计算其比对结果,构建重叠群后组装;
步骤S4中使用graphmap owler模式计算其比对结果,然后构建重叠群,将重叠群的结果输入到组装软件 Canu,使用Canu组装初始20倍覆盖率数据集,其参数为:canu -p asm -d asm = 1g gridOptionsJobName = na12878nano” gridOptions = –时间72:00:00 –partition norm” -nanopore-raw rel27* .fastq.gz corMinCoverage = 0corMaxEvidenceErate = 0.22 errorRate = 0.045。
2.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法,其特性在于所述步骤S1至步骤S4选用的样品选自同一个体。
3.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法,其特征在于所述步骤S1中,选取短片段数据100倍基因组深度,使用GenomeScope 评估基因组大小。
4.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法,其特征在于所述步骤S2中提取的DNA含量大于10ug。
5.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法,其特征在于所述步骤S3中通过荧光定量法定量1 µl等分试样,保留7500 ng 以上的DNA。
6.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法,其特征在于,所述步骤S3中,使用基因组DNA的标准快速适配器RAD002协议,修改并省略了标准加载珠。
7.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法,其特征在于所述步骤S3中过滤掉长度小于100kb的序列,取质量平均值大于10的序列。
8.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法,其特征在于所述步骤S4中使用GraphMap进行比对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010398939.3A CN111564182B (zh) | 2020-05-12 | 2020-05-12 | 一种高重复原鮡属鱼类的染色体级别组装的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010398939.3A CN111564182B (zh) | 2020-05-12 | 2020-05-12 | 一种高重复原鮡属鱼类的染色体级别组装的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111564182A CN111564182A (zh) | 2020-08-21 |
CN111564182B true CN111564182B (zh) | 2024-02-09 |
Family
ID=72074635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010398939.3A Active CN111564182B (zh) | 2020-05-12 | 2020-05-12 | 一种高重复原鮡属鱼类的染色体级别组装的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111564182B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012116658A2 (zh) * | 2011-03-02 | 2012-09-07 | 深圳华大基因科技有限公司 | 组装基因组序列的方法和装置 |
CN104017883A (zh) * | 2014-06-18 | 2014-09-03 | 深圳华大基因科技服务有限公司 | 组装基因组序列的方法和系统 |
WO2015149719A1 (zh) * | 2014-04-04 | 2015-10-08 | 深圳华大基因科技服务有限公司 | 杂合基因组处理方法 |
WO2017143585A1 (zh) * | 2016-02-26 | 2017-08-31 | 深圳华大基因研究院 | 对分隔长片段序列进行组装的方法和装置 |
CN108660197A (zh) * | 2017-04-01 | 2018-10-16 | 深圳华大基因科技服务有限公司 | 一种二代序列基因组重叠群的组装方法和系统 |
CN110999829A (zh) * | 2019-12-23 | 2020-04-14 | 西藏自治区农牧科学院水产科学研究所 | 一种黑斑原鮡鱼苗仿生态培育方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10777301B2 (en) * | 2012-07-13 | 2020-09-15 | Pacific Biosciences For California, Inc. | Hierarchical genome assembly method using single long insert library |
GB2519255B (en) * | 2013-02-01 | 2016-01-06 | Univ California | Methods for genome assembly and haplotype phasing |
CN103388025B (zh) * | 2013-07-10 | 2015-04-29 | 华中农业大学 | 基于克隆dna混合池的全基因组测序方法 |
WO2015200891A1 (en) * | 2014-06-26 | 2015-12-30 | 10X Technologies, Inc. | Processes and systems for nucleic acid sequence assembly |
US11728007B2 (en) * | 2017-11-30 | 2023-08-15 | Grail, Llc | Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly |
-
2020
- 2020-05-12 CN CN202010398939.3A patent/CN111564182B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012116658A2 (zh) * | 2011-03-02 | 2012-09-07 | 深圳华大基因科技有限公司 | 组装基因组序列的方法和装置 |
WO2015149719A1 (zh) * | 2014-04-04 | 2015-10-08 | 深圳华大基因科技服务有限公司 | 杂合基因组处理方法 |
CN104017883A (zh) * | 2014-06-18 | 2014-09-03 | 深圳华大基因科技服务有限公司 | 组装基因组序列的方法和系统 |
WO2017143585A1 (zh) * | 2016-02-26 | 2017-08-31 | 深圳华大基因研究院 | 对分隔长片段序列进行组装的方法和装置 |
CN108660197A (zh) * | 2017-04-01 | 2018-10-16 | 深圳华大基因科技服务有限公司 | 一种二代序列基因组重叠群的组装方法和系统 |
CN110999829A (zh) * | 2019-12-23 | 2020-04-14 | 西藏自治区农牧科学院水产科学研究所 | 一种黑斑原鮡鱼苗仿生态培育方法 |
Non-Patent Citations (7)
Title |
---|
Chromosome-level genome assembly of Triplophysa tibetana, a fish adapted to the harsh high-altitude environment of the Tibetan Plateau;Xuefen Yang 等;《Molecular Ecology Resources》;第19卷(第4期);1027-1036 * |
Comprehensive transcriptome data for endemic Schizothoracinae fish in the Tibetan Plateau;ChaoweiZhou 等;《scientific data》;1-8 * |
Effect of sequence depth and length in long-read assembly of the maize inbred NC358;Shujun Ou 等;《nature》;20200508;1-10 * |
The sequence and de novo assembly of Oxygymnocypris stewartii genome;Hai-Ping Liu 等;《scientific data》;1-11 * |
中国鮡科鱼类系统发育、生物地理及高原适应进化研究;马秀慧;《中国博士学位论文全文数据库 基础科学辑》;A006-85 * |
复杂基因组测序技术研究进展;高胜寒 等;《遗传》;944-963 * |
高胜寒 等.复杂基因组测序技术研究进展.《遗传》.2018,944-963. * |
Also Published As
Publication number | Publication date |
---|---|
CN111564182A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Raha et al. | ChIP‐Seq: A method for global identification of regulatory elements in the genome | |
CN108138175B (zh) | 用于分子条形码编码的试剂、试剂盒和方法 | |
EP2083090A1 (en) | Nucleic acid interaction analysis | |
CN105349675B (zh) | 基于双酶切的大黄鱼全基因组SNP和InDel分子标记方法 | |
Yin et al. | Challenges in the application of NGS in the clinical laboratory | |
CN112359093B (zh) | 血液中游离miRNA文库制备和表达定量的方法及试剂盒 | |
CA3189334A1 (en) | Methods for screening biological samples for contamination | |
JP2022541387A (ja) | 近接ライゲーションのための方法および組成物 | |
WO2012037881A1 (zh) | 核酸标签及其应用 | |
CN111549380B (zh) | 一种构建双链rna测序文库的试剂盒及其应用 | |
CN112795654A (zh) | 用于生物体融合基因检测与融合丰度定量的方法及试剂盒 | |
Xu et al. | Quantitative, convenient, and efficient genome-wide R-loop profiling by ssDRIP-seq in multiple organisms | |
CN111564182B (zh) | 一种高重复原鮡属鱼类的染色体级别组装的方法 | |
O'Brien et al. | Global Run-On sequencing to measure nascent transcription in Saccharomyces cerevisiae | |
CN111560651B (zh) | 一种制备双链rna测序文库的方法 | |
Zhou et al. | Transcriptome-wide analysis of the function of Ded1 in translation preinitiation complex assembly in a reconstituted in vitro system | |
CN114807302B (zh) | 扩增子文库构建方法及用于地中海贫血突变型与缺失型基因检测的试剂盒 | |
WO2019099574A1 (en) | Methods and compositions for preparing polynucleotide libraries | |
CN114277096A (zh) | 鉴别地中海贫血αααanti4.2杂合型和HKαα杂合型的方法和试剂盒 | |
WO2014086037A1 (zh) | 构建核酸测序文库的方法及其应用 | |
CN114854825A (zh) | 一种适用于dnbseq技术的简化基因组测序的建库接头及方法 | |
Hou et al. | Best practices for ChIP-seq and its data analysis | |
CN114480602B (zh) | 一种鉴定红螯螯虾遗传性别的snp标记及其所用引物对和应用 | |
Zhang et al. | Cost-effective profiling of Mutator transposon insertions in maize by next-generation sequencing | |
WO2020164015A1 (zh) | 用于三代测序建库的融合引物、建库方法、测序方法和建库试剂盒 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |