CN111564182B

CN111564182B - 一种高重复原鮡属鱼类的染色体级别组装的方法

Info

Publication number: CN111564182B
Application number: CN202010398939.3A
Authority: CN
Inventors: 刘海平; 牟振波; 肖世俊
Original assignee: Institute of Animal Husbandry and Veterinary Medicine of Tibet Academy of Agriculture and Animal Husbandry Sciences
Current assignee: Institute of Animal Husbandry and Veterinary Medicine of Tibet Academy of Agriculture and Animal Husbandry Sciences
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2024-02-09
Anticipated expiration: 2040-05-12
Also published as: CN111564182A

Abstract

发明涉及一种高重复原鮡属鱼类的染色体级别组装的方法，其步骤为：1)基于短片段的序列进行基因组调查；2)大于200kb的高质量DNA提取；3)DNA测序文库构建及其纳米孔测序；4)对于测序结果进行组装获得染色体级别组装结果。本发明相对于以往方法测序深度只有五分之一，可以组装到染色体完成图，组装结果提高10倍以上。本发明在开发原鮡属鱼类的基因组上具有重要意义，进一步对于降低高原原鮡属的成本、获得高质量遗传资源、研究高原鱼类的适应性进而对养殖推广具有重要意义。

Description

一种高重复原鮡属鱼类的染色体级别组装的方法

【技术领域】

本发明涉及染色体组装技术，具体为通过长序列对一种高重复原鮡属鱼类的染色体级别组装的方法。

【背景技术】

染色体(英语：chromosome)是真核生物特有的构造，主要由双股螺旋的去氧核糖核酸和5种被称为组蛋白的蛋白质构成，其中双股螺旋的去氧核糖核酸(DNA)是基因的主要载体。基因决定了一个物种的各个方面，从生老病死，到环境适应，到物种差异，种内差异。对于一个物种的基因组测序可以解释这个物种的所有信息，知道信息后后就可以改造物种，如进行人工选择育种，转基因等。全基因组测序是对未知基因组序列ATCG四种碱基组合进行准确测定，即所谓的物种进行个体的基因组测序。一般物种的染色体都会大于50Mb，但是目前的测序技术只能读取150bp–100kb，只有很少的序列能够达到1Mbp，所有需要一个组装过程(assembly)。

原鮡属鱼类属于鲇形目(Siluriformes)、鮡科(Sisoridae)、原鮡属(Glyptosternum)，分布于青藏高原腹心地带雅鲁藏布江中游，海拔2800-4200米范围内，此类别的鱼类是研究鱼类高原适应的重要种植资源，同时因为高原环境的特殊性也分化出特别多的表型，如黑斑原鮡，该鱼腹腔内除具有正常肝脏外，在皮肤与体壁肌肉之间分生出一个与腹腔内肝脏连接的相同功能的组织—腹腔外肝，但目前对于黑斑原鮡特殊的肝脏发育分子机制及其在适应性进化中的生理功能变化情况尚不清楚。黑斑原鮡参考基因组的公布，将会为研究鱼类高海拔适应性机制以及高原鱼类种质资源保护提供了理论支持。

然而原鮡属鱼类比普通的基因组大，有750Mb左右，杂合度较高，大于0.5％，研究表明黑斑原鮡有近期的重复序列扩张，重复序列达到了基因组的34％以上，重复序列是基因组上高度相似的区域，基因组的组装是根据相邻区域的重叠(overlap)将测序的短序列还原为染色体序列，然而有了重复序列问题，构建重叠群的过程中会将染色体上不在一起的区域进行错误的组装，主要是由于较多重复区域的DNA和较大结构变异的存在，采用短读长技术难以克服。

因此需要一种新的测序组装方法，采用更长的测序读长，使基因组以更少、更长的片段进行测序，重叠更佳，进而使基因组组装更加便捷。

【发明内容】

为了解决背景技术利用短读长技术进行组装出现的问题，本发明提供一种新的测序组装方法，能够更得到更长的测序读长，测序readN50达到100kb以上，同时通过调试的组装参数得到染色体水平的组装结果。

本发明解决其技术问题所采用的技术方案是：

一种高重复原鮡属鱼类的染色体级别组装的方法，包括如下步骤：

1.基因组调查：搜集物种相关信息，包括基因组大小、重复序列、及其杂合度，从数据库查到；

进一步地，所述步骤1选用Kmer估计基因组大小的大小，然后综合评价获得基因组大小；

进一步地，所述步骤1选取短片段数据100倍基因组深度，基于GenomeScope给出基因组大小，重复序列，杂合度等信息。

2.基因组DNA提取：选用Qigen可以提取高质量DNA的试剂盒，提取的DNA长度在200kb左右，DNA总含量大于10ug。

3.测序文库构建及测序获得读长序列：将获得的高质量DNA，通过转座子内切酶进行打断，控制DNA在2M以内。然后进行修复，洗脱，构建文库，加入测序接头进行测序，并获得读长序列。

进一步地，所述步骤3通过荧光定量法(Qubit)定量1μl等分试样，保留500ng以上的DNA；

进一步地，所述步骤3中使用基因组DNA的标准快速适配器(RAD002)(SQK-RAD002快速测序试剂盒，ONT)协议，修改并省略了标准加载珠，避免构建文库与粘性文库混合时结块过多；

优选地，所述步骤3将构建好的DNA文库使用R9/R9.4流通池(FLO-MIN105/FLO-MIN106，ONT)对MinION进行测序。使用牛津纳米孔技术公司的MinKNOW软件控制MinION测序。根据fast5文件使用Albacor软件获得高质量的碱基，同时过滤掉长度小于100kb的序列。

优选地，步骤3测序所得序列质量平均值大于10。

4.染色体级别的基因组组装：对于获得的高质量的序列使用序列比对软件进行比对，选取20X最长的大于50kb的序列，并计算其比对结果，然后构建重叠群，将重叠群的结果输入到组装软件，通过使用为测试优化的数据和参数可以得到染色体级别的组装结果；

进一步地，所述步骤4中所述序列比对软件为GraphMap，使用grapmap ower模式计算其比对结果；

进一步地，所述步骤4中20X最长的大于100kb的序列，使用grapmap ower模式计算其比对结果，将重叠群的结果输入到组装软件canu，使用canu用于组装初始20倍覆盖率数据集，使用设定的优化参数可以得到染色体级别的组装结果；

优选地，所述步骤4中组装软件canu的优化测试参数为：canu-p asm-d asm＝1ggridOptionsJobName＝na12878nano”gridOptions＝–时间72:00:00–partition norm”-nanopore-raw rel2*.fastq.gz corMinCoverage＝0corMaxEvidenceErate＝0.22errorRate＝0.045。

其中，以上所述步骤1至步骤4基因组测序用的样品选自同一个体，组装过程如附图1所示。

本发明与现有技术相比的有益效果：

本发明提供的方法选用长序列测序，获得序列的平均长度大于100kb，测序成本低，相对于常规的100倍测序数据，仅需要20倍左右的数据，进而使基因组组装更加便捷；

本发明提供的方法，利用Canu的低覆盖率参数，最大可能地降低了错误率；

本发明提供的方法组装结果延续性好，不需要遗传图谱等技术连接组装结果，就可以获得染色体序列。通过该方法可以在2个月内构建一个高重复序列的的原鮡属鱼类的完成图，为后续该物种的遗传机制及高原适应性研究提供了一个低成本，高效率的技术；

本发明提供的方法可以有效克服原鮡属鱼类的所有高重复区域，通过测序组装直接获得染色体序列。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是原鮡属鱼类染色体水平组装说明图。

图2是原鮡属基因组调查kmer示意图。

【具体实施方式】

下面结合实施例对本发明作进一步的说明，但本发明并不局限于此实施例。本实施例利用该发明提供的一种高重复原鮡属鱼类的染色体级别组装的方法用于原鮡属的基因组组装发明。

实施例1：基因组调查

基于数据库(http://www.genomesize.com/)查询原鮡属的基因在700-1000Mb之间。选用Kmer估计基因组的大小，然后综合评价获得基因组大小。选取短片段数据100倍基因组深度，及测序70Gb的数据，基于GenomeScope给出基因组大小，重复序列，杂合度等信息，结果为：基因大小771.2Mb，重复序列45％,杂合度0.16％。

原鮡属基因组调查kmer示意图如附图2所示。

实施例2：基因组DNA的提取

a.使用QIAamp DNAmini试剂盒(Qiagen)从细胞中提取DNA。

b.鱼类血细胞以300g离心5分钟沉淀。将细胞重悬于200μlPBS中，并根据制造商的说明提取DNA。

c.通过在TapeStation 2200(安捷伦)的基因组ScreenTape上运行1μl来评估DNA质量，以确保DNA完整性数(DIN)>7(NA12878的值为9.3)。

d.在Qubit荧光计(Thermo Fisher)上使用dsDNAHS分析法评估DNA的浓度。

实施例3：测序文库构建及其测序

a.将1.5–2.5μg鱼类基因组DNA在以5,000–6,000r.p.m离心的Covaris g-TUBE中剪切。在Eppendorf5424(或等效产品)离心机中离心2×1分钟，在离心步骤之间将试管倒置。然后对于获得的DNA进行DNA修复(NEBNext FFPE DNA修复混合物，NEB M6630)，而不对新鲜提取的DNA进行。

b.将8.5μl无核酸酶水(NFW)，6.5μl FFPE修复缓冲液和2μlLFFPE DNA修复混合物添加到46μl剪切的DNA中。将混合物在20℃下温育15分钟，使用0.4x体积的AMPure XP珠粒(62μl)清洗，在室温下温和混合温育5分钟，用200μl新鲜的70％乙醇洗涤两次，沉淀将其干燥2分钟，并用46μlNFW或EB(10mM Tris pH 8.0)洗脱DNA。

c.通过荧光定量法(Qubit)定量1μl等分试样，以确保保留了≥1μgDNA。

d.然后通过添加7μl Ultra II End-Prep缓冲液，3μlUltra II End-Prep酶混合物和5μlNFW进行末端修复和dA-tailing(NEBNext Ultra II末端修复/dA-tailing模块)。将混合物在20℃下孵育10分钟，并在65℃下孵育10分钟。进行了1倍体积(60μl)的AMPureXP净化，并在31μlNFW中洗脱了DNA。通过荧光定量法(Qubit)定量1μl等分试样，以确保保留了≥700ng DNA。

e.然后通过向30μldA-中添加20μlAdapter Mix(SQK-LSK108 LigationSequencing Kit 1D，OxfordNanopore Technologies(ONT))和50μlNEB Blunt/TAMasterMix(NEB，目录号M0367)进行连接。尾DNA，轻轻混合并在室温下孵育10分钟。

f.通过添加0.4x体积(40μl)的AMPure XP珠粒，在室温下孵育5分钟，然后将沉淀物在140μlABB(SQK-LSK108)中重悬两次，来清除与衔接子连接的DNA。加入25μlELB(SQK-LSK108)并重悬珠子，在室温下孵育10分钟，再次沉淀珠子，然后将上清液(预测序混合物或PSM)转移到新的纯化的连接的DNA中，通过荧光定量法(Qubit)定量1μl等分试样，以确保保留了≥500ng DNA。

g.为了获得超长读段，对基因组DNA的标准快速适配器(RAD002)协议(SQK-RAD002快速测序试剂盒，ONT)进行了如下修改。用截断的P20移液器吸头操作，将约1μg/μl的Sambrook提取液中的16μlDNA放入0.2ml PCR管中，取出1μl以确认定量值。加入5μlFRM，并通过轻轻移液，并仅移动12μl的截止移液器吸头将其缓慢混合十次。混合后，将样品在30℃下孵育1分钟，然后在热循环仪上在75℃下孵育1分钟。此后，使用仅移动14μl十倍的截止尖端通过移液缓慢混合，加入1μlRAD和1μlBlunt/TA连接酶。然后将文库在室温下孵育30分钟，以连接RAD。为了加载库，将25.5μlRBF(带有燃料混合物的运行缓冲液)与27.5μlNFW混合，然后将其添加到库中。使用设置为75μl的P100截止尖端，通过缓慢移液五次来混合该文库。将该极粘的样品加载到“spot on”端口上，并通过毛细管作用进入流通池。由于与粘性文库混合时结块过多，因此从该协议中省略了标准加载珠。

h.构建好的DNA文库使用R9/R9.4流通池(FLO-MIN105/FLO-MIN106，ONT)对MinION进行测序。使用牛津纳米孔技术公司的MinKNOW软件控制MinION测序。所使用的软件的特定版本因运行而异，但可以通过检查数据集中的fast5文件来确定。根据fast5文件使用Albacor软件获得高质量的碱基，同时过滤掉长度小于100kb的序列。质量平均值大于10的序列才会用于后续的基因组组装。为了获得20倍的测序深度用于后续组装，我们测序15Gb的数据量为止。该结果获得read数目为5M，总数据量为20G，达到了基因组的20X覆盖度。

实施例4：染色体级别基因组组装

GraphMap是一种序列比对软件，它设计用于以非常高的灵敏度和准确性处理牛津纳米孔MinION 1d和2d测序读长，选取20倍基因组大小并且最长大于50kb的序列，使用grapmap ower模式计算其比对结果，然后构建重叠群，将重叠群的结果输入到组装软件Canu中，使用canu v1.4r8006(4a7090bd17c914f5c21bacbebf4add163e492d54)用于组装初始20倍覆盖率数据集：canu-p asm-d asm＝1g gridOptionsJobName＝na12878nano”gridOptions＝–时间72:00:00–partition norm”-nanopore-raw rel2*.fastq.gzcorMinCoverage＝0corMaxEvidenceErate＝0.22errorRate＝0.045。该参数是我们根据原鮡属的鱼类基因进行测试优化的，使用我们的数据和参数可以得到染色体级别的组装结果。这些是Canu文档中建议的低覆盖率参数，最大可能地降低错误率。在确定MinHash重叠算法由于读取中的系统错误而低估了错误率之后，将该特定参数减小以减少内存需求。手动降低为此偏差调整的最大重叠错误率阈值。组装花费了40K CPU小时(纠正为25K，组装为15K)。

该方法获得原鮡属鱼黑斑岩鮡鱼的24条染色体序列，基因组大小为772Mb，和预期结果一致，误差范围1％。

本发明并不仅仅限于说明书和实施方式中所描述，因此对于熟悉领域的人员而言可容易地实现另外的优点和修改，故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

Claims

1.一种高重复原鮡属鱼类的染色体级别组装的方法，其特性在于，包括如下步骤：

S1. 基因组调查：从数据库查到原鮡属鱼基因大小范围，结合Kmer估计基因组大小的大小，然后综合评价获得基因组大小；

S2. 基因组DNA 提取：使用DNA的试剂盒，提取DNA；

S3. 测序文库构建及测序获得长序列：用内切酶打断DNA，修复，洗脱，构建文库加入测序接头进行测序，获取长序列；

S4. 染色体级别的基因组组装：使用序列比对软件处理读长，选取20X最长的大于100kb的序列，计算其比对结果，构建重叠群后组装；

步骤S4中使用graphmap owler模式计算其比对结果，然后构建重叠群，将重叠群的结果输入到组装软件 Canu，使用Canu组装初始20倍覆盖率数据集，其参数为：canu -p asm -d asm = 1g gridOptionsJobName = na12878nano” gridOptions = –时间72:00:00 –partition norm” -nanopore-raw rel27* .fastq.gz corMinCoverage = 0corMaxEvidenceErate = 0.22 errorRate = 0.045。

2.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法，其特性在于所述步骤S1至步骤S4选用的样品选自同一个体。

3.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法，其特征在于所述步骤S1中，选取短片段数据100倍基因组深度，使用GenomeScope 评估基因组大小。

4.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法，其特征在于所述步骤S2中提取的DNA含量大于10ug。

5.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法，其特征在于所述步骤S3中通过荧光定量法定量1 µl等分试样，保留7500 ng 以上的DNA。

6.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法，其特征在于，所述步骤S3中，使用基因组DNA的标准快速适配器RAD002协议，修改并省略了标准加载珠。

7.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法，其特征在于所述步骤S3中过滤掉长度小于100kb的序列，取质量平均值大于10的序列。

8.根据权利要求1所述的一种高重复原鮡属鱼类的染色体级别组装的方法，其特征在于所述步骤S4中使用GraphMap进行比对。