CN111575399B

CN111575399B - 一种基于全基因组重测序的甘蓝型油菜蜡粉基因定位方法

Info

Publication number: CN111575399B
Application number: CN202010517170.2A
Authority: CN
Inventors: 张俊英; 朱吉风; 周熙荣; 杨立勇; 江建霞; 蒋美艳; 李延莉; 王伟荣; 孙超才
Original assignee: Shanghai Academy of Agricultural Sciences
Current assignee: Shanghai Academy of Agricultural Sciences
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2022-03-04
Anticipated expiration: 2040-06-09
Also published as: CN111575399A

Abstract

本发明提供了一种基于全基因组重测序的甘蓝型油菜蜡粉基因定位方法，属于生物信息技术领域。本发明以分离群体为基础，建立近等基因系。采用混合分组分析，选近等基因系中3：1分离群体中的无蜡粉植株和全部有蜡粉表型不分离群体以及3个亲本，共建5个DNA池用于基因组重测序。利用重测序数据进行遗传关联性分析，将控制蜡粉性状的位点定位在A08染色体的590663～1657546bp区域内。本发明的方法最大的特点是不需要检测所有子代个体，而是将两种极端性状的子代进行混池分析。并且，本发明的方法测序数据充足、质量合格，能够用于下一步分析。

Description

一种基于全基因组重测序的甘蓝型油菜蜡粉基因定位方法

技术领域

本发明涉及生物信息技术领域，尤其涉及一种基于全基因组重测序的甘蓝型油菜蜡粉基因定位方法。

背景技术

甘蓝型油菜(Brassica napus L.)是油菜三大类型之一，是由白菜(AA，n＝10)与甘蓝(CC，n＝9)通过自然种间杂交后双二倍化进化而来的一种复合种。植物的表面一般覆盖有一层蜡质。蜡质是长链脂肪酸的混合物，它们具有防止紫外线辐射损伤，减少植物表面水分过度蒸发和保护植株免遭病虫危害，并影响植株的光合效率和花粉育性。一般来说，甘蓝型油菜的茎秆，叶片及角果均有蜡粉覆盖，而无蜡粉突变体的茎杆，叶片及角果皮均不被蜡粉，表面油亮，整个生育期此表型都明显可见。目前，对甘蓝型油菜蜡粉基因进行定位的方法需要检测所有子代个体，这种检测手段工作量大，检测效率低。

发明内容

本发明的目的在于提供一种基于全基因组重测序的甘蓝型油菜蜡粉基因定位方法，不需要检测所有子代个体，而是将两种极端性状的子代进行混池分析，检测工作量小，检测效率高。

为了实现上述发明目的，本发明提供以下技术方案：

本发明提供了一种基于全基因组重测序的甘蓝型油菜蜡粉基因定位方法，包括以下步骤：

1)以甘蓝型油菜纯合两型系D0721的不育株为母体，临保系D1577为父本，进行杂交，得到F1代全不育系；

2)将F1代全不育系和无蜡粉性状的恢复系D0936进行杂交，得到F2代；

3)在F2～F5代的15：1分离群体中选择有蜡粉性状的植株自交，得到F6代；

4)在所述F6代的3：1分离群体中选择无蜡粉性状的植株作为第一子代备选植株，在所述F6代的全部有蜡粉群体中选择有蜡粉性状的植株作为第二子代备选植株，将D0721作为第一亲本备选植株，D1577作为第二亲本备选植株，D0936作为第三亲本备选植株，得到五组备选植株；

5)分别提取所述五组备选植株的基因组DNA，利用提取到的基因组DNA分别构建文库，对各个文库进行30×覆盖度的全基因组重测序，得到五组测序数据，分别为第一子代测序数据、第二子代测序数据、第一亲本测序数据、第二亲本测序数据和第三亲本测序数据；

6)利用Trimmomatic对所述五组测序数据分别进行质量控制，选择Pherd分值大于Q20的序列样本，得到五组待分析数据，分别为第一子代待分析数据、第二子代待分析数据、第一亲本待分析数据、第二亲本待分析数据和第三亲本待分析数据；

7)将所述五组待分析数据分别与参考基因进行比对，去除PCR重复，注释SNP和InDel，完成基因分型；

8)基于所述基因分型的结果，以第一亲本待分析数据、第二亲本待分析数据和第三亲本待分析数据作为参照，分别计算第一子代待分析数据和第二子代待分析数据在每个多态性位点上的SNP-index，统计平均值，得到两组SNP-index，分别为第一SNP-index和第二SNP-index；

9)取第一SNP-index和第二SNP-index差值的绝对值，绘制SNP-index图；选取95％和99％的置信水平作为筛选的阈值，超过阈值外的区域作为候选区域；

10)对所述候选区域内SNP的碱基与参考基因相应位置的碱基进行比对，统计第一亲本待分析数据、第二亲本待分析数据、第三亲本待分析数据、第一子代待分析数据和第二子代待分析数据中的碱基突变类型，筛选出亲本和与之近似的混池材料中碱基突变类型相一致的候选基因，作为候选基因；

11)利用Non-Redundant Protein Sequence、Gene Ontology和KyotoEncyclopedia of Genes and Genomes数据库注释对所述候选基因进行初步筛选，得到目的基因；采用BRAD数据库和TAIR数据库对所述目的基因进行同源性分析和功能预测；

步骤1)中所述甘蓝型油菜纯合两型系D0721的保藏编号为：CCTCC NO：P202001；所述临保系D1577的保藏编号为CCTCC NO：P202002

步骤2)中所述恢复系D0936的保藏编号为CCTCC NO：P202003。

优选的，步骤3)中所述第一子代备选植株和第二子代备选植株的数量分别为40～60株；所述第一亲本备选植株、第二亲本备选植株和第三亲本备选植株的数量分别为15～25株。

优选的，在步骤5)分别提取所述五组备选植株的基因组DNA后，还包括将提取到的五组备选植株的基因组DNA随机打断成350bp的片段，基于打断后的基因组DNA片段，采用TruSeq DNA LT Sample Prep kit试剂盒分别构建文库。

优选的，步骤8)中所述SNP-index根据reads测序深度信息计算，利用测序reads对每个碱基位点的碱基进行统计，计算与作为参照的基因组不相同的reads条数占总条数的比例，得到碱基位点的SNP-index。

优选的，步骤8)所述统计平均值的过程中定位时以1Mb为窗口，以10Kb为步移。

本发明的有益效果：本发明提供了一种基于全基因组重测序的甘蓝型油菜蜡粉基因定位方法。本发明以分离群体为基础，建立近等基因系。采用混合分组分析(Bulksegregant analysis，BSA)，选近等基因系中3：1分离群体中的无蜡粉植株和全部有蜡粉表型不分离群体以及3个亲本，共建5个DNA池用于基因组重测序。利用重测序数据进行遗传关联性分析，将控制蜡粉性状的位点定位在A08染色体的590663～1657546bp区域内。本发明的方法最大的特点是不需要检测所有子代个体，而是将两种极端性状的子代进行混池分析。并且，本发明的方法测序数据充足、质量合格，能够用于下一步分析。

生物保藏信息

甘蓝型油菜纯合两型系D0721的保藏编号为CCTCC NO：P202001、临保系D1577的保藏编号为CCTCC NO：P202002、恢复系D0936的保藏编号为CCTCC NO：P202003，保藏于中国典型培养物保藏中心，保藏时间为2020年5月27日，保藏地址为湖北省武汉市武昌区八一路299号武汉大学校内；所述甘蓝型油菜纯合两型系D0721的保藏编号为CCTCC NO：P202001；所述临保系D1577的保藏编号为CCTCC NO：P202002；所述恢复系D0936的保藏编号为CCTCCNO：P202003。

附图说明

图1为SNP变异位点注释情况；

图2为InDel变异位点注释情况；

图3为利用亲本纯合差异位点筛选后的突变子代ΔSNP-index定位图；其中，蓝色箭头：关联阈值前1％以上的候选区域(590663～1657546bp)在油菜A08染色体上；(1)绿色点为SNP-index或ΔSNP-index；(2)红色线为SNP-index或ΔSNP-index划窗后的拟合线；(3)蓝色线为95％置信线；(4)橘黄色线为99％置信线；

图4为利用qRT-PCR方法分析16个候选基因在甘蓝型油菜无蜡粉亲本D0936和有蜡粉亲本D0721叶片中的表达模式。

具体实施方式

本发明提供了一种基于全基因组重测序(BSA)的甘蓝型油菜蜡粉基因定位方法，包括以下步骤：

4)在所述F6代的3：1分离群体中选择无蜡粉性状的植株作为第一子代备选植株，在所述F6代的全部有蜡粉表型不分离群体作为第二子代备选植株，将D0721作为第一亲本备选植株，D1577作为第二亲本备选植株，D0936作为第三亲本备选植株，得到五组备选植株；

7)将所述五组待分析数据分别与甘蓝型油菜参考基因进行比对，去除PCR重复，注释SNP和InDel，完成基因分型；

步骤2)中所述恢复系D0936的保藏编号为CCTCC NO：P202003。

本发明首先以甘蓝型油菜纯合两型系D0721的不育株为母体，临保系D1577为父本，进行杂交，得到全不育系。全不育系与无蜡粉性状的恢复系D0936进行杂交，得到F1代。F1代有蜡粉性状。D0721为纯合两型系，D1577为临保系，D0936为无蜡粉恢复系。三个亲本的遗传背景一致。

本发明的F2代中出现全部无蜡粉群体、15：1分离群体，3：1分离群体和全部有蜡粉分离群体。

得到F2代后，本发明在F2～F5代的15：1分离群体中选择有蜡粉性状的植株连续自交，得到F6代；在本发明具体实施过程中，在F2代的15：1分离群体中选择有蜡粉性状的植株进行自交，得到F3代；在F3代的15：1分离群体中选择有蜡粉性状的植株进行自交，得到F4代；在F4代的15：1分离群体中选择有蜡粉性状的植株进行自交，得到F5代；在F5代的15：1分离群体中选择有蜡粉性状的植株进行自交，得到F6代。本发明在F2～F5代的15：1分离群体中选择有蜡粉性状的植株连续自交能够提高获得目标基因型的频率。

得到F6代后，本发明在所述F6代的3：1分离群体中选择无蜡粉性状的植株作为第一子代备选植株，在所述F6代的全部有蜡粉表型不分离群体作为第二子代备选植株，将D0721作为第一亲本备选植株，D1577作为第二亲本备选植株，D0936作为第三亲本备选植株，得到五组备选植株；所述第一子代备选植株和第二子代备选植株的数量分别优选为40～60株，更优选为50株；所述第一亲本备选植株、第二亲本备选植株和第三亲本备选植株的数量分别优选为15～25株，更优选为20株。

得到五组备选植株后，本发明分别提取所述五组备选植株的基因组DNA，利用提取到的基因组DNA分别构建文库，对各个文库进行30×覆盖度的全基因组重测序，得到五组测序数据，分别为第一子代测序数据、第二子代测序数据、第一亲本测序数据、第二亲本测序数据和第三亲本测序数据；本发明对提取所述五组备选植株的基因组DNA的方法没有特殊限制，采用本领域常规植物基因组DNA提取方法即可。

本发明在分别提取所述五组备选植株的基因组DNA后，优选的还包括将提取到的五组备选植株的基因组DNA随机打断成350bp的片段，并基于打断后的基因组DNA片段，采用TruSeq DNA LT Sample Prep kit试剂盒分别构建文库。本发明具体实施过程中，所述打断后的基因组DNA片段经过末端修复、加poly(A)尾、加测序接头、纯化和PCR扩增处理。

得到五组测序数据后，本发明利用Trimmomatic对所述五组测序数据分别进行质量控制，选择Pherd分值大于Q20的序列样本，得到五组待分析数据，分别为第一子代待分析数据、第二子代待分析数据、第一亲本待分析数据、第二亲本待分析数据和第三亲本待分析数据。

每个碱基的测序错误率用测序Phred数值(Qphred)表示，通过公式Qphred＝-10log10(e)转化得到，e表示碱基测序错误率。每个碱基位置的测序错误率一般都应该低于1％，也就是Phred分值大于Q20。5个样本池中获得的过滤后的有效碱基数在28936～56780Mb之间，测序数据质量较高(Q20≥97.33％、Q30≥91.97％)，GC含量在36.37％～37.82％之间。

得到五组待分析数据后，本发明将所述五组待分析数据分别与甘蓝型油菜参考基因进行比对，去除PCR重复，注释SNP和InDel，完成基因分型；本发明具体实施过程中，利用BWA软件将Clean Reads比对到甘蓝型油菜参考基因；比对结果经过SAMtool软件转换格式后，利用GATKv4.0.2.1(GATK)的picard模块去除PCR重复；基于样本与参考基因组的比对结果，利用SAMtools软件mpileup模块默认参数检测样本中的SNP和InDel位点，利用snpEf软件注释SNP和InDel的功能。

完成基因分型后，本发明基于所述基因分型的结果，以第一亲本待分析数据、第二亲本待分析数据和第三亲本待分析数据作为参照，分别计算第一子代待分析数据和第二子代待分析数据在每个多态性位点上的SNP-index，统计平均值，得到两组SNP-index，分别为第一SNP-index和第二SNP-index；

在本发明具体实施过程中，所述SNP-index根据reads测序深度信息计算，利用测序reads对每个碱基位点的碱基进行统计，计算与作为参照的基因组不相同的reads条数占总条数的比例，得到碱基位点的SNP-index；所述统计平均值的过程中定位时以1Mb为窗口，以10Kb为步移。得到SNP-index平均值后，本发明优选的还包括基于SNP-index平均值，做出红色拟合线，排除部分噪音影响，使连锁区域峰值更加明显。

得到第一SNP-index和第二SNP-index后，本发明取第一SNP-index和第二SNP-index差值(ΔSNP-index，两个极端表型池中SNP位点的SNP-index差值)的绝对值，绘制SNP-index图；选取95％和99％的置信水平作为筛选的阈值，超过阈值外的区域作为候选区域。

得到候选区域后，本发明对所述候选区域内SNP的碱基与参考基因相应位置的碱基进行比对，统计第一亲本待分析数据、第二亲本待分析数据、第三亲本待分析数据、第一子代待分析数据和第二子代待分析数据中的碱基突变类型，筛选出亲本和与之近似的混池材料中碱基突变类型相一致的候选基因，作为候选基因。

得到候选基因后，本发明利用NR(Non-Redundant Protein Sequence)、GO(GeneOntology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库注释对候选基因进行初步筛选，得到目的基因；采用BRAD数据库(http://brassicadb.org/brad/)和TAIR数据库(https://www.arabidopsis.org)对目的基因进行同源性分析和功能预测。

下面将结合本发明中的实施例，对本发明中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

亲本材料为上海市农业科学院作物育种栽培研究所庄行试验基地种植的纯合两型系D0721、临保系D1577和恢复系D0936。

1)以甘蓝型油菜纯合两型系D0721的不育株为母体，临保系D1577为父本，进行杂交，获得全不育系，全不育系和无蜡粉性状的恢复系D0936进行杂交，得到F1代；

3)在F2～F5代的15：1分离群体中选择有蜡粉性状的植株自交，得到F6代。

实施例2

1材料来源

供试材料为上海市农业科学院作物育种栽培研究所庄行试验基地种植的纯合两型系D0721、临保系D1577和恢复系D0936，实施例1中F6代的3：1分离群体中的无蜡粉植株和全部有蜡粉表型不分离群体。

2方法

2.1建库测序

提取样本中的基因组DNA，电泳检测合格后进行建库。检测合格的DNA样品先经过Covaris随机打断成350bp的片段，采用TruSeq DNA LT Sample Prepkit试剂盒进行建库，DNA片段经过末端修复、加poly(A)尾、加测序接头、纯化、PCR扩增等步骤，最终完成文库构建，文库检验合格后利用测序仪进行双端测序。

2.2生信分析

使用Trimmomatic(Anthony et al.，2014)软件进行原始测序数据的质量控制。每个碱基的测序错误率用测序Phred数值(Qphred)表示，通过公式Qphred＝-10log10(e)转化得到，e表示碱基测序错误率。一般情况下，每个碱基位置的测序错误率都应该低于1％，也就是Phred分值大于Q20。利用BWA软件将CleanReads比对到参考基因组(http://www.genoscope.cns.fr/brassicanapus/data/Brassica_napus_v4.1.chromosomes.fa.gz)；比对结果经过SAMtool软件转换格式后，利用GATKv4.0.2.1(GATK)的picard模块去除PCR重复。基于样本与参考基因组的比对结果，利用SAMtools软件mpileup模块默认参数检测样本中的SNP和InDel位点，利用snpEf软件注释SNP和InDel的功能。

基于基因分型的结果，筛选亲本间纯合差异的多态性位点。选择3个亲本D0721，D1577和D0936作为参照亲本，参考TAKAGI等(Takagi et al.，2013)的方法计算2个子代混合池在每个多态性位点上的SNP频率(SNP-index)。SNP-index根据reads测序深度信息计算，利用测序reads对每个碱基位点的碱基进行统计，计算与作为参照的基因组不相同的reads条数占总条数的比例，即为该碱基位点的SNP-index。完全与参照基因组相同的SNP位点其SNP-index为0；完全与参照基因组不同的SNP-index为1。△SNP-index是两个极端表型池中SNP位点的SNP-index差值。定位时以1Mb为窗口，10Kb步移统计该窗口内所有SNP-index平均值，做出红色拟合线，排除部分噪音影响，使连锁区域峰值更加明显。取分离位点在子代两个极端池中的基因频率差值(ΔSNP-index)的绝对值，绘制两个子代混池SNP-index图。选取95％和99％的置信水平作为筛选的阈值，超过阈值外的区域为可能的表型连锁区域。

2.3候选基因预测

通过对候选区域内SNP的碱基类型与参考基因组相应位置碱基的比对，统计亲本以及无蜡粉和有蜡粉植株混池材料中的碱基突变类型，筛选出亲本和与之近似的混池材料中碱基突变类型相一致的候选基因。利用NR(Non-Redundant Protein Sequence)、GO(GeneOntology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库注释对候选基因进行初步筛选，同时采用BRAD数据库(http://brassicadb.org/brad/)和TAIR数据库(https://www.arabidopsis.org)对目的基因进行同源性分析和功能预测。

3结果

3.1测序结果

5个样本池中获得的过滤后的有效碱基数在28936～56780Mb之间，测序数据质量较高(Q20≥97.33％、Q30≥91.97％)，GC含量在36.37％～37.82％之间。基因组平均覆盖深度在29.2245～51.3133X之间。有效读长数在198207190～383242398bp之间，占总读长的比率≥88.16％。总比对读长率在96.27％～99.12％之间，平均比对质量在42.2296～43.316之间(表1)。以上数据表明测序数据充足，质量合格，可用于下一步分析。

表1测序质控数据与参考基因组匹配情况

3.2 SNP检测及注释

SNP分析结果显示，5个样本共获得21826671个SNP位点和22630037个InDel位点，5个样本在基因上游、基因下游和基因间区的SNP和InDel数量相对其它位点较多，各个样品在基因原件上SNP和InDel总数相当(图1和图2，其中图1为SNP位点类型统计图；图2为InDel位点类型统计图)。

3.3BSA分析与候选基因的筛选

对两个极端子代混池的SNP-index在染色体上的分布情况进行统计，计算两个子代混池的|ΔSNP-index|，通过设定95％和99％置信线，筛选到第A08染色体中的590663～1657546bp区域为候选区域(图3，为利用亲本纯合差异位点筛选后的突变子代ΔSNP-index定位图；其中，蓝色箭头：关联阈值前1％以上的候选区域(590663～1657546bp)在油菜A08染色体上；绿色点为SNP-index或ΔSNP-index；红色线为SNP-index或ΔSNP-index划窗后的拟合线；蓝色线为95％置信线；橘黄色线为99％置信线)，该区域内共包含48个SNP多态性位点，这些SNP位点分布在16个基因位上，对这些候选基因的注释结果显示，候选基因的分子功能(Molecular function)集中于ATP结合(BnaA08g01010D，BnaA08g01020D，BnaA08g01350D，BnaA08g02130D)，水解酶活性(BnaA08g01010D，BnaA08g01030D，BnaA08g01070D，BnaA08g01330D)，盐胁迫反应(BnaA08g01070D，BnaA08g01250D，BnaA08g02130D)，转移酶活性(BnaA08g01350D，BnaA08g013300D)，蛋白质磷酸化(BnaA08g01020D)。它们所处的细胞位置(Cellular Component)大多位于质膜。

3.4候选基因特异性表达分析

16个候选基因在两个亲本D0936和D0721中的RT-PCR结果可以看出，BnaA08g01070D和BnaA08g02130D在有蜡粉亲本D0721中的表达量明显高于对照无蜡粉亲本D0936(图4，利用qRT-PCR方法分析16个候选基因在甘蓝型油菜无蜡粉亲本D0936和有蜡粉亲本D0721叶片中的表达模式图)说明这两个基因与蜡粉的合成有密切关系。BnaA08g00890D在有蜡粉亲本D0721中的表达量明显低于对照无蜡粉亲本D0936，说明此基因抑制蜡粉的合成。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于全基因组重测序的甘蓝型油菜蜡粉基因定位方法，包括以下步骤：

3)在F2～F6代的15：1分离群体中选择有蜡粉性状的植株自交；

11)利用Non-Redundant Protein Sequence、Gene Ontology和Kyoto EncyclopediaofGenes and Genomes数据库注释对所述候选基因进行初步筛选，得到目的基因；采用BRAD数据库和TAIR数据库对所述目的基因进行同源性分析和功能预测；

步骤2)中所述恢复系D0936的保藏编号为CCTCC NO：P202003。

2.根据权利要求1所述的方法，其特征在于，步骤3)中所述第一子代备选植株和第二子代备选植株的数量分别为40～60株；所述第一亲本备选植株、第二亲本备选植株和第三亲本备选植株的数量分别为15～25株。

3.根据权利要求1所述的方法，其特征在于，在步骤5)分别提取所述五组备选植株的基因组DNA后，还包括将提取到的五组备选植株的基因组DNA随机打断成350bp的片段，基于打断后的基因组DNA片段，采用TruSeq DNALT Sample Prep kit试剂盒分别构建文库。

4.根据权利要求1所述的方法，其特征在于，步骤8)中所述SNP-index根据reads测序深度信息计算，利用测序reads对每个碱基位点的碱基进行统计，计算与作为参照的基因组不相同的reads条数占总条数的比例，得到碱基位点的SNP-index。

5.根据权利要求1所述的方法，其特征在于，步骤8)所述统计平均值的过程中定位时以1Mb为窗口，以10Kb为步移。