CN111028889B

CN111028889B - 一种获得活体营养型植物病原卵菌无污染基因组的方法

Info

Publication number: CN111028889B
Application number: CN201911223140.4A
Authority: CN
Inventors: 尹玲; 曲俊杰
Original assignee: Guangxi Zhuang Nationality Autonomous Region Academy of Agricultural Sciences
Current assignee: Guangxi Zhuang Nationality Autonomous Region Academy of Agricultural Sciences
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2021-04-20
Anticipated expiration: 2039-12-03
Also published as: CN111028889A

Abstract

本发明公开了一种获得活体营养型植物病原卵菌无污染基因组的方法：先鉴定污染源，从NCBI下载候选污染物种对应的全基因组序列，与高通量测序得到的待组装的原始reads比对，去除对比到污染源的reads，得到初步组装结果，再将其分为多个窗口，统计每个窗口的基因组区域的深度平均值和GC含量，通过GC分布将植物病原卵菌和污染源物种基因组的窗口区域区分开，进而获得污染源物种基因组对应的窗口区域，去除map到污染源物种基因组窗口区域的reads序列，保留剩余的reads，组装后得到最终的组装结果。从根本上保证获得的活体营养型植物病原卵菌基因组序列信息的完整性和准确性，为后续致病相关基因、病原卵菌致病机制等的进一步研究，提供了有力保证。

Description

一种获得活体营养型植物病原卵菌无污染基因组的方法

技术领域

本发明涉及生物信息学技术领域，具体涉及一种获得活体营养型植物病原卵菌无污染基因组的方法。

背景技术

卵菌是一类真核生物，包括许多植物病原菌，所致病害给许多农作物和花卉植物造成毁灭性危害。卵菌具有独特分类地位的群体，由于表现出丝状等特性传统上被划分到真菌界中，随着学科的发展，卵菌纲早已从真菌中划分到藻界或茸鞭生物界。

活体营养型植物病原卵菌的基因组中缺失了合成某些生命活动所必须的营养物质的相关基因，因此其相关的营养物质必须通过特殊的吸器从植物细胞获得，所以只能与植物寄生在一起，导致该类型的致病菌无法离开寄主植物存活繁殖，无法对活体营养型植物病原卵菌在离体的无菌培养基上进行培养，这类病原菌有葡萄霜霉菌、拟南芥霜霉菌、黄瓜霜霉菌等。因此在活体营养型植物病原卵菌的菌株培养和收集过程中，必须通过采集寄主植物的组织，如植物叶片对其进行侵染培养，在整个操作过程中，不可避免的会接触外界空气、环境，植物的组织也不可能生长在无菌环境。以上特点，决定了对活体营养型植物病原卵菌的收集和DNA提取过程中，无法避免寄主植物和环境微生物的DNA污染掺入，特别是环境微生物。通常情况下，在最终的高通量测序数据中，有相当一部分测序数据(最多可达到40％～50％左右)为外源污染数据，因此需要有效分析鉴定出外源污染数据，组装活体营养型植物病原卵菌无污染基因组。

目前公开发表的活体营养型植物病原卵菌无污染基因组组装方法有两种：

一、在2018年发表在Genome Biol.Evol.的“A High-QualityGrapevineDownyMildewGenome Assembly Reveals Rapidly Evolving and Lineage-SpecificPutative Host Adaptation Genes”文章，提及了一种相对完整的去污染和组装方法：

1.用所有的原始测序数据进行组装，将所有的contig组装结果与NCBI的NT库比对，并同时将所有的原始reads map到组装结果；

2.根据基因组与NT库的比对结果，鉴定到属于污染物种的contig，并将map到污染物种contig的reads扔掉，保留剩余的reads；

3.再组装，并将1、2步再重复进行，直至没有更多的污染物种contig和reads被发现；

4.将经过上述操作得到的组装结果，结合reads的map深度信息相结合，丢弃掉覆盖深度低于20X，且没有blast比对到植物病原卵菌或同源物种上的contig。

该文章确实提出了一种相对完善的污染鉴定、去除及组装的方法，但作者在文章中同时也指出了存在的问题：该组装方法一定程度上将污染情况降低到一个相对的低水平，但可能同时将一些本来想留下的活体营养型植物病原卵菌的测序数据也扔掉了。这可能是在进行第4步时导致的。由于测序的偏好性，一些活体营养型植物病原卵菌的基因组区域测序深度较低；另外，一些没有比对到植物病原卵菌或同源物种上的contig及其原始reads，可能是一些潜在的尚未被发现的未知植物病原卵菌基因组区域，因此在已知的公共数据库中没有记录；这些基因组区域及其对应的测序数据，也被该方法错误的丢弃了。

另外，该方法除了作者提到的问题之外，仍存在另外两个问题：1)仍无法真正的将所有潜在的污染源序列去除，有部分污染源序列被遗漏；2)存在本该留下的植物病原卵菌序列被错误的去除的可能性。出现以上问题的原因是由于该方法在鉴定污染时，仅仅是以组装结果中，鉴定到的属于污染物种的contig作为参考去除map到这些contig上的reads，而不是以该污染物种对应的完整的基因组序列作为参考。而实际上，由于用于组装的原始数据中，只含有部分的污染物种序列，大部分的序列仍为测序的植物病原卵菌序列，且同时含有其他污染物种的序列；由于污染物种原始数据的测序深度不足导致最终组装结果中污染物种的contig很有可能仅仅是污染物种基因组的一部分，很多污染物种的基因组区域，虽然有测序数据覆盖，但由于测序深度低而没有组装出来；另外，因为原始数据的物种来源混杂，最终的contig组装结果往往不是来自某个单一物种，而是中间还掺杂着其他物种的信息，比如待测序的植物病原卵菌。所以，以这些contig为参考，最终去除及保留的reads，存在两个问题：一是可能去除不够彻底，有些reads属于污染物种，但由于没有被组装到contig中，导致无法通过reads map剔除出来；二是由于contig中可能掺杂其他物种，特别是待测序的植物病原卵菌，导致本该留下的植物病原卵菌reads序列也被错误的剔除出去了。

二、2017年发表在《Scientific Reports》的“A multi-omics study ofthegrapevine-downy mildew(Plasmopara viticola)pathosystem unveils acomplexprotein coding and noncoding-based arms race during infection”文章，也提及了一种污染处理及组装的方法：

1.将所有的数据进行组装，将组装完成后的基因组用AUGUSTUS软件进行基因预测；

2.将预测出的蛋白序列与NCBI的NR库进行blastp比对，获得物种信息；

3.如果整条scaffold中预测出的基因的所属物种均为Stramenopiles类的，被认为是Plasmopara类，即我们需要的组装结果；

4、如果整条scaffold中预测出的基因的所属物种均不是Stramenopiles类的，即不是我们需要的组装结果，这些scaffold将被扔掉；

5.如果整条scaffold中预测出的基因的所属物种既有Stramenopiles类，也有非Stramenopiles类的，对这些scaffold进行截断，根据基因预测的位置信息和测序深度的覆盖信息，将预测为Stramenopiles类或者没有物种信息的，且测序深度覆盖较高的区域，截断并作为候选scaffold保留；

6.对于所有预测出的基因与NCBI的NR库均没有比对结果，或者没有任何基因预测结果的scaffold，将这些scaffold完整的与NCBI的NT库比对，获取其物种信息；将所属物种信息为Stramenopiles类或者没有任何比对结果的scaffold认为是Plasmopara类，将其留下；将剩余的比对结果为非Stramenopiles类的scaffold扔掉；

7.将以上步骤保留下来的scaffold汇总并作为reference，将原始的测序readsmap到这个reference，将map上的序列保留，并用这些reads重新进行组装，得到最终的组装结果。

虽然该文章提出的方法也能在一定程度上解决污染源数据干扰组装的问题，从而获得一个更纯净的基因组组装结果；但从以上方法的步骤中不难看出该方法存在的问题：

由于第一个版本的组装结果，是将包含污染源物种的测序数据一起混合组装的，所以在最终得到的组装结果中，有相当一部分scaffold组装结果是混合了两个或多个物种信息的，而有些区域，是没有基因注释的。但是该方法基于先是基于基因注释信息进行污染鉴定，会直接导致步骤3、4、5存在鉴定错误的情况。

比如步骤3中判定的scaffold中，可能存在非Stramenopiles类且没有基因注释的基因组区域被错误的认定为Stramenopiles类，这些区域被错误的保留了。步骤4中判定的scaffold中，可能存在Stramenopiles类且没有基因注释的基因组区域被错误的认定为非Stramenopiles类，这些区域被错误的剔除了。步骤5中判定的scaffold中最终被保留下来的区域以及被剔除的区域中，同时存在以上步骤3和4中被错误保留或错误剔除的可能。步骤6中根据与NCBI的NT库比对的结果决定scaffold的去留，本质上与基于预测的基因集与NCBI的NR库比对的结果决定scaffold的去留一致，同样存在被错误保留或错误剔除的可能。

同时，很多情况下，在组装结果中，往往是活体营养型植物病原卵菌的基因组序列与污染物种的基因组序列穿插糅合在一起，这导致步骤5中界定两者的边界无法精确；很难找到一个十分准确的碱基位置，在该位置的一边是测序物种序列，另一边紧接着就是污染物种的序列。另外一个不容忽视的问题是有些活体营养型植物病原卵菌的基因组区域，由于测序深度低等原因，未能组装出来，这些区域对应的原始reads信息，无法通过该方法被识别并保留。

总之，通过以上两种方法最终被保留的reads中，都可能仍然存在污染物种的信息，且都存在有些本该属于活体营养型植物病原卵菌的reads数据被错误的丢弃或遗漏的现象。利用这些最终的reads进行二次组装，自然无法最大化的保证组装结果的纯净度，也无法确保基因组的完整度。

本申请的发明人在发明专利《一种快速准确鉴定高通量基因组数据污染源的方法》(CN201610117589)中所提出的方法能够快速准确的鉴定分析出测序数据中的污染源类型及污染程度的情况，但该方法仅仅局限在污染源的鉴定层面，但如何对污染数据进行有效的精准快速去除，并进一步获得准确的基因组组装结果，该方法并没有涉及。

综上所述，提出一套可靠的分析方法，对污染数据进行高效鉴定，并对污染数据进行精准的删除过滤，并最终得到纯净的活体营养型植物病原卵菌基因组组装结果，直接关系到后续基因组分析和致病基因预测的准确性，对后续科学研究具有重要意义。

发明内容

本发明的目的是为解决以上提出的问题，在发明专利《一种快速准确鉴定高通量基因组数据污染源的方法》(CN201610117589)研究的基础上，提供一种获得活体营养型植物病原卵菌无污染基因组的方法。

本发明的方法是通过以下步骤实现的：

(1)使用发明专利《一种快速准确鉴定高通量基因组数据污染源的方法》(CN201610117589)公开的方法进行污染源的鉴定工作，基于获得的污染源对应的物种信息，直接从NCBI下载候选污染物种对应的全基因组序列，并将这些基因组序列合并到一个文件中；

其中，所述污染源的鉴定工作步骤为：

(a)组装denovo测序的原始基因组测序数据，得到组装结果；

(b)将组装结果与NCBI的NT数据库进行blast比对，得到有同源性的序列，作为原始比对数据库；

(c)从原始比对数据库中，提取序列对应的物种信息并排序，将序列对应的物种从多到少进行排序，判断是否存在外源污染；

(d)将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列，将氨基酸序列与NCBI的NR数据库进行blast比对；

(e)得到步骤(d)的比对结果后，再依照步骤(c)的方法，提取物种信息和排序，将氨基酸序列对应的物种从多到少进行排序，判断是否存在外源污染；

(f)结合步骤(c)和步骤(e)的结果，根据两步分析统计中均存在的结果，最终确定污染情况及具体污染源；

其中，步骤(a)中采用基于k-mer的开源基因组组装软件进行组装；

其中，步骤(b)中进行blast比对时使用的具体命令为：blastall-p blastn-dBlastDB-i in_file.fasta-m8–b 20-e 1e-5>blast_output；

其中，步骤(c)中，提取物种信息和排序的功能是通过基于Java程序的算法来实现的，具体包含以下两个步骤：

①java PollutedIdentificationgetAnnotationFromNCBIDBByBlastOutblastOutResultncbiDB>result1，本步骤从NCBI的数据库中获取原始比对数据库中每条序列对应的注释信息，注释信息中就包含对应的物种信息；②java PollutedIdentificationgetPollutedSpeciesInfoByNCBIDBBlastOut result1ThreadHold>result2，本步骤设定e value≤1e-5、identity≥80％，将第①步的结果中的物种信息进行统计，凡是大于设定阈值的物种都会被统计，从而得到最终的物种统计结果，最终统计结果的格式为：每一个物种信息占一行，每行两列，第一列为物种信息，第二列为对应的比对到此物种的query序列总数，统计结果以文本文档的格式用记事本或Notepad++软件打开，然后将内容拷贝到excel表格中，按第二列统计数字按从大到小排序，排序后，就可以清晰直观的观察到最终的组装序列对应的物种从多到少的排序，进而根据物种的信息，判断是否有污染，以及主要污染源及其污染情况；

其中，在完成步骤(c)之后，根据排序结果判断，如排在最前面的不是测序物种及近源物种，而是细菌或其他明显为污染的物种(比如测的是植物，而排在前面的是细菌、动物等)，且e value≤1e-5、identity≥80％，就说明污染较严重；或排在前面的是近源物种，但其他非近源物种的e value≤1e-5、identity≥80％，且每个占比或总量≥1％，也说明有污染；

其中，在步骤(d)中，使用AUGUSTUS软件将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列；进行blast比对时使用的具体命令为：blastall-pblastp-dBlastDB-i in_file.fasta-m8–b 20-e 1e-5>blast_output2；

(2)以步骤(1)合并的污染源全基因组序列文件作为reference，将高通量测序得到的待组装的原始reads map到reference，根据比对结果，将map到污染源reference的reads去除，没有map上的reads保留；

(3)将保留的reads再组装，基于组装结果，重复(1)、(2)步骤，直至没有更多的污染数据被去除，并利用这些最终保留的reads进行组装，获得组装结果；

(4)将获得的组装结果作为reference，将用于组装的reads map比对到该reference，保留原始的比对结果；

(5)将步骤(4)使用的reference分成多个个窗口，根据步骤(4)中的比对结果统计每个窗口的基因组区域的深度平均值和GC含量；

(6)以步骤(5)统计的每个窗口的GC含量为横坐标，以对应的深度平均值为纵坐标，在二维坐标系中标注出所有窗口GC含量和深度平均值的统计结果，最终绘制成一个GC分布图，由于活体营养型植物病原卵菌的GC含量和测序深度与可能的污染源物种存在差异，因此属于植物病原卵菌的统计点会集中分布在一起，与可能的污染源物种的统计点分布在坐标系中会产生明显的分离，因此可通过GC分布将植物病原卵菌和污染源物种基因组的窗口区域区分开，进而获得污染源物种基因组对应的窗口区域；

(7)获得污染源物种基因组的窗口区域，并根据第4步的map结果，去除map到污染源物种基因组窗口区域的reads序列，保留剩余的reads；

(8)将剩余的reads再组装，得到最终的组装结果。

其中，在步骤(5)中，将reference以每500bp作为一个窗口进行统计，依次统计窗口内每一个位点的read map深度，计算深度平均值；同时统计窗口内500bp的基因组区域的GC含量；统计结束后，将统计窗口后移，统计下一个500bp的窗口的GC含量和深度；直至将全基因组的GC含量和深度统计完毕。

其中，深度平均值的计算方法为：500个位点的深度值累加后，再除以500；GC含量的统计方法为：窗口内的G或C的碱基总数，除以500，再乘以100％。

有益效果：

本发明的方法步骤(1)～(3)通过将组装结果与NT和NR库同时比对进行污染源鉴定，下载已鉴定的污染源物种的完整基因组序列作为污染源reference进行污染源reads的去除，取代前人方法中以组装出的代表污染源部分基因组的contig组装结果作为reference作为污染源reads鉴定的方法，从根本上保证最全面的去除属于污染源物种的reads，且彻底杜绝出现将活体营养型植物病原卵菌reads被错误去除的可能性；

本发明的方法步骤(4)～(8)通过结合GC depth分布分析的方法，将一些尚未被测序公布，在公共数据库中没有任何参考信息的污染源物种基因组区域，进一步进行鉴定隔离，并将对应的原始reads分离去除，将最终去除后的reads进行组装，获得最终的组装结果。

本发明的方法彻底解决了活体营养型病原卵菌基因组组装过程中，污染源鉴定效率低、速度慢、鉴定不准确、污染源数据去除不完全不彻底、将植物病原卵菌reads数据错误去除的现象，并且彻底解决了仅仅依赖已知数据库，无法鉴定和去除未知污染源数据的短板。依赖更完整更纯净的活体营养型植物病原卵菌原始reads信息，从根本上保证获得的活体营养型植物病原卵菌基因组序列信息的完整性和准确性，为后续挖掘致病相关基因并对其进行致病机理研究，揭示活体营养型植物病原卵菌的致病机制及其与寄主植物的互作机制，提供有力保证。

本发明的方法鉴定和去除效率高，时间周期短，操作简便，为活体营养型病原卵菌基因组污染鉴定和基因组组装提供了一套切实可操作的方法流程。

具体实施方式

以下的实施例便于更好地理解本发明，但并不限定本发明。下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的试验材料和试剂，如无特殊说明，均为常规生化试剂，购自试剂公司。

实施例：葡萄霜霉菌无污染基因组的组装

(1)对一例葡萄霜霉菌进行PacBio三代全基因组测序，共得到1,836,120条原始reads，共计19.2G的数据量；使用发明专利《一种快速准确鉴定高通量基因组数据污染源的方法》(CN201610117589)公开的方法进行污染源的鉴定工作，鉴定到包括寄主植物在内的246种污染源物种，直接从NCBI下载候选污染物种对应的全基因组序列，并将这些基因组序列合并到一个文件中；

(3)将保留的reads再组装，基于组装结果，重复(1)、(2)步骤，直至没有更多的污染数据被去除，共去除污染reads有373,076条，共计达4.6G的数据量，剩余reads有1,463,044条，共计14.7G，去除的污染数据量占原始数据量的24％，利用最终保留的reads进行组装，得到1598条contig，共计98.2M的基因组，contig N50达到404.7K，GC含量为45.21％；

(5)将步骤(4)使用的reference以每500bp作为一个窗口进行统计，依次统计窗口内每一个位点的read map深度，计算深度平均值；同时统计窗口内500bp的基因组区域的GC含量；统计结束后，将统计窗口后移，统计下一个500bp的窗口的GC含量和深度，直至将全基因组的GC含量和深度统计完毕；

(6)以步骤(5)统计的每个窗口的GC含量为横坐标，以对应的深度平均值为纵坐标，在二维坐标系中标注出所有窗口GC含量和深度平均值的统计结果，最终绘制成一个GC分布图，由于葡萄霜霉菌的GC含量和测序深度与可能的污染源物种存在差异，因此属于葡萄霜霉菌的统计点会集中分布在一起，与可能的污染源物种的统计点分布在坐标系中会产生明显的分离，因此可通过GC分布将葡萄霜霉菌和污染源物种基因组的窗口区域区分开，进而获得污染源物种基因组对应的窗口区域；

其中，深度平均值的计算方法为：500个位点的深度值累加后，再除以500；GC含量的统计方法为：窗口内的G或C的碱基总数，除以500，再乘以100％；

通过该方法分析发现所有的窗口GC分布均集中在一个范围内，并未发生分离，因此未发现新的可能污染物种；说明通过前期的去污染方法，已较好的去除了污染源，最终获得了98.2M的葡萄霜霉菌基因组。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种获得活体营养型植物病原卵菌无污染基因组的方法，其特征在于，包括以下步骤：

(1)进行污染源的鉴定工作，基于获得的污染源对应的物种信息，直接从NCBI下载候选污染物种对应的全基因组序列，并将这些基因组序列合并到一个文件中；

其中，所述污染源的鉴定工作步骤为：

(a)组装denovo测序的原始基因组测序数据，得到组装结果；

①java PollutedIdentificationgetAnnotationFromNCBIDBByBlastOutblastOutResultncbiDB>result1，本步骤从NCBI的数据库中获取原始比对数据库中每条序列对应的注释信息，注释信息中就包含对应的物种信息；②java PollutedIdentificationgetPollutedSpeciesInfoByNCBIDBBlastOut result1ThreadHold>result2，本步骤设定e value≤1e-5、identity≥80％，将第①步的结果中的物种信息进行统计，凡是大于设定阈值的物种都会被统计，从而得到最终的物种统计结果，最终统计结果的格式为：每一个物种信息占一行，每行两列，第一列为物种信息，第二列为对应的比对到此物种的query序列总数，统计结果以文本文档的格式用记事本或Notepad++软件打开，然后将内容拷贝到excel表格中，按第二列统计数字按从大到小排序，排序后，就清晰直观的观察到最终的组装序列对应的物种从多到少的排序，进而根据物种的信息，判断是否有污染，以及主要污染源及其污染情况；

其中，在完成步骤(c)之后，根据排序结果判断，如排在最前面的不是测序物种及近源物种，而是细菌或其他明显为污染的物种，且e value≤1e-5、identity≥80％，就说明污染较严重；或排在前面的是近源物种，但其他非近源物种的e value≤1e-5、identity≥80％，且每个占比或总量≥1％，也说明有污染；

其中，在步骤(d)中，使用AUGUSTUS软件将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列；进行blast比对时使用的具体命令为：blastall-p blastp-dBlastDB-i in_file.fasta-m8–b 20-e 1e-5>blast_output2；

(5)将步骤(4)使用的reference分成多个窗口，根据步骤(4)中的比对结果统计每个窗口的基因组区域的深度平均值和GC含量；

(6)以步骤(5)统计的每个窗口的GC含量为横坐标，以对应的深度平均值为纵坐标，在二维坐标系中标注出所有窗口GC含量和深度平均值的统计结果，最终绘制成一个GC分布图，由于活体营养型植物病原卵菌基因组的GC含量和测序深度与可能的污染源物种存在差异，因此属于植物病原卵菌的统计点会集中分布在一起，与可能的污染源物种的统计点分布在坐标系中会产生明显的分离，因此通过GC分布将植物病原卵菌和污染源物种基因组的窗口区域区分开，进而获得污染源物种基因组对应的窗口区域；

(8)将剩余的reads再组装，得到最终的组装结果。

2.按照权利要求1所述的方法，其特征在于：在步骤(5)中，将reference以每500bp作为一个窗口进行统计，依次统计窗口内每一个位点的read map深度，计算深度平均值；同时统计窗口内500bp的基因组区域的GC含量；统计结束后，将统计窗口后移，统计下一个500bp的窗口的GC含量和深度；直至将全基因组的GC含量和深度统计完毕。

3.按照权利要求1所述的方法，其特征在于，在步骤(5)中深度平均值的计算方法为：500个位点的深度值累加后，再除以500。

4.按照权利要求1所述的方法，其特征在于，在步骤(5)中GC含量的统计方法为：窗口内的G或C的碱基总数，除以500，再乘以100％。