CN111681704A

CN111681704A - 一种基于matK基因的未知植物物种识别数据库的构建方法及数据库

Info

Publication number: CN111681704A
Application number: CN202010319607.1A
Authority: CN
Inventors: 宁康; 白虹; 杨朋硕; 卢璟详; 邹欣桐; 李洪军
Original assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-09-18
Anticipated expiration: 2040-04-21
Also published as: CN111681704B

Abstract

一种基于matk基因的未知植物物种识别数据库的构建方法及数据库，所述方法包括步骤：获取含有matk基因的原始序列数据文件；提取所述原始序列数据文件中的物种注释信息；将所述物种注释信息整合至所述matK基因上，以得到matK序列；对所述matk序列进行质量控制；根据所述matk序列之间的相似性进行聚类；根据聚类结果构建所述数据库。本申请提供的一种基于matk基因的未知植物物种识别数据库的构建方法及数据库优点为：(1)检测通量高；(2)高灵敏度和选择性；(3)该方法所构建的数据库覆盖面广、数据质量高、信息全面；(4)可以利用生物信息学方法在物种的水平上确定未知物种。

Description

一种基于matK基因的未知植物物种识别数据库的构建方法及数据库

技术领域

本发明属于植物物种鉴定领域，具体涉及一种基于matk基因的未知植物物种识别数据库的构建方法及数据库。

背景技术

matK基因存在于叶绿体赖氨酸trnK基因内，且位于高度保守的两个外显子中间的内含子中，是单拷贝的编码基因，参与编码转录本内被II型内含子剪切的成熟酶，进化速度介于rbcL和ITS之间，在科、属水平上具有较高的物种鉴定能力。2009年，matK基因和rbcL基因一起被生物条形码联盟(CBOL)以测序质量、物种鉴定效率和通用性为衡量标准推荐成为植物DNA条形码相关研究的核心DNA条形码。

尽管matk基因有着较出色的物种鉴定效率、通用性以及测序质量，但由于其扩增的引物通用性较差，导致在不同类群中使用matk基因通常需要使用不同的引物。李德铢等人采用单一的引物在6,286个样品里的PCR扩增效率仅仅为79.5％，是全部DNA条形码候选序列中PCR扩增效率最低的，而采用16对引物组合来对matK基因进行PCR扩增，其扩增效率为91.2％。

目前，大部分基于样本研究的植物DNA条形码研究项目都使用两类方法。第一类是针对单个或多个质体区域进行研究，比如研究非编码间隔区的DNA条形码trnH-psbA和蛋白质编码DNA条形码，也被称为“核心条形码”的rbcL基因和matk基因；第二类方法则是针对属于细胞核核糖体的DNA内部转录间隔区域进行研究，这一类研究可以选择整个ITS区域或只选择ITS2区域。而对于以混合模板或者被降解过的DNA为目标的植物研究，则通常情况下使用质体trnL内含子的P6环进行研究，由于其长度较短且具有保守的引物序列，因此，非常适合经下一代测序技术进行短读测序和扩增。

由于DNA稳定存在于个体的所有组织中，且不受外界因素的影响，可以准确地在物种水平上鉴定物种。目前，DNA条码在发现新的物种、调查植物区系领域、重建历史植被类型、研究群落系统、辅助执法部门等领域均有应用。目前，已经有一系列生物标志物被应用于物种鉴定，如matk、trnL、ITS2、psbA-trnH、COI等。研究者们应针对不同的研究对象以选择最合适的条码，他们与其他技术手段也可以被用作辅助用途，用来增加使用DNA条形码进行物种识别的成功率和可靠性。目前已经存在的数据库已经可以满足大部分研究者的需求。支持以matk基因进行物种鉴定的数据库目前有用于采集、发布、存储、分析DNA条形码记录的BOLD和包含可药用的植物，真菌，昆虫和动物的DNA条形码的MMDBD等数据库，覆盖范围广，数据质量高，保证了物种识别的准确性。

但是当识别未知植物物种时，仍然缺少一种准确、高效、覆盖范围大的数据库。

发明内容

本发明提供一种基于matK基因的未知植物物种识别数据库的构建方法及数据库，解决了现有技术中当识别未知植物物种时，仍然缺少一种准确、高效、覆盖范围大的数据库的问题。

为解决上述技术问题，本发明提供了一种基于matK基因的未知植物物种识别数据库的构建方法，所述方法包括步骤：

获取含有matK基因的原始序列数据文件；

提取所述原始序列数据文件中的物种注释信息；

将所述物种注释信息整合至所述matk基因上，以得到matk序列；

对所述matk序列进行质量控制；

根据所述matk序列之间的相似性进行聚类；

根据聚类结果构建所述数据库。

优选地，所述获取含有matK基因的原始序列数据文件包括步骤：

以matK作为关键字在NCBI Nucleotide数据库中进行检索；

下载检索结果；

以Genbank格式保存所述检索结果，以得到所述原始序列数据文件。

优选地，所述提取所述原始序列数据文件中的物种注释信息包括步骤：

获取所述原始序列数据文件的个数N；

将N个所述原始序列数据文件分割为N个单独文件；

对N个所述单独文件进行连续编号；

从每个单独文件中提取matK序列。

优选地，所述从每个单独文件中提取matK序列包括步骤：

使用最多一种关键字格式对每个所述单独文件进行第一提取matK序列操作，以得到第一提取matK序列信息；

使用最少两种关键字格式对经过所述第一提取matK序列操作后的所有所述单独文件进行第二提取matK序列操作，以得到第二提取matK序列信息；

构建隐尔马可夫模型对经过所述第二提取matk序列操作后的所有所述单独文件进行第三提取matk序列操作，以得到第三提取matK序列信息；

合并所述第一提取matK序列信息、所述第二提取matK序列信息和所述第三提取matK序列信息。

优选地，所述对所述matk序列进行质量控制包括步骤：

去除连续包含超过两个简并碱基的matK序列；

去除长度小于100和大于2000的matK序列；

去除环境样本序列和物种未被分类的matk序列；

去除冗余序列。

优选地，所述根据所述matK序列之间的相似性进行聚类包括步骤：

使用Usearch软件将通过质量控制的所述matk序列按照长度进行排序；

将排序后的所述matK序列输入Uclust软件进行最小相似性为预设值的聚类，以得到第一聚类结果；

获取当前序列与质心序列的相似度和当前序列序列的ACCESSION号：

将物种注释信息通过ACCESSION号合并到所述第一聚类结果中；

计算每个群集中每一物种占所在群集中序列的比例；

判断当前物种在群集中占比是否超过预设值；

若是，直接使用所述第一聚类结果的序列结果；

若否，检验和删除小于预设值的所述第一聚类结果中所占比例小于预设值的序列，以得到第二聚类结果，并与所述第一聚类结果合并，以得到最终聚类结果。

优选地，所述根据聚类结果构建所述数据库包括步骤：

获取所述聚类结果中的matK序列信息；

根据所述matK序列信息使用Blast命令构建matK序列数据库。

优选地，所述根据聚类结果构建所述数据库包括步骤：

获取所述聚类结果中的matk序列信息；

根据所述matk序列信息使用Kraken命令构建matk序列数据库。

本发明还提供了一种基于matk基因的未知植物物种识别数据库，所述数据库由如上述中所述方法构建而成。

本发明实施例中的一个或多个技术方案，至少具有如下技术效果或优点：

本申请提供的一种基于matK基因的未知植物物种识别数据库的构建方法及数据库优点为：(1)检测通量高；(2)高灵敏度和选择性；(3)该方法所构建的数据库覆盖面广、数据质量高、信息全面；(4)可以利用生物信息学方法在物种的水平上确定未知物种。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于matK基因的未知植物物种识别数据库的构建方法的流程示意图；

图2是本发明实施例提供的一种基于matK基因的未知植物物种识别数据库的构建方法的流程示意图；

图3是本发明实施例提供的一种基于matK基因的未知植物物种识别数据库的构建方法中隐马尔可夫模型示意图及预测matk序列流程图；

图4是本发明实施例提供的一种基于matK基因的未知植物物种识别数据库的构建方法中使用BLAST建库所需使用的数据格式及使用识别物种流程图；

图5是本发明实施例提供的一种基于matK基因的未知植物物种识别数据库的构建方法中Kraken建库所需使用的数据格式示例图；

图6是Blast、Kraken、BOLD和MMDBD四个数据库在物种识准确程度方面的比较图；

图7是本发明实施例中matK序列数据组成和聚类结果数量分布图；

图8是本发明实施例提供的一种基于matK基因的未知植物物种识别数据库的构建方法中matk序列长度分布图；

图9是图8中matk序列所占比例图。

具体实施方式

下文将结合具体实施方式和实施例，具体阐述本发明，本发明的优点和各种效果将由此更加清楚地呈现。本领域技术人员应理解，这些具体实施方式和实施例是用于说明本发明，而非限制本发明。

在整个说明书中，除非另有特别说明，本文使用的术语应理解为如本领域中通常所使用的含义。因此，除非另有定义，本文使用的所有技术和科学术语具有与本发明所属领域技术人员的一般理解相同的含义。若存在矛盾，本说明书优先。

除非另有特别说明，本发明中用到的各种原材料、试剂、仪器和设备等，均可通过市场购买得到或者可通过现有方法制备得到。

参见图1和2，在本申请实施例中，本发明提供了一种基于matK基因的未知植物物种识别数据库的构建方法，所述方法包括步骤：

S101：获取含有matK基因的原始序列数据文件；

S102：提取所述原始序列数据文件中的物种注释信息；

S103：将所述物种注释信息整合至所述matk基因上，以得到matk序列；

S104：对所述matk序列进行质量控制；

S105：根据所述matk序列之间的相似性进行聚类；

S106：根据聚类结果构建所述数据库。

在本申请实施例中，步骤S101中所述获取含有matK基因的原始序列数据文件包括步骤：

以matK作为关键字在NCBI Nucleotide数据库中进行检索；

下载检索结果；

在本申请实施例中，首先进入NCBI Nucleotide数据库，以matK作为关键字进行检索，截至日期为2019年2月28日，共得到187，308条搜索结果，并以Genbank格式下载，可以得到187，308份含有matK基因的原始序列数据文件。

在本申请实施例中，步骤S102中所述提取所述原始序列数据文件中的物种注释信息包括步骤：

获取所述原始序列数据文件的个数N；

将N个所述原始序列数据文件分割为N个单独文件；

对N个所述单独文件进行连续编号；

从每个单独文件中提取matk序列。

在本申请实施例中，原始序列数据文件的个数N为187,308，将187,308个原始序列数据文件分割为187,308个单独文件，并依次编号为1、2……187,308，然后从每个单独文件中提取matK序列。

参见图2和3，在本申请实施例中，所述从每个单独文件中提取matk序列包括步骤：

在本申请实施例中，通过对单独文件进行三轮提取，并将三轮提取后的所有matk序列信息合并，最终得到每个单独文件中提取matk序列。其中，构建隐马尔可夫模型示意图及使用隐马尔可夫模型预测matk序列流程图如图3所示。

在本申请实施例中，所述原始序列数据文件中的物种注释信息包括matK序列的ACCESSION号、GI号、SOURCE信息和ORGNISM信息。

参见图2，在本申请实施例中，

所述对所述matK序列进行质量控制包括步骤：

去除连续包含超过两个简并碱基的matK序列；

去除长度小于100和大于2000的matK序列；

去除环境样本序列和物种未被分类的matK序列；

去除冗余序列。

在本申请实施例中，经过上述质量控制(也即过滤)的matK序列即为合格的matK序列，可以用于后续的聚类操作。

在本申请实施例中，所述根据所述matK序列之间的相似性进行聚类包括步骤：

获取当前序列与质心序列的相似度和当前序列序列的ACCESSION号；

将物种注释信息通过ACCESSION号合并到所述第一聚类结果中；

计算每个群集中每一物种占所在群集中序列的比例；

判断当前物种在群集中占比是否超过预设值；

若是，直接使用所述第一聚类结果的序列结果；

在本申请实施例中，使用Usearch软件中的sort命令将通过质量控制的所述matK序列按照长度进行排序；而后将排序后的所述matK序列输入Uclust软件进行最小相似性为99％的聚类，以得到第一聚类结果；而后获取当前序列与质心序列的相似度和当前序列序列的ACCESSION号，再将将物种注释信息通过ACCESSION号合并到所述第一聚类结果中，其次计算每个群集中每一物种占所在群集中序列的比例，并判断当前物种在群集中占比是否超过90％；如果当前物种在群集中占比超过90％，则直接使用所述第一聚类结果的序列结果；如果当前物种在群集中占比没有超过90％，则检验和删除小于预设值的所述第一聚类结果中所占比例小于预设值的序列，以得到第二聚类结果，并与所述第一聚类结果合并，以得到最终聚类结果。

在本申请实施例中，147,109条matK序列经过上述操作，最终得到43,745个聚类结果。

请参阅图2和4，在本申请实施例中，所述根据聚类结果构建所述数据库包括步骤：

获取所述聚类结果中的matK序列信息；

根据所述matk序列信息使用Blast命令构建matK序列数据库。

在本申请实施例中，可以根据matk序列信息使用Blast命令构建matK序列数据库，Blast命令具体为：BLAST makeblastdb-in matK.refalign-dbtype nucl-parse_seqids-out matK命令，而后得到matK序列数据库。

请参阅图2和5，在本申请实施例中，所述根据聚类结果构建所述数据库包括步骤：

获取所述聚类结果中的matK序列信息；

根据所述matK序列信息使用Kraken命令构建matK序列数据库。

在本申请实施例中，首先将43,745个聚类结果转换为第一行包含GI号和ACCESSION号而第二行包含序列信息的fasta文件。首先使用kraken-build--download-taxonomy-db matK从NCBI的Taxonomy数据库(ftp.ncbi.nlm.nih.gov/pub/taxonomy/new_taxdump/)下载物种分类信息、分类名称、分类树信息等数据，并自动在指定的输出目录创建一个名为matK的目录，这个目录具有一个名为Taxonomy的子目录，从NCBI下载的分类学信息被存储到Taxonomy子目录中，再使用kraken-build-add-to-library matK.fasta--dbmatK命令将正确格式的matK序列加入到参考序列库中，并将参考序列被存储到这个子目录Libra ry目录下，最后使用kraken-build-build--db matK命令把参考序列库中的matK序列通过ACCESSION号匹配到分类图上、生成对应的taxid，并对数据库中的参考序列生成最小化器进行排序、创建索引、屏蔽低复杂性序列，运行完成后得到构建好的matK序列数据库，数据库存储于matK目录中。

请参阅图6和7，为Blast、Kraken、BOLD和MMDBD四个数据库在物种识别的准确程度方面的比较，以在属水平以上的成功率作为评判标准，使用Blast工具构建的matk数据库具有最好的物种识别效果，其次是Kraken构建的matk数据库。单从物种识别到种水平的结果来看，BOLD数据库识别物种的效果最佳。

请参阅图8和9，由于本申请中采用的matK基因的高度可变区域长度约为700bp，因此，用于构建matk数据库的序列长度大多分布在700bp和1500bp附近，原始的187,308条matk序列中，有22,847条matk序列在信息提取环节被舍弃，17,352条matk序列在质量控制环节被过滤，剩余的147,109条序列在聚类环节被聚类为43,745个聚类结果。BLAST和KRAKEN两种方法在建库所包含的序列条数在数量上比BOLD数据库和MMDBD数据库具有较大的优势，其原始数据包括37个纲(Class)、153个目(Order)、524个科(Family)、8938个属(Genus)和60759个种(Species)，在物种覆盖范围上较其他两个数据库更大。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于matK基因的未知植物物种识别数据库的构建方法，其特征在于，所述方法包括步骤：

获取含有matK基因的原始序列数据文件；

提取所述原始序列数据文件中的物种注释信息；

对所述matK序列进行质量控制；

根据所述matK序列之间的相似性进行聚类；

根据聚类结果构建所述数据库。

2.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法，其特征在于，所述获取含有matK基因的原始序列数据文件包括步骤：

以matK作为关键字在NCBI Nucleotide数据库中进行检索；

下载检索结果；

3.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法，其特征在于，所述提取所述原始序列数据文件中的物种注释信息包括步骤：

获取所述原始序列数据文件的个数N；

将N个所述原始序列数据文件分割为N个单独文件；

对N个所述单独文件进行连续编号；

从每个单独文件中提取matK序列。

4.根据权利要求3所述的基于matK基因的未知植物物种识别数据库的构建方法，其特征在于，所述从每个单独文件中提取matK序列包括步骤：

使用最少两种关键字格式对经过所述第一提取matK序列操作后的所有所述单独文件进行第二提取matK序列操作，以得到第二提取matK序列信息：

5.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法，其特征在于，所述对所述matK序列进行质量控制包括步骤：

去除连续包含超过两个简并碱基的matK序列；

去除长度小于100和大于2000的matK序列；

去除环境样本序列和物种未被分类的matK序列；

去除冗余序列。

6.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法，其特征在于，所述根据所述matK序列之间的相似性进行聚类包括步骤：

使用Usearch软件将通过质量控制的所述matK序列按照长度进行排序：

获取当前序列与质心序列的相似度和当前序列序列的ACCESSl0N号；

将物种注释信息通过ACCESSI0N号合并到所述第一聚类结果中；

计算每个群集中每一物种占所在群集中序列的比例；

判断当前物种在群集中占比是否超过预设值；

若是，直接使用所述第一聚类结果的序列结果；

7.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法，其特征在于，所述根据聚类结果构建所述数据库包括步骤：

获取所述聚类结果中的matK序列信息；

根据所述matK序列信息使用Blast命令构建matK序列数据库。

8.根据权利要求1所述的基于matK基因的未知植物物种识别数据库的构建方法，其特征在于，所述根据聚类结果构建所述数据库包括步骤：

获取所述聚类结果中的matK序列信息；

根据所述matK序列信息使用Kraken命令构建matK序列数据库。

9.一种基于matK基因的未知植物物种识别数据库，其特征在于，所述数据库由如权利要求1-8中所述方法构建而成。