CN110111847A

CN110111847A - 基于its2鉴定植物物种的方法及设备

Info

Publication number: CN110111847A
Application number: CN201910335741.8A
Authority: CN
Inventors: 宁康; 白虹; 李洪军
Original assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-09

Abstract

本发明实施例提供了一种基于ITS2鉴定植物物种的方法及设备。其中，所述方法包括：获取待鉴定植物的分类学信息和ITS2序列，并分解为处理用文件，提取所述处理用文件中的ITS2序列和物种注释，采用隐马尔科夫模型，对位置不明确的ITS2序列进行定位，并去除包含三个以上一分子含氮碱基的ITS2序列，得到预处理数据；对所述预处理数据进行聚类，并对聚类后的数据进行除错，得到最终数据，采用所述最终数据中的ITS2序列和物种注释构建数据库，并对所述数据库中的ITS2序列进行比对，完成对植物物种的鉴定。本发明实施例提供的基于ITS2鉴定植物物种的方法及设备，能够以较为严格和完整的植物物种鉴定流程，通过高通量测序技术，实现对植物物种的精确鉴定。

Description

基于ITS2鉴定植物物种的方法及设备

技术领域

本发明实施例涉及生物信息学技术领域，尤其涉及一种基于ITS2鉴定植物物种的方法及设备。

背景技术

植物物种鉴定是科学研究中密不可分的一部分，在植物学研究上也有实际意义。高通量测序技术和高通量筛选的需求十分广大，以DNA标志物为基础的高效准确的鉴定技术，对于有效分析植物物种或者植物混合物的生物成分极为重要。目前世界上已经被分类的植物物种约为三十万种，在食物、医疗、木材等各个方面为我们的现代社会提供珍贵的资源。植物物种鉴定和分类作为生态学，植物学以及生物学等学科的基础，与植物资源利用和保护的联系十分紧密。相关的植物鉴定方法包括：物理特征鉴定法，通过高效液相色谱(HPLC)或者薄层色谱(TLC)技术产生的色谱指纹推断法等。然而这些方法在处理外形或者化学组成上难以区分、易改变的物种时会有很大困难。因此，采用基于DNA的分子标志物来鉴定植物物种是一种十分有效和可靠的鉴定方法，尤其是对于包含多种植物成分的混合物而言。“DNA条形码”的基础是物种基因组中一小块区域的标准化短序列DNA，它可以快速准确地区分来自同一界的其它物种。作为一种具有代表性的标志物，内部转录间隔区2(ITS2)是核RNA顺反子快速进化的位置，在序列间具有很大的不同，同时还具有易于扩增和通用性强的特征，因此它十分适合在低分类水平的系统发育学的研究和参考中作为“DNA条形码”使用。对于植物而言，ITS2作为一种高效的、基于DNA的标志物，已经在种或亚种水平的物种鉴定上得到了十分广泛的使用。而随着下一代测序(Next Generation Sequencing,NGS)技术的发展，获取基于DNA标志物的序列数据已经越来越容易，相关数据量也在不断增长，因此对于植物制剂的高通量研究已经是大势所趋。然而，针对ITS2序列的物种数据库集成程度很低，不同数据库收集的物种各不相同，而且对于如何利用高通量测序技术得到的数据进行物种鉴定，没有一个很严格和准确的流程。因此，找到一种在整合不同数据库来源的植物物种ITS2序列的基础上，以较为严格和完整的物种鉴定流程对植物物种进行鉴定的方法，就成为业界亟待解决的技术问题。

发明内容

针对现有技术存在的上述问题，本发明实施例提供了一种基于ITS2鉴定植物物种的方法及设备。

第一方面，本发明的实施例提供了一种基于ITS2鉴定植物物种的方法，包括：获取待鉴定植物的分类学信息和ITS2序列，并分解为处理用文件，提取所述处理用文件中的ITS2序列和物种注释，采用隐马尔科夫模型，对位置不明确的ITS2序列进行定位，并去除包含三个以上一分子含氮碱基的ITS2序列，得到预处理数据；对所述预处理数据进行聚类，并对聚类后的数据进行除错，得到最终数据，采用所述最终数据中的ITS2序列和物种注释构建数据库，并对所述数据库中的ITS2序列进行比对，完成对植物物种的鉴定。

进一步地，所述获取待鉴定植物的分类学信息和ITS2序列，包括：从NCBI的Nucleotide数据库，获取Genbank格式的信息，采用脚本从所述Genbank格式的信息中，提取待鉴定植物的分类学信息和ITS2序列；其中，所述Genbank格式的信息为与ITS2和所述待鉴定植物相关的信息。

进一步地，所述提取所述处理用文件中的ITS2序列和物种注释，包括：采用正则表达式，提取处理用文件中的ITS2序列和物种注释。

进一步地，所述的基于ITS2鉴定植物物种的方法，还包括：去除长度小于100bp的ITS2序列、环境样本ITS2序列、冗余ITS2序列和长度大于900bp的ITS2序列。

进一步地，所述对所述预处理数据进行聚类，包括：采用UCLUST对所述预处理数据进行聚类，将相似性阈值设置为99％。

进一步地，所述并对聚类后的数据进行除错，包括：若所述聚类后的数据中存在不同的植物物种，则检查所述不同的植物物种的比例，删除占比小于预设阈值的所述不同的植物物种的ITS2序列。

进一步地，所述采用所述最终数据中的ITS2序列和物种注释构建数据库，包括：采用所述物种注释和所述最终数据中的ITS2序列，构建数据库文件，对所述最终数据中的ITS2序列进行31-mer比对，构建k-mer与植物物种的对应关系，最终构建数据库。

第二方面，本发明的实施例提供了一种基于ITS2鉴定植物物种的装置，包括：

数据预处理模块，用于获取待鉴定植物的分类学信息和ITS2序列，并分解为处理用文件，提取所述处理用文件中的ITS2序列和物种注释，采用隐马尔科夫模型，对位置不明确的ITS2序列进行定位，并去除包含三个以上一分子含氮碱基的ITS2序列，得到预处理数据；

植物物种鉴定模块，用于对所述预处理数据进行聚类，并对聚类后的数据进行除错，得到最终数据，采用所述最终数据中的ITS2序列和物种注释构建数据库，并对所述数据库中的ITS2序列进行比对，完成对植物物种的鉴定。

第三方面，本发明的实施例提供了一种电子设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于ITS2鉴定植物物种的方法。

第四方面，本发明的实施例提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于ITS2鉴定植物物种的方法。

本发明实施例提供的基于ITS2鉴定植物物种的方法及设备，通过对获取的植物ITS2序列进行质控和精炼除错，然后以精炼除错后的数据建立相应的数据库，并最终进行数据库中ITS2序列的对比，能够以较为严格和完整的植物物种鉴定流程，通过高通量测序技术，实现对植物物种的精确鉴定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于ITS2鉴定植物物种的方法流程图；

图2为本发明实施例提供的基于ITS2鉴定植物物种的装置结构示意图；

图3为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合，以形成可行的技术方案，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明实施例提供了一种基于ITS2鉴定植物物种的方法，参见图1，该方法包括：

101、获取待鉴定植物的分类学信息和ITS2序列，并分解为处理用文件，提取所述处理用文件中的ITS2序列和物种注释，采用隐马尔科夫模型，对位置不明确的ITS2序列进行定位，并去除包含三个以上一分子含氮碱基的ITS2序列，得到预处理数据；其中，分解为处理用文件具体包括：去除下载的genbank格式文件中的网址字符串，并依次按序号分解为处理用文件以方便后续处理。另外，隐马尔科夫模型的构建主要是从有效ITS2序列中抽取出一千条序列进行多序列比对并构建隐马尔科夫模型，再使用模型来预测位置不明确的ITS2序列。

102、对所述预处理数据进行聚类，并对聚类后的数据进行除错，得到最终数据，采用所述最终数据中的ITS2序列和物种注释构建数据库，并对所述数据库中的ITS2序列进行比对，完成对植物物种的鉴定。

在上述实施例的基础上，本发明实施例中提供的基于ITS2鉴定植物物种的方法，所述获取待鉴定植物的分类学信息和ITS2序列，包括：从NCBI的Nucleotide数据库，获取Genbank格式的信息，采用脚本从所述Genbank格式的信息中，提取待鉴定植物的分类学信息和ITS2序列；其中，所述Genbank格式的信息为与ITS2和所述待鉴定植物相关的信息。具体地，从NCBI的Nucleotide数据库中，获取Genbank格式的与ITS2和植物相关的信息。之后，使用脚本文件对原始数据进行处理，来提取文件中需要的相关信息，包括：分类学信息，ITS2序列(原始序列可能同时包含上下游的其他序列如5.8S和28S rRNA基因，需要根据文件中的信息进行提取)。在此过程中会注意到，对于有些ITS2位置信息模糊的序列，隐马尔科夫模型可以被用来进行ITS2序列的预测。对提取到的序列进行质量控制，符合以下标准的序列被筛掉：冗余序列，长度小于100bp的序列(通常是部分而非完整的ITS2序列)，物种注释不完整的序列，含有大片段简并碱基的序列(连续出现超过3次)。

在上述实施例的基础上，本发明实施例中提供的基于ITS2鉴定植物物种的方法，所述提取所述处理用文件中的ITS2序列和物种注释，包括：采用正则表达式，提取处理用文件中的ITS2序列和物种注释。具体地，根据物种注释通过正则表达式提取处理用文件中的ITS2序列和物种注释。由于实际提交的ITS2序列和物种注释关键字并不规范，在匹配ITS2序列的位置时，选取了出现频率最高的一种，条件比较严格，但如果放宽条件则有可能引入错误，被遗漏的序列下一步再继续处理(其中包括可以进一步被确定为有效、无效以及需要构建隐马尔科夫模型进行预测三种)，同时还要注意有时ITS2序列是不完整的，ITS2的起始位置在左端以前或者结束位置在右端以后。

在上述实施例的基础上，本发明实施例中提供的基于ITS2鉴定植物物种的方法，还包括：去除长度小于100bp的ITS2序列、环境样本ITS2序列、冗余ITS2序列和长度大于900bp的ITS2序列。

在上述实施例的基础上，本发明实施例中提供的基于ITS2鉴定植物物种的方法，所述对所述预处理数据进行聚类，包括：采用UCLUST对所述预处理数据进行聚类，将相似性阈值设置为99％。具体地，OTU(Operational Taxonomic Unit,可操作分类单元)思想来源于二代测序下的微生物物种鉴定。在微生物领域，测序得到的序列在鉴定物种前，要先进行聚类。因为一般认定如果两条序列的相似度在一定程度以上，就可以认为是一个物种，整个聚类就认定为一个OTU。在本专利中，我们借助这一基于序列相似度的物种聚类方法，首先进行聚类然后再进行物种鉴定。

采用UCLUST(版本v1.2.22q)对初步质控的数据进行聚类，设置相似性阈值为99％以期每个类中的序列同属于同一个物种。实际过程之中，可能会出现两个无较大亲缘关系的物种聚在同一类下的情况，此时，认为类内物种序列占多数的物种为该类代表的物种(通常一个物种的ITS2序列会有多个记录，源于不同的具体样本)。对于代表非多数物种的序列，进行下一轮的聚类。过程中，对于类内相似性过高的两个不同物种，稀少序列的物种被认为是错误的注释或存在其他问题而从数据库中删除。通过聚类加质控的方式，将原始序列条目进行凝练，提高聚合度并能进行未知错误的校验和筛查，提高数据库内容的可靠性。

在上述实施例的基础上，本发明实施例中提供的基于ITS2鉴定植物物种的方法，所述并对聚类后的数据进行除错，包括：若所述聚类后的数据中存在不同的植物物种，则检查所述不同的植物物种的比例，删除占比小于预设阈值(例如，该预设阈值可以为5％、10％、15％、20％、30％、35％、40％或45％)的所述不同的植物物种的ITS2序列。在以上的基础上，序列仍可能存在下列问题，即人为因素或其他原因造成的序列相似性极高(99％以上)却分属不同的物种，这会给比对过程造成较大干扰。采取少数服从多数原则，根据序列相似性聚类，若类内存在不同的物种，则检查其比例，去除占比小于预设阈值的极少数序列。分别使用usearch和uclust工具对上一步处理完成的预建库数据进行聚类除错，并使用编写的脚本对聚类结果进行统计，最后仍会得到一个需要人工处理的文件，分别按照相似度进行数据选择即可。

完成这一步后需要对之前处理过程中的产生的序列文件、头文件以及物种注释文件进行整合，以便于建库。

在上述实施例的基础上，本发明实施例中提供的基于ITS2鉴定植物物种的方法，所述采用所述最终数据中的ITS2序列和物种注释构建数据库，包括：采用所述物种注释和所述最终数据中的ITS2序列，构建数据库文件，对所述最终数据中的ITS2序列进行31-mer比对，构建k-mer与植物物种的对应关系，最终构建数据库。具体地，对于经过质控和精炼除错的序列数据和较高质量的物种注释信息，出于搜索引擎需要的考量，建立的数据库包含两种形式，其一是包含物种注释信息(以编号对应)及ITS2序列数据的数据库文件，用于QIIME分析平台内BLAST和UCLUST方法的参考数据库；其二是对已有序列进行31-mer比对，采用NCBI taxonomy数据库构建k-mer与物种对应关系，最终构建成数据库。

在上述实施例的基础上，所述并对所述数据库中的ITS2序列进行比对，完成对植物物种的鉴定，包括：对于ITS2序列比对而言，采用BLAST算法，基于序列比对；还可以采用Kraken算法，基于K-mer。前者被广泛使用，但可能存在效率上的问题，后者基于不同的k-mer进行比对，可在一定程度上解决需要逐条序列完整比对的问题，大大提高了效率和可用性，而且保证了鉴定的准确性。

本发明实施例提供的基于ITS2鉴定植物物种的方法，通过对获取的植物ITS2序列进行质控和精炼除错，然后以精炼除错后的数据建立相应的数据库，并最终进行数据库中ITS2序列的对比，能够以较为严格和完整的植物物种鉴定流程，通过高通量测序技术，实现对植物物种的精确鉴定。

为了更加清晰的阐述本发明的技术方案的本质，在上述实施例的基础上，拟提出一个整体的实施例，从整体上展现本发明技术方案的全貌。需要说明的是，该整体实施例仅仅是为了将本发明的技术本质进一步体现出来，并不是对本发明保护范围的限制，本领域技术人员在本发明各个实施例的基础上，通过组合技术特征，得到的任何满足本发明技术方案本质的组合型技术方案，只要能够实际实施，均在本专利的保护范围之内。

处方药物是一种成分及用量明确的中药，但是不同厂家在生产处方药物的时候，可能会存在用量和成分上的差别，甚至会有大量的杂质掺入，从而影响药效。所以，对于不同厂家的牛黄降压丸的二代测序结果进行物种鉴定，不仅可以验证本专利构建的物种鉴定方法的准确性(处方药物的组成和用量都可以鉴定出来)，还可以评估药品制作的质量(探究药品质量与物种组成的关系，杂质物种的组成)。

首先采用TCM–CTAB方法提取中药复方牛黄降压丸，两个厂家，三批次平行样本共18个样本的基因组。利用PCR技术将带有7bp大小标签的引物来扩增之前提取的基因组DNA的ITS2片段，然后纯化片段，并按编号回收保存，将纯化后的PCR产物和相应的引物一起送往公司测序。

采用构建的植物物种鉴定流程，一共有2.86e6条序列，平均每个样本1.59e5条序列，一共鉴定出了43个物种，在所有的样本中都可以检测到处方物种并且相对丰度都大于0.2％，如表1。

表1

表1在18个牛黄降压丸测序结果中相对丰度大于0.2％的物种分布。从结果来看，所有的牛黄降压丸的有效成分都能检测到，说明我们的鉴定工具具有一定的准确性并且不同厂商药物有效成分的一致性。同一药厂不同批次的牛黄降压丸的成分、含量接近。不同厂商同一批次的药物成分和含量有所不同，而且不同厂商的药物药效不一样，从我们鉴定结果来看，可能与药物有效成分含量和杂质含量有关。

本发明各个实施例的实现基础是通过具有处理器功能的设备进行程序化的处理实现的。因此在工程实际中，可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况，在上述各实施例的基础上，本发明的实施例提供了一种基于ITS2鉴定植物物种的装置，该装置用于执行上述方法实施例中的基于ITS2鉴定植物物种的方法。参见图2，该装置包括：

数据预处理模块201，用于获取待鉴定植物的分类学信息和ITS2序列，并分解为处理用文件，提取所述处理用文件中的ITS2序列和物种注释，采用隐马尔科夫模型，对位置不明确的ITS2序列进行定位，并去除包含三个以上一分子含氮碱基的ITS2序列，得到预处理数据；

植物物种鉴定模块202，用于对所述预处理数据进行聚类，并对聚类后的数据进行除错，得到最终数据，采用所述最终数据中的ITS2序列和物种注释构建数据库，并对所述数据库中的ITS2序列进行比对，完成对植物物种的鉴定。

本发明实施例提供的基于ITS2鉴定植物物种的装置，采用数据预处理模块和植物物种鉴定模块，通过对获取的植物ITS2序列进行质控和精炼除错，然后以精炼除错后的数据建立相应的数据库，并最终进行数据库中ITS2序列的对比，能够以较为严格和完整的植物物种鉴定流程，通过高通量测序技术，实现对植物物种的精确鉴定。

本发明实施例的方法是依托电子设备实现的，因此对相关的电子设备有必要做一下介绍。基于此目的，本发明的实施例提供了一种电子设备，如图3所示，该电子设备包括：至少一个处理器(processor)301、通信接口(Communications Interface)304、至少一个存储器(memory)302和通信总线303，其中，至少一个处理器301，通信接口304，至少一个存储器302通过通信总线303完成相互间的通信。至少一个处理器301可以调用至少一个存储器302中的逻辑指令，以执行如下方法：获取待鉴定植物的分类学信息和ITS2序列，并分解为处理用文件，提取所述处理用文件中的ITS2序列和物种注释，采用隐马尔科夫模型，对位置不明确的ITS2序列进行定位，并去除包含三个以上一分子含氮碱基的ITS2序列，得到预处理数据；对所述预处理数据进行聚类，并对聚类后的数据进行除错，得到最终数据，采用所述最终数据中的ITS2序列和物种注释构建数据库，并对所述数据库中的ITS2序列进行比对，完成对植物物种的鉴定。

此外，上述的至少一个存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。例如包括：获取待鉴定植物的分类学信息和ITS2序列，并分解为处理用文件，提取所述处理用文件中的ITS2序列和物种注释，采用隐马尔科夫模型，对位置不明确的ITS2序列进行定位，并去除包含三个以上一分子含氮碱基的ITS2序列，得到预处理数据；对所述预处理数据进行聚类，并对聚类后的数据进行除错，得到最终数据，采用所述最终数据中的ITS2序列和物种注释构建数据库，并对所述数据库中的ITS2序列进行比对，完成对植物物种的鉴定。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于这种认识，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本专利中，术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句"包括……"限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于ITS2鉴定植物物种的方法，其特征在于，包括：

获取待鉴定植物的分类学信息和ITS2序列，并分解为处理用文件，提取所述处理用文件中的ITS2序列和物种注释，采用隐马尔科夫模型，对位置不明确的ITS2序列进行定位，并去除包含三个以上一分子含氮碱基的ITS2序列，得到预处理数据；

对所述预处理数据进行聚类，并对聚类后的数据进行除错，得到最终数据，采用所述最终数据中的ITS2序列和物种注释构建数据库，并对所述数据库中的ITS2序列进行比对，完成对植物物种的鉴定。

2.根据权利要求1所述的基于ITS2鉴定植物物种的方法，其特征在于，所述获取待鉴定植物的分类学信息和ITS2序列，包括：

从NCBI的Nucleotide数据库，获取Genbank格式的信息，采用脚本从所述Genbank格式的信息中，提取待鉴定植物的分类学信息和ITS2序列；

其中，所述Genbank格式的信息为与ITS2和所述待鉴定植物相关的信息。

3.根据权利要求1所述的基于ITS2鉴定植物物种的方法，其特征在于，所述提取所述处理用文件中的ITS2序列和物种注释，包括：

采用正则表达式，提取处理用文件中的ITS2序列和物种注释。

4.根据权利要求1所述的基于ITS2鉴定植物物种的方法，其特征在于，还包括：

去除长度小于100bp的ITS2序列、环境样本ITS2序列、冗余ITS2序列和长度大于900bp的ITS2序列。

5.根据权利要求1所述的基于ITS2鉴定植物物种的方法，其特征在于，所述对所述预处理数据进行聚类，包括：

采用UCLUST对所述预处理数据进行聚类，将相似性阈值设置为99％。

6.根据权利要求1所述的基于ITS2鉴定植物物种的方法，其特征在于，所述并对聚类后的数据进行除错，包括：

若所述聚类后的数据中存在不同的植物物种，则检查所述不同的植物物种的比例，删除占比小于预设阈值的所述不同的植物物种的ITS2序列。

7.根据权利要求1所述的基于ITS2鉴定植物物种的方法，其特征在于，所述采用所述最终数据中的ITS2序列和物种注释构建数据库，包括：

采用所述物种注释和所述最终数据中的ITS2序列，构建数据库文件，对所述最终数据中的ITS2序列进行31-mer比对，构建k-mer与植物物种的对应关系，最终构建数据库。

8.一种基于ITS2鉴定植物物种的装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器、至少一个存储器、通信接口和总线；其中，

所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以执行如权利要求1至7任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7中任一项所述的方法。