CN113723501A

CN113723501A - 一种病原微生物参考知识库的最大多样性聚类构建方法

Info

Publication number: CN113723501A
Application number: CN202110995722.5A
Authority: CN
Inventors: 吴俊阳
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-30

Abstract

本发明公开了一种病原微生物参考知识库的最大多样性聚类构建方法，属于生物技术领域，该构建方法具体步骤如下：(1)收集病原微生物全基因组序列；(2)将序列进行OTU聚类，并进行统计；(3)对错误序列进行检测删除并进行记录；(4)对各病原微生物进行注释匹配；(5)构建微生物知识库，同时将数据表反馈给工作人员；本发明能够扩大知识库适用人群，方便人们了解各类病原微生物，提高了科技资源共享服务质量，能够保证知识库的完整性，提高知识库的构建质量，节省工作人员排查时间。

Description

一种病原微生物参考知识库的最大多样性聚类构建方法

技术领域

本发明涉及生物技术领域，尤其涉及一种病原微生物参考知识库的最大多样性聚类构建方法。

背景技术

随着科技的不断发展，专家发现的病原体的种类涵盖细菌、真菌、寄生虫、病毒、支原体或衣原体、分枝杆菌等，涵盖的种类超过2万种，病原微生物参考知识库建设时不仅需要包括染色体，还需要考虑线粒体、转录组序列及非编码序列等，当前病原微生物的知识库建立的方法是采用从国际公共数据库中通过获取、整合、筛选等一系列处理过程进行建立，通常知识库的建立方式有三种，分别是冗余方法、菌株代表序列法和打断重组法，病原微生物的知识库的出现推动新时代我国病原微生物资源保护和利用工作更好发展，为科学研究、技术进步和社会发展提供高质量的科技资源共享服务；因此，发明出一种病原微生物参考知识库的最大多样性聚类构建方法变得尤为重要；

经检索，中国专利号CN112800245A公开了一种病原微生物参考知识库的最大多样性聚类构建方法，该发明虽然准确性高、检测效率高且数据冗余率低，但是未对构建完成的知识库中的参考信息进行解释说明，知识库适用人群范围小，不方便人们了解各类病原微生物；此外。现有的病原微生物参考知识库的最大多样性聚类构建方法在聚类过程容易因判断失误导致部分病原微生物数据未进行聚类，无法保证知识库的完整性，降低知识库的构建质量，需要工作人员花费大量时间进行数据排查；为此，我们提出一种病原微生物参考知识库的最大多样性聚类构建方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的一种病原微生物参考知识库的最大多样性聚类构建方法。

为了实现上述目的，本发明采用了如下技术方案：

一种病原微生物参考知识库的最大多样性聚类构建方法，该构建方法具体步骤如下：

(1)收集病原微生物全基因组序列：对云端数据库中存储的病原微生物全基因组序列进行提取，并对提取出的基因组序列进行去重筛选；

(2)将序列进行OTU聚类，并进行统计：将筛选完成的基因组序列进行OTU聚类，同时将无法聚类的基因组序列处理生成错误序列，并将其录入OTU筛选表中；

(3)对错误序列进行检测删除并进行记录：对错误序列进行数据筛错，并将错误序列信息进行更新，同时对其重新进行OTU聚类处理；

(4)对各病原微生物进行注释匹配：依据OTU聚类表中分类完成的数据进行数据检索，并对各病原微生物全基因组序列的相关信息进行抓取，同时对其进行信息匹配；

(5)构建微生物知识库，将数据表反馈给工作人员：将信息匹配完成的病原微生物数据整合生成微生物知识库，并将未匹配成功的病原微生物全基因组序列反馈给工作人员，同时由工作人员对其进行信息补充，微生物知识库进行数据更新。

进一步地，步骤(1)中所述去重筛选具体步骤如下：

步骤一：服务器将病原微生物全基因组序列依据首字母A～Z进行有序排列，并将其分为26组数据，同时将未排序的病原微生物全基因组序列组成第27组数据；

步骤二：依次对各组数据中的病原微生物全基因组序列进行重复数据查询，并将其中重复的病原微生物全基因组序列删除。

进一步地，步骤(2)中所述OTU聚类具体步骤如下：

第一步：工作人员设置百分比标识阈值X，27组数据与参考数据库中预先定义的聚类中心对齐；

第二步：各组数据依次对参考数据库进行查询，如果读取匹配的参考序列相似度大于或等于X，则将其分配给该参考序列定义的OTU，并将其处理生成OTU1；

第三步：将无法匹配参考数据库的病原微生物全基因组序列进行de novo，并将匹配完成的序列处理生成OTU2；

第四步：将未成功匹配的病原微生物全基因组序列标记为错误序列，同时将OTU1以及OTU2中的所有序列录入OTU聚类表中，将错误序列录入OTU筛选表中。

进一步地，步骤(3)中所述数据筛错具体步骤如下：

S1：对OTU筛选表中的错误序列依次进行序列检测，并判断其是否为嵌合体序列或测序错误序列；

S2：若为嵌合体序列或测序错误序列，则将该序列删除，并在OTU筛选表中更新其相关信息；

S3：若不为嵌合体序列或测序错误序列，则对该序列重新进行OUT聚类处理，若聚类处理成功，则将其移出OTU筛选表，并更新OTU聚类表，若OUT聚类失败，同时将其信息反馈给工作人员，并由工作人员对其进行手动操作，同时依据工作人员操作信息更新OTU筛选表以及OTU聚类表。

进一步地，步骤(4)中所述信息匹配具体步骤如下：

SS1：将OTU聚类表中各病原微生物全基因组序列依次与注释数据库进行比对；

SS2：依据比对结果将各病原微生物全基因组序列依据域、界、门、纲、目、科、属以及种进行分类统计；

SS3：与互联网通信连接，并开始对各病原微生物全基因组序列进行信息检索抓取，同时将抓取到的信息与对应病原微生物全基因组序列进行数据匹配。

进一步地，步骤(5)中所述数据更新具体步骤如下：

P1：接收用户补充的数据信息，并将其与对应病原微生物全基因组序列进行匹配；

P2：将微生物知识库中的专业名词进行数据提取，并对各专业名词进行解释说明，同时将其匹配至对应病原微生物；

P3：更新完成，将更新信息反馈至各工作人员以及用户的智能设备。

相比于现有技术，本发明的有益效果在于：

1、该病原微生物参考知识库的最大多样性聚类构建方法，当病原微生物全基因组序列分组完成，工作人员开始设定百分比标识阈值，并开始对各组病原微生物全基因组序列进行OTU聚类处理，同时生成OUT聚类表以及OUT筛选表，对OTU筛选表中的错误序列依次进行序列检测，并判断其是否为嵌合体序列或测序错误序列，同时依据判断结果开始对相应病原微生物全基因组序列进行重新聚类或通过工作人员手动调整处理，能够保证知识库的完整性，提高知识库的构建质量，节省工作人员排查时间；

2、该病原微生物参考知识库的最大多样性聚类构建方法，将OTU聚类表中各病原微生物全基因组序列依次与注释数据库进行比对，并据比对结果将各病原微生物全基因组序列进行分类统计，同时对各病原微生物全基因组序列进行信息检索抓取，同时将抓取到的信息与对应病原微生物全基因组序列进行数据匹配，工作人员将信息确实的病原微生物进行信息补充，补充完成，开始对微生物知识库中的专业名词进行数据提取，并对各专业名词进行解释说明，使微生物知识库中各病原微生物信息更加通俗易懂，能够扩大知识库适用人群，方便人们了解各类病原微生物，提高了科技资源共享服务质量。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的一种病原微生物参考知识库的最大多样性聚类构建方法的流程框图；

图2为本发明提出的一种病原微生物参考知识库的最大多样性聚类构建方法的OTU聚类相似度选择示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

参照图1-2，一种病原微生物参考知识库的最大多样性聚类构建方法，本实施例主要公开了一种OUT聚类方法：

收集病原微生物全基因组序列：对云端数据库中存储的病原微生物全基因组序列进行提取，并对提取出的基因组序列进行去重筛选。

具体的，服务器将病原微生物全基因组序列依据首字母A～Z进行有序排列，并将其分为26组数据，同时将未排序的病原微生物全基因组序列组成第27组数据，依次对各组数据中的病原微生物全基因组序列进行重复数据查询，并将其中重复的病原微生物全基因组序列删除。

将序列进行OTU聚类，并进行统计：将筛选完成的基因组序列进行OTU聚类，同时将无法聚类的基因组序列处理生成错误序列，并将其录入OTU筛选表中。

具体的，工作人员设置百分比标识阈值X，27组数据与参考数据库中预先定义的聚类中心对齐，各组数据依次对参考数据库进行查询，如果读取匹配的参考序列相似度大于或等于X，则将其分配给该参考序列定义的OTU，并将其处理生成OTU1，将无法匹配参考数据库的病原微生物全基因组序列进行de novo，并将匹配完成的序列处理生成OTU2，将未成功匹配的病原微生物全基因组序列标记为错误序列，同时将OTU1以及OTU2中的所有序列录入OTU聚类表中，将错误序列录入OTU筛选表中。

其中，需要进一步说明的是病原微生物全基因组序列是按照梯度相似度(如：70～99％之间)分别进行OTU聚类，将不同相似度的OTU数量进行统计，如图2所示当在某一相似度时，OTU数量出现拐点时，即为最合适的聚类相似度。

对错误序列进行检测删除并进行记录：对错误序列进行数据筛错，并将错误序列信息进行更新，同时对其重新进行OTU聚类处理。

具体的，对OTU筛选表中的错误序列依次进行序列检测，并判断其是否为嵌合体序列或测序错误序列，若为嵌合体序列或测序错误序列，则将该序列删除，并在OTU筛选表中更新其相关信息，若不为嵌合体序列或测序错误序列，则对该序列重新进行OUT聚类处理，若聚类处理成功，则将其移出OTU筛选表，并更新OTU聚类表，若OUT聚类失败，同时将其信息反馈给工作人员，并由工作人员对其进行手动操作，同时依据工作人员操作信息更新OTU筛选表以及OTU聚类表；

本实施例中通过对OTU筛选表中的错误序列依次进行序列检测，并判断其是否为嵌合体序列或测序错误序列，同时依据判断结果开始对相应病原微生物全基因组序列进行重新聚类或通过工作人员手动调整处理，能够保证知识库的完整性，提高知识库的构建质量，节省工作人员排查时间。

实施例2

参照图1，一种病原微生物参考知识库的最大多样性聚类构建方法，除与上述实施例相同的结构外，本实施例主要公开了一种数据更新方法：

对各病原微生物进行注释匹配：依据OTU聚类表中分类完成的数据进行数据检索，并对各病原微生物全基因组序列的相关信息进行抓取，同时对其进行信息匹配。

具体的，将OTU聚类表中各病原微生物全基因组序列依次与注释数据库进行比对，依据比对结果将各病原微生物全基因组序列依据域、界、门、纲、目、科、属以及种进行分类统计，与互联网通信连接，并开始对各病原微生物全基因组序列进行信息检索抓取，同时将抓取到的信息与对应病原微生物全基因组序列进行数据匹配。

此外，需要进一步说明的是，注释数据库具体包括EzTaxon-

e、R ibosomal Database Project(RDP)、SILVA以及Green Genes。

构建微生物知识库，将数据表反馈给工作人员：将信息匹配完成的病原微生物数据整合生成微生物知识库，并将未匹配成功的病原微生物全基因组序列反馈给工作人员，同时由工作人员对其进行信息补充，微生物知识库进行数据更新。

具体的，接收用户补充的数据信息，并将其与对应病原微生物全基因组序列进行匹配，将微生物知识库中的专业名词进行数据提取，并对各专业名词进行解释说明，同时将其匹配至对应病原微生物，更新完成，将更新信息反馈至各工作人员以及用户的智能设备。

需要进一步说明的是，智能设备包括智能手机、平板电脑以及笔记本电脑；

本实施例通过将OTU聚类表中各病原微生物全基因组序列依次与注释数据库进行比对，并据比对结果将各病原微生物全基因组序列进行分类统计，同时对各病原微生物全基因组序列进行信息检索抓取，同时将抓取到的信息与对应病原微生物全基因组序列进行数据匹配，工作人员将信息确实的病原微生物进行信息补充，补充完成，开始对微生物知识库中的专业名词进行数据提取，并对各专业名词进行解释说明，使微生物知识库中各病原微生物信息更加通俗易懂，能够扩大知识库适用人群，方便人们了解各类病原微生物，提高了科技资源共享服务质量。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种病原微生物参考知识库的最大多样性聚类构建方法，其特征在于，该构建方法具体步骤如下：

2.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法，其特征在于，步骤(1)中所述去重筛选具体步骤如下：

3.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法，其特征在于，步骤(2)中所述OTU聚类具体步骤如下：

4.根据权利要求3所述的一种病原微生物参考知识库的最大多样性聚类构建方法，其特征在于，步骤(3)中所述数据筛错具体步骤如下：

5.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法，其特征在于，步骤(4)中所述信息匹配具体步骤如下：

6.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法，其特征在于，步骤(5)中所述数据更新具体步骤如下：