CN113723501A - 一种病原微生物参考知识库的最大多样性聚类构建方法 - Google Patents
一种病原微生物参考知识库的最大多样性聚类构建方法 Download PDFInfo
- Publication number
- CN113723501A CN113723501A CN202110995722.5A CN202110995722A CN113723501A CN 113723501 A CN113723501 A CN 113723501A CN 202110995722 A CN202110995722 A CN 202110995722A CN 113723501 A CN113723501 A CN 113723501A
- Authority
- CN
- China
- Prior art keywords
- sequence
- pathogenic microorganism
- otu
- data
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种病原微生物参考知识库的最大多样性聚类构建方法,属于生物技术领域,该构建方法具体步骤如下:(1)收集病原微生物全基因组序列;(2)将序列进行OTU聚类,并进行统计;(3)对错误序列进行检测删除并进行记录;(4)对各病原微生物进行注释匹配;(5)构建微生物知识库,同时将数据表反馈给工作人员;本发明能够扩大知识库适用人群,方便人们了解各类病原微生物,提高了科技资源共享服务质量,能够保证知识库的完整性,提高知识库的构建质量,节省工作人员排查时间。
Description
技术领域
本发明涉及生物技术领域,尤其涉及一种病原微生物参考知识库的最大多样性聚类构建方法。
背景技术
随着科技的不断发展,专家发现的病原体的种类涵盖细菌、真菌、寄生虫、病毒、支原体或衣原体、分枝杆菌等,涵盖的种类超过2万种,病原微生物参考知识库建设时不仅需要包括染色体,还需要考虑线粒体、转录组序列及非编码序列等,当前病原微生物的知识库建立的方法是采用从国际公共数据库中通过获取、整合、筛选等一系列处理过程进行建立,通常知识库的建立方式有三种,分别是冗余方法、菌株代表序列法和打断重组法,病原微生物的知识库的出现推动新时代我国病原微生物资源保护和利用工作更好发展,为科学研究、技术进步和社会发展提供高质量的科技资源共享服务;因此,发明出一种病原微生物参考知识库的最大多样性聚类构建方法变得尤为重要;
经检索,中国专利号CN112800245A公开了一种病原微生物参考知识库的最大多样性聚类构建方法,该发明虽然准确性高、检测效率高且数据冗余率低,但是未对构建完成的知识库中的参考信息进行解释说明,知识库适用人群范围小,不方便人们了解各类病原微生物;此外。现有的病原微生物参考知识库的最大多样性聚类构建方法在聚类过程容易因判断失误导致部分病原微生物数据未进行聚类,无法保证知识库的完整性,降低知识库的构建质量,需要工作人员花费大量时间进行数据排查;为此,我们提出一种病原微生物参考知识库的最大多样性聚类构建方法。
发明内容
本发明的目的是为了解决现有技术中存在的缺陷,而提出的一种病原微生物参考知识库的最大多样性聚类构建方法。
为了实现上述目的,本发明采用了如下技术方案:
一种病原微生物参考知识库的最大多样性聚类构建方法,该构建方法具体步骤如下:
(1)收集病原微生物全基因组序列:对云端数据库中存储的病原微生物全基因组序列进行提取,并对提取出的基因组序列进行去重筛选;
(2)将序列进行OTU聚类,并进行统计:将筛选完成的基因组序列进行OTU聚类,同时将无法聚类的基因组序列处理生成错误序列,并将其录入OTU筛选表中;
(3)对错误序列进行检测删除并进行记录:对错误序列进行数据筛错,并将错误序列信息进行更新,同时对其重新进行OTU聚类处理;
(4)对各病原微生物进行注释匹配:依据OTU聚类表中分类完成的数据进行数据检索,并对各病原微生物全基因组序列的相关信息进行抓取,同时对其进行信息匹配;
(5)构建微生物知识库,将数据表反馈给工作人员:将信息匹配完成的病原微生物数据整合生成微生物知识库,并将未匹配成功的病原微生物全基因组序列反馈给工作人员,同时由工作人员对其进行信息补充,微生物知识库进行数据更新。
进一步地,步骤(1)中所述去重筛选具体步骤如下:
步骤一:服务器将病原微生物全基因组序列依据首字母A~Z进行有序排列,并将其分为26组数据,同时将未排序的病原微生物全基因组序列组成第27组数据;
步骤二:依次对各组数据中的病原微生物全基因组序列进行重复数据查询,并将其中重复的病原微生物全基因组序列删除。
进一步地,步骤(2)中所述OTU聚类具体步骤如下:
第一步:工作人员设置百分比标识阈值X,27组数据与参考数据库中预先定义的聚类中心对齐;
第二步:各组数据依次对参考数据库进行查询,如果读取匹配的参考序列相似度大于或等于X,则将其分配给该参考序列定义的OTU,并将其处理生成OTU1;
第三步:将无法匹配参考数据库的病原微生物全基因组序列进行de novo,并将匹配完成的序列处理生成OTU2;
第四步:将未成功匹配的病原微生物全基因组序列标记为错误序列,同时将OTU1以及OTU2中的所有序列录入OTU聚类表中,将错误序列录入OTU筛选表中。
进一步地,步骤(3)中所述数据筛错具体步骤如下:
S1:对OTU筛选表中的错误序列依次进行序列检测,并判断其是否为嵌合体序列或测序错误序列;
S2:若为嵌合体序列或测序错误序列,则将该序列删除,并在OTU筛选表中更新其相关信息;
S3:若不为嵌合体序列或测序错误序列,则对该序列重新进行OUT聚类处理,若聚类处理成功,则将其移出OTU筛选表,并更新OTU聚类表,若OUT聚类失败,同时将其信息反馈给工作人员,并由工作人员对其进行手动操作,同时依据工作人员操作信息更新OTU筛选表以及OTU聚类表。
进一步地,步骤(4)中所述信息匹配具体步骤如下:
SS1:将OTU聚类表中各病原微生物全基因组序列依次与注释数据库进行比对;
SS2:依据比对结果将各病原微生物全基因组序列依据域、界、门、纲、目、科、属以及种进行分类统计;
SS3:与互联网通信连接,并开始对各病原微生物全基因组序列进行信息检索抓取,同时将抓取到的信息与对应病原微生物全基因组序列进行数据匹配。
进一步地,步骤(5)中所述数据更新具体步骤如下:
P1:接收用户补充的数据信息,并将其与对应病原微生物全基因组序列进行匹配;
P2:将微生物知识库中的专业名词进行数据提取,并对各专业名词进行解释说明,同时将其匹配至对应病原微生物;
P3:更新完成,将更新信息反馈至各工作人员以及用户的智能设备。
相比于现有技术,本发明的有益效果在于:
1、该病原微生物参考知识库的最大多样性聚类构建方法,当病原微生物全基因组序列分组完成,工作人员开始设定百分比标识阈值,并开始对各组病原微生物全基因组序列进行OTU聚类处理,同时生成OUT聚类表以及OUT筛选表,对OTU筛选表中的错误序列依次进行序列检测,并判断其是否为嵌合体序列或测序错误序列,同时依据判断结果开始对相应病原微生物全基因组序列进行重新聚类或通过工作人员手动调整处理,能够保证知识库的完整性,提高知识库的构建质量,节省工作人员排查时间;
2、该病原微生物参考知识库的最大多样性聚类构建方法,将OTU聚类表中各病原微生物全基因组序列依次与注释数据库进行比对,并据比对结果将各病原微生物全基因组序列进行分类统计,同时对各病原微生物全基因组序列进行信息检索抓取,同时将抓取到的信息与对应病原微生物全基因组序列进行数据匹配,工作人员将信息确实的病原微生物进行信息补充,补充完成,开始对微生物知识库中的专业名词进行数据提取,并对各专业名词进行解释说明,使微生物知识库中各病原微生物信息更加通俗易懂,能够扩大知识库适用人群,方便人们了解各类病原微生物,提高了科技资源共享服务质量。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提出的一种病原微生物参考知识库的最大多样性聚类构建方法的流程框图;
图2为本发明提出的一种病原微生物参考知识库的最大多样性聚类构建方法的OTU聚类相似度选择示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
参照图1-2,一种病原微生物参考知识库的最大多样性聚类构建方法,本实施例主要公开了一种OUT聚类方法:
收集病原微生物全基因组序列:对云端数据库中存储的病原微生物全基因组序列进行提取,并对提取出的基因组序列进行去重筛选。
具体的,服务器将病原微生物全基因组序列依据首字母A~Z进行有序排列,并将其分为26组数据,同时将未排序的病原微生物全基因组序列组成第27组数据,依次对各组数据中的病原微生物全基因组序列进行重复数据查询,并将其中重复的病原微生物全基因组序列删除。
将序列进行OTU聚类,并进行统计:将筛选完成的基因组序列进行OTU聚类,同时将无法聚类的基因组序列处理生成错误序列,并将其录入OTU筛选表中。
具体的,工作人员设置百分比标识阈值X,27组数据与参考数据库中预先定义的聚类中心对齐,各组数据依次对参考数据库进行查询,如果读取匹配的参考序列相似度大于或等于X,则将其分配给该参考序列定义的OTU,并将其处理生成OTU1,将无法匹配参考数据库的病原微生物全基因组序列进行de novo,并将匹配完成的序列处理生成OTU2,将未成功匹配的病原微生物全基因组序列标记为错误序列,同时将OTU1以及OTU2中的所有序列录入OTU聚类表中,将错误序列录入OTU筛选表中。
其中,需要进一步说明的是病原微生物全基因组序列是按照梯度相似度(如:70~99%之间)分别进行OTU聚类,将不同相似度的OTU数量进行统计,如图2所示当在某一相似度时,OTU数量出现拐点时,即为最合适的聚类相似度。
对错误序列进行检测删除并进行记录:对错误序列进行数据筛错,并将错误序列信息进行更新,同时对其重新进行OTU聚类处理。
具体的,对OTU筛选表中的错误序列依次进行序列检测,并判断其是否为嵌合体序列或测序错误序列,若为嵌合体序列或测序错误序列,则将该序列删除,并在OTU筛选表中更新其相关信息,若不为嵌合体序列或测序错误序列,则对该序列重新进行OUT聚类处理,若聚类处理成功,则将其移出OTU筛选表,并更新OTU聚类表,若OUT聚类失败,同时将其信息反馈给工作人员,并由工作人员对其进行手动操作,同时依据工作人员操作信息更新OTU筛选表以及OTU聚类表;
本实施例中通过对OTU筛选表中的错误序列依次进行序列检测,并判断其是否为嵌合体序列或测序错误序列,同时依据判断结果开始对相应病原微生物全基因组序列进行重新聚类或通过工作人员手动调整处理,能够保证知识库的完整性,提高知识库的构建质量,节省工作人员排查时间。
实施例2
参照图1,一种病原微生物参考知识库的最大多样性聚类构建方法,除与上述实施例相同的结构外,本实施例主要公开了一种数据更新方法:
对各病原微生物进行注释匹配:依据OTU聚类表中分类完成的数据进行数据检索,并对各病原微生物全基因组序列的相关信息进行抓取,同时对其进行信息匹配。
具体的,将OTU聚类表中各病原微生物全基因组序列依次与注释数据库进行比对,依据比对结果将各病原微生物全基因组序列依据域、界、门、纲、目、科、属以及种进行分类统计,与互联网通信连接,并开始对各病原微生物全基因组序列进行信息检索抓取,同时将抓取到的信息与对应病原微生物全基因组序列进行数据匹配。
此外,需要进一步说明的是,注释数据库具体包括EzTaxon-
e、R ibosomal Database Project(RDP)、SILVA以及Green Genes。
构建微生物知识库,将数据表反馈给工作人员:将信息匹配完成的病原微生物数据整合生成微生物知识库,并将未匹配成功的病原微生物全基因组序列反馈给工作人员,同时由工作人员对其进行信息补充,微生物知识库进行数据更新。
具体的,接收用户补充的数据信息,并将其与对应病原微生物全基因组序列进行匹配,将微生物知识库中的专业名词进行数据提取,并对各专业名词进行解释说明,同时将其匹配至对应病原微生物,更新完成,将更新信息反馈至各工作人员以及用户的智能设备。
需要进一步说明的是,智能设备包括智能手机、平板电脑以及笔记本电脑;
本实施例通过将OTU聚类表中各病原微生物全基因组序列依次与注释数据库进行比对,并据比对结果将各病原微生物全基因组序列进行分类统计,同时对各病原微生物全基因组序列进行信息检索抓取,同时将抓取到的信息与对应病原微生物全基因组序列进行数据匹配,工作人员将信息确实的病原微生物进行信息补充,补充完成,开始对微生物知识库中的专业名词进行数据提取,并对各专业名词进行解释说明,使微生物知识库中各病原微生物信息更加通俗易懂,能够扩大知识库适用人群,方便人们了解各类病原微生物,提高了科技资源共享服务质量。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,该构建方法具体步骤如下:
(1)收集病原微生物全基因组序列:对云端数据库中存储的病原微生物全基因组序列进行提取,并对提取出的基因组序列进行去重筛选;
(2)将序列进行OTU聚类,并进行统计:将筛选完成的基因组序列进行OTU聚类,同时将无法聚类的基因组序列处理生成错误序列,并将其录入OTU筛选表中;
(3)对错误序列进行检测删除并进行记录:对错误序列进行数据筛错,并将错误序列信息进行更新,同时对其重新进行OTU聚类处理;
(4)对各病原微生物进行注释匹配:依据OTU聚类表中分类完成的数据进行数据检索,并对各病原微生物全基因组序列的相关信息进行抓取,同时对其进行信息匹配;
(5)构建微生物知识库,将数据表反馈给工作人员:将信息匹配完成的病原微生物数据整合生成微生物知识库,并将未匹配成功的病原微生物全基因组序列反馈给工作人员,同时由工作人员对其进行信息补充,微生物知识库进行数据更新。
2.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,步骤(1)中所述去重筛选具体步骤如下:
步骤一:服务器将病原微生物全基因组序列依据首字母A~Z进行有序排列,并将其分为26组数据,同时将未排序的病原微生物全基因组序列组成第27组数据;
步骤二:依次对各组数据中的病原微生物全基因组序列进行重复数据查询,并将其中重复的病原微生物全基因组序列删除。
3.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,步骤(2)中所述OTU聚类具体步骤如下:
第一步:工作人员设置百分比标识阈值X,27组数据与参考数据库中预先定义的聚类中心对齐;
第二步:各组数据依次对参考数据库进行查询,如果读取匹配的参考序列相似度大于或等于X,则将其分配给该参考序列定义的OTU,并将其处理生成OTU1;
第三步:将无法匹配参考数据库的病原微生物全基因组序列进行de novo,并将匹配完成的序列处理生成OTU2;
第四步:将未成功匹配的病原微生物全基因组序列标记为错误序列,同时将OTU1以及OTU2中的所有序列录入OTU聚类表中,将错误序列录入OTU筛选表中。
4.根据权利要求3所述的一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,步骤(3)中所述数据筛错具体步骤如下:
S1:对OTU筛选表中的错误序列依次进行序列检测,并判断其是否为嵌合体序列或测序错误序列;
S2:若为嵌合体序列或测序错误序列,则将该序列删除,并在OTU筛选表中更新其相关信息;
S3:若不为嵌合体序列或测序错误序列,则对该序列重新进行OUT聚类处理,若聚类处理成功,则将其移出OTU筛选表,并更新OTU聚类表,若OUT聚类失败,同时将其信息反馈给工作人员,并由工作人员对其进行手动操作,同时依据工作人员操作信息更新OTU筛选表以及OTU聚类表。
5.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,步骤(4)中所述信息匹配具体步骤如下:
SS1:将OTU聚类表中各病原微生物全基因组序列依次与注释数据库进行比对;
SS2:依据比对结果将各病原微生物全基因组序列依据域、界、门、纲、目、科、属以及种进行分类统计;
SS3:与互联网通信连接,并开始对各病原微生物全基因组序列进行信息检索抓取,同时将抓取到的信息与对应病原微生物全基因组序列进行数据匹配。
6.根据权利要求1所述的一种病原微生物参考知识库的最大多样性聚类构建方法,其特征在于,步骤(5)中所述数据更新具体步骤如下:
P1:接收用户补充的数据信息,并将其与对应病原微生物全基因组序列进行匹配;
P2:将微生物知识库中的专业名词进行数据提取,并对各专业名词进行解释说明,同时将其匹配至对应病原微生物;
P3:更新完成,将更新信息反馈至各工作人员以及用户的智能设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110995722.5A CN113723501A (zh) | 2021-08-27 | 2021-08-27 | 一种病原微生物参考知识库的最大多样性聚类构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110995722.5A CN113723501A (zh) | 2021-08-27 | 2021-08-27 | 一种病原微生物参考知识库的最大多样性聚类构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723501A true CN113723501A (zh) | 2021-11-30 |
Family
ID=78678565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110995722.5A Withdrawn CN113723501A (zh) | 2021-08-27 | 2021-08-27 | 一种病原微生物参考知识库的最大多样性聚类构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723501A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083527A (zh) * | 2022-08-18 | 2022-09-20 | 北京大学人民医院 | 一种聚类泛基因组数据库构建方法 |
CN115394361A (zh) * | 2022-08-15 | 2022-11-25 | 中国科学院心理研究所 | 用于构建微生物基因组数据库的方法、设备和介质 |
-
2021
- 2021-08-27 CN CN202110995722.5A patent/CN113723501A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115394361A (zh) * | 2022-08-15 | 2022-11-25 | 中国科学院心理研究所 | 用于构建微生物基因组数据库的方法、设备和介质 |
CN115083527A (zh) * | 2022-08-18 | 2022-09-20 | 北京大学人民医院 | 一种聚类泛基因组数据库构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704539B (zh) | 大规模文本信息批量结构化的方法及装置 | |
CN113723501A (zh) | 一种病原微生物参考知识库的最大多样性聚类构建方法 | |
CN109218223B (zh) | 一种基于主动学习的鲁棒性网络流量分类方法及系统 | |
CN112579155B (zh) | 代码相似性检测方法、装置以及存储介质 | |
CN108446391A (zh) | 数据的处理方法、装置、电子设备和计算机可读介质 | |
CN104731977A (zh) | 电话号码数据的发现与分类方法 | |
CN111368867B (zh) | 档案归类方法及系统、计算机可读存储介质 | |
CN108228787B (zh) | 按照多级类目处理信息的方法和装置 | |
CN113761242A (zh) | 一种基于人工智能的大数据图像识别系统及方法 | |
CN110807108A (zh) | 一种亚洲人脸数据自动收集及清洗的方法和系统 | |
CN109241315B (zh) | 一种基于深度学习的快速人脸检索方法 | |
CN112052248A (zh) | 一种审计大数据处理方法及系统 | |
CN105677723A (zh) | 一种用于工业信号源的数据标签建立与检索方法 | |
CN109063063B (zh) | 基于多源数据的数据处理方法及装置 | |
CN111026940A (zh) | 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备 | |
CN111723122A (zh) | 数据间关联规则的确定方法、装置、设备及可读存储介质 | |
CN112800219B (zh) | 客服日志反馈回流数据库的方法及系统 | |
CN114880690A (zh) | 一种基于边缘计算的源数据时序精化方法 | |
CN104463627A (zh) | 数据处理方法和装置 | |
CN101799803B (zh) | 信息处理方法、模块及系统 | |
CN112184691A (zh) | 一种基于不良Map图的缺陷模式分析方法 | |
Jiang et al. | A hybrid clustering algorithm | |
CN107633074B (zh) | 一种信息提取方法、装置及存储介质 | |
CN112650796A (zh) | 一种自动化的应用数据收集、存储管理系统 | |
CN113704287A (zh) | 一种基于大数据的数据对比分析筛选系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211130 |