CN117116351A - 基于机器学习算法的物种鉴定模型、物种鉴定方法和物种鉴定系统 - Google Patents
基于机器学习算法的物种鉴定模型、物种鉴定方法和物种鉴定系统 Download PDFInfo
- Publication number
- CN117116351A CN117116351A CN202211296715.7A CN202211296715A CN117116351A CN 117116351 A CN117116351 A CN 117116351A CN 202211296715 A CN202211296715 A CN 202211296715A CN 117116351 A CN117116351 A CN 117116351A
- Authority
- CN
- China
- Prior art keywords
- species
- tag
- theoretical
- unique tag
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000010801 machine learning Methods 0.000 title claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 15
- 241000894007 species Species 0.000 claims abstract description 236
- 244000005700 microbiome Species 0.000 claims abstract description 45
- 239000002131 composite material Substances 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000001976 enzyme digestion Methods 0.000 claims abstract description 22
- 238000012165 high-throughput sequencing Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000012163 sequencing technique Methods 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 21
- 108091008146 restriction endonucleases Proteins 0.000 claims description 17
- 238000003672 processing method Methods 0.000 claims description 11
- 238000000265 homogenisation Methods 0.000 claims description 10
- 238000003908 quality control method Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 108090000790 Enzymes Proteins 0.000 claims description 3
- 102000004190 Enzymes Human genes 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000004445 quantitative analysis Methods 0.000 claims description 2
- 239000000470 constituent Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 4
- 230000000813 microbial effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000002906 microbiologic effect Effects 0.000 description 3
- 208000035473 Communicable disease Diseases 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000969087 Homo sapiens Microtubule-associated protein 2 Proteins 0.000 description 1
- 102100021118 Microtubule-associated protein 2 Human genes 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 240000005893 Pteridium aquilinum Species 0.000 description 1
- 235000009936 Pteridium aquilinum Nutrition 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 230000014599 transmission of virus Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Public Health (AREA)
- Analytical Chemistry (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于机器学习算法的物种鉴定模型的构建方法,所述方法通过将已知真实物种的高通量测序数据酶切后获得的IIB标签序列与第一微生物唯一标签数据库比对并处理,获得多个基础特征或复合特征,将至少两个基础特征或复合特征构成特征组合,并训练机器学习模型,训练完成后获得物种鉴定模型。本发明还公开了上述构建方法构建获得的物种鉴定模型,以及利用上述物种鉴定模型进行高通量测序物种鉴定的方法以及用于物种鉴定方法的物种鉴定系统。本发明中的方法极大地降低了鉴定的假阳性和假阴性。
Description
技术领域
本发明属于生物信息学技术领域,涉及一种基于机器学习算法的物种鉴定模型、物种鉴定方法和物种鉴定系统。
背景技术
在过去的几十年中,高通量测序技术(例如扩增子测序和宏基因组测序)的进步极大的提升了人类对微生物的理解,并广泛和显著的促进了食品工业、农业、环境修复、药物开发、人体健康等相关领域的发展。病毒的传播和传染疾病在不断的提醒着人类,先发制人地检测致病微生物的重要性毋庸置疑。目前,高通量测序技术越来越多的被用于临床样本的微生物检测,从而解决传统微生物诊断方法如体外培养、血清抗体检测和PCR的局限性,且高通量测序技术已经在确定抗生素耐药性、传染病暴发和癌症诊疗等方面发挥了关键作用。
在使用高通量测序技术进行微生物研究中,利用生物信息学工具来准确鉴定物种和评估其丰度对于解构高通量微生物组测序数据至关重要。然而,目前的生物信息学工具却在解析微生物数据时引入了大量的假阳性信号,极大的干扰了微生物的鉴定,以及相关下游分析。工欲善其事必先利其器,可以说好的物种分类器对于发展基于高通量测序数据的微生物研究至关重要。
发明内容
为了解决现有技术存在的不足,本发明的目的是提供一种基于机器学习算法的物种鉴定模型,对微生物组高通量测序数据进行准确的物种鉴定,从而解决高通量测序数据分析过程中假阳性和假阴性物种的鉴定问题,并服务于微生物组大数据分析以及临床致病菌的检测。
本发明提出了一种基于机器学习算法的物种鉴定模型,所述模型基于经电子酶切获取的标签序列与第一微生物唯一标签数据库进行比对,获得包括物种信息、实际测得的该物种唯一标签种类数Sequenced Tag Num、实际测得的该物种唯一标签数量SequencedReads Num和该物种的理论唯一标签种类数Theoretical Tag Num在内的信息,基于上述信息获取基础特征和复合特征并进行处理,通过选择进行过处理的至少两个特征构成特征组合,对待构建的机器学习模型进行训练,将训练完毕后的机器学习模型保存为文件即获得所述的物种鉴定模型。
本发明提出了一种基于机器学习算法的高通量测序物种鉴定方法,包括如下步骤:
步骤一、构建机器学习模型,具体包括以下步骤:
步骤1.1、基于公开发表的基因组(例如包括但不限于从GTDB数据库、RefSeq数据库、Ensembl数据库等下载)构建第一微生物唯一标签数据库(专利号:ZL202011355328.7,专利名称:基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法)。
步骤1.2、将已知真实物种组成的高通量测序数据进行电子酶切,获取IIB标签序列,将标签序列比对到第一微生物唯一标签数据库,并统计比对上的物种信息、实际测得的该物种唯一标签种类数(Sequenced Tag Num)、实际测得的该物种唯一标签数量(Sequenced Reads Num)和该物种的理论唯一标签种类数(Theoretical Tag Num)等信息(专利号:ZL202011355328.7,专利名称:基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法)。步骤1.2中比对获得的物种信息,含有大量的假阳性,同时步骤1.2中使用的是已知真实物种组成的数据,因此步骤1.2中还会同时标注物种的存在情况,使用0、1对物种是否真实存在进行标记,0表示不存在,1表示存在,用作后续模型训练的判别标签。将步骤1.2中获得的物种信息、实际测得的该物种唯一标签种类数(SequencedTagNum)、实际测得的该物种唯一标签数量(Sequenced Reads Num)和该物种的理论唯一标签种类数(Theoretical Tag Num)以及表示物种是否存在的标签保存成以制表符分隔的文本文件。
步骤1.3、计算特征,并将计算得到的特征增加到步骤1.2中所述的文本文件中。所述特征包括但不限于如下所列举,其中(1)-(4)为基础特征,即直接从步骤1.2所述的文本文件中获取,或者经过简单的加和计算得到(例如实际测得的全部物种的唯一标签种类数的和(Total Reads Num));(5)-(23)为复合特征,即使用多个基础特征经过运算得到,或者为某个基础特征或复合特征排序后的次序信息。
步骤1.3中提出的特征具体如下:
(1)Sequenced Tag Num:实际测得的属于某物种的唯一标签种类数;
(2)Sequenced Reads Num:实际测得的属于某物种的唯一标签数量;
(3)Theoretical Tag Num:某物种的理论唯一标签种类数;
(4)Total Reads Num:实际测得的全部物种的唯一标签种类数的和;
(5)Coverage:覆盖度,即实际测得的属于某物种的唯一标签种类数除以该物种的理论唯一标签种类数,公式为该复合特征描述说明了某一微生物基因组在测序数据中的相对完整性;覆盖度越高,则相对完整性越好;
(6)Theoretical Reads Num:理论测序量,通过基础特征(例如“某物种的理论唯一标签种类数”)复合得到,即实际测得的属于某物种的唯一标签数量除以实际测得的属于该物种的唯一标签种类数,然后乘以该物种的理论唯一标签种类数,公式为 该复合特征描述说明了某一微生物唯一标签在测序中的推测数量;
(7)Tag Depth:第一标签深度,即实际测得的属于某物种的唯一标签数量除以实际测得的属于该物种的唯一标签种类数,公式为
(8)Tag Depth2:第二标签深度,即实际测得的属于某物种的唯一标签数量除以实际测得的属于该物种的唯一标签种类数,然后再除以该实际测得的全部物种的唯一标签种类数的和,公式为
(9)Species Depth:物种深度,即实际测得的属于某物种的唯一标签数量除以该物种的理论唯一标签种类数,公式为
(7)-(9)复合特征从不同角度描述说明了某一微生物的测序深度;某一微生物的测序深度即指测序得到的碱基总量与微生物基因组大小的比值;
(10)Reads DTR:物种测序量,即实际测得的属于某物种的唯一标签数量除以实际测得的全部物种的唯一标签种类数的和,公式为
(11)Reads DTR sqrt:物种测序量的算数平方根,即实际测得的属于某物种的唯一标签数量除以实际测得的全部物种的唯一标签种类数的和,最后取算数平方根,公式为
(12)Theoretical Reads DTR sqrt:物种理论测序量的算数平方根,即实际测得的属于某物种的唯一标签数量除以实际测得的属于该物种的唯一标签种类数,然后乘以该物种的理论唯一标签种类数,再除以实际测得的全部物种的唯一标签种类数的和,最后取算数平方根,公式为
(10)-(12)复合特征从不同角度描述说明了某一微生物的在测序中的DNA含量;
(13)G-Score:G分数,即实际测得的属于某物种的唯一标签种类数乘以实际测得的属于该物种的唯一标签数量,然后取算数平方根,公式为该复合特征是一个经验值,与物种是否存在呈高度正相关;
(14)G-Score Rank:G分数的秩,即将G分数按照从大到小的顺序排列,取排序后的次序;
(15)Coverage log:覆盖度的对数,即对所述特征(5)取自然对数,公式为
(16)Theoretical Reads Num log:理论测序量的对数,即对所述特征(6)取自然对数,公式为
(17)Tag Depth log:第一标签深度的对数,即对所述特征(7)取自然对数,公式为
(18)Tag Depth2 log:第二标签深度的对数,即对所述特征(8)取自然对数,公式为
(19)Species Depth log:物种深度的对数,即对所述特征(9)取自然对数,公式为
(20)Reads DTR log:物种测序量的对数,即对所述特征(10)取自然对数,公式为
(21)Reads DTR sqrt log:物种测序量的算数平方根的对数,即对所述特征(11)取自然对数,公式为
(22)Theoretical Reads DTR sqrt log:物种理论测序量的算数平方根的对数,即对所述特征(12)取自然对数,公式为
(23)G-Score log:G分数的对数,即对所述特征(13)取自然对数,公式为
步骤1.4、对所述步骤1.3中提到的基本特征和复合特征进行数据处理,所述数据处理是指根据在基础特征或复合特征的获取过程中,是否经过对数处理,判断是否需要对获得的基础特征或复合特征进行数据处理;若未经过对数处理,则需要对对应的基础特征或复合特征进行均一化处理,若已经过对数处理,则不做任何处理;均一化处理包括但不限于RobustScaler、MinMaxScaler、Normalizer、Z-Score等,所述均一化处理能够消除原始特征的尺度和数量级差异大的影响,使得各维特征对目标函数有相同权重的影响。
步骤1.5、从步骤1.4的所述数据处理后的特征中选择至少两个特征构成特征组合,使用机器学习算法(包括但不限于随机森林(Random Forest)、逻辑回归(LogisticRegression)、支持向量机(Support-Vector Machines)、朴素贝叶斯(naive Bayes)、K近邻(K-neighbors)、自适应增强(AdaBoost)、梯度提升(Gradient Boosting)等算法)进行模型训练,并将训练得到的模型保存为文件,作为后续调用的用于物种鉴定的模型。
步骤二、基于高通量测序数据进行物种鉴定并计算物种的相对丰度,包括以下步骤:
步骤2.1、对待鉴定的高通量测序数据进行电子酶切,获取标签序列,将标签序列比对到第一微生物唯一标签数据库,并统计比对上的物种信息、测得的该物种唯一标签种类数(Sequenced Tag Num)、测得的该物种唯一标签数量(Sequenced Reads Num)和该物种的理论唯一标签种类数(Theoretical Tag Num)等信息,保存到文件中(专利号:ZL202011355328.7,专利名称:基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法)。
步骤2.2、计算与模型构建过程中相同的所有的基础特征和复合特征,并将计算得到的特征增加到步骤2.1所述文件中。
步骤2.3、对所述步骤2.2中提到的基础特征或复合特征进行数据处理,数据处理方法需要和步骤1.4所述方法一致。
步骤2.4、使用步骤1.5所述的机器学习算法,选择步骤1.5所述特征组合,使用步骤1.5所述保存的物种鉴定模型对步骤2.2中所述文件中的物种是否存在进行判定,存在记为1,不存在记为0。
步骤2.5、从步骤1.1的所述基因组中调取步骤2.4所述判定为存在的物种下的基因组,进行电子酶切,并构建第二微生物唯一标签数据库(专利号:ZL202011355328.7,专利名称:基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法)。
步骤2.6、将步骤2.1所述标签序列比对到步骤2.5所述第二微生物唯一标签数据库,并根据物种丰度计算公式计算得到物种丰度(专利号:ZL202011355328.7,专利名称:基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法)。
基于以上方法,本发明还提出了一种对高通量测序数据进行物种鉴定的系统。
所述物种鉴定系统包括:数据预处理模块、定性模块、定量模块和多酶切结果定性/定量合并模块;
所述数据预处理模块,包括:数据质控单元和电子酶切单元(专利号:ZL202011355328.7,专利名称:基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法);用于对每个基因组采用IIB型限制性内切酶进行电子酶切,对酶切片段测序结果进行数据质控,获得质控后的测序数据;
所述定性模块包括:第一微生物唯一标签数据库和物种鉴定模型判别单元;主要用于对物种是否存在进行判定;
其中,
第一微生物唯一标签数据库:将电子酶切单元获得标签,在界、门、纲、目、科、属、种、株不同物种分类水平上判断上述每个标签的唯一性,输出不同物种分类水平、每个基因组的唯一标签,这些唯一标签组成第一微生物唯一标签数据库(专利号:ZL202011355328.7,专利名称:基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法);
物种鉴定模型判别单元:包含本发明构建的物种鉴定模型,将样品的高质量测序数据和第一微生物唯一标签数据库比对,即通过构建哈希表的方式,检测高质量测序数据在第一微生物唯一标签数据库中是否有序列完全一致的标签,获得不同物种分类水平鉴定到的唯一标签,统计比对上的物种信息、实际测得的该物种唯一标签种类数(SequencedTag Num)、实际测得的该物种唯一标签数量(Sequenced Reads Num)和该物种的理论唯一标签种类数(Theoretical Tag Num)等信息,并通过对实际测得的该物种唯一标签种类数(Sequenced Tag Num)、实际测得的该物种唯一标签数量(Sequenced Reads Num)、该物种的理论唯一标签种类数(Theoretical Tag Num)和实际测得的全部物种的唯一标签种类数的和(Total Reads Num)四个基础特征进行组合,生成复合特征,进一步进行包括均一化在内的数据处理,使用训练好的物种鉴定模型对物种是否存在进行判定;
所述基础特征为直接对比对结果进行统计,或者经过简单的统计加和计算得到(例如实际测得的全部物种的唯一标签种类数的和(Total Reads Num));
所述复合特征为使用多个基础特征经过运算得到,或者为某个特征排序后的次序信息;
所述训练好的物种鉴定模型为使用本发明物种鉴定方法中“步骤一、构建机器学习模型”所述方法构建的模型;
所述定量模块包括:第二微生物唯一标签数据库和定量分析单元(专利号:ZL202011355328.7,专利名称:基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法);用于根据物种丰度计算公式计算得到物种丰度;
所述第二微生物唯一标签数据库为:通过对候选微生物进行假阳性过滤,然后对过滤后微生物基因组信息通过所述电子酶切单元获得标签,在界、门、纲、目、科、属、种、株不同物种分类水平上判断每个标签的唯一性并输出不同物种分类水平、每个基因组的唯一标签,该唯一标签组成第二微生物唯一标签数据库;
所述多酶切结果定性/定量合并模块,包括:多酶切结果定性合并单元和多酶切结果定量合并单元(专利号:ZL202011355328.7,专利名称:基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法)。用于判断将一种以上IIB型限制性内切酶的不同物种分类水平鉴定到的唯一标签数、唯一标签数的深度进行累加合并,判断是否检测到某微生物的唯一标签,并重新计算微生物定性信息,然后将一种以上IIB型限制性内切酶酶切的定量结果进行累加合并,作为最终的相对定量结果。
该系统的运行需要提前基于步骤1.1所述方法构建一个第一微生物唯一标签数据库,基于步骤一所述方法构建一个物种鉴定模型。
本发明的有益效果包括:相较于目前其他同类主流生物信息学工具能够极为精准的进行物种鉴定并对其进行相对丰度估计,从而有效的避免了假阳性物种鉴定结果对下游分析的影响,这是其他工具难以实现的。
附图说明
图1是本发明中物种鉴定模型构建示意图。
图2是本发明对高通量测序数据进行物种鉴定的流程示意图。
图3是本发明关于物种鉴定系统的结构示意图。
图4是本发明方法与现有技术方法鉴别结果比较图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
实施例1
采用CAMI2数据库宏基因组数据集进行模型训练及评估,建立机器学习模型。
S01:从GTDB公共数据库下载微生物基因组,构建第一微生物唯一标签数据库;
S02:从公开数据库CAMI2中提取来自三个环境的数据集,即海洋,植物,多菌株混合的宏基因组数据集,对131个样本的宏基因组数据集进行电子酶切,获取IIB标签序列,将标签序列比对到第一微生物唯一标签数据库,并统计比对上的物种信息、测得的该物种唯一标签种类数、测得的该物种唯一标签数量和该物种的理论唯一标签种类数等信息,并使用0、1对物种是否真实存在进行标记,0表示不存在,1表示存在。
S03:计算特征包括4个基础特征和19个复合特征,并将计算得到的所有特征增加到S02所述文件中。
S04:对所述S03中提到的特征进行均一化处理,本次不进行均一化处理。
S05:从S04所述均一化后的特征中选择特征15、特征17、特征22和特征23,共4个特征构成特征组合;从三个CAMI2数据集随机划分80%样本做训练集(共105个),20%样本做测试集(共26个),选择随机森林机器学习算法进行模型训练,建立机器学习模型。
S06:根据判定结果和真实结果的一致性对模型进行评估,评估指标包括准确率、精确率和召回率,结果如表1所示。海洋,植物,多菌株混合的宏基因组数据集的平均准确率、精确率和召回率分别为0.993、0.964、0.975。
表1随机一次模型训练在测试集中的表现
实施例2
以美国人体微生物计划(HMP)所用标准品MOCK-MSA1002为对象(该标准品混合了20种等16S比例的细菌)进行宏基因组测序,使用本发明提出的一种基于机器学习算法的高通量测序物种鉴定系统进行物种鉴定。
S01:从GTDB公共数据库下载微生物基因组,构建第一微生物唯一标签数据库;
S02:对MOCK-MSA1002宏基因组测序数据进行电子酶切,获取IIB标签序列,将标签序列比对到第一微生物唯一标签数据库,并统计比对上的物种信息、测得的该物种唯一标签种类数、测得的该物种唯一标签数量和该物种的理论唯一标签种类数等信息,并使用0、1对物种是否真实存在进行标记,0表示不存在,1表示存在。
S03:计算特征包括4个基础特征和19个复合特征,并将计算得到的所有特征增加到S02所述文件中。
S04:对所述S03中提到的特征进行均一化处理,本次不进行均一化处理。
S05:从S04所述均一化后的特征中选择特征15、特征17、特征22和特征23,共4个特征构成特征组合;选择随机森林机器学习算法进行物种鉴定,结果如表2所示。
表2 MOCK-MSA1002样本的宏基因组数据物种鉴定结果
实施例3
本发明的物种鉴定方法与最先进的宏基因组物种分类工具在使用标准品MOCK-MSA1002宏基因组测序数据进行物种鉴定和丰度评估方面的比较。图4中,每一列是一种宏基因组物种分类器,其中,MAP2B为本发明的物种鉴定方法,MataPhlAn3、mOTUs2、Bracken、Kraken2、KrakenUniq为现有的最先进的宏基因组物种分类工具;每一行代表不同宏基因组分类器的物种鉴定性能和丰度估计性能,其中,物种鉴定性能包括精确度(Precision)、召回率(Recall)和F1值(F1);丰度估计性能包括L2相似度(L2 similarity)和BC相似度(BCsimilarity)。不同数字代表性能高低,数字越小,代表该性能越差;数字越大,代表该性能越好。本发明的物种鉴定模型在识别假阳性方面性能出色,其最高准确率为0.964,召回率为0.975,比最先进的宏基因组物种分类工具有了很大的改进,从而保证了高精度物种识别结果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (11)
1.一种基于机器学习算法的物种鉴定模型的构建方法,其特征在于,所述构建方法包括如下步骤:
步骤1、基于公开发表的基因组构建第一微生物唯一标签数据库;
步骤2、将已知真实物种组成的高通量测序数据进行电子酶切,获取IIB标签序列,将IIB标签序列比对到所述第一微生物唯一标签数据库,并统计比对上的包括物种信息、实际测得的该物种唯一标签种类数Sequenced Tag Num、实际测得的该物种唯一标签数量Sequenced Reads Num和该物种的理论唯一标签种类数Theoretical Tag Num在内的信息,同时用0或1标注物种是否真实存在;并将获得的物种信息、实际测得的该物种唯一标签种类数Sequenced Tag Num、实际测得的该物种唯一标签数量Sequenced Reads Num和该物种的理论唯一标签种类数Theoretical Tag Num以及表示物种是否存在的标签保存成以制表符分隔的文本文件;
步骤3、获取基础特征和复合特征;其中,所述基础特征从所述步骤2中的文本文件中获取或经过简单加和得到;所述复合特征是指使用多个所述基础特征经过运算得到或者为某个基础特征或复合特征排序后的次序信息;
步骤4、对所述步骤3中获得的未经过对数处理的基础特征或复合特征进行数据处理;
步骤5、选择所述步骤4中进行过数据处理的或在步骤3前已经过对数处理的至少两个基础特征或复合特征构成特征组合,用于训练初步建立的机器学习模型,将训练完成的机器学习模型保存为文件,即获得物种鉴定模型。
2.如权利要求1所述的构建方法,其特征在于,所述公开发表的基因组来源包括GTDB数据库、RefSeq数据库、Ensembl数据库。
3.如权利要求1所述的构建方法,其特征在于,步骤3中,所述基础特征包括:实际测得的属于某物种的唯一标签种类数;实际测得的属于某物种的唯一标签数量、某物种的理论唯一标签种类数、实际测得的全部物种的唯一标签种类数的和;
所述复合特征包括:覆盖度、理论测序量、第一标签深度、第二标签深度、物种深度、物种测序量、物种测序量的算术平方根、物种理论测序量的算术平方根、G分数、G分数的秩、覆盖度的对数、理论测序量的对数、第一标签深度的对数、第二标签深度的对数、物种深度的对数、物种测序量的对数、物种测序量的算数平方根的对数、物种理论测序量的算数平方根的对数、G分数的对数。
4.如权利要求3所述的构建方法,其特征在于,在所述复合特征中,
所述覆盖度的计算公式为:
所述理论测序量的计算公式为:
所述第一标签深度的计算公式为:
所述第二标签深度的计算公式为:
所述物种深度的计算公式为:
所述物种测序量的计算公式为:
所述物种测序量的算数平方根的计算公式为:
所述物种理论测序量的算数平方根的计算公式为:
所述G分数的计算公式为:
所述G分数的秩是将G分数按照从大到小的顺序排列,取排序后的次序;
所述覆盖度的对数的计算公式为:
所述理论测序量的对数的计算公式为:
所述第一标签深度的对数的计算公式为:
所述第二标签深度的对数的计算公式为:
所述物种深度的对数的计算公式为:
所述物种测序量的对数的计算公式为:
所述物种测序量的算数平方根的对数的计算公式为:
所述物种理论测序量的算数平方根的对数的计算公式为:
所述G分数的对数的计算公式为:
其中,Sequenced Tag Num为实际测得的属于某物种的唯一标签种类数;SequencedReads Num为实际测得的属于某物种的唯一标签数量;Theoretical Tag Num为某物种的理论唯一标签种类数;Total Reads Num为实际测得的全部物种的唯一标签种类数的和。
5.如权利要求1所述的构建方法,其特征在于,所述步骤4中,所述数据处理是指对基础特征或复合特征获取过程中未经过对数处理的基础特征或复合特征进行均一化,已经对数处理的基础特征或复合特征则不进行任何处理;所述均一化方法包括RobustScaler、MinMaxScaler、Normalizer、Z-Score。
6.如权利要求1所述的构建方法,其特征在于,所述步骤5中,对每组特征组合构建一个机器学习模型下的子模型,所有子模型共同构成物种鉴定模型;所述子模型中应用的算法包括随机森林Random Forest、逻辑回归Logistic Regression、支持向量机Support-Vector Machines、朴素贝叶斯naive Bayes、K近邻K-neighbors、自适应增强AdaBoost、梯度提升Gradient Boosting。
7.如权利要求1-6之任一项所述的构建方法构建的物种鉴定模型。
8.如权利要求7所述的物种鉴定模型,其特征在于,所述物种鉴定模型是通过选择至少两个经过均一化的或事先经过对数处理的基础特征或复合特征构成特征组合,训练初步建立的机器学习模型,将训练完成的机器学习模型保存为文件获得的模型。
9.一种高通量测序物种鉴定方法,其特征在于,采用如权利要求7或8所述的物种鉴定模型,所述物种鉴定方法包括如下步骤:
步骤一、将待鉴定的高通量测序数据进行电子酶切,获取标签序列,将标签序列比对到第一微生物唯一标签数据库,并统计比对上的包括物种信息、测得的该物种唯一标签种类数Sequenced Tag Num、测得的该物种唯一标签数量Sequenced Reads Num和该物种的理论唯一标签种类数Theoretical Tag Num在内的信息,将获得的物种信息、实际测得的该物种唯一标签种类数Sequenced Tag Num、实际测得的该物种唯一标签数量Sequenced ReadsNum和该物种的理论唯一标签种类数Theoretical Tag Num保存到文本文件中;
步骤二、计算获取鉴定模型构建过程中的所有基础特征和复合特征,并将获得的基本特征和复合特征增加到步骤一中的文本文件中;
步骤三、对步骤二中获得的文本文件中的所有基础特征或复合特征进行与鉴定模型构建过程中相同的特征数据处理方法进行处理;
步骤四、选择步骤三中的至少两个基础特征或复合特征组成特征组合,与构建获得的物种鉴定模型中的子模型进行匹配,并进行物种鉴定,若存在对应的物种,记为1,若不存在对应的物种,则记为0。
10.如权利要求9所述的高通量测序物种鉴定方法,其特征在于,进一步包括:
步骤五、从公开发表的基因组中调取步骤四中鉴定为存在的物种下的基因组,进行电子酶切,并构建第二微生物唯一标签数据库;
步骤六、将步骤一中的所述标签序列比对到步骤五中所述第二微生物唯一标签数据库,并根据物种丰度计算公式计算得到物种丰度。
11.一种高通量测序物种鉴定系统,其特征在于,所述物种鉴定系统包括:数据预处理模块、定性模块、定量模块和多酶切结果定性/定量合并模块;其中,
所述数据预处理模块包括:数据质控单元和电子酶切单元;用于对每个基因组采用IIB型限制性内切酶进行电子酶切,对酶切片段测序结果进行数据质控,获得质控后的测序数据;
所述定性模块包括第一微生物唯一标签数据库和物种鉴定模型判别单元;用于对物种是否存在进行判定;
所述定量模块第二微生物唯一标签数据库和定量分析单元;用于根据物种丰度计算公式计算得到物种丰度;
所述多酶切结果定性/定量合并模块包括多酶切结果定性合并单元和多酶切结果定量合并单元;用于判断将一种以上IIB型限制性内切酶的不同物种分类水平鉴定到的唯一标签数、唯一标签数的深度进行累加合并,判断是否检测到某微生物的唯一标签,并重新计算微生物定性信息,然后将一种以上IIB型限制性内切酶酶切的定量结果进行累加合并,作为最终的相对定量结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211296715.7A CN117116351B (zh) | 2022-10-21 | 2022-10-21 | 基于机器学习算法的物种鉴定模型的构建方法、物种鉴定方法和物种鉴定系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211296715.7A CN117116351B (zh) | 2022-10-21 | 2022-10-21 | 基于机器学习算法的物种鉴定模型的构建方法、物种鉴定方法和物种鉴定系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117116351A true CN117116351A (zh) | 2023-11-24 |
CN117116351B CN117116351B (zh) | 2024-02-27 |
Family
ID=88806159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211296715.7A Active CN117116351B (zh) | 2022-10-21 | 2022-10-21 | 基于机器学习算法的物种鉴定模型的构建方法、物种鉴定方法和物种鉴定系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117116351B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017204771A2 (en) * | 2016-05-27 | 2017-11-30 | Erciyes Universitesi | A system and method for identification of microorganisms |
CN110111847A (zh) * | 2019-04-24 | 2019-08-09 | 华中科技大学鄂州工业技术研究院 | 基于its2鉴定植物物种的方法及设备 |
CN111816258A (zh) * | 2020-07-20 | 2020-10-23 | 杭州谷禾信息技术有限公司 | 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法 |
US20210202040A1 (en) * | 2018-09-05 | 2021-07-01 | Chunlab, Inc. | Method for identifying and classifying sample microorganisms |
WO2021158989A1 (en) * | 2020-02-07 | 2021-08-12 | Lodo Therapeutics Corporation | Methods and apparatus for efficient and accurate assembly of long-read genomic sequences |
CN114078568A (zh) * | 2020-09-14 | 2022-02-22 | 青岛欧易生物科技有限公司 | 基于iib型限制性内切酶特征的宏基因组测序数据处理系统及处理方法 |
WO2022074454A1 (en) * | 2020-10-06 | 2022-04-14 | Thermo Fisher Scientific Oy | Systems and methods for rapid microbial identification |
US20220146527A1 (en) * | 2019-09-17 | 2022-05-12 | Chang Gung University | Method of creating characteristic profiles of mass spectra and identification model for analyzing and identifying features of microorganisms |
-
2022
- 2022-10-21 CN CN202211296715.7A patent/CN117116351B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017204771A2 (en) * | 2016-05-27 | 2017-11-30 | Erciyes Universitesi | A system and method for identification of microorganisms |
US20210202040A1 (en) * | 2018-09-05 | 2021-07-01 | Chunlab, Inc. | Method for identifying and classifying sample microorganisms |
CN110111847A (zh) * | 2019-04-24 | 2019-08-09 | 华中科技大学鄂州工业技术研究院 | 基于its2鉴定植物物种的方法及设备 |
US20220146527A1 (en) * | 2019-09-17 | 2022-05-12 | Chang Gung University | Method of creating characteristic profiles of mass spectra and identification model for analyzing and identifying features of microorganisms |
WO2021158989A1 (en) * | 2020-02-07 | 2021-08-12 | Lodo Therapeutics Corporation | Methods and apparatus for efficient and accurate assembly of long-read genomic sequences |
CN111816258A (zh) * | 2020-07-20 | 2020-10-23 | 杭州谷禾信息技术有限公司 | 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法 |
CN114078568A (zh) * | 2020-09-14 | 2022-02-22 | 青岛欧易生物科技有限公司 | 基于iib型限制性内切酶特征的宏基因组测序数据处理系统及处理方法 |
WO2022074454A1 (en) * | 2020-10-06 | 2022-04-14 | Thermo Fisher Scientific Oy | Systems and methods for rapid microbial identification |
Non-Patent Citations (3)
Title |
---|
BIAOSHENG HUANG ET AL.: "Applications of machine learning in pine nuts classification", 《SCIENTIFIC REPORTS》 * |
G. SCHIAVO ET AL.: "A machine learning approach for the identification of population-informative markers from high-throughput genotyping data: application to several pig breeds", 《ANIMAL》, vol. 14 * |
高琪娟: "基于集成学习的被子植物孤儿基因预测研究", 《中国博士学位论文全文数据库 基础科学辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN117116351B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zieliński et al. | Deep learning approach to bacterial colony classification | |
CN111276185B (zh) | 一种基于二代高通量测序的微生物鉴定分析系统及装置 | |
O'Rourke et al. | A total crapshoot? Evaluating bioinformatic decisions in animal diet metabarcoding analyses | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
CN110875082B (zh) | 一种基于靶向扩增测序的微生物检测方法和装置 | |
CN109997193B (zh) | 一种对特定群中的亚群进行定量分析的方法 | |
CN113658641B (zh) | 一种噬菌体分类方法、装置、设备及存储介质 | |
CN113260710A (zh) | 用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法 | |
CN117116351B (zh) | 基于机器学习算法的物种鉴定模型的构建方法、物种鉴定方法和物种鉴定系统 | |
CN110970093B (zh) | 一种筛选引物设计模板的方法、装置及应用 | |
Yang et al. | Ultrastrain: an NGS-based ultra sensitive strain typing method for Salmonella enterica | |
CN116497104A (zh) | 一种实验室标准菌株的质量控制评估方法及系统 | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
CN112365930B (zh) | 一种为基因数据库确定最佳序列比对阈值的方法 | |
Chayadevi et al. | Data mining, Classification and Clustering with Morphological features of Microbes | |
CN115965294A (zh) | 一种基于机器学习和环境dna的河流水生态健康评价方法 | |
CN114496070B (zh) | 转录组序列分类方法、装置、电子设备及可读存储介质 | |
Zhu et al. | cgMSI: pathogen detection within species from nanopore metagenomic sequencing data | |
Plichta | Recognition of species and genera of bacteria by means of the product of weights of the classifiers | |
Sun et al. | Eliminate false positives in metagenomic profiling based on type IIB restriction sites | |
CN109360603A (zh) | 确定肠道细菌亚种的方法及设备 | |
CN114882944B (zh) | 基于Metagenome测序的肠道微生物样品宿主性别鉴定方法、装置及应用 | |
Asgari et al. | Nucleotide-pair encoding of 16s rrna sequences for host phenotype and biomarker detection | |
CN115719614A (zh) | 一种基于隐藏亚组的生信降噪分析方法及系统 | |
CN115732031A (zh) | 一种针对生信噪音的基于隐藏亚组的生信降噪分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |