CN112614542B - 一种微生物鉴定方法、装置、设备及存储介质 - Google Patents
一种微生物鉴定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112614542B CN112614542B CN202011587660.6A CN202011587660A CN112614542B CN 112614542 B CN112614542 B CN 112614542B CN 202011587660 A CN202011587660 A CN 202011587660A CN 112614542 B CN112614542 B CN 112614542B
- Authority
- CN
- China
- Prior art keywords
- mass
- value
- spectrum
- peak
- spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 244000005700 microbiome Species 0.000 title claims abstract description 155
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000003595 spectral effect Effects 0.000 claims abstract description 299
- 238000001819 mass spectrum Methods 0.000 claims abstract description 141
- 238000001228 spectrum Methods 0.000 claims description 204
- 108090000623 proteins and genes Proteins 0.000 claims description 28
- 102000004169 proteins and genes Human genes 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 230000009286 beneficial effect Effects 0.000 abstract description 9
- 101000878457 Macrocallista nimbosa FMRFamide Proteins 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000001840 matrix-assisted laser desorption--ionisation time-of-flight mass spectrometry Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003795 desorption Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000405 serological effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供了一种微生物鉴定方法、装置、设备及存储介质,其中,该方法包括:在获取待鉴定微生物的质谱图后,确定质谱图中各谱峰在质谱图中的区域;针对每一个基准质谱图,计算该基准质谱图中各基准谱峰的质量值与质谱图中每一个谱峰的质量值的差值;针对每一个谱峰,在该谱峰对应的差值中确定在第一预设范围内的差值的数量,以将数量作为该谱峰的匹配数;计算该基准质谱图的得分;计算各得分中的最高得分在所有得分中出现的第一概率;判断第一概率是否小于预设阈值;若小于,将最高得分对应的基准质谱图显示在显示屏上;通过上述方法,有利于提高微生物鉴定的准确率。
Description
技术领域
本申请涉及微生物鉴定技术领域,具体而言,涉及一种微生物鉴定方法、装置、设备及存储介质。
背景技术
随着科学技术的发展,微生物鉴定成为微生物分类学的一个重要组成部分,通过微生物鉴定,可以使人们了解微生物界的全貌,有利于进一步开发和利用丰富的微生物资源。
现有技术中,通过参考微生物分类系统中包括的各分类标准,比如微生物单个细胞的形态、对周围环境资源的利用度、血清学反应等分类标准,人工鉴定微生物的类型,但目前的微生物分类系统还不完整、存在较大的误差,所以该微生物分类系统中分类标准的准确率低,使得依据该分类标准进行的微生物鉴定的准确率也较低。
发明内容
有鉴于此,本申请实施例提供了一种微生物鉴定方法、装置、设备及存储介质,以提高微生物鉴定的准确率。
主要包括以下几个方面:
第一方面,本申请实施例提供了一种微生物鉴定方法,该方法包括:
在获取待鉴定微生物的质谱图后,根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域,其中,各所述强度值用于表示所述待鉴定微生物包含的各蛋白质的含量;
针对数据库中每一个已知微生物的基准质谱图,计算该基准质谱图中各基准谱峰的质量值与所述质谱图中每一个谱峰的质量值的差值,其中,各所述谱峰的质量值用于表示所述待鉴定微生物包含的各所述蛋白质的质核比;
针对每一个所述谱峰,在该谱峰对应的差值中确定在第一预设范围内的差值的数量,以将所述数量作为该谱峰的匹配数;
根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分;
计算各所述得分中的最高得分在所有所述得分中出现的第一概率;
判断所述第一概率是否小于预设阈值;
若小于,将所述最高得分对应的基准质谱图显示在显示屏上。
可选的,所述根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域,包括:
计算各所述强度值的和值,以得到所述谱峰的总强度值;
针对每一个所述谱峰,计算该谱峰的强度值与大于该强度值的所有所述强度值的和值,以得到该谱峰的目标强度值;
计算所述质谱图中各所述目标强度值与所述总强度值的比值;
根据各所述区域规定的比值范围,通过确定各所述比值所属的所述比值范围,得到各所述比值对应的谱峰在所述质谱图中的区域。
可选的,所述根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分,包括:
第一区域的所述总匹配数为m1,第一区域的所述总数量为t1;
第二区域的所述总匹配数为m2,第二区域的所述总数量为t2;
以此类推,第N区域的所述总匹配数为mn,第N区域的所述总数量为tn;
计算N个所述区域的所述总匹配数的和值M及N个所述区域的所述总数量的和值T;
通过以下公式,得到该基准质谱图的匹配概率:
其中,i=1,2,……,n;
通过对所述匹配概率取负对数,得到该基准质谱图的所述得分。
可选的,所述计算各所述得分中的最高得分在所有所述得分中出现的第一概率,包括:
计算各所述得分在所有所述得分中出现的第二概率;
通过拟合各所述得分及其第二概率,得到所述得分和所述第二概率的函数关系;
通过将所述最高得分代入到所述函数关系中,得到所述第一概率。
可选的,在所述获取待鉴定微生物的质谱图前,所述方法还包括:
S1:针对所述数据库中的每一个所述已知微生物,获取该已知微生物的至少一个质谱图;
S2:在所述至少一个质谱图中任选一个第一质谱图,以将该第一质谱图确定为第一基准质谱图;
S3:依次遍历所述至少一个质谱图中除所述第一质谱图外的每一个第二质谱图,以计算所述第二质谱图中各谱峰的质量值与所述第一基准质谱图中每一个第一基准谱峰的质量值的差值;
S4:针对每一个所述第一基准谱峰,在该第一基准谱峰对应的差值中筛选在第二预设范围内的第一差值,并将所述第一差值对应的所述第二质谱图的谱峰确定为该第一基准谱峰的匹配谱峰;
S5:将所述第二质谱图中除所述第一基准谱峰的匹配谱峰外的谱峰加入到所述第一基准质谱图中,以得到第二基准质谱图;
S6:计算所述第二基准质谱图中各第二基准谱峰的质量值与对应的匹配谱峰的质量值的第一质量均值,并使用各所述第一质量均值替换对应的第二基准谱峰的质量值,以得到第三基准质谱图;
S7:使用所述第三基准质谱图,重复执行S3至S6,直到所述第三基准质谱图中第三基准谱峰的数量不变为止;
S8:依次遍历所述至少一个质谱图中的每一个第三质谱图,以计算所述第三质谱图中各谱峰的质量值与每一个所述第三基准谱峰的质量值的差值;
S9:针对每一个所述第三基准谱峰,在该第三基准谱峰对应的差值中筛选在第三预设范围内的第二差值,并将所述第二差值对应的所述第三质谱图的谱峰确定为该第三基准谱峰的匹配谱峰;
S10:计算各所述第三基准谱峰的质量值与对应的匹配谱峰的质量值的第二质量均值,以及计算各所述第三基准谱峰的强度值与对应的匹配谱峰的强度值的强度均值,以及使用各所述第二质量均值替换对应的第三基准谱峰的质量值,以及使用各所述强度均值替换对应的第三基准谱峰的强度值,以得到所述基准质谱图。
第二方面,本申请实施例提供了一种微生物鉴定装置,所述装置包括:
第一确定模块,用于在获取待鉴定微生物的质谱图后,根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域,其中,各所述强度值用于表示所述待鉴定微生物包含的各蛋白质的含量;
第一计算模块,用于针对数据库中每一个已知微生物的基准质谱图,计算该基准质谱图中各基准谱峰的质量值与所述质谱图中每一个谱峰的质量值的差值,其中,各所述谱峰的质量值用于表示所述待鉴定微生物包含的各所述蛋白质的质核比;
第二确定模块,用于针对每一个所述谱峰,在该谱峰对应的差值中确定在第一预设范围内的差值的数量,以将所述数量作为该谱峰的匹配数;
第二计算模块,用于根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分;
第三计算模块,用于计算各所述得分中的最高得分在所有所述得分中出现的第一概率;
判断模块,用于判断所述第一概率是否小于预设阈值;
显示模块,用于若小于,将所述最高得分对应的基准质谱图显示在显示屏上。
可选的,所述第一确定模块的配置在用于根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域时,包括:
计算各所述强度值的和值,以得到所述谱峰的总强度值;
针对每一个所述谱峰,计算该谱峰的强度值与大于该强度值的所有所述强度值的和值,以得到该谱峰的目标强度值;
计算所述质谱图中各所述目标强度值与所述总强度值的比值;
根据各所述区域规定的比值范围,通过确定各所述比值所属的所述比值范围,得到各所述比值对应的谱峰在所述质谱图中的区域。
可选的,所述第二计算模块的配置在用于根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分时,包括:
第一区域的所述总匹配数为m1,第一区域的所述总数量为t1;
第二区域的所述总匹配数为m2,第二区域的所述总数量为t2;
以此类推,第N区域的所述总匹配数为mn,第N区域的所述总数量为tn;
计算N个所述区域的所述总匹配数的和值M及N个所述区域的所述总数量的和值T;
通过以下公式,得到该基准质谱图的匹配概率:
其中,i=1,2,……,n;
通过对所述匹配概率取负对数,得到该基准质谱图的所述得分。
可选的,所述第三计算模块的配置在用于计算各所述得分中的最高得分在所有所述得分中出现的第一概率时,包括:
计算各所述得分在所有所述得分中出现的第二概率;
通过拟合各所述得分及其第二概率,得到所述得分和所述第二概率的函数关系;
通过将所述最高得分代入到所述函数关系中,得到所述第一概率。
可选的,在获取待鉴定微生物的质谱图前,所述微生物鉴定装置还用于:
S1:针对所述数据库中的每一个所述已知微生物,获取该已知微生物的至少一个质谱图;
S2:在所述至少一个质谱图中任选一个第一质谱图,以将该第一质谱图确定为第一基准质谱图;
S3:依次遍历所述至少一个质谱图中除所述第一质谱图外的每一个第二质谱图,以计算所述第二质谱图中各谱峰的质量值与所述第一基准质谱图中每一个第一基准谱峰的质量值的差值;
S4:针对每一个所述第一基准谱峰,在该第一基准谱峰对应的差值中筛选在第二预设范围内的第一差值,并将所述第一差值对应的所述第二质谱图的谱峰确定为该第一基准谱峰的匹配谱峰;
S5:将所述第二质谱图中除所述第一基准谱峰的匹配谱峰外的谱峰加入到所述第一基准质谱图中,以得到第二基准质谱图;
S6:计算所述第二基准质谱图中各第二基准谱峰的质量值与对应的匹配谱峰的质量值的第一质量均值,并使用各所述第一质量均值替换对应的第二基准谱峰的质量值,以得到第三基准质谱图;
S7:使用所述第三基准质谱图,重复执行S3至S6,直到所述第三基准质谱图中第三基准谱峰的数量不变为止;
S8:依次遍历所述至少一个质谱图中的每一个第三质谱图,以计算所述第三质谱图中各谱峰的质量值与每一个所述第三基准谱峰的质量值的差值;
S9:针对每一个所述第三基准谱峰,在该第三基准谱峰对应的差值中筛选在第三预设范围内的第二差值,并将所述第二差值对应的所述第三质谱图的谱峰确定为该第三基准谱峰的匹配谱峰;
S10:计算各所述第三基准谱峰的质量值与对应的匹配谱峰的质量值的第二质量均值,以及计算各所述第三基准谱峰的强度值与对应的匹配谱峰的强度值的强度均值,以及使用各所述第二质量均值替换对应的第三基准谱峰的质量值,以及使用各所述强度均值替换对应的第三基准谱峰的强度值,以得到所述基准质谱图。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一所述的微生物鉴定方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面中任一所述的微生物鉴定方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请实施例提供的微生物鉴定的方法,在获取到质谱图后,依据谱峰的强度值,将该质谱图中的谱峰划分在不同的区域中,为了能够在大量的已知微生物的基准质谱图中找到与该质谱图最相似的基准质谱图,遍历该数据库中的每一个基准质谱图,以计算该质谱图中各谱峰的质量值与基准质谱图中每一个谱峰的质量值的差值,并确定每一个谱峰对应的在第一预设范围内的差值的数量,也就是说,针对每一个基准质谱图,确定每一个谱峰在该基准质谱图中与其相似的基准谱峰的数量,即:匹配数;然后为了确定该质谱图与该基准质谱图的相似度,需要根据该质谱图中各区域包括的谱峰的总数量和总匹配数,计算该基准质谱图的得分,得分越高,说明该基准质谱图与该质谱图越相似,所以数据库中的最高得分对应的基准质谱图与该质谱图最相似,为了确定该最高得分是否可靠,需要计算该最高得分在所有得分中出现的第一概率,当该第一概率小于预设阈值时,说明该最高得分是可靠的,所以将该最高得分对应的基准质谱图显示在显示屏上,以作为鉴定结果;与现有技术中的人工鉴定微生物的方法相比,现有技术的微生物分类系统中的分类标准是人为设定的,所以存在较大误差,而在本申请中使用的微生物质谱图,不同微生物的质谱图中各谱峰的质量值差异大,相同微生物的质谱图中各谱峰的质量值差异小,所以可以根据谱峰质量值的相似性判断这两个谱峰是否代表同一蛋白质,从而根据两个微生物中包含的相同蛋白质的数量判断两个微生物是否为同一微生物,且本申请不仅需要比较未知微生物的质谱图与已知微生物的基准质谱图之间的相似性,找到相似性最高的已知微生物的基准质谱图,还需要判断找到的基准质谱图是否靠谱,只有被判定为靠谱,才能将该找到的基准质谱图进行显示,通过上述方法,有利于提高微生物鉴定的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例一所提供的一种微生物鉴定方法的流程图;
图2示出了本申请实施例一所提供的另一种微生物鉴定方法的流程图;
图3示出了本申请实施例一所提供的另一种微生物鉴定方法的流程图;
图4示出了本申请实施例一所提供的另一种微生物鉴定方法的流程图;
图5示出了本申请实施例二所提供的一种微生物鉴定装置的结构示意图;
图6示出了本申请实施例三所提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种微生物鉴定方法、装置、设备及存储介质,下面通过实施例进行描述。
实施例一
图1示出了本申请实施例一所提供的一种微生物鉴定方法的流程图,如图1所示,该方法包括以下步骤:
步骤S101:在获取待鉴定微生物的质谱图后,根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域,其中,各所述强度值用于表示所述待鉴定微生物包含的各蛋白质的含量。
具体的,所述待鉴定微生物为未知微生物,为了确定该未知微生物的类型,需要利用该未知微生物的质谱图对该未知微生物进行鉴定,该质谱图的横坐标代表该待鉴定微生物包括的各蛋白质的质核比,所以该质谱图中横坐标上的各谱峰的质量值用于表示该待鉴定微生物包含的各蛋白质的含量,该质谱图的纵坐标为代表该待鉴定微生物包括的各蛋白质的含量,所以该质谱图中纵坐标上的各谱峰的强度值用于表示该待鉴定微生物包含的各蛋白质的含量,质谱图中各谱峰代表该待鉴定微生物包含的各蛋白质;在获取到该待鉴定微生物的质谱图后,该质谱图包括为其划分的预设数量的区域,这预设数量个区域包括质谱图中所有的谱峰,且每一个区域包括至少一个谱峰,所以该区域的预设数量小于或等于该质谱图中谱峰的数量,谱峰的强度值在质谱图中的表现形式为谱峰顶点的纵坐标值,根据各谱峰的强度值,确定各谱峰在该质谱图的区域,从而得到该质谱图中各区域包括的谱峰。
需要说明的是,对于待鉴定微生物的质谱图的获取方法,可以根据实际情况进行设定,例如可以通过maldi-tof(matrix-assisted laser desorption/ionization time-of-flight,基质辅助激光解析电离飞行时间)实验获取待鉴定微生物的质谱图,关于具体的获取方法在此不做具体限定。
需要再次说明的是,上述maldi-tof实验存在大量的噪声,该噪声造成质谱图中基线漂移,使得从质谱图中提取的特征信息的准确性较低,为了能够更准确的提取质谱图中的特征信息,在获取待鉴定微生物后,需要对获取的待鉴定微生物的质谱图进行预处理,该预处理包括基线校正、曲线平滑、谱峰识别等处理操作,并在处理质谱图后,将质谱图中的各谱峰按照谱峰强度值由高到低的顺序进行排列,并在排列后保留强度值高的固定数量的谱峰,通过上述预处理操作,有利于提高提取特征信息的准确度。
步骤S102:针对数据库中每一个已知微生物的基准质谱图,计算该基准质谱图中各基准谱峰的质量值与所述质谱图中每一个谱峰的质量值的差值,其中,各所述谱峰的质量值用于表示所述待鉴定微生物包含的各所述蛋白质的质核比。
具体的,数据库中包括至少一个已知微生物,每一个已知微生物仅有一个基准质谱图,基准质谱图中的横坐标代表已知微生物包含的蛋白质的质核比,所以基准质谱图中横坐标上的各基准谱峰的质量值用于表示已知微生物包含的各蛋白质的质核比,基准质谱图中的纵坐标代表已知微生物包含的蛋白质的含量,所以基准质谱图中纵坐标上的各基准谱峰的强度值用于表示已知微生物包含的各蛋白质的含量,基准质谱图中的各基准谱峰代表已知微生物包含的各蛋白质;上述计算该基准质谱图中各基准谱峰的质量值与所述质谱图中每一个谱峰的质量值的差值,具体为:针对该基准质谱图中的每一个基准谱峰,计算该基准谱峰的质量值与质谱图中各谱峰的质量值的差值。
举例说明,该基准质谱图中包括3个基准谱峰,分别为基准谱峰a,基准谱峰b,基准谱峰c,质谱图中包括2个谱峰,分别为谱峰A,谱峰B,计算差值时,可以先计算基准谱峰a的质量值与谱峰A的质量值的差值、基准谱峰a的质量值与谱峰B的质量值的差值,再计算基准谱峰b的质量值与谱峰A的质量值的差值、基准谱峰b的质量值与谱峰B的质量值的差值,最后计算基准谱峰c的质量值与谱峰A的质量值的差值、基准谱峰c 的质量值与谱峰B的质量值的差值,最终得到基准质谱图中各基准谱峰的质量值与质谱图中每一个谱峰的质量值的差值。
步骤S103:针对每一个所述谱峰,在该谱峰对应的差值中确定在第一预设范围内的差值的数量,以将所述数量作为该谱峰的匹配数。
具体的,若差值的计算中使用到了该谱峰的质量值,则该差值为该谱峰对应的差值,针对每一个谱峰,需要计算该谱峰的质量值与基准质谱图中每一个基准谱峰的质量值的差值,所以该谱峰对应的差值的数量等于基准质谱图中基准谱峰的数量,在计算出该谱峰对应的所有差值后,分别判断该谱峰对应的每一个差值是否在第一预设范围内,并计算在第一预设范围内的差值的数量,以将在第一预设范围内的差值的数量作为该谱峰的匹配数,其中,匹配数用于表示基准质谱图中与该谱峰相似的基准谱峰的数量。
举例说明,基准质谱图中包括3个基准谱峰,分别为基准谱峰a,基准谱峰b,基准谱峰c,对于质谱图中的每一个谱峰,需要计算该谱峰的质量值与基准谱峰a的质量值的差值M,计算该谱峰的质量值与基准谱峰b的质量值的差值N,计算该谱峰的质量值与基准谱峰c的质量值的差值T,然后分别判断差值M、差值N、差值T是否在第一预设范围内,若差值M、差值 N均在第一预设范围内,差值T不在第一预设范围内,则第一预设范围内的差值的数量为2,也就是说该谱峰的匹配数为2。
需要说明的是,对于在第一预设范围内的差值的判断方法,可以根据实际情况进行设定,例如,可以预设一个数值范围作为第一预设范围,并判断差值是否在该预设的数值范围内,若在,则该差值在第一预设范围内;还可以计算该差值的绝对值,并设定一个预设阈值,通过比较该差值的绝对值和该预设阈值,然后判断比较结果是否符合预设条件,若符合预设条件,则该差值在第一预设范围内;关于具体的判断方法在此不做具体限定。
步骤S104:根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分。
具体的,在确定质谱图中每一个谱峰在该质谱图中的区域后,可以得到该质谱图中各区域包括的每一个谱峰,针对每一个区域,在确定该区域中每个谱峰的匹配数后,计算该区域包括的每个谱峰的匹配数的和值,以得到该区域的总匹配数,然后统计该区域包括的所有谱峰的数量,以得到该区域的总数量,上述基准质谱图的得分用于表示该基准质谱图与该质谱图的相似度,而相似度的大小取决于与该质谱图中各谱峰相似的基准谱峰的数量,即:匹配数,所以可以根据该质谱图中各区域包括的谱峰的总匹配数和总数量,计算该基准质谱图的得分。
步骤S105:计算各所述得分中的最高得分在所有所述得分中出现的第一概率。
具体的,上述第一概率指的是最高得分在数据库的所有基准质谱图的得分中出现的概率,因为基准质谱图的得分表示该基准质谱图与未知微生物的质谱图的相似度,所以最高得分对应的基准质谱图与该质谱图相似度最高,为了确定最高的相似度是否靠谱或是否有效,需要计算最高得分在所有得分中出现的第一概率。
步骤S106:判断所述第一概率是否小于预设阈值。
步骤S107:若小于,将所述最高得分对应的基准质谱图显示在显示屏上。
具体的,若第一概率小于预设阈值,说明该最高得分是靠谱的,该最高得分对应的基准质谱图为有效鉴定结果,所以将最高得分对应的基准质谱图显示在显示屏上,为相关人员提供参考,其中,在所有基准质谱图的得分中,存在两个或两个以上的得分相同且均为最高得分的情况,所以最高得分对应至少一个基准质谱图;若第一概率值大于或等于预设阈值,说明该最高得分是不靠谱的,在显示屏上显示提示信息,该提示信息用于表示无有效鉴定结果,无法确定该待鉴定微生物。
图1提供的微生物鉴定方法中,在获取到质谱图后,依据谱峰的强度值,将该质谱图中的谱峰划分在不同的区域中,为了能够在大量的已知微生物的基准质谱图中找到与该质谱图最相似的基准质谱图,遍历该数据库中的每一个基准质谱图,以计算该质谱图中各谱峰的质量值与基准质谱图中每一个谱峰的质量值的差值,并确定每一个谱峰对应的在第一预设范围内的差值的数量,也就是说,针对每一个基准质谱图,确定每一个谱峰在该基准质谱图中与其相似的基准谱峰的数量,即:匹配数;然后为了确定该质谱图与该基准质谱图的相似度,需要根据该质谱图中各区域包括的谱峰的总数量和总匹配数,计算该基准质谱图的得分,得分越高,说明该基准质谱图与该质谱图越相似,所以数据库中的最高得分对应的基准质谱图与该质谱图最相似,为了确定该最高得分是否可靠,需要计算该最高得分在所有得分中出现的第一概率,当该第一概率小于预设阈值时,说明该最高得分是可靠的,所以将该最高得分对应的基准质谱图显示在显示屏上,以作为鉴定结果;与现有技术中的人工鉴定微生物的方法相比,现有技术的微生物分类系统中的分类标准是人为设定的,所以存在较大误差,而在本申请中使用的微生物质谱图,不同微生物的质谱图中各谱峰的质量值差异大,相同微生物的质谱图中各谱峰的质量值差异小,所以可以根据谱峰质量值的相似性判断这两个谱峰是否代表同一蛋白质,从而根据两个微生物中包含的相同蛋白质的数量判断两个微生物是否为同一微生物,且本申请不仅需要比较未知微生物的质谱图与已知微生物的基准质谱图之间的相似性,找到相似性最高的已知微生物的基准质谱图,还需要判断找到的基准质谱图是否靠谱,只有被判定为靠谱,才能将该找到的基准质谱图进行显示,通过上述方法,有利于提高微生物鉴定的准确性。
在一种可行的实施方案中,图2示出了本申请实施例一所提供的另一种微生物鉴定方法的流程图,如图2所示,在执行步骤S101时,可以通过以下步骤实现:
步骤S201:计算各所述强度值的和值,以得到所述谱峰的总强度值。
步骤S202:针对每一个所述谱峰,计算该谱峰的强度值与大于该强度值的所有所述强度值的和值,以得到该谱峰的目标强度值。
步骤S203:计算所述质谱图中各所述目标强度值与所述总强度值的比值。
步骤S204:根据各所述区域规定的比值范围,通过确定各所述比值所属的所述比值范围,得到各所述比值对应的谱峰在所述质谱图中的区域。
具体的,在获取到质谱图后,该质谱图中各谱峰的强度值为各谱峰顶点的纵坐标值,对于计算各谱峰的目标强度值的方式,可以根据实际情况进行设定,可以将质谱图中的谱峰按照强度值由高到低的顺序进行排序,对排序后的谱峰依次累加,并将每次累加的数值作为每一个排序后的谱峰的相对强度值,也可以不进行排序,对于每一个谱峰,在质谱图中找到大于该谱峰的强度值的所有强度值对应的谱峰,并将找到的所有谱峰的强度值与该谱峰的强度值相加,得到该谱峰的相对强度值,关于具体的计算方式在此不做具体限定。
需要再次说明的是,在计算完各谱峰对应的比值后,步骤S204包括:针对每一个区域规定的比值范围,判断所述比值是否在该区域的比值范围内,若在,则所述比值对应的谱峰属于该区域,若不在,则所述比值对应的谱峰不属于该区域。
举例说明,质谱图中包括4个谱峰,分别为谱峰1、谱峰2、谱峰3、谱峰4,计算这四个谱峰的强度值的和值,得到总强度值,然后按照强度值由高到低的顺序排列这四个谱图,排列顺序为谱峰2、谱峰3、谱峰1、谱峰4,在排列后将谱峰2的强度值作为谱峰2的相对强度值,将谱峰2的强度值和谱峰3的强度值的累加值作为谱峰3的相对强度值,将谱峰2的强度值、谱峰3的强度值及谱峰1的强度值的累加值作为谱峰1的相对强度值,将谱峰2的强度值、谱峰3的强度值、谱峰1的强度值及谱峰4的强度值的累加值作为谱峰4的相对强度值,在计算完每个谱峰的相对强度值后,分别计算谱峰2的相对强度值与总强度值的比值a、谱峰3的相对强度值与总强度值的比值b、谱峰1的相对强度值与总强度值的比值c及谱峰4 的相对强度值与总强度值的比值d,在计算完各谱峰对应的比值后,若该质谱图中有三个区域,分别是区域A和区域B和区域C,区域A规定的比值范围为小于或等于0.2,区域B规定的比值范围为大于0.2且小于等于0.5,区域C规定的比值范围为大于0.5,针对区域A,比值d小于0.2,所述谱峰4属于区域A,针对区域B,比值b和比值c均大于0.2且小于等于0.5,所以谱峰3和谱峰1属于区域B,针对区域C,比值a大于0.5,所以谱峰 2属于区域C。
在一种可行的实施方案中,步骤S104中的计算方法包括:
第一区域的所述总匹配数为m1,第一区域的所述总数量为t1。
第二区域的所述总匹配数为m2,第二区域的所述总数量为t2。
以此类推,第N区域的所述总匹配数为mn,第N区域的所述总数量为tn。
计算N个所述区域的所述总匹配数的和值M及N个所述区域的所述总数量的和值T。
通过以下公式,得到该基准质谱图的匹配概率:
其中,i=1,2,……,n。
通过对所述匹配概率取负对数,得到该基准质谱图的所述得分。
举例说明,若待鉴定微生物的质谱图中有三个区域,第一区域的总匹配数m1为1,第一区域的总数量t1为3,第二区域的总匹配数m2为2,第二区域的总数量t2为4,第三区域的总匹配数m3为5,第二区域的总数量t3为 6,这三个区域的总匹配数的和值M为8,这三个区域的总数量的和值T为 13,则该基准质谱图的匹配概率为:
在得到该基准质谱图的匹配概率4/91125后,对该概率取负对数,即通过四舍五入对该计算结果进行取整,并将取整后得到的数值4作为该基准质谱图的得分。
在一种可行的实施方案中,图3示出了本申请实施例一所提供的另一种微生物鉴定方法的流程图,如图3所示,在执行步骤S105时,可以通过以下步骤实现:
步骤S301:计算各所述得分在所有所述得分中出现的第二概率。
步骤S302:通过拟合各所述得分及其第二概率,得到所述得分和所述第二概率的函数关系。
步骤S303:通过将所述最高得分代入到所述函数关系中,得到所述第一概率。
具体的,对于第二概率的计算方式,可以根据实际情况进行设定,例如可以利用计算出的各基准质谱图的得分的分布符合负二项分布这一特性,使用负二项分布的概率密度函数k=0,1,2,……计算各得分的第二概率,其中函数f表示第二概率,p表示得是得分,r表示的是得分在所有得分中的次序,关于具体的计算方式在此不做具体限定。
需要说明的是,对于第一概率值的具体的计算方法,可以根据实际情况进行设定,例如通过拟合各所述得分及其第二概率,得到得分与第二概率的拟合曲线,将拟合曲线用函数关系式表示出来,该函数关系式为所述得分和所述第二概率的函数关系式,在得到函数关系式后,在各得分中找到最高得分,并把该最高得分代入到该函数关系式中,得到该最高的得分的第一概率,关于具体的计算方法在此不做具体限定。
在一种可行的实施方案中,图4示出了本申请实施例一所提供的另一种微生物鉴定方法的流程图,如图4所示,在获取待鉴定微生物的质谱图前,所述微生物鉴定方法还包括以下步骤:
步骤S401:针对所述数据库中的每一个所述已知微生物,获取该已知微生物的至少一个质谱图。
步骤S402:在所述至少一个质谱图中任选一个第一质谱图,以将该第一质谱图确定为第一基准质谱图。
步骤S403:依次遍历所述至少一个质谱图中除所述第一质谱图外的每一个第二质谱图,以计算所述第二质谱图中各谱峰的质量值与所述第一基准质谱图中每一个第一基准谱峰的质量值的差值。
步骤S404:针对每一个所述第一基准谱峰,在该第一基准谱峰对应的差值中筛选在第二预设范围内的第一差值,并将所述第一差值对应的所述第二质谱图的谱峰确定为该第一基准谱峰的匹配谱峰。
步骤S405:将所述第二质谱图中除所述第一基准谱峰的匹配谱峰外的谱峰加入到所述第一基准质谱图中,以得到第二基准质谱图。
步骤S406:计算所述第二基准质谱图中各第二基准谱峰的质量值与对应的匹配谱峰的质量值的第一质量均值,并使用各所述第一质量均值替换对应的第二基准谱峰的质量值,以得到第三基准质谱图。
步骤S407:使用所述第三基准质谱图,重复执行步骤S403至步骤S406,直到所述第三基准质谱图中第三基准谱峰的数量不变为止。
步骤S408:依次遍历所述至少一个质谱图中的每一个第三质谱图,以计算所述第三质谱图中各谱峰的质量值与每一个所述第三基准谱峰的质量值的差值。
步骤S409:针对每一个所述第三基准谱峰,在该第三基准谱峰对应的差值中筛选在第三预设范围内的第二差值,并将所述第二差值对应的所述第三质谱图的谱峰确定为该第三基准谱峰的匹配谱峰。
步骤S410:计算各所述第三基准谱峰的质量值与对应的匹配谱峰的质量值的第二质量均值,以及计算各所述第三基准谱峰的强度值与对应的匹配谱峰的强度值的强度均值,以及使用各所述第二质量均值替换对应的第三基准谱峰的质量值,以及使用各所述强度均值替换对应的第三基准谱峰的强度值,以得到所述基准质谱图。
具体的,已知微生物指的是知晓种类的微生物,通过对同一种已知微生物进行不同的纯种培养,获取到不同的菌株,对于每一个菌株,由至少两名不同的实验员分别进行maldi-tof实验,每次试验获取到至少一个质谱图,所以该已知微生物通过maldi-tof实验处理可以得到至少一个质谱图,在获取到已知微生物的质谱图后,可以对质谱图进行预处理,关于预处理的具体说明参照上述对待鉴定微生物的预处理,在此不再进行赘述。
需要说明的是,在得到第三基准质谱图后,针对第三基准质谱图中的每一个第三基准谱峰,计算该第三基准谱峰的匹配谱峰的数量与第三质谱图中所有谱峰的数量的比值,并将该比值作为该第三基准谱峰的匹配率,在得到该第三基准谱峰的匹配率后,计算该第三基准谱峰的匹配率与该第三基准谱峰对应的均值强度的乘积,并将该乘积作为该第三基准谱峰的相对强度,为了提高第三基准质谱图的准确度,可以将该第三基准质谱图中的第三基准谱峰按照相对强度由高到低的顺序进行排序,并在排序后的第三基准谱峰中保留预设数量的相对强度高的第三基准谱峰。
举例说明,已知微生物的质谱图共有三个,分别为质谱图1、质谱图2 和质谱图3,在这三个质谱图中任选一个质谱图作为基准质谱图,比如选择质谱图2作为基准质谱图,基准质谱图中有三个基准谱峰,分别为基准谱峰A、基准谱峰B和基准谱峰C,质谱图1中也有三个谱峰,分别为谱峰a、谱峰b、谱峰c,质谱图3中有两个谱峰,分别为谱峰e、谱峰f,依次遍历质谱图1和质谱图3,对于质谱图1,计算质谱图1中的谱峰a的质量值与基准谱峰A的质量值的差值x1、谱峰a的质量值与基准谱峰B的质量值的差值x2、谱峰a的质量值与基准谱峰C的质量值的差值x3,再计算谱峰b 的质量值与基准谱峰A的质量值的差值x4、谱峰b的质量值与基准谱峰B 的质量值的差值x5、谱峰b的质量值与基准谱峰C的质量值的差值x6,最后计算谱峰c的质量值与基准谱峰A的质量值的差值x7、谱峰c的质量值与基准谱峰B的质量值的差值x8、谱峰c的质量值与基准谱峰C的质量值的差值x9,对于质谱图3,计算质谱图3中的谱峰e的质量值与基准谱峰A 的质量值的差值y1、谱峰e的质量值与基准谱峰B的质量值的差值y2、谱峰e的质量值与基准谱峰C的质量值的差值y3,再计算谱峰f的质量值与基准谱峰A的质量值的差值y4、谱峰f的质量值与基准谱峰B的质量值的差值y5、谱峰f的质量值与基准谱峰C的质量值的差值y6;差值计算结束后,针对基准谱峰A,基准谱峰A对应的差值包括x1、x4、x7、y1、y4,其中在第二预设范围内的差值有x7、y4,则基准谱峰A的匹配谱峰分别为质谱图 1中的谱峰c和质谱图3中的谱峰f,对于基准谱峰B,基准谱峰B对应的差值包括x2、x5、x8、y2、y5,其中在第二预设范围内的差值有x2、y2、y5,则基准谱峰B的匹配谱峰分别为质谱图1中的谱峰a、质谱图3中的谱峰e 和谱峰f,对于基准谱峰C,基准谱峰C对应的差值包括x3、x6、x9、y3、y6,其中在第二预设范围内的差值有x3,则基准谱峰C的匹配谱峰为质谱图1 中的谱峰a,在确定基准谱峰的匹配谱峰后,质谱图1和质谱图3中除匹配谱峰外的谱峰有质谱图1中的谱峰b、谱峰c,所以将这两个谱峰加入到基准质谱图中,形成基准质谱图中的谱峰D和谱峰E,然后计算基准谱峰A的质量值、谱峰c的质量值以及谱峰f的质量值的平均值,称为质量均值,并使用该质量均值替换基准谱峰A的质量值,计算基准谱峰B的质量值、谱峰a的质量值、谱峰e的质量值以及谱峰f的质量值的质量均值,并使用该质量均值替换基准谱峰B的质量值,计算基准谱峰C的质量值与谱峰a 的质量值的质量均值,并使用该质量均值替换基准谱峰C的质量值,因为新加入的谱峰D和谱峰E没有匹配谱峰,所以其质量值不变,通过上述步骤,得到替换后的基准质谱图,然后使用该替换后的基准质谱图重复上述操作,直到该替换后的基准质谱图中的基准谱峰的数量不再增加为止,也就是说该替换后的基准质谱图的基准谱峰的匹配谱峰包括质谱图中的每一个谱峰,将该替换后的基准质谱图命名为第三基准质谱图,使用该第三基准质谱图,依次遍历质谱图1、质谱图2、质谱图3,遍历的具体操作说明参照上述遍历的具体操作,在此不再赘述,在遍历结束后,得到该第三基准质谱图中每一个基准谱峰的匹配谱峰,然后针对第三基准质谱图中的每一个基准谱峰,通过计算质量均值并替换的方式确定该基准谱峰的质量值,通过计算强度均值并替换的方式确定该进准谱峰的强度值,质量值和强度值的确定方式的具体说明参照上述替换后的基准质谱图中基准谱峰的质量值的确定方式的具体说明,在此不再赘述,在确定第三基准质谱图中每一个基准谱峰的质量值和强度值后,得到所需的基准质谱图,其中,质量均值指的是所有质量值的平均值,强度均值指的是所有强度值的平均值。
实施例二
图5示出了本申请实施例二所提供的一种微生物鉴定装置的结构示意图,如图5所示,上述微生物鉴定装置包括:
第一确定模块501,用于在获取待鉴定微生物的质谱图后,根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域,其中,各所述强度值用于表示所述待鉴定微生物包含的各蛋白质的含量;
第一计算模块502,用于针对数据库中每一个已知微生物的基准质谱图,计算该基准质谱图中各基准谱峰的质量值与所述质谱图中每一个谱峰的质量值的差值,其中,各所述谱峰的质量值用于表示所述待鉴定微生物包含的各所述蛋白质的质核比;
第二确定模块503,用于针对每一个所述谱峰,在该谱峰对应的差值中确定在第一预设范围内的差值的数量,以将所述数量作为该谱峰的匹配数;
第二计算模块504,用于根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分;
第三计算模块505,用于计算各所述得分中的最高得分在所有所述得分中出现的第一概率;
判断模块506,用于判断所述第一概率是否小于预设阈值;
显示模块507,用于若小于,将所述最高得分对应的基准质谱图显示在显示屏上。
在一种可行的实施方案中,所述第一确定模块501的配置在用于根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域时,包括:
计算各所述强度值的和值,以得到所述谱峰的总强度值;
针对每一个所述谱峰,计算该谱峰的强度值与大于该强度值的所有所述强度值的和值,以得到该谱峰的目标强度值;
计算所述质谱图中各所述目标强度值与所述总强度值的比值;
根据各所述区域规定的比值范围,通过确定各所述比值所属的所述比值范围,得到各所述比值对应的谱峰在所述质谱图中的区域。
在一种可行的实施方案中,所述第二计算模块504的配置在用于根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分时,包括:
第一区域的所述总匹配数为m1,第一区域的所述总数量为t1;
第二区域的所述总匹配数为m2,第二区域的所述总数量为t2;
以此类推,第N区域的所述总匹配数为mn,第N区域的所述总数量为tn;
计算N个所述区域的所述总匹配数的和值M及N个所述区域的所述总数量的和值T;
通过以下公式,得到该基准质谱图的匹配概率:
其中,i=1,2,……,n;
通过对所述匹配概率取负对数,得到该基准质谱图的所述得分。
在一种可行的实施方案中,所述第三计算模块505的配置在用于计算各所述得分中的最高得分在所有所述得分中出现的第一概率时,包括:
计算各所述得分在所有所述得分中出现的第二概率;
通过拟合各所述得分及其第二概率,得到所述得分和所述第二概率的函数关系;
通过将所述最高得分代入到所述函数关系中,得到所述第一概率。
在一种可行的实施方案中,在获取待鉴定微生物的质谱图前,所述微生物鉴定装置还用于:
S1:针对所述数据库中的每一个所述已知微生物,获取该已知微生物的至少一个质谱图;
S2:在所述至少一个质谱图中任选一个第一质谱图,以将该第一质谱图确定为第一基准质谱图;
S3:依次遍历所述至少一个质谱图中除所述第一质谱图外的每一个第二质谱图,以计算所述第二质谱图中各谱峰的质量值与所述第一基准质谱图中每一个第一基准谱峰的质量值的差值;
S4:针对每一个所述第一基准谱峰,在该第一基准谱峰对应的差值中筛选在第二预设范围内的第一差值,并将所述第一差值对应的所述第二质谱图的谱峰确定为该第一基准谱峰的匹配谱峰;
S5:将所述第二质谱图中除所述第一基准谱峰的匹配谱峰外的谱峰加入到所述第一基准质谱图中,以得到第二基准质谱图;
S6:计算所述第二基准质谱图中各第二基准谱峰的质量值与对应的匹配谱峰的质量值的第一质量均值,并使用各所述第一质量均值替换对应的第二基准谱峰的质量值,以得到第三基准质谱图;
S7:使用所述第三基准质谱图,重复执行S3至S6,直到所述第三基准质谱图中第三基准谱峰的数量不变为止;
S8:依次遍历所述至少一个质谱图中的每一个第三质谱图,以计算所述第三质谱图中各谱峰的质量值与每一个所述第三基准谱峰的质量值的差值;
S9:针对每一个所述第三基准谱峰,在该第三基准谱峰对应的差值中筛选在第三预设范围内的第二差值,并将所述第二差值对应的所述第三质谱图的谱峰确定为该第三基准谱峰的匹配谱峰;
S10:计算各所述第三基准谱峰的质量值与对应的匹配谱峰的质量值的第二质量均值,以及计算各所述第三基准谱峰的强度值与对应的匹配谱峰的强度值的强度均值,以及使用各所述第二质量均值替换对应的第三基准谱峰的质量值,以及使用各所述强度均值替换对应的第三基准谱峰的强度值,以得到所述基准质谱图。
本申请实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在获取到质谱图后,依据谱峰的强度值,将该质谱图中的谱峰划分在不同的区域中,为了能够在大量的已知微生物的基准质谱图中找到与该质谱图最相似的基准质谱图,遍历该数据库中的每一个基准质谱图,以计算该质谱图中各谱峰的质量值与基准质谱图中每一个谱峰的质量值的差值,并确定每一个谱峰对应的在第一预设范围内的差值的数量,也就是说,针对每一个基准质谱图,确定每一个谱峰在该基准质谱图中与其相似的基准谱峰的数量,即:匹配数;然后为了确定该质谱图与该基准质谱图的相似度,需要根据该质谱图中各区域包括的谱峰的总数量和总匹配数,计算该基准质谱图的得分,得分越高,说明该基准质谱图与该质谱图越相似,所以数据库中的最高得分对应的基准质谱图与该质谱图最相似,为了确定该最高得分是否可靠,需要计算该最高得分在所有得分中出现的第一概率,当该第一概率小于预设阈值时,说明该最高得分是可靠的,所以将该最高得分对应的基准质谱图显示在显示屏上,以作为鉴定结果;与现有技术中的人工鉴定微生物的方法相比,现有技术的微生物分类系统中的分类标准是人为设定的,所以存在较大误差,而在本申请中使用的微生物质谱图,不同微生物的质谱图中各谱峰的质量值差异大,相同微生物的质谱图中各谱峰的质量值差异小,所以可以根据谱峰质量值的相似性判断这两个谱峰是否代表同一蛋白质,从而根据两个微生物中包含的相同蛋白质的数量判断两个微生物是否为同一微生物,且本申请不仅需要比较未知微生物的质谱图与已知微生物的基准质谱图之间的相似性,找到相似性最高的已知微生物的基准质谱图,还需要判断找到的基准质谱图是否靠谱,只有被判定为靠谱,才能将该找到的基准质谱图进行显示,通过上述方法,有利于提高微生物鉴定的准确性。
实施例三
本申请实施例还提供了一种计算机设备600,图6示出了本申请实施例三所提供的一种计算机设备的结构示意图,如图6所示,该设备包括存储器601、处理器602及存储在该存储器601上并可在该处理器602上运行的计算机程序,其中,上述处理器602执行上述计算机程序时实现上述微生物鉴定方法。
具体地,上述存储器601和处理器602能够为通用的存储器和处理器,这里不做具体限定,当处理器602运行存储器601存储的计算机程序时,能够执行上述微生物鉴定方法,有利于提高微生物鉴定的准确率。
实施例四
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述微生物鉴定方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述微生物鉴定方法,有利于提高微生物鉴定的准确率。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种微生物鉴定方法,其特征在于,包括:
在获取待鉴定微生物的质谱图后,根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域,其中,各所述强度值用于表示所述待鉴定微生物包含的各蛋白质的含量;
针对数据库中每一个已知微生物的基准质谱图,计算该基准质谱图中各基准谱峰的质量值与所述质谱图中每一个谱峰的质量值的差值,其中,各所述谱峰的质量值用于表示所述待鉴定微生物包含的各所述蛋白质的质核比;
针对每一个所述谱峰,在该谱峰对应的差值中确定在第一预设范围内的差值的数量,以将所述数量作为该谱峰的匹配数;
根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分;
计算各所述得分中的最高得分在所有所述得分中出现的第一概率;
判断所述第一概率是否小于预设阈值;
若小于,将所述最高得分对应的基准质谱图显示在显示屏上。
2.如权利要求1所述的方法,其特征在于,所述根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域,包括:
计算各所述强度值的和值,以得到所述谱峰的总强度值;
针对每一个所述谱峰,计算该谱峰的强度值与大于该强度值的所有所述强度值的和值,以得到该谱峰的目标强度值;
计算所述质谱图中各所述目标强度值与所述总强度值的比值;
根据各所述区域规定的比值范围,通过确定各所述比值所属的所述比值范围,得到各所述比值对应的谱峰在所述质谱图中的区域。
3.如权利要求1所述的方法,其特征在于,所述根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分,包括:
第一区域的所述总匹配数为m1,第一区域的所述总数量为t1;
第二区域的所述总匹配数为m2,第二区域的所述总数量为t2;
以此类推,第N区域的所述总匹配数为mn,第N区域的所述总数量为tn;
计算N个所述区域的所述总匹配数的和值M及N个所述区域的所述总数量的和值T;
通过以下公式,得到该基准质谱图的匹配概率:
其中,i=1,2,……,n;
通过对所述匹配概率取负对数,得到该基准质谱图的所述得分。
4.如权利要求1所述的方法,其特征在于,所述计算各所述得分中的最高得分在所有所述得分中出现的第一概率,包括:
计算各所述得分在所有所述得分中出现的第二概率;
通过拟合各所述得分及其第二概率,得到所述得分和所述第二概率的函数关系;
通过将所述最高得分代入到所述函数关系中,得到所述第一概率。
5.如权利要求1所述的方法,其特征在于,在所述获取待鉴定微生物的质谱图前,所述方法还包括:
S1:针对所述数据库中的每一个所述已知微生物,获取该已知微生物的至少一个质谱图;
S2:在所述至少一个质谱图中任选一个第一质谱图,以将该第一质谱图确定为第一基准质谱图;
S3:依次遍历所述至少一个质谱图中除所述第一质谱图外的每一个第二质谱图,以计算所述第二质谱图中各谱峰的质量值与所述第一基准质谱图中每一个第一基准谱峰的质量值的差值;
S4:针对每一个所述第一基准谱峰,在该第一基准谱峰对应的差值中筛选在第二预设范围内的第一差值,并将所述第一差值对应的所述第二质谱图的谱峰确定为该第一基准谱峰的匹配谱峰;
S5:将所述第二质谱图中除所述第一基准谱峰的匹配谱峰外的谱峰加入到所述第一基准质谱图中,以得到第二基准质谱图;
S6:计算所述第二基准质谱图中各第二基准谱峰的质量值与对应的匹配谱峰的质量值的第一质量均值,并使用各所述第一质量均值替换对应的第二基准谱峰的质量值,以得到第三基准质谱图;
S7:使用所述第三基准质谱图,重复执行S3至S6,直到所述第三基准质谱图中第三基准谱峰的数量不变为止;
S8:依次遍历所述至少一个质谱图中的每一个第三质谱图,以计算所述第三质谱图中各谱峰的质量值与每一个所述第三基准谱峰的质量值的差值;
S9:针对每一个所述第三基准谱峰,在该第三基准谱峰对应的差值中筛选在第三预设范围内的第二差值,并将所述第二差值对应的所述第三质谱图的谱峰确定为该第三基准谱峰的匹配谱峰;
S10:计算各所述第三基准谱峰的质量值与对应的匹配谱峰的质量值的第二质量均值,以及计算各所述第三基准谱峰的强度值与对应的匹配谱峰的强度值的强度均值,以及使用各所述第二质量均值替换对应的第三基准谱峰的质量值,以及使用各所述强度均值替换对应的第三基准谱峰的强度值,以得到所述基准质谱图。
6.一种微生物鉴定装置,其特征在于,包括:
第一确定模块,用于在获取待鉴定微生物的质谱图后,根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域,其中,各所述强度值用于表示所述待鉴定微生物包含的各蛋白质的含量;
第一计算模块,用于针对数据库中每一个已知微生物的基准质谱图,计算该基准质谱图中各基准谱峰的质量值与所述质谱图中每一个谱峰的质量值的差值,其中,各所述谱峰的质量值用于表示所述待鉴定微生物包含的各所述蛋白质的质核比;
第二确定模块,用于针对每一个所述谱峰,在该谱峰对应的差值中确定在第一预设范围内的差值的数量,以将所述数量作为该谱峰的匹配数;
第二计算模块,用于根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分;
第三计算模块,用于计算各所述得分中的最高得分在所有所述得分中出现的第一概率;
判断模块,用于判断所述第一概率是否小于预设阈值;
显示模块,用于若小于,将所述最高得分对应的基准质谱图显示在显示屏上。
7.如权利要求6所述的装置,其特征在于,所述第一确定模块的配置在用于根据所述质谱图中各谱峰的强度值,确定各所述谱峰在所述质谱图中的区域时,包括:
计算各所述强度值的和值,以得到所述谱峰的总强度值;
针对每一个所述谱峰,计算该谱峰的强度值与大于该强度值的所有所述强度值的和值,以得到该谱峰的目标强度值;
计算所述质谱图中各所述目标强度值与所述总强度值的比值;
根据各所述区域规定的比值范围,通过确定各所述比值所属的所述比值范围,得到各所述比值对应的谱峰在所述质谱图中的区域。
8.如权利要求6所述的装置,其特征在于,所述第二计算模块的配置在用于根据各所述区域包括的所述谱峰的总匹配数和各所述区域包括的所述谱峰的总数量,计算该基准质谱图的得分时,包括:
第一区域的所述总匹配数为m1,第一区域的所述总数量为t1;
第二区域的所述总匹配数为m2,第二区域的所述总数量为t2;
以此类推,第N区域的所述总匹配数为mn,第N区域的所述总数量为tn;
计算N个所述区域的所述总匹配数的和值M及N个所述区域的所述总数量的和值T;
通过以下公式,得到该基准质谱图的匹配概率:
其中,i=1,2,……,n;
通过对所述匹配概率取负对数,得到该基准质谱图的所述得分。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011587660.6A CN112614542B (zh) | 2020-12-29 | 2020-12-29 | 一种微生物鉴定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011587660.6A CN112614542B (zh) | 2020-12-29 | 2020-12-29 | 一种微生物鉴定方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112614542A CN112614542A (zh) | 2021-04-06 |
CN112614542B true CN112614542B (zh) | 2024-02-20 |
Family
ID=75248529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011587660.6A Active CN112614542B (zh) | 2020-12-29 | 2020-12-29 | 一种微生物鉴定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112614542B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001079523A2 (en) * | 2000-04-12 | 2001-10-25 | The Johns Hopkins University | Method and system for microorganism identification by mass spectrometry-based proteome database searching |
CN101871945A (zh) * | 2010-06-13 | 2010-10-27 | 中国科学院计算技术研究所 | 谱库的生成方法和串联质谱谱图鉴定方法 |
CN103646190A (zh) * | 2013-12-20 | 2014-03-19 | 中国科学院水生生物研究所 | 一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法 |
CN104380311A (zh) * | 2012-04-10 | 2015-02-25 | 拜斯帕尔有限公司 | 依据谱数据的样本分类方法、创建数据库的方法和使用该数据库的方法、以及相应的计算机程序、数据存储介质和系统 |
CA2989523A1 (en) * | 2015-06-18 | 2016-12-22 | Dh Technologies Development Pte. Ltd. | Probability-based library search algorithm (prols) |
CN110692118A (zh) * | 2017-06-01 | 2020-01-14 | 萨默费尼根有限公司 | 质谱仪碰撞能量的自动测定 |
KR20200050434A (ko) * | 2018-11-01 | 2020-05-11 | 주식회사 노스퀘스트 | 질량 스펙트럼에 기초한 균주 동정 방법 및 장치 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7499807B1 (en) * | 2006-09-19 | 2009-03-03 | Battelle Memorial Institute | Methods for recalibration of mass spectrometry data |
US20160350475A1 (en) * | 2015-05-29 | 2016-12-01 | Virgin Instruments Corporation | Method for Developing and Applying Databases for Idenfication of Microorganisms by MALDI-TOF Mass Spectrometry |
US20170108509A1 (en) * | 2015-10-19 | 2017-04-20 | Virgin Instruments Corporation | Method For Using Protein Databases To Identify Microorganisms |
-
2020
- 2020-12-29 CN CN202011587660.6A patent/CN112614542B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001079523A2 (en) * | 2000-04-12 | 2001-10-25 | The Johns Hopkins University | Method and system for microorganism identification by mass spectrometry-based proteome database searching |
CN101871945A (zh) * | 2010-06-13 | 2010-10-27 | 中国科学院计算技术研究所 | 谱库的生成方法和串联质谱谱图鉴定方法 |
CN104380311A (zh) * | 2012-04-10 | 2015-02-25 | 拜斯帕尔有限公司 | 依据谱数据的样本分类方法、创建数据库的方法和使用该数据库的方法、以及相应的计算机程序、数据存储介质和系统 |
CN103646190A (zh) * | 2013-12-20 | 2014-03-19 | 中国科学院水生生物研究所 | 一种基于串联质谱鉴定蛋白质乙酰化修饰位点的方法 |
CA2989523A1 (en) * | 2015-06-18 | 2016-12-22 | Dh Technologies Development Pte. Ltd. | Probability-based library search algorithm (prols) |
CN110692118A (zh) * | 2017-06-01 | 2020-01-14 | 萨默费尼根有限公司 | 质谱仪碰撞能量的自动测定 |
KR20200050434A (ko) * | 2018-11-01 | 2020-05-11 | 주식회사 노스퀘스트 | 질량 스펙트럼에 기초한 균주 동정 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
基质辅助激光解析电离-飞行时间质谱法快速鉴定餐饮食品中的空肠弯曲菌;彭志兰;林吉恒;黄朱梁;孙瑛;王萍亚;;食品安全质量检测学报;20200515(09);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112614542A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107092829B (zh) | 一种基于图像匹配的恶意代码检测方法 | |
Karpievitch et al. | Normalization and missing value imputation for label-free LC-MS analysis | |
US10466104B2 (en) | Mass spectrometric data analyzer and program for analyzing mass spectrometric data | |
CN107944760B (zh) | 一种企业投标竞争力分析方法与系统 | |
CN104076115A (zh) | 基于峰强度识别能力的蛋白质二级质谱鉴定方法 | |
CN104034792A (zh) | 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法 | |
CN104820841B (zh) | 基于低阶互信息和光谱上下文波段选择的高光谱分类方法 | |
Awan et al. | MS-REDUCE: an ultrafast technique for reduction of big mass spectrometry data for high-throughput processing | |
CN101477089B (zh) | 一种蛋白质翻译后修饰的发现方法 | |
CN107025387B (zh) | 一种用于癌症生物标志物识别的方法 | |
CN107103206A (zh) | 基于标准熵的局部敏感哈希的dna序列聚类 | |
CN112614542B (zh) | 一种微生物鉴定方法、装置、设备及存储介质 | |
CN109508350B (zh) | 一种对数据进行采样的方法和装置 | |
CN104778478A (zh) | 一种手写数字识别方法 | |
CN113539369B (zh) | 一种优化的kraken2算法及其在二代测序中的应用 | |
EP3795692A1 (en) | Method, apparatus, and system for detecting chromosome aneuploidy | |
EP3304374B1 (en) | Sample mass spectrum analysis | |
CN115015131A (zh) | 红外光谱训练集样本筛选方法 | |
CN108388774A (zh) | 一种多肽谱匹配数据的在线分析方法 | |
CN114334033A (zh) | 抗乳腺癌候选药物分子描述符的筛选方法、系统及终端 | |
EP2569627B1 (en) | Systems and methods for calculating protein confidence values | |
CN111143436A (zh) | 用于大数据的数据挖掘方法 | |
CN107622184A (zh) | 氨基酸可信度和修饰位点定位的评估方法 | |
EP3138033B1 (en) | Method and apparatus for performing block retrieval on block to be processed of urine sediment image | |
CN109359678A (zh) | 一种白酒图谱的高精度分类识别算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 101407 room 202-20, 2nd floor, building 13, yard 53, Yanqi street, Yanqi Economic Development Zone, Huairou District, Beijing Applicant after: Beijing Xiyun Qiyuan Technology Co.,Ltd. Address before: 101407 room 202-20, 2nd floor, building 13, yard 53, Yanqi street, Yanqi Economic Development Zone, Huairou District, Beijing Applicant before: Beijing Lianyun Gene Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |