CN104185850A - 利用谱测量法的微生物的鉴定和结构化分类 - Google Patents

利用谱测量法的微生物的鉴定和结构化分类 Download PDF

Info

Publication number
CN104185850A
CN104185850A CN201380016386.9A CN201380016386A CN104185850A CN 104185850 A CN104185850 A CN 104185850A CN 201380016386 A CN201380016386 A CN 201380016386A CN 104185850 A CN104185850 A CN 104185850A
Authority
CN
China
Prior art keywords
species
node
tree
loss function
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380016386.9A
Other languages
English (en)
Other versions
CN104185850B (zh
Inventor
K·沃尼尔
P·马埃
J-B·沃瑞厄拉斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biomerieux Inc
Original Assignee
Biomerieux Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biomerieux Inc filed Critical Biomerieux Inc
Publication of CN104185850A publication Critical patent/CN104185850A/zh
Application granted granted Critical
Publication of CN104185850B publication Critical patent/CN104185850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/02Details
    • H01J49/10Ion sources; Ion guns
    • H01J49/16Ion sources; Ion guns using surface ionisation, e.g. field-, thermionic- or photo-emission
    • H01J49/161Ion sources; Ion guns using surface ionisation, e.g. field-, thermionic- or photo-emission using photoionisation, e.g. by laser
    • H01J49/164Laser desorption/ionisation, e.g. matrix-assisted laser desorption/ionisation [MALDI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Optics & Photonics (AREA)
  • Biomedical Technology (AREA)
  • Toxicology (AREA)
  • Genetics & Genomics (AREA)

Abstract

本发明涉及用于通过谱测量法来从一组参考物种中鉴定未知微生物的方法,包括以下步骤:第一步骤,用于进行对参考物种进行分类的模型的监督学习;第二步骤,用于预测要鉴定的未知微生物,其包括:获取未知微生物的光谱;以及应用预测模型作为所述光谱和分类模型的函数,从而推断未知微生物所属的至少一种微生物类型。利用结构化多类SVM算法来计算分类模型,其中将该结构化多类SVM算法应用于参考物种在进化和/或临床表型方面的树状层级表示的节点,并且该结构化多类SVM算法包括包含对树的节点之间的邻近性进行量化的所谓的“损失”函数的余量的约束。

Description

利用谱测量法的微生物的鉴定和结构化分类
技术领域
本发明涉及利用谱测量法进行的微生物(特别是细菌)的鉴定。
本发明可以特别应用于利用例如MALDI-TOF型(“Matrix-assisted laserdesorption/ionization time oflight(基质辅助激光解吸/电离飞行时间)”)的质谱法、振动谱测量法和自体荧光谱测量法进行的微生物的鉴定。
背景技术
已知使用谱测量法或光谱法来鉴定微生物、更特别是细菌。为此,制备未知微生物的试样,之后获取并预处理该试样的质谱、振动光谱或荧光光谱,特别是用以消除基线并消除噪声。然后利用分类工具将预处理后的光谱的峰与根据一组参考光谱而构建的知识库中的数据进行“比较”,其中各参考光谱与所鉴定的微生物相关联。
更特别地,传统上通过分类进行的微生物的鉴定包括:
■第一步骤,用于根据物种预先已知的微生物的所谓的“训练”光谱通过监督学习来确定分类模型,其中该分类模型定义在训练光谱之中区分这些不同物种的一组规则;
■第二步骤,用于通过以下来鉴定特定的未知微生物:
○获取未知微生物的光谱;以及
○向所获取到的光谱应用根据分类模型所构建的预测模型,以确定未知微生物所属的至少一个物种。
通常,谱测量法鉴定装置包括谱仪和接收所测量到的光谱并实现上述第二步骤的数据处理单元。第一步骤由确定分类模型和预测模型并且在消费者使用之前将模型集成于机器中的装置的制造商来实现。
支持向量机或SVM型的算法是传统的监督学习工具,特别适用于目的在于对大量物种进行分类的高维分类模型的学习。
然而,尽管SVM特别适用于高维,但利用这些算法来确定分类模型非常复杂。
首先,传统上使用的SVM算法属于所谓的“扁平”算法,其中这些“扁平”算法等同地考虑要分类的物种,并且作为必然结果,还将分类错误视为等同的。因而,从算法的角度来看,两个接近细菌之间的分类错误与细菌和真菌之间的分类错误具有相同的值。然后,由用户基于他的用于生成训练光谱的微生物知识、实际光谱的结构并且基于他的算法知识来修改“扁平”SVM算法,用于使其分类错误的严重程度减少到最低限度。不考虑修改复杂算法的难度,这种修改高度依赖于用户自身。
然后,尽管针对各微生物物种将存在用于构建分类模型的约十个或几十个不同的训练光谱,但该数量仍然非常低。不仅训练光谱的种类与物种的全部种类相比可能非常小,而且有限数量的实例也导致机械地恶化了各光谱的特异性。由此,所获得的分类模型对于特定物种而言可能不准确并且使未知微生物的后续预测步骤非常难。这里,再次由用户来解释通过鉴定所给出的结果以知晓其相关程度,从而最终从中推导出可利用的结果。
发明内容
本发明的目的在于提供一种基于通过SVM型监督学习方法所获得的分类模型、利用谱测量法或光谱法来鉴定微生物的方法,其中该方法使鉴定错误的严重程度减少到最低限度,由此使得能够实质上更加可靠地鉴定未知微生物。
为此,本发明的目的是一种通过谱测量法来从一组参考物种中鉴定未知微生物的方法,包括以下步骤:
■第一步骤,用于对参考物种的分类模型进行监督学习,包括:
○针对各物种,获取属于所述物种的所鉴定微生物的一组训练光谱;
○将所获取到的各训练光谱变换成根据预定格式的一组训练数据以供多类支持向量机型算法使用;以及
○利用所述多类支持向量机型算法来将所述参考物种的所述分类模型确定为所述一组训练数据的函数,
■第二步骤,用于预测要鉴定的未知微生物,包括:
○获取所述未知微生物的光谱;以及
○根据所述光谱和所述分类模型来应用预测模型,以推断所述未知微生物所属的至少一种类型的微生物。
根据本发明:
■对所获取到的各训练光谱进行变换包括:
○将所述光谱变换成表示所述训练光谱的结构的数据矢量;
○通过利用预定矢量计算所述数据矢量的张量积来生成根据所述预定格式的数据的集合,其中所述预定矢量以双射方式表示微生物的所述参考物种在所述参考物种的进化和/或临床表型方面的树状层级表示中的位置;以及
■所述分类模型是与所述层级表示的树的节点相对应的类的分类模型,其中所述多类支持向量机型算法包括通过对标准的在包括所谓的“损失函数”的余量约束下的单一优化问题进行求解来确定所述分类模型的参数,所述标准根据所述分类模型的参数来表示,所述损失函数对树节点之间的邻近性进行量化。
换句话说,本发明在微生物的鉴定所用的分类模型的构建时所使用的监督学习算法中具体引入了迄今为止尚未考虑的先验信息、即微生物物种在进化和/或临床表型方面的层级树状表示。这种层级树状表示例如是分类树,其中该分类树的结构基本通过物种的进化来引导,并且因此该分类树本质上包含物种之间的相似性或邻近性的概念。
因而,SVM算法不再是“扁平”算法,其中物种不再是可互换的。作为必然结果,该算法不再将分类错误视为相同的。通过在要分类的物种之间建立链接,根据本发明的方法由此明确地和/或隐含地考虑到这些物种具有共同的信息因而还具有非共同信息这一事实,因此有助于对物种进行区分,并由此使分类错误以及针对各物种的小量训练光谱的影响减少到最低限度。
通过由于张量积所引起的数据和变量的结构化而将这种先验信息引入算法。因而,由于两个物种在进化和/或临床表型方面接近,因此与这些物种相关联的算法的数据和变量的结构更加相似。由于SVM算法是目的在于在约束下优化成本函数的算法,因而优化必然考虑到与这些物种相关联的结构之间的相似性和差异性。
在某种程度上,可以陈述为通过数据和变量的结构化来“定性地”考虑物种之间的邻近性。根据本发明,还通过SVM算法的约束的定义中所涉及的损失函数的特定选择“定量地”考虑物种之间的邻近性。物种的这种“定量”邻近性例如根据在参考物种的树上所定义的“距离”来确定、或者可以完全独立于该距离(例如,根据用户的特定需求)来确定。由此得到分类错误的最小化以及相对极小量的训练光谱的鉴定的鲁棒性的增长。
最终,分类模型现在涉及层级表示的树(包括根和叶)的节点的分类,并且不再仅涉及物种。特别地,如果在对未知微生物的光谱进行预测期间、难以以最小的确定程度确定微生物所属的物种,则该预测能够鉴定未知微生物属于微生物的哪个更大群(属、科、目…)。这些宝贵信息例如可用于实现所述鉴别群所特有的其它类型的微生物鉴定。
根据实施例,与节点对相关联的损失函数等于所述层级表示的树中的使节点分离的距离。由此,使算法针对所述树优化,并且损失函数不依赖于用户的技能和知识。
根据实施例,与节点对相关联的损失函数各自大于所述层级表示的树中的使节点分离的距离。因而,在分类模型的构建中可以引入其它类型的先验信息。特别地,可以通过选择函数值大于树中的距离的损失函数来强制进行算法上物种的可分离性。
根据实施例,通过以下来计算所述损失函数:
■将所述损失函数设置为初始值;
■实现包括以下的处理的至少一次迭代:
○执行所述多类支持向量机型算法,以根据所述损失函数的当前值来计算分类模型;
○根据所计算出的分类模型来应用预测模型,并且将所述预测模型应用至属于所述参考物种的所鉴定微生物的一组校准光谱,其中所述一组校准光谱不同于所述一组训练光谱;
○根据通过将所述预测模型应用于所述一组校准光谱所返回的结果来针对各物种计算分类用性能标准;以及
○通过根据所计算出的性能标准修改所述损失函数的当前值来计算所述损失函数的新的当前值。
特别地,损失函数使得能够设置与训练光谱和/或所使用的SVM算法有关的物种的可分离性。特别地,可以检测可分离性低的物种并且实现修改损失函数以提高该可分离性的算法。
在第一变形中,
■所述性能标准的计算包括计算混淆矩阵作为通过应用所述预测模型所返回的结果的函数;以及
■计算所述损失函数的新的当前值作为所述混淆矩阵的函数。
由此,对引入了层级表示的树中所包含的分类法和/或临床表型信息的影响进行评估,并且通过选择损失函数作为该影响的函数来使其余的错误或分类缺陷减少到最低限度。
根据第二变形,
■所述性能标准的计算包括计算混淆矩阵作为通过应用所述预测模型所返回的结果的函数;以及
■所述损失函数的新的当前值各自与第一损失矩阵和第二矩阵的组合的分量相对应,其中所述第一损失矩阵列出所述层级表示的树中的使所述参考物种分离的距离,以及所述第二矩阵是作为所述混淆矩阵的函数所计算出的。
正如在第一变形中那样,在将与树中物种之间的距离有关的定量信息保持在损失函数中的情况下,对其余的错误和分类缺陷进行校正。
特别地,根据以下关系式来计算所述损失函数的当前值:
Δ(yi,k)=α×Ω(yi,k)+(1-α)×Δconfusion(yi,k)
其中,Δ(yi,k)是针对所述树的节点对(yi,k)的所述损失函数的当前值,Ω(yi,k)和Δconfustion(yi,k)分别是所述第一损失矩阵和所述第二矩阵,并且α是0~1的标量。更特别地,标量α为0.25~0.75、尤其是0.25~0.5。
这种凸组合提供了鉴定的高准确性和鉴定错误的严重程度的最小化。
更特别地,将所述损失函数的所述初始值针对不同节点的对设置为0,并且针对其它情况设置为1。
根据实施例,根据以下关系式来确定所述层级表示的树中的使两个节点n1、n2分离的距离Ω:
Ω ( n 1 , n 2 ) = depth ( n 1 ) + depth ( n 2 ) - 2 × depth ( LCA ( n 1 , n 2 ) )
其中,depth(n1)和depth(n2)分别是节点n1、n2的深度,以及depth(LCA(n1,n2))是所述树中的节点n1、n2的最近共同祖先LCA(n1,n2)的深度。这样定义的距离Ω是在树中能够定义的最小距离。
根据实施例,所述预测模型是针对要鉴定的所述未知微生物所属的树的节点的预测模型。因而,可以预测作为与物种相对应的叶的祖先的节点。
根据实施例,在以下约束下,
ξ i ≥ 0 , ∀ i ∈ [ 1 , N ]
< W , &Psi; ( x i , y i ) > &GreaterEqual; < W , &Psi; ( x i , k ) > + f ( &Delta; ( y i , k ) , &xi; i ) , &ForAll; i &Element; [ 1 , N ] , &ForAll; k &Element; Y \ y i
根据以下关系式用公式表示所述优化问题:
min W , &xi; i 1 2 | | W | | 2 + C &Sigma; i = 1 N &xi; i
其中,在这些表达式中:
■N是训练光谱的数量;
■K是参考物种的数量;
■T是所述层级表示的树中的节点的数量,并且Y=[1,T]是用作所述层级表示的树的节点的标记编号的整数的集合;
是分别与所述树的节点相关联的权重矢量 的串接(w1w2...wT)T,其中p是表示所述训练光谱的结构的矢量的基数;
■C是具有预定设置的标量;
&ForAll; i &Element; [ 1 , N ] , ξi是标量;
■X={xi},i∈[1,N]是表示所述训练光谱的矢量的集合;
yi是与训练矢量xi的参考物种相对应的所述层级表示的树中的节点的标记;
&Psi; ( x , k ) = x &CircleTimes; &Lambda; ( k ) , 其中:
是表示训练光谱的矢量;
是以双射方式表示所述层级表示的树中的参考节点k∈Y的位置的预定矢量;以及
是空间和空间之间的张量积;
■<W,ψ>是在空间上的标量积;
■Δ(yi,k)是与所述层级表示的树中的标记分别为yi和k的节点对相关联的损失函数;
■f(Δ(yi,k),ξi)是标量ξi和损失函数Δ(yi,k)的预定函数;以及
■符号“\”指定排除。
在第一变形中,根据以下关系式来定义函数f(Δ(yi,k),ξi):
f(Δ(yi,k),ξi)=Δ(yi,k)-ξi。在第二变形中,根据以下关系式来定义函数f(Δ(yi,k),ξi): f ( &Delta; ( y i , k ) , &xi; i ) = 1 - &xi; i &Delta; ( y i , k )
特别地,所述预测步骤包括:
■根据所述多类支持向量机型算法的所述预定格式来将要鉴定的所述未知微生物的光谱变换成矢量xm
■根据以下关系式来应用预测模型:
Tidem=argmaxk(s(xm,k)) k∈[1,T]
其中,Tident是针对所述未知微生物所鉴定出的所述层级表示的节点的标记编号,s(xm,k)=<W,Ψ(xm,k)>并且
本发明的目的还在于一种用于通过质谱法来鉴定微生物的装置,包括:
■谱仪,其能够生成要鉴定的微生物的质谱;以及
■计算单元,其能够通过实现上述类型的预测步骤,来鉴定与所述谱仪所生成的光谱相关联的微生物。
附图说明
通过参考附图阅读仅作为示例提供的以下说明,将更好地理解本发明,其中相同的附图标记指定相同或相似的元件,其中:
■图1是根据本发明的鉴定方法的流程图;
■图2是例如混合表型和进化信息的混合型分类树的示例;
■图3是根据本发明所使用的层级表示的树的示例;
■图4是与树中的节点的位置相对应的矢量的生成的示例;
■图5是根据本发明的损失函数计算方法的流程图;
■图6是示出不同鉴定算法的各物种的准确性的标绘图;
■图7是示出这些不同算法的预测错误的分类成本的标绘图;
■图8是示出使用与层级表示的树中的距离和混淆损失函数的不同凸组合相等的损失函数的算法的各物种的准确性的标绘图;以及
■图9是针对不同凸组合的预测错误的分类成本的标绘图。
具体实施方式
现在将参考图1的流程图说明应用于MALDI-TOF谱测量法的根据本发明的方法。
该方法从步骤10开始,其中该步骤10例如通过MALDI-TOF(“基质辅助激光解吸/电离飞行时间”)质谱法来获取要集成在知识库中的新微生物物种的一组训练质谱。MALDI-TOF质谱法本身是公知的并且将不在下文中作进一步的详细说明。例如,可以参考Jackson O.Lay的文献,“Maldi-tofspectrometry of bacteria”,Mass Spectrometry Reviews,2001,20,172-194。然后,如本身已知的,对所获取到的光谱进行预处理,特别是对这些光谱进行去噪并去除其基线。
然后,在步骤12中,例如通过基于局部最大值的检测的峰检测算法来鉴定存在于所获取到的光谱中的峰。由此生成针对所获取到的各光谱的、包括光谱峰的位置和强度的峰的列表。
有利地,在Thomson的预定范围[mmin;mmax]、优选为Thomson的范围[mmin;mmax]=[3,000;17,000]中鉴定峰。实际上,已经观察到在质荷比的该范围中包含有足以鉴定微生物的信息,因而无需考虑更宽的范围。
该方法在步骤14中继续量化或“分级”(binning)步骤。为了实现此步骤,将范围[mmin;mmax]分割成例如恒定的预定宽度的间隔,并且针对包括多个峰的各间隔,保持一个峰,其中有利地,该峰具有最高强度。因而,针对所测量到的各光谱生成矢量。该矢量的各分量与量化间隔相对应,并且将针对该间隔所保持的峰的强度作为值,其中值“0”意味着在间隔中没有检测到峰。
作为变形,通过在相应间隔中存在峰的情况下将矢量的分量的值设置为“1”、并且在该间隔中不存在峰的情况下将该值设置为“0”,来对矢量进行“二值化”。这样使得提高了随后进行的分类算法校准的鲁棒性。本发明人的确注意到特别是与鉴定细菌有关的信息基本包含在峰的有和/或无中,并且强度信息不太相关。可以进一步观察到强度针对各光谱以及/或者针对各谱仪的可变性极大。由于该可变性,难以考虑到分类工具中的原始强度值。
并行地,将以下称为“训练矢量”的训练光谱峰矢量存储在知识库中。知识库由此列出被称为“参考物种”的K个微生物物种以及N个训练物种的一个集合X={xi}i∈[1,N],其中p是针对质谱所保留的峰的数量。
同时或连续地,在16中,根据参考物种在进化和/或临床表型方面的树状层级表示来对所列出的物种K进行分类。
在第一变形中,层级表示是应用于所列出的参考物种的活体的分类表示。如本身已知的,活生物体的分类学是根据从最一般的到最特别的以下等级对各活生物体进行分类的活体的层级分类:域、界、门、纲、目、科、属、种。所使用的分类学例如是由“国家生物技术信息中心”(NCBI)所确定的。因而,活生物体的分类学隐含包括进化数据,其中在进化水平方面接近的微生物与在进化方面更远的微生物相比包括更多共同的分量。由此,进化“邻近性”对光谱的“邻近性”产生影响。
在第二变形中,层级表示是通过考虑例如物种进化特征的系统发育特征以及例如细菌的革兰氏(GRAM)+/-等的表型特征所获得的“混合”分类表示,其中该表型特征基于其细胞膜的厚度/渗透性、需氧或厌氧特性。例如在图2中针对细菌示出这种表示。
通常,层级表示的树是利用由中间节点构成的单个路径来将与物种相对应的末端节点或“叶”连接至“根”节点的图形表示。
在下一步骤18中,利用整数k∈Y=[1,T]对树节点或“分类单元”进行编号,其中T是树中的(包括叶和根的)节点的数量,并且将树变换成二元矢量的集合Λ={Λ(k)}k∈[1,T]
更特别地,如列出20个物种中的47个节点的图3的树所示,例如根据从根到叶的不同路径来将树的节点T分别编号为1~T。然后,矢量Λ(k)的分量与如此编号后的节点相对应,其中矢量Λ(k)的第一个分量与编号为“1”的节点相对应,第二个分量与编号为“2”的节点相对应,等等。将矢量Λ(k)的、与树的从节点k到根(包括节点k和根)的路径中的节点相对应的分量设置为等于1,并且将矢量Λ(k)的其它分量设置为等于0。图4示出针对5个节点的简化树的矢量Λ(k)的生成器。矢量Λ(k)如此以双射方式或唯一地表示层级表示的树中的节点k的位置,并且矢量Λ(k)的结构表示节点k的支配链接。换句话说,集合Λ={Λ(k)}k∈[1,T]是层级表示的树的根和节点之间的所有路径的矢量表示。
保持这些链接的树的其它矢量表示当然也是可以的。
为了更好地理解以下内容,引入了以下标记法。各训练矢量xi与利用整数yi∈[1,T]、即层级表示的树中的相应叶的编号所标记的特定参考物种相对应。例如,第10个训练矢量x10与图3的树的叶编号“24”所表示的物种相对应,在这种情况下,y10=24。标记yi由此是指编号或者集合[1,T]中的光谱的物种的“标记”,其中标记编号yi的集合E={yi}的基数当然等于参考物种的数量K。因而,例如参考图3,E={7,8,12,13,16,17,23,24,30,31,33,34,36,38,39,40,42,43,46,47}。独立于训练矢量xi,在以下关系式中直接使用来自Y=[1,T]的整数、例如整数“k”的情况下,该整数指树中的编号为“k”的节点。
在下一步骤20中,根据以下关系式来生成新的“结构化训练”矢量
&Psi; ( x i , k ) = x i &CircleTimes; &Lambda; ( k ) &ForAll; i &Element; [ 1 , N ] , &ForAll; k &Element; [ 1 , T ] - - - ( 1 )
其中,是空间和空间之间的张量积。因而,Ψ(xi,k)是包括维度为p的T个块的串接的矢量,其中在这T个块中,与等于矢量Λ(k)的一个单位的分量相对应的块等于矢量xi,并且其它块等于的零矢量0p。再次参考图4的示例,与节点编号“5”相对应的矢量Λ(5)等于 1 0 1 0 1 0 , 并且矢量Ψ(xi,5)等于 x i 0 p x i 0 p x i 0 p .
因而,可以观察到在层级表示的树中节点彼此越近,这些节点的结构化矢量所共用的共同的非零块越多。相反,节点越远,这些节点的结构化矢量所共用的共同的非零块越少,因而这种观察特别适用于表示参考物种的叶。
在下一步骤22中,计算应用于层级表示的树的所有节点的结构化多类SVM型算法的损失函数。
更特别地,在以下约束下,
&xi; i &GreaterEqual; 0 , &ForAll; i &Element; [ 1 , N ] - - - ( 3 )
< W , &Psi; ( x i , y i ) > &GreaterEqual; < W , &Psi; ( x i , k ) > + f ( &Delta; ( y i , k ) , &xi; i ) , &ForAll; i &Element; [ 1 , N ] , &ForAll; k &Element; Y \ y i - - - ( 4 )
根据以下关系式来定义基于根据本发明的层级表示而结构化的多类SVM算法。
min W , &xi; i 1 2 | | W | | 2 + C &Sigma; i = 1 N &xi; i - - - ( 2 )
其中,在这些表达式中:
是分别与树的节点yi相关联的权重矢量的串接(w1w2...wT)T
■C是具有预定设置的标量;
&ForAll; i &Element; [ 1 , N ] , ξi是标量;
■<W,ψ>是这里在空间内的标量积;
■Δ(yi,k)是针对由标记为yi的物种和标记为k的节点形成的对所定义的损失函数;
■f(Δ(yi,k),ξi)是标量ξi和损失函数Δ(yi,k)的预定函数;以及
■符号“\”指定排除,因而表达式“”意味着“除参考节点yi以外的集合Y的所有节点”。
如可以看出,借助约束将诸如通过层级表示而被编码等的以及诸如引入到结构化训练矢量的结构中等的物种之间的邻近性考虑进来。特别地,在树中,物种彼此越近,这些物种的数据越关联。因而,与认为在物种之间不存在层级并且认为所述物种可互换的传统多类SVM算法相比,利用根据本发明的算法,参考物种不再被视为可互换的。
此外,根据本发明的结构化多类SVM算法利用损失函数Δ(yi,k)定量地考虑到参考物种之间的邻近性。
根据第一变形,根据以下关系式来定义函数f。
f(Δ(yi,k),ξi)=Δ(yi,k)-ξi    (5)
根据第二变形,根据以下关系式来定义函数f。
f ( &Delta; ( y i , k ) , &xi; i ) = 1 - &xi; i &Delta; ( y i , k ) - - - ( 6 )
在有利实施例中,根据以下关系式,损失函数Δ(yi,k)等于在层级表示的树中所定义的距离Ω(yi,k)。
Δ(yi,k)=Ω(yi,k)=depth(yi)+depth(k)-2×depth(LCA(yi,k))   (7)
其中,depth(yi)和depth(k)分别是所述树中的节点yi和k的深度,并且depth(LCA(yi,k))是所述树中的节点yi、k的追溯节点或最近的共同的“祖先”节点LCA(yi,k)的深度。节点的深度例如被定义为使该节点与根节点分离的节点数量。
作为变形,损失函数具有与层级表示的性质不同的性质。如下面将进一步详细说明的,这些函数例如由用户按照其技能和/或算法结果根据其它层级表示来定义。
一旦已经计算出了损失函数,则根据本发明的方法在24中继续诸如关系式(2)、(3)、(4)、(5)或者(2)、(3)、(4)、(6)中所定义等的多类SVM算法的实现。
因而,通过算法所产生的结果是作为树节点的分类模型的矢量W,其中所述矢量W是根据以下内容推导出的:训练矢量xi中所包含的信息的组合、这些训练矢量的关联参考物种在树中的定位、层级表示中所包含的与物种之间的邻近性有关的信息、以及损失函数中所包含的与物种之间的距离有关的信息。更特别地,各权重矢量wl(l∈[1,T])表示形成树的节点“l”的实例和树的其它节点k∈[1,T]\l的实例之间的边界的的超平面的法向矢量。
在第一计算机系统中一次实现分类模型的训练步骤12~24。然后将分类模型W=(w1w2...wT)T和矢量Λ(k)存储在包括MALDI-TOF型谱仪和与该谱仪连接的计算机处理单元的微生物鉴定系统中。该处理单元接收谱仪所获取到的质谱并且实现以下生产规则,其中该生产规则基于模型W和矢量Λ(k)来判断质谱仪所获取到的质谱与层级表示的树的哪些节点相关联。
作为变形,例如,利用连接至因特网的个人计算机来对用户可访问的远程服务器进行预测,其中该远程服务器也连接至因特网。用户将MALDI-TOF型质谱仪所获得的未处理的质谱加载到服务器,然后该服务器实现预测算法并且将该算法的结果返回至用户的计算机。
更特别地,对于未知微生物的鉴定,该方法包括以下步骤:步骤26,用于获取该未知微生物的一个或多个质谱;步骤28,用于对所获取到的质谱进行预处理;以及步骤30,用于检测质谱的峰,并且确定例如前面关于步骤10~14所述等的峰矢量
在下一步骤32中,根据以下关系式,针对层级表示的树中的各节点计算结构化矢量,其中k∈Y=[1,T]:
&Psi; ( x m , k ) = x m &CircleTimes; &Lambda; ( k ) - - - ( 8 ) .
之后,根据以下关系式来计算与节点k相关联的得分:
x(xm,k)=<W,Ψ(xm,k)>  (9)。
然后,例如,未知微生物在树中的所鉴定节点Tident∈[1,T]是与最高得分相对应的节点:
Tident=argmaxk(s(xm,k)) k∈[1,T]  (10)。
其它预测模型当然也是可以的。
除与所鉴定分类单元Tident相关联的得分以外,还通过预测算法计算分类单元Tident的祖先节点和子节点(在存在的情况下)的得分。因而,例如,如果用户将分类单元Tident的得分视为低,后者具有与祖先节点相关联的得分,因而具有附加的更为可靠的信息。
刚刚说明了根据层级表示的树中所定义的最小距离来计算损失函数Δ(yi,k)的本发明的特定实施例。
现在将说明损失函数Δ(yi,k)的其它可选计算。
在第一变形中,根据使得能够获得更加鲁棒的分类模型以及/或者使得易于对关系式(2)、(3)和(4)所定义的优化问题进行求解的先验信息来修改关系式(7)中所定义的损失函数。例如,可以将一对节点(yi,k)的损失函数Δ(yi,k)选择为低、特别是小于距离Ω(yi,k),这意味着在这两个节点之间容许鉴定错误。以机械方式解除针对一对或多对物种的约束实际是增加针对其它物种对的约束,从而将该算法设置为更加强有力地区分其它物种对。同样,可以将一对节点(yi,k)的损失函数Δ(yi,k)选择为非常高、特别是大于距离Ω(yi,k),以强制该算法区分节点(yi,k),并由此将这些节点之间的鉴定错误减少到最低限度。特别地,可以利用参考物种对各自的损失函数来解除或增强针对这些参考物种对的约束。
在图5的流程图所示的第二变形中,根据为计算分类模型W所实现的SVM算法的估计性能来自动进行损失函数Δ(yi,k)的计算。
计算损失函数Δ(yi,k)的方法从以下开始:在40中,选择这些损失函数的初始值。例如,在yi=k的情况下,Δ(yi,k)=0,并且在yi≠k的情况下,Δ(yi,k)=1,因而函数f化简为f(Δ(yi,k),ξi)=1-ξi。针对损失函数的其它初始值当然也是可以的,于是利用具有损失函数的初始值的关系式(5)或(6)的函数f(Δ(yi,k),ξi)来替换上述算法的约束中所出现的函数f(ξi)=1-ξi
该计算方法继续针对所选择的损失函数Δ(yi,k)估计SVM算法的性能。这种估计包括以下步骤:
■在42中,根据损失函数的值来执行多类SVM算法以计算分类模型;
■在44中,基于所计算出的分类模型来应用预测模型,其中将该预测模型应用于知识库的校准矢量的集合与训练矢量xi相同,根据与参考物种相关联的光谱来生成校准矢量其中各矢量与相应参考物种的标记相关联;以及
■在46中,根据预测结果来确定混淆矩阵。
校准矢量例如是与训练矢量xi同时获取到的。特别地,针对各参考物种,将与该参考物种相关联的光谱分布到训练集合和校准集合内,其中训练矢量和校准矢量分别是从所述训练集合和校准集合中生成的。
损失函数计算方法在48中继续根据所计算出的混淆矩阵来修改损失函数的值。然后所获得的损失函数由SVM算法所使用以计算最终的分类模型W,或者在50中根据步骤48中修改后的损失函数的值来执行测试,以知晓是否通过实现步骤42、44、46、48计算了损失函数的新值。
在损失函数计算方法的第一示例中,与SVM算法的执行相对应的步骤42是一对多型算法。该算法不是层级式的并且仅考虑利用整数k∈[1,K]所指代的参考物种,并且在以下约束下,
&xi; i &GreaterEqual; 0 , &ForAll; i &Element; [ 1 , N ] - - - ( 12 )
q i ( < w k , x 1 > + b k ) &GreaterEqual; 1 - &xi; 1 &ForAll; i &Element; [ 1 , N ] - - - ( 13 )
根据以下关系式来对各参考物种k的优化问题进行求解。
min w k , &xi; i 1 2 | | w k | | 2 + C &Sigma; i = 1 N &xi; i - - - ( 11 )
其中,在这些表达式中:
是权重矢量并且是标量;以及
■qi∈{-1,1},其中如果i=k,则qi=1,并且如果i≠k,则qi=-1。
通过以下关系式来提供预测模型,并且在步骤44中将该预测模型应用于各校准矢量
G ( x i ~ ) = arg ma x k < w k , x i ~ > + b k k &Element; [ 1 , K ] - - - ( 14 )
然后,在步骤46中,根据以下关系式来计算物种间混淆矩阵
其中,FP(i,k)是通过预测模型预测为属于物种k的物种i的校准矢量的数量。
此外,在46中,然后根据以下关系式来计算归一化的物种间混淆矩阵
其中,Ni是针对标记为i的物种的校准矢量的数量。
最后,步骤46以将归一化的节点间混淆矩阵作为归一化混淆矩阵的函数进行计算而结束。例如,使用从叶到根的值的传播图来计算参考物种的不同节点的对(i,k)的值特别地,对于已针对集合{iC}×{kC}的各节点对(iC,kC)计算出矩阵的分量的层级表示的树的节点对(i,k)∈[1,T]2(其中,{iC}和{kC}分别是节点i和k的“子”节点的集合),将针对节点对(i,k)的矩阵的分量设置为等于分量的平均值。
在步骤48中,将各节点对(yi,k)的损失函数Δ(yi,k)计算为归一化的节点间混淆矩阵的函数。
根据步骤48的第一选项,根据以下关系式来计算损失函数Δ(yi,k)。
&Delta; ( y i , k ) = 0 si y i = k 1 + &lambda; &times; C ~ taxo ( y i , k ) si y i &NotEqual; k - - - ( 17 )
其中,λ≥0是控制混淆矩阵在损失函数中的贡献的预定标量。
根据步骤48的第二选项,根据以下关系式来计算损失函数Δ(yi,k)。
其中,是向下一个最大整数取整,β≥0和l>0是设置混淆矩阵在损失函数中的贡献的预定标量。例如,通过设置l=10,混淆矩阵针对节点(yi,k)之间的混淆的每10%贡献β。
根据步骤48的第三选项,根据关系式(17)或(18)来计算损失函数Δ(yi,k)的第一分量Δconfusion(yi,k),之后根据以下关系式来计算损失函数Δ(yi,k)。
Δ(yi,k)=α×Ω(yi,k)+(1-α)×Δconfusion(yi,k)  (19)
其中,0≤α≤1是对仅由混淆矩阵所确定的损失函数和仅由层级表示的树中的距离所确定的损失函数之间的权衡进行设置的标量。
在损失函数计算方法的第二示例中,步骤42与多类SVM算法的执行相对应,其中该多类SVM算法根据在约束(21)、(22)下的
&xi; i &GreaterEqual; 0 , &ForAll; i &Element; [ 1 , N ] - - - ( 21 )
< w y i , x i > &GreaterEqual; < w k , x i > + 1 - &xi; i &ForAll; i &Element; [ 1 , N ] , &ForAll; k &Element; [ 1 , K ] \ y i - - - ( 22 ) ,
以下关系式
min w k , &xi; i 1 2 &Sigma; k = 1 K | | w k | | 2 + C &Sigma; i = 1 N &xi; i - - - ( 20 ) ,
来求解针对所有参考物种k∈[1,K]的单一的优化问题,其中各训练矢量xi与以整数yi∈[1,K]作为标记编号的参考物种相关联,其中,是与物种k相关联的权重矢量。
通过以下关系式来提供预测模型,并且在步骤44中,将该预测模型应用于各校准矢量
G ( x i ~ ) = arg ma x k < w k , x i ~ > k &Element; [ 1 , K ] - - - ( 23 )
第二示例的步骤46和48与第一示例的步骤46和48相同。
在损失函数计算方法的第三示例中,步骤42与根据关系式(2)、(3)、(4)、(5)或(2)、(3)、(4)、(6)基于层级表示来执行结构化分类SVM相对应。在步骤44中,然后将根据以下关系式的预测模型应用于各校准矢量
G ( x i ~ ) = arg ma x k < W , &Psi; ( x i ~ , k ) > k &Element; E - - - ( 29 )
其中,是与参考物种相对应的层级表示的树的节点的标记的集合。
然后,根据对校准矢量的预测结果来推导物种间混淆矩阵并且以与第一示例相同的方式执行损失函数计算方法。
当然,可以根据针对树中的所有分类单元的预测结果来计算混淆。
已经说明了如下实施例:其中为计算分类模型而实现的SVM算法是基于层级表示的结构化多类SVM模型,特别地,该SVM算法是根据关系式(2)、(3)、(4)、(5)或关系式(2)、(3)、(4)、(6)的算法。
将通过算法所设想的类、即前述实施例中的层级表示的树的节点之间的先验邻近性进行量化的损失函数Δ(yi,k)的原理同样适用于不基于层级表示的多类SVM算法。对于这些算法,所考虑的类是这些算法中利用整数k∈[1,K]表示的参考物种,并且损失函数仅针对参考物种对、因而仅针对配对(yi,k)∈[1,K]2而定义。
特别地,在另一实施例中,用于计算分类模型的SVM算法是根据关系式(20)、(21)和(22)、即根据关系式(20)、(21)和(22bis)(其中,利用根据关系式(5)或关系式(6)的函数f(Δ(yi,k),ξi)来替换关系式(22)的函数f(ξi)=1-ξi)的多类SVM算法:
< w y i , x i > &GreaterEqual; < w k , x i > + f ( &Delta; ( y i , k ) , &xi; i ) &ForAll; i &Element; [ 1 , N ] , &ForAll; k &Element; [ 1 , K ] \ y i - - - ( 22 bis ) .
从而,为鉴定未知微生物的物种所应用的预测模型是根据关系式(23)的模型。
现在将在以下的实验条件下说明根据本发明的方法的实验结果。
■利用MALDI-TOF型质谱仪获得细菌的571个光谱;
■细菌属于20个不同的参考物种并且对应于200个以上的不同菌株;以及
■在诸如图3所示等的47个节点的分类树中以层级方式组织20个物种;
■根据质谱来生成训练矢量和校准矢量,并且这些训练矢量和校准矢量各自列出根据质荷比的1,300个峰的强度。因而,
通过如下定义的交叉验证来评估根据本发明的方法的性能:
■针对各菌株,通过从训练矢量的总集合中去除与该菌株相对应的矢量来定义训练矢量的集合;
■针对如此所获得的各集合,基于如以上所述等的SVM型算法来计算分类模型;以及
■向与从训练矢量的集合中所去除的菌株相对应的矢量应用与所获得的分类模型相关联的预测模型。
此外,考虑不同的指标来评估该方法的性能:
■作为适当分类光谱的比率的微观准确性;
■各物种的准确性,其中物种的准确性是该物种的适当分类光谱的比率;
■作为各物种的准确性的平均值的宏观准确性。不同于微观准确性,宏观准确性对分别与参考物种相关联的训练矢量的集合的基数更不敏感;
■预测的“分类”成本,其中该“分类”成本是层级表示的树中光谱的参考物种和针对该光谱所预测的物种之间的最短路径的长度,例如被定义为等于根据关系式(7)的距离Ω(yi,k)。与将预测错误视为同样重要的微观准确性、各物种的准确性和宏观准确性不同,分类成本使得能够对各预测错误的严重程度进行量化。
已经分析并比较了以下算法:
■“SVM_one-vs-all”:根据关系式(11)、(12)、(13)、(14)的算法;
■“SVM_cost_0-1”:根据关系式(20)、(21)、(22)、(23)的算法;
■“SVM_cost_taxo”:根据关系式(20)、(21)、(22bis)、(23)的算法,其中f(Δ(yi,k),ξi)是根据关系式(6)和(7)而定义的;
■“SVM_struct_0-1”:根据关系式(2)、(3)、(4)、(8)~(10)的算法,其中f(Δ(yi,k),ξi)=1-ξi
■“SVM_struct_taxo”:根据关系式(2)、(3)、(4)、(8)~(10)的算法,其中f(Δ(yi,k),ξi)是根据关系式(6)和(7)而定义的;
针对这些算法各自所保留的参数C是提供最佳的微观准确性和宏观准确性的参数。
下表针对这些算法各自列出微观准确性和宏观准确性。图6示出各算法的各物种的准确性,图7针对各算法根据其分类成本示出预测错误的数量。
SVM算法 微观准确性 宏观准确性
SVM_one-vs-all 90.4 89.2
SVM_cost_0-1 90.4 89.0
SVM_cost_taxo 88.6 86.0
SVM_struct_0-1 89.2 88.5
SVM_struct_taxo 90.4 89.2
这些结果以及特别是上表和图6表明根据层级表示的数据表示和损失函数这两者影响微观准确性和宏观准确性方面的预测准确性。在这方面,应当注意,本发明的“SVM_struct_taxo”算法与传统的“一对多”算法至少相等同地竞争。然而,如图7所示,算法的预测错误的严重程度不同。特别地,没有考虑参考物种之间的层级表示的“SVM_one-vs-all”算法和“SVM_cost_0-1”算法产生高严重程度的预测错误。使严重错误的数量减少到最低限度的算法是没有检测到大于4个的分类成本错误的“SVM_cost_taxo”算法。然而,“SVM_cost_taxo”算法在微观准确性和宏观准确性方面的性能较低。
因而,根据前述内容可以推导出,引入参考物种的采用层级表示(特别是分类和/或临床表型表示)形式的先验信息以及采用损失函数形式的物种之间的定量距离,使得能够管理在一方面的未知微生物的鉴定的全局准确性以及另一方面的鉴定错误的严重程度之间的折衷。
还对与树中的距离和根据关系式(19)的混淆损失函数的凸组合相等的损失函数、更特别是针对根据关系式(20)、(21)、(22bis)的“SVM_cost_taxo_conf”算法进行了分析。函数f(Δ(yi,k),ξi)根据关系式(6)来定义,并且损失函数Δ(yi,k)通过实现计算损失函数Δ(yi,k)的方法的第二示例来计算,其中Δ(yi,k)是根据关系式(18)和(19)、利用物种间混淆矩阵替换节点间混淆矩阵来定义的。已经针对参数α的不同值(即值0、0.25、0.5、0.75和1)、关系式(18)中的等于1的参数β和关系式(20)中的等于1,000的参数C实现了“SVM_cost_taxo_conf”算法。该分析的结果在图8和9中示出,其中图8和图9针对参数α的不同值分别示出各物种的准确性和分类成本。为了比较的目的,这些附图还示出“SVM_cost_0/1”算法的各物种的准确性和分类成本。
如在附图中可以注意到,在参数α接近1、因而损失函数基本仅由层级表示的树中的距离来定义的情况下,准确性降低并且错误的严重程度增加。同样地,在参数α接近0、因而损失函数基本仅根据混淆矩阵来定义的情况下,各物种的准确性降低并且错误的严重程度增加。
然而,对于范围[0.25;0.75]内、特别是范围[0.25;0.5]内的参数α的值,可以观察到较大的准确性,其中各物种的最低准确性比SVM_cost_0/1算法的各物种的最低准确性大60%。还可以观察到预测错误的严重程度大幅下降,特别是分类成本大于6时的预测错误。此外,还可以观察到:对于接近0.5的α值、特别是对于附图所示的值0.5,具有等于2的分类成本的错误数量与α值接近0.25的相同成本的错误数量相比减少。
初步分析针对实现关系式(2)、(3)、(4)、(8)~(10)的“SVM_struct_taxo_conf”算法示出相似影响,其中以在关系式(6)中所定义的函数作为函数f(Δ(yi,k),ξi),并且以通过实现用于使用关系式(18)和(19)计算损失函数Δ(yi,k)的方法的第二示例所计算出的函数作为损失函数Δ(yi,k)。
已经说明了应用于MALDI-TOF型质谱法的实施例。这些实施例还适用于任何类型的谱测量法和光谱法、特别是振动谱测量法和自体荧光光谱法,其中仅训练矢量的生成、特别是光谱的预处理有可能改变。
同样,已经说明了用于生成训练数据的光谱不具有结构的实施例。
现在,光谱是按性质“结构化的”,也就是说,这些光谱的分量、峰是不可互换的。特别地,光谱包括例如根据针对质谱法的质荷比或根据针对振动谱测量法的波长的内在测序,并且分子或有机化合物可能产生多个峰。
根据本发明,通过使用被定义为正的对称内核函数K(x,y)实现非线性的SVM型算法,还将光谱的内在结构考虑在内,从而对一对光谱(x,y)的结构相似性进行量化。然后利用所述内核函数K(x,y)来替换上述SVM算法中出现的两个矢量之间的标量积。关于更多详情,可以参考例如CambridgeUniversity Press于2004年出版的由John Shawe-Taylor&Nello Cristianini的“Kernel Methods for Pattern Analysis”的第11章。

Claims (16)

1.一种通过谱测量法来从一组参考物种中鉴定未知微生物的鉴定方法,包括以下步骤:
■第一步骤,用于对参考物种的分类模型进行监督学习,包括:
○针对各物种,获取属于所述物种的所鉴定微生物的一组训练谱;
○将所获取到的各训练谱变换成根据预定格式的一组训练数据以供多类支持向量机型算法使用;以及
○利用所述多类支持向量机型算法来将所述参考物种的所述分类模型确定为所述一组训练数据的函数,
■第二步骤,用于预测要鉴定的未知微生物,包括:
○获取所述未知微生物的谱;以及
○根据所述谱和所述分类模型来应用预测模型,以推断所述未知微生物所属的至少一种类型的微生物,
其特征在于:
■对所获取到的各训练谱进行变换包括:
○将所述谱变换成表示所述训练谱的结构的数据矢量;
○通过利用预定矢量计算所述数据矢量的张量积来生成根据所述预定格式的一组训练数据,其中所述预定矢量以双射方式表示微生物的所述参考物种在所述参考物种的进化和/或临床表型方面的树状层级表示中的位置;以及
■所述分类模型是与所述层级表示的树的节点相对应的类的分类模型,其中所述多类支持向量机型算法包括通过对标准的在包括所谓的“损失函数”的余量约束下的单一优化问题进行求解来确定所述分类模型的参数,所述标准根据所述分类模型的参数来表示,所述损失函数对树节点之间的邻近性进行量化。
2.根据权利要求1所述的鉴定方法,其特征在于,与节点对相关联的损失函数等于所述层级表示的树中的使节点分离的距离。
3.根据权利要求1或2所述的鉴定方法,其特征在于,与节点对相关联的损失函数各自大于所述层级表示的树中的使节点分离的距离。
4.根据权利要求1、2或3所述的鉴定方法,其特征在于,通过以下步骤来计算所述损失函数:
■将所述损失函数设置为初始值;
■实现以下处理的至少一次迭代,该处理包括:
○执行所述多类支持向量机型算法,以根据所述损失函数的当前值来计算分类模型;
○根据所计算出的分类模型来应用预测模型,并且将所述预测模型应用至属于所述参考物种的所鉴定微生物的一组校准谱,其中所述一组校准谱不同于所述一组训练谱;
○根据通过将所述预测模型应用于所述一组校准谱所返回的结果来针对各物种计算分类用性能标准;以及
○通过根据所计算出的性能标准修改所述损失函数的当前值来计算所述损失函数的新的当前值。
5.根据权利要求4所述的鉴定方法,其特征在于,
■所述性能标准的计算包括计算混淆矩阵作为通过应用所述预测模型所返回的结果的函数;以及
■计算所述损失函数的新的当前值作为所述混淆矩阵的函数。
6.根据权利要求4所述的鉴定方法,其特征在于,
■所述性能标准的计算包括计算混淆矩阵作为通过应用所述预测模型所返回的结果的函数;以及
■所述损失函数的新的当前值各自与第一损失矩阵和第二矩阵的组合的分量相对应,其中所述第一损失矩阵列出所述层级表示的树中的使所述参考物种分离的距离,以及所述第二矩阵是作为所述混淆矩阵的函数所计算出的。
7.根据权利要求6所述的鉴定方法,其特征在于,根据以下关系式来计算所述损失函数的当前值:
Δ(yi,k)=α×Ω(yi,k)+(1-α)×Δconfusion(yi,k)
其中,Δ(yi,k)是针对所述树的节点对(yi,k)的所述损失函数的当前值,Ω(yi,k)和Δconfustion(yi,k)分别是所述第一损失矩阵和所述第二矩阵,并且α是0~1的标量。
8.根据权利要求7所述的鉴定方法,其特征在于,标量α为0.25~0.75、特别为0.25~0.5。
9.根据权利要求4至8中任一项所述的鉴定方法,其特征在于,将所述损失函数的所述初始值针对不同节点的对设置为0,并且针对其它情况设置为1。
10.根据权利要求1至9中任一项所述的鉴定方法,其特征在于,根据以下关系式来确定所述层级表示的树中的使两个节点n1、n2分离的距离Ω:
Ω(n1,n2)=depth(n1)+depth(n2)-2×depth(LCA(n1,n2))
其中,depth(n1)和depth(n2)分别是节点n1、n2的深度,以及depth(LCA(n1,n2))是所述树中的节点n1、n2的最近共同祖先LCA(n1,n2)的深度。
11.根据权利要求1至10中任一项所述的鉴定方法,其特征在于,所述预测模型是针对要鉴定的所述未知微生物所属的树的节点的预测模型。
12.根据权利要求1至11中任一项所述的鉴定方法,其特征在于,在以下约束下,
&xi; i &GreaterEqual; 0 , &ForAll; i &Element; [ 1 , N ]
< W , &Psi; ( x i , y i ) > &GreaterEqual; < W , &Psi; ( x i , k ) > + f ( &Delta; ( y i , k ) , &xi; i ) , &ForAll; i &Element; [ 1 , N ] , &ForAll; k &Element; Y \ y i
根据以下关系式用公式表示所述优化问题:
min W , &xi; i 1 2 | | W | | 2 + C &Sigma; i = 1 N &xi; i
其中,在这些表达式中:
■N是训练谱的数量;
■K是参考物种的数量;
■T是所述层级表示的树中的节点的数量,并且Y=[1,T]是用作所述层级表示的树的节点的标记编号的整数的集合;
是分别与所述树的节点相关联的权重矢量 的串接(w1w2...wT)T,其中p是表示所述训练谱的结构的矢量的基数;
■C是具有预定设置的标量;
&ForAll; i &Element; [ 1 , N ] , ξi是标量;
■X={xi},i∈[1,N]是表示所述训练谱的矢量的集合;
yi是与训练矢量xi的参考物种相对应的所述层级表示的树中的节点的标记;
&Psi; ( x , k ) = x &CircleTimes; &Lambda; ( k ) , 其中:
是表示训练谱的矢量;
是以双射方式表示所述层级表示的树中的参考节点k∈Y的位置的预定矢量;以及
是空间和空间之间的张量积;
■<W,ψ>是在空间上的标量积;
■Δ(yi,k)是与所述层级表示的树中的标记分别为yi和k的节点对相关联的损失函数;
■f(Δ(yi,k),ξi)是标量ξi和损失函数Δ(yi,k)的预定函数;以及
■符号“\”指定排除。
13.根据权利要求12所述的鉴定方法,其特征在于,根据以下关系式来定义函数f(Δ(yi,k),ξi):
f(Δ(yi,k),ξi)=Δ(yi,k)-ξi
14.根据权利要求12所述的鉴定方法,其特征在于,根据以下关系式来定义函数f(Δ(yi,k),ξi):
f ( &Delta; ( y i , k ) , &xi; i ) = 1 - &xi; i &Delta; ( y i , k ) .
15.根据权利要求12、13或14所述的鉴定方法,其特征在于,预测步骤包括:
■根据所述多类支持向量机型算法的所述预定格式来将要鉴定的所述未知微生物的谱变换成矢量xm
■根据以下关系式来应用预测模型:
Tident=argmaxk(s(xm,k)) k∈[1,T]
其中,Tident是针对所述未知微生物所鉴定出的所述层级表示的节点的标记编号,
s(xm,k)=<W,Ψ(xm,k)>并且 &Psi; ( x m , k ) = x m &CircleTimes; &Lambda; ( k ) .
16.一种用于通过质谱法来鉴定微生物的装置,包括:
■谱仪,其能够生成要鉴定的微生物的质谱;以及
■计算单元,其能够通过实现权利要求1至15任一项中的预测步骤,来鉴定与所述谱仪所生成的谱相关联的微生物。
CN201380016386.9A 2012-04-04 2013-04-02 利用谱测量法的微生物的鉴定和结构化分类 Active CN104185850B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12305402.5A EP2648133A1 (fr) 2012-04-04 2012-04-04 Identification de microorganismes par spectrometrie et classification structurée
EP12305402.5 2012-04-04
PCT/EP2013/056889 WO2013149998A1 (fr) 2012-04-04 2013-04-02 Identification de microorganismes par spectrometrie et classification structuree

Publications (2)

Publication Number Publication Date
CN104185850A true CN104185850A (zh) 2014-12-03
CN104185850B CN104185850B (zh) 2017-10-27

Family

ID=48040254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380016386.9A Active CN104185850B (zh) 2012-04-04 2013-04-02 利用谱测量法的微生物的鉴定和结构化分类

Country Status (6)

Country Link
US (2) US20150051840A1 (zh)
EP (2) EP2648133A1 (zh)
JP (1) JP6215301B2 (zh)
CN (1) CN104185850B (zh)
ES (1) ES2663257T3 (zh)
WO (1) WO2013149998A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447527A (zh) * 2015-12-31 2016-03-30 四川木牛流马智能科技有限公司 采用图像识别技术将环境微生物进行分类的方法和系统
CN105608472A (zh) * 2015-12-31 2016-05-25 四川木牛流马智能科技有限公司 一种将环境微生物进行全自动分类的方法和系统
CN107533593A (zh) * 2015-04-24 2018-01-02 生物梅里埃公司 用于通过质谱法从参考亚群的集合中鉴定未知微生物亚群的方法
CN107784317A (zh) * 2016-08-25 2018-03-09 唯亚威解决方案股份有限公司 符合饮食限制的光谱分类
CN111334982A (zh) * 2018-12-19 2020-06-26 Lg电子株式会社 洗涤物处理装置及其操作方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646534B (zh) * 2013-11-22 2015-12-02 江苏大学 一种道路实时交通事故风险控制方法
KR102393228B1 (ko) 2015-05-11 2022-04-29 매직 립, 인코포레이티드 뉴럴 네트워크들을 활용하여 생체 인증 사용자 인식을 위한 디바이스들, 방법들 및 시스템들
EP3136270B1 (en) * 2015-08-26 2021-02-24 Viavi Solutions Inc. Raw material identification using spectroscopy
WO2017156547A1 (en) * 2016-03-11 2017-09-14 Magic Leap, Inc. Structure learning in convolutional neural networks
KR101905129B1 (ko) 2016-11-30 2018-11-28 재단법인대구경북과학기술원 서포트 벡터 머신 기반 분류 방법
EP3561490A4 (en) * 2016-12-22 2020-07-15 University of Tsukuba METHOD OF CREATING DATA AND METHOD OF USING DATA
US10930371B2 (en) * 2017-07-10 2021-02-23 Chang Gung Memorial Hospital, Linkou Method of creating characteristic peak profiles of mass spectra and identification model for analyzing and identifying microorganizm
KR102013392B1 (ko) * 2017-11-14 2019-08-22 국방과학연구소 Ft-ir 기반 분광 스펙트럼에서 svm 분류기를 이용한 가스 탐지 방법
US10810408B2 (en) * 2018-01-26 2020-10-20 Viavi Solutions Inc. Reduced false positive identification for spectroscopic classification
US11495323B2 (en) 2019-01-23 2022-11-08 Thermo Finnigan Llc Microbial classification of a biological sample by analysis of a mass spectrum
US11775836B2 (en) 2019-05-21 2023-10-03 Magic Leap, Inc. Hand pose estimation
CN112464689A (zh) * 2019-09-06 2021-03-09 佳能株式会社 生成神经网络的方法、装置和系统及存储指令的存储介质
CN111401565B (zh) * 2020-02-11 2023-07-04 西安电子科技大学 一种基于机器学习算法XGBoost的DOA估计方法
US20220317434A1 (en) * 2021-04-03 2022-10-06 Keith Louis De Santo Micro-organism identification using light microscopes, conveyor belts, static electricity, artificial intelligence and machine learning algorithms
US11990327B2 (en) 2022-02-18 2024-05-21 Shimadzu Corporation Method, system and program for processing mass spectrometry data
JP2023124547A (ja) 2022-02-25 2023-09-06 日本電子株式会社 部分構造推定装置及び部分構造推定モデル生成方法
CN115015126B (zh) * 2022-04-26 2023-02-17 中国人民解放军国防科技大学 一种粉末状生物粒子材料活性判定方法和系统
CN115064218B (zh) * 2022-08-17 2022-11-25 中国医学科学院北京协和医院 一种构建病原微生物数据鉴定平台的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020087273A1 (en) * 2001-01-04 2002-07-04 Anderson Norman G. Reference database
CN102176971A (zh) * 2008-07-24 2011-09-07 生物梅里埃公司 用于样本中生物颗粒的检测和/或鉴定的方法和系统
US20110229001A1 (en) * 2009-09-10 2011-09-22 Ivica Kopriva Method of and system for blind extraction of more pure components than mixtures in 1d and 2d nmr spectroscopy and mass spectrometry combining sparse component analysis and single component points
CN102203588A (zh) * 2008-10-31 2011-09-28 生物梅里埃公司 利用光谱分离,表征和/或标识微生物的方法
CN102317777A (zh) * 2008-12-16 2012-01-11 生物梅里埃有限公司 用于在固体或半固体介质上表征微生物的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742641B2 (en) * 2004-12-06 2010-06-22 Honda Motor Co., Ltd. Confidence weighted classifier combination for multi-modal identification
GB0505396D0 (en) * 2005-03-16 2005-04-20 Imp College Innovations Ltd Spatio-temporal self organising map
AU2006236588A1 (en) * 2005-04-15 2006-10-26 Becton, Dickinson And Company Diagnosis of sepsis
US20070099239A1 (en) * 2005-06-24 2007-05-03 Raymond Tabibiazar Methods and compositions for diagnosis and monitoring of atherosclerotic cardiovascular disease

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020087273A1 (en) * 2001-01-04 2002-07-04 Anderson Norman G. Reference database
CN102176971A (zh) * 2008-07-24 2011-09-07 生物梅里埃公司 用于样本中生物颗粒的检测和/或鉴定的方法和系统
CN102203588A (zh) * 2008-10-31 2011-09-28 生物梅里埃公司 利用光谱分离,表征和/或标识微生物的方法
CN102317777A (zh) * 2008-12-16 2012-01-11 生物梅里埃有限公司 用于在固体或半固体介质上表征微生物的方法
US20110229001A1 (en) * 2009-09-10 2011-09-22 Ivica Kopriva Method of and system for blind extraction of more pure components than mixtures in 1d and 2d nmr spectroscopy and mass spectrometry combining sparse component analysis and single component points

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ADI L. TARCA等: "Machine Learning and Its Applications to Biology", 《WWW.PLOSCOMPBIOL.ORG》 *
CHIH-WEI HSU等: "A Practical Guide to Support Vector Classification", 《HTTP://WWW.CSIE.NTU.EDU.TW/~CJLIN》 *
ELENA N.LLINA等: "Application of matrix-assisted laser desorption/ionization time-of-flight mass spectrometry for the study of Helicobacter pylori", 《RAPID COMMUNICATIONS IN MASS SPECTROMETRY》 *
IOANNIS TSOCHANTARIDIS等: "Large Margin Methods for Structured and Interdependent Output Variables", 《JOURNAL OF MACHINE LEARNING RESEARCH》 *
KATRIEN DE BRUYNE等: "Bacterial species identification from MALDI-TOF mass spectra through data", 《SYSTEMATIC AND APPLIED MICROBIOLOGY》 *
THOMAS VILLMANN等: "Classification of mass-spectrometric data in clinical proteomics using learning vector quantization methods", 《BRIEFINGS IN BIOINFORMATICS》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533593A (zh) * 2015-04-24 2018-01-02 生物梅里埃公司 用于通过质谱法从参考亚群的集合中鉴定未知微生物亚群的方法
CN105447527A (zh) * 2015-12-31 2016-03-30 四川木牛流马智能科技有限公司 采用图像识别技术将环境微生物进行分类的方法和系统
CN105608472A (zh) * 2015-12-31 2016-05-25 四川木牛流马智能科技有限公司 一种将环境微生物进行全自动分类的方法和系统
CN107784317A (zh) * 2016-08-25 2018-03-09 唯亚威解决方案股份有限公司 符合饮食限制的光谱分类
US10852285B2 (en) 2016-08-25 2020-12-01 Viavi Solutions Inc. Spectroscopic classification of conformance with dietary restrictions
US11555810B2 (en) 2016-08-25 2023-01-17 Viavi Solutions Inc. Spectroscopic classification of conformance with dietary restrictions
CN111334982A (zh) * 2018-12-19 2020-06-26 Lg电子株式会社 洗涤物处理装置及其操作方法

Also Published As

Publication number Publication date
US20150051840A1 (en) 2015-02-19
WO2013149998A1 (fr) 2013-10-10
JP2015522249A (ja) 2015-08-06
CN104185850B (zh) 2017-10-27
ES2663257T3 (es) 2018-04-11
US20190267226A1 (en) 2019-08-29
JP6215301B2 (ja) 2017-10-18
EP2834777B1 (fr) 2017-12-20
EP2648133A1 (fr) 2013-10-09
EP2834777A1 (fr) 2015-02-11

Similar Documents

Publication Publication Date Title
CN104185850A (zh) 利用谱测量法的微生物的鉴定和结构化分类
Lustgarten et al. Measuring stability of feature selection in biomedical datasets
US6961685B2 (en) Probability model selection using information-theoretic optimization criterion
Li et al. Bootstrap inference for network construction with an application to a breast cancer microarray study
CN105431854B (zh) 用于分析生物样品的方法和设备
Wei et al. Comparison of methods for picking the operational taxonomic units from amplicon sequences
Qian et al. MetaCon: unsupervised clustering of metagenomic contigs with probabilistic k-mers statistics and coverage
CN106202999A (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN105973828A (zh) 一种红外光谱定量分析方法及系统
Casalino et al. A predictive model for microrna expressions in pediatric multiple sclerosis detection
Zhang et al. Amplitude‐frequency images‐based ConvNet: Applications of fault detection and diagnosis in chemical processes
Liu et al. The use of DNA barcodes to estimate phylogenetic diversity in forest communities of southern China
Edelmann et al. Marginal variable screening for survival endpoints
Wen Effective qtl discovery incorporating genomic annotations
CN116738172A (zh) 一种基于机器学习的大型混合暴露数据分析方法
CN101894216B (zh) 从snp数据中发现与复杂疾病相关snp组的方法
Fokianos et al. Biological applications of time series frequency domain clustering
Telaar et al. An extension of PPLS-DA for classification and comparison to ordinary PLS-DA
Zhao et al. Cox survival analysis of microarray gene expression data using correlation principal component regression
Saviozzi et al. Microarray probe expression measures, data normalization and statistical validation
Singh et al. Schema: A general framework for integrating heterogeneous single-cell modalities
Li et al. A regression framework for assessing covariate effects on the reproducibility of high‐throughput experiments
Haldar Bioinformatics methods: Application toward analyses and interpretation of experimental data
CN116312798B (zh) 一种宏基因组测序数据物种验证的方法及应用
CN101565747B (zh) 一种提取多种基因集合特征表达模式的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant