ES2663257T3

ES2663257T3 - Identificación de microorganismos por espectrometría y clasificación estructurada

Info

Publication number: ES2663257T3
Application number: ES13713204.9T
Authority: ES
Inventors: Kevin Vervier; Pierre Mahe; Jean-Baptiste Veyrieras
Original assignee: Biomerieux SA
Current assignee: Biomerieux SA
Priority date: 2012-04-04
Filing date: 2013-04-02
Publication date: 2018-04-11
Anticipated expiration: 2033-04-02
Also published as: EP2834777A1; US20150051840A1; EP2648133A1; CN104185850A; JP2015522249A; US20190267226A1; JP6215301B2; CN104185850B; EP2834777B1; WO2013149998A1

Abstract

Procedimiento de identificación por espectrometría de microorganismos desconocidos entre un conjunto de especies de referencia, que comprende: - una primera etapa de aprendizaje supervisado de un modelo de clasificación de las especies de referencia, que comprende: - para cada especie, la adquisición de un conjunto de espectros de aprendizaje de microorganismos identificados que pertenecen a dicha especie; - la transformación de cada espectro de aprendizaje adquirido en un conjunto de datos de aprendizaje según un formato predeterminado para su utilización mediante un algoritmo de tipo máquina de vector de soporte de clase múltiple; y - la determinación del modelo de clasificación de las especies de referencia en función de los conjuntos de datos de aprendizaje mediante dicho algoritmo de tipo máquina de vector de soporte de clase múltiple, * una segunda etapa de predicción de un microorganismo desconocido a identificar que comprende: - la adquisición de un espectro de microorganismo desconocido; y - la aplicación de un modelo de predicción en función de dicho espectro y del modelo de clasificación a fin de inferir al menos un tipo de microorganismo al que el microorganismo desconocido pertenece, caracterizado: - por que la transformación de cada espectro de aprendizaje adquirido comprende: - la transformación del espectro en un vector de datos representativo de una estructura del espectro de aprendizaje; - la producción del conjunto de datos según el formato predeterminado realizando el producto tensorial del vector de datos por un vector predeterminado que representa de manera biunívoca la posición de la especie de referencia del microorganismo en una representación jerárquica en forma de árbol de las especies de referencia en términos de evolución y/o de fenotipo clínico; - y por que el modelo de clasificación es un modelo de clasificación de clases que corresponde a unos nodos del árbol de la representación jerárquica, consistiendo el algoritmo de tipo máquina de vector de soporte de clase múltiples en determinar unos parámetros del modelo de clasificación resolviendo un único problema de optimización de un criterio expresado en función de los parámetros del modelo de clasificación bajo restricciones de márgenes que comprenden unas funciones denominadas de "pérdida" que cuantifica una proximidad entre los nodos del árbol.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Identificación de microorganismos por espectrometría y clasificación estructurada Campo de la invención

La invención se refiere al campo de la clasificación de microrganismos, en particular de bacterias, mediante espectrometría.

La invención encuentra particularmente aplicación en la identificación de microorganismos mediante espectrometría de masa, por ejemplo de tipo MALDI-TOF (acrónimo de “Matrix-assisted [aser desorption/ionization time of flight”), de la espectrometría vibracional, y la espectroscopia por auto-fluorescencia.

Estado de la técnica

Se conoce la utilización de la espectrometría o la espectroscopia para identificar microorganismos, y más particularmente bacterias. Para hacer esto, se prepara una muestra de un microorganismo desconocido a identificar y después se adquiere y se pre-trata un espectro de masa, vibracional o de fluorescencia, de la muestra, en particular para eliminar la línea de base (comúnmente denominada “baseline”) y para eliminar el ruido. Los picos del espectro pretratado se “compara” entonces con la ayuda de herramientas de clasificación con datos de una base de conocimientos construida a partir de un conjunto de espectros de referencia, cada uno asociado a un microorganismo identificado.

Más particularmente, la identificación de microorganismos por clasificación consiste clásicamente:

* en una primera etapa de determinación, con la ayuda de un aprendizaje supervisado, de un modelo de clasificación en función de los espectros denominados “de aprendizaje” de microorganismos de los cuales se conocen previamente las especies, definiendo el modelo de clasificación un conjunto de reglas que distinguen estas diferentes especies entre los espectros de aprendizaje;

* en una segunda etapa de identificación de un microorganismo particular desconocido:

- realizando la adquisición de un espectro de este; y

- aplicando al espectro adquirido un modelo de predicción construido a partir del modelo de clasificación a fin de determinar al menos una especie a la que pertenece el microorganismo desconocido.

Típicamente, un aparato de identificación por espectrometría comprende un espectrómetro y una unidad de tratamiento de información que recibe los espectros medidos y que realiza la segunda etapa antes citada. La primera etapa se realiza, por su parte, mediante el fabricante del aparato, que determina el modelo de clasificación y el modelo de predicción y lo integra en la máquina antes de su explotación por un cliente.

Los algoritmos del tipo de máquina de vector de soporte, o algoritmo “SVM” (por “support vector machine") son unas herramientas clásicas de aprendizaje supervisado, particularmente adaptadas al aprendizaje de modelos de clasificación de alta dimensión, que tiene como objetivo un número importante de especies.

Sin embargo, aunque los SVM serían particularmente adecuados para la alta dimensión, el establecimiento de un modelo de clasificación por estos algoritmos es muy complejo.

Un ejemplo de documento que trata de la clasificación de bacterias por espectrometría de masa que utiliza un clasificador de tipo SVM es: “Classification of mass-spectrometric data in clinical proteomics using learning vector quantization methods"; Thomas Villmann et al.; Briefings in Bioinformatics. Vol. 9. n° 2. 129-143.

En primer lugar, los algoritmos SMV clásicamente utilizados pertenecen a unos algoritmos denominados “planos” que consideran que las especies se clasifican de manera equivalente y como corolario, consideran los errores de clasificación también como equivalentes. Así, desde el punto de vista algorítmico, un error de clasificación entre dos bacterias próximas tiene el mismo valor que un error de clasificación entre una bacteria y un hongo. Depende entonces del usuario, en base a sus conocimientos de los microorganismos utilizados para producir los espectros de aprendizaje, sobre la estructura de los espectros en sí, y en base a sus conocimientos algorítmicos, modificar el algoritmo SVM “plano” utilizado para minimizar la gravedad de los errores de clasificación del mismo. Además, de la dificultad que presenta la modificación de un algoritmo complejo, tal modificación es muy dependiente del usuario en sí mismo.

Después, aun cuando exista una decena o varias decenas de espectros de aprendizaje diferentes para cada especie de microorganismos para construir el modelo de clasificación, este número sigue siendo, a pesar de todo, muy bajo. No solo la variedad representada por los espectros de aprendizaje puede mostrarse muy reducida frente a la

5

10

15

20

25

30

35

40

45

50

55

60

65

variedad total de la especie, sino que además un número limitado de instancias tiene como efecto exacerbar mecánicamente la particularidad de cada espectro. De este modo, el modelo de clasificación obtenido puede ser impreciso para algunas especies y hacer difícil la etapa de predicción posterior de un microorganismo desconocido. De nuevo, depende del usuario interpretar los resultados dados por la identificación para conocer su grado de relevancia, y, por lo tanto, para deducir al final un resultado aprovechable.

Descripción de la invención

El objetivo de la presente invención es proponer un procedimiento de identificación de microorganismos por espectrometría o espectroscopia basado en un modelo de clasificación obtenido por un método de aprendizaje supervisado de tipo SVM que minimiza la gravedad de los errores de identificación, permitiendo así una identificación sustancialmente más fiable de microorganismos desconocidos.

Para este propósito, la invención tiene por objeto un procedimiento de identificación por espectrometría de microorganismos desconocidos entre un conjunto de especies de referencia que comprende:

* una primera etapa de aprendizaje supervisada de un modelo de clasificación de las especies de referencia, que comprende:

- para cada especie, la adquisición de un conjunto de espectros de aprendizaje de microorganismos identificados que pertenecen a dicha especie;

- la transformación de cada espectro de aprendizaje adquirido en un conjunto de datos de aprendizaje según un formato predeterminado para su utilización mediante un algoritmo de tipo máquina de vector de soporte de clase múltiple; y

- la determinación del modelo de clasificación de las especies de referencia en función de los conjuntos de datos de aprendizaje mediante dicho algoritmo de tipo máquina de vector de soporte de clase múltiple,

* una segunda etapa de predicción de un microorganismo desconocido a identificar que comprende:

- la adquisición de un espectro de microorganismo desconocido; y

- la aplicación de un modelo de predicción en función de dicho espectro y del modelo de clasificación a fin de inferir al menos un tipo de microorganismo al que el microorganismo desconocido pertenece.

Según la invención:

* la transformación de cada espectro de aprendizaje adquirido comprende:

- la transformación del espectro en un vector de datos representativo de una estructura del espectro de aprendizaje;

- la producción del conjunto de datos según el formato predeterminado realizando el producto tensorial del vector de datos por un vector predeterminado que representa de manera biunívoca la posición de la especie de referencia del microorganismo en una representación jerárquica en forma de árbol de las especies de referencia en términos de evolución y/o de fenotipo clínico;

* y el modelo de clasificación es un modelo de clasificación de clases que corresponde a unos nodos del árbol de la representación jerárquica, consistiendo el algoritmo de tipo máquina de vector de soporte de clase múltiple en determinar unos parámetros del modelo de clasificación resolviendo un único problema de optimización de un criterio expresado en función de los parámetros del modelo de clasificación bajo restricciones de margen, que comprenden unas funciones denominadas de “pérdida” que cuantifica la proximidad entre los nodos del árbol.

En otras palabras, la invención introduce de manera específica una información que, a priori, hasta ahora no se ha considerado en los algoritmos de aprendizaje supervisados utilizados en la construcción de modelos de clasificación para la identificación de microorganismos, a saber una representación jerárquica en forma de árbol de las especies de microorganismos en términos de evolución y/o de fenotipo clínico. Tal representación jerárquica es, por ejemplo, un árbol taxonómico cuya estructura se guía esencialmente por la evolución de las especies, y por lo tanto que contiene de manera intrínseca una noción de similitud o de proximidad entre especies.

El algoritmo SVM ya no es así un algoritmo “plano”, no siendo ya las especies intercambiables. Como corolario, los errores de clasificación, por lo tanto, no se consideran ya como idénticos por el algoritmo. Estableciendo una relación entre las especies a clasificar, el procedimiento según la invención tiene así en cuenta de manera explícita y/o implícita, el hecho de que poseen unas informaciones en común, por lo tanto también unas informaciones no comunes, lo que ayuda, por lo tanto, a distinguir las especies, y por lo tanto a minimizar los errores de clasificación así como el impacto del número reducido de espectros de aprendizaje por especie.

5

10

15

20

25

30

35

40

45

50

55

60

65

La introducción de esta información a priori en el algoritmo se realiza mediante una estructuración de los datos y de las variables gracias al producto tensorial. Así, la estructura de los datos y las variables del algoritmo asociados a dos especies es tanto más similar cuando que sus especies son parecidas en términos de evolución y/o de fenotipo clínico. Como los algoritmos SVM son unos algoritmos que tienen por objeto optimizar una función del coste bajo restricciones, la optimización tiene en cuenta necesariamente, por lo tanto, las similitudes y las diferencias entre las estructuras asociadas a las especies.

De alguna manera, se puede argumentar que la proximidad entre especies se tiene en cuenta de manera “cualitativa” por la estructuración de los datos y las variables. Según la invención, la proximidad entre especies se tiene también en cuenta de manera “cuantitativa” mediante una elección particular de las funciones de pérdida que intervienen en la definición de las restricciones del algoritmo SVM. Esta proximidad “cuantitativa” de las especies se determina, por ejemplo, en función de una “distancia” definida sobre el árbol de las especies de referencia, o se puede determinar de manera completamente independiente de este último, por ejemplo en función de la necesidad específica del usuario. Esto da como resultado, por lo tanto, una minimización de los errores de clasificación así como una ganancia en firmeza de la identificación con respecto a la falta de riqueza de los espectros de aprendizaje.

Finalmente, el modelo de clasificación se refiere ahora a la clasificación de los nodos del árbol de la representación jerárquica, raíz y hojas incluidas, y no ya únicamente a las especies. En particular si durante una predicción realizada sobre el espectro de un microorganismo desconocido, es difícil determinar con un grado de certeza mínimo a qué especie pertenece el microorganismo, la predicción es capaz de identificar a qué grupo más amplio (género, familia, orden, etc.) de microorganismos pertenece el microorganismo desconocido. Esta información importante se puede utilizar, por ejemplo, para realizar otros tipos de identificación microbianas específicas de dicho grupo identificado.

Según un modo de realización, las funciones de pérdida asociadas a pares de nodos son iguales a las distancias que separan los nodos en el árbol de la representación jerárquica. De esta manera, el algoritmo se optimiza frente a dicho árbol, y las funciones de pérdida no dependen de la experiencia y de los conocimientos del usuario.

Según un modo de realización, las funciones de pérdida asociadas a pares de nodos son superiores respectivamente a las distancias que separan los nodos en el árbol de la representación jerárquica. Así, se puede introducir a priori otro tipo de información en la construcción del modelo de clasificación. En particular, la separabilidad algorítmica de las especies puede forzarse eligiendo unas funciones de pérdida cuyo valor sea superior a la distancia en el árbol.

Según un modo de realización, las funciones de pérdida se calculan:

* ajustando las funciones de pérdida a valores iniciales;

* realizando al menos una iteración de un proceso que consiste en:

- ejecutar un algoritmo de tipo máquina de vector de soporte de clase múltiple a fin de calcular un modelo de clasificación en función de valores actuales de las funciones de pérdida;

- aplicar un modelo de predicción en función del modelo de clasificación calculado y de un conjunto de espectros de calibración de microorganismos identificados que pertenecen a las especies de referencia, diferente del conjunto de espectros de aprendizaje;

- calcular un criterio de rendimiento de la clasificación para cada especie en función de resultados reenviados por dicha aplicación del modelo de predicción al conjunto de espectros de calibración; y

- calcular nuevos valores actuales de las funciones de pérdidas modificando los valores actuales de las funciones de pérdida en función de los criterios de rendimiento calculados.

Las funciones de pérdida permiten en particular ajustar la separabilidad de las especies frente a espectros de aprendizaje y/o del algoritmo SVM utilizado. Es posible, en particular, detectar las especies poco separables y realizar un algoritmo que modifique las funciones de pérdida para aumentar esta separabilidad.

En una primera variante:

* el cálculo del criterio de rendimiento consiste en el cálculo de una matriz de confusión en función de los resultados reenviados por dicha aplicación del modelo de predicción;

* y los nuevos valores actuales de las funciones de pérdida se calculan en función de la matriz de confusión.

De esta manera, el impacto de la introducción de las informaciones taxonómicas y/o de fenotipo clínico contenidas

5

10

15

20

25

30

35

40

45

50

55

60

en el árbol de la representación jerárquica se evalúa y los errores o los defectos de clasificación restantes se minimizan seleccionado unas funciones de pérdida en función de estos.

Según una segunda variante:

* y los nuevos valores actuales de las funciones de pérdida corresponden respectivamente a los componentes de una combinación de una primera matriz de pérdida que clasifica unas distancias que separan las especies de referencia en el árbol de la representación jerárquica y de una segunda matriz calculada en función de la matriz de confusión.

Al igual que en la primera variante, los errores y los defectos de clasificación restantes se corrigen guardando al mismo tiempo las funciones de pérdidas de informaciones cuantitativas de distancias entre especies en el árbol.

En particular, los valores actuales de las funciones de pérdida se calculan según la relación:

imagen1

(y¡,k)

en la que A(y,, k) son dichos valores actuales de las funciones de pérdida para los pares de nodos (y,, k) del árbol, O(y,, k) et Aconfusión (y, k) son respectivamente la primera y la segunda matriz, y a es un número escalar comprendido entre 0 y 1. Más particularmente el número escalar a está comprendido entre 0,25 y 0,75, en particular entre 0,25 y 0,5.

Tal combinación convexa permite al mismo tiempo una precisión elevada de la identificación y una minimización de la gravedad de los errores de identificación.

Más particularmente, los valores iniciales de las funciones de pérdida se ajustan a cero para unos pares de nodos diferentes e igual a 1 en el caso contrario.

Según un modo de realización, una distancia O que separa dos nodos n-i, n2 en el árbol de la representación jerárquica se determina según la relación:

fl(n, n2) — depth(j\) + depth(n?) - 2 x depth(LCA{n,, n))

en la que depth(n-) y depth(n2) son respectivamente la profundidad de los nodos ni, n2, y depth(LCA(n1, n2)) es la profundidad del ancestro común más próximo LCA(ni, n2) de los nodos ni, n2 en dicho árbol. La distancia O así definida es la distancia mínima que se puede definir sobre un árbol.

Según un modo de realización, el modelo de predicción es un modelo de predicción de los nodos del árbol al que pertenece el microorganismo desconocido a identificar. Así, es posible predecir unos nodos ancestros de las hojas que corresponden a las especies.

Según un modo de realización, el problema de optimización se formula según las relaciones:

imagen2

bajo las restricciones:

4. >0, E[l,jV]

imagen3

expresiones en las que:

■ N es el número de espectros de aprendizaje;

■ K es el número de especies de referencia;

5

10

15

20

25

30

35

40

45

50

55

■ T es el número de nodos en el árbol de la representación jerárquica e Y = [1, T] es un conjunto de números enteros que referencia los nodos del árbol de la representación jerárquica;

W

pxT

es la concatenación (W1W2...WT)' de vectores de peso w-i, W2, etc.,

ív r ilí''

■ 1 asociados respectivamente a los nodos de dicho árbol, siendo p la cardinalidad de los vectores

representativos de la estructura de los espectros de aprendizaje;

■ C es un escalar de ajuste predeterminado;

■ Vi e [1, N], £/ es un escalar;

■ X = {x,}, i e [1, N] es un conjunto de vectores

■ 1 representativos de los espectros de aprendizaje;

■ Vie[1, N], y, es la referencia del nodo en el árbol de la representación jerárquica que corresponde a la especie de referencia del vector de aprendizaje x,;

^(x, k)=x®A(k), en la que:

o x e ^ es un vector representativo de un espectro de aprendizaje;

o A(í)e ^ es un vector predeterminado que representa de manera biunívoca la posición del nodo de referencia k e Y en el árbol de la representación jerárquica; y

®:9FxíRr -VJrxr

es el producto tensorial entre el espacio 9^ y el espacio

■ (W, ip) es el producto escalar sobre el espacio SÍpxT]

■ A(y,, k) es la función de pérdida asociada al par de nodos de referencia respectiva y, y k en el árbol de la representación jerárquica;

■ f(A(y,, k), £/) es una función predeterminada del escalar £/ y de la función de pérdida A(y,, k); y

■ el símbolo «\» designa el símbolo de la exclusión.

En una primera variante, la función f(A(y,, k), £/) se define según la relación f(A(y,, k), )=A(y,, k) - en una segunda

variante, la función f¡A(y¿ k), £,) se define según la relación

/(AOv, *),£■)= i-

A(v„yt)

En particular, la etapa de predicción comprende:

■ la transformación del espectro del microorganismo desconocido a identificar en un vector xm según el formato predeterminado del algoritmo de tipo máquina de vector de soporte de clase múltiple;

■ la aplicación de un modelo de predicción según las relaciones:

Tíje,„ = arg max ¿ (M.x„, k)) ¿£[1,7-]

En la que T¡dent es la referencia del nodo de la representación jerárquica identificado para el microorganismo desconocido, s(xm, k) = (W,'V(xm, k)) y V(xm, k) = xm ® A(k).

La invención tiene también por objeto un dispositivo de identificación de un microorganismo por espectrometría de masa, que comprende:

■ un espectrómetro apto para producir unos espectros de masa de microorganismos a identificar;

5

10

15

20

25

30

35

40

45

50

55

60

65

■ una unidad de cálculo apta para identificar los microorganismos asociados a los espectros producidos por el espectrómetro utilizando una etapa de predicción del tipo antes citado.

Breve descripción de las figuras

La invención se entenderá mejor a la lectura de la descripción siguiente, dada únicamente a título de ejemplo, y realizada en relación con los dibujos anexos, en los que unas referencias idénticas designan unos elementos idénticos o análogos, y en los que:

■ la figura 1 es un organigrama de un procedimiento de identificación según la invención;

■ la figura 2 es un ejemplo de árbol de taxonomía híbrida que mezcla por ejemplo unas informaciones fenotípicas y evolutivas;

■ la figura 3 es un ejemplo de árbol de una representación jerárquica utilizado según la invención;

■ la figura 4 es un ejemplo de generación de un vector que corresponde a la posición de un nodo en un árbol;

■ la figura 5 es un organigrama de un procedimiento de cálculo de funciones de pérdida según la invención;

■ la figura 6 es un trazado que ilustra unas precisiones por especie de diferentes algoritmos de identificación;

■ la figura 7 es un trazado que ilustra unos costes taxonómicos de errores de predicción de estos diferentes algoritmos;

■ la figura 8 es un trazado que ilustra unas precisiones por especie de un algoritmo que utiliza unas funciones de pérdida iguales a diferentes combinaciones convexas de una distancia sobre el árbol de la representación jerárquica y de una función de pérdida de confusión; y

■ la figura 9 es un trazado de los costes taxonómicos de los errores de predicciones para las diferentes combinaciones convexas.

Descripción detallada de la invención

Se describirá ahora en relación con el organigrama de la figura 1, un procedimiento según la invención aplicado a la espectrometría MALDI-TOF.

El procedimiento empieza por una etapa 10 de adquisición de un conjunto de espectros de masa de aprendizaje de una nueva especie de microorganismos a integrar en una base de conocimiento, por ejemplo mediante una espectrometría de masa de tipo MALDI-TOF (acrónimo de “Matrix-assisted [aser desorption/ionization time of flight”). La espectrometría de masa MALDI-TOF es bien conocida en sí y por lo tanto no se describirá más en detalle en lo que sigue. Se podrá hacer referencia, por ejemplo, al documento de Jackson O. Lay, “Maldi-tof spectrometry of bacteria”, Mass Spectrometry Reviews, 2001, 20, 172-194. Los espectros adquiridos se pretratan después, en particular, para eliminarlos el ruido de los mismos y eliminar su línea base, de una en sí misma manera conocida.

Se realiza entonces en 12 una identificación de los picos presentes en los espectros adquiridos, por ejemplo mediante un algoritmo de detección de picos basado en la detección de máximas locales. Se produce así una lista de picos para cada espectro adquirido, que comprende la localización y la intensidad de los picos del espectro.

De manera ventajosa, los picos identificados en el rango de Thomson [m,™; mmax] predeterminado, preferentemente el rango [m,™; mmax]=[3000;17000] de Thomson. En efecto, se ha observado que las informaciones suficientes para la identificación de los microorganismos se agrupan en este rango de relación masa sobre carga, y que, por lo tanto no es necesario tener en cuenta un rango más amplio.

El procedimiento se prosigue en 14 mediante una etapa de cuantificación, o “binning”. Para ello, el rango [m,™; mmax] se subdivide en intervalos de anchuras predeterminadas, por ejemplo constante, y para cada intervalo que comprende varios picos, se conserva un solo pico, ventajosamente el pico que presenta la intensidad más fuerte. Se produce así un vector para cada espectro medido. Cada componente del vector corresponde a un intervalo de la cuantificación y tiene como valor la intensidad del pico conservado para este intervalo, significando el valor “0” que no se ha detectado ningún pico en este intervalo.

En una variante, los vectores son “binarizados” planteando el valor de un componente del vector a “1” cuando un pico está presente en el intervalo correspondiente, y a “0” cuando ningún pico está presente en este intervalo. Esto tiene por efecto hacer más fuerte la calibración de los algoritmos de clasificación realizada ulteriormente. Los inventores han observado, en efecto, que la información pertinente, en particular para la identificación de una bacteria, está contenida esencialmente en la ausencia y/o la presencia de picos, y que la información de intensidad

5

10

15

20

25

30

35

40

45

50

55

60

es menos pertinente. Además, se observa que la intensidad es una dimensión muy variable de un espectro al otro y/o de un espectrómetro al otro. Debido a esta variabilidad, es difícil tener en cuenta los valores brutos de intensidad en las herramientas de clasificación.

Paralelamente, los vectores de picos de espectros de aprendizaje, en lo sucesivo “vectores de aprendizaje” se memorizan en la base de conocimiento. La base de conocimiento cataloga así K especies de microorganismos,

v

denominados “especie de referencia” y un conjunto X={x,},t[i w| de N espectros de aprendizaje r ’ /e[ 1, N], en la que p es el número de picos retenidos para los espectros de masa.

Paralela o consecutivamente, las k especies catalogadas se clasifican en 16, según una representación jerárquica en forma de árbol de las especies de referencia en términos de evolución y/o de fenotipo clínico.

En una primera variante, la representación jerárquica es una representación taxonómica de lo vivo aplicada a las especies de referencia catalogadas. Como se conoce por sí misma, la taxonomía de lo vivo es una clasificación jerárquica de lo vivo que clasifica cada organismo vivo según el orden siguiente, del menos específico al más específico: campo, reino, phylum, clase, orden, familia, género, especie. La taxonomía utilizada es, por ejemplo, la establecida por el “National Center for Biotechnology Information” (NCBI). La taxonomía de lo vivo comprende así de manera implícita unos datos de evolución, unos microorganismos próximos a nivel de la evolución que comprende más componentes en común que unos microorganismos más alejados desde el punto de vista evolución. Destaca de esto que la “proximidad” en términos de evolución tiene un impacto sobre la “proximidad” de los espectros.

En una segunda variante, la representación jerárquica es una representación taxonómica “híbrida” obtenida teniendo en cuenta unas características filogénicas, por ejemplos unas características de evolución de las especies, y unas características fenotípicas, como por ejemplo el GRAm +/- de las bacterias que se basa en el grosor/permeabilidad de sus membranas, sus características aeróbicas o anaeróbicas. Tal representación se ilustra, por ejemplo, en la figura 2 para las bacterias.

De manera general, el árbol de la representación jerárquica es una representación gráfica que une unos nodos terminales, o “hojas” correspondientes a las especies a un nodo “raíz” por una única ruta constituida de nodos intermedios.

En una etapa 18 siguiente, los nodos del árbol, o “taxones” se numeran por el par de los números enteros k e Y = [1, 7], en la que T es el número de nodos en el árbol, hojas y raíz comprendidas, y el árbol se transforma en un conjunto

A={A(/c)}^e[i,7] de vectores binarios e ^ •

Más particularmente, los T nodos del árbol se numeran respectivamente de 1 a T, por ejemplo conforme a los diferentes rutas desde la raíz hacia las hojas, como se ilustra en el árbol de la figura 3 que cataloga 47 nodos de los cuales 20 especies. Los componentes de los vectores A(k) corresponden entonces a los nodos así numerados, correspondiendo el primer componente de los vectores A(k) al nodo numerado “1”, correspondiendo el segundo componente al nodo numerado “2” y así uno tras otro. Los componentes de un vector A(k) que corresponde a los nodos en la ruta desde el nodo k hasta la raíz del árbol, nodo k y raíz comprendida, se establecen iguales a uno, y los otros componentes del vector A(k) se establecen iguales a cero. La figura 4 ilustra la generación de los vectores A(k) para un árbol simplificado de 5 nodos. El vector A(k) representa así de manera biunívoca, o única, la posición del nodo k en el árbol de la representación jerárquica, y la estructura del vector A(k) representa las relaciones de ascendencia del nodo k. Dicho de otra manera, el conjunto A = {A(k)}ke[1,T] es una representación vectorial del conjunto de las rutas entre la raíz y los nodos del árbol de la representación jerárquica.

Evidentemente, son posibles otras representaciones vectoriales del árbol que conserva estas relaciones.

Para comprender bien lo que viene a continuación, se introducen las anotaciones siguientes. Cada vector de aprendizaje x¡ corresponde a una especie de referencia particular de referencia por un número entero y¡ e [1, 7], a saber el número de la hoja correspondiente en el árbol de la representación jerárquica. Por ejemplo, el 10° vector de aprendizaje X10 corresponde a la especie representada por la hoja numerada “24” del árbol de la figura 3, en tal caso y-io = 24. La anotación y¡ se refiere así al número, o “lábel”, de la especie del espectro en el conjunto [1, 7], la cardinalidad del conjunto E = {y,} de las referencias y¡ siendo por supuesto igual al número K de especies de referencia. Así, refiriéndose, por ejemplo, a la figura 3, E = {7,8,12,13,16,17,23,24,30,31,33,34,36,38,39,40,42,43,46,47}. Cuando un número entero de Y=[1,T], por ejemplo el número entero “k”, se utiliza directamente en las relaciones siguientes, este número entero se refiere al nodo numerado “k” del árbol, independientemente de los vectores de aprendizaje x¡.

En una etapa siguiente 20, se producen nuevos vectores de “aprendizaje estructurados’ a las relaciones:

imagen4

conforme

5

10

15

20

25

30

35

40

45

50

'¥(xi,k) = xi® A(k) Vz e [1, jV], e [1,T] (1)

en la que

es el producto tensorial entre el espacio 9^' y el espacio 9íJ. Un vector ^(x,, k) es

así un vector que comprende una concatenación de T bloques de dimensión p cuyos bloques correspondientes a los componentes ¡guales a la unidad del vector A(k) son ¡guales al vector x, y cuyos otros bloques son ¡guales al vector

nulo 0„ de 9í;'.

Refiriéndose de nuevo al ejemplo de la figura 4, el vector A(5) que corresponde al nodo numerado

0

1

0

1

“5” es igual a y el vector ^(x,, 5) es igual a

imagen5

Se constata así que cuanto más próximos estén los nodos en el árbol de la representación jerárquica, más compartirán sus vectores estructurados unos bloques no nulos comunes. Por el contrario, cuanto más alejados estén los nodos, menos compartirán sus vectores estructurados bloques no nulos en común, estas constataciones se aplican por lo tanto en particular a las hojas que representan las especies de referencia.

En una etapa siguiente 22, se calculan unas funciones de pérdida de un algoritmo de tipo SVM de clase múltiple estructurado aplicado al conjunto de los nodos del árbol de la representación jerárquica.

Más particularmente, un algoritmo SVM de clases múltiples estructurado conforme a la representación jerárquica según la invención se define según las relaciones:

bajo las restricciones:

imagen6

>0, Vz'e[1,Aí] (3)

imagen7

expresiones en las que:

. WeW,xT

es la concatenación (w-iW2...wt) de vectores de peso w-i, wz- los nodos y¡ del árbol;

wt e

9í;' asociados respectivamente a

■ C es un escalar de ajuste predeterminado;

■ Vie[1,N], § es un escalar;

■ <14/, ip) es el producto escalar, aquí en el espacio 9ípxr;

■ A(y, k) es una función de pérdida definida para el par formado de la especie que tiene por referencia y¡ y del nodo que tiene por referencia k;

■ f(ñ(y¡, k), §) es una función predeterminada del escalar %¡ y de la función de pérdida A(y, k); y

■ el símbolo “\” designa el símbolo de la exclusión, la expresión “Vk e Y\y" significa así “todos los nodos del conjunto Y salvo el nodo de referencia y".

Como se puede constatar, la proximidad entre especies, tal como la codificada por la representación jerárquica, y tal como la introducida en la estructura de los vectores de aprendizaje estructurados, se tiene en cuenta mediante las restricciones. En particular, cuanto más próximas estén las especies en el árbol, más acoplados estarán sus datos. Las especies de referencia no se consideran ya, por lo tanto, como intercambiables por el algoritmo según la invención, contrariamente a los algoritmos SVM de clases múltiples clásicos, que no consideran ninguna jerarquización entre las especies y consideran éstas como intercambiables.

5

10

15

20

25

30

35

40

45

50

55

60

Además, el algoritmo SVM de clases múltiples estructurado según la invención tiene en cuenta de manera cuantitativa la proximidad entre las especies de referencia mediante funciones de pérdida A(y,, k).

Según una primera variante, la función f se define según la relación:

f(A(yi,k)¿¡) = A{y¡,k)-l;¡ (5)

Según una segunda variante, la función f se define según la relación:

£

/'(Ai y,. A h f) = 1 - ——— (6)

En un modo de realización ventajoso, las funciones de pérdida A(y,, k) son iguales a una distancia Q(y,, k) definida sobre el árbol de la representación jerárquica según la relación:

A(y;,A')= íl(y:.k) - cIepth(y¡) + clepth(k) — 2'xdepth(LCA(y¡,k)) (7)

en la que depth(y) y depth(k) son respectivamente la profundidad de los nodos y, y k en dicho árbol, y depth(LCA(y, k)) es la profundidad del nodo ascendente, o nodo “ancestro”, común más próximo LCA(y¡, k) de los nodos y¡ y k en dicho árbol. La profundidad de un nodo se define, por ejemplo, como el número de nodos que lo separan del nodo raíz.

En una variante, las funciones de pérdidas A(y¿ k) son de naturaleza diferente de la de la representación jerárquica. Estas funciones se definen, por ejemplo, por el usuario en función de otra representación jerárquica, de su experiencia y/o de los resultados algorítmicos, como se explicará más en detalle a continuación.

Una vez calculadas las funciones de pérdidas, el procedimiento según la invención se continúa por la utilización, en 24, del algoritmo SVM de clases múltiples, tal como se define en las relaciones (2), (3), (4), (5) o (2), (3), (4), (6).

El resultado producido por el algoritmo es así el vector W que es el modelo de clasificación de los nodos del árbol, deducido de la combinación de las informaciones contenidas en los vectores de aprendizaje x¡, del posicionamiento de sus especies de referencia asociadas en el árbol, de la información de proximidad entre especies contenidas en la representación jerárquica, y de la información de distancia entre especies contenidas en las funciones de

pérdidas. Más particularmente, cada vector de peso w¡, /e[ 1, 7], representa el vector normal de un hiperplano de ^ que representa una frontera entre las instancias del nodo “/” del árbol y las instancias de los otros nodos ke[1,7]V del árbol.

Las etapas 12 a 24 de aprendizaje del modelo de clasificación se realizan una vez en un primer sistema informático. El modelo de clasificación W = (wiW2...wt)t, así como los vectores A(k), se memorizan después en un sistema de identificación de microorganismos que comprende un espectrómetro de masa del tipo MALDI-TOF y una unidad de tratamiento informático conectada al espectrómetro. La unidad de tratamiento recibe los espectros de masa adquiridos por el espectrómetro e implementa unas reglas de predicción determinante, en base al modelo W y vectores A(k), en algunos nodos del árbol de la representación jerárquica se asocian los espectros de masa adquiridos por el espectrómetro de masa.

En una variante, la predicción se realiza en un servidor distante accesible por un usuario, por ejemplo mediante un ordenador personal conectado a la red internet a la que está también conectado el servidor. El usuario carga unos espectros de masa no tratados obtenidos por un espectrómetro de masa del tipo MALDI-TOF sobre el servidor, este último implementa entonces el algoritmo de predicción y reenvía los resultados del algoritmo al ordenador del usuario.

Más particularmente, para la identificación de un microorganismo desconocido, el procedimiento comprende una etapa 26 de adquisición de uno o varios espectros de masa de este, una etapa 28 de pretratamiento de los espectros adquiridos así como una etapa 30 de detección de los picos de los espectros y de determinación de un A-eíR",

vector de picos tal como, por ejemplo, descritos anteriormente en relación con las etapas 10 a 14.

En una etapa 32 siguiente, un vector estructurado se calcula para cada nodo del árbol de la representación jerárquica k e Y = [1, T] según la relación:

®A(A) (8)

después se calcula un resultado asociado al nodo ksegún la relación:

5

10

15

20

25

30

35

40

45

50

55

60

65

imagen8

El nodo del árbol Tident e [1, T] identificado del microorganismo desconocido es entonces, por ejemplo, el que corresponde al resultado más elevado:

Tidc„t = argma\/.(¿'(,vm,/;)) k ■-fl.7 ] (10)

Por supuesto, son posibles otros modelos de predicción.

Además del resultado asociado al taxón identificado Tident, se calculan también los resultados de los nodos ancestros y de los nodos descendentes si existen, del taxón Tident por el algoritmo de predicción. Así, por ejemplo, su el resultado del taxón Tident se considera débil por el usuario, este último dispone de resultados asociados a los nodos ancestros y por lo tanto de informaciones suplementarias más fiables.

Se acaba de describir un modo de realización particular de la invención en el que las funciones de pérdidas A(y,, k) se calculan en función de una distancia mínima definida en el árbol de la representación jerárquica.

Se describirá ahora otras variantes de cálculo de las funciones de pérdidas A(y, k).

En una primera variante, las funciones de pérdidas definidas en la relación (7) se modifican en función de informaciones que permiten, a priori, obtener un modelo de clasificación más firme y/o facilitar la resolución del problema de optimización definido por las relaciones (2), (3) y (4). Por ejemplo, la función de pérdida A(y, k) de un par de nodos (y, k) se puede elegir baja, en particular inferior a la distancia Q(y, k), lo que significa que se toleran unos errores de identificación entre estos dos nodos. Relajar restricciones, sobre en uno o varios pares de especies, vuelve mecánicamente a incrementar las restricciones sobre los otros pares de especies, ajustándose el algoritmo por lo tanto para diferenciar más fuertemente los otros pares. De manera análoga, la función de pérdida A(y, k) de un par de nodos (y, k) se puede elegir muy elevada, en particular superior a la distancia Q(y¿ k), para forzar el algoritmo a diferenciar los nodos (y, k), y por lo tanto minimizar los errores de identificación entre éstas. En particular, es posible relajar o reforzar restricciones, sin embargo, sobre pares de especies de referencia mediante sus funciones de pérdidas respectivas.

En una segunda variante, ilustrada en el organigrama de la figura 5, el cálculo de las funciones de pérdida A(y, k) se realiza de manera automática en función de rendimientos estimados del algoritmo SVM utilizado para calcular el modelo de clasificación W.

El procedimiento de cálculo de las funciones de pérdidas A(y, k) empieza por la elección, en 40, de valores iniciales para éstas. Por ejemplo, A(y, k) = 0 cuando y = k, et A(y, k) = 1 cuando y¡ t k, reduciéndose así las funciones f a f(A(y¡, k), §) = 1 - Por supuesto, son posibles otros valores iniciales para las funciones de pérdida, siendo las funciones f¡£,) =1 - %¡ que aparecen en las restricciones de los algoritmos expuestos a continuación entonces sustituidas por las funciones f¡A(y¡, k), £,■) de la relación (5) o (6) con los valores iniciales de las funciones de pérdida.

El procedimiento de cálculo se continúa mediante la estimación de los rendimientos del algoritmo SVM para las funciones de pérdida A(y, k) seleccionadas. Esta estimación comprende:

■ la ejecución en 42, de un algoritmo SVM de clases múltiples en función de los valores de las funciones de pérdida a fin de a calcular un modelo de clasificación;

■ la aplicación, en 44, de un modelo de predicción en la base del modelo de clasificación calculado, aplicándose el

_ y 1=

modelo de predicción a un conjunto {x,} de vectores de calibración -4¡ c •'* de la base de conocimiento. Los vectores de calibración X¡ se producen de manera similar a los vectores de aprendizaje x¡ a partir de espectros asociados a las especies de referencia, asociándose cada vector x¡ a la referencia y de la especie de referencia correspondiente; y

■ la determinación, en 46, de una matriz de confusión en función de los resultados de la predicción.

Los vectores de calibración X¡ se adquieren, por ejemplo, simultáneamente a los vectores de aprendizaje x¡. En particular, para cada especie de referencia, los espectros asociados a esta se distribuyen en un conjunto de aprendizaje y un conjunto de calibración de los cuales se producen respectivamente los vectores de aprendizaje y los vectores de calibración.

El procedimiento de cálculo de las funciones de pérdida se continúa en 48, por la modificación de los valores de las funciones de pérdida en función de la matriz de confusión calculada. Las funciones de pérdida obtenidas se utilizan entonces por el algoritmo SVM de cálculo del modelo de clasificación final W, o bien se realiza en 50 un ensayo para saber si se calculan nuevos valores de las funciones de pérdida utilizando las etapas 42, 44, 46, 48 en función de los valores modificados de las funciones de pérdida durante la etapa 48.

5

10

15

20

25

30

35

40

45

50

En un primer ejemplo del procedimiento de cálculo de las funciones de pérdida, la etapa 42 que corresponde a la ejecución de un algoritmo SVM es un algoritmo de tipo “uno contra todos”, comúnmente designado bajo la expresión “one-versus-all’. Este algoritmo está no jerarquizado y considera únicamente las especies de referencia, siendo éstas referenciadas por unos números enteros k e [1, K], y resuelve un problema de optimización para cada una de las especies de referencia k según las relaciones:

bajo las restricciones:

imagen9

('Te (11)

í=1

> 0, V; e[l,jV] (12)

+ 1-í, V/E[\,N] (13)

expresiones en las que:

■ Hic e ^ es un vector de peso y ^ e ^ es un escalar; y

■ q¡ e {-1,1} con q¡ = 1 si i = k, et q¡ = -1 si i í k.

El modelo de predicción se da según la relación siguiente y se aplica, durante la etapa 44, a cada uno de los vectores de calibración x,-:

G(j;.) = argmax,{wt,x¡} + bi ke[l,K] (14)

Durante la etapa 46 se calcula entonces una matriz de confusión ¡nter-especie Cespec¡ee ^ , según la relación:

Ce

.(i,k) = FP{i,k)Vi,ke[l,K]

(15)

en la que FP(i, k) es el número de vectores de calibración de la especie i predichas por el modelo de predicción como perteneciente a la especie k.

Todavía en 46, se calcula después una matriz de confusión ¡nter-especie normalizada 91 x9í según la

relación:

imagen10

en la que Ni es el número de vectores de calibración para la especie de referencia i.

c f'[ir' x'jr"

finalmente, la etapa 46 se termina por el cálculo de una matriz de confusión ¡nter-nodo normalizada en función de la matriz de confusión normalizada Cespecie. Por ejemplo, un esquema de propagación de los valores Cespecie(i, k) desde las hojas hacia la raíz se utiliza para calcular los valores Ctaxo(i, k) de los pares (i, k) de nodos diferentes de las especies de referencia. En particular, para un par de nodos (i, k) e [1, 7]2 del árbol de la representación jerárquica para el cual ya se ha calculado un componente de la matriz Ctaxo(iC,kC) para cada par de nodos (iC,kC) del conjunto {iC} * {kC}, en el que {iC} y {kC} son respectivamente los conjuntos de nodos “hijos de los nodos i y k, el componente de la matriz Ctaxo(i, kC) para el par (i, k) se coloca también en la media de los componentes Ctaxo(iC,kC).

Durante la etapa 48, la función de pérdida A(y, k) de cada par de nodos (y, k) se calcula en función de la matriz de confusión inter-nodo normalizada Ctaxo-

Según una primera opción de la etapa 48, la función de pérdida A(y, k) se calcula según la relación:

5

10

15

20

25

30

35

40

45

50

í 0 si v, - k

My.kU ~ . , (17)

[l + AxC^íy,.,*) si y¡*k

en la que A > 0 es un escalar predeterminado que controla la contribución de la matriz de confusión Ctaxo en la función de pérdida.

Según una segunda opción de la etapa 48, la función de pérdida A(y, k) se calcula según la relación:

imagen11

en la que es el redondeo del número entero superior, @ > 0 y l > 0 son unos escalares predeterminados que ajustan la contribución de la matriz de confusión Ctaxo en la función de pérdida. Por ejemplo, colocando l = 10, la matriz de confusión Ctaxo contribuye a la altura de @ para cada trama de l0% de confusión entre los nodos (y, k).

Según una tercera opción de la etapa 48, un primer componente Aconfusión(yi, k) de la función de pérdida A(y,, k) se calcula según la relación (17) o (18), después la función de pérdida A(y,, k) se calcula según la relación:

A(v;,/c) = a xQ(v;,^) + (l-üt)x A, .(v„k) (19)

' rnnft/s/nn'1' i ' > ' '

en la que 0 < a < 1 es un escalar que ajusta un compromiso entre une función de pérdida únicamente determinada mediante una matriz de confusión y una función de pérdida únicamente determinada mediante una distancia en el árbol de la representación jerárquica.

En un segundo ejemplo del procedimiento de cálculo de las funciones de pérdida, la etapa 42 corresponde a la ejecución de un algoritmo SVM de clases múltiples que resuelve un único problema de optimización para todas las especies de referencia k e [1, K], estando cada vector de aprendizaje x¡ asociado a su especie de referencia numerada por un número entero y¡ e [1, K], según las relaciones

1 K 2 ,V

H™ tZIKI (20)

Wk,E¡i1k= 1 i=l

bajo las restricciones:

> 0, V; e[l, Ar] (21)

imagen12

iv <=9^

en la que VA e [1, K], 1 vector de peso asociado a la especie A.

El modelo de predicción se da según la relación siguiente y se aplica, durante la etapa 44, a cada uno de los vectores de calibración x¡:

G(x,) = argmax^(v^,x¡} ke[l,K] (23)

Las etapas 46 y 48 del segundo ejemplo son idénticas a las etapas 46 y 48 del primer ejemplo.

En un tercer ejemplo del procedimiento de cálculo de las funciones de pérdida, la etapa 42 corresponde a la ejecución de SVM de clases múltiples estructurado a base de representación jerárquica según las relaciones (2), (3), (4), (5) o (2), (3), (4), (6). Durante la etapa 44, el modelo de predicción según la relación siguiente se aplica entonces a cada uno de los vectores de calibración x¡:

imagen13

en la que

5

10

15

20

25

30

35

40

45

50

55

60

E = \yeri es a las especies

el conjunto de las referencias de los nodos del árbol de la representación jerárquica que corresponde de referencias.

C <= WA x *)?A

Una matriz de confusión Ínter-especie se deduce entonces de los resultados de la predicción sobre

los vectores de calibración x, y el procedimiento de cálculo de las funciones de pérdida se continúa de manera idéntica a la del primer ejemplo.

Por supuesto, la matriz de confusión se puede calcular en función de resultados de predicciones que se refiere a todos los taxones del árbol.

Se han descrito unos modos de realización en los que el algoritmo SVM utilizado para calcular el modelo de clasificación es un modelo SVM de clases múltiples estructurado a base de representación jerárquica, en particular un algoritmo según las relaciones (2), (3), (4), (5) o según las relaciones (2), (3), (4), (6).

El principio de las funciones de pérdida A(y,, k) que cuantifican una proximidad a priori entre unas clases consideradas por el algoritmo, a saber unos nodos del árbol de la representación jerárquica en los modos de realización descritos anteriormente, se aplican también a unos algoritmos SVM de clases múltiples que no se basan en una representación jerárquica. Para tales algoritmos, las clases consideradas son las especies de referencia representadas en los algoritmos por unos números enteros k e [1, K], y las funciones de pérdida se definen únicamente para los pares de especies de referencia, y por lo tanto para los pares (y,, k) e [1, K]2

En particular, en otro modo de realización, el algoritmo SVM utilizado para calcular el modelo de clasificación es el algoritmo SVM de clases múltiples según las relaciones (20), (21) y (22) sustituyendo la función f(£,) = 1 - £/ de la relación (22) por la función f(A(y¿ k), £,) según la relación (5) o la relación (6), a saber según las relaciones (20), (21) y (22bis):

imagen14

El modelo de predicción aplicado para identificar la especie de un microorganismo desconocido es entonces el modelo según la relación (23).

Se describirá ahora unos resultados experimentales del procedimiento según la invención, según las condiciones experimentales siguientes:

■ 571 espectros de bacterias obtenidos por un espectrómetro de masa de tipo MALDI-TOF;

■ las baterías pertenecen a 20 especies de referencia diferentes y representan más de 200 cepas diferentes; y

■ las 20 especies se organizan jerárquicamente en un árbol taxonómico de 47 nodos tal como se ilustra en la figura

3;

■ los vectores de aprendizaje y de calibración se producen en función de los espectros de masa y clasifican cada uno

x. e 'JÍ1300 .

a la intensidad de 1300 picos en función de la relación masa-sobre-carga. Se obtiene por lo tanto 1

Los rendimientos del procedimiento según la invención se evalúan con la ayuda de una validación cruzada definida de la manera siguiente:

■ para cada cepa, un conjunto de vectores de aprendizaje se define retirando del conjunto total de los vectores de aprendizaje los vectores que corresponden a la cepa;

■ para cada conjunto así obtenido, se calcula un modelo de clasificación en base a un algoritmo de tipo SVM tal como se ha descrito anteriormente; y

■ un modelo de predicción asociado al modelo de clasificación obtenido se aplica a los vectores que corresponden a la cepa retirada del conjunto de los vectores de aprendizaje.

Por otra parte, se tienen en cuenta diferentes indicadores para evaluar los rendimientos del procedimiento:

■ la micro precisión, que es el índice de espectros correctamente clasificado;

■ precisiones por especie, siendo una precisión para una especie el índice de espectros correctamente clasificado para esta especie;

5

10

15

20

25

30

35

40

45

50

55

■ la macro precisión, que es la media de las precisiones por especie. Al contrario que la micro precisión, la macro precisión es menos sensible a la cardinalidad de los conjuntos de vectores de aprendizaje respectivamente asociados a las especies de referencia;

■ el coste “taxonómico” de una predicción, que es la longitud de la ruta más corta en el árbol de la representación jerárquica entre la especie de referencia de un espectro y la especie predicha para este espectro, por ejemplo definida como siendo igual a la distancia Q(y, k) según la relación (7). Al contrario de la micro precisión, las precisiones por especie y la macro precisión, que consideran los errores de predicción como siendo de importancia igual, el coste taxonómico permite cuantificar la gravedad de cada error de predicción.

Les algoritmos siguientes se analizaron y compararon:

■ “SVM_one-vs-all”: algoritmo según las relaciones (11), (12), (13), (14);

■ “SVM_cost_0-1”: algoritmo según las relaciones (20), (21), (22), (23);

■ “SVM_cost_taxo”: algoritmo según las relaciones (20), (21), (22bis), y (23) con f¡A(y,k),£/) definida según las relaciones (6) y (7);

■ “SVM_struct_0-1”: algoritmo según las relaciones (2), (3), (4), (8)-(10) con f¡A(y,k),£/) = 1 - £,■;

■ “SVM_struct_taxo”: algoritmo según las relaciones (2), (3), (4), (8)-(10) con f¡A(y, k), £,) definida según las relaciones (6) y (7).

El parámetro C retenido para cada uno de estos algoritmos es aquel que permite las mejores micro precisión y macro precisión.

La tabla siguiente clasifica para cada uno de estos algoritmos la micro precisión y la macro precisión. La figura 6 ilustra la precisión por especie de cada uno de los algoritmos, la figura 7 ilustra el número de error de predicción en función del coste taxonómico de estas de cada uno de los algoritmos.

Algoritmo SVM: Micro precisión Macro precisión

SVM one-vs-all: 90,4 89,2

SVM cost 0-1: 90,4 89,0

SVM cost taxo: 88,6 86,0

SVM struct 0-1: 89,2 88,5

SVM struct taxo: 90,4 89,2

A la vista de estos resultados, y en particular los de la tabla anterior y de la figura 6, se destaca que tanto la representación de los datos conforme a la representación jerárquica como las funciones de pérdida tienen una incidencia sobre la precisión de las predicciones, tanto en términos de micro precisión como de macro precisión. Cabe señalar a este respecto, que el algoritmo “SVM_struct_taxo” de la invención tiene al menos igual función que el algoritmo clásico de tipo “one-versus-all”. Sin embargo, con respecto a la figura 7, se observa que los errores de predicción de los algoritmos son de gravedades diferentes. En particular, los algoritmos “SVM_one-vs-all” y “SVM_cost_0-1”, que no tienen en cuenta ninguna representación jerárquica entre las especies de referencia, producen unos errores de predicción de gravedad importante. El algoritmo que realiza menos errores graves es el algoritmo “SVM_cost_taxo”, no se ha detectado ningún error de coste taxonómico superior a 4. Por el contrario, el algoritmo “SVM_cost_taxo” es menos eficaz en términos de micro-precisión y de macro-precisión.

A la vista de lo anterior, se deduce por lo tanto que la introducción de informaciones a priori en forma de una representación jerárquica, en particular taxonómica y/o fenotípica clínica, las especies de referencia y de distancias cuantitativas entre las especies en forma de funciones de pérdida permite gestionar el compromiso entre, por un lado, la precisión global de la identificación de microorganismos desconocidos y, por otro lado, la gravedad de los errores de identificación.

También se han llevado a cabo unos análisis sobre unas funciones de pérdida igual a una combinación convexa de la distancia sobre el árbol y función de pérdida de confusión según la relación (19), más particularmente, para el algoritmo “SVM_cost_taxo_conf» según las relaciones (20), (21), (22bis). La función f¡A(y, k), §) se define según la relación (6) y las funciones de pérdida A(y , k) se calculan utilizando el segundo ejemplo del procedimiento de cálculo de las funciones de pérdida A(y, k), con A(y, k) definida según las relaciones (18) y (19) sustituyendo la matriz de confusión inter-nodos por la matriz de confusión inter-especie. El algoritmo “SVM_cost_taxo_conf” se utilizó para diferentes valores del parámetro a, a saber los valores 0, 0,25, 0,5, 0,75 y 1, siendo el parámetro @ en la relación (18) igual a 1, y siendo el parámetro C en la relación (20) igual a 1000. El resultado de este análisis se ilustra en las figuras 8 y 9, que ilustran respectivamente las precisiones por especie y los costes taxonómicos para los diferentes

5

10

15

20

25

30

35

40

valores del parámetro a. En estas figuras se ilustran también, con fines comparativos, las precisiones por especie y los costes taxonómicos del algoritmo “SVM_cost_0/1”

Como se puede observar en estas figuras, cuando el parámetro a se acerca a uno, estando las funciones de pérdida por lo tanto sustancialmente definidas únicamente por la distancia sobre el árbol de la representación jerárquica, la precisión disminuye y la gravedad de los errores aumenta. Asimismo, cuando el parámetro a se acerca a cero, estando las funciones de pérdida sustancialmente definidas únicamente a partir de una matriz de confusión, la precisión por especie disminuye y la gravedad de los errores aumenta.

Por el contrario, para unos valores de parámetro a comprendidos en el rango [0,25; 0,75], y en particular en el rango [0,25; 0,5], se observa una precisión más importante, siendo la precisión por especie más baja superior al 60% a la precisión por especie más baja del algoritmo SVM_cost_0/1. Se observa también una disminución sensible de los errores graves de predicción, en particular de coste taxonómico superior a 6. Además, se observa que para unos valores de a próximos a 0,5, en particular para el valor 0,5 ilustrado en las figuras, el número de errores de coste taxonómico igual a 2 se reduce con respecto al número de errores de mismo coste con unos valores de a próximos a 0,25.

Unos análisis preliminares muestran un impacto similar para un algoritmo “SVM_struct_taxo_conf” que utiliza las relaciones (2), (3), (4), (8)-(10) con, como función f(A(y, k), £■), la definida en la relación (6) y como funciones de pérdida A(y,, k) las calculadas utilizando el segundo ejemplo del procedimiento de cálculo de las funciones de pérdida A(y, k) utilizando las relaciones (18) y (19).

Se han descrito unos modos de realización aplicados a la espectrometría de masa de tipo MALDI-TOF. Estos modos de realización se aplican a cualquier tipo de espectrometría y espectroscopia, en particular la espectrometría vibracional, y la espectroscopia por auto-fluorescencia, pudiendo variar solamente la generación de los vectores de aprendizaje, en particular el pretratamiento de los espectros.

Asimismo, se han descrito unos modos de realización en los que los espectros utilizados para producir los datos de aprendizaje no presentan ninguna estructura.

Ahora bien, los espectros son por naturaleza “estructurados”, es decir que sus componentes, los picos, no son intercambiables. En particular, un espectro comprende una secuenciación intrínseca, por ejemplo en función del ratio masa-sobre-carga para la espectrometría de masa o en función de la longitud de onda para la espectrometría vibracional, y una molécula o un compuesto orgánico puede dar lugar a varios picos.

Según la presente invención, la estructura intrínseca de los espectros se tiene también en cuenta utilizando unos algoritmos de tipo SVM no lineales que utilizan unas funciones núcleos K(x, y) simétricos y definidos positivos cuantificando la similitud de estructura de un par de espectros (x,y). Los productos escalares entre dos vectores que aparecen en los algoritmos SVM descritos anteriormente se sustituyen entonces por dichas funciones núcleos K(x, y). Para más detalles, se podrá, por ejemplo, hacer referencia al capítulo 11 del documento “Kernel Methods for Pattern Analysis” de John Shawe-Taylor & Nello Cristianini - Cambridge University Press, 2004.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Procedimiento de identificación por espectrometría de microorganismos desconocidos entre un conjunto de especies de referencia, que comprende:

■ una primera etapa de aprendizaje supervisado de un modelo de clasificación de las especies de referencia, que comprende:

- para cada especie, la adquisición de un conjunto de espectros de aprendizaje de microorganismos identificados que pertenecen a dicha especie;

- la transformación de cada espectro de aprendizaje adquirido en un conjunto de datos de aprendizaje según un formato predeterminado para su utilización mediante un algoritmo de tipo máquina de vector de soporte de clase múltiple; y

- la determinación del modelo de clasificación de las especies de referencia en función de los conjuntos de datos de aprendizaje mediante dicho algoritmo de tipo máquina de vector de soporte de clase múltiple,

* una segunda etapa de predicción de un microorganismo desconocido a identificar que comprende:

- la adquisición de un espectro de microorganismo desconocido; y

- la aplicación de un modelo de predicción en función de dicho espectro y del modelo de clasificación a fin de inferir al menos un tipo de microorganismo al que el microorganismo desconocido pertenece,

caracterizado:

■ por que la transformación de cada espectro de aprendizaje adquirido comprende:

- la transformación del espectro en un vector de datos representativo de una estructura del espectro de aprendizaje;

- la producción del conjunto de datos según el formato predeterminado realizando el producto tensorial del vector de datos por un vector predeterminado que representa de manera biunívoca la posición de la especie de referencia del microorganismo en una representación jerárquica en forma de árbol de las especies de referencia en términos de evolución y/o de fenotipo clínico;

■ y por que el modelo de clasificación es un modelo de clasificación de clases que corresponde a unos nodos del árbol de la representación jerárquica, consistiendo el algoritmo de tipo máquina de vector de soporte de clase múltiples en determinar unos parámetros del modelo de clasificación resolviendo un único problema de optimización de un criterio expresado en función de los parámetros del modelo de clasificación bajo restricciones de márgenes que comprenden unas funciones denominadas de “pérdida” que cuantifica una proximidad entre los nodos del árbol.
2. Procedimiento de identificación según la reivindicación 1, caracterizado por que unas funciones de pérdida asociadas a unos pares de nodos son iguales a las distancias que separan los nodos en el árbol de la representación jerárquica.
3. Procedimiento de identificación según la reivindicación 1 o 2, caracterizado por que unas funciones de pérdida asociadas a unos pares de nodos son superiores respectivamente a unas distancias que separan los nodos en el árbol de la representación jerárquica.
4. Procedimiento de identificación según la reivindicación 1, 2 o 3, caracterizado por que las funciones de pérdida se calculan:

* ajustando las funciones de pérdida a valores iniciales;

* realizando al menos una iteración de un proceso que consiste en:

- ejecutar un algoritmo de tipo máquina de vector de soporte de clase múltiples a fin de calcular un modelo de clasificación en función de valores actuales de las funciones de pérdida;

- aplicar un modelo de predicción en función del modelo de clasificación calculado y de un conjunto de espectros de calibración de microorganismos identificados que pertenecen a las especies de referencia, diferente del conjunto de espectros de aprendizaje;

- calcular un criterio de rendimiento de la clasificación para cada especie en función de resultados reenviados por dicha aplicación del modelo de predicción al conjunto de espectros de calibración; y

5

10

15

20

25

30

35

40

45

50

55

60

- calcular nuevos valores actuales de las funciones de pérdidas modificando los valores actuales de las funciones de pérdida en función de los criterios de rendimiento calculados.
5. Procedimiento de identificación según la reivindicación 4, caracterizado por que:

* el cálculo del criterio de rendimiento consiste en el cálculo de una matriz de confusión en función de los resultados reenviados por dicha aplicación del modelo de predicción;

* y por que los nuevos valores actuales de las funciones de pérdida se calculan en función de la matriz de confusión.
6. Procedimiento de identificación según la reivindicación 4, caracterizado por que:

* el cálculo del criterio de rendimiento consiste en el cálculo de una matriz de confusión en función de los resultados reenviados por dicha aplicación del modelo de predicción;

* y por que los nuevos valores actuales de las funciones de pérdida corresponden respectivamente a los componentes de una combinación de una primera matriz de pérdida que clasifica unas distancias que separan las especies de referencia en el árbol de la representación jerárquica y de una segunda matriz calculada en función de la matriz de confusión.
7. Procedimiento de identificación según la reivindicación 6, caracterizado por que los valores actuales de las funciones de pérdida se calculan según la relación:

A(y. ,k) = a x Q(y., k) + (1 - a) x A (y., k)

' ' confusión '

en la que A(y, k) son dichos valores actuales de las funciones de pérdida para los pares de nodos (y, k) del árbol, O(y, k) et Aconfusión (y, k) son respectivamente la primera y la segunda matriz, y a es un número escalar comprendido entre 0 y 1.
8. Procedimiento de identificación según la reivindicación 7, caracterizado por que el escalar a está comprendido entre 0,25 y 0,75, en particular entre 0,25 y 0,5.
9. Procedimiento de identificación según una de las reivindicaciones 4 a 8, caracterizado por que los valores iniciales de las funciones de pérdida se ajustan a cero para unos pares de nodos diferentes e iguales a 1 en caso contrario.
10. Procedimiento de identificación según una cualquiera de las reivindicaciones anteriores caracterizado por que una distancia O que separa dos nodos n-i, n2 en el árbol de la representación jerárquica se determina según la relación:

imagen1

en la que depth(n-) y depth(n2) son respectivamente la profundidad de los nodos n-, n2, y depth(LCA(n1, n2)) es la profundidad del ancestro común más próximo LCA(n1, n2) de los nodos n1, n2 en dicho árbol.
11. Procedimiento de identificación según una cualquiera de las reivindicaciones anteriores caracterizado por que el modelo de predicción es un modelo de predicción de los nodos del árbol al que pertenece el microorganismo desconocido a identificar.
12. Procedimiento de identificación según una cualquiera de las reivindicaciones anteriores caracterizado por que el problema de optimización se formula según las relaciones:

imagen2

bajo las restricciones:

>0, Vz e[l,A]

imagen3

expresiones en las que:

5

10

15

20

25

30

35

40

45

50

55

■ N es el número de espectros de aprendizaje;

■ K es el número de especies de referencia;

■ T es el número de nodos en el árbol de la representación jerárquica e Y = [1, T] es un conjunto de números enteros que referencia los nodos del árbol de la representación jerárquica;

WeW

pxT

es la concatenación (W1W2...WT)' de vectores de peso w-i, W2, etc.,

ív r i)?'"

■ t asociados respectivamente a los nodos de dicho árbol, siendo p la cardinalidad de los vectores

representativos de la estructura de los espectros de aprendizaje;

■ C es un escalar de ajuste predeterminado;

■ Vi e [1, N], es un escalar;

x &

■ X = {x,}, / e [1, N] es un conjunto de vectores representativos de los espectros de aprendizaje;

■ Vie[1, N], yi es la referencia del nodo en el árbol de la representación jerárquica que corresponde a la especie de referencia del vector de aprendizaje x;

■ V(x, k)=x®A(k), en la que:

o x e es un vector representativo de un espectro de aprendizaje;

o e ^ es un vector predeterminado que representa de manera biunívoca la posición del nodo de referencia k e Y en el árbol de la representación jerárquica; y

®:SRíx9T-»Wwr

es el producto tensorial entre el espacio ^ y el espacio ÍRí

■ (W, ip) es el producto escalar sobre el espacio ífí^;

■ A(y,, k) es la función de pérdida asociada al par de nodos de referencia respectivo yi y k en el árbol de la representación jerárquica;

■ f(A(y¡, k), £/) es una función predeterminada del escalar y de la función de pérdida A(y,, k); y

■ el símbolo «\» designa el símbolo de la exclusión.
13. Procedimiento de identificación según la reivindicación 12, caracterizado por que la función f(A(y,, k), §■) se define según la relación:

imagen4
14. Procedimiento de identificación según la reivindicación 12, caracterizado por que la función f(A(y,, k), §■) se define según la relación:

/(AO>. ,*),£.) = !

4,

A(y„k)
15. Procedimiento de identificación según la reivindicación 12, 13, o 14, caracterizado por que la etapa de predicción comprende:

■ la transformación del espectro del microorganismo desconocido a identificar en un vector xm según el formato predeterminado del algoritmo de tipo máquina de vector de soporte de clase múltiple;

■ la aplicación de un modelo de predicción según las relaciones:

T¡jc„t = arg max t (s(xm *k)) k e [1> T]

en la que Tident es la referencia del nodo de la representación jerárquica identificado para el microorganismo desconocido, s(xm, k) = (W,'V(xm, k)) y V(xm, k) = xm ® A(k).
16. Dispositivo de identificación de un microorganismo por espectrometría de masa, que comprende:

5

■ un espectrómetro apto para producir unos espectros de masa de microorganismos a identificar;

■ una unidad de cálculo apta para identificar los microorganismos asociados a los espectros producidos por el espectrómetro utilizando una etapa de predicción conforme a una cualquiera de las reivindicaciones anteriores.

10