ES2927022T3

ES2927022T3 - Métodos y dispositivos para la determinación en tiempo real de estados de enfermedad basados en ácidos nucleicos

Info

Publication number: ES2927022T3
Application number: ES18743760T
Authority: ES
Inventors: Philip Stevens
Original assignee: Noscendo GmbH
Current assignee: Noscendo GmbH
Priority date: 2017-07-19
Filing date: 2018-07-18
Publication date: 2022-11-02
Anticipated expiration: 2038-07-18
Also published as: SMT202200368T1; PL3655540T3; DK3655540T3; EP3431610A1; US20200176079A1; RU2020103728A; SG11202000365QA; CN110914451B; AU2018303179B2; JP2020527364A; IL272068B2; WO2019016258A1; CA3069349A1; SI3655540T1; PT3655540T; KR102521642B1; EP3655540A1; AU2018303179A1; KR20200029472A; EP3655540B1

Abstract

La presente invención está dirigida a métodos y dispositivos para el diagnóstico en tiempo real de estados patológicos en sujetos, por ejemplo, infecciones causadas por uno o más microorganismos o cáncer. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Métodos y dispositivos para la determinación en tiempo real de estados de enfermedad basados en ácidos nucleicos

La presente invención se refiere a métodos y dispositivos para la determinación de un estado de enfermedad en un sujeto, tal como una infección, así como a la identificación del agente causante del estado de enfermedad, cuyos métodos que se basan en la determinación a lo largo del tiempo de la cantidad de ácido nucleico en un sujeto que no mapea al sujeto en relación con los ácidos nucleicos que mapean al sujeto.

Antecedentes

Actualmente, los métodos para el diagnóstico de enfermedades infecciosas se pueden dividir en dos grandes áreas. Un área se relaciona con el diagnóstico de una infección en relación con el organismo huésped (posiblemente infectado). En esta área, el diagnóstico se presenta en forma de respuesta sí o no a la pregunta de si el huésped padece o no una infección; sí hay una infección presente, o una infección no está presente. La otra forma de diagnosticar enfermedades asociadas a infecciones es diagnosticar el microorganismo que causa la infección. También en este caso, los procedimientos de diagnóstico solo generan respuestas sí/no; si el paciente X padece el microorganismo Y o no, si él/ella no lo padece.

Los diagnósticos que se centran en identificar el microorganismo causante de la enfermedad se basan hoy en día en técnicas de cultivo de sangre o de PCR. Además del resultado puramente cualitativo (respuesta sí/no), esos enfoques de diagnóstico solo son capaces de detectar un conjunto definido de microorganismos. Para el hemocultivo esto se debe al hecho de que no todos los microorganismos pueden crecer dentro del frasco de hemocultivo (por ejemplo, virus u hongos). En el caso de diagnósticos basados en PCR, se deben definir conjuntos de pares de cebadores que limitan la especificidad para un conjunto demasiado grande de dianas, por ejemplo, por razones de complejidad. Estas pruebas de diagnóstico no permiten pruebas de alta especificidad y alta sensibilidad imparciales para todas las clases de posibles microorganismos, por ejemplo, bacterias, hongos, virus y parásitos. Además, aunque los enfoques basados en PCR son más rápidos que el hemocultivo, el hemocultivo sigue siendo la prueba diagnóstica de primera línea para enfermedades infecciosas.

Además, ambos enfoques no son capaces de discriminar entre microorganismos comensales, contaminación y el verdadero agente infeccioso que padece el paciente. En última instancia, esto conduce a muchos resultados falsos positivos.

Las pruebas de hemocultivo tradicionales tardan entre dos y siete días. Durante este tiempo, antes de que se conozca el microorganismo causante, los pacientes son tratados utilizando antibióticos de amplio espectro, según lo determine el médico tratante siguiendo las pautas de tratamiento más recientes. Debido a esto, los microorganismos pueden volverse multirresistentes debido al uso excesivo indiscriminado de antibióticos de amplio espectro, en vista de los procedimientos de diagnóstico inferiores. Por lo tanto, para brindar un tratamiento rápido y efectivo a los pacientes utilizando los agentes antiinfecciosos apropiados, es necesario que el agente infeccioso sea identificado lo más rápido posible, y es de suma importancia poder discriminar entre el agente infeccioso y microorganismos comensales/contaminación durante el procedimiento diagnóstico.

Existen ejemplos en la literatura de secuenciación de muestras obtenidas de pacientes para identificar los microorganismos contenidos en las mismas, tales como Hasman et al., 2014, Journal of Clinical Microbiology 52:139-146, que describe la secuenciación del genoma completo en muestras de orina para identificar los microorganismos contenidos en las mismas, cuyos resultados de secuencia se compararon con los resultados obtenidos con el cultivo y la identificación convencionales. Otros Grumaz et al., 2016, Genome Medicine 8:73, que divulga la secuenciación de próxima generación de muestras obtenidas de pacientes sépticos; Andersson et al., 2013, Clin Microbiol Infect 19:E405-E408, que describe la secuenciación ultraprofunda de ADN derivado de una muestra de diagnóstico de hisopo vaginal; y Turnbaugh et al., 2009, Nature 457: 480-484, que describe la secuenciación de escopeta del ADN fecal total para identificar genes comúnmente enriquecidos en el microbioma intestinal obeso o delgado. Estos métodos simplemente secuencian y comparan ácidos nucleicos no hospedantes con bases de datos para identificar cualquier microorganismo en la muestra.

Sin embargo, sigue subsistiendo la necesidad en la técnica de un procesamiento más eficiente de los datos de secuencia de tal manera que se proporcionen resultados más precisos y/o permita una identificación más rápida del microorganismo causante de la enfermedad de tal manera que pueda iniciarse antes un tratamiento eficaz.

Resumen

La presente invención se basa, al menos en parte, en el descubrimiento de los inventores de que la probabilidad de que un sujeto tenga un estado de enfermedad se puede determinar en vista de la cantidad de ácido nucleico presente en una muestra biológica obtenida de un sujeto, pero que normalmente no está presente en un sujeto sano. Por ejemplo, al determinar la cantidad de un ácido nucleico que se mapea a microorganismo(s) en una muestra biológica obtenida de un sujeto, se puede determinar la probabilidad de que el sujeto sufra un estado de enfermedad, tal como una infección, causada por el(los) microorganismo(s). También, este descubrimiento permite la determinación de la probabilidad de que el sujeto tenga cáncer y es particularmente útil para monitorizar el tratamiento del cáncer. Esta probabilidad se determina, en una realización, al calcular una puntuación de significación para la probabilidad de encontrar en el sujeto una secuencia de ácidos nucleicos que mapea un microorganismo particular en base al número total de lecturas de secuencias mapeadas (asignadas) al microorganismo particular y el total número de todas las lecturas de secuencias que se pueden mapear (asignar) a una especie, que incluye el número de lecturas mapeadas a la misma especie como el sujeto y el número de lecturas mapeadas a cualquier microorganismo en la muestra. Esta puntuación de significación, basada esencialmente en la relación entre el número de lecturas de secuencias mapeadas al microorganismo particular y el número total de lecturas de secuencias mapeadas a una especie presente en una muestra biológica obtenida de un sujeto, se puede calcular a lo largo del tiempo, es decir, calculado en tiempo real, a medida que aumenta el número total de lecturas mapeadas (a medida que se obtienen y mapean más y más lecturas de secuencias a una especie).

La presente invención está definida por las reivindicaciones adjuntas. La presente divulgación proporciona enseñanzas que en algunos aspectos van más allá de la divulgación de la invención como tal, que se define exclusivamente por las reivindicaciones adjuntas. Las enseñanzas se proporcionan para situar la invención real en un contexto técnico más amplio y para ilustrar posibles desarrollos técnicos relacionados. Dicha información técnica adicional que no cae dentro del alcance de las reivindicaciones adjuntas no es parte de la invención. En particular, los términos “realización”, “invención” y “aspecto” no se deben interpretar como una referencia necesaria a la invención reivindicada, a menos que la materia objeto esté dentro del alcance de las reivindicaciones.

En una realización, la presente divulgación está dirigida a un método para determinar la presencia de microorganismos en un sujeto que, en una realización, comprende determinar el número de lecturas de secuencias que mapean al genoma de un microorganismo particular y el número de lecturas de secuencias que mapean al genoma de una especie, que incluye la misma especie como el sujeto. Las lecturas de secuencias, obtenidas a partir de la secuenciación de ácidos nucleicos presentes en una muestra biológica obtenida del sujeto, se pueden comparar con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos. De ello se deduce que se puede determinar el número de lecturas de secuencias que mapean una especie, que incluye la especie huésped y cualquier microorganismo, y el número de lecturas de secuencias que mapean un microorganismo particular. En una realización, el método comprende además calcular una puntuación de significación para un microorganismo particular, cuya puntuación de significación se basa en el número de lecturas de secuencias que mapean a ese microorganismo particular y el número total de lecturas que mapean a una especie. Dado que la etapa de determinación se puede llevar a cabo a lo largo del tiempo, este cálculo de la puntuación de significación también se puede realizar a lo largo del tiempo a medida que se obtienen y mapean las lecturas de secuencia. También, este cálculo se puede realizar a lo largo del tiempo a medida que las lecturas de secuencias se comparan con la información genética en una o más bases de datos en realizaciones en donde las lecturas de secuencias ya se han obtenido, pero aún no se han comparado ni mapeado a una especie.

La presente divulgación está dirigida a un método para determinar la presencia de microorganismos en un sujeto que comprende las etapas de (a) secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto para obtener una pluralidad de lecturas de secuencias de ácidos nucleicos; (b) comparar las lecturas de secuencias obtenidas en la etapa (a) con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia comparada mapea a una especie; y (c) determinar a lo largo del tiempo el número de lecturas de secuencias comparadas que mapean a un microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie.

La presente divulgación también está dirigida a un método para determinar la presencia de microorganismos en un sujeto que comprende (a) comparar lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia comparada mapea a una especie, en el que las lecturas de secuencias se obtienen al secuenciar ácidos nucleicos presentes en una muestra biológica obtenida del sujeto; y (b) determinar a lo largo del tiempo el número de lecturas de secuencias comparadas que mapean a un microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie.

La presente divulgación también está dirigida a un método para determinar la presencia de microorganismos en un sujeto que comprende una etapa de determinar a lo largo del tiempo el número de lecturas de secuencias comparadas que mapean a un microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie, en la que las lecturas de secuencias comparadas se obtienen al comparar las lecturas de secuencias generadas con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencias comparada mapea a una especie, y en el que las lecturas de secuencias se generan al secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto.

En una realización de la divulgación, el método comprende además calcular una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia comparada que mapea el microorganismo particular en base al número de lecturas de secuencias comparadas que mapean el microorganismo particular y el número de lecturas de secuencias comparadas que mapean el microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie.

La presente divulgación también está dirigida a un método para determinar la presencia de microorganismos en un sujeto que comprende una etapa de calcular a lo largo del tiempo una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia que mapea a un microorganismo particular en base al número de lecturas de secuencias que mapean al microorganismo particular y el número de lecturas de secuencias que mapean a una especie, en el que las lecturas de secuencias que mapean a un microorganismo particular y las lecturas de secuencias que mapean a una especie se obtienen al comparar las lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia comparada mapea a una especie comprendida dentro de una o más bases de datos, y en el que las lecturas de secuencias se generan al secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto.

La presente divulgación también está dirigida a un método para determinar la presencia de microorganismos en un sujeto que comprende (a) la etapa de determinar a lo largo del tiempo el número de lecturas de secuencias que mapean a un microorganismo particular y el número de lecturas de secuencias que mapean a una especie, en el que las lecturas de secuencias se obtienen al comparar las lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia mapea a una especie comprendida dentro de una más bases de datos, y en el que las lecturas de secuencias se generan al secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto; y (b) calcular una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia que mapea al microorganismo particular en base al número de lecturas de secuencias que mapean al microorganismo particular y el número de lecturas de secuencias que mapean a una especie.

En múltiples realizaciones de la presente divulgación, se puede realizar el método en el que la secuenciación de los ácidos nucleicos es seguida inmediatamente por, es decir, esencialmente al mismo tiempo con, la comparación de las lecturas de secuencias para mapear las lecturas para una especie y calcular una puntuación de significación, o la secuenciación puede tener lugar en cualquier momento antes de las etapas de comparación/determinación/cálculo, de tal manera que los resultados de la secuenciación se almacenan, y los resultados de secuenciación almacenados se pueden utilizar para comparar las lecturas secuenciadas con una o más bases de datos, y, por ejemplo, permitir el cálculo de la puntuación de significación.

En una realización, la etapa de determinar a lo largo del tiempo el número de lecturas de secuencias comparadas que mapean a un microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie significa que se cuenta el número de lecturas comparadas que se pueden mapear a un microorganismo particular y el número de lecturas comparadas que se pueden mapear a una especie, es decir, se cuentan no sólo las lecturas que mapean al microorganismo particular, sino también las lecturas que mapean al sujeto, así como el mapeo de cualquier otro microorganismo presente en la muestra. Aquellas lecturas de secuencias que no se pueden mapear a una especie, posiblemente debido a la degradación, longitud demasiado corta o son de un microorganismo que no está presente en una o más bases de datos, no se utilizan en la presente divulgación. Preferiblemente, no todas las lecturas de secuencias se utilizan en la presente divulgación, solo aquellas que se pueden mapear en una especie.

En una realización, cuando la puntuación de significación para el microorganismo particular alcanza o supera un valor umbral, se determina que el microorganismo particular está presente en el sujeto o cuando la puntuación de significación para el microorganismo particular alcanza o supera un valor umbral, se determina que el microorganismo particular es relevante para causar una enfermedad en el sujeto. En otras realizaciones, cuanto más la puntuación de significación supere el valor umbral, mayor será la carga del microorganismo en el sujeto, lo que puede reflejar un estado de infección más grave. En una realización, el valor umbral se establece para minimizar el número de falsos positivos y falsos negativos con respecto a la relevancia del microorganismo particular para causar una enfermedad en el sujeto.

En otra realización, cuando la puntuación de significación para el microorganismo particular excede un valor de umbral con pocas lecturas de secuencias que mapean a una especie, la enfermedad debida a la presencia del microorganismo se puede considerar grave. En el contexto de esta realización, “pocos” se refiere al hecho de que no todos, es decir, una porción de las lecturas secuenciadas generadas al secuenciar los ácidos nucleicos de la muestra se ha comparado y mapeado, pero donde ya se ha alcanzado o superado el valor umbral. La porción de lecturas comparadas y mapeadas puede ser 1 %, 2 %, 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 % o 95 % de todas las lecturas comparadas y mapeadas. Preferiblemente, “pocos” se refiere a menos del 50 %, 45 %, 40 %, 35 %, 30 %, 25 %, 20 %, 15 %, 10 %, 5 %, 2 %, 1 % de todas las lecturas comparadas y mapeadas. “Pocos” también puede ser un número fijo de lecturas, como menos de 100, 1000, 10.000 o 100.000 lecturas.

En una realización, el método de la presente divulgación se puede realizar a lo largo del tiempo hasta un punto en el que la información proporcionada, como el número de lecturas que mapean al sujeto/microorganismo particular u otro parámetro, que incluye el que se describe a continuación, permite la determinación con un nivel de certeza de que un sujeto tiene o no un estado de enfermedad o está o no infectado con uno o más microorganismos, así como la identidad de uno o más microorganismos o del tipo de cáncer. Una vez que se ha alcanzado este punto, el método se puede detener ya que no necesariamente se necesita proporcionar información adicional para determinar la presencia de microorganismos o un estado de enfermedad en el sujeto.

El número de lecturas que mapean a un microorganismo en particular y el número de lecturas que mapean a una especie a lo largo del tiempo se pueden utilizar para generar un parámetro a lo largo del tiempo que es útil no solo para determinar, por ejemplo, si un microorganismo en particular es relevante para un estado de enfermedad en un sujeto, sino que también permite la comparación de estados de enfermedad (de la misma causa) entre dos o más pacientes. En otras palabras, donde hay el mismo número de lecturas mapeadas a una especie entre dos pacientes, pero hay un número diferente (más o menos) de lecturas mapeadas a un microorganismo en particular, esta diferencia puede indicar una diferencia en la carga/cantidad del microorganismo particular entre los dos pacientes. Por ejemplo, si un sujeto tiene 1 lectura de un microorganismo particular en 106 lecturas mapeadas a una especie y un segundo sujeto tiene 1 lectura para el mismo microorganismo particular en 5 x 105 lecturas mapeadas a una especie, se puede concluir que el microorganismo no solo está presente en el segundo sujeto, sino que el segundo sujeto tiene una mayor carga/nivel de infección.

Más aún, este parámetro se puede generar en tiempo real en cualquier momento (a lo largo del tiempo) durante el método, no solo en el criterio de valoración donde se compararon todas las lecturas de secuencias y donde se mapearon todas las lecturas comparadas. Por lo tanto, si se ve que un sujeto tiene 5 veces el número de lecturas mapeadas a un microorganismo en particular en relación con el mismo número de lecturas mapeadas a una especie como se vería en una muestra de control en un punto de tiempo en el que solo se ha comparado y mapeado una fracción de las lecturas totales, el método se puede detener en ese momento anterior antes de comparar y mapear todas las lecturas secuenciadas, ya que es evidente que sea probable que el paciente con 5 veces más lecturas tenga un estado de enfermedad (infección) debido al microorganismo particular.

La capacidad para generar este parámetro a lo largo del tiempo durante las etapas de secuenciación, comparación y mapeo, de tal manera que el método se pueda detener antes del final del análisis, es decir, en el que se han secuenciado todos los ácidos nucleicos en la muestra y se han comparado y mapeado todas las lecturas, permite ventajosamente ahorrar tiempo y recursos en comparación con metodologías que no se pueden detener. Por ejemplo, normalmente las etapas de secuenciación, comparación y mapeo de todos los ácidos nucleicos en una muestra pueden tomar hasta 30 horas o más. Sin embargo, la presente divulgación permite reducir significativamente este tiempo, por ejemplo, en algunos casos en 10 horas o más, de tal manera que se pueden ahorrar 10 horas de secuenciación y/o tiempo de cálculo. Más aún, dado que el sujeto puede ser diagnosticado más rápidamente, el tratamiento apropiado puede iniciarse más rápidamente dando como resultado una mayor probabilidad de supervivencia para el sujeto. Esto también permite no desperdiciar productos farmacéuticos que no estén adecuadamente dirigidos al tratamiento de la infección o el estado de la enfermedad, por ejemplo, suministrar un antibiótico para una infección viral o suministrar un antibiótico para el cual el microorganismo es resistente.

La presente divulgación también se refiere a un método para determinar la presencia de un estado de enfermedad en un sujeto que comprende (a) secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto para obtener una pluralidad de lecturas de secuencias de ácidos nucleicos; (b) comparar las lecturas de secuencias obtenidas en la etapa (a) con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie para determinar si o no una lectura de secuencia comparada mapea al sujeto de control; y (c) determinar a lo largo del tiempo el número de lecturas de secuencias que mapean y no mapean al sujeto de control. La presente divulgación también está dirigida a un método para determinar la presencia de un estado de enfermedad en un sujeto que comprende (a) comparar lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie para determinar si o no una lectura de secuencia comparada mapea al sujeto de control, en el que las lecturas de secuencias se obtienen al secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto; y (b) determinar a lo largo del tiempo el número de lecturas de secuencias comparadas que mapean y no mapean al sujeto de control. La presente divulgación también está dirigida a un método para determinar la presencia de un estado de enfermedad en un sujeto que comprende una etapa para determinar a lo largo del tiempo el número de lecturas de secuencias comparadas que mapean y no mapean a un sujeto de control, en el que las lecturas de secuencias comparadas se obtienen al comparar las lecturas de secuencias generadas con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie para determinar si o no una lectura de secuencia comparada mapea al sujeto de control, y en el que las lecturas de secuencias se generan al secuenciar los ácidos nucleicos presentes en un muestra biológica obtenida del sujeto.

En una realización, el método comprende además calcular una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia comparada que no mapea al sujeto de control en base al número de lecturas de secuencias comparadas que no mapean al sujeto de control y el número de lecturas de secuencias comparadas capaces de ser mapeadas, por ejemplo, que mapean al sujeto de control.

La presente divulgación también está dirigida a un método para determinar la presencia de un estado de enfermedad en un sujeto que comprende una etapa para calcular a lo largo del tiempo una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia que no mapea al sujeto de control en base al número de lecturas de secuencias que no mapean al sujeto de control y el número de lecturas de secuencias que mapean al sujeto de control, en el que las lecturas de secuencias que mapean al sujeto de control y las lecturas de secuencias que no mapean al sujeto de control se obtienen al comparar las lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie para determinar si o no una lectura de secuencia comparada mapea al sujeto de control, y en el que las lecturas de secuencias se generan al secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto.

En una realización, cuando la puntuación de significación alcanza o supera un valor umbral, se determina que el estado de enfermedad está presente en el sujeto. Como se utiliza en el presente documento, el término “lectura de secuencia comparada que no mapea al sujeto de control” no siempre significa que la secuencia no sea muy similar o que no sea prácticamente la misma que la secuencia del sujeto de control, a menudo puede serlo. Por ejemplo, en una realización en donde el estado de la enfermedad es causado por una mutación puntual en la secuencia de ácidos nucleicos del sujeto, se considera que una lectura de secuencia que tiene dicha mutación puntual no mapea al sujeto de control, incluso si todos los otros nucleótidos de la lectura son idénticos a los del sujeto de control. Más aún, en una realización, cuando se comparan las lecturas de secuencia, se puede hacer referencia a polimorfismos genómicos conocidos, por ejemplo, polimorfismos de un solo nucleótido, de tal manera que estas diferencias no se consideran mutaciones en las lecturas secuenciadas del sujeto.

En una realización de la divulgación, el estado de enfermedad es cáncer, preferiblemente cáncer causado por una anomalía genética, por ejemplo, una mutación puntual, una supresión, una inserción o una indel. En otra realización, el estado de enfermedad es una infección causada por un microorganismo, preferiblemente en el que el microorganismo es un virus, una bacteria, un hongo o un parásito.

En una realización en donde el estado de la enfermedad es cáncer, los métodos de la divulgación también se pueden utilizar para controlar el tratamiento del cáncer, así como para monitorizar la reaparición del cáncer después de una ronda de tratamiento. Por ejemplo, un sujeto al que se le ha diagnosticado cáncer se somete a un tratamiento, tal como la extirpación quirúrgica del tumor. Se puede elaborar una base de datos de la información genética del tumor y se pueden secuenciar los ácidos nucleicos obtenidos del sujeto y se pueden comparar las lecturas con una o más bases de datos que contengan la información genética de un sujeto de control de la misma especie y la información genética del tumor. Las lecturas comparadas luego se mapean al sujeto de control o a la base de datos de tumores, de tal manera que se calcula una puntuación de significación de acuerdo con la divulgación en base al número de lecturas mapeadas al genoma del cáncer y el número de lecturas mapeadas al genoma del cáncer y el genoma de control, lo que permite determinar la presencia del cáncer, es decir, la reaparición del cáncer. De manera similar, se pueden obtener muestras durante el tratamiento y calcular la puntuación para determinar si el tratamiento está surtiendo efecto.

En una realización donde el estado de la enfermedad es una infección por un microorganismo, el método de la divulgación también se puede utilizar para monitorizar el tratamiento de la infección y/o monitorizar la reaparición de la infección. En dichas realizaciones, las muestras biológicas se obtienen del sujeto durante y/o después del tratamiento y se sigue el método descrito anteriormente de tal manera que se calcula una puntuación de significación en base al número de lecturas que mapean a un microorganismo y el número de lecturas que mapean a una especie.

En ciertas realizaciones, la muestra biológica se puede seleccionar del grupo que consiste en sangre entera, suero, plasma sanguíneo, líquido amniótico, líquido sinovial, licor, frotis de tejido o células, hisopo de tejido o células, orina, tejido, esputo, heces, secreciones gastrointestinales, líquido linfático y lavado.

En determinadas realizaciones, el sujeto es un vertebrado, preferiblemente un mamífero, por ejemplo, un humano, perro, gato, cerdo, caballo, vaca, oveja, cabra, ratón o rata, preferiblemente el sujeto es un humano.

En una realización, la secuenciación se lleva a cabo utilizando métodos de secuenciación ultra profundos o de alto rendimiento. En realizaciones preferidas de la divulgación, la secuenciación se realiza mediante análisis de secuencia molecular de alto rendimiento, es decir, mediante secuenciación de próxima o tercera generación, tal como mediante la metodología Illumina/Solexa u Oxford Nanopore.

En una realización de la presente divulgación, cuando se determina que el microorganismo particular o el estado de la enfermedad está presente en el sujeto, el método comprende además administrar al sujeto un compuesto farmacéuticamente activo conocido para tratar la enfermedad causada por el microorganismo particular o el estado de enfermedad. Más aún, una vez se ha identificado el microorganismo causante de la enfermedad infecciosa, se puede determinar si es resistente o no a algún tipo de antibiótico/antiinfeccioso, de tal manera que el tratamiento sea efectivo. En una realización, los ácidos nucleicos del sujeto en la muestra se pueden agotar antes de determinar si el microorganismo es resistente o no a cualquier tipo de antibiótico/antiinfeccioso.

En una realización particular, el método para diagnosticar una enfermedad infecciosa causada por microorganismo(s) en un sujeto comprende calcular a lo largo del tiempo una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia que mapea a un microorganismo particular en base al número de lecturas de secuencias que mapean al microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie, en el que cuando la puntuación para el microorganismo particular alcanza o excede un valor umbral, se determina que el microorganismo particular está causando la enfermedad infecciosa, y en el que las lecturas de secuencias que mapean al microorganismo en particular y las lecturas de secuencias que mapean a una especie se obtienen al comparar las lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia comparada mapea a una especie comprendida dentro de la una o más bases de datos, y en el que las lecturas de secuencias se generan al secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto.

En una realización particular, el método para diagnosticar una enfermedad infecciosa causada por microorganismo(s) en un sujeto comprende (a) secuenciar ácidos nucleicos presentes en una muestra biológica obtenida del sujeto para obtener una pluralidad de lecturas de secuencias de ácidos nucleicos; (b) comparar las lecturas de secuencias obtenidas en la etapa (a) con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia comparada mapea a una especie comprendida dentro de una o más bases de datos; (c) determinar a lo largo del tiempo el número de lecturas de secuencias comparadas que mapean a un microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie; y (d) calcular una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia comparada que mapea al microorganismo particular en base al número de lecturas de secuencias comparadas que mapean al microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie, en la que cuando la puntuación para el microorganismo particular alcanza o supera un valor umbral, se determina que el microorganismo particular está causando la enfermedad infecciosa.

La presente divulgación está dirigida a un método para tratar una enfermedad o infección causada por un microorganismo en un sujeto que comprende (a) determinar la puntuación de significación para un microorganismo particular en un sujeto de acuerdo con cualquiera de los métodos anteriores para determinar la presencia de microorganismos en un sujeto, y (b) cuando la significación para el microorganismo en particular alcanza o supera un valor umbral, administrar al sujeto un compuesto que inhibe el crecimiento del microorganismo en particular. La presente divulgación también está dirigida a un método para tratar una enfermedad o infección causada por un microorganismo en un sujeto que comprende administrar al sujeto un compuesto que inhibe el crecimiento de un microorganismo cuya puntuación de significación alcanza o supera un valor umbral, en donde la puntuación de significación se calcula de acuerdo con cualquiera de los métodos anteriores para determinar la presencia de microorganismos en un sujeto descrito en el presente documento.

La presente divulgación también abarca un medio de almacenamiento legible por ordenador que almacena el código de programa que comprende instrucciones que, cuando son ejecutadas por un procesador, llevan a cabo los métodos de la divulgación, así como un sistema informático que comprende un procesador, por ejemplo, una matriz de puertas programables en campo, configurada para llevar a cabo los métodos de la divulgación.

Descripción detallada

Aunque la presente divulgación se describe en detalle a continuación, se debe entender que esta divulgación no se limita a las metodologías, protocolos y reactivos particulares descritos en el presente documento, ya que estos pueden variar. También se debe entender que la terminología utilizada en el presente documento solo tiene el propósito de describir realizaciones particulares, y no pretende limitar el alcance de la presente descripción que estará limitada únicamente por las reivindicaciones adjuntas. A menos que se defina de otro modo, todos los términos técnicos y científicos utilizados en el presente documento tienen los mismos significados que entiende comúnmente un experto con conocimientos básicos en la técnica.

A continuación, se describirán los elementos de la presente divulgación. Estos elementos se enumeran con realizaciones específicas, sin embargo, se debe entender que se pueden combinar de cualquier manera y en cualquier número para crear realizaciones adicionales. Los ejemplos descritos de diversas formas y las realizaciones preferidas no se deben interpretar como una limitación de la presente divulgación únicamente a las realizaciones descritas explícitamente. Se debe entender que esta descripción respalda y abarca realizaciones que combinan las realizaciones descritas explícitamente con cualquier número de los elementos divulgados y/o preferidos. Adicionalmente, cualesquier permutaciones y combinaciones de todos los elementos descritos en esta solicitud se deben considerar divulgados por la descripción de la presente solicitud a menos que el contexto indique lo contrario.

Preferiblemente, los términos utilizados en el presente documento se definen como se describe en “A multilingual glossary of biotechnological terms:(IUPAC Recommendations)”, H.G.W. Leuenberger, B. Nagel, and H. Kolbl, Eds., (1995) Helvetica Chimica Acta, CH-4010 Basel, Suiza.

La práctica de la presente divulgación empleará, a menos que se indique lo contrario, métodos convencionales de bioquímica, biología celular, inmunología y técnicas de ADN recombinante que se explican en la literatura en el campo (véase, por ejemplo, Molecular Cloning: A Laboratory Manual, 2nd Edition, J. Sambrook et al. eds., Cold Spring Harbor Laboratory Press, Cold Spring Harbor 1989).

A lo largo de esta especificación y las reivindicaciones que siguen, a menos que el contexto requiera lo contrario, la palabra “comprender” y variaciones tal como “comprende” y “que comprende”, se entenderá que implica la inclusión de un miembro, entero o etapa indicado o grupo de miembros, enteros o etapas, pero no la exclusión de ningún otro miembro, entero o etapa o grupo de miembros, enteros o etapas, aunque en algunas realizaciones se puede excluir dicho otro miembro, entero o etapa o grupo de miembros, enteros o etapas, es decir, la materia objeto consiste en la inclusión de un miembro, entero o etapa indicado o grupo de miembros, enteros o etapas. Los términos “un” y “una” y “el” y referencias similares utilizadas en el contexto de describir la divulgación (especialmente en el contexto de las reivindicaciones) se deben interpretar para cubrir tanto el singular como el plural, a menos que se indique lo contrario en el presente documento o se contradiga claramente por el contexto. La mención de rangos de valores en el presente documento tiene la intención de servir simplemente como un método abreviado para referirse individualmente a cada valor separado que cae dentro del rango. A menos que se indique lo contrario en el presente documento, cada valor individual se incorpora a la especificación como si se mencionara individualmente en el presente documento.

Todos los métodos descritos en el presente documento se pueden realizar en cualquier orden adecuado a menos que se indique lo contrario en el presente documento o que el contexto lo contradiga claramente. El uso de cualquier y todos los ejemplos, o lenguaje ejemplar (por ejemplo, “tales como”), siempre que el presente documento tenga la intención solo de ilustrar mejor la divulgación y no imponga una limitación en el alcance de la divulgación reivindicada de otro modo. Ningún lenguaje en la especificación se debe interpretar como una indicación de cualquier elemento esencial no reivindicado para la práctica de la divulgación.

Como se describió anteriormente, la presente divulgación se basa en el número de lecturas de secuencia que mapean, por ejemplo, a un microorganismo en particular o al genoma de un cáncer, en relación con el número total de lecturas que se pueden mapear, por ejemplo, a una especie/genoma normal. Por lo tanto, la presente divulgación proporciona una base para diagnosticar y distinguir entre comensales/contaminación y el agente causante de infección más probable. Ventajosamente, la presente divulgación proporciona al menos lo siguiente:

a) un método imparcial que no hace ninguna suposición sobre la muestra biológica obtenida,

b) un método que sea capaz de discriminar entre comensales/contaminación y un agente infeccioso,

c) un método que proporciona resultados en tiempo real para todos los microorganismos identificados en una muestra en un momento dado,

d) un método que genera datos en tiempo real durante la secuenciación,

e) un método que proporciona información en tiempo real mientras se manejan los datos,

f) un método que se puede detener después de analizar solo una pequeña porción de todo el conjunto de datos una vez que se determina que un microorganismo es significativo/relevante para el estado de la enfermedad,

g) un método que genera un parámetro que permite comparar dos o más muestras biológicas del mismo estado de enfermedad, y

h) un método que permite a médicos e investigadores comparar el grado de gravedad de una infección debida a un microorganismo entre pacientes infectados por el mismo microorganismo.

Otra ventaja de la presente divulgación es la capacidad de detectar infecciones causadas por múltiples microorganismos y la capacidad de determinar qué microorganismo es el principal agente causante y cuáles son los agentes acompañantes, aunque todos puedan contribuir significativamente al estado de infección/enfermedad.

Los términos “sujeto”, “individuo”, “organismo” o “paciente” se utilizan indistintamente y se refieren a vertebrados, preferiblemente mamíferos. Por ejemplo, los mamíferos en el contexto de la presente divulgación son humanos, primates no humanos, animales domésticos tales como perros, gatos, ovejas, vacas, cabras, cerdos, caballos etc., animales de laboratorio tales como ratones, ratas, conejos, peces, conejillos de india, etc. así como animales en cautiverio tales como animales de zoológicos. El término “animal” también incluye a los humanos. Preferiblemente, los términos “sujeto”, “individuo”, “organismo” o “paciente” se refieren a mamíferos machos y hembras, en particular humanos machos y hembras. El sujeto puede ser de cualquier edad, incluidos los recién nacidos (por ejemplo, desde el nacimiento hasta alrededor de los 6 meses), lactantes (por ejemplo, desde alrededor de 6 meses hasta alrededor de 2 años), niños (por ejemplo, desde alrededor de 2 años hasta alrededor de 10 años), adolescentes (por ejemplo, desde alrededor de 10 años hasta alrededor de 21 años), y adultos (por ejemplo, alrededor de 21 años y mayores).

En ciertas realizaciones, el sujeto puede estar inmunocomprometido, por ejemplo, debido a que toma fármacos inmunosupresores o se somete a un trasplante que requiere la supresión o destrucción del sistema/función inmunitario nativo. Otros sujetos pueden ser aquellos con infecciones crónicas o sistemáticas. En realizaciones específicas, el sujeto puede ser sospechoso de o padecer sepsis, endocarditis, infección de una articulación, que incluyen las articulaciones artificiales, o infección de tejidos blandos. En una realización, el sujeto es un recién nacido del que se sospecha que tiene o tiene sepsis. En otra realización, la sospecha de infección está en el útero, por ejemplo, una infección intraamniótica (corioamnionitis), durante el embarazo.

En el contexto de la presente divulgación, un “control” o “grupo de control” se refiere a una muestra biológica de un sujeto o muestras de un grupo de sujetos, respectivamente, que están sanos o se consideran sanos, es decir, no padecer una enfermedad o al menos no padecer la misma enfermedad que el sujeto sometido a prueba. Preferiblemente, el control o grupo de control comprende muestras de individuos sanos que coinciden con el sujeto en una variedad de formas, por ejemplo, edad similar, mismo sexo o género, la misma clase social o el mismo grupo étnico, o que viven sustancialmente en la misma área de un país, estado o ciudad.

En el contexto de la presente divulgación, el término “sano” se refiere a sujetos que no muestran ningún signo de una enfermedad particular y, preferiblemente, que no están desarrollando la enfermedad en ese momento. Por ejemplo, un sujeto sano no muestra signos de infección o enfermedad, pero no obstante es huésped de una variedad de especies de microorganismos comensales. Preferiblemente, el sujeto no es alguien que está infectado, sino que se encuentra en un estadio de la infección en la que la infección no es evidente.

Como se utiliza en el presente documento, “muestra biológica” incluye cualquier muestra biológica obtenida de un sujeto, por ejemplo, del cuerpo del sujeto. Los ejemplos de dichas muestras biológicas incluyen sangre entera, fracciones de sangre como plasma, suero, frotis o hisopos de un tejido, esputo, aspirado bronquial, orina, semen, heces, bilis, secreciones gastrointestinales, secreciones del sistema reproductivo, líquido amniótico, líquido sinovial, líquido linfático, licor, médula ósea, aspirados de órganos y biopsias de tejido, que incluyen las biopsias con por punción. Opcionalmente, la muestra biológica se puede obtener de una membrana mucosa del paciente. El término “muestra biológica” también puede incluir muestras biológicas procesadas tales como fracciones o aislados, por ejemplo, ácidos nucleicos o células aisladas. Preferiblemente, la muestra biológica contiene ácidos nucleicos, por ejemplo, ADN genómico o ARNm, de tal manera que se puede determinar la secuencia de los ácidos nucleicos. En una realización, la muestra biológica puede ser una que se obtenga de un tejido que muestre signos de un estado de enfermedad, por ejemplo, que muestre signos de infección. En una realización preferida, la muestra biológica es sangre o plasma sanguíneo obtenido del sujeto. La muestra se analiza de acuerdo con los métodos de divulgación y, durante el método o posteriormente, normalmente no se devuelve al cuerpo. En la mayoría de las realizaciones, la presencia del cuerpo del sujeto no es necesaria para llevar a cabo los métodos de la divulgación.

En una realización, la muestra biológica es plasma sanguíneo, preferiblemente obtenido directamente del sujeto. El plasma sanguíneo es preferiblemente libre de células, preferiblemente mayoritariamente/en su mayor parte libre de células, por ejemplo, menos de 10.000, 1.000, 100 o 10 células por ml. La muestra biológica, por ejemplo, plasma sanguíneo, puede contener ácidos nucleicos circulantes libres, que comprenden ácidos nucleicos del sujeto y ácidos nucleicos que no son del sujeto, por ejemplo, aquellas de un microorganismo. En una realización, la muestra biológica se puede diluir o concentrar. En otra realización, la muestra se procesa antes de la secuenciación, preferiblemente la muestra se purifica para eliminar los componentes celulares, tales como lípidos y proteínas, antes de la secuenciación. En una realización, la muestra biológica se procesa antes de la secuenciación de tal manera que solo se secuencian los ácidos nucleicos libres de células.

Los tejidos del paciente de los que se puede obtener la muestra biológica incluyen, pero no se limitan a, garganta, boca, nasal, estómago, intestino, piel, articulaciones, hígado, páncreas, pulmón, neuronal cervical, vaginal, uterino, uretral, rectal, pene y músculo. Se puede utilizar cualquier método adecuado para obtener la muestra biológica del paciente y/o de un tejido apropiado en relación con la presente divulgación.

El término “ in vivo” se refiere a la situación en un sujeto.

El término “genoma” se relaciona con la cantidad total de información genética en los cromosomas de un organismo o una célula.

El término “exoma” se refiere a parte del genoma de un organismo formado por exones, que codifican porciones de genes expresados. El exoma proporciona el modelo genético utilizado en la síntesis de proteínas y otros productos genéticos funcionales. Es la parte funcionalmente más relevante del genoma y, por lo tanto, es más probable que contribuya al fenotipo de un organismo. Se estima que el exoma del genoma humano comprende el 1.5 % del genoma total (Ng et al., 2008, PLoS Gen 4(8):1-15).

El término “transcriptoma” se refiere al conjunto de todas las moléculas de ARN, que incluyen ARNm, ARNr, ARNt y otro ARN no codificante producido en una célula o una población de células. En el contexto de la presente divulgación, el transcriptoma significa el conjunto de todas las moléculas de ARN producidas en una célula, una población de células o todas las células de un individuo determinado en cierto punto de tiempo.

El término “material genético” incluye ácido nucleico aislado, ya sea ADN o ARN, una sección de una doble hélice, una sección de un cromosoma o el genoma completo de un organismo o célula, en particular su exoma o transcriptoma.

De acuerdo con la divulgación, “ácido nucleico” es preferiblemente ácido desoxirribonucleico (ADN) o ácido ribonucleico (ARN). Los ácidos nucleicos incluyen ADN genómico, ADNc, ARNm, moléculas producidas de forma recombinante y sintetizadas químicamente. Un ácido nucleico puede estar presente como una molécula cerrada de forma circular covalente o de cadena sencilla o doble, así como mezclas de los mismos. Se puede aislar un ácido nucleico. Preferiblemente, el ácido nucleico es una molécula de ADN y/o ARN de circulación libre. En una realización, también se entiende que el término “ácido nucleico” significa “secuencia de ácidos nucleicos”. Además, antes de la secuenciación, los ácidos nucleicos se pueden procesar, por ejemplo, enriquecer o amplificar. En los casos en donde el ácido nucleico obtenido de la muestra es ARN, el ARN se puede transcribir de forma inversa en ADN para la secuenciación o se puede secuenciar el propio ARN.

El término “mutación” se refiere a un cambio o diferencia en la secuencia de ácidos nucleicos (sustitución, adición o supresión de nucleótidos) en comparación con una referencia. Una “mutación somática” puede ocurrir en cualquiera de las células del cuerpo, excepto en las células germinales (esperma y óvulo) y, por lo tanto, no se transmite a los niños.

Estas alteraciones pueden (pero no siempre) causar cáncer u otras enfermedades. Preferiblemente, una mutación es una mutación no sinónima. El término “mutación no sinónima” se refiere a una mutación, preferiblemente una sustitución de nucleótidos, que da como resultado un cambio de aminoácido tal como una sustitución de aminoácido en el producto de traducción.

De acuerdo con la divulgación, el término “mutación” incluye mutaciones puntuales, indeles, fusiones, cromotripsis y ediciones de ARN.

De acuerdo con la divulgación, el término “indel” describe una clase de mutación especial, definida como una mutación que da como resultado una inserción y supresión colocalizadas y una ganancia o pérdida neta de nucleótidos. En las regiones de codificación del genoma, a menos que la longitud de un indel sea un múltiplo de 3, producen una mutación de cambio de marco. Las indeles se pueden contrastar con una mutación puntual; donde una indel inserta y suprime nucleótidos de una secuencia, una mutación puntual es una forma de sustitución que reemplaza uno de los nucleótidos.

De acuerdo con la divulgación, el término “cromotripsis” se refiere a un fenómeno genético por el cual regiones específicas del genoma se rompen y luego se unen a través de un solo evento devastador.

Las fusiones pueden generar genes híbridos formados a partir de dos genes previamente separados. Puede ocurrir como resultado de una translocación, supresión intersticial o inversión cromosómica. A menudo, los genes de fusión son oncogenes. Los genes de fusión oncogénicos pueden conducir a un producto génico con una función nueva o diferente de los dos socios de fusión. Alternativamente, un protooncogén se fusiona con un promotor fuerte y, por lo tanto, la función oncogénica se establece para funcionar mediante una regulación al alza causada por el promotor fuerte del socio de fusión ascendente. Los transcritos de fusión oncogénica también pueden ser causados por eventos de empalme trans o lectura completa.

En el contexto de la presente divulgación, el término “secuenciación” significa determinar la secuencia de al menos un ácido nucleico e incluye cualquier método que se utilice para determinar el orden de las bases en una cadena de al menos un ácido nucleico. Un método preferido de secuenciación es la secuenciación de alto rendimiento, tal como la secuenciación de próxima generación o la secuenciación de tercera generación.

Para fines de aclaración: los términos “Secuenciación de próxima generación” o “NGS” en el contexto de la presente divulgación significan todas las tecnologías de secuenciación de alto rendimiento que, en contraste con la metodología de secuenciación “convencional” conocida como química Sanger, leen plantillas de ácido nucleico al azar en paralelo a lo largo de todo el genoma al romper todo el genoma en pequeños pedazos. Dichas tecnologías NGS (también conocidas como tecnologías de secuenciación paralela masiva) pueden proporcionar información sobre la secuencia de ácidos nucleicos de un genoma completo, exoma, transcriptoma (todas las secuencias transcritas de un genoma) o metiloma (todas las secuencias metiladas de un genoma) en períodos de muy poco tiempo, por ejemplo, dentro de 1-2 semanas, preferiblemente dentro de 1-7 días o más preferiblemente dentro de menos de 24 horas y permitir, en principio, enfoques de secuenciación de células individuales. Se pueden utilizar múltiples plataformas NGS que están disponibles comercialmente o que se mencionan en la literatura en el contexto de la presente divulgación, por ejemplo, aquellas descritas en detalle en Zhang et al., 2011, The impact of next-generation sequencing on genomics. J. Genet Genomics 38:95-109; o en Voelkerding et al., 2009, Next generation sequencing: From basic research to diagnostics, Clinical chemistry 55:641-658. Ejemplos no limitantes de dichas tecnologías/plataformas NGS son

1) La tecnología de secuenciación por síntesis conocida como pirosecuenciación implementada, por ejemplo, en el GS-FLX 454 Genome Sequencer™ de la empresa asociada a Roche 454 Life Sciences (Branford, Connecticut), descrita por primera vez en Ronaghi et al., 1998, A sequencing method based on real-time pyrophosphate, Science 281:363-365. Esta tecnología utiliza una PCR en emulsión en la que las perlas de unión de ADN de cadena sencilla se encapsulan mediante agitación vigorosa en micelas acuosas que contienen reactivos de PCR rodeados de aceite para la amplificación por PCR en emulsión. Durante el proceso de pirosecuenciación, la luz emitida por las moléculas de fosfato durante la incorporación de nucleótidos se registra a medida que la polimerasa sintetiza la cadena de ADN.

2) Los enfoques de secuenciación por síntesis desarrollados por Solexa (ahora parte de Illumina Inc., San Diego, California) que se basan en terminadores de colorante reversibles e implementados, por ejemplo, en Illumina/Solexa Genome Analyzer™ y en el Illumina HiSeq 2000 Genome Analyzer™. En esta tecnología, los cuatro nucleótidos se agregan simultáneamente en fragmentos de grupos cebados con oligos en canales de células de flujo junto con la ADN polimerasa. La amplificación de puente extiende las cadenas de grupos con los cuatro nucleótidos marcados con fluorescencia para la secuenciación.

3) Enfoques de secuenciación por ligadura, por ejemplo, implementados en la plataforma SOLid™ de Applied Biosystems (ahora Life Technologies Corporation, Carlsbad, California). En esta tecnología, un grupo de todos los oligonucleótidos posibles de una longitud fija se marca de acuerdo con la posición secuenciada. Los oligonucleótidos se hibridan y ligan; la ligadura preferencial por la ADN ligasa para emparejar secuencias da como resultado una señal informativa del nucleótido en esa posición. Antes de la secuenciación, el ADN se amplifica mediante PCR en emulsión. Las perlas resultantes, cada una de las cuales contiene solo copias de la misma molécula de ADN, se depositan en un portaobjetos de vidrio. Como segundo ejemplo, la plataforma G.007 Polonator™ de Dover Systems (Salem, New Hampshire) también emplea un enfoque de secuenciación por ligadura al utilizar una PCR en emulsión basada en perlas dispuestas al azar para amplificar fragmentos de ADN para la secuenciación en paralelo.

4) Tecnologías de secuenciación de molécula individual como, por ejemplo, implementadas en el sistema PacBio RS de Pacific Biosciences (Menlo Park, California) o en la plataforma HeliScope™ de Helicos Biosciences (Cambridge, Massachusetts). La característica distintiva de esta tecnología es su capacidad para secuenciar moléculas únicas de ADN o ARN sin amplificación, definida como secuenciación de ADN en Tiempo Real de Molécula Individual (SMRT). Por ejemplo, HeliScope utiliza un sistema de detección de fluorescencia de alta sensibilidad para detectar directamente cada nucleótido a medida que se sintetiza. Se ha desarrollado un enfoque similar basado en la transferencia de energía por resonancia de fluorescencia (FRET) por Visigen Biotechnology (Houston, Texas). Otras técnicas de molécula individual basadas en fluorescencia son de US Genomics (GeneEngine™) y Genovoxx (AnyGene™).

5) Nanotecnologías para la secuenciación de moléculas individuales en las que se utilizan varias nanoestructuras que son, por ejemplo, dispuestas sobre un chip para monitorizar el movimiento de una molécula de polimerasa sobre una cadena sencilla durante la replicación. Ejemplos no limitantes de enfoques basados en nanotecnologías son la plataforma GridON™ de Oxford Nanopore Technologies (Oxford, Reino Unido), las plataformas de secuenciación de nanoporos asistida por hibridación (HANS™) desarrolladas por Nabsys (Providence, Rhode Island), y la plataforma patentada de secuenciación de ADN basada en ligasa con tecnología de nanoesferas de ADN (DNB) denominada ligadura de sondaancla combinatoria (cPAL™).

6) Tecnologías basadas en microscopía electrónica para la secuenciación de una molécula individual, por ejemplo, las desarrolladas por LightSpeed Genomics (Sunnyvale, California) y Halcyon Molecular (Redwood City, California)

7) Secuenciación de iones semiconductores que se basa en la detección de iones de hidrógeno que se liberan durante la polimerización del ADN. Por ejemplo, Ion Torrent Systems (San Francisco, California) utiliza una matriz de alta densidad de pozos micromecanizados para realizar este proceso bioquímico de forma masivamente paralela. Cada pozo contiene una plantilla de ADN diferente. Debajo de los pozos hay una capa sensible a los iones y debajo un sensor de iones patentado.

Otros métodos de secuenciación útiles en el contexto de la divulgación incluyen la secuenciación de corrientes de tunelización (Xu et al., 2007, The electronic properties of DNA bases, Small 3:1539-1543, Di Ventra, 2013, Fast DNA sequencing by electrical means inches closer, Nanotechnology 24:342501). Las metodologías de secuenciación de próxima generación (NGS) particularmente preferibles incluyen la secuenciación Illumina, IONTorrent y NanoPore.

Preferiblemente, las preparaciones de ADN y ARN sirven como material de partida para NGS. Dichos ácidos nucleicos se pueden obtener fácilmente de muestras biológicas, por ejemplo, de sangre o muestras de tejido fresco, ultracongelado o fijado en formalina o de células recién aisladas o de células tumorales circulantes (CTC) que están presentes en la sangre periférica de los pacientes. El ADN o ARN genómico normal (no mutado) se puede extraer de tejido somático normal, sin embargo, se prefieren las células de la línea germinal. El ADN o el ARN de la línea germinal se puede extraer de células mononucleares de sangre periférica (PBMC) en pacientes con neoplasias malignas no hematológicas. Aunque los ácidos nucleicos extraídos pueden estar muy fragmentados, son adecuados para aplicaciones de NGS.

En la literatura se describen varios métodos de NGS dirigidos a la secuenciación del exoma (para una revisión, véase, por ejemplo, Teer and Mullikin, 2010, Human Mol Genet 19:R145-51), todo lo cual se puede utilizar junto con la presente divulgación. Muchos de estos métodos (descritos, por ejemplo, como la captura del genoma, partición del genoma, enriquecimiento del genoma, etc.) utilizan técnicas de hibridación e incluyen enfoques de hibridación basados en matrices (por ejemplo, Hodges et al., 2007, Nat Genet 39:1522-1527) y de base líquida (por ejemplo, Choi et al., 2009, Proc Natl Acad Sci USA 106:19096-19101). También hay disponibles kits comerciales para la preparación de muestras de ADN y la posterior captura del exoma: por ejemplo, Illumina Inc. (San Diego, California) ofrece el Kit de Preparación de Muestras de ADN TruSeq™ y kit de Enriquecimiento de Exima, Kit de Enriquecimiento de Exoma TruSeq™.

Una vez que se han secuenciado los ácidos nucleicos, las secuencias resultantes (lecturas secuenciadas) se pueden comparar con una o más bases de datos que comprenden la información genética preferiblemente de múltiples especies, de tal manera que se puede determinar que las lecturas secuenciadas pertenecen a una especie en particular, tal como el sujeto y/o de un microorganismo en particular, lo que permite determinar el número de lecturas secuenciadas que mapean a un microorganismo en particular y el número de lecturas secuenciadas que mapean a una especie, es decir, mapeo al sujeto así como mapeo a cualquier microorganismo. Como se explicó anteriormente, las lecturas secuenciadas que no se pueden mapear a ninguna especie no se utilizan en la presente divulgación. Los métodos para mapear lecturas secuenciadas para proporcionar información sobre su especie de origen son bien conocidos en la técnica, y cualquier método adecuado se puede utilizar en relación con la presente divulgación. Por ejemplo, se puede utilizar la metodología de clasificación de secuencias metagenómica ultrarrápida de Kraken descrita en Wood and Salzberg, 2014, Genome Biol 15:R46. Otro método ejemplar es NextGenMap que se describe en Sedlazeck et al., 2013, Bioinformatics 29:2790-2791. Aún otro método de ejemplo es un flujo de trabajo sistematizado de bioinformática compatible con la nube para la identificación ultrarrápida de patógenos a partir de la secuenciación de próxima generación de muestras clínicas como se describe en Naccache et al., 2014, Genome Res 24:1180-1192. Los métodos de adición conocidos en la técnica y útiles en la presente divulgación incluyen, pero no se limitan a, aquellos descritos en Huson et al., 2007, Genome Res 17:377-386; Freitas et al., 2015, Nucl Acids Res 43:e69; y Kim et al., 2016, Genome Res 26:1721-1729.

En ciertas realizaciones de la divulgación, para reducir el número de hallazgos de falsos positivos al detectar y comparar secuencias, se prefiere determinar/comparar las secuencias en réplicas. Por tanto, se prefiere que las secuencias de ácidos nucleicos en una muestra biológica se determinen dos, tres veces o más. En una realización, las secuencias de ácidos nucleicos de una muestra de tumor se determinan dos, tres veces o más. También puede ser posible determinar la secuencia más de una vez al determinar al menos una vez la secuencia en el ADN genómico y determinar al menos una vez la secuencia en el ARN de dicha muestra. Por ejemplo, al determinar las variaciones entre réplicas de una muestra, se puede estimar la tasa esperada de mutaciones falsas positivas (FDR) como una cantidad estadística. Las repeticiones técnicas de una muestra deberían generar resultados idénticos y cualquier mutación detectada en esta “comparación de lo mismo frente a lo mismo” es un falso positivo. Adicionalmente, varias métricas relacionadas con la calidad (por ejemplo, cobertura o calidad SNP) se pueden combinar en una única puntuación de calidad utilizando un enfoque de aprendizaje automático. Para una variación somática dada, se pueden contar todas las demás variaciones con un puntaje de calidad superior, lo que permite una clasificación de todas las variaciones en un conjunto de datos.

En el contexto de la presente divulgación, el término “base de datos” se puede relacionar con una colección organizada de datos, preferiblemente tal como un sistema de archivo electrónico, así como con colecciones de datos no estructuradas, como un lago de datos que es un sistema o depósito de datos almacenados en su formato natural. Un lago de datos puede ser un almacén único de todos los datos de la empresa, que incluyen las copias sin procesar de los datos del sistema de origen y los datos transformados que se utilizan para tareas tales como informes, visualización, análisis y aprendizaje automático. En algunas realizaciones, un lago de datos puede incluir datos estructurados de bases de datos relacionales (filas y columnas), datos semiestructurados (CSV, registros, XML, JSON), datos no estructurados (correos electrónicos, documentos, PDF) y/o datos binarios (imágenes, audio, vídeo). En una realización, una base de datos de secuencias es un tipo de base de datos que se compone de una colección de secuencias de ácidos nucleicos computarizadas (“digitales”), secuencias de proteínas u otras secuencias poliméricas almacenadas en un ordenador. Preferiblemente, la base de datos es una colección de secuencias de ácidos nucleicos, es decir, la información genética de una serie de especies. La información genética se puede derivar del genoma y/o del exoma y/o del transcriptoma de una especie. Bases de datos de ácidos nucleicos de ejemplo útiles en la presente divulgación incluyen, pero no se limitan a, International Nucleotide Sequence Database (INSD), DNA Data Bank de Japón (National Institute of Genetics), EMBL (European Bioinformatics Institute), GenBank (National Center for Biotechnology Information), Bioinformatic Harvester, Gene Disease Database, SNPedia, CAMERA Resource para genómica y metagenómica microbiana, EcoCyc (una base de datos que describe el genoma y la maquinaria bioquímica del organismo modelo E. coli K-12), Ensembl (proporciona bases de datos de anotación automática para genomas humanos, ratones, otros vertebrados y eucariotas) Ensembl Genomes (proporciona datos a escala del genoma para bacterias, protistas, hongos, plantas y metazoos de invertebrados, a través de un conjunto unificado de interfaces programáticas e interactivas (utilizando la plataforma de software Ensembl)), Exome Aggregation Consortium (ExAC) (datos de secuenciación del exoma de una amplia variedad de proyectos de secuenciación a gran escala (Broad Institute)), PATRIC (PathoS Systems Resource Integration Center), MGI Mouse Genome (Jackson Laboratory), JGI Genomes del DOE-Joint Genome Institute (proporciona bases de datos de muchos genomas eucariotas y microbianos), National Microbial Pathogen Data Resource (una base de datos seleccionada manualmente de datos genómicos anotados para el patógenos Campylobacter, Clamidia, Chlamydophila, Haemophilus, Listeria, Mycoplasma, Neisseria, Staphylococcus, Streptococcus, Treponema, Ureaplasma y Vibrión), RegulonDB (un modelo de la compleja regulación del inicio de la transcripción o red reguladora de la célula E. coli K-12), Saccharomyces Genome Database (genoma del organismo modelo de levadura), Viral Bioinformatics Resource Center (base de datos curada que contiene datos del genoma anotados para once familias de virus), la plataforma SEED (incluye todos los genomas microbianos completos y la mayoría de los genomas parciales, la plataforma se utiliza para anotar genomas microbianos utilizando subsistemas), WormBase ParaSite (especies parásitas), UCSC Malaria Genome Browser (genoma de especies que causan malaria (Plasmodium falciparum y otros)), Rat Genome Database (datos genómicos y fenotípicos para Rattus norvegicus), INTEGRALL (base de datos dedicada a los integrones, elementos genéticos bacterianos implicados en la resistencia a los antibióticos), VectorBase (NIAID Bioinformatics Resource Center formulación Invertebrate Vectors of Human Pathogens), EzGenome, información completa a cerca de proyectos de genomas curados manualmente de procariotas (arqueas y bacterias), GeneDB (Apicomplexan Protozoa, Kinetoplastid Protozoa, Parasitic Helminths, Parasite Vectors, así como varias bacterias y virus), EuPathDB (los recursos de la base de datos de patógenos eucariotas incluyen ameba, hongos, plasmodium, tripanosomátidos etc.); The 1000 Genomes Project (que proporciona los genomas de más de mil participantes anónimos de varios grupos étnicos diferentes), Personal Genome Project (que proporciona genomas humanos).

Otras bases de datos pueden incluir bases de datos personalizadas, tales como bases de datos que comprendan la información genética de tejidos sanos y enfermos del mismo sujeto. Dichas bases de datos pueden ser útiles, por ejemplo, en los métodos para cribar la reaparición de cáncer después del tratamiento o para monitorizar la efectividad de un tratamiento en un sujeto.

En el contexto de la presente divulgación, los términos “ lectura de secuencia” o “lectura” se utilizan indistintamente y se refieren a un ácido nucleico específico de cualquier tamaño para el cual se ha determinado la secuencia de nucleótidos al secuenciar, y que se asigna preferiblemente a una especie, preferiblemente mapea en el genoma de la especie respectiva. En una realización preferida, las lecturas se clasifican en una especie específica, tal como el sujeto y/o los microorganismos, preferiblemente clasificados en microorganismos específicos. En una realización, las lecturas pueden normalizarse por su abundancia.

La presente divulgación en una realización adicional se refiere a un método para el diagnóstico de un estado de enfermedad o una enfermedad, por ejemplo, una enfermedad infecciosa, en un sujeto, en el que se lleva a cabo un método para determinar un estado de enfermedad o enfermedad en dicho sujeto de acuerdo con la presente divulgación.

En una realización, la divulgación proporciona un método para monitorizar el estado de infección de un sujeto, preferiblemente para monitorizar a un sujeto durante el tratamiento y la respuesta a la terapia, en el que se lleva a cabo un método para determinar el estado de infección de dicho sujeto de acuerdo con la presente divulgación.

Dichos métodos se refieren preferiblemente a la identificación de un sujeto que padece una enfermedad, preferiblemente a un cribado de una enfermedad, preferiblemente a un análisis médico preventivo. En una realización preferida, dichos métodos identifican la correlación de la aparición de un microorganismo y el desarrollo de una enfermedad en un sujeto.

La presente divulgación se refiere preferiblemente a un método, en el que la condición patógena se caracteriza por cantidades anormales, especialmente patógenas, de ácidos nucleicos de al menos un microorganismo, por ejemplo, al menos un organismo viral, bacteriano, fúngico o parasitario.

Se puede determinar que cualquier microorganismo, preferiblemente uno cuya secuencia de ácidos nucleicos sea conocida, esté presente en un sujeto, así como determinarse como el agente causante de una enfermedad en el sujeto. Se pueden determinar microorganismos de ejemplo, cuya presencia en un sujeto, incluyen virus, bacterias, hongos y parásitos. Ejemplos de bacterias incluyen, pero no se limitan a, Neisseria meningitis Streptococcus pneumoniae, Streptococcus pyogenes, Moraxella catarrhalis, Bordetella pertussis, Staphylococcus aureus, Clostridium tetani, Corynebacterium diphtheria, Haemophilus influenza, Pseudomonas aeruginosa, Streptococcus agalactiae, Chlamydia trachomatis, Chlamydia pneumoniae, Helicobacter pylori, Escherichia coli, Bacillus anthracis, Yersinia pestis, Staphylococcus epidermis, Clostridium perfringens, Clostridium botulinum, Legionella pneumophila, Coxiella burnetii, Brucella spp., tal como B. abortus, B. canis, B. melitensis, B. neotomae, B. ovis, B. suis, B. pinnipediae, Francisella spp., tal como F. novicida, F. philomiragia, F. tularensis, Neisseria gonorrhoeae, Treponema pallidum, Haemophilus ducreyi, Enterococcus faecalis, Enterococcus faecium, Staphylococcus saprophyticus, Yersinia enterocolitica, Mycobacterium tuberculosis, Rickettsia spp., Listeria monocytogenes, Vibrio cholera, Salmonella typhi, Borrelia burgdorferi, Porphyromonas gingivalis, Klebsiella spp., Klebsiella pneumoniae.

Los virus de ejemplo incluyen, pero no se limitan a, Orthomyxoviridae, tal como el virus de la influenza A, B o C; virus Paramyxoviridae, tal como Pneumovirus (por ejemplo, virus sincitial respiratorio, RSV), Rubulavirus (por ejemplo, virus de las paperas), Paramixovirus (por ejemplo, virus de parainfluenza), Metapneumovirus y Morbillivirus (por ejemplo, sarampión); Poxviridae, tal como Orthopoxvirus (por ejemplo, Variola vera, incluyendo Variola mayor y Variola menor); Picornaviridae, tal como los enterovirus (por ejemplo, poliovirus por ejemplo un poliovirus tipo 1, tipo 2 y/o tipo 3, enterovirus EV71, virus coxsackie A o B), Rinovirus, Heparnavirus, Cardiovirus y Aftovirus; Bunyavirus, tal como Orthobunyavirus (por ejemplo, virus de la encefalitis de California), Plebovirus (por ejemplo, virus de la fiebre del valle del Rift) o neurovirus (por ejemplo, virus de la fiebre hemorrágica de Crimea-Congo); Heparnavirus (por ejemplo, virus de la hepatitis A (HAV), B y C); Filoviridae (por ejemplo, virus del Ébola (que incluye los virus ébola de Zaire, Costa de Marfil, Reston o Sudán) o el virus de Marburg); Togavirus (por ejemplo, Rubivirus, Alphavirus y Arterivirus, que incluyen el virus de la rubéola); Flavivirus (por ejemplo, Virus de la encefalitis transmitida por garrapatas (TBE), virus del dengue (tipos 1, 2, 3 o 4), virus de la fiebre amarilla, virus de la encefalitis japonesa, virus del bosque de Kyasanur, virus de la encefalitis del Nilo Occidental, virus de la encefalitis de St. Louis, virus de la encefalitis rusa de primavera-verano, y virus de la encefalitis de Powassan); pestivirus (por ejemplo, virus de diarrea viral bovina (BVDV), fiebre porcina clásica (CSFV) y enfermedad de Border (b Dv )); Hepadnavirus (por ejemplo, virus de la hepatitis B, virus de la hepatitis C, virus de la hepatitis delta, virus de la hepatitis E o virus de la hepatitis G); Rhabdovirus (por ejemplo, Lyssavirus, virus de la rabia y vesiculovirus (VSV)); Caliciviridae (por ejemplo, virus de Norwalk (Norovirus) y virus similares a Norwalk, tal como el virus de Hawaii y el virus de la montaña nevada); Coronavirus (por ejemplo, coronavirus SARS, bronquitis infecciosa aviar (IBV), virus de la hepatitis del ratón (MHV) y virus de la gastroenteritis transmisible porcina (TGEV)); Retrovirus (por ejemplo, Oncovirus, Lentivirus (por ejemplo VIH-1 o VIH-2) o un Spumavirus); Reovirus (por ejemplo, Orthoreovirus, Rotavirus, Orbivirus y Coltivirus); Parvovirus (por ejemplo, parvovirus B19); Herpesvirus (por ejemplo, virus del herpes humano, tal como los Virus del Herpes Simple (HSV), por ejemplo, HSV tipos 1 y 2, virus de la varicela-zoster (VZV), virus de Epstein-Barr (EBV), Citomegalovirus (CMV), virus del herpes humano 6 (HHV6), virus del herpes humano 7 (HHV7) y virus del herpes humano 8 (HHV8)); Papovaviridae (por ejemplo, Papilomavirus y Poliomavirus, por ejemplo, serotipos 1, 2, 4, 5, 6, 8, 11, 13, 16, 18, 31, 33, 35, 39, 41, 42, 47, 51, 57, 58, 63 o 65, preferiblemente de uno o más de los serotipos 6, 11, 16 y/o 18); Adenovirus, tal como el adenovirus serotipo 36 (Ad-36).

Los hongos de ejemplo incluyen, pero no se limitan a, Dermatophytres, que incluye Epidermophyton floccusum, Microsporum audouini, Microsporum canis, Microsporum distortum, Microsporum equinum, Microsporum gypsum, Microsporum nanum, Trichophyton concentricum, Trichophyton equinum, Trichophyton gallinae, Trichophyton gypseum, Tricho phyton naegnini, Trichophyton mentagrophytes, Trichophyton quinckeanum, Trichophyton rubrum, Trichophyton schoenleini, Trichophyton tonsurans, Trichophyton verrucosum, T. verrucosumvar. album, var. discoides, var. ochraceum, Trichophyton violaceum, y/o Trichophyton faviforme; Aspergillus fumigatus, Aspergillus flavus, Aspergillus niger, Aspergillus nidulans, Aspergillus terreus, Aspergillus sydowi, Aspergillus flavatus, Aspergillus glaucus, Blastoschizomyces capitatus, Candida albicans, Candida enolase, Candida tropicalis, Candida glabrata, Candida krusei, Candida parapsilosis, Candida stellatoidea, Candida kusei, Candida parakwsei, Candida lusitaniae, Candida pseudotropicalis, Candida guilliermondi, Cladosporium carrionii, Coccidioides immitis, Blastomyces dermatidis, Cryptococcus neoformans, Geotrichum clavatum, Histoplasma capsulatum, Microsporidia, Encephalitozoon spp., Septata intestinalis y Enterocytozoon bieneusi; Brachiola spp., Microsporidium spp., Nosema spp., Pleistophora spp., Trachipleistophora spp., Vittaforma spp., Paracoccidioides brasiliensis, Pneumocystis carinii, Pythiumn insidiosum, Pityrosporum ovale, Sacharomyces cerevisae, Saccharomyces boulardii, Saccharomyces pombe, Scedosporium apiosperum, Sporothrix schenckii, Trichosporon beigelii, Toxoplasma gondii, Penicillium marneffei, Malassezia spp., Fonsecaea spp., Wangiella spp., Sporothrix spp., Basidiobolus spp., Conidiobolus spp., Rhizopus spp., Mucor spp., Absidia spp., Mortierella spp., Cunninghamella spp., Saksenaea spp., Alternaria spp., Curvularia spp., Helminthosporium spp., Fusarium spp., Aspergillus spp., Penicillium spp., Monolinia spp., Rhizoctonia spp., Paecilomyces spp., Pithomyces spp., ay Cladosporium spp.

Parásitos de ejemplo incluyen, pero no se limitan a, Plasmodium, tal como P. falciparum, P. vivax, P. malariae y P. ovale, así como los parásitos de la familia Caligidae, en particular los de Lepeophtheirus y Caligusgenera, por ejemplo, piojos de mar tal como Lepeophtheirus salmonis y Caligus rogercresseyi.

En el contexto de la presente divulgación, el término “resistencia a los antibióticos” significa una pérdida de susceptibilidad de las bacterias a las propiedades de destrucción o inhibición del crecimiento de un agente antibiótico. También se relaciona con la resistencia de un microorganismo a un fármaco antimicrobiano que originalmente era efectivo para el tratamiento de infecciones causadas por él. Los microorganismos resistentes, incluidas bacterias, hongos, virus y parásitos, pueden resistir el ataque de los fármacos antimicrobianos, como los fármacos antibacterianos, antifúngicos, antivirales y antipalúdicos, por lo que los tratamientos estándar se vuelven ineficaces y las infecciones persisten.

De acuerdo con la divulgación, el término “tumor” o “enfermedad tumoral” se refiere a un crecimiento anormal de células (llamadas células neoplásicas, células tumorogénicas o células tumorales) que forman preferiblemente una hinchazón o una lesión. Por “célula tumoral” se entiende una célula anormal que crece mediante una proliferación celular rápida e incontrolada y continúa creciendo después de que cesan los estímulos que iniciaron el nuevo crecimiento. Los tumores muestran una falta parcial o total de organización estructural y coordinación funcional con el tejido normal y, por lo general, forman una masa distinta de tejido, que puede ser benigno, premaligno o maligno.

El cáncer (término médico: neoplasia maligna) es una clase de enfermedades en las que un grupo de células muestra un crecimiento descontrolado (división más allá de los límites normales), invasión (intrusión y destrucción de tejidos adyacentes) y algunas veces, metástasis (propagación a otros lugares en el cuerpo a través de la linfa o la sangre). Estas tres propiedades malignas de los cánceres los diferencian de los tumores benignos, que son autolimitados y no invaden ni hacen metástasis. La mayoría de los cánceres forman un tumor, pero algunos, como la leucemia, no lo hacen. La malignidad, el neoplasma maligno y el tumor maligno son esencialmente sinónimos de cáncer.

El neoplasma es una masa anormal de tejido como resultado de una neoplasia. La neoplasia (nuevo crecimiento en griego) es la proliferación anormal de células. El crecimiento de las células excede y no está coordinado con aquel de los tejidos normales que lo rodean. El crecimiento persiste de la misma manera excesiva incluso después del cese de los estímulos. Por lo general, causa un bulto o un tumor. Los neoplasmas pueden ser benignos, premalignos o malignos.

“Crecimiento de un tumor” o “crecimiento tumoral” de acuerdo con la divulgación se refiere a la tendencia de un tumor a aumentar su tamaño y/o a la tendencia de las células tumorales a proliferar.

Para los fines de la presente divulgación, los términos “cáncer” y “enfermedad del cáncer” se utilizan de forma intercambiable con los términos “tumor” y “enfermedad tumoral”.

Los cánceres se clasifican por el tipo de célula que se parece al tumor y, por lo tanto, el tejido que se supone que es el origen del tumor. Estos son la histología y la localización, respectivamente.

El término “cáncer” de acuerdo con la divulgación comprende carcinomas, adenocarcinomas, blastomas, leucemias, seminomas, melanomas, teratomas, linfomas, neuroblastomas, gliomas, cáncer de recto, cáncer de endometrio, cáncer de riñón, cáncer suprarrenal, cáncer de tiroides, cáncer de sangre, cáncer de piel, cáncer de cerebro, cáncer de cuello uterino, cáncer intestinal, cáncer de hígado, cáncer de colon, cáncer de estómago, cáncer de intestino, cáncer de cabeza y cuello, cáncer gastrointestinal, cáncer de ganglios linfáticos, cáncer de esófago, cáncer colorrectal, cáncer de páncreas, cáncer de oído, nariz y garganta (ENT), cáncer de mama, cáncer de próstata, cáncer de útero, cáncer de ovario y cáncer de pulmón y metástasis de los mismos. Ejemplos de los mismos son carcinomas de pulmón, carcinomas de mama, carcinomas de próstata, carcinomas de colon, carcinomas de células renales, carcinomas de cuello uterino o metástasis de los tipos de cáncer o tumores descritos anteriormente. El término cáncer de acuerdo con la divulgación también comprende metástasis de cáncer y recaída del cáncer.

De acuerdo con la divulgación, un “carcinoma” es un tumor maligno derivado de células epiteliales. Este grupo representa los cánceres más comunes, que incluyen las formas comunes de cáncer de mama, próstata, pulmón y colon. El “adenocarcinoma” es un cáncer que se origina en el tejido glandular. Este tejido también forma parte de una categoría de tejido más grande conocida como tejido epitelial. El tejido epitelial incluye piel, glándulas y una variedad de otros tejidos que recubren las cavidades y órganos del cuerpo. El epitelio se deriva embriológicamente del ectodermo, endodermo y mesodermo. Para clasificarse como adenocarcinoma, no es necesario que las células formen parte de una glándula, siempre que tengan propiedades secretoras. Esta forma de carcinoma puede ocurrir en algunos mamíferos superiores, que incluyen los humanos. Los adenocarcinomas bien diferenciados tienden a parecerse al tejido glandular del que se derivan, mientras que los poco diferenciados pueden no hacerlo. Al teñir las células de una biopsia, un patólogo determinará si el tumor es un adenocarcinoma o algún otro tipo de cáncer. Los adenocarcinomas pueden surgir en muchos tejidos del cuerpo debido a la naturaleza ubicua de las glándulas dentro del cuerpo. Si bien es posible que cada glándula no secrete la misma sustancia, siempre que la célula tenga una función exocrina, se considera glandular y, por lo tanto, su forma maligna se denomina adenocarcinoma. Los adenocarcinomas malignos invaden otros tejidos y, a menudo, hacen metástasis si se les da el tiempo suficiente para hacerlo. El adenocarcinoma de ovario es el tipo más común de carcinoma de ovario. Este incluye los adenocarcinomas serosos y mucinosos, el adenocarcinoma de células claras y el adenocarcinoma endometrioide.

Por “metástasis” se entiende la propagación de células cancerosas desde su sitio original a otra parte del cuerpo. La formación de metástasis es un proceso muy complejo y depende del desprendimiento de células malignas del tumor primario, la invasión de la matriz extracelular, la penetración de las membranas basales endoteliales para ingresar a la cavidad corporal y los vasos, y luego, después de ser transportado por la sangre, infiltración de órganos diana. Finalmente, el crecimiento de un nuevo tumor, es decir, un tumor secundario o un tumor metastásico, en el sitio diana depende de la angiogénesis. La metástasis tumoral a menudo se produce incluso después de la extirpación del tumor primario porque las células o los componentes tumorales pueden permanecer y desarrollar un potencial metastásico. En una realización, el término “metástasis” de acuerdo con la divulgación se refiere a “metástasis a distancia” que se refiere a una metástasis que está alejada del tumor primario y del sistema de ganglios linfáticos regionales.

Las células de un tumor secundario o metastásico son como aquellas del tumor original. Esto significa, por ejemplo, que, si el cáncer de mama hace metástasis en el hígado, el tumor secundario está formado por células mamarias anormales, no por células hepáticas anormales. El tumor en el hígado se denomina cáncer de mama metastásico, no cáncer de hígado.

El término “células tumorales circulantes” o “CTC” se refiere a células que se han desprendido de un tumor primario o metástasis tumorales y circulan en el torrente sanguíneo. Las CTC pueden constituir semillas para el crecimiento posterior de tumores adicionales (metástasis) en diferentes tejidos. Las células tumorales circulantes se encuentran en frecuencias del orden de 1-10 CTC por ml de sangre completa en pacientes con enfermedad metastásica. Se han desarrollado métodos de investigación para aislar CTC. Se han descrito varios métodos de investigación en la técnica para aislar CTC, por ejemplo, técnicas que utilizan el hecho de que las células epiteliales comúnmente expresan la proteína de adhesión celular EpCAM, que está ausente en las células sanguíneas normales. La captura basada en perlas inmunomagnéticas implica el tratamiento de muestras de sangre con anticuerpos contra EpCAM que se ha conjugado con partículas magnéticas, seguido de la separación de células etiquetadas en un campo magnético. A continuación, las células aisladas se tiñen con anticuerpos contra otro marcador epitelial, la citoqueratina, así como con un marcador leucocitario común CD45, para distinguir las CTC raras de los glóbulos blancos contaminantes. Este enfoque robusto y semiautomatizado identifica CTC con un rendimiento promedio de aproximadamente 1 CTC/ml y una pureza de 0.1 % (Allard et al., 2004, Clin Cancer Res 10:6897-6904). Un segundo método para aislar CTC utiliza un dispositivo de captura de CTC en base a microfluidos que implica el flujo de sangre entera a través de una cámara incorporada con 80.000 micropostes que se han vuelto funcionales al recubrirlos con anticuerpos contra EpCAM. Luego, las CTC se tiñen con anticuerpos secundarios contra la citoqueratina o los marcadores específicos de tejido, tales como el PSA en el cáncer de próstata o HER2 en el cáncer de mama, y se visualizan mediante escaneo automático de micropostes en múltiples planos a lo largo de coordenadas tridimensionales. Los chips CTC son capaces de identificar células tumorales circulantes positivas para citoqueratina en pacientes con un rendimiento medio de 50 células/ml y una pureza que varían desde 1-80 % (Nagrath et al., 2007, Nature 450:1235-1239). Otra posibilidad para aislar las CTC es utilizar la Prueba de Células Tumorales Circulantes (CTC) CellSearchTM de Veridex, LLC (Raritan, NJ) que captura, identifica y cuenta las CTC en un tubo de sangre. El sistema CellSearchTM es una metodología aprobada por la Administración de Fármacos y Alimentos de los EE. UU. (FDA) para la enumeración de CTC en sangre completa que se basa en una combinación de marcado inmunomagnético y microscopía digital automatizada. Hay otros métodos para aislar CTC descritos en la literatura, todos los cuales se pueden utilizar junto con la presente divulgación.

Una recaída o recurrencia ocurre cuando una persona se ve afectada nuevamente por una afección que la afectó en el pasado. Por ejemplo, si un paciente ha padecido una enfermedad tumoral, ha recibido un tratamiento exitoso de dicha enfermedad y vuelve a desarrollar dicha enfermedad, dicha enfermedad recién desarrollada se puede considerar como recaída o recurrencia. Sin embargo, de acuerdo con la divulgación, una recaída o recurrencia de una enfermedad tumoral puede ocurrir, pero no necesariamente, en el sitio de la enfermedad tumoral original. Así, por ejemplo, si un paciente ha sufrido un tumor de mama y ha recibido un tratamiento exitoso, una recaída o recurrencia puede ser la aparición de un tumor de mama o la aparición de un tumor en un sitio diferente al de la mama. Una recaída o recurrencia de un tumor también incluye situaciones en las que un tumor aparece en un sitio diferente al sitio del tumor original, así como en el sitio del tumor original. Preferiblemente, el tumor original para el que el paciente ha recibido un tratamiento es un tumor primario y el tumor en un sitio diferente al sitio del tumor original es un tumor secundario o metastásico.

Por “tratar” se entiende administrar un compuesto o composición como se describe en el presente documento a un sujeto para prevenir o eliminar una enfermedad, tal como una enfermedad infecciosa y también incluye reducir el tamaño de un tumor o el número de tumores en un sujeto; detener o retrasar una enfermedad en un sujeto; inhibir o retardar el desarrollo de una nueva enfermedad en un sujeto; disminuir la frecuencia o gravedad de los síntomas y/o recurrencias en un sujeto que actualmente tiene o que ha tenido previamente una enfermedad; y/o prolongar, es decir, aumentar la vida útil del sujeto. En particular, el término “tratamiento de una enfermedad” incluye curar, acortar la duración, mejorar, prevenir, ralentizar o inhibir la progresión o el empeoramiento, o prevenir o retrasar la aparición de una enfermedad o síntomas de la misma.

Por “estar en riesgo” se entiende un sujeto, es decir, un paciente, que se identifica que tiene una probabilidad más alta de lo normal de desarrollar una enfermedad, en particular cáncer, en comparación con la población general. Además, un sujeto que ha tenido, o que actualmente tiene, una enfermedad, en particular cáncer, es un sujeto que tiene un mayor riesgo de desarrollar una enfermedad, ya que dicho sujeto puede continuar desarrollando una enfermedad. Los sujetos que actualmente tienen, o que han tenido, un cáncer también tienen un mayor riesgo de metástasis de cáncer.

En el contexto de la presente divulgación, términos tales como “proteger”, “prevenir”, “profiláctico”, “preventivo” o “protector” se relacionan con la prevención o el tratamiento o ambos de la aparición y/o propagación de una enfermedad en un sujeto y, en particular, para minimizar la posibilidad de que un sujeto desarrolle una enfermedad o para retrasar el desarrollo de una enfermedad. Por ejemplo, una persona en riesgo de desarrollar un tumor, como se describió anteriormente, sería candidata para una terapia para prevenir un tumor.

De acuerdo con una realización de la presente divulgación, se ha determinado que el sujeto tiene una enfermedad infecciosa u otro estado de enfermedad, al sujeto se le puede administrar una terapia apropiada para tratar la enfermedad infecciosa u otro estado de enfermedad. Estas terapias, que incluyen antibióticos y agentes anticancerígenos, son bien conocidas en la técnica, y el médico tratante determinará qué terapia apropiada se administrará finalmente al sujeto.

En una realización, la presente divulgación también se refiere a un dispositivo para llevar a cabo el método de acuerdo con la presente divulgación, en el que se comparan lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia comparada se mapea o no a una especie comprendida dentro de una o más bases de datos es calculada por una unidad de procesamiento central del dispositivo. En una realización, la presente divulgación también se dirige a un dispositivo para llevar a cabo el método de acuerdo con la presente divulgación, en el que se determina a lo largo del tiempo el número de lecturas de secuencias comparadas que mapean a un microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie se calcula por una unidad central de procesamiento del dispositivo. En una realización, la presente divulgación también se dirige a un dispositivo para llevar a cabo el método de acuerdo con la presente divulgación, en el que una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia comparada que mapea al microorganismo particular en base al número de lecturas de secuencias comparadas que mapean al microorganismo particular y número de lecturas de secuencias comparadas que mapean a una especie se calcula por una unidad de procesamiento central del dispositivo. En una realización, la unidad central de procesamiento es una matriz de puertas programables en campo (FPGA). En una realización preferida, el dispositivo lleva a cabo uno o más o todos los cálculos anteriores. En una realización, la presente divulgación también se refiere a un dispositivo que puede realizar uno o más o todos los cálculos asociados con la determinación de la presencia de un estado de enfermedad en un sujeto.

De acuerdo de lo anterior, la presente divulgación proporciona un flujo de trabajo de diagnóstico completo para la determinación de la presencia de microorganismos o un estado de enfermedad en una muestra biológica en base a análisis de secuencia imparcial de ácidos nucleicos, por ejemplo, ADN circulante libre. El método ventajosamente proporciona un diagnóstico en base a datos sin conocer el microorganismo sospechoso o el estado de la enfermedad, no requiere un diseño de cebador específico y proporciona la oportunidad de detectar múltiples microorganismos virales, bacterianos, fúngicos y parasitarios en un solo ensayo.

Preferiblemente, el método de la presente divulgación no se limita a la determinación de un microorganismo específico. En una realización, el presente método determina la presencia de todos los microorganismos, preferiblemente todos los microorganismos relevantes para un estado de enfermedad en el sujeto, tal como una infección. Preferiblemente, el método de la presente divulgación tampoco se limita a la determinación de un tipo específico de cáncer en un sujeto, sino que puede determinar la presencia de más de un tipo de cáncer, así como subtipos de cáncer. En una realización preferida, los diferentes tipos y/o subtipos de cáncer en un sujeto presentan distintas mutaciones en su material genético, de tal manera que se puede determinar la presencia en un sujeto de uno o más tipos y/o subtipos de cáncer de acuerdo con los métodos de la presente divulgación.

Por lo tanto, la presente divulgación proporciona un método útil para la identificación de la causa de una infección u otro estado de enfermedad en un sujeto en poco tiempo, de tal manera que se puede seleccionar una terapia apropiada para la infección identificada u otro estado de enfermedad en poco tiempo.

De acuerdo de lo anterior, el método de la presente divulgación puede ser muy útil para la identificación basada en datos de microorganismos en muestras clínicas, para monitorizar la carga de microorganismos de un sujeto y la respuesta al tratamiento dirigido y complementar la microbiología clínica estándar. El método de la presente divulgación también puede ser muy útil para la identificación basada en datos de la presencia de células tumorales en muestras clínicas, para monitorizar la carga de células tumorales de un sujeto y la respuesta al tratamiento dirigido y complementar la oncología clínica estándar.

La presente divulgación se describe en detalle mediante las figuras y los ejemplos a continuación, que se utilizan únicamente con fines ilustrativos y no pretenden ser limitantes. Debido a la descripción y los ejemplos, el experto en la técnica tiene acceso a realizaciones adicionales que también se incluyen en la divulgación.

Figuras

La Figura 1 muestra la ejecución de la prueba completa para el paciente S9 (la prueba no se detuvo porque el microorganismo se marcó como significativo) para siete microorganismos diferentes. También se dibuja una línea discontinua horizontal que indica el umbral de relevancia estadística.

La Figura 2 muestra la ejecución de la prueba completa para el paciente S11 (la prueba no se detuvo porque el microorganismo se marcó como significativo) para cuatro microorganismos diferentes. También se dibuja una línea discontinua horizontal que indica el umbral de relevancia estadística.

La Figura 3 muestra la ejecución de la prueba completa para el paciente S60 (la prueba no se detuvo porque el microorganismo se etiquetó como significativo) para cinco microorganismos diferentes. También se dibuja una línea discontinua horizontal que indica el umbral de relevancia estadística.

Ejemplos

Las técnicas y métodos utilizados en el presente documento se describen en el presente documento o se llevan a cabo de una manera conocida per se y como se describe, por ejemplo, en Sambrook et al., Molecular Cloning: A Laboratory Manual, 2nd Edition (1989) Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. Todos los métodos, que incluyen el uso de kits y reactivos, se llevan a cabo de acuerdo con la información del fabricante, a menos que se indique específicamente.

Ejemplo 1

Se obtuvieron muestras biológicas, es decir, plasma sanguíneo, de sujetos humanos sospechosos de padecer una enfermedad infecciosa. Los ácidos nucleicos de las muestras se secuenciaron utilizando un método de secuenciación de próxima generación, lo que genera una pluralidad de lecturas de secuencias. Estos datos se almacenaron y posteriormente se analizaron como sigue.

Las lecturas de secuencias individuales se compararon con una o más bases de datos que comprendían la información genética tanto de humanos como de una pluralidad de microorganismos, de tal manera que cada lectura, si era posible, se mapeó ya sea un microorganismo particular o al genoma humano. El mapeo proporcionó el número total de lecturas que mapean a un microorganismo en particular y el número total de lecturas que se podrían mapear a una especie, es decir, el microorganismo particular, el genoma humano, así como cualquier otro microorganismo, en tiempo real. Por lo tanto, el número de lecturas atribuidas a un microorganismo en particular o al sujeto humano se conocía en cada momento durante el procedimiento de diagnóstico.

Esta información permitió la generación de un vector de recuento C: Cm, ..., Cj ; m = 1, .... I que retiene el número de lecturas para cada especie m en una muestra/paciente j en un punto arbitrario pero fijo en el tiempo durante el diagnóstico. Cm cambia con el tiempo durante el diagnóstico de un paciente j mientras que las nuevas lecturas se mapean a una especie. Además, C puede crecer a medida que se identifican nuevas especies de microorganismos. Al principio, se inicializa un vector vacío y se genera uno dinámico durante el tiempo de ejecución del método. C describe la carga microbiana del paciente actualmente diagnosticado. Para identificar aquellos microbios cuya carga es de abundancia anormal, se calculó la función de densidad acumulada inversa (cdf) de esta carga microbiana específica en el paciente j en un momento dado de la siguiente manera:

dónde Cm es el número de lecturas medidas para especies m en el paciente j en el momento actual y n el número de lecturas que se pueden mapear en total (microbiano y huésped). Pm describe la probabilidad de descubrimiento que se calcula en tiempo real y representa la probabilidad de detectar una lectura para la especie m.

A diferencia de las pruebas convencionales, esta no es una prueba de criterio de valoración, sino que se ejecuta en el marco de una prueba secuencial. Por lo tanto, a través del enfoque de prueba secuencial, toda la información necesaria e importante está disponible mientras se ejecuta la prueba y no después de que finaliza. Esto proporciona una nueva forma de diagnóstico de infecciones y una nueva forma de probar los procedimientos en el área de la secuenciación de próxima generación. La información proporcionada es un valor de p que describe si o no la cantidad actual de ácido nucleico mapeado para una determinada especie se considera inusual y, por lo tanto, alcanza un valor de p muy bajo dada la probabilidad de descubrimiento para esta especie y la configuración actual de la prueba que se ejecuta.

Este método permite la definición de nuevas variables características como “señales microbianas por evento”. Estas variables dependen directamente de las veces que un microorganismo se vuelve estadísticamente relevante y por lo tanto las nuevas variables son de particular importancia. Las posibles variables características son “ lecturas microbianas por segundo” o “lecturas microbianas por lecturas humanas”. Para cada sujeto y cada microorganismo se pueden calcular dichas variables y, por lo tanto, proporcionarán una visión más profunda del grado de gravedad de la infección para cada muestra analizada. Además, esas variables características permitirán la comparación de muestras secuenciadas con diferentes tecnologías debido a la independencia tecnológica de dichas variables.

Ejemplo 2

Los ácidos nucleicos de una muestra biológica de plasma sanguíneo obtenida del sujeto S9 se secuenciaron de tal manera que la probabilidad de encontrar en el sujeto una lectura de secuencia comparada que mapea el microorganismo particular en base al número de lecturas de secuencias comparadas que mapean el microorganismo particular y el número de las lecturas de secuencias que mapean comparadas con una especie se calculó de acuerdo con la divulgación. Los resultados se presentan en la Figura 1.

La Figura 1 muestra la secuencia completa de la prueba (la prueba no se interrumpió ni canceló por significancia para ciertos microorganismos) para 7 microorganismos diferentes al mismo tiempo. También se muestra una línea discontinua roja horizontal que representa un umbral estadístico que se debe superar antes de que un microorganismo se considere “relevante” para causar la infección. También está claro que la línea azul, que representa el microorganismo Enterobacter cloacae, superó el umbral estadístico solo después de unos momentos de generar datos, de tal manera que la prueba podría haber terminado después de solo unos momentos para este microorganismo. La línea morada, que pertenece a la bacteria. E. coli, muestra un aumento lento en el valor, pero no cruza el nivel de significación como relevante hasta después de 500k lecturas, lo que indica que él y los otros microorganismos son microorganismos comensales o de contaminación.

Ejemplo 3

Los ácidos nucleicos de una muestra biológica de plasma sanguíneo obtenida del sujeto S11 se secuenciaron de tal manera que la probabilidad de encontrar en el sujeto una lectura de secuencia comparada que mapea al microorganismo particular en base al número de lecturas de secuencias comparadas que mapean al microorganismo particular y el número de las lecturas de secuencias comparadas que mapean a una especie se calcula de acuerdo con la presente divulgación. Los resultados se presentan en la Figura 2.

De manera similar a la Figura 1, la Figura 2 muestra un rápido aumento en la probabilidad de una sola bacteria, en el presente documento K. pneumoniae (en verde), es relevante para el estado de la enfermedad, es decir, el agente causal de la infección. Se observa que Cutibacterium acnes, que es una bacteria que vive en la piel humana, pero la relevancia/probabilidad de que esta bacteria sea el agente causante de la infección es cero. Esto indica que el método, según lo previsto, filtra las especies comensales. En cambio, la relevancia de E. coli aumenta hasta el umbral de significación en un período de tiempo de 350 k lecturas. Aunque no se muestra como relevante, esto podría indicar que el paciente está en peligro de desarrollar una infección secundaria causada por E. coli.

Esto indica que el método genera información que es posible que no pueda proporcionar una prueba actual “basada en el criterio de valoración”. Por lo tanto, este método proporciona datos que indican al médico que debe actuar contra una infección antes de que sea clínicamente relevante. Otra ventaja del método descrito en el presente documento es la capacidad de detectar infecciones causadas por múltiples microorganismos y desglosar adicionalmente qué microorganismos son los principales agentes causantes.

Ejemplo 4

Los ácidos nucleicos de una muestra biológica de plasma sanguíneo obtenida del sujeto S60 se secuenciaron de tal manera que la probabilidad de encontrar en el sujeto una lectura de secuencia comparada que mapea al microorganismo particular en base al número de lecturas de secuencias comparadas que mapean al microorganismo particular y en número de las lecturas de secuencias comparadas que mapean a una especie se calculan de acuerdo con la presente divulgación. Los resultados se presentan en la Figura 3.

Como se representa claramente en la Figura 3, el principal agente infeccioso es B. fragilis, ya que la línea verde cruza el umbral de relevancia justo al comienzo del método. Sin embargo, después de algunos eventos (lecturas analizadas), otras dos bacterias dan un salto significativo sobre el umbral de relevancia que muestra que esas dos también están contribuyendo a la sepsis del sujeto, indicado por la línea naranja y púrpura para E. coli y s áureo, respectivamente.

Comparando este resultado con el resultado tradicional en base a una prueba de rutina para las tres bacterias, los resultados serían los mismos. A cada microorganismo se le habría asignado más o menos la misma relevancia. Sin embargo, utilizando el método descrito en el presente documento, se identificó claramente el principal agente causal y mediante el uso objetivo de variables características tales como "eventos por tiempo” se identificó al principal agente causal, así como a otros microorganismos que contribuyeron a la infección.

El eje de las figuras anteriores es siempre el logaritmo del valor p calculado con la Fórmula 1 y el número de lecturas analizadas. Por supuesto, es posible alterar las unidades representadas en este eje. En el presente documento solo es necesario que a través de las nuevas unidades sea posible un orden único de lecturas. Esto podría ser, por ejemplo, el orden en que se generaron las lecturas o la hora en que se compararon con la base de datos. Utilizando el método descrito anteriormente, se pueden calcular las variables características mencionadas anteriormente, por ejemplo "lecturas por evento hasta que sea relevante” para un microorganismo y paciente específicos. Estas variables se pueden utilizar para comparar diferentes pacientes que padecen el mismo microorganismo. Además, el principal agente causal se puede identificar al comparar las variables de diferentes microbios en el mismo paciente.

Se supone que las infecciones reales varían en un cierto intervalo, digamos [x-y] medido, por ejemplo, en "lecturas por evento”. Los contaminantes y comensales aparecerían fuera de los límites de este "intervalo de infección”. Por lo tanto, el análisis estadístico que utiliza esos intervalos de infección es suficiente para identificar infecciones y evaluar la relevancia de los microorganismos identificados. Además, la gravedad de la infección se evalúa por esos intervalos. Esto se logra utilizando el marco estadístico del análisis del tiempo de espera. La mayoría de las veces, los análisis de tiempos de espera se llevan a cabo utilizando una función exponencial. Por lo tanto, suponiendo que una variable que describe la “variable de infección característica” se distribuye siguiendo la variable aleatoria exponencial:

y suponiendo que el tiempo de espera para un determinado microorganismo está entre 500-1000 lecturas, tenemos A = 1/500 y A = 1/1000. Dado que estamos interesados en la probabilidad de P(500 <X<1000), calculamos P(x < 1000) - P (x < 500). Esto describe la probabilidad de NO padecer una infección. Dado que queremos un intervalo más rápido que este, calculamos P (X < 500). Ahora, si la lectura 500 es nuevamente una lectura de microorganismos, lo que hacemos es calcular P(X > 500) = e-500A « 0.36. Por lo tanto, es muy probable ver una lectura de microorganismo después de 500 lecturas del huésped dado el intervalo de 500-1000 para esta especie en particular. Sin embargo, si vemos una segunda lectura de microorganismos justo después de 10 lecturas, calculamos P(X > 10) = e-100A « 0.98 ya que hemos visto una lectura de microorganismo después de 10 señales (lecturas comparadas) estamos interesados en P(X < 10) y por lo tanto 1-P(X > 10) = 0.019. Por lo tanto, es muy poco probable detectar un microorganismo después de 10 señales, por lo que si se detecta un microorganismo después de 10 señales, es necesario informarlo al médico.

En ambos enfoques, el acoplamiento de probabilidades con una cantidad fija pero arbitraria de eventos dado un conjunto de eventos y el análisis del tiempo de espera resultante, no se describen en el diagnóstico de enfermedades infecciosas ni en el diagnóstico en general. En general, si la generación de datos se puede separar en diferentes canales o bloques, podemos volver a paralelizar las pruebas hacia cada canal individual (es decir, probando cada canal individualmente y tratando cada canal como un experimento separado) y, por lo tanto, minimizando el tiempo para obtener resultados. Esto tampoco es posible utilizando pruebas de criterio de valoración, lo que significa que el método descrito en el presente documento es escalable hacia un mayor rendimiento en contraste con las pruebas basadas en criterios de valoración.

Claims

REIVINDICACIONES

1. Un método para determinar la presencia de microorganismos en un sujeto que comprende:

(a) secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto para obtener una pluralidad de lecturas de secuencias de ácidos nucleicos;

(b) comparar las lecturas de secuencias obtenidas en la etapa (a) con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia comparada mapea a una especie comprendida dentro de una o más bases de datos;

(c) determinar a lo largo del tiempo el número de lecturas de secuencias comparadas que mapean a un microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie; y

(d) calcular una puntuación de significación a lo largo del tiempo para la probabilidad de encontrar en el sujeto una lectura de secuencia comparada que mapea al microorganismo particular en base al número de lecturas de secuencias comparadas que mapean al microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie, en la que cuando la puntuación de significación para el microorganismo particular alcanza o supera un valor umbral, se determina que el microorganismo particular está presente en el sujeto.

2. Un método para determinar la presencia de microorganismos en un sujeto que comprende:

una etapa para calcular a lo largo del tiempo una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia que mapea a un microorganismo particular en base al número de lecturas de secuencias que mapean a un microorganismo particular y el número de lecturas de secuencias que mapean a una especie, en la que cuando la puntuación de significación para el microorganismo en particular alcanza o supera un valor umbral, se determina que el microorganismo en particular está presente en el sujeto,

en el que las lecturas de secuencias que mapean al microorganismo particular y las lecturas de secuencias que mapean a una especie se obtienen al comparar lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia comparada mapea a una especie comprendida dentro de una o más bases de datos, y en el que las lecturas de secuencias se generan al secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto.

3. Un método para determinar la presencia de microorganismos en un sujeto que comprende:

(a) etapa para determinar a lo largo del tiempo el número de lecturas de secuencias que mapean a un microorganismo particular y el número de lecturas de secuencias que mapean a una especie, en la que las lecturas de secuencias se obtienen al comparar las lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie y la información genética de una pluralidad de microorganismos para determinar si o no una lectura de secuencia mapea a una especie comprendida dentro de una o más bases de datos, y en la que las lecturas de secuencias se generan al secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto; y

(b) calcular una puntuación de significación a lo largo del tiempo para la probabilidad de encontrar en el sujeto una lectura de secuencia que mapea al microorganismo particular en base al número de lecturas de secuencias que mapean al microorganismo particular y el número de lecturas de secuencias que mapean a una especie, en la que cuando la puntuación de significación para el microorganismo particular alcanza o supera un valor umbral, se determina que el microorganismo particular está presente en el sujeto.

4. El método de acuerdo con una cualquiera de las reivindicaciones 1 a 3, en el que cuando la puntuación de significación para el microorganismo particular alcanza o supera un valor umbral, se determina que el microorganismo particular es relevante para causar una enfermedad en el sujeto.

5. El método de acuerdo con la reivindicación 4, en el que cuando la puntuación de significación para el microorganismo particular supera un valor umbral con pocas lecturas de secuencia, la enfermedad debida a la presencia del microorganismo se considera grave.

6. Un método para determinar la presencia de un estado de enfermedad en un sujeto que comprende:

una etapa para calcular a lo largo del tiempo una puntuación de significación para la probabilidad de encontrar en el sujeto una lectura de secuencia que no mapea al sujeto de control en base al número de lecturas de secuencias que no mapean al sujeto de control y el número de lecturas de secuencias que mapean al sujeto de control, en el que cuando la puntuación de significación alcanza o supera un valor umbral, se determina que el estado de la enfermedad está presente en el sujeto,

en el que las lecturas de secuencias que mapean al sujeto de control y las lecturas de secuencias que no mapean al sujeto de control se obtienen al comparar las lecturas de secuencias con una o más bases de datos que comprenden la información genética de un sujeto de control de la misma especie para determinar si o no una lectura de secuencia comparada mapea al sujeto de control, y en la que las lecturas de secuencias se generan al secuenciar los ácidos nucleicos presentes en una muestra biológica obtenida del sujeto.

7. El método de acuerdo con la reivindicación 6, en el que el estado de enfermedad es cáncer.

8. El método de acuerdo con la reivindicación 6, en el que el estado de enfermedad es una infección causada por un microorganismo.

9. Un método para diagnosticar una enfermedad infecciosa causada por microorganismos en un sujeto que comprende:

(d) calcular una puntuación de significación a lo largo del tiempo para la probabilidad de encontrar en el sujeto una lectura de secuencia comparada que mapea al microorganismo particular en base al número de lecturas de secuencias comparadas que mapean al microorganismo particular y el número de lecturas de secuencias comparadas que mapean a una especie,

en el que cuando la puntuación de significación para el microorganismo en particular alcanza o supera un valor umbral, se determina que el microorganismo en particular está causando la enfermedad infecciosa.

10. Un medio de almacenamiento legible por ordenador que almacena el código de programa que comprende instrucciones que, cuando son ejecutadas por un procesador, llevan a cabo el método de acuerdo con una cualquiera de las reivindicaciones 1 a 9.

11. Un sistema informático que comprende un procesador configurado para llevar a cabo el método de acuerdo con una cualquiera de las reivindicaciones 1 a 9.