ES2869292T3 - Cartografía rápida y exacta de lecturas de secuenciación dirigida - Google Patents

Cartografía rápida y exacta de lecturas de secuenciación dirigida Download PDF

Info

Publication number
ES2869292T3
ES2869292T3 ES13795516T ES13795516T ES2869292T3 ES 2869292 T3 ES2869292 T3 ES 2869292T3 ES 13795516 T ES13795516 T ES 13795516T ES 13795516 T ES13795516 T ES 13795516T ES 2869292 T3 ES2869292 T3 ES 2869292T3
Authority
ES
Spain
Prior art keywords
target region
region
alternate
sequence
variations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13795516T
Other languages
English (en)
Inventor
Xiaoying Chen
Yan Li
Wei-Min Liu
Xiaoju Ma (Max)
Sim-Jasmine Truong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Roche Diagnostics GmbH
Original Assignee
F Hoffmann La Roche AG
Roche Diagnostics GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG, Roche Diagnostics GmbH filed Critical F Hoffmann La Roche AG
Application granted granted Critical
Publication of ES2869292T3 publication Critical patent/ES2869292T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

Un procedimiento de detección de variantes en una región diana de una genoma de muestra de un organismo, comprendiendo el procedimiento: - recibir una pluralidad de lecturas de secuencia, obtenidas las lecturas de secuencia de la secuenciación de segmentos genómicos en una muestra obtenida del organismo, en el que la secuenciación incluye amplificar y/o enriquecer segmentos genómicos de la región diana; - identificar una o más regiones alternas en un genoma de referencia que tienen un primer número respectivo de variaciones de la región diana de un genoma de referencia, siendo cada primer número respectivo mayor que uno y menor que un primer número umbral; - realizar, con un sistema informático, una alineación de la pluralidad de lecturas de secuencia con la región diana del genoma de referencia para identificar un conjunto de lecturas de secuencia que se alinean con la región diana del genoma de referencia con menos de un segundo número umbral de variaciones; - retirar del conjunto al menos una lectura de secuencia que se alinea con una o más de las regiones alternas con un segundo número de variaciones que es menor que un tercer número umbral; y - analizar las lecturas de secuencia restantes del conjunto para determinar variantes en la región diana del genoma de la muestra, en el que identificar una región alterna incluye: - contar un número de lecturas de secuencia que difieren cada una de la región diana del genoma de referencia en una misma pluralidad de localizaciones, teniendo las lecturas de secuencia las mismas variaciones en relación con la región diana que forma un grupo alterno; - si el número excede un valor de corte, realizar una alineación de una primera lectura de secuencia del grupo alterno con el genoma de referencia; y - si la alineación de la primera lectura de secuencia con una primera región del genoma de referencia tiene menos variaciones que la alineación con la región diana, identificar la primera región como una región alterna.

Description

DESCRIPCIÓN
Cartografía rápida y exacta de lecturas de secuenciación dirigida
CAMPO DE LA INVENCIÓN
La presente divulgación se refiere, en general, al análisis de una muestra biológica usando secuenciación genómica, y más en particular, a la cartografía rápida y exacta de lecturas de secuenciación obtenidas a partir de un proceso de secuenciación dirigida.
ANTECEDENTES
Para un paciente particular, un médico puede desear analizar una o más regiones particulares (diana) del genoma del paciente (por ejemplo, 100-500 bases por región). Por ejemplo, se puede someter a prueba una parte específica de un gen de un paciente para detectar mutaciones. Como solo se van a analizar determinadas regiones, se han desarrollado técnicas para incrementar el porcentaje de segmentos genómicos (por ejemplo, fragmentos de ADN) en una muestra que son de la(s) región/regiones diana. Dichas técnicas incluyen amplificación y enriquecimiento de una región diana.
En la amplificación, los cebadores que se hibridan con una región diana se usan para amplificar segmentos genómicos que tienen secuencias que corresponden a la región diana. El resultado deseado es que la muestra contendría muchos segmentos genómicos de la región diana y, por tanto, cuando se secuencian los segmentos genómicos, un alto porcentaje de las lecturas correspondería a la región diana. Por tanto, no se desperdicia un esfuerzo de secuenciación significativo en la secuenciación de segmentos genómicos de regiones distintas de la diana del genoma. En el enriquecimiento, las sondas que se hibridan con una región diana se pueden usar para capturar segmentos genómicos que corresponden a la región diana, incrementando de este modo el porcentaje de lecturas que corresponden a la región diana.
Sin embargo, tanto en la amplificación como en el enriquecimiento, todavía se leen segmentos genómicos de otras partes del genoma. Como consecuencia, las técnicas actuales alinean (cartografían) las lecturas con todo el genoma para garantizar la exactitud, en particular cuando se analiza una región diana para detectar mutaciones en relación con un genoma de referencia. Es decir, una vez que se obtiene una lectura de secuencia, la secuencia se compara con el genoma de referencia para encontrar la localización genómica que es un mejor emparejamiento con la lectura. Después de que se han alineado las lecturas, a continuación se analizan las lecturas que se alinearon con una región diana. Esta alineación con todo el genoma es, desde el punto de vista computacional, costosa. Otro enfoque es el enriquecimiento de las regiones diana antes de la secuenciación. Jiang T. et al., Sci China Life Sci, (2011) vol. 54(10): 945-952 divulgan la captura de exones de una única micromatriz genética para obtener fragmentos de ADN diana, que se someten a un proceso de secuenciación de Illumina estándar. Solo se extraen las lecturas cartografiadas de forma exclusiva con respecto a un genoma de referencia para su análisis posterior.
Por lo tanto, es deseable proporcionar procedimientos, sistemas y aparatos mejorados que sean más eficaces desde el punto de vista computacional.
BREVE SUMARIO
La divulgación proporciona una cartografía rápida y exacta de lecturas de secuenciación obtenidas de una secuenciación dirigida. Por ejemplo, una vez que se selecciona una región diana, se pueden identificar regiones alternas del genoma que son suficientemente similares a la región diana. Si una lectura de secuenciación es más similar a la región diana que a una región alterna, entonces se puede determinar que la lectura se alinea con la región diana. A continuación, se pueden analizar las lecturas que se alinean con la región diana para determinar si existe una mutación en la región diana. En consecuencia, a continuación se puede comparar una lectura de secuenciación con la región diana y las regiones alternas correspondientes, y no con todo el genoma, proporcionando de este modo eficacia computacional.
De acuerdo con un modo de realización, un procedimiento detecta variantes en una región diana de un genoma de muestra de un organismo. Se recibe una pluralidad de lecturas de secuencia. Las lecturas de secuencia se obtienen a partir de la secuenciación de segmentos genómicos en una muestra obtenida del organismo, donde la secuenciación incluye la selección de segmentos genómicos de la región diana. Se identifican una o más regiones alternas que tienen un primer número respectivo de variaciones de la región diana de un genoma de referencia. Cada primer número respectivo es mayor que uno y menor que un primer número umbral. En el presente documento, la identificación de una región alterna incluye contar un número de lecturas de secuencia que difiere cada una de la región diana del genoma de referencia en una misma pluralidad de localizaciones, teniendo las lecturas de secuencia las mismas variaciones en relación con la región diana que forma un grupo alterno. Si el número excede un valor de corte, realizar una alineación de una primera lectura de secuencia del grupo alterno con el genoma de referencia. Si la alineación de la primera lectura de secuencia con una primera región del genoma de referencia tiene menos variaciones que la alineación con la región diana, identificar la primera región como una región alterna. Un sistema informático realiza una alineación de la pluralidad de lecturas de secuencia con la región diana del genoma de referencia para identificar un conjunto de lecturas de secuencia que se alinean con la región diana del genoma de referencia con menos de un segundo número umbral de variaciones. Las lecturas de secuencia que se alinean con una de las regiones alternas con un segundo número de variaciones que es menor que un tercer número umbral se pueden retirar del conjunto. Las lecturas de secuencia restantes del conjunto se analizan para determinar variantes en la región diana del genoma de la muestra.
Otros modos de realización están dirigidos a un sistema y un producto informático que implementan el procedimiento para detectar variantes en una región diana de un genoma de muestra de un organismo como se describe anteriormente.
Se puede obtener una mejor comprensión de la naturaleza y de las ventajas de la presente invención con referencia a la siguiente descripción detallada y a los dibujos adjuntos.
DEFINICIONES
Como se usa en el presente documento, una "muestra biológica" incluye moléculas de ácido nucleico que provienen del genoma del organismo del que se obtuvo la muestra. Por ejemplo, la muestra puede incluir células que contienen un genoma codificado en cromosomas. Un "segmento genómico" es una molécula de ácido nucleico que está secuenciada total o parcialmente, donde la molécula proviene del genoma de un organismo. El segmento se puede crear fragmentando piezas más grandes de un genoma, por ejemplo, sometiendo una célula a ondas sónicas. Se puede secuenciar un segmento genómico para proporcionar una "lectura de secuenciación" (también llamada "lectura de secuencia" o solo "lectura"). La lectura de secuenciación puede ser de todo el segmento genómico o solo de parte del segmento.
Una "región diana" es una región del genoma donde los fragmentos se han amplificado usando cebadores y un proceso de amplificación o se han enriquecido usando sondas. Una "región alterna" es una región que es similar a una región diana, por ejemplo, que tiene un número de variaciones menor que uno especificado, que se puede especificar como un porcentaje del total de bases de una secuencia. Un "genoma de referencia" (también llamado simplemente "referencia") es cualquier secuencia conocida con la que se alinean las lecturas de secuencia. El genoma de referencia puede corresponder a la totalidad o solo a parte del genoma de un organismo. Un genoma de referencia también puede incluir genomas de más de un organismo. Por ejemplo, una lectura de secuencia se podría comparar también con una base de datos de virus, ya que dichos virus podrían estar en la muestra biológica.
Una variación (también llamada variante o mutación) se refiere a una diferencia entre dos secuencias. Por ejemplo, se puede contar una diferencia entre una lectura de secuencia y una región diana de un genoma de referencia, y se podría identificar una mutación (por ejemplo, si una lectura de secuencia suficiente muestra la mutación). Una variación puede ser, por ejemplo, un cambio de una base por una o más de otras bases, una inserción de una o más bases o una deleción de una o más bases. Se puede producir una variación en uno o ambos cromosomas. Se pueden usar modos de realización para determinar si una lectura de secuencia es una prueba de una mutación o realmente un segmento genómico de una parte similar del genoma.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
La FIG. 1 es un diagrama de flujo que ilustra un procedimiento 100 de detección de variantes en una región diana de un genoma de muestra de un organismo.
La FIG. 2A muestra la secuencia de referencia (SEQ ID NO: 1) para una región diana del genoma.
La FIG. 2B muestra una lectura de secuencia (SEQ ID NO: 2) que se separó por filtración por MCF de acuerdo con los modos de realización de la presente invención.
La FIG. 3 muestra una comparación de una lectura de secuencia 310 (SEQ ID NO: 3) en relación con una secuencia diana (es decir, región diana) 320 (SEQ ID NO: 4) de acuerdo con los modos de realización de la presente invención.
La FIG. 4 muestra otro ejemplo de una comparación de una lectura de secuencia 410 (SEQ ID NO: 6) en relación con una secuencia diana (es decir, región diana) 420 (SEQ ID NO: 5) de acuerdo con los modos de realización de la presente invención.
La FIG. 5 muestra otro ejemplo de una comparación de una lectura de secuencia 510 (SEQ ID NO: 8) en relación con una secuencia diana (es decir, región diana) 520 (SEQ ID NO: 7) de acuerdo con modos de realización de la presente invención.
La FIG. 6 es un diagrama de flujo que ilustra un procedimiento para detectar variantes en una región diana de un genoma de muestra de un organismo de acuerdo con los modos de realización de la presente invención.
La FIG. 7 es un diagrama de flujo de un procedimiento 700 para identificar una región alterna correspondiente a una región diana de acuerdo con los modos de realización de la presente invención.
La FIG. 8 muestra un diagrama de bloques de un sistema informático 800 de ejemplo que se puede usar con el sistema y los procedimientos de acuerdo con los modos de realización de la presente invención.
La FIG. 9 es una tabla que muestra mutaciones complejas que aparecen en múltiples muestras y múltiples experimentos de acuerdo con los modos de realización de la presente invención.
DESCRIPCIÓN DETALLADA
Una región específica de un genoma se puede analizar eficazmente usando secuenciación dirigida. Por ejemplo, el porcentaje de segmentos genómicos de una muestra biológica se puede incrementar clonando segmentos que corresponden a una región diana (por ejemplo, usando cebadores en un proceso de amplificación, tal como la reacción en cadena de la polimerasa (PCR)) y/o usando sondas para capturar, preferentemente, segmentos que corresponden a una región diana. Los segmentos genómicos de la muestra con incremento de la diana (un ejemplo de una muestra biológica) se pueden secuenciar y analizar para investigar posibles mutaciones en una región diana.
Como solo se está interesado en las regiones diana, se podrían alinear las lecturas de secuencia solo con la(s) región/regiones diana. Esto reduciría el esfuerzo computacional en relación con la alineación de las lecturas con todo el genoma de referencia. Sin embargo, un proceso de este tipo puede dar lugar a errores. Por ejemplo, en la detección de variantes usando secuenciación de nueva generación de gran rendimiento con una etapa previa de amplificación o enriquecimiento, es posible que el amplicón/la colección enriquecida (muestra con incremento de la diana) contenga lecturas positivas falsas, es decir, lecturas correspondientes a segmentos genómicos que no corresponden a la(s) región/regiones diana prevista(s). Estas lecturas pueden dar lugar a un informe de mutación incorrecto y pueden proporcionar información engañosa para el desarrollo de productos o incluso conclusiones de diagnóstico erradas. Los positivos falsos se pueden reducir por diversos procedimientos, tales como el diseño apropiado de los cebadores y el desarrollo de enzimas de alta fidelidad. Sin embargo, todavía quedan positivos falsos.
Los modos de realización pueden proporcionar soluciones para excluir las lecturas positivas falsas de una manera eficaz. Como ejemplo, para las lecturas que son significativamente diferentes de la diana, un filtro de recuento de mutaciones (MCF) para identificar y excluir las lecturas que son significativamente diferentes de una diana. Otro ejemplo es identificar lecturas positivas falsas que corresponden a regiones alternas que son similares a una región diana.
En un modo de realización, las regiones alternas (distintas de la diana) del genoma se identifican específicamente. Las variaciones entre las regiones alternas y la región diana se pueden observar específicamente. Cuando una lectura de secuencia se empareja con la región diana, excepto por el determinado número de variaciones específicas características de una región alterna identificada, esa lectura de secuencia se puede descartar del análisis de la región diana. De esta manera, las lecturas de secuencia solo necesitan estar alineadas con la región diana y se descartan los positivos falsos.
Las regiones alternas se pueden identificar con anticipación y almacenar en una base de datos. Una vez que se selecciona una región diana, se pueden leer las regiones alternas. En una implementación que determina las regiones identificadas, se puede usar un informe de mutaciones complejas (por ejemplo, más de una variación en relación con la región diana) para encontrar combinaciones de variantes que aparecen en múltiples experimentos y/o múltiples muestras. Si la secuencia de la mutación compleja es común (es decir, detectada una cantidad suficiente de veces), la secuencia de mutación compleja se puede alinear con el genoma de referencia para identificar si corresponde a una región alterna. Por tanto, las lecturas que corresponden a la combinación de variantes específica (es decir, la combinación de variantes dada por la alterna en relación con la región diana) se pueden descartar del análisis de mutaciones de la región diana.
En algunos modos de realización, se pueden analizar múltiples regiones diana al mismo tiempo. En dichos modos de realización, las lecturas de secuenciación se pueden comparar con la totalidad de las regiones diana y las regiones alternas correspondientes. Pero, puesto que el número de regiones es relativamente pequeño en comparación con todo el genoma de referencia, la alineación todavía es eficaz. Por ejemplo, se han usado satisfactoriamente los modos de realización en datos del proyecto Cancer Gene Panel con hasta 60 amplicones de 12 genes relacionados con el cáncer.
I. SECUENCIACIÓN DIRIGIDA
Un experimento de secuenciación puede generar varios millones de lecturas. Es muy arduo cartografiar la totalidad de las lecturas con respecto al genoma completo en términos de tiempo computacional y recursos de memoria. Para los experimentos con incremento de la diana (por ejemplo, con amplificación o enriquecimiento), el interés principal está en las lecturas que cartografían con respecto a las regiones diana (por ejemplo, una región particular de un gen o el gen completo). Sin embargo, si el sistema informático solo cartografía con respecto a la referencia en estas regiones diana, puede sobrestimar la cobertura de lecturas en las regiones diana al omitir que algunas lecturas se pueden cartografiar mejor en cuanto a otras partes del genoma. Pero la cartografía con respecto a todo el genoma es costosa. En consecuencia, los modos de realización pueden cartografiar solo con respecto a determinadas partes del genoma mientras que proporcionan resultados exactos.
La FIG. 1 es un diagrama de flujo que ilustra un procedimiento 100 de detección de variantes en una región diana de un genoma de muestra de un organismo. Al igual que con otros procedimientos, los modos de realización pueden incluir la totalidad o algunas de las etapas descritas, y algunas etapas se pueden realizar con un sistema informático. Los resultados del procedimiento 100 se pueden usar por un médico en la determinación de un diagnóstico del organismo.
En el bloque 110, se recibe una muestra biológica. La muestra biológica incluye ADN, que puede estar en segmentos genómicos de cromosomas o como cromosomas intactos. Por ejemplo, algunas células se pueden obtener de un paciente que se está sometiendo a prueba para detectar mutaciones en regiones particulares del genoma. Las células se podrían obtener de una biopsia de un tumor que se está sometiendo a prueba para detectar cáncer.
El ADN de la muestra se puede fragmentar, por ejemplo, por ultrasonido u otros procedimientos adecuados para obtener segmentos genómicos más pequeños. Por ejemplo, se pueden obtener segmentos genómicos de 200-500 bases de longitud. Para determinados procedimientos de secuenciación, son preferentes los segmentos genómicos de aproximadamente esta longitud. Sin embargo, los modos de realización pueden usar segmentos genómicos de cualquier longitud.
Los segmentos genómicos se pueden marcar con un código de barras o un identificador múltiple (MID). Por ejemplo, se puede añadir una secuencia de 10 bases (por ejemplo, usando una ligasa) en el extremo de un segmento genómico. De esta manera, se pueden secuenciar segmentos de diversas muestras en paralelo durante un mismo experimento de secuenciación usando el ID para multiplexar. El ID se puede leer como parte de una lectura de secuencia, y las lecturas con el mismo ID se pueden atribuir a una misma muestra y analizar como grupo. Las diferentes muestras pueden provenir de diferentes personas o de la misma persona (por ejemplo, diferentes biopsias) y pueden usar diferentes condiciones experimentales.
En el bloque 120, se incrementa el porcentaje de segmentos genómicos de la región diana en la muestra. En diversos modos de realización, el porcentaje se puede incrementar amplificando y/o enriqueciendo la muestra en cuanto a ADN de una o más regiones diana del genoma. La muestra resultante se puede denominar muestra con incremento de la diana. Típicamente, una región diana tendría pertinencia diagnóstica, por ejemplo, para ver si existe alguna mutación relacionada con el cáncer.
Como ejemplos, la región diana puede ser aproximadamente de unos pocos cientos de bases, por ejemplo, 150­ 250 bases, 150-400 bases o 200-600 bases. La adición de un ID específico de muestra se puede producir en diferentes puntos. Por ejemplo, el ID se podría añadir después de la amplificación/enriquecimiento y a continuación mezclar las muestras entre sí. De esta manera, se podrían amplificar o enriquecer las diferentes muestras para diferentes regiones diana. En una implementación, se usan aproximadamente 60 regiones diana.
En un modo de realización, se pueden usar cebadores directos e inversos para amplificar una región diana. Estos cebadores directos e inversos pueden tener diversas longitudes, por ejemplo, aproximadamente 15-30 bases de longitud. Idealmente, los cebadores solo amplifican una parte del genoma. Sin embargo, con una longitud de aproximadamente 15 bases, esto no siempre es posible. Incluso usando 30 bases puede no siempre proporcionar una amplificación exclusiva. Se podrían usar cebadores más largos, pero es posible que los cebadores más largos no se hibriden eficazmente.
En otro modo de realización, se pueden usar sondas para capturar segmentos genómicos que corresponden a la región diana. Por ejemplo, se pueden colocar en una superficie sondas que están diseñadas para hibridarse con la región diana. A continuación, se pueden colocar sobre la superficie los segmentos genómicos y se hibridarán preferentemente los segmentos de la región diana. Por ejemplo, se puede construir una micromatriz con las sondas y bañar la micromatriz con los segmentos. La especificidad de las sondas puede experimentar los mismos problemas que el cebador para amplificación. Algunas sondas pueden tener 70 bases de longitud para una región diana de 300 bases de longitud. Como la sonda puede capturar cualquier extremo de un segmento genómico, los segmentos podrían abarcar, por ejemplo, una región de 300 bases a aproximadamente 550 bases para segmentos genómicos de hasta 250 bases. En otro modo de realización, se podrían realizar tanto la amplificación como el enriquecimiento.
Aunque algunas otras áreas del genoma también se pueden amplificar si los cebadores no son lo suficientemente específicos y algunas otras áreas del genoma se podrían hibridar con las sondas de enriquecimiento, el porcentaje de segmentos de las regiones diana se debería incrementar. Debido a la especificidad imperfecta en el diseño del cebador, la bioquímica de un experimento podría provocar la amplificación de otras regiones.
En el bloque 130, las lecturas de secuencia se determinan a partir de segmentos genómicos en la muestra. En el proceso de secuenciación, los clones de un mismo segmento creado en un proceso de amplificación pueden tener su secuencia determinada por separado (y contada posteriormente). En algunas implementaciones, se obtienen aproximadamente 3000 lecturas por muestra. El número de lecturas puede depender del tamaño de la muestra, cuánta amplificación se realizó como parte del incremento de la diana y el ancho de banda del proceso de secuenciación (es decir, para cuánta secuenciación se configura el aparato, por ejemplo, cuántas microesferas se usan). Por tanto, no se podría secuenciar la totalidad de los segmentos en una muestra. En un modo de realización, las lecturas tienen aproximadamente 150-250 bases de longitud. Un experto en la técnica apreciará las variadas técnicas disponibles para realizar la secuenciación.
El proceso de secuenciación se puede realizar por diversas técnicas. En un modo de realización, los fragmentos pueden experimentar una amplificación como parte de la secuenciación. Cuando se usó la amplificación para crear una muestra con incremento de la diana, esta amplificación sería una segunda etapa de amplificación. La segunda amplificación puede proporcionar una señal más fuerte (por ejemplo, una señal fluorescente correspondiente a una base particular: A, C, G o T) que si no se hubiera realizado la segunda amplificación. Y los diferentes amplicones no dan como resultado lecturas de secuencia separadas.
En un ejemplo de un proceso de secuenciación, los fragmentos amplificados de la etapa 120 (por ejemplo, cuando se produce la amplificación en una solución) se pueden unir cada uno a una microesfera. A continuación, el fragmento unido se puede amplificar en la microesfera y se puede obtener una lectura de secuencia de cada microesfera. Para los modos de realización que usan una superficie, un fragmento se puede unir a una superficie y a continuación amplificar para crear un único agrupamiento en la superficie. Se puede obtener una única lectura de secuencia para cada agrupamiento. Una lectura de secuencia puede ser para toda la longitud de un segmento genómico, parte de un extremo o parte de ambos extremos.
Una lectura de secuencia puede incluir las bases que corresponden al segmento real, las bases correspondientes a un ID específico de muestra, y marcas especiales (por ejemplo, 25 bases de longitud) que se pueden usar como parte de la secuenciación. Las marcas especiales pueden incluir parte de un adaptador que se fija al extremo de un fragmento para recibir un cebador universal, y se podría leer parte del adaptador durante la secuenciación.
En un aspecto, la secuenciación se puede realizar en cualquier segmento genómico en la muestra enriquecida, incluso si el segmento no es una diana. Algunos de estos segmentos genómicos pueden corresponder a segmentos que estaban originalmente en la muestra, pero que no eran dianas. Algunos de los segmentos distintos de la diana que se secuencian también se pueden atribuir a la amplificación o captura de partes no deseadas del genoma.
En el bloque 140, una pluralidad de lecturas de secuencia se alinean con una región diana de un genoma de referencia. Al alinear, el proceso puede comparar las lecturas de secuencia con la región diana para determinar el número de variaciones entre la lectura de secuencia y la región diana. Un emparejamiento perfecto no mostraría variaciones. Se puede usar una parte o la totalidad de las lecturas de secuencia obtenidas en el proceso de alineación. Por ejemplo, si la longitud de una lectura es demasiado corta o demasiado larga, entonces se puede retirar antes de la alineación.
La alineación se puede realizar para minimizar el número de variaciones entre la lectura de secuencia y la región diana. Obsérvese que la lectura de secuencia puede ser más pequeña o más grande que la región diana. Si la lectura de secuencia es más grande, solo se podría contar el número de variaciones en la región diana.
En un modo de realización, las lecturas solo se alinean con una región diana, ahorrando de este modo esfuerzo computacional. Como la alineación puede ser específica solo para las una o más regiones diana, la alineación puede ser rápida ya que no se tiene que buscar en todo el genoma. Además, a medida que se incrementa el porcentaje de segmentos correspondientes a una región diana, un número sustancial de las lecturas se debería emparejar favorablemente con la región diana (por ejemplo, relativamente pocas variaciones).
En un modo de realización, si se usan múltiples regiones diana, entonces se puede comparar una lectura de secuencia con la totalidad de las regiones diana, y se puede identificar la región diana que proporciona la mejor alineación. Por ejemplo, las diferentes regiones diana pueden ser diferentes genes o diferentes exones con un gen. Por tanto, se podría identificar el exón con la mejor alineación.
Si se usa un código de barras o un ID, se puede retirar antes de la alineación. El ID se puede usar para organizar la totalidad de las lecturas para una muestra particular en un grupo. De esta manera, las mutaciones de otras muestras no afectarán el análisis de la presente muestra. Esta agrupación se denomina desmultiplexación. Cada muestra se podría alinear con un genoma de referencia diferente o con una parte diferente del genoma de referencia. Como diferentes muestras pueden tener diferentes regiones diana, el ID se puede usar para determinar qué región/regiones diana de un genoma de referencia se debe(n) comparar para la alineación.
En la etapa 150, las lecturas de secuencia que difieren de una región diana en más de un número umbral de variaciones se descartan del análisis de la región diana. Si el número de variaciones es mayor que el umbral, esto es una indicación de que el segmento genómico correspondiente a la lectura de secuencia no procedía de la región diana, dado que la lectura era muy diferente. Sin embargo, se permitirían algunas variaciones, ya que un análisis posterior puede intentar identificar mutaciones, que de otro modo se omitirían.
Los valores de ejemplo para el umbral son 5-10 bases. En un modo de realización, el umbral depende del tamaño de la región diana. Por ejemplo, si la región diana tiene 200 bases, entonces el número de variaciones se puede limitar a un 20 o a un 10 %. Si las regiones diana tuvieran 150 bases, entonces el umbral podría tener 15 bases.
Para cada región diana, las lecturas que tienen menos de (y potencialmente son iguales a) el umbral se pueden identificar, por ejemplo, como un grupo. A continuación, se puede analizar además este grupo de lecturas en relación con la región diana. En algunos modos de realización, si una lectura satisface el umbral para más de una región diana, entonces se puede añadir a ambos grupos. Se puede realizar un seguimiento de una lectura de este tipo de modo que, finalmente, no se cuente como una mutación para más de una región diana.
En el bloque 160, se determina si las lecturas de secuencia restantes provienen de la región diana o de una región alterna del genoma previamente identificada. Por ejemplo, se pueden usar el número de variaciones entre la lectura y la región diana, y el número de variaciones entre la lectura y la región alterna para determinar cuál es un mejor emparejamiento. Se puede determinar el número de variaciones entre la lectura y una región alterna alineando la lectura con la región alterna directamente o usando las variaciones conocidas entre la región diana y la región alterna. En cualquier caso, como las regiones alternas ya están identificadas, la cantidad de trabajo adicional es relativamente pequeña en comparación con una alineación con el genoma completo.
Las regiones alternas se pueden identificar como regiones que son similares a la región diana, por ejemplo, el número de variaciones está dentro de un umbral. Un umbral de este tipo puede ser menor que el umbral usado en el bloque 150. Las técnicas de ejemplo para identificar regiones alternas se describen con más detalle a continuación.
Además de determinar si las lecturas de secuencia restantes provienen de la región diana o de una región alterna del genoma, también se puede determinar si la mutación es una mutación común comparándola con bases de datos conocidas de mutaciones comunes. Estas mutaciones pueden ser para la misma región diana. Dichas mutaciones comunes se podrían producir para una determinada población o subpoblación de personas, que es diferente del genoma de referencia usado. Además, las regiones alternas podrían provenir de un genoma diferente, por ejemplo, de una base de datos genómica de virus que podrían acabar en la muestra biológica.
En el bloque 170, las lecturas de secuencia de la región diana se usan para identificar mutaciones en la región diana. Como parte de esta etapa, se puede determinar la frecuencia de cada variación. Por ejemplo, para una posición particular en una región diana, se puede contar el número de veces que aparece una mutación G en lugar de una A normal. Se puede determinar un porcentaje de veces que se ven las mutaciones G a partir del total de lecturas que se alinearon con esa posición. En un modo de realización, se puede requerir que el porcentaje de una mutación particular sea mayor que un umbral (filtro de abundancia) para que se considere una mutación real. Se pueden identificar las variaciones que se producen conjuntamente y se pueden clasificar como parte de una misma mutación.
Un médico podría examinar las mutaciones identificadas y usarlas para diagnosticar una predisposición al cáncer o para identificar un tumor como que es canceroso. Por ejemplo, las mutaciones pueden ser similares a las mutaciones para diferentes regiones que se han identificado que están asociadas con el cáncer. Si se retiran las mutaciones conocidas, las mutaciones identificadas serían nuevas mutaciones. Si es conocido que un tumor es canceroso, se podrían anotar estas nuevas mutaciones como que están asociadas con el cáncer.
II. FILTRO DE RECUENTO DE MUTACIONES (MCF)
Cuando las lecturas de secuencia se alinean con una región diana particular, algunas lecturas pueden variar ampliamente de una región diana. Esto puede ser debido a que se están analizando varias regiones diana al mismo tiempo, debido a que un segmento genómico perdido se capturó por una sonda en un enriquecimiento, debido a que se secuenció un segmento genómico no clonado o por otros motivos. Como se menciona anteriormente, un filtro es el filtro de recuento de mutaciones (MCF). Este filtro retira las lecturas de secuencia que son significativamente diferentes de una diana.
Cuando una lectura es significativamente diferente de la diana, mostrará muchas variantes. El filtro MCF se puede usar en dichas situaciones. Se puede usar un umbral para el número total de variaciones, o se puede usar un umbral para el número de un tipo específico de variación. Se pueden usar conjuntamente ambos tipos de umbrales.
Algunos modos de realización pueden usar este filtro con los siguientes parámetros para cada lectura con cebadores reconocidos: número de sustituciones > 6, o número de inserciones-deleciones de homopolímero > 5, o número de otras mutaciones simples > 5, o número total de mutaciones simples > 10. Otros modos de realización usan los siguientes parámetros de: número de sustituciones > 12, número de inserciones-deleciones de homopolímero > 10, o número de otras mutaciones simples > 12, o número total de mutaciones simples > 2.
La FIG. 2A muestra la secuencia de referencia 200 para una región diana del genoma. Las letras minúsculas se refieren a cebadores específicos de genes y las letras mayúsculas se refieren a la región diana genómica de interés. En el ejemplo mostrado, el cebador directo tiene 15 bases y el cebador inverso tiene 15 bases. Específicamente, esta secuencia proviene de CDKN2A_Exon_1.
La FIG. 2B muestra una lectura de secuencia 250 que se separó por filtración por MCF de acuerdo con los modos de realización de la presente invención. En un experimento, había 325 lecturas directas y 252 lecturas inversas que tenían el mismo patrón de lectura de secuencia 250. El símbolo "/" indica la base emparejada en el cebador directo, el símbolo "\" indica la base emparejada en el cebador inverso, un punto indica la base emparejada en la diana, un guion indica deleción, una letra minúscula indica la base de inserción, una letra mayúscula indica la base de sustitución.
Como se puede ver, existen muchas variaciones aunque los cebadores se emparejen perfectamente. Debido a que existen muchas mutaciones, estas lecturas se filtran por el MCF y no se usan para el cálculo de mutaciones. En una implementación, un cálculo de mutaciones es un recuento de las mutaciones en cada posición de la región diana que aparece en las lecturas de secuencia determinadas para corresponder a la región diana. Un cálculo puede incluir qué mutaciones tienden a producirse en una misma lectura de secuencia.
Tras la investigación, se encontró que la lectura de secuencia 250 se alinea casi perfectamente con la preproproteína cadherina-4 en el cromosoma 20 (obsérvese que el gen CDKN2A está en el cromosoma 9). Por tanto, estas lecturas erróneas se pueden atribuir a una amplificación accidental de una región diferente del genoma, es decir, distinta de la región diana. La alineación es casi perfecta excepto que existe una base adicional en el extremo 5' de la secuencia de consulta (en la región del cebador) y cuatro bases adicionales en el extremo 3' de la secuencia de consulta. Este estudio indica que MCF puede filtrar segmentos genómicos significativamente diferentes de la diana. También sugiere que el desarrollo de una enzima de alta fidelidad que pueda amplificar una región diana de forma exclusiva puede ser importante.
III. REGIONES ALTERNAS
Dada la identificación de que los cebadores usados para la amplificación a veces no son muy específicos, se pueden amplificar otras regiones del genoma cuando las otras regiones son en parte totalmente similares a la región diana (por ejemplo, la otra región puede diferir en cinco localizaciones). Por tanto, se pueden amplificar las partes no deseadas del genoma durante un procedimiento de selección que se produce antes de la secuenciación, como se muestra anteriormente para las FIGS. 2A y 2B. De forma similar, las sondas de enriquecimiento para capturar dianas pueden no ser muy específicas.
Dichas secuencias similares se podrían identificar como una lectura mutante de la región diana, pero en realidad son simplemente una secuencia natural de una parte diferente del genoma. Por lo tanto, estas secuencias de una parte alterna del genoma pueden dar como resultado positivos falsos (es decir, identificarse incorrectamente como una mutación). Las lecturas de secuencias distintas de la diana resultantes pueden ser muy diferentes de una región diana y, por tanto, se puede usar un filtro de recuento de mutaciones (MCF). Sin embargo, puede haber ocasiones donde las diferencias no sean grandes, pero las lecturas sean todavía el resultado de la amplificación y/o captura de otras partes del genoma. Estas lecturas pueden ser bastante similares a la diana, por ejemplo, tener solo 3-7 variaciones. Estas lecturas similares a una región diana, pero no la diana, se deben excluir del cálculo de mutaciones de los genes diana.
La FIG. 3 muestra una comparación de una lectura de secuencia 310 en relación con una secuencia diana (es decir, región diana) 320 de acuerdo con los modos de realización de la presente invención. La lectura de secuencia 310 se muestra en la parte superior de cada una de las cinco filas, y la secuencia diana 320 se muestra en la parte inferior de cada una de las cinco filas. Las posiciones de la lectura de secuencia 310 se muestran con los marcadores 311. La fila superior muestra las posiciones 1-60, la segunda fila muestra las posiciones 61-120, la tercera fila muestra las posiciones 121-180, la cuarta fila muestra las posiciones 181-239 y la quinta fila muestra las posiciones 240-248, usando un sistema de coordenadas de amplicón basado en 0. Las posiciones 1-24 corresponden a un cebador directo y las últimas 26 posiciones corresponden al cebador inverso, y la región diana está entremedias.
La lectura de secuencia 310 fue un emparejamiento perfecto en BLAST (herramienta básica de búsqueda de alineación local) con un seudogén en el cromosoma 22 y la secuencia diana 320 corresponde a PIK3CA_Exon_10 en el cromosoma 3. La alineación de la lectura de secuencia 310 con la secuencia diana 320 usando BLAST se muestra en la comparación de la FIG. 3. Cada línea vertical entre las posiciones correspondientes en la lectura de secuencia 310 y la secuencia diana 320 muestra un emparejamiento, y la ausencia de una línea vertical indica un emparejamiento erróneo. La lectura de secuencia 310 es un ejemplo de una región alterna para la región diana 320.
La alineación muestra que existen tres variantes, una variante 331 está en la región del cebador en la posición 6 (transición de C>T) y las otras dos variantes 332 y 333 están en la región diana. La variante 332 está en la posición 174 y muestra una transición de A>C. La variante 333 se compone de dos diferencias en las posiciones 198-199 con una transición de GT>C, donde se deleciona T. En otro modo de realización, la variante 333 se puede contar como dos variaciones separadas. La variante 331 en la región del cebador en la posición 6 muestra que un cebador se puede hibridar todavía cuando existe un emparejamiento erróneo o que los cebadores pueden cambiar bioquímicamente y por tanto hibridarse con una parte diferente del genoma. Que haya solo dos variaciones dentro de una secuencia relativamente larga muestra que el MCF no retira la totalidad de los positivos falsos, ya que los positivos verdaderos pueden tener dos variaciones, y potencialmente más, hasta el valor de corte del MCF.
La existencia de estas dos variantes 332 y 333 (un ejemplo de combinación de mutaciones) correspondería realmente al seudogén en el cromosoma 22, en lugar de clasificarse como una mutación de PIK3CA_Exon_10 en el cromosoma 3. En consecuencia, si el sistema informático ve en una lectura de secuencia las dos variantes 332 y 33 que se emparejan con el seudogén, entonces la lectura de secuencia no se debe contar en un cálculo final. Este mismo enfoque se puede aplicar a otras regiones alternas similares a la región diana 320, y aplicar a otra región diana, como se detalla en el presente documento.
La FIG.4 muestra otro ejemplo de una comparación de una lectura de secuencia 410 en relación con una secuencia diana (es decir, región diana) 420 de acuerdo con los modos de realización de la presente invención. La secuencia diana 420 se muestra en la parte superior de cada una de las tres filas, y las variantes en la lectura de secuencia 410 se muestran en la parte inferior de cada una de las tres filas. Los emparejamientos entre la secuencia diana 420 y la lectura de secuencia 410 se muestran con un punto "." y las variaciones se muestran como una base diferente.
La lectura de secuencia 410 corresponde al gen CDKN2B y la secuencia diana 420 corresponde a CDKN2A_Exon_2.1. Como se puede ver, CDKN2B y CDKN2A_Exon_2.1 son similares. Tres variantes 431,432 y 439 están en la región del cebador, estando las variantes 431 y 432 en el cebador directo y la variante 439 en el cebador inverso.
Existen seis mutaciones (variantes) en la región diana. La variante 433 está en la posición 54 mostrando una transición de A>C. La variante 434 está en la posición 99 mostrando una transición de C>A. La variante 435 está en la posición 105 mostrando una transición de C>T. La variante 436 está en la posición 123 mostrando una transición de C>G. La variante 437 está en la posición 129 mostrando una transición de C>T. La variante 438 está en la posición 123 mostrando una transición de C>T. Se puede usar esta combinación de variantes para excluir las lecturas de CDKN2B del cálculo de mutaciones de CDKN2A_Exon_2.1. Dada la posibilidad de mutaciones en CDKN2B, un modo de realización puede excluir una lectura de secuencia si tiene más de la mitad del número de variantes (en este ejemplo, cuatro o más variantes) para excluir la lectura de secuencia del cálculo de CDKN2A_Exon_2.1.
La FIG. 5 muestra otro ejemplo de una comparación de una lectura de secuencia 510 en relación con una secuencia diana (es decir, región diana) 520 de acuerdo con los modos de realización de la presente invención. La secuencia diana 520 se muestra en la parte superior de cada una de las tres filas, y las variantes en la lectura de secuencia 510 se muestran en la parte inferior de cada una de las tres filas. Los emparejamientos entre la secuencia diana 520 y la lectura de secuencia 510 se muestran con un punto "." y las variaciones se muestran como una base diferente.
La secuencia diana 520 corresponde a PTEN_Exon_5.1.2 y la lectura de secuencia 410 corresponde a un segmento genómico similar (es decir, una región alterna). Una variante 531 está en la región del cebador y las tres variantes 532-534 están en la región diana. La variante 532 muestra una transición de G>A. La variante 533 muestra una transición de A>T. La variante 534 muestra una transición de G>A. De nuevo, esta combinación de variantes en la región diana se puede usar para excluir esas lecturas de un cálculo de mutaciones de PTEN_Exon_5.1.2. Se pueden usar diversos procedimientos para identificar regiones alternas, por ejemplo, usando los modos de realización descritos en el presente documento.
IV. DIFERENCIACIÓN ENTRE REGIONES DIANA Y ALTERNAS
Como se muestra anteriormente, algunas partes de un genoma (por ejemplo, un genoma humano) pueden ser similares a otras partes del genoma. Como resultado, una lectura de secuencia obtenida de un proceso de secuenciación dirigida (por ejemplo, amplificación o enriquecimiento seguido de una secuenciación usando adaptadores universales) podría ser similar a una región diana, pero de hecho provenir de otra parte del genoma.
Por ejemplo, un par de cebadores de amplificación podría amplificar más de una parte del genoma. Un buen diseño de cebador puede reducir o a veces evitar dicha amplificación accidental, pero esto no siempre es posible.
Para identificar que un segmento genómico proviene realmente de una región distinta de la diana, los algoritmos pueden alinear las lecturas de secuencia con el genoma completo para encontrar el mejor emparejamiento. Sin embargo, alinear una secuencia con el genoma completo puede ser bastante costoso en términos de tiempo computacional. En particular, cartografiar una gran cantidad de lecturas con respecto al genoma humano completo es arduo en términos de tiempo y recursos computacionales.
Para acelerar el proceso de cartografía con poca o ninguna pérdida de información sobre regiones alternativas, algunos modos de realización pueden: (1) identificar los segmentos de secuencia alternativos similares a los genes de referencia de interés, (2) cartografiar las lecturas con respecto a los genes de referencia de interés, (3) cartografiar las lecturas con respecto a los segmentos alternativos y (4) encontrar la mejor cartografía obtenida a partir de (1) y (3). Una lectura se podría alinear con varias de las regiones sometidas a prueba. En este caso, la calidad (por ejemplo, el número de emparejamientos erróneos) de la alineación se puede usar para determinar el mejor emparejamiento.
Los modos de realización pueden incrementar la velocidad computacional y reducir los requisitos de memoria informática. Los modos de realización también pueden aprovechar la computación en paralelo para hacer que la computación sea incluso más rápida. Los modos de realización no se limitan a la secuenciación. Por ejemplo, puesto que los resultados de la PCR y el enriquecimiento también se pueden analizar con secuenciación, los modos de realización se pueden usar para identificar las causas potenciales de positivos falsos en las pruebas de PCR y las pruebas basadas en el enriquecimiento.
La FIG. 6 es un diagrama de flujo que ilustra un procedimiento para detectar variantes en una región diana de un genoma de muestra de un organismo de acuerdo con los modos de realización de la presente invención. El procedimiento 600 se puede usar como parte de un proceso que se usa para detectar variantes que podrían estar relacionadas con el cáncer. Las regiones alternas se pueden identificar en un proceso realizado previamente o identificar como parte de un mismo proceso (por ejemplo, usando los mismos resultados de secuenciación) usado para detectar las variantes.
En el bloque 610, se reciben una pluralidad de lecturas de secuencia. Las lecturas de secuencia se obtienen de la secuenciación de una pluralidad de segmentos genómicos en una muestra obtenida del organismo (por ejemplo, un ser humano o un animal). La secuenciación incluye la selección de segmentos genómicos de la región diana. Por ejemplo, se puede realizar una etapa de amplificación o enriquecimiento para incrementar el porcentaje de segmentos genómicos de una o más regiones diana en la muestra. A continuación, cuando se realiza la secuenciación, se incrementa la probabilidad de secuenciar (por ejemplo, usando adaptadores universales) un segmento genómico de una región diana. En un modo de realización, se reciben aproximadamente 3000 lecturas de secuencia por muestra. Otros modos de realización pueden recibir más o menos.
En el bloque 620, se identifican una o más regiones alternas que tienen un primer número respectivo de variaciones de la región diana de un genoma de referencia. Cada primer número respectivo es mayor que uno y menor que un primer número umbral. Por ejemplo, una primera región podría tener 5 variaciones de la región diana en un genoma de referencia. Si el primer número umbral es mayor que 5, entonces la primera región se puede identificar como una primera región alterna.
Si existe más de una región alterna, las diferentes regiones alternas pueden tener diferentes números de variaciones en relación con la región diana y, por tanto, los primeros números respectivos pueden ser diferentes. Los ejemplos del primer número umbral son un valor entre 6 y 10, incluyendo los números reales (es decir, no solo números enteros). Las regiones de alternancia pueden incluir mutaciones conocidas, e incluso regiones de otros genomas también. Por ejemplo, una región alterna puede corresponder a un genoma vírico o a otras secuencias incluidas.
En un modo de realización, las regiones alternas se pueden identificar accediendo a una base de datos que almacena regiones alternas previamente identificadas para las regiones diana correspondientes. Por ejemplo, una región diana puede tener un identificador correspondiente, y ese identificador se puede usar para hacer una referencia cruzada a las una o más regiones alternas que corresponden a la región diana. Por tanto, después de que un usuario introduce una región diana particular en el programa informático, el programa informático puede recuperar de la memoria las regiones alternas que se van a usar en el análisis de los resultados del experimento de secuenciación actual. En otro modo de realización, las regiones alternas se pueden identificar usando datos del presente experimento de secuenciación.
En el bloque 630, se identifica un conjunto de lecturas de secuencia que se alinean con la región diana del genoma de referencia con menos de un segundo número umbral de variaciones. La pluralidad de lecturas de secuencia se puede alinear con la región diana del genoma de referencia por medio de cualquier proceso adecuado, por ejemplo, usando BLAST. El número de variaciones se puede contar como el número de posiciones donde una base es diferente. En otros modos de realización, las posiciones vecinas (las contiguas son simplemente con un número específico de posiciones) donde existe una diferencia se pueden tratar como una única variación.
El segundo número umbral puede tener cualquier valor. En un modo de realización, el segundo número umbral es la mitad del primer número umbral más uno. Por ejemplo, si el primer número umbral es 10, entonces el segundo número umbral se puede elegir como seis. A continuación se explica el motivo de dicha elección. El segundo número umbral puede ser el mismo o mayor que el primer número umbral, pero por los motivos descritos en el presente documento, valores más pequeños pueden proporcionar resultados más eficaces.
Se puede someter a prueba una muestra para detectar más de una región diana a la vez. Por tanto, se puede realizar la alineación con cada una de las regiones diana. Pero, si las dianas ya están identificadas y recuperadas de la memoria, solo es necesario realizar la alineación con las regiones diana que se están investigando. Por tanto, si se está investigando la muestra para detectar una primera región diana y una segunda región diana, a continuación las lecturas de secuencia se pueden alinear solo con la primera región diana y la segunda región diana.
En el bloque 640, se puede retirar del conjunto una lectura de secuencia que se alinea con una de las regiones alternas con un segundo número de variaciones que es menor que un tercer número umbral. En un modo de realización, el tercer número umbral es la mitad del primer número correspondiente de variaciones que se retira del conjunto. Por ejemplo, supóngase que una primera región alterna tiene seis variaciones en relación con la región diana. Entonces, el primer número correspondiente de variaciones es seis. Si una primera lectura de secuencia tiene dos variaciones en relación con la primera región alterna (y potencialmente cuatro variaciones de la región diana), entonces se retiraría la primera lectura de secuencia. Como la primera lectura de secuencia es más similar a la primera región alterna, se puede estimar que la primera lectura de secuencia es el resultado de una mutación de la región alterna y no una mutación de la región diana. La totalidad de dichas lecturas de secuencia que se alinean mejor con una región alterna típicamente se retirarían, pero se podrían usar determinados criterios como una excepción para mantener algunas de dichas lecturas de secuencia.
En otros modos de realización, se puede usar un tercer número umbral más riguroso o menos riguroso, es decir, menor o mayor que la mitad del primer número correspondiente de variaciones. Por ejemplo, el tercer número umbral podría ser igual a uno (sin variaciones). Sin embargo, si se determinó la región alterna a partir de un paciente diferente y se recuperó de la memoria, entonces es posible que una mutación de la región alterna en la presente muestra contribuya con lecturas al conjunto. Para abordar un problema de este tipo, las lecturas de secuencia se podrían marcar para indicar un nivel en el que una lectura de secuencia se alinea con una región alterna. Por ejemplo, se podría mantener una lectura de secuencia que tiene una o dos variaciones de un umbral alterno, pero marcarse como que es similar a una región alterna. Si el primer número de variaciones de la región alterna fuera lo suficientemente grande (por ejemplo, 10), otras clasificaciones del nivel de diferencia de una lectura de secuencia podrían ser números mayores (tales como 3 o 4).
La alineación de una lectura de secuencia con una región alterna se puede realizar usando un proceso igual o similar que la alineación con la región diana. Por ejemplo, se puede usar BLAST. En otro modo de realización, la alineación de la una lectura de secuencia con una región alterna se puede lograr usando el conocimiento de las variaciones entre la región diana y la región alterna y la alineación con la región diana. Por ejemplo, si es conocido que la región diana y la región alterna tienen cinco variaciones específicas (por ejemplo, diferencias de bases en localizaciones específicas), una alineación de una lectura de secuencia con la región diana que muestra cuatro de las cinco variaciones específicas proporcionaría una alineación con la región alterna con la quinta variación específica. Esto puede proporcionar una alineación más rápida que usando directamente un procedimiento de alineación bruta que no usa el conocimiento de las variaciones entre la región diana y la región alterna.
En el bloque 650, las lecturas de secuencia restantes del conjunto se pueden analizar para determinar variantes en la región diana del genoma de la muestra. Por ejemplo, se pueden contar las variaciones de las secuencias restantes. En un modo de realización, se cuenta cada variación en una posición particular. Si la variación se produce un número suficiente de veces (por ejemplo, en comparación con un número absoluto o en comparación con un porcentaje del total de lecturas en el conjunto), entonces se puede clasificar la variación como una mutación. La eficacia y la sensibilidad de la cobertura de los modos de realización se pueden evaluar por la comparación con las técnicas intensivas desde el punto de vista computacional que cartografían con respecto al genoma completo para identificar el mejor emparejamiento.
V. IDENTIFICACIÓN DE REGIONES ALTERNAS
La identificación de una o más regiones alternas que tienen menos del primer número umbral de variaciones en relación con una región diana se puede realizar en una variedad de formas. Un procedimiento consiste en buscar en la base de datos completa para encontrar secuencias similares. Pero este enfoque lleva mucho tiempo y puede carecer de información sobre cómo se amplificarán las secuencias similares en los experimentos.
Otro enfoque es hacer uso de mutaciones complejas (por ejemplo, combinaciones de mutaciones) que se producen en las mismas lecturas de secuencia. Se puede generar un informe que muestre las frecuencias conjuntas de combinaciones de dos o más mutaciones simples. Las combinaciones de mutaciones que se producen en cantidad suficiente (por ejemplo, al menos un 1 %) son una indicación de que la mutación es realmente la existencia de una región alterna. Dichos segmentos genómicos alternativos también pueden provenir de una mutación común de la región diana. Por ejemplo, se puede producir una mutación común entre diferentes poblaciones, donde el segmento de una población se puede ver como un sustituto del segmento para una población diferente (por ejemplo, ascendencia europea frente a asiática).
En una implementación, para que una combinación de mutaciones simples sea un segmento genómico alternativo que tenga una influencia significativa en el cálculo de mutaciones, se pueden usar determinadas condiciones. Las condiciones de ejemplo son como sigue. La mutación de combinación debería aparecer en múltiples muestras y múltiples experimentos del conjunto de datos de adiestramiento. En segundo lugar, la frecuencia de la mutación de combinación dentro de una muestra no debe ser insignificante (por ejemplo, mayor a un 1 %). En tercer lugar, la secuencia correspondiente debe tener un emparejamiento casi perfecto (por ejemplo, sólo uno o dos emparejamientos erróneos) con un segmento genómico que es diferente de la diana.
La FIG. 7 es un diagrama de flujo de un procedimiento 700 para identificar una región alterna correspondiente a una región diana de acuerdo con los modos de realización de la presente invención. El procedimiento 700 se puede realizar como un proceso inicial en una o más muestras de investigación y la(s) región/regiones alterna(s) identificada(s) que corresponde(n) a regiones diana particulares se puede(n) almacenar o proporcionar en un programa informático a los usuarios finales (por ejemplo, laboratorios). De esta manera, los usuarios finales no tienen que identificar las regiones alternas por sí mismos. Por tanto, después de que un usuario introduce regiones diana particulares en el programa informático, el programa informático puede recuperar de la memoria estas regiones alternas previamente identificadas que se van a usar en el análisis de los resultados del experimento de secuenciación actual.
En el bloque 710, se obtienen una pluralidad de lecturas de secuenciación. El proceso de secuenciación implica la selección de una o más regiones diana, como se describe en el presente documento. En un modo de realización, el procedimiento 700 se puede realizar usando los resultados de secuenciación de un experimento de secuenciación inicial que se realiza antes del experimento de secuenciación de prueba que se usa para identificar mutaciones. Este experimento de secuenciación inicial puede usar una muestra de investigación que difiera de la muestra que se está sometiendo a prueba para detectar mutaciones. La muestra de investigación podría provenir del mismo organismo o de un organismo diferente. Este experimento de secuenciación inicial puede obtener una cantidad similar de lecturas (por ejemplo, de 2000 a 3000). Un experimento de secuenciación inicial de este tipo se puede usar para identificar regiones alternas, que se pueden usar para futuros experimentos de prueba para otros pacientes. En otro modo de realización, al menos una parte de las mismas lecturas de secuencia usadas para identificar mutaciones se puede usar para identificar las regiones alternas. Por tanto, se puede usar el mismo experimento de secuenciación.
En el bloque 720, se cuentan un número de lecturas de secuencia que difieren cada una de la región diana del genoma de referencia en una misma pluralidad de localizaciones. Las lecturas de secuencia que tienen las mismas variaciones en relación con la región diana se pueden colocar en un mismo grupo alterno, ya que pueden estar relacionadas con una misma región alterna. Como las variaciones son las mismas, estas lecturas pueden ser indicativas de una región alternativa en el genoma. Por ejemplo, 100 lecturas de secuencia podrían diferir de una región diana en exactamente las mismas 6 variaciones. Estas 100 lecturas de secuencia se pueden identificar y el recuento de 100 se puede almacenar y rastrear.
Las lecturas de secuencia pueden ser idénticas a una región contigua, por ejemplo, la región que se compara con la región diana. Pero, en algunos modos de realización, las lecturas de secuencia no tienen que ser idénticas dentro de una región contigua de este tipo. Por ejemplo, las lecturas de secuencia podrían variar en alguna región intermedia. Se podría requerir que dichas diferencias en las secuencias de una sustituta estén por debajo de un número específico que sea un valor absoluto o que se establezca como un porcentaje. Por ejemplo, se podría requerir que las lecturas de secuencia del grupo alterno compartan al menos un X % de estas variaciones (por ejemplo, un 70 %, 80 % o 90 %). Dichas diferencias dentro de un grupo alterno pueden resultar de mutaciones heterocigóticas, donde dos segmentos genómicos provienen de la misma región alterna pero provienen de diferentes cromosomas.
En una implementación, las lecturas de secuencia se pueden agrupar cuando se permiten diferencias entre las lecturas de secuencia de un grupo alterno. Las coordenadas pueden ser el valor base en cada posición. Se podría identificar un centroide del agrupamiento (por ejemplo, la secuencia más común) y se podrían incluir secuencias que difieran en un número específico de bases.
En un modo de realización, el número de variaciones compartidas de un grupo alterno se puede limitar a un valor especificado. Por ejemplo, las lecturas que difieren de la región diana en más de un número umbral (por ejemplo, el primer umbral del procedimiento 600) de variaciones se podrían retirar de la consideración de añadirse a un grupo alterno. Este umbral podría ser el mismo que se usa para un procedimiento MCF. Puesto que dichas lecturas se retirarían en el experimento normal, es posible que no tenga mucho sentido determinar una región alterna con lecturas que no se contarán.
En una implementación, el umbral para considerar una lectura de secuencia para añadir a un grupo alterno puede ser más que un umbral de MCF. Por ejemplo, una región alterna de este tipo (es decir, más variaciones que MCF) podría ser útil, ya que algunas lecturas de secuencia podrían estar por debajo del MCF pero ser más similares a la región alterna (por ejemplo, un MCF de 10 con un primer umbral de 14 para una región alterna podría tener una lectura de secuencia siendo 8 más similar a la región alterna). Por tanto, este umbral podría ser el doble que para MCF. En otra implementación, el umbral para considerar una lectura de secuencia para añadirse a un grupo alterno podría ser mayor que un requisito de umbral final para el número de variaciones en una región alterna. Por ejemplo, si las lecturas de secuencia de una región alterna no tienen que ser idénticas, algunas lecturas de secuencia podrían tener más del umbral para el número de variaciones compartidas permitidas.
En el bloque 730, se determinan las lecturas de secuencia (por ejemplo, de un grupo alterno) que tienen un recuento mayor que una cantidad especificada (un valor de corte). Esta cantidad específica también se puede considerar un filtro de abundancia. Por ejemplo, la cantidad especificada podría ser un número absoluto (tal como 200 o 300) o un porcentaje del total de lecturas (por ejemplo, un 1 %). En un aspecto, se supone que no se produciría un recuento tan pequeño si la combinación de mutaciones fuera de una parte real del genoma.
La salida es una pluralidad de grupos alternos de variaciones que se determina que se producen conjuntamente. De esta manera, si solo unas pocas de dichas lecturas tienen esta mutación, entonces es probable que las variaciones sean un artefacto y no estén relacionadas con una parte real del genoma. Además, dichas lecturas no sobrevivirían a un filtro de abundancia para identificar mutaciones y, por tanto, no se pueden obtener beneficios.
En el bloque 740, se pueden retirar los grupos alternos que corresponden a mutaciones conocidas para la región diana. Esta etapa es opcional, como pueden ser otras etapas de otros procedimientos. Una base de datos podría buscar mutaciones que sean de trascendencia médica o mutaciones que es conocido que se producen, pero que no están relacionadas con una enfermedad. Para este último, dichas mutaciones conocidas se pueden producir en una parte significativa de una población. La referencia se podría elegir de la misma población que la muestra, o las mutaciones conocidas pueden incluir simplemente las mutaciones conocidas de esa población. Si los datos de secuenciación son para una muestra de prueba real, esta correspondencia con una mutación conocida puede dar como resultado declarar la mutación para la muestra.
En el bloque 750, una lectura de secuencia de un grupo alterno restante (es decir, con un número que excede la cantidad especificada) se puede alinear con un genoma de referencia. Cualquier punto de variación entre las lecturas de un grupo alterno se puede alinear independientemente (por ejemplo, dos alineaciones para cada alelo de un SNP). Por ejemplo, se podrían identificar dos subagrupamientos para un agrupamiento de secuencias similares (por ejemplo, que difieran en un SNP u otro polimorfismo), y se podrían alinear ambos subagrupamientos.
En el bloque 760, si la alineación de una lectura de un grupo con una primera región tiene menos variaciones que la alineación con la región diana, la primera región se puede identificar como una región alterna. Por tanto, la alineación puede proporcionar la mejor región de emparejamiento. Si existe otra región que proporciona un mejor emparejamiento (o potencialmente el mismo) que la región diana, entonces esa región se puede identificar como una región alterna. A continuación, estas regiones alternativas se pueden almacenar en la memoria, y a continuación se puede acceder a ellas para su uso cuando la región diana se use en un futuro experimento. Por ejemplo, un usuario podría introducir las regiones diana en un ordenador, que, a continuación, puede buscar en una base de datos para identificar regiones alternas.
En un modo de realización, si no se encuentra ninguna región alterna (es decir, ninguna otra región es un emparejamiento mejor), entonces las variaciones se pueden identificar como mutaciones de la región diana. Una mutación de este tipo se podría almacenar en una base de datos de mutaciones conocidas, y usar en los procedimientos anteriores.
Como ejemplo, una alineación de lecturas de un experimento de secuenciación mostró una nueva mutación en el exón 19 de EGFR en las posiciones 2237-2248. La mutación fue AATTAAGAGAAG>CCC (SEQ ID NO: 9 y 10). Se observó que una sustitución en la posición 2250 (A>G) apareció con una frecuencia similar, lo que sugiere que las mutaciones eran una mutación de combinación y se producían de forma conjunta. Se confirmó que las mutaciones se producen en las mismas lecturas. Por tanto, la mutación se debe describir para las posiciones 2237­ 2250 como AA TTA AG A G AA G C A >CCCCG (SEQ ID NO: 11 y 12), que es una combinación de dos mutaciones simples. Un informe de mutación compleja es mejor que simplemente identificar que dos o más mutaciones simples tienen frecuencias similares porque pueden no aparecer en las mismas lecturas y la frecuencia conjunta puede ser baja. Además, es posible que un subconjunto de la combinación puede aparecer en una mayor frecuencia conjunta y hacer que las frecuencias de la combinación completa sean desiguales.
En consecuencia, un modo de realización del uso de un informe sobre mutaciones complejas puede encontrar eficazmente segmentos genómicos alternativos con dos o más variantes simples de la diana. También es posible que un segmento genómico alternativo contenga 0 o 1 variante de la diana. En un modo de realización, en el diseño de cebadores, se han hecho esfuerzos para eliminar segmentos idénticos de diferentes localizaciones genómicas. Si la diferencia es solo una variante simple, se puede usar un informe sobre únicas variantes simples con los modos de realización descritos anteriormente para identificar y retirar las lecturas positivas falsas con una diferencia de variante simple de la diana.
La tabla de la FIG. 9 muestra mutaciones complejas (combinaciones de mutaciones simples) que aparecen en múltiples muestras y múltiples experimentos. Las mutaciones complejas corresponden a los ejemplos de las FIGS.
3-5. Una búsqueda en una base de datos justificó que corresponden a los segmentos genómicos humanos alternativos. Como se menciona anteriormente, esta búsqueda se puede extender a otros organismos tales como virus.
Para el enriquecimiento, la identificación de segmentos de secuencia alternos similares a la región diana puede transcurrir como sigue. Dependiendo de diferentes propósitos, para un gen diana de interés, algunos modos de realización pueden incluir los exones diana con sitios de empalme contiguos, o bien incluir promotor, 5'-UTR, 3'-UTR, intrones y exones. La secuencia diana se puede dividir en pequeños segmentos superpuestos, por ejemplo, un segmento puede tener una longitud de 150 bases, y dos segmentos superpuestos pueden tener una superposición de 75 bases). Estos segmentos se pueden tratar como lecturas y cartografiar con respecto al genoma completo para encontrar segmentos alternativos con alta similitud. Estos segmentos alternativos se pueden incluir en uno o múltiples archivos. Se pueden realizar nuevas anotaciones y se pueden asociar nuevas coordenadas de secuencia de referencia con las coordenadas del genoma original, por ejemplo, como parte de la identificación de una región alterna para una región diana.
VI. SISTEMA INFORMÁTICO
Cualquiera de los sistemas informáticos mencionados en el presente documento puede utilizar cualquier número adecuado de subsistemas. Los ejemplos de dichos subsistemas se muestran en la FIG. 8 en un equipo informático 800. En algunos modos de realización, un sistema informático incluye un único aparato informático, donde los subsistemas pueden ser los componentes del aparato informático. En otros modos de realización, un sistema informático puede incluir múltiples aparatos informáticos, siendo cada uno un subsistema, con componentes internos.
Los subsistemas mostrados en la FIG. 8 están interconectadas por medio de un bus de sistema 875. Se muestran subsistemas adicionales tales como una impresora 874, un teclado 878, un dispositivo(s) de almacenamiento 879, un monitor 876, que está acoplado al adaptador de pantalla 882 y otros. Los periféricos y dispositivos de entrada/salida (E/S), que se acoplan al controlador de E/S 871, se pueden conectar al sistema informático por cualquier número de medios conocidos en la técnica, tales como un puerto en serie 877. Por ejemplo, se puede usar un puerto en serie 877 o una interfaz externa 881 (por ejemplo, Ethernet, Wi-Fi, etc.) para conectar el sistema informático 800 a una red de área amplia tal como Internet, un dispositivo de entrada de ratón o un escáner. La interconexión por medio del bus de sistema 875 permite que el procesador central 873 se comunique con cada subsistema y controle la ejecución de instrucciones desde la memoria del sistema 872 o el/los dispositivo(s) de almacenamiento 879 (por ejemplo, un disco duro), así como el intercambio de información entre los subsistemas. La memoria del sistema 872 y/o el/los dispositivo(s) de almacenamiento 879 pueden realizar un medio legible por ordenador. Cualquiera de los valores mencionados en el presente documento se puede emitir desde un componente a otro componente y se puede emitir al usuario.
Un sistema informático puede incluir una pluralidad de los mismos componentes o subsistemas, por ejemplo, conectados conjuntamente por una interfaz externa 881 o por una interfaz interna. En algunos modos de realización, los sistemas, subsistemas o aparatos informáticos se pueden comunicar sobre una red. En dichos casos, un ordenador se puede considerar un cliente y otro ordenador un servidor, donde cada uno puede formar parte de un mismo sistema informático. Un cliente y un servidor pueden incluir cada uno varios sistemas, subsistemas o componentes.
Se debe entender que cualquiera de los modos de realización de la presente invención se puede implementar en forma de lógica de control usando equipo (por ejemplo, un circuito integrado específico de la aplicación o una matriz de compuertas programables en campo) y/o usando equipo informático con un procesador en general programable de manera modular o integrada. Como se usa en el presente documento, un procesador incluye un procesador de múltiples núcleos en un mismo chip integrado, o múltiples unidades de procesamiento en una única placa de circuito o en red. En base a la divulgación y las enseñanzas proporcionadas en el presente documento, una persona experta en la técnica conocerá y apreciará otras maneras y/o procedimientos para implementar los modos de realización de la presente invención usando equipo y una combinación de equipo y programa informático.
Cualquiera de los componentes o funciones del programa informático descritos en la presente solicitud se puede implementar como código de programa informático que se ha de ejecutar por un procesador usando cualquier lenguaje informático adecuado tal como, por ejemplo, Java, C++ o Perl usando, por ejemplo, técnicas convencionales u orientadas a objetos. El código de programa informático se puede almacenar como una serie de instrucciones o comandos en un medio legible por ordenador para su almacenamiento y/o transmisión, los medios adecuados incluyen memoria de acceso aleatorio (RAM), una memoria de solo lectura (ROM), un medio magnético tal como un disco duro o un disquete, o un medio óptico tal como un disco compacto (CD) o DVD (disco versátil digital), memoria flash y similares. El medio legible por ordenador puede ser cualquier combinación de dichos dispositivos de almacenamiento o transmisión.
Dichos programas también se pueden codificar y transmitir usando señales portadoras adaptadas para su transmisión por medio de redes cableadas, ópticas y/o inalámbricas que se ajusten a una variedad de protocolos, incluyendo Internet. Como tal, se puede crear un medio legible por ordenador de acuerdo con un modo de realización de la presente invención usando una señal de datos codificada con dichos programas. Los medios legibles por ordenador codificados con el código de programa se pueden envasar en un dispositivo compatible o se pueden proporcionar por separado desde otros dispositivos (por ejemplo, por medio de una descarga de Internet). Cualquiera de dichos medios legibles por ordenador puede residir en o dentro de un único producto de programa informático (por ejemplo, un disco duro, un CD o todo un sistema informático), y puede estar presente en o dentro de diferentes productos de programa informático dentro de un sistema o red. Un sistema informático puede incluir un monitor, una impresora u otra pantalla adecuada para proporcionar cualquiera de los resultados mencionados en el presente documento a un usuario.
Cualquiera de los procedimientos descritos en el presente documento se puede realizar total o parcialmente con un sistema informático que incluya uno o más procesadores, que se pueden configurar para realizar las etapas. Por tanto, los modos de realización pueden estar dirigidos a sistemas informáticos configurados para realizar las etapas de cualquiera de los procedimientos descritos en el presente documento, potencialmente con diferentes componentes que realizan las etapas respectivas o un grupo de etapas respectivo. Aunque se presentan como etapas numeradas, las etapas de los procedimientos en el presente documento se pueden realizar al mismo tiempo o en un orden diferente. Adicionalmente, partes de estas etapas se pueden usar con partes de otras etapas de otros procedimientos. Además, la totalidad o partes de una etapa pueden ser opcionales. Adicionalmente, cualquiera de las etapas de cualquiera de los procedimientos se puede realizar con módulos, circuitos u otros medios para realizar estas etapas.
La descripción anterior de los modos de realización ejemplares de la invención se ha presentado con propósitos ilustrativos y descriptivos. Los modos de realización se eligieron y describieron para explicar mejor los principios de la invención y sus aplicaciones prácticas para posibilitar, de este modo, que otros expertos en la técnica utilicen mejor la invención en diversos modos de realización y con diversas modificaciones como se adecuen al uso particular contemplado.
Una mención de "un", "una" o "el/la" pretende querer decir "uno o más", a menos que se indique específicamente lo contrario.

Claims (17)

REIVINDICACIONES
1. Un procedimiento de detección de variantes en una región diana de una genoma de muestra de un organismo, comprendiendo el procedimiento:
- recibir una pluralidad de lecturas de secuencia, obtenidas las lecturas de secuencia de la secuenciación de segmentos genómicos en una muestra obtenida del organismo, en el que la secuenciación incluye amplificar y/o enriquecer segmentos genómicos de la región diana;
- identificar una o más regiones alternas en un genoma de referencia que tienen un primer número respectivo de variaciones de la región diana de un genoma de referencia, siendo cada primer número respectivo mayor que uno y menor que un primer número umbral;
- realizar, con un sistema informático, una alineación de la pluralidad de lecturas de secuencia con la región diana del genoma de referencia para identificar un conjunto de lecturas de secuencia que se alinean con la región diana del genoma de referencia con menos de un segundo número umbral de variaciones;
- retirar del conjunto al menos una lectura de secuencia que se alinea con una o más de las regiones alternas con un segundo número de variaciones que es menor que un tercer número umbral; y
- analizar las lecturas de secuencia restantes del conjunto para determinar variantes en la región diana del genoma de la muestra,
en el que identificar una región alterna incluye:
- contar un número de lecturas de secuencia que difieren cada una de la región diana del genoma de referencia en una misma pluralidad de localizaciones, teniendo las lecturas de secuencia las mismas variaciones en relación con la región diana que forma un grupo alterno;
- si el número excede un valor de corte, realizar una alineación de una primera lectura de secuencia del grupo alterno con el genoma de referencia; y
- si la alineación de la primera lectura de secuencia con una primera región del genoma de referencia tiene menos variaciones que la alineación con la región diana, identificar la primera región como una región alterna.
2. El procedimiento de la reivindicación 1, en el que los segmentos genómicos de la región diana se amplifican usando un par de cebadores que están diseñados para amplificar la región diana.
3. El procedimiento de la reivindicación 1, en el que los segmentos genómicos de la región diana se enriquecen usando sondas ancladas a una superficie para seleccionar segmentos genómicos de la región diana.
4. El procedimiento de la reivindicación 1, en el que el tercer número umbral es la mitad del primer número correspondiente de variaciones para la región alterna.
5. El procedimiento de la reivindicación 1, en el que el tercer número umbral es uno.
6. El procedimiento de la reivindicación 5, en el que las lecturas de secuencia de los grupos alternos son idénticas dentro de una región contigua.
7. El procedimiento de la reivindicación 5, en el que las lecturas de secuencia usadas para identificar la primera región como una región alterna provienen de una secuenciación de una muestra diferente.
8. El procedimiento de la reivindicación 5, que comprende además:
- comparar la primera lectura de secuencia con una base de datos de mutaciones conocidas de la región diana; y - si la primera lectura de secuencia corresponde a una mutación conocida de la región diana, descartar el grupo alterno como correspondiente a una región alterna.
9. El procedimiento de la reivindicación 1, en el que una región alterna proviene de una base de datos de secuencias que incluye secuencias distintas del genoma de referencia.
10. El procedimiento de la reivindicación 1, en el que analizar las lecturas de secuencia restantes del conjunto para determinar variantes en la región diana del genoma de muestra incluye:
- en cada localización en la región diana, contar el número de variaciones en las lecturas de secuencia que difieren del genoma de referencia.
11. El procedimiento de la reivindicación 1, que comprende además:
- repetir el procedimiento para una o más de otras regiones diana.
12. El procedimiento de la reivindicación 11, en el que la secuenciación se realiza en un experimento que secuencia dos o más muestras, en el que los segmentos genómicos incluyen un ID que corresponde a una muestra de una pluralidad de muestras, y en el que al menos dos muestras tienen una región diana diferente.
13. El procedimiento de la reivindicación 1, en el que una o más de las regiones alternas proviene de un genoma diferente.
14. El procedimiento de la reivindicación 1, en el que la al menos una lectura de secuencia se alinea con - una región alterna de las una o más regiones alternas al:
- identificar las primeras variaciones entre la región alterna y la región diana;
- alinear la lectura de secuencia con la región diana para identificar las segundas variaciones entre la lectura de secuencia y la región diana; y
- comparar las primeras variaciones con las segundas variaciones.
15. Un producto informático que comprende un medio legible por ordenador no transitorio que almacena una pluralidad de instrucciones que, cuando se ejecutan, controlan un sistema informático para detectar variantes en una región diana de un genoma de muestra de un organismo, comprendiendo las instrucciones:
- recibir una pluralidad de lecturas de secuencia, obtenidas las lecturas de secuencia de la secuenciación de segmentos genómicos en una muestra obtenida del organismo, en el que la secuenciación incluye amplificar y/o enriquecer segmentos genómicos de la región diana;
- identificar una o más regiones alternas en el genoma de referencia que tienen un primer número respectivo de variaciones de la región diana de un genoma de referencia, siendo cada primer número respectivo mayor que uno y menor que un primer número umbral;
- realizar una alineación de la pluralidad de lecturas de secuencia con la región diana del genoma de referencia para identificar un conjunto de lecturas de secuencia que se alinean con la región diana del genoma de referencia con menos de un segundo número umbral de variaciones;
- retirar del conjunto al menos una lectura de secuencia que se alinea con una o más de las regiones alternas con un segundo número de variaciones que es menor que un tercer número umbral; y
- analizar las lecturas de secuencia restantes del conjunto para determinar variantes en la región diana del genoma de la muestra,
en el que identificar una región alterna incluye:
- contar un número de lecturas de secuencia que difieren cada una de la región diana del genoma de referencia en una misma pluralidad de localizaciones, teniendo las lecturas de secuencia las mismas variaciones en relación con la región diana que forma un grupo alterno;
- si el número excede un valor de corte, realizar una alineación de una primera lectura de secuencia del grupo alterno con el genoma de referencia; y
- si la alineación de la primera lectura de secuencia con una primera región del genoma de referencia tiene menos variaciones que la alineación con la región diana, identificar la primera región como una región alterna.
16. Un sistema para detectar variantes en una región diana de un genoma de muestra de un organismo, comprendiendo el sistema:
uno o más procesadores configurados para:
- recibir una pluralidad de lecturas de secuencia, obtenidas las lecturas de secuencia de la secuenciación de segmentos genómicos en una muestra obtenida del organismo, en el que la secuenciación incluye amplificar y/o enriquecer segmentos genómicos de la región diana;
- identificar una o más regiones alternas en el genoma de referencia que tienen un primer número respectivo de variaciones de la región diana de un genoma de referencia, siendo cada primer número respectivo mayor que uno y menor que un primer número umbral;
- realizar una alineación de la pluralidad de lecturas de secuencia con la región diana del genoma de referencia para identificar un conjunto de lecturas de secuencia que se alinean con la región diana del genoma de referencia con menos de un segundo número umbral de variaciones;
- retirar del conjunto al menos una lectura de secuencia que se alinea con una o más de las regiones alternas con un segundo número de variaciones que es menor que un tercer número umbral; y
- analizar las lecturas de secuencia restantes del conjunto para determinar variantes en la región diana del genoma de la muestra,
en el que identificar una región alterna incluye:
- contar un número de lecturas de secuencia que difieren cada una de la región diana del genoma de referencia en una misma pluralidad de localizaciones, teniendo las lecturas de secuencia las mismas variaciones en relación con la región diana que forma un grupo alterno;
- si el número excede un valor de corte, realizar una alineación de una primera lectura de secuencia del grupo alterno con el genoma de referencia; y
- si la alineación de la primera lectura de secuencia con una primera región del genoma de referencia tiene menos variaciones que la alineación con la región diana, identificar la primera región como una región alterna.
17. El sistema de la reivindicación 16, que comprende además:
- una base de datos que almacena las una o más regiones alternas asociadas con la región diana, en la que la identificación de las una o más regiones alternas incluye recuperar las una o más regiones alternas de la base de datos.
ES13795516T 2012-11-29 2013-11-27 Cartografía rápida y exacta de lecturas de secuenciación dirigida Active ES2869292T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/689,314 US9218450B2 (en) 2012-11-29 2012-11-29 Accurate and fast mapping of reads to genome
PCT/EP2013/074799 WO2014083023A1 (en) 2012-11-29 2013-11-27 Accurate and fast mapping of targeted sequencing reads

Publications (1)

Publication Number Publication Date
ES2869292T3 true ES2869292T3 (es) 2021-10-25

Family

ID=49641777

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13795516T Active ES2869292T3 (es) 2012-11-29 2013-11-27 Cartografía rápida y exacta de lecturas de secuenciación dirigida

Country Status (7)

Country Link
US (2) US9218450B2 (es)
EP (1) EP2926288B1 (es)
JP (1) JP6240210B2 (es)
CN (1) CN104937598B (es)
CA (1) CA2891731C (es)
ES (1) ES2869292T3 (es)
WO (1) WO2014083023A1 (es)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9476095B2 (en) 2011-04-15 2016-10-25 The Johns Hopkins University Safe sequencing system
EP3447495B2 (en) 2012-10-29 2024-03-13 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
CN106462670B (zh) * 2014-05-12 2020-04-10 豪夫迈·罗氏有限公司 超深度测序中的罕见变体召集
US20180032673A1 (en) * 2014-09-03 2018-02-01 Otsuka Pharmaceutical Co., Ltd. Pathology determination assistance device, method and storage medium
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
JP6675164B2 (ja) * 2015-07-28 2020-04-01 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
US10811539B2 (en) 2016-05-16 2020-10-20 Nanomedical Diagnostics, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US20180025365A1 (en) * 2016-07-21 2018-01-25 Wal-Mart Stores, Inc. Vector-based characterizations of products and individuals with respect to selecting items for store locations
EP3665308A1 (en) 2017-08-07 2020-06-17 The Johns Hopkins University Methods and materials for assessing and treating cancer
JP7054133B2 (ja) * 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
TWI695890B (zh) * 2017-12-29 2020-06-11 行動基因生技股份有限公司 序列比對與突變位點分析的方法及系統
CN111477274B (zh) * 2020-04-02 2020-11-24 上海之江生物科技股份有限公司 微生物目标片段中特异性区域的识别方法、装置及应用

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
UY24389A1 (es) * 1995-12-06 2001-10-25 Karlsruhe Forschzent Composición farmacéutica para el tratamiento de carcinoma de epitelio plano
US7809509B2 (en) 2001-05-08 2010-10-05 Ip Genesis, Inc. Comparative mapping and assembly of nucleic acid sequences
US20030138778A1 (en) * 2001-11-30 2003-07-24 Garner Harold R. Prediction of disease-causing alleles from sequence context
WO2004104172A2 (en) 2003-05-15 2004-12-02 Bioarray Solutions, Ltd. Hybridization-mediated analysis of polymorphisms
WO2006073439A2 (en) * 2004-04-23 2006-07-13 Oxonica, Inc. Surface enhanced spectroscpy-active composite nanop articles and their application in analysis and diagnosis
CN1277924C (zh) * 2004-06-25 2006-10-04 湖南西城杂交水稻基因科技有限公司 利用可转化大片段基因组文库发掘野生稻有利基因的方法
US20140066317A1 (en) * 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
CN110872617A (zh) * 2012-09-04 2020-03-10 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法

Also Published As

Publication number Publication date
US10127351B2 (en) 2018-11-13
JP2015536661A (ja) 2015-12-24
JP6240210B2 (ja) 2017-11-29
CN104937598A (zh) 2015-09-23
US9218450B2 (en) 2015-12-22
WO2014083023A1 (en) 2014-06-05
US20160092630A1 (en) 2016-03-31
CA2891731C (en) 2017-09-12
US20140149049A1 (en) 2014-05-29
CN104937598B (zh) 2017-11-07
EP2926288B1 (en) 2021-03-17
EP2926288A1 (en) 2015-10-07
CA2891731A1 (en) 2014-06-05

Similar Documents

Publication Publication Date Title
ES2869292T3 (es) Cartografía rápida y exacta de lecturas de secuenciación dirigida
ES2961338T3 (es) Supresión de errores en fragmentos de ADN secuenciados utilizando lecturas redundantes con índices moleculares únicos (UMI)
Sheng et al. Multi-perspective quality control of Illumina RNA sequencing data analysis
JP7051900B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
ES2915399T3 (es) Detección de expansiones de repetición con datos de secuenciación de lectura corta
US9845552B2 (en) Set membership testers for aligning nucleic acid samples
Hutter et al. FrogCap: A modular sequence capture probe‐set for phylogenomics and population genetics for all frogs, assessed across multiple phylogenetic scales
Xuan et al. Genome-wide promoter extraction and analysis in human, mouse, and rat
Chacon et al. Characterization by restriction fragment length polymorphism and sequence analysis of field and vaccine strains of infectious laryngotracheitis virus involved in severe outbreaks
JP2020524499A (ja) 配列バリアントコールのためのバリデーションの方法及びシステム
CN112331268B (zh) 目标物种特有序列的获取方法及目标物种检测方法
Kearse et al. The Geneious 6.0. 3 read mapper
JP2016518822A (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
CN110875082A (zh) 一种基于靶向扩增测序的微生物检测方法和装置
US20180106806A1 (en) Tumor Analytical Methods
Coope et al. Whole‐slide laser microdissection for tumour enrichment
WO2016193846A2 (en) Degenerate primer sets
US20210164033A1 (en) Method and system for nucleic acid sequencing
RU2822040C1 (ru) Способ обнаружения вариаций числа копий (cnv) по данным секвенирования полного экзома человека и генома с низким покрытием
Baecklund et al. The role of a mechanistic host in maintaining arctic rabies variant distributions: Assessment of functional genetic diversity in Alaskan red fox (Vulpes vulpes)
US20170226588A1 (en) Systems and methods for dna amplification with post-sequencing data filtering and cell isolation
Ribeiro Transcriptional regulation of neurogenesis by the proneural factor Ascl1
Mourier et al. Characterizing novel endogenous retroviruses from genetic variation inferred from short sequence reads
Sio et al. Mining polymorphic SSRs from individual genome sequences
hashem Al-Zubaidy et al. Determine the Whole Genome Sequences of SARS-COV-2 Isolated from Iraqi Patients Using NGS Method