ES2877205T3

ES2877205T3 - Preparación de muestras para la amplificación de ácido nucleico

Info

Publication number: ES2877205T3
Application number: ES16738505T
Authority: ES
Inventors: Louise Fraser
Original assignee: Illumina Cambridge Ltd
Current assignee: Illumina Cambridge Ltd
Priority date: 2015-07-06
Filing date: 2016-07-05
Publication date: 2021-11-16
Anticipated expiration: 2036-07-05
Also published as: US20250059589A1; US12157910B2; EP3878974A1; CN107922966B; DK3320111T3; EP3320111A1; WO2017006108A9; EP3320111B1; CN115261468A; CN107922966A; US20180201974A1; WO2017006108A1

Abstract

Un método para obtener información sobre la secuencia de ácido nucleico de una muestra biológica que comprende: (a) proporcionar una muestra biológica que comprende diferentes ácidos nucleicos diana, en donde cada uno de los diferentes ácidos nucleicos diana comprende, de 3' a 5': un primer, segundo y tercer dominios diana contiguos; (b) poner en contacto la muestra biológica con una pluralidad de diferentes conjuntos de sondas para formar complejos de hibridación con los diferentes ácidos nucleicos diana, en donde cada conjunto de sondas comprende: (i) una primera sonda que comprende, de 5' a 3': una primera secuencia de cebado y una secuencia que es sustancialmente complementaria a un primer dominio diana; y (ii) una segunda sonda que comprende, de 5' a 3': una secuencia sustancialmente complementaria a un tercer dominio diana, y una segunda secuencia de cebado, en donde la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones polimórficas que sean informativas de la identidad de la fuente de la muestra; (c) poner en contacto los complejos de hibridación con una enzima de extensión y nucleótidos, en donde las primeras sondas se extienden a lo largo de los segundos dominios diana de los complejos de hibridación formados en (b); (d) ligar las primeras sondas extendidas a las segundas sondas para formar moldes de amplificación; (e) amplificar los moldes de amplificación con el primer y segundo cebadores que son complementarios a la primera secuencia de cebado y la segunda secuencia de cebado para producir amplicones, en donde no existe purificación del ácido nucleico de la muestra biológica antes de la etapa de contacto (b); (f) obtener información de la secuencia de ácido nucleico para una pluralidad de porciones de la muestra amplificada, en donde la obtención comprende detectar los amplicones en una matriz de ácidos nucleicos o comprende una secuenciación masivamente paralela; y (g) utilizar la información sobre la secuencia de la etapa (f) para confirmar la identidad de la muestra en un ensayo de prueba genética.

Description

DESCRIPCIÓN

Preparación de muestras para la amplificación de ácido nucleico

Antecedentes

La secuenciación del genoma completo ("WGS en sus siglas en inglés") es un enfoque que tiene aplicación en la medicina personalizada para identificar los riesgos de enfermedad para pacientes específicos, así como su capacidad de respuesta potencial a ciertas terapias (p. ej., terapia con fármacos). En un entorno clínico, varios factores, tales como los complejos flujos de trabajo de preparación de muestras o la externalización de la preparación y/o secuenciación de muestras, hacen que las mezclas de muestras sean posibles y difíciles de detectar. Una condición esencial de un enfoque basado en WGS en aplicaciones clínicas (p. ej., de diagnóstico, pronóstico y/o terapéuticas) es que la información sobre la secuencia utilizada se obtenga de manera inequívoca del paciente específico, es decir, garantizar la identidad de la muestra es esencial para permitir la asignación precisa de detalles clínicos para secuenciar los datos. Se necesitan métodos para confirmar la identidad de la muestra en los datos de WGS utilizados en aplicaciones clínicas. También existe la necesidad de métodos de preparación de muestras que no requieran la purificación del ADN antes de la amplificación. Los métodos y disposiciones expuestos en la presente memoria satisfacen estas necesidades y también proporcionan otras ventajas.

Park, Su Jeong, et al., "Direct STR Amplification from whole blood and blood- or saliva-spotted FTA without DNA purification'', J Forensic Sci. Marzo de 2008; 53(2):335-41 informan sobre un método para la amplificación directa con repetición corta en tándem (STR) utilizando un tampón de PCR directo de nuevo desarrollo, AnyDirect, que puede amplificar los loci de STR a partir de sangre completa y tarjetas FTA con manchas de sangre o saliva sin purificación de ADN.

Fedick, A et al. "High throughput real-time PCR-based genotyping whitout DNA purification", BMC Res Notes. 19 de octubre de 2012; 5:573, analizan un método de genotipificación basado en qPCR cuantitativa en sangre sin purificación de ADN utilizando una plataforma de qPCR de alto rendimiento.

Herraez-Hernandez, Elsa, et al. ''Detection and Genotyping of Human Papillomavirus DNA in Formalin-Fixed Paraffin-Embedded Specimens with HPV Direct Flow CHIP System", The Open Virology Journal, vol. 7, núm. 1,2013, pág. 91 95 examinaron el comportamiento de HPV Direct Flow CHIP en muestras fijadas con formalina incluidas en parafina (FFPE) (n = 99). Cada muestra se analizó tanto por PCR Directa, utilizando extractos celulares brutos sin purificación de ADN, como por PCR convencional, utilizando ADN purificado.

Park, Young Nyun et al. "Detection of Hepatitis C Virus RNA using Ligation-Dependent Polymerase Chain Reaction in Formalin-Fixed, Paraffin-Embedded Liver Tissues", American Journal of Pathology, Vol. 149, Núm. 5, noviembre de 1996, pág. 1485-1491 aplicaron la PCR dependiente de ligación (LD-PCR) para la detección de ARN de VHC en tejido hepático FFPE y descubrieron que la LD-PCR es un método más sensible que la RT-PCR para la detección de secuencias del VHC en tejidos hepáticos procesados de forma rutinaria.

Breve compendio

En la presente memoria se presentan métodos y composiciones para la amplificación dirigida de ADN y la identificación de muestras. Los métodos expuestos en la presente memoria son particularmente útiles, por ejemplo, en la validación y control de calidad de muestras y para confirmar que los datos de secuencia de WGS se emparejan correctamente con una muestra de paciente antes de entregar los datos de secuencia a un médico o paciente. Sin embargo, se apreciará que los métodos expuestos en la presente memoria se pueden usar para otras aplicaciones adecuadas en las que se desea una rápida amplificación dirigida.

De acuerdo con lo anterior, la invención se expone en las reivindicaciones adjuntas. La reivindicación independiente 1 se refiere a un método para obtener información sobre la secuencia de ácido nucleico de una muestra biológica que comprende: (a) proporcionar una muestra biológica que comprende diferentes ácidos nucleicos diana, en donde cada uno de los diferentes ácidos nucleicos diana comprende, de 3' a 5': un primer, segundo y tercer dominios diana contiguos; (b) poner en contacto la muestra biológica con una pluralidad de diferentes conjuntos de sondas para formar complejos de hibridación con los diferentes ácidos nucleicos diana, en donde cada conjunto de sondas comprende: (i) una primera sonda que comprende, de 5’ a 3': una primera secuencia de cebado y una secuencia que es sustancialmente complementaria a un primer dominio diana; y (ii) una segunda sonda que comprende, de 5' a 3': una secuencia sustancialmente complementaria a un tercer dominio diana, y una segunda secuencia de cebado, en donde la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones polimórficas que son informativas de la identidad de la fuente de la muestra; (c) poner en contacto los complejos de hibridación con una enzima de extensión y nucleótidos, en donde las primeras sondas se extienden a lo largo de los segundos dominios diana de los complejos de hibridación formados en (b); (d) ligar las primeras sondas extendidas a las segundas sondas para formar moldes de amplificación; (e) amplificar los moldes de amplificación con el primer y segundo cebadores que son complementarios a la primera secuencia de cebado y la segunda secuencia de cebado para producir amplicones, en donde no existe purificación del ácido nucleico de la muestra biológica antes de la etapa de contacto (b); (f) obtener información sobre la secuencia de ácido nucleico para una pluralidad de porciones de la muestra amplificada, en donde la obtención comprende detectar los amplicones en una matriz de ácidos nucleicos o comprende una secuenciación masivamente paralela; y (g) confirmar la identidad de la muestra en un ensayo de prueba genética.

La reivindicación independiente 10 se refiere a un método para rastrear la identidad de una muestra biológica durante diferentes fases del procesamiento de la muestra, que comprende: (a) proporcionar una muestra celular que contiene ácido nucleico; (b) separar una porción de la muestra en una primera porción y una segunda porción y obtener un primer conjunto de información sobre la secuencia de ácido nucleico de la primera porción de la muestra biológica según cualquiera de las reivindicaciones 1 -9, en donde el primer conjunto de información sobre la secuencia de ácido nucleico comprende información sobre la secuencia informativa de identidad; (c) purificar el ácido nucleico de la segunda porción y obtener un segundo conjunto de información sobre la secuencia; y (d) utilizar lógica asistida por ordenador, que compara la información sobre la secuencia informativa de identidad del primer conjunto de información sobre la secuencia de ácido nucleico con el segundo conjunto de información sobre la secuencia para confirmar que el primer y segundo conjuntos de información sobre la secuencia se obtuvieron de la misma fuente.

También se describen en la presente memoria métodos para obtener información de la secuencia de ácido nucleico de una muestra biológica que comprenden: (a) proporcionar una muestra biológica que comprende diferentes ácidos nucleicos diana; (b) poner en contacto la muestra biológica con una pluralidad de conjuntos de sondas diferentes para formar complejos de hibridación con los diferentes ácidos nucleicos diana; (c) amplificar el ácido nucleico de las muestras biológicas para producir amplicones; en donde no existe purificación del ácido nucleico de la muestra biológica antes de la etapa de contacto (b); y (d) obtener información sobre la secuencia de ácido nucleico para una pluralidad de porciones de la muestra amplificada.

En ciertos métodos, no existe purificación del ácido nucleico de la muestra biológica antes de la amplificación en la etapa (c). En ciertos métodos, la amplificación en la etapa (c) comprende la reacción en cadena de la polimerasa utilizando al menos dos cebadores de amplificación que son específicos para una porción del genoma de la muestra. En ciertos métodos, la amplificación en la etapa (c) comprende la extensión y ligación de dos sondas para formar moldes de amplificación.

En ciertos métodos, el sobrenadante que comprende complejos de hibridación en fase de solución se pone en contacto adicionalmente con un soporte sólido para formar complejos de hibridación inmovilizados cuando se pone en contacto con la enzima de extensión y los nucleótidos. En ciertos métodos, el soporte sólido comprende cuentas. En ciertos métodos, el soporte sólido comprende una placa de filtro.

En ciertos métodos, incluyendo en una realización de la invención reivindicada, cada uno de los diferentes ácidos nucleicos diana comprende, de 3' a 5': un primer, segundo y tercer dominios diana contiguos y cada conjunto de sondas comprende: (i) una primera sonda que comprende, de 5’ a 3': una primera secuencia de cebado y una secuencia que es sustancialmente complementaria a un primer dominio diana; y (ii) una segunda sonda que comprende de 5’ a 3': una secuencia sustancialmente complementaria a un tercer dominio diana y una segunda secuencia de cebado.

En ciertos métodos, el método comprende, antes de la etapa (c), una etapa de recolección de un sobrenadante que comprende complejos de hibridación en fase de solución de la muestra biológica. En ciertos métodos, la obtención de información sobre la secuencia de ácido nucleico comprende una secuenciación masivamente paralela. En ciertos métodos, la obtención de información de la secuencia de ácido nucleico comprende la detección de los amplicones sobre la superficie de una matriz de ácidos nucleicos.

En ciertos métodos, la pluralidad de conjuntos de sondas comprende al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51,52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 conjuntos de sondas diferentes. En ciertos métodos, incluyendo en una realización de la invención reivindicada, la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones polimórficas que son informativas de la identidad de la fuente de la muestra. En ciertos métodos, la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones que comprenden polimorfismos asociados con el cáncer. En ciertos métodos, la muestra es una muestra humana. En ciertos métodos, la muestra comprende tejido tumoral. En ciertos métodos, la muestra comprende tejido normal. En ciertos métodos, la muestra es una muestra de sangre. En ciertos métodos, la muestra comprende sangre seca sobre una superficie sólida porosa. En ciertos métodos, la superficie sólida porosa comprende papel de filtro.

También se presenta en la presente memoria un método para obtener información sobre la secuencia de ácido nucleico de una muestra FFPE que comprende: (a) proporcionar una muestra FFPE que comprende diferentes ácidos nucleicos diana incluidos dentro de un tejido preservado; (b) poner en contacto la muestra FFPE con una pluralidad de conjuntos de sondas diferentes para formar complejos de hibridación con los diferentes ácidos nucleicos diana; (c) amplificar el ácido nucleico de las muestras FFPE para producir amplicones; en donde no existe purificación del ácido nucleico de la muestra FFPE antes de la etapa de contacto (b); y (d) obtener información sobre la secuencia de ácido nucleico para una pluralidad de amplicones. En métodos particulares, no existe purificación del ácido nucleico de la muestra FFPE antes de la amplificación en la etapa (c).

En ciertos métodos, la amplificación en la etapa (c) comprende la reacción en cadena de la polimerasa utilizando al menos dos cebadores de amplificación que son específicos para una porción del genoma de la muestra. En ciertos métodos, la amplificación en la etapa (c) comprende la extensión y ligación de dos sondas para formar moldes de amplificación. En ciertos métodos, el sobrenadante que comprende complejos de hibridación en fase de solución se pone en contacto adicionalmente con un soporte sólido para formar complejos de hibridación inmovilizados cuando se pone en contacto con la enzima de extensión y los nucleótidos.

En ciertos métodos, el soporte sólido comprende cuentas. En ciertos métodos, el soporte sólido comprende una placa de filtro. En ciertos métodos, cada uno de los diferentes ácidos nucleicos diana comprende, de 3’ a 5': un primer, segundo y tercer dominios diana contiguos y cada conjunto de sondas comprende: (i) una primera sonda que comprende, de 5’ a 3': una primera secuencia de cebado y una secuencia que es sustancialmente complementaria a un primer dominio diana; y (ii) una segunda sonda que comprende de 5’ a 3': una secuencia sustancialmente complementaria a un tercer dominio diana y una segunda secuencia de cebado. En ciertos métodos, el método comprende, antes de la etapa (c), una etapa de recolección de un sobrenadante que comprende complejos de hibridación en fase de solución de la muestra FFPE.

En ciertos métodos, la obtención de información sobre la secuencia de ácido nucleico comprende una secuenciación masivamente paralela. En ciertos métodos, la obtención de información sobre la secuencia de ácido nucleico comprende la detección de los amplicones sobre la superficie de una matriz de ácidos nucleicos.

En ciertos métodos, la pluralidad de conjuntos de sondas comprende al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51,52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 conjuntos de sondas diferentes. En ciertos métodos, la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones polimórficas que son informativas de la identidad de la fuente de la muestra. En ciertos métodos, la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones que comprenden polimorfismos asociados con el cáncer. En ciertos métodos, la muestra es una muestra humana. En ciertos métodos, la muestra comprende tejido tumoral.

También se presentan en la presente memoria métodos para la amplificación de ácido nucleico de una muestra FFPE que comprenden: (a) proporcionar una muestra FFPE que comprende ácido nucleico incluido dentro de un tejido preservado, teniendo el ácido nucleico, de 3’ a 5': un primer, segundo y tercer dominios diana contiguos; (b) poner en contacto la muestra FFPE con una pluralidad de conjuntos de sondas diferentes para formar complejos de hibridación con los diferentes ácidos nucleicos diana, en donde cada conjunto de sondas comprende: (i) una primera sonda que comprende, de 5’ a 3': una primera secuencia de cebado y una secuencia que es sustancialmente complementaria al primer dominio diana; y (ii) una segunda sonda que comprende de 5’ a 3': una secuencia sustancialmente complementaria al tercer dominio diana y una segunda secuencia de cebado; (c) poner en contacto los complejos de hibridación con una enzima de extensión y nucleótidos, en donde las primeras sondas se extienden a lo largo de los segundos dominios diana de los complejos de hibridación formados en (b); (d) ligar las primeras sondas extendidas a las segundas sondas para formar moldes de amplificación; y (e) amplificar los moldes de amplificación con un primer y segundo cebadores que son complementarios a la primera secuencia de cebado y la segunda secuencia de cebado para producir amplicones y obtener información sobre la secuencia de ácido nucleico para una pluralidad de amplicones.

En ciertos métodos, el método comprende, antes de la etapa (c), una etapa de recolección de un sobrenadante que comprende complejos de hibridación en fase de solución de la muestra FFPE. En ciertos métodos, el sobrenadante que comprende complejos de hibridación en fase de solución se pone en contacto adicionalmente con un soporte sólido para formar complejos de hibridación inmovilizados cuando se pone en contacto con la enzima de extensión y los nucleótidos. En ciertos métodos, el soporte sólido comprende cuentas. En ciertos métodos, el soporte sólido comprende una placa de filtro. En ciertos métodos, la obtención de información sobre la secuencia de ácido nucleico comprende una secuenciación masivamente paralela. En ciertos métodos, la obtención de información sobre la secuencia de ácido nucleico comprende la detección de los amplicones sobre la superficie de una matriz de ácidos nucleicos.

En ciertos métodos, la pluralidad de conjuntos de sondas comprende al menos al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51,52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 conjuntos de sondas diferentes. En ciertos métodos, la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones polimórficas que son informativas de la identidad de la fuente de la muestra. En ciertos métodos, la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones que comprenden polimorfismos asociados con el cáncer. En ciertos métodos, la muestra es una muestra humana. En ciertos métodos, la muestra comprende tejido tumoral. En ciertos métodos, la muestra comprende tejido normal.

También se presenta en la presente memoria un método para la identificación de muestras de ácido nucleico que comprende: (a) proporcionar una muestra celular que contiene ácido nucleico; (b) lisar las células de la muestra con un reactivo de lisis para liberar ácido nucleico del interior de las células de la muestra celular, formando así un producto lisado; (c) amplificar el ácido nucleico de las muestras lisadas; en donde no existe purificación del ácido nucleico del producto lisado antes de comenzar la etapa de amplificación (c); y (d) obtener información sobre la secuencia de ácido nucleico para una pluralidad de porciones de la muestra amplificada y comparar la información sobre la secuencia con un segundo conjunto de información sobre la secuencia.

En ciertos métodos, el ácido nucleico es ADN. En ciertos aspectos, la muestra es una muestra de sangre. En ciertos métodos, la muestra comprende sangre seca. En ciertos métodos, la muestra comprende una muestra de tejido FFPE. En ciertos métodos, el segundo conjunto de información sobre la secuencia comprende una secuencia del genoma completo. En ciertos métodos, el segundo conjunto de información sobre la secuencia comprende información sobre la secuencia del exoma.

En ciertos métodos, la amplificación comprende una reacción de amplificación dirigida. En ciertos métodos, la reacción de amplificación dirigida comprende la extensión y ligación de dos sondas. En ciertos métodos, la reacción de amplificación dirigida comprende la reacción en cadena de la polimerasa utilizando al menos dos cebadores de amplificación que son específicos para una parte del genoma de la muestra.

También se presenta en la presente memoria un método para rastrear la identidad de una muestra biológica durante diferentes fases del procesamiento de la muestra, que comprende: (a) proporcionar una muestra celular que contiene ácido nucleico; (b) separar una porción de la muestra en una primera porción y una segunda porción y obtener un primer conjunto de información sobre la secuencia de ácido nucleico de la primera porción de la muestra biológica de acuerdo con cualquiera de los métodos presentados en la presente memoria, en donde el primer conjunto de información sobre la secuencia de ácido nucleico comprende información sobre la secuencia informativa de identidad; (c) purificar el ácido nucleico de la segunda porción y obtener un segundo conjunto de información sobre la secuencia; y (d) utilizando lógica asistida por ordenador, comparar la información sobre la secuencia informativa de identidad del primer conjunto de información sobre la secuencia de ácido nucleico con el segundo conjunto de información sobre la secuencia para confirmar que el primer y segundo conjuntos de información sobre la secuencia se obtuvieron de la misma fuente.

En ciertos métodos, la información sobre la secuencia informativa de identidad comprende información sobre el genotipo SNP para al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 SNP únicos. En ciertos métodos, el segundo conjunto de información sobre la secuencia comprende información sobre el genotipo de SNP para al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51 , 52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 SNP únicos.

En ciertos métodos, el ácido nucleico es ADN. En ciertos métodos, la muestra es una muestra de sangre. En ciertos métodos, la muestra comprende sangre seca. En ciertos métodos, la muestra comprende sangre seca sobre una superficie sólida porosa. En ciertos métodos, la muestra comprende una muestra de tejido FFPE. En ciertos métodos, el segundo conjunto de información sobre la secuencia comprende una secuencia del genoma completo. En ciertos métodos, el segundo conjunto de información sobre la secuencia comprende información sobre la secuencia del exoma.

También se presenta en la presente memoria un método para confirmar la fuente de dos muestras biológicas diferentes que comprende: (a) proporcionar una primera muestra celular que contiene ácido nucleico; (b) obtener un primer conjunto de información sobre la secuencia de ácido nucleico de la primera porción de la muestra biológica según cualquiera de las realizaciones presentadas en la presente memoria, en donde el primer conjunto de información sobre la secuencia de ácido nucleico comprende información sobre la secuencia informativa de identidad; (c) proporcionar una segunda muestra de ácido nucleico que comprende ácido nucleico purificado y obtener un segundo conjunto de información sobre la secuencia; y (d) utilizando lógica asistida por ordenador, comparar la información sobre la secuencia informativa de identidad del primer conjunto de información sobre la secuencia de ácido nucleico con el segundo conjunto de información sobre la secuencia para confirmar que el primer y segundo conjunto de información sobre la secuencia se obtuvieron del mismo individuo.

En ciertos métodos, la información sobre la secuencia informativa de identidad comprende información sobre el genotipo SNP para al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 SNP únicos. En ciertos métodos, el segundo conjunto de información sobre la secuencia comprende información sobre el genotipo de SNP para al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26. , 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51 , 52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 SNP únicos.

Los detalles de uno o más métodos se establecen en los dibujos adjuntos y la descripción a continuación. Otras características, objetos y ventajas resultarán evidentes a partir de la descripción y los dibujos, y de las reivindicaciones.

Se pueden encontrar métodos adicionales en la Solicitud de Patente Provisional de Estados Unidos Núm. 61/189.063 presentada el 6 de julio de 2015.

Breve descripción de los dibujos

La Figura 1 ilustra un diagrama de flujo de un ejemplo de método de uso de TruSeq® Custom Amplicon para la preparación de bibliotecas de amplicones diana y la posterior secuenciación para la identificación de las muestras. La Figura 2 muestra una imagen Agilent TapeStation de un gel de los productos de amplificación por PCR generados a partir de cada troquel de DBS y muestras de ADN genómico utilizando el método de la Figura 1.

La Figura 3 muestra una captura de pantalla de un ejemplo del panel de estado de MiSeq con métricas de calidad para la ronda de secuenciación utilizando las muestras de la biblioteca DBS agrupadas de la Figura 2.

La Figura 4 muestra un gráfico del porcentaje de lecturas (filtro de paso) identificado como una función del número de índice para la ronda de secuenciación de la Figura 3.

La Figura 5 muestra una tabla de las llamadas de SNP para 7 muestras de donantes (es decir, CS219, CS220, CS221, CS222, CS223, CS224 y CS225) de la Tabla 2 tanto para el ADN genómico (ADNg) como para la muestra de DBS ("mancha").

Las Figuras 6A y 6B muestran una clave de color y un histograma y un diagrama de cálculos de identidad por estado (IBS), respectivamente, para las muestras de donantes mostradas en la tabla de la Figura 5.

Las Figuras 7A y 7B muestran una clave de color y un histograma y un gráfico de cálculos de identidad por estado (IBS), respectivamente, y muestran un ejemplo de discriminación de muestras de DBS de la Tabla 2 basándose en los datos de SNP.

La Figura 8 muestra una imagen de Agilent TapeStation de un gel de los productos de amplificación por PCR de muestras FFPE y de ADN genómico en el grupo A y una imagen de BioAnalyzer de los productos de amplificación por PCR de muestras FFPE y de ADN genómico en el grupo B.

La Figura 9 ilustra un diagrama de flujo de un ejemplo de método de uso de amplificación por PCR dirigida multiplex para la preparación de bibliotecas de amplicones diana y posterior secuenciación para la identificación de muestras. Las Figuras 10A y 10B muestran una imagen de BioAnalyzer de un gel de los productos de amplificación por PCR generados a partir de ADNg y una imagen de BioAnalyzer de los productos de amplificación por PCR generados a partir de cada troquel de DBS, respectivamente, utilizando el método de la Figura 9.

La Figura 11 muestra una captura de pantalla del soporte lógico del visor del análisis de secuenciación (SAV) de illumina que resume las métricas de calidad para la ronda de secuenciación en MiSeq utilizando las bibliotecas de DBS y amplicones genómicos de las Figuras 10A y 10B.

La Figura 12 muestra un gráfico del porcentaje de lecturas (filtro de paso) identificado como una función del número de índice para la ronda de secuenciación de la Figura 11.

Las Figuras 13A y 13B muestran una clave de color y un histograma y un gráfico de los cálculos de identidad por estado (IBS), respectivamente, para las muestras de donantes de la Tabla 2 utilizadas para evaluar el método 900 de la Figura 9.

Las Figuras 14A y 14B muestran una clave de color y un histograma y un gráfico de los cálculos de identidad por estado (IBS), respectivamente, y muestran un ejemplo de discriminación de muestras de DBS de la Tabla 2 basándose en datos de SNP.

La Figura 15 muestra un diagrama de árbol genealógico de la familia Platinum Genomes.

Las Figuras 16A y 16B muestran una clave de color y un histograma y un gráfico de cálculos de identidad por estado (IBS), respectivamente, y muestran un ejemplo de discriminación de muestras de ADN genómico de alta resolución basado en datos de SNP.

Descripción detallada

La presente divulgación proporciona métodos para la amplificación dirigida de ADN y la identificación de muestras. Los métodos expuestos en la presente memoria son particularmente útiles, por ejemplo, en la validación y control de calidad de muestras y para confirmar que los datos de secuencia de WGS se emparejan correctamente con una muestra de paciente antes de entregar los datos de secuencia a un médico o paciente. Sin embargo, se apreciará que los métodos expuestos en la presente memoria se pueden utilizar para otras aplicaciones adecuadas en las que se desea una rápida amplificación dirigida.

En algunos métodos, la presente divulgación se refiere a métodos para preparar muestras para la posterior amplificación de ácidos nucleicos (p. ej., ADN), métodos que son más sencillos de realizar que los métodos existentes.

En particular, la presente enseñanza se refiere a métodos en los que no se requiere purificar el ácido nucleico (p. ej., ADN) de una muestra antes de la amplificación.

Los métodos expuestos en la presente memoria son particularmente útiles, por ejemplo, en la validación y control de calidad de muestras y para confirmar que los datos de secuencia de WGS se emparejan correctamente con una muestra de paciente antes de entregar los datos de secuencia a un médico o paciente. Sin embargo, se apreciará que los métodos expuestos en la presente memoria se pueden utilizar para otras aplicaciones adecuadas en las que se desea una rápida amplificación dirigida.

Por consiguiente, en algunos métodos presentados en la presente memoria existen métodos para obtener información de la secuencia de ácido nucleico de una muestra biológica que comprenden: (a) proporcionar una muestra biológica que comprende diferentes ácidos nucleicos diana; (b) poner en contacto la muestra biológica con una pluralidad de conjuntos de sondas diferentes para formar complejos de hibridación con los diferentes ácidos nucleicos diana; (c) amplificar el ácido nucleico de las muestras biológicas para producir amplicones; en donde no existe purificación del ácido nucleico de la muestra biológica antes de la etapa de contacto (b); y (d) obtener información sobre la secuencia de ácido nucleico para una pluralidad de porciones de la muestra amplificada.

En algunos de los métodos anteriores, no existe purificación del ácido nucleico de la muestra biológica antes de la amplificación en la etapa (c). En cambio, la amplificación tiene lugar en presencia de los componentes de la muestra, incluidos los restos celulares y el material utilizado para el almacenamiento de la muestra biológica. Por ejemplo, en algunos métodos, la reacción de amplificación tiene lugar en presencia de componentes de formalina y parafina, además de restos celulares. En ciertos aspectos, la amplificación en la etapa (c) comprende la reacción en cadena de la polimerasa utilizando al menos dos cebadores de amplificación que son específicos para una porción del genoma de la muestra. En ciertos métodos, la amplificación en la etapa (c) comprende la extensión y ligación de dos sondas para formar moldes de amplificación.

En ciertos métodos, el sobrenadante que comprende complejos de hibridación en fase de solución se pone en contacto adicionalmente con un soporte sólido para formar complejos de hibridación inmovilizados cuando se pone en contacto con la enzima de extensión y los nucleótidos. Por ejemplo, el soporte sólido puede ser cuentas, partículas, una placa de filtro y similares.

En ciertos métodos, incluidos los reivindicados en la Reivindicación 1, cada uno de los diferentes ácidos nucleicos diana comprende, de 3’ a 5': un primer, segundo y tercer dominios diana contiguos y cada conjunto de sondas comprende: (i) una primera sonda que comprende, de 5’ a 3': una primera secuencia de cebado y una secuencia que es sustancialmente complementaria a un primer dominio diana; y (ii) una segunda sonda que comprende de 5’ a 3': una secuencia sustancialmente complementaria a un tercer dominio diana y una segunda secuencia de cebado.

En determinadas enseñanzas, el método comprende, antes de la etapa de amplificación, una etapa de recolección de un sobrenadante que comprende complejos de hibridación en fase de solución de la muestra biológica. En ciertos métodos, la obtención de información sobre la secuencia de ácido nucleico comprende una secuenciación masivamente paralela. En ciertos métodos, la obtención de información sobre la secuencia de ácido nucleico comprende la detección de los amplicones sobre la superficie de una matriz de ácidos nucleicos.

En algunos métodos presentados en la presente memoria, el método es un método para obtener información sobre la secuencia de ácido nucleico de una muestra FFPE que comprende: (a) proporcionar una muestra FFPE que comprende diferentes ácidos nucleicos diana incluidos dentro de un tejido conservado; (b) poner en contacto la muestra FFPE con una pluralidad de conjuntos de sondas diferentes para formar complejos de hibridación con los diferentes ácidos nucleicos diana; (c) amplificar el ácido nucleico de las muestras FFPE para producir amplicones; en donde no existe purificación del ácido nucleico de la muestra FFPE antes de la etapa de contacto (b); y (d) obtener información sobre la secuencia de ácido nucleico para una pluralidad de amplicones. En realizaciones particulares, no existe purificación del ácido nucleico de la muestra FFPE antes de la amplificación en la etapa (c).

En algunas enseñanzas, existen métodos para la amplificación de ácido nucleico a partir de una muestra FFPE que comprenden: (a) proporcionar una muestra FFPE que comprende ácido nucleico incluido dentro de un tejido preservado, teniendo el ácido nucleico, de 3’ a 5': un primer, segundo y tercer dominios diana contiguos; (b) poner en contacto la muestra FFPE con una pluralidad de conjuntos de sondas diferentes para formar complejos de hibridación con los diferentes ácidos nucleicos diana, en donde cada conjunto de sondas comprende: (i) una primera sonda que comprende, de 5’ a 3': una primera secuencia de cebado y una secuencia que es sustancialmente complementaria al primer dominio diana; y (ii) una segunda sonda que comprende de 5’ a 3': una secuencia sustancialmente complementaria al tercer dominio diana y una segunda secuencia de cebado; (c) poner en contacto los complejos de hibridación con una enzima de extensión y nucleótidos, en donde las primeras sondas se extienden a lo largo de los segundos dominios diana de los complejos de hibridación formados en (b); (d) ligar las primeras sondas extendidas a las segundas sondas para formar moldes de amplificación; y (e) amplificar los moldes de amplificación con un primer y segundo cebadores que son complementarios a la primera secuencia de cebado y la segunda secuencia de cebado para producir amplicones y obtener información sobre la secuencia de ácido nucleico para una pluralidad de amplicones.

En determinadas enseñanzas, el método comprende, antes de la etapa (c), una etapa de recolección de un sobrenadante que comprende complejos de hibridación en fase de solución de la muestra FFPE. En ciertos métodos, el sobrenadante que comprende complejos de hibridación en fase de solución se pone en contacto adicionalmente con un soporte sólido para formar complejos de hibridación inmovilizados cuando se pone en contacto con la enzima de extensión y los nucleótidos. En ciertos métodos, el soporte sólido comprende cuentas. En ciertos métodos, el soporte sólido comprende una placa de filtro. En ciertos métodos, la obtención de información sobre la secuencia de ácido nucleico comprende una secuenciación masivamente paralela. En ciertos métodos, la obtención de información sobre la secuencia de ácido nucleico comprende la detección de los amplicones sobre la superficie de una matriz de ácidos nucleicos.

En algunos métodos presentados en la presente memoria, el método es un método para la identificación de muestras de ácido nucleico que comprende: (a) proporcionar una muestra celular que contiene ácido nucleico; (b) lisar las células de la muestra con un reactivo de lisis para liberar ácido nucleico del interior de las células de la muestra celular, formando así un producto lisado; (c) amplificar el ácido nucleico de las muestras lisadas; en donde no existe purificación del ácido nucleico del producto lisado antes de comenzar la etapa de amplificación (c); y (d) obtener información sobre la secuencia de ácido nucleico para una pluralidad de porciones de la muestra amplificada y comparar la información sobre la secuencia con un segundo conjunto de información sobre la secuencia.

Como se utiliza en la presente memoria, "amplificación dirigida" se puede referir a cualquier método de amplificación utilizado para amplificar secuencias de ácido nucleico diana de interés. En algunos métodos, la amplificación dirigida puede incluir la preparación de amplicones y la secuenciación sobre un soporte sólido, como se establece en cualquiera de las divulgaciones de PCT/US2014/071263, presentada el 18 de diciembre de 2014, titulada "AMPLICON PREPARATION AND SEQUENCING ON SOLID SUPPORTS" y PCT/EP2014/079145, presentada el 23 de diciembre de 2014, titulada "POLYNUCLEOTIDE MODIFICATION ON SOLID SUPPORTS".

En algunos métodos, la amplificación dirigida puede comprender la hibridación de dos o más sondas con la misma hebra de una secuencia de ácido nucleico diana de interés, seguida de la extensión del extremo 3' de una de las sondas y la ligación de la sonda extendida a la otra sonda, como se expone generalmente en la documentación de la Patente de Estados Unidos Núm. 7.803.537, la Patente de Estados Unidos Núm. 8.003.354, y la Patente de Estados Unidos Núm. 8.906.626.

En algunos métodos, la preparación y amplificación de ácido nucleico se realizan sin purificación de ácido nucleico antes de la amplificación. Algunos métodos de preparación y amplificación de ácidos nucleicos que son útiles en los métodos descritos en la presente memoria se pueden encontrar en las divulgaciones de PCT/GB2015/051674, presentada en 9 de junio de 2015 titulada "SAMPLE PREPARATION FOR NUCLEIC ACID AMPLIFICARON" y Solicitud de Estados Unidos con Núm. de Ser. 62/167.463, presentada el 28 de mayo de 2015, titulada "SURFACE-BADES TAGMENTATION".

Como se emplea en la presente memoria, una muestra de ácido nucleico puede ser cualquier muestra que comprenda ácido nucleico. El ácido nucleico puede ser, por ejemplo, ADN o ARN. En algunos métodos, la muestra comprende células completas, células lisadas, componentes celulares o cualquier mezcla de los mismos. En algunos métodos, la muestra es una muestra de sangre. En algunos métodos, la muestra es una muestra de sangre completa. Se pueden obtener muestras adecuadas de tejido, fluido corporal y/o cualquier otro espécimen que comprenda ácido nucleico. En algunos métodos, la invención proporciona métodos para preparar muestras que no son de sangre, tales como muestras de tejido (p. ej., muestras fijadas con formalina incluidas en parafina (FFPE)) para la amplificación de ADN. Tales muestras de tejido pueden ser muestras de tumores. Otras muestras pueden ser biopsias o productos aspirados y similares.

La presente divulgación proporciona métodos para validar la identidad de una muestra de ADN en un ensayo de prueba genética. En un ejemplo, el ensayo de prueba genética es un ensayo de diagnóstico de secuenciación del genoma completo (WGS) multiplexado. En varios métodos, los métodos utilizan la secuenciación de bibliotecas de amplicones diana para confirmar la identidad de una muestra en un ensayo de prueba genética.

En algunos métodos, la biblioteca de amplicones diana se prepara utilizando un panel de sondas o cebadores que se pueden utilizar para amplificar selectivamente una pluralidad de regiones genómicas que, solas o combinadas, proporcionan información sobre la identidad de la muestra. Por ejemplo, en algunos métodos, el panel de sondas o cebadores se utiliza para distinguir la identidad de una muestra de otras muestras. En algunos métodos, el panel de sondas o cebadores se utiliza para identificar a un ser humano del que se obtuvo una muestra. En algunos métodos, el ser humano se puede distinguir de una pluralidad de otros seres humanos. En algunos métodos, el ser humano se puede identificar de forma única. Por ejemplo, en algunos métodos, se utiliza un panel de sondas o cebadores para amplificar selectivamente una pluralidad de regiones genómicas que, solas o combinadas, identifican de forma única la fuente biológica, tal como un donante humano, entre más de 10, 100, 1000 , 104, 105, 106, 107, 108, 109, 1010, o más de 1011 donantes humanos diferentes. En algunos métodos, se utiliza un panel de sondas o cebadores para amplificar selectivamente una pluralidad de regiones genómicas que, solas o combinadas, identifican de forma única la fuente biológica, tal como un donante humano, entre 108, 109, 1010, más de 1011 donantes humanos diferentes. Como se emplea en la presente memoria, el término identificar de forma única se refiere a la capacidad de uno o más marcadores que, solos o combinados, distinguen una muestra particular de cualquier otra muestra.

En algunos métodos, las bibliotecas de amplicones diana se preparan utilizando un panel de sondas o cebadores que amplifican selectivamente regiones polimórficas. Se puede utilizar cualquier región polimórfica en los paneles presentados en la presente memoria. Por ejemplo, en algunos métodos, las regiones polimórficas son polimorfismos de un solo nucleótido (SNP). En algunos métodos, las regiones polimórficas son regiones repetidas, tales como repeticiones cortas en tándem (STR). En algunos métodos, el panel amplifica selectivamente un panel que incluye una combinación de diferentes tipos de regiones polimórficas, tales como, por ejemplo, una combinación de uno o más SNP y una o más STR.

Se puede utilizar cualquier combinación adecuada de regiones polimórficas y cualquier número adecuado de regiones polimórficas que proporcionen un nivel deseado de distinción entre individuos. En algunos métodos, las bibliotecas de amplicones diana se preparan utilizando un panel de sondas o cebadores para la detección de polimorfismos de un solo nucleótido informativos de identidad (iiSNP), también denominados en la presente memoria SNP de identidad. Cualquier panel adecuado de SNP de identidad, como se conoce en la técnica, se puede utilizar en los métodos presentados en la presente memoria, tales como, por ejemplo, los descritos en las divulgaciones de Kidd KK et al. Forensic Sci Int. 2006; 164(1): 20-32, y de Sánchez JJ, et al. Electrophoresis 2006; 27(9):1713-1724. En algunos métodos, tales como los descritos en los ejemplos presentados a continuación, un panel tal como el subconjunto de SNP de ID de 45-plex del conjunto ForenSeq (Illumina, Inc.) se puede utilizar en los métodos presentados en la presente memoria.

En algunos métodos, los SNP de identidad se utilizan para discriminar entre muestras en un ensayo de prueba genética multiplex. El contenido de un panel de SNP de identidad y/o el número de SNP en un panel se pueden seleccionar para una aplicación específica. El diseño del cebador (p. ej., la posición del cebador) para la generación de bibliotecas de amplicones de SNP se puede seleccionar para la secuenciación rápida de la biblioteca. En algunos métodos, el panel SNP comprende al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 SNP únicos para la identificación positiva de la muestra entre una o más muestras. En algunos métodos, el panel de SNP comprende al menos 19 SNP diferentes. En algunos métodos, el panel de SNP comprende al menos 52 SNP diferentes. En un ejemplo, un panel de SNP de identidad incluye 24 SNP diferentes. En otro ejemplo, un panel de SNP de identidad incluye 45 SNP diferentes.

De acuerdo con lo anterior, en algunos métodos, el método comprende poner en contacto una muestra de ácido nucleico con una pluralidad de cebadores de sondas diferentes configurados para amplificar selectivamente un panel deseado de regiones polimórficas, tal como, por ejemplo, una combinación de uno o más SNP y/o una o más STR.

A modo de ejemplo no limitante, el panel puede comprender uno o más de los SNP informativos de identidad expuestos en la Tabla 1 a continuación, en cualquier combinación.

Tabla 1 SNP informativos de identidad

Una muestra en un ensayo de prueba genética puede ser cualquier muestra que comprenda ácido nucleico, tal como una muestra biológica. Los ejemplos no limitantes de muestras biológicas pueden incluir organismos completos, así como una muestra obtenida de un paciente. La muestra biológica se puede obtener de cualquier fluido o tejido biológicos y puede estar en una variedad de formas, incluyendo fluido y tejido líquidos, tejido sólido y formas conservadas tales como formas secas, congeladas y fijadas. La muestra puede ser de cualquier tejido, célula o fluido biológicos. Tales muestras incluyen, pero no se limitan a, esputo, sangre, suero, plasma, glóbulos (p. ej., glóbulos blancos), fluido ascítico, orina, saliva, lágrimas, esputo, flujo vaginal (secreción), lavados obtenidos durante un procedimiento médico (p. ej., lavados pélvicos u otros obtenidos durante una biopsia, endoscopia o cirugía), muestras de tejido, producto aspirado de pezón, muestras de biopsia con aguja de núcleo o fina, fluidos corporales que contienen células, ácidos nucleicos flotantes libres, fluido peritoneal y fluido pleural, o células de los mismos. Las muestras biológicas también pueden incluir secciones de tejidos tales como secciones congeladas o fijadas tomadas con fines histológicos o células microdiseccionadas o porciones extracelulares de las mismas. En algunos métodos, la muestra puede ser una muestra de sangre, tal como, por ejemplo, una muestra de sangre completa. En otro ejemplo, la muestra es una muestra de mancha de sangre seca (DBS) sin procesar. En otro ejemplo más, la muestra es una muestra fijada con formalina incluida en parafina (FFPE). En otro ejemplo más, la muestra es una muestra de saliva. En otro ejemplo más, la muestra es una muestra de mancha de saliva seca (DSS).

En algunos métodos, se incluye un panel de marcadores de identidad en un panel diseñado para escrutar una enfermedad, tal como, por ejemplo, una mutación de cáncer somático. Como resultado, los resultados de la secuenciación de los paneles combinados no solo proporcionan información sobre el estado de la enfermedad, sino que también proporcionan información sobre la identidad del individuo del que se obtuvo la muestra. La combinación de información sobre la secuencia informativa de enfermedad e información sobre la secuencia informativa de identidad permite que la información sobre la secuencia de enfermedad se vincule a la identidad del individuo. Esto proporciona ventajas significativas en el almacenamiento y la gestión de datos de secuencia de individuos porque la información sobre la secuencia informativa de identidad es un componente de la información sobre la secuencia obtenida cuando se escruta el estado de la enfermedad. Además, la información sobre la secuencia informativa de identidad puede ser ventajosa cuando se comparan los resultados del escrutinio de la enfermedad con otra información sobre la secuencia, tal como información sobre la secuencia del genoma completo, información sobre la secuencia del exoma o un panel de información sobre la secuencia que está dirigido a otro escrutinio de la enfermedad.

En algunas enseñanzas, los métodos y composiciones presentados en la presente memoria permiten rastrear la identidad de una muestra biológica durante diferentes fases del procesamiento de la muestra. Por ejemplo, un método de seguimiento puede comprender: (a) proporcionar una muestra celular que contiene ácido nucleico; (b) separar una porción de la muestra en una primera porción y una segunda porción y obtener un primer conjunto de información sobre la secuencia de ácido nucleico de la primera porción de la muestra biológica de acuerdo con cualquiera de los métodos presentados en la presente memoria, en donde el primer conjunto de información de secuencia de ácido nucleico comprende información sobre la secuencia informativa de identidad; (c) purificar el ácido nucleico de la segunda porción y obtener un segundo conjunto de información sobre la secuencia; y (d) utilizando lógica asistida por ordenador, comparar la información sobre la secuencia informativa de identidad del primer conjunto de información sobre la secuencia de ácido nucleico con el segundo conjunto de información sobre la secuencia para confirmar que el primer y segundo conjuntos de información sobre la secuencia se obtuvieron de la misma fuente.

En algunos métodos, se puede desear confirmar la identidad de la fuente de dos muestras diferentes. Por ejemplo, un método puede comprender: (a) proporcionar una primera muestra celular que contiene ácido nucleico; (b) obtener un primer conjunto de información sobre la secuencia de ácido nucleico de la primera porción de la muestra biológica según cualquiera de los métodos presentados en la presente memoria, en donde el primer conjunto de información sobre la secuencia de ácido nucleico comprende información sobre la secuencia informativa de identidad; (c) proporcionar una segunda muestra de ácido nucleico que comprende ácido nucleico purificado y obtener un segundo conjunto de información sobre la secuencia; y (d) utilizando lógica asistida por ordenador, comparar la información sobre la secuencia informativa de identidad del primer conjunto de información sobre la secuencia de ácido nucleico con el segundo conjunto de información sobre la secuencia para confirmar que el primer y segundo conjunto de información sobre la secuencia se obtuvieron del mismo individuo.

Amplificación selectiva

En los métodos presentados en la presente memoria, se amplifica selectivamente a partir de una muestra un panel de ácidos nucleicos diana. En algunos métodos, la amplificación selectiva puede incluir una o más etapas de amplificación no selectiva. Por ejemplo, un proceso de amplificación que utiliza cebadores aleatorios o degenerados puede ir seguido de uno o más ciclos de amplificación utilizando cebadores específicos de la diana.

En una disposición, los métodos de la invención utilizan TruSeq® Custom Amplicon (TSCA) (Illumina, Inc.) para la preparación de bibliotecas de amplicones diana para la posterior secuenciación y validación de muestras. El protocolo de preparación de la biblioteca TSCA utiliza sondas oligonucleotídicas específicas de la diana y una reacción de ligación/extensión para generar amplicones diana. Por ejemplo, en algunos casos, el método puede comprender (a) proporcionar una muestra que tiene los diferentes ácidos nucleicos diana que comprenden ADN, en donde cada ácido nucleico comprende, de 3’ a 5': un primer, segundo y tercer dominios diana contiguos; (b) poner en contacto la muestra con una pluralidad de al menos 100 conjuntos de sondas diferentes para formar complejos de hibridación con los diferentes ácidos nucleicos diana, en donde cada conjunto de sondas comprende: (i) una primera sonda que comprende, de 5’ a 3': una primera secuencia de cebado y una secuencia que es sustancialmente complementaria al primer dominio diana; y (ii) una segunda sonda que comprende de 5’ a 3': una secuencia sustancialmente complementaria al tercer dominio diana, y una segunda secuencia de cebado, en donde al menos una sonda en cada uno de los diferentes conjuntos de sondas contiene una secuencia adaptadora distinta no nativa con respecto al ácido nucleico diana; (c) poner en contacto los complejos de hibridación con una enzima de extensión y nucleótidos, en donde las primeras sondas se extienden a lo largo de los segundos dominios diana de los complejos de hibridación formados en (b), en donde los complejos de hibridación se inmovilizan sobre un soporte sólido cuando se ponen en contacto con la enzima de extensión y los nucleótidos; (d) ligar las primeras sondas extendidas a las segundas sondas para formar moldes de amplificación; (e) amplificar los moldes de amplificación con el primer y segundo cebadores que son complementarios a la primera secuencia de cebado y la segunda secuencia de cebado para producir amplicones; y (f) detectar los amplicones sobre la superficie de una matriz de ácidos nucleicos que es diferente del soporte sólido que está inmovilizado en los complejos de hibridación.

En otra disposición, los métodos utilizan amplificación por PCR multiplex dirigida para la preparación de bibliotecas de amplicones para la posterior secuenciación y validación de la muestra. Aunque TSCA y la PCR multiplex dirigida se describen en la presente memoria como métodos ilustrativos, un experto en la técnica apreciará que se puede utilizar cualquiera de una serie de metodologías conocidas para la captura selectiva y/o la amplificación selectiva en los métodos presentados en la presente memoria para la preparación de una biblioteca de amplicones para su posterior secuenciación y validación de muestras.

Como se emplean en la presente memoria, los términos "amplificando", "amplificar", "amplificación" y términos similares se refieren a la producción de una o más copias de un ácido nucleico de hebra sencilla o de doble hebra, o una porción del mismo. En algunos casos, los métodos proporcionados en la presente memoria pueden incluir una etapa de producción de un ácido nucleico amplificado en condiciones isotérmicas o térmicas variables.

Como se emplean en la presente memoria, los términos "selectivamente" y "dirigido" y similares, cuando se utilizan en referencia a "amplificando" "amplificación" (o equivalentes gramaticales), se refieren a la amplificación preferentemente de un primer ácido nucleico en una muestra en comparación con uno o más de otros ácidos nucleicos en la muestra. El término se puede referir a la producción de una o más copias del primer ácido nucleico y sustancialmente ninguna copia de los otros ácidos nucleicos. El término también se puede referir a la producción de una cantidad detectable de copias del primer ácido nucleico y una cantidad indetectable (o insignificante) de copias de los otros ácidos nucleicos en las condiciones de detección concretas utilizadas.

Se puede utilizar cualquier metodología de amplificación adecuada para amplificar de forma selectiva o no selectiva una o más moléculas de ácido nucleico de un individuo de acuerdo con los métodos y sistemas presentados en la presente memoria. Se apreciará que cualquiera de las metodologías de amplificación descritas en la presente memoria o generalmente conocidas en la técnica se puede utilizar con cebadores específicos de la diana para amplificar selectivamente una molécula de ácido nucleico de interés. Los métodos adecuados para la amplificación selectiva incluyen, pero no se limita a, la reacción en cadena de la polimerasa (PCR), la amplificación por desplazamiento de hebra (SDA), la amplificación mediada por transcripción (TMA) y la amplificación basada en la secuencia de ácido nucleico (NASBA), como se describe en la Patente de Estados Unidos Núm. 8.003.354. Los métodos de amplificación anteriores se pueden emplear para amplificar selectivamente uno o más ácidos nucleicos de interés. Por ejemplo, se pueden utilizar PCR, incluyendo PCR multiplex, SDA, TMA, NASBA y similares para amplificar selectivamente uno o más ácidos nucleicos de interés. En tales métodos, los cebadores dirigidos específicamente al ácido nucleico de interés se incluyen en la reacción de amplificación.

Otros métodos adecuados para la amplificación de ácidos nucleicos pueden incluir las tecnologías de extensión y ligación de oligonucleótidos, la amplificación de círculo rodante (RCA) (Lizardi et al., Nat. Genet. 19:225-232 (1998)) y el ensayo de ligación de oligonucleótidos (OLA) véanse en general las Patentes de Estados Unidos Núm.

7.582.420, 5.185.243, 5.679.524 y 5.573.907; el documento EP 0 320 308 B1; el documento EP 0 336 731 B1; el documento EP 0 439 182 B1; el documento WO 90/01069; el documento WO 89/12696; y el documento WO 89/09835). Se apreciará que estas metodologías de amplificación se pueden diseñar para amplificar selectivamente un ácido nucleico diana de interés. Por ejemplo, en algunos métodos, el método de amplificación selectiva puede incluir reacciones de amplificación con sonda de ligación o ensayo de ligación de oligonucleótidos (OLA) que contienen cebadores dirigidos específicamente al ácido nucleico de interés. En algunos métodos, el método de amplificación selectiva puede incluir una reacción de extensión-ligación de cebadores que contiene cebadores dirigidos específicamente al ácido nucleico de interés. Como ejemplo no limitante de extensión de cebadores y cebadores de ligación que se pueden diseñar específicamente para amplificar un ácido nucleico de interés, la amplificación puede incluir cebadores utilizados para el ensayo GoldenGate (Illumina, Inc., San Diego, CA).

Los métodos de amplificación isotérmica ilustrativos que se pueden utilizar en un método de la presente divulgación incluyen, pero no se limitan a, Amplificación de Desplazamiento Múltiple (MDA) como ilustran, por ejemplo, Dean et al., Proc. Natl. Acad. Sci. USA 99:5261-66 (2002) o amplificación de ácido nucleico por desplazamiento de hebra isotérmica ilustrada, por ejemplo por la Patente de Estados Unidos Núm. 6.214.587. Otros métodos no basados en PCR que se pueden utilizar en la presente divulgación incluyen, por ejemplo, amplificación por desplazamiento de hebra (SDA) que describen, por ejemplo, Walker et al., en Molecular Methods for Virus Detection, Academic Press, Inc., 1995; las Patentes de Estados Unidos Núm. 5.455.166, y 5.130.238, y Walker et al., Nucl. Acids Res. 20:169196 (1992) o amplificación por desplazamiento de hebra hiperramificada que describen, por ejemplo, Lage et al., en Genome Research 13:294-307 (2003). Los métodos de amplificación isotérmica se pueden utilizar con la polimerasa Phi 29 de desplazamiento de hebra o el fragmento grande de la polimerasa de ADN Bst, 5' -> 3' exo- para la amplificación de cebadores aleatorios de ADN genómico. El uso de estas polimerasas aprovecha su alta procesividad y actividad de desplazamiento de hebra. La alta procesividad permite que las polimerasas produzcan fragmentos de 10 a 20 kb de longitud. Como se ha expuesto anteriormente, se pueden producir fragmentos más pequeños en condiciones isotérmicas utilizando polimerasas que tienen baja procesividad y actividad de desplazamiento de hebra, tal como la polimerasa Klenow. La descripción adicional de las reacciones, condiciones y componentes de amplificación se establece en detalle en la descripción de la Patente de Estados Unidos Núm. 7.670.810.

Otro método de amplificación de ácido nucleico que es útil en la presente divulgación es la PCR Etiquetada que utiliza una población de cebadores de dos dominios que tienen una región 5' constante seguida de una región 3' aleatoria como describen, por ejemplo, Grothues et al. en Nucleic Acids Res. 21 (5):1321 -2 (1993). Las primeras rondas de amplificación se llevan a cabo para permitir una multitud de iniciaciones en ADN desnaturalizado por calor basadas en la hibridación individual de la región 3' sintetizada aleatoriamente. Debido a la naturaleza de la región 3', se contempla que los sitios de iniciación sean aleatorios en todo el genoma. Después de eso, los cebadores no unidos se pueden eliminar y puede tener lugar una replicación adicional utilizando cebadores complementarios a la región 5' constante.

Un enfoque adicional que se puede utilizar para amplificar el ADNg con relación a los métodos de la presente divulgación es la reacción en cadena de la polimerasa cebada con oligonucleótidos degenerados (DOP-PCR) en condiciones tales como, pero no limitadas a, las descritas por Cheung et al., en Proc. Natl. Acad. Sci. USA, 93: 14676-79 (1996) o la Patente de Estados Unidos Núm. 5.043.272. Se pueden amplificar cantidades bajas de ADNg, por ejemplo, 15 pg de ADNg humano a niveles que se detectan convenientemente en los métodos de la presente divulgación. Las condiciones de reacción utilizadas en los métodos de Cheung et al. se pueden seleccionar para la producción de una población representativa amplificada de fragmentos de genoma que tienen una cobertura casi completa del genoma humano. Además, las versiones modificadas de DOP-PCR, tales como las descritas por Kittler et al. en un protocolo conocido como LL-DOP-PCR (Productos largos de Cantidades bajas de ADN-DOP-PCR) se pueden utilizar para amplificar el ADNg de acuerdo con la presente divulgación (Kittler et al., Anal. Biochem. 300: 237-44 (2002)).

La reacción en cadena de la polimerasa de preamplificación por extensión de cebadores (PEP-PCR) también se puede utilizar en un método de la presente divulgación para amplificar el ADNg. Las condiciones útiles para la amplificación de ADNg utilizando PEP-PCR incluyen, por ejemplo, las descritas por Casas et al., en Biotechniques 20:219-25 (1996).

En algunos métodos, la amplificación selectiva puede incluir un método para extraer un ácido nucleico de interés de una mezcla de diferentes ácidos nucleicos. La extracción se puede producir antes o después de que ocurra la amplificación. Los métodos de extracción son bien conocidos en la técnica y pueden incluir, por ejemplo, extracción de ácidos nucleicos utilizando sondas biotiniladas o matrices de sondas.

Los presentes métodos no se limitan a ninguna técnica de amplificación concreta y las técnicas de amplificación descritas en la presente memoria son ilustrativas únicamente con respecto a los métodos de la presente divulgación.

Los métodos de la divulgación proporcionan una prueba rápida que utiliza una entrada de muestra "bruta" (p. ej., una mancha de sangre seca sin procesar) y/o una entrada de muestra procesada (p. ej., ADN genómico purificado) que se puede utilizar para confirmar rápida e inequívocamente la identidad de la muestra de los datos WGS.

Métodos de secuenciación

Los métodos descritos en la presente memoria se pueden utilizar junto con una variedad de técnicas de secuenciación de ácidos nucleicos. Las técnicas particularmente aplicables son aquellas en donde los ácidos nucleicos se anclan a ubicaciones fijas en una matriz de modo que sus posiciones relativas no cambien y en donde se generan repetidamente imágenes de la matriz. Son particularmente aplicables los métodos en los que se obtienen imágenes en diferentes canales de color, por ejemplo, coincidiendo con diferentes marcas utilizadas para distinguir un tipo de base nucleotídica de otra. En algunos métodos, el procedimiento para determinar la secuencia de nucleótidos de un ácido nucleico diana puede ser un procedimiento automatizado. Los métodos preferidos incluyen técnicas de secuenciación por síntesis ("SBS").

Las "técnicas de secuenciación por síntesis ("SBS")" generalmente implican la extensión enzimática de una hebra de ácido nucleico naciente mediante la adición iterativa de nucleótidos frente a una hebra molde. En los métodos tradicionales de SBS, se puede proporcionar un monómero de un solo nucleótido a un nucleótido diana en presencia de una polimerasa en cada suministro. Sin embargo, en los métodos descritos en la presente memoria, se puede proporcionar más de un tipo de monómero nucleotídico a un ácido nucleico diana en presencia de una polimerasa en un suministro.

La SBS puede utilizar monómeros de nucleótidos que tienen un radical terminador o aquellos que carecen de cualquier radical terminador. Los métodos que utilizan monómeros de nucleótidos que carecen de terminadores incluyen, por ejemplo, pirosecuenciación y secuenciación utilizando nucleótidos marcados con Y-fosfato, como se expone con más detalle a continuación. En los métodos que utilizan monómeros de nucleótidos que carecen de terminadores, el número de nucleótidos añadidos en cada ciclo es generalmente variable y depende de la secuencia molde y del modo de suministro de nucleótidos. Para las técnicas de SBS que utilizan monómeros de nucleótidos que tienen un radical terminador, el terminador puede ser irreversible en la práctica en las condiciones de secuenciación utilizadas como es el caso de la secuenciación tradicional de Sanger que utiliza didesoxinucleótidos, o el terminador puede ser reversible como es el caso de los métodos de secuenciación desarrollados por Solexa (ahora Illumina, Inc.).

Las técnicas de SBS pueden utilizar monómeros de nucleótidos que tienen un radical marcador o aquellos que carecen de un radical marcador. Por consiguiente, los eventos de incorporación se pueden detectar basándose en una característica de la marca, tal como la fluorescencia de la marca; una característica del monómero nucleotídico, tal como el peso molecular o la carga; un subproducto de la incorporación del nucleótido, tal como la liberación de pirofosfato; o similar. En los métodos, en los que están presentes dos o más nucleótidos diferentes en un reactivo de secuenciación, los diferentes nucleótidos pueden distinguirse entre sí, o alternativamente, las dos o más marcas diferentes pueden ser indistinguibles según las técnicas de detección que se utilizan. Por ejemplo, los diferentes nucleótidos presentes en un reactivo de secuenciación pueden tener diferentes marcas y se pueden distinguir utilizando ópticas apropiadas como se ilustra mediante los métodos de secuenciación desarrollados por Solexa (ahora Illumina, Inc.).

Los métodos preferidos incluyen técnicas de pirosecuenciación. La pirosecuenciación detecta la liberación de pirofosfato inorgánico (PPi) a medida que se incorporan nucleótidos particulares a la hebra naciente (Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. y Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release". Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA". Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M. y Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate". Science 281(5375), 363; Patente de Estados Unidos Núm. 6.210.891; Patente de Estados Unidos Núm. 6.258.568 y Patente de Estados Unidos Núm. 6.274.320). En la pirosecuenciación, el PPi liberado puede detectarse convirtiéndolo inmediatamente en trifosfato de adenosina (ATP) mediante la ATP sulfurilasa, y el nivel de ATP generado se detecta mediante los fotones producidos por luciferasa. Los ácidos nucleicos que se van a secuenciar se pueden anclar a elementos en una matriz y se pueden generar imágenes de la matriz para capturar las señales quimioluminiscentes que se producen debido a la incorporación de nucleótidos a los elementos de la matriz. Se puede obtener una imagen después de que la matriz se trate con un tipo de nucleótido concreto (p. ej., A, T, C o G). Las imágenes obtenidas después de la adición de cada tipo de nucleótido diferirán con respecto a qué elementos de la matriz que se detecten. Estas diferencias en la imagen reflejan el contenido de secuencia diferente de los elementos en la matriz. Sin embargo, las ubicaciones relativas de cada elemento permanecerán sin cambios en las imágenes. Las imágenes se pueden almacenar, procesar y analizar utilizando los métodos expuestos en la presente memoria. Por ejemplo, las imágenes obtenidas después del tratamiento de la matriz con cada tipo de nucleótido diferente se pueden manejar de la misma manera que se ilustra en la presente memoria para las imágenes obtenidas de diferentes canales de detección para métodos de secuenciación basados en terminadores reversibles.

En otro tipo ilustrativo de SBS, la secuenciación por ciclos se logra mediante la adición escalonada de nucleótidos terminadores reversibles que contienen, por ejemplo, una marca colorante escindible o fotoblanqueable como se describe, por ejemplo, en la Publicación de Patente Internacional Núm. WO 04/018497 y la Patente de Estados Unidos Núm. 7.057.026. Este enfoque está siendo comercializado por Solexa (ahora Illumina Inc.), y también se describe en la Publicación de Patente Internacional Núm. WO 91/06678 y la Publicación de Patente Internacional Núm. WO 07/123.744. La disponibilidad de terminadores marcados con fluorescencia en los que la terminación puede ser revertida y la marca fluorescente escindida facilita la secuenciación de terminación cíclica reversible (CRT) eficaz. Las polimerasas también se pueden diseñar conjuntamente para una incorporación y extensión eficaces a partir de estos nucleótidos modificados.

Preferiblemente, en los métodos de secuenciación basados en terminadores reversibles, las marcas no inhiben sustancialmente la extensión en las condiciones de reacción de SBS. Sin embargo, las marcas de detección se pueden eliminar, por ejemplo, mediante escisión o degradación. Las imágenes se pueden capturar tras la incorporación de las marcas a los elementos de ácidos nucleicos dispuestos en la matriz. En métodos particulares, cada ciclo implica el suministro simultáneo de cuatro tipos de nucleótidos diferentes a la matriz y cada tipo de nucleótido tiene una marca espectralmente distinta. A continuación, se pueden obtener cuatro imágenes, cada una de las cuales utiliza un canal de detección que es selectivo para una de las cuatro marcas diferentes. Alternativamente, se pueden añadir secuencialmente diferentes tipos de nucleótidos y se puede obtener una imagen de la matriz entre cada etapa de adición. En tales métodos, cada imagen mostrará elementos de ácidos nucleicos que han incorporado nucleótidos de un tipo concreto. Diferentes elementos estarán presentes o ausentes en las diferentes imágenes debido al diferente contenido de secuencia de cada elemento. Sin embargo, la posición relativa de los elementos permanecerá sin cambios en las imágenes. Las imágenes obtenidas a partir de tales métodos de SBS con terminadores reversibles se pueden almacenar, procesar y analizar como se expone en la presente memoria. Después de la etapa de captura de imágenes, las marcas se pueden eliminar y los radicales terminadores reversibles se pueden eliminar para los ciclos posteriores de adición y detección de nucleótidos. La eliminación de las marcas después de que se hayan detectado en un ciclo concreto y antes de un ciclo posterior puede proporcionar la ventaja de reducir la señal de fondo y la interferencia entre ciclos. A continuación, se exponen ejemplos de marcas y métodos de eliminación útiles.

En métodos concretos, algunos o todos los monómeros de nucleótidos pueden incluir terminadores reversibles. En tales métodos, los terminadores reversibles/flúoros escindibles pueden incluir flúor conectado al radical ribosa a través de un enlace éster 3' (Metzker, Genome Res. 15:1767-1776 (2005)). Otros enfoques han separado la química del terminador de la escisión de la marca de fluorescencia (Ruparel et al., Proc Natl Acad Sci USA 102:5932-7 (2005)). Ruparel et al describieron el desarrollo de terminadores reversibles que utilizaban un pequeño grupo alilo 3' para bloquear la extensión, pero que podían desbloquearse fácilmente mediante un tratamiento corto con un catalizador de paladio. El fluoróforo se ancló a la base mediante un conector fotoescindible que podría escindirse fácilmente mediante una exposición de 30 segundos a luz UV de longitud de onda larga. Por tanto, se puede utilizar la reducción con disulfuro o la fotoescisión como conector escindible. Otro enfoque para la terminación reversible es el uso de la terminación natural que se produce después de la colocación de un colorante voluminoso sobre un dNTP. La presencia de un colorante voluminoso cargado sobre el dNTP puede actuar como un terminador eficaz a través de un impedimento estérico y/o electrostático. La presencia de un evento de incorporación evita otras incorporaciones a menos que se elimine el colorante. La escisión del colorante elimina el flúor y revierte eficazmente la terminación. También se describen ejemplos de nucleótidos modificados en la Patente de Estados Unidos Núm. 7.427.673, y la Patente de Estados Unidos Núm. 7.057.026.

Los sistemas y métodos de SBS ilustrativos adicionales que se pueden utilizar con los métodos y sistemas descritos en la presente memoria se describen en la Publicación de Patente de Estados Unidos Núm. 2007/0166705, la Publicación de Patente de Estados Unidos Núm. 2006/0188901, la Patente de Estados Unidos Núm. 7.057.026, la Publicación de Patente de Estados Unidos Núm. 2006/0240439, la Publicación de Patente de Estados Unidos Núm.

2006/0281109, la Publicación de Patente Internacional Núm. WO 05/065814, la Publicación de Patente de Estados Unidos Núm. 2005/0100900, la Publicación de Patente Internacional Núm. w O 06/064199, la Publicación de Patente Internacional Núm. WO 07/010.251, la Publicación de Patente de Estados Unidos Núm. 2012/0270305 y la Publicación de Patente de Estados Unidos Núm. 2013/0260372.

Algunos métodos pueden utilizar la detección de cuatro nucleótidos diferentes utilizando menos de cuatro marcas diferentes. Por ejemplo, la SBS se puede realizar utilizando métodos y sistemas descritos en la documentación de la Publicación de Patente de Estados Unidos Núm. 2013/0079232. Como primer ejemplo, se puede detectar un par de tipos de nucleótidos en la misma longitud de onda, pero distinguir en función de la diferencia de intensidad de un miembro del par en comparación con el otro, o en función de un cambio en un miembro del par (p. ej., mediante modificación química, modificación fotoquímica o modificación física) que hace que la señal aparente aparezca o desaparezca en comparación con la señal detectada para el otro miembro del par. Como segundo ejemplo, se pueden detectar tres de cuatro tipos de nucleótidos diferentes en condiciones concretas, mientras que un cuarto tipo de nucleótido carece de una marca que sea detectable en esas condiciones, o se detecta mínimamente en esas condiciones (p. ej., detección mínima debido a la fluorescencia de fondo, etc.). La incorporación de los primeros tres tipos de nucleótidos a un ácido nucleico se puede determinar basándose en la presencia de sus respectivas señales y la incorporación del cuarto tipo de nucleótido en el ácido nucleico se puede determinar basándose en la ausencia o detección mínima de cualquier señal. Como tercer ejemplo, un tipo de nucleótido puede incluir una o varias marcas que se detectan en dos canales diferentes, mientras que otros tipos de nucleótidos se detectan en no más de uno de los canales. Las tres configuraciones ilustrativas mencionadas anteriormente no se consideran mutuamente excluyentes y se pueden utilizar en varias combinaciones. Un método ilustrativo que combina los tres ejemplos es un método SBS basado en fluorescencia que utiliza un primer tipo de nucleótido que se detecta en un primer canal (p. ej., dATP que tiene una marca que se detecta en el primer canal cuando se excita por medio de una primera longitud de onda de excitación), un segundo tipo de nucleótido que se detecta en un segundo canal (p. ej., dCTP que tiene una marca que se detecta en el segundo canal cuando se excita por medio de una segunda longitud de onda de excitación), un tercer tipo de nucleótido que se detecta tanto en el primero como en el segundo canal (p. ej., dTTP que tiene al menos una marca que se detecta en ambos canales cuando se excita por medio de la primera y/o segunda longitudes de onda de excitación) y un cuarto tipo de nucleótido que carece de una marca que no se detecta, o se detecta mínimamente, en cualquiera de los canales (p. ej., dGTP que no tiene marca).

Adicionalmente, como se describe en la documentación de la Publicación de Patente de Estados Unidos Núm.

2013/0079232, los datos de secuenciación se pueden obtener utilizando un solo canal. En los llamados enfoques de secuenciación de un colorante, el primer tipo de nucleótido se marca pero la marca se elimina después de que se genera la primera imagen, y el segundo tipo de nucleótido se marca solo después de que se genera una primera imagen. El tercer tipo de nucleótido conserva su marca tanto en la primera como en la segunda imágenes, y el cuarto tipo de nucleótido permanece sin marcar en ambas imágenes.

Algunos métodos pueden utilizar la secuenciación mediante técnicas de ligación. Tales técnicas utilizan ADN ligasa para incorporar oligonucleótidos e identificar la incorporación de tales oligonucleótidos. Los oligonucleótidos tienen típicamente diferentes marcas que se correlacionan con la identidad de un nucleótido particular en una secuencia con la que hibridan los oligonucleótidos. Al igual que con otros métodos de SBS, se pueden obtener imágenes tras el tratamiento de una matriz de elementos de ácidos nucleicos con los reactivos de secuenciación marcados. Cada imagen mostrará elementos de ácidos nucleicos que han incorporado marcas de un tipo concreto. Diferentes elementos estarán presentes o ausentes en las diferentes imágenes debido al diferente contenido de secuencia de cada elemento, pero la posición relativa de los elementos permanecerá sin cambios en las imágenes. Las imágenes obtenidas a partir de métodos de secuenciación basados en ligación se pueden almacenar, procesar y analizar como se expone en la presente memoria. Los sistemas y métodos de SBS ilustrativos que se pueden utilizar con los métodos y sistemas descritos en la presente memoria se describen en la Patente de Estados Unidos Núm. 6.969.488, la Patente de Estados Unidos Núm. 6.172.218, y la Patente de Estados Unidos Núm. 6.306.597.

Algunos métodos pueden utilizar la secuenciación de nanoporos (Deamer, D. W. & Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing". Trends Biotechnol. 18, 147-151 (2000); Deamer, D. y D. Branton, "Characterization of nucleic acids by nanopore analysis". Acc. Chem. Res. 35:817-825 (2002)); Li, J., M. Gershow, D. Stein, E. Brandin y J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611 -615 (2003)). En tales métodos, el ácido nucleico diana pasa a través de un nanoporo. El nanoporo puede ser un poro sintético o una proteína de membrana biológica, tal como la a -hemolisina. A medida que el ácido nucleico diana pasa a través del nanoporo, cada par de bases se puede identificar midiendo las fluctuaciones en la conductancia eléctrica del poro. (Patente de Estados Unidos Núm. 7.001.792; Soni, G. V. & Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores". Clin. Chem. 53, 1996-2001 (2007); Healy, K. "Nanopore based singlemolecule DNA analysis". Nanomed. 2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. y Ghadiri, M. R. "A singlemolecule nanopore device detects DNA polymerase activity with single-nucleotide resolution". J. Am. Chem. Soc. 130, 818-820 (2008)). Los datos obtenidos de la secuenciación de nanoporos se pueden almacenar, procesar y analizar como se expone en la presente memoria. En particular, los datos se pueden tratar como una imagen de acuerdo con el tratamiento ilustrativo de imágenes ópticas y otras imágenes que se expone en la presente memoria.

Algunas disposiciones pueden utilizar métodos que implican el control en tiempo real de la actividad de la ADN polimerasa. Las incorporaciones de nucleótidos se pueden detectar mediante interacciones de transferencia de energía por resonancia de fluorescencia (FRET) entre una polimerasa que porta fluoróforo y nucleótidos marcados con Y-fosfato como se describe, por ejemplo, en la Patente de Estados Unidos Núm. 7.329.492 y la Patente de Estados Unidos Núm. 7.211.414 o las incorporaciones de nucleótidos se pueden detectar con guías de onda de modo cero como se describe, por ejemplo, en la Patente de Estados Unidos Núm. 7.315.019 y utilizando análogos de nucleótidos fluorescentes y polimerasas modificadas como se describe, por ejemplo, en la Patente de Estados Unidos Núm.

7.405.281 y la Publicación de Patente de Estados Unidos Núm. 2008/0108082. La iluminación se puede restringir a un volumen de escala de zeptolitros alrededor de una polimerasa fijada a la superficie de modo que se pueda observar la incorporación de nucleótidos marcados con fluorescencia con un fondo bajo (Levene, M. J. et al. "Zero-mode waveguides for single-molecule analysis at high concentrations". Science 299, 682-686 (2003); Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time". Opt. Lett. 33, 1026-1028 (2008); Korlach, J. et al. "Selective aluminun passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures". Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)). Las imágenes obtenidas a partir de tales métodos se pueden almacenar, procesar y analizar como se expone en la presente memoria.

Algunos métodos de SBS incluyen la detección de un protón liberado tras la incorporación de un nucleótido a un producto de extensión. Por ejemplo, la secuenciación basada en la detección de protones liberados puede utilizar un detector eléctrico y técnicas asociadas que están disponibles comercialmente de Ion Torrent (Guilford, CT, una subsidiaria de Life Technologies) o métodos y sistemas de secuenciación descritos en la Publicación de Patente de Estados Unidos Núm. 2009/0026082; la Publicación de Patente de Estados Unidos Núm. 2009/0127589; la Publicación de Patente de Estados Unidos Núm. 2010/0137143; o la Publicación de Patente de Estados Unidos Núm.

2010/0282617. Los métodos expuestos en la presente memoria para amplificar ácidos nucleicos diana utilizando exclusión cinética se pueden aplicar fácilmente a sustratos utilizados para detectar protones. Más específicamente, los métodos expuestos en la presente memoria se pueden utilizar para producir poblaciones clonales de amplicones que se utilizan para detectar protones.

Los métodos de SBS anteriores se pueden llevar a cabo ventajosamente en formatos multiplex de modo que se manipulen simultáneamente múltiples ácidos nucleicos diana diferentes. En métodos concretos, se pueden tratar diferentes ácidos nucleicos diana en un recipiente de reacción común o sobre una superficie de un sustrato concreto. Esto permite el suministro conveniente de reactivos de secuenciación, la eliminación de reactivos que no han reaccionado y la detección de eventos de incorporación de una manera multiplex. En los métodos que utilizan ácidos nucleicos diana unidos a la superficie, los ácidos nucleicos diana pueden tener un formato de matriz. En un formato de matriz, los ácidos nucleicos diana se pueden unir típicamente a una superficie de una manera espacialmente distinguible. Los ácidos nucleicos diana se pueden unir mediante anclaje covalente directo, anclaje a una cuenta u otra partícula o unión a una polimerasa u otra molécula que esté anclada a la superficie. La matriz puede incluir una única copia de un ácido nucleico diana en cada sitio (también denominado elemento) o pueden estar presentes múltiples copias que tienen la misma secuencia en cada sitio o elemento. Se pueden producir múltiples copias mediante métodos de amplificación tales como amplificación en puente o PCR en emulsión como se describe con más detalle a continuación.

Los métodos expuestos en la presente memoria pueden utilizar matrices que tienen elementos a cualquiera de una variedad de densidades que incluyen, por ejemplo, al menos aproximadamente 10 elementos/cm2, 100 elementos/cm2, 500 elementos/cm2, 1.000 elementos/cm2, 5.000 elementos/cm2, 10.000 elementos/cm2, 50.000 elementos/cm2, 100.000 elementos/cm2, 1.000.000 elementos/cm2, 5.000.000 de elementos/cm2 o superior.

Una ventaja de los métodos expuestos en la presente memoria es que proporcionan una detección rápida y eficaz de una pluralidad de ácidos nucleicos diana en paralelo. Por consiguiente, la presente divulgación proporciona sistemas integrados capaces de preparar y detectar ácidos nucleicos utilizando mecanismos conocidos en la técnica tales como los ilustrados anteriormente. Por tanto, un sistema integrado de la presente divulgación puede incluir componentes fluídicos capaces de suministrar reactivos de amplificación y/o reactivos de secuenciación a uno o más fragmentos de ADN inmovilizados, comprendiendo el sistema componentes tales como bombas, válvulas, depósitos, líneas fluídicas y similares. Se puede configurar y/o utilizar una celda de flujo en un sistema integrado para la detección de ácidos nucleicos diana. Las celdas de flujo ilustrativas se describen, por ejemplo, en la Publicación de Patente de Estados Unidos Núm. 2010/0111768 A1 y la Solicitud de Patente de Estados Unidos Núm. 13/273.666. Como se ilustra para las celdas de flujo, se pueden utilizar uno o más de los componentes fluídicos de un sistema integrado para un método de amplificación y para un método de detección. Tomando un método de secuenciación de ácidos nucleicos como ejemplo, se pueden utilizar uno o más de los componentes fluídicos de un sistema integrado para un método de amplificación expuesto en la presente memoria y para el suministro de reactivos de secuenciación en un método de secuenciación tal como los ilustrados anteriormente. Alternativamente, un sistema integrado puede incluir sistemas fluídicos separados para llevar a cabo métodos de amplificación y para llevar a cabo métodos de detección. Los ejemplos de sistemas de secuenciación integrados que son capaces de crear ácidos nucleicos amplificados y también de determinar la secuencia de los ácidos nucleicos incluyen, sin limitación, la plataforma MiSeqTM (Illumina, Inc., San Diego, CA) y los dispositivos descritos en la Solicitud de Patente de Estados Unidos Núm. 13/273.666.

Preparación y secuenciación de la biblioteca TSCA para la validación de muestras

En una disposición, los métodos de la invención utilizan el Amplicón personalizado TruSeq® (denominado en la presente memoria "TSCA") para la preparación de bibliotecas de amplicones diana para la posterior secuenciación e identificación de muestras.

La Figura 1 ilustra un diagrama de flujo de un ejemplo de un método 100 de uso de TruSeq® Custom Amplicon para la preparación de bibliotecas de amplicones diana y la posterior secuenciación para la identificación de muestras. En este ejemplo, se utiliza T ruSeq® Custom Amplicon v1. El método 100 incluye, pero no se limita a, las siguientes etapas.

En una etapa 110, se prepara una muestra de entrada. En un ejemplo, la muestra de entrada es un troquel de 3 mm de una muestra de DBS. En un método, el troquel de DBS se coloca directamente en un pocillo de una placa de 96 pocillos u otro recipiente de reacción adecuado, tal como un tubo de microcentrífuga o similar. En algunos métodos, el troquel se somete a manipulaciones adicionales, tales como enjuague, remojo, incubación o agitación con movimiento oscilante, para procesar el material de muestra y prepararlo para las etapas posteriores de preparación de la biblioteca. Por ejemplo, la muestra se puede colocar en un tampón durante un período de tiempo adecuado para permitir una mayor permeabilización del material de la muestra y liberar el ácido nucleico para un mejor acceso a los reactivos de hibridación y amplificación. En algunos métodos, la muestra es un troquel de una mancha de sangre. En algunos métodos, la muestra comprende FFPE.

En una etapa 115, se hibrida una reserva de oligonucleótidos aguas arriba y aguas abajo específicos de los SNP diana con el ADN genómico en el troquel de muestra de DBS. En un ejemplo, el panel de oligonucleótidos incluye oligonucleótidos aguas arriba y aguas abajo que se dirigen a 24 SNP informativos de identidad. Por ejemplo, una alícuota de la reserva de oligonucleótidos y una alícuota de tampón de hibridación se añaden directamente a cada pocillo que contiene un troquel de muestra de DBS. La placa de 96 pocillos se coloca en un bloque calefactor calentado a aproximadamente 96°C, se incuba durante aproximadamente 1 minuto y a continuación, la temperatura se enfría lentamente a aproximadamente 40°C (p. ej., se enfría lentamente durante aproximadamente 2 horas). Al final de la incubación de hibridación, el sobrenadante se retira de cada pocillo (dejando el troquel DBS en el pocillo) y se transfiere a una nueva placa de 96 pocillos.

En una etapa 120, se realizan las etapas convencionales en el protocolo TSCA para la preparación de la biblioteca (p. ej., eliminación de oligonucleótidos no unidos, extensión/ligación de oligonucleótidos unidos, amplificación por PCR de productos de extensión-ligación, etc.). En un ejemplo, la eliminación del oligonucleótido no unido se realiza utilizando una placa de filtro (es decir, TSCA v1).

En una etapa 125, se agrupa y secuencia una alícuota de las muestras de la biblioteca de DBS amplificadas. Para secuenciar la biblioteca se puede utilizar cualquiera de las diversas metodologías de secuenciación conocidas que se han descrito en la presente memoria anteriormente. En algunos métodos, las muestras de la biblioteca agrupadas se secuencian utilizando una secuenciación masivamente paralela, por ejemplo, en un aparato MiSeq versión 3 (Illumina, Inc.)

En una etapa 130, se analizan los datos de secuenciación. Por ejemplo, los datos de secuenciación se analizan utilizando la herramienta MiSeq Reporter utilizando el alineador Smith-Waterman y la variante GATK que llama en las posiciones de los 24 SNP.

En otro ejemplo (no mostrado), se utiliza un protocolo de TruSeq® Custom Amplicon que incluye un procedimiento basado en cuentas para la eliminación de oligonucleótidos no unidos (es decir, TSCA v2) para preparar bibliotecas de amplicones diana para la secuenciación e identificación de muestras.

Para evaluar el método 100 de la Figura 1, se utilizaron muestras de sangre de 10 donantes sanos. Las muestras de sangre se adquirieron del Servicio de Laboratorio de Ensayos Clínicos. Tras la recepción de cada muestra, se prepararon muestras de manchas de sangre seca aplicando una alícuota (p. ej., de aproximadamente 50 pl a aproximadamente 70 pL) de cada muestra de sangre en tarjetas de papel de filtro individuales (es decir, tarjetas Guthrie) y secando la muestra sobre la tarjeta. La Tabla 2 a continuación muestra una lista de las muestras de donantes que se utilizaron para evaluar el método 100 de la Figura 1. Cada muestra se designa con un número CS, p. ej., CS212, CS219, CS220, etc. Los números CS en cursiva, es decir, CS219, CS224 y CS308 son muestras de sangre del mismo individuo (es decir, ID de paciente KD241283) proporcionadas en diferentes puntos de tiempo y utilizadas como individuo de referencia. Todas las manchas de sangre tenían menos de 6 meses ("Fecha de llegada de la sangre"). Todas las muestras de sangre estaban dentro de un intervalo "normal" (p. ej., 3.000-10.000/pL en individuos sanos) para los recuentos de glóbulos blancos ("recuento de WBC") aunque los recuentos de WBC difieren entre las muestras. Para algunas muestras de sangre de donantes, el ADN genómico (indicado por "x" en la columna "ADN almacenado") también se aisló de la muestra de sangre utilizando un kit QiaAmp y un protocolo de extracción (disponible de Qiagen). Se utilizó ADN genómico como control comparativo para la preparación de bibliotecas y la llamada de SNP.

Se prepararon bibliotecas de amplicones diana a partir de un troquel de 3 mm de cada muestra de DBS. Un troquel DBS de 3 mm contiene aproximadamente 200 ng de ADN. Como comparación, también se prepararon bibliotecas de amplicones diana a partir de 100 ng de cada muestra de ADN genómico (es decir, muestras CS219, CS220, CS221, CS222, CS223, CS224 y CS225.

La Figura 2 muestra una imagen Agilent TapeStation 200 de un gel de los productos de amplificación por PCR generados a partir de cada troquel de DBS y muestras de ADN genómico utilizando el método 100 de la Figura 1. Las muestras de DBS y las muestras de control de ADN genómico (ADNg, 100 ng) son las descritas con referencia a la Tabla 2. Un corchete indica la posición de las bandas que representan los productos de amplificación por PCR. La calle marcada como "Promega" es un control positivo que utiliza un ADN de control de Promega. La calle marcada como "Blanco" es un control negativo que utiliza un troquel de filtro que no incluye ADN. Los datos muestran que los productos de amplificación se obtuvieron directamente de muestras de DBS. También se obtuvieron productos de amplificación a partir de ADN genómico.

La Figura 3 muestra una captura de pantalla 300 del soporte lógico del visor del análisis de secuenciación (SAV) de illumina que resume las métricas de calidad para la ronda de secuenciación en MiSeq utilizando las muestras de la biblioteca de DBS agrupadas de la Figura 2. En esta ronda de secuenciación, 35 millones de lecturas pasaron el filtro (aproximadamente 1,5 millones de lecturas por muestra). Esto produjo una cobertura de al menos aproximadamente 5000x para cada SNP de identidad en el panel de oligonucleótidos.

La Figura 4 muestra un gráfico 400 del porcentaje de lecturas (filtro de paso) identificado como una función del número de índice para la ronda de secuenciación de la Figura 3. Los datos muestran una representación uniforme de cada muestra en la biblioteca de secuenciación agrupada. Los puntos encerrados en un círculo en el gráfico 400 son los controles negativos.

Los datos de secuenciación se analizaron en MiSeq Reporter utilizando el alineador Smith-Waterman y el llamador de variantes GATK. Las llamadas de variantes en los 24 SNP se puntuaron con respecto a la referencia de hg19. Las llamadas eran alelos de referencia homocigotos ("ref"), heterocigotos ("het") o alelos alternativos homocigotos ("alt"). Se compararon los datos (cuando estaban disponibles) de las llamadas de las muestras de DBS, ADN genómico (extraído de la muestra de sangre) y secuencia del genoma completo (WGS).

La Figura 5 muestra una tabla 500 de las llamadas de SNP para 7 muestras de donantes (es decir, CS219, CS220, CS221, CS222, CS223, CS224 y CS225) tanto para el ADN genómico (ADNg) como para la muestra de DBS ("mancha"). Los datos muestran que se hicieron llamadas de genotipo idénticas a partir de bibliotecas preparadas a partir de ADN genómico extraído de una muestra de sangre y bibliotecas preparadas a partir del ADN correspondiente en la muestra de mancha de sangre seca.

Para cada muestra de donante (es decir, muestras de ADN genómico y DBS) que se muestra en la tabla 500 de la Figura 5, los datos para las 24 posiciones de SNP de identidad cayeron a una única métrica y se utilizaron para determinar la identidad. Por ejemplo, para cualquier par dado de muestras de donantes, se puede observar la identidad por estado (IBS) en un SNP dado y se puede determinar la relación de las muestras. Un segmento de ADN (p. ej., el alelo de SNP) es idéntico por estado en dos o más individuos (donantes) si tienen secuencias de nucleótidos idénticas en este segmento.

Las Figuras 6A y 6B muestran una clave de color y un histograma 600 y un gráfico 605 de los cálculos de identidad por estado (IBS), respectivamente, para las muestras de donantes que se muestran en la tabla 500 de la Figura 5. Con referencia a la Figura 6A, el color rojo indica 100% de identidad (valor = 1), lo que significa que los 24 SNP para cualquier par dado de muestras de donantes son los mismos. La escala de colores cambia a color verde, lo que indica que 50% (valor = 0,5) de los SNP para cualquier par dado de muestras de donantes son los mismos. Con referencia a la Figura 6B, el gráfico 605 compara los SNP en muestras de ADN genómico ("ADNg Extraído") y DBS ("Manchas de Sangre") basándose en la identidad por estado. En la diagonal (recuadros de color rojo), los 24 SNP en las muestras de ADN genómico y DBS correspondientes son los mismos, p. ej., CS219_ADNg en comparación con CS219_mancha y CS220_ADNg en comparación con CS220_mancha, etc. En contraste, los 24 SNP en muestras no relacionadas, p. ej., CS219_ADNg en comparación con CS220_mancha, no son los mismos que los indicados por el cuadro de color verde, lo que indica que las muestras no son las mismas.

Las Figuras 7A y 7B muestran una clave de color y un histograma 700 y un gráfico 705 de cálculos de identidad por estado (IBS), respectivamente, y muestran un ejemplo de discriminación de muestras de DBS de la Tabla 2 basada en los datos de SNP. La clave de color y el histograma 700 son los que se han descrito con referencia a la Figura 6A. Con referencia ahora a la Figura 7B, el gráfico 705 compara los SNP entre muestras de DBS ("mancha") basándose en la identidad por estado. En la diagonal (recuadros de color rojo), los 24 SNP de las muestras de DBS coincidentes son los mismos, p. ej., CS212_mancha en comparación con CS212_mancha, CS219_mancha en comparación con CS219_mancha, etc. Las flechas discontinuas en CS219_mancha, CS244-mancha y CS308_mancha indican muestras del mismo donante que se tomaron en diferentes momentos. Todos los SNP de las muestras CS219_mancha, CS244-mancha y CS308_mancha son los mismos (recuadros de color rojo), p. ej., CS219_mancha en comparación con CS308_mancha, CS219_mancha en comparación con CS244_mancha, etc., e indican que las muestras son del mismo individuo. La flecha continua en CS244_WGS indica datos de secuenciación del genoma completo; esta muestra se utilizó para comprobar la concordancia con el genoma completo frente a los datos del amplicón TSCA.

Los datos muestran que el método 100 de la Figura 1 se puede utilizar para distinguir muestras de diferentes individuos para identificar correctamente muestras del mismo individuo tomadas en diferentes momentos.

En otro ejemplo, los amplicones de ADN diana se pueden preparar directamente a partir de muestras FFPE utilizando un protocolo de preparación de bibliotecas TSCA. Para demostrar la preparación de amplicones de ADN diana directamente para muestras FFPE, se utilizaron secciones (p. ej., una sección de 10 gm) de una muestra FFPE de tumor de mama y una muestra FFPE de tumor gástrico. En este ejemplo, el panel de ADN diana fue un panel de cáncer colorrectal (Illumina). Se colocaron secciones de cada una de las muestras de tumor de mama y de tumor gástrico directamente en los pocillos de una placa de 96 pocillos y se añadieron una alícuota de tampón de hibridación y una alícuota de un conjunto de oligonucleótidos aguas arriba y aguas abajo específico para genes diana (p. ej., volumen de reacción total de 50 gL) a cada pocillo. Después del período de hibridación y la reacción de ligación/extensión, el ADN diana se amplificó utilizando 30 ciclos de PCR. También se preparó ADN genómico a partir de muestras FFPE de mama y gástrico y se utilizó como controles en el protocolo de amplificación TSCA (es decir, ADN genómico de entrada = 100 ng).

La Figura 8 muestra una imagen Agilent TapeStation 800 de un gel de los productos de amplificación por PCR de muestras FFPE y de ADN genómico en la reserva A y una imagen Agilent TapeStation 805 de los productos de amplificación por PCR de muestras FFPE y de ADN genómico en la reserva B, en donde las reservas A y B son reservas de oligonucleótidos separadas que se dirigen a hebras opuestas del ADN diana respectivo, que proporcionan dos conjuntos de datos equivalentes útiles para excluir errores inducidos mediante PCR, secuenciación o modificaciones de bases inducidas por FFPE. Un corchete en la Figura 8 indica la posición de las bandas que representan los productos de amplificación por PCR. La calle marcada como "Sin ADN" es un control negativo. Los datos muestran que los productos de amplificación se obtuvieron directamente de muestras FFPE. También se obtuvieron productos de amplificación a partir de ADN genómico.

Bibliotecas de amplificación por PCR multiplexadas y secuenciación para la validación de muestras

En otra disposición, los métodos utilizan amplificación por PCR dirigida multiplex para la preparación de bibliotecas de amplicones genómicos para la posterior secuenciación y validación de la muestra.

La Figura 9 ilustra un diagrama de flujo de un ejemplo del método 900 de uso de amplificación por PCR dirigida multiplex para la preparación de bibliotecas de amplicones diana y secuenciación posterior para la identificación de muestras. El método 900 incluye, pero no se limita a, las siguientes etapas.

En una etapa 910, se prepara una muestra de entrada. En un ejemplo, la muestra de entrada es un troquel de 3 mm de una muestra de DBS. El troquel de DBS se coloca directamente en el pocillo de una placa de 96 pocillos.

En una etapa 915, se realiza una amplificación por PCR dirigida multiplex en la muestra de DBS. Por ejemplo, se añaden una mezcla de cebadores diana, reactivos de PCR y ADN Phusion Hot Start I1High Fidelity DNA Polymerase (Life Technologies) a cada pocillo con un troquel de DBS en su interior. La mezcla de cebadores diana incluye pares de cebadores para 45 SNP de identidad que incluyen adaptadores de índice (es decir, un subconjunto de SNP de ID de 45-plex del conjunto ForenSeq (Illumina, Inc)).

En una etapa 920, el ADN amplificado se agrupa y se carga en una celda de flujo preparada con sondas de captura. Las sondas de captura son específicas para las secuencias diana amplificadas. Las secuencias de ADN diana se capturan en la celda de flujo mediante hibridación con las sondas de captura sobre la superficie de la celda de flujo.

En una etapa 925, las secuencias diana capturadas se amplifican clonalmente sobre la superficie de la celda de flujo.

En una etapa 930, se secuencia el ADN amplificado. Por ejemplo, el ADN amplificado se secuencia en un aparato MiSeq V3 utilizando 2x 76 ciclos de secuenciación.

En una etapa 935, se analizan los datos de secuenciación. Por ejemplo, los datos de secuenciación se analizan utilizando Burrow-Wheeler Aligner (BWA) en el flujo de trabajo de amplicones de PCR en MiSeq Reporter.

El Método 900 se evaluó utilizando las muestras de sangre descritas anteriormente con referencia a la Tabla 2. Se prepararon bibliotecas de amplicones diana a partir de un troquel de 3 mm de cada muestra de DBS. Un troquel de DBS de 3 mm contiene aproximadamente 200 ng de ADN. También se prepararon bibliotecas de amplicones diana a partir de 1 ng de ADN genómico de las muestras CS219, CS220, CS221, CS222, CS223, CS224 y CS225.

Las Figuras 10A y 10B muestran una imagen de BioAnalyzer 1000 de un gel de los productos de amplificación por PCR generados a partir de ADNg y una imagen de BioAnalyzer 1005 de los productos de amplificación por PCR generados a partir de cada troquel de DBS, respectivamente, utilizando el método 900 de la Figura 9. Las muestras de DBS y las muestras de control de ADN genómico (ADNg, 1 ng) son las descritas anteriormente con referencia a la Tabla 2. Un corchete indica la posición de las bandas que representan los productos de amplificación por PCR. Con referencia a la Figura 10A, la calle marcada como "-ve" es un control negativo que no incluye ADN molde. Las calles 12878, 12877, 12884 y 12885 son muestras de control de la familia Platinum Genomes (es decir, padre, madre y 2 hijos). Se observaron algunos productos de amplificación en la muestra de control negativo. Los datos muestran que los productos de amplificación se obtuvieron directamente de muestras de DBS. También se obtuvieron productos de amplificación a partir de ADN genómico.

La Figura 11 muestra una captura de pantalla 1100 del soporte lógico del visor del análisis de secuenciación (SAV) de illumina que resume las métricas de calidad para la ronda secuenciación en MiSeq utilizando DBS y las bibliotecas de amplicones genómicos de las Figuras 10A y 10B. En esta ronda de secuenciación, se escaneó una superficie de la celda de flujo, 3,71 millones de lecturas pasaron el filtro durante aproximadamente 10 s - 1000 s x cobertura (una ronda de baja cobertura) para cada SNP de identidad en el panel de oligonucleótidos.

La Figura 12 muestra un gráfico 1200 del porcentaje de lecturas (filtro de paso) identificado como una función del número de índice para la ronda de secuenciación de la Figura 11. Las lecturas de las muestras de DBS ("manchas") están por encima de la línea y las lecturas de las muestras de ADN genómico ("ADNg") están debajo de la línea. La discrepancia en la representación de lectura para las muestras de DBS y de ADN genómico se puede deber a una menor eficiencia en el agrupamiento y/o normalización de las muestras.

Los datos de secuenciación se analizaron en MiSeq Reporter utilizando Burrow-Wheeler Aligner (BWA) en el flujo de trabajo de amplicones de PCR en MiSeq Reporter.

Para cada muestra de donante (es decir, muestras de ADN genómico y DBS), los datos de las 45 posiciones de SNP de identidad cayeron a una única métrica y se utilizaron para determinar la identidad.

Las Figuras 13A y 13B muestran una clave de color y un histograma 1300 y un gráfico 1305 de cálculos de identidad por estado (IBS), respectivamente, para las muestras de donantes de la Tabla 2 utilizadas para evaluar el método 900 de la Figura 9. Con referencia a la Figura 13A, el color rojo indica 100% de identidad (valor = 1), lo que significa que los 45 SNP para cualquier par dado de muestras de donantes son los mismos. La escala de colores cambia a color verde, lo que indica que 50% (valor = 0,5) de los SNP para cualquier par dado de muestras de donantes son los mismos. Con referencia a la Figura 13B, el gráfico 1305 compara los SNP en muestras de ADN genómico ("ADNg extraído") y DBS ("Manchas de Sangre") basándose en la identidad por estado. En la diagonal (recuadros de color rojo), los 45 SNP en las muestras de ADN genómico y DBS correspondientes son los mismos, p. ej., CS219_adn en comparación con CS219_mancha y CS220_adn en comparación con CS220_mancha, etc., lo que indica que la identidad de la muestra es llamada correctamente. Por el contrario, los 45 SNP en muestras no relacionadas, p. ej., CS219_adn en comparación con CS220_mancha, no son los mismos que indica el recuadro de color verde, lo que indica que las muestras no son las mismas. Obsérvese que para CS224_adn en comparación con CS224_mancha, el recuadro no tiene un color tan rojo como las otras muestras de ADN genómico/DBS coincidentes, lo que puede deberse a una menor cobertura de secuenciación de algunos amplicones.

Las Figuras 14A y 14B muestran una clave de color y un histograma 1400 y un gráfico 1405 de cálculos de identidad por estado (IBS), respectivamente, y muestran un ejemplo de discriminación de muestras de DBS de la Tabla 2 basándose en datos de SNP. La clave de color y el histograma 1400 son los descritos con referencia a la Figura 13A. Con referencia ahora a la Figura 14B, el gráfico 1405 compara los SNP entre muestras de DBS ("mancha") y ADN genómico ("adn") basándose en la identidad por estado. En la diagonal (recuadros de color rojo), los 45 SNP de las muestras de DBS coincidentes son los mismos, p. ej., CS212mancha en comparación con CS212mancha, CS219adn en comparación con CS219adn, etc. Las flechas discontinuas en CS219adn, CS219mancha, CS244mancha y CS308mancha indican muestras del mismo donante (muestra de referencia) que se tomaron en diferentes momentos. Se identificó que los 45 SNP de las muestras de referencia CS219, CS244 y CS308 eran los mismos (recuadros de color rojo), p. ej., CS219mancha en comparación con CS308mancha, CS219adn en comparación con CS244mancha, etc., e indicaron que las muestras eran del mismo individuo. La flecha continua en CS244adn indica datos de secuenciación del genoma completo; esta muestra se utilizó para comprobar la concordancia con el genoma completo frente a los datos del amplicón de PCR.

Los datos muestran que el método 900 de la Figura 9 se puede utilizar para distinguir muestras de diferentes individuos e identificar correctamente muestras del mismo individuo tomadas en diferentes momentos.

Discriminación de muestras de alta resolución

En otra disposición, los métodos se utilizan para discriminar entre muestras de individuos estrechamente relacionados. En un ejemplo, los individuos estrechamente relacionados son hermanos. En otro ejemplo, los individuos estrechamente relacionados son un trío familiar, en donde ambos padres y al menos un niño padecen, por ejemplo, una enfermedad o afección.

Para evaluar la eficacia de los métodos en la discriminación de muestras de alta resolución, se utilizó un conjunto de muestras de la familia Platinum Genomes. Platinum Genomes es un conjunto de llamadas de variante de referencia de calidad "platino" de alta confianza que se generó secuenciando una gran familia a gran profundidad utilizando una preparación de muestra sin PCR para maximizar la sensibilidad de llamada de variante como describen Eberle et al. (2016) en bioRxiv doi: 10.1101/055541. La discriminación de la muestra se realizó utilizando el método 100 de la Figura 1 y el panel de 24 SNP de identidad.

La Figura 15 muestra un diagrama de árbol genealógico 1500 de la familia Platinum Genomes. Las flechas indican los miembros de la familia cuyo ADN genómico se utilizó en la evaluación (es decir, padre, madre, 4 niñas y 5 niños).

Las Figuras 16A y 16B muestran una clave de color y un histograma 1600 y un gráfico 1605 de cálculos de identidad por estado (IBS), respectivamente, y muestran un ejemplo de discriminación de muestras de ADN genómico de alta resolución basada en datos de SNP. Las muestras de ADN genómico son las descritas con referencia a la Figura 15. Con referencia a la Figura 16A, el color rojo indica 100% de identidad (valor = 1), lo que significa que los 24 SNP para cualquier par dado de muestras de donantes son los mismos. La escala de colores cambia a color verde, lo que indica que 50% (valor = 0,5) de los SNP para cualquier par dado de muestras de donantes son los mismos. Con referencia ahora a la Figura 16B, el gráfico 1605 compara los SNP entre muestras genómicas basándose en la identidad por estado. En la diagonal (recuadros de color rojo), los 24 SNP en las muestras genómicas coincidentes son los mismos, p. ej., NA12877 comparado con NA12877, n A12878 comparado con NA12878, etc. Los datos muestran que el método 100 de la Figura 1 se puede utilizar para distinguir muestras de individuos estrechamente relacionados.

En la presente memoria, se pretende que el término que comprende sea abierto, que incluye no solo los elementos enumerados, sino que además abarca cualquier elemento adicional.

Claims

REIVINDICACIONES

1. Un método para obtener información sobre la secuencia de ácido nucleico de una muestra biológica que comprende: (a) proporcionar una muestra biológica que comprende diferentes ácidos nucleicos diana, en donde cada uno de los diferentes ácidos nucleicos diana comprende, de 3’ a 5': un primer, segundo y tercer dominios diana contiguos; (b) poner en contacto la muestra biológica con una pluralidad de diferentes conjuntos de sondas para formar complejos de hibridación con los diferentes ácidos nucleicos diana, en donde cada conjunto de sondas comprende: (i) una primera sonda que comprende, de 5’ a 3': una primera secuencia de cebado y una secuencia que es sustancialmente complementaria a un primer dominio diana; y (ii) una segunda sonda que comprende, de 5’ a 3': una secuencia sustancialmente complementaria a un tercer dominio diana, y una segunda secuencia de cebado, en donde la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones polimórficas que sean informativas de la identidad de la fuente de la muestra;

(c) poner en contacto los complejos de hibridación con una enzima de extensión y nucleótidos, en donde las primeras sondas se extienden a lo largo de los segundos dominios diana de los complejos de hibridación formados en (b); (d) ligar las primeras sondas extendidas a las segundas sondas para formar moldes de amplificación;

(e) amplificar los moldes de amplificación con el primer y segundo cebadores que son complementarios a la primera secuencia de cebado y la segunda secuencia de cebado para producir amplicones, en donde no existe purificación del ácido nucleico de la muestra biológica antes de la etapa de contacto (b);

(f) obtener información de la secuencia de ácido nucleico para una pluralidad de porciones de la muestra amplificada, en donde la obtención comprende detectar los amplicones en una matriz de ácidos nucleicos o comprende una secuenciación masivamente paralela; y

(g) utilizar la información sobre la secuencia de la etapa (f) para confirmar la identidad de la muestra en un ensayo de prueba genética.

2. El método de la reivindicación 1, en donde no existe purificación del ácido nucleico de la muestra biológica antes de la amplificación en la etapa (e).

3. El método de la reivindicación 1, en donde un sobrenadante que comprende complejos de hibridación en fase de solución se pone en contacto adicionalmente con un soporte sólido para formar complejos de hibridación inmovilizados cuando se pone en contacto con la enzima de extensión y los nucleótidos.

4. El método de la reivindicación 3, en donde el soporte sólido comprende cuentas o una placa de filtro.

5. El método de la reivindicación 1, que comprende, antes de la etapa (c), una etapa de recolección de un sobrenadante que comprende complejos de hibridación en fase de solución de la muestra biológica.

6. El método de la reivindicación 1, en donde la pluralidad de conjuntos de sondas comprende al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27. , 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51,52, 53, 54, 55, 56, 57, 58, 59, 60, 70, 80, 90 o al menos 100 conjuntos de sondas diferentes.

7. El método de la reivindicación 1, en donde la pluralidad de conjuntos de sondas comprende una pluralidad de sondas configuradas para hibridar selectivamente con regiones que comprenden polimorfismos asociados con el cáncer.

8. El método de la reivindicación 1, en donde la muestra es una muestra de sangre, una muestra de sangre completa, una muestra de tejido fijada con formalina incluida en parafina (FFPE) o una muestra de saliva, o comprende sangre seca sobre una superficie sólida porosa y donde la muestra opcionalmente comprende tejido tumoral.

9. El método de la reivindicación 8, en donde la muestra es una muestra de tejido fijada con formalina incluida en parafina (FFPE).

10. Un método para rastrear la identidad de una muestra biológica durante diferentes fases del procesamiento de la muestra, que comprende:

(a) proporcionar una muestra celular que contiene ácido nucleico;

(b) separar una porción de la muestra en una primera porción y una segunda porción y obtener un primer conjunto de información sobre la secuencia de ácido nucleico de la primera porción de la muestra biológica según cualquiera de las reivindicaciones 1-9, en donde el primer conjunto de información sobre la secuencia de ácido nucleico comprende información sobre la secuencia informativa de identidad;

(c) purificar el ácido nucleico de la segunda porción y obtener un segundo conjunto de información sobre la secuencia; y (d) utilizando lógica asistida por ordenador, comparar la información sobre la secuencia informativa de identidad del primer conjunto de información sobre la secuencia de ácido nucleico con el segundo conjunto de información sobre la secuencia para confirmar que el primer y segundo conjuntos de información sobre la secuencia se obtuvieron de la misma fuente.

11. El método de la reivindicación 10, en donde la información sobre la secuencia informativa de identidad comprende información sobre el genotipo de polimorfismo de un solo nucleótido (SNP) para al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 SNP únicos, o en donde el segundo conjunto de información sobre la secuencia comprende información sobre el genotipo de SNP para al menos 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31,32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48, 49, 50, 51,52, 53, 54, 55, 60, 70, 80, 90 o al menos 100 SNP únicos, comprende una secuencia de genoma completa o comprende información sobre la secuencia del exoma.