ES2916339T3

ES2916339T3 - Estrategias de secuenciación de región genómica de interés 3D

Info

Publication number: ES2916339T3
Application number: ES18163123T
Authority: ES
Inventors: Min Max Van; Laat Wouter De
Original assignee: Cergentis BV
Current assignee: Cergentis BV
Priority date: 2010-07-09
Filing date: 2011-07-08
Publication date: 2022-06-30
Anticipated expiration: 2031-07-08
Also published as: EP3360975B1; EP4063518A1; LT2591125T; JP2013530709A; PT2591125T; SI2591125T1; CA2804450C; EP2591125A2; RS57295B1; ES2667346T9; EP2591125B1; US12006538B2; US20130183672A1; RU2013105459A; AU2011274642B2; HUE037359T2; PL3360975T3; KR101862756B1; CY1121702T1; PL2591125T3

Abstract

Método para identificar la presencia o ausencia de una mutación genética en una región genómica de interés que comprende una secuencia de nucleótidos diana, que comprende los pasos de: a) proporcionar una muestra de ADN unido mediante enlaces cruzados; b) fragmentar el ADN unido mediante enlaces cruzados; c) ligar el ADN unido mediante enlaces cruzados fragmentado; d) revertir la unión mediante enlaces cruzados; e) opcionalmente, fragmentar el ADN del paso d), preferentemente con una enzima de restricción; f) opcionalmente, ligar el ADN fragmentado del paso d) o e) a al menos un adaptador; g) capturar los fragmentos de ADN ligados del paso d) o e) que comprenden la secuencia de nucleótidos diana usando una sonda de captura para separar los fragmentos de ADN ligados (amplificados) que comprenden la secuencia de nucleótidos diana de los fragmentos de ADN ligados (amplificados) que no comprenden la secuencia de nucleótidos diana; opcionalmente, amplificar los fragmentos de ADN ligados del paso d) o e) que comprenden la secuencia de nucleótidos diana usando al menos un cebador que se hibrida con la secuencia de nucleótidos diana antes o después del paso de captura, o amplificar los fragmentos de ADN ligados del paso f) usando al menos un cebador oligonucleótido que se hibrida con la secuencia de nucleótidos diana y al menos un cebador oligonucleótido que se hibrida con al menos un adaptador antes o después del paso de captura; h) determinar al menos parte de la secuencia de los fragmentos de ADN ligados (amplificados) del paso g) que comprenden la secuencia de nucleótidos diana usando secuenciación de alto rendimiento; i) alinear las secuencias determinadas de los fragmentos de ADN ligados (amplificados) con una secuencia de referencia; j) identificar la presencia o ausencia de una mutación genética en las secuencias determinadas.

Description

DESCRIPCIÓN

Estrategias de secuenciación de región genómica de interés 3D

Campo de la invención

[0001] La presente invención está relacionada con el campo de la biología molecular y, más en particular, con la tecnología del ADN. La invención se refiere con más detalle a la secuenciación del ^aDⁿ. La invención se refiere a estrategias para determinar (parte de) una secuencia de ADN de una región genómica de interés. En particular, la invención se refiere a la determinación de la secuencia de partes de un genoma que están en una configuración espacial entre sí. La invención se refiere además a los usos de los métodos de la invención para el desarrollo de diagnósticos y tratamientos médicos personalizados, para la exploración de tejidos para detectar la presencia de malignidades y otras afecciones.

Antecedentes

[0002] Se ha dedicado un esfuerzo considerable a desarrollar estrategias de "enriquecimiento de dianas" para la secuenciación, en las que las regiones genómicas de una muestra de ADN se capturan de manera selectiva y/o se amplifican de manera selectiva y luego se secuencian (revisado en Mamanova et al., Nature Methods, 2010, [2] :111-118). Las estrategias de enriquecimiento genómico son importantes, ya que permiten centrarse en una región genómica particular, lo que, en comparación con el análisis del genoma completo, es más rentable desde el punto de vista del tiempo y de los costes, y también mucho menos difícil de analizar. Existen diferentes estrategias de enriquecimiento genómico. Por ejemplo, realizar una reacción de PCR, utilizando un solo par de cebadores, amplificará una región genómica y, por lo tanto, enriquecerá esa región genómica. Sin embargo, el tamaño del producto de PCR que se puede fabricar es limitado. Los protocolos de PCR larga actualmente tienen un límite superior de 10-40kB que se puede amplificar (Cheng et al., Proc Natl Acad Sci U S A, 1994; 91(12): 5695-5699), pero estos enfoques tienden a carecer de robustez y cada PCR requiere optimización y validación y, aun así, el límite de tamaño es limitado. Para aumentar el tamaño de las regiones que se pueden amplificar, así como la solidez del ensayo, se han desarrollado enfoques solapantes utilizando una multitud de pares de cebadores de PCR diseñados específicamente para una región genómica de interés. Estos cebadores se utilizan, por ejemplo, en un enfoque de PCR múltiple o en una PCR RainDance. Varios métodos enzimáticos, como la circularización de dianas, son compatibles con dichas estrategias de amplificación dirigida. Otros métodos implican el uso de sondas de captura, en una matriz o en solución, donde se usan sondas de 60-120 bases de longitud para capturar la región genómica de interés mediante hibridación.

[0003] Como se desprende de los ejemplos anteriores, para enriquecer una región genómica de interés, se requiere de antemano información de la secuencia en toda la región genómica de interés, ya que esto es necesario para diseñar sondas y/o cebadores para capturar y/o amplificar la región genómica de interés. Por ejemplo, para enriquecer una secuencia de 30 Mb, normalmente se requerirían 6000 PCR individuales. Con sondas de captura, se requiere incluso más información de la secuencia, ya que se necesitarían al menos 250000 sondas de 120 pb y se tendrían que diseñar para que capturen una secuencia de 30 Mb. Estos ensayos están sesgados debido al uso de datos de secuencia para las sondas y/o cebadores que cubren en gran medida la región genómica de interés. No recogen secuencias que se desvían demasiado de las secuencias molde diseñadas y, por lo tanto, por ejemplo, no detectarán inserciones. Además, estos enfoques requieren fragmentar el ADN en secuencias, por lo general, de unos 100 pares de bases antes del análisis. Esto significa que la región genómica de interés se divide en muchas partes, lo que resulta en una pérdida de información, entre otras cosas, con respecto a los reordenamientos dentro de la región de interés. Por lo tanto, existe la necesidad de estrategias de enriquecimiento genómico mejoradas que estén mucho menos sesgadas, que no requieran miles de secuencias cortas y que permitan una secuenciación completa de hipótesis neutral de la región de interés.

[0004] En el estudio de la arquitectura nuclear de los mamíferos se han desarrollado técnicas de captura de conformación cromosómica (3C/4C), con las que se puede analizar la organización estructural de una región genómica (WO 2007/004057, WO 2008/08845). Estas tecnologías implican la formación de enlaces cruzados en células in vivo, por ejemplo, con formaldehído, de tal modo que la arquitectura de la cromatina, incluido el ADN, se fija en su arquitectura tridimensional. A continuación, la cromatina se fragmenta, por ejemplo, con una enzima de restricción, seguido del ligado de los fragmentos de ADN mediante enlaces cruzados. El resultado es que se ligan los fragmentos de ADN que están próximos entre sí. Posteriormente, los productos de ligado se amplifican por PCR y se analizan para obtener la frecuencia de interacción de los fragmentos de ADN ligados, que es indicativa de la proximidad de los fragmentos. La amplificación por PCR se puede basar en una secuencia diana dentro de la región genómica de interés. Una alta frecuencia de interacción con la región genómica de interés indica una gran proximidad, mientras que una baja frecuencia de interacción indica una proximidad distante. Para identificar los fragmentos de ADN, se requiere información de secuencia. Dicha información de secuencia puede proporcionarse mediante la detección de fragmentos amplificados con una micromatriz, que comprende sondas, o mediante la secuenciación de una pequeña parte de los fragmentos amplificados (normalmente, un mínimo de 20 a 30 pares de bases es suficiente para identificar la posición correspondiente en un genoma). En cualquier caso, el número de fragmentos de ADN identificados, es decir, la frecuencia de interacción, indica la proximidad del fragmento al punto de referencia, información que puede utilizarse para determinar interacciones intracromosómicas e intercromosómicas.

Resumen de la invención

[0005] Se ha descubierto que el procedimiento de unión mediante enlaces cruzados y fragmentación del ADN dentro de una célula, y el posterior ligado de fragmentos de ADN unido mediante enlaces cruzados, puede proporcionar un punto de partida ideal para analizar una región genómica de interés que comprende una secuencia de nucleótidos diana, es decir, el molde cromosómico lineal que rodea una secuencia de nucleótidos diana. La invención se basa en el concepto de que la unión mediante enlaces cruzados del ADN enlazará preferentemente aquellas secuencias que están próximas en el molde cromosómico lineal a una secuencia de nucleótidos diana. El formaldehído, por ejemplo, se puede usar como reticulante. Después de la unión mediante enlaces cruzados, el ADN puede someterse a tratamientos (enzimáticos), es decir, fragmentación y ligado, mientras que el ADN permanece en su estado unido mediante enlaces cruzados. Solo se pueden ligar los fragmentos unidos mediante enlaces cruzados que están próximos entre sí. Los fragmentos de ADN que se ligan al fragmento de ADN que comprende la secuencia de nucleótidos diana son, de hecho, representativos de la región genómica de interés que comprende la secuencia de nucleótidos diana. Esto se debe a que la posibilidad de unión intracromosómica mediante enlaces cruzados, de media, siempre es mayor que las frecuencias de unión intercromosómica mediante enlaces cruzados. En general, la probabilidad de que se unan mediante enlaces cruzados diferentes fragmentos está correlacionada inversamente con la distancia lineal. Como estimación, y dependiendo de las condiciones reales de unión mediante enlaces cruzados, el 20-30 % de los fragmentos ligados con un nucleótido diana de interés se ubican a 0,5 Mb de la secuencia de nucleótidos diana, mientras que el 50-80 % de los fragmentos ligados con un nucleótido diana de interés el interés se origina en el cromosoma que comprende la secuencia de nucleótidos diana. Los fragmentos de ADN ligados que comprenden la secuencia de nucleótidos diana y, por tanto, la región genómica de interés, pueden amplificarse, es decir, enriquecerse, utilizando uno o más cebadores oligonucleótidos que reconozcan la secuencia de nucleótidos diana. La secuencia de la región genómica de interés puede determinarse posteriormente usando tecnologías de secuenciación (de alto rendimiento) conocidas en la técnica. El método está poco sesgado, ya que no se requiere información de secuencia extensa para centrarse en la región genómica de interés. Por ejemplo, una región genómica de interés puede comprender un alelo de interés. Una secuencia de nucleótidos diana puede seleccionarse de modo que no esté dentro de la secuencia del alelo de interés. A continuación, se puede amplificar una región genómica de interés utilizando una secuencia de nucleótidos diana, sin necesidad de información de secuencia del alelo de interés. Por lo tanto, el alelo de interés puede enriquecerse sin requerir ninguna secuencia de ese alelo. El efecto es que el método de enriquecimiento no está sesgado por el uso de oligonucleótidos y/o sondas que cubren la secuencia alélica de interés. Además, dado que el paso de ligado implica el ligado de fragmentos que están próximos entre sí, el método también puede permitir el análisis de secuencias de alelos separados. Por ejemplo, cuando una muestra de ADN unido mediante enlaces cruzados comprende múltiples alelos (por ejemplo, porque la muestra de ADN se origina a partir de una población celular heterogénea, o porque la ploidía es superior a uno), cada alelo puede tener un entorno genómico diferente. Un fragmento de ADN, que comprende una secuencia de nucleótidos diana, solo interactuará con fragmentos de ADN que se encuentren en el mismo espacio. Por lo tanto, los fragmentos de ADN ligados son representativos del entorno genómico del que se originan los fragmentos. Al determinar al menos parte de la secuencia de todos los diferentes fragmentos de ADN ligados, las secuencias de fragmentos de ADN pueden acoplarse posteriormente usando la información de secuencia de los diferentes fragmentos de ADN ligados y puede construirse una secuencia para regiones genómicas separadas de interés.

Definiciones

[0006] En la siguiente descripción y ejemplos se utilizan varios términos. Con el fin de proporcionar una comprensión clara y coherente de la especificación y las reivindicaciones, incluido el ámbito de aplicación de dichos términos, se proporcionan las siguientes definiciones. A menos que se defina lo contrario en el presente documento, todos los términos técnicos y científicos que se utilizan tienen el mismo significado que entienden comúnmente los expertos en la técnica a la que pertenece esta invención.

[0007] Los métodos para llevar a cabo las técnicas convencionales utilizadas en los métodos de la invención serán evidentes para el experto en la materia. La práctica de técnicas convencionales de biología molecular, bioquímica, química computacional, cultivo celular, ADN recombinante, bioinformática, genómica, secuenciación y campos relacionados son ampliamente conocidas por los expertos en la técnica y se analizan, por ejemplo, en las siguientes refrencias bibliográficas: Sambrook et al., Molecular Cloning. A Laboratory Manual, 2nd Edition, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N. Y., 1989; Ausubel et al., Current Protocols in Molecular Biology, John Wiley & Sons, New York, 1987 y actualizaciones periódicas; y la serie Methods in Enzymology, Academic Press, San Diego.

[0008] Como se usa en este documento, las formas singulares "un", "unía" y "el/la” incluyen referentes plurales a menos que el contexto indique claramente lo contrario. Por ejemplo, un método para aislar "una" molécula de ADN, como se usa anteriormente, incluye aislar una pluralidad de moléculas (por ejemplo, decenas, centenas, miles, decenas de miles, centenas de miles, millones o más moléculas).

[0009] Una "región genómica de interés" según la invención es una secuencia de ADN de un organismo del que se desea determinar al menos parte de la secuencia de ADN. Por ejemplo, una región genómica de la que se sospecha que comprende un alelo asociado con una enfermedad puede ser una región genómica de interés. Como se usa en el presente documento, el término "alelo(s)" significa cualquiera de una o más formas alternativas de un gen en un locus particular. En una célula diploide de un organismo, los alelos de un gen dado están ubicados en una ubicación específica, o locus (loci en plural) de un cromosoma. Un alelo está presente en cada cromosoma del par de cromosomas homólogos. Por tanto, en una célula diploide, pueden existir dos alelos y, por tanto, dos regiones genómicas de interés separadas (diferentes).

[0010] Un "ácido nucleico" según la presente invención puede incluir cualquier polímero u oligómero de bases pirimidina y purina, preferiblemente citosina, timina y uracilo, y adenina y guanina, respectivamente (véase Albert L. Lehninger, Principles of Biochemistry, en 793-800 (Worth Pub. 1982)).

[0011] La presente invención contempla cualquier componente de ácido nucleico, como desoxirribonucleótidos, ribonucleótidos o péptidos, y cualquier variante química del estos, tales como formas metiladas, hidroximetiladas o glicosiladas de estas bases, y similares. Los polímeros u oligómeros pueden tener una composición heterogénea u homogénea y pueden aislarse de fuentes naturales o pueden producirse de manera artificial o sintética. Además, los ácidos nucleicos pueden ser ADN o ARN, o una mezcla de los mismos, y pueden existir de forma permanente o transitoria en forma monocatenaria o bicatenaria, incluidos los estados homodúplex, heterodúplex e híbrido.

[0012] Una "muestra de ADN" es una muestra que se obtiene de un organismo o de un tejido de un organismo, o de un tejido y/o cultivo celular, que comprende ADN. Una muestra de ADN de un organismo puede obtenerse de cualquier tipo de organismo, por ejemplo, microorganismos, virus, plantas, hongos, animales, humanos y bacterias, o combinaciones de los mismos. Por ejemplo, una muestra de tejido de un paciente humano del que se sospecha que padece una infección bacteriana y/o viral puede comprender células humanas, pero también virus y/o bacterias. La muestra puede comprender células y/o núcleos celulares. La muestra de ADN puede ser de un paciente o de una persona que puede estar en riesgo de tener una enfermedad particular o del que se sospeche que la tiene, por ejemplo, cáncer o cualquier otra afección que justifique la investigación del ADN del organismo.

[0013] Por "unión mediante enlaces cruzados" según la invención se entiende hacer reaccionar el ADN en dos posiciones diferentes, de modo que estas dos posiciones diferentes puedan conectarse. La conexión entre las dos posiciones diferentes puede ser directa, formando un enlace covalente entre las cadenas de ADN. Dos cadenas de ADN pueden unirse mediante enlaces cruzados directamente usando radiación UV, formando enlaces covalentes directamente entre las cadenas de ADN. La conexión entre las dos posiciones diferentes puede ser indirecta, a través de un agente, por ejemplo, una molécula reticulante. Una primera sección de ADN se puede conectar a un primer grupo reactivo de una molécula reticulante que comprende dos grupos reactivos, ese segundo grupo reactivo de la molécula reticulante se puede conectar a una segunda sección de ADN, conectando así mediante enlaces cruzados la primera y la segunda sección de ADN indirectamente a través de la molécula reticulante. También se puede formar un enlace cruzado indirectamente entre dos cadenas de ADN a través de más de una molécula. Por ejemplo, una molécula reticulante típica que se puede usar es el formaldehído. El formaldehído induce uniones mediante enlaces cruzados proteína-proteína y ADN-proteína. Por lo tanto, el formaldehído puede unir con enlaces cruzados diferentes cadenas de ADN entre sí a través de sus proteínas asociadas. Por ejemplo, el formaldehído puede reaccionar con una proteína y el ADN, conectando una proteína y el ADN a través de la molécula reticulante. Por lo tanto, dos secciones de ADN pueden unirse mediante enlaces cruzados usando formaldehído formando una conexión entre una primera sección de ADN y una proteína, la proteína puede formar una segunda conexión con otra molécula de formaldehído que se conecta a una segunda sección de ADN, formando así una unión mediante enlaces cruzados que puede representarse como ADN1-reticulante-proteína-reticulante-ADN2. En cualquier caso, se entiende que la unión mediante enlaces cruzados según la invención implica formar conexiones (directa o indirectamente) entre cadenas de ADN que están en proximidad física entre sí. Las cadenas de ADN pueden estar en proximidad física entre sí en la célula, ya que el ADN está muy organizado, y a la vez estar separadas del punto de referencia de la secuencia, por ejemplo, por 100kb. Siempre que el método de unión mediante enlaces cruzados sea compatible con los pasos posteriores de fragmentación y ligado, tal unión mediante enlaces cruzados puede contemplarse para los fines de la invención.

[0014] Una "muestra de ADN unido mediante enlaces cruzados" es una muestra de ADN que se ha sometido a unión mediante enlaces cruzados. La unión mediante enlaces cruzados del ADN de la muestra tiene el efecto de que el estado tridimensional del ADN dentro de la muestra permanece prácticamente intacto. De esta manera, las cadenas de ADN que están en proximidad física entre sí permanecen cerca unas de otras.

[0015] "Revertir la unión mediante enlaces cruzados" según la invención comprende romper las uniones mediante enlaces cruzados de tal manera que el ADN que se ha unido mediante enlaces cruzados ya no esté unido mediante enlaces cruzados y sea adecuado para pasos posteriores de amplificación y/o secuenciación. Por ejemplo, la realización de un tratamiento con proteasa K en una muestra de ^aDⁿque se ha unido mediante enlaces cruzados con formaldehído digerirá la proteína presente en la muestra. Debido a que el ADN unido mediante enlaces cruzados está conectado indirectamente a través de la proteína, el tratamiento con proteasa en sí mismo puede revertir la unión mediante enlaces cruzados entre el ADN. Sin embargo, los fragmentos de proteína que quedan conectados al ADN pueden dificultar la posterior secuenciación y/o amplificación. Por lo tanto, la reversión de las conexiones entre el ADN y la proteína también puede dar como resultado una "reversión de la unión mediante enlaces cruzados". La conexión ADN-reticulante-proteína puede revertirse mediante un paso de calentamiento, por ejemplo, incubación a 70 °C. Como en una muestra de ADN están presentes grandes cantidades de proteína, a menudo es deseable digerir la proteína con una proteasa adicional. Por lo tanto, se puede contemplar cualquier método de “reversión de la unión mediante enlaces cruzados" en el que las cadenas de ADN que están conectadas en una muestra con enlaces cruzados se vuelvan adecuadas para la secuenciación y/o amplificación.

[0016] La "fragmentación de ADN" incluye cualquier técnica que, al aplicarla al ADN, que puede ser ADN unido mediante enlaces cruzados o no, o cualquier otro ADN, dé como resultado fragmentos de ADN. Las técnicas ya conocidas en la técnica son la sonicación, el cizallamiento y/o la restricción enzimática, pero también pueden contemplarse otras técnicas.

[0017] Una "endonucleasa de restricción" o "enzima de restricción" es una enzima que reconoce una secuencia de nucleótidos específica (sitio de reconocimiento) en una molécula de ADN bicatenario, y que cortará ambas cadenas de la molécula de ADN en o cerca de cada sitio de reconocimiento, dejando un extremo romo o un extremo protuberante en 3' o 5'. La secuencia de nucleótidos específica que se reconoce puede determinar la frecuencia de escisión, por ejemplo, una secuencia de nucleótidos de 6 nucleótidos aparece de media cada 4096 nucleótidos, mientras que una secuencia de nucleótidos de 4 nucleótidos aparece con mucha más frecuencia, de media cada 256 nucleótidos.

[0018] El "ligado" según la invención implica la unión de fragmentos de ADN separados. Los fragmentos de ADN pueden tener extremos romos o protuberantes compatibles (protuberantes pegajosos) de modo que los protuberantes puedan hibridarse entre sí. La unión de los fragmentos de ADN puede ser enzimática, con una enzima ligasa, la ADN ligasa. Sin embargo, también se puede utilizar un ligado no enzimático, siempre que los fragmentos de ADN estén unidos, es decir, formando un enlace covalente. Normalmente se forma un enlace fosfodiéster entre el grupo hidroxilo y fosfato de las distintas cadenas.

[0019] Los "cebadores oligonucleótidos", en general, se refieren a cadenas de nucleótidos que pueden iniciar la síntesis de ADN. La ADN polimerasa no puede sintetizar ADN de novo sin cebadores. Un cebador se hibrida con el ADN, es decir, se forman pares de bases. Los nucleótidos que pueden formar pares de bases, que son complementarias entre sí, son, por ejemplo, citosina y guanina, timina y adenina, adenina y uracilo, guanina y uracilo. La complementariedad entre el cebador y la cadena de ADN existente no tiene que ser del 100 %, es decir, no todas las bases de un cebador tienen que emparejarse con la cadena de ADN existente. A partir del extremo 3' de un cebador hibridado con la cadena de ADN existente, se incorporan nucleótidos utilizando la cadena existente como molde (síntesis de ADN dirigida por molde). Se puede hace referencia a las moléculas de oligonucleótidos sintéticos que se utilizan en una reacción de amplificación como "cebadores".

[0020] "Amplificar" se refiere a una reacción de amplificación de polinucleótidos, concretamente, una población de polinucleótidos que se replican a partir de una o más secuencias iniciales. La amplificación puede referirse a una variedad de reacciones de amplificación, incluidas, entre otras, la reacción en cadena de la polimerasa (PCR), reacciones de polimerasa lineales, amplificación basada en secuencias de ácidos nucleicos, amplificación por círculo rodante y reacciones similares.

[0021] "Secuenciación" se refiere a la determinación del orden de los nucleótidos (secuencias de bases) en una muestra de ácido nucleico, por ejemplo, ADN o ARN. Existen muchas técnicas para ello, como la secuenciación de Sanger y las tecnologías de secuenciación de alto rendimiento, como las que ofrecen Roche, Illumina y Applied Biosystems.

[0022] El término "cóntigo" se utiliza en relación con el análisis de secuencias de ADN y se refiere a tramos contiguos de ADN reensamblados derivados de dos o más fragmentos de ADN que tienen secuencias de nucleótidos contiguas. Por lo tanto, un cóntigo puede ser un conjunto de fragmentos de ADN superpuestos que proporciona una secuencia contigua (parcial) de una región genómica de interés. Un cóntigo también puede ser un conjunto de fragmentos de ADN que, cuando se alinean con una secuencia de referencia, pueden formar una secuencia de nucleótidos contigua. Por ejemplo, el término "cóntigo" abarca una serie de fragmento(s) de ADN (ligados) que están ordenados de tal manera que la secuencia de cada fragmento de ADN (ligado) se solapa con al menos uno de las adyacentes. Los fragmentos de ADN enlazados o acoplados (ligados) pueden ordenarse manualmente o, preferiblemente, utilizando programas informáticos apropiados tales como FPC, PHRAP, CAP3, etc., y también pueden agruparse en distintos cóntigos.

[0023] Un "adaptador" es una molécula oligonucleotídica de doble cadena corta con un número limitado de pares de bases, por ejemplo, de aproximadamente 10 a aproximadamente 30 pares de bases de longitud, que está diseñada de tal manera que pueda ligarse a los extremos de fragmentos. Los adaptadores generalmente se componen de dos oligonucleótidos sintéticos que tienen secuencias de nucleótidos que son parcialmente complementarias entre sí. Cuando se mezclan los dos oligonucleótidos sintéticos en solución en las condiciones apropiadas, se hibridan entre sí formando una estructura de doble cadena. Después de la hibridación, un extremo de la molécula adaptadora puede diseñarse de manera que sea compatible con el extremo de un fragmento de restricción y pueda ligarse a este; el otro extremo del adaptador se puede diseñar de modo que no se pueda ligar, pero esto no tiene por qué ser el caso, por ejemplo, cuando se va a ligar un adaptador entre fragmentos de ADN.

[0024] Un "identificador" es una secuencia corta que puede agregarse a un adaptador o un cebador o incluirse en su secuencia o usarse de otro modo como etiqueta para proporcionar un identificador único. Dicho identificador de secuencia (o etiqueta) puede ser una secuencia de bases única de longitud variable pero definida, normalmente de 4 a 16 pb, utilizada para identificar una muestra de ácido nucleico específica. Por ejemplo, las etiquetas de 4 pb permiten 4 (exp4) = 256 etiquetas diferentes. Los ejemplos típicos son las secuencias ZIP, conocidas en la técnica como etiquetas de uso común para la detección única por hibridación (Iannone et al. Cytometry 39:131-140, 2000). Los identificadores son útiles de acuerdo con la invención, ya que, al usar dicho identificador, el origen de una muestra (PCR) puede determinarse tras un procesamiento adicional. En el caso de que se combinen productos procesados originados a partir de diferentes muestras de ácidos nucleicos, las diferentes muestras de ácidos nucleicos pueden identificarse usando diferentes identificadores. Por ejemplo, como, según la invención, la secuenciación se puede realizar usando secuenciación de alto rendimiento, se pueden combinar múltiples muestras. Los identificadores pueden entonces ayudar a identificar las secuencias correspondientes a las diferentes muestras. Los identificadores también pueden incluirse en adaptadores para el ligado a fragmentos de ADN que ayuden en la identificación de secuencias de fragmentos de ADN. Los identificadores difieren preferiblemente entre sí en al menos dos pares de bases y preferiblemente no contienen dos bases consecutivas idénticas para evitar errores de lectura. La función de identificador a veces se puede combinar con otras funcionalidades, como adaptadores o cebadores.

[0025] La "selección por tamaño" de acuerdo con la invención implica técnicas con las que se seleccionan rangos de tamaño de moléculas particulares, por ejemplo, fragmentos de ADN (ligados) o fragmentos de ADN amplificados (ligados). Las técnicas que se pueden usar son, por ejemplo, electroforesis en gel, cromatografía de exclusión por tamaño, de extracción en gel, pero no se limitan a estas; siempre que con ella se puedan seleccionar moléculas con un tamaño particular, dicha técnica será suficiente.

[0026] Con el término "alinear” y "alineación" se entiende la comparación de dos o más secuencias de nucleótidos en función de la presencia de tramos cortos o largos de nucleótidos idénticos o similares. Los métodos y programas informáticos para la alineación son ampliamente conocidos en la técnica. Un programa informático que se puede utilizar o adaptar para la alineación es "Align 2", creado por Genentech, Inc., que se presentó junto con la documentación del usuario en la Oficina de derechos de autor de los Estados Unidos (United States Copyright Office), Washington, D.C. 20559, el 10 de diciembre de 1991.

Figuras

[0027]

En la figura 1 se muestra un esquema de un método para determinar la secuencia de una región genómica de interés según la invención. El método implica:

(a) la unión mediante enlaces cruzados, en la que, por ejemplo, la fijación con formaldehído une secuencias de ADN espacialmente cercanas en el núcleo (N) (que a menudo son secuencias cercanas en el cromosoma (Ch), por ejemplo, secuencias del mismo gen) a través de sus proteínas asociadas (por ejemplo, histonas). Se indican 5 fragmentos hipotéticos de una región genómica de interés A, B, C, D y E; (b) a continuación, la muestra de ADN unido mediante enlaces cruzados se fragmenta, por ejemplo, realizando una digestión con una enzima de restricción (por ejemplo, una cortadora frecuente (cuatro) (por ejemplo, Nlalll);

(c) los fragmentos de restricción unidos mediante enlaces cruzados se ligan para formar círculos de ADN; (d) después de revertir la unión mediante enlaces cruzados, se realiza un paso de amplificación, por ejemplo, una PCR, con un conjunto de cebadores de PCR (inversos) para un punto de referencia cercano o dentro de la región genómica de interés. Los fragmentos (A, B, C, D y E) unidos mediante enlaces cruzados a este punto de referencia se amplifican y enriquecen en el resto del genoma. Los fragmentos amplificados se secuencian, por ejemplo, mediante la secuenciación en círculos completos (lecturas largas), el material amplificado por PCR también puede fragmentarse primero para crear una biblioteca de secuenciación compatible, por ejemplo, para la secuenciación con Illumina o SOLiD.

(e) a continuación, se construye un cóntigo a partir de las lecturas, las secuencias pueden compararse con un genoma de referencia para identificar la variación genética.

En la Figura 2 se muestra un esquema del gen BRCA1 con 5 puntos de referencia diferentes (A, B, C, D y E). La flecha negra indica la dirección del sentido. Los números que están dentro de los círculos con las flechas indican la posición en la secuencia del gen. El punto de referencia E está al comienzo del gen y el punto de referencia A al final. Los puntos de referencia están separados por aproximadamente 15-25 kB. En la Figura 3 se muestra la electroforesis en gel de muestras de ^aDⁿtomadas durante la preparación de una muestra de ADN unido mediante enlaces cruzados para la secuenciación del gen BRCA1 como se describe en los ejemplos.

(A) El carril M indica un ADN con marcador Pstl de ADN lambda, el carril 1 muestra un control no digerido, el carril 2 muestra un primer control digerido con Nlalll, el carril 3 es un control de ligado después del ligado de la primera muestra digerida con Nlalll, el carril 4 muestra una segunda digestión con Nspl.

(B) El carril M muestra un marcador Pstl de ADN lambda. Los carriles A, B, C, D y E muestran los productos de amplificación de las diferentes amplificaciones de ADN, correspondientes a las muestras del paso 67 como se describe en la sección de ejemplos, y correspondientes a los puntos de referencia descritos en la figura 2.

Descripción detallada de la invención

[0028] La invención se describe en las reivindicaciones adjuntas.

[0029] Según un aspecto de la invención, se proporciona un método para determinar la secuencia de una región genómica de interés que comprende una secuencia de nucleótidos diana, que comprende fragmentar un ADN unido mediante enlaces cruzados, ligar el ADN unido mediante enlaces cruzados fragmentado, revertir dicha unión y determinar al menos parte de las secuencias de fragmentos de ADN ligados que comprenden una secuencia de nucleótidos diana, y utilizar las secuencias determinadas para construir una secuencia de la región genómica de interés.

[0030] Una muestra de ADN unido mediante enlaces cruzados comprende una muestra de ADN que se ha sometido a unión mediante enlaces cruzados. La unión mediante enlaces cruzados del ADN de la muestra tal como está presente en la muestra da como resultado en gran medida el mantenimiento de la arquitectura tridimensional del ADN. Por ejemplo, un agente reticulante estándar que se puede usar es el formaldehído. Las muestras se pueden tomar de un paciente y/o del tejido enfermo, y también se pueden obtener de otros organismos o de secciones separadas del mismo organismo, como muestras de un paciente, una muestra de tejido sano y una muestra de tejido enfermo. De este modo, las muestras pueden analizarse según la invención y compararse con una muestra de referencia, o diferentes muestras pueden analizarse y compararse entre sí. Por ejemplo, de un paciente del que se sospecha que tiene cáncer de mama, se puede obtener una biopsia del tumor sospechoso. Se puede obtener otra biopsia de tejido no enfermo. De acuerdo con la invención, se pueden analizar biopsias de ambos tejidos. Las regiones genómicas de interés pueden ser el gen BRCA1 y BRCA2, cuyos genes tienen una longitud de 83 y 86 kb (revisado en Mazoyer, 2005, Human Mutation 25: 415-422). Al determinar la secuencia de la región genómica de interés según la invención y comparar las secuencias de la región genómica de las diferentes biopsias entre sí y/o con una secuencia del gen BRCA de referencia, se pueden encontrar mutaciones genéticas que ayudarán al diagnóstico del paciente y/o a determinar el tratamiento del paciente y/o a predecir el pronóstico de progresión de la enfermedad.

[0031] Al fragmentar una muestra de ADN unido mediante enlaces cruzados, los fragmentos de ADN que se originan en una región genómica de interés permanecen cerca unos de otros porque están unidos mediante enlaces cruzados. Cuando estos fragmentos de ADN unidos mediante enlaces cruzados se ligan posteriormente, se ligan los fragmentos de ADN de la región genómica de interés, que están próximos entre sí debido a las uniones mediante enlaces cruzados. Este tipo de ligado también puede denominarse ligado de proximidad. Los fragmentos de ADN que comprenden la secuencia de nucleótidos diana pueden ligarse con fragmentos de ADN dentro de una gran distancia lineal a nivel de secuencia. Al determinar (al menos parte de) la secuencia de fragmentos ligados que comprenden el fragmento que comprende la secuencia de nucleótidos diana, se obtienen secuencias de fragmentos de ADN dentro del entorno espacial de la región genómica de interés. Es probable que cada secuencia de nucleótidos diana individual se una por enlaces cruzados a muchos otros fragmentos de ADN. Como consecuencia, a menudo se puede ligar más de un fragmento de ADN a un fragmento que comprende la secuencia de nucleótidos diana. Mediante la combinación de secuencias (parciales) de los fragmentos de ADN ligados (amplificados) que se habían ligado con un fragmento que comprende la secuencia de nucleótidos diana, se puede construir una secuencia de la región genómica de interés. Un fragmento de ADN ligado con el fragmento que comprende la secuencia de nucleótidos diana incluye cualquier fragmento que pueda estar presente en los fragmentos de ADN ligados.

[0032] Se conocen métodos en la técnica que implican la unión mediante enlaces cruzados del ADN, así como la fragmentación y ligado de los fragmentos de ^aDⁿ(por ejemplo, WO 2007/004057 o WO 2008/08845). Dichos métodos están destinados a identificar frecuencias de interacción entre diferentes fragmentos de ADN, no a identificar la secuencia de nucleótidos primaria de fragmentos adyacentes a una secuencia de nucleótidos diana. La idea original de usar 4C para la detección de frecuencias de interacción solo requería una lectura de secuencia corta. La frecuencia de las lecturas de secuencia cortas que interactúan se representa frente a las posiciones cromosómicas de las lecturas. El patrón de tal gráfico es indicativo de si una región genómica particular de interés puede interactuar con una región en otra parte del genoma, o si, por ejemplo, se han producido translocaciones entre cromosomas. Por ejemplo, en caso de que se observe una alta frecuencia de lecturas en un cromosoma que no sea el que contiene la secuencia de nucleótidos diana, esto indica una translocación. En la presente invención, la frecuencia de interacción no se determina. En la presente invención, ahora se ha observado que al fragmentar el ADN unido mediante enlaces cruzados y ligar posteriormente los fragmentos de ADN, se captura una región genómica que rodea la secuencia de nucleótidos diana que, cuando se secuencia, permite reconstruir cóntigos de la región genómica. Mientras que en los métodos conocidos en la técnica el enfoque se ha centrado en determinar la frecuencia de interacción de las lecturas de secuencias cortas con una secuencia de nucleótidos diana, la presente invención se centra en determinar la totalidad, o al menos una gran parte, de la secuencia de fragmentos de ADN ligados (que comprenden el fragmento de ADN con el nucleótido diana) de manera que, a partir de las secuencias de los fragmentos de ADN y el acoplamiento de los fragmentos de ADN ligados, se puedan construir cóntigos para una región genómica de interés.

Fragmentos ligados linealizados

[0033] Según un segundo aspecto de la invención, se proporciona un método para determinar la secuencia de una región genómica de interés que comprende una secuencia de nucleótidos diana, que comprende los pasos de:

a) proporcionar una muestra de ADN unido mediante enlaces cruzados;

b) fragmentar el ADN unido mediante enlaces cruzados;

c) ligar el ADN unido mediante enlaces cruzados fragmentado;

d) revertir la unión mediante enlaces cruzados;

e) opcionalmente, fragmentar el ADN del paso d), preferiblemente con una enzima de restricción f) opcionalmente, ligar el ADN fragmentado del paso d) o e) a al menos un adaptador;

g) opcionalmente, amplificar el ADN del paso d) o e) que comprende la secuencia de nucleótidos diana utilizando al menos un cebador oligonucleótido que se hibrida con la secuencia de nucleótidos diana, o amplificar el ADN del paso f) utilizando al menos un cebador adicional que se hibrida con el al menos un adaptador;

h) determinar al menos parte de la secuencia de los fragmentos de ADN ligados (amplificados) del paso d), e), f) o g) que comprende la secuencia de nucleótidos diana utilizando preferiblemente secuenciación de alto rendimiento;

i) construir un cóntigo de la región genómica de interés a partir de las secuencias determinadas. En el paso a) se proporciona una muestra de ADN unido mediante enlaces cruzados como se describe en otra parte de este documento.

[0034] La muestra de ADN unido mediante enlaces cruzados se fragmenta en el paso b). Al fragmentar el ADN unido mediante enlaces cruzados, se producen fragmentos de ADN que se mantienen unidos por las uniones mediante enlaces cruzados. El paso de fragmentación b) puede comprender sonicación y puede ir seguido de reparación enzimática del extremo del ADN. La sonicación da como resultado la fragmentación del ADN en sitios aleatorios, que pueden tener extremos romos o protuberantes en el extremo 3' o 5', ya que estos puntos de ruptura del ADN ocurren al azar, el ADN puede repararse (enzimáticamente), rellenando posibles extremos protuberantes 3' o 5', de modo que se obtienen fragmentos de ADN que tienen extremos romos que permiten el ligado de los fragmentos a los adaptadores y/o entre sí en el paso c) posterior. Alternativamente, los extremos protuberantes también se pueden hacer romos eliminando los nucleótidos protuberantes, usando, por ejemplo, exonucleasas. El paso de fragmentación b) también puede comprender la fragmentación con una o más enzimas de restricción, o combinaciones de estas. La fragmentación con una enzima de restricción es ventajosa, ya que puede permitir el control del tamaño medio de los fragmentos. Los fragmentos que se forman pueden tener extremos protuberantes o romos compatibles que permitan el ligado de los fragmentos en el paso c) posterior. Además, cuando se divide una muestra de ADN unido mediante enlaces cruzados en una pluralidad de submuestras, para cada submuestra pueden usarse enzimas de restricción con diferentes sitios de reconocimiento. Esto es ventajoso porque, al usar diferentes enzimas de restricción que tienen diferentes sitios de reconocimiento, se pueden obtener diferentes fragmentos de ADN de cada submuestra.

[0035] En el siguiente paso c), se ligan los fragmentos. Dado que un fragmento que comprende una secuencia de nucleótidos diana puede unirse mediante enlaces cruzados con muchos otros fragmentos de ADN, más de un fragmento de ADN puede ligarse al fragmento que comprende la secuencia de nucleótidos diana. Esto puede dar como resultado combinaciones de fragmentos de ADN que están cerca unos de otros, ya que se mantienen unidos por los enlaces cruzados. Se pueden formar diferentes combinaciones y/u órdenes de los fragmentos de ADN en fragmentos de ADN ligados. En caso de que los fragmentos de ADN se obtengan por restricción enzimática, se conoce el sitio de reconocimiento de la enzima de restricción, lo que permite identificar los fragmentos como restos o sitios de reconocimiento de enzimas de restricción reconstituidos que pueden indicar la separación entre diferentes fragmentos de ADN. En caso de que los fragmentos de ADN se hayan obtenido mediante fragmentación aleatoria, como sonicación y posterior reparación enzimática del extremo del ADN, puede ser más difícil distinguir un fragmento de otro. Independientemente del método de fragmentación que se use, el paso de ligado c) se puede realizar en presencia de un adaptador, ligando las secuencias del adaptador entre fragmentos. Alternativamente, el adaptador puede ligarse en un paso separado. Esto es ventajoso porque los diferentes fragmentos se pueden identificar fácilmente al identificar las secuencias adaptadoras que se encuentran entre los fragmentos. Por ejemplo, en caso de que los extremos de los fragmentos de ADN fueran romos, la secuencia adaptadora sería adyacente a cada uno de los extremos de los fragmentos de ADN, indicando el límite entre fragmentos de ADN separados. A continuación, la unión mediante enlaces cruzados se invierte en el paso d), lo que da como resultado un grupo de fragmentos de ADN ligados que comprende dos o más fragmentos. Una subpoblación del conjunto de fragmentos de ADN ligados comprende un fragmento de ADN que comprende la secuencia de nucleótidos diana. Al revertir la unión mediante enlaces cruzados, se libera la fijación estructural/espacial del ADN y la secuencia de ADN queda disponible para los pasos posteriores, por ejemplo, amplificación y/o secuenciación, ya que el ADN unido mediante enlaces cruzados puede no ser un sustrato adecuado para dichos pasos. Los pasos subsiguientes e) y/o f) se pueden realizar después de la inversión de la unión mediante enlaces cruzados, sin embargo, los pasos e) y/o f) también se pueden realizar mientras los fragmentos de ADN ligados todavía están en el estado unido mediante enlaces cruzados.

[0036] Los fragmentos de ADN ligados pueden fragmentarse opcionalmente en el paso e), preferiblemente con una enzima de restricción. El primer paso de fragmentación y el segundo paso de fragmentación opcional pueden estar destinados a obtener fragmentos de ADN ligados de un tamaño que sea compatible con el paso de amplificación posterior y/o el paso de determinación de secuencia. Además, un segundo paso de fragmentación, preferiblemente con una enzima, puede dar como resultado extremos de fragmentos ligados que son compatibles con el ligado opcional de un adaptador en el paso f). El segundo paso de fragmentación se puede realizar después de revertir la unión mediante enlaces cruzados; sin embargo, también es posible realizar el segundo paso de fragmentación e) y/o el paso de ligado f) mientras los fragmentos de ADN todavía están unidos mediante enlaces cruzados.

[0037] En caso de que el paso de fragmentación b) y e) comprendan enzimas de restricción, se prefiere que el sitio de reconocimiento de la enzima de restricción del paso e) sea más largo que el sitio de reconocimiento del paso b). La enzima de e), por lo tanto, corta a una frecuencia más baja que el paso b). Esto significa que el tamaño medio del fragmento de ADN del paso b) es menor que el tamaño medio del fragmento del paso e) obtenido después de restringir el ADN. De esta manera, en el primer paso de fragmentación, se forman fragmentos relativamente pequeños, que posteriormente se ligan. Como la segunda enzima de restricción del paso e) corta con menos frecuencia que el paso b), la mayoría de los fragmentos de ADN pueden no comprender el sitio de reconocimiento de restricción del paso e). Así, cuando los fragmentos de ADN ligados se fragmentan posteriormente en el segundo paso, muchos de los fragmentos de ADN del paso b) pueden permanecer intactos. Esto es útil porque las secuencias combinadas de los fragmentos de ^aDⁿdel paso b) pueden usarse para construir un cóntigo para la región genómica de interés. Si la fragmentación del paso b) es menos frecuente que la fragmentación del paso c), el resultado sería que los fragmentos del paso b) se fragmentan, lo que puede resultar en la pérdida de secuencias de ADN relativamente grandes que son útiles para construir un cóntigo. Por lo tanto, independientemente del método que se utilice para la fragmentación en el paso b) y e), se prefiere que la fragmentación del paso b) sea más frecuente en comparación con el paso e), de modo que los fragmentos de ADN del paso b) puedan permanecer intactos en gran medida, es decir, en gran parte sin fragmentarse en el paso e).

[0038] A los fragmentos de ADN ligados obtenidos del paso d) o e) se liga opcionalmente al menos un adaptador. Los extremos de los fragmentos de ADN ligados deben ser compatibles con el ligado de dicho adaptador. Dado que los fragmentos de ADN ligados del paso d) o e) pueden ser ADN lineal, el ligado de un adaptador puede proporcionar una secuencia de hibridación del cebador. La secuencia adaptadora ligada con fragmentos de ADN ligados que comprenden la secuencia de nucleótidos diana proporcionará moléculas de ADN que pueden amplificarse usando PCR.

[0039] En el siguiente paso g), el ADN del paso f) que comprende la secuencia de nucleótidos diana puede amplificarse utilizando al menos un cebador oligonucleótido que se hibrida con la secuencia de nucleótidos diana, y al menos un cebador adicional que se hibrida con al menos un adaptador. Como el paso f) de ligar un adaptador es opcional, el ADN del paso d) o e) que comprende el nucleótido diana también puede amplificarse en el paso g) utilizando al menos un cebador oligonucleótido que se hibrida con la secuencia de nucleótidos diana.

[0040] A continuación, se determina la secuencia de los fragmentos de ADN ligados (amplificados) obtenidos en el paso d), e), f) o g) que comprenden la secuencia de nucleótidos diana. La determinación de la secuencia se realiza preferiblemente utilizando tecnología de secuenciación de alto rendimiento, ya que es más conveniente y permite determinar un gran número de secuencias para cubrir la región genómica de interés completa. A partir de estas secuencias determinadas se puede construir un cóntigo de la región genómica de interés. Cuando se determinan las secuencias de los fragmentos de ADN, se pueden obtener lecturas superpuestas a partir de las cuales se puede construir la región genómica de interés. En caso de que los fragmentos de ADN se hayan obtenido mediante fragmentación aleatoria, la naturaleza aleatoria del paso de fragmentación ya puede dar como resultado fragmentos de ADN que, cuando se secuencian, dan como resultado lecturas superpuestas. Al aumentar el tamaño de la muestra, por ejemplo, mediante el aumento del número de células analizadas, puede aumentar la fiabilidad de la región genómica de interés que se construye. Alternativamente, cuando en el paso b) se analiza una pluralidad de submuestras, usando diferentes enzimas de restricción, también se obtendrán lecturas superpuestas. Al aumentar la pluralidad de submuestras, aumentará el número de fragmentos superpuestos, lo que puede incrementar la fiabilidad del cóntigo de la región genómica de interés que se construye. A partir de estas secuencias determinadas que pueden superponerse se puede construir un cóntigo. Alternativamente, si las secuencias no se superponen, por ejemplo, cuando se puede haber usado una sola enzima de restricción en el paso b), la alineación de los fragmentos de ADN (ligados) con una secuencia de referencia puede permitir construir un cóntigo de la región genómica de interés.

Fragmentos ligados circularizados

[0041] En una forma de realización alternativa, se proporciona un método para determinar la secuencia de una región genómica de interés que comprende una secuencia de nucleótidos diana, que comprende los pasos de:

a) proporcionar una muestra de ADN unido mediante enlaces cruzados;

b) fragmentar el ADN unido mediante enlaces cruzados;

c) ligar el ADN unido mediante enlaces cruzados fragmentado;

d) revertir la unión mediante enlaces cruzados;

e) opcionalmente, fragmentar el ADN del paso d), preferiblemente con una enzima de restricción f) circularizar el ADN del paso d) o e);

g) de manera opcional y preferente, amplificar el ADN circularizado que comprende la secuencia de nucleótidos diana utilizando preferentemente al menos un cebador que se hibrida con la secuencia de nucleótidos diana;

h) determinar al menos parte de la secuencia de los fragmentos de ADN ligados (amplificados) que comprenden el nucleótido diana usando secuenciación de alto rendimiento;

i) construir un cóntigo de la región genómica de interés a partir de las secuencias determinadas.

[0042] En el paso a) se proporciona una muestra de ADN unido mediante enlaces cruzados como se describe en otra parte de este documento.

[0043] La muestra de ADN unido mediante enlaces cruzados se fragmenta en el paso b). Al fragmentar el ADN unido mediante enlaces cruzados, se producen fragmentos de ADN que se mantienen unidos por los enlaces cruzados. El paso de fragmentación b) puede comprender sonicación y puede ir seguido de reparación enzimática del extremo del ADN. La sonicación da como resultado la fragmentación del ADN en sitios aleatorios, que pueden tener extremos romos o protuberantes 3' o 5', ya que estos puntos de ruptura del ADN ocurren al azar, el ADN puede repararse (enzimáticamente), rellenando posibles extremos protuberantes en 3' o 5', de modo que se obtienen fragmentos de ADN que tienen extremos romos que permiten el ligado de los fragmentos a los adaptadores o entre sí en el paso c) posterior. Alternativamente, los extremos protuberantes también se pueden hacer romos eliminando los nucleótidos protuberantes, usando, por ejemplo, exonucleasas. El paso de fragmentación b) también puede comprender la fragmentación con una enzima de restricción, o combinaciones de estas. La fragmentación con una enzima de restricción es ventajosa, ya que permite controlar el tamaño medio de los fragmentos. Además, los fragmentos que se formen tendrán extremos romos o protuberantes compatibles que permitan el ligado de los fragmentos en el paso c) posterior sin necesidad de modificaciones adicionales. Además, cuando se divide una muestra de ADN unido mediante enlaces cruzados en una pluralidad de submuestras, para cada submuestra pueden usarse enzimas de restricción con diferentes sitios de reconocimiento. Esto es ventajoso porque, al usar diferentes enzimas de restricción que tienen diferentes sitios de reconocimiento, se pueden obtener diferentes fragmentos de ADN de cada submuestra.

[0044] En el siguiente paso c), se ligan los fragmentos. En caso de que los fragmentos de ADN se hayan obtenido por restricción enzimática, se conoce el sitio de reconocimiento de la enzima de restricción, lo que permite identificar los fragmentos como restos o sitios de reconocimiento de enzimas de restricción reconstituidos que pueden indicar la separación entre diferentes fragmentos de ADN. En caso de que los fragmentos de ADN se hayan obtenido mediante fragmentación aleatoria, como sonificación y posterior reparación enzimática del extremo del ADN, puede ser más difícil distinguir un fragmento de otro. Independientemente del método de fragmentación que se use, el paso de ligado c) se puede realizar en presencia de un adaptador, ligando las secuencias del adaptador entre fragmentos. Alternativamente, el adaptador puede ligarse en un paso separado. Esto es ventajoso porque los diferentes fragmentos se pueden identificar fácilmente identificando las secuencias adaptadoras que se encuentran entre los fragmentos. Por ejemplo, en caso de que los extremos de los fragmentos de ADN fueran romos, la secuencia adaptadora estaría adyacente a los extremos de los fragmentos de ADN, lo que indicaría los fragmentos de ADN separados.

[0045] A continuación, la unión mediante enlaces cruzados se invierte en el paso d), lo que da como resultado un grupo de fragmentos de ADN ligados que comprenden dos o más fragmentos. Una subpoblación del conjunto de fragmentos de ADN ligados comprende un fragmento de ADN que comprende la secuencia de nucleótidos diana. Al revertir la unión mediante enlaces cruzados, se libera la fijación estructural/espacial del ADN y la secuencia de ADN queda disponible para los pasos posteriores, por ejemplo, amplificación y/o secuenciación, ya que el ADN unido mediante enlaces cruzados puede no ser un sustrato adecuado para dichos pasos. Los pasos subsiguientes e) y/o f) se pueden realizar después de revertir la unión mediante enlaces cruzados; sin embargo, los pasos e) y/o f) también se pueden realizar mientras los fragmentos de ADN ligados todavía están en el estado unido mediante enlaces cruzados.

[0046] Los fragmentos de ADN ligados pueden fragmentarse opcionalmente en el paso e), preferiblemente con una enzima de restricción. La fragmentación se puede realizar después de revertir la unión mediante enlaces cruzados, pero también se prevé que la segunda fragmentación se realice antes de que se invierta la unión mediante enlaces cruzados. Se prefiere usar una enzima de restricción para la fragmentación, ya que una enzima de restricción permite el control del paso de fragmentación y da como resultado, si se elige una enzima de restricción apropiada, extremos compatibles de los fragmentos de ADN ligados que son favorables para el ligado de los extremos compatibles, lo que da como resultado fragmentos de ADN ligados circularizados, como los obtenidos en el paso f). Sin embargo, en la fragmentación utilizando otros métodos, por ejemplo, el cizallamiento y/o la sonicación y la subsiguiente reparación enzimática del extremo del ADN, de modo que se forme ADN bicatenario con extremos romos, también se puede formar ADN circularizado mediante el ligado.

[0047] El primer paso de fragmentación y el segundo paso de fragmentación opcional están destinados a obtener fragmentos de ADN ligados que sean compatibles con el subsiguiente paso de circularización, amplificación y/o determinación de secuencia. En caso de que el paso de fragmentación b) y e) comprenda enzimas de restricción, se prefiere que el paso de fragmentación e) dé como resultado, de media, fragmentos más largos que los que se obtendrían en el paso de fragmentación b). En caso de que el paso de fragmentación b) y e) comprenda enzimas de restricción, se prefiere que el sitio de reconocimiento de la enzima de restricción del paso e) sea más largo que el sitio de reconocimiento del paso b). La enzima de e), por lo tanto, corta a una frecuencia más baja que el paso b). Esto significa que el tamaño medio del fragmento de ADN del paso b) es menor que el tamaño medio del fragmento del paso e) obtenido después de restringir el ADN. De esta manera, en el primer paso de fragmentación, se forman fragmentos relativamente pequeños, que posteriormente se ligan. Como la segunda enzima de restricción del paso e) corta con menos frecuencia que el paso b), la mayoría de los fragmentos de ADN puede no comprender el sitio de reconocimiento de restricción del paso e). Así, cuando los fragmentos de ADN ligados se fragmentan posteriormente en el segundo paso, muchos de los fragmentos de ADN del paso b) pueden permanecer intactos. Esto es útil porque las secuencias combinadas de los fragmentos de ADN del paso b) pueden usarse para construir un cóntigo para la región genómica de interés. Si la fragmentación del paso b) es menos frecuente que la fragmentación del paso c), el resultado sería que los fragmentos del paso b) se fragmentan, lo que puede resultar en la pérdida de secuencias de ADN relativamente grandes que son útiles para construir un cóntigo. Por lo tanto, independientemente del método que se utilice para la fragmentación en el paso b) y e), se prefiere que la fragmentación del paso b) sea más frecuente en comparación con el paso e), de modo que los fragmentos de ADN del paso b) puedan permanecer en gran medida intactos, es decir, en gran parte sin fragmentarse en el paso e).

[0048] Los fragmentos de ADN ligados obtenidos del paso d) o e), de los cuales se ha invertido la unión mediante enlaces cruzados, se circularizan a continuación en el paso f). Puede ser ventajoso revertir la unión mediante enlaces cruzados antes de la circularización, porque puede ser desfavorable circularizar el ADN mientras está unido por enlaces cruzados. Sin embargo, la circularización también se puede realizar mientras los fragmentos de ADN ligados están unidos mediante enlaces cruzados. Incluso puede ser posible que no se requiera un paso de circularización adicional, ya que, durante el paso de ligado, los fragmentos de ADN ligados circularizados ya están formados y, por lo tanto, el paso de circularización f) ocurriría simultáneamente con el paso c). Sin embargo, se prefiere realizar un paso de circularización adicional. La circularización implica el ligado de los extremos de los fragmentos de ADN ligados de manera que se forme un círculo cerrado.

[0049] El ADN circularizado que comprende fragmentos de ADN ligados que comprenden la secuencia de nucleótidos diana puede amplificarse posteriormente utilizando al menos un cebador que se hibrida con la secuencia de nucleótidos diana. Para el paso de amplificación, se requiere revertir la unión mediante enlaces cruzados, ya que el ADN unido mediante enlaces cruzados puede dificultar o impedir la amplificación. Preferiblemente, se utilizan dos cebadores que se hibridan con la secuencia de nucleótidos diana en una reacción de PCR inversa. De esta forma, pueden amplificarse fragmentos de ADN del ADN circularizado, que están ligados con el fragmento de ADN que comprende la secuencia de nucleótidos diana.

[0050] A continuación, se determina la secuencia de los fragmentos de ADN ligados (amplificados) obtenidos en el paso d), e), f) o g) que comprenden la secuencia de nucleótidos diana. La determinación de la secuencia se realiza preferiblemente utilizando tecnología de secuenciación de alto rendimiento, ya que es más conveniente y permite determinar un gran número de secuencias para cubrir la región genómica de interés completa. A partir de estas secuencias determinadas, puede construirse un cóntigo de la región genómica de interés. Cuando se determinan las secuencias de los fragmentos de ADN, se pueden obtener lecturas superpuestas a partir de las cuales se puede construir la región genómica de interés. En caso de que los fragmentos de ADN se hayan obtenido mediante fragmentación aleatoria, la naturaleza aleatoria del paso de fragmentación ya puede dar como resultado fragmentos de ADN que, cuando se secuencian, dan como resultado lecturas superpuestas. Al aumentar el tamaño de la muestra, por ejemplo, mediante el aumento del número de células analizadas, puede aumentar la fiabilidad de la región genómica de interés que se construye. Alternativamente, cuando en el paso b) se analiza una pluralidad de submuestras, usando diferentes enzimas de restricción, también se obtendrán lecturas superpuestas. Al aumentar la pluralidad de submuestras, aumentará el número de fragmentos superpuestos, lo que puede incrementar la fiabilidad del cóntigo de la región genómica de interés que se construye. A partir de estas secuencias determinadas que pueden superponerse, se puede construir un cóntigo. Alternativamente, si las secuencias no se superponen, por ejemplo, cuando se puede haber usado una sola enzima de restricción en el paso b), la alineación de los fragmentos de ADN (ligados) con una secuencia de referencia puede permitir construir un cóntigo de la región genómica de interés.

Secuencia diana múltiple

[0051] En una forma de realización, se proporciona un método para determinar la secuencia de una región genómica de interés que comprende dos secuencias de nucleótidos diana. Este método puede implicar los mismos pasos descritos anteriormente hasta el paso de amplificación. El paso de amplificación en este caso no emplea una secuencia de nucleótidos diana, sino dos. Para las dos secuencias de nucleótidos diana, se utilizan dos cebadores diferentes en una reacción de PCR, un cebador para cada secuencia de nucleótidos diana. Cuando los dos sitios de unión del cebador de las dos secuencias de nucleótidos diana están presentes en un fragmento de ADN ligado, los dos cebadores amplificarán la secuencia entre los dos sitios de unión del cebador siempre que los sitios de unión del cebador tengan la orientación correcta. Disponer de un fragmento de ADN ligado circularizado puede ser ventajoso, ya que la probabilidad de que los dos sitios de unión del cebador tengan la orientación correcta es mayor en comparación con un fragmento de ADN ligado linealmente (dos de cada cuatro orientaciones se amplificarán, en comparación con una de cada cuatro para un fragmento de ADN lineal ligado). En una forma de realización adicional, además de las dos secuencias de nucleótidos diana, la región genómica de interés comprende nucleótidos diana adicionales, y para cada nucleótido diana se usa un cebador en la reacción de amplificación por PCR. Al combinar varios nucleótidos diana y los cebadores correspondientes en una única amplificación, aumentará la probabilidad de que las combinaciones de cebadores produzcan un amplicón.

[0052] Por ejemplo, como se describe en la sección de ejemplos, se usaron 5 nucleótidos diana diferentes para el gen BRCA1 (véase, por ejemplo, la figura 2). Se puede realizar una PCR seleccionando un cebador de una secuencia de nucleótidos diana (también denominada punto de referencia), por ejemplo, A con otro, B. Además, se puede realizar una PCR utilizando un cebador de cada secuencia de nucleótidos diana, A, B, C, D y E. Como estos nucleótidos diana están físicamente próximos entre sí, realizar dicha amplificación enriquecerá la región genómica de interés, siempre que los sitios de unión del cebador terminen en fragmentos de ADN ligados de manera que se pueda generar un amplicón.

[0053] Por lo tanto, se proporcionan métodos para determinar la secuencia de una región genómica de interés según la invención, en donde la región genómica de interés comprende además una o más secuencias de nucleótidos diana, y en donde en el paso de amplificación se proporciona un cebador que se hibrida con la secuencia de nucleótidos diana y se proporcionan uno o más cebadores para el nucleótido o nucleótidos diana adicionales correspondientes, en donde los fragmentos de ADN ligados se amplifican, o el ADN circularizado se amplifica, utilizando los cebadores.

Determinación de la secuencia de fragmentos de ADN ligados

[0054] El paso de determinar la secuencia de los fragmentos de ADN ligados comprende preferiblemente una secuenciación de alto rendimiento. Los métodos de secuenciación de alto rendimiento son ampliamente conocidos en la técnica y, en principio, se puede contemplar cualquier método para su uso en la invención. Las tecnologías de secuenciación de alto rendimiento pueden aplicarse de acuerdo con las instrucciones del fabricante (como, por ejemplo, las proporcionadas por Roche, Illumina o Applied Biosystems). En general, los adaptadores de secuenciación pueden ligarse a los fragmentos de ADN ligados (amplificados). En caso de que se amplifique el fragmento lineal o circularizado, usando por ejemplo PCR como se describe en el presente documento, el producto amplificado es lineal, lo que permite el ligado de los adaptadores. Se pueden proporcionar extremos adecuados para ligar secuencias adaptadoras (por ejemplo, extremos escalonados complementarios, romos). Alternativamente, los cebadores utilizados para PCR u otro método de amplificación pueden incluir secuencias adaptadoras, de modo que los productos amplificados con secuencias adaptadoras se formen en el paso de amplificación g). En caso de que el fragmento circularizado no se amplifique, el fragmento circularizado se puede fragmentar, preferiblemente usando, por ejemplo, una enzima de restricción entre los sitios de unión del cebador para la reacción de PCR inversa, de modo que los fragmentos de ADN ligados con el fragmento de ADN que comprende la secuencia de nucleótidos diana permanezcan intactos. Los adaptadores de secuenciación también pueden incluirse en los pasos c) y f) de los métodos de la invención.

[0055] Estos adaptadores de secuenciación se pueden incluir como parte de las secuencias adaptadoras de los adaptadores que ya se pueden usar opcionalmente en estos pasos y/o además se pueden proporcionar adaptadores de secuencia separados en estos pasos.

[0056] Preferiblemente, pueden generarse lecturas largas en el método de secuenciación de alto rendimiento utilizado. Las lecturas largas pueden permitir leer múltiples fragmentos de ADN de fragmentos de ADN ligados. De esta forma, se pueden identificar los fragmentos de ADN del paso b). Las secuencias de fragmentos de ADN pueden compararse con una secuencia de referencia y/o compararse entre sí. Por ejemplo, como también se explica más adelante, tales secuencias de fragmentos de ADN pueden usarse para determinar la proporción de fragmentos de células que llevan una mutación genética. Al secuenciar también secuencias de fragmentos de ADN de fragmentos de ADN adyacentes a dichas secuencias, se pueden identificar fragmentos de ADN ligados únicos. Este fue el caso en particular cuando se obtuvieron fragmentos de ADN en el paso b) por fragmentación aleatoria. La posibilidad de que dos células proporcionen exactamente el mismo fragmento de ADN es muy pequeña, y mucho menos de que los extremos del fragmento de ADN al que se une dicho fragmento sean los mismos. Por lo tanto, mediante la identificación de fragmentos de ADN de esta manera, se puede determinar la proporción de células y/o regiones genómicas de interés que comprenden una mutación particular.

[0057] Por lo tanto, no es necesario proporcionar una secuencia completa de los fragmentos de ADN ligados. Se prefiere secuenciar al menos a través de (múltiples) fragmentos de ^aDⁿ, de modo que se determinen secuencias de fragmentos de ADN.

[0058] También puede contemplarse la lectura de secuencias incluso más cortas, por ejemplo, lecturas cortas de 50-100 nucleótidos. En tal escenario, se prefiere fragmentar el ADN ligado (amplificado) en fragmentos más pequeños, que pueden ligarse posteriormente con un adaptador adecuado para el método de secuenciación de alto rendimiento. En caso de que se utilice un protocolo de secuenciación estándar, esto puede significar que se puede perder la información sobre los fragmentos de ADN ligados. Con lecturas cortas, puede que no sea posible identificar una secuencia completa de fragmentos de ADN. En caso de que se contemplen tales lecturas cortas, se puede contemplar proporcionar pasos de procesamiento adicionales de modo que los fragmentos de ADN ligados se separen cuando se fragmenten, se liguen o se equipen con identificadores, de modo que a partir de las lecturas cortas se puedan construir cóntigos para los fragmentos de ADN ligados. Tales tecnologías de secuenciación de alto rendimiento que implican lecturas de secuencias cortas pueden implicar la secuenciación de extremos emparejados. Mediante el uso de secuenciación de extremos emparejados y lecturas de secuencias cortas, las lecturas cortas de ambos extremos de una molécula de ADN utilizada para la secuenciación, donde dicha molécula de ADN puede comprender diferentes fragmentos de ADN, pueden permitir el acoplamiento de fragmentos de ADN que se habían ligado. Esto se debe a que se pueden acoplar dos lecturas de secuencia que abarcan una secuencia de ADN relativamente grande en relación con la secuencia determinada desde ambos extremos. De esta forma, se pueden construir cóntigos para los fragmentos de ADN ligados (amplificados).

[0059] Sin embargo, se puede contemplar el uso de lecturas cortas sin identificar fragmentos de ADN, porque a partir de las lecturas de secuencias cortas se puede construir una región genómica de interés, especialmente cuando se ha amplificado la región genómica de interés. La información sobre fragmentos de ADN y/o regiones genómicas separadas de interés (por ejemplo, de una célula diploide) puede perderse, pero aún pueden identificarse mutaciones de ADN.

[0060] Por lo tanto, el paso de determinar al menos parte de la secuencia de la secuencia de ADN ligada (amplificada) puede comprender lecturas de secuencias cortas, pero preferiblemente se determinan lecturas de secuencias más largas de modo que puedan identificarse secuencias de fragmentos de ADN. Además, también se puede contemplar el uso de diferentes estrategias de secuenciación de alto rendimiento para los fragmentos de ADN ligados (amplificados), por ejemplo, mediante la combinación de lecturas de secuencias cortas de la secuenciación de extremos emparejados con los extremos relativamente separados con lecturas de secuencias más largas; de esta manera, se pueden construir cóntigos para los fragmentos de ADN ligados (amplificados).

[0061] En una forma de realización, la invención se puede usar para proporcionar un control de calidad de la información de secuencia generada. En el análisis de las secuencias proporcionado por un método de secuenciación de alto rendimiento pueden ocurrir errores de secuenciación. Puede ocurrir un error de secuenciación, por ejemplo, durante el alargamiento de la cadena de ADN, en el que se incorpora la base incorrecta (es decir, no complementaria al molde) en la cadena de ADN. Un error de secuenciación es diferente de una mutación, ya que el ADN original que se amplifica y/o secuencia no comprendería esa mutación. De acuerdo con la invención, las secuencias de fragmentos de ADN se pueden determinar con (al menos parte de) secuencias de fragmentos de ADN ligadas a las mismas, donde dichas secuencias pueden ser únicas. La singularidad de los fragmentos de ADN ligados a medida que se forman en el paso c) puede proporcionar un control de calidad de la secuencia determinada en el paso h). Cuando los fragmentos de A^dN ligados se amplifican y secuencian a una profundidad suficiente, se secuenciarán múltiples copias del mismo fragmento de ADN único (ligado). Las secuencias de copias que se originan a partir del mismo fragmento de ADN ligado original pueden compararse y pueden identificarse errores de amplificación y/o secuenciación.

Otras formas de realización

[0062] Además, según los métodos descritos, a partir de una muestra de ADN unido mediante enlaces cruzados se determinan las secuencias de múltiples regiones genómicas de interés. Para cada región genómica de interés, se proporciona una secuencia de nucleótidos diana, para la cual se pueden diseñar los cebadores correspondientes. Las múltiples regiones genómicas de interés pueden ser regiones genómicas de interés que también pueden superponerse, aumentando así el tamaño del que se puede determinar la secuencia. Por ejemplo, en caso de que una secuencia de una región genómica de interés que comprende una secuencia de nucleótidos diana comprenda típicamente 1 MB, combinando regiones genómicas de interés parcialmente superpuestas, por ejemplo, con una superposición de 0,1 MB, cada una con una secuencia de nucleótidos diana correspondiente, la combinación de 5 regiones genómicas de interés daría como resultado una secuencia de 4,6 MB (0,9 3 * (0,1 0,8) 0,1 0,9 = 4,6 MB), con lo que se ampliaría en gran medida el tamaño de la región genómica de interés cuya secuencia puede determinarse o analizarse de otro modo. También se pueden usar múltiples secuencias de nucleótidos diana a distancias definidas dentro de una región genómica de interés para aumentar la cobertura media y/o la uniformidad de la cobertura a lo largo de la región genómica.

[0063] Además, se puede incluir un identificador en al menos uno de los cebadores oligonucleótidos del paso g). Los identificadores también pueden incluirse en secuencias adaptadoras, como las que se usan para el ligado entre fragmentos durante el paso de ligado c). Al incluir un identificador en el cebador oligonucleótido, cuando se analiza una pluralidad de muestras o una pluralidad de submuestras de ADN unido mediante enlaces cruzados simultáneamente, se puede determinar fácilmente el origen de cada muestra. Las (sub)muestras de ADN unido mediante enlaces cruzados pueden haberse procesado de manera diferente mientras que la muestra original de ADN unido mediante enlaces cruzados es la misma y/o las muestras de ADN pueden haberse obtenido, por ejemplo, de diferentes organismos o pacientes. Los identificadores permiten combinar muestras procesadas de manera diferente cuando el procesamiento de las muestras puede converger, por ejemplo, cuando se realizan pasos de procedimiento idénticos. Tal convergencia de procesamiento puede ser ventajosa en particular cuando el paso de secuenciación h) implica una secuenciación de alto rendimiento.

[0064] Antes o después del paso de amplificación g), según los métodos descritos, se puede realizar un paso de selección de tamaño. Tal paso de selección de tamaño puede realizarse usando cromatografía de extracción en gel, electroforesis en gel o centrifugación en gradiente de densidad, que son métodos generalmente conocidos en la técnica. Preferiblemente, el ADN se selecciona de un tamaño entre 20 y 200000 pares de bases, preferiblemente entre 50 y 100000 pares de bases, más preferiblemente entre 100 y 3000 pares de bases. Un paso de separación de tamaño permite seleccionar fragmentos de ADN ligados (amplificados) en un rango de tamaño que puede ser óptimo para la amplificación por PCR y/o óptimo para la secuenciación de lecturas largas mediante secuenciación de próxima generación. La secuenciación de lecturas de 500 nucleótidos está actualmente disponible en el mercado, y los avances recientes de compañías como la tecnología de secuenciación de ADN Single Molecule Real Time (SMRT™) desarrollada por Pacific Biosciences (http://www.pacificbiosciences.com/) indica que las lecturas de 1000 a 10000 nucleótidos están al alcance.

[0065] En caso de que la ploidía de una célula de una región genómica de interés sea superior a 1, para cada ploidía se construye un cóntigo en el paso h) de los métodos según la invención. Dado que el entorno genómico de cualquier sitio diana dado en el genoma consiste principalmente en secuencias genómicas de ADN que están físicamente cerca de la secuencia diana en el molde cromosómico lineal, permite la reconstrucción de cada molde cromosómico particular. En caso de que la ploidía de una región genómica de interés sea mayor que 1, en una célula (o equivalente de esta) están presentes múltiples regiones genómicas de interés. Estas múltiples regiones genómicas de interés generalmente no ocupan el mismo espacio, es decir, están separadas en el espacio. Cuando se fragmenta una muestra de ADN unido mediante enlaces cruzados de una célula de este tipo, a partir de cada región genómica de interés en una célula se formará un fragmento de ADN correspondiente que comprende la secuencia de nucleótidos diana. Cada uno de estos fragmentos de ADN se ligará con fragmentos de ADN en su proximidad. Así, los fragmentos de ADN ligados serán representativos de las diferentes regiones genómicas de interés. Por ejemplo, en caso de que la ploidía sea diploidía, cuando dos fragmentos, cada uno con una mutación única y separados por 1 MB, se encuentran juntos en fragmentos de ADN ligados, se puede concluir que estos dos fragmentos son de la misma región genómica de interés. Así, en este escenario, se identificaron dos fragmentos, ambos asignados a la misma región genómica. Por lo tanto, cuando se construye un cóntigo a partir de las secuencias de fragmentos identificados, estos dos fragmentos que llevan una mutación se utilizarán para construir un cóntigo para una región genómica particular, mientras que el cóntigo creado para la otra región genómica no llevará las mutaciones.

[0066] Por lo tanto, de acuerdo con los métodos divulgados, el paso h) de construcción de un cóntigo comprende los pasos de:

1) identificar los fragmentos del paso b);

2) asignar los fragmentos a una región genómica;

3) construir un cóntigo para la región genómica a partir de las secuencias de los fragmentos.

[0067] Asimismo, cuando se presentan tres fragmentos que comprenden una única mutación (A*, B* y C*) y la ploidía del interés genómico es diploidía. En este caso, se identifican los productos de ligado que comprenden dos de los fragmentos mutados, un producto de ligado que comprende A*B* y otro con A*C*. También se identifican productos de ligado que comprenden fragmentos no mutados como BC y AC. En este caso, los fragmentos de ADN ligados A*B y A*C* se acoplan mediante el fragmento A*, y los fragmentos de ADN ligados BC y AC se acoplan mediante el fragmento C. En este escenario, los fragmentos de ADN A*, B* y C* se asignan a la misma región genómica, mientras que A, B y C se asignan a la otra región genómica. Así pues, en consecuencia, el paso 2) de asignación de los fragmentos a una región genómica comprende la identificación de los diferentes productos de ligado y el acoplamiento de los diferentes productos de ligado que comprenden los fragmentos de ADN.

[0068] Asimismo, lo mismo sería aplicable para poblaciones celulares heterogéneas. Por ejemplo, en caso de que se proporcione una muestra de ADN unido mediante enlaces cruzados que comprenda una población celular heterogénea (por ejemplo, células con un origen diferente o células de un organismo que comprenda células normales y células mutadas genéticamente (por ejemplo, células cancerosas)), se pueden construir cóntigos para cada región genómica de interés correspondiente a diferentes entornos genómicos (que pueden ser, por ejemplo, diferentes entornos genómicos de una célula o diferentes entornos genómicos de diferentes células). Identificación de mutaciones

[0069] En formas de realización alternativas, se proporcionan métodos para identificar la presencia o ausencia de una mutación genética.

[0070] En una primera forma de realización, se proporciona un método para identificar la presencia o ausencia de una mutación genética, que comprende los pasos a)-h) de cualquiera de los métodos de la invención descritos anteriormente, en el que se construyen cóntigos para una pluralidad de muestras, que comprende los pasos adicionales de:

i) alinear los cóntigos de una pluralidad de muestras;

j) identificar la presencia o ausencia de una mutación genética en las regiones genómicas de interés de la pluralidad de muestras.

[0071] Alternativamente, se proporciona un método para identificar la presencia o ausencia de una mutación genética, que comprende los pasos a)-g) de cualquiera de los métodos de la invención descritos anteriormente, que comprende los pasos adicionales de:

i) alinear el cóntigo con una secuencia de referencia.

j) identificar la presencia o ausencia de una mutación genética en la región genómica de interés.

[0072] Las mutaciones genéticas se pueden identificar, por ejemplo, comparando los cóntigos de múltiples muestras, en caso de que una (o más) de las muestras contenga una mutación genética; esto puede observarse ya que la secuencia del cóntigo es diferente en comparación con la secuencia de las otras muestras, es decir, se identifica la presencia de una mutación genética. En caso de que no se observen diferencias de secuencia entre cóntigos de las muestras, se identifica la ausencia de mutación genética. Alternativamente, también se puede usar una secuencia de referencia con la que se puede alinear la secuencia de un cóntigo. Cuando la secuencia del cóntigo de la muestra es diferente de la secuencia de la secuencia de referencia, se observa una mutación genética, es decir, se identifica la presencia de una mutación genética. En caso de que no se observen diferencias de secuencia entre el cóntigo de la muestra o muestras y la secuencia de referencia, se identifica la ausencia de mutación genética.

[0073] No es necesario construir un cóntigo para identificar la presencia o ausencia de una mutación genética. Siempre que las secuencias de los fragmentos de ADN puedan alinearse entre sí o con una secuencia de referencia, puede identificarse la presencia o ausencia de una mutación genética. Por lo tanto, en formas de realización alternativas, se proporciona un método para identificar la presencia o ausencia de una mutación genética, de acuerdo con cualquiera de los métodos descritos anteriormente, sin el paso h) de construir un cóntigo.

[0074] Dicho método comprende los pasos a)-g) de cualquiera de los métodos descritos anteriormente y los pasos adicionales de:

h) alinear las secuencias determinadas de los fragmentos de ADN ligados (amplificados) con una secuencia de referencia.

i) identificar la presencia o ausencia de una mutación genética en las secuencias determinadas. Alternativamente, se proporciona un método para identificar la presencia o ausencia de una mutación genética, en el que de una pluralidad de muestras se determinan secuencias de fragmentos de ADN ligados (amplificados), que comprende los pasos a)-g) de cualquiera de los métodos descritos anteriormente, que comprende los pasos adicionales de:

h) alinear las secuencias determinadas de los fragmentos de ADN ligados (amplificados) de una pluralidad de muestras.

i) identificar la presencia o ausencia de una mutación genética en las secuencias determinadas.

Proporción de alelos o células portadoras de una mutación genética

[0075] Como ya se ha mencionado antes, cuando se proporciona una muestra de ADN unido mediante enlaces cruzados de poblaciones celulares heterogéneas (por ejemplo, células de origen diferente o células de un organismo que comprende células normales y células mutadas genéticamente (por ejemplo, células cancerosas)), se pueden construir cóntigos para cada región genómica de interés correspondiente a entornos genómicos diferentes (que pueden ser, por ejemplo, entornos genómicos diferentes de alelos diferentes de una célula o entornos genómicos diferentes de células diferentes). Además, puede determinarse la proporción de fragmentos o fragmentos de ADN ligados que portan una mutación genética, lo que puede correlacionarse con la proporción de alelos o células que portan la mutación genética. El ligado de fragmentos de ADN es un proceso aleatorio, la recolección y el orden de los fragmentos de ADN que forman parte de los fragmentos de ADN ligados pueden ser únicos y representar una sola célula y/o una sola región genómica de interés de una célula. Además, en caso de que el paso de fragmentación b) comprenda un proceso de fragmentación aleatoria, como por ejemplo, sonicación, los puntos en los que se ha roto el ADN pueden proporcionar una característica única adicional, especialmente en el contexto de los otros fragmentos de ADN a los que se liga (que también pueden tener extremos de fragmentos únicos).

[0076] Por lo tanto, la identificación de fragmentos de ADN ligados que comprenden el fragmento con la mutación genética también puede comprender la identificación de fragmentos de a Dn ligados con un orden único y una colección de fragmentos de ADN. La proporción de alelos o células que portan una mutación genética puede ser importante en la evaluación de terapias, por ejemplo, en caso de que los pacientes estén recibiendo terapia para el cáncer. Las células cancerosas pueden portar una mutación genética particular. El porcentaje de células que portan tal mutación puede ser una medida del éxito o fracaso de una terapia. En formas de realización alternativas, se proporcionan métodos para determinar la proporción de fragmentos que portan una mutación genética y/o la proporción de fragmentos de ADN ligados que portan una mutación genética. En esta forma de realización, una mutación genética se define como una mutación genética particular o una selección de mutaciones genéticas particulares.

[0077] En una primera forma de realización, se proporciona un método para determinar la proporción de fragmentos que portan una mutación genética de una población celular que se cree que es heteróloga, que comprende los pasos a)-h) de cualquiera de los métodos descritos anteriormente, que comprende los pasos adicionales de:

i) identificar los fragmentos del paso b);

j) identificar la presencia o ausencia de una mutación genética en los fragmentos;

k) determinar el número de fragmentos portadores de la mutación genética;

l) determinar el número de fragmentos que no portan la mutación genética;

m) calcular la proporción de fragmentos que portan la mutación genética.

[0078] En una forma de realización alternativa, se proporciona un método para determinar la proporción de productos de ligado que portan un fragmento con una mutación genética de una población celular de la que se sospecha que es heteróloga, que comprende los pasos a)-h) de cualquiera de los métodos descritos anteriormente, que comprende los pasos adicionales de:

i) identificar los fragmentos del paso b);

k) identificar los productos de ligado del paso f) que portan los fragmentos con o sin la mutación genética; ^l) determinar el número de productos de ligado que portan los fragmentos con la mutación genética; m) determinar el número de productos de ligado que portan los fragmentos sin la mutación genética;

n) calcular la proporción de productos de ligado que portan la mutación genética.

[0079] En los métodos de estas formas de realización, la presencia o ausencia de una mutación genética puede identificarse en el paso j) mediante alineación con una secuencia de referencia y/o comparación de secuencias de fragmentos de ADN de una pluralidad de muestras.

[0080] En los métodos según la invención, una mutación genética identificada puede ser un SNP, un polimorfismo de nucleótido simple, una inserción, una inversión y/o una translocación. En caso de que se observe una deleción y/o inserción, el número de fragmentos y/o productos de ligado de una muestra que lleve la deleción y/o inserción puede compararse con una muestra de referencia para identificar la deleción y/o inserción. También se puede identificar una deleción, inserción, inversión y/o translocación en función de la presencia de puntos de ruptura cromosómica en los fragmentos analizados.

[0081] En otra forma de realización, en los métodos descritos anteriormente, la presencia o ausencia de nucleótidos metilados se determina en fragmentos de ADN, fragmentos de ADN ligados y/o regiones genómicas de interés. Por ejemplo, el ADN del paso a)-f) puede tratarse con bisulfito. El tratamiento del ADN con bisulfito convierte los residuos de citosina en uracilo, pero no afecta a los residuos de 5-metilcitosina. Por lo tanto, el tratamiento con bisulfito introduce cambios específicos en la secuencia de ADN que dependen del estado de metilación de los residuos de citosina individuales, lo que genera información de resolución de un solo nucleótido sobre el estado de metilación de un segmento de ADN. Al dividir las muestras en submuestras, donde una de las muestras se trata y la otra no, se pueden identificar los nucleótidos metilados. Alternativamente, también se pueden alinear secuencias de una pluralidad de muestras tratadas con bisulfito, o una secuencia de una muestra tratada con bisulfito puede alinearse con una secuencia de referencia.

[0082] Al analizar lecturas de secuencias (cortas), puede ser interesante evitar la secuenciación de los cebadores utilizados. Por lo tanto, en un método alternativo, la secuencia del cebador se puede eliminar antes del paso de secuenciación de alto rendimiento. Por lo tanto, en una forma de realización alternativa, se proporciona el siguiente método para determinar la secuencia de una región genómica de interés que comprende una secuencia de nucleótidos diana, que comprende los pasos de:

a) proporcionar una muestra de ADN unido mediante enlaces cruzados;

b) fragmentar el ADN unido mediante enlaces cruzados;

c) ligar el ADN unido mediante enlaces cruzados fragmentado;

d) revertir la unión;

e) opcionalmente, fragmentar el ADN del paso d), preferentemente con una enzima de restricción;

f) opcionalmente, ligar el ADN fragmentado del paso d) o e) a al menos un Adaptador;

g) amplificar los fragmentos de ADN ligados del paso d) o e) que comprenden la secuencia de nucleótidos diana utilizando al menos un cebador que preferiblemente contiene un extremo protuberante 5' que lleva un sitio de reconocimiento de enzimas de restricción de tipo III y (2) se hibrida con la secuencia de nucleótidos diana, o amplificar los fragmentos de ADN ligados del paso f) usando al menos un cebador que (1) contiene preferiblemente un extremo protuberante 5' que lleva un sitio de reconocimiento de enzimas de restricción de tipo III y (2) se hibrida con la secuencia de nucleótidos diana y al menos un cebador que se hibrida al al menos un adaptador;

h) digerir las secuencias de nucleótidos amplificadas de interés con una enzima de restricción de tipo III, seguido de un paso de selección de tamaño para eliminar las secuencias de cebadores de doble cadena liberadas;

i) fragmentar el ADN, preferiblemente por sonicación,

j) opcionalmente, ligar las secuencias adaptadoras de doble cadena necesarias para la secuenciación de próxima generación,

k) determinar al menos parte de la secuencia de los fragmentos de ADN ligados (amplificados) del paso d), e), f) o g) que comprenden la secuencia de nucleótidos diana preferiblemente usando secuenciación de alto rendimiento;

l) identificar la variación genética y construir un cóntigo de la región genómica de interés a partir de las secuencias determinadas.

[0083] En una forma de realización alternativa, en cualquiera de los métodos descritos en el presente documento, en el paso g) se utilizan cebadores que llevan un resto, por ejemplo, biotina, para la purificación opcional de fragmentos de ADN ligados (amplificados) mediante la unión a un soporte sólido.

[0084] En una forma de realización, los fragmentos de ADN ligados que comprenden la secuencia de nucleótidos diana pueden capturarse con una sonda de hibridación (o sonda de captura) que se hibrida con una secuencia de nucleótidos diana. La sonda de hibridación se puede unir directamente a un soporte sólido o puede comprender un grupo, por ejemplo, biotina, para permitir la unión a un soporte sólido adecuado para capturar grupos biotina (por ejemplo, perlas recubiertas con estreptavidina). En cualquier caso, los fragmentos de ADN ligados que comprenden una secuencia de nucleótidos diana se capturan, lo que permite separar los fragmentos de ADN ligados que comprenden la secuencia de nucleótidos diana de los fragmentos de ADN ligados que no comprenden la secuencia de nucleótidos diana. De este modo, dichos pasos de captura permiten enriquecer los fragmentos de ADN ligados que comprenden la secuencia de nucleótidos diana. Por lo tanto, donde a lo largo de la invención se realiza un paso de amplificación, que también es un paso de enriquecimiento, alternativamente se puede realizar un paso de captura con una sonda dirigida a una secuencia de nucleótidos diana. Para una región genómica de interés, se puede usar al menos una sonda de captura para una secuencia de nucleótidos diana para la captura. Para una región genómica de interés, se puede usar más de una sonda para múltiples secuencias de nucleótidos diana. Por ejemplo, de forma similar a como se describe para el gen BRCA1, se puede usar un cebador de una de las 5 secuencias de nucleótidos diana como sonda de captura (A, B, C, D o E).

Alternativamente, los 5 cebadores se pueden usar combinados (A, B, C, D y E) para capturar la región genómica de interés.

[0085] En una forma de realización, se pueden combinar un paso de amplificación y un paso de captura, por ejemplo, realizando primero un paso de captura y luego un paso de amplificación, o viceversa.

[0086] En una forma de realización, puede usarse una sonda de captura que se hibrida con una secuencia adaptadora comprendida en fragmentos de ADN ligados (amplificados).

Ejemplo

[0087] Este es un ejemplo de un enfoque de secuenciación genética completa según la invención que se usó para determinar la secuencia completa del gen Brcal. Las células que se usaron fueron células SUM149PT, una línea celular adherente al cáncer de mama, con una deleción de una T en la posición 2288 en el locus Brcal (Elstrodt et al. Cancer Res, 2006). En la Figura 1 se muestra un esquema del método.

Cultivo celular

[0088] Se cultivan células SUM149PT en placas de 150 cm2 hasta obtener placas completas con RPMI/FCS al 10 %/penstrep. La división y el recuento previos de una placa mostraron que una placa completa de 150 cm2 contiene -20x106 células SUM149PT.

Fijación y lisis celular

[0089] Las células cultivadas se lavan con PBS y se fijan con PBS/FCS al 10 %/formaldehído al 2 % durante 10 minutos a temperatura ambiente. Posteriormente, las células se lavan y recolectan, y se recogen en tampón de lisis

[0090] (50Tris-HCl mM pH 7,5, NaCl 150 mM, EDTA 5 mM, NP-40 al 0,5 %, TX-100 al 1 % e inhibidores de proteasa completos 1X (Roche n.° 11245200) y se incuban durante 10 minutos en hielo. Posteriormente, las células se lavan y se recogen en MilliQ

Fragmentación 1: digestión

[0091] Las células lisadas fijadas se digieren con Nlalll (New England Biolabs #R0125).

Ligado 1

[0092] La enzima Nlalll se inactiva con calor y, posteriormente, se realiza un paso de ligado utilizando ADN ligasa T4 (Roche, n.° 799009).

Reversión de la unión mediante enlaces cruzados

[0093] A la muestra se le añade Prot K (10 mg/ml) y se incuba a 65 °C. Posteriormente se añade RNasa A (10 mg/ml, Roche #10109169001) y la muestra se incuba a 37 °C. A continuación, se realiza la extracción con fenolcloroformo y el sobrenadante que comprende el ADN se precipita y sedimenta. El sedimento se disuelve en Tris-HCl 10 mM pH 7,5.

Fragmentación 2: Segunda digestión

[0094] La muestra digerida y ligada se digiere con Nspl (New England Biolabs #R0602S).

Ligado 2: Segundo ligado y purificación

[0095] A la muestra se le añade Prot K (10 mg/ml) y se incuba a 65 °C. Posteriormente se añade RNasa A (10 mg/ml, Roche #10109169001) y la muestra se incuba a 37 °C. A continuación, se realiza la extracción con fenolcloroformo y el sobrenadante que comprende el ADN se precipita y sedimenta. El sedimento se disuelve en Tris-HCl 10 mM, pH 7,5. El molde de enriquecimiento ahora está terminado y se puede almacenar o continuar directamente.

Amplificación de fragmentos de ADN ligados: PCR

[0096] Los cebadores utilizados para el enriquecimiento por PCR del locus Brcal están diseñados como cebadores únicos invertidos cerca (<50 pb) de los sitios de restricción de un fragmento de restricción Nlalll con una separación de los conjuntos de cebadores, es decir, "puntos de referencia", de aproximadamente 20 kb (véase la figura 2 y la tabla 1).

Claims

REIVINDICACIONES

1. Método para identificar la presencia o ausencia de una mutación genética en una región genómica de interés que comprende una secuencia de nucleótidos diana, que comprende los pasos de:

a) proporcionar una muestra de ADN unido mediante enlaces cruzados;

b) fragmentar el ADN unido mediante enlaces cruzados;

c) ligar el ADN unido mediante enlaces cruzados fragmentado;

d) revertir la unión mediante enlaces cruzados;

g) capturar los fragmentos de ADN ligados del paso d) o e) que comprenden la secuencia de nucleótidos diana usando una sonda de captura para separar los fragmentos de ADN ligados (amplificados) que comprenden la secuencia de nucleótidos diana de los fragmentos de ADN ligados (amplificados) que no comprenden la secuencia de nucleótidos diana; opcionalmente, amplificar los fragmentos de ADN ligados del paso d) o e) que comprenden la secuencia de nucleótidos diana usando al menos un cebador que se hibrida con la secuencia de nucleótidos diana antes o después del paso de captura, o amplificar los fragmentos de ADN ligados del paso f) usando al menos un cebador oligonucleótido que se hibrida con la secuencia de nucleótidos diana y al menos un cebador oligonucleótido que se hibrida con al menos un adaptador antes o después del paso de captura;

h) determinar al menos parte de la secuencia de los fragmentos de ADN ligados (amplificados) del paso g) que comprenden la secuencia de nucleótidos diana usando secuenciación de alto rendimiento;

i) alinear las secuencias determinadas de los fragmentos de ADN ligados (amplificados) con una secuencia de referencia;

j) identificar la presencia o ausencia de una mutación genética en las secuencias determinadas.

2. Método para identificar la presencia o ausencia de una mutación genética en una región genómica de interés que comprende una secuencia de nucleótidos diana, en el que de una pluralidad de muestras se determinan secuencias de fragmentos de ADN ligados (amplificados), que comprende los pasos adicionales de:

a) proporcionar una muestra de ADN unido mediante enlaces cruzados;

b) fragmentar el ADN unido mediante enlaces cruzados;

c) ligar el ADN unido mediante enlaces cruzados fragmentado;

d) revertir la unión mediante enlaces cruzados;

g) capturar los fragmentos de ADN ligados del paso d) o e) que comprenden la secuencia de nucleótidos diana usando una sonda de captura para separar los fragmentos de ADN ligados (amplificados) que comprenden la secuencia de nucleótidos diana de los fragmentos de ADN ligados (amplificados) que no comprenden la secuencia de nucleótidos diana; opcional y preferentemente, amplificar los fragmentos de ADN ligados del paso d) o e) que comprenden la secuencia de nucleótidos diana utilizando al menos un cebador que se hibrida con la secuencia de nucleótidos diana antes o después del paso de captura, o amplificar los fragmentos de ADN ligados del paso f) utilizando al menos un cebador oligonucleótido que se hibrida con la secuencia de nucleótidos diana y al menos un cebador oligonucleótido que se hibrida con al menos un adaptador antes o después del paso de captura;

i) alinear las secuencias determinadas de los fragmentos de ADN ligados (amplificados) de una pluralidad de muestras del paso h);

3. Método para determinar la proporción de fragmentos portadores de una mutación genética de una población celular de la que se sospecha que es heteróloga, que comprende los pasos a) - h) como se define en la reivindicación 1 o 2, que comprende los pasos adicionales de:

i) identificar los fragmentos del paso b);

j) identificar la presencia o ausencia de una mutación genética en estos fragmentos;

k) determinar el número de fragmentos que portan la mutación genética;

l) determinar el número de fragmentos que no portan la mutación genética;

m) calcular la proporción de fragmentos que portan la mutación genética.

4. Método para determinar la proporción de productos de ligado que portan un fragmento con una mutación genética de una población celular de la que se sospecha que es heteróloga, que comprende los pasos a) - h) de la reivindicación 1 o 2, que comprende los pasos adicionales de:

i) identificar los fragmentos del paso b);

k) identificar los fragmentos de ADN ligados que portan los fragmentos con o sin la mutación genética; l) determinar el número de fragmentos de ADN ligados que portan los fragmentos con la mutación genética; m) determinar el número de productos de ligado que portan los fragmentos sin la mutación genética;

5. Método según cualquiera de las reivindicaciones 1 a 4, que comprende además construir un cóntigo de la región genómica de interés a partir de las secuencias determinadas y alinear el cóntigo con una secuencia de referencia.

6. Procedimiento según cualquiera de las reivindicaciones 1 a 5, en el que el ADN del paso d) o e) se circulariza.

7. Método según cualquiera de las reivindicaciones 1 a 6, en el que la región genómica de interés comprende además una o más secuencias de nucleótidos diana, y en el que en el paso de amplificación (g) se proporciona un cebador que se hibrida con la secuencia de nucleótidos diana y se proporcionan uno o más más cebadores para el correspondiente uno o más nucleótidos diana adicionales, en el que los fragmentos de ADN ligados se amplifican, o se amplifica el ADN circularizado, utilizando los cebadores.

8. Método según cualquiera de las reivindicaciones 1 a 7, en el que el paso de fragmentación b) comprende sonicación, seguida de reparación enzimática del extremo del a Dn o comprende la fragmentación con una enzima de restricción.

9. Método según la reivindicación 7 u 8, en el que el paso de ligado c) se realiza en presencia de un adaptador, ligando secuencias adaptadoras entre fragmentos.

10. Procedimiento según la reivindicación 8 o 9, en el que en el paso b) se procesa una pluralidad de submuestras y para cada submuestra se utilizan enzimas de restricción con diferentes sitios de reconocimiento.

11. Procedimiento según la reivindicación 10, en el que el paso de fragmentación e) comprende una enzima de restricción con una secuencia de reconocimiento más larga que la secuencia de reconocimiento de la enzima de restricción del paso b).

12. Método según cualquiera de las reivindicaciones anteriores, en el que se determinan las secuencias de múltiples regiones genómicas de interés.

13. Procedimiento según cualquiera de las reivindicaciones anteriores, en el que se incluye un identificador en al menos uno de los cebadores oligonucleótidos del paso g).

14. Método según cualquiera de las reivindicaciones 1 a 13, en el que en el paso j) se identifica la presencia o ausencia de una mutación genética mediante la alineación con una secuencia de referencia y/o mediante la comparación de secuencias de fragmentos de una pluralidad de muestras.

15. Procedimiento según cualquiera de las reivindicaciones 1 a 14, en el que una mutación genética es un SNP, una deleción, una inserción, una inversión y/o una translocación.

16. Procedimiento según la reivindicación 15, en el que se identifica una deleción y/o inserción comparando el número de fragmentos y/o productos de ligado de una muestra que porta la deleción y/o inserción con una muestra de referencia.

17. Método según la reivindicación 15, en el que se identifica una deleción, inserción, inversión y/o translocación en función de la presencia de puntos de ruptura cromosómica en los fragmentos analizados.

18. Método según cualquiera de las reivindicaciones anteriores, en el que se determina la presencia o ausencia de nucleótidos metilados en fragmentos de ADN, fragmentos de ADN ligados y/o regiones genómicas de interés.

19. Método según cualquiera de las reivindicaciones anteriores, en el que en el paso h) se secuencian secuencias de ADN adyacentes a fragmentos de ADN ligados (amplificados) que comprenden la secuencia de nucleótidos diana, lo que permite la identificación de fragmentos de ADN ligados únicos