ES2996898T3

ES2996898T3 - Method and system for calibrating epigenetic partitioning assays

Info

Publication number: ES2996898T3
Application number: ES19809670T
Authority: ES
Inventors: Andrew Kennedy; Oscar Westesson; Yupeng He; Matthew Schultz
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2018-10-31
Filing date: 2019-10-31
Publication date: 2025-02-13
Anticipated expiration: 2039-10-31
Also published as: JP2022512848A; JP7657149B2; EP4524263A3; SG11202103486YA; US20250137044A1; JP2024056984A; CN113227393A; EP3874060A1; EP3874060B1; EP3874060C0; US20200131566A1; WO2020092807A1; CA3116176A1; CN113227393B; EP4524263A2

Abstract

En un aspecto, un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: (a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; (b) particionar las moléculas de ácido nucleico de la muestra enriquecida en una pluralidad de conjuntos particionados; (c) enriquecer un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar moléculas enriquecidas, en donde las moléculas enriquecidas comprenden un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos; (d) secuenciar las moléculas enriquecidas para producir lecturas de secuenciación; (e) analizar las lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético; y (f) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método y sistemas para calibrar ensayos de partición epigenética

REFERENCIA CRUZADA A LA SOLICITUD RELACIONADA

ANTECEDENTES

[0002] El cáncer es una de las principales causas de enfermedad en todo el mundo. Cada año, decenas de millones de personas son diagnosticadas con cáncer en todo el mundo y más de la mitad mueren a causa de esta enfermedad. En muchos países, el cáncer ocupa el segundo lugar como causa de muerte más común, después de las enfermedades cardiovasculares. La detección temprana se asocia con mejores resultados en muchos tipos de cáncer.

[0003] El cáncer puede ser causado por la acumulación de variaciones genéticas dentro de las células normales de un individuo, al menos algunas de las cuales resultan en una división celular regulada de manera incorrecta. Dichas variaciones incluyen comúnmente variaciones en el número de copias (CNV), variaciones de un solo nucleótido (SNV), fusiones, inserciones y/o deleciones de genes (indels), variaciones epigenéticas que incluyen la 5-metilación de la citosina (5-metilcitosina) y la asociación del ADN con la cromatina y los factores de transcripción.

[0004] Los cánceres se detectan a menudo mediante biopsias de tumores seguidas de análisis de células, marcadores o ADN extraído de las células. Pero más recientemente se ha propuesto que los cánceres también se pueden detectar a partir de ácidos nucleicos libres de células en fluidos corporales, como sangre u orina. Estas pruebas tienen la ventaja de que no son invasivas y se pueden realizar sin identificar células cancerosas sospechosas en la biopsia. Sin embargo, estas pruebas de biopsia líquida son complicadas por el hecho de que la cantidad de ácidos nucleicos en los fluidos corporales es muy baja y los ácidos nucleicos presentes son heterogéneos en forma (por ejemplo, ARN y ADN, monocatenarios y bicatenarios, y varios estados de modificación posterior a la replicación y asociación con proteínas, como las histonas).

RESUMEN

[0005] La presente invención se define por las reivindicaciones adjuntas. Se describe además un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de ese modo una muestra enriquecida; b) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida en una pluralidad de conjuntos particionados; c) enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos; d) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación; e) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético; y f) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0006] En otro aspecto, la presente divulgación proporciona un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; b) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida en una pluralidad de conjuntos particionados; c) enriquecer al menos un subconjunto de moléculas que comprenden regiones genómicas diana específicas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos comprende un conjunto de moléculas de control endógenas, que corresponden a al menos una región genómica humana con un estado epigenético no variable; d) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación; e) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética para las moléculas de ácido nucleico de control epigenético y el conjunto de moléculas de control endógenas; y f) comparar las una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0007] En otro aspecto, la presente divulgación proporciona un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: a) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra de polinucleótidos en una pluralidad de conjuntos particionados; b) enriquecer al menos un subconjunto de moléculas que comprenden regiones genómicas diana específicas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos comprende un conjunto de moléculas de control endógenas, que corresponden a al menos una región genómica humana con un estado epigenético no variable; c) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación; d) analizar un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética para el conjunto de moléculas de control endógenas; y e) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0008] Además, se describe un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; b) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida en una pluralidad de conjuntos particionados; c) secuenciar al menos un subconjunto de las moléculas particionadas para producir un conjunto de lecturas de secuenciación; d) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético; y e) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética. En algunas formas de realización, el método comprende, además, antes del paso de secuenciación, enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos.

[0009] Además, se describe un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; b) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida en una pluralidad de conjuntos particionados; c) secuenciar al menos un subconjunto de las moléculas particionadas para producir un conjunto de lecturas de secuenciación; d) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética para las moléculas de ácido nucleico de control epigenético y el conjunto de moléculas de control endógenas; y e) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética. En algunas formas de realización, el método comprende, además, antes de la secuenciación, enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos comprende un conjunto de moléculas de control endógenas.

[0010] Además, se describe un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: a) dividir moléculas de al menos un subconjunto de la muestra de polinucleótidos en una pluralidad de conjuntos particionados; b) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación; d) analizar un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética para el conjunto de moléculas de control endógenas; y e) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética. En algunas formas de realización, el método comprende, además, antes de la secuenciación, enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos comprende un conjunto de moléculas de control endógenas.

[0011] Además, se describe un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; b) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida en una pluralidad de conjuntos particionados; c) enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos; y d) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación. En algunas formas de realización, el método comprende, además, e) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético; y f) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0012] Además, se describe un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; b) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida en una pluralidad de conjuntos particionados; c) enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos comprende un conjunto de moléculas de control endógenas; y d) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación. En algunas formas de realización, el método comprende, además, e) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética para las moléculas de ácido nucleico de control epigenético y el conjunto de moléculas de control endógenas; y f) comparar las una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0013] Además, se describe un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: a) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra de polinucleótidos en una pluralidad de conjuntos particionados; b) enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos comprende un conjunto de moléculas de control endógenas; y c) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación. En algunas formas de realización, el método comprende, además, d) analizar un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética para el conjunto de moléculas de control endógenas; y e) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0014] En algunas formas de realización, la etapa de análisis comprende estimar el número/fracción de las moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas en un estado epigenético dado en al menos uno de los conjuntos particionados.

[0015] En algunas formas de realización, el método comprende, además etiquetar las moléculas de ácido nucleico en un conjunto particionado de la pluralidad de conjuntos particionados con un conjunto de etiquetas para producir una población de moléculas de ácido nucleico etiquetadas, en donde las moléculas de ácido nucleico etiquetadas comprenden una o más etiquetas. En algunas formas de realización, el conjunto de etiquetas (códigos de barras moleculares) utilizado en un primer conjunto particionado de la pluralidad de conjuntos particionados es diferente del conjunto de etiquetas (códigos de barras moleculares) utilizado en un segundo conjunto particionado de la pluralidad de conjuntos particionados. En algunas formas de realización, el conjunto de etiquetas se une a las moléculas de ácido nucleico mediante la ligadura de adaptadores a las moléculas de ácido nucleico, en donde los adaptadores comprenden una o más etiquetas (códigos de barras moleculares). Las secuencias de etiquetas (códigos de barras moleculares) empleadas pueden estar correlacionadas con el conjunto particionado, por ejemplo, las etiquetas (códigos de barras moleculares) utilizadas en un conjunto particionado no se utilizan en otros conjuntos particionados.

[0016] En algunas formas de realización, el método comprende, además g) clasificar el método de partición como (i) exitoso, si cada una de las una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético y/o el conjunto de moléculas de control endógenas está dentro del límite de partición epigenética correspondiente; o (ii) no exitoso, si al menos una de las una o más puntuaciones de partición epigenética de las moléculas de control epigenético y/o el conjunto de moléculas de control endógenas está fuera de los límites de partición epigenética correspondientes.

[0017] En algunas formas de realización, el conjunto de moléculas de ácido nucleico de control epigenético comprende dos o más subconjuntos de moléculas de ácido nucleico de control epigenético, en donde un subconjunto de los dos o más subconjuntos de moléculas de ácido nucleico de control epigenético comprende una pluralidad de moléculas de ácido nucleico de control epigenético que comprenden una región de modificación epigenética.

[0018] En algunas formas de realización, la secuenciación de la pluralidad de moléculas enriquecidas se lleva a cabo mediante un secuenciador de ácidos nucleicos. En algunas formas de realización, el secuenciador de ácidos nucleicos es un secuenciador de próxima generación.

[0019] En otro aspecto, la presente divulgación proporciona un conjunto de moléculas de ácido nucleico de control epigenético, que comprende dos o más subconjuntos de moléculas de ácido nucleico de control epigenético, en donde un subconjunto de los dos o más subconjuntos de moléculas de ácido nucleico de control epigenético comprende una pluralidad de moléculas de ácido nucleico de control epigenético que comprenden una región de modificación epigenética.

[0020] En otro aspecto, la presente divulgación proporciona una población de ácidos nucleicos, que comprende: (i) un conjunto de moléculas de ácido nucleico de control epigenético, en donde el conjunto de moléculas de ácido nucleico de control epigenético comprende dos o más subconjuntos de moléculas de ácido nucleico de control epigenético, en donde un subconjunto de los dos o más subconjuntos de moléculas de ácido nucleico de control epigenético comprende una pluralidad de moléculas de ácido nucleico de control epigenético que comprenden una región de modificación epigenética; y (ii) un conjunto de moléculas de ácido nucleico en una muestra de polinucleótidos de un sujeto.

[0021] En algunas formas de realización, la molécula de ácido nucleico de control epigenético comprende, además una región identificadora. En algunas formas de realización, la región identificadora se encuentra en uno o ambos lados de la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético.

[0022] En algunas formas de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético en al menos un subconjunto comprende al menos un nucleótido con modificación epigenética. En algunas formas de realización, el subconjunto comprende moléculas de ácido nucleico de control epigenético con un mismo número de nucleótidos con modificación epigenética. En algunas formas de realización, el número de nucleótidos con modificación epigenética en un primer subconjunto es diferente del número de nucleótidos con modificación epigenética en un segundo subconjunto. En algunas formas de realización, el nucleótido con modificación epigenética comprende un nucleótido metilado. En algunas formas de realización, el nucleótido metilado comprende 5-metilcitosina. En algunas formas de realización, el nucleótido metilado comprende 5-hidroximetilcitosina.

[0023] En algunas formas de realización, la región identificadora de las moléculas de ácido nucleico de control epigenético comprende un código de barras molecular. En algunas formas de realización, la región identificadora comprende, además al menos un código de barras de estado epigenético. En algunas formas de realización, la región identificadora comprende uno o más sitios de unión de cebadores.

[0024] En algunas formas de realización, la región de modificación epigenética de la pluralidad de moléculas de ácido nucleico de control epigenético en los dos o más subconjuntos comprende una secuencia de ácido nucleico idéntica.

[0025] En algunas formas de realización, la región de modificación epigenética de la pluralidad de moléculas de ácido nucleico de control epigenético en un primer subconjunto comprende una secuencia de ácido nucleico distinguible de la secuencia de ácido nucleico de la región de modificación epigenética de la pluralidad de moléculas de ácido nucleico de control epigenético en un segundo subconjunto.

[0026] En algunas formas de realización, la modificación epigenética es la metilación del ADN.

[0027] En algunas formas de realización, cada subconjunto de moléculas de ácido nucleico de control epigenético se encuentra en una concentración equimolar. En algunas formas de realización, cada subconjunto de moléculas de ácido nucleico de control epigenético se encuentra en una concentración no equimolar.

[0028] En algunas formas de realización, la cantidad de nucleótidos metilados en las moléculas de ácido nucleico de control epigenético en al menos uno de los subconjuntos es 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, al menos 12, al menos 15, al menos 20, al menos 25, al menos 30, al menos 40 o al menos 50.

[0029] En algunas formas de realización, las moléculas de ácido nucleico de control epigenético comprenden una secuencia correspondiente al ADN del fago lambda, la región genómica humana o una combinación de ambos.

[0030] En algunas formas de realización, el estado epigenético es el nivel de metilación de las moléculas de ácido nucleico. En algunas formas de realización, la pluralidad de conjuntos divididos comprende moléculas de ácido nucleico de la muestra enriquecida divididas en función del nivel de metilación de las moléculas de ácido nucleico.

[0031] En algunas formas de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético comprende una longitud de aproximadamente 160 pb.

[0032] En algunas formas de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético comprende una secuencia de ácido nucleico correspondiente a un genoma no humano.

[0033] En algunas formas de realización, la muestra de polinucleótidos se selecciona del grupo que consiste en una muestra de ADN, una muestra de ARN, una muestra de polinucleótidos, una muestra de ADN libre de células y una muestra de ARN libre de células. En algunas formas de realización, la muestra de polinucleótidos se selecciona del grupo que consiste en una muestra de ADN, una muestra de ARN, una muestra de polinucleótidos, una muestra de ADN libre de células y una muestra de ARN libre de células. En algunas formas de realización, el ADN libre de células tiene entre 1 ng y 500 ng.

[0034] En algunas formas de realización, las moléculas de ácido nucleico de control epigenético están entre 1 femtomol y 200 femtomoles.

[0035] En algunas formas de realización, la partición comprende la partición de las moléculas de ácido nucleico en función de una afinidad de unión diferencial de las moléculas de ácido nucleico a un agente de unión que se une preferentemente a moléculas de ácido nucleico que comprenden nucleótidos con modificación epigenética.

[0036] En otro aspecto, la presente divulgación proporciona un sistema para evaluar un método de partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: una interfaz de comunicación que recibe, a través de una red de comunicación, un conjunto de lecturas de secuenciación de una muestra agregada generada por un secuenciador de ácido nucleico, en donde el conjunto de lecturas de secuenciación comprende (i) al menos una primera población de lecturas de secuenciación generadas a partir de polinucleótidos que se originan a partir de la muestra, en donde las lecturas de secuenciación de la primera población comprenden una secuencia de etiqueta y una secuencia derivada del polinucleótido que se origina a partir de la muestra; y (ii) al menos una segunda población de lecturas de secuenciación generadas a partir de moléculas de ácido nucleico de control epigenético, en donde las lecturas de secuenciación generadas a partir de la segunda población comprenden una región de modificación epigenética y, opcionalmente, una región identificadora; un ordenador en comunicación con la interfaz de comunicación, en donde el ordenador comprende uno o más procesadores de ordenador y un medio legible por ordenador que comprende un código ejecutable por máquina que, tras la ejecución por uno o más procesadores de ordenador, implementa un método que comprende: recibir, a través de la red de comunicación, el conjunto de lecturas de secuenciación de las primera y segunda poblaciones de lecturas de secuenciación por el secuenciador de ácidos nucleicos; analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar uno o más puntajes de partición epigenética de las moléculas de ácidos nucleicos de control epigenético y/o moléculas de control endógenas; y comparar uno o más puntajes de partición epigenética con uno o más puntos de corte de partición epigenética.

[0037] En otro aspecto, la presente divulgación proporciona un sistema, que comprende un controlador que comprende, o es capaz de acceder a, medios legibles por computadora que comprenden instrucciones ejecutables por computadora no transitorias que, cuando son ejecutadas por al menos un procesador electrónico, realizan al menos: (a) obtener un conjunto de lecturas de secuenciación de una muestra agregada generada por un secuenciador de ácido nucleico, en donde la muestra agregada comprende polinucleótidos de una muestra y moléculas de ácido nucleico de control epigenético y el conjunto de lecturas de secuenciación comprende (i) una primera población de lecturas de secuenciación generadas a partir de polinucleótidos de una muestra y (ii) una segunda población de lecturas de secuenciación generadas a partir de moléculas de ácido nucleico de control epigenético; (b) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas; y (c) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0038] En otro aspecto, la presente divulgación proporciona un sistema, que comprende un controlador que comprende, o es capaz de acceder a, medios legibles por computadora que comprenden instrucciones ejecutables por computadora no transitorias que, cuando son ejecutadas por al menos un procesador electrónico, realizan al menos: (a) obtener un conjunto de lecturas de secuenciación de una muestra generada por un secuenciador de ácidos nucleicos, en donde el conjunto de lecturas de secuenciación comprende lecturas de secuenciación generadas a partir de polinucleótidos de la muestra; (b) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de moléculas de control endógenas; y (c) comparar las una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0039] El sistema comprende, además g) generar un estado de resultado del método de partición en función de la comparación de las puntuaciones de partición epigenética. En algunas formas de realización, el estado de resultado del método de partición se clasifica como (i) exitoso, si una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético y/o el conjunto de moléculas de control endógenas se encuentran dentro de los puntos de corte de partición epigenética correspondientes; o (ii) no exitoso, si al menos una de las una o más puntuaciones de partición epigenética de las moléculas de control epigenético y/o las moléculas de control endógenas se encuentra fuera del punto de corte de partición epigenética correspondiente.

[0040] En algunas formas de realización, la puntuación de partición epigenética comprende una fracción o porcentaje del número de moléculas de ácido nucleico de control epigenético hipermetiladas y/o moléculas de control hipermetiladas en un conjunto particionado. En algunas formas de realización, la puntuación de partición epigenética comprende una fracción o porcentaje del número de moléculas de ácido nucleico de control epigenético hipometiladas y/o moléculas de control hipometiladas en un conjunto particionado. En algunas formas de realización, el conjunto particionado es un conjunto particionado hipermetilado. En algunas formas de realización, el conjunto particionado es un conjunto particionado hipometilado. En algunas formas de realización, la puntuación de partición epigenética es una puntuación CG O. En algunas formas de realización, la puntuación de partición epigenética es una puntuación hipo. En algunas formas de realización, la puntuación de partición epigenética esmetil-mitad.En algunas formas de realización, la puntuación de partición epigenética esmetil-5.

[0041] En algunas formas de realización, el punto de corte de partición epigenética para lapuntuación 0 CGes 0,01 %, 0,02 %, 0,05 %, 0,1 %, 0,2 %, 0,3 %, 0,4 %, 0,5 %, 0,6 %, 0,7 %, 0,8 %, 0,9 %, 1 %, 2 %, 5 %, al menos 5 % o al menos 10%. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo es 0,1 %, 0,5 %, 1 %, 2 %, 3 %, 4 %, 5 %, 7 % o al menos 10 %. En algunas formas de realización, el punto de corte de partición epigenética para la mitad metilo es 5, 10, 15, 20, 25, 30, 35 o 40 mCG. En algunas formas de realización, el límite de partición epigenética para elmetil-5es 5, 10, 20, 30, 40 o 50 mCG.

[0043] En algunas formas de realización, los resultados de los sistemas y/o métodos divulgados en este documento se utilizan como entrada para generar un informe. El informe puede estar en formato impreso o electrónico. Por ejemplo, la información sobre, y/o la información derivada de, la partición de moléculas de ácido nucleico, según lo determinado por los métodos o sistemas divulgados en este documento, se puede mostrar en dicho informe. Los métodos o sistemas divulgados en este documento pueden comprender además un paso de comunicación del informe a un tercero, como el sujeto del que se derivó la muestra o un profesional de la salud.

[0044] Los distintos pasos de los métodos descritos en este documento, o los pasos llevados a cabo por los sistemas descritos en este documento, pueden llevarse a cabo al mismo tiempo o en momentos diferentes, y/o en la misma ubicación geográfica o en ubicaciones geográficas diferentes, por ejemplo, países. Los distintos pasos de los métodos descritos en este documento pueden ser realizados por la misma persona o por personas diferentes.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

[0045] Los dibujos adjuntos, que se incorporan y forman parte de esta especificación, ilustran ciertas formas de realización y, junto con la descripción escrita, sirven para explicar ciertos principios de los métodos, medios legibles por computadora y sistemas divulgados en este documento. La descripción proporcionada en este documento se entiende mejor cuando se lee junto con los dibujos adjuntos que se incluyen a modo de ejemplo y no a modo de limitación. Se entenderá que los mismos números de referencia identifican componentes similares en todos los dibujos, a menos que el contexto indique lo contrario. También se entenderá que algunas o todas las figuras pueden ser representaciones esquemáticas con fines ilustrativos y no necesariamente representan los tamaños relativos reales o las ubicaciones de los elementos mostrados.

La FIG. 1A y la FIG. 1B son diagramas esquemáticos de una díada CpG completamente metilada (FIG. 1A) y hemi-metilada (FIG. 1B) en un ADN bicatenario.

La FIG. 2 es una representación de un diagrama de flujo de un método para evaluar la partición de una muestra de polinucleótidos de acuerdo con una forma de realización de la divulgación.

La FIG. 3 es una representación de un diagrama de flujo de un método para evaluar la partición de una muestra de polinucleótidos de acuerdo con una forma de realización de la divulgación.

La FIG. 4 es una representación de un diagrama de flujo de un método para evaluar la partición de una muestra de polinucleótidos de acuerdo con una forma de realización de la divulgación.

La FIG. 5 es una representación esquemática de moléculas de ácido nucleico de control epigenético adecuadas para su uso con algunas formas de realización de la divulgación.

La FIG. 6 es una representación esquemática de moléculas de ácido nucleico de control epigenético adecuadas para su uso con algunas formas de realización de la divulgación.

La FIG. 7 es una representación esquemática de moléculas de ácido nucleico de control epigenético adecuadas para su uso con algunas formas de realización de la divulgación.

La FIG. 8 es un diagrama esquemático de un ejemplo de un sistema adecuado para su uso con algunas formas de realización de la divulgación.

FIG. 9A, FIG. 9B y FIG. 9C son representaciones gráficas de las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a los subconjuntos 1, 2, 3, 4, 5 y 6 en el conjunto hiperparticionado (FIG. 9A), el conjunto particionado intermedio (FIG. 9B) y el conjunto hipoparticionado (FIG. 9C).

La FIG. 10A y la FIG. 10B son representaciones gráficas de la fracción de moléculas de control hipermetiladas de la Muestra 1 en el conjunto hiperparticionado (FIG. 10A) y en el conjunto hipoparticionado (FIG. 10B).

FIG. 11A y FIG. 11B son representaciones gráficas de la fracción de moléculas de control hipermetiladas de la Muestra 2 en el conjunto hiperparticionado (FIG. 11A) y en el conjunto hipoparticionado (FIG. 11B).

DEFINICIONES

[0046] Para que la presente divulgación se comprenda más fácilmente, primero se definen ciertos términos a continuación. Se pueden establecer definiciones adicionales para los siguientes términos y otros términos a través de la especificación. Si una definición de un término establecido a continuación es incoherente con una definición en una solicitud o patente, se debe utilizar la definición establecida en esta solicitud para comprender el significado del término.

[0047] Tal como se utiliza en esta especificación y en las reivindicaciones adjuntas, las formas singulares "un", "una", "el" y "ella" incluyen referencias plurales a menos que el contexto indique claramente lo contrario. Así, por ejemplo, una referencia a "un método" incluye uno o más métodos y/o pasos del tipo descrito en este documento y/o que resultarán evidentes para aquellas personas con conocimientos ordinarios en la materia tras leer esta divulgación y demás.

[0048] También debe entenderse que la terminología utilizada en el presente documento tiene como único fin describir formas de realización particulares y no pretende ser limitante. Además, a menos que se defina de otra manera, todos los términos técnicos y científicos utilizados en el presente documento tienen el mismo significado que entiende comúnmente una persona con conocimientos ordinarios en la técnica a la que pertenece esta divulgación. Al describir y reivindicar los métodos, medios legibles por computadora y sistemas, se utilizará la siguiente terminología y variantes gramaticales de la misma de acuerdo con las definiciones que se establecen a continuación.

[0049] Acerca de: Tal como se utiliza en el presente documento, "aproximadamente" o "alrededor de" cuando se aplica a uno o más valores o elementos de interés, se refiere a un valor o elemento que es similar a un valor o elemento de referencia indicado. En ciertas formas de realización, el término "aproximadamente" o "alrededor de" se refiere a un rango de valores o elementos que se encuentra dentro del 25 %, 20 %, 19 %, 18 %, 17 %, 16 %, 15 %, 14 %, 13 %, 12 %, 11 %, 10 %, 9 %, 8 %, 7 %, 6 %, 5 %, 4 %, 3 %, 2 %, 1 % o menos en cualquier dirección (mayor o menor que) del valor o elemento de referencia indicado a menos que se indique lo contrario o sea evidente de otro modo a partir del contexto (excepto cuando dicho número exceda el 100 % de un posible valor o elemento).

[0050] Adaptador: como se utiliza en el presente documento, "adaptador" se refiere a un ácido nucleico corto (por ejemplo, de menos de aproximadamente 500 nucleótidos, menos de aproximadamente 100 nucleótidos o menos de aproximadamente 50 nucleótidos de longitud) que normalmente es al menos parcialmente bicatenario y está unido a uno o ambos extremos de una molécula de ácido nucleico de muestra dada. Los adaptadores pueden incluir sitios de unión de cebadores de ácidos nucleicos para permitir la amplificación de una molécula de ácido nucleico flanqueada por adaptadores en ambos extremos, y/o un sitio de unión de cebadores de secuenciación, incluidos sitios de unión de cebadores para aplicaciones de secuenciación, como varias aplicaciones de secuenciación de próxima generación (NGS). Los adaptadores también pueden incluir sitios de unión para sondas de captura, como un oligonucleótido unido a un soporte de celda de flujo o similar. Los adaptadores también pueden incluir una etiqueta de ácido nucleico como se describe en el presente documento. Las etiquetas de ácido nucleico normalmente se colocan en relación con los sitios de unión de cebadores de amplificación y de secuenciación, de modo que una etiqueta de ácido nucleico se incluye en amplicones y lecturas de secuencia de una molécula de ácido nucleico dada. Los adaptadores de la misma o de diferentes secuencias se pueden unir a los extremos respectivos de una molécula de ácido nucleico. En algunas formas de realización, los adaptadores de la misma secuencia se unen a los extremos respectivos de la molécula de ácido nucleico, excepto que la etiqueta de ácido nucleico difiere. En algunas formas de realización, el adaptador es un adaptador en forma de Y en el que un extremo tiene un extremo romo o una cola como se describe en el presente documento, para unirse a una molécula de ácido nucleico, que también tiene un extremo romo o una cola con uno o más nucleótidos complementarios. En otras formas de realización de ejemplo, un adaptador es un adaptador en forma de campana que incluye un extremo romo o una cola para unirse a una molécula de ácido nucleico que se va a analizar. Otros ejemplos de adaptadores incluyen adaptadores con cola T y con cola C.

[0051] Amplificar: como se utiliza en el presente documento, "amplificar" o "amplificación" en el contexto de los ácidos nucleicos se refiere a la producción de múltiples copias de un polinucleótido, o una porción del polinucleótido, generalmente a partir de una pequeña cantidad del polinucleótido (por ejemplo, una sola molécula de polinucleótido), donde los productos de amplificación o amplicones son generalmente detectables. La amplificación de polinucleótidos abarca una variedad de procesos químicos y enzimáticos. La amplificación incluye, entre otros, la reacción en cadena de la polimerasa (PCR).

[0052] Código de barras: como se utiliza en el presente documento, "código de barras" o "código de barras molecular" en el contexto de los ácidos nucleicos se refiere a una molécula de ácido nucleico que comprende una secuencia que puede servir como identificador molecular. Por ejemplo, las secuencias de "código de barras" individuales se añaden normalmente al fragmento de ADN durante la preparación de la biblioteca de secuenciación de próxima generación (NGS) de modo que la lectura de secuenciación se pueda identificar y clasificar antes del análisis de datos final.

[0053] Tipo de cáncer: como se utiliza en este documento, "tipo de cáncer" se refiere a un tipo o subtipo de cáncer definido, por ejemplo, por histopatología. El tipo de cáncer se puede definir por cualquier criterio convencional, como por ejemplo, sobre la base de la aparición en un tejido determinado (por ejemplo, cánceres de sangre, sistema nervioso central (SNC), cánceres cerebrales, cánceres de pulmón (de células pequeñas y no pequeñas), cánceres de piel, cánceres de nariz, cánceres de garganta, cánceres de hígado, cánceres de huesos, linfomas, cánceres de páncreas, cánceres de intestino, cánceres de recto, cánceres de tiroides, cánceres de vejiga, cánceres de riñón, cánceres de boca, cánceres de estómago, cánceres de mama, cánceres de próstata, cánceres de ovario, cánceres de pulmón, cánceres intestinales, cánceres de tejidos blandos, cánceres neuroendocrinos, cánceres gastroesofágicos, cánceres de cabeza y cuello, cánceres ginecológicos, cánceres colorrectales, cánceres uroteliales, cánceres de estado sólido, cánceres heterogéneos, cánceres homogéneos), origen primario desconocido y similares, y/o del mismo linaje celular (por ejemplo, carcinoma, sarcoma, linfoma, colangiocarcinoma, leucemia, mesotelioma, melanoma o glioblastoma) y/o cánceres que presentan marcadores de cáncer, como, entre otros, Her2, CA15-3, CA19-9, CA-125, CEA, AFP, p Sa , HCG, receptor hormonal y NMP-22. Los cánceres también se pueden clasificar por estadio (p. ej., estadio 1, 2, 3 o 4) y si son de origen primario o secundario.

[0054] Ácido nucleico libre de células: como se utiliza en el presente documento, "ácido nucleico libre de células" se refiere a ácidos nucleicos que no están contenidos dentro de una célula o unidos de otro modo a ella o, en algunas formas de realización, ácidos nucleicos que permanecen en una muestra después de la eliminación de células intactas. Los ácidos nucleicos libres de células pueden incluir, por ejemplo, todos los ácidos nucleicos no encapsulados procedentes de un fluido corporal (por ejemplo, sangre, plasma, suero, orina, líquido cefalorraquídeo (LCR), etc.) de un sujeto. Los ácidos nucleicos libres de células incluyen<a>D<n>(ADNlc), ARN (ARNfl) e híbridos de los mismos, incluido el ADN genómico, el ADN mitocondrial, el ADN circulante, el ARNi, el ARNmi, el ARN circulante (ARNc), el ARNt, el ARNr, el ARN nucleolar pequeño (ARNnp), el ARN que interactúa con Piwi (ARNip), el ARN largo no codificante (ncRNA largo) y/o fragmentos de cualquiera de estos. Los ácidos nucleicos libres de células pueden ser bicatenarios, monocatenarios o un híbrido de los mismos. Un ácido nucleico libre de células puede liberarse en un fluido corporal a través de procesos de secreción o muerte celular, por ejemplo, necrosis celular, apoptosis o similares. Algunos ácidos nucleicos libres de células se liberan en un fluido corporal a partir de células cancerosas, por ejemplo, ADN tumoral circulante (ADNtc). Otros se liberan a partir de células sanas. El ADNtc puede ser ADN fragmentado derivado de un tumor no encapsulado. Un ácido nucleico libre de células puede tener una o más modificaciones epigenéticas, por ejemplo, un ácido nucleico libre de células puede estar acetilado, 5-metilado y/o hidroximetilado.

[0055] Ácidos nucleicos celulares: tal como se utiliza en el presente documento, "ácidos nucleicos celulares" significa ácidos nucleicos que se encuentran dentro de una o más células de las que se han originado los ácidos nucleicos, al menos en el momento en que se toma o recolecta una muestra de un sujeto, incluso si esos ácidos nucleicos se eliminan posteriormente (por ejemplo, a través de lisis celular) como parte de un proceso analítico determinado.

[0056] Cobertura: En el presente documento, los términos "cobertura", "recuento total de moléculas" o "recuento total de alelos" se utilizan indistintamente. Hacen referencia al número total de moléculas de ADN en una posición genómica particular en una muestra determinada.

[0057] Díada CpG: como se utiliza en este documento, el término "díada CpG" se refiere al dinucleótido CpG (citosinafosfato-guanina (es decir, una citosina seguida de una guanina en una dirección 5' 3' de la secuencia de ácido nucleico)) en la cadena sentido y su CpG complementario en la cadena antisentido de una molécula de ADN bicatenario (que se muestra en la FIG. 1).

[0058] Ácido desoxirribonucleico o ácido ribonucleico: como se utiliza en el presente documento, "ácido desoxirribonucleico" o "ADN" se refiere a un nucleótido natural o modificado que tiene un grupo hidrógeno en la posición 2' de la fracción de azúcar. El ADN incluye típicamente una cadena de nucleótidos que comprende cuatro tipos de bases de nucleótidos: adenina (A), timina (T), citosina (C) y guanina (G). Como se utiliza en el presente documento, "ácido ribonucleico" o "ARN" se refiere a un nucleótido natural o modificado que tiene un grupo hidroxilo en la posición 2' de la fracción de azúcar. El ARN incluye típicamente una cadena de nucleótidos que comprende cuatro tipos de bases de nucleótidos: A, uracilo (U), G y C. Como se utiliza en el presente documento, el término "nucleótido" se refiere a un nucleótido natural o un nucleótido modificado. Ciertos pares de nucleótidos se unen específicamente entre sí de manera complementaria (llamado emparejamiento de bases complementarias). En el ADN, la adenina (A) se empareja con la timina (T) y la citosina (C) se empareja con la guanina (G). En el ARN, la adenina (A) se empareja con el uracilo (U) y la citosina (C) se empareja con la guanina (G). Cuando una primera cadena de ácido nucleico se une a una segunda cadena de ácido nucleico formada por nucleótidos que son complementarios a los de la primera cadena, las dos cadenas se unen para formar una doble cadena. Tal como se utiliza en el presente documento, "datos de secuenciación de ácidos nucleicos", "información de secuenciación de ácidos nucleicos", "información de secuencia", "secuencia de ácidos nucleicos", "secuencia de nucleótidos", "secuencia genómica", "secuencia genética" o "secuencia de fragmentos" o "lectura de secuenciación de ácidos nucleicos" denota cualquier información o dato que sea indicativo del orden y la identidad de las bases de nucleótidos (por ejemplo, adenina, guanina, citosina y timina o uracilo) en una molécula (por ejemplo, un genoma completo, transcriptoma completo, exoma, oligonucleótido, polinucleótido o fragmento) de un ácido nucleico como ADN o ARN. Debe entenderse que las presentes enseñanzas contemplan información de secuencia obtenida utilizando todas las variedades disponibles de técnicas, plataformas o tecnologías, incluyendo, pero sin limitarse a: electroforesis capilar, microarreglos, sistemas basados en ligación, sistemas basados en polimerasa, sistemas basados en hibridación, sistemas de identificación directa o indirecta de nucleótidos, pirosecuenciación, sistemas de detección basados en iones o pH y sistemas basados en firma electrónica.

[0059] Moléculas de control endógenas: como se utiliza en el presente documento, "moléculas de control endógenas" se refieren a moléculas de ácido nucleico en la muestra de polinucleótidos que corresponden a al menos una región genómica humana con un estado epigenético no variable. En algunas formas de realización, las moléculas de control endógenas podrían estar consistentemente alta o bajamente metiladas en diferentes tejidos, sujetos y cánceres. En algunas formas de realización, las moléculas de control endógenas que corresponden a regiones genómicas humanas con regiones consistentemente altamente metiladas pueden denominarse "moléculas de control hipermetiladas". En algunas formas de realización, las moléculas de control endógenas que corresponden a regiones genómicas humanas con regiones consistentemente bajamente metiladas pueden denominarse "moléculas de control hipometiladas".

[0060] Moléculas de ácido nucleico de control epigenético: como se utiliza en el presente documento, "moléculas de ácido nucleico de control epigenético" se refieren a un conjunto de moléculas de ácido nucleico que se añaden a una muestra de polinucleótidos para evaluar la partición de la muestra en función de la modificación epigenética. Por ejemplo, la modificación epigenética puede ser la metilación del ADN y las moléculas de ácido nucleico de control epigenético pueden tener niveles de metilación diferentes/distinguibles. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético comprenden una región de modificación epigenética y, opcionalmente, una región identificadora. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético comprenden una región de modificación epigenética y una región identificadora. Las moléculas de ácido nucleico de control epigenético pueden ser oligonucleótidos sintéticos. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden tener una secuencia de ácido nucleico que no se produce de forma natural. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden tener una secuencia de ácido nucleico que se produce de forma natural. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden tener una secuencia de ácido nucleico que corresponde a un genoma no humano. Como ejemplos no limitativos, estas moléculas pueden tener (i) una secuencia correspondiente a regiones del ADN del fago lambda o del genoma humano, (ii) una secuencia que no ocurre de manera natural y/o (iii) una combinación de (i) y (ii).

[0061] Modificación epigenética: como se utiliza en el presente documento, "modificación epigenética" se refiere a una modificación de la base del nucleótido o nucleótidos en las moléculas de ácido nucleico. La modificación puede ser una modificación química de la base de los nucleótidos. En algunos casos, la modificación puede ser la metilación de la base de los nucleótidos. Por ejemplo, la modificación puede ser la metilación de la citosina, lo que da como resultado 5-metilcitosina.

[0062] Región de modificación epigenética: como se utiliza en el presente documento, "región de modificación epigenética" se refiere a una región de la molécula de ácido nucleico de control epigenético que representa el nivel/grado de modificación epigenética de la molécula de ácido nucleico de control epigenético. En algunas formas de realización, la región de modificación epigenética puede comprender nucleótidos con modificación epigenética. En algunas formas de realización, la modificación epigenética es la metilación del ADN. En esas formas de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético puede tener nucleótidos que están metilados. La cantidad de nucleótidos metilados en la región de modificación epigenética puede variar entre las moléculas de ácido nucleico de control epigenético. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden tener 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, al menos 10, al menos 15, al menos 20, al menos 30, al menos 40 o al menos 50 nucleótidos metilados en la región de modificación epigenética. Las moléculas de ácido nucleico de control epigenético se pueden agrupar en subconjuntos en función de la cantidad de nucleótidos con modificación epigenética en la región de modificación epigenética. La región de modificación epigenética entre los diferentes subconjuntos puede tener la misma longitud, por ejemplo, alrededor de 160 pb. La longitud de la región de modificación epigenética entre los subconjuntos puede ser diferente. Por ejemplo, las moléculas de ácido nucleico de control epigenético se pueden agrupar en tres subconjuntos (subconjunto A, Banda C) en función del número de nucleótidos metilados en la región de modificación epigenética. Los subconjuntos A, B y C pueden tener moléculas de ácido nucleico de control epigenético con 5, 10 y 15 nucleótidos metilados respectivamente en la región de modificación epigenética y la longitud de la región de modificación epigenética en los subconjuntos A, Banda C puede ser la misma (por ejemplo, 160 pb) o puede ser diferente: 100 pb, 150 pb y 200 pb para los subconjuntos A, Banda C respectivamente.

[0063] Puntuación de partición epigenética: como se utiliza en el presente documento, "puntuación de partición epigenética" se refiere a un valor numérico que representa la partición de moléculas de ácido nucleico que pertenecen a un estado epigenético particular en un conjunto particionado dado. En algunas formas de realización, la puntuación de partición epigenética de las moléculas de ácido nucleico que pertenecen a un estado epigenético se determina para cada conjunto particionado. Por ejemplo, se puede determinar la puntuación de partición epigenética de las moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas que pertenecen a un estado epigenético particular. La puntuación de partición epigenética puede ser una medida del número (o número estimado estadísticamente) de moléculas de ácido nucleico que pertenecen a un estado epigenético particular. La puntuación de partición epigenética puede expresarse en términos de fracción o porcentaje. La puntuación de partición epigenética puede ser una medida de la relación entre la cantidad de moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas que pertenecen a un estado epigenético particular que está particionado en al menos un conjunto particionado y la cantidad de moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas que pertenecen a ese estado epigenético presente en el (los) otro(s) conjunto(s) particionado(s) restante(s). En algunas formas de realización, la puntuación de partición epigenética puede ser una fracción o porcentaje de la cantidad de moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas que pertenecen a un estado epigenético particular particionado en al menos un conjunto particionado y la cantidad total de moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas que pertenecen a ese estado epigenético en todos los conjuntos particionados. En algunas formas de realización, la puntuación de partición epigenética se determina para cada estado epigenético de las moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas en cada uno de los conjuntos particionados. En algunas formas de realización, la puntuación de partición epigenética se determina para las moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas con uno o más estados epigenéticos particulares en uno o más conjuntos particionados. En algunas formas de realización, la puntuación de partición epigenética se determina para las moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas con un estado epigenético particular en un conjunto particionado particular.

[0064] En algunas formas de realización, la puntuación de partición epigenética puede estar dirigida a la eficiencia con la que las moléculas sin CG (CG "cero") se dividieron en un conjunto hiperparticionado. Esta puntuación puede denominarsepuntuación 0 CG.En algunas formas de realización, lapuntuación 0 CGpuede expresarse en términos de fracción o porcentaje de moléculas sin CG en el conjunto hiperparticionado. En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la fracción de moléculas de ácido nucleico de control epigenético y/o fracción de moléculas de control hipermetiladas con al menos uno de los siguientes:

(i) 1 metil CG (la puntuación de partición epigenética puede denominarse puntuación 1 CG),

(ii) 2 metil CG (la puntuación de partición epigenética puede denominarse puntuación 2 CG),

(iii) 3 metil CG (la puntuación de partición epigenética puede denominarse puntuación 3 CG),

(iv) 4 metil CG (la puntuación de partición epigenética puede denominarse puntuación 4 CG) y

(v) 5 metil CG (la puntuación de partición epigenética puede denominarse puntuación 5 CG) en el conjunto hiperparticionado.

[0065] En algunas formas de realización, la puntuación de partición epigenética puede estar dirigida a la eficiencia de las moléculas de control hipometiladas o moléculas de ácido nucleico de control epigenético hipometiladas particionadas en un conjunto particionado hipermetilado. Esta puntuación puede denominarse puntuación hipo. En algunas formas de realización, la puntuación hipo puede expresarse en términos de fracción o porcentaje de las moléculas de control hipometiladas o moléculas de ácido nucleico de control epigenético hipometiladas en el conjunto particionado hipermetilado. En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la cantidad de CG metilados necesarios para menos de un valor especificado, por ejemplo, 5 %, de moléculas de control hipermetiladas y/o moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipometilado. En el ejemplo de uso de 5 % de moléculas de control hipermetiladas y/o moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipometilado, es decir, la puntuación de partición epigenética es una medida de la cantidad de CG metilados requeridos para menos de 5 % de moléculas de control hipermetiladas y/o moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipometilado, esta puntuación puede, por conveniencia, denominarsemetil-5.En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la cantidad de CG metilados requeridos para al menos un valor especificado, por ejemplo, 50 %, de moléculas de control hipermetiladas y/o moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipermetilado. En el ejemplo de uso de 50 % de moléculas de control hipermetiladas y/o moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipermetilado (es decir, la puntuación de partición epigenética es una medida de la cantidad de CG metilados necesarios para al menos 50 % de moléculas de control hipermetiladas y/o moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipermetilado), esta puntuación puede denominarse mitad metilada. Se puede utilizar una amplia gama de valores diferentes, desde 0 % hasta 100 % (no solo 5 % y 50 %), en diferentes formas de realización, y se pueden emplear diferentes nombres correspondientes de conveniencia que hagan referencia al valor especificado.

[0066] Por ejemplo, se utilizan tres subconjuntos (subconjuntos A, B y C) de moléculas de ácido nucleico de control epigenético y cada subconjunto difiere en el número de nucleótidos metilados. Las moléculas de ácido nucleico de control epigenético en estos tres subconjuntos se pueden dividir en tres conjuntos particionados: P1, P2 y P3, en función de su afinidad de unión a la proteína de unión a metilo. Para cada subconjunto, la puntuación de partición epigenética se determina para cada uno de los conjuntos particionados (P1, P2 y P3), es decir, las moléculas de ácido nucleico de control epigenético que pertenecen al subconjunto A tendrán tres puntuaciones de partición epigenética: una para cada uno de los tres conjuntos particionados, P1,<p>2 y P3. Asimismo, cada uno de los subconjuntos B y C tendrá tres puntuaciones de partición epigenética: una para cada uno de los tres conjuntos particionados P1, P2 y P3. La puntuación de partición epigenética también se puede determinar para las moléculas de control endógenas.

[0067] En otra forma de realización, se utilizan tres subconjuntos (subconjuntos A, B y C) de moléculas de ácido nucleico de control epigenético y cada subconjunto difiere en el número de nucleótidos metilados (es decir, cada subconjunto tiene un estado epigenético diferente). Las moléculas de ácido nucleico de control epigenético en estos tres subconjuntos se pueden dividir en tres conjuntos particionados: P1, P2 y P3, en función de su afinidad de unión a la proteína de unión a metilo. En esta forma de realización, la puntuación epigenética se determina solo para las moléculas del subconjunto A en el conjunto particionado P1. Esta puntuación epigenética puede ser una medida de la fracción o porcentaje de moléculas del subconjunto A en el conjunto particionado P1 con respecto al número total de moléculas del subconjunto A (en los conjuntos particionados P1, P2 y P3).

[0068] Punto de corte de partición epigenética Como se utiliza en el presente documento, "punto de corte de partición epigenética" se refiere a un valor de corte predeterminado o rango de corte utilizado para evaluar la partición de las moléculas de ácido nucleico que pertenecen a un estado epigenético particular en un conjunto particionado particular. En algunas formas de realización, el punto de corte de partición epigenética se determina a partir del análisis de un conjunto de datos de muestra interno. Cada conjunto particionado puede tener un punto de corte de partición epigenética para las moléculas de ácido nucleico que pertenecen a un estado epigenético. Si una o más puntuaciones de partición epigenética de moléculas de ácido nucleico de control epigenético que pertenecen a uno o más estados epigenéticos (utilizadas para evaluar la partición) están dentro de sus puntos de corte de partición epigenética correspondientes, entonces el método de partición es un éxito. De lo contrario, el método de partición es un fracaso. Los puntos de corte de partición epigenética difieren con el estado epigenético de las moléculas de ácido nucleico y el conjunto particionado, es decir, cada estado epigenético tendrá su propio punto de corte de partición epigenética y cada conjunto particionado tiene un punto de corte de partición epigenética separado para ese estado epigenético. El valor de corte puede expresarse en términos de porcentaje o fracción y puede ser un rango de valores de corte en lugar de un valor de corte particular. Por ejemplo, los valores de corte de partición epigenética para las moléculas de ácido nucleico de control epigenético que pertenecen a un estado epigenético particular pueden estar entre el 70 % y el 79 %, entre el 10 % y el 15 % y menos del 5 % para los conjuntos particionados P1, P2 y P3 respectivamente. Si las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a ese estado epigenético están dentro de los valores de corte de partición epigenética correspondientes, entonces el método de partición es un éxito.

[0069] Estado epigenético: como se utiliza en el presente documento, "estado epigenético" se refiere al nivel/grado de modificación epigenética de las moléculas de ácido nucleico. Por ejemplo, si la modificación epigenética es la metilación del ADN (o metilación de hidroxi), entonces el estado epigenético puede referirse a la presencia o ausencia de metilación en una base de ADN (por ejemplo, citosina) o al grado de metilación en una secuencia de ácido nucleico (por ejemplo, moléculas de ácido nucleico altamente metiladas, poco metiladas, intermediamente metiladas o no metiladas). El estado epigenético también puede referirse al número de nucleótidos con modificación epigenética. Por ejemplo, si la modificación epigenética es la metilación del ADN, entonces un estado epigenético puede referirse al número de nucleótidos metilados de las moléculas de ácido nucleico.

[0070] Código de barras de estado epigenético: como se utiliza en el presente documento, "código de barras de estado epigenético" se refiere a una secuencia de ácido nucleico que se utiliza para identificar el estado epigenético de la molécula de ácido nucleico de control epigenético. La identificación se puede lograr al tener una correlación predeterminada entre un código de barras de estado epigenético particular o códigos de barras y el estado epigenético de la molécula de ácido nucleico de control epigenético. Puede referirse al número de nucleótidos con modificación epigenética en la región de modificación epigenética de la molécula de ácido nucleico de control epigenético. En algunas formas de realización, la región identificadora de la molécula de ácido nucleico de control epigenético comprende al menos un código de barras de estado epigenético. Por ejemplo, si la modificación epigenética es la metilación del ADN y un subconjunto de las moléculas de ácido nucleico de control epigenético tiene 5 nucleótidos metilados, entonces todas las moléculas de ácido nucleico de control epigenético dentro de ese subconjunto tendrán el mismo código de barras de estado epigenético. En algunas formas de realización, el código de barras del estado epigenético se puede utilizar para identificar el nivel/grado de modificación epigenética de la región de modificación epigenética de la molécula de ácido nucleico de control epigenético. Las moléculas de ácido nucleico de control epigenético se pueden agrupar en subconjuntos en función del número de nucleótidos de citosina o CpG en la región de modificación epigenética. En algunas formas de realización, dentro de cada subconjunto, el nivel de metilación puede variar (por ejemplo, altamente metilado, intermediamente metilado, poco metilado o no metilado) y cada nivel de metilación puede tener un código de barras del estado epigenético independiente. Por ejemplo, dentro del subconjunto A, todas las moléculas de ácido nucleico de control epigenético que están poco metiladas tendrán un código de barras del estado epigenético, por ejemplo, ESB1, y todas las moléculas de ácido nucleico de control epigenético que están altamente metiladas tendrán otro código de barras del estado epigenético, por ejemplo, ESB3. En este ejemplo, el código de barras del estado epigenético se utiliza para identificar el nivel/grado de metilación.

[0071] Región genómica humana con estado epigenético no variable: como se utiliza en el presente documento, "región genómica humana con estado epigenético no variable" se refiere a una región del genoma humano con un estado epigenético particular y el estado epigenético de esa región no varía/cambia con frecuencia y siempre permanece igual o permanece constante con diferentes sujetos y/o diferentes tipos de enfermedad/estadios de la enfermedad. Por ejemplo, la región genómica humana con estado epigenético no variable puede estar predominantemente metilada o predominantemente no metilada.

[0072] Región identificadora: como se utiliza en el presente documento, "región identificadora" se refiere a una región de la molécula de ácido nucleico de control epigenético que se utiliza para distinguir una molécula de ácido nucleico de control epigenético de las otras moléculas de ácido nucleico de control epigenético. La región identificadora puede tener códigos de barras moleculares y/o códigos de barras de estado epigenético. La región identificadora puede estar presente en uno o ambos lados de la región de modificación epigenética. El código de barras molecular sirve como identificador de una molécula de ácido nucleico de control epigenético, mientras que el código de barras de estado epigenético sirve como identificador del estado epigenético de la molécula de ácido nucleico de control epigenético. La región identificadora puede tener una región adicional que facilita la unión de uno o más cebadores (sitios de unión de cebadores).

[0073] Recuento de alelos mutantes: como se utiliza en este documento, el término "recuento de alelos mutantes" se refiere a la cantidad de moléculas de ADN que albergan el alelo mutante en un locus genómico particular.

[0074] Fracción de alelos mutantes: tal como se utiliza en el presente documento, "fracción de alelos mutantes", "dosis de mutación" o "FMA" se refieren a la fracción de moléculas de ácido nucleico que albergan una alteración o mutación alélica en una posición o un locus genómico determinado en una muestra determinada. La FMA se expresa generalmente como una fracción o un porcentaje. Por ejemplo, una FMA de una variante somática puede ser inferior a 0,15.

[0075] Mutación: como se utiliza en el presente documento, "mutación" se refiere a una variación de una secuencia de referencia conocida e incluye mutaciones como, por ejemplo, variantes de un solo nucleótido (SNV) e inserciones o deleciones (indel). Una mutación puede ser una mutación de línea germinal o somática. En algunas formas de realización, una secuencia de referencia para fines de comparación es una secuencia genómica de tipo salvaje de la especie del sujeto que proporciona una muestra de prueba, típicamente el genoma humano.

[0076] Identificador de mutaciones: como se utiliza en este documento, "identificador de mutaciones" significa un algoritmo (normalmente, incorporado en software o implementado de otro modo por computadora) que se utiliza para identificar mutaciones en datos de muestras de prueba (por ejemplo, información de secuencia obtenida de un sujeto).

[0077] Neoplasia: Tal como se utiliza en el presente documento, los términos "neoplasia" y "tumor" se utilizan indistintamente. Hacen referencia al crecimiento anormal de células en un sujeto. Una neoplasia o tumor puede ser benigno, potencialmente maligno o maligno. Un tumor maligno se denomina cáncer o tumor canceroso.

[0078] Secuenciación de próxima generación: como se utiliza en el presente documento, "secuenciación de próxima generación" o "NGS" se refiere a tecnologías de secuenciación que tienen un mayor rendimiento en comparación con los enfoques tradicionales basados en electroforesis capilar y de Sanger, por ejemplo, con la capacidad de generar cientos de miles de lecturas de secuencias relativamente pequeñas a la vez. Algunos ejemplos de técnicas de secuenciación de próxima generación incluyen, entre otros, secuenciación por síntesis, secuenciación por ligación y secuenciación por hibridación. En algunas formas de realización, la secuenciación de próxima generación incluye el uso de instrumentos capaces de secuenciar moléculas individuales.

[0079] Etiqueta de ácido nucleico: como se utiliza en el presente documento, "etiqueta de ácido nucleico" se refiere a un ácido nucleico corto (por ejemplo, de menos de aproximadamente 500 nucleótidos, aproximadamente 100 nucleótidos, aproximadamente 50 nucleótidos o aproximadamente 10 nucleótidos de longitud), utilizado para distinguir ácidos nucleicos de diferentes muestras (por ejemplo, que representan un índice de muestra), o diferentes moléculas de ácido nucleico en la misma muestra (por ejemplo, que representan un código de barras molecular), de diferentes tipos, o que han sufrido un procesamiento diferente. La etiqueta de ácido nucleico comprende una secuencia de oligonucleótidos predeterminada, fija, no aleatoria, aleatoria o semialeatoria. Dichas etiquetas de ácido nucleico se pueden utilizar para etiquetar diferentes moléculas de ácido nucleico o diferentes muestras o submuestras de ácido nucleico. Las etiquetas de ácido nucleico pueden ser monocatenarias, bicatenarias o al menos parcialmente bicatenarias. Las etiquetas de ácido nucleico tienen opcionalmente la misma longitud o longitudes variadas. Las etiquetas de ácido nucleico también pueden incluir moléculas de doble cadena que tienen uno o más extremos romos, incluir regiones monocatenarias de 5' o 3' (por ejemplo, un saliente) y/o incluir una o más regiones monocatenarias en otras ubicaciones dentro de una molécula dada. Las etiquetas de ácido nucleico se pueden unir a un extremo o a ambos extremos de los otros ácidos nucleicos (por ejemplo, ácidos nucleicos de muestra que se amplificarán y/o secuenciarán). Las etiquetas de ácido nucleico se pueden decodificar para revelar información como la muestra de origen, la forma o el procesamiento de un ácido nucleico dado. Por ejemplo, las etiquetas de ácido nucleico también se pueden utilizar para permitir la agrupación y/o el procesamiento paralelo de múltiples muestras que comprenden ácidos nucleicos que tienen diferentes códigos de barras moleculares y/o índices de muestra en los que los ácidos nucleicos se deconvolucionan posteriormente detectando (por ejemplo, leyendo) las etiquetas de ácido nucleico. Las etiquetas de ácido nucleico también se pueden denominar identificadores (por ejemplo, identificador molecular, identificador de muestra). Adicionalmente, o alternativamente, las etiquetas de ácido nucleico pueden usarse como identificadores moleculares (por ejemplo, para distinguir entre diferentes moléculas o amplicones de diferentes moléculas parentales en la misma muestra o submuestra). Esto incluye, por ejemplo, etiquetar de manera única diferentes moléculas de ácido nucleico en una muestra dada, o etiquetar de manera no única dichas moléculas. En el caso de aplicaciones de etiquetado no único, puede usarse un número limitado de etiquetas (es decir, códigos de barras moleculares) para etiquetar cada molécula de ácido nucleico de manera que se puedan distinguir diferentes moléculas en función de su información de secuencia endógena (por ejemplo, posiciones de inicio y/o de fin donde se asignan a un genoma de referencia seleccionado, una subsecuencia de uno o ambos extremos de una secuencia y/o longitud de una secuencia) en combinación con al menos un código de barras molecular. Normalmente, se utiliza una cantidad suficiente de códigos de barras moleculares diferentes de modo que exista una probabilidad baja (por ejemplo, menos de aproximadamente un 10 %, menos de aproximadamente un 5 %, menos de aproximadamente un 1 % o menos de aproximadamente un 0,1 %) de que dos moléculas cualesquiera puedan tener la misma información de secuencia endógena (por ejemplo,posiciones de inicio y/o finalización, subsecuencias de uno o ambos extremos de una secuencia y/o longitudes) y también tienen el mismo código de barras molecular.

[0080] Partición: Tal como se utiliza en el presente documento, los términos "partición" y "partición epigenética" se utilizan indistintamente. Hace referencia a la separación o fraccionamiento de las moléculas de ácido nucleico en función de una característica (por ejemplo, el nivel/grado de modificación epigenética) de las moléculas de ácido nucleico. La partición puede ser una partición física de moléculas. La partición puede implicar la separación de las moléculas de ácido nucleico en grupos o conjuntos en función del nivel de modificación epigenética (es decir, el estado epigenético). Por ejemplo, las moléculas de ácido nucleico se pueden dividir en función del nivel de metilación de las moléculas de ácido nucleico. En algunas formas de realización, los métodos y sistemas utilizados para la partición se pueden encontrar en la solicitud de patente PCT n.° PCT/US2017/068329, que se incorpora como referencia en su totalidad.

[0081] Conjunto particionado: como se utiliza en el presente documento, "conjunto particionado" se refiere a un conjunto de moléculas de ácido nucleico particionadas en un conjunto/grupo en función de la afinidad de unión diferencial de las moléculas de ácido nucleico a un agente de unión. El agente de unión se une preferentemente a las moléculas de ácido nucleico que comprenden nucleótidos con modificación epigenética. Por ejemplo, si la modificación epigenética es la metilación, el agente de unión puede ser una proteína de dominio de unión a metilo (MBD). En algunas formas de realización, un conjunto particionado puede comprender moléculas de ácido nucleico que pertenecen a un nivel/grado particular de modificación epigenética (es decir, estado epigenético). Por ejemplo, las moléculas de ácido nucleico se pueden dividir en tres conjuntos: un conjunto para moléculas de ácido nucleico altamente metiladas (o moléculas de ácido nucleico hipermetiladas), que se puede denominar conjunto particionado hipermetilado o conjunto hiperparticionado, otro conjunto para moléculas de ácido nucleico poco metiladas (o moléculas de ácido nucleico hipometiladas), que se puede denominar conjunto particionado hipometilado o conjunto hipoparticionado y un tercer conjunto para moléculas de ácido nucleico intermediamente metiladas, que se puede denominar conjunto particionado intermediamente metilado o conjunto particionado intermedio. En otro ejemplo, las moléculas de ácido nucleico se pueden dividir en función del número de nucleótidos con modificación epigenética: un conjunto particionado puede tener moléculas de ácido nucleico con nueve nucleótidos metilados y otro conjunto particionado puede tener moléculas de ácido nucleico no metiladas (cero nucleótidos metilados).

[0082] Polinucleótido: Tal como se utiliza en el presente documento, "polinucleótido", "ácido nucleico", "molécula de ácido nucleico" u "oligonucleótido" se refiere a un polímero lineal de nucleósidos (incluidos desoxirribonucleósidos, ribonucleósidos o análogos de los mismos) unidos por enlaces internucleosídicos. Normalmente, un polinucleótido comprende al menos tres nucleósidos. Los oligonucleótidos suelen tener un tamaño que va desde unas pocas unidades monoméricas, por ejemplo, 3-4, hasta cientos de unidades monoméricas. Siempre que un polinucleótido esté representado por una secuencia de letras, como "ATGCCTG", se entenderá que los nucleótidos están en orden 5' ^ 3' de izquierda a derecha y que, en el caso del ADN, "A" denota desoxiadenosina, "C" denota desoxicitidina, "G" denota desoxiguanosina y "T" denota desoxitimidina, a menos que se indique lo contrario. Las letras A, C, G y T pueden usarse para referirse a las bases mismas, a los nucleósidos o a los nucleótidos que comprenden las bases, como es estándar en la técnica.

[0083] Secuencia de referencia: como se utiliza en el presente documento, "secuencia de referencia" se refiere a una secuencia conocida utilizada con fines de comparación con secuencias determinadas experimentalmente. Por ejemplo, una secuencia conocida puede ser un genoma completo, un cromosoma o cualquier segmento del mismo. Una referencia incluye típicamente al menos aproximadamente 20, al menos aproximadamente 50, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 250, al menos aproximadamente 300, al menos aproximadamente 350, al menos aproximadamente 400, al menos aproximadamente 450, al menos aproximadamente 500, al menos aproximadamente 1000 o más de 1000 nucleótidos. Una secuencia de referencia puede alinearse con una única secuencia contigua de un genoma o cromosoma o puede incluir segmentos no contiguos que se alinean con diferentes regiones de un genoma o cromosoma. Los ejemplos de secuencias de referencia incluyen, por ejemplo, genomas humanos, tales como hG19 y hG38.

[0084] Muestra: Tal como se utiliza en el presente documento, "muestra" significa cualquier cosa que pueda analizarse mediante los métodos y/o sistemas descritos en el presente documento.

[0085] Secuenciación: como se utiliza en este documento, "secuenciación" se refiere a cualquiera de una serie de tecnologías utilizadas para determinar la secuencia (por ejemplo, la identidad y el orden de las unidades monoméricas) de una biomolécula, por ejemplo, un ácido nucleico como ADN o ARN. Ejemplos de métodos de secuenciación incluyen, pero no se limitan a, secuenciación dirigida, secuenciación en tiempo real de una sola molécula, secuenciación de exones o exomas, secuenciación de intrones, secuenciación basada en microscopía electrónica, secuenciación en panel, secuenciación mediada por transistores, secuenciación directa, secuenciación aleatoria de escopeta, secuenciación de terminación didesoxi de Sanger, secuenciación de todo el genoma, secuenciación por hibridación, pirosecuenciación, electroforesis capilar, electroforesis en gel, secuenciación dúplex, secuenciación cíclica, secuenciación de extensión de una sola base, secuenciación en fase sólida, secuenciación de alto rendimiento, secuenciación de firma masiva en paralelo, PCR en emulsión, coamplificación a una temperatura de desnaturalización más baja-PCR (COLD-PCR), PCR multiplex, secuenciación por terminador de tinte reversible, secuenciación de extremos emparejados, secuenciación a corto plazo, secuenciación de exonucleasa, secuenciación por ligadura, secuenciación de lectura corta, secuenciación de una sola molécula secuenciación, secuenciación por síntesis, secuenciación en tiempo real, secuenciación con terminador inverso, secuenciación por nanoporos, secuenciación 454, secuenciación con Solexa Genome Analyzer, secuenciación SOLiD™, secuenciación MS-PET y una combinación de las mismas. En algunas formas de realización, la secuenciación se puede realizar mediante un analizador de genes como, por ejemplo, los analizadores de genes disponibles comercialmente de Illumina, Inc., Pacific Biosciences, Inc. o Applied Biosystems/Thermo Fisher Scientific, entre muchos otros.

[0086] Información de secuencia: como se utiliza en este documento, "información de secuencia" en el contexto de un polímero de ácido nucleico significa el orden y la identidad de las unidades monoméricas (por ejemplo, nucleótidos, etc.) en ese polímero.

[0087] Mutación somática: En el presente documento, los términos "mutación somática" o "variación somática" se utilizan indistintamente. Hacen referencia a una mutación en el genoma que se produce después de la concepción. Las mutaciones somáticas pueden producirse en cualquier célula del cuerpo, excepto en las células germinales, y, por lo tanto, no se transmiten a la progenie.

[0088] Muestra enriquecida: como se utiliza en este documento, "muestra enriquecida" es una muestra en la que se añaden moléculas de ácido nucleico de control epigenético a la muestra de polinucleótidos de un sujeto.

[0089] Sujeto: Tal como se utiliza en el presente documento, "sujeto" se refiere a un animal, como una especie de mamífero (por ejemplo, un ser humano) o una especie de ave (por ejemplo, un pájaro), u otro organismo, como una planta. Más específicamente, un sujeto puede ser un vertebrado, por ejemplo, un mamífero como un ratón, un primate, un simio o un ser humano. Los animales incluyen animales de granja (por ejemplo, ganado de producción, ganado lechero, aves de corral, caballos, cerdos y similares), animales de deporte y animales de compañía (por ejemplo, mascotas o animales de apoyo). Un sujeto puede ser un individuo sano, un individuo que tiene o se sospecha que tiene una enfermedad o una predisposición a la enfermedad, o un individuo que necesita terapia o se sospecha que necesita terapia. Los términos "individuo" o "paciente" pretenden ser intercambiables con "sujeto".

[0090] Por ejemplo, un sujeto puede ser un individuo al que se le ha diagnosticado un cáncer, va a recibir una terapia contra el cáncer y/o ha recibido al menos una terapia contra el cáncer. El sujeto puede estar en remisión de un cáncer. Como otro ejemplo, el sujeto puede ser un individuo al que se le ha diagnosticado una enfermedad autoinmune. Como otro ejemplo, el sujeto puede ser una mujer que está embarazada o que está planeando quedarse embarazada, a la que se le puede haber diagnosticado o se puede sospechar que tiene una enfermedad, por ejemplo, un cáncer, una enfermedad autoinmune.

DESCRIPCIÓN DETALLADA

I. Descripción general

[0091] Los métodos basados en la partición genómica/epigenética pueden permitir la detección simultánea de señales de múltiples analitos en un ensayo. Sin embargo, las señales detectadas del analito basado en la partición pueden tener una resolución deficiente y estar sujetas a condiciones de ensayo variables que alteran la sensibilidad y especificidad de la señal. Es deseable aumentar la sensibilidad de los ensayos de biopsia líquida al tiempo que se reduce la pérdida de ácido nucleico circulante (material original) o datos en el proceso. También es deseable proporcionar la capacidad de comparar resultados en diferentes experimentos controlando la variabilidad del ensayo mediante el uso de uno o más controles como se describe en este documento. El documento WO2008009365 describe un método que determina la tasa de metilación de un ácido nucleico mediante el uso de una referencia. El documento WO2005040399 describe un método para cuantificar la presencia de ácidos nucleicos metilados en una muestra mediante el uso de un control.

[0092] La presente divulgación proporciona métodos y composiciones para calibrar ensayos de partición epigenética. La invención comprende el uso de un conjunto de moléculas de ácido nucleico de control epigenético con características genómicas/epigenéticas completamente resueltas (por ejemplo, un número discreto de citosinas metiladas en un dúplex de oligonucleótidos sintéticos) como control o referencia para aumentar la sensibilidad y especificidad de la señal de la muestra que se analiza. Estas moléculas se pueden utilizar para evaluar la partición de las moléculas de ácido nucleico en la muestra en función de una modificación epigenética y también para determinar el estado epigenético de la(s) molécula(s) de ácido nucleico en la muestra.

[0093] Las moléculas de ácidos nucleicos, como los polinucleótidos libres de células, pueden diferir en función de características epigenéticas como la metilación. Los ácidos nucleicos pueden poseer diferentes secuencias de nucleótidos, por ejemplo, genes específicos o loci genéticos. Las características pueden diferir en términos de grado. Por ejemplo, las moléculas de ADN pueden diferir en su grado de modificación epigenética. El grado de modificación puede referirse a una serie de eventos de modificación a los que se ha sometido una molécula, como la cantidad de grupos de metilación (grado de metilación) u otros cambios epigenéticos. Por ejemplo, el ADN metilado puede estar hipometilado o hipermetilado. Las formas se pueden caracterizar por combinaciones de características, por ejemplo, monocatenario-no metilado o bicatenario-metilado. El fraccionamiento de moléculas en función de una o una combinación de características puede ser útil para el análisis multidimensional de moléculas individuales. Estos métodos se adaptan a múltiples formas y/o modificaciones de ácido nucleico en una muestra, de modo que se puede obtener información de secuencia para múltiples formas. Los métodos también preservan la identidad de las formas múltiples iniciales o estados modificados a través del procesamiento y análisis, de modo que el análisis de secuencias de bases nucleicas se puede combinar con el análisis epigenético. Algunos métodos implican la separación, el etiquetado y la posterior agrupación de diferentes formas o estados de modificación, lo que reduce la cantidad de pasos de procesamiento necesarios para analizar las formas múltiples presentes en una muestra. El análisis de múltiples formas de ácido nucleico en muestras proporciona mayor información en parte porque hay más moléculas para analizar (lo que puede ser significativo cuando hay cantidades totales muy bajas de ácido nucleico disponibles), pero también porque las diferentes formas o estados de modificación pueden proporcionar información diferente (por ejemplo, una mutación puede estar presente solo en el ARN) y porque diferentes tipos de información (por ejemplo, genética y epigenética) se pueden correlacionar entre sí, produciendo así una mayor precisión, certeza o dando como resultado el descubrimiento de nuevas correlaciones con una condición médica.

[0094] Una característica de las moléculas de ácido nucleico puede ser una modificación, que puede incluir varias modificaciones químicas (es decir, modificaciones epigenéticas). Los ejemplos no limitantes de modificación química pueden incluir, pero no se limitan a, modificaciones covalentes del ADN, incluida la metilación del ADN. En algunas formas de realización, la metilación del ADN comprende la adición de un grupo metilo a una citosina en un sitio CpG (sitio citosinafosfato-guanina (es decir, una citosina seguida de una guanina en una dirección 5' 3' de la secuencia de ácido nucleico)). En algunas formas de realización, la metilación del ADN comprende la adición de un grupo metilo a la adenina, como en N6-metiladenina. En algunas formas de realización, la metilación del ADN es 5-metilación (modificación del 5.° carbono del anillo de 6 carbonos de la citosina). En algunas formas de realización, la 5-metilación comprende la adición de un grupo metilo a la posición 5C de la citosina para crear 5-metilcitosina (m5c). En algunas formas de realización, la metilación comprende un derivado de m5c. Los derivados de m5c incluyen, entre otros, 5-hidroximetilcitosina (5-hmC), 5formilcitosina (5-fC) y 5-carioboxilcitosina (5-caC). En algunas formas de realización, la mutilación del ADN es la mutilación de 3C (modificación del tercer carbono del anillo de 6 carbonos de la citosina). En algunas formas de realización, la metilación de 3C comprende la adición de un grupo metilo a la posición 3C de la citosina para generar 3-metilcitosina (3mC). La metilación también puede ocurrir en sitios que no sean CpG, por ejemplo, la metilación puede ocurrir en un sitio CpA, CpT o CpC. La metilación del ADN puede cambiar la actividad de la región de ADN metilada. Por ejemplo, cuando el ADN en una región promotora está metilado, la transcripción del gen puede reprimirse. La metilación del ADN es fundamental para el desarrollo normal y una anomalía en la metilación puede alterar la regulación epigenética. La alteración (por ejemplo, la represión) de la regulación epigenética puede causar enfermedades, como el cáncer. La metilación del promotor en el ADN puede ser indicativa de cáncer.

[0095] Una díada CpG es el dinucleótido CpG (citosina-fosfato-guanina, es decir, una citosina seguida de una guanina en una dirección 5' 3' de la secuencia de ácido nucleico) en la cadena sentido y su CpG complementario en la cadena antisentido de una molécula de ADN bicatenario. Las díadas CpG pueden estar completamente metiladas o hemimetiladas. La FIG. 1 es un diagrama esquemático de una díada CpG completamente metilada y hemi-metilada en un ADN bicatenario. La FIG. 1A muestra una díada CpG completamente metilada 103, donde el nucleótido citosina de la díada CpG en ambas cadenas 101 y 102 está metilado (M - metilcitosina; G- guanina). FIG. 1B muestra una díada CpG hemimetilada 104, donde el nucleótido de citosina de la díada CpG en una cadena 101 está metilado mientras que el nucleótido de citosina de la díada CpG en la cadena complementaria 102 no está metilado (C - citosina no metilada; G -guanina).

[0096] El dinucleótido CpG está subrepresentado en el genoma humano normal, y la mayoría de las secuencias de dinucleótidos CpG son transcripcionalmente inertes (por ejemplo, las regiones heterocromáticas del ADN en las partes pericentroméricas del cromosoma y en los elementos repetidos) y metiladas. Sin embargo, muchas islas CpG están protegidas de dicha metilación, especialmente alrededor de los sitios de inicio de la transcripción (TSS).

[0097] El cáncer puede ser indicado por variaciones epigenéticas, como la metilación. Ejemplos de cambios de metilación en el cáncer incluyen ganancias locales de metilación del ADN en las islas CpG en el TSS de genes involucrados en el control del crecimiento normal, la reparación del ADN, la regulación del ciclo celular y/o la diferenciación celular. Esta hipermetilación puede estar asociada con una pérdida aberrante de la capacidad transcripcional de los genes involucrados y ocurre al menos con la misma frecuencia que las mutaciones puntuales y las deleciones como causa de la expresión génica alterada. El perfil de metilación del ADN se puede utilizar para detectar regiones con diferentes grados de metilación ("regiones metiladas diferencialmente" o "DMR") del genoma que se alteran durante el desarrollo o que se ven perturbadas por una enfermedad, por ejemplo, cáncer o cualquier enfermedad asociada al cáncer.

[0098] El perfil de metilación puede implicar la determinación de patrones de metilación en diferentes regiones del genoma. Por ejemplo, después de dividir las moléculas en función del grado de metilación (p. ej., número relativo de nucleótidos metilados por molécula) y de secuenciarlas, las secuencias de moléculas en las diferentes particiones se pueden mapear a un genoma de referencia. Esto puede mostrar regiones del genoma que, en comparación con otras regiones, están más o menos metiladas. De esta manera, las regiones genómicas, a diferencia de las moléculas individuales, pueden diferir en su grado de metilación. Además de la metilación, se pueden perfilar de manera similar otras modificaciones epigenéticas.

[0099] Las moléculas de ácido nucleico en una muestra pueden fraccionarse o dividirse en función de una o más características. Dividir las moléculas de ácido nucleico en una muestra puede aumentar una señal poco común. Por ejemplo, una variación genética presente en ADN hipermetilado, pero menos (o no) presente en ADN hipometilado puede detectarse más fácilmente dividiendo una muestra en moléculas de ácido nucleico hipermetiladas e hipometiladas. Al analizar múltiples fracciones de una muestra, se puede realizar un análisis multidimensional de una sola molécula y, por lo tanto, se puede lograr una mayor sensibilidad. La partición puede incluir la partición física de moléculas de ácido nucleico en subconjuntos o grupos en función de la presencia o ausencia de una característica genómica. El fraccionamiento puede incluir la partición física de moléculas de ácido nucleico en grupos de partición en función del grado en que esté presente una característica genómica, como una modificación epigenética. Una muestra puede fraccionarse o dividirse en uno o más grupos de particiones en función de una característica que sea indicativa de una expresión genética diferencial o de un estado patológico. Una muestra puede fraccionarse en función de una característica, o una combinación de las mismas, que proporcione una diferencia en la señal entre un estado normal y patológico durante el análisis de ácidos nucleicos, por ejemplo, ADN libre de células ("ADNlc"), ADN no ADNlc, ADN tumoral, ADN tumoral circulante ("ADNtc") y ácidos nucleicos libres de células ("ANlc").

[0100] La presente divulgación proporciona métodos, composiciones y sistemas para evaluar la partición de moléculas de ácido nucleico y determinar el estado epigenético (por ejemplo, el estado de metilación) y el número de nucleótidos modificados epigenéticamente (por ejemplo, el número de nucleótidos metilados) en las moléculas de ácido nucleico. Los métodos pueden incluir la partición de las moléculas de ácido nucleico en diferentes conjuntos particionados en función de una o una pluralidad de modificaciones epigenéticas, seguido de la secuenciación (sola o en conjunto) y el análisis de las moléculas de ácido nucleico en cada partición. En algunas formas de realización, las particiones de ácidos nucleicos se enriquecen para regiones genómicas diana específicas. En algunas formas de realización, las particiones de moléculas de ácido nucleico se amplifican antes y/o después del enriquecimiento. En algunas formas de realización, el enriquecimiento se puede realizar después de que los conjuntos particionados se hayan etiquetado de forma diferencial con códigos de barras moleculares y se hayan recombinado en una mezcla de los conjuntos particionados etiquetados de forma diferencial. Los métodos se pueden utilizar en diversas aplicaciones, como el pronóstico, el diagnóstico y/o el seguimiento de una enfermedad. En algunas formas de realización, la enfermedad es cáncer.

[0101] El método de partición de las moléculas de ácido nucleico se puede evaluar mediante el uso de moléculas de ácido nucleico de control epigenético. Las moléculas de ácido nucleico de control epigenético son moléculas de ácido nucleico sintéticas que pueden tener nucleótidos modificados epigenéticamente. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden comprender moléculas de ácido nucleico con diferentes estados epigenéticos. El estado epigenético puede referirse al nivel/grado de modificación epigenética de las moléculas de ácido nucleico. Por ejemplo, si la modificación epigenética es la metilación del ADN, entonces el estado epigenético puede referirse a moléculas de ácido nucleico altamente metiladas, poco metiladas o intermediamente metiladas. El estado epigenético también puede referirse al número de nucleótidos con modificación epigenética. Por ejemplo, si la modificación epigenética es la metilación del ADN, entonces un estado epigenético puede referirse al número de nucleótidos metilados de las moléculas de ácido nucleico. La modificación epigenética puede ser cualquier modificación de la base del nucleótido o nucleótidos sin cambiar la secuencia y/o la especificidad de emparejamiento de bases de la molécula de ácido nucleico. La modificación puede ser una modificación química de la base de los nucleótidos. En algunos casos, la modificación puede ser la metilación de la base de los nucleótidos. Por ejemplo, la modificación puede ser la metilación de la citosina, lo que da como resultado la 5-metilcitosina.

[0102] En algunas formas de realización, las moléculas de ácido nucleico de control epigenético son moléculas sintéticas, la secuencia de las moléculas de ácido nucleico de control epigenético y la posición y el número de nucleótidos modificados epigenéticamente en las moléculas de ácido nucleico de control epigenético ya se conocen antes del análisis. Por lo tanto, al agregar las moléculas de ácido nucleico de control epigenético a la muestra de polinucleótidos y al rastrear las moléculas de ácido nucleico de control epigenético en los conjuntos particionados, se puede analizar la efectividad de la partición de las moléculas de ácido nucleico de control epigenético.

[0103] En consecuencia, en un aspecto, la presente divulgación proporciona un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: (a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; (b) particionar moléculas de ácido nucleico al menos un subconjunto de la muestra enriquecida en una pluralidad de conjuntos particionados; (c) enriquecer un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos; (d) secuenciar el conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación; (e) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético; y (f) comparar una o más puntuaciones de partición epigenética con uno o más de los puntos de corte de partición epigenética. En estas formas de realización, la partición de las moléculas de ácido nucleico de la muestra y las moléculas de ácido nucleico de control epigenético necesariamente se llevan a cabo simultáneamente. En algunas formas de realización, la etapa de análisis comprende estimar el número/fracción de las moléculas de ácido nucleico de control epigenético en un estado epigenético dado en al menos uno de los conjuntos particionados.

[0104] La FIG. 2 ilustra una forma de realización de ejemplo de un método 200 para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético. En 201, las moléculas de ácido nucleico de control epigenético se añaden a la muestra, cuya partición se va a evaluar, para generar una muestra enriquecida.

[0105] En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden comprender uno o más subconjuntos de moléculas de ácido nucleico con diferentes niveles de estado epigenético (es decir, diferente número de nucleótidos modificados epigenéticamente). En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden comprender moléculas de ácido nucleico con diferentes secuencias y/o diferentes longitudes. En otras formas de realización, las moléculas de ácido nucleico de control epigenético pueden comprender moléculas de ácido nucleico con secuencias idénticas o de longitud idéntica.

[0106] En 202, las moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida, que comprende tanto moléculas de ácido nucleico de control epigenético como moléculas de ácido nucleico de la muestra de polinucleótidos, se dividen o fraccionan en una pluralidad de conjuntos divididos en función del estado epigenético de las moléculas. La división puede basarse en la presencia o ausencia de una modificación epigenética y/o puede basarse en el grado de modificación epigenética. Los ejemplos de modificación epigenética incluyen, entre otros, la presencia o ausencia de metilación, el nivel de metilación y el tipo de metilación (citosina 5'). En algunas formas de realización, la modificación epigenética puede ser la metilación del ADN. En esas formas de realización, las moléculas de la muestra enriquecida se dividen en función de los diferentes niveles de metilación (diferente número de nucleótidos metilados). En algunas formas de realización, la muestra enriquecida se puede dividir en dos o más conjuntos particionados (por ejemplo, al menos 3, 4, 5, 6 o 7 conjuntos particionados). En algunas formas de realización, la partición se basa en la afinidad de unión diferencial de las moléculas de ácido nucleico a un agente de unión. Los ejemplos de agentes de unión incluyen, entre otros, dominios de unión a metilo (MBD) y proteínas de unión a metilo (MBP). Los ejemplos de MBP contemplados en el presente documento incluyen, entre otros:

(a) MeCP2 es una proteína que se une preferentemente a la 5-metil-citosina sobre la citosina no modificada;

(b) RPL26, PRP8 y la proteína de reparación de desajustes de ADN MHS6 se unen preferentemente a la 5-hidroximetil-citosina sobre la citosina no modificada;

(c) FOXKl, FOXK2, FOXPl, FOXP4 y FOXI3 se unen preferiblemente a la 5-formil-citosina en lugar de a la citosina no modificada (lurlaro et al., Genome Biol. 14, R119 (2013)); y

(d) Anticuerpos específicos para una o más bases de nucleótidos metilados.

[0107] Aunque para algunos agentes de afinidad y modificaciones, la unión al agente puede ocurrir de una manera esencialmente total o nula dependiendo de si un ácido nucleico tiene una modificación, la separación puede ser de grado. En tales formas de realización, los ácidos nucleicos sobrerrepresentados en una modificación se unen al agente en mayor medida que los ácidos nucleicos subrepresentados en la modificación. Alternativamente, los ácidos nucleicos que tienen modificaciones pueden unirse de una manera total o nula. Pero entonces, varios niveles de modificaciones pueden eluirse secuencialmente del agente de unión.

[0108] Por ejemplo, en algunas formas de realización, la partición puede ser binaria o basarse en el grado/nivel de modificaciones. Por ejemplo, todos los fragmentos metilados pueden dividirse a partir de fragmentos no metilados utilizando proteínas con dominio de unión a metilo (por ejemplo, el kit de enriquecimiento de ADN metilado MethylMiner (ThermoFisher Scientific)). Posteriormente, la partición adicional puede implicar la elución de fragmentos que tienen diferentes niveles de metilación ajustando la concentración de sal en una solución con el dominio de unión a metilo y los fragmentos unidos. A medida que aumenta la concentración de sal, se eluyen los fragmentos que tienen mayores niveles de metilación.

[0109] En algunas formas de realización, la partición comprende la partición de las moléculas de ácido nucleico en función de una afinidad de unión diferencial de las moléculas de ácido nucleico a un agente de unión que se une preferentemente a moléculas de ácido nucleico que comprenden nucleótidos con modificación epigenética.

[0110] En algunas formas de realización, los conjuntos particionados son representantes de ácidos nucleicos que tienen diferentes grados de modificaciones (sobrerrepresentación o subrepresentación de modificaciones). La sobrerrepresentación y la subrepresentación se pueden definir por el número de modificaciones que tiene un ácido nucleico en relación con el número medio de modificaciones por hebra en una población. Por ejemplo, si el número medio de nucleótidos de 5-metilcitosina en moléculas de ácido nucleico en una muestra es 2, una molécula de ácido nucleico que incluye más de dos residuos de 5-metilcitosina está sobrerrepresentada en esta modificación y un ácido nucleico con 1 o cero residuos de 5-metilcitosina está subrepresentado. El efecto de la separación por afinidad es realizar la partición de los ácidos nucleicos sobrerrepresentados en una modificación en una fase unida y de los ácidos nucleicos subrepresentados en una modificación en una fase no unida (es decir, en solución). Los ácidos nucleicos en la fase unida se pueden eluir antes del procesamiento posterior.

[0111] Cuando se utiliza el kit de enriquecimiento de ADN metilado MethylMiner (ThermoFisher Scientific), se pueden dividir distintos niveles de metilación mediante eluciones secuenciales. Por ejemplo, una partición hipometilada (sin metilación) se puede separar de una partición metilada poniendo en contacto la población de ácidos nucleicos con el MBD del kit, que está adherido a perlas magnéticas. Las perlas se utilizan para separar los ácidos nucleicos metilados de los ácidos nucleicos no metilados. Posteriormente, se realizan uno o más pasos de elución de forma secuencial para eluir los ácidos nucleicos que tienen distintos niveles de metilación. Por ejemplo, un primer conjunto de ácidos nucleicos metilados se puede eluir a una concentración de sal de aproximadamente 150 mM o aproximadamente 160 mM o superior, por ejemplo, al menos 150 mM, 200 mM, 300 mM, 400 mM, 500 mM, 600 mM, 700 mM, 800 mM, 900 mM, 1000 mM o 2000 mM. Después de que se eluyen dichos ácidos nucleicos metilados, se utiliza nuevamente la separación magnética para separar un nivel más alto de ácidos nucleicos metilados de aquellos con un nivel más bajo de metilación. Los pasos de elución y separación magnética se pueden repetir para crear varias particiones, como una partición hipometilada (representativa de la ausencia de metilación), una partición metilada (representativa de un nivel bajo de metilación) y una partición hipermetilada (representativa de un nivel alto de metilación).

[0112] En algunos métodos, los ácidos nucleicos unidos a un agente utilizado para la separación por afinidad se someten a una etapa de lavado. La etapa de lavado elimina los ácidos nucleicos débilmente unidos al agente de afinidad. Dichos ácidos nucleicos pueden enriquecerse con ácidos nucleicos que tienen la modificación en una medida cercana a la media o mediana (es decir, intermedia entre los ácidos nucleicos que permanecen unidos a la fase sólida y los ácidos nucleicos que no se unen a la fase sólida en el contacto inicial de la muestra con el agente). La separación por afinidad da como resultado al menos dos, y a veces tres o más particiones de ácidos nucleicos con diferentes grados de una modificación.

[0113] La partición de las moléculas de ácido nucleico se puede analizar mediante la secuenciación de las moléculas de ácido nucleico particionadas o mediante PCR de gotitas digitales (ddPCR) o mediante PCR cuantitativa (qPCR). Antes de analizar la partición, las moléculas de ácido nucleico en los conjuntos particionados se pueden enriquecer de modo que se pueda aumentar la señal de las moléculas de ácido nucleico de interés y, por lo tanto, mejorar la sensibilidad. En 203, al menos un subconjunto de las moléculas de ácido nucleico en la pluralidad de conjuntos particionados se enriquece de modo que se enriquecen las moléculas de ácido nucleico de control epigenético y las moléculas de ácido nucleico de la muestra de polinucleótidos que pertenecen a las regiones de interés.

[0114] En algunas formas de realización, antes del enriquecimiento, cada uno de la pluralidad de conjuntos particionados se etiqueta de forma diferencial. A continuación, los conjuntos particionados etiquetados se agrupan para la preparación y/o secuenciación colectiva de la muestra. El etiquetado diferencial de los conjuntos particionados ayuda a realizar un seguimiento de las moléculas de ácido nucleico que pertenecen a un conjunto particionado en particular. Las etiquetas se proporcionan habitualmente como componentes de adaptadores. Las moléculas de ácido nucleico en diferentes conjuntos particionados reciben diferentes etiquetas que pueden distinguir a los miembros de un conjunto particionado de otro. Las etiquetas vinculadas a las moléculas de ácido nucleico del mismo conjunto particionado pueden ser iguales o diferentes entre sí. Pero si son diferentes entre sí, las etiquetas pueden tener parte de su secuencia en común para identificar las moléculas a las que están unidas como pertenecientes a un conjunto particionado en particular. Por ejemplo, si las moléculas de la muestra enriquecida se dividen en dos conjuntos particionados (P1 y P2), entonces las moléculas de P1 se pueden marcar con Al, A2, A3, etc., y las moléculas de P2 se pueden marcar con B1, B2, B3, etc. Este sistema de etiquetado permite distinguir los conjuntos particionados y entre las moléculas dentro de un conjunto particionado.

[0115] En 204, se secuencia al menos un subconjunto de las moléculas enriquecidas. La información de secuencia obtenida comprende la secuencia de las moléculas de ácido nucleico y las etiquetas unidas a las moléculas de ácido nucleico. A partir de la secuencia de las etiquetas unidas a las moléculas de ácido nucleico, se puede correlacionar la etiqueta con el conjunto particionado de la molécula de ácido nucleico. La información de secuencia se utiliza para identificar las moléculas de ácido nucleico de control epigenético y sus conjuntos particionados correspondientes. Esta información se utiliza para analizar la partición de las moléculas de ácido nucleico de control epigenético. En 205, se determina una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a uno o más estados epigenéticos en uno o más conjuntos particionados. En algunas formas de realización, la sensibilidad y/o especificidad del método de partición se puede evaluar mediante las puntuaciones de partición epigenética. La puntuación de partición epigenética es una puntuación que representa la partición de las moléculas de ácido nucleico que pertenecen a un estado epigenético particular. La puntuación de partición epigenética de las moléculas de ácido nucleico que pertenecen a un estado epigenético se determina para cada conjunto particionado. Por ejemplo, se puede determinar la puntuación de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a un estado epigenético particular. La puntuación de partición epigenética puede ser una medida del número (o número estimado estadísticamente) de moléculas de ácido nucleico que pertenecen a un estado epigenético particular. La puntuación de partición epigenética puede expresarse en términos de fracción o porcentaje. La puntuación de partición epigenética puede ser una medida de la relación entre el número de moléculas de ácido nucleico de control epigenético que pertenecen a un estado epigenético particular que está dividido en al menos un conjunto dividido y el número de moléculas de ácido nucleico de control epigenético que pertenecen a ese estado epigenético presente en el (los) otro(s) conjunto(s) dividido(s) restante(s). En algunas formas de realización, la puntuación de partición epigenética puede ser una fracción o porcentaje del número de moléculas de ácido nucleico de control epigenético que pertenecen a un estado epigenético particular dividido en al menos un conjunto dividido y el número total de moléculas de ácido nucleico de control epigenético que pertenecen a ese estado epigenético en todos los conjuntos divididos. En algunas formas de realización, la puntuación de partición epigenética se determina para cada estado epigenético de las moléculas de ácido nucleico de control epigenético en cada uno de los conjuntos particionados. En algunas formas de realización, la puntuación de partición epigenética se determina para las moléculas de ácido nucleico de control epigenético con uno o más estados epigenéticos particulares en uno o más conjuntos particionados. En algunas formas de realización, la puntuación de partición epigenética se determina para las moléculas de ácido nucleico de control epigenético con un estado epigenético particular en un conjunto particionado particular.

[0116] En algunas formas de realización, la puntuación de partición epigenética puede estar dirigida a la eficiencia con la que las moléculas sin CG (CG "cero") se dividieron en un conjunto hiperparticionado. Esta puntuación puede denominarsepuntuación 0 CG.En algunas formas de realización, lapuntuación 0 CGpuede expresarse en términos de fracción o porcentaje de moléculas sin CG en el conjunto hiperparticionado. En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la fracción de moléculas de ácido nucleico de control epigenético y/o fracción de moléculas de control hipermetiladas con al menos uno de los siguientes:

(v) 5 metil CG (la puntuación de partición epigenética puede denominarse puntuación 5 CG) en el conjunto particionado hipermetilado (es decir, conjunto particionado altamente metilado).

[0117] En algunas formas de realización, la puntuación de partición epigenética puede estar dirigida a la eficiencia de las moléculas de ácido nucleico de control epigenético hipometiladas (es decir, poco metiladas) particionadas en un conjunto particionado hipermetilado. Esta puntuación puede denominarse puntuación hipo. En algunas formas de realización, la puntuación hipo puede expresarse en términos de fracción o porcentaje de las moléculas de ácido nucleico de control epigenético hipometiladas en el conjunto particionado hipermetilado. En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la cantidad de CG metilados necesarios para menos del 5 % de las moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipometilado. Esta puntuación puede denominarsemetil-5.En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la cantidad de CG metilados necesarios para al menos el 50 % de las moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipermetilado. Esta puntuación puede denominarsemetil-mitad.

[0118] Por ejemplo, se utilizan tres subconjuntos (subconjuntos A, B y C) de moléculas de ácido nucleico de control epigenético y cada subconjunto difiere en el número de nucleótidos metilados. Las moléculas de ácido nucleico de control epigenético en estos tres subconjuntos se pueden dividir en tres conjuntos particionados: P1, P2 y P3, en función de su afinidad de unión a la proteína de unión a metilo. Para cada subconjunto, la puntuación de partición epigenética se determina para cada uno de los conjuntos particionados (P1, P2 y P3), es decir, las moléculas de ácido nucleico de control epigenético que pertenecen al subconjunto A tendrán tres puntuaciones de partición epigenética: una para cada uno de los tres conjuntos particionados, P1, P2 y P3. Del mismo modo, cada uno de los subconjuntos B y C tendrá tres puntuaciones de partición epigenética: una para cada uno de los tres conjuntos particionados P1, P2 y p 3. La puntuación de partición epigenética también se puede determinar para las moléculas de control endógenas.

[0119] En otra forma de realización, se utilizan tres subconjuntos (subconjuntos A, B y C) de moléculas de ácido nucleico de control epigenético y cada subconjunto difiere en el número de nucleótidos metilados (es decir, cada subconjunto tiene un estado epigenético diferente). Las moléculas de ácido nucleico de control epigenético en estos tres subconjuntos se pueden dividir en tres conjuntos particionados: P1, P2 y P3, en función de su afinidad de unión a la proteína de unión a metilo. En esta forma de realización, la puntuación epigenética se determina solo para las moléculas del subconjunto A en el conjunto particionado P1. Esta puntuación epigenética puede ser una medida de la fracción o porcentaje de moléculas del subconjunto A en el conjunto particionado P1 con respecto al número total de moléculas del subconjunto A (en los conjuntos particionados P1, P2 y P3).

[0120] La puntuación de partición epigenética puede ser cualquier valor o rango entre 0 y 1 (en términos de fracción) o entre 0 y 100 % (en términos de porcentaje). En algunas formas de realización, la puntuación de partición epigenética puede expresarse en términos de la cantidad de CG metilados (por ejemplo,metil-mitadymetil-5).

[0121] En 206, las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético se comparan con los puntos de corte de partición epigenética (puntos de corte predeterminados) para evaluar el método de partición. El punto de corte de partición epigenética es un valor de corte predeterminado o un rango de puntos de corte que se utiliza para evaluar la partición de las moléculas de ácido nucleico que pertenecen a un estado epigenético particular y cada conjunto particionado tiene un punto de corte de partición epigenética para las moléculas de ácido nucleico que pertenecen a un estado epigenético. Los puntos de corte de partición epigenética difieren con el estado epigenético de las moléculas de ácido nucleico y el conjunto particionado, es decir, cada estado epigenético tendrá su propio punto de corte de partición epigenética y cada conjunto particionado tiene un punto de corte de partición epigenética independiente para ese estado epigenético. El punto de corte puede expresarse en términos de porcentaje o fracción y el punto de corte puede ser un rango de puntos de corte en lugar de un valor de corte particular. Por ejemplo, los puntos de corte de partición epigenética para las moléculas de ácido nucleico de control epigenético que pertenecen a un estado epigenético particular pueden estar entre el 70 % y el 79 %, entre el 10 % y el 15 % y menos del 5 % para los conjuntos particionados P1, P2 y P3 respectivamente. Si las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a ese estado epigenético están dentro de los puntos de corte de partición epigenética correspondientes, entonces el método de partición es un éxito. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación CG 0 puede ser del 0,01 %, 0,02%, 0,05%, 0,1 %, 0,2%, 0,3%, 0,4 %, 0,5 %, 0,6 %, 0,7 %, 0,8 %, 0,9 %, 1 %, 2 %, 5 %, al menos el 5 % o al menos el 10 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,01 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,02 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,03. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,04 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,05 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,1 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,2 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,3 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,4 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,5 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,6 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,7 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,8 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,9%. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 1 %.

[0122] En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 0,1 %, 0,5 %, 1 %, 2 %, 3 %, 4 %, 5 %, 7 % o al menos del 10 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 0,1 %. En algunas formas de realización, el punto de de partición epigenética para la puntuación hipo puede ser del 0,5 %. En algunas formas de realización, el punto de de partición epigenética para la puntuación hipo puede ser del 1 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 2 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 3 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 4 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 5 %.

[0123] En algunas formas de realización, el valor de corte puede ser en términos de la cantidad de CG metilados (por ejemplo, enmetil-5ymetil-mitad).En algunas formas de realización, el valor de corte de partición epigenética para elmetil-5puede ser de 5, 10, 20, 30, 40 o 50 mCG. En algunas formas de realización, el valor de corte de partición epigenética para elmetil-5puede ser de 5 mCG. En algunas formas de realización, el valor de corte de partición epigenética para elmetil-5puede ser de 10 mCG. En algunas formas de realización, el valor de corte de partición epigenética para elmetil-5puede ser de 20 mCG. En algunas formas de realización, el valor de corte de partición epigenética para elmetil-5puede ser de 30 mCG. En algunas formas de realización, el valor de corte de partición epigenética para elmetil-5puede ser de 40 mCG. En algunas formas de realización, el punto de corte de partición epigenética para elmetil-5puede ser de 50 mCG.

[0124] En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 5, 10, 15, 20, 25, 30, 35 o 40 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 5 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 10 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 15 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 20 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 25 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 30 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad de metilo puede ser de 35 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad de metilo puede ser de 40 mCG.

[0125] En algunas formas de realización, si una o más puntuaciones de partición epigenética de moléculas de ácido nucleico de control epigenético que pertenecen a uno o más estados epigenéticos en uno o más conjuntos particionados se encuentran dentro de los puntos de corte de partición epigenética correspondientes, entonces el método de partición puede clasificarse como exitoso. De lo contrario, el método de partición puede clasificarse como no exitoso si las puntuaciones de partición epigenética están fuera de los puntos de corte para todos los conjuntos particionados. Por ejemplo, hay dos subconjuntos de moléculas de ácido nucleico de control epigenético - subconjunto A y B, y cada subconjunto difiere en el grado de modificación epigenética (es decir, cada subconjunto difiere en el estado epigenético).

Estas moléculas de ácido nucleico de control epigenético pueden dividirse en dos conjuntos particionados - P1 y P2. Para las moléculas que pertenecen al subconjunto A, se determinarán dos puntuaciones de partición epigenética (por ejemplo,

S1 y S2), una para cada conjunto particionado P1 y P2, en función de su partición. De la misma manera, para las moléculas que pertenecen al subconjunto B se determinarán dos puntuaciones de partición epigenética (por ejemplo, S3 y S4), una para P1 y otra para P2. Cada subconjunto de moléculas con un estado epigenético particular tendrá un punto de corte de partición epigenética predeterminado para cada uno de los conjuntos particionados. En este ejemplo, las moléculas de ácido nucleico de control epigenético del subconjunto A tendrán dos puntos de corte de partición epigenética, Cl y C2

(para dos conjuntos particionados P1 y P2) y, de la misma manera, las moléculas de ácido nucleico de control epigenético del subconjunto B tendrán dos puntos de corte de partición epigenética, C3 y C4. Las puntuaciones de partición epigenética de ambos subconjuntos se comparan con sus puntos de corte de partición epigenética correspondientes. En este ejemplo, el método de partición se considerará exitoso solo si las cuatro puntuaciones de partición epigenética están dentro de sus puntos de corte de partición epigenética correspondientes, es decir, en este ejemplo, S1 < C1 y S2 < C2 y

S3 < C3 y S4 < C4. De lo contrario, el método de partición puede clasificarse como infructuoso si los puntajes de partición epigenética están fuera de los puntos de corte para todos los conjuntos particionados.

[0126] En otra forma de realización, se utilizan tres subconjuntos (subconjuntos A, B y C) de moléculas de ácido nucleico de control epigenético y cada subconjunto difiere en el número de nucleótidos metilados (es decir, cada subconjunto tiene un estado epigenético diferente). Las moléculas de ácido nucleico de control epigenético en estos tres subconjuntos se pueden dividir en tres conjuntos particionados: P1, P2 y P3, en función de su afinidad de unión a la proteína de unión a metilo. En esta forma de realización, la puntuación epigenética se determina solo para las moléculas del subconjunto A en el conjunto particionado P1. Esta puntuación epigenética puede ser una medida de la fracción o porcentaje de moléculas del subconjunto A en el conjunto particionado P1 con respecto al número total de moléculas del subconjunto A

(en los conjuntos particionados P1, P2 y P3). Si esta puntuación de partición epigenética está dentro de su valor de corte

de partición epigenética correspondiente, entonces el método de partición se clasifica como exitoso. De lo contrario, el método de partición se clasifica como no exitoso.

[0127] En otro aspecto, la presente divulgación proporciona un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: (a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; (b) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida en una pluralidad de conjuntos particionados; (c) enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos comprende un conjunto de moléculas de control endógenas; (d) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación; (e) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética para las moléculas de ácido nucleico de control epigenético y el conjunto de moléculas de control endógenas; y (f) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética. En estas formas de realización, la partición de las moléculas de ácido nucleico de la muestra y las moléculas de ácido nucleico de control epigenético necesariamente tienen lugar de manera concurrente. En algunas formas de realización, la etapa de análisis comprende estimar el número/fracción de las moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas en un estado epigenético dado en al menos uno de los conjuntos particionados.

[0128] La FIG. 3 ilustra una forma de realización de ejemplo de un método 300 para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético. En esta forma de realización, se analiza la partición tanto de las moléculas de ácido nucleico de control epigenético como de las moléculas de control endógenas para evaluar el método de partición. Existen regiones en el genoma humano con un estado epigenético particular y el estado epigenético de esa región no varía/cambia con frecuencia y siempre permanece igual/permanece consistente con diferentes sujetos y/o diferentes tipos de enfermedad/etapas de enfermedad. Las moléculas de ácido nucleico en la muestra de polinucleótidos que corresponden a dichas regiones genómicas humanas con un estado epigenético no variable se denominan moléculas de control endógenas. En 301, las moléculas de ácido nucleico de control epigenético se añaden a la muestra de polinucleótidos, cuya partición se va a evaluar, para generar una muestra enriquecida.

[0129] En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden comprender uno o más subconjuntos de moléculas de ácido nucleico con diferentes niveles de estado epigenético (es decir, diferente número de nucleótidos modificados epigenéticamente). En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden comprender moléculas de ácido nucleico con diferentes secuencias y/o diferentes longitudes. En otras formas de realización, las moléculas de ácido nucleico de control epigenético pueden comprender moléculas de ácido nucleico con secuencia idéntica o de longitud idéntica.

[0130] En 302, las moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida, que comprende tanto moléculas de ácido nucleico de control epigenético como moléculas de ácido nucleico de la muestra de polinucleótidos, se dividen o fraccionan en una pluralidad de conjuntos divididos en función del estado epigenético de las moléculas. La división puede basarse en la presencia o ausencia de una modificación epigenética y/o puede basarse en el grado de modificación epigenética. Los ejemplos de modificación epigenética incluyen, entre otros, la presencia o ausencia de metilación, el nivel de metilación y el tipo de metilación (citosina 5'). En algunas formas de realización, la modificación epigenética puede ser la metilación del ADN. En esas formas de realización, las moléculas de la muestra enriquecida se dividen en función de los diferentes niveles de metilación (diferente número de nucleótidos metilados). En algunas formas de realización, la muestra enriquecida se puede dividir en dos o más conjuntos divididos (por ejemplo, al menos 3, 4, 5, 6 o 7 conjuntos divididos). En algunas formas de realización, la división se basa en la afinidad de unión diferencial de las moléculas de ácido nucleico a un agente de unión.

[0131] La partición de las moléculas de ácido nucleico se puede analizar mediante la secuenciación de las moléculas de ácido nucleico particionadas, mediante PCR de gotas digitales (ddPCR) o mediante PCR cuantitativa (qPCR). Antes de analizar la partición, las moléculas de ácido nucleico en los conjuntos particionados se pueden enriquecer de modo que se pueda aumentar la señal de las moléculas de ácido nucleico de interés y, por lo tanto, mejorar la sensibilidad. En 303, al menos un subconjunto de las moléculas de ácido nucleico en la pluralidad de conjuntos particionados se enriquece de modo que se enriquecen las moléculas de ácido nucleico de control epigenético, las moléculas de control endógenas (de la muestra de polinucleótidos) y otras moléculas de ácido nucleico de la muestra de polinucleótidos que pertenecen a las regiones de interés.

[0132] En algunas formas de realización, antes del enriquecimiento, cada uno de la pluralidad de conjuntos particionados se etiqueta de forma diferencial. A continuación, los conjuntos particionados etiquetados se agrupan para la preparación y/o secuenciación colectiva de muestras. El etiquetado diferencial de los conjuntos particionados ayuda a realizar un seguimiento de las moléculas de ácido nucleico que pertenecen a un conjunto particionado en particular. Las etiquetas se proporcionan habitualmente como componentes de adaptadores. Las moléculas de ácido nucleico en diferentes conjuntos particionados reciben diferentes etiquetas que pueden distinguir a los miembros de un conjunto particionado de otro. Las etiquetas vinculadas a las moléculas de ácido nucleico del mismo conjunto particionado pueden ser iguales o diferentes entre sí. Pero si son diferentes entre sí, las etiquetas pueden tener parte de su secuencia en común para identificar las moléculas a las que están unidas como pertenecientes a un conjunto particionado en particular.

[0133] En 304, se secuencia al menos un subconjunto de las moléculas enriquecidas. La información de secuencia obtenida comprende la secuencia de las moléculas de ácido nucleico y las etiquetas unidas a las moléculas de ácido nucleico. A partir de la secuencia de las etiquetas unidas a las moléculas de ácido nucleico, se puede correlacionar la etiqueta con el conjunto particionado de la molécula de ácido nucleico. La información de secuencia se utiliza para identificar moléculas de ácido nucleico de control epigenético y moléculas de control endógenas y sus conjuntos particionados correspondientes. Esta información se utiliza para analizar la partición de las moléculas de ácido nucleico de control epigenético y moléculas de control endógenas. En 305, se determina una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético y moléculas de control endógenas que pertenecen a uno o más estados epigenéticos en uno o más conjuntos particionados. En algunas formas de realización, la sensibilidad y/o especificidad del método de partición se puede evaluar mediante las puntuaciones de partición epigenética. La puntuación de partición epigenética es una puntuación que representa la partición de moléculas de ácido nucleico que pertenecen a un estado epigenético particular. La puntuación de partición epigenética de las moléculas de ácido nucleico que pertenecen a un estado epigenético se determina para cada conjunto particionado. Por ejemplo, se pueden determinar las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético y las moléculas de control endógenas que pertenecen a un estado epigenético particular. La puntuación de partición epigenética puede ser una medida del número (o número estimado estadísticamente) de moléculas de ácido nucleico que pertenecen a un estado epigenético particular. La puntuación de partición epigenética puede expresarse en términos de fracción o porcentaje. La puntuación de partición epigenética puede ser una medida de (i) para moléculas de ácido nucleico de control epigenético: la relación entre la cantidad de moléculas de ácido nucleico de control epigenético que pertenecen a un estado epigenético particular que está particionado en al menos un conjunto particionado y la cantidad de moléculas de ácido nucleico de control epigenético que pertenecen a ese estado epigenético presente en el otro conjunto o conjuntos particionados restantes y (ii) para moléculas de control endógenas: la relación entre la cantidad de moléculas de control endógenas que pertenecen a un estado epigenético particular que está particionado en al menos un conjunto particionado y la cantidad de moléculas de control endógenas que pertenecen a ese estado epigenético presente en el otro conjunto o conjuntos particionados restantes. En algunas formas de realización, la puntuación de partición epigenética puede ser (i) para moléculas de ácido nucleico de control epigenético: una fracción o porcentaje del número de moléculas de ácido nucleico de control epigenético que pertenecen a un estado epigenético particular particionadas en al menos un conjunto particionado con respecto al número total de moléculas de ácido nucleico de control epigenético que pertenecen a ese estado epigenético en todos los conjuntos particionados y (ii) para moléculas de control endógenas:una fracción o porcentaje del número de moléculas de control endógenas que pertenecen a un estado epigenético particular particionado en al menos un conjunto particionado con respecto al número total de moléculas de control endógenas que pertenecen a ese estado epigenético en todos los conjuntos particionados. En algunas formas de realización, la puntuación de partición epigenética se determina para cada estado epigenético de las moléculas de ácido nucleico de control epigenético y las moléculas de control endógenas en cada uno de los conjuntos particionados. En algunas formas de realización, la puntuación de partición epigenética se determina para las moléculas de ácido nucleico de control epigenético y las moléculas de control endógenas con uno o más estados epigenéticos particulares en uno o más conjuntos particionados. En algunas formas de realización, la puntuación de partición epigenética se determina para las moléculas de ácido nucleico de control epigenético y las moléculas de control endógenas con un estado epigenético particular en un conjunto particionado particular.

[0134] En algunas formas de realización, la puntuación de partición epigenética puede estar dirigida a la eficiencia con la que las moléculas sin CG (CG "cero") se dividieron en un conjunto hiperparticionado. Esta puntuación puede denominarsepuntuación 0 CG.En algunas formas de realización, lapuntuación 0 CGpuede expresarse en términos de fracción o porcentaje de moléculas sin CG en el conjunto hiperparticionado. En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la fracción de moléculas de ácido nucleico de control epigenético y/o fracción de moléculas de control hipermetiladas con al menos uno de los siguientes:

(vi) 1 metil CG (la puntuación de partición epigenética puede denominarse puntuación 1 CG),

(vii) 2 metil CG (la puntuación de partición epigenética puede denominarse puntuación 2 CG),

(viii) 3 metil CG (la puntuación de partición epigenética puede denominarse puntuación 3 CG),

(ix) 4 metil CG (la puntuación de partición epigenética puede denominarse puntuación 4 CG) y

(x) 5 metil CG (la puntuación de partición epigenética puede denominarse puntuación 5 CG) en el conjunto particionado hipermetilado (es decir, conjunto particionado altamente metilado).

[0135] En algunas formas de realización, la puntuación de partición epigenética puede estar dirigida a la eficiencia de las moléculas de control hipometiladas o moléculas de ácido nucleico de control epigenético hipometiladas particionadas en un conjunto particionado hipermetilado. Esta puntuación puede denominarse puntuación hipo. En algunas formas de realización, la puntuación hipo puede expresarse en términos de fracción o porcentaje de las moléculas de control hipometiladas o moléculas de ácido nucleico de control epigenético hipometiladas en el conjunto particionado hipermetilado. En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la cantidad de CG metilados necesarios para menos del 5 % de las moléculas de control hipermetiladas y/o moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipometilado. Esta puntuación puede denominarsemetil-5.En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la cantidad de CG metilados necesarios para al menos el 50 % de las moléculas de control hipermetiladas y/o moléculas de ácido nucleico de control epigenético hipermetiladas en el conjunto particionado hipermetilado. Esta puntuación puede denominarse "mitad metilo".

[0136] Por ejemplo, se utilizan tres subconjuntos (subconjuntos A, B y C) de moléculas de ácido nucleico de control epigenético y cada subconjunto difiere en el número de nucleótidos metilados. Las moléculas de ácido nucleico de control epigenético en estos tres subconjuntos se pueden dividir en tres conjuntos particionados: P1, P2 y P3, en función de su afinidad de unión a la proteína de unión a metilo. Para cada subconjunto, la puntuación de partición epigenética se determina para cada uno de los conjuntos particionados (P1, P2 y P3), es decir, las moléculas de ácido nucleico de control epigenético que pertenecen al subconjunto A tendrán tres puntuaciones de partición epigenética: una para cada uno de los tres conjuntos particionados, P1, P2 y P3. Del mismo modo, cada uno de los subconjuntos B y C tendrá tres puntuaciones de partición epigenética: una para cada uno de los tres conjuntos particionados P1, P2 y p 3. La puntuación de partición epigenética también se puede determinar para las moléculas de control endógenas.

[0137] En otra forma de realización, se utilizan tres subconjuntos (subconjuntos A, B y C) de moléculas de ácido nucleico de control epigenético y cada subconjunto difiere en el número de nucleótidos metilados (es decir, cada subconjunto tiene un estado epigenético diferente). Las moléculas de ácido nucleico de control epigenético en estos tres subconjuntos se pueden dividir en tres conjuntos particionados: P1, P2 y P3, en función de su afinidad de unión a la proteína de unión a metilo. En esta forma de realización, la puntuación epigenética se determina solo para las moléculas del subconjunto A en el conjunto particionado P1. Esta puntuación epigenética puede ser una medida de la fracción o porcentaje de moléculas del subconjunto A en el conjunto particionado P1 con respecto al número total de moléculas del subconjunto A (en los conjuntos particionados P1, P2 y P3).

[0138] La puntuación de partición epigenética puede ser cualquier valor o rango entre 0 y 1 (en términos de fracción) o entre 0 y 100 % (en términos de porcentaje). En algunas formas de realización, la puntuación de partición epigenética puede expresarse en términos de número de CG metilados (por ejemplo, enmetil-mitadymetil-5).

[0139] En 306, las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético y las moléculas de control endógenas se comparan con sus puntos de corte de partición epigenética correspondientes (puntos de corte predeterminados) para evaluar el método de partición. El punto de corte de partición epigenética es un valor de corte predeterminado o un rango de puntos de corte que se utiliza para evaluar la partición de las moléculas de ácido nucleico que pertenecen a un estado epigenético particular y cada conjunto particionado tiene un punto de corte de partición epigenética para las moléculas de ácido nucleico que pertenecen a un estado epigenético. Los puntos de corte de partición epigenética difieren con el estado epigenético de las moléculas de ácido nucleico y el conjunto particionado, es decir, cada estado epigenético tendrá su propio punto de corte de partición epigenética y cada conjunto particionado tiene un punto de corte de partición epigenética independiente para ese estado epigenético. El punto de corte puede expresarse en términos de porcentaje o fracción y el punto de corte puede ser un rango de puntos de corte en lugar de un valor de corte particular. Por ejemplo, los puntos de corte de partición epigenética para las moléculas de ácido nucleico de control epigenético que pertenecen a un estado epigenético particular pueden estar entre el 70 % y el 79 %, entre el 10 % y el 15 % y menos del 5 % para los conjuntos particionados P1, P2 y P3 respectivamente. Si las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a ese estado epigenético están dentro de los puntos de corte de partición epigenética correspondientes, entonces el método de partición es un éxito.

[0140] En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,01 %, 0,02 %, 0,05 %, 0,1 %, 0,2 %, 0,3 %, 0,4 %, 0,5 %, 0,6 %, 0,7 %, 0,8 %, 0,9 %, 1 %, 2 %, 5 %, al menos 5 % o al menos 10 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,01 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,02 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,03. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,04 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,05 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,1 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,2 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,3 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,4 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,5 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,6 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,7 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,8 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,9 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 1 %.

[0141] En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 0,1 %, 0,5 %, 1 %, 2 %, 3 %, 4 %, 5 %, 7 % o al menos del 10 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 0,1 %. En algunas formas de realización, el punto de de partición epigenética para la puntuación hipo puede ser del 0,5 %. En algunas formas de realización, el punto de de partición epigenética para la puntuación hipo puede ser del 1 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 2 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 3 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 4 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 5 %.

[0142] En algunas formas de realización, el punto de corte de partición epigenética para elmetil-5puede ser de 5, 10,

20, 30, 40 o 50 mCG. En algunas formas de realización, el punto de corte de partición epigenética para elmetil-5puede ser de 5 mCG. En algunas formas de realización, el punto de corte de partición epigenética para elmetil-5puede ser de

10 mCG. En algunas formas de realización, el punto de corte de partición epigenética para elmetil-5puede ser de 20 mCG. En algunas formas de realización, el punto de corte de partición epigenética para elmetil-5puede ser de 30 mCG.

En algunas formas de realización, el punto de corte de partición epigenética para elmetil-5puede ser de 40 mCG. En algunas formas de realización, el punto de corte de partición epigenética para elmetil-5puede ser de 50 mCG.

[0143] En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 5, 10, 15, 20, 25, 30, 35 o 40 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 5 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 10 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 15 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 20 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 25 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 30 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 35 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 40 mCG.

[0144] En algunas formas de realización, si una o más puntuaciones de partición epigenética de moléculas de ácido nucleico de control epigenético y moléculas de control endógenas que pertenecen a uno o más estados epigenéticos en uno o más conjuntos particionados se encuentran dentro de los puntos de corte de partición epigenética correspondientes, entonces el método de partición puede clasificarse como exitoso. De lo contrario, el método de partición puede clasificarse como no exitoso.

[0145] En otro aspecto, la presente divulgación proporciona un método para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: (a) particionar moléculas de ácido nucleico de al menos un subconjunto de la muestra de polinucleótidos en una pluralidad de conjuntos particionados; (c) enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos libres de células comprende un conjunto de moléculas de control endógenas; (d) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación;

(e) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética para el conjunto de moléculas de control endógenas; y (f) comparar una o más puntuaciones de partición epigenética con uno o más de los valores de corte de partición epigenética. En estas formas de realización, la partición de las moléculas de ácido nucleico de la muestra y las moléculas de ácido nucleico de control epigenético necesariamente se llevan a cabo simultáneamente. En algunas formas de realización, el paso de análisis comprende estimar el número/fracción de las moléculas de control endógenas en un estado epigenético dado en al menos uno de los conjuntos particionados.

[0146] FIG. 4 ilustra una forma de realización de ejemplo de un método 400 para evaluar la partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético. En esta forma de realización, se analiza la partición de moléculas de control endógenas en la muestra de polinucleótidos para evaluar el método de partición. Existen regiones en el genoma humano con un estado epigenético particular y el estado epigenético de esa región no varía/cambia a menudo y siempre permanece igual/permanece consistente con diferentes sujetos y/o diferentes tipos de enfermedad/etapas de enfermedad. Las moléculas de ácido nucleico en la muestra de polinucleótidos que corresponden a dichas regiones genómicas humanas con estado epigenético no variable se denominan moléculas de control endógenas. En 401, se considera una muestra de polinucleótidos de un sujeto. En 402, las moléculas de ácido nucleico de al menos un subconjunto de la muestra de polinucleótidos se particionan o fraccionan en una pluralidad de conjuntos particionados en función del estado epigenético de las moléculas. La partición puede basarse en la presencia o ausencia de una modificación epigenética y/o puede basarse en el grado de modificación epigenética. Los ejemplos de modificación epigenética pueden incluir, entre otros, la presencia o ausencia de mutilación, el nivel de mutilación y el tipo de metilación (citosina 5'). En algunas formas de realización, la modificación epigenética puede ser la metilación del ADN. En esas formas de realización, las moléculas de la muestra enriquecida se particionan en función de los diferentes niveles de metilación (diferente número de nucleótidos metilados). En algunas formas de realización, la muestra enriquecida se puede dividir en dos o más conjuntos particionados (por ejemplo, al menos 3, 4, 5, 6 o 7 conjuntos particionados). En algunas formas de realización, la partición se basa en la afinidad de unión diferencial de las moléculas de ácido nucleico a un agente de unión.

[0147] La partición de las moléculas de ácido nucleico se puede analizar mediante la secuenciación de las moléculas de ácido nucleico particionadas o mediante PCR de gotas digitales (ddPCR). Antes de analizar la partición, las moléculas de ácido nucleico en los conjuntos particionados se pueden enriquecer de modo que se pueda aumentar la señal de las moléculas de ácido nucleico de interés y, por lo tanto, mejorar la sensibilidad. En 403, al menos un subconjunto de las moléculas de ácido nucleico en la pluralidad de conjuntos particionados se enriquece de modo que se enriquecen las moléculas de control endógenas (de la muestra de polinucleótidos) y otras moléculas de ácido nucleico de la muestra de polinucleótidos que pertenecen a las regiones de interés.

[0148] En algunas formas de realización, antes del enriquecimiento, cada uno de la pluralidad de conjuntos particionados se etiqueta de forma diferencial. A continuación, los conjuntos particionados etiquetados se agrupan para la preparación y/o secuenciación colectiva de muestras. El etiquetado diferencial de los conjuntos particionados ayuda a realizar un seguimiento de las moléculas de ácido nucleico que pertenecen a un conjunto particionado en particular. Las etiquetas se proporcionan habitualmente como componentes de adaptadores. Las moléculas de ácido nucleico en diferentes conjuntos particionados reciben diferentes etiquetas que pueden distinguir a los miembros de un conjunto particionado de otro. Las etiquetas vinculadas a moléculas de ácido nucleico del mismo conjunto particionado pueden ser iguales o diferentes entre sí. Pero si son diferentes entre sí, las etiquetas pueden tener parte de su secuencia en común para identificar las moléculas a las que están unidas como pertenecientes a un conjunto particionado en particular.

[0149] En 404, se secuencia al menos un subconjunto de las moléculas enriquecidas. La información de secuencia obtenida comprende la secuencia de las moléculas de ácido nucleico y las etiquetas unidas a las moléculas de ácido nucleico. A partir de la secuencia de las etiquetas unidas a las moléculas de ácido nucleico, se puede correlacionar la etiqueta con el conjunto particionado de la molécula de ácido nucleico. La información de secuencia se utiliza para identificar moléculas de control endógenas y sus conjuntos particionados correspondientes. Esta información se utiliza para analizar la partición de las moléculas de control endógenas. En 405, se determina una o más puntuaciones de partición epigenética de las moléculas de control endógenas que pertenecen a uno o más conjuntos particionados. En algunas formas de realización, la sensibilidad y/o especificidad del método de partición se puede evaluar mediante las puntuaciones de partición epigenética. La puntuación de partición epigenética es una puntuación que representa la partición de las moléculas de ácido nucleico que pertenecen a un estado epigenético particular. En algunas formas de realización, la puntuación de partición epigenética de las moléculas de ácido nucleico que pertenecen a un estado epigenético se determina para cada conjunto particionado. Por ejemplo, se pueden determinar las puntuaciones de partición epigenética de las moléculas de control endógenas que pertenecen a un estado epigenético particular. La puntuación de partición epigenética puede ser una medida del número (o número estimado estadísticamente) de moléculas de ácido nucleico que pertenecen a un estado epigenético particular. La puntuación de partición epigenética puede expresarse en términos de fracción o porcentaje. La puntuación de partición epigenética puede ser una medida de la relación entre el número de moléculas de control endógenas que pertenecen a un estado epigenético particular que se divide en al menos un conjunto dividido y el número de moléculas de control endógenas que pertenecen a ese estado epigenético presente en el (los) otro(s) conjunto(s) dividido(s) restante(s). En algunas formas de realización, la puntuación de partición epigenética puede ser una fracción o porcentaje del número de moléculas de control endógenas que pertenecen a un estado epigenético particular dividido en al menos un conjunto dividido y el número total de moléculas de control endógenas que pertenecen a ese estado epigenético en todos los conjuntos divididos. En algunas formas de realización, la puntuación de partición epigenética se determina para cada estado epigenético de las moléculas de control endógenas en cada uno de los conjuntos divididos. En algunas formas de realización, la puntuación de partición epigenética se determina para las moléculas de control endógenas con uno o más estados epigenéticos particulares en uno o más conjuntos particionados. En algunas formas de realización, la puntuación de partición epigenética se determina para las moléculas de control endógenas con un estado epigenético particular en un conjunto particionado particular.

[0150] En algunas formas de realización, la puntuación de partición epigenética puede estar dirigida a la eficiencia con la que las moléculas sin CG (CG "cero") se dividieron en un conjunto hiperparticionado. Esta puntuación puede denominarsepuntuación 0 CG.En algunas formas de realización, lapuntuación 0 CGpuede expresarse en términos de fracción o porcentaje de moléculas sin CG en el conjunto hiperparticionado. En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la fracción de moléculas de control hipermetiladas con al menos uno de los siguientes:

(xi) 1 metil CG (la puntuación de partición epigenética puede denominarse puntuación 1 CG),

(xii) 2 metil CG (la puntuación de partición epigenética puede denominarse puntuación 2 CG),

(xiii) 3 metil CG (la puntuación de partición epigenética puede denominarse puntuación 3 CG),

(xiv) 4 metil CG (la puntuación de partición epigenética puede denominarse puntuación 4 CG) y

(xv) 5 metil CG (la puntuación de partición epigenética puede denominarse puntuación 5 CG) en el conjunto particionado hipermetilado (es decir, conjunto particionado altamente metilado).

[0151] En algunas formas de realización, la puntuación de partición epigenética puede estar dirigida a la eficiencia de las moléculas de control hipometiladas particionadas en un conjunto particionado hipermetilado. Esta puntuación puede denominarse puntuación hipo. En algunas formas de realización, la puntuación hipo puede expresarse en términos de fracción o porcentaje de las moléculas de control hipometiladas en el conjunto particionado hipermetilado. En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la cantidad de CG metilados necesarios para menos del 5 % de las moléculas de control hipermetiladas en el conjunto particionado hipometilado. Esta puntuación puede denominarsemetil-5.En algunas formas de realización, la puntuación de partición epigenética puede ser una medida de la cantidad de CG metilados necesarios para al menos el 50 % de las moléculas de control hipermetiladas en el conjunto particionado hipermetilado. Esta puntuación puede denominarsemetil-mitad.

[0152] Por ejemplo, se analizan dos subconjuntos (subconjuntos A y B) de moléculas de control endógenas y cada subconjunto difiere en el nivel/grado de metilación (es decir, cada subconjunto tiene un estado epigenético diferente). Las moléculas de control endógenas en estos dos subconjuntos se pueden dividir en tres conjuntos particionados: P1, P2 y P3, en función de su afinidad de unión a la proteína de unión a metilo. Para cada subconjunto, se determina la puntuación de partición epigenética para cada uno de los conjuntos particionados (P1, P2 y P3), es decir, las moléculas de ácido nucleico de control epigenético que pertenecen al subconjunto A tendrán tres puntuaciones de partición epigenética: una para cada uno de los tres conjuntos particionados, P1, P2 y P3. Del mismo modo, el subconjunto B tendrá tres puntuaciones de partición epigenética: una para cada uno de los tres conjuntos particionados P1, P2 y P3.

[0153] En otra forma de realización, se analizan tres subconjuntos (subconjuntos A, B y C) de moléculas de control endógenas y cada subconjunto difiere en el nivel/grado de metilación (es decir, cada subconjunto tiene un estado epigenético diferente). Las moléculas de control endógenas en estos tres subconjuntos se pueden dividir en tres conjuntos particionados: P1, P2 y P3, en función de su afinidad de unión a la proteína de unión a metilo. En esta forma de realización, la puntuación epigenética se determina solo para las moléculas endógenas del subconjunto A en el conjunto particionado P1. Esta puntuación epigenética puede ser una medida de la fracción o porcentaje de moléculas de control endógenas del subconjunto A en el conjunto particionado P1 con respecto al número total de moléculas de control endógenas del subconjunto A (en los conjuntos particionados P1, P2 y P3).

[0154] La puntuación de partición epigenética puede ser cualquier valor o rango entre 0 y 1 (en términos de fracción) o entre 0 y 100 % (en términos de porcentaje). En algunas formas de realización, la puntuación de partición epigenética puede expresarse en términos de número de CG metilados (por ejemplo, enmetil-mitadymetil-5).

[0155] En 406, las puntuaciones de partición epigenética de las moléculas de control endógenas se comparan con sus puntos de corte de partición epigenética correspondientes (puntos de corte predeterminados) para evaluar el método de partición. El punto de corte de partición epigenética es un valor de corte predeterminado o un rango de puntos de corte que se utiliza para evaluar la partición de las moléculas de ácido nucleico que pertenecen a un estado epigenético particular y cada conjunto particionado tiene un punto de corte de partición epigenética para las moléculas de ácido nucleico que pertenecen a un estado epigenético. Los puntos de corte de partición epigenética difieren con el estado epigenético de las moléculas de ácido nucleico y el conjunto particionado, es decir, cada estado epigenético tendrá su propio punto de corte de partición epigenética y cada conjunto particionado tiene un punto de corte de partición epigenética independiente para ese estado epigenético. El punto de corte puede expresarse en términos de porcentaje o fracción y el punto de corte puede ser un rango de puntos de corte en lugar de un valor de corte particular. Por ejemplo, los puntos de corte de partición epigenética para las moléculas de control endógenas que pertenecen a un estado epigenético particular pueden estar entre el 70 % y el 79 %, entre el 10 % y el 15 % y menos del 5 % para los conjuntos particionados P1, P2 y P3 respectivamente. Si las puntuaciones de partición epigenética de las moléculas de control endógenas que pertenecen a ese estado epigenético están dentro de los puntos de corte de partición epigenética correspondientes, entonces el método de partición es un éxito.

[0156] En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,01 %, 0,02 %, 0,05 %, 0,1 %, 0,2 %, 0,3 %, 0,4 %, 0,5 %, 0,6 %, 0,7 %, 0,8 %, 0,9 %, 1 %, 2 %, 5 %, al menos 5 % o al menos 10 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,01 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,02 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,03. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser 0,04 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,05 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,1 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,2 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,3 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,4 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,5 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,6 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,7 %. En algunas formas de realización, el punto de corte de partición epigenética para una puntuación de CG 0 puede ser del 0,8 %. En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 0,9 %.

En algunas formas de realización, el punto de corte de partición epigenética para unapuntuación 0 CGpuede ser del 1 %.

[0157] En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 0,1 %, 0,5 %, 1 %, 2 %, 3 %, 4 %, 5 %, 7 % o al menos del 10 %. En algunas formas de realización, el de partición epigenética para la puntuación hipo puede ser del 0,1 %. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación hipo puede ser del 0,5 %. En algunas formas de realización, el de partición epigenética para la puntuación hipo puede ser del 1 %. En algunas formas de realización, el punto de partición epigenética para la puntuación hipo puede ser del 2 %. En algunas formas de realización, el punto de partición epigenética para la puntuación hipo puede ser del 3 %. En algunas formas de realización, el punto de partición epigenética para la puntuación hipo puede ser del 4 %. En algunas formas de realización, el punto de partición epigenética para la puntuación hipo puede ser del 5 %.

[0158] En algunas formas de realización, el punto de corte de partición epigenética para elmetil-5puede ser de 5, 10,

[0159] En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 5, 10, 15, 20, 25, 30, 35 o 40 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 5 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 10 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 15 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 20 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 25 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 30 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 35 mCG. En algunas formas de realización, el punto de corte de partición epigenética para la puntuación de la mitad metilada puede ser de 40 mCG.

[0160] En algunas formas de realización, si una o más puntuaciones de partición epigenética de las moléculas de control endógenas que pertenecen a uno o más estados epigenéticos en uno o más conjuntos particionados se encuentran dentro de los puntos de corte de partición epigenética correspondientes, entonces el método de partición puede clasificarse como exitoso. De lo contrario, el método de partición puede clasificarse como no exitoso.

[0161] En otro aspecto, la presente divulgación proporciona un método para determinar el estado epigenético de una o más moléculas de ácido nucleico en la muestra de polinucleótidos que comprende: (a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; (b) dividir las moléculas de ácido nucleico de al menos un subconjunto de la muestra enriquecida en una pluralidad de conjuntos divididos; (c) enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos divididos para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos; (d) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación; (e) analizar al menos un subconjunto del conjunto de lecturas de secuencias para generar una pluralidad de perfiles de partición de las moléculas de ácido nucleico de control epigenético en diferentes estados epigenéticos en la pluralidad de conjuntos particionados; y (f) utilizar la pluralidad de perfiles particionados de moléculas de ácido nucleico de control epigenético para estimar una probabilidad de estado epigenético de las moléculas de ácido nucleico de la muestra. En estas formas de realización, la partición de las moléculas de ácido nucleico de la muestra y las moléculas de ácido nucleico de control epigenético necesariamente tienen lugar de manera concurrente.

[0162] En algunas formas de realización, la etapa de análisis comprende determinar el número o la fracción de moléculas de ácido nucleico de control epigenético por estado epigenético en la pluralidad de conjuntos particionados. El perfil de partición puede referirse a una representación de la fracción/número de moléculas de ácido nucleico de control epigenético en cada estado epigenético en los dos o más conjuntos particionados. En algunas formas de realización, el perfil de partición comprende, además información sobre el número de nucleótidos con modificación epigenética en las moléculas de ácido nucleico de control epigenético, la posición de los nucleótidos con modificación epigenética en las moléculas de ácido nucleico de control epigenético y/o la composición de la secuencia de las moléculas de ácido nucleico de control epigenético. Este perfil de partición se puede utilizar para estimar la probabilidad del estado epigenético de las moléculas de ácido nucleico en la muestra. En algunas formas de realización, si la modificación epigenética es metilación, entonces los perfiles de partición se pueden utilizar para estimar la probabilidad del estado de metilación (es decir, el nivel/grado de metilación o el número de nucleótidos metilados) de las moléculas de ácido nucleico de la muestra.

[0163] En otro aspecto, la presente divulgación proporciona un método para determinar el estado epigenético de una o más moléculas de ácido nucleico en la muestra de polinucleótidos que comprende: (a) particionar las moléculas de ácido nucleico de al menos un subconjunto de la muestra en una pluralidad de conjuntos particionados; (b) enriquecer al menos un subconjunto de moléculas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos comprende un conjunto de moléculas de control endógenas; (c) secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir un conjunto de lecturas de secuenciación; (e) analizar al menos un subconjunto del conjunto de lecturas de secuencia para generar una pluralidad de perfiles de partición de las moléculas de control endógenas en diferentes estados epigenéticos en la pluralidad de conjuntos particionados; y (f) utilizar la pluralidad de perfiles particionados de moléculas de control endógenas para estimar una probabilidad de estado epigenético de las moléculas de ácido nucleico.

[0164] En algunas formas de realización, la etapa de análisis comprende determinar la cantidad de moléculas de control endógenas por estado epigenético en la pluralidad de conjuntos particionados. El perfil de partición puede referirse a una representación de la fracción/cantidad de moléculas de control endógenas en cada estado epigenético en los dos o más conjuntos particionados. En algunas formas de realización, el perfil de partición comprende, además información sobre la cantidad de nucleótidos con modificación epigenética en las moléculas de ácido nucleico de control epigenético, la posición de los nucleótidos con modificación epigenética en las moléculas de ácido nucleico de control epigenético y/o la composición de la secuencia de las moléculas de ácido nucleico de control epigenético. En algunas formas de realización, la cantidad de CpG metilados en las moléculas de control endógenas se determina en función de datos experimentales previos y/o de la bibliografía. Este perfil de partición se puede utilizar para estimar la probabilidad del estado epigenético de las moléculas de ácido nucleico en la muestra. En algunas formas de realización, si la modificación epigenética es metilación, entonces los perfiles de partición se pueden utilizar para estimar la probabilidad del estado de metilación (es decir, el nivel/grado de metilación o la cantidad de nucleótidos metilados) de las moléculas de ácido nucleico de la muestra.

[0165] En algunas formas de realización, se pueden utilizar moléculas de control endógenas (por ejemplo, moléculas de control hipermetiladas y moléculas de control hipometiladas) para estimar el estado de metilación de las moléculas de ácido nucleico de la muestra. Si hay tres conjuntos particionados (P1, P2 y P3), se pueden generar los perfiles de partición de las moléculas de control hipermetiladas para P1, P2 y P3 basándose en la fracción de moléculas de control hipermetiladas en cada uno de los tres conjuntos particionados y la cantidad de CpG metilados presentes en las moléculas de control hipermetiladas. Asimismo, para las moléculas de control hipometiladas, se pueden generar los perfiles de partición de las moléculas de control hipometiladas para P1, P2 y P3 basándose en la fracción de moléculas de control hipometiladas en cada uno de los tres conjuntos particionados y la cantidad de CpG no metilados presentes en las moléculas de control hipometiladas. En algunas formas de realización, donde se utilizan moléculas de control endógenas, la cantidad de CpG metilados en las moléculas de control endógenas se determina basándose en datos experimentales previos y/o en la bibliografía. Estos seis perfiles de partición se pueden utilizar para estimar la probabilidad del nivel/grado de metilación o el número de nucleótidos metilados presentes en las moléculas de ácido nucleico de la muestra en una región particular.

[0166] En algunas formas de realización, las moléculas de ácido nucleico de control epigenético (por ejemplo, moléculas de ácido nucleico de control epigenético altamente metiladas y poco metiladas) se pueden utilizar para estimar el estado de metilación de las moléculas de ácido nucleico de la muestra. Si hay tres conjuntos particionados (P1, P2 y P3), los perfiles de partición de las moléculas de ácido nucleico de control epigenético altamente metiladas se pueden generar para P1, P2 y P3 en función de la fracción de moléculas de ácido nucleico de control epigenético altamente metiladas en cada uno de los tres conjuntos particionados y la cantidad de CpG metilados presentes en las moléculas de ácido nucleico de control epigenético altamente metiladas. De la misma manera, para las moléculas de ácido nucleico de control epigenético de baja metilación, los perfiles de partición de las moléculas de ácido nucleico de control epigenético de baja metilación se pueden generar para P1, P2 y P3 en función de la fracción de moléculas de ácido nucleico de control epigenético de baja metilación en cada uno de los tres conjuntos particionados y el número de CpG no metilados presentes en las moléculas de ácido nucleico de control epigenético de baja metilación. Estos seis perfiles de partición se pueden utilizar para estimar la probabilidad del nivel/grado de metilación o el número de nucleótidos metilados presentes en las moléculas de ácido nucleico de la muestra en una región particular.

II. Moléculas de ácido nucleico de control epigenético

[0167] Las moléculas de ácido nucleico de control epigenético se utilizan como moléculas de control o referencia para evaluar la partición de las moléculas de ácido nucleico en la muestra en función de una modificación epigenética. Estas moléculas de ácido nucleico de control epigenético también se pueden utilizar para determinar el estado epigenético de la(s) molécula(s) de ácido nucleico en la muestra. Por ejemplo, la modificación epigenética puede ser la metilación del ADN y las moléculas de ácido nucleico de control epigenético pueden tener niveles de metilación diferentes/distinguibles. Las moléculas de ácido nucleico de control epigenético pueden ser oligonucleótidos sintéticos. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden tener una secuencia de ácido nucleico que no se produce de forma natural. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden tener una secuencia de ácido nucleico que se produce de forma natural. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden tener una secuencia de ácido nucleico que corresponde a un genoma no humano. Por ejemplo, estas moléculas pueden tener (i) una secuencia correspondiente a regiones del ADN del fago lambda o del genoma humano, (ii) una secuencia que no se produce de forma natural y/o (iii) una combinación de (i) y (ii). Además, las moléculas de ácido nucleico de control epigenético se pueden agrupar en subconjuntos y cada subconjunto puede tener un número particular de nucleótidos que representa el grado de modificación epigenética y ese número es diferente del número de nucleótidos que representa el grado de modificación epigenética en cada uno de los demás conjuntos.

[0168] En otro aspecto, la presente divulgación proporciona un conjunto de moléculas de ácido nucleico de control epigenético, que comprende uno o más subconjuntos de moléculas de ácido nucleico de control epigenético, en donde cada subconjunto comprende una pluralidad de moléculas de ácido nucleico de control epigenético, y cada molécula de ácido nucleico de control epigenético comprende una región de modificación epigenética. La región de modificación epigenética es una región de la molécula de ácido nucleico de control epigenético que representa el estado epigenético de la molécula de ácido nucleico de control epigenético. El estado epigenético es el nivel/grado de modificación epigenética de las moléculas de ácido nucleico. Por ejemplo, si la modificación epigenética es la metilación del ADN, entonces el estado epigenético puede referirse a moléculas de ácido nucleico altamente metiladas, poco metiladas o intermediamente metiladas. El estado epigenético también puede referirse al número de nucleótidos con modificación epigenética. Por ejemplo, si la modificación epigenética es la metilación del ADN, entonces un estado epigenético puede referirse al número de nucleótidos metilados de las moléculas de ácido nucleico.

[0169] En algunas formas de realización, las moléculas de ácido nucleico de control epigenético comprenden al menos una de las siguientes: (i) región de modificación epigenética y (ii) región identificadora. En algunas formas de realización, la región de modificación epigenética comprende nucleótidos con modificación epigenética. En algunas formas de realización, la modificación epigenética es la metilación del ADN. En esas formas de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético puede tener nucleótidos que están metilados. La cantidad de nucleótidos metilados en la región de modificación epigenética puede variar entre las moléculas de ácido nucleico de control epigenético. En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden tener 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, al menos 10, al menos 15, al menos 20, al menos 30, al menos 40 o al menos 50 nucleótidos metilados en la región de modificación epigenética. Las moléculas de ácido nucleico de control epigenético se pueden agrupar en subconjuntos en función del estado epigenético (es decir, número de nucleótidos con modificación epigenética/nivel de modificación epigenética) en la región de modificación epigenética. La región de modificación epigenética entre los diferentes subconjuntos puede tener la misma longitud, por ejemplo, alrededor de 160 pb. La longitud de la región de modificación epigenética entre los subconjuntos puede ser diferente. Por ejemplo, las moléculas de ácido nucleico de control epigenético se pueden agrupar en tres subconjuntos (subconjunto A, B y C) en función del número de nucleótidos metilados en la región de modificación epigenética. Los subconjuntos A, B y C pueden tener moléculas de ácido nucleico de control epigenético con 5, 10 y 15 nucleótidos metilados respectivamente en la región de modificación epigenética y la longitud de la región de modificación epigenética en los subconjuntos A, Banda C puede ser la misma (por ejemplo, 160 pb) o puede ser diferente: 100 pb, 150 pb y 200 pb para los subconjuntos A, Banda C respectivamente.

[0170] En ciertas formas de realización, las moléculas de ácido nucleico de control epigenético se pueden agrupar en subconjuntos, cada uno de los cuales representa un grado de modificación epigenética y el número de polinucleótidos dentro de cada subconjunto es diferente del número de nucleótidos en cada uno de los otros conjuntos. En algunas formas de realización, el número de nucleótidos metilados en el subconjunto es 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, al menos 12, al menos 15, al menos 20, al menos 25, al menos 30, al menos 40 o al menos 50. En algunas formas de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético en al menos un subconjunto comprende al menos un nucleótido con modificación epigenética. En algunas formas de realización, al menos un subconjunto de las moléculas de ácido nucleico de control epigenético puede comprender nucleótidos sin ninguna modificación epigenética (es decir, nucleótidos epigenéticamente no modificados) en la región de modificación epigenética de la molécula de ácido nucleico de control epigenético.

[0171] En algunas formas de realización, la región de modificación epigenética de cada molécula de ácido nucleico de control epigenético dentro de un subconjunto comprende un mismo número de nucleótidos con modificación epigenética. En algunas formas de realización, el número de nucleótidos con modificación epigenética en un primer subconjunto es diferente del número de nucleótidos con modificación epigenética en un segundo subconjunto. En algunas formas de realización, la región de modificación epigenética de la pluralidad de moléculas de ácido nucleico de control epigenético en uno o más subconjuntos comprende una secuencia de ácido nucleico idéntica. En algunas formas de realización, la región de modificación epigenética de la pluralidad de moléculas de ácido nucleico de control epigenético en un primer subconjunto comprende una secuencia de ácido nucleico distinguible de la secuencia de ácido nucleico de la región de modificación epigenética de la pluralidad de moléculas de ácido nucleico de control epigenético en un segundo subconjunto.

[0172] En algunas formas de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético en uno o más subconjuntos puede tener la misma longitud y tener la misma composición de secuencia, pero la cantidad de nucleótidos con modificación epigenética puede ser diferente en cada uno de los uno o más subconjuntos. En algunas formas de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético en uno o más subconjuntos puede tener la misma longitud y tener la misma cantidad de nucleótidos con modificación epigenética, pero la posición de los nucleótidos con modificación epigenética puede ser diferente en cada uno de los uno o más subconjuntos. En algunas formas de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético en uno o más subconjuntos puede tener la misma longitud, tener la misma cantidad de nucleótidos con modificación epigenética y la posición de los nucleótidos con modificación epigenética puede ser la misma, pero los nucleótidos adyacentes a ambos lados de los nucleótidos con modificación epigenética pueden ser diferentes en cada uno de los uno o más subconjuntos.

[0173] En algunas formas de realización, cada subconjunto de moléculas de ácido nucleico de control epigenético está en concentración equimolar. En algunas formas de realización, cada subconjunto de moléculas de ácido nucleico de control epigenético está en concentración no equimolar. En algunas formas de realización, la modificación epigenética es la metilación del ADN. En algunas formas de realización, los nucleótidos con modificación epigenética comprenden nucleótidos metilados. En algunas formas de realización, el nucleótido metilado comprende 5-metilcitosina. En algunas formas de realización, el nucleótido metilado comprende 5-hidroximetilcitosina. En algunas formas de realización, el nucleótido metilado comprende N6-metiladenina.

[0174] En algunas formas de realización, la molécula de ácido nucleico de control epigenético comprende, además una región identificadora. La región identificadora es una región de la molécula de ácido nucleico de control epigenético que se utiliza para distinguir una molécula de ácido nucleico de control epigenético de las otras moléculas de ácido nucleico de control epigenético. La región identificadora puede tener códigos de barras moleculares y/o códigos de barras de estado epigenético. La región identificadora puede estar presente en uno o ambos lados de la región de modificación epigenética. El código de barras molecular sirve como identificador de una molécula de ácido nucleico de control epigenético, mientras que el código de barras de estado epigenético sirve como identificador del estado epigenético de la molécula de ácido nucleico de control epigenético. El código de barras de estado epigenético es un tipo de código de barras (secuencia de ácido nucleico) que se utiliza para identificar el estado epigenético de la molécula de ácido nucleico de control epigenético. En algunas formas de realización, el código de barras de estado epigenético puede identificar (mediante correlación predeterminada) la cantidad de nucleótidos con modificación epigenética en la región de modificación epigenética de la molécula de ácido nucleico de control epigenético. En algunas formas de realización, el código de barras del estado epigenético puede identificar el nivel de modificación epigenética en la región de modificación epigenética de la molécula de ácido nucleico de control epigenético. En algunas formas de realización, la región identificadora de la molécula de ácido nucleico de control epigenético comprende el código de barras del estado epigenético. Por ejemplo, si la modificación epigenética es la metilación del ADN y un subconjunto de las moléculas de ácido nucleico de control epigenético tiene 5 nucleótidos metilados, entonces todas las moléculas de ácido nucleico de control epigenético dentro de ese subconjunto tendrán el mismo código de barras del estado epigenético. En algunas formas de realización, el código de barras del estado epigenético se puede utilizar para identificar el nivel/grado de modificación epigenética de la región de modificación epigenética de la molécula de ácido nucleico de control epigenético. Las moléculas de ácido nucleico de control epigenético se pueden agrupar en subconjuntos en función de la cantidad de nucleótidos de citosina o CpG en la región de modificación epigenética. En algunas formas de realización, dentro de cada subconjunto, el nivel de metilación puede variar (por ejemplo, altamente metilado, intermediamente metilado y poco metilado) y cada nivel de metilación puede tener un código de barras de estado epigenético independiente. Por ejemplo, dentro del subconjunto A, todas las moléculas de ácido nucleico de control epigenético que están poco metiladas tienen un código de barras de estado epigenético, por ejemplo, ESB1, y todas las moléculas de ácido nucleico de control epigenético que están altamente metiladas tienen otro código de barras de estado epigenético, por ejemplo, ESB3. En este ejemplo, el código de barras de estado epigenético se utiliza para identificar el nivel/grado de metilación. Los códigos de barras moleculares en la región identificadora pueden ser códigos de barras únicos (cada molécula tiene un código de barras único) o códigos de barras no únicos. Los códigos de barras moleculares pueden tener cualquier longitud entre 2 y 50 nucleótidos. En algunas formas de realización, los códigos de barras moleculares pueden ser al menos 2, al menos 3, al menos 4, al menos 5, al menos 6, al menos 7, al menos 8, al menos 9 o al menos 10 nucleótidos. En algunas formas de realización, el código de barras del estado epigenético puede tener al menos 2, al menos 3, al menos 4, al menos 5, al menos 6, al menos 7 o al menos 8 nucleótidos.

[0175] FIG. 5 es una representación esquemática de moléculas de ácido nucleico de control epigenético adecuadas para su uso con algunas formas de realización de la divulgación. Las moléculas de ácido nucleico de control epigenético descritas aquí tienen una longitud similar a la de la muestra que se está analizando y todos los subconjuntos tienen la misma composición de secuencia para reducir cualquier efecto de partición específico de la secuencia. En la FIG. 5, como ejemplo, las moléculas de ácido nucleico de control epigenético se han agrupado en cuatro subconjuntos: subconjunto 1, 2, 3 y 4. Las moléculas de ácido nucleico de control epigenético en la FIG. 5 son una molécula de ADN bicatenario. A modo de ilustración, en la figura solo se muestra una representación de las moléculas de ácido nucleico de control epigenético en cada subconjunto. En esta forma de realización, la secuencia de la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético es la misma en todos los subconjuntos. La región de modificación epigenética de las moléculas de ácido nucleico de control epigenético en los cuatro subconjuntos tiene 5 díadas CpG. La región '—' en la secuencia de ADN bicatenario representa cualquier otra secuencia aparte de la díada CpG y M representa 5-metilcitosina, C representa citosina y G representa guanina. En la FIG. 5, el estado epigenético (nivel de metilación) de las moléculas de ácido nucleico de control epigenético en un subconjunto es diferente del estado epigenético de los otros subconjuntos. El subconjunto 1 tiene cero diadas CpG metiladas, el subconjunto 2 tiene 1 diada CpG completamente metilada, el subconjunto 3 tiene 3 díadas CpG completamente metiladas y el subconjunto 4 tiene 5 díadas CpG completamente metiladas. En esta forma de realización, la región identificadora está en ambos lados de la región de modificación epigenética. La región identificadora en ambos lados tiene un código de barras de estado epigenético (ESB), mientras que el código de barras molecular (MB) está en un solo lado. El código de barras molecular se utiliza como un identificador de la molécula de ácido nucleico de control epigenético y cada molécula de ácido nucleico de control epigenético tiene un código de barras molecular único (es decir, la molécula 1 tiene MB1, la molécula 2 tiene MB2, la molécula 3 tiene MB3 y así sucesivamente). Un código de barras de estado epigenético se puede utilizar como un identificador del estado epigenético de la molécula de ácido nucleico de control epigenético. En este documento, el código de barras de estado epigenético se utiliza para identificar el número de díadas CpG completamente metiladas en la molécula de ácido nucleico de control epigenético. Todas las moléculas de ácido nucleico de control epigenético del subconjunto 1 tienen cero díadas CpG metiladas, por lo que todas las moléculas de ácido nucleico de control epigenético del subconjunto 1 tienen el mismo código de barras de estado epigenético: ESB1. Del mismo modo, todas las moléculas de ácido nucleico de control epigenético de los subconjuntos 2, 3 y 4 tienen 1, 3 y 5 díadas CpG completamente metiladas respectivamente. Por lo tanto, todas las moléculas de ácido nucleico de control epigenético de los subconjuntos 2, 3 y 4 tienen un código de barras de estado epigenético de ESB2, ESB3 y ESB4 respectivamente. En este ejemplo, el mismo código de barras de estado epigenético se encuentra en ambos lados de la región de modificación epigenética.

[0176] En algunas formas de realización, el código de barras molecular puede estar en uno o ambos lados de la región de modificación epigenética. En algunas formas de realización, el código de barras del estado epigenético puede estar en uno o ambos lados de la región de modificación epigenética. En algunas formas de realización, el código de barras del estado epigenético en ambos lados de la región de modificación epigenética puede ser el mismo o diferente y/o puede estar unido aleatoriamente.

[0177] En algunas formas de realización, la región identificadora puede tener un región adicional que facilita la unión de uno o más cebadores (sitios de unión del cebador). En algunas formas de realización, los sitios de unión del cebador de la región del identificador en un subconjunto son diferentes de los sitios de unión del cebador en los otros subconjuntos. En algunas formas de realización, si dentro de un subconjunto, las moléculas de ácido nucleico de control epigenético tienen diferentes estados epigenéticos, entonces los sitios de unión del cebador pueden ser diferentes para cada estado epigenético dentro de las moléculas, es decir, cada estado epigenético único tiene un sitio de unión del cebador único. En algunas formas de realización, estos sitios de unión del cebador se utilizan para analizar la partición de las moléculas de ácido nucleico de control epigenético. En algunas formas de realización, en lugar de analizar la partición de las moléculas de ácido nucleico de control epigenético mediante secuenciación, la partición de las moléculas de ácido nucleico de control epigenético se puede analizar mediante PCR de gotas digitales (ddPCR) utilizando cebadores que se unen a estos estados de unión del cebador.

[0178] En algunas formas de realización, las moléculas de ácido nucleico de control epigenético se pueden agrupar en subconjuntos de modo que las moléculas de ácido nucleico de control epigenético dentro de cada subconjunto tengan la secuencia, pero los estados epigenéticos de las moléculas de ácido nucleico de control epigenético dentro de cada subconjunto puedan variar.

[0179] FIG. 6 es una representación esquemática de moléculas de ácido nucleico de control epigenético que pueden ser adecuadas para su uso con ciertas formas de realización de la divulgación. Las moléculas de ácido nucleico de control epigenético descritas en el presente documento también pueden tener en cuenta la influencia de la composición de la secuencia y el número de díadas CpG/díadas CpG completamente metiladas durante la partición de las moléculas de ácido nucleico. En la FIG. 6, como ejemplo, las moléculas de ácido nucleico de control epigenético se han agrupado en tres subconjuntos: subconjunto 1, 2 y 3. Las moléculas de ácido nucleico de control epigenético en la FIG. 6 son una molécula de ADN bicatenario. A modo de ilustración, en la figura solo se muestra una representación de las moléculas de ácido nucleico de control epigenético para cada estado epigenético en cada subconjunto. En esta forma de realización, la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético en los subconjuntos 1, 2 y 3 tienen una longitud diferente. La región de modificación epigenética de las moléculas de ácido nucleico de control epigenético en los subconjuntos 1, 2 y 3 tienen 1, 3 y 5 díadas CpG respectivamente. La región '—' en la secuencia de ADN bicatenario representa cualquier otra secuencia aparte de la díada CpG y M representa 5-metilcitosina, C representa citosina y G representa guanina. En la FIG. 6, dentro de cada subconjunto, las moléculas de ácido nucleico de control epigenético están en diferentes estados epigenéticos, por ejemplo, estados poco metilados, metilados intermediamente y altamente metilados. Las moléculas de ácido nucleico de control epigenético del subconjunto 1 están en dos estados epigenéticos diferentes: poco metilados (díada CpG cero metilada) y altamente metilados (1 díada CpG completamente metilada). Las moléculas de ácido nucleico de control epigenético del subconjunto 2 se encuentran en tres estados epigenéticos diferentes: poco metilado (díada CpG cero metilada), metilado intermedio (1 díada CpG completamente metilada) y altamente metilado (3 díadas CpG completamente metiladas). Las moléculas de ácido nucleico de control epigenético del subconjunto 3 se encuentran en tres estados epigenéticos diferentes: poco metilado (1 díada CpG completamente metilada), metilado intermedio (3 díadas CpG completamente metiladas) y altamente metilado (5 díadas CpG completamente metiladas). En este documento, la región identificadora está en ambos lados de la región de modificación epigenética. La región identificadora en ambos lados tiene un código de barras de estado epigenético (ESB) y un código de barras molecular (MB). El código de barras molecular se utiliza como un identificador de la molécula de ácido nucleico de control epigenético y cada molécula de ácido nucleico de control epigenético tiene un código de barras molecular único (es decir, la molécula 1 tiene MB1, la molécula 2 tiene MB2, la molécula 3 tiene MB3 y así sucesivamente). El código de barras del estado epigenético se utiliza como un identificador del estado epigenético de la molécula de ácido nucleico de control epigenético. En este documento, el código de barras del estado epigenético se utiliza para identificar el grado/nivel de metilación de las moléculas de ácido nucleico de control epigenético, es decir, estados de metilación baja, metilación intermedia o metilación alta. Todas las moléculas de ácido nucleico de control epigenético poco metiladas de los subconjuntos 1, 2 y 3 tienen el mismo código de barras de estado epigenético: ESB1. Los subconjuntos 2 y 3 tienen moléculas de ácido nucleico de control epigenético de metilación intermedia y todas estas moléculas tienen el mismo código de barras de estado epigenético: ESB2 (el subconjunto 1 no tiene un estado de metilación intermedia, por lo que ninguna de las moléculas de ácido nucleico de control epigenético tendrá el código de barras de estado epigenético ESB2). Por lo tanto, a partir de la secuencia de la molécula de ácido nucleico de control epigenético y la secuencia del código de barras del estado epigenético, se puede identificar el estado epigenético de la molécula de ácido nucleico de control epigenético y el subconjunto al que pertenece la molécula de ácido nucleico epigenético.

[0180] Además, la región identificadora puede tener sitios de unión de cebadores. Los diferentes sitios de unión de cebadores pueden usarse para diferenciar los diferentes estados epigenéticos dentro de cada subconjunto y entre los subconjuntos. Por ejemplo, las moléculas de ácido nucleico de control epigenético poco metiladas en el subconjunto 1 pueden tener los sitios de unión de cebadores - Pr1 y Pr2 en ambos lados de la región de modificación epigenética. Las moléculas de ácido nucleico de control epigenético altamente metiladas en el subconjunto 1 pueden tener los sitios de unión de cebadores - Pr3 y Pr4 en ambos lados de la región de modificación epigenética. De manera similar, en el subconjunto 2, las moléculas de ácido nucleico de control epigenético de metilación baja, intermedia y alta pueden tener los sitios de unión de cebadores Pr5 y Pr6, P7 y Pr8 y Pr9 y Pr19, respectivamente, en ambos lados de la región de modificación epigenética. De manera similar, en el subconjunto 3, las moléculas de ácido nucleico de control epigenético con metilación baja, intermedia y alta pueden tener los sitios de unión de cebadores Pr11 y Pr12, Pr13 y Pr14 y Pr15 y Pr16, respectivamente, en ambos lados de la región de modificación epigenética. Además, a partir de los conjuntos de cebadores distintos utilizados para las diferentes moléculas de estado epigenético en diferentes subconjuntos, se puede estimar una medida del número de moléculas de ácido nucleico de control epigenético que pertenecen a un estado epigenético particular en un subconjunto particular mediante ddPCR o PCR cuantitativa (qPCR). En esta forma de realización, a partir de la secuencia de código de barras del estado epigenético y la secuencia de la región de modificación epigenética, se puede determinar el número de díadas CpG en la región de modificación epigenética y el número de díadas CpG completamente metiladas en la región de modificación epigenética.

[0181] FIG. 7 es una representación esquemática de moléculas de ácido nucleico de control epigenético adecuadas para su uso con algunas formas de realización de la divulgación. Las moléculas de ácido nucleico de control epigenético descritas en el presente documento pueden tener en cuenta los efectos específicos de la posición de las díadas CpG completamente metiladas durante la partición de las moléculas de ácido nucleico. En la FIG. 7, las moléculas de ácido nucleico de control epigenético se agrupan en cinco subconjuntos. La longitud de secuencia y la composición de secuencia de la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético son las mismas en todos los subconjuntos. Cada subconjunto tiene dos díadas CpG completamente metiladas, pero la posición de las dos díadas CpG completamente metiladas varía con los subconjuntos (es decir, la distancia entre las dos díadas CpG completamente metiladas varía con los subconjuntos). En el subconjunto 1, las dos díadas CpG completamente metiladas están muy separadas, mientras que en el subconjunto 4, las dos díadas CpG completamente metiladas están muy cerca una de la otra. En este documento, la región identificadora está en ambos lados de la región de modificación epigenética. La región identificadora en ambos lados tiene un código de barras de estado epigenético (ESB) y un código de barras molecular (MB). El código de barras molecular se utiliza como un identificador de la molécula de ácido nucleico de control epigenético individual y cada molécula de ácido nucleico de control epigenético tiene un código de barras molecular único, es decir, la molécula 1 tiene MB1, la molécula 2 tiene MB2, la molécula 3 tiene MB3 y así sucesivamente. Estos subconjuntos tendrán diferentes afinidades de unión basadas en la influencia de las posiciones de las díadas CpG completamente metiladas. En este documento, el código de barras de estado epigenético se puede utilizar para identificar la posición de las díadas CpG completamente metiladas. Todas las moléculas de ácido nucleico de control epigenético del subconjunto 1 tienen dos díadas CpG completamente metiladas en la misma posición, por lo que las moléculas de ácido nucleico de control epigenético del subconjunto 1 tienen el mismo código de barras de estado epigenético: ESB1. Asimismo, todas las moléculas de ácido nucleico de control epigenético de los subconjuntos 2, 3, 4 y 5 tienen un código de barras de estado epigenético de ESB2, ESB3 y ESB4 respectivamente. En este ejemplo, el mismo código de barras de estado epigenético se encuentra en ambos lados de la región de modificación epigenética.

[0182] En otro aspecto, la presente divulgación proporciona una población de ácidos nucleicos, que comprende: un conjunto de moléculas de ácido nucleico de control epigenético, en donde el conjunto de moléculas de ácido nucleico de control epigenético comprende uno o más subconjuntos de moléculas de ácido nucleico de control epigenético, en donde cada subconjunto comprende una pluralidad de moléculas de ácido nucleico de control epigenético, y cada molécula de ácido nucleico de control epigenético comprende una región de modificación epigenética; y un conjunto de moléculas de ácido nucleico en una muestra de polinucleótidos de un sujeto.

[0183] En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden tener (i) una secuencia correspondiente a regiones de ADN del fago lambda o genoma humano, (ii) una secuencia que no se produce de forma natural y/o (iii) una combinación de (i) y (ii). En algunas formas de realización, las moléculas de ácido nucleico de control epigenético pueden comprender una secuencia que no se produce de forma natural.

[0184] En algunas formas de realización, la muestra de polinucleótidos es una muestra de ADN, una muestra de ARN, una muestra de polinucleótidos libres de células, una muestra de ADN libre de células o una muestra de ARN libre de células. En algunas formas de realización, la muestra de polinucleótidos es una muestra de ADN libre de células.

[0185] En algunas formas de realización, el ADN libre de células es al menos 1 ng, al menos 5 ng, al menos 10 ng, al menos 15 ng, al menos 20 ng, al menos 30 ng, al menos 50 ng, al menos 75 ng, al menos 100 ng, al menos 150 ng, al menos 200 ng, al menos 250 ng, al menos 300 ng, al menos 350 ng, al menos 400 ng, al menos 450 ng o al menos 500 ng.

[0186] En algunas formas de realización, la cantidad de moléculas de ácido nucleico de control epigenético es de al menos 1 femtomol, al menos 2 femtomol, al menos 5 femtomol, al menos 10 femtomol, al menos 15 femtomol, al menos 20 femtomol, al menos 50 femtomol, al menos 75 femtomol, al menos 100 femtomol, al menos 125 femtomol, al menos 150 femtomol o al menos 200 femtomol.

III. Características generales de los métodos

A. Muestras

[0198] Una muestra puede ser cualquier muestra biológica aislada de un sujeto. Las muestras pueden incluir tejidos corporales, sangre completa, plaquetas, suero, plasma, heces, glóbulos rojos, glóbulos blancos o leucocitos, células endoteliales, biopsias de tejido (por ejemplo, biopsias de tumores sólidos conocidos o sospechosos), líquido cefalorraquídeo, líquido sinovial, líquido linfático, líquido ascítico, líquido intersticial o extracelular (por ejemplo, líquido de espacios intercelulares), líquido gingival, líquido crevicular, médula ósea, derrames pleurales, líquido cefalorraquídeo, saliva, mucosidad, esputo, semen, sudor y orina. Las muestras pueden ser fluidos corporales, como sangre y fracciones de los mismos, y orina. Dichas muestras pueden incluir ácidos nucleicos desprendidos de tumores. Los ácidos nucleicos pueden incluir ADN y ARN y pueden estar en formas bicatenarias y monocatenarias. Una muestra puede estar en la forma en que se aisló originalmente de un sujeto o puede haber sido sometida a un procesamiento adicional para eliminar o agregar componentes, como células, enriquecer un componente en relación con otro, o convertir una forma de ácido nucleico en otra, como ARN en ADN o ácidos nucleicos monocatenarios en bicatenarios. Así, por ejemplo, un fluido corporal para análisis puede ser plasma o suero que contenga ácidos nucleicos libres de células, por ejemplo, ADN libre de células (ADNlc).

[0199] En algunas formas de realización, el volumen de muestra de fluido corporal extraído de un sujeto depende de la profundidad de lectura deseada para las regiones secuenciadas. Algunos ejemplos de volúmenes son aproximadamente 0,4-40 mililitros (mL), aproximadamente 5-20 mL, aproximadamente 10-20 mL. Por ejemplo, el volumen puede ser aproximadamente 0,5 mL, aproximadamente 1 mL, aproximadamente 5 mL, aproximadamente 10 mL, aproximadamente 20 mL, aproximadamente 30 mL, aproximadamente 40 mL o más mililitros. Un volumen de plasma muestreado normalmente está entre aproximadamente 5 mL y aproximadamente 20 mL.

[0200] La muestra puede comprender diversas cantidades de ácido nucleico. Normalmente, la cantidad de ácido nucleico en una muestra dada es equivalente a múltiples equivalentes de genoma. Por ejemplo, una muestra de aproximadamente 30 nanogramos (ng) de ADN puede contener aproximadamente 10.000 (104) equivalentes de genoma humano haploide y, en el caso de ADNlc, aproximadamente 200 mil millones (2 x 1011) de moléculas de polinucleótidos individuales. De manera similar, una muestra de aproximadamente 100 ng de ADN puede contener aproximadamente 30.000 equivalentes de genoma humano haploide y, en el caso de ADNlc, aproximadamente 600 mil millones de moléculas individuales.

[0201] En algunas formas de realización, una muestra comprende ácidos nucleicos de diferentes fuentes, por ejemplo, de células y de fuentes libres de células (por ejemplo, muestras de sangre, etc.). Normalmente, una muestra incluye ácidos nucleicos que portan mutaciones. Por ejemplo, una muestra comprende opcionalmente ADN que porta mutaciones de la línea germinal y/o mutaciones somáticas. Normalmente, una muestra comprende ADN que porta mutaciones asociadas al cáncer (por ejemplo, mutaciones somáticas asociadas al cáncer).

[0202] Las cantidades de ejemplo de ácidos nucleicos libres de células en una muestra antes de la amplificación varían típicamente de aproximadamente 1 femtogramo (fg) a aproximadamente 1 microgramo (|jg), por ejemplo, de aproximadamente 1 picogramo (pg) a aproximadamente 200 nanogramos (ng), de aproximadamente 1 ng a aproximadamente 100 ng, de aproximadamente 10 ng a aproximadamente 1000 ng. En algunas formas de realización, una muestra incluye hasta aproximadamente 600 ng, hasta aproximadamente 500 ng, hasta aproximadamente 400 ng, hasta aproximadamente 300 ng, hasta aproximadamente 200 ng, hasta aproximadamente 100 ng, hasta aproximadamente 50 ng o hasta aproximadamente 20 ng de moléculas de ácidos nucleicos libres de células. Opcionalmente, la cantidad es de al menos aproximadamente 1 fg, al menos aproximadamente 10 fg, al menos aproximadamente 100 fg, al menos aproximadamente 1 pg, al menos aproximadamente 10 pg, al menos aproximadamente 100 pg, al menos aproximadamente 1 ng, al menos aproximadamente 10 ng, al menos aproximadamente 100 ng, al menos aproximadamente 150 ng, o al menos aproximadamente 200 ng de moléculas de ácido nucleico libres de células. En algunas formas de realización, la cantidad es de hasta aproximadamente 1 fg, aproximadamente 10 fg, aproximadamente 100 fg, aproximadamente 1 pg, aproximadamente 10 pg, aproximadamente 100 pg, aproximadamente 1 ng, aproximadamente 10 ng, aproximadamente 100 ng, aproximadamente 150 ng, o aproximadamente 200 ng de moléculas de ácido nucleico libres de células. En algunas formas de realización, los métodos incluyen obtener entre aproximadamente 1 fg y aproximadamente 200 ng de moléculas de ácido nucleico libres de células a partir de muestras.

[0203] Los ácidos nucleicos libres de células tienen típicamente una distribución de tamaño de entre aproximadamente 100 nucleótidos de longitud y aproximadamente 500 nucleótidos de longitud, con moléculas de aproximadamente 110 nucleótidos de longitud a aproximadamente 230 nucleótidos de longitud que representan aproximadamente el 90 % de las moléculas en la muestra, con una moda de aproximadamente 168 nucleótidos de longitud (en muestras de sujetos humanos) y un segundo pico menor en un rango de entre aproximadamente 240 nucleótidos a aproximadamente 440 nucleótidos de longitud. En algunas formas de realización, los ácidos nucleicos libres de células tienen de aproximadamente 160 nucleótidos a aproximadamente 180 nucleótidos de longitud, o de aproximadamente 320 nucleótidos a aproximadamente 360 nucleótidos de longitud, o de aproximadamente 440 nucleótidos a aproximadamente 480 nucleótidos de longitud.

[0204] En algunas formas de realización, los ácidos nucleicos libres de células se aíslan de los fluidos corporales a través de un paso de partición en el que los ácidos nucleicos libres de células, tal como se encuentran en solución, se separan de las células intactas y otros componentes no solubles del fluido corporal. En algunas formas de realización, la partición incluye técnicas como la centrifugación o la filtración. Alternativamente, las células en fluidos corporales pueden lisarse, y los ácidos nucleicos libres de células y celulares pueden procesarse juntos. Generalmente, después de la adición de tampones y pasos de lavado, los ácidos nucleicos libres de células pueden precipitarse con, por ejemplo, un alcohol. En algunas formas de realización, se utilizan pasos de limpieza adicionales, como columnas a base de sílice para eliminar contaminantes o sales. Los ácidos nucleicos portadores a granel no específicos, por ejemplo, se agregan opcionalmente a lo largo de la reacción para optimizar aspectos del procedimiento de ejemplo, como el rendimiento. Después de dicho procesamiento, las muestras incluyen típicamente diversas formas de ácidos nucleicos, incluyendo ADN bicatenario, ADN monocatenario y/o ARN monocatenario. Opcionalmente, el ADN monocatenario y/o el ARN monocatenario se convierten en formas bicatenarias para que se incluyan en los pasos de procesamiento y análisis posteriores.

B. Etiquetado

[0205] En algunas formas de realización, las moléculas de ácido nucleico (de la muestra de polinucleótidos) pueden etiquetarse con índices de muestra y/o códigos de barras moleculares (denominados generalmente "etiquetas"). Las etiquetas pueden incorporarse o unirse de otro modo a adaptadores mediante síntesis química, ligadura (por ejemplo, ligadura de extremos romos o ligadura de extremos pegajosos) o reacción en cadena de polimerasa (PCR) de extensión superpuesta, entre otros métodos. Dichos adaptadores pueden unirse finalmente a la molécula de ácido nucleico diana. En otras formas de realización, generalmente se aplican una o más rondas de ciclos de amplificación (por ejemplo, amplificación por PCR) para introducir índices de muestra en una molécula de ácido nucleico utilizando métodos de amplificación de ácido nucleico convencionales. Las amplificaciones pueden llevarse a cabo en una o más mezclas de reacción (por ejemplo, una pluralidad de micropocillos en una matriz). Los códigos de barras moleculares y/o los índices de muestra pueden introducirse simultáneamente o en cualquier orden secuencial. En algunas formas de realización, los códigos de barras moleculares y/o los índices de muestra se introducen antes y/o después de que se realicen los pasos de captura de secuencia. En algunas formas de realización, solo se introducen los códigos de barras moleculares antes de la captura de la sonda y los índices de muestra se introducen después de que se realizan los pasos de captura de secuencia. En algunas formas de realización, tanto los códigos de barras moleculares como los índices de muestra se introducen antes de realizar los pasos de captura basados en sonda. En algunas formas de realización, los índices de muestra se introducen después de que se realizan los pasos de captura de secuencia. En algunas formas de realización, los códigos de barras moleculares se incorporan a las moléculas de ácido nucleico (por ejemplo, moléculas de ADNlc) en una muestra a través de adaptadores mediante ligadura (por ejemplo, ligadura de extremos romos o ligadura de extremos pegajosos). En algunas formas de realización, los índices de muestra se incorporan a las moléculas de ácido nucleico (por ejemplo, moléculas de ADNlc) en una muestra a través de la reacción en cadena de la polimerasa (PCR) de extensión por superposición. Normalmente, los protocolos de captura de secuencia implican la introducción de una molécula de ácido nucleico monocatenario complementaria a una secuencia de ácido nucleico diana, por ejemplo, una secuencia codificante de una región genómica y la mutación de dicha región está asociada con un tipo de cáncer.

[0206] En algunas formas de realización, las etiquetas pueden estar ubicadas en un extremo o en ambos extremos de la molécula de ácido nucleico de muestra. En algunas formas de realización, las etiquetas son oligonucleótidos de secuencia predeterminada o aleatoria o semialeatoria. En algunas formas de realización, las etiquetas pueden tener una longitud de menos de aproximadamente 500, 200, 100, 50, 20, 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 nucleótidos. Las etiquetas pueden estar vinculadas a ácidos nucleicos de muestra de forma aleatoria o no aleatoria.

[0207] En algunas formas de realización, cada muestra está etiquetada de forma única con un índice de muestra o una combinación de índices de muestra. En algunas formas de realización, cada molécula de ácido nucleico de una muestra o submuestra está etiquetada de forma única con un código de barras molecular o una combinación de códigos de barras moleculares. En otras formas de realización, se puede utilizar una pluralidad de códigos de barras moleculares de forma que los códigos de barras moleculares no sean necesariamente únicos entre sí en la pluralidad (por ejemplo, códigos de barras moleculares no únicos). En estas formas de realización, los códigos de barras moleculares están generalmente unidos (por ejemplo, por ligadura) a moléculas individuales de forma que la combinación del código de barras molecular y la secuencia a la que puede estar unido crea una secuencia única que puede rastrearse individualmente. La detección de códigos de barras moleculares no etiquetados de forma única en combinación con información de secuencia endógena (por ejemplo, la ubicación/posición genómica inicial (inicio) y/o final (fin) correspondiente a la secuencia de la molécula de ácido nucleico original en la muestra, subsecuencias de lecturas de secuencia en uno o ambos extremos, longitud de lecturas de secuencia y/o longitud de la molécula de ácido nucleico original en la muestra) normalmente permite la asignación de una identidad única a una molécula particular. En algunas formas de realización, la detección de códigos de barras moleculares no etiquetados de forma única en combinación con información de secuencia endógena (por ejemplo, la región inicial (inicio) y/o final (fin) de la alineación de las lecturas de secuencia con la secuencia de referencia, subsecuencias de lecturas de secuencia en uno o ambos extremos, longitud de lecturas de secuencia y/o longitud de la molécula de ácido nucleico original en la muestra) normalmente permite la asignación de una identidad única a una molécula particular. En algunas formas de realización, la región de inicio comprende una posición de inicio genómica de la lectura de secuenciación en la que se determina que el extremo 5' de la lectura de secuenciación comienza a alinearse con la secuencia de referencia y la región final comprende una posición de detención genómica de la lectura de secuenciación en la que se determina que el extremo 3' de la lectura de secuenciación deja de alinearse con la secuencia de referencia. En algunas formas de realización, la región de inicio comprende las primeras 1, las primeras 2, las primeras 5, las primeras 10, las primeras 15, las primeras 20, las primeras 25, las primeras 30 o al menos las primeras 30 posiciones de base en el extremo 5' de la lectura de secuenciación que se alinean con la secuencia de referencia. En algunas formas de realización, la región final comprende las últimas 1, las últimas 2, las últimas 5, las últimas 10, las últimas 15, las últimas 20, las últimas 25, las últimas 30 o al menos las últimas 30 posiciones de base en el extremo 3' de la lectura de secuenciación que se alinean con la secuencia de referencia.

[0208] La longitud o el número de pares de bases de una lectura de secuencia individual también se utilizan opcionalmente para asignar una identidad única a una molécula dada. Como se describe en el presente documento, los fragmentos de una sola cadena de ácido nucleico a los que se les ha asignado una identidad única pueden permitir la identificación posterior de fragmentos de la cadena original y/o de una cadena complementaria.

[0209] En algunas formas de realización, los códigos de barras moleculares se introducen en una proporción esperada de un conjunto de identificadores (por ejemplo, una combinación de códigos de barras moleculares únicos o no únicos) con respecto a las moléculas en una muestra. Un formato de ejemplo utiliza de aproximadamente 2 a aproximadamente 1.000.000 de secuencias de códigos de barras moleculares diferentes, o de aproximadamente 5 a aproximadamente 150 secuencias de códigos de barras moleculares diferentes, o de aproximadamente 20 a aproximadamente 50 secuencias de códigos de barras moleculares diferentes, ligadas a ambos extremos de una molécula diana. Alternativamente, se pueden utilizar de aproximadamente 25 a aproximadamente 1.000.000 de secuencias de códigos de barras moleculares diferentes. Por ejemplo, se pueden utilizar 20-50 x 20-50 secuencias de códigos de barras moleculares (es decir, una de las 20-50 secuencias de códigos de barras moleculares diferentes se puede unir a cada extremo de la molécula diana). Tales cantidades de identificadores son normalmente suficientes para que diferentes moléculas que tienen los mismos puntos de inicio y de fin tengan una alta probabilidad (por ejemplo, al menos 94 %, 99,5 %, 99,99 % o 99,999 %) de recibir diferentes combinaciones de identificadores. En algunas formas de realización, aproximadamente 80 %, aproximadamente 90 %, aproximadamente 95 % o aproximadamente 99 % de las moléculas tienen las mismas combinaciones de códigos de barras moleculares.

[0210] En algunas formas de realización, la asignación de códigos de barras moleculares únicos o no únicos en las reacciones se realiza utilizando métodos y sistemas descritos, por ejemplo, en las solicitudes de Patente de EE. UU. N.° 20010053519, 20030152490 y 20110160078, y las patentes de EE. UU. N.° 6.582.908, 7.537.898, 9.598.731 y 9.902.992. Alternativamente, en algunas formas de realización, se pueden identificar diferentes moléculas de ácido nucleico de una muestra utilizando solo información de secuencia endógena (por ejemplo, posiciones de inicio y/o detención, subsecuencias de uno o ambos extremos de una secuencia y/o longitudes).

[0211] Un código de barras de estado epigenético (ESB) es un tipo de etiqueta que se adhiere a la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético. El ESB se puede utilizar como un identificador del estado epigenético de la molécula de ácido nucleico de control epigenético. Puede referirse al número de nucleótidos con modificación epigenética en la región de modificación epigenética de la molécula de ácido nucleico de control epigenético. En algunas formas de realización, la región identificadora de la molécula de ácido nucleico de control epigenético comprende al menos un código de barras de estado epigenético. En algunas formas de realización, el ESB es una parte de la región identificadora de la molécula de ácido nucleico de control epigenético. Por ejemplo, si la modificación epigenética es la metilación del ADN y un subconjunto de las moléculas de ácido nucleico de control epigenético tiene 5 nucleótidos metilados, entonces todas las moléculas de ácido nucleico de control epigenético dentro de ese subconjunto tendrán el mismo código de barras de estado epigenético. En algunas formas de realización, el código de barras del estado epigenético se puede utilizar para identificar el nivel/grado de modificación epigenética de la región de modificación epigenética de la molécula de ácido nucleico de control epigenético. Las moléculas de ácido nucleico de control epigenético se pueden agrupar en subconjuntos en función del número de nucleótidos de citosina o CpG en la región de modificación epigenética. En algunas formas de realización, dentro de cada subconjunto, el nivel de metilación puede variar (por ejemplo, altamente metilado, intermediamente metilado y poco metilado) y cada nivel de metilación puede tener un código de barras del estado epigenético independiente. Por ejemplo, dentro del subconjunto A, todas las moléculas de ácido nucleico de control epigenético que están poco metiladas tienen un código de barras del estado epigenético, por ejemplo, ESB1, y todas las moléculas de ácido nucleico de control epigenético que están altamente metiladas tienen otro código de barras del estado epigenético, por ejemplo, ESB3. En este ejemplo, el código de barras del estado epigenético se utiliza para identificar el nivel/grado de metilación.

[0212] En algunas formas de realización, la asignación de códigos de barras moleculares únicos o no únicos en reacciones se realiza utilizando métodos y sistemas descritos, por ejemplo, en las solicitudes de Patente de EE. UU. números 20010053519, 20030152490 y 20110160078, y las patentes de EE. UU. números 6.582.908, 7.537.898, 9.598.731 y 9.902.992.

C. Amplificación

[0213] Los ácidos nucleicos de muestra pueden estar flanqueados por adaptadores y amplificados por PCR y otros métodos de amplificación utilizando cebadores de ácidos nucleicos que se unen a los sitios de unión de cebadores en adaptadores que flanquean una molécula de ADN que se va a amplificar. En algunas formas de realización, los métodos de amplificación implican ciclos de extensión, desnaturalización y anillamiento resultantes del termociclado, o pueden ser isotérmicos como, por ejemplo, en la amplificación mediada por transcripción. Otros ejemplos de métodos de amplificación que pueden utilizarse opcionalmente incluyen la reacción en cadena de la ligasa, la amplificación por desplazamiento de cadena, la amplificación basada en secuencias de ácidos nucleicos y la replicación basada en secuencias autosostenidas.

[0214] Por lo general, las reacciones de amplificación generan una pluralidad de amplicones de ácidos nucleicos marcados de forma no única o de forma única con códigos de barras moleculares e índices de muestra con un tamaño que varía de aproximadamente 150 nucleótidos (nt) a aproximadamente 700 nt, de 250 nt a aproximadamente 350 nt, o de aproximadamente 320 nt a aproximadamente 550 nt. En algunas formas de realización, los amplicones tienen un tamaño de aproximadamente 180 nt. En algunas formas de realización, los amplicones tienen un tamaño de aproximadamente 200 nt.

D. Enriquecimiento

[0215] En algunas formas de realización, las secuencias se enriquecen antes de secuenciar los ácidos nucleicos. El enriquecimiento se realiza opcionalmente para regiones objetivo específicas o de forma no específica ("secuencias objetivo"). En algunas formas de realización, las regiones objetivo de interés pueden enriquecerse con sondas de captura de ácidos nucleicos ("cebos") seleccionadas para uno o más paneles de conjuntos de cebos utilizando un esquema de captura y mosaico diferencial. Un esquema de captura y mosaico diferencial generalmente utiliza conjuntos de cebos de diferentes concentraciones relativas para realizar mosaicos diferenciales (por ejemplo, a diferentes "resoluciones") en las regiones genómicas asociadas con los cebos, sujetos a un conjunto de restricciones (por ejemplo, restricciones del secuenciador como carga de secuenciación, utilidad de cada cebo, etc.), y capturar los ácidos nucleicos objetivo a un nivel deseado para la secuenciación posterior. Estas regiones genómicas objetivo de interés incluyen opcionalmente secuencias de nucleótidos naturales o sintéticas del constructo de ácido nucleico. En algunas formas de realización, se pueden usar perlas marcadas con biotina con sondas para una o más regiones de interés para capturar secuencias objetivo, y opcionalmente seguir con la amplificación de esas regiones, para enriquecer las regiones de interés.

[0216] La captura de secuencias normalmente implica el uso de sondas de oligonucleótidos que se hibridan con la secuencia de ácido nucleico diana. En algunas formas de realización, una estrategia de conjunto de sondas implica la disposición en mosaico de las sondas a lo largo de una región de interés. Dichas sondas pueden tener, por ejemplo, una longitud de aproximadamente 60 a aproximadamente 120 nucleótidos. El conjunto puede tener una profundidad (por ejemplo, profundidad de cobertura) de aproximadamente 2X, 3X, 4X, 5X, 6X, 7X, 8X, 9x , 10X, 15X, 20X, 50X o más que 50X. La eficacia de la captura de secuencias depende generalmente, en parte, de la longitud de la secuencia en la molécula diana que es complementaria (o casi complementaria) a la secuencia de la sonda.

E. Secuenciación

[0217] Los ácidos nucleicos de muestra, opcionalmente flanqueados por adaptadores, con o sin amplificación previa, generalmente se someten a secuenciación. Los métodos de secuenciación o formatos disponibles comercialmente que se utilizan opcionalmente incluyen, por ejemplo, secuenciación de Sanger, secuenciación de alto rendimiento, pirosecuenciación, secuenciación por síntesis, secuenciación de una sola molécula, secuenciación basada en nanoporos, secuenciación de semiconductores, secuenciación por ligación, secuenciación por hibridación, RNA-Seq (Illumina), expresión génica digital (Helicos), secuenciación de próxima generación (NGS), secuenciación de una sola molécula por síntesis (SMSS) (Helicos), secuenciación masivamente paralela, matriz de una sola molécula clonal (Solexa), secuenciación shotgun, Ion Torrent, Oxford Nanopore, Roche Genia, secuenciación Maxim Gilbert, primer walking, secuenciación utilizando plataformas PacBio, SOLiD, Ion Torrent o Nanopore. Las reacciones de secuenciación se pueden realizar en una variedad de unidades de procesamiento de muestras, que pueden incluir múltiples carriles, múltiples canales, múltiples pocillos u otros medios para procesar múltiples conjuntos de muestras de manera prácticamente simultánea. Las unidades de procesamiento de muestras también pueden incluir múltiples cámaras de muestras para permitir el procesamiento de múltiples ejecuciones simultáneamente.

[0218] Las reacciones de secuenciación se pueden realizar en uno o más tipos de fragmentos de ácido nucleico o regiones que se sabe que contienen marcadores de cáncer o de otras enfermedades. Las reacciones de secuenciación también se pueden realizar en cualquier fragmento de ácido nucleico presente en la muestra. Las reacciones de secuenciación se pueden realizar en al menos aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, 99 %, 99,9 % o 100 % del genoma. En otros casos, las reacciones de secuenciación pueden realizarse en menos de aproximadamente el 5 %, 10 %, 15 %, 20 %, 25 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, 99 %, 99,9 % o 100 % del genoma.

[0219] Se pueden realizar reacciones de secuenciación simultáneas utilizando técnicas de secuenciación multiplex. En algunas formas de realización, los polinucleótidos libres de células se secuencian con al menos aproximadamente 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000 o 100000 reacciones de secuenciación. En otras formas de realización, los polinucleótidos libres de células se secuencian con menos de aproximadamente 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000 o 100 000 reacciones de secuenciación. Las reacciones de secuenciación se realizan típicamente de forma secuencial o simultánea. El análisis de datos posterior se realiza generalmente en todas o parte de las reacciones de secuenciación. En algunas formas de realización, el análisis de datos se realiza en al menos aproximadamente 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000 o 100 000 reacciones de secuenciación. En otras formas de realización, el análisis de datos se puede realizar en menos de aproximadamente 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000 o 100 000 reacciones de secuenciación. Un ejemplo de una profundidad de lectura es de aproximadamente 1000 a aproximadamente 50 000 lecturas por locus (por ejemplo, posición de base).

F. Análisis

[0220] La secuenciación puede generar una pluralidad de lecturas de secuenciación o lecturas de secuenciación. Las lecturas de secuenciación o lecturas de secuenciación pueden incluir secuencias de datos de nucleótidos de menos de aproximadamente 150 bases de longitud, o de menos de aproximadamente 90 bases de longitud. En algunas formas de realización, las lecturas tienen entre aproximadamente 80 bases y aproximadamente 90 bases, por ejemplo, aproximadamente 85 bases de longitud. En algunas formas de realización, los métodos de la presente divulgación se aplican a lecturas muy cortas, por ejemplo, de menos de aproximadamente 50 bases o aproximadamente 30 bases de longitud. Los datos de lectura de secuenciación pueden incluir los datos de secuencia, así como también metainformación. Los datos de lectura de secuenciación se pueden almacenar en cualquier formato de archivo adecuado, incluidos, por ejemplo, archivos VCP, archivos FASTA o archivos FASTQ.

[0221] FASTA puede hacer referencia a un programa informático para buscar bases de datos de secuencias, y el nombre FASTA también puede hacer referencia a un formato de archivo estándar. Por ejemplo, FASTA se describe en, por ejemplo, Pearson & Lipman, 1988, Improved tools for biological sequence comparison, PNAS 85:2444-2448, ■ Una secuencia en formato FASTA comienza con una descripción de una sola línea, seguida de líneas de datos de secuencia. La línea de descripción se distingue de los datos de secuencia por un símbolo mayor que (">") en la primera columna. La palabra que sigue al símbolo ">" es el identificador de la secuencia, y el resto de la línea es la descripción (ambos son opcionales). No debe haber espacio entre el ">" y la primera letra del identificador. Se recomienda que todas las líneas de texto tengan menos de 80 caracteres. La secuencia termina si aparece otra línea que comience con un ">"; esto indica el comienzo de otra secuencia.

[0222] El formato FASTQ es un formato basado en texto para almacenar tanto una secuencia biológica (normalmente una secuencia de nucleótidos) como sus puntuaciones de calidad correspondientes. Es similar al formato FASTA, pero con puntuaciones de calidad a continuación de los datos de la secuencia. Tanto la letra de la secuencia como la puntuación de calidad se codifican con un único carácter ASCII para abreviar. El formato FASTQ es un estándar de facto para almacenar los resultados de los instrumentos de secuenciación de alto rendimiento, como el analizador de genomas Illumina, como describen, por ejemplo, Cock et al. ("The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FAS<t>Q variants", Nucleic Acids Res 38(6):1767-1771, 2009).

[0223] En el caso de los archivos FASTA y FASTQ, la metainformación incluye la línea de descripción y no las líneas de datos de secuencia. En algunas formas de realización, en el caso de los archivos FASTQ, la metainformación incluye las puntuaciones de calidad. En el caso de los archivos FASTA y FASTQ, los datos de secuencia comienzan después de la línea de descripción y están presentes normalmente utilizando algún subconjunto de códigos de ambigüedad de la IUPAC opcionalmente con "-". En una forma de realización, los datos de secuencia pueden utilizar los caracteres A, T, C, G y N, incluyendo opcionalmente "-" o U según sea necesario (por ejemplo, para representar espacios o uracilo).

[0224] En algunas formas de realización, el al menos un archivo de lectura de secuencia maestra y el archivo de salida se almacenan como archivos de texto sin formato (por ejemplo, utilizando una codificación como ASCII; ISO/IEC 646; EBCDIC; UTP-8; o UTP-16). Un sistema informático proporcionado por la presente divulgación puede incluir un programa de edición de texto capaz de abrir los archivos de texto sin formato. Un programa de edición de texto puede referirse a un programa informático capaz de presentar el contenido de un archivo de texto (como un archivo de texto sin formato) en una pantalla de ordenador, lo que permite que un ser humano edite el texto (por ejemplo, utilizando un monitor, un teclado y un ratón). Los ejemplos de editores de texto incluyen, sin limitación, Microsoft Word, emacs, pico, vi, BBEdit y TextWrangler. El programa de edición de texto puede ser capaz de mostrar los archivos de texto sin formato en una pantalla de ordenador, mostrando la metainformación y las lecturas de secuencia en un formato legible para humanos (por ejemplo, no codificado en binario sino utilizando caracteres alfanuméricos como pueden utilizarse en la impresión o en la escritura humana).

[0225] Aunque se han analizado métodos con referencia a archivos FASTA o FASTQ, los métodos y sistemas de la presente divulgación se pueden utilizar para comprimir cualquier formato de archivo de secuencia adecuado, incluidos, por ejemplo, archivos en el formato de formato de llamada de variante (VCF). Un archivo VCF típico puede incluir una sección de encabezado y una sección de datos. El encabezado contiene un número arbitrario de líneas de metainformación, cada una comenzando con caracteres '##', y una línea de definición de campo delimitada por TAB que comienza con un solo carácter '#'. La línea de definición de campo nombra ocho columnas obligatorias y la sección de cuerpo contiene líneas de datos que llenan las columnas definidas por la línea de definición de campo. El formato VCF se describe, por ejemplo, por Danecek et al. ("The variantcall format and VCF tools", Bioinformatics 27(15):2156-2158, 2011). La sección de encabezado se puede tratar como la metainformación para escribir en los archivos comprimidos y la sección de datos se puede tratar como las líneas, cada una de las cuales se almacenará en un archivo maestro solo si es única.

[0226] Algunas formas de realización prevén el ensamblaje de lecturas de secuenciación. En el ensamblaje por alineación, por ejemplo, las lecturas de secuenciación se alinean entre sí o se alinean con una secuencia de referencia. Al alinear cada lectura, a su vez con un genoma de referencia, todas las lecturas se posicionan en relación entre sí para crear el ensamblaje. Además, la alineación o mapeo de la lectura de secuenciación con una secuencia de referencia también se puede utilizar para identificar secuencias variantes dentro de la lectura de secuenciación. La identificación de secuencias variantes se puede utilizar en combinación con los métodos y sistemas descritos en este documento para ayudar aún más en el diagnóstico o pronóstico de una enfermedad o afección, o para guiar las decisiones de tratamiento.

[0227] En algunas formas de realización, cualquiera o todos los pasos están automatizados. Alternativamente, los métodos de la presente divulgación pueden incorporarse total o parcialmente en uno o más programas dedicados, por ejemplo, cada uno opcionalmente escrito en un lenguaje compilado como C++, luego compilado y distribuido como un binario. Los métodos de la presente divulgación pueden implementarse total o parcialmente como módulos dentro de, o invocando funcionalidad dentro de, plataformas de análisis de secuencias existentes. En algunas formas de realización, los métodos de la presente divulgación incluyen una serie de pasos que se invocan todos automáticamente en respuesta a una única señal de inicio (por ejemplo, uno o una combinación de eventos desencadenantes provenientes de la actividad humana, otro programa informático o una máquina). Por lo tanto, la presente divulgación proporciona métodos en los que cualquiera o los pasos o cualquier combinación de los pasos pueden ocurrir automáticamente en respuesta a una señal. "Automáticamente" generalmente significa sin intervención de entrada, influencia o interacción humana (por ejemplo, en respuesta solo a la actividad humana original o previa a la señal).

[0228] Los métodos de la presente divulgación también pueden abarcar varias formas de salida, que incluyen una interpretación precisa y sensible de la muestra de ácido nucleico de un sujeto. La salida de la recuperación se puede proporcionar en el formato de un archivo de computadora. En algunas formas de realización, la salida es un archivo FASTA, un archivo FASTQ o un archivo VCF. La salida se puede procesar para producir un archivo de texto o un archivo XML que contiene datos de secuencia, como una secuencia del ácido nucleico alineada con una secuencia del genoma de referencia. En otras formas de realización, el procesamiento produce una salida que contiene coordenadas o una cadena que describe una o más mutaciones en el ácido nucleico del sujeto en relación con el genoma de referencia. Las cadenas de alineación pueden incluir el Informe de Alineación Simple sin Espacios (SUGAR), el Informe de Alineación con Espacios Etiquetados, Verbose y Útiles (VULGAR) y el Informe de Alineación con Espacios Idiosincrásicos Compactos (CIGAR) (como se describe, por ejemplo, en Ning et al., Genome Research 11(10): 1725-9, 2001). Estas cadenas pueden implementarse, por ejemplo, en el software de alineamiento de secuencias Exonerate del Instituto Europeo de Bioinformática (Hinxton, Reino Unido).

[0229] En algunas formas de realización, se produce una alineación de secuencias, como, por ejemplo, un archivo de mapa de alineación de secuencias (SAM) o mapa de alineación binaria (BAM), que comprende una cadena CIGAR (el formato SAM se describe, por ejemplo, por Li et al., "The Sequence Alignment/Map format SAMtools", Bioinformatics, 25(16):2078-9, 2009). En algunas formas de realización, CIGAR muestra o incluye alineaciones con huecos, una por línea. CIGAR es un formato de alineación por pares comprimido que se informa como una cadena CIGAR. Una cadena CIGAR puede ser útil para representar alineaciones por pares largas (por ejemplo, genómicas). Una cadena CIGAR se puede utilizar en formato SAM para representar alineaciones de lecturas con una secuencia de genoma de referencia.

[0230] Una cadena CIGAR puede seguir un motivo establecido. Cada carácter está precedido por un número, que indica los recuentos de base del evento. Los caracteres utilizados pueden incluir M, I, D, N y S (M=coincidencia; I=inserción; D=eliminación; N=espacio; S=sustitución). La cadena CIGAR define la secuencia de coincidencias/desajustes y eliminaciones (o espacios). Por ejemplo, la cadena CIGAR 2MD3M2D2M puede indicar que la alineación contiene 2 coincidencias, 1 eliminación (se omite el número 1 para ahorrar espacio), 3 coincidencias, 2 eliminaciones y 2 coincidencias.

[0231] En algunas formas de realización, se prepara una población de ácidos nucleicos para secuenciación mediante la formación enzimática de extremos romos en ácidos nucleicos bicatenarios con salientes monocatenarios en uno o ambos extremos. En estas formas de realización, la población se trata típicamente con una enzima que tiene una actividad de ADN polimerasa 5'-3' y una actividad de exonucleasa 3'-5' en presencia de los nucleótidos (por ejemplo, A, C, G y T o U). Los ejemplos de enzimas o fragmentos catalíticos de las mismas que se pueden utilizar opcionalmente incluyen el fragmento grande de Klenow y la polimerasa T4. En los salientes 5', la enzima típicamente extiende el extremo 3' rebajado en la cadena opuesta hasta que está al ras del extremo 5' para producir un extremo romo. En los salientes 3', la enzima generalmente digiere desde el extremo 3' hasta el extremo 5' de la cadena opuesta y, a veces, más allá de él. Si esta digestión continúa más allá del extremo 5' de la cadena opuesta, el espacio puede ser llenado por una enzima que tenga la misma actividad de polimerasa que se utiliza para los salientes 5'. La formación de extremos romos en los ácidos nucleicos bicatenarios facilita, por ejemplo, la unión de adaptadores y la amplificación posterior.

[0232] En algunas formas de realización, las poblaciones de ácidos nucleicos se someten a un procesamiento adicional, como la conversión de ácidos nucleicos monocatenarios en ácidos nucleicos bicatenarios y/o la conversión de ARN en ADN (por ejemplo, ADN complementario o ADNc). Estas formas de ácido nucleico también se unen opcionalmente a adaptadores y se amplifican.

[0233] Con o sin amplificación previa, los ácidos nucleicos sujetos al proceso de formación de extremos romos descrito anteriormente, y opcionalmente otros ácidos nucleicos en una muestra, pueden secuenciarse para producir ácidos nucleicos secuenciados. Un ácido nucleico secuenciado puede referirse a la secuencia de un ácido nucleico (por ejemplo, información de secuencia) o a un ácido nucleico cuya secuencia ha sido determinada. La secuenciación puede realizarse de manera que proporcione datos de secuencia de moléculas de ácido nucleico individuales en una muestra, ya sea directa o indirectamente a partir de una secuencia de consenso de productos de amplificación de una molécula de ácido nucleico individual en la muestra.

[0234] En algunas formas de realización, los ácidos nucleicos bicatenarios con salientes monocatenarios en una muestra después de la formación de extremos romos se unen en ambos extremos a adaptadores que incluyen códigos de barras, y la secuenciación determina las secuencias de ácidos nucleicos, así como los códigos de barras en línea introducidos por los adaptadores. Las moléculas de ADN de extremos romos se ligan opcionalmente a un extremo romo de un adaptador al menos parcialmente bicatenario (por ejemplo, un adaptador en forma de Y o en forma de campana). Alternativamente, los extremos romos de los ácidos nucleicos de muestra y los adaptadores se pueden unir con nucleótidos complementarios para facilitar la ligadura (por ejemplo, ligadura de extremos pegajosos).

[0235] La muestra de ácido nucleico se pone en contacto normalmente con una cantidad suficiente de adaptadores de modo que exista una baja probabilidad (por ejemplo, menos de aproximadamente 1 o 0,1 %) de que dos copias cualesquiera del mismo ácido nucleico reciban la misma combinación de códigos de barras de adaptadores de los adaptadores unidos en ambos extremos. El uso de adaptadores de esta manera puede permitir la identificación de familias de secuencias de ácidos nucleicos con los mismos puntos de inicio y de fin en un ácido nucleico de referencia y unidos a la misma combinación de códigos de barras. Dicha familia puede representar secuencias de productos de amplificación de un ácido nucleico en la muestra antes de la amplificación. Las secuencias de los miembros de la familia se pueden compilar para derivar uno o más nucleótidos de consenso o una secuencia de consenso completa para una molécula de ácido nucleico en la muestra original, modificada por la formación de extremos romos y la unión de adaptadores. En otras palabras, el nucleótido que ocupa una posición específica de un ácido nucleico en la muestra se puede determinar como el consenso de nucleótidos que ocupan esa posición correspondiente en las secuencias de los miembros de la familia. Las familias pueden incluir secuencias de una o ambas cadenas de un ácido nucleico bicatenario. Si los miembros de una familia incluyen secuencias de ambas cadenas de un ácido nucleico bicatenario, las secuencias de una cadena pueden convertirse en sus complementos con el fin de compilar secuencias para derivar nucleótidos o secuencias de consenso. Algunas familias incluyen solo una secuencia de un solo miembro. En este caso, esta secuencia puede tomarse como la secuencia de un ácido nucleico en la muestra antes de la amplificación. Alternativamente, las familias con solo una secuencia de un solo miembro pueden eliminarse del análisis posterior.

[0236] Las variaciones de nucleótidos (por ejemplo, SNV o indels) en ácidos nucleicos secuenciados se pueden determinar comparando los ácidos nucleicos secuenciados con una secuencia de referencia. La secuencia de referencia es a menudo una secuencia conocida, por ejemplo, una secuencia de genoma completo o parcial conocida de un sujeto (por ejemplo, una secuencia de genoma completo de un sujeto humano). La secuencia de referencia puede ser, por ejemplo, hG19 o hG38. Los ácidos nucleicos secuenciados pueden representar secuencias determinadas directamente para un ácido nucleico en una muestra, o un consenso de secuencias de productos de amplificación de dicho ácido nucleico, como se describió anteriormente. Se puede realizar una comparación en una o más posiciones designadas en una secuencia de referencia. Se puede identificar un subconjunto de ácidos nucleicos secuenciados que incluya una posición que corresponda con una posición designada de la secuencia de referencia cuando las secuencias respectivas estén alineadas al máximo. Dentro de dicho subconjunto se puede determinar cuáles, si los hay, los ácidos nucleicos secuenciados incluyen una variación de nucleótido en la posición designada, y opcionalmente cuáles, si los hay, incluyen un nucleótido de referencia (por ejemplo, el mismo que en la secuencia de referencia). Si el número de ácidos nucleicos secuenciados en el subconjunto que incluye una variante de nucleótido excede un umbral seleccionado, entonces se puede llamar a un nucleótido variante en la posición designada. El umbral puede ser un número simple, tal como al menos 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10 ácidos nucleicos secuenciados dentro del subconjunto que incluye la variante de nucleótido o puede ser una proporción, tal como al menos 0,5, 1, 2, 3, 4, 5, 10, 15 o 20, de ácidos nucleicos secuenciados dentro del subconjunto que incluyen la variante de nucleótido, entre otras posibilidades. La comparación se puede repetir para cualquier posición designada de interés en la secuencia de referencia. A veces se puede realizar una comparación para posiciones designadas que ocupan al menos aproximadamente 20, 100, 200 o 300 posiciones contiguas en una secuencia de referencia, por ejemplo, aproximadamente 20-500 o aproximadamente 50-300 posiciones contiguas.

[0237] También se proporcionan detalles adicionales sobre la secuenciación de ácidos nucleicos, incluidos los formatos y aplicaciones descritos en este documento, en, por ejemplo, Levy et al., Annual Review of Genomics and Human Genetics, 17: 95-115 (2016), Liu et al., J. of Biomedicine and Biotechnology, Volumen 2012, ID de artículo 251364:1-11 (2012), Voelkerding et al., Clinical Chem., 55: 641-658 (2009), MacLean et al., Nature Rev. Microbial., 7: 287-296 (2009), Astier et al., J Am Chem Soc., 128(5):1705-10 (2006), Patente de EE. UU. N.° 6.210.891, Patente de EE. UU. N.° 6.258.568, Patente de EE. UU. N.° 6.258.568. N.° 6.833.246, Patente de EE. UU. N.° 7.115.400, Patente de EE. UU. N.° 6.969.488, Patente de EE. UU. N.° 5.912.148, Patente de EE. UU. N.° 6.130.073, Patente de EE. UU. N.° 7.169.560, Patente de EE. UU. N.° 7.282.337, Patente de EE. UU. N.° 7.482.120, Patente de EE. UU. N.° 7.501.245, Patente de EE. UU. N.° 6.818.395, Patente de EE. UU. N.° 6.911.345, Patente de EE. UU. N.° 7.501.245, Patente de EE. UU. N.° 7.329.492, Patente de EE. UU. N.° 7.170.050, Patente de EE. UU. N.° 7.302.146, Patente de EE. UU. N° 7.313.308 y Patente de EE. UU. N° 7.476.503.

IV. Sistemas informáticos

[0238] Los métodos de la presente divulgación se pueden implementar utilizando, o con la ayuda de sistemas informáticos. Por ejemplo, dichos métodos pueden comprender (a) añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de este modo una muestra enriquecida; (b) dividir las moléculas de ácido nucleico de la muestra enriquecida en una pluralidad de conjuntos divididos; (c) enriquecer un subconjunto de moléculas de la pluralidad de conjuntos divididos para generar una pluralidad de moléculas enriquecidas, en donde la pluralidad de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de control epigenético y un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos; (d) secuenciar la pluralidad de moléculas enriquecidas para producir una pluralidad de lecturas de secuenciación; (e) analizar la pluralidad de lecturas de secuenciación para generar una pluralidad de puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético; y (f) comparar la pluralidad de puntuaciones de partición epigenética con una pluralidad de puntos de corte de partición epigenética, se puede realizar con un procesador informático. En esta forma de realización, el sistema comprende componentes para añadir moléculas de ácido nucleico de control epigenético, partición, enriquecimiento y secuenciación.

[0239] En otra forma de realización, un sistema para evaluar un método de partición de moléculas de ácido nucleico en una muestra de polinucleótidos en función del estado epigenético, que comprende: una interfaz de comunicación que recibe, a través de una red de comunicación, un conjunto de lecturas de secuenciación de una muestra agregada generada por un secuenciador de ácido nucleico, en donde el conjunto de lecturas de secuenciación comprende (i) al menos una primera población de lecturas de secuenciación generadas a partir de polinucleótidos que se originan a partir de la muestra, en donde las lecturas de secuenciación de la primera población comprenden una secuencia de etiqueta y una secuencia derivada del polinucleótido que se origina a partir de la muestra; y (ii) al menos una segunda población de lecturas de secuenciación generadas a partir de moléculas de ácido nucleico de control epigenético, en donde las lecturas de secuenciación generadas a partir de la segunda población comprenden una región de modificación epigenética y, opcionalmente, una región identificadora; un ordenador en comunicación con la interfaz de comunicación, en el que el ordenador comprende uno o más procesadores de ordenador y un medio legible por ordenador que comprende un código ejecutable por máquina que, tras la ejecución por uno o más procesadores de ordenador, implementa un método que comprende: (i) recibir, a través de la red de comunicación, el conjunto de lecturas de secuenciación de la primera y segunda poblaciones de lecturas de secuenciación por el secuenciador de ácidos nucleicos; (ii) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de las moléculas de ácidos nucleicos de control epigenético y/o moléculas de control endógenas; y (iii) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0240] En otra forma de realización, un sistema que comprende un controlador que comprende, o es capaz de acceder a medios legibles por computadora que comprenden instrucciones no transitorias ejecutables por computadora que, cuando son ejecutadas por al menos un procesador electrónico, realizan al menos: (a) obtener un conjunto de lecturas de secuenciación de una muestra agregada generada por un secuenciador de ácidos nucleicos, en donde la muestra agregada comprende polinucleótidos de una muestra y moléculas de ácido nucleico de control epigenético y el conjunto de lecturas de secuenciación comprende (i) una primera población de lecturas de secuenciación generadas a partir de polinucleótidos de una muestra y (ii) una segunda población de lecturas de secuenciación generadas a partir de moléculas de ácido nucleico de control epigenético; (b) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético y/o moléculas de control endógenas; y (c) comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0241] En otra forma de realización, un sistema que comprende un controlador que comprende, o es capaz de acceder a medios legibles por computadora que comprenden instrucciones ejecutables por computadora no transitorias que, cuando son ejecutadas por al menos un procesador electrónico, realiza al menos: (a) obtener un conjunto de lecturas de secuenciación de una muestra generada por un secuenciador de ácidos nucleicos, en donde el conjunto de lecturas de secuenciación comprende lecturas de secuenciación generadas a partir de polinucleótidos de la muestra; (b) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de moléculas de control endógenas; y (c) comparar las una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0242] En algunas formas de realización, el sistema comprende, además g) generar un estado de resultado del método de partición en función de la comparación de las puntuaciones de partición epigenética. En algunas formas de realización, el estado de resultado del método de partición se clasifica como (i) exitoso, si una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético y/o el conjunto de moléculas de control endógenas se encuentran dentro del límite de partición epigenética correspondiente; o (ii) no exitoso, si al menos una de las una o más puntuaciones de partición epigenética de las moléculas de control epigenético y/o las moléculas de control endógenas se encuentra fuera de los límites de partición epigenética correspondientes.

[0243] La FIG. 8 muestra un sistema informático 801 que está programado o configurado de otro modo para implementar los métodos de la presente divulgación. El sistema informático 801 puede regular diversos aspectos de la preparación, secuenciación y/o análisis de muestras. En algunos ejemplos, el sistema informático 801 está configurado para realizar la preparación y el análisis de muestras, incluida la secuenciación de ácidos nucleicos.

[0244] El sistema informático 801 incluye una unidad central de procesamiento (CPU, también "procesador" y "procesador informático" en el presente documento) 805, que puede ser un procesador de un solo núcleo o de múltiples núcleos, o una pluralidad de procesadores para procesamiento en paralelo. El sistema informático 801 también incluye una memoria o ubicación de memoria 810 (por ejemplo, memoria de acceso aleatorio, memoria de solo lectura, memoria flash), una unidad de almacenamiento electrónico 815 (por ejemplo, disco duro), una interfaz de comunicación 820 (por ejemplo, adaptador de red) para comunicarse con uno o más sistemas adicionales, y dispositivos periféricos 825, como caché, otra memoria, almacenamiento de datos y/o adaptadores de pantalla electrónica. La memoria 810, la unidad de almacenamiento 815, la interfaz 820 y los dispositivos periféricos 825 están en comunicación con la CPU 805 a través de una red de comunicación o bus (líneas continuas), como una placa base. La unidad de almacenamiento 815 puede ser una unidad de almacenamiento de datos (o repositorio de datos) para almacenar datos. El sistema informático 801 puede estar acoplado operativamente a una red informática 430 con la ayuda de la interfaz de comunicación 820. La red informática 830 puede ser Internet, una red de Internet y/o extranet, o una intranet y/o extranet que esté en comunicación con Internet. La red informática 830 en algunos casos es una red de telecomunicaciones y/o de datos. La red informática 830 puede incluir uno o más servidores informáticos, que pueden permitir la computación distribuida, como la computación en la nube. La red informática 830, en algunos casos con la ayuda del sistema informático 801, puede implementar una red de igual a igual, que puede permitir que los dispositivos acoplados al sistema informático 801 se comporten como un cliente o un servidor.

[0245] La CPU 805 puede ejecutar una secuencia de instrucciones legibles por máquina, que pueden estar incorporadas en un programa o software. Las instrucciones pueden almacenarse en una ubicación de memoria, como la memoria 810. Algunos ejemplos de operaciones realizadas por la CPU 405 pueden incluir la búsqueda, la decodificación, la ejecución y la reescritura.

[0246] La unidad de almacenamiento 815 puede almacenar archivos, como controladores, bibliotecas y programas guardados. La unidad de almacenamiento 815 puede almacenar programas generados por usuarios y sesiones grabadas, así como salidas asociadas con los programas. La unidad de almacenamiento 815 puede almacenar datos de usuario, por ejemplo, preferencias de usuario y programas de usuario. El sistema informático 801 en algunos casos puede incluir una o más unidades de almacenamiento de datos adicionales que son externas al sistema informático 801, como, por ejemplo, ubicadas en un servidor remoto que está en comunicación con el sistema informático 801 a través de una intranet o Internet. Los datos pueden transferirse de una ubicación a otra utilizando, por ejemplo, una red de comunicación o transferencia física de datos (por ejemplo, utilizando un disco duro, una memoria USB u otro mecanismo de almacenamiento de datos).

[0247] El sistema informático 801 puede comunicarse con uno o más sistemas informáticos remotos a través de la red 830. Para la forma de realización, el sistema informático 801 puede comunicarse con un sistema informático remoto de un usuario (por ejemplo, un operador). Los ejemplos de sistemas informáticos remotos incluyen ordenadores personales (por ejemplo, PC portátiles), tabletas o tabletas (por ejemplo, iPad de Apple®, Galaxy Tab de Samsung®), teléfonos, teléfonos inteligentes (por ejemplo, iPhone de Apple®, dispositivo habilitado con Android, Blackberry®) o asistentes digitales personales. El usuario puede acceder al sistema informático 801 a través de la red 830.

[0248] Los métodos descritos en este documento se pueden implementar mediante un código ejecutable por máquina (por ejemplo, un procesador de ordenador) almacenado en una ubicación de almacenamiento electrónico del sistema informático 801, como, por ejemplo, en la memoria 810 o la unidad de almacenamiento electrónico 815. El código ejecutable por máquina o legible por máquina se puede proporcionar en forma de software. Durante el uso, el código se puede ejecutar por el procesador 805. En algunos casos, el código se puede recuperar de la unidad de almacenamiento 815 y almacenar en la memoria 810 para que el procesador 805 pueda acceder a él fácilmente. En algunas situaciones, se puede excluir la unidad de almacenamiento electrónico 815 y almacenar instrucciones ejecutables por máquina en la memoria 810.

[0249] En un aspecto, la presente divulgación proporciona un medio legible por computadora no transitorio que comprende instrucciones ejecutables por computadora que, cuando son ejecutadas por al menos un procesador electrónico, realizan un método que comprende: (a) obtener un conjunto de lecturas de secuenciación generadas por un secuenciador de ácidos nucleicos; (b) analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de las moléculas de ácidos nucleicos de control epigenético; y (f) comparar las una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética.

[0250] El código puede ser precompilado y configurado para su uso con una máquina que tenga un procesador adaptado para ejecutar el código o puede ser compilado durante el tiempo de ejecución. El código puede ser suministrado en un lenguaje de programación que puede seleccionarse para permitir que el código se ejecute de manera precompilada o compilada.

[0251] Los aspectos de los sistemas y métodos proporcionados en este documento, como el sistema informático 801, pueden incorporarse en la programación. Diversos aspectos de la tecnología pueden considerarse como "productos" o "artículos de fabricación", normalmente en forma de código ejecutable por máquina (o procesador) y/o datos asociados que se transportan o incorporan en un tipo de medio legible por máquina. El código ejecutable por máquina puede almacenarse en una unidad de almacenamiento electrónico, como una memoria (por ejemplo, una memoria de solo lectura, una memoria de acceso aleatorio, una memoria flash) o un disco duro. Los medios de tipo "almacenamiento" pueden incluir cualquiera o toda la memoria tangible de los ordenadores, procesadores o similares, o módulos asociados a los mismos, como diversas memorias de semiconductores, unidades de cinta, unidades de disco y similares, que pueden proporcionar almacenamiento no transitorio en cualquier momento para la programación del software.

[0252] Todo el software o partes del mismo pueden comunicarse en ocasiones a través de Internet o de otras redes de telecomunicaciones. Dichas comunicaciones, por ejemplo, pueden permitir la carga del software desde un ordenador o procesador a otro, por ejemplo, desde un servidor de gestión o un ordenador anfitrión a la plataforma informática de un servidor de aplicaciones. Por tanto, otro tipo de medio que puede transportar los elementos del software incluye ondas ópticas, eléctricas y electromagnéticas, como las que se utilizan en interfaces físicas entre dispositivos locales, a través de redes terrestres cableadas y ópticas, y en diversos enlaces aéreos. Los elementos físicos que transportan dichas ondas, como enlaces cableados o inalámbricos, enlaces ópticos o similares, también pueden considerarse como medios que transportan el software. Tal como se utilizan en el presente documento, a menos que se restrinjan a medios de "almacenamiento" tangibles y no transitorios, los términos como "medio legible por ordenador" o "medio legible por máquina" se refieren a cualquier medio que participe en el suministro de instrucciones a un procesador para su ejecución.

[0253] Por lo tanto, un medio legible por máquina, como un código ejecutable por computadora, puede adoptar muchas formas, incluyendo, entre otras, un medio de almacenamiento tangible, un medio de onda portadora o un medio de transmisión física. Los medios de almacenamiento no volátiles incluyen, por ejemplo, discos ópticos o magnéticos, como cualquiera de los dispositivos de almacenamiento en cualquier computadora o similar, como los que se pueden usar para implementar las bases de datos, etc., que se muestran en los dibujos. Los medios de almacenamiento volátiles incluyen memoria dinámica, como la memoria principal de dicha plataforma informática. Los medios de transmisión tangibles incluyen cables coaxiales, alambre de cobre y fibra óptica, incluidos los cables que forman un bus dentro de un sistema informático. Los medios de transmisión de onda portadora pueden adoptar la forma de señales eléctricas o electromagnéticas, u ondas acústicas o de luz como las generadas durante las comunicaciones de datos por radiofrecuencia (RF) e infrarrojos (IR). Por lo tanto, las formas comunes de medios legibles por computadora incluyen, por ejemplo: un disquete, un disco flexible, un disco duro, una cinta magnética, cualquier otro medio magnético, un CD ROM, DVD o DVD-ROM, cualquier otro medio óptico, tarjetas perforadas, cinta de papel, cualquier otro medio de almacenamiento físico con patrones de agujeros, una RAM, una ROM, una PROM y EPROM, una FLASH-EPROM, cualquier otro chip o cartucho de memoria, una onda portadora que transporte datos o instrucciones, cables o enlaces que transporten dicha onda portadora, o cualquier otro medio desde el cual una computadora pueda leer código de programación y/o datos. Muchas de estas formas de medios legibles por computadora pueden estar involucradas en llevar una o más secuencias de una o más instrucciones a un procesador para su ejecución.

[0254] El sistema informático 801 puede incluir o estar en comunicación con una pantalla electrónica que comprende una interfaz de usuario (IU) para proporcionar, por ejemplo, uno o más resultados de análisis de muestras. Los ejemplos de IU incluyen, sin limitación, una interfaz gráfica de usuario (GUI) y una interfaz de usuario basada en web.

[0255] También se proporcionan detalles adicionales relacionados con sistemas y redes informáticas, bases de datos y productos de programas informáticos en, por ejemplo, Peterson, Computer Networks: A Systems Approach, Morgan Kaufmann, 5.a edición (2011), Kurose, Computer Networking: A Top-Down Approach, Pearson, 7.a edición (2016), Elmasri, Fundamentals of Database Systems, Addison Wesley, 6.a edición (2010), Coronel, Database Systems: Design, Implementation, & Management, Cengage Leaming, 11.a edición (2014), Tucker, Programming Languages, McGraw-Hill Science/Engineering/Math, 2.a edición (2006), y Rhoton, Cloud Computing Architected: Solution Design Handbook, Recursive Press (2011).

V. Aplicaciones

A. Cáncer y otras enfermedades

[0256] En algunas formas de realización, los métodos y sistemas descritos en el presente documento pueden utilizarse para identificar terapias personalizadas o dirigidas para tratar una enfermedad o afección determinada en pacientes en función de la clasificación de una variante de ácido nucleico como de origen somático o germinal. Normalmente, la enfermedad en cuestión es un tipo de cáncer. Los ejemplos no limitantes de dichos cánceres incluyen cáncer de las vías biliares, cáncer de vejiga, carcinoma de células transicionales, carcinoma urotelial, cáncer cerebral, gliomas, astrocitomas, carcinoma de mama, carcinoma metaplásico, cáncer de cuello uterino, carcinoma de células escamosas cervicales, cáncer rectal, carcinoma colorrectal, cáncer de colon, cáncer colorrectal hereditario sin poliposis, adenocarcinomas colorrectales, tumores del estroma gastrointestinal (GIST), carcinoma endometrial, sarcomas del estroma endometrial, cáncer de esófago, carcinoma de células escamosas de esófago, adenocarcinoma de esófago, melanoma ocular, melanoma uveal, carcinomas de vesícula biliar, adenocarcinoma de vesícula biliar, carcinoma de células renales, carcinoma de células renales de células claras, carcinoma de células transicionales, carcinomas uroteliales, tumor de Wilms, Leucemia, leucemia linfocítica aguda (LLA), leucemia mieloide aguda (LMA), leucemia linfocítica crónica (LLC), leucemia mieloide crónica (LMC), leucemia mielomonocítica crónica (LMMC), cáncer de hígado, carcinoma de hígado, hepatoma, carcinoma hepatocelular, colangiocarcinoma, hepatoblastoma, cáncer de pulmón, cáncer de pulmón de células no pequeñas (CPCNP), mesotelioma, linfomas de células B, linfoma no Hodgkin, linfoma difuso de células B grandes, linfoma de células del manto, linfomas de células T, linfoma no Hodgkin, linfoma/leucemia linfoblástica de precursores T, linfomas de células T periféricas, mieloma múltiple, carcinoma nasofaríngeo (CNP), neuroblastoma, cáncer orofaríngeo, carcinomas de células escamosas de la cavidad oral, osteosarcoma, carcinoma de ovario, cáncer de páncreas, adenocarcinoma ductal pancreático, pseudopapilar neoplasias, carcinomas de células acinares, cáncer de próstata, adenocarcinoma de próstata, cáncer de piel, melanoma, melanoma maligno, melanoma cutáneo, carcinomas del intestino delgado, cáncer de estómago, carcinoma gástrico, tumor del estroma gastrointestinal (GIST), cáncer de útero o sarcoma uterino.

[0257] Ejemplos no limitantes de otras enfermedades, trastornos o afecciones de base genética que se evalúan opcionalmente utilizando los métodos y sistemas divulgados en este documento incluyen acondroplasia, deficiencia de alfa-I antitripsina, síndrome antifosfolípido, autismo, enfermedad renal poliquística autosómica dominante, Charcot-Marie-Tooth (CMT), cri du chat, enfermedad de Crohn, fibrosis quística, enfermedad de Dercum, síndrome de Down, síndrome de Duane, distrofia muscular de Duchenne, trombofilia del factor V Leiden, hipercolesterolemia familiar, fiebre mediterránea familiar, síndrome del cromosoma X frágil, enfermedad de Gaucher, hemocromatosis, hemofilia, holoprosencefalia, enfermedad de Huntington, síndrome de Klinefelter, síndrome de Marfan, distrofia miotónica, neurofibromatosis, síndrome de Noonan, osteogénesis imperfecta, enfermedad de Parkinson, fenilcetonuria, anomalía de Poland, porfiria, progeria, retinitis pigmentosa, inmunodeficiencia combinada grave (scid), anemia de células falciformes, Atrofia muscular espinal, Tay-Sachs, talasemia, trimetilaminuria, síndrome de Turner, síndrome velocardiofacial, síndrome de WAGR, enfermedad de Wilson o similares.

B. Terapias y administración relacionada

[0258] En ciertas formas de realización, los métodos divulgados en el presente documento se relacionan con la identificación y administración de terapias personalizadas a pacientes dado el estado de una variante de ácido nucleico como de origen somático o de línea germinal. En algunas formas de realización, esencialmente cualquier terapia contra el cáncer (por ejemplo, terapia quirúrgica, radioterapia, quimioterapia y/o similares) puede incluirse como parte de estos métodos. Por lo general, las terapias personalizadas incluyen al menos una inmunoterapia (o un agente inmunoterapéutico). La inmunoterapia se refiere en general a métodos para mejorar una respuesta inmunitaria contra un tipo de cáncer determinado. En ciertas formas de realización, la inmunoterapia se refiere a métodos para mejorar una respuesta de células T contra un tumor o cáncer.

[0259] En ciertas formas de realización, el estado de una variante de ácido nucleico de una muestra de un sujeto como de origen somático o germinal puede compararse con una base de datos de resultados comparativos de una población de referencia para identificar terapias personalizadas o dirigidas para ese sujeto. Normalmente, la población de referencia incluye pacientes con el mismo tipo de cáncer o enfermedad que el sujeto de prueba y/o pacientes que están recibiendo, o que han recibido, la misma terapia que el sujeto de prueba. Una terapia (o terapias) personalizada o dirigida puede identificarse cuando la variante de ácido nucleico y los resultados comparativos satisfacen ciertos criterios de clasificación (por ejemplo, son una coincidencia sustancial o aproximada).

[0260] En ciertas formas de realización, las terapias personalizadas descritas en el presente documento se administran típicamente por vía parenteral (por ejemplo, por vía intravenosa o subcutánea). Las composiciones farmacéuticas que contienen un agente inmunoterapéutico se administran típicamente por vía intravenosa. Ciertos agentes terapéuticos se administran por vía oral. Sin embargo, las terapias personalizadas (por ejemplo, agentes inmunoterapéuticos, etc.) también se pueden administrar por cualquier método conocido en la técnica, incluyendo, por ejemplo, bucal, sublingual, rectal, vaginal, intrauretral, tópica, intraocular, intranasal y/o intraauricular, cuya administración puede incluir comprimidos, cápsulas, gránulos, suspensiones acuosas, geles, aerosoles, supositorios, ungüentos, pomadas o similares.

EJEMPLOS

Ejemplo 1: Evaluación de la partición de una muestra de ADN libre de células

[0261] En este ejemplo se analiza una muestra de ADN libre de células de un paciente. Se crea una muestra enriquecida combinando la muestra de ADN libre de células con un conjunto de moléculas de ácido nucleico de control epigenético. En este ejemplo, las moléculas de ácido nucleico de control epigenético son moléculas de ADN de doble cadena y el conjunto de moléculas de ácido nucleico de control epigenético es un conjunto de 6 subconjuntos diferentes (subconjunto 1 a subconjunto 6) de moléculas de ácido nucleico de control epigenético. El subconjunto 1, subconjunto 2, subconjunto 3, subconjunto 4, subconjunto 5 y subconjunto 6 comprenden moléculas de ácido nucleico de control epigenético con 0, 1,3, 5, 7 y 9 citosinas metiladas (5-metilcitosina) en la región de modificación epigenética. Las moléculas de ácido nucleico de control epigenético tienen un código de barras molecular en un extremo de la región de modificación epigenética y el código de barras del estado epigenético está presente en ambos extremos de la región de modificación epigenética. El código de barras molecular utilizado aquí es un código de barras molecular único, es decir, cada molécula de ácido nucleico de control epigenético tiene un código de barras molecular distinto.

[0262] Esta muestra enriquecida se combina luego con tampones de dominio de unión a metilo (MBD) y perlas magnéticas conjugadas con proteínas MBD y se incuba durante la noche. El ADN metilado (si está presente, en la muestra de ADN libre de células) y las moléculas de ácido nucleico de control epigenético metiladas se unen a la proteína MBD durante esta incubación. El ADN no metilado o menos metilado se elimina por lavado de las perlas con tampones que contienen concentraciones crecientes de sal. Finalmente, se utiliza un tampón con alto contenido de sal para eliminar por lavado el ADN muy metilado de la proteína MBD. Estos lavados dan como resultado tres particiones (tres conjuntos particionados: hipo, intermedio e hiper) de ADN cada vez más metilado. El ADN particionado presente en el conjunto particionado comprende ADN de la muestra de ADN libre de células y moléculas de ácido nucleico de control epigenético. El ADN particionado en los tres conjuntos particionados se limpia para eliminar la sal y se concentra en preparación para los pasos enzimáticos de la preparación de la biblioteca.

[0263] Después de concentrar el ADN en los conjuntos particionados, se extienden los extremos salientes del ADN particionado y se añaden residuos de adenosina a los extremos 3' de los fragmentos. El extremo 5' de cada fragmento se fosforila. Estas modificaciones hacen que el ADN particionado sea ligable. Se añaden ADN ligasa y adaptadores para ligar cada molécula de ADN particionada con un adaptador en cada extremo. Estos adaptadores contienen códigos de barras no únicos y cada conjunto particionado se liga con adaptadores que tienen códigos de barras no únicos que se distinguen de los códigos de barras de los adaptadores utilizados en los otros conjuntos particionados. Después de la ligadura, los 3 conjuntos particionados se agrupan y se amplifican mediante PCR.

[0264] Después de la PCR, el ADN amplificado se limpia y se concentra nuevamente antes del enriquecimiento. Una vez concentrado, el ADN amplificado se combina con un tampón de sal y sondas de ARN biotinilado dirigidas a regiones específicas de interés y las moléculas de ácido nucleico de control epigenético y esta mezcla se incuba durante la noche. Las sondas de ARN biotinilado se capturan mediante perlas magnéticas de estreptavidina y se separan del ADN amplificado que no fue capturado mediante una serie de lavados con sal, enriqueciendo así la muestra. Después del enriquecimiento, los índices de la muestra se incorporan a las moléculas enriquecidas mediante amplificación por PCR. Después de la amplificación por PCR, las moléculas amplificadas de diferentes muestras (dentro de un lote) se agrupan y se secuencian utilizando el secuenciador Illumina NovaSeq.

[0265] Las lecturas de secuencia generadas por el secuenciador se analizan luego utilizando herramientas/algoritmos bioinformáticos para generar una puntuación de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a cada subconjunto presente en cada uno de los tres conjuntos particionados. La FIG. 9A muestra un gráfico de las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a cada uno de los seis subconjuntos (Subconjunto 1, Subconjunto 2, Subconjunto 3, Subconjunto 4, Subconjunto 5 y Subconjunto 6), descritos en este ejemplo, en el conjunto hiperparticionado. La FIG. 9B muestra un gráfico de las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a cada uno de los seis subconjuntos en el conjunto particionado intermedio. La FIG. 9C muestra un gráfico de las puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético que pertenecen a cada uno de los seis subconjuntos en el conjunto hipoparticionado. Como se muestra en la FIG. 9, la puntuación de partición epigenética del subconjunto 1 en el conjunto hiperparticionado, el conjunto particionado intermedio y el conjunto hipoparticionado es de aproximadamente 0,1 %, 0,3% y 99,6%, respectivamente. El valor de corte de partición epigenética predeterminado para el subconjunto 1 en el conjunto hiperparticionado, el conjunto particionado intermedio y el conjunto hipoparticionado es de 0,3%, 0,5% y 97%, respectivamente. En este documento, las puntuaciones de partición epigenética se expresan en términos de porcentaje. Las puntuaciones de partición epigenética del subconjunto 1 en cada uno de los conjuntos particionados se comparan con los valores de corte epigenéticos correspondientes para el subconjunto 1, es decir, la puntuación de partición epigenética (0,1 %) del subconjunto 1 en el conjunto hiperparticionado se compara con el valor de corte de partición epigenética (< 0,3 %) para el subconjunto 1 en el conjunto hiperparticionado. La puntuación de partición epigenética (0,1 %) del subconjunto 1 en el conjunto hiperparticionado está dentro del valor de corte de partición epigenética (< 0,3 %) para el subconjunto 1 en el conjunto hiperparticionado. Del mismo modo, las puntuaciones de partición epigenética del subconjunto 1 en el conjunto particionado intermedio y el conjunto hipoparticionado se comparan con los respectivos valores de corte de partición epigenética para el subconjunto 1 en el conjunto particionado intermedio y el conjunto hipoparticionado. De manera similar, las puntuaciones de partición epigenética del subconjunto 2, subconjunto 3, subconjunto 4, subconjunto 5 y subconjunto 6 se comparan con los respectivos valores de corte de partición epigenética en los tres conjuntos particionados. Por lo tanto, tenemos un total de 18 puntuaciones de partición epigenética (6 x 3 = 18, para seis subconjuntos en tres conjuntos particionados) y cada una de estas puntuaciones de partición epigenética se compara con los correspondientes valores de corte de partición epigenética. Se descubre que las 18 puntuaciones de partición epigenética están dentro de los respectivos valores de corte de partición epigenética. Por lo tanto, el método de partición realizado en la muestra de<a>D<n>libre de células analizada aquí se clasifica como un éxito.

Ejemplo 2: Evaluación de la partición de muestras de ADN libre de células

[0266] En este trabajo se analiza un conjunto de muestras de ADN libre de células de un grupo de pacientes. En este ejemplo, no se utilizan moléculas de ácido nucleico de control epigenético. En su lugar, se utilizan las moléculas de control endógenas de la muestra de ADN libre de células para evaluar la partición de las muestras de ADN libre de células. La muestra de ADN libre de células de cada paciente se combina con tampones de dominio de unión a metilo (MBD) y perlas magnéticas conjugadas con una proteína MBD y se incuba durante la noche. El ADN metilado (si está presente en la muestra de ADN libre de células) y las moléculas de ácido nucleico de control epigenético metiladas se unen a la proteína MBD durante esta incubación. El ADN no metilado o menos metilado se elimina de las perlas con tampones que contienen concentraciones crecientes de sal. Por último, se utiliza un tampón con alto contenido de sal para eliminar el ADN muy metilado de la proteína MBD. Estos lavados dan como resultado tres particiones (tres conjuntos particionados: hipo, intermedio e hiper) de ADN cada vez más metilado. El ADN particionado presente en el conjunto particionado comprende ADN de la muestra de ADN libre de células y moléculas de ácido nucleico de control epigenético. El ADN particionado en los tres conjuntos particionados se limpia para eliminar la sal y se concentra en preparación para los pasos enzimáticos de la preparación de la biblioteca.

[0267] Después de concentrar el ADN en los conjuntos particionados, se extienden los salientes de los extremos del ADN particionado y se añaden residuos de adenosina a los extremos 3' de los fragmentos. El extremo 5' de cada fragmento se fosforila. Estas modificaciones hacen que el ADN particionado sea ligable. Se añaden ADN ligasa y adaptadores para ligar cada molécula de ADN particionada con un adaptador en cada extremo. Estos adaptadores contienen códigos de barras no únicos y cada conjunto particionado se liga con adaptadores que tienen códigos de barras no únicos que se distinguen de los códigos de barras en los adaptadores utilizados en los otros conjuntos particionados. Después de la ligadura, los 3 conjuntos particionados se agrupan y se amplifican mediante PCR.

[0268] Después de la PCR, el ADN amplificado se limpia nuevamente y se concentra antes del enriquecimiento. Una vez concentrado, el ADN amplificado se combina con un tampón de sal y sondas de ARN biotiniladas dirigidas a regiones específicas de interés y las moléculas de ácido nucleico de control epigenético y esta mezcla se incuba durante la noche. Las sondas de ARN biotiniladas se capturan mediante perlas magnéticas de estreptavidina y se separan del ADN amplificado que no fue capturado mediante una serie de lavados con sal, enriqueciendo así la muestra. Después del enriquecimiento, los índices de la muestra se incorporan a las moléculas enriquecidas mediante amplificación por PCR. Después de la amplificación por PCR, las moléculas amplificadas de diferentes muestras (dentro de un lote) se agrupan y se secuencian utilizando el secuenciador Illumina NovaSeq.

[0269] Las lecturas de secuencia generadas por el secuenciador se analizan luego utilizando herramientas/algoritmos bioinformáticos para generar una o más puntuaciones de partición epigenética de las moléculas de control endógenas. En este ejemplo, se utilizanmetil-mitadymetil-5como puntuaciones de partición epigenética. La FIG. 10A muestra un gráfico de la fracción de moléculas de control hipermetiladas de la Muestra 1 en el conjunto hiperparticionado y la puntuación demetil-mitadde la Muestra 1 es 11. La FIG. 10B muestra un gráfico de la fracción de moléculas hipermetiladas de la Muestra 1 en el conjunto hipoparticionado y la puntuación demetil-5de la Muestra 1 es 13. La FIG.

11A muestra un gráfico de la fracción de moléculas de control hipermetiladas de la Muestra 2 en el conjunto hiperparticionado y la puntuación demetil-mitadde la Muestra 2 es 13. La FIG. 11B muestra un gráfico de la fracción de moléculas hipermetiladas de la Muestra 2 en el conjunto hipoparticionado y no se puede determinar la puntuación demetil-5de la Muestra 2 (como se muestra en la FIG. 11B). En este ejemplo, los puntos de corte de partición epigenética parametil-mitadymetil-5son 15 y 20 CG metilados respectivamente. Las puntuaciones demetil-mitadymetil-5de la Muestra 1 están dentro de los puntos de corte de partición epigenética correspondientes. Pero, para la Muestra 2, la puntuación demetil-mitadestá dentro de su punto de corte de partición epigenética correspondiente pero la puntuación demetil-5no está dentro de su punto de corte de partición epigenética correspondiente. Por lo tanto, el método de partición de la Muestra 1 se clasifica como exitoso y el método de partición de la Muestra 2 se clasifica como no exitoso.

[0270] Aunque se han mostrado y descrito aquí formas de realización preferidas de la presente invención, será obvio para los expertos en la materia que dichas formas de realización se proporcionan únicamente a modo de ejemplo. No se pretende que la invención esté limitada por los ejemplos específicos proporcionados en la especificación. Aunque la invención se ha descrito con referencia a la especificación antes mencionada, las descripciones e ilustraciones de las formas de realización aquí no deben interpretarse en un sentido limitante. A los expertos en la materia se les ocurrirán ahora numerosas variaciones, cambios y sustituciones sin apartarse de la invención. Además, se entenderá que todos los aspectos de la invención no están limitados a las representaciones, configuraciones o proporciones relativas específicas establecidas en este documento que dependen de una variedad de condiciones y variables. Se debe entender que se pueden emplear varias alternativas a las formas de realización de la divulgación aquí descritas para poner en práctica la invención. Por lo tanto, se contempla que la divulgación también cubrirá dichas alternativas, modificaciones, variaciones o equivalentes. Se pretende que las siguientes reivindicaciones definan el alcance de la invención y que los métodos y estructuras dentro del ámbito de estas reivindicaciones y sus equivalentes estén cubiertos por la misma.

Claims

REIVINDICACIONES

1. Un método para evaluar la partición de moléculas de ácido nucleico de una muestra de polinucleótidos en función del estado epigenético, que comprende:

a. dividir moléculas de ácido nucleico de al menos un subconjunto de la muestra de polinucleótidos en una pluralidad de conjuntos particionados;

b. enriquecer al menos un subconjunto de moléculas que comprenden regiones genómicas diana específicas de la pluralidad de conjuntos particionados para generar un conjunto de moléculas enriquecidas, en donde el conjunto de moléculas enriquecidas comprende un grupo de moléculas de ácido nucleico de la muestra de polinucleótidos, en donde el grupo de moléculas de ácido nucleico de la muestra de polinucleótidos comprende un conjunto de moléculas de control endógenas, que corresponden a al menos una región genómica humana con un estado epigenético no variable;

c. secuenciar al menos un subconjunto del conjunto de moléculas enriquecidas para producir una pluralidad de lecturas de secuenciación;

d. analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar uno o más puntajes de partición epigenética para el conjunto de moléculas de control endógenas; y

e. comparar uno o más puntajes de partición epigenética con uno o más puntos de corte de partición epigenética.

2. El método de la reivindicación 1, que comprende, además un paso inicial de añadir un conjunto de moléculas de ácido nucleico de control epigenético a las moléculas de ácido nucleico en la muestra de polinucleótidos, produciendo de ese modo una muestra enriquecida, y en donde

el paso a. se realiza en la muestra enriquecida;

dentro del paso b., el conjunto de moléculas enriquecidas comprende, además un grupo de moléculas de ácido nucleico de control epigenético; y

el paso d., además, genera uno o más puntajes de partición epigenética para las moléculas de ácido nucleico de control epigenético.

3. El método de la reivindicación 2, en el que

i) el conjunto de moléculas de ácido nucleico de control epigenético comprende dos o más subconjuntos de moléculas de ácido nucleico de control epigenético, en el que un subconjunto de los dos o más subconjuntos de moléculas de ácido nucleico de control epigenético comprende una pluralidad de moléculas de ácido nucleico de control epigenético que comprenden una región de modificación epigenética, opcionalmente en el que

a) cada subconjunto de moléculas de ácido nucleico de control epigenético está en concentración equimolar; o cada subconjunto de moléculas de ácido nucleico de control epigenético está en concentración no equimolar; y/o

b) la región de modificación epigenética de la pluralidad de moléculas de ácido nucleico de control epigenético en los dos o más subconjuntos comprende una secuencia de ácido nucleico idéntica; o la región de modificación epigenética de la pluralidad de moléculas de ácido nucleico de control epigenético en un primer subconjunto comprende una secuencia de ácido nucleico distinguible de la secuencia de ácido nucleico de la región de modificación epigenética de la pluralidad de moléculas de ácido nucleico de control epigenético en un segundo subconjunto;

ii) la molécula de ácido nucleico de control epigenético comprende, además una región identificadora, por ejemplo, en donde la región identificadora está en uno o ambos lados de la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético, opcionalmente en donde la región identificadora de las moléculas de ácido nucleico de control epigenético

a) comprende un código de barras molecular;

b) comprende, además al menos un código de barras de estado epigenético; y/o

c) comprende uno o más sitios de unión de cebadores;

iii) la región de modificación epigenética de las moléculas de ácido nucleico de control epigenético en al menos un subconjunto comprende al menos un nucleótido con modificación epigenética; y/o

iv) la pluralidad de conjuntos particionados comprende moléculas de ácido nucleico de la muestra enriquecida particionada en función del nivel de metilación de las moléculas de ácido nucleico.

4. El método según cualquiera de las reivindicaciones anteriores, en el que la partición comprende la partición de las moléculas de ácido nucleico basándose en una afinidad de unión diferencial de las moléculas de ácido nucleico a un agente de unión que se une preferentemente a moléculas de ácido nucleico que comprenden nucleótidos con modificación epigenética.

5. El método según cualquiera de las reivindicaciones anteriores, que comprende, además etiquetar las moléculas de ácido nucleico en un conjunto particionado de la pluralidad de conjuntos particionados con un conjunto de etiquetas para producir una población de moléculas de ácido nucleico etiquetadas, en el que las moléculas de ácido nucleico etiquetadas comprenden una o más etiquetas; opcionalmente en el que

el conjunto de etiquetas utilizado en un primer conjunto particionado de la pluralidad de conjuntos particionados es diferente del conjunto de etiquetas utilizado en un segundo conjunto particionado de la pluralidad de conjuntos particionados; y, además, opcionalmente

el conjunto de etiquetas se une a las moléculas de ácido nucleico mediante ligadura de adaptadores a las moléculas de ácido nucleico, en el que los adaptadores comprenden una o más etiquetas.

6. El método de cualquiera de las reivindicaciones anteriores, que comprende, además

g. clasificar el método como (i) exitoso, si una o más puntuaciones de partición epigenética de las moléculas de ácido nucleico de control epigenético y/o el conjunto de moléculas de control endógenas están dentro de los puntos de corte de partición epigenética correspondientes; o (ii) no exitoso, si al menos una de las una o más puntuaciones de partición epigenética de las moléculas de control epigenético y/o el conjunto de moléculas de control endógenas está fuera del punto de corte de partición epigenética correspondiente.

7. El método de cualquiera de las reivindicaciones anteriores, en el que

i) la modificación epigenética es metilación de ADN;

ii) el nucleótido con modificación epigenética comprende un nucleótido metilado, por ejemplo, en el que

el nucleótido metilado comprende 5-metilcitosina; o

el nucleótido metilado comprende 5-hidroximetilcitosina; y/o

iii) el estado epigenético es el nivel de metilación de las moléculas de ácido nucleico.

8. El método de cualquiera de las reivindicaciones anteriores,

en el que la puntuación de partición epigenética comprende una fracción o porcentaje de

i) el número de moléculas de ácido nucleico de control epigenético hipermetiladas y/o moléculas de control hipermetiladas en un conjunto particionado; o

ii) el número de moléculas de ácido nucleico de control epigenético hipometiladas y/o moléculas de control hipometiladas en un conjunto particionado; y/o

en el que el conjunto particionado es

a) un conjunto particionado hipermetilado; o

b) un conjunto particionado hipometilado.

9. El método de cualquiera de las reivindicaciones anteriores, en el que la puntuación de partición epigenética es

i)puntuación CG 0,opcionalmente en el que el punto de corte de partición epigenética para lapuntuación CG 0es 0,01 %, 0,02 %, 0,05 %, 0,1 %, 0,2 %, 0,3 %, 0,4 %, 0,5 %, 0,6 %, 0,7 %, 0,8 %, 0,9 %, 1 %, 2 %, 5 %, al menos 5 % o al menos 10 %;

ii)puntuación hipo,opcionalmente en el que el punto de corte de partición epigenética para lapuntuación hipoes 0,1 %, 0,5 %, 1 %, 2 %, 3 %, 4 %, 5 %, 7 % o al menos 10 %;

iii)mitad-metilo,opcionalmente en donde el corte de partición epigenética para lamitad-metiloes 5, 10, 15, 20, 25, 30, 35 o 40 mCG; o

iv)mitad-metilo,opcionalmente en donde el corte de partición epigenética para elmitad-metiloes 5, 10, 20, 30, 40 o 50 mCG.

10. El método de cualquiera de las reivindicaciones anteriores, en donde la secuenciación de la pluralidad de moléculas enriquecidas se realiza mediante un secuenciador de ácidos nucleicos, por ejemplo, en donde el secuenciador de ácidos nucleicos es un secuenciador de próxima generación.

11. El método de cualquiera de las reivindicaciones anteriores, en donde la muestra de polinucleótidos es

i) seleccionada del grupo que consiste en una muestra de ADN, una muestra de ARN, una muestra de polinucleótidos, una muestra de ADN libre de células y una muestra de ARN libre de células; y/o

ii) un ADN libre de células, opcionalmente en donde el ADN libre de células está entre 1 ng y 500 ng.

12. El método de cualquiera de las reivindicaciones anteriores, que comprende, además

i) generar un informe que opcionalmente incluye información sobre, y/o información derivada de, información derivada de la partición de moléculas de ácido nucleico; y opcionalmente

ii) comunicar el informe a un tercero, como el sujeto del que se derivó la muestra o un profesional de la salud.

13. Un sistema, que comprende un controlador que comprende, o es capaz de acceder a, medios legibles por computadora que comprenden instrucciones no transitorias ejecutables por computadora que, cuando son ejecutadas por al menos un procesador electrónico, realiza al menos:

a. obtener un conjunto de lecturas de secuenciación de una muestra generada por un secuenciador de ácidos nucleicos, en donde el conjunto de lecturas de secuenciación comprende lecturas de secuenciación generadas a partir de polinucleótidos de la muestra, y en donde la muestra fue particionada y enriquecida antes de la secuenciación de acuerdo con los pasos a y b de la reivindicación 1;

b. analizar al menos un subconjunto del conjunto de lecturas de secuenciación para generar una o más puntuaciones de partición epigenética de moléculas de control endógenas;

c. comparar una o más puntuaciones de partición epigenética con uno o más puntos de corte de partición epigenética; y

d. generar un estado de resultado del método de partición basado en la comparación de las puntuaciones de partición epigenética, en donde el estado de resultado del método de partición se clasifica como (i) exitoso, si una o más puntuaciones de partición epigenética del conjunto de moléculas de control endógenas están dentro de los puntos de corte de partición epigenética correspondientes; o (ii) no exitoso, si al menos una de las una o más puntuaciones de partición epigenética de las moléculas de control endógenas está fuera del punto de corte de partición epigenética correspondiente.

14. El sistema de la reivindicación 13, en el que

la muestra es una muestra enriquecida y se particionó y enriqueció de acuerdo con los pasos a y b de la reivindicación 2;

el paso b genera adicionalmente uno o más puntajes de partición epigenética para las moléculas de ácido nucleico de control epigenético; y

el estado de resultado en el paso d se clasifica como (i) exitoso, si uno o más puntajes de partición epigenética de las moléculas de ácido nucleico de control epigenético y/o el conjunto de moléculas de control endógenas están dentro de los puntos de corte de partición epigenética correspondientes; o (ii) sin éxito, si al menos una de las una o más puntuaciones de partición epigenética de las moléculas de control epigenético y/o las moléculas de control endógenas está fuera del punto de corte de partición epigenética correspondiente.

15. El sistema de la reivindicación 13 o la reivindicación 14, en el que la puntuación de partición epigenética es

i)puntuación 0 CG,opcionalmente en el que el punto de corte de partición epigenética para lapuntuación 0 CGes 0,01 %, 0,02 %, 0,05 %, 0,1 %, 0,2 %, 0,3 %, 0,4 %, 0,5 %, 0,6 %, 0,7 %, 0,8 %, 0,9 %, 1 %, 2 %, 5 %, al menos 5 % o al menos 10 %;

ii)puntuación hipo,opcionalmente en donde el punto de corte de partición epigenética para lapuntuación hipoes 0,1 %, 0,5 %, 1 %, 2 %, 3 %, 4 %, 5 %, 7 % o al menos 10 %;

iii)mitad-metilo,opcionalmente en donde el punto de corte de partición epigenética para lamitad-metiloes 5, 10, 15, 20, 25, 30, 35 o 40 mCG; o

iv)mitad-metilo,opcionalmente en donde el punto de corte de partición epigenética para lamitad-metiloes 5, 10, 20, 30, 40 o 50 mCG.