ES2922728T3 - Normalización matemática de conjuntos de datos de secuencias - Google Patents

Normalización matemática de conjuntos de datos de secuencias Download PDF

Info

Publication number
ES2922728T3
ES2922728T3 ES12857166T ES12857166T ES2922728T3 ES 2922728 T3 ES2922728 T3 ES 2922728T3 ES 12857166 T ES12857166 T ES 12857166T ES 12857166 T ES12857166 T ES 12857166T ES 2922728 T3 ES2922728 T3 ES 2922728T3
Authority
ES
Spain
Prior art keywords
sequence
locus
loci
data set
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12857166T
Other languages
English (en)
Inventor
Arnold Oliphant
Andrew Sparks
Eric Wang
Craig Struble
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Application granted granted Critical
Publication of ES2922728T3 publication Critical patent/ES2922728T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1003Extracting or separating nucleic acids from biological samples, e.g. pure separation or isolation methods; Conditions, buffers or apparatuses therefor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Organic Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Biochemistry (AREA)
  • Virology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

La invención proporciona procesos de la presente invención que proporcionan procedimientos de normalización para secuencias dentro de conjuntos de datos multiplexados utilizando la información de secuencia del propio conjunto de datos de secuenciación multiplexados en lugar de la utilización de cualquier referencia externa. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Normalización matemática de conjuntos de datos de secuencias
Referencia cruzada a solicitudes relacionadas
Campo de la invención
La presente invención se refiere a procedimientos para optimizar datos en conjuntos de datos multiplexados.
Antecedentes de la invención
En el siguiente análisis se describirán determinados artículos y procedimientos con propósitos introductorios y antecedentes. Nada de lo contenido en el presente documento se ha de interpretar como una "admisión" de la técnica anterior. El solicitante se reserva expresamente el derecho a demostrar, cuando sea apropiado, que los artículos y procedimientos a los que se hace referencia en el presente documento no constituyen una técnica anterior conforme a las disposiciones legales aplicables.
La detección de niveles de ácido nucleico en muestras biológicas tiene una amplia aplicabilidad en numerosas áreas de investigación biológica. La identificación de los niveles de ácido nucleico en una muestra, incluyendo los niveles de ADN asociados con la variación del número de copias y los niveles de ARN asociados con la expresión génica, se puede usar en procedimientos de diagnóstico y pronóstico. La variabilidad en los niveles de detección de moléculas biológicas introducida por las condiciones experimentales disminuye la calidad del análisis y, por tanto, es deseable reducir dicha variabilidad.
En general, la variabilidad en la detección de moléculas biológicas se puede disminuir usando conjuntos de referencia externos que tienen niveles conocidos de ácidos nucleicos y usan reactivos y condiciones sustancialmente similares. Sin embargo, si una referencia demuestra efectos de lote sustanciales o efectos sistémicos de laboratorio a laboratorio, esto puede inflar innecesariamente la variabilidad aparente y dar lugar a resultados erróneos.
Por tanto, existe una necesidad de obtener procedimientos mejorados para disminuir la variabilidad en conjuntos de datos para la detección de niveles de ácido nucleico en una molécula biológica.
Chen et al. PLoS ONE 6(7): e21791 (2011) describe el diagnóstico prenatal atraumático de la trisomía 18 y la trisomía 13 fetales por la secuenciación de ADN del plasma materno. En particular, el estudio empleó secuenciación masivamente paralela de moléculas de ADN en el plasma de mujeres embarazadas, seguido de análisis de datos de secuenciación y detección de muestras de trisomía 13 y trisomía 18. Se informaron de mejoras en los resultados diagnósticos como resultado del uso de un genoma de referencia sin repetición enmascarado y como resultado del uso de un recuento de lecturas corregido por CG. La etapa de corrección por CG tuvo como objetivo eliminar el efecto del sesgo de CG en los recuentos de lecturas secuenciadas. Para cada muestra, en primer lugar se dividieron de forma bioinformática todos los cromosomas en segmentos del mismo tamaño (periodos de 50 kb). Se aplicó una regresión LOESS para ajustar el número de lecturas secuenciadas en cada periodo frente al contenido de CG del periodo correspondiente. Chen et al., no divulgan un procedimiento que implique normalizar la frecuencia de una secuencia de locus individuales dentro del conjunto de datos y someter las frecuencias detectadas de una secuencia de un locus individual en todas las muestras a una transformación matemática en base a las frecuencias de secuencia de los al menos otros 15 locus en todas las muestras dentro del conjunto de datos.
El documento WO2011/060240 A1 describe un procedimiento de análisis del número de copias de un locus diana, por ejemplo, por RT-PCR. En algunos modos de realización, el procedimiento implica determinar la diferencia (delta Ct) entre el número de ciclos de un locus diana y el número de ciclos de uno o más locus de referencia. En algunos modos de realización, el procedimiento implica normalizar la diferencia en el número de ciclos usando un calibrador en base a las medias recortadas a un 80 % del delta Ct para una placa de múltiples pocillos. El documento WO2011/060240 A1 no divulga un procedimiento para la identificación de una o más anomalías cromosómicas en un feto en el que se determina en una única reacción de secuenciación un conjunto de datos que comprende datos de secuencias de frecuencia para un conjunto de al menos 16 locus de un único cromosoma de dos o más muestras maternas, comprendiendo cada uno tanto los ácidos nucleicos fetales como maternos. Además, el procedimiento del documento WO2011/060240 A1 no implica someter las frecuencias detectadas de una secuencia de un locus individual en todas las muestras a una transformación matemática en base a las frecuencias de secuencias de los al menos otros 15 locus en todas las muestras dentro del conjunto de datos usando una técnica de regresión para normalizar la frecuencia del conjunto de locus. El documento WO2011/060240 A1 no divulga la identificación de diferencias en las frecuencias de secuencia de los locus normalizados a partir de las frecuencias de secuencia relativas del cromosoma fetal de los locus de uno o más de otros cromosomas en una o más de dichas muestras maternas.
Sumario de la invención
La presente invención proporciona un procedimiento implementado por ordenador para la identificación de la presencia o ausencia de una o más anomalías cromosómicas en un feto usando una muestra materna que comprende ácidos nucleicos tanto fetales como maternos, comprendiendo el procedimiento:
i) proporcionar un conjunto de datos que comprende datos de secuencias de frecuencia para un conjunto de al menos 16 locus de un único cromosoma de dos o más muestras maternas comprendiendo cada una ácidos nucleicos tanto fetales como maternos, en el que cada muestra se identifica por un índice de muestra, y en el que las secuencias del conjunto de datos se determinan en una única reacción de secuenciación;
ii) normalizar la frecuencia de una secuencia de locus individuales dentro de dicho conjunto de datos, en el que locus se refiere a una región de ácido nucleico de localización conocida en un genoma, y en el que la normalización comprende:
someter las frecuencias detectadas de una secuencia de un locus individual en todas las muestras a una transformación matemática en base a las frecuencias de secuencias de los al menos otros 15 locus en todas las muestras dentro del conjunto de datos, para reducir la variación introducida experimentalmente, en la que la transformación matemática comprende usar una técnica de regresión para normalizar la frecuencia del conjunto de locus; e
iii) identificar diferencias en las frecuencias de secuencia de un locus normalizado del cromosoma fetal en relación con las frecuencias de secuencia de locus de uno o más de otros cromosomas en una o más de dichas muestras maternas, identificando de este modo la presencia o ausencia de una o más anomalías cromosómicas en un feto.
En algunos modos de realización, los ácidos nucleicos son ADN. En algunos modos de realización, la técnica de regresión es regresión lineal múltiple o ajuste simple de medianas.
En algunos modos de realización, las secuencias de los locus individuales dentro del conjunto de datos se han sometido a una reacción de amplificación antes de la determinación de secuencia.
En algunos modos de realización, la reacción de amplificación usa cebadores que comprenden tanto una región de índice como una región de secuencia que se hibrida específicamente con el locus individual.
En algunos modos de realización, en el procedimiento se usan los datos de secuencia de al menos 64 locus, al menos 384 locus o al menos 768 locus.
La solicitud describe un sistema y procedimientos para normalizar datos de frecuencia dentro de un único conjunto de datos usando datos generados a partir de sistemas de secuenciación multiplexados. Más en particular, la presente solicitud describe procedimientos para identificar diferencias en las frecuencias de secuencia de un locus, una muestra y/o una agrupación de múltiples locus (por ejemplo, un cromosoma o una región subcromosómica) en relación con las otras secuencias en un conjunto multiplexado de datos de secuencia. Los procedimientos utilizan esta información para minimizar las diferencias introducidas empíricamente presentes en secuencias dentro del conjunto multiplexado de datos de secuencia. Los sistemas multiplexados proporcionan un medio integrado para distinguir entre las moléculas individuales que se secuencian, por ejemplo, a través del uso de índices asociados con un locus, muestra y/o cromosoma y/o diferencias de secuencia inherentes en diferentes regiones genómicas, lo que permite el procesamiento simultáneo de secuencias en las mismas condiciones.
Las tres dimensiones principales de los conjuntos de datos genéticos que se pueden normalizar usando los procedimientos descritos en el presente documento son la normalización de locus, la normalización de muestras y la normalización de cromosomas. La normalización de locus y la normalización de muestras en general utilizan 16 o más secuencias para normalizar cualquier dimensión dada del conjunto de datos, aunque en general son preferentes secuencias adicionales para su uso en los procedimientos. Por ejemplo, aunque se pueden usar 16 secuencias para el procedimiento de normalización, es preferente usar al menos 32, más preferentemente 64, más preferentemente 128, más preferentemente 256, más preferentemente 384, más preferentemente 512, más preferentemente 640, incluso más preferentemente 768 locus determinados.
Cuando dos dimensiones se normalizan simultáneamente, tal como la normalización de los efectos de locus y los efectos de muestra en un conjunto de datos, el número de secuencias que es necesario normalizar sería de al menos 16 (para la primera dimensión) * 16 (para la segunda dimensión), por lo que el procedimiento de normalización requeriría al menos 256 secuencias para normalizar, por ejemplo, las secuencias de un único cromosoma. Para la normalización a nivel cromosómico, el número de secuencias usadas en el procedimiento de normalización sería de 16*(16*n) = 256*n secuencias, donde n es el número de cromosomas consultados.
Las secuencias del conjunto de datos multiplexados se determinan en una única reacción de secuenciación, por ejemplo, usando un único portaobjetos o cubeta de lectura. Más preferentemente, los niveles de las secuencias individuales del conjunto de datos se determinan usando un único rasgo característico físico (por ejemplo, carril, canal o nanoporo) por medio del uso de tecnología de secuenciación de segunda generación.
En el presente documento se describe un procedimiento implementado por ordenador para la normalización de los datos de frecuencia de una secuencia individual dentro de un único conjunto de datos multiplexados, que comprende: proporcionar un conjunto de datos multiplexados que tenga datos de frecuencia en al menos 16 moléculas biológicas y someter la frecuencia detectada de una secuencia de una molécula biológica individual a una transformación matemática en base a la frecuencia de al menos otras 15 secuencias dentro del conjunto de datos para reducir la variación de la secuencia introducida experimentalmente. Esta variación se puede basar en una suposición del comportamiento esperado para esas secuencias particulares. En determinados aspectos, los datos sobre secuencias con un comportamiento muy por fuera del esperado se enmascaran durante el procedimiento de normalización para mejorar los resultados. Por ejemplo, si un locus es más o menos eficiente que otros locus que se predijo que tendrían el mismo comportamiento, la frecuencia para ese locus se puede normalizar para que se asemeje más a los otros locus. De forma similar, para las muestras, la frecuencia de las secuencias detectadas por locus dentro de una clase genética (por ejemplo, región cromosómica o genómica en la misma muestra) se puede hacer equivalente, porque las muestras deben tener la misma frecuencia "típica" por locus para realizar una comparación significativa.
En determinados aspectos, la aplicación describe procedimientos para la normalización de niveles de secuencia en un conjunto de datos multiplexados sobre una base de locus. Dicha normalización proporciona un ajuste de la frecuencia de secuencia de locus individuales dentro de un conjunto de datos por medio de la comparación con la frecuencia de secuencia de otros locus individuales dentro del conjunto. Determinados locus presentarán efectos debido a las diferencias de eficacia del ensayo, incluyendo la hibridación, fijación y extensión en determinadas condiciones experimentales en comparación con otros locus. Estos locus se miden en todas las secuencias en una única reacción, preferentemente en un único carril de secuenciación, para obtener la frecuencia de cada locus dentro de la reacción, y requieren un número mínimo de locus o muestras únicos (por ejemplo, 16 o más) para medir con exactitud. La frecuencia promedio de cada locus se puede calcular, por ejemplo, como frecuencias medias o usando técnicas estadísticas sólidas tales como medias truncadas. Preferentemente, los niveles se estiman usando técnicas tales como técnicas de regresión, por ejemplo, regresión lineal múltiple o ajuste simple de medianas.
La solicitud también describe la normalización de los niveles de secuencia en un conjunto de datos multiplexados sobre una base de muestra. Dicha normalización proporciona el ajuste de los niveles de secuencia de locus de una muestra particular dentro de un conjunto de datos por medio de la comparación con los niveles de secuencia de otros locus individuales de una o más de otras muestras dentro del conjunto de datos multiplexados. Preferentemente, los niveles de al menos 16 locus diferentes presentes en las muestras individuales se usan para los procedimientos de normalización de muestras.
Por tanto, en un ejemplo específico, la solicitud describe un procedimiento implementado por ordenador para la normalización de los niveles de una secuencia individual dentro de un conjunto de datos multiplexados, que comprende proporcionar un conjunto de datos multiplexados que tiene datos de secuencia en un conjunto de al menos 16 locus de una muestra o un locus de 16 muestras, determinar la frecuencia o el número de recuentos de cada locus dentro de ese conjunto de datos, calcular los datos de frecuencia promedio, comparar los datos de frecuencia promedio en el conjunto de locus con la frecuencia de un locus individual para identificar diferencias en la frecuencia del locus individual en comparación con el conjunto de locus, y ajustar la frecuencia de la secuencia individual en base a los datos de frecuencia del conjunto de locus para reducir la variación introducida experimentalmente. Estos procedimientos son útiles para normalizar locus individuales dentro de una única muestra o bien el mismo locus presente en múltiples muestras.
Con respecto a los locus consultados en los procedimientos, los locus individuales pueden ser locus con secuencias diferentes y distinguibles de un único o pequeño número de muestras, por ejemplo, 16 o más locus con secuencias diferentes de una única muestra. De forma alternativa, los diferentes locus usados en los procedimientos pueden incluir locus con las mismas secuencias o secuencias indistinguibles, pero que son distinguibles en el procedimiento en base a su fuente, por ejemplo, se usa el mismo locus de diferentes muestras, y están asociados con índices que permiten diferenciación del mismo locus de las diferentes muestras.
En un aspecto específico, el mismo locus de múltiples muestras se puede normalizar usando los procedimientos. Más específicamente, la solicitud describe un procedimiento implementado por ordenador para la normalización de datos de frecuencia de secuencias de dos o más locus dentro de un único conjunto de datos multiplexados, que comprende proporcionar un conjunto de datos multiplexados que comprende datos de secuencia en dos o más locus individuales de al menos 16 muestras diferentes, sumar los datos de secuencia de los locus de las múltiples muestras para identificar las diferencias de frecuencia global de los locus de las diferentes muestras, y someter los datos sumados a una transformación matemática para corregir la frecuencia global de los locus de una muestra en base a un comparación con los niveles biológicos sumados de los locus en las otras muestras.
Los niveles de ácidos nucleicos dentro del conjunto de datos multiplexados se pueden usar para determinar una media o una mediana que proporcione un punto de referencia establecido. Por tanto, en algunos aspectos, los recuentos de secuenciación por muestra se estandarizan de modo que la mediana de recuentos de secuenciación por locus se ajusta a escala a un punto de referencia establecido de este tipo. Esto permite comparar las muestras entre sí para determinar datos fisiológicamente más significativos.
En otros aspectos, los procedimientos descritos en el presente documento utilizan la normalización sobre una base por muestra para abordar problemas con diferencias en las condiciones, incluyendo las condiciones que pueden haber surgido de las muestras que se prepararon por separado antes de agruparlas en una única reacción de secuenciación. Más específicamente, la solicitud describe un procedimiento implementado por ordenador para la normalización de datos de frecuencia de locus de dos o más muestras dentro de un único conjunto de datos multiplexados, que comprende proporcionar un conjunto de datos multiplexados que comprende datos de secuencia en 16 o más locus individuales de al menos dos muestras, sumar los datos de secuencia de los locus para identificar las diferencias de frecuencia global de los locus de las diferentes muestras, y someter los datos sumados a una transformación matemática para corregir la frecuencia global de los locus de una muestra en base a una comparación con los niveles biológicos sumados de los locus en las otras muestras.
En otros aspectos, los procedimientos se usan para eliminar los efectos cromosómicos. La mediana de recuentos de cromosomas para cada cromosoma en todas las muestras en el carril se establece como valor de referencia. Preferentemente, se conservan los recuentos totales por cromosoma, de modo que solo se reduce la varianza. Dicha normalización proporciona el ajuste de los niveles de secuencia de locus de un único cromosoma dentro de un conjunto de datos por medio de la comparación con los niveles de secuencia de otros cromosomas individuales dentro del conjunto de datos multiplexados. Preferentemente, los datos de frecuencia de al menos 16 locus diferentes presentes en las muestras individuales se usan para los procedimientos de normalización cromosómica.
En determinados aspectos preferentes, la solicitud describe la normalización de datos de frecuencia de secuencia en un conjunto de datos multiplexados sobre una base doble, por ejemplo, una base de locus por muestra o una base de locus por cromosoma. Esto permite que se mantengan determinados datos, incluyendo, por ejemplo, interacciones de muestra por cromosoma y residuos por muestra; estos efectos biológicos y varianzas se pueden usar para determinar el número de copias de regiones más grandes y para medir la garantía.
Los procedimientos de la invención se usan para normalizar los datos de secuenciación para determinar una anomalía cromosómica fetal (por ejemplo, una trisomía o una monosomía) en una muestra mixta. En este aspecto, la presente invención proporciona procedimientos para identificar diferencias en las frecuencias de secuencia de locus de una región cromosómica fetal en relación con uno o más de otros cromosomas en una o más muestras maternas usando un conjunto multiplexado de datos de secuencia. Los procedimientos de la invención utilizan esta información para minimizar las diferencias introducidas empíricamente presentes en las secuencias de estas regiones genómicas y optimizar la identificación de potenciales duplicaciones, deleciones y/o aneuploidías dentro del conjunto multiplexado de datos de secuencia. Los sistemas multiplexados de la invención proporcionan un medio integrado para distinguir entre las moléculas individuales que se secuencian de diferentes muestras, por ejemplo, a través del uso de índices asociados con una muestra, lo que permite la consulta simultánea de anomalías cromosómicas en dos o más muestras en las mismas condiciones.
Dicha normalización de muestras y/o cromosomas se puede realizar usando diversas características de las secuencias además de los datos de frecuencia de secuencia. En un ejemplo, la actividad biológica conocida asociada con diferentes secuencias en el conjunto de datos multiplexados se puede usar para determinar las secuencias del conjunto de datos usado en el procedimiento de normalización de muestras. Aún en otro ejemplo, los efectos posicionales de determinados locus dentro del contexto cromosómico se pueden usar para determinar las secuencias del conjunto de datos usados en el procedimiento de normalización de las muestras. Todavía en otros ejemplos, la normalización se puede basar en la selección de determinadas clases de locus, por ejemplo, genes constitutivos u otros locus que se sabe que presentan una variabilidad mínima entre muestras.
En determinados aspectos, las secuencias individuales dentro de un conjunto de datos multiplexados se pueden someter a una reacción de amplificación de las moléculas individuales antes de la determinación de secuencia. La solicitud describe por tanto procedimientos para cuantificar secuencias de ácidos nucleicos presentes en un único conjunto de datos multiplexados que se han sometido a dicha amplificación. Específicamente, la solicitud describe sistemas y procedimientos que comprenden las etapas de: amplificar al menos 16 moléculas biológicas; secuenciar los productos de amplificación de las al menos 16 moléculas biológicas en un único conjunto de datos multiplexados, en el que los datos de secuenciación son indicativos de una cantidad detectada de secuencias descendientes que surgen de la amplificación de las secuencias individuales en el conjunto; comparar la frecuencia de datos de secuencia en las moléculas biológicas con la frecuencia de una secuencia individual para identificar las diferencias globales en los niveles de secuencia de las moléculas biológicas, y someter la frecuencia detectada de las secuencias individuales a una transformación matemática en base a los datos de frecuencia de al menos 16 otras secuencias dentro del conjunto de datos para reducir la variación introducida experimentalmente en los datos de frecuencia de las moléculas biológicas.
En algunos aspectos, los procedimientos usan comparadores internos dentro de cada conjunto de datos para proporcionar cocientes de normalización, y los niveles detectados de cada molécula biológica dentro del conjunto de datos se pueden corregir en base al cociente de normalización de los datos en el conjunto de datos correspondiente a esa muestra particular.
En otro aspecto, la solicitud describe un procedimiento para cuantificar al menos un ácido nucleico de concentración desconocida en un conjunto de datos de secuenciación multiplexados. Por tanto, la solicitud proporciona un procedimiento implementado por ordenador para cuantificar al menos un ácido nucleico de concentración desconocida en un conjunto de datos de secuenciación multiplexados, que comprende proporcionar un conjunto de datos multiplexados que tiene datos de secuencia sobre al menos 16 moléculas biológicas, comparar los datos de frecuencia sobre las moléculas biológicas con la frecuencia de una secuencia individual para identificar las diferencias globales en las frecuencias de las moléculas biológicas, someter el nivel detectado de la secuencia individual a una transformación matemática en base al nivel de al menos otras 15 secuencias dentro del conjunto de datos para reducir la variación introducida experimentalmente, y cuantificar el ácido nucleico de concentración desconocida en base al nivel transformado.
En algunos aspectos, los procedimientos descritos en el presente documento se pueden usar para normalizar valores de datos entre muestras. Estos procedimientos utilizan 16 o más valores diferentes, preferentemente 32 o más valores diferentes, más preferentemente 48 o más valores diferentes, más preferentemente 64 o más valores diferentes y lo más preferentemente 96 o más valores diferentes que corresponden a la frecuencia de ácidos nucleicos individuales de dos o más moléculas biológicas dentro del conjunto de datos. Los procedimientos usan comparadores internos dentro de cada conjunto de datos para proporcionar cocientes de normalización, y los datos de frecuencia detectados de cada ácido nucleico dentro del conjunto de datos se pueden corregir en base al cociente de normalización para ese conjunto de datos particular.
En otros aspectos, los procedimientos se pueden usar para normalizar valores de datos entre ácidos nucleicos de una única muestra. Estos procedimientos utilizan 16 o más valores diferentes, preferentemente 32 o más valores diferentes, más preferentemente 48 o más valores diferentes, más preferentemente 64 o más valores diferentes, más preferentemente 96 o más valores diferentes, más preferentemente 128 o más valores diferentes, más preferentemente 256 o más valores diferentes, más preferentemente 384 o más valores diferentes, más preferentemente 512 o más valores diferentes, más preferentemente 640 o más valores diferentes, incluso más preferentemente 768 o más valores diferentes que corresponden a datos de frecuencia de ácidos nucleicos individuales de una única muestra en el conjunto de datos.
Estos aspectos y otros rasgos característicos y ventajas de la invención se describen con más detalle a continuación.
Definiciones
Los términos usados en el presente documento están destinados a tener el significado simple y habitual como se entiende por los expertos en la técnica. Las siguientes definiciones están destinadas a ayudar al lector a entender la presente invención, pero no están destinadas a variar o limitar de otro modo el significado de dichos términos a menos que se indique específicamente.
El término "amplificado" como se usa en el presente documento se refiere a cualquier molécula biológica en la que se haya incrementado su cantidad al menos dos veces por cualquier procedimiento de replicación o amplificación de ácido nucleico realizado in vitro en comparación con su cantidad inicial.
Como se usa en el presente documento, "amplificación" se refiere a una técnica para replicar un fragmento específico de ADN diana in vitro, incluso en presencia de un exceso de ADN no específico. Un ejemplo de amplificación es a través del uso de la reacción en cadena de la polimerasa o "PCR". Se añaden cebadores al ADN diana, donde los cebadores inician la copia del ADN diana usando nucleótidos y, típicamente, Taq polimerasa o similares. Realizando ciclos de la temperatura, el ADN diana se desnaturaliza y copia repetidamente. Se puede amplificar una única copia del ADN diana, incluso si se mezcla con otro ADN aleatorio, para obtener réplicas. La reacción en cadena de la polimerasa se puede usar para detectar y medir cantidades muy pequeñas de ADN y para crear fragmentos de ADN adaptados. En algunos casos, se pueden usar los procedimientos de amplificación lineal como alternativa a la PCR.
El término "molécula biológica" se refiere a cualquier muestra que comprende toda o parte de la información genética de un organismo, incluyendo pero sin limitarse a virus, bacterias, hongos, plantas y animales, y en particular mamíferos. La información genética que se puede consultar usando los procedimientos de la invención incluye ADN genómico (regiones tanto codificantes como no codificantes), ADN mitocondrial, ARN y productos de ácido nucleico derivados de cada uno de estos. Dichos productos de ácido nucleico incluyen ADNc creado a partir de ARNm o productos de preamplificación para incrementar el material para análisis.
El término "anomalía cromosómica" se refiere a cualquier variación genética que afecta a todo o parte de un cromosoma más grande que un único locus. Las variantes genéticas pueden incluir pero sin limitarse a cualquier variante del número de copias, tal como duplicaciones o deleciones, translocaciones, inversiones y mutaciones. Los ejemplos de anomalías cromosómicas incluyen, pero no se limitan a, síndrome de Down (trisomía 21), síndrome de Edwards (trisomía 18), síndrome de Patau (trisomía 13), síndrome de Klinefelter (XXY), síndrome de triple X, síndrome de XYY, trisomía 8, trisomía 16, síndrome de Turner (XO), translocación robertsoniana, síndrome de DiGeorge y síndrome de Wolf-Hirschhorn.
El término "índice de identificación" se refiere en general a una serie de nucleótidos que se incorporan a un oligonucleótido durante la síntesis de oligonucleótidos con propósitos de identificación. Las secuencias de índice de identificación tienen preferentemente 6 o más nucleótidos de longitud. En un aspecto preferente, el índice de identificación es lo suficientemente largo para tener una probabilidad estadística de marcar cada molécula con una secuencia diana de forma única. Por ejemplo, si existen 3000 copias de una secuencia diana particular, existen sustancialmente más de 3000 índices de identificación, de modo que es probable que cada copia de una secuencia diana particular esté marcada con un índice de identificación único. El índice de identificación puede contener nucleótidos adicionales que permiten la identificación y corrección de errores de secuenciación, incluyendo la detección de deleción, sustitución o inserción de una o más bases durante la secuenciación, así como cambios de nucleótidos que se pueden producir fuera de la secuenciación, tales como la síntesis de oligonucleótidos, la amplificación y cualquier otro aspecto del ensayo. El índice se puede combinar con cualquier otro índice para crear un índice que proporciona información para dos propiedades (por ejemplo, índice de identificación-muestra, índice de locus-alelo).
El término "comportamiento esperado", como se usa en el presente documento, se refiere al comportamiento previsto de una secuencia particular o conjunto de secuencias en base a diferencias o similitudes biológicas. Por ejemplo, se puede esperar que la captura y secuenciación del mismo locus a partir de diferentes muestras dé como resultado la misma frecuencia de secuencias. En otro ejemplo, diferentes moléculas de la misma muestra deberían tener cantidades relativas previstas.
El término "locus" como se usa en el presente documento se refiere a una región de ácido nucleico de localización conocida en un genoma.
El término "índice de locus" se refiere en general a una serie de nucleótidos que corresponden a un locus genómico dado. En un aspecto preferente, el índice de locus es lo suficientemente largo para marcar cada región de secuencia diana de forma única. Por ejemplo, si el procedimiento usa 192 regiones de secuencia diana, existen al menos 192 índices de locus únicos, cada uno identificando de forma única cada región diana. El índice de locus puede contener nucleótidos adicionales que permiten la identificación y corrección de errores de secuenciación, incluyendo la detección de deleción, sustitución o inserción de una o más bases durante la secuenciación, así como cambios de nucleótidos que se pueden producir fuera de la secuenciación, tales como la síntesis de oligonucleótidos, la amplificación y cualquier otro aspecto del ensayo. El índice se puede combinar con cualquier otro índice para crear un índice que proporciona información para dos propiedades (por ejemplo, índice de identificación-muestra, índice de locus-alelo).
El término "muestra materna" como se usa en el presente documento se refiere a cualquier muestra tomada de un mamífero gestante que comprende material genómico tanto fetal como materno (por ejemplo, ADN o ARN). Las muestras maternas pueden comprender células tanto de la madre como del feto o, de forma alternativa, ADN libre circulante o ARN de la madre y el feto. Preferentemente, las muestras maternas para su uso en la invención se obtienen a través de medios relativamente atraumáticos, por ejemplo, venopunción u otras técnicas estándar para extraer muestras periféricas de un sujeto.
El término "conjunto de datos multiplexados" se refiere a cualquier conjunto de datos de diferentes muestras, locus y/o cromosomas en los que 16 o más elementos del conjunto de datos se analizan simultáneamente donde el procesamiento o la detección usa un procedimiento bioquímico (por ejemplo, amplificación), todo o parte del procesamiento o detección puede tener lugar en un único recipiente, por ejemplo, la amplificación de las diferentes muestras dentro de un pocillo de placa con múltiples paredes, dentro de un único tubo, en un único portaobjetos, en una única cubeta de lectura o similares. En otros aspectos, se puede detectar un conjunto de datos multiplexados usando un único canal o carril físico en una reacción de secuenciación, tal como la detección de múltiples muestras en una cubeta de lectura o portaobjetos de secuenciación específicos. En aspectos más específicos, se puede detectar el conjunto de datos multiplexados usando la detección de múltiples muestras dentro de un conjunto de generación de datos (por ejemplo, dentro de un único carril) en un portaobjetos de secuenciación.
El término "secuenciación" como se usa en el presente documento se refiere en general a todos y cada uno de los procedimientos bioquímicos que se pueden usar para determinar el orden de las bases nucleotídicas, incluyendo pero sin limitarse a adenina, guanina, citosina y timina, en una o más moléculas de ADN. Como se usa en el presente documento, el término "determinación de secuencia" significa usar cualquier procedimiento de secuenciación conocido en la técnica para determinar las bases nucleotídicas de secuencia en un ácido nucleico.
El término "índice de muestra" se refiere en general a una serie de nucleótidos únicos (es decir, cada índice de muestra es único), y se puede usar para permitir la multiplexación de muestras de modo que cada muestra se pueda identificar en base a su índice de muestra. En un aspecto preferente, existe un índice de muestra exclusivo para cada muestra en un conjunto de muestras, y las muestras se agrupan durante la secuenciación. Por ejemplo,
si se agrupan doce muestras en una única reacción de secuenciación, existen al menos doce índices de muestra
únicos de modo que cada muestra se marque de forma única. El índice de muestra puede contener nucleótidos adicionales que permiten la identificación y corrección de errores de secuenciación, incluyendo la detección de deleción, sustitución o inserción de una o más bases durante la secuenciación, así como cambios de nucleótidos
que se pueden producir fuera de la secuenciación, tales como la síntesis de oligonucleótidos, la amplificación y cualquier otro aspecto del ensayo. El índice se puede combinar con cualquier otro índice para crear un índice que proporciona información para dos propiedades (por ejemplo, índice de identificación-muestra, índice de
locus-alelo).
Breve descripción de las figuras
La FIG. 1 es un diagrama de bloques que ilustra un entorno de sistema ejemplar.
Las FIGS. 2A y 2B son gráficos de cajas que ilustran la eliminación del sesgo de secuencia provocado por los
efectos de muestra.
Las FIGS. 3A y 3B es un gráfico que ilustra la eliminación del sesgo provocado por los efectos de locus.
Las FIGS. 4A y 4B es un gráfico que ilustra la normalización del nivel cromosómico.
Las FIGS. 5A y 5B es un gráfico que ilustra un primer ejemplo de normalización de datos de secuencia en base a los efectos de la posición del cromosoma.
Las FIGS. 6A y 6B es un gráfico que ilustra un segundo ejemplo de normalización de datos de secuencia en base
a los efectos de la posición del cromosoma.
Descripción detallada de la invención
La práctica de las técnicas descritas en el presente documento puede emplear, a menos que se indique de otro
modo, técnicas y descripciones convencionales de química orgánica, tecnología de polímeros, biología molecular (incluyendo técnicas recombinantes), biología celular, bioquímica y tecnología de secuenciación, que están dentro
de la habilidad de los expertos en la técnica. Dichas técnicas convencionales incluyen síntesis de matriz polimérica, hibridación y fijación de polinucleótidos, y detección de hibridación usando un marcador. Se pueden tener ilustraciones específicas de técnicas adecuadas por referencia a los ejemplos en el presente documento. Sin embargo, también se pueden usar por supuesto otros procedimientos convencionales equivalentes. Dichas técnicas y descripciones convencionales se pueden encontrar en manuales de laboratorio estándar tales como Green, et al., Eds. (1999), Genome Analysis: A Laboratory Manual Series (vols. I-IV); Weiner, Gabriel, Stephens,
Eds. (2007), Genetic Variation: A Laboratory Manual; Dieffenbach, Dveksler, Eds. (2003), PCR Primer: A Laboratory Manual; Bowtell y Sambrook (2003), DNA Microarrays: A Molecular Cloning Manual; Mount (2004), Bioinformatics: Sequence and Genome Analysis; Sambrook y Russell (2006), Condensed Protocols from Molecular Cloning: A Laboratory Manual; y Sambrook y Russell (2002), Molecular Cloning: A Laboratory Manual (todos de
Cold Spring Harbor Laboratory Press); Stryer, L. (1995) Biochemistry (4.a ed.) W.H. Freeman, New York N.Y.; Gait, "Oligonucleotide Synthesis: A Practical Approach" 1984, IRL Press, Londres; Nelson y Cox (2000), Lehninger, Principles of Biochemistry 3.a ed., W. H. Freeman Pub., Nueva York, N.Y.; y Berg et al. (2002) Biochemistry, 5.a ed.,
W.H. Freeman Pub., Nueva York, N.Y.,
Cabe destacar que, como se usa en el presente documento y en las reivindicaciones adjuntas, las formas en singular "un", "una" y "el/la" incluyen las referencias en plural a menos que el contexto lo indique claramente de otro
modo. Por tanto, por ejemplo, la referencia a "una secuencia" se refiere a una o más copias de una secuencia, y la referencia a "el procedimiento" incluye la referencia a etapas y procedimientos equivalentes conocidos por los expertos en la técnica, etc.
A menos que se defina de otro modo, todos los términos técnicos y científicos usados en el presente documento
tienen el mismo significado que el entendido comúnmente por un experto en la técnica a la que pertenece la presente invención.
Cuando se proporciona un intervalo de valores, se entiende que cada valor intermedio, entre el límite superior e
inferior de ese intervalo y cualquier otro valor establecido o intermedio en ese intervalo establecido se engloba
dentro de la invención. Los límites superior e inferior de estos intervalos más pequeños se pueden incluir independientemente en los intervalos más pequeños, y también se engloban dentro de la invención, sujetos a cualquier límite específicamente excluido en el intervalo establecido. Cuando el intervalo establecido incluye uno o
ambos límites, los intervalos que excluyen cualquiera de los dos límites incluidos también se incluyen en la
invención.
En la siguiente descripción se exponen numerosos detalles específicos para proporcionar una comprensión más completa de la presente invención. Sin embargo, será evidente para un experto en la técnica que la presente invención se puede poner en práctica sin uno o más de estos detalles específicos, a menos que así se requiera por las reivindicaciones. En otros casos, no se han descrito rasgos característicos y procedimientos bien conocidos para los expertos en la técnica para evitar confundir la invención.
La invención en general
La presente invención se refiere a procedimientos para proporcionar métricas de control de calidad a conjuntos de datos de secuenciación multiplexados. Más específicamente, los procedimientos de la presente invención se refieren a procedimientos de normalización para secuencias dentro de conjuntos de datos multiplexados usando la información de secuencia del propio conjunto de datos de secuenciación multiplexados en lugar de la utilización de cualquier referencia externa. Dichas métricas son útiles para corregir variaciones en los datos de frecuencia de secuenciación individuales que se introducen por la variación en las condiciones experimentales en lugar de la variación que refleja diferencias biológicas. Esto proporciona datos más exactos, por ejemplo, para su uso en el análisis de datos de frecuencia de secuenciación de ácidos nucleicos comparativos para el análisis de la expresión de ARN o del número de copias genéticas.
En determinados aspectos, los datos de secuencia del conjunto de datos multiplexados se usan para determinar incrementos o disminuciones biológicamente pertinentes en la representación para un locus, muestra o cromosoma dado. Si los recuentos de secuencias de determinados locus o muestras se incrementan o disminuyen por un motivo distinto al procedimiento biológico pertinente en investigación, incluyendo, por ejemplo, la variación debida a condiciones experimentales u otros efectos biológicos no relacionados, los procedimientos de la invención se pueden usar para eliminar estos artefactos sin perturbar la variación biológica pertinente subyacente.
Los procedimientos de la presente invención contrastan con los procedimientos más convencionales de medición de la variabilidad en relación con un conjunto de referencia externo que ha analizado muestras o locus similares en aproximadamente las mismas condiciones experimentales. La capacidad de los procedimientos de la invención para realizar la normalización en "tiempo real" para una o más secuencias en un conjunto de datos en comparación con los otros datos de secuencia dentro del conjunto que se identificaron en condiciones idénticas reduce la variabilidad que se puede introducir incluso por cambios relativamente leves en la preparación y/o procesamiento de muestras. Las mediciones de diferentes secuencias aisladas y/o amplificadas de un ácido nucleico (por ejemplo, usando PCR) se pueden potenciar reduciendo o eliminando la variabilidad técnica usando dichos procedimientos. Por tanto, la presente invención proporciona procedimientos para mitigar los efectos que no se deben únicamente a la biología de la muestra y/o región genómica en investigación.
En los conjuntos de datos multiplexados de la invención, las muestras se procesan preferentemente en las mismas condiciones y las secuencias se determinan en una única reacción de secuenciación. En aspectos preferentes, se pueden procesar diferentes muestras durante la parte inicial del ensayo como muestras separadas. Esas muestras se pueden marcar con índices de muestra identificadores y a continuación agruparse antes de la etapa de detección de secuencia.
Los procedimientos de la invención utilizan varianzas observadas dentro y entre muestras multiplexadas en una única reacción de determinación de secuenciación, por ejemplo, las secuencias individuales se llevan a cabo dentro de un único carril de secuenciación y se diferencian usando un identificador tal como un índice. Esto contrasta con los procedimientos de normalización más convencionales, que requieren estimar la varianza en base a la información obtenida de un conjunto de datos de referencia analizado previamente. Los procedimientos de la invención pueden por tanto aprovechar las varianzas observadas dentro y entre muestras en un único carril de secuenciación en lugar de estimar la varianza en base a la información obtenida de un conjunto de datos de referencia analizado previamente. Utilizando información del conjunto de datos multiplexados, los procedimientos de la invención son menos susceptibles a la desviación del procedimiento y no requieren muestras de referencia externas ni ajustes de normalización en base a información histórica.
En determinados aspectos, los sesgos provocados por la posición cromosómica se pueden eliminar de los conjuntos de datos multiplexados individuales usando una técnica de regresión sólida. Un ejemplo de una técnica de este tipo es un "suavizado" de los recuentos de secuenciación obtenidos para cada muestra secuenciada para eliminar los sesgos posicionales, por ejemplo, usando una técnica de regresión sólida (por ejemplo, regresión lineal por fragmentos LOWESS). Cuando se usa una técnica de este tipo, preferentemente se conservan los recuentos totales por cromosoma de modo que solo se reduce la varianza entre muestras en un conjunto de datos. Las normalizaciones adicionales que se podrían incorporar incluyen recuentos polimórficos ajustados debido a la especificidad alélica medida estimada por la variación de oligonucleótidos y la presencia o ausencia de polimorfismos.
Implementación informática de los procedimientos de la invención
La FIG. 1 es un diagrama de bloques que ilustra un entorno de sistema ejemplar en el que se puede implementar el procesado de la presente invención para normalizar los niveles entre locus, muestras y/o cromosomas. El sistema 10 incluye un servidor 14 y un ordenador 16, y preferentemente estos están asociados con un secuenciador de ADN 12. El secuenciador de ADN 12 puede estar acoplado al servidor 14 y/o al ordenador directamente o a través de una red. El ordenador 16 puede estar en comunicación con el servidor 14 a través de la misma red o de otra diferente.
En un modo de realización, se introduce un conjunto de 16 o más ácidos nucleicos o la descendencia 18 de los mismos en el secuenciador de ADN 12. El secuenciador de ADN 12 puede ser cualquier instrumento disponible comercialmente que automatice el procedimiento de secuenciación de ADN para el análisis de secuencia de ácidos nucleicos representativos de una molécula biológica 18. La salida del secuenciador de ADN 12 puede estar en forma de conjuntos de datos multiplexados 20 que comprenden datos de frecuencia para locus y/o muestras que son distinguibles en base a índices asociados. En un modo de realización, el conjunto de datos multiplexados 20 se puede almacenar en una base de datos 22 a la que se puede acceder por el servidor 14.
De acuerdo con el modo de realización ejemplar, el ordenador 16 ejecuta un componente de programa informático 24 que calcula los datos de frecuencia para los diferentes ácidos nucleicos en el conjunto de datos multiplexados 18. En un modo de realización, el ordenador 16 puede comprender un ordenador personal, pero el ordenador 16 puede comprender cualquier tipo de máquina que incluya al menos un procesador y memoria.
La salida del componente de programa informático 24 comprende un informe 26 con datos de frecuencia ajustados para una o más secuencias dentro del conjunto de datos multiplexados. El informe 26 puede ser un documento que se imprime, o electrónico, que se puede presentar en un monitor y/o comunicar electrónicamente a los usuarios por medio de correo electrónico, FTP, mensaje de texto, publicar en un servidor y similares.
Aunque el procedimiento de normalización de la invención se muestra como implementado como el programa informático 24, también se puede implementar como una combinación de soporte físico y programa informático. Además, el programa informático 24 para la normalización se puede implementar como múltiples componentes que funcionan en el mismo o en diferentes ordenadores.
Tanto el servidor 14 como el ordenador 16 pueden incluir componentes de soporte físico de dispositivos informáticos típicos (no mostrados), que incluyen un procesador, dispositivos de entrada (por ejemplo, teclado, dispositivo señalador, micrófono para comandos de voz, botones, pantalla táctil, etc.) y dispositivos de salida (por ejemplo, un dispositivo de pantalla, altavoces y similares). El servidor 14 y el ordenador 16 pueden incluir medios legibles por ordenador, por ejemplo, dispositivos de memoria y almacenamiento (por ejemplo, memoria flash, disco duro, unidad de disco óptico, unidad de disco magnético y similares) que contienen instrucciones informáticas que implementan la funcionalidad divulgada cuando se ejecutan por el procesador. El servidor 14 y el ordenador 16 pueden incluir además interfaces de comunicación de red por cable o inalámbrica para la comunicación.
Uso de índices en los sistemas de ensayo de la invención
Las secuencias en el conjunto de datos multiplexados están asociadas con uno o más índices que se identifican para una muestra particular que se analiza y, opcionalmente, para un locus. Estos índices se asocian preferentemente con los ácidos nucleicos seleccionados durante una etapa de amplificación usando cebadores que comprenden tanto las regiones de índice como las de secuencia que se hibridan específicamente con la región de ácido nucleico. Dichos índices permiten la diferenciación de secuencias individuales dentro del conjunto de datos multiplexados (o la descendencia de las mismas) y permiten un uso más eficaz de la tecnología de secuenciación.
En un ejemplo, los cebadores usados para la amplificación de moléculas biológicas se diseñan para proporcionar un índice de locus entre la región del cebador de la región de ácido nucleico seleccionada y una región de amplificación universal. El índice de locus es único para cada región de ácido nucleico seleccionada y representativa de un locus en un cromosoma de interés o cromosoma de referencia, de modo que la cuantificación del índice de locus en una muestra proporciona datos de cuantificación para el locus y el cromosoma particular que contiene el locus. La región de amplificación universal se puede usar para proporcionar una amplificación adicional de las secuencias individuales en una única reacción de amplificación y, preferentemente, en una reacción de amplificación en un único recipiente.
En otro aspecto, los cebadores usados para la amplificación de las regiones de ácido nucleico seleccionadas se diseñan para proporcionar un índice aleatorio entre la región seleccionada complementaria a la molécula biológica y una región de amplificación universal. En un aspecto de este tipo, está presente un número suficiente de índices de identificación para identificar de forma única cada región de ácido nucleico seleccionada en la muestra. Cada región de ácido nucleico que se va a analizar está asociada con un índice de identificación único, de modo que el índice de identificación está asociado de forma única con la región de ácido nucleico seleccionada. La cuantificación del índice de identificación en una muestra proporciona datos de cuantificación para la región de ácido nucleico seleccionada asociada y el cromosoma correspondiente a la región de ácido nucleico seleccionada. El locus de identificación también se puede usar para detectar cualquier sesgo de amplificación que se produzca en dirección 3' del aislamiento inicial de las regiones de ácido nucleico seleccionadas de una muestra.
En determinados aspectos, solo el índice de locus y/o el índice de identificación (si está presente) se detectan y usan para cuantificar las regiones de ácido nucleico seleccionadas en una muestra. En otro aspecto, se realiza un recuento del número de veces que se produce cada índice de locus con un índice de identificación único para determinar la frecuencia relativa de una región de ácido nucleico seleccionada en una muestra.
Además de los índices específicos de locus y los índices de identificación, se pueden introducir índices adicionales a las moléculas biológicas durante una reacción de amplificación o secuenciación para ayudar en la multiplexación de muestras. Además, se pueden añadir a los cebadores índices que identifiquen un error de secuenciación, que permitan técnicas de amplificación altamente multiplexadas o que permitan la hibridación o fijación o unión a otra superficie. El orden y la ubicación de estos índices, así como la longitud de estos índices, pueden variar.
Preferentemente, la región de índice corresponde a la región de ácido nucleico seleccionada, de modo que la identificación de la región de índice se puede usar como sustituto para la detección de la secuencia real de la región de ácido nucleico seleccionada. La región de índice puede comprender opcionalmente un índice de muestra para identificar el conjunto de oligonucleótidos como perteneciente a una muestra particular en un sistema de ensayo multiplexado.
Amplificación y determinación de secuencia
En un aspecto preferente, los productos de amplificación multiplexada se cuantifican por análisis de los productos de amplificación. En un aspecto preferente, una muestra representativa de moléculas individuales de los procesos de amplificación se aísla de las otras moléculas para su análisis posterior. Para obtener una muestra representativa de moléculas individuales, el número promedio de moléculas por locus debe exceder el ruido de muestreo generado por la reacción multiplexada. En un aspecto, el número promedio por locus es mayor que 100. En otro aspecto, el número promedio por locus es mayor que 500. En otro aspecto, el número promedio por locus es mayor que 1000.
Las moléculas individuales del producto de amplificación preferentemente se aíslan físicamente de las otras moléculas de manera que permita distinguir entre sí los diferentes productos de amplificación en el análisis. En un aspecto preferente, este aislamiento se produce sobre un sustrato sólido. La molécula aislada se puede asociar con una dirección física o identificable particular antes del análisis, o bien la dirección puede llegar a ser conocida para los productos de amplificación particulares en base al resultado del análisis. El sustrato puede ser una superficie plana o una superficie tridimensional tal como una microesfera.
Una vez aislado, el producto de amplificación individual se puede amplificar además para hacer múltiples copias idénticas de esa molécula en la misma localización conocida o identificable. La amplificación se puede producir antes o después de que esa localización se convierta en una dirección física o identificable. El producto de amplificación y/o sus copias (que pueden ser idénticas o complementarias al producto de amplificación) se analizan a continuación en base a la secuencia del producto de amplificación o sus copias para identificar el locus y/o alelo particular que representa.
En un aspecto preferente, la longitud completa del producto de amplificación o una porción del producto de amplificación se puede analizar usando determinación de secuencia. El número de bases que es necesario determinar debe ser suficiente para identificar el producto de amplificación de forma exclusiva como perteneciente a un locus y/o alelo específico. En un aspecto preferente, el producto de amplificación se analiza a través de la determinación de secuencia del producto de amplificación seleccionado.
Numerosos procedimientos de determinación de secuencias son compatibles con los sistemas de ensayo de la invención. Los procedimientos ejemplares para la determinación de secuencias incluyen, pero no se limitan a, procedimientos basados en hibridación, tales como los que se divulgan en Drmanac, patentes de EE. UU. n.os 6.864.052, 6.309.824 y 6.401.267 y Drmanac et al., publicación de patente de EE. UU. n.° 2005/0191656, secuenciación por procedimientos de síntesis, por ejemplo, Nyren et al., patentes de EE. UU. n.os 7.648.824, 7.459.311 y 6.210.891; Balasubramanian, patentes de EE. UU. n.os 7.232.656 y 6.833.246; Quake, patente de EE. UU. n.° 6.911.345; Li et al., Proc. Natl. Acad. Sci., 100:414-419 (2003); secuenciación por pirofosfato, como se describe en Ronaghi et al., patentes de EE. UU. n.os 7.648.824, 7.459.311, 6.828.100 y 6.210.891; y procedimientos de determinación de secuenciación basada en fijación, por ejemplo, Drmanac et al., solicitud de patente de EE. UU. n.° 20100105052, y Church et al., solicitudes de patente de EE. UU. n.os 20070207482 y 20090018024.
La información de secuencia se puede determinar usando procedimientos que determinen muchas (típicamente miles a miles de millones) de secuencias de ácido nucleico de una manera intrínsecamente paralela, donde muchas secuencias se leen preferentemente en paralelo usando un procedimiento en serie de alto rendimiento. Dichos procedimientos incluyen pero no se limitan a pirosecuenciación (por ejemplo, como se comercializa por 454 Life Sciences, Inc., Branford, CT); secuenciación por fijación (por ejemplo, como se comercializa en la tecnología SOLiD™, Life Technology, Inc., Carlsbad, CA); secuenciación por síntesis usando nucleótidos modificados (tal como se comercializa en la tecnología TruSeq™ y HiSeq™ por Illumina, Inc., San Diego, CA; HeliScope™ por Helicos Biosciences Corporation, Cambridge, MA; y PacBio RS por Pacific Biosciences of California, Inc., Menlo Park, CA), secuenciación por tecnologías de detección de iones (Ion Torrent, Inc., South San Francisco, CA); secuenciación de nanobolas de ADN (Complete Genomics, Inc., Mountain View, CA); tecnologías de secuenciación basada en nanoporos (por ejemplo, desarrolladas por Oxford Nanopore Technologies, LTD, Oxford, Reino Unido) y procedimientos de secuenciación altamente paralelizados similares.
De forma alternativa, en otro aspecto, la longitud completa del producto de amplificación o una porción del producto de amplificación se puede analizar usando técnicas de hibridación. Los procedimientos para realizar ensayos de hibridación de polinucleótidos para la detección se han desarrollado bien en la técnica. Los procedimientos y condiciones de ensayo de hibridación variarán dependiendo de la aplicación y se seleccionan de acuerdo con los procedimientos de unión generales conocidos incluyendo a los que se hace referencia en: Maniatis et al. Molecular Cloning: A Laboratory Manual (2.a ed. Cold Spring Harbor, N.Y., 1989); Berger y Kimmel, Methods in Enzymology, vol. 152, Guide to Molecular Cloning Techniques (Academic Press, Inc., San Diego, Calif., 1987); Young y Davis, P.N.A.S, 80: 1194 (1983). Se han descrito procedimientos y aparatos para llevar a cabo reacciones de hibridación repetidas y controladas en las patentes de EE. UU. n.os 5.871.928, 5.874.219, 6.045.996 y 6.386.749, 6.391.623, de las que cada una se incorpora en el presente documento por referencia.
La presente invención también contempla la detección de señales de hibridación entre ligandos en determinados aspectos preferentes. Véanse las patentes de EE. UU. n.os 5.143.854, 5.578.832; 5.631.734; 5.834.758; 5.936.324; 5.981.956; 6.025.601; 6.141.096; 6.185.030; 6.201.639; 6.218.803; y 6.225.625, en la solicitud de patente de EE. UU. 60/364.731 y la solicitud PCT PCT/US99/06097 (publicada como documento WO99/47964).
Los procedimientos y aparatos para la detección de señales y el procesamiento de datos de intensidad se divulgan, por ejemplo, en las patentes de EE. UU. n.os 5.143.854, 5.547.839, 5.578.832, 5.631.734, 5.800.992, 5.834.758; 5.856.092, 5.902.723, 5.936.324, 5.981.956, 6.025.601,6.090.555, 6.141.096, 6.185.030, 6.201.639; 6.218.803; y 6.225.625, en la solicitud de patente de EE. UU. 60/364.731 y en la solicitud PCT PCT/US99/06097 (publicada como documento WO99/47964).
Uso de los procedimientos en la detección de anomalías fetales
Las anomalías cromosómicas, que incluyen aneuploidías, duplicaciones, translocaciones y similares, representan un gran número de patologías, incluyendo los síndromes provocados por aneuploidías cromosómicas (por ejemplo, síndrome de Down) y los provocados por anomalías subcromosómicas (por ejemplo, síndrome de DiGeorge). Los procedimientos para determinar anomalías genéticas se han convertido en técnicas estándar para identificar síndromes, enfermedades y trastornos específicos. La detección de anomalías cromosómicas visibles, tales como trisomías, monosomías, translocaciones y grandes inserciones o deleciones, se ha convertido en una práctica estándar en poblaciones de alto riesgo para determinar la presencia o ausencia de determinados trastornos. Por ejemplo, las anomalías cromosómicas tales como las trisomías 13, 18 y 21, la translocación robertsoniana asociada con determinadas formas del síndrome de Down y las deleciones más grandes tales como las que se encuentran en el cromosoma 22 en el síndrome de DiGeorge tienen un impacto significativo en la salud fetal.
Los procedimientos de la invención se usan en la normalización de conjuntos de datos multiplexados para la identificación de la presencia o ausencia de una o más anomalías cromosómicas en un feto usando una muestra materna. Preferentemente, la muestra materna es sangre, suero o plasma. En algunos aspectos, la muestra materna comprende células maternas y fetales. En otros aspectos, la muestra materna comprende ácidos nucleicos libres circulantes maternos y fetales, tales como ARN o ADN. Preferentemente, la muestra materna comprende ADN libre circulante.
Ejemplos
Los siguientes ejemplos se presentan para proporcionar a los expertos en la técnica una divulgación y descripción completas de cómo realizar y usar la presente invención, y no pretenden limitar el alcance de lo que los autores de la invención consideran su invención, ni pretenden representar o dar a entender que los experimentos a continuación son todos o los únicos experimentos realizados.
Se han realizado esfuerzos para garantizar la exactitud con respecto a los números usados (por ejemplo, cantidades, temperatura, etc.) pero se deben tener en cuenta algunos errores experimentales y desviaciones. A menos que se indique de otro modo, las partes son partes en peso, el peso molecular es el peso molecular promedio ponderado, la temperatura se expresa en grados centígrados y la presión es igual o cercana a la atmosférica.
Ejemplo 1: aspectos generales de los procedimientos de la invención
Para evaluar la proporción cromosómica, se realizaron ensayos frente a 576 locus no polimórficos en cada uno del cromosoma 18 y el cromosoma 21, donde cada ensayo consistió en tres oligonucleótidos específicos de locus: un oligonucleótido a la izquierda con una cola de amplificación universal en 5', un oligonucleótido medio fosforilado en 5' y un oligonucleótido a la derecha fosforilado en 5' con una cola de amplificación universal en 3'. Para evaluar la fracción fetal, se diseñaron ensayos frente a un conjunto de 192 locus que contienen SNP en chr1-12, donde se usaron dos oligonucleótidos medios, que difieren en una base, para consultar cada SNP. Los SNP se optimizaron en cuanto a la frecuencia del alelo minoritario en el conjunto de datos HapMap 3. Los oligonucleótidos se sintetizaron por IDT y se agruparon para crear un único grupo de ensayos DANSR multiplexados.
Los productos de 96 muestras independientes se agruparon y usaron como molde para la amplificación de grupos en un único carril de un portaobjetos de flujo TruSeq v2 SR (Illumina, San Diego, CA). El portaobjetos se procesó en un Illumina HiSeq 2000 para generar un promedio de 1,18 millones de lecturas de secuenciación sin procesar/muestra. Un promedio de 1,15 millones (97 %) de lecturas tuvo menos de 3 emparejamientos erróneos con las estructuras de ensayo esperadas, lo que resultó en un promedio de 854 lecturas/locus/muestra.
Ejemplo 2: eliminación del efecto de muestra
En un primer ejemplo, los procedimientos de la invención se utilizaron para eliminar variaciones en los recuentos de secuencias entre múltiples muestras en un conjunto de datos de secuencias multiplexados. Los recuentos de secuencias por muestra sin procesar se determinaron según el ejemplo 1. La FIG. 2 es un gráfico de dichas secuencias determinadas. Cada gráfico de cajas demuestra los recuentos de secuencias sin ajustar y sin procesar para todos los cromosomas dentro de una muestra, representando cada caja más pequeña un conjunto de todos los locus para una muestra dada. Como se ilustra, determinadas muestras generaron más o menos medianas de recuentos de secuencias que otras muestras. En el panel inferior, las mismas muestras se representan después de la normalización centrada en la mediana ajustando a escala la mediana de recuentos de cada muestra a un recuento de referencia de 1000. De forma destacable, se eliminaron los sesgos sistemáticos relacionados con determinadas muestras.
Ejemplo 3: eliminación del efecto de locus
En el siguiente ejemplo, las secuencias de un conjunto de datos de secuencias multiplexadas con recuentos que representan un único locus se normalizaron usando los procedimientos de la invención. Los procedimientos de la invención se utilizaron para eliminar variaciones en los recuentos de secuencias entre el mismo locus de diversas muestras. Los recuentos de secuencias por locus sin procesar para el cromosoma 21 determinados según el ejemplo 2 se representan como gráficos de cajas en la FIG. 3A. Cada caja es un gráfico de todas las muestras para un locus dado. Cada caja es un gráfico de todas las muestras para un locus dado. La FIG. 3B ilustra los mismos locus en la FIG. A del cromosoma 21 después de que se realizó la normalización usando el algoritmo de ajuste simple de medianas [Tukey, JW. Exploratory Data Analysis. Reading Massachusetts: Addison-Wesley. 1977] con otras secuencias dentro del conjunto de datos multiplexados. De forma destacable, se eliminaron los sesgos sistemáticos relacionados con determinados locus.
Ejemplo 4: ejemplos de normalización a nivel cromosómico.
En otro ejemplo, se puede introducir sesgo en conjuntos de datos multiplexados sobre una base por cromosoma. Los procedimientos de la invención usando la normalización interna se pueden usar para reducir dicho sesgo como se muestra en las FIGS. 4A y 4B. La FIG. 4A muestra el nivel de recuentos de secuencias después de la normalización centrada en la mediana inicial. La FIG. 4B muestra el nivel de recuentos de secuencias por cromosoma en el conjunto de datos multiplexados después de la normalización. La premisa de esta normalización es que la mediana de recuentos de secuencias en los cromosomas debe ser la misma. Sin embargo, a veces un cromosoma tiende a generar más recuentos de secuencias que otro cromosoma, no debido a la biología subyacente sino debido a otros motivos técnicos. Este efecto se elimina como parte de la normalización de RMA usando otras secuencias dentro del conjunto de datos multiplexados.
Ejemplo 5: normalización en base a la posición del cromosoma.
En algunos aspectos, determinadas regiones del cromosoma parecían tener recuentos de secuencias menores, lo que no tiene ninguna relación con el estado de ploidía real del feto. Esta variabilidad se normalizó usando las secuencias internas del conjunto de datos multiplexados para el suavizado de gráficos de dispersión ponderados localmente (LOWESS) [Cleveland, W. S. (1979) Robust locally weighted regression and smoothing scatterplots. J. Amer. Statist. Assoc. 74, 829-836.; Cleveland, W. S. (1981) LOWESS: A program for smoothing scatterplots by robust locally weighted regression. The American Statistician, 35, 54]. LOWESS es una técnica moderna de regresión no lineal que suaviza las estructuras sistemáticas y no deseadas en los datos. En resumen, se usó un pequeño subconjunto de los locus detectados dentro de un conjunto multiplexado para construir un modelo de regresión lineal local. A continuación, los valores modelados se eliminaron de los recuentos de secuencias, suavizando de este modo los sesgos estructurales. La FIG. 5A ilustra los datos de un conjunto de datos de secuencias multiplexados correspondientes a secuencias del cromosoma 18 antes del suavizado LOWESS, y la FIG. 5B ilustra los mismos datos después del suavizado LOWESS. La FIG. 6A ilustra los datos de un conjunto de datos de secuencias multiplexados correspondientes a secuencias del cromosoma 21 antes del suavizado LOWESS, y la FIG. 6B ilustra los mismos datos después del suavizado LOWESS. En las FIGS. 5A, 5B, 6A, 6B, los recuentos se dividieron por la mediana de recuentos en los cromosomas y la proporción se transformó por el logaritmo en base 2 para una mejor visualización.

Claims (8)

REIVINDICACIONES
1. Un procedimiento implementado por ordenador para la identificación de la presencia o ausencia de una o más anomalías cromosómicas en un feto usando una muestra materna que comprende ácidos nucleicos tanto fetales como maternos, comprendiendo el procedimiento:
i) proporcionar un conjunto de datos que comprende datos de secuencias de frecuencia para un conjunto de al menos 16 locus de un único cromosoma de dos o más muestras maternas comprendiendo cada una ácidos nucleicos tanto fetales como maternos, en el que cada muestra se identifica por un índice de muestra, y en el que las secuencias del conjunto de datos se determinan en una única reacción de secuenciación;
ii) normalizar la frecuencia de una secuencia de locus individuales dentro de dicho conjunto de datos;
en el que locus se refiere a una región de ácido nucleico de localización conocida en un genoma, y en el que la normalización comprende:
someter las frecuencias detectadas de una secuencia de un locus individual en todas las muestras a una transformación matemática en base a las frecuencias de secuencias de los al menos otros 15 locus en todas las muestras dentro del conjunto de datos, para reducir la variación introducida experimentalmente,
en el que la transformación matemática comprende usar una técnica de regresión para normalizar la frecuencia del conjunto de locus; e
iii) identificar diferencias en las frecuencias de secuencia de un locus normalizado del cromosoma fetal en relación con las frecuencias de secuencia de locus de uno o más de otros cromosomas en una o más de dichas muestras maternas, identificando de este modo la presencia o ausencia de una o más anomalías cromosómicas en un feto.
2. El procedimiento de la reivindicación 1, en el que los ácidos nucleicos son ADN.
3. El procedimiento de la reivindicación 1, en el que la técnica de regresión es regresión lineal múltiple o ajuste simple de medianas.
4. El procedimiento de la reivindicación 1, en el que las secuencias de los locus individuales dentro del conjunto de datos se han sometido a una reacción de amplificación antes de la determinación de secuencia.
5. El procedimiento de la reivindicación 4, en el que la reacción de amplificación usa cebadores que comprenden tanto una región de índice como una región de secuencia que se hibrida específicamente con el locus individual.
6. El procedimiento de la reivindicación 1, en el que se usan datos de secuencia en al menos 64 locus en el procedimiento.
7. El procedimiento de la reivindicación 6, en el que se usan datos de secuencia en al menos 384 locus en el procedimiento.
8. El procedimiento de la reivindicación 7, en el que se usan datos de secuencia en al menos 768 locus en el procedimiento.
ES12857166T 2011-12-17 2012-12-17 Normalización matemática de conjuntos de datos de secuencias Active ES2922728T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161577013P 2011-12-17 2011-12-17
PCT/US2012/070177 WO2013090925A1 (en) 2011-12-17 2012-12-17 Mathematical normalization of sequence data sets

Publications (1)

Publication Number Publication Date
ES2922728T3 true ES2922728T3 (es) 2022-09-19

Family

ID=48613281

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12857166T Active ES2922728T3 (es) 2011-12-17 2012-12-17 Normalización matemática de conjuntos de datos de secuencias

Country Status (4)

Country Link
US (2) US20140095136A1 (es)
EP (1) EP2791839B1 (es)
ES (1) ES2922728T3 (es)
WO (1) WO2013090925A1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102165933B1 (ko) * 2016-04-01 2020-10-14 주식회사 씨젠 둘 이상의 데이터 세트를 이용한 비정상적인 시그널의 검출

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950755B2 (en) * 2001-07-02 2005-09-27 City Of Hope Genotype pattern recognition and classification
JP2013510580A (ja) * 2009-11-12 2013-03-28 エソテリックス ジェネティック ラボラトリーズ, エルエルシー 遺伝子座のコピー数の分析
US20120219950A1 (en) * 2011-02-28 2012-08-30 Arnold Oliphant Assay systems for detection of aneuploidy and sex determination

Also Published As

Publication number Publication date
EP2791839B1 (en) 2022-05-25
EP2791839A1 (en) 2014-10-22
WO2013090925A1 (en) 2013-06-20
EP2791839A4 (en) 2015-08-19
US20190355443A1 (en) 2019-11-21
US20140095136A1 (en) 2014-04-03

Similar Documents

Publication Publication Date Title
Tankard et al. Detecting expansions of tandem repeats in cohorts sequenced with short-read sequencing data
US10679728B2 (en) Method of characterizing sequences from genetic material samples
TWI727156B (zh) Dna混合物中之組織甲基化模式分析
ES2939547T3 (es) Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
Feng et al. Systematic feature selection improves accuracy of methylation-based forensic age estimation in Han Chinese males
Gibbs et al. Abundant quantitative trait loci exist for DNA methylation and gene expression in human brain
Shibata et al. Extensive evolutionary changes in regulatory element activity during human origins are associated with altered gene expression and positive selection
Bottomly et al. Evaluating gene expression in C57BL/6J and DBA/2J mouse striatum using RNA-Seq and microarrays
ES2886508T3 (es) Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
JP6987786B2 (ja) がんの進化の検出および診断
ES2907069T3 (es) Resolución de fracciones genómicas usando recuentos de polimorfismos
CN110176273B (zh) 遗传变异的非侵入性评估的方法和过程
EP4112740B1 (en) Size-based analysis of fetal dna fraction in maternal plasma
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
KR20220048042A (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
KR20140051461A (ko) 흡연 상태를 결정하기 위한 방법 및 조성물
US20200340064A1 (en) Systems and methods for tumor fraction estimation from small variants
JP2022514879A (ja) 無細胞dna末端特性
IL265769B2 (en) Estimation of gestational age using methylation and size profile of maternal plasma DNA
ES2943669T3 (es) Cálculo de riesgo para la evaluación de aneuploidía fetal
US20130261984A1 (en) Methods and systems for determining fetal chromosomal abnormalities
WO2020237184A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
US20210285042A1 (en) Systems and methods for calling variants using methylation sequencing data
ES2922728T3 (es) Normalización matemática de conjuntos de datos de secuencias
JP2022537442A (ja) ヒト胚におけるコピー数変異を検証するために単一ヌクレオチド変異の密度を使用するシステム、コンピュータプログラム製品及び方法