ES2624686T3 - Métodos y procesos para la evaluación no invasiva de variaciones genéticas - Google Patents

Métodos y procesos para la evaluación no invasiva de variaciones genéticas Download PDF

Info

Publication number
ES2624686T3
ES2624686T3 ES12778005.4T ES12778005T ES2624686T3 ES 2624686 T3 ES2624686 T3 ES 2624686T3 ES 12778005 T ES12778005 T ES 12778005T ES 2624686 T3 ES2624686 T3 ES 2624686T3
Authority
ES
Spain
Prior art keywords
chromosome
readings
nucleic acid
counts
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12778005.4T
Other languages
English (en)
Inventor
Zeljko Dzakula
Cosmin Deciu
Amin MAZLOOM
Huiquan Wang
Lin TANG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sequenom Inc
Original Assignee
Sequenom Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sequenom Inc filed Critical Sequenom Inc
Application granted granted Critical
Publication of ES2624686T3 publication Critical patent/ES2624686T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6879Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for sex determination

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Un método para determinar el sexo del feto, que comprende: (a) obtención de recuentos de lecturas de secuencias de nucleótidos mapeadas a un subconjunto de secciones genómicas ubicadas entre las coordenadas de la base 1 a 28.000.000 en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulación de ácido nucleico libre de células de una muestra de ensayo de una mujer embarazada que lleva un feto; (b) suma de los recuentos mapeados al subconjunto de secciones genómicas y comparación de los recuentos sumados con un recuento de la mediana para secciones genómicas en el cromosoma Y para la muestra, generando así una comparación; y (c) determinación del sexo del feto de acuerdo con la comparación.

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Metodos y procesos para la evaluacion no invasiva de variaciones geneticas Campo
La presente invencion se define por las reivindicaciones. La tecnolog^a provista en la presente generalmente se refiere en parte a los metodos, procesos y aparatos para la evaluacion no invasiva de variaciones geneticas.
Antecedentes
La informacion genetica de organismos vivos (por ejemplo, animales, plantas y microorganismos) y otras formas de informacion genetica por replicacion (por ejemplo, virus) se codifica en acido desoxirribonucleico (ADN) o acido ribonucleico (ARN). La informacion genetica es una sucesion de nucleotidos o nucleotidos modificados que representan la estructura primaria de acidos nucleicos qmmicos o hipoteticos. En los seres humanos, el genoma completo contiene aproximadamente 30.000 genes localizados en veinticuatro (24) cromosomas (ver The Human Genome, T. Strachan, BIOS Scientific Publishers, 1992). Cada gen codifica una protema espedfica, que despues de la expresion por transcripcion y traduccion cumple una funcion bioqmmica espedfica dentro de una celula viva.
Muchas afecciones medicas son causadas por una o mas variaciones geneticas. Ciertas variaciones geneticas causan afecciones medicas que incluyen, por ejemplo, hemofilia, talasemia, distrofia muscular de Duchenne (DMD), enfermedad de Huntington (HD), enfermedad de Alzheimer y fibrosis qdstica (FQ), (Human Genome Mutations, D. N. Cooperand M. Krawczak, BIOS Publishers, 1993). Tales enfermedades geneticas pueden provenir de una adicion, sustitucion o supresion de un nucleotido unico en el ADN de un gen particular. Ciertos defectos de nacimiento son causados por ejemplo, por una anomalfa cromosomica, tambien conocida como aneuploidfa, tales como trisoirna 21 (smdrome de Down), trisomfa 13 (smdrome de Patau), trisomfa 18 (smdrome de Edward), monosomfa X (smdrome de Turner) y ciertas aneuploidfas de cromosomas sexuales tales como el smdrome de Klinefelter (XXY). Otra variacion genetica es el sexo del feto, que a menudo se puede determinar sobre la base de los cromosomas sexuales X e Y. Por ejemplo, WO 2011/091063 describe metodos y sistemas para detectar aneuploidfa o sexo en un feto. Algunas variaciones geneticas pueden predisponer a un individuo a, o causar, cualquiera de una serie de enfermedades tales como, por ejemplo, diabetes, arteriosclerosis, obesidad, diversas enfermedades autoinmunes y cancer (por ejemplo, colorrectal, mama, ovario, pulmon).
La identificacion de una o mas variaciones o variaciones geneticas puede llevar al diagnostico o determinacion de la predisposicion a una afeccion medica particular. La identificacion de una varianza genetica puede producir la facilitacion de una decision medica y/o emplear un procedimiento medico util. En algunos casos, la identificacion de una o mas variaciones o varianzas geneticas implica el analisis del ADN libre de celulas.
El ADN libre de celulas (CF-ADN) esta compuesto de fragmentos de ADN que se originan de la muerte celular y circulan en sangre periferica. Las altas concentraciones de CF-ADN pueden ser indicativas de ciertas condiciones clmicas tales como cancer, trauma, quemaduras, infarto de miocardio, accidente cerebrovascular, sepsis, infeccion y otras enfermedades. Ademas, el ADN fetal libre de celulas (CFF-ADN) se puede detectar en el torrente sangumeo materno y se utiliza para diversos diagnosticos prenatales no invasivos.
La presencia de acido nucleico fetal en el plasma materno permite el diagnostico prenatal no invasivo mediante el analisis de una muestra de sangre materna. Por ejemplo, las anormalidades cuantitativas del ADN fetal en el plasma materno pueden estar asociadas con una serie de trastornos asociados al embarazo, que incluyen preeclampsia, parto prematuro, hemorragia anteparto, placentacion invasiva, smdrome de Down fetal y otras aneuploidfas cromosomicas fetales. Por lo tanto, el analisis de acidos nucleicos fetales en el plasma materno puede ser un mecanismo util para el control del bienestar del feto materno.
La deteccion temprana de afecciones relacionadas con el embarazo, que incluyen las complicaciones durante el embarazo y los defectos geneticos del feto, es importante, ya que permite una intervencion medica temprana necesaria para la seguridad tanto de la madre como del feto. Tradicionalmente, el diagnostico prenatal se ha realizado usando celulas aisladas del feto mediante procedimientos tales como el muestreo de vellosidades corionicas (CVS) o amniocentesis. Sin embargo, estos metodos convencionales son invasivos y presentan un riesgo apreciable tanto para la madre como para el feto. El Servicio Nacional de Salud actualmente cita una tasa de aborto entre 1 y 2 por ciento despues de la amniocentesis invasiva y las pruebas de muestreo de vellosidades corionicas (CVS). El uso de tecnicas de deteccion no invasivas que utilizan CFF-ADNc circulante puede ser una alternativa a estos enfoques invasivos.
Smtesis
La presente invencion esta definida por las reivindicaciones. Con mas detalle, la presente invencion se refiere a un metodo para la determinacion del sexo del feto, que comprende: (a) la obtencion de los recuentos de las lecturas de la secuencia de nucleotidos mapeadas al subconjunto de secciones genomicas ubicadas entre las coordenadas de la base 1 a 28.000.000 en un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; (b) la suma de los recuentos mapeados al subconjunto de secciones genomicas y la comparacion de los recuentos sumados
5
10
15
20
25
30
35
40
45
50
55
60
con un recuento medio para las secciones genomicas del cromosoma Y para la muestra, generando de este modo una comparacion; y (c) la determinacion del sexo del feto de acuerdo con la comparacion. La presente invencion ademas se refiere a un sistema para determinar el sexo del feto que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a un subconjunto de secciones genomicas ubicadas entre las coordenadas de la base 1 a 28.000.000 en un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva a un feto; y tales instrucciones ejecutables por los uno o mas procesadores se configuran para: (a) la suma de los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados a un recuento medio para las secciones genomicas del cromosoma Y para la muestra, de este modo generar una comparacion; y (b) la determinacion del sexo del feto de acuerdo con la comparacion.
Tambien se describen en la presente metodos para determinar el sexo del feto que comprende (a) la obtencion de las lecturas de la secuencia de nucleotidos de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada, (b) el mapeo de las lecturas de secuencias en las secciones genomicas de un cromosoma Y,
(c) el recuento del numero de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, (d) el recuento del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf, (e) la comparacion del numero de recuentos obtenidos en (c) y (d), o sus derivados, realizando de este modo una comparacion, y (f) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto, que comprende (a) la obtencion de los recuentos de las lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; (b) la determinacion del numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas a una primera region del cromosoma Y; (c) la determinacion del numero de recuentos de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf; (d) la comparacion del numero de recuentos obtenidos en (b) y (c), o sus derivados, proporcionando de este modo una comparacion; y (e) la determinacion del sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) el mapeo de lecturas de la secuencia de nucleotidos que se han obtenido de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada a secciones genomicas de un cromosoma Y, (b) el recuento del numero de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, (c) el recuento del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf, (d) la comparacion del numero de recuentos obtenidos en (b) y (c), o sus derivados, realizando de este modo una comparacion, y (e) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la obtencion de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada, (b) el aislamiento del acido nucleico de la muestra de la muestra, (c) la obtencion de las lecturas de la secuencia de nucleotidos para el acido nucleico de la muestra, (d) el mapeo de las lecturas de secuencias en las secciones genomicas de un cromosoma Y, (e) el recuento del numero de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, (f) el recuento del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf, (g) la comparacion del numero de recuentos obtenidos en (e) y (f), o sus derivados, realizando de este modo una comparacion, y (h) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan sistemas que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por los uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf; (c) la comparacion de numero de recuentos obtenidos en (a) y (b), o sus derivados, proporcionando de este modo una comparacion; y (d) determinar el sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan aparatos que comprenden uno o mas procesadores y memoria, tal memoria
5
10
15
20
25
30
35
40
45
50
55
60
comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf;
(c) la comparacion de numero de recuentos obtenidos en (a) y (b), o sus derivados, proporcionando de este modo una comparacion; y (d) la determinacion del sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan productos de programa de computacion realizados de forma tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutados por uno o mas procesadores estan configurados para (a) acceder a los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y; (c) determinar el numero de recuentos de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf; (d) comparar el numero de recuentos obtenidos en (b) y (c), o sus derivados, proporcionando de este modo una comparacion; y (e) determinar el sexo del feto de acuerdo con la comparacion.
La primera region del cromosoma Y y la segunda region del cromosoma Y pueden ser regiones eucromaticas. En algunos casos, la primera region del cromosoma Y comprende una o mas secuencias de nucleotidos elegidas de (a) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 2,6 Mb del extremo 5' y termina en alrededor de 2,9 Mb del extremo 5'; (b) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 6,6 Mb del extremo 5' y termina en alrededor de 7,5 Mb del extremo 5'; (c) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 14,1 Mb del extremo 5' y termina en alrededor de 16,1 Mb del extremo 5';
(d) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 16,2 Mb del extremo 5' y termina en alrededor de 18 Mb del extremo 5';
(e) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 18 Mb del extremo 5' y termina en alrededor de 18,3 Mb del extremo 5';
(f) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 18,5 Mb del extremo 5' y termina en alrededor de 19,6 Mb del extremo 5';
(g) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 21 Mb del extremo 5' y termina en alrededor de 22,2 Mb del extremo 5'; y (h) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 22,5 Mb del extremo 5' y termina en alrededor de 23,5 Mb del extremo 5'. En algunos casos, la segunda region del cromosoma Y comprende una o mas secuencias de nucleotidos elegidas de (a) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 2,9 Mb del extremo 5' y termina en alrededor de 6,1 Mb del extremo 5'; y (b) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en alrededor de 6,4 Mb del extremo 5' y termina en alrededor de 6,6 Mb del extremo 5'.
La primera region del cromosoma Y puede comprender una o mas secuencias de nucleotidos con entre aproximadamente 60% a aproximadamente 96% de identidad de secuencia de nucleotidos con la region homologa del cromosoma X. La segunda region del cromosoma Y puede comprender una o mas secuencias de nucleotidos con al menos aproximadamente 99% de identidad con las regiones homologas del cromosoma X.
La primera region del cromosoma Y puede comprender una o mas secuencias de nucleotidos que incluyen, y/o se ubican dentro de aproximadamente 1 Mb de la secuencia de nucleotidos que rodea, los loci genomicos de: SRY, RPS4Y1, ZFY, AMELY, TBL1Y, PRKY, USP9Y, DBY, UTY, TMSB4Y, NLGN4Y, CYorf15A, CYorf15B, SMCY, EIF1AY, y RPS4Y2. La segunda region del cromosoma Y puede comprender uno o mas locus genomico seleccionados entre: (a) TGIF2LY y/o secuencias de nucleotidos ubicadas dentro de aproximadamente 0,6 Mb 5' y/o aproximadamente 3,2 Mb 3' del locus TGIF2LY, y (b) PCDH11Y y/o secuencias de nucleotidos ubicadas dentro de aproximadamente 2 Mb 5' y/o aproximadamente 1 Mb 3' del locus de PCDH11Y.
El numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y puede ser significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus las mujeres embarazadas que llevan los fetos femeninos. El numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y puede ser significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeada en la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y puede ser significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la
5
10
15
20
25
30
35
40
45
50
55
60
segunda region del cromosoma Y para mujeres embarazadas que llevan los fetos femeninos.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la obtencion de las lecturas de la secuencia de nucleotidos de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada, (b) el mapeo de las lecturas de secuencias en las secciones genomicas de un cromosoma Y, (c) la eliminacion de las lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X, (d) el recuento del numero de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos, (e) el recuento del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes, (f) la comparacion del numero de recuentos obtenidos en (d) y (e), o sus derivados, realizando de este modo una comparacion, y (g) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la obtencion de los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; (b) la eliminacion de las lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X; (c) la determinacion del numero de recuentos de lecturas de secuencias mapeadas de un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos; (d) la determinacion del numero de recuentos del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (e) la comparacion de numero de recuentos obtenidos en (c) y (d), o sus derivados, proporcionando de este modo una comparacion; y (f) la determinacion del sexo del feto de acuerdo con la comparacion en (e).
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la obtencion de los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto, donde no se incluyen los recuentos de lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X; (b) la determinacion del numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos; (c) la determinacion del numero de recuentos del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (d) la comparacion del numero de recuentos obtenidos en (b) y (c), o sus derivados, proporcionando de este modo una comparacion; y (e) la determinacion del sexo del feto de acuerdo con la comparacion en (d).
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) el mapeo de las lecturas de la secuencia de nucleotidos que se han obtenido de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada a las secciones genomicas de un cromosoma Y, (b) la eliminacion de las lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X, (c) el recuento del numero de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos
5
10
15
20
25
30
35
40
45
50
55
60
masculinos versus mujeres embarazadas que llevan los fetos femeninos, (d) el recuento del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes, (e) la comparacion de numero de recuentos obtenidos en (c) y (d), o sus derivados, realizando de este modo una comparacion, y (f) la determinacion del sexo del feto.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la obtencion de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada, (b) el aislamiento del acido nucleico de la muestra de la muestra, (c) la obtencion de las lecturas de la secuencia de nucleotidos para el acido nucleico de la muestra, (d) el mapeo de las lecturas de secuencias en las secciones genomicas de un cromosoma Y, (e) la eliminacion de las lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X, (f) el recuento del numero de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos, (g) el recuento del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para la mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del
cromosoma Y son diferentes, (h) la comparacion de numero de recuentos obtenidos en (f) y (g), o sus derivados,
realizando de este modo una comparacion, y (i) la determinacion del sexo del feto sobre la base de la comparacion.
Tambien se describen los sistemas provistos que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) eliminar las lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos; (c)
determinar el numero de recuentos del numero de lecturas de secuencias mapeadas a un segundo conjunto de
secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (d) comparar el numero de recuentos obtenidos en (b) y (c), o sus derivados, proporcionando de este modo una comparacion; y (e) determinar el sexo del feto de acuerdo con la comparacion en (d).
En la presente tambien se proporcionan aparatos que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) eliminar las lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas es una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos; (c) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera
5
10
15
20
25
30
35
40
45
50
55
60
region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (d) comparar el numero de recuentos obtenidos en (b) y (c), o sus derivados, proporcionando de este modo una comparacion; y (e) determinar el sexo del feto de acuerdo con la comparacion en (d).
En la presente tambien se proporcionan productos de programa de computacion realizados de modo tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutados por uno o mas procesadores estan configurados para (a) acceder a los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; (b) eliminar las lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X; (c) determinar el numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos; (d) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (e) comparar el numero de recuentos obtenidos en (c) y (d), o sus derivados, proporcionando de este modo una comparacion; y (f) determinar el sexo del feto de acuerdo con la comparacion en (e).
En la presente tambien se proporcionan sistemas que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto, donde no se incluyen los recuentos de lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos; (b) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (c) comparar el numero de recuentos obtenidos en (a) y (b), o sus derivados, proporcionando de este modo una comparacion; y (d) determinar el sexo del feto de acuerdo con la comparacion en (c).
En la presente tambien se proporcionan aparatos que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto, donde no se incluyen los recuentos de lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos; (b) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (c) comparar el numero de
5
10
15
20
25
30
35
40
45
50
55
recuentos obtenidos en (a) y (b), o sus derivados, proporcionando de este modo una comparacion; y (d) determinar el sexo del feto de acuerdo con la comparacion en (c).
En la presente tambien se proporcionan productos de programa de computacion realizados de modo tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutados por uno o mas procesadores estan configurados para (a) acceder a los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto, donde no se incluyen los recuentos de lecturas de secuencias que mapean tanto el cromosoma Y como el cromosoma X; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas de una primera region del cromosoma Y, donde el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos; (c) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas de una segunda region del cromosoma Y, donde (i) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos, (ii) el numero total de lecturas de secuencias mapeadas a la primera region del cromosoma Y es significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para mujeres embarazadas que llevan los fetos femeninos, y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (d) comparar el numero de recuentos obtenidos en (b) y (c), o sus derivados, proporcionando de este modo una comparacion; y (e) determinar el sexo del feto de acuerdo con la comparacion en (d).
El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 2,5 veces mas altos que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos.
El coeficiente de varianza (CV) para recuentos de lecturas de secuencias entre las secciones genomicas de longitud fija de la primera region puede ser menor que el coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre las secciones genomicas de longitud fija de la segunda region en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre las secciones genomicas de longitud fija de la primera region puede ser menor en las muestras de las mujeres embarazadas que llevan los fetos masculinos versus fetos femeninos. El coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre las secciones genomicas de longitud fija de la segunda region puede ser menor en las muestras de las mujeres embarazadas que llevan los fetos masculinos versus fetos femeninos. En algunos casos, la seccion del genoma de longitud fija es 50 kb.
Las lecturas de secuencias mapeadas a un primer conjunto de secciones genomicas pueden mapear unicamente lecturas de secuencias mapeadas. Las lecturas de secuencias mapeadas a un segundo conjunto de secciones genomicas puede ser lecturas de secuencias mapeadas unicamente.
El sexo del feto se puede determinar como masculino cuando la relacion de recuentos de lecturas de secuencias, o sus derivados, de la primera region respecto de los recuentos de lecturas de secuencias, o sus derivados, de la segunda region es 0,75 o mas. El sexo del feto se puede determinar como femenino cuando la relacion de recuentos de lecturas de secuencias, o sus derivados, de la primera region respecto de los recuentos de lecturas de secuencias, o sus derivados, de la segunda region es menor de 0,75.
La determinacion del sexo del feto puede no incluir comparar los recuentos de lecturas de la secuencia de nucleotidos de la primera region o la segunda region con los recuentos de lecturas de secuencias en otro cromosoma y algunas veces no incluye la normalizacion entre las muestras y/o normalizacion entre los lotes experimentales.
Las lecturas de la secuencia de nucleotidos pueden representar una cobertura del genoma de aproximadamente 1. Las lecturas de la secuencia de nucleotidos pueden representar una cobertura del genoma menor de 1. Las lecturas de la secuencia de nucleotidos pueden representar una cobertura del genoma mayor de 1.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la seleccion de un conjunto de secciones genomicas de un cromosoma Y, donde el conjunto comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos, de este modo se genera un conjunto seleccionado de secciones genomicas; (b) la obtencion de las lecturas de la secuencia de nucleotidos de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada; (c) el mapeo de las lecturas de secuencias en (b) a las
5
10
15
20
25
30
35
40
45
50
55
60
secciones genomicas de un cromosoma Y; (d) el recuento del numero de lecturas de secuencias mapeadas al conjunto seleccionado de secciones genomicas; (e) la comparacion del numero de recuentos de lecturas de secuencias obtenidos en (d), o sus derivados, con un valor umbral, de este modo se realiza una comparacion; y (f) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto, que comprende (a) la obtencion de los recuentos de lecturas de la secuencia de nucleotidos mapeadas a un conjunto seleccionado de las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto, donde el conjunto seleccionado de las secciones genomicas del cromosoma Y comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos; (b) la determinacion del numero de recuentos de lecturas de secuencias mapeadas al conjunto de las secciones genomicas del cromosoma Y; (c) la comparacion con el numero de recuentos en (b), o sus derivados, con un valor umbral, proporcionando de este modo una comparacion; y (d) la determinacion del sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la seleccion de un conjunto de secciones genomicas de un cromosoma Y, donde el conjunto comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii)secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos, de este modo se genera un conjunto seleccionado de secciones genomicas; (b) el mapeo de las lecturas de la secuencia de nucleotidos que se han obtenido de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada a las secciones genomicas de un cromosoma Y; (c) el recuento del numero de lecturas de secuencias mapeadas al conjunto seleccionado de secciones genomicas; (d) la comparacion del numero de recuentos de lecturas de secuencias obtenidos en (c), o sus derivados, con un valor umbral, de este modo se realiza una comparacion, y (e) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la seleccion de un conjunto de secciones genomicas de un cromosoma Y, donde el conjunto comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos, de este modo genera un conjunto seleccionado de secciones genomicas; (b) la obtencion de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada; (c) el aislamiento del acido nucleico de la muestra de la muestra; (d) la obtencion de las lecturas de la secuencia de nucleotidos para la acido nucleico de la muestra; (e) el mapeo de las lecturas de secuencias en las secciones genomicas de un cromosoma Y; (f) el recuento del numero de lecturas de secuencias mapeadas al conjunto seleccionado de secciones genomicas; (g) la comparacion del numero de recuentos de lecturas de secuencias obtenidos en (f), o sus derivados, con un valor umbral, de este modo se realiza una comparacion; y (h) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la seleccion de un conjunto de secciones genomicas de un cromosoma Y, donde el conjunto comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos, de este modo se genera un conjunto seleccionado de secciones genomicas; (b) el aislamiento del acido nucleico de la muestra de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada; (c) la obtencion de las lecturas de la secuencia de nucleotidos para la acido nucleico de la muestra; (d) el mapeo de las lecturas de secuencias en las secciones genomicas de un cromosoma Y; (e) el recuento del numero de lecturas de secuencias mapeadas al conjunto seleccionado de secciones genomicas; (f) la comparacion del numero de recuentos de lecturas de secuencias obtenidos en (e), o sus derivados, con un valor umbral, de este modo se realiza una comparacion; y (g) la determinacion del sexo del feto sobre la base de la comparacion.
5
10
15
20
25
30
35
40
45
50
55
60
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la seleccion de un conjunto de secciones genomicas de un cromosoma Y, donde el conjunto comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos, de este modo se genera un conjunto seleccionado de secciones genomicas; (b) el aislamiento del acido nucleico de la muestra de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada; (c) el mapeo de las lecturas de la secuencia de nucleotidos obtenidas del acido nucleico de la muestra en las secciones genomicas de un cromosoma Y; (d) el recuento del numero de lecturas de secuencias mapeadas al conjunto seleccionado de secciones genomicas; (e) la comparacion del numero de recuentos de lecturas de secuencias obtenidos en (d), o sus derivados, con un valor umbral, de este modo se realiza una comparacion; y (f) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la seleccion de un conjunto de secciones genomicas de un cromosoma Y, donde el conjunto comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos, de este modo se genera un conjunto seleccionado de secciones genomicas; (b) la obtencion de las lecturas de la secuencia de nucleotidos del acido nucleico de la muestra aislada de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada; (c) el mapeo de las lecturas de secuencias en las secciones genomicas de un cromosoma Y; (d) el recuento del numero de lecturas de secuencias mapeadas al conjunto seleccionado de secciones genomicas; (e) la comparacion del numero de recuentos de lecturas de secuencias obtenidos en (d), o sus derivados, con un valor umbral, de este modo se realiza una comparacion; y (f) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) el mapeo de las lecturas de la secuencia de nucleotidos que se han obtenido de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada en las secciones genomicas de un cromosoma Y; (b) el recuento del numero de lecturas de secuencias mapeadas a un conjunto seleccionado de las secciones genomicas del cromosoma Y, donde el conjunto comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos; (c) la comparacion del numero de recuentos de lecturas de secuencias obtenidos en (b), o sus derivados, con un valor umbral, de este modo se realiza una comparacion; y (d) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan sistemas que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a un conjunto seleccionado de secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto, donde el conjunto seleccionado de las secciones genomicas del cromosoma Y comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos, de este modo se genera un conjunto seleccionado de secciones genomicas; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas al conjunto de las secciones genomicas del cromosoma Y; (b) comparar el numero de recuentos en (a), o sus derivados, con un valor umbral, proporcionando de este modo una comparacion; y (c) determinar el sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan aparatos que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto, donde el conjunto seleccionado de las secciones genomicas del cromosoma Y comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan
5
10
15
20
25
30
35
40
45
50
55
60
los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas al conjunto de las secciones genomicas del cromosoma Y; (b) comparar el numero de recuentos en (a), o sus derivados, con un valor umbral, proporcionando de este modo una comparacion; y (c) determinar el sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan productos de programa de computacion realizados de modo tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutados por uno o mas procesadores estan configurados para (a) acceder a los recuentos de lecturas de la secuencia de nucleotidos mapeadas a un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto, donde el conjunto seleccionado de las secciones genomicas del cromosoma Y comprende i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y iii) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos;
(b) determinar el numero de recuentos de lecturas de secuencias mapeadas al conjunto de las secciones genomicas del cromosoma Y; (c) comparar el numero de recuentos en (b), o sus derivados, con un valor umbral, proporcionando de este modo una comparacion; y (d) determinar el sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la obtencion de las lecturas de la secuencia de nucleotidos de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada; (b) el mapeo de las lecturas de secuencias en (a) en un subconjunto de secciones genomicas de un cromosoma Y; (c) el recuento del numero de lecturas de secuencias mapeadas al subconjunto de secciones genomicas del cromosoma Y, de este modo se generan recuentos en el subconjunto de secciones genomicas; (d) la suma de los recuentos en el subconjunto de secciones genomicas y la comparacion de los recuentos sumados con el recuento medio para las secciones genomicas del cromosoma Y para la muestra, generando de este modo una comparacion; y (e) la determinacion del sexo del feto sobre la base de la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto, que comprende (a) la obtencion de los recuentos de lecturas de la secuencia de nucleotidos mapeadas a un subconjunto de secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; (b) la suma de los recuentos mapeados al subconjunto de secciones genomicas y la comparacion de los recuentos sumados en un recuento medio para las secciones genomicas del cromosoma Y para la muestra, generando de este modo una comparacion; y (c) la determinacion del sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan sistemas que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento medio para las secciones genomicas del cromosoma Y para la muestra, generando de este modo una comparacion; y (b) determinar el sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan aparatos que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento medio para las secciones genomicas del cromosoma Y para la muestra, generando de este modo una comparacion; y (b) determinar el sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan productos de programa de computacion realizados de modo tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutados por uno o mas procesadores estan configurados para (a) acceder a los recuentos de lecturas de la secuencia de nucleotidos mapeadas a un subconjunto de secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; (b) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos
5
10
15
20
25
30
35
40
45
50
55
sumados con un recuento medio para las secciones genomicas del cromosoma Y para la muestra, generando de este modo una comparacion; y (c) determinar el sexo del feto de acuerdo con la comparacion.
En la presente tambien se proporcionan metodos para determinar el sexo del feto que comprende (a) la obtencion de las lecturas de la secuencia de nucleotidos de una muestra que comprende acido nucleico libre de celulas circulantes de una mujer embarazada; (b) el mapeo de las lecturas de secuencias en (a) en un subconjunto de secciones genomicas de un cromosoma Y; (c) el recuento del numero de lecturas de secuencias mapeadas al subconjunto de secciones genomicas del cromosoma Y, generando de este modo recuentos en el subconjunto de secciones genomicas; (d) la determinacion del sexo del feto sobre la base de los recuentos generados en (c), donde el sexo del feto se determina con una exactitud de aproximadamente 0,9938 o mayor en un intervalo de confianza de 95%.
En la presente tambien se proporcionan metodos para determinar el sexo del feto, que comprende (a) la obtencion de los recuentos de lecturas de la secuencia de nucleotidos mapeadas a un subconjunto de secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; (b) la determinacion del numero de recuentos de las lecturas de secuencias mapeadas al subconjunto de secciones genomicas del cromosoma Y; y (c) la determinacion del sexo del feto de acuerdo con el numero de recuentos determinados en (b), donde el sexo del feto se determina con una exactitud de aproximadamente 0,9938 o mayor en un intervalo de confianza de 95%.
En la presente tambien se proporcionan sistemas que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) determinar el numero de recuentos de las lecturas de secuencias mapeadas al subconjunto de secciones genomicas del cromosoma Y; y (b) determinar el sexo del feto de acuerdo con el numero de recuentos determinados en (a), donde el sexo del feto se determina con una exactitud de aproximadamente 0,9938 o mayor en un intervalo de confianza de 95%.
En la presente tambien se proporcionan aparatos que comprenden uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende los recuentos de lecturas de la secuencia de nucleotidos mapeadas a las secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores se configuran para (a) determinar el numero de recuentos de las lecturas de secuencias mapeadas al subconjunto de secciones genomicas del cromosoma Y; y (b) determinar el sexo del feto de acuerdo con el numero de recuentos determinados en (a), donde el sexo del feto se determina con una exactitud de aproximadamente 0,9938 o mayor en un intervalo de confianza de 95%.
En la presente tambien se proporcionan productos de programa de computacion realizados de modo tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutados por uno o mas procesadores estan configurados para (a) acceder a los recuentos de lecturas de la secuencia de nucleotidos mapeadas a un subconjunto de secciones genomicas de un cromosoma Y de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba de una mujer embarazada que lleva un feto; (b) determinar el numero de recuentos de las lecturas de secuencias mapeadas al subconjunto de secciones genomicas del cromosoma Y; y (c) determinar el sexo del feto de acuerdo con el numero de recuentos determinados en (b), donde el sexo del feto se determina con una exactitud de aproximadamente 0,9938 o mayor en un intervalo de confianza de 95%.
El subconjunto de secciones genomicas del cromosoma Y puede no incluir las secciones genomicas seleccionadas del cromosoma Y, tales secciones genomicas seleccionadas del cromosoma Y, cuando se eliminan del subconjunto, producen un aumento en una brecha de separacion entre fetos masculinos y femeninos mayor de o igual al valor e = 1%. El recuento medio para las secciones genomicas del cromosoma Y puede ser igual a la mediana de los recuentos de lecturas de secuencias en bruto de valor positivo en el cromosoma Y. El subconjunto de secciones genomicas puede ser de aproximadamente 50 secciones genomicas o menos. Algunas veces el subconjunto de secciones genomicas es de aproximadamente 30 secciones genomicas. La comparacion se puede correlacionar con los resultados de la cuantificacion fetal. Algunas veces los resultados de la cuantificacion fetal son resultados de la cuantificacion basada en SRY.
El subconjunto de secciones genomicas puede comprender a) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de las muestras de las mujeres embarazadas que llevan los fetos masculinos; b) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de las mujeres embarazadas que llevan los fetos femeninos; y c) secciones genomicas que tienen un numero significativo y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de las mujeres embarazadas que llevan los fetos masculinos y muestras de las mujeres embarazadas que llevan los fetos masculinos.
5
10
15
20
25
30
35
40
45
50
El conjunto o subconjunto seleccionado de secciones genomicas puede comprender secuencias de nucleotidos ubicadas dentro de los 28 Mb del extremo 5' del cromosoma Y. Las secciones genomicas pueden tener una longitud predeterminada de nucleotidos contiguos en el cromosoma Y. Algunas veces, las secciones genomicas son de aproximadamente 50 kb de longitud. El numero de lecturas de secuencias mapeadas a cada una de las secciones genomicas puede ser significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos. Las lecturas de secuencias mapeadas al conjunto o subconjunto seleccionado de secciones genomicas pueden ser lecturas de secuencias mapeadas de forma unica.
Un metodo puede comprender cuantificar y clasificar las lecturas de la secuencia de nucleotidos que mapean a una region separadora de varones (MSR).Un metodo puede comprender determinar un puntaje de region separadora de varones (MSRscore) para el numero de lecturas de la secuencia de nucleotidos mapeadas al conjunto seleccionado de secciones genomicas de acuerdo con la Ecuacion A:
MSRscore(S) =
T.mzMSRRAW(bm(S))
M(S)
Ecuacion A
donde S es una muestra, MSR es la region separadora de varones, RAW es los recuentos de lecturas de secuencias en bruto, bm es una seccion genomica de la mSr, y M es la mediana del recuento de lectura de secuencias, y donde la mediana del recuento de lectura de secuencias (M) es una mediana de los recuentos de lecturas de secuencias en bruto de valor positivo para las secciones genomicas del cromosoma Y. El sexo del feto se puede determinar como masculino cuando el MSRscore es de 6,5 o mas. El sexo del feto se puede determinar como femenino cuando el MSRscore es menor de 6,5.
El sexo del feto se puede determinar con una exactitud de al menos aproximadamente 99%. Sexo fetal se puede determinar con una exactitud de al menos aproximadamente 99,4%. Sexo fetal se puede determinar con una exactitud de al menos aproximadamente 99,5%. Sexo fetal se puede determinar con una exactitud de al menos aproximadamente 99,7%. El sexo del feto se puede determinar con 100% de exactitud. El sexo del feto se puede determinar con una exactitud de aproximadamente 0,9938 o mayor en un intervalo de confianza de 95%. El sexo del feto se puede determinar con una exactitud de aproximadamente 0,994 o mayor con un intervalo de confianza de 95%,
El sexo del feto se puede determinar con una tasa de no llamada de aproximadamente 0,46% o menos. Algunas veces la tasa de no llamada es aproximadamente 0,40% o menos.
La muestra puede ser de sangre, y algunas veces puede ser suero o plasma.
En la presente tambien se proporciona un metodo de cualquiera de los metodos anteriores que comprende la determinacion de la fraccion fetal.
Ciertos aspectos de la tecnologfa se describen adicionalmente en la siguiente descripcion, ejemplos, reivindicaciones y dibujos.
Breve descripcion de los dibujos
Los dibujos ilustran realizaciones de la tecnologfa y no son limitantes. Por claridad y facilidad de ilustracion, los dibujos no estan hechos a escala y, en algunos casos, se pueden mostrar varios aspectos exagerados o ampliados para facilitar la comprension de las realizaciones particulares
Las Figuras 1A a 1C muestran recuentos de secuencia en diferentes regiones funcionales del cromosoma Y.
La Figura 1A muestra los recuentos de secuencia para cada bin de 50 kb graficados a lo largo del cromosoma Y. Ciertas regiones X-transpuestas y X-degeneradas se indican con flechas. Los recuentos de muestras de mujeres embarazadas que llevan fetos masculinos y femeninos se graficaron y se indican con flechas en ciertas regiones. La lmea continua indica los recuentos medios en la cohorte masculina o femenina; las lmeas punteadas indican los recuentos de secuencias del percentilo 25 y percentilo 75 de cada cohorte. La Figura 1B muestra el porcentaje de GC de cada contenedor de bin de 50 kb calculado para el cromosoma Y y graficado frente al fondo funcional. La Figura 1C muestra un grafico de densidad para regiones de enmascaramiento repetidas (RM) en el cromosoma Y. Las coordenadas de nomenclatura y de region funcional se adaptaron de Skaletsky y col. (2003) Nature 423: 825 - 37.
La Figura 2 muestra recuentos de secuencia en diferentes regiones funcionales del cromosoma X. Los recuentos de secuencia para cada bin de 50 kb se graficaron a lo largo del cromosoma X. La nomenclatura y las coordenadas de las diferentes regiones funcionales se adaptaron de Ross et al. (2005) Nature 434: 325 - 37. XAR (region X anadida); XCR (region X conservada): XAR es una region X anadida y XCR es una region X conservada.
La Figura 3 muestra la prediccion fetal del sexo usando un mdice de relacion de recuento y prueba cuantificador fetal corrido en una plataforma del analizador del genoma. El mdice de relacion de recuento se grafico frente al porcentaje
5
10
15
20
25
30
35
40
45
50
fetal (es dedr, fraccion fetal) estimado con un marcador SRY usando el prueba cuantificador fetal. Las muestras con un feto masculino se graficaron como las muestras con un feto femenino se graficaron como drculos.
La Figura 4 muestra la prediccion fetal del sexo usando un mdice de relacion de recuento y prueba cuantificador fetal en la misma muestra establecida como la Figura 3 corrida en la plataforma HISEQ de lllumina. El mdice de relacion de recuento se grafico frente al porcentaje fetal (es decir, fraccion fetal) estimada con un marcador SRY usando el prueba cuantificador fetal. Las muestras con un feto masculino se graficaron como las muestras con un feto femenino se graficaron como drculos.
La Figura 5 muestra una matriz de confusion para prediccion del sexo con un mdice de relacion de recuento de region degenerada X respecto de region transpuesta X en el cromosoma Y (n=425). X es para un feto femenino e Y es para un feto masculino.
La Figura 6 muestra un histograma para el coeficiente de varianza de los recuentos de secuencia para una determinada region degenerada X del cromosoma Y. Los recuentos son de las muestras de las mujeres embarazadas que llevan los fetos masculinos.
La Figura 7 muestra un histograma para el coeficiente de varianza de los recuentos de secuencia para una determinada region degenerada X del cromosoma Y. Las muestras eran de las mujeres embarazadas que llevan fetos femeninos.
La Figura 8 muestra un histograma para el coeficiente de varianza de los recuentos de secuencia para una determinada region transpuesta X del cromosoma Y. Las muestras eran de las mujeres embarazadas que llevan los fetos masculinos.
La Figura 9 muestra un histograma para el coeficiente de varianza de los recuentos de secuencia para una determinada region transpuesta X del cromosoma Y. Las muestras eran de las mujeres embarazadas que llevan fetos femeninos.
La Figura 10 muestra puntuaciones de capacidad de mapeo de bins de 50 kb para el cromosoma Y. Los numeros del eje x caracterizan los indices del bin (a partir de 1) y los numeros del eje y caracterizan la capacidad de mapeo media por bin.
La Figura 11 muestra puntuaciones de capacidad de mapeo de bins de 50 kb para el cromosoma Y usando dos programas de alineamiento diferentes: BOWTIE 2 y ELAND. Los numeros del eje x caracterizan los indices del bin (a partir de 1) y numeros del eje y caracterizan la capacidad de mapeo media por bin.
La Figura 12 muestra un grafico que representa la diferencia entre senales caractensticas para embarazos de mujeres y hombres para el cromosoma Y a una resolucion de 50 kb. Los bins del cromosoma Y se representan en el eje x y la diferencia (M-F) entre los recuentos de lectura medios por bin se representan en el eje y.
La Figura 13 muestra las puntuaciones de MSR (eje y) derivadas mediante la aplicacion de un metodo proporcionado en la presente a 1242 muestras CEWI (eje x). Las muestras masculinas se representan con drculos solidos y las muestras femeninas se representan con triangulos.
La Figura 14 muestra un grafico de correlacion para la prediccion del sexo usando el MSRscore (eje y) versus SRY media (eje x) para la cohorte CEWI. El tamano del sfmboio de graficado es proporcional a la fraccion fetal (determinada por una prueba cuantificador fetal basado en la metilacion).
La Figura 15 muestra un grafico de correlacion para prediccion del sexo usando el MSRscore (eje y) versus SRY media (eje x) para la cohorte Wl. El tamano del sfmbolo de graficado es proporcional a la fraccion fetal (determinada por una prueba cuantificador fetal basado en la metilacion).
La Figura 16 muestra un grafico de correlacion para prediccion del sexo usando el MSRscore (eje y) versus SRY media (eje x) para la cohorte CLIA. El tamano del sfmbolo de graficado es proporcional a la fraccion fetal (determinada por una prueba cuantificador fetal basado en la metilacion).
La Figura 17 muestra la verificacion del cariotipo para ciertas muestras de la cohorte Wl.
La Figura 18 muestra la validacion y exactitud del metodo MSR provisto en la presente.
La Figura 19 muestra la validacion y exactitud del metodo MSR provisto en la presente en combinacion con el analisis de control de calidad de SRY.
Descripcion detallada
Se proporcionan metodos, procesos y aparatos utiles para identificar una variacion genetica. La identificacion de una variacion genetica comprende algunas veces detectar una variacion del numero de copias y/o algunas veces comprende ajustar una elevacion que comprende una variacion del numero de copias. Una elevacion se puede ajustar
5
10
15
20
25
30
35
40
45
50
55
60
al proporcionar una identificacion de una o mas variaciones o varianzas geneticas con una probabilidad reducida de un diagnostico falso positivo o falso negativo. La identificacion de una variacion genetica mediante un metodo descrito en la presente puede llevar a un diagnostico de, o determinar una predisposicion a, una afeccion medica particular. La identificacion de una varianza genetica puede producen la facilitacion de una decision medica y/o empleo de un procedimiento medico util.
En la presente tambien se proporcionan metodos para determinar el sexo del feto. La determinacion del sexo del feto en la historia reciente se ha basado en la observacion y evaluacion de la anatoirna genital fetal por un tecnico capacitado sobre la base de las imagenes obtenidas de una maquina de ultrasonido. Tal metodo puede estar propenso al error humano y se realiza tfpicamente despues del primer trimestre. Otro metodo implica la cariotipificacion del material genetico fetal, que a menudo se obtiene a traves de un procedimiento de amniocentesis o muestreo de vellosidades corionicas. Tales metodos son invasivos y pueden ser riesgosos para el feto. Otros metodos para la determinacion del sexo del feto se basan en el analisis del ADN fetal presente en una muestra de sangre materna. Tales metodos no son invasivos y a menudo se pueden realizar durante el primer trimestre. Ciertos metodos se basan en la informacion de secuenciacion obtenida (o no obtenida en el caso de un feto femenino) del cromosoma Y. Sin embargo, la alta variacion de los recuentos de la lectura de secuencias en el cromosoma Y, ha hecho diffcil predecir en forma confiable el sexo del feto sobre la base de la informacion de secuenciacion del cromosoma Y. Ciertos metodos tambien son cuestionados por la varianza experimental, de muestra, e intercromosoma. Sin embargo, la determinacion del sexo del feto basada en una comparacion de recuentos de lecturas de secuencias dentro de ciertas regiones del cromosoma Y puede ser mas confiable y eliminar la necesidad de referencias y controles adicionales. En la presente se proporcionan metodos para determinar el sexo del feto usando el analisis de regiones particulares del cromosoma Y.
Muestras
En la presente se proporcionan metodos y composiciones para analizar el acido nucleico. Se pueden analizar fragmentos de acido nucleico en una mezcla de fragmentos de acido nucleico. Una mezcla de acidos nucleicos puede comprender dos o mas especies de fragmentos de acido nucleico que tienen diferentes secuencias de nucleotidos, diferentes longitudes de fragmentos, diferentes ongenes (por ejemplo, ongenes genomicos, ongenes fetales versus maternos, ongenes de celulas o tejidos, ongenes de muestra, ongenes de sujetos y similares), o combinaciones de estos.
El acido nucleico o una mezcla de acido nucleico utilizada en los metodos y aparatos descritos en la presente se afsla a menudo de una muestra obtenida de un sujeto. Un sujeto puede ser cualquier organismo vivo o no vivo, que incluye, pero sin limitacion un ser humano, un animal no humano, una planta, una bacteria, un hongo o un protista. Se puede seleccionar cualquier animal humano o no humano, que incluye, pero sin limitacion mai^eras, reptiles, aves, anfibios, peces, ungulados, rumiantes, bovinos (por ejemplo, vacunos), equinos (por ejemplo, caballos), caprinos y ovinos(por ejemplo, oveja, cabra), porcino (por ejemplo, cerdo), camelido (por ejemplo, camello, llama, alpaca), mono, simios (por ejemplo, gorila, chimpance), ursidos (por ejemplo, osos), aves de corral, perro, gato, raton, rata, pez, delfm, tiburon y ballena. Un sujeto puede ser macho o hembra (por ejemplo, una mujer).
El acido nucleico se puede aislar de cualquier tipo de especimen o muestra biologica adecuada (por ejemplo, una muestra de prueba). Una muestra o muestra de prueba puede ser cualquier especimen que se afsla u obtiene de un sujeto (por ejemplo, un sujeto humano, una mujer embarazada). Los ejemplos no limitativos de espedmenes incluyen lfquido o tejido de un sujeto, que incluye, sin limitacion, sangre de cordon umbilical, vellosidades corionicas, lfquido amniotico, lfquido cefalorraqrndeo, lfquido espinal, lfquido de lavado (por ejemplo, broncoalveolar, gastrico, peritoneal, ductal, oreja, artroscopico), muestra de biopsia (por ejemplo, de embrion de preimplantacion), muestra de celocentesis, celulas nucleadas fetales o restos celulares fetales, lavados del tracto reproductivo femenino, orina, heces, esputo, saliva, mucosa nasal, lfquido de prostata, lavado, semen, lfquido linfatico, bilis, lagrimas, sudor, leche materna, lfquido del seno, celulas embrionarias y celulas fetales (por ejemplo, celulas placentarias). Una muestra biologica puede ser un hisopado cervical de un sujeto. Una muestra biologica puede ser sangre y algunas veces plasma o suero. Como se usa en la presente, el termino “sangre” abarca sangre entera o cualquier fraccion de sangre, tal como, por ejemplo suero y plasma como se define convencionalmente. La sangre o sus fracciones a menudo comprenden nucleosomas (por ejemplo, nucleosomas maternos y/o fetales). Los nucleosomas comprenden acidos nucleicos y algunas veces estan libres de celulas o son intracelulares. La sangre tambien comprende capas leucocitarias. Las capas leucocitarias algunas veces se afslan usando un gradiente de ficoll. Las capas leucocitarias pueden comprender globulos blancos (por ejemplo, leucocitos, celulas T, celulas B, plaquetas y similares). Algunas veces, las capas leucocitarias comprenden acido nucleico materno y/o fetal. El plasma sangumeo se refiere a la fraccion de sangre entera resultante de la centrifugacion de la sangre tratada con anticoagulantes. El suero sangumeo se refiere a la porcion acuosa del lfquido que queda despues de que una muestra de sangre ha coagulado. Las muestras de lfquidos o tejidos a menudo se recolectan de acuerdo con los protocolos estandar que generalmente siguen los hospitales o clmicas. Para la sangre, a menudo se recolecta una cantidad apropiada de sangre periferica (por ejemplo, entre 3 - 40 mililitros) y se puede almacenar de acuerdo con procedimientos estandares antes o despues de la preparacion. Una muestra de lfquido o tejido a partir de la cual se extrae acido nucleico puede ser acelular (por ejemplo, libre de celulas). Una muestra de lfquido o tejido puede contener elementos celulares o restos celulares. Se pueden incluir celulas fetales o celulas cancerosas en la muestra.
5
10
15
20
25
30
35
40
45
50
55
60
Una muestra a menudo es heterogenea, con lo que se quiere decir que hay mas de un tipo de especies de acidos nucleicos presentes en la muestra. Por ejemplo, el acido nucleico heterogeneo puede incluir, pero sin limitacion, (i) acido nucleico derivado fetal y derivado materno, (ii) acido nucleico de cancer y no cancer, (iii) acido nucleico patogeno y huesped, y mas generalmente, (iv) acido nucleico mutado y de tipo salvaje. Una muestra puede ser heterogenea porque esta presente mas de un tipo de celula, tal como una celula fetal y una celula materna, una celula cancerosa y no cancerosa, o una celula patogena y huesped. Puede estar presente una especie de acido nucleico minoritario y una especie de acido nucleico mayoritario.
Para aplicaciones prenatales de la tecnologfa descritas en la presente, se puede recolectar una muestra de ffquido o tejido de una mujer a una edad gestacional adecuada para la prueba, o de una mujer que se esta examinando por un posible embarazo. La edad gestacional adecuada puede variar de acuerdo con la prueba prenatal que se este realizando. Un sujeto mujer embarazada algunas veces puede estar en el primer trimestre del embarazo, algunas veces en el segundo trimestre del embarazo, o algunas veces el tercer trimestre del embarazo. Un ffquido o tejido se puede recolectar de una mujer embarazada entre aproximadamente 1 a aproximadamente 45 semanas de gestacion fetal (por ejemplo, a 1-4, 4-8, 8-12, 12-16, 16-20, 20-24, 24-28, 28-32, 32-36, 36-40 o 40-44 semanas de gestacion fetal), y algunas veces entre aproximadamente 5 a aproximadamente 28 semanas de gestacion fetal (por ejemplo, a 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26 o 27 semanas de gestacion fetal). Algunas veces una muestra de ffquido o tejido se recolecta de una mujer embarazada durante o justo despues (por ejemplo, 0 a 72 horas despues) de parir (por ejemplo, parto vaginal o no vaginal (por ejemplo, parto quirurgico)).
Aislamiento y procesamiento de acido nucleico
El acido nucleico se puede derivar de una o mas fuentes (por ejemplo, celulas, suero, plasma, capa leucocitaria, ffquido linfatico, piel, suelo y similares) por metodos conocidos en la tecnica. Los procedimientos y reactivos de lisis celular son conocidos en la tecnica y se pueden realizar generalmente por medio de agentes qmmicos (por ejemplo, detergentes, soluciones hipotonicas, procedimientos enzimaticos y similares, o combinacion de estos), ffsicos (por ejemplo, prensa francesa, sonicacion y similares), o metodos de lisis electrofftica. Se puede utilizar cualquier procedimiento de lisis adecuado. Por ejemplo, los metodos qmmicos emplean generalmente agentes de lisis para alterar las celulas y extraer los acidos nucleicos de las celulas, seguido por tratamiento con sales caotropicas. Tambien son utiles metodos ffsicos tales como congelacion/descongelacion seguidos de trituracion, el uso de prensas celulares y similares. Tambien se usan comunmente los procedimientos de lisis de alta sal. Por ejemplo, se puede usar un procedimiento de lisis alcalino. Este ultimo procedimiento incorpora tradicionalmente el uso de soluciones de fenol-cloroformo, y se puede utilizar un procedimiento libre de fenol-cloroformo alternativa que involucra tres soluciones. En los ultimos procedimientos, una solucion puede contener Tris 15 mM, pH 8,0; EDTA 10 mM y ARNasa 100 ug/ml; una segunda solucion puede contener NaOH 0,2 N y SDS 1%; y una tercera solucion puede contener KOAc 3M, pH 5,5. Estos procedimientos se pueden encontrar en Current Protocols in Molecular Biology, John Wiley y Sons, N.Y., 6.3.1 -6.3.6 (1989).
Las expresiones “acido nucleico” y “molecula de acido nucleico” se usan indistintamente. Las expresiones se refieren a acidos nucleicos de cualquier forma de composicion, tales como acido desoxirribonucleico (ADN, por ejemplo ADN complementario (ADNc), ADN genomico (ADNg) y similares), acido ribonucleico (ARN, por ejemplo, ARN mensajero (ARNm), ARN inhibitorio corto (ARNsi), ARN ribosomico (ARNr), ARN de transferencia (ARNt), microARN, ArN altamente expresado por el feto o la placenta y similares), y/o analogos de ADN o ARN (por ejemplo, que contienen analogos de bases, analogos de azucar y/o un esqueleto no nativo y similares), tffbridos de ARN/ADN y acidos nucleicos de poliamida (PNAs), todos los cuales pueden estar en forma de cadena simple o doble. A menos que se limite de otro modo, un acido nucleico puede comprender analogos conocidos de nucleotidos naturales, algunos de los cuales pueden funcionar de manera similar a los nucleotidos naturales. Un acido nucleico puede ser de cualquier forma util para llevar a cabo procesos de la presente (por ejemplo, lineal, circular, superenrollado, de cadena simple, cadena doble y similares). Un acido nucleico puede ser, o puede ser de, un plasmido, fago, secuencia de replicacion autonoma (ARS), centromero, cromosoma artificial, cromosoma u otro acido nucleico capaz de replicarse o replicarse in vitro o en una celula huesped, una celula, un nucleo celular o citoplasma de una celula. Un acido nucleico puede ser de un cromosoma unico o fragmento de este (por ejemplo, una muestra de acido nucleico puede ser de un cromosoma de una muestra obtenida de un organismo diploide). Algunas veces los acidos nucleicos comprenden nucleosomas, fragmentos o partes de nucleosomas o estructuras similares a los nucleosomas. Los acidos nucleicos algunas veces comprenden protemas (por ejemplo, histonas, protemas de union al ADN, y similares). Los acidos nucleicos analizados por los procesos descritos en la presente algunas veces estan sustancialmente aislados y no estan sustancialmente asociados con protemas u otras moleculas. Los acidos nucleicos tambien incluyen derivados, variantes y analogos de ARN o aDn sintetizados, replicados o amplificados a partir de una cadena unica (de “sentido” o “antisentido”, cadena “mas” o cadena “menos”, marco de lectura “directo” o marco de lectura “inverso”) y polinucleotidos de cadena doble. Los desoxirribonucleotidos incluyen desoxiadenosina, desoxicitidina, desoxiguanosina y desoxitimidina. Para ARN, la citosina base se reemplaza con uracilo y la posicion 2' de azucar incluye un resto hidroxilo. Se puede preparar un acido nucleico usando un acido nucleico obtenido de un sujeto como un molde.
El acido nucleico se puede aislar en un momento diferente en comparacion con otro acido nucleico, donde cada una de las muestras es de la misma fuente o de una fuente diferente. Un acido nucleico puede ser de una biblioteca de acidos nucleicos, tal como por ejemplo, una biblioteca de ADNc o ARN. Un acido nucleico puede ser un resultado de la
5
10
15
20
25
30
35
40
45
50
55
60
purificacion o aislamiento y/o amplificacion de acido nucleico de moleculas de acido nucleico de la muestra.
El acido nucleico provisto para procesos descritos en la presente puede contener acido nucleico de una muestra o de dos o mas muestras (por ejemplo, de 1 o mas, 2 o mas, 3 o mas, 4 o mas, 5 o mas, 6 o mas, 7 o mas, 8 o mas, 9 o mas, 10 o mas, 11 o mas, 12 o mas, 13 o mas, 14 o mas, 15 o mas, 16 o mas, 17 o mas, 18 o mas, 19 o mas, o 20 o mas muestras).
Los acidos nucleicos pueden incluir acido nucleico extracelular. La expresion “acido nucleico extracelular” como se usa en la presente se puede referir a acido nucleico aislado de una fuente que no tiene sustancialmente celulas y tambien se denomina acido nucleico “libre de celulas” y/o acido nucleico “circulante de libre de celulas”. El acido nucleico extracelular puede estar presente en y obtenido a partir de sangre (por ejemplo, de la sangre de una mujer embarazada). El acido nucleico extracelular a menudo no incluye celulas detectables y puede contener elementos celulares o restos celulares. Los ejemplos no limitantes de fuentes acelulares de acido nucleico extracelular son sangre, plasma sangumeo, suero sangumeo y orina. Como se usa en la presente memoria, el termino “obtener acido nucleico de muestra circulante libre de celulas” incluye obtener una muestra directamente (por ejemplo, recolectar una muestra, por ejemplo, una muestra de prueba) u obtener una muestra de otra que ha recolectado una muestra. Sin estar limitado por la teona, el acido nucleico extracelular puede ser un producto de la apoptosis celular y la descomposicion celular, que proporciona la base para el acido nucleico extracelular que a menudo tiene una serie de longitudes a traves de un espectro (por ejemplo, una “escalera”).
El acido extracelular puede incluir diferentes especies de acido nucleico, y en consecuencia se pueden denominar en al presente como “heterogeneo”. Por ejemplo, el suero o plasma sangumeo de una persona que tiene cancer puede incluir acido nucleico de celulas cancerosas y acido nucleico de celulas no cancerosas. En otro ejemplo, el suero o plasma sangumeo de una mujer embarazada puede incluir el acido nucleico materno y acido nucleico fetal. En algunos casos, el acido nucleico fetal algunas veces es aproximadamente el 5% a aproximadamente e l 50% del acido nucleico total (por ejemplo, aproximadamente 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48 o 49% del acido nucleico total es acido nucleico fetal). La mayor parte del acido nucleico fetal en el acido nucleico puede ser de una longitud de aproximadamente 500 pares de bases o menos (por ejemplo, aproximadamente 80, 85, 90, 91,92, 93, 94, 95, 96, 97, 98, 99 o 100% de acido nucleico fetal es de una longitud de aproximadamente 500 pares de bases o menos). La mayor parte del acido nucleico fetal en el acido nucleico puede ser de una longitud de aproximadamente 250 pares de bases o menos (por ejemplo, aproximadamente 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 o 100% de acido nucleico fetal es de una longitud de aproximadamente 250 pares de bases o menos). La mayor parte del acido nucleico fetal en el acido nucleico puede ser de una longitud de aproximadamente 200 pares de bases o menos (por ejemplo, aproximadamente 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 o 100% de acido nucleico fetal es de una longitud de aproximadamente 200 pares de bases o menos). La mayor parte del acido nucleico fetal en el acido nucleico puede ser de una longitud de aproximadamente 150 pares de bases o menos (por ejemplo, aproximadamente 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 o 100% de acido nucleico fetal es de una longitud de aproximadamente 150 pares de bases o menos). La mayor parte del acido nucleico fetal del acido nucleico puede ser de una longitud de aproximadamente 100 pares de bases o menos (por ejemplo, aproximadamente 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 o 100% de acido nucleico fetal es de una longitud de aproximadamente 100 pares de bases o menos). La mayor parte del acido nucleico fetal en el acido nucleico puede ser de una longitud de aproximadamente 50 pares de bases o menos (por ejemplo, aproximadamente 80, 85, 90, 91,92, 93, 94, 95, 96, 97, 98, 99 o 100% de acido nucleico fetal es de una longitud de aproximadamente 50 pares de bases o menos). La mayor parte del acido nucleico fetal en el acido nucleico puede ser de una longitud de aproximadamente 25 pares de bases o menos (por ejemplo, aproximadamente 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 o 100% de acido nucleico fetal es de una longitud de aproximadamente 25 pares de bases o menos).
Se puede proporcionar acido nucleico para llevar a cabo metodos descritos en la presente sin procesar las muestras que contiene el acido nucleico. Se puede proporcionar acido nucleico para llevar a cabo metodos descritos en la presente despues del procesamiento de la muestra que contienen el acido nucleico. Por ejemplo, un acido nucleico se puede extraer, aislar, purificar, parcialmente purificar o amplificar a partir de las muestras. El termino “aislado” tal como se usa en la presente se refiere al acido nucleico eliminado de su ambiente original (por ejemplo, el ambiente natural si es de origen natural, o una celula huesped si se expresa exogenamente), y por lo tanto se altera mediante intervencion humana (por ejemplo, “por la mano del hombre”) de su ambiente original. La expresion “acido nucleico aislado” como se usa en la presente se puede denominar a un acido nucleico eliminado de un sujeto (por ejemplo, un sujeto humano). Un acido nucleico aislado se puede proporcionar con menos componentes de acido no nucleico presentes (por ejemplo, protema, lfpido) que la cantidad de componentes presentes en una muestra fuente. Una composicion que comprende acido nucleico aislado puede ser de aproximadamente 50% a mas de 99% libre de componentes de acido no nucleico. Una composicion que comprende acido nucleico aislado puede ser de aproximadamente 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% o mas de 99% libre de componentes de acido no nucleico. El termino “purificado” como se usa en la presente se puede referir a un acido nucleico siempre que contenga menos componentes de acido no nucleico (por ejemplo, protema, lfpido, carbohidrato) que la cantidad de componentes de acido no nucleico presentes antes de someter el acido nucleico a un procedimiento de purificacion. Una composicion que comprende acido nucleico purificado puede ser aproximadamente 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% o mayor de 99% libre de otros componentes de acido no nucleico. El termino “purificado” como se usa en la presente se puede referir a un acido nucleico siempre que contenga menos especies de acido nucleico que en la muestra fuente de la que se deriva el acido nucleico. Una
5
10
15
20
25
30
35
40
45
50
55
60
composicion que comprende acido nucleico purificado puede ser aproximadamente 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% o mayor de 99% libre de otras especies de acidos nucleicos. Por ejemplo, el acido nucleico fetal se puede purificar a partir de una mezcla que comprende acido nucleico materno y fetal. En ciertos ejemplos, los nucleosomas que comprenden pequenos fragmentos de acido nucleico fetal se pueden purificar a partir de una mezcla de complejos de nucleosomas mas grandes que comprenden fragmentos mayores de acido nucleico materno.
El termino “amplificado” como se usa en la presente se refiere a someter un acido nucleico blanco de una muestra a un proceso que genera de forma lineal o exponencial acidos nucleicos amplicon que tienen la misma o sustancialmente la misma secuencia de nucleotidos que el acido nucleico blanco, o segmento de este. El termino “amplificado” como se usa en la presente se puede referir a someter un acido nucleico blanco (por ejemplo, en una muestra que comprende otro acido nucleicos) a un proceso que genera de forma selectiva y lineal o exponencial los acidos nucleicos de amplicon que tienen la misma o sustancialmente la misma secuencia de nucleotidos que el acido nucleico blanco, o segmento de este. El termino “amplificado” como se usa en la presente se puede referir a someter una poblacion de acidos nucleicos a un proceso que genera de forma no selectiva y lineal o exponencial acidos nucleicos de amplicon que tienen la misma o sustancialmente la misma secuencia de nucleotidos que acido nucleicos, o porciones de estos, que estaban presentes en la muestra antes de la amplificacion. Algunas veces el termino “amplificado” se refiere a un metodo que comprende una reaccion en cadena de polimerasa (PCR).
El acido tambien se puede procesar mediante la sujecion del acido nucleico a un metodo que genera fragmentos de acido nucleico, por ejemplo antes de proporcionar el acido nucleico para un proceso descrito en la presente. El acido nucleico sometido a la fragmentacion o escision puede tener una longitud nominal, promedia o media de aproximadamente 5 a aproximadamente 10.000 pares de bases, aproximadamente 100 a aproximadamente 1.000 pares de bases, aproximadamente 100 a aproximadamente 500 pares de bases, o aproximadamente 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000 o 9000 pares de bases. Los fragmentos pueden ser generados por un metodo adecuado conocido en la tecnica, y la longitud promedio, media o nominal de fragmentos de acido nucleicos se pueden controlar mediante la seleccion de un procedimiento generador de fragmentos apropiado. El acido nucleico de una longitud relativamente mas corta se puede utilizar para analizar secuencias que contienen poca variacion de secuencia y/o contienen cantidades relativamente grandes de informacion de secuencia de nucleotidos conocida. El acido nucleico de una longitud relativamente mayor se puede utilizar para analizar secuencias que contienen una mayor variacion de secuencia y/o contienen cantidades relativamente pequenas de informacion de secuencia de nucleotidos.
Los fragmentos de acido nucleico pueden contener secuencias de nucleotidos superpuestas, y tales secuencias superpuestas pueden facilitar la construccion de una secuencia de nucleotidos del acido nucleico equivalente no fragmentado, o un segmento de este. Por ejemplo, un fragmento puede tener subsecuencias x e y otro fragmento puede tener subsecuencias y z, donde x, y z son secuencias de nucleotidos que pueden ser 5 nucleotidos de longitud o mayor. La secuencia superpuesta se puede utilizar para facilitar la construccion de las secuencias de nucleotidos x-y-z del acido nucleico de una muestra. El acido nucleico se puede fragmentar parcialmente (por ejemplo, a partir de una reaccion de escision incompleta o espedfica terminada) o totalmente fragmentado.
El acido nucleico se puede fragmentar por diversos metodos conocidos en la tecnica, los cuales incluyen, sin limitacion, procesos ffsicos, qrnmicos y enzimaticos. Los ejemplos no limitantes de tales procesos se describen en la publicacion de solicitud de patente U. S. N.° 20050112590 (publicada el 26 de mayo de 2005, titulada ““Fragmentation-based methods and systems for sequence variation detection and discovery”, a nombre de Van Den Boom et al.). Se pueden seleccionar ciertos procesos para generar fragmentos escindidos no espedficamente o fragmentos escindidos espedficamente. Los ejemplos no limitantes de procesos que pueden generar acido nucleico fragmentado escindido no espedficamente incluyen, sin limitacion, el contacto del acido nucleico con un aparato que expone el acido nucleico a la fuerza de cizallamiento (por ejemplo, al pasar el acido nucleico a traves de una aguja de jeringa, uso de una prensa francesa); por exposicion del acido nucleico a la irradiacion (por ejemplo, mediante gamma, rayos X, irradiacion con UV, se puede controlar el tamano de los fragmentos por intensidad de irradiacion); ebullicion del acido nucleico en agua (por ejemplo, produce aproximadamente 500 fragmentos de pares de bases) y la exposicion del acido nucleico a un proceso de hidrolisis acida y basica.
Como se usa en la presente, “fragmentacion” o “escision” se refiere a un procedimiento o condiciones en las que una molecula de acido nucleico, tal como una molecula de gen molde de acido nucleico o un producto amplificado de esta se puede cortar en dos o mas moleculas de acido nucleico mas pequenas. Dicha fragmentacion o escision puede ser espedfica de la secuencia, espedfica de la base o no espedfica, y se puede realizar mediante cualquiera de una variedad de metodos, reactivos o condiciones, que incluyen, por ejemplo, fragmentacion ffsica qrnmica, enzimatica.
Como se usa en la presente, “fragmentos”, “productos de escision”, “productos escindidos” o sus variantes gramaticales, se refiere a moleculas de acido nucleico resultantes de una fragmentacion o escision de una molecula de gen molde de acido nucleico o producto amplificado de esta, Aunque tales fragmentos o productos escindidos se pueden referir a todas las moleculas de acido nucleico resultantes de una reaccion de escision, tfpicamente tales fragmentos o productos escindidos se refieren solo a moleculas de acido nucleico resultantes de una fragmentacion o escision de una molecula de gen molde de acido nucleico o el segmento de un producto amplificado de esta que contiene la correspondiente secuencia de nucleotidos de una molecula de gen molde de acido nucleico. Por ejemplo, un producto amplificado puede contener uno o mas nucleotidos mas que la region nucleotfdica amplificada de una
5
10
15
20
25
30
35
40
45
50
55
60
secuencia molde de acido nucleico (por ejemplo, un cebador puede contener nucleotidos “extra”, tales como una secuencia de iniciacion transcripcional, ademas de nucleotidos complementarios con una molecula del gen molde de acido nucleico, que genera un producto amplificado que contiene nucleotidos “extra” o nucleotidos que no corresponden a la region nucleotfdica amplificada de la molecula del gen molde de acido nucleico). Por consiguiente, los fragmentos pueden incluir fragmentos que surgen de porciones de moleculas de acido nucleico amplificadas que contienen, al menos en parte, informacion de secuencia de nucleotidos a partir o basada en la molecula molde de acido nucleico representativa.
Como se usa en la presente, la expresion “reacciones de escision complementarias” se refiere a reacciones de escision que se llevan a cabo sobre el mismo acido nucleico usando diferentes reactivos de escision o mediante la alteracion de la especificidad de escision del mismo reactivo de escision de modo que se generan patrones de escision alternativos del mismo acido nucleico o protema blanco o referencia. El acido nucleico se puede tratar con uno o mas agentes de escision espedficos (por ejemplo, 1,2, 3, 4, 5, 6, 7, 8, 9, 10 o mas agentes de escision espedficos) en uno o mas recipientes de reaccion (por ejemplo, el acido nucleico se trata con cada agente de escision espedfico en un recipiente separado).
El acido nucleico se puede escindir espedficamente o escindir no espedficamente mediante el contacto del acido nucleico con uno o mas agentes de escision enzimaticos (por ejemplo, nucleasas, enzimas de restriccion). La expresion “agente de escision espedfico” como se usa en la presente se refiere a un agente, algunas veces un agente qrnmico o una enzima que puede escindir un acido nucleico en uno o mas sitios espedficos. Los agentes de escision espedficos a menudo escinden espedficamente de acuerdo con una secuencia de nucleotidos particular en un sitio particular. Los agentes de escision no espedficos a menudo esconden los acidos nucleicos en sitios no espedficos o degradan acidos nucleicos. Los agentes de escision no espedficos a menudo degradan acidos nucleicos mediante la eliminacion de los nucleotidos del extremo (el extremo 5', extremo 3' o ambos) de una cadena de acido nucleico.
Se puede usar cualquier agente de escision enzimatica no espedfico o espedfico adecuado para escindir o fragmentar acidos nucleicos. Se puede usar una enzima de restriccion adecuada para escindir acidos nucleicos. Los ejemplos de agentes de escision enzimatica incluyen sin limitacion endonucleasas (por ejemplo, AADNsa (por ejemplo, ADNasa I, II), ARNasa (por ejemplo, ARNasa E, F, H, P), enzima Cleavase™, ADN polimerasa Taq, ADN polimerasa I de E. coli y endonucleasas espedficas de estructura de eucariotas, endonucleasas de FEN-1 murina, endonucleasas de restriccion de tipo I, II o III tales como Acc I, Afl III, Alu I, Alw44 I, Apa I, Asn I, Ava I, Ava II, BamH I, Ban II, Bel I, Bgl I. Bgl II, Bln I, Bsm I, BssH II, BstE II, Cfo I, Cla I, Dde I, Dpn I, Dra I, EclX I, EcoR I, EcoR I, EcoR II, EcoR V, Hae II, Hae II, Hind II, Hind III, Hpa I, Hpa II, Kpn I, Ksp I, Mlu I, MluN I, Msp I, Nci I, Nco I, Nde I, Nde II, Nhe I, Not I, Nru I, Nsi I, Pst I, Pvu I, Pvu II, Rsa I, Sac I, Sal I, Sau3A I, Sea I, ScrF I, Sfi I, Sma I, Spe I, Sph I, Ssp I, Stu I, Sty I, Swa I, Taq I, Xba I, Xho I; glicosilasas (por ejemplo, uracil-ADN glicosilasa (UDG), 3-metiladenina ADN glicosilasa, 3-metiladenin ADN glicosilasa II, hidrato de pirimidina-ADN glicosilasa, FaPy-ADN glicosilasa, mal apareamiento de timina-ADN glicosilasa, hipoxantina-ADN glicosilasa, 5-Hidroximetiluracil ADN glicosilasa (HmUDG), 5-Hidroximetilcitosina ADN glicosilasa, o 1,N6-eteno-adenina ADN glicosilasa); exonucleasas (por ejemplo, exonucleasa III); ribozimas, y ADNzimas. El acido nucleico se puede tratar con un agente qrnmico, y se puede escindir el acido nucleico modificado. . En los ejemplos no limitantes, el acido nucleico se puede tratar con (i) agentes alquilantes tales como metilnitrosourea que generan varias bases alquiladas, que incluyen N3-metiladenina y N3-metilguanina, que son reconocidas y escindidas por la alquil-purina ADN-glicosilasa; (ii) bisulfito de sodio, que provoca la desaminacion de residuos de citosina en el ADN para formar restos de uracilo que pueden ser escindidos por uracil-N-glucosilasa; y (iii) un agente qrnmico que convierte la guanina en su forma oxidada, 8-hidroxiguanina, que puede ser escindida por la N-glicosilasa de ADN de formamidopirimidina. Los ejemplos de procesos de escision qmmica incluyen, sin limitacion, alquilacion (por ejemplo, alquilacion de acido nucleico modificado con fosforotioato); escision de labilidad acida del acido nucleico que contiene P3'-N5'-fosforamidato; y el tratamiento con tetroxido de osmio y piperidina del acido nucleico.
El acido nucleico tambien puede estar expuesto a un proceso que modifica ciertos nucleotidos en el acido nucleico antes de proporcionar acido nucleico para un metodo descrito en la presente. Un proceso que modifica selectivamente el acido nucleico basado en el estado de metilacion de los nucleotidos se puede aplicar, por ejemplo, al acido nucleico. Ademas, condiciones tales como alta temperatura, radiacion ultravioleta, radiacion x, pueden inducir cambios en la secuencia de una molecula de acido nucleico. El acido nucleico se puede proporcionar en cualquier forma util para llevar a cabo un analisis de secuencia o proceso de fabricacion descrito en la presente, tal como por ejemplo, forma solida o lfquida. El acido nucleico se puede proporcionar en una forma lfquida que comprende opcionalmente uno o mas componentes adicionales, que incluyen sin limitacion uno o mas tampones o sales.
El acido nucleico puede ser de cadena simple o cadena doble. El ADN de cadena simple, por ejemplo, se puede generar mediante la desnaturalizacion del ADN de cadena doble, por ejemplo por calentamiento o por tratamiento con alcali. En algunos casos, el acido nucleico esta en una estructura de bucle D, formada por la invasion de la cadena de una molecula de ADN duplex por un oligonucleotido o una molecula similar a ADN, tal como acido nucleico peptfdico (PNA). La formacion del bucle D se puede facilitar mediante la adicion de la protema RecA de E. coli y/o mediante la alteracion de la concentracion de sal, por ejemplo, utilizando metodos conocidos en la tecnica.
5
10
15
20
25
30
35
40
45
50
55
60
Determinacion del contenido de acido nucleico fetal
Se puede determinar la cantidad de acido nucleico fetal (por ejemplo, concentracion, cantidad relativa, cantidad absoluta, numero de copias, y similares) en acido nucleico. En algunos casos, la cantidad de acido nucleico fetal en una muestra se denomina “fraccion fetal”. Algunas veces, la “fraccion fetal” se refiere a la fraccion de acido nucleico fetal en el acido nucleico libre de celulas circulantes en una muestra (por ejemplo, una muestra de sangre, una muestra de suero, una muestra de plasma) obtenida de una mujer embarazada. Un metodo en el que se puede determinar el sexo del feto tambien puede comprender la determinacion de la fraccion fetal. La determinacion de la fraccion fetal se puede realizar de una manera adecuada, cuyos ejemplos no limitantes incluyen los metodos descritos a continuacion. En algunos casos, la cantidad de acido nucleico fetal se determina de acuerdo con los marcadores espedficos de un feto masculino (por ejemplo, marcadores STR del cromosoma Y (por ejemplo, marcadores DYS 19, DYS 385, DYS 392), marcador RhD en mujeres RhD negativas), relaciones alelicas de secuencias polimorficas o de acuerdo con uno o mas marcadores espedficos del acido nucleico fetal y no del acido nucleico materno (por ejemplo, biomarcadores epigeneticos diferenciales (por ejemplo, metilacion, descritos con mayor detalle mas adelante) entre la madre y el feto o marcadores de ARN fetal en plasma sangumeo materno (ver, por ejemplo, Lo, 2005, Journal of Histochemistry and Cytochemistry 53 (3): 293 - 296)).
La determinacion del contenido de acido nucleico fetal (por ejemplo, fraccion fetal) algunas veces se realiza usando una prueba cuantificador fetal (FQA) como se describe, por ejemplo, en la Publicacion de patente U. S. N.° 2010/0105049. Este tipo de prueba permite la deteccion y cuantificacion de acido nucleico fetal en una muestra materna basada en el estado de metilacion del acido nucleico en la muestra. En algunos casos, la cantidad de acido nucleico fetal de una muestra materna se puede determinar con respecto a la cantidad total de acido nucleico presente, proporcionando de este modo el porcentaje de acido nucleico fetal en la muestra. En algunos casos, el numero de copias de acido nucleico fetal se puede determinar en una muestra materna. En algunos casos, la cantidad de acido nucleico fetal se puede determinar de una manera espedfica de secuencia (o espedfica de locus) y algunas veces con suficiente sensibilidad para permitir el analisis de dosificacion cromosomica exacto (por ejemplo, para detectar la presencia o ausencia de una aneuploidfa fetal o determinar el sexo del feto).
Una prueba cuantificador fetal (FQA) se puede realizar en conjunto con cualquiera de los metodos descritos en la presente. Tal prueba se puede realizar mediante cualquier metodo conocido en la tecnica y/o descrito en la publicacion de la solicitud de patente U. S. N.° 2010/0105049, tal como, por ejemplo, mediante un metodo que puede distinguir entre ADN materno y fetal sobre la base del estado de metilacion diferencial, y cuantificar (es decir, determinar la cantidad del) ADN fetal. Los metodos para diferenciar el acido nucleico sobre la base del estado de metilacion incluyen, pero sin limitacion, la captura sensible a la metilacion, por ejemplo, usando un fragmento MBD2-Fc en el que el dominio de union a metilo de MBD2 se fusiona al fragmento Fc de un anticuerpo (MBD- FC) (Gebhard y otros (2006) Cancer Res. 66 (12): 6118 - 28); anticuerpos espedficos de metilacion; metodos de conversion de bisulfito, por ejemplo, MSP (PCR sensible a la metilacion), COBRA, extension de cebador de nucleotido unico sensible a la metilacion (Ms-SNuPE) o tecnologfa MassCLEAVE ™ de Sequenom; y el uso de enzimas de restriccion sensibles a la metilacion (por ejemplo, la digestion del ADN materno en una muestra materna usando una o mas enzimas de restriccion sensibles a la metilacion, de este modo se enriquece el ADN fetal). Tambien se pueden usar enzimas sensibles a metilo para diferenciar acido nucleico sobre la base del estado de metilacion, que, por ejemplo, puede escindir o digerir en forma preferente o sustancial en su secuencia de reconocimiento de ADN si esta ultima no esta metilada. De este modo, una muestra de ADN no metilada se cortara en fragmentos mas pequenos que una muestra de ADN metilada y no se escindira una muestra de ADN hipermetilada. Excepto cuando se indica explfcitamente, cualquier metodo para diferenciar acido nucleico basado en el estado de metilacion se puede usar con las composiciones y metodos de la tecnologfa de la presente. La cantidad de ADN fetal se puede determinar, por ejemplo, mediante la introduccion de uno o mas competidores a concentraciones conocidas durante una reaccion de amplificacion. La determinacion de la cantidad de ADN fetal tambien se puede realizar, por ejemplo, mediante RT-PCR, extension de cebador, secuenciacion y/o recuento. En ciertos casos, la cantidad de acido nucleico se puede determinar usando la tecnologfa BEAMing como se describe en la publicacion de solicitud de patente U. S. N° 2007/0065823. En algunos casos, se puede determinar la eficiencia de restriccion y se utiliza la tasa de eficacia para determinar adicionalmente la cantidad de ADN fetal.
En algunos casos, se puede usar una prueba cuantificador fetal (FQA) para determinar la concentracion de ADN fetal en una muestra materna, por ejemplo, mediante el siguiente metodo: a) determinacion de la cantidad total de ADN presente en una muestra materna; B) digestion selectiva del ADN materno en una muestra materna usando una o mas enzimas de restriccion sensibles a la metilacion, con lo que se enriquece el ADN fetal; c) determinacion de la cantidad de ADN fetal de la etapa b); y d) comparacion de la cantidad de ADN fetal de la etapa c) con la cantidad total de ADN de la etapa a), de este modo se determina la concentracion de ADN fetal en la muestra materna. En algunos casos, el numero absoluto de copias de acido nucleico fetal en una muestra materna se puede determinar, por ejemplo, usando espectrometna de masas y/o un sistema que utiliza un metodo de PCR competitivo para mediciones de numero absoluto de copias. Ver, por ejemplo, Ding and Cantor (2003) Proc.Natl.Acad.Sci. USA 100: 3059 - 3064, y Publicacion de la solicitud de patente U. S. N.° 2004/0081993.
En algunos casos, la fraccion fetal se puede determinar sobre la base de las relaciones alelicas de las secuencias polimorficas (por ejemplo, polimorfismos de nucleotido unico (SNP)), tales como, por ejemplo, usando un metodo descrito en la publicacion de solicitud de patente de U. S. N.° 2011/0224087. En dicho metodo, se obtienen lecturas de
5
10
15
20
25
30
35
40
45
50
55
60
secuencias de nucleotidos para una muestra materna y la fraccion fetal se determina mediante la comparacion del numero total de lecturas de secuencias de nucleotidos que se mapean en un primer alelo y el numero total de lecturas de secuencias de nucleotidos que se mapean a un segundo alelo en un sitio polimorfico informativo (por ejemplo, SNP) en un genoma de referencia. En algunos casos, los alelos fetales se identifican, por ejemplo, por su contribucion menor relativa a la mezcla de acidos nucleicos fetales y maternos en la muestra cuando se compara con la mayor contribucion a la mezcla con los acidos nucleicos maternos. Por consiguiente, la abundancia relativa de acido nucleico fetal en una muestra materna se puede determinar como un parametro del numero total de lecturas de secuencias unicas mapeadas a una secuencia de acido nucleico blanco en un genoma de referencia para cada uno de los dos alelos de un sitio polimorfico.
La cantidad de acido nucleico fetal en acido nucleico extracelular se puede cuantificar y usar junto con un metodo proporcionado en la presente. Por lo tanto, los metodos de la tecnologfa descritos en la presente pueden comprender una etapa adicional de determinar la cantidad de acido nucleico fetal. La cantidad de acido nucleico fetal se puede determinar en una muestra de acido nucleico de un sujeto antes o despues del procesamiento para preparar la muestra de acido nucleico. La cantidad de acido nucleico fetal se puede determinar en una muestra despues de procesar y preparar el acido nucleico de la muestra, tal cantidad se utiliza para una evaluacion adicional. Un resultado puede comprender factorizar la fraccion de acido nucleico fetal en el acido nucleico de la muestra (por ejemplo, ajustar los recuentos, eliminar muestras, realizar una identificacion o no realizar una identificacion).
La etapa de determinacion se puede realizar antes, durante, en cualquier punto en un metodo descrito en la presente, o despues de determinados metodos (por ejemplo, deteccion de aneuploidfa, determinacion de sexo del feto) descritos en la presente. Por ejemplo, para conseguir un metodo de determinacion de sexo del feto o de aneuploidfa con una sensibilidad o especificidad dada, se puede implementar un metodo de cuantificacion de acido nucleico fetal antes, durante o despues de la determinacion de sexo del feto o aneuploidfa para identificar aquellas muestras con mas de aproximadamente 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25% o mas de acido nucleico fetal. Las muestras determinadas con una determinada cantidad umbral de acido nucleico fetal (por ejemplo, aproximadamente 15% o mas de acido nucleico fetal, aproximadamente 4% o mas de acido nucleico fetal) se analizan adicionalmente, por ejemplo para la determinacion de sexo del feto o aneuploidfa, o la presencia o ausencia de aneuploidfa o variacion genetica. Las determinaciones de, por ejemplo, el sexo del feto o la presencia o ausencia de aneuploidfa se pueden seleccionar (por ejemplo, seleccionar y comunicar) solamente para muestras que tienen una determinada cantidad umbral de acido nucleico fetal (por ejemplo, aproximadamente 15% o mas e acido nucleico fetal; aproximadamente 4% o mas acido nucleico fetal).
La determinacion de la fraccion fetal o la determinacion de la cantidad de acido nucleico fetal pueden no ser requeridas o necesarias para determinar el sexo del feto o identificar la presencia o ausencia de una aneuploidfa cromosomica. La determinacion del sexo del feto o la identificacion de la presencia o ausencia de una aneuploidfa cromosomica puede no requerir la diferenciacion secuencial del ADN fetal versus materno. En algunos casos esto se debe a que se analiza la contribucion sumada de las secuencias tanto materna como fetal en un cromosoma, una porcion cromosomica o un segmento de esta.
La determinacion del sexo del feto o la identificacion de la presencia o ausencia de una aneuploidfa cromosomica puede no depender de la informacion de secuencia a priori que distinguina el ADN fetal del ADN materno.
Enriquecimiento para una subpoblacion de acido nucleico
El acido nucleico (por ejemplo, acido nucleico extracelular) puede estar enriquecido o relativamente enriquecido para una subpoblacion o especie de acido nucleico. Las subpoblaciones de acido nucleico pueden incluir, por ejemplo, acido nucleico fetal, acido nucleico materno, acido nucleico que comprende fragmentos de una longitud o rango de longitudes particular, o acido nucleico de una region genomica particular (por ejemplo, cromosoma unico, conjunto de cromosomas y/o ciertas regiones cromosomicas). Tales muestras enriquecidas se pueden usar en conjunto con un metodo proporcionado en la presente. Por lo tanto, los metodos de la tecnologfa pueden comprender una etapa adicional de enriquecimiento para una subpoblacion de acido nucleico en una muestra, tal como, por ejemplo, acido nucleico fetal. En algunos casos, un metodo para determinar la fraccion fetal descrita anteriormente tambien se puede usar para el enriquecimiento por una el acido nucleico fetal. El acido nucleico materno se puede eliminar selectivamente (en forma parcial, sustancial, casi completa o completa) de la muestra En algunos casos, el enriquecimiento para una especie particular de acido nucleico de numero de copias bajo (por ejemplo, acido nucleico fetal) puede mejorar la sensibilidad cuantitativa. Los metodos para enriquecer una muestra para una especie particular de acido nucleico se describen, por ejemplo, en la Patente de Estados Unidos N.° 6.927.028, Publicacion de solicitud de patente internacional N.° WO 2007/140417, Publicacion de solicitud de patente internacional N.° WO 2007/147063, Publicacion de solicitud de patente internacional WO2009/032779, Publicacion de solicitud de patente internacional N° WO 2009/032781, Publicacion de solicitud de patente internacional N.° WO 2010/033639, Publicacion de solicitud de patente internacional N.° WO 2011/034631, Publicacion de solicitud de patente internacional N.° WO 2006/056480 y Solicitud de Patente Internacional Publicacion N.° WO 2011/143659.
El acido nucleico se puede enriquecer para ciertas especies de fragmentos blanco y/o especies de fragmentos de referencia. En algunos casos, el acido nucleico se enriquece para una longitud de fragmento de acido nucleico espedfico o un bin de longitudes de fragmento usando uno o mas metodos de separacion basados en longitud
5
10
15
20
25
30
35
40
45
50
55
60
descritos a continuacion.
En algunos casos, el acido nucleico se enriquece para fragmentos de una region genomica seleccionada (por ejemplo, cromosoma) usando uno o mas metodos de separacion basados en secuencias descritos en la presente y/o conocidos en la tecnica. A continuacion se describen con detalle algunos metodos para enriquecer para una subpoblacion de acido nucleico (por ejemplo, acido nucleico fetal) en una muestra.
Algunos metodos para el enriquecimiento por una subpoblacion de acido nucleico (por ejemplo, acido nucleico fetal) que se pueden usar con un metodo descrito en la presente incluyen metodos que aprovechan diferencias epigeneticas entre el acido nucleico materno y fetal. Por ejemplo, el acido nucleico fetal se puede diferenciar y separar del acido nucleico materno sobre la base de las diferencias de metilacion. Los metodos de enriquecimiento de acido nucleico fetal basados en metilacion se describen en la publicacion de solicitud de patente U. S. N.° 2010/0105049. Tales metodos algunas veces involucran la union de un acido nucleico de muestra a un agente de union espedfico de metilacion (protema de union a metil-CpG (MBD), anticuerpos espedficos de metilacion y similares) y separacion del acido nucleico unido de un acido nucleico no unido sobre la base del estado diferencial de metilacion. Tales metodos tambien pueden incluir el uso de enzimas de restriccion sensibles a la metilacion (como se describio anteriormente, por ejemplo, Hhal y Hpall), que permiten el enriquecimiento de regiones de acido nucleico fetal en una muestra materna mediante la digestion selectiva del acido nucleico de la muestra materna con una enzima que digiere en forma selectiva y completa o sustancial el acido nucleico materno para enriquecer la muestra para al menos una region de acido nucleico fetal.
Otro metodo para el enriquecimiento por una subpoblacion de acido nucleico (por ejemplo, acido nucleico fetal) que se puede usar con un metodo descrito en la presente es un enfoque de secuencia polimorfica mejorada con endonucleasas de restriccion, tal como un metodo descrito en la publicacion de solicitud de patente U. S. N.° 2009/0317818. Tales metodos incluyen la escision de acido nucleico que comprende un alelo no blanco con una endonucleasa de restriccion que reconoce el acido nucleico que comprende el alelo no blanco pero no el alelo blanco; y la amplificacion del acido nucleico no escindido pero no del acido nucleico escindido, donde el acido nucleico amplificado no segmentado representa acido nucleico blanco enriquecido (por ejemplo, acido nucleico fetal) con respecto al acido nucleico no blanco (por ejemplo, acido nucleico materno). En algunos casos, el acido nucleico se puede seleccionar de tal manera que comprende un alelo que tiene un sitio polimorfico por ejemplo que es susceptible de digestion selectiva por un agente de escision.
Algunos metodos para el enriquecimiento por una subpoblacion de acido nucleico (por ejemplo, acido nucleico fetal) que se pueden usar con un metodo descrito en la presente incluyen enfoques de degradacion enzimatica selectiva. Tales metodos implican proteger las secuencias blanco de la digestion con exonucleasa de este modo se facilita la eliminacion en una muestra de secuencias no deseadas (por ejemplo, ADN materno). Por ejemplo, en un enfoque, el acido nucleico de la muestra se desnaturaliza para generar acido nucleico de cadena simple, el acido nucleico de cadena simple se pone en contacto con al menos un par de cebadores espedficos del blanco en condiciones de apareamiento adecuadas, los cebadores apareados se extienden mediante polimerizacion de nucleotidos, lo que genera secuencias blanco de cadena doble y la digestion de acido nucleico de cadena simple usando una nucleasa que digiere un acido nucleico de cadena simple (es decir, no blanco). En algunos casos, el metodo se puede repetir durante al menos un ciclo adicional. En algunos casos, se utiliza el mismo par de cebadores espedficos para el blanco para cebar cada uno de los primer y segundo ciclos de extension y, en algunos casos, se usan pares de cebadores espedficos del blanco diferentes para el primer y segundo ciclos.
Algunos metodos para el enriquecimiento por una subpoblacion de acido nucleico (por ejemplo, acido nucleico fetal) que se pueden usar con un metodo descrito en la presente incluyen enfoques de Secuenciacion masiva paralela de motivo distintivo (MPSS). MPSS tfpicamente es un metodo de fase solida que usa ligamiento de adaptador (es decir, marca), seguido por decodificacion de adaptador y lectura de la secuencia de acido nucleico en pequenos incrementos. Los productos de PCR marcados tfpicamente se amplifican de tal manera que cada acido nucleico genera un producto de PCR con una marca unica. Las marcas se utilizan a menudo para unir los productos de PCR a microesferas. Despues de varias rondas de determinacion de la secuencia basada en el ligamiento, por ejemplo, se puede identificar un motivo distintivo de secuencia de cada microesfera. Se analiza cada secuencia del motivo distintivo (marca MPSS) en un conjunto de datos MPSSa, en comparacion con los otros motivos distintivos, y se cuentan todos los motivos distintivos.
En algunos casos, ciertos metodos de enriquecimiento basados en MPSS pueden incluir enfoques basados en amplificacion (por ejemplo, PCR). En algunos casos, se pueden usar metodos de amplificacion espedficos de locus (por ejemplo, usando cebadores de amplificacion espedficos de locus). En algunos casos, se puede usar un metodo de PCR de alelo SNP multiplex. En algunos casos, se puede usar un enfoque de PCR de alelo SNP multiplex en combinacion con secuenciacion uniplex. Por ejemplo, tal enfoque puede implicar el uso de PCR multiplex (por ejemplo, sistema MASSARRAY) e incorporacion de secuencias de sonda de captura en los amplicones seguido por secuenciacion usando, por ejemplo, el sistema MPSS de lllumina. En algunos casos, se puede usar un enfoque de PCR de alelo SNP multiplex en combinacion con un sistema de tres cebadores y secuenciacion indexada. Por ejemplo, tal enfoque puede implicar el uso de PCR multiplex (por ejemplo, sistema MASSARRAY) con cebadores que tienen una primera sonda de captura incorporada en ciertos cebadores de PCR directos espedficos de locus y secuencias adaptadoras incorporadas en cebadores de PCR inversa espedficos de locus, para generar de ese modo amplicones
5
10
15
20
25
30
35
40
45
50
55
60
seguido de una PCR secundaria para incorporar secuencias de captura inversa y codigos de barras de mdice molecular para la secuenciacion usando, por ejemplo, el sistema MPSS de lllumina. En algunos casos, se puede usar un enfoque de PCR alelos SNP multiplex en combinacion con un sistema de cuatro cebadores y secuenciacion indexada. Por ejemplo, tal enfoque puede implicar el uso de PCR multiplex (por ejemplo, sistema MASSARRAY) con cebadores que tienen secuencias adaptadoras incorporadas en los cebadores de PCR directos espedficos de locus e inversos espedficos de locus, seguido de una PCR secundaria para incorporar tanto las secuencias de captura directa e inversa como los codigos de barras de mdice molecular para la secuenciacion usando, por ejemplo, el sistema MPSS de lllumina En algunos casos, se puede utilizar un enfoque microflmdico. En algunos casos, se puede usar un enfoque microflmdico basado en matriz. Por ejemplo, tal enfoque puede implicar el uso de una matriz microflmdica (por ejemplo, Fluidigm) para la amplificacion a bajo plex e incorporacion de sondas de mdice y de captura, seguido de secuenciacion. En algunos casos, puede usarse un enfoque microflmdico en emulsion, tal como, por ejemplo, PCR de microgotas digital.
En algunos casos, se pueden usar metodos de amplificacion universales (por ejemplo, usando cebadores de amplificacion universales o no espedficos de locus). En algunos casos, se pueden usar metodos de amplificacion universales en combinacion con enfoques de interaccion. En algunos casos, un metodo puede incluir la interaccion de ultrameros biotinilados (por ejemplo, pruebas de interaccion biotinilados de Agilent o IDT) de una biblioteca de secuenciacion universalmente amplificada. Por ejemplo, tal enfoque puede implicar la preparacion de una biblioteca estandar, el enriquecimiento para regiones seleccionadas mediante una prueba de interaccion y una etapa de amplificacion universal secundaria. En algunos casos, los enfoques de interaccion se pueden usar en combinacion con metodos basados en ligacion. En algunos casos, un metodo puede incluir la interaccion de ultramero biotinilado con ligacion por adaptador espedfica de secuencia (por ejemplo, HALOPLEX PCR, Halo Genomics). Por ejemplo, tal enfoque puede implicar el uso de sondas selectoras para capturar fragmentos digeridos con enzimas de restriccion, seguido por ligacion de productos capturados a un adaptador, y amplificacion universal seguida de secuenciacion. En algunos casos, los enfoques de interaccion se pueden usar en combinacion con metodos basados en extension y ligacion. En algunos casos, un metodo puede incluir la extension y ligacion de la sonda de inversion molecular (MIP). Por ejemplo, tal enfoque puede implicar el uso de sondas de inversion molecular en combinacion con adaptadores de secuencias seguido de amplificacion y secuenciacion universales. En algunos casos, el ADN complementario se puede sintetizar y secuenciar sin amplificacion.
En algunos casos, los enfoques de extension y ligacion se pueden realizar sin un componente de interaccion. En algunos casos, un metodo puede incluir la hibridacion, extension y ligacion de cebadores directos e inversos espedficos de locus. Tales metodos pueden incluir ademas amplificacion universal o smtesis de ADN complementaria sin amplificacion, seguido por secuenciacion. Tales metodos pueden reducir o excluir secuencias de fondo durante el analisis, en algunos casos.
En algunos casos, se pueden usar enfoques de interaccion con un componente de amplificacion opcional o sin componente de amplificacion. En algunos casos, un metodo puede incluir una prueba de interaccion modificada y una ligacion con incorporacion completa de sondas de captura sin amplificacion universal. Por ejemplo, tal enfoque puede implicar el uso de sondas selectoras modificadas para capturar fragmentos digeridos con enzimas de restriccion, seguido de ligacion de productos capturados a un adaptador, amplificacion opcional y secuenciacion. En algunos casos, un metodo puede incluir una prueba de interaccion biotinilado con extension y ligacion de la secuencia adaptadora en combinacion con ligacion de cadena simple circular. Por ejemplo, tal enfoque puede implicar el uso de sondas selectoras para capturar regiones de interes (es decir, secuencias blanco), extension de las sondas, ligacion adaptadora, ligacion circular de cadena simple, amplificacion opcional y secuenciacion. En algunos casos, el analisis del resultado de secuenciacion puede separar las secuencias blanco del fondo.
El acido nucleico se puede enriquecer por fragmentos de una region genomica seleccionada (por ejemplo, cromosoma) usando uno o mas metodos de separacion basados en secuencias descritos en la presente. La separacion basada en secuencias generalmente se basa en secuencias de nucleotidos presentes en los fragmentos de interes (por ejemplo, fragmentos blanco y/o de referencia) y sustancialmente no presentes en otros fragmentos de la muestra o presentes en una cantidad insustancial de los otros fragmentos (por ejemplo, 5 % o menos). La separacion basada en secuencias puede generar fragmentos blanco separados y/o fragmentos de referencia separados. Los fragmentos blanco separados y/o fragmentos de referencia separados se afslan tfpicamente de los fragmentos restantes en la muestra de acido nucleico. En algunos casos, los fragmentos blanco separados y los fragmentos de referencia separados tambien se afslan uno de otro (por ejemplo, se afslan en compartimentos de prueba separados). En algunos casos, los fragmentos blanco separados y los fragmentos de referencia separados se afslan juntos (por ejemplo, se afslan en el mismo compartimiento de prueba). Los fragmentos no unidos se pueden eliminar o degradar o digerir de forma diferencial
Se puede usar un proceso selectivo de captura de acido nucleico para separar los fragmentos blanco y/o de referencia de la muestra de acido nucleico. Los sistemas de captura de acidos nucleicos disponibles en el comercio incluyen, por ejemplo, el sistema de captura de secuencias Nimblegen (Roche NimbleGen, Madison, Wl); Plataforma lllumina BEaDaRRAY (lllumina, San Diego, CA); plataforma Affymetrix GENECHIP (Affymetrix, Santa Clara, CA); sistema de enriquecimiento blanco Agilent SureSelect (Agilent Technologies, Santa Clara, CA); y plataformas relacionadas. Tales metodos tfpicamente implican la hibridacion de un oligonucleotido de captura con un segmento o la totalidad de la secuencia de nucleotidos de un fragmento blanco o de referencia y pueden incluir el uso de una fase solida (por
5
10
15
20
25
30
35
40
45
50
55
ejemplo, una matriz de fase solida) y/o una plataforma basada en solucion. Los oligonucleotidos de captura (algunas veces denominados como “cebo”) se pueden seleccionar o disenar de tal manera que se hibridan preferentemente con fragmented de acido nucleico de regiones o locus genomicos seleccionados (por ejemplo, uno de los cromosomas 21, 18, 13, X o Y o un cromosoma de referencia).
El acido nucleico se puede enriquecer por una longitud de fragmento de acido nucleico, rango de longitudes o longitudes particulares por debajo o por encima de un umbral o corte determinado usando uno o mas metodos de separacion basados en longitud. La longitud del fragmento de acido nucleico se refiere frpicamente al numero de nucleotidos del fragmento. La longitud del fragmento de acido nucleico tambien se denomina algunas veces tamano de fragmento de acido nucleico. Se puede realizar un metodo de separacion basado en longitud sin medir longitudes de fragmentos individuales. Un metodo de separacion basado en longitud se puede realizar junto con un metodo para determinar la longitud de fragmentos individuales. La separacion basada en la longitud se puede referir a un procedimiento de fraccionamiento con el total o parte de la mezcla fraccionada se puede aislar (por ejemplo, retener) y/o analizar. Los procedimientos de fraccionamiento de tamano son conocidos en la tecnica (por ejemplo, separacion en una matriz, separacion por un tamiz molecular, separacion por electroforesis en gel, separacion por cromatografra en columna (por ejemplo, columnas de exclusion por tamano) y enfoques basados en microfluidos. Los enfoques de separacion basados en longitud pueden incluir, por ejemplo la circularizacion de fragmentos, tratamiento qrnmico (por ejemplo, formaldetndo, polietilenglicol (PEG)), espectrometna de masas y/o amplificacion de acido nucleico espedfica de tamano.
Ciertos metodos de separacion basados en longitud que se pueden usar con metodos descritos en la presente emplean por ejemplo un enfoque selectivo de marcado de secuencias. La expresion “marcado de secuencia” se refiere a la incorporacion de una secuencia reconocible y distinta en un acido nucleico o poblacion de acidos nucleicos. La expresion “marcado de secuencia” como se usa en la presente tiene un significado diferente que el termino “marca de secuencia” descrito mas adelante en la presente. En tales metodos de marcado de secuencia, se someten a acidos nucleicos de un tamano de fragmento (por ejemplo, fragmentos cortos) a un marcado de secuencia selectivo en una muestra que incluye acidos nucleicos largos y cortos. Tales metodos implican frpicamente realizar una reaccion de amplificacion de acido nucleico usando un conjunto de cebadores anidados que incluyen cebadores internos y cebadores externos. En algunos casos, uno o ambos de los internos se pueden marcar para introducir de este modo una marca en el producto de amplificacion blanco. Los cebadores externos generalmente no se aparean con los fragmentos cortos que llevan la secuencia blanco (interna). Los cebadores internos pueden hibridar a los fragmentos cortos y generar un producto de amplificacion que lleva una marca y la secuencia blanco. Normalmente, el marcado de los fragmentos largos se inhibe a traves de una combinacion de mecanismos que incluyen, por ejemplo, la extension bloqueada de los cebadores internos por el apareamiento previo y la extension de los cebadores externos. El enriquecimiento para los fragmentos marcados se puede llevar a cabo mediante cualquiera de una variedad de metodos, que incluyen, por ejemplo, la digestion con exonucleasa de acido nucleico de cadena simple y la amplificacion de los fragmentos marcados usando cebadores de amplificacion espedficos para al menos una marca.
Otro metodo de separacion basado en longitud que se puede usar con los metodos descritos en la presente involucra someter una muestra de acido nucleico a precipitacion de polietilenglicol (PEG). Los ejemplos de metodos incluyen los descritos en las Publicaciones de solicitud de patente internacional Nros. WO 2007/140417 y WO 2010/115016. Este metodo implica en general poner en contacto una muestra de acido nucleico con PEG en presencia de una o mas sales monovalentes en condiciones suficientes para precipitar sustancialmente acidos nucleicos grandes sin precipitar sustancialmente acidos nucleicos pequenos (por ejemplo, menos de 300 nucleotidos).
Otro metodo de enriquecimiento basado en tamano que se puede usar con los metodos descritos en la presente implica la circularizacion por ligacion, por ejemplo, usando circligasa. Los fragmentos cortos de acido nucleico frpicamente se pueden circularizar con una eficacia superior a los fragmentos largos. Las secuencias no circularizadas se pueden separar de las secuencias circularizadas, y los fragmentos cortos enriquecidos se pueden usar para un analisis posterior.
Obtencion de las lecturas de secuencia
Los acidos nucleicos (por ejemplo, fragmentos de acido nucleico, acido nucleico de la muestra, acido nucleico libre de celulas) se pueden secuenciar. En algunos casos, se obtiene una secuencia completa o sustancialmente completa y algunas veces se obtiene una secuencia parcial. La secuenciacion, el mapeo y los metodos analfticos relacionados son conocidos en la tecnica (por ejemplo, la publicacion de solicitud de patente U. S. N.° US2009/0029377). A continuacion se describen ciertos aspectos de tales procesos.
Como se usa en la presente, las “lecturas” (es decir, “una lectura”, “una lectura de secuencia”) son secuencias de nucleotidos cortas producidas por cualquier proceso de secuenciacion descrito en la presente o conocido en la tecnica. Las lecturas se pueden generar a partir de un extremo de fragmentos de acido nucleico (“lecturas de extremo unico”) y algunas veces se generan a partir de ambos extremos de acidos nucleicos (por ejemplo, lecturas de pares de extremos, lecturas de doble extremo).
La longitud nominal, promedio, media o absoluta de las lecturas de extremo unico algunas veces pueden ser aproximadamente 20 nucleotidos contiguos a aproximadamente 50 nucleotidos contiguos, algunas veces
5
10
15
20
25
30
35
40
45
50
55
60
aproximadamente 30 nucleotidos contiguos a aproximadamente 40 nucleotidos contiguos, y algunas veces aproximadamente 35 nucleotidos contiguos o aproximadamente 36 nucleotidos contiguos. Algunas veces la longitud nominal, promedio, media o absoluta de las lecturas de extremo unico es aproximadamente 20 a aproximadamente 30 bases de longitud. Algunas veces la longitud nominal, promedio, media o absoluta de las lecturas de extremo unico es aproximadamente 24 a aproximadamente 28 bases de longitud. Algunas veces la longitud nominal, promedio, media o absoluta de las lecturas de extremo unico es aproximadamente 21,22, 23, 24, 25, 26, 27, 28 o aproximadamente 29 bases de longitud.
La longitud nominal, promedio, media o absoluta de las lecturas de extremos apareados algunas veces puede ser de aproximadamente 10 nucleotidos contiguos a aproximadamente 25 nucleotidos contiguos (por ejemplo, aproximadamente 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23 o 24 nucleotidos de longitud), algunas veces puede ser aproximadamente 15 nucleotidos contiguos a aproximadamente 20 nucleotidos contiguos, y algunas veces puede ser aproximadamente 17 nucleotidos contiguos o aproximadamente 18 nucleotidos contiguos.
Las lecturas son generalmente representaciones de secuencias de nucleotidos en un acido nucleico ffsico. Por ejemplo, en una lectura que contiene una representacion ATGC de una secuencia, “A” representa un nucleotido adenina, “T” representa un nucleotido timina, “G” representa un nucleotido guanina y “C” representa un nucleotido citosina, en un acido nucleico ffsico. Las lecturas de secuencias obtenidas de la sangre de una mujer embarazada pueden ser lecturas de una mezcla de acido nucleico fetal y materno. Una mezcla de lecturas relativamente cortas se puede transformar mediante los procesos descritos en la presente en una representacion de un acido nucleico genomico presente en la mujer embarazada y/o en el feto. Una mezcla de lecturas relativamente cortas se puede transformar por ejemplo en una representacion de una variacion del numero de copias (por ejemplo, una variacion del numero de copias materna y/o fetal), variacion genetica o una aneuploidfa. Las lecturas de una mezcla de acido nucleico materno y fetal se pueden transformar en una representacion de un cromosoma compuesto o un segmento de este que comprende caractensticas de uno o ambos cromosomas materno y fetal. La “obtencion” de lecturas de secuencias de acido nucleico de una muestra de un sujeto y/o la “obtencion” de lecturas de secuencias de acido nucleico de una muestra biologica de una o mas personas de referencia puede implicar la secuenciacion directa de acido nucleico para obtener la informacion de secuencia. La “obtencion” puede implicar recibir informacion de secuencia obtenida directamente de un acido nucleico por otro.
Las lecturas de secuencias se pueden mapear y el mapeo del numero de lecturas o marcas de secuencias en una region de acido nucleico especificada (por ejemplo, un cromosoma, un bin, una seccion genomica) se denominan recuentos. Los recuentos se pueden manipular o transformar (por ejemplo, normalizar, combinar, anadir, filtrar, seleccionar, promediar, derivar como una media, similares o una combinacion de estos). Los recuentos se pueden transformar para producir recuentos normalizados. Los recuentos normalizados para secciones genomicas multiples se pueden proporcionar en un perfil (por ejemplo, un perfil genomico, un perfil cromosomico, un perfil de un segmento
0 porcion de un cromosoma). Una o mas elevaciones diferentes en un perfil tambien se pueden manipular o transformar (por ejemplo, los recuentos asociados con elevaciones se pueden normalizar) y se pueden ajustar las elevaciones.
Una muestra de acido nucleico de un individuo se puede secuenciar. Las muestras de acido nucleico de dos o mas muestras biologicas, donde cada muestra biologica es de un individuo o dos o mas individuos, se puede mezclar y la mezcla se puede secuenciar. En el ultimo ejemplo, una muestra de acido nucleico de cada muestra biologica a menudo puede ser identificada por una o mas marcas de identificacion unicas..
Una fraccion del genoma se puede secuenciar, que algunas veces se expresa en la cantidad del genoma cubierto por las determinadas secuencias de nucleotidos (por ejemplo, “veces” de cobertura menor de 1). Cuando un genoma se secuencia con aproximadamente 1 vez de cobertura, aproximadamente 100% de la secuencia de nucleotidos del genoma esta representada por las lecturas. Un genoma tambien se secuencia con redundancia, donde una region determinada del genoma puede estar cubierta por dos o mas lecturas o lecturas superpuestas (por ejemplo, “veces” de cobertura mayor de 1). Un genoma se puede secuenciar con aproximadamente 0,1 vez a aproximadamente 100-veces de cobertura, aproximadamente 0,2 veces a 20 veces de cobertura, o aproximadamente 0,2 veces a aproximadamente
1 vez de cobertura (por ejemplo, aproximadamente 0,2-, 0,3-, 0,4-, 0,5-, 0,6-, 0,7-, 0,8-, 0,9-, 1-, 2-, 3-, 4-, 5-, 6-, 7-, 8-, 9-, 10-, 15-, 20-, 30-, 40-, 50-, 60-, 70-, 80-, 90 veces de cobertura).
Una fraccion de una mezcla de acidos nucleicos que esta secuenciado en una corrida tambien se puede subseleccionar adicionalmente antes de la secuenciacion. Las tecnicas basadas en la hibridacion (por ejemplo, usando matrices de oligonucleotidos) se pueden usar para seleccionar primero las secuencias de acidos nucleicos de ciertos cromosomas (por ejemplo, cromosomas sexuales y/o un cromosoma potencialmente aneuploides y otros cromosomas no implicados en la aneuploidfa analizada). El acido nucleico se puede fraccionar por tamano (por ejemplo, por electroforesis en gel, cromatograffa de exclusion por tamanos o por enfoque basado en microflmdica) y en ciertos casos, el acido nucleico fetal se puede enriquecer mediante la seleccion de acido nucleico que tiene un peso molecular inferior (por ejemplo, menor que 300 pares de bases, menor de 200 pares de bases, menor de 150 pares de bases, menor de 100 pares de bases). El acido nucleico fetal se puede enriquecer mediante la supresion del acido nucleico umbral materno, tal como mediante la adicion de formaldetffdo. Una porcion o subconjunto de una mezcla preseleccionada de acidos nucleicos se puede secuenciar aleatoriamente. El acido nucleico se puede amplificar antes de la secuenciacion. Una porcion o subconjunto del acido nucleico se puede amplificar antes de la secuenciacion.
5
10
15
20
25
30
35
40
45
50
55
60
En algunos casos, se prepara una biblioteca de secuenciacion antes o durante un proceso de secuenciacion. Los metodos para preparar una biblioteca de secuenciacion son conocidos en la tecnica y se pueden utilizar plataformas disponibles en el comercio para ciertas aplicaciones. Ciertas plataformas de biblioteca disponibles en el comercio pueden ser compatibles con ciertos procesos de secuenciacion de nucleotidos descritos en la presente. Por ejemplo, una o mas plataformas de biblioteca disponibles en el comercio pueden ser compatibles con una secuenciacion por proceso de smtesis. En algunos casos, se usa un metodo de preparacion de biblioteca basado en la ligacion (por ejemplo, ILLUMINA TRUSEQ, lllumina, San Diego CA). Los metodos de preparacion de bibliotecas basados en ligacion usan tipicamente un diseno de adaptador metilado que puede incorporar una secuencia de mdice en la etapa de ligacion inicial y, a menudo, se puede usar para preparar muestras para secuenciacion de lectura unica, secuenciacion de pares y secuenciacion multiplexada. En algunos casos, se utiliza un metodo de preparacion de biblioteca basado en transposon (por ejemplo, EPICENTER NEXTERA, Epicenter, Madison Wl). Los metodos basados en transposon usan tfpicamente la transposicion in vitro para fragmentar y marcar simultaneamente el ADN en una reaccion de tubo unico (lo que permite con frecuencia la incorporacion de marcas espedficas de plataforma y codigos de barras opcionales) y preparar bibliotecas listas para el secuenciador.
Se puede utilizar cualquier metodo de secuenciacion adecuado para llevar a cabo metodos descritos en la presente. Se puede usar un metodo de secuenciacion de alto rendimiento. Los metodos de secuenciacion de alto rendimiento generalmente implican moldes de ADN amplificados clonalmente o moleculas de ADN individuales que se secuencian de una manera masiva paralela dentro de una celda de flujo (por ejemplo, como se describe en Metzker M Nature Rev 11:31-46 (2010); Volkerding et al. Clin.Chem. 55:641-658 (2009)). Tales metodos de secuenciacion tambien pueden proporcionar informacion cuantitativa digital, donde cada lectura de secuencias es una “marca de secuencia” o “recuento” que representa un molde ADN clonal individual, una molecula de ADN unica, un bin o un cromosoma. Las tecnicas de secuenciacion de siguiente generacion capaces de secuenciar el ADN de manera masiva paralela se denominan colectivamente en la presente como “secuenciacion masiva paralela” (MPS). Las tecnologfas de secuenciacion de alto rendimiento incluyen, por ejemplo, secuenciacion por smtesis con terminadores de colorantes reversibles, secuenciacion mediante ligacion de sonda oligonucleotfdica, pirosecuenciacion y secuenciacion en tiempo real. Los ejemplos no limitantes de MPS incluyen secuenciacion masiva paralela de motivo distintivo (MPSS), secuenciacion de Polony, pirosecuenciacion, secuenciacion de lllumina (Solexa), secuenciacion SOLiD, secuenciacion de semiconductores de iones, secuenciacion de nanoesferas de ADN, secuenciacion de moleculas individuales de Helioscope, secuenciacion en tiempo real de molecula unica (SMRT), secuenciacion nanoporos, secuenciacion de ION Torrent y ARN polimerasa (RNAP).
Los sistemas utilizados para los metodos de secuenciacion de alto rendimiento estan disponibles en el comercio e incluyen, por ejemplo, la plataforma Roche 454, la plataforma SOLID de Applied Biosystems, la tecnologfa de secuenciacion de ADN de molecula unica verdadera Helicos, la plataforma de secuenciacion por hibridacion de Affymetrix Inc., la tecnologfa en tiempo real, de molecula unica (SMRT) de Pacific Biosciences, las plataformas de secuenciacion por smtesis de 454 Life Sciences, Illumina/Solexa y Helicos Biosciences, y la plataforma de secuenciacion por ligacion de Applied Biosystems. La tecnologfa ION TORRENT de Life Technologies y la secuenciacion por nanoporo tambien se pueden usar en enfoques de secuenciacion de alto rendimiento.
Por ejemplo, la tecnologfa de primera generacion, tal como, por ejemplo, la secuenciacion de Sanger que incluye la secuenciacion automatizada de Sanger, se puede usar en un metodo proporcionado en la presente. Tambien se contemplan en la presente tecnologfas de secuenciacion adicionales que incluyen el uso de tecnologfas de formacion de imagenes de acido nucleico en desarrollo (por ejemplo, microscopfa electronica de transmision (TEM) y microscopfa de fuerza atomica (AFM)). A continuacion se describen ejemplos de varias tecnologfas de secuenciacion.
Una tecnologfa de secuenciacion de acidos nucleicos que se puede usar en un metodo descrito en la presente es la secuenciacion por smtesis y la secuenciacion basada en terminador reversible (por ejemplo, Analizador de genoma de Illumina, Analizador de genoma II, HISEQ 2000, HISEQ 2500 (lllumina, San Diego CA)). Con esta tecnologfa, se pueden secuenciar en paralelo millones de fragmentos de acido nucleico (por ejemplo, ADN). En un ejemplo de este tipo de tecnologfa de secuenciacion, se usa una celda de flujo que contiene una diapositiva opticamente transparente con 8 carriles individuales en las superficies de los cuales se unen anclajes de oligonucleotidos (por ejemplo, cebadores adaptadores). Una celda de flujo a menudo es un soporte solido que se puede configurar para retener y/o permitir el paso ordenado de soluciones reactivas a traves de analitos unidos. Las celdas de flujo frecuentemente son de forma plana, opticamente transparentes, generalmente en la escala milimetrica o submilimetrica y a menudo tienen canales o carriles en los que se produce la interaccion analito/reactivo.
En cierta secuenciacion mediante procedimientos de smtesis, por ejemplo, el ADN molde (por ejemplo, ADN libre de celulas circulantes (ccfADN)) algunas veces se puede fragmentar en longitudes de varios cientos de pares de bases en preparacion para la generacion de bibliotecas. La preparacion de la biblioteca se puede realizar sin adicional fragmentacion o seleccion de tamano del ADN molde (por ejemplo, ccfADN). El aislamiento de la muestra y la generacion de bibliotecas se pueden realizar utilizando metodos y aparatos automatizados. Brevemente, el ADN molde se repara en el extremo mediante una reaccion de relleno, reaccion de exonucleasa o una combinacion de una reaccion de relleno y reaccion de exonucleasa. El ADN de molde reparado en los extremos romos resultante se extiende en un unico nucleotido, que es complementario con una proyeccion de nucleotido unico en el extremo 3' de un cebador adaptador, y a menudo aumenta la eficacia de ligacion. Se pueden usar nucleotidos complementarios para los nucleotidos de extension/proyeccion (por ejemplo, A/T, C/G), sin embargo, la adenina se usa frecuentemente para
5
10
15
20
25
30
35
40
45
50
55
60
extender el ADN reparado en el extremo, y la timina se usa a menudo como el nucleotido de la proyeccion del extremo 3'.
En cierta secuenciacion por procedimientos de smtesis, por ejemplo, los oligonucleotidos adaptadores son complementarios con los anclajes de las celdas de flujo, y algunas veces se utilizan para asociar el ADN molde modificado (por ejemplo, reparado en el extremo y extendido con nucleotido unico) con un soporte solido, tal como por ejemplo, la superficie interior de una celda de flujo. El adaptador tambien puede incluir identificadores (es decir, nucleotidos de indexacion o nucleotidos de “codigo de barras” (por ejemplo, una secuencia unica de nucleotidos utilizable como identificador para permitir la identificacion inequvoca de una muestra y/o cromosoma)), uno o mas sitios de hibridacion de cebadores secuenciadores (por ejemplo, secuencias complementarias con los cebadores de secuenciacion universal, cebadores de secuenciacion de extremo unico, cebadores de secuenciacion de extremo apareados, cebadores de secuenciacion multiplexados y similares), o combinaciones de estos (por ejemplo, adaptador/secuenciacion, adaptador/identificador, adaptador/identificador/secuenciacion). Los identificadores o nucleotidos contenidos en un adaptador a menudo tienen seis o mas nucleotidos de longitud y frecuentemente se ubican en el adaptador de tal manera que los nucleotidos identificadores son los primeros nucleotidos secuenciados durante la reaccion de secuenciacion. Los nucleotidos identificadores pueden estar asociados con una muestra pero se secuencian en una reaccion de secuenciacion separada para evitar comprometer la calidad de las lecturas de secuencia. Posteriormente, las lecturas de la secuenciacion del identificador y la secuenciacion del molde de ADN se ligan entre sf y las lecturas se multiplexan. Despues de ligar y desmultiplexar las lecturas y/o identificadores de secuencia se pueden ajustar o procesar adicionalmente como se describe en la presente.
En cierta secuenciacion mediante procedimientos de smtesis, la utilizacion de identificadores permite multiplexar las reacciones de secuencia en un carril de la celda de flujo, de este modo se permite el analisis de multiples muestras por carril de la celda de flujo. El numero de muestras que se pueden analizar en un carril de la celda de flujo dado a menudo depende del numero de identificadores unicos utilizados durante la preparacion de la biblioteca y/o el diseno de la sonda. Los ejemplos no limitantes de los kits de secuenciacion multiplex comercialmente disponibles incluyen el kit de oligonucleotidos de preparacion de muestras de multiplexacion de lllumina y los cebadores de secuenciacion de multiplexacion y el kit de control PhiX (por ejemplo, los numeros de catalogo de lllumina PE-400-1001 y PE-400-1002, respectivamente). Un metodo descrito en la presente se puede realizar usando cualquier numero de identificadores unicos (por ejemplo, 4, 8, 12, 24, 48, 96 o mas). Cuanto mayor es el numero de identificadores unicos, mayor es el numero de muestras y/o cromosomas, por ejemplo, que se pueden multiplexar en un carril unico de la celda de flujo. La multiplexacion que usa 12 identificadores, por ejemplo, permite el analisis simultaneo de 96 muestras (por ejemplo, igual al numero de pocillos en una placa de micropocillos de 96 pocillos) en una celda de flujo de 8 carriles. De forma similar, la multiplexacion que usa 48 identificadores, por ejemplo, permite el analisis simultaneo de 384 muestras (por ejemplo, igual al numero de pocillos en una placa de micropocillos de 384 pocillos) en una celda de flujo de 8 carriles.
En cierta secuenciacion mediante procedimientos de smtesis, se anade ADN molde de cadena simple modificad por adaptador a la celda de flujo y se inmoviliza mediante hibridacion con los anclajes en condiciones de dilucion limitante. En contraste con la PCR en emulsion, los moldes de ADN se amplifican en la celda de flujo mediante amplificacion “puente”, que se basa en cadenas de ADN capturadas que se “arquean” por encima y se hibridan con un oligonucleotido de anclaje adyacente. Multiples ciclos de amplificacion convierten el molde de ADN de molecula unica en un “cluster” arqueado amplificado clonalmente, cada cluster contiene aproximadamente 1000 moleculas clonales. Se pueden generar aproximadamente 50 x 106 cluster separados por celda de flujo. Para la secuenciacion, los clusters se desnaturalizan, y una reaccion subsiguiente de escision qrnmica y lavado deja solo cadenas delanteras para la secuenciacion de extremo unico. La secuenciacion de las cadenas delanteras se inicia mediante la hibridacion de un cebador complementario con las secuencias adaptadoras, lo cual es seguido por la adicion de polimerasa y una mezcla de cuatro terminadores de colorantes reversibles fluorescentes de color diferente. Los terminadores se incorporan de acuerdo con la complementariedad de secuencia en cada cadena de un grupo clonal. Despues de la incorporacion, los reactivos en exceso se eliminan por lavado, los clusteres se interrogan opticamente y se registra la fluorescencia. Con sucesivas etapas qrnmicas, los terminadores de colorante reversibles se desbloquean, las marcas fluorescentes se escinden y se lavan, y se realiza el siguiente ciclo de secuenciacion. Este proceso iterativo de secuenciacion por smtesis algunas veces requiere aproximadamente 2,5 dfas para generar longitudes de lectura de 36 bases. Con 50 x 106 clusters por celda de flujo, la salida de secuencia total puede ser superior a 1 billon de pares de bases (Gb) por corrida analttica.
Otra tecnologfa de secuenciacion de acidos nucleicos que se puede usar con un metodo descrito en la presente invencion es la secuenciacion 454 (Roche). La secuenciacion 454 utiliza un sistema de pirosecuenciacion paralelo a gran escala capaz de secuenciar aproximadamente 400-600 megabases de ADN por corrida. El proceso tfpicamente implica dos etapas. En la primera etapa, el acido nucleico de la muestra (por ejemplo ADN) algunas veces se fracciona en fragmentos mas pequenos (300-800 pares de bases) y se pulen (se hacen romos en cada extremo). Los adaptadores cortos luego se ligan sobre los extremos de los fragmentos. Estos adaptadores proporcionan secuencias de cebado tanto para la amplificacion como para la secuenciacion de los fragmentos de la biblioteca de muestras. Un adaptador (Adaptador B) contiene una marca de 5'-biotina para la inmovilizacion de la biblioteca de ADN sobre microesferas recubiertas con estreptavidina. Despues de la reparacion de la mella, la cadena no se biotinila se libera y se usa como una biblioteca de ADN molde de cadena unica (ADNsst). La biblioteca de ADNsst se evalua por su calidad y la cantidad optima (copias de ADN por microesfera) necesaria para emPCR se determina por titulacion. La biblioteca ADNsst se inmoviliza sobre microesferas. Las microesferas que contienen un fragmento de biblioteca llevan
5
10
15
20
25
30
35
40
45
50
55
60
una molecula ADNsst unica. La biblioteca unida a microesferas se emulsiona con los reactivos de amplificacion en una mezcla de agua en aceite. Cada microesfera se captura dentro de su propio microrreactor donde se produce la amplificacion por PCR. Esto produce fragmentos de ADN amplificados clonalmente inmovilizados con microesferas.
En la segunda etapa de secuenciacion 454, se anaden microesferas de biblioteca de ADN de molde de cadena simple a una mezcla de incubacion que contiene ADN polimerasa y se superponen con microesferas que contienen sulfurilasa y luciferasa sobre un dispositivo que contiene pocillos de tamano pico-litro. La pirosecuenciacion se realiza en cada fragmento de ADN en paralelo. La adicion de uno o mas nucleotidos genera una senal luminosa que es grabada por una camara CCD en un instrumento de secuenciacion. La intensidad de la senal es proporcional al numero de nucleotidos incorporados. La pirosecuenciacion aprovecha la liberacion de pirofosfato (PPi) despues de la adicion de nucleotidos. PPi se convierte en ATP por ATP sulfurilasa en presencia de adenosina 5'fosfosulfato. La luciferina utiliza ATP para convertir la luciferina en oxiluciferina, y esta reaccion genera luz que se diferencia y analiza (ver, por ejemplo, Margulies, M. et al., Nature 437: 376-380 (2005)).
Otra tecnologfa de secuenciacion de acidos nucleicos que se puede usar en un metodo proporcionado en la presente es la tecnologfa SOLiD™ de Applied Biosystems. En secuenciacion por ligacion SOLiD™, se prepara una biblioteca de fragmentos de acido nucleico a partir de la muestra y se utiliza para preparar poblaciones clonales de microesferas. Con este metodo, una especie de fragmento de acido nucleico estara presente en la superficie de cada microesfera (por ejemplo, microesfera magnetica). El acido nucleico de la muestra (por ejemplo, ADN genomico) se corta en fragmentos, y los adaptadores se unen posteriormente a los extremos 5 'y 3' de los fragmentos para generar una biblioteca de fragmentos.
Los adaptadores son tipicamente secuencias del adaptador universales de modo que la secuencia de inicio de cada fragmento es conocida e identica. La PCR en emulsion tiene lugar en microrreactores que contienen todos los reactivos necesarios para la PCR. Los productos de PCR resultantes unidos a las microesferas se unen covalentemente a un portaobjetos de vidrio. Los cebadores luego se hibridan con la secuencia del adaptador dentro del molde la biblioteca. Un conjunto de cuatro sondas di-base marcadas fluorescentemente compiten por la ligacion al cebador de secuenciacion. La especificidad de la sonda de di-base se logra mediante la interrogacion de cada 1ra. y 2da. base en cada reaccion de ligacion. Se realizan multiples ciclos de ligacion, deteccion y escision con el numero de ciclos que determinan la longitud de lectura final. Despues de una serie de ciclos de ligacion, el producto de extension se retira y el molde se reajusta con un cebador complementario a la posicion n-1 para una segunda ronda de ciclos de ligacion. A menudo, se completan cinco rondas de reajuste de cebadores para cada marca de secuencia. A traves del proceso de reajuste del cebador, cada base es interrogada en dos reacciones de ligacion independientes por dos cebadores diferentes. Por ejemplo, la base en la posicion de lectura 5 se analiza mediante el cebador numero 2 en el ciclo de ligacion 2 y por el cebador numero 3 en el ciclo de ligacion 1.
Otra tecnologfa de secuenciacion de acido nucleico que se puede usar en un metodo descrito en la presente es la secuencia de molecula unica verdadera Helicos (tSMS). En la tecnica de tSMS, se anade una secuencia poliA al extremo 3 'de cada cadena de acido nucleico (por ejemplo, ADN) de la muestra. Cada cadena se marca mediante la adicion de un nucleotido de adenosina marcado fluorescentemente. Las cadenas de ADN luego se hibridan en una celda de flujo, que contiene millones de sitios de captura de oligo-T que se inmovilizan en la superficie de la celda de flujo. Los moldes pueden tener una densidad de aproximadamente 100 millones de moldes/ cm2. La celda de flujo se carga a continuacion en un aparato de secuenciacion y un laser ilumina la superficie de la celda de flujo, revelando la posicion de cada molde. Una camara CCD puede mapear la posicion de los moldes en la superficie de la celda de flujo. La marca fluorescente del molde se escinde y se elimina por lavado. La reaccion de secuenciacion comienza mediante la introduccion de una ADN polimerasa y un nucleotido marcado fluorescentemente. El acido nucleico oligo-T sirve como cebador. La polimerasa incorpora los nucleotidos marcados al cebador en una forma dirigida por molde. La polimerasa y los nucleotidos no incorporados se eliminan. Los moldes que han dirigido la incorporacion del nucleotido marcado fluorescentemente se detectan mediante la formacion de imagenes de la superficie de la celda de flujo. Despues de la formacion de imagenes, una etapa de escision elimina la marca fluorescente, y el proceso se repite con otros nucleotidos marcados fluorescentemente hasta que se alcanza la longitud de lectura deseada. La informacion de secuencia se recolecta con cada etapa de adicion de nucleotidos (ver, por ejemplo, Harris T. D. et al., Science 320:106-109 (2008)).
Otra tecnologfa de secuenciacion de acidos nucleicos que se puede usar en un metodo proporcionado en la presente es la tecnologfa de secuenciacion de molecula unica, en tiempo real (SMRT™) de Pacific Biosciences. Con este metodo, cada una de las cuatro bases de ADN se une a uno de cuatro colorantes fluorescentes diferentes. Estos colorantes estan fosfoligados. Una ADN polimerasa unica se inmoviliza con una molecula unica de ADN de cadena simple de molde en el fondo de una grna de onda de modo cero (ZMW). Una ZMW es una estructura de confinamiento que permite la observacion de la incorporacion de un nucleotido unico por la ADN polimerasa contra el fondo de los nucleotidos fluorescentes que se difunden rapidamente en y fuera de una ZMW (en microsegundos). Se necesitan varios milisegundos para incorporar un nucleotido en una cadena en crecimiento. Durante este tiempo, la marca fluorescente se excita y produce una senal fluorescente, y la marca fluorescente se escinde. La deteccion de la fluorescencia correspondiente del colorante indica que base se incorporo. El proceso luego se repite
Otra tecnologfa de secuenciacion de acidos nucleicos que se puede usar en un metodo descrito en la presente es la secuenciacion de molecula unica de ION TORRENT (Life Technologies) que combina la tecnologfa de
5
10
15
20
25
30
35
40
45
50
55
60
semiconductores con una qmmica de secuenciacion simple para traducir directamente informacion codificada qmmicamente (A, C, G, T) en digital Informacion (0, 1) sobre un chip semiconductor. ION TORRENT utiliza una matriz de alta densidad de pozos micromecanizados para realizar la secuenciacion de acidos nucleicos de una manera masiva paralela. Cada pocillo contiene una molecula de ADN diferente. Debajo de los pocillos hay una capa sensible a los iones y por debajo de ella un sensor de iones. Normalmente, cuando un nucleotido se incorpora en una cadena de ADN mediante una polimerasa, se libera un ion de hidrogeno como subproducto. Si un nucleotido, por ejemplo un C, se anade a un molde de ADN y luego se incorpora en una cadena de ADN, se liberara un ion de hidrogeno. La carga de ese ion cambiara el pH de la solucion, lo que se puede detectar mediante un sensor de iones. Un secuenciador puede designar la base, pasando directamente de informacion qmmica a informacion digital. El secuenciador entonces inunda secuencialmente el chip con un nucleotido tras otro. Si el siguiente nucleotido que inunda el chip no es una coincidencia no se registrara ningun cambio de voltaje y no se identificara ninguna base. Si hay dos bases identicas en la cadena de ADN, el voltaje sera doble, y el chip registrara dos bases identicas identificadas. Debido a que esto es deteccion directa (es decir, deteccion sin escaneado, camaras o luz), cada incorporacion de nucleotidos se registra en segundos.
Otra tecnologfa de secuenciacion de acido nucleico que se puede usar en un metodo descrito en la presente es la matriz de transistores de efecto de campo sensible a los agentes qmmicos (CHEMFET). En un ejemplo de esta tecnica de secuenciacion, las moleculas de ADN se colocan en camaras de reaccion, y las moleculas molde se pueden hibridar con un cebador de secuenciacion unido a una polimerasa. La incorporacion de uno o mas trifosfatos en una nueva cadena de acido nucleico en el extremo 3' del cebador de secuenciacion se puede detectar mediante un cambio en la corriente por un sensor CHEMFET. Una matriz puede tener multiples sensores CHEMFET. En otro ejemplo, se unen acidos nucleicos unicos a microesferas y los acidos nucleicos se puede amplificar en la microesfera y las microesferas individuales se pueden transferir a camaras de reaccion individuales en una matriz CHEMFET, cada camara tiene un sensor CHEMFET, y los acido nucleicos se pueden secuenciar (ver, por ejemplo, la publicacion de solicitud de patente U. S. N.° 2009/0026082).
Otra tecnologfa de secuenciacion de acidos nucleicos que se puede usar en un metodo descrito en la presente es la microscopfa electronica. En un ejemplo de esta tecnica de secuenciacion, las moleculas individuales de acido nucleico (por ejemplo, ADN) se marcan usando marcas metalicas que se distinguen usando un microscopio electronico. Estas moleculas luego se extienden sobre una superficie plana y se forman imagenes utilizando un microscopio electronico para medir las secuencias (ver, por ejemplo, Moudrianakis E. N. y Beer M. Proc Natl Acad Sci U. S. 1965 March; 53:564-71). En algunos casos, se utiliza microscopfa electronica de transmision (TEM) (por ejemplo, el metodo TEM de Halcyon Molecular). Este metodo, denominado Nanotransferencia rapida de colocacion de moleculas individuales (IMPRNT), incluye el uso de imagenes de microscopio electronico de transmision de resolucion de atomo unico de ADN de alto peso molecular (por ejemplo aproximadamente 150 kb o mas) marcado selectivamente con marcadores de atomos pesados y la disposicion de estas moleculas en pelfculas ultrafinas en matrices paralelas ultra densas (3 nm de cadena a cadena) con un espaciamiento consistente de base a base. El microscopio electronico se utiliza para formar imagenes de las moleculas sobre las pelfculas para determinar la posicion de los marcadores de atomos pesados y extraer informacion de secuencias de bases del ADN (ver, por ejemplo, la Solicitud de Patente Internacional N.° WO 2009/046445).
Otros metodos de secuenciacion que se pueden usar para llevar a cabo los metodos de la presente invencion incluyen PCR digital y secuenciacion por hibridacion. La reaccion digital en cadena de la polimerasa (PCR digital o dPCR) se puede usar para identificar y cuantificar directamente los acidos nucleicos en una muestra. La PCR digital se puede realizar en una emulsion. Por ejemplo, los acidos nucleicos individuales se separan, por ejemplo, en un dispositivo de camara microflmdica, y cada acido nucleico se amplifica individualmente por PCR. Los acidos nucleicos se pueden separar de manera que no haya mas de un acido nucleico por pocillo. Se pueden usar diferentes sondas para distinguir varios alelos (por ejemplo, alelos fetales y alelos maternos). Los alelos se pueden enumerar para determinar el numero de copias. En la secuenciacion por hibridacion, el metodo implica poner en contacto una pluralidad de secuencias de polinucleotidos con una pluralidad de sondas polinucleotidicas, en donde cada una de la pluralidad de sondas polinucleotfdicas puede estar opcionalmente unida a un sustrato. El sustrato puede ser una superficie plana con una matriz de secuencias de nucleotidos conocidas, en algunas realizaciones. El patron de hibridacion en la matriz se puede usar para determinar las secuencias de polinucleotidos presentes en la muestra. Cada sonda se puede unir a una microesfera, por ejemplo, una microesfera magnetica o similar. La hibridacion en las microesferas se puede identificar y utilizar para identificar la pluralidad de secuencias de polinucleotidos dentro de la muestra.
La secuenciacion de nanoporos se puede usar en un metodo descrito en la presente. La secuenciacion de nanoporos es una tecnologfa de secuenciacion de molecula unica mediante la cual una molecula de acido nucleico unica (por ejemplo, ADN) se secuencia directamente a medida que pasa a traves de un nanoporo. Un nanoporo es un pequeno orificio o canal del orden de 1 nanometro de diametro. Ciertas protemas celulares de transmembrana pueden actuar como nanoporos (por ejemplo, alfa-hemolisina). En algunos casos, los nanoporos se pueden sintetizar (por ejemplo, usando una plataforma de silicio). La inmersion de un nanoporo en un fluido conductor y la aplicacion de un potencial a traves de el produce una corriente electrica leve debido a la conduccion de iones a traves del nanoporo. La cantidad de corriente que fluye es sensible al tamano del nanoporo. A medida que una molecula de ADN pasa a traves de un nanoporo, cada nucleotido en la molecula de ADN obstruye el nanoporo a un grado diferente y genera cambios caractensticos a la corriente. La cantidad de corriente que puede pasar a traves del nanoporo en cualquier momento dado, por lo tanto, vana de acuerdo con si el nanoporo esta bloqueado por un A, un G, un G, un T, o en algunos casos,
5
10
15
20
25
30
35
40
45
50
55
el metil-C. El cambio en la corriente a traves del nanoporo a medida que la molecula de ADN pasa a traves del nanoporo representa una lectura directa de la secuencia de ADN. En algunos casos, se puede usar un nanoporo para identificar bases de ADN individuales a medida que pasan a traves del nanoporo en el orden correcto (ver, por ejemplo, Soni GV and Meller A. Clin.Chem. 53: 1996-2001 (2007); Solicitud de patente internacional N.° WO 2010/004265).
Existen numerosas maneras en que los nanoporos se pueden utilizar para secuenciar moleculas de acido nucleico. Se puede usar una enzima exonucleasa, tal como una desoxirribonucleasa. En este caso, la enzima exonucleasa se utiliza para separar secuencialmente nucleotidos de una molecula de acido nucleico (por ejemplo, ADN). Los nucleotidos luego se detectan y discriminan mediante los nanoporos a fin de liberacion, de este modo se lee la secuencia de la cadena original. En tal caso, la enzima exonucleasa se puede unirse al nanoporo de modo que una proporcion de los nucleotidos liberados de la molecula de ADN sea capaz de entrar e interactuar con el canal del nanoporo. La exonucleasa se puede unir a la estructura de nanoporos en un sitio muy proximo a la parte del nanoporo que forma la abertura del canal. En algunos casos, la enzima exonucleasa se puede unir a la estructura del nanoporo de modo que su sitio de trayectoria de salida de nucleotidos este orientado hacia la parte del nanoporo que forma parte de la abertura.
La secuenciacion de nanoporos de acidos nucleicos puede implicar el uso de una enzima que empuja o tira de la molecula de acido nucleico (por ejemplo, ADN) a traves del poro. En este caso, la corriente ionica fluctua a medida que un nucleotido de la molecula de ADN pasa a traves del poro. Las fluctuaciones en la corriente son indicativas de la secuencia de ADN. Para este caso, la enzima se puede unir a la estructura del nanoporo de tal manera que sea capaz de empujar o tirar del acido nucleico blanco a traves del canal de un nanoporo sin interferir con el flujo de corriente ionica a traves del poro. La enzima se puede unir a la estructura del nanoporo en un sitio muy proximo a la parte de la estructura que forma parte de la abertura. La enzima se puede unir a la subunidad, por ejemplo, de manera que su sitio activo este orientado hacia la parte de la estructura que forma parte de la abertura.
La secuenciacion de nanoporos de acidos nucleicos implica la deteccion de bi-productos de polimerasa en proximidad cercana a un detector de nanoporos. En este caso, los fosfatos de nucleosidos (nucleotidos) estan marcados de manera que una especie marcada con fosfato se libera mediante la adicion de una polimerasa a la cadena nucleotidica y la especie marcada con fosfato es detectada por el poro. Normalmente, la especie de fosfato contiene una marca espedfica para cada nucleotido. A medida que se anaden secuencialmente nucleotidos a la cadena de acido nucleico, se detectan los bi-productos de la adicion de bases. El orden en el que se detectan las especies marcadas con fosfato se puede usar para determinar la secuencia de la cadena de acido nucleico.
La longitud de la lectura de la secuencia a menudo se asocia con la tecnologfa de secuenciacion particular. Los metodos de alto rendimiento, por ejemplo, proporcionan lecturas de secuencias que pueden variar de tamano de decenas a centenas de pares de bases (bp). La secuenciacion de nanoporos, por ejemplo, puede proporcionar lecturas de secuencias que pueden variar en tamano de decenas a centenas a miles de pares de bases. Las lecturas de secuencias puede ser de una media, mediana o promedio de longitud de aproximadamente 15 bp a 900 bp (por ejemplo aproximadamente 20 bp, aproximadamente 25 bp, aproximadamente 30 bp, aproximadamente 35 bp, aproximadamente 40 bp, aproximadamente 45 bp, aproximadamente 50 bp, aproximadamente 55 bp,
aproximadamente 60 bp, aproximadamente 65 bp, aproximadamente 70 bp, aproximadamente 75 bp,
aproximadamente 80 bp, aproximadamente 85 bp, aproximadamente 90 bp, aproximadamente 95 bp,
aproximadamente 100 bp, aproximadamente 110 bp, aproximadamente 120 bp, aproximadamente 130, aproximadamente 140 bp, aproximadamente 150 bp, aproximadamente 200 bp, aproximadamente 250 bp,
aproximadamente 300 bp, aproximadamente 350 bp, aproximadamente 400 bp, aproximadamente 450 bp, o aproximadamente 500 bp. Las lecturas de secuencias pueden ser una media, mediana o promedio de longitud de aproximadamente 1000 bp o mas.
Se puede realizar la secuenciacion espedfica del cromosoma. La secuenciacion espedfica del cromosoma se puede realizar usando DANSR (analisis digital de regiones seleccionadas). El analisis digital de las regiones seleccionadas permite la cuantificacion simultanea de cientos de loci por catenacion dependiente de ADNcf de dos espedficos de locus a traves de un “puente” oligo interviniente para formar un molde de PCR. La secuenciacion espedfica del cromosoma se puede realizar mediante la generacion de una biblioteca enriquecida en secuencias espedficas del cromosoma. Se pueden obtener lecturas de secuencias solo para un conjunto seleccionado de cromosomas. Se pueden obtener lecturas de secuencias solo para los cromosomas 21, 18 y 13. Se pueden obtener lecturas de secuencias solo para el cromosoma Y.
Los acidos nucleicos pueden incluir una senal fluorescente o informacion de marca de secuencia. La cuantificacion de la senal o marca se puede usar en una variedad de tecnicas tales como, por ejemplo, citometna de flujo, reaccion en cadena de la polimerasa cuantitativa (qPCR), electroforesis en gel, analisis de chips genicos, micromatriz, espectrometna de masas, analisis citofluorimetrico, microscopia de fluorescencia, microscopfa de barrido laser confocal, citometna de barrido laser, cromatograffa de afinidad, separacion manual en modo discontinuo, suspension de campo electrico, secuenciacion y combinacion de estos.
Modulo de secuenciacion
La secuenciacion y obtencion de lecturas de secuenciacion puede ser proporcionada por un modulo de secuenciacion
5
10
15
20
25
30
35
40
45
50
55
60
o por un aparato que comprende un modulo de secuenciacion. Un “modulo de recepcion de secuencia” como se usa en la presente es el mismo que un “modulo de secuenciacion”. Un aparato que comprende un modulo de secuenciacion puede ser cualquier aparato que determina la secuencia de un acido nucleico a partir de una tecnologfa de secuenciacion conocida en la tecnica. Un aparato que comprende un modulo de secuenciacion puede realizar una reaccion de secuenciacion conocida en la tecnica. Un modulo de secuenciacion generalmente proporciona una lectura de secuencias de acido nucleico de acuerdo con los datos de una reaccion de secuenciacion (por ejemplo, senales generadas de un aparato de secuenciacion). Se puede requerir un modulo de secuenciacion o aparato que comprende un modulo de secuenciacion para proporcionar lecturas de secuenciacion. Un modulo de secuenciacion puede recibir, obtener, acceder o recuperar lecturas de secuencias de otro modulo de secuenciacion, periferico de ordenador, operador, servidor, unidad de disco duro, aparato o de una fuente adecuada. Algunas veces un modulo de secuenciacion puede manipular lecturas de secuencia. Por ejemplo, un modulo de secuenciacion puede alinear, ensamblar, fragmentar, complementar, complementar en forma inversa, comprobar errores o corregir errores de la lecturas de secuencia. Un aparato que comprende un modulo de secuenciacion puede comprender al menos un procesador. Las lecturas de secuenciacion se pueden proporcionar mediante un aparato que incluye un procesador (por ejemplo, uno o mas procesadores), tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de secuenciacion. Las lecturas de secuenciacion se pueden proporcionar mediante un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un modulo de secuenciacion puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o una red de almacenamiento (por ejemplo, una nube)). Algunas veces, un modulo de secuenciacion reune, ensambla y/o recibe los datos y/o la informacion de otro modulo, aparato, periferico, componente o componente especializado (por ejemplo, un secuenciador). Las lecturas de secuenciacion se pueden proporcionar en un aparato que comprende uno o mas de los siguientes: una o mas celdas de flujo, una camara, un fotodetector, una celula fotoelectrica, componentes de manipulacion de lfquidos, una impresora, una pantalla (por ejemplo, un LED, LCT o CRT) y similares. A menudo, un modulo de secuenciacion recibe, reune y/o ensambla lecturas de secuencia.
Algunas veces un modulo de secuenciacion acepta y reune datos de entrada y/o informacion de un operador de un aparato. Por ejemplo, algunas veces un operador de un aparato proporciona instrucciones, una constante, un valor umbral, una formula o un valor predeterminado a un modulo. Algunas veces, un modulo de secuenciacion puede transformar los datos y/o la informacion que recibe en una secuencia de acido nucleico contigua. Una secuencia de acido nucleico proporcionada por un modulo de secuenciacion se puede imprimir o visualizar. Las lecturas de secuencias se pueden proporcionar mediante un modulo de secuenciacion y transferirse desde un modulo de secuenciacion a un aparato o un aparato que comprende cualquier periferico, componente o componente especializado adecuado. Se pueden proporcionar los datos y/o la informacion desde un modulo de secuenciacion a un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. En algunos casos, los datos y/o la informacion relacionada con las lecturas de secuencias se pueden transferir desde un modulo de secuenciacion a cualquier otro modulo adecuado. Un modulo de secuenciacion puede transferir lecturas de secuencias a un modulo de mapeo o modulo de recuento.
Lecturas de mapeo
El mapeo de las lecturas de la secuencia de nucleotidos (es decir, informacion de secuencia de un fragmento cuya posicion genomica ffsica es desconocida) se puede realizar de varias maneras, y a menudo comprende el alineamiento de las lecturas de secuencias obtenidas con una secuencia coincidente en un genoma de referencia (por ejemplo Li et Li et al., “Mapping short DNA sequencing reads and calling variants using mapping quality score”, Genome Res., 2008 Aug 19.). En este tipo de alineamientos, las lecturas de secuencias generalmente se alinean con una secuencia de referencia y las que se alinean se designan como “mapeadas” o un “arca de secuencia”.
En algunos casos, una lectura de secuencias mapeada se denomina como una “coincidencia” o “recuento”. Las lecturas de secuencias mapeadas se pueden agrupar de acuerdo con varios parametros y asignar a secciones genomicas particulares, las cuales se discuten con mas detalle a continuacion.
Como se usa en la presente, los terminos “alineado”, “alineacion” o “alineamiento” se refieren a dos o mas secuencias de acido nucleico que se pueden identificar como coincidencia (por ejemplo, identidad del 100%) o coincidencia parcial. Los alineamientos se pueden realizar manualmente o mediante un algoritmo de ordenador, que incluyen ejemplos como el programa de computacion Alineamiento local eficiente de datos de nucleotidos (ELAND), distribuido como parte de los conductos de Genomics Analysis de lllumina. El alineamiento de una lectura de secuencias puede ser una coincidencia de secuencia del 100%. En algunos casos, un alineamiento es menor que una coincidencia de secuencia del 100% (es decir, coincidencia no perfecta, coincidencia parcial, alineamiento parcial). Un alineamiento puede ser de aproximadamente 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, 80%, 79%, 78%, 77%, 76% o 75% de coincidencia. Un alineamiento puede comprender un error de apareamiento. Un alineamiento puede comprender 1,2, 3, 4 o 5 errores de apareamiento. Dos o mas secuencias se pueden alinear usando cada cadena. En algunos casos una secuencia de acidos nucleicos se alinea con el complemento inverso de otra secuencia de acidos nucleicos.
Se pueden usar varios metodos computacionales para mapear cada lectura de secuencias en una seccion del genoma. Los ejemplos no limitativos de algoritmos informaticos que se pueden usar para alinear secuencias incluyen,
5
10
15
20
25
30
35
40
45
50
55
60
sin limitacion, BLAST, BLITZ, FASTA, BOWTIE 1, BOWTIE 2, ELAND, MAQ, PROBEMATCH, SOAP o SEQMAP, o sus variaciones o sus combinaciones. BOWTIE 1, por ejemplo, es un alineador de lectura corta orientado hacia la alineacion rapida de conjuntos grandes de lecturas de secuencias de acidos nucleicos cortos (por ejemplo, hasta aproximadamente 50 pares de bases de longitud) a genomas grandes de una manera eficiente de memoria. En algunos casos, BOWTIE 1 puede alinear 35 lecturas de pares de bases, por ejemplo, en un genoma humano a una tasa de 25 millones de lecturas por hora. BOWTIE 1 indexa tipicamente el genoma usando un mdice de Burrows-Wheeler para mantener su huella de memoria pequena. Para el genoma humano, el mdice tipicamente es de aproximadamente 2,2 GB (para alineamiento no apareado) o 2,9 GB (para alineamiento de extremo apareado o de colores). Se pueden usar multiples procesadores simultaneamente para una mayor velocidad de alineamiento. BOWTIE 1 tambien puede producir alineamientos en un formato estandar (por ejemplo, SAM), lo que permite que BOWTIE 1 interopere con otras herramientas que soportan SAM, incluyendo el consenso de SAMTOOLS, SNP y llamadores de indel. BOWTIE 2, por ejemplo, es un alineador de lectura corta similar a BOWTIE 1 con algunas diferencias. Por ejemplo, BOWTIE 2 puede incorporar alineamientos con brechas (por ejemplo, alineamientos que tienen uno o mas nucleotidos faltantes en la secuencia alineada y/o la secuencia de referencia) con un numero sin restricciones de espacios de alineamiento y longitudes de la brecha de alineamiento y con penalidades de brecha de alineamiento particulares mientras que BOWTIE 1 normalmente encuentra alineamientos sin brechas. BOWTIE 2 tambien soporta un modo de alineamiento local, que normalmente no requiere que las lecturas se alineen de extremo a extremo. Esto algunas veces produce alineamientos que se pueden recortar en uno o ambos extremos de una manera que optimiza el puntaje de alineamiento. BOWTIE 2 tambien soporta un modo de alineamiento de extremo a extremo que, al igual que BOWTIE 1, requiere que la lectura se alinee por completo. Ademas, tipicamente no hay lfmite superior en la longitud de lectura en BOWTIE 2 (BOWTIE 1 generalmente tiene un lfmite superior de alrededor de 1000 pb).
Las lecturas de secuencias pueden estar alineadas con las secuencias en un genoma de referencia. Las lecturas de secuencias se pueden hallar y/o alinear con secuencias en bases de datos de acidos nucleicos conocidas en la tecnica que incluyen, por ejemplo, GenBank, dbEST, dbSTS, EMBL (European Molecular Biology Laboratory) y DDBJ (DNA Databank of Japan). BLAST o herramientas similares se pueden usar para buscar las secuencias identificadas frente a una base de datos de secuencias. A continuacion, se pueden utilizar coincidencias de busqueda para clasificar por ejemplo, las secuencias identificadas en secciones genomicas apropiadas (descritas mas adelante).
La expresion “marca de secuencia” se usa en la presente indistintamente con la expresion “marca de secuencia mapeada” para referirse a una lectura de secuencias que se ha asignado espedficamente, es decir, mapeado, a una secuencia mas grande, por ejemplo, un genoma de referencia, por alineamiento. Las marcas de secuencia mapeadas se mapean unicamente a un genoma de referencia, es decir, se asignan a una ubicacion unica en el genoma de referencia. Las marcas que se pueden mapear a mas de una ubicacion en un genoma de referencia, es decir, las marcas que no se asignan unicamente, no se incluyen en el analisis. Una “marca de secuencia” puede ser una secuencia de acido nucleico (por ejemplo, ADN) (es decir, lectura) asignada espedficamente a una seccion genomica y/o cromosoma particular (es decir uno de los cromosomas 1-22, X o Y para un sujeto humano). Una marca de secuencia puede ser repetitiva o no repetitiva dentro de un segmento unico del genoma de referencia (por ejemplo, un cromosoma). Las marcas de secuencia repetitivas se pueden eliminar de analisis adicionales (por ejemplo, cuantificacion). Una lectura se puede mapear de forma unica o no unica a las porciones del genoma de referencia. Una lectura se considera “mapeada unicamente” si se alinea con una secuencia unica en el genoma de referencia. Una lectura se considera “mapeada no unicamente” si se alinea con dos o mas secuencias en el genoma de referencia. Las lecturas mapeadas no unicamente se pueden eliminar de un analisis adicional (por ejemplo, cuantificacion). Se puede permitir cierto grado de error de apareamiento pequeno (0-1) para dar cuenta de los polimorfismos de nucleotido unico que pueden existir entre el genoma de referencia y las lecturas de muestras individuales que se estan mapeando. No se permite ningun grado de error de apareamiento para que una lectura sea mapeada a una secuencia de referencia.
Como se usa en la presente, la expresion “genoma de referencia” se puede referir a cualquier genoma conocido particular, secuenciado o caracterizado, ya sea parcial o completo, de cualquier organismo o virus que se puede usar para hacer referencia a secuencias identificadas de un sujeto. Por ejemplo, un genoma de referencia usado para sujetos humanos, asf como muchos otros organismos se puede hallar en el Centro Nacional de Informacion de Biotecnologfa en
www.ncbi.nlm.nih.gov. Un “genoma” se refiere a la informacion genetica completa de un organismo o virus, expresada en secuencias de acidos nucleicos. Como se usa en la presente, una secuencia de referencia o genoma de referencia es a menudo una secuencia genomica ensamblada o parcialmente ensamblada de un individuo o multiples individuos. Un genoma de referencia puede ser una secuencia genomica ensamblada o parcialmente ensamblada de uno o mas individuos humanos. Un genoma de referencia puede comprender secuencias asignadas a cromosomas.
Cuando una muestra de acido nucleico procede de una mujer embarazada, una secuencia de referencia algunas veces no proviene del feto, de la madre del feto o del padre del feto, y se denomina en la presente “referencia externa”. Se puede preparar y usar una referencia materna. Cuando se prepara una referencia de la mujer embarazada (“secuencia de referencia materna”) basada en una referencia externa, las lecturas del ADN de la mujer embarazada que no contiene sustancialmente ADN fetal se mapean a menudo a la secuencia de referencia externa y se ensamblan. La referencia externa puede ser de ADN de un individuo que tiene sustancialmente la misma etnia que la mujer embarazada. Una secuencia de referencia materna puede no cubrir completamente el ADN genomico materno (por ejemplo, puede cubrir aproximadamente el 50%, 60%, 70%, 80%, 90% o mas del ADN genomico materno) y la
5
10
15
20
25
30
35
40
45
50
55
60
referencia materna puede no coincidir perfectamente con la secuencia de ADN genomico materna (por ejemplo, la secuencia de referencia materna puede incluir multiples errores de apareamiento).
En algunos casos, la capacidad de mapeo se evalua para una region genomica (por ejemplo, seccion genomica, porcion genomica, bin). La capacidad de mapeo es la capacidad de alinear inequvocamente una lectura de la secuencia de nucleotidos con una porcion de un genoma de referencia, tfpicamente hasta un numero de errores de apareamiento especificado, que incluyen, por ejemplo, 0, 1, 2 o mas errores de apareamiento, Para una region genomica dada, la capacidad de mapeo esperada se puede estimar usando un enfoque de ventana deslizante de una longitud de lectura preestablecida y promediando los valores de capacidad de mapeo del nivel de lectura resultantes. Las regiones genomicas que comprenden extensiones de secuencias de nucleotidos unicas algunas veces tienen un valor de capacidad de mapeo alto.
Modulo de mapeo
Las lecturas de secuencias se pueden mapear en un modulo de mapeo o mediante un aparato que comprende un modulo de mapeo, tal modulo de mapeo generalmente mapea las lecturas a un genoma de referencia o segmento de este. Un modulo de mapeo puede mapear lecturas de secuenciacion por un metodo adecuado conocido en la tecnica. Puede ser necesario un modulo de mapeo o un aparato que comprende un modulo de mapeo para proporcionar lecturas de secuencias mapeadas. Un aparato que comprende un modulo de mapeo puede comprender al menos un procesador. Las lecturas de secuenciacion mapeadas se pueden proporcionar mediante un aparato que incluye un procesador (por ejemplo, uno o mas procesadores), tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de mapeo. Las lecturas de secuenciacion se pueden mapear mediante un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un modulo de mapeo puede funcionar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o red de almacenamiento (por ejemplo, una nube)). Un aparato puede comprender un modulo de mapeo y un modulo de secuenciacion. Las lecturas de secuencias pueden ser mapeadas por un aparato que comprende uno o mas de los siguientes: una o mas celdas de flujo, una camara, componentes de manipulacion de fluido, una impresora, una pantalla (por ejemplo, un LED, LCT o CRT) y similares. Un modulo de mapeo puede recibir lecturas de secuencias de un modulo de secuenciacion. Las lecturas de secuencias mapeadas se pueden transferir de un modulo de mapeo a un modulo de recuento o a un modulo de normalizacion.
Secciones genomicas
Las lecturas de secuencias mapeadas (es decir, marcas de secuencia) se pueden agrupar de acuerdo con varios parametros y asignarse a secciones genomicas particulares. A menudo, las lecturas de secuencias mapeadas individuales se pueden usar para identificar una cantidad de una seccion genomica presente en una muestra. La cantidad de una seccion genomica puede ser indicativa de la cantidad de una secuencia mas grande (por ejemplo, un cromosoma) en la muestra. La expresion “seccion genomica” tambien se puede denominar en la presente “ventana de secuencia”, “seccion”, “bin”, “locus”, “region”, “particion” o “porcion”. Una seccion genomica puede ser un cromosoma entero, segmento de un cromosoma, segmento de un genoma de referencia, porciones multiples de cromosomas, cromosomas multiples, porciones de multiples cromosomas y/o combinaciones de estos. Algunas veces una seccion genomica esta predefinida en funcion de parametros espedficos. Algunas veces, una seccion genomica se define arbitrariamente sobre la base de la particion de un genoma (por ejemplo, particion por tamano, segmentos, regiones contiguas, regiones contiguas de un tamano arbitrariamente definido, y similares). En algunos casos, una seccion genomica se delinea sobre la base de uno o mas parametros que incluyen, por ejemplo, longitud o una caractenstica o caractensticas particulares de la secuencia. Las secciones genomicas se pueden seleccionar, filtrar y/o eliminar de la consideracion usando cualquier criterio adecuado conocido en la tecnica o descrito en la presente. Una seccion genomica puede estar basada en una longitud particular de la secuencia genomica..
Un metodo puede incluir el analisis de multiples lecturas de secuencias mapeadas a una pluralidad de secciones genomicas. Las secciones genomicas pueden ser aproximadamente de la misma longitud o las secciones genomicas pueden ser de longitudes diferentes. Algunas veces las secciones genomicas son de aproximadamente igual longitud. En algunos casos las secciones genomicas de diferentes longitudes se ajustan o ponderan. Una seccion genomica puede ser aproximadamente 10 kilobases (kb) a aproximadamente 100 kb, aproximadamente 20 kb a aproximadamente 80 kb, aproximadamente 30 kb a aproximadamente 70 kb, aproximadamente 40 kb a aproximadamente 60 kb, y algunas veces aproximadamente 50 kb. Una seccion genomica puede ser de aproximadamente 10 kb a aproximadamente 20 kb. Una seccion genomica no esta limitada a corridas contiguas de secuencia. En consecuencia, las secciones genomicas pueden estar compuestas de secuencias contiguas y/o no contiguas. Una seccion genomica no esta limitada a un cromosoma unico. Una seccion genomica puede incluir el total o parte de un cromosoma o el total o parte de dos o mas cromosomas. En algunos casos, las secciones genomicas pueden abarcar una, dos o mas cromosomas enteros. Ademas, Ademas, las secciones genomicas pueden abarcar porciones articuladas o desarticuladas de multiples cromosomas.
Las secciones genomicas pueden ser segmentos cromosomicos particulares en un cromosoma de interes, tales como, por ejemplo, cromosomas donde se evalua una variacion genetica (por ejemplo, una aneuploidfa de los cromosomas 13, 18 y/o 21 o un cromosoma sexual). Una seccion genomica tambien puede ser un genoma patogenico (por ejemplo,
5
10
15
20
25
30
35
40
45
50
55
60
bacteriano, fungico o viral) o fragmento de este. Las secciones genomicas pueden ser genes, fragmented de genes, secuencias reguladoras, intrones, exones y similares.
Un genoma (por ejemplo, genoma humano) se puede dividir en secciones genomicas basadas en el contenido de informacion de las regiones. Las regiones genomicas resultantes pueden contener secuencias para multiples cromosomas y/o pueden contener secuencias para porciones de multiples cromosomas. En algunos casos, la particion puede eliminar lugares similares a lo largo del genoma y solo mantener regiones unicas. Las regiones eliminadas pueden estar dentro de un cromosoma unico o pueden abarcar multiples cromosomas. Por lo tanto, el genoma resultante se recorta y optimiza para una alineacion mas rapida, lo que a menudo permite centrarse en secuencias unicas identificables. En algunos casos, la particion puede disminuir la ponderacion de regiones similares. El proceso para disminuir la ponderacion de una seccion genomica se discute con mas detalle a continuacion. La particion del genoma en regiones que trascienden los cromosomas se puede basar en la ganancia de informacion producida en el contexto de la clasificacion. Por ejemplo, el contenido de informacion se puede cuantificar usando el perfil de valor p que mide la importancia de localizaciones genomicas particulares para distinguir entre grupos de sujetos normales y anormales confirmados (por ejemplo, fetos femeninos y masculinos; sujetos euploides y con trisoirna, respectivamente). La particion del genoma en regiones que trascienden los cromosomas se puede basar en cualquier otro criterio, como por ejemplo velocidad/conveniencia durante el alineamiento de marcas, contenido de GC alto o bajo, uniformidad de contenido de GC, otras mediciones de contenido de secuencia (por ejemplo, fraccion de nucleotidos individuales, fraccion de pirimidinas o purinas, fraccion de acidos nucleicos naturales versus no naturales, fraccion de nucleotidos metilados y contenido de CpG), estado de metilacion, temperatura de fusion del duplex, facilidad de secuenciacion o PCR, valor de incertidumbre asignado a bins individuales, y/o una busqueda espedfica de caractensticas particulares.
Densidad de la marca de secuencia
“Densidad de la marca de secuencia” se refiere al valor normalizado de las marcas o lecturas de secuencias para una seccion genomica definida en la que se utiliza la densidad de la marca de secuencia para comparar diferentes muestras y para un analisis posterior. El valor de la densidad de la marca de secuencia se normaliza a menudo dentro de una muestra. La normalizacion se puede realizar mediante el recuento del numero de marcas que se hallan dentro de cada seccion genomica; la obtencion de un valor medio del numero total de marcas de secuencia para cada cromosoma; la obtencion de un valor medio de todos los valores autosomicos; y el uso de este valor como una constante de normalizacion para tener en cuenta las diferencias en el numero total de secuencias de marcas obtenidas para diferentes muestras. Una densidad de la marca de secuencia algunas veces es de aproximadamente 1 para un cromosoma disomico. Las densidades de las marcas de secuencia pueden variar de acuerdo con los artefactos de secuenciacion, mas notablemente el sesgo G/C, que se puede corregir mediante el uso de un estandar externo o una referencia interna (por ejemplo, derivado sustancialmente de todas las marcas de secuencia (secuencias genomicas) que puede ser, por ejemplo, un cromosoma unico o un valor calculado de todos los autosomas). Por lo tanto, el desequilibrio de dosificacion de un cromosoma o regiones cromosomicas se puede inferir a partir de la representacion porcentual del locus entre otras marcas secuenciadas mapeables de la muestra. El desequilibrio de dosificacion de un cromosoma o regiones cromosomicas particulares, por lo tanto, se puede determinar cuantitativamente y normalizarse. Los metodos para la normalizacion y cuantificacion de la densidad de la marca de secuencia se discuten con mas detalle a continuacion.
Una proporcion de todas las lecturas de la secuencia puede ser de un cromosoma sexual (por ejemplo, cromosoma X, cromosoma Y) o un cromosoma implicado en una aneuploidfa (por ejemplo, cromosoma 13, cromosoma 18, cromosoma 21) y otras lecturas de secuencias son de otros cromosomas. Tomando en cuenta el tamano relativo del cromosoma sexual o cromosoma involucrado en la aneuploidfa (por ejemplo, “cromosoma blanco”: cromosoma 21, cromosoma Y) en comparacion con otros cromosomas, se puede obtener una frecuencia normalizada, dentro de un rango de referencia, de las secuencias espedficas del cromosoma blanco. Si el feto tiene una aneuploidfa, por ejemplo, en un cromosoma blanco, entonces la frecuencia normalizada de las secuencias derivadas del cromosoma blanco es estadfsticamente mayor que la frecuencia normalizada de secuencias derivadas de cromosomas no blanco, de este modo se permite la deteccion de la aneuploidfa. El grado de cambio en la frecuencia normalizada puede depender de la concentracion fraccionada de acidos nucleicos fetales en la muestra analizada.
Regiones del cromosoma Y
Para la mayona de los mamfferos, incluidos los seres humanos, el cromosoma Y es uno de los dos cromosomas determinantes del sexo. El cromosoma Y humano se compone de aproximadamente 60 millones de pares de bases. El ADN en el cromosoma Y se transmite de padre a hijo y representa aproximadamente el 2% del ADN total en una celula masculina. El cromosoma Y humano contiene 86 genes, que codifican 23 protemas distintas. La estructura del cromosoma Y incluye dos brazos que se extienden desde un centromero. El mas corto de los dos brazos que se extienden desde el centromero se llama el brazo p y el mas largo es el brazo q. El cromosoma Y se puede dividir adicionalmente en varias regiones sobre la base de ciertas caractensticas de las secuencias del mismo. Tales regiones se denominan en la presente como “regiones funcionales” e incluyen, sin limitacion, regiones pseudoautosomicas, heterocromaticas, ampliconicas, transpuestas X y degeneradas X.
El cromosoma Y humano es tfpicamente incapaz de recombinarse con el cromosoma X, excepto por pequenos
5
10
15
20
25
fragmented de regiones pseudoautosomicas en los telomeros (que representan aproximadamente el 5% de la longitud del cromosoma). Estas regiones son reliquias de homologfa antigua entre los cromosomas X e Y. Las regiones pseudoautosomicas se denominan asf porque todos los genes ubicados dentro de ellos (hasta ahora solo se han encontrado 9) se heredan como cualquier otro gen autosomico. Los varones tienen dos copias de estos genes: uno en la region pseudoautosomica de su Y, el otro en la porcion correspondiente de su cromosoma X. En consecuencia, los varones pueden heredar un alelo originalmente presente en el cromosoma X de su padre y las mujeres pueden heredar un alelo originalmente presente en el cromosoma Y de su padre.
La mayor parte del cromosoma Y que no se recombina se denomina region “NRY” o region no recombinante del cromosoma Y. Aunque el 95% del cromosoma Y se encuentra entre las regiones pseudoautosomicas, menos de 80 genes se han encontrado aqrn. Mas de la mitad de esta region es heterocromatina geneticamente esteril. De los genes encontrados en la eucromatina (es decir, region cromosomica rica en concentracion genica, a menudo bajo transcripcion activa), algunos codifican protemas usadas por todas las celulas. Los otros codifican protemas que parecen funcionar solo en los testteulos (por ejemplo, SRY).
La evidencia en la tecnica sugiere que el cromosoma Y y el cromosoma X evolucionaron a partir de un par ordinario de autosomas. El cromosoma Y se denomina algunas veces en la tecnica como un cromosoma X degenerado. En efecto, existen grandes regiones homologas entre los cromosomas X e Y. La region espedfica masculina del cromosoma Y (MSY) es un mosaico de secuencias heterocoromaticas y tres clases de secuencias eucromaticas, a saber transpuestas X, degeneradas X y ampliconicas (Skaletsky, Kuroda-Kawaguchi et al. (2003) Nature 423: 825-837). Estas tres diferentes clases de regiones eucromaticas tienen diferentes niveles de homologfa con el cromosoma X y diferente contenido de genes. Las secuencias en las regiones transpuestas X del cromosoma Y tienen un promedio de identidad del 99% con las regiones correspondientes del cromosoma X. Los genes ubicados en las regiones transpuestas X incluyen, sin limitacion, TGIF2LY y PCDH11Y. Ciertas secuencias en las regiones degeneradas X son genes de copia unica y pseudogenes que tfpicamente exhiben una identidad del 60%-96% con sus homologos unidos a X. Los genes ubicados en las regiones X-degeneradas incluyen, sin limitacion, SRY, RPS4Y1, ZFY, AMELY, TBL1Y, PRKY, USP9Y, DBY, UTY, TMSB4Y, NLGN4Y, CYorf15A, CYorf15B, SMCY, EIF1AY y RPS4Y2. Las secuencias en las regiones ampliconicas generalmente tienen altas identidades intracromosomicas (por ejemplo, 99,9% o mayor). La siguiente tabla proporciona coordenadas genomicas para varias regiones funcionales descritas en la presente.
^‘69
6S 99S8Z86S 9282806S oosszo 8Z21.AS eoiLuosoineopnesd
6S
6S
S282806S Z8Z0868S 6*1-990 991.1 AS SOJJO
6S
8'82 98Z0868S 8S888Z82 8S 1.990 l-6*SZ0 9*21-AS eO!}BWOJOOJ0}0l]
8'82
S'82 ZS888Z82 91.8ZSW2 0ZI.Z9O 1.021. AS sej^o
S'82
S'82
SI.8ZSfr82 889Z6t782 82021.0 281. AS BOmOOjldLUB
s'82
S'22 289Z6KZ 0SZ2I.S22 86*SZ0 8S21-AS x BpBJ0U06ep
S'22
2'22 6W.2I-S22 69U9U222 Z6*SZ0 2S21-AS eO!}BWOJOOJ0}0l]
2'22
1.2 89U9U222 U06U80U2 60SSZO Z821-AS X BPBJ0U060P
1.2
9‘6U 0061.801.2 ZS8Z9S6I. 9*S2Z0 *92I-AS BOmOOjldLUB
9‘6U
9‘8U 9S8Z9S6I. et^zessi. eosszo 9Z21-AS X BPBJ0U060P
S‘8U
£‘8U 2WZ8S8I- t'Z2UZ28U 20SSZO SZ21-AS BOmOOjldLUB
£‘8U
81. £Z2 L-Z28 L- 89991.081. 98S8ZO *08I-AS X BPBJ0U060P
81.
81.
29991.081. t7Zt?986Z L- *6sezo 21-81. AS BOmOOjldLUB
81.
2‘9U 8Zfr986ZI- 0900ZU9U I.OSSZO *Z2I>AS X BPBJ0U060P
3‘9U
U‘9U 6900ZU9U Z8ZS609I. HSSZ0 8081. AS BomoojidiuB
U‘9U
l-'H 98ZS609I. eozuzot'U *29990 881. AS X BPBJ0U060P
l-'H
6‘eu 20Z L-ZOt? L- 9U00Z88U 96*SZ0 U92UAS sej^o
6‘eu
01. 9 L-00Z8E L- 508*8001. 90SSZO 0821. AS SeO!16LUOJOOJ010L]
01.
01.
t'08^eoo u *86Z966 ZOSSZO 1-82 L-As SBJJO
01.
s'z 886Z966 S222Z*Z *8*SZ0 61-21. AS BOmOOjldLUB
s'z
9'9 t?222ZfrZ 68891.99 888990 S09AS X BPBJ0U060P
9'9
t^‘9 88891.99 80500*9 88*SZ0 2^21. AS x Bjs0ndsuBJj
fr'9
U‘9 Z0S00t?9 5*9201-9 Z8*SZ0 1.^21. AS BOmOOjldLUB
U‘9
6'2 W920I-9 t?2ZZU62 *6*SZ0 8^21. AS x Bjs0ndsuBJj
6'2
9'2 82ZZ1.62 *Z86*92 S6*SZ0 Z*2I>AS X BPBJ0U060P
9'2
0 eze6t?92 l B3!LuosojnBopn0sd
(qiAi) u!i
(qiAi) OjOjUj u!i OjOjUj >|uequ39 jopeojew uo|60j
A buiosouiojo pp sepeuapjooo : i V19V1
Z1.02-S0-W
S008ZZ2I-3
5
10
15
20
25
30
35
40
45
50
55
60
Mapeo de las lecturas de secuencias a las regiones del cromosoma Y
Se pueden analizar las lecturas de la secuencia de nucleotidos que mapean a una o mas secciones genomicas en una o mas regiones funcionales del cromosoma Y. Las lecturas de la secuencia de nucleotidos que mapean al cromosoma X y cromosoma Y se denominan en la presente como lecturas de secuencias “mapeada no unicamente” y a menudo se pueden eliminar antes del analisis de la lectura de secuencia. Las secuencias restantes se denominan en la presente como secuencias “mapeadas unicamente”. En algunos casos, una secuencia “mapeada unicamente” puede incluir hasta 1 error de apareamiento en la lectura de la secuencia de nucleotidos. Se pueden contar las lecturas de la secuencia de nucleotidos que mapean (por ejemplo, mapean unicamente) a un primer conjunto de secciones genomicas (es decir, bins) en una primera region del cromosoma Y, se pueden contar las lecturas de la secuencia de nucleotidos que mapean (por ejemplo, mapear unicamente) a un segundo conjunto de secciones genomicas (es decir, bins) en una segunda region del cromosoma Y. La primera region del cromosoma Y y la segunda region del cromosoma Y pueden ser regiones eucromaticas. La primera region del cromosoma Y puede incluir una o mas regiones degeneradas X. La segunda region del cromosoma Y puede incluir una o mas regiones transpuestas X.
La primera region del cromosoma Y puede incluir una o mas secuencias de nucleotidos ubicadas en segmentos del cromosoma Y que comprende secuencias de nucleotidos que comienza en alrededor de 2,6 Mb del extremo 5' y termina en alrededor de 2,9 Mb del extremo 5', que comienza en alrededor de 6,6 Mb del extremo 5' y termina en alrededor de 7,5 Mb del extremo 5', que comienza en alrededor de 14,1 Mb del extremo 5' y termina en alrededor de 16,1 Mb del extremo 5', que comienza en alrededor de 16,2 Mb del extremo 5' y termina en alrededor de 18 Mb del extremo 5', que comienza en alrededor de 18 Mb del extremo 5' y termina en alrededor de 18,3 Mb del extremo 5', que comienza en alrededor de 18,5 Mb del extremo 5' y termina en alrededor de 19,6 Mb del extremo 5', que comienza en alrededor de 21 Mb del extremo 5' y termina en alrededor de 22,2 Mb del extremo 5', y/o que comienza en alrededor de 22,5 Mb del extremo 5' y termina en alrededor de 23,5 Mb del extremo 5'. La segunda region del cromosoma Y puede incluir una o mas secuencias de nucleotidos ubicadas en segmentos del cromosoma Y que comprende secuencias de nucleotidos que comienza en alrededor de 2,9 Mb del extremo 5' y termina en alrededor de 6,1 Mb del extremo 5', y/o que comienza en alrededor de 6,4 Mb del extremo 5' y termina en alrededor de 6,6 Mb del extremo 5'.
La primera region del cromosoma Y puede incluir una o mas secuencias de nucleotidos con entre aproximadamente 60% a aproximadamente 96% de identidad de secuencia de nucleotidos a las regiones homologas en el cromosoma X.
La segunda region del cromosoma Y puede incluir una o mas secuencias de nucleotidos con al menos aproximadamente 99% de identidad con las regiones homologas del cromosoma X. La primera region del cromosoma Y puede incluir una o mas secuencias de nucleotidos que incluyen y/o se ubican dentro de aproximadamente 1 Mb de secuencia de nucleotidos circundante; locus genomico elegido de: SRY, RPS4Y1, ZFY, AMELY, TBL1Y, PRKY, USP9Y, DBY, UTY, TMSB4Y, NLGN4Y, CYorf15A, CYorf15B, SMCY, EIF1AY, y RPS4Y2. La segunda region del cromosoma Y puede incluir una o mas locus genomico seleccionado entre: TGIF2LY y/o secuencias de nucleotidos ubicadas dentro de aproximadamente 0,6 Mb 5' y/o aproximadamente 3,2 Mb 3' del locus de TGIF2LY, y PCDH11Y y/o secuencias de nucleotidos ubicadas dentro de aproximadamente 2 Mb 5'y/o aproximadamente 1Mb 3' del locus PCDH11Y.
Patrones de lectura de la secuencia de nucleotidos en las regiones del cromosoma Y
Los recuentos de lecturas de secuencias pueden variar de acuerdo con numerosos parametros que incluyen, sin limitacion, metodo de secuenciacion, maquina de secuenciacion, qmmica, variacion de placa a placa, fraccion fetal y el nivel de plexion. En algunos casos, la variabilidad (es decir, la varianza) de los recuentos de la lectura de secuencias entre las secciones genomicas de longitud fija y/o dentro de una region cromosomica Y funcional dada puede estar influenciada por la profundidad de los recuentos de la lectura de secuencia. En ciertos casos, el coeficiente de varianza (CV) puede proporcionar un parametro mas general para evaluar la variabilidad de los recuentos de lecturas de secuencia. El coeficiente de varianza se puede calcular utilizando la siguiente formula: CV = desviacion estandar/media. El coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre las secciones genomicas de longitud fija de la primera region puede ser menor que el coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre las secciones genomicas de longitud fija de la segunda region en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre las secciones genomicas de longitud fija de la primera region puede ser inferior que en las muestras de las mujeres embarazadas que llevan los fetos masculinos versus fetos femeninos. El coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre las secciones genomicas de longitud fija de la segunda region puede ser inferior que en las muestras de las mujeres embarazadas que llevan los fetos masculinos versus fetos femeninos.
Si bien los recuentos de lecturas de secuencias pueden variar como se describio anteriormente, los patrones de lectura de secuencias pueden ser consistentes para ciertas regiones funcionales del cromosoma Y. El numero total de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos. Como se usa en la presente, un “derivado” del numero de lecturas de secuencias puede incluir una media, mediana, normalizacion u otra cuantificacion o producto del procesamiento de datos descrito en la presente o conocido en la tecnica. Se entiende que la expresion “recuento de
5
10
15
20
25
30
35
40
45
50
55
60
lectura de secuencia” o cualquier variacion gramatical de esta, tal como se usa en la presente, incluye cualquiera de sus derivados. En algunos casos, el numero total de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y es significativa y consistentemente mas alto para las muestras de las mujeres embarazadas que llevan los fetos masculinos versus mujeres embarazadas que llevan los fetos femeninos. El numero total de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser significativa y consistentemente mas alto que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero total de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser significativa y consistentemente mas bajo que el numero total de lecturas de secuencias mapeadas a la segunda region del cromosoma Y para mujeres embarazadas que llevan los fetos femeninos.
El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 10 veces mayor que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 5 veces mayor que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 4 veces mayor que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 3 veces mayor que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 2,5 veces mayor que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 2 veces mayor que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos. In El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 1,5 veces mayor que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser aproximadamente igual al numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 1,5 veces menor que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos. El numero de lecturas de secuencias, o sus derivados, mapeadas a la primera region del cromosoma Y puede ser entre aproximadamente 1 a aproximadamente 1,25 veces menor que el numero de lecturas de secuencias, o sus derivados, mapeadas a la segunda region del cromosoma Y en las muestras de las mujeres embarazadas que llevan los fetos masculinos.
Es posible determinar una relacion entre los recuentos de las lecturas de secuencias en diferentes regiones del cromosoma Y. En la presente, una relacion de este tipo lleva a veces la denominacion de “relacion entre recuentos de secuencias” o de “mdice de relaciones entre recuentos de secuencias”. La relacion entre los recuentos de las secuencias puede ser el numero de recuentos de las lecturas de secuencias, o de un derivado de los mismos, en una primera region con respecto a los recuentos de las lecturas de secuencias, o de un derivado de los mismos, en una segunda region. La segunda relacion entre los recuentos de secuencias puede ser el numero de recuentos de las lecturas de secuencias, o un derivado del mismo, en una segunda region con respecto a los recuentos de las lecturas de secuencias, o un derivado del mismo, en una primera region. Por ejemplo, una relacion entre los recuentos de las lecturas de secuencias puede ser recuentos de las lecturas de secuencias en una region X-degenerada con respecto a los recuentos de las lecturas de secuencias en una region X-transpuesta. En otro ejemplo, una relacion entre los recuentos de las lecturas de secuencias puede ser recuentos de las lecturas de secuencias en una region X-transpuesta con respecto a los recuentos de las lecturas de secuencias en una region X-degenerada.
La relacion entre los recuentos de las lecturas de secuencias en la primera region sobre la segunda region puede ser de 0,5 o mas para muestras tomadas de mujeres embarazadas que llevan fetos masculinos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser de 0,75 o mas para muestras tomadas de mujeres embarazadas que llevan fetos masculinos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser de 1 o mas para muestras tomadas de mujeres embarazadas que llevan fetos masculinos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser de 1,5 o mas para muestras tomadas de mujeres embarazadas que llevan fetos masculinos. La relacion entre los recuentos de las lecturas de secuencias en la
5
10
15
20
25
30
35
40
45
50
55
60
primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser de 2 o mas para muestras tomadas de mujeres embarazadas que llevan fetos masculinos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser de 2,5 o mas para muestras tomadas de mujeres embarazadas que llevan fetos masculinos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser de 3 o mas para muestras tomadas de mujeres embarazadas que llevan fetos masculinos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser de 4 o mas para muestras tomadas de mujeres embarazadas que llevan fetos masculinos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser de 5 o mas para muestras tomadas de mujeres embarazadas que llevan fetos masculinos.
Los recuentos de las lecturas de secuencias en la primera region del cromosoma Y pueden ser cero o cercanos a cero para muestras tomadas de mujeres embarazadas que llevan fetos femeninos. Puede haber recuentos de las lecturas de secuencias vestigio en la segunda region del cromosoma Y para muestras tomadas de mujeres embarazadas que llevan fetos femeninos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser inferior a 1 para muestras tomadas de mujeres embarazadas que llevan fetos femeninos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser inferior a 0,75 para muestras tomadas de mujeres embarazadas que llevan fetos femeninos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser inferior a 0,5 para muestras tomadas de mujeres embarazadas que llevan fetos femeninos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser inferior a 0,25 para muestras tomadas de mujeres embarazadas que llevan fetos femeninos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser inferior a 0,1 para muestras tomadas de mujeres embarazadas que llevan fetos femeninos. La relacion entre los recuentos de las lecturas de secuencias en la primera region y los recuentos de las lecturas de secuencias en la segunda region puede ser inferior a 0,01 para muestras tomadas de mujeres embarazadas que llevan fetos femeninos.
Puede seleccionarse un valor de corte o umbral para la relacion entre los recuentos de las lecturas de secuencias, o su derivado en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region, para determinar el sexo del feto. Por ejemplo, las muestras que tienen una relacion igual o superior a un determinado valor de corte reciben la denominacion de “embarazos masculinos” y las muestras que tienen una relacion inferior a un determinado valor de corte reciben la denominacion de “embarazos femeninos”. Como se utiliza en la presente, la expresion “embarazo masculino” se refiere a una mujer que lleva un feto masculino y la expresion “embarazo mujer” se refiere a una mujer embarazada que lleva un feto femenino. El sexo del feto puede determinarse como masculino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es de 0,5 o mas. El sexo del feto puede determinarse como femenino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es inferior a 0,5. El sexo del feto puede determinarse como masculino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es de 0,75 o mas. El sexo del feto puede determinarse como femenino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es inferior a 0,75. El sexo del feto puede determinarse como masculino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es de 1 o mas. El sexo del feto puede determinarse como femenino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es inferior a 1. El sexo del feto puede determinarse como masculino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es de 1,5 o mas. El sexo del feto puede determinarse como femenino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es inferior a 1,5. El sexo del feto puede determinarse como masculino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es de 2,5 o mas. El sexo del feto puede determinarse como femenino cuando la relacion entre los recuentos de las lecturas de secuencias se refiere a una mujer embarazada que lleva un feto femenino, o su derivado, en la primera region y los recuentos de las lecturas de secuencias, o su derivado, en la segunda region es inferior a 2,5.
Regiones masculino-especificas del cromosoma Y
5
10
15
20
25
30
35
40
45
50
55
60
Las regiones del cromosoma Y (por ejemplo, secciones genomicas, bins) pueden seleccionarse para su analisis sobre la base de su especificidad masculina. Las regiones masculino-espedficas por lo general comprenden secuencias nucleotfdicas que existen exclusivamente en el cromosoma Y (por ejemplo, secuencias no situadas en el cromosoma X, secuencias no sobre autosomas). Tales regiones masculino-espedficas pueden ser utiles, por ejemplo, para determinar el sexo del feto en una muestra materna que comprende acido nucleico extracelular.
Determinadas regiones masculino-espedficas pueden seleccionarse sobre la base de su mapeabilidad. Por ejemplo, determinadas regiones en el cromosoma Y situadas entre las coordenadas de base 1 a aproximadamente 28.000.000 tienen elevados puntajes de mapeabililidad (por ejemplo, de 1,0 o cercano a 1,0), mientras que las regiones que tienen coordenadas de base mas alla de 28.000.000 por lo general presentan bajos puntajes de mapeabilidad. Vease la Figura 10. Los puntajes de mapeabilidad pueden variar en funcion de un numero de factores que incluyen por ejemplo el algoritmo o programa de alineacion (o diversos parametros dentro de un programa de alineacion) utilizados para alinear lecturas de secuencias a secciones genomicas. Los programas de alineacion que incluyen por ejemplo el BOWTIE (Langmead et al. (2009) Genome Biol. 10(3):R25. Epub 2009 Mar 4), el BOWTIE 2, y el ELAND, pueden generar diferentes puntajes de mapeabilidad para determinadas secciones genomicas, en algunos casos (ver, por ejemplo, la Figura 11).
En algunos casos, se selecciona un conjunto de secciones genomicas en un cromosoma Y sobre la base de uno o mas criterios. Dichos criterios pueden incluir, por ejemplo, 1) secciones genomicas que tienen un numero constante de recuentos positivos (por ejemplo, totales de recuento superiores o iguales a 1, que tienen valores sustancialmente similares a traves de una pluralidad de muestras y/o alfcuotas) para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos masculinos (por ejemplo, bins masculino-estables), 2) secciones genomicas que tienen un numero constante de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos (por ejemplo, bins femenino-estables); y/o 3) secciones genomicas que tienen una diferencia significativa (por ejemplo, diferenciable respecto a ruido u otras variaciones) y constante de recuentos de las lecturas de secuencias mapeadas entre muestras tomadas de mujeres embarazadas que llevan fetos masculinos y muestras tomadas de mujeres embarazadas que llevan fetos masculinos (por ejemplo, bins discriminantes). Para cada criterio, es posible ensamblar una lista o grupo de secciones genomicas que satisfacen el criterio. En algunos casos, para el analisis se seleccionan secciones genomicas que satisfacen dos o mas criterios (es decir, miembros superpuestos de cada grupo) arriba indicados. En algunos casos, para el analisis se seleccionan secciones genomicas que satisfacen la totalidad de los tres criterios arriba indicados. En la presente, un conjunto de tales secciones genomicas puede recibir la denominacion de “subconjunto de secciones genomicas”, “conjunto seleccionado de secciones genomicas”, “region masculino-espedfica”, “conjunto de regiones masculino-espedficas”, “region separadora de varones (region separadora de varones, o MSR), o sus abreviaturas gramaticales. En algunos casos, un conjunto de secciones genomicas incluye aproximadamente 100 o mas secciones genomicas del cromosoma Y. En algunos casos, un conjunto de secciones genomicas incluye entre aproximadamente 10 a aproximadamente 100 secciones genomicas del cromosoma Y. Por ejemplo, un conjunto de secciones genomicas puede incluir aproximadamente 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90 o 95 secciones genomicas del cromosoma Y.
Un subconjunto (por ejemplo, un conjunto MSR) de secciones genomicas puede ser objeto de refinacion u optimizacion adicionales mediante cualquier proceso estadfstico descrito en la presente o conocido en la tecnica. Por ejemplo, un subconjunto (por ejemplo, un conjunto MSR) de secciones genomicas puede ser objeto de refinacion u optimizacion adicionales mediante la remocion iterativa de secciones genomicas (por ejemplo, a razon de uno por vez) de un conjunto que, una vez excluido, refuerza la distribucion entre fetos masculinos y fetos femeninos, como se describe en el Ejemplo 2. Una distribucion de este punto puede expresarse como un huelgo de separacion entre una cuantificacion de recuentos de las lecturas de secuencias para fetos masculinos y una cuantificacion de recuentos de las lecturas de secuencias para fetos femeninos. Un huelgo de separacion puede incluir, por ejemplo, la distancia entre un lfmite superior de recuentos de las lecturas de secuencias para muestras de fetos femeninos y un lfmite superior de recuentos de las lecturas de secuencias para muestras de fetos masculinos. Un lfmite superior, o Jfmite, de recuentos de las lecturas de secuencias puede incluir por ejemplo, cuantificaciones en los quintiles 75esimo a 100esimo. Por ejemplo, un lfmite superior, o lfmite, de recuentos de las lecturas de secuencias puede incluir cuantificaciones en quintiles 80esimo, 85esimo, 90esimo, 91esimo, 92esimo, 93rd, 94esimo, 95esimo, 96esimo, 97esimo, 98esimo o 99esimo. Un lfmite inferior,
o lfmite, de recuentos de las lecturas de secuencias puede incluir, por ejemplo, cuantificaciones en los quintiles 1° a 25esimo. Por ejemplo, un lfmite inferior, o lfmite, de recuentos de las lecturas de secuencias puede incluir cuantificaciones en los quintiles 2o, 3°4o, 5° 6o, 7° 8° 9°, 10° o 20esimo.
En algunos casos, la remocion iterativa de una seccion genomica particular puede incrementar el huelgo de separacion entre las cuantificaciones de recuentos de las lecturas de secuencias para fetos masculinos y fetos femeninos. En algunos casos, el incremento se expresa como un porcentaje de un huelgo de separacion existente (por ejemplo, una distancia de huelgo de separacion antes de la remocion de la seccion genomica). El incremento puede ser, por ejemplo, en un margen de aproximadamente e = 0,1% a aproximadamente e = 10% del huelgo existente. Por ejemplo, el incremento puede ser en un margen de e = 0,5%, e = 1%, e = 1,5%, e = 2%, e = 3%, e = 4%, e = 5%, e= 6%, e = 7%, e = 8% o e = 9%.
Las lecturas de las secuencia de nucleotidos que se mapean a un conjunto de secciones genomicas en el cromosoma Y (por ejemplo, region separadora de varones)) pueden cuantificarse. En algunos casos, tales cuantificaciones
5
10
15
20
25
30
35
40
45
50
incluyen sumar recuentos de secciones genomicas y comparar recuentos a un recuento mediano para secciones genomicas (por ejemplo, parte, la mayona o la totalidad de las secciones genomicas) en el cromosoma Y para una matriz esima, con lo cual se genera una comparacion. En algunos casos, el recuento mediano para la seccion genomica en el cromosoma Y es igual al valor mediano de recuentos de las lecturas de secuencias brutas de valor positivo en el cromosoma Y. Las cuantificaciones de lectores de secuencias de nucleotidos en mapeo para un conjunto de secciones genomicas en el cromosoma Y (por ejemplo, una region separadora de varones (MSR)) puede expresarse o representarse utilizando un puntaje de region separadora de varones (MSRscore), que se representa mediante la siguiente formula:
MSRscore(S) =
RAW(bm(S))
M(S)
En la ecuacion precedente, el MSRscore para una muestra dada (S) es igual a la suma (!) de recuentos de las lecturas de secuencias (RAW, raw sequence read counts, recuentos de lecturas de secuencias en bruto) para secuencias de genoma (es decir, los bins (bm)) como elementos de (e) de la region separadora de varones (MSR) dividida por la mediana (M) para la muestra (S). La mediana S puede representarse mediante la siguiente formula:
M(S) = median{RAW(bi 6 chrY)\RAW(bt) > l)
En la ecuacion precedente, la mediana (M) para la muestra (S), que tambien lleva la designacion de “mediana ajustada”, se refiere a los recuentos de lecturas de secuencias en bruto (RAW(bi) > 1) de valores positivos (RAW) para bins (bi) como elementos de (e) cromosoma Y (chrY) (es decir, los bins sobre el cromosoma Y con valores de recuentos de lectura positiva).
Los puntajes MSRscores pueden variar, en algunos casos, de menos de aproximadamente 1 a aproximadamente 30 o mas. Normalmente, los MSRscores mas elevados corresponden a fetos masculinos mientras que los MSRscores bajas corresponden a fetos femeninos. Las muestras con un MSRscore igual o superior a un umbral determinado pueden predecirse como fetos masculinos; y las muestras con un MSRscore inferior a un umbral determinado pueden predecirse como fetos femeninos. Tales MSRscore en algunos casos pueden ajustarse entre aproximadamente 3,0 y aproximadamente 10,0. Por ejemplo, puede ajustarse un umbral de MSR a aproximadamente 3,5, 4,0, 4,5, 5,0, 5,5, 6,0, 6,5, 7,0, 7,5, 8,0, 8,5, 9,0 o 9,5. El umbral del MSRscore puede ajustarse a 6,5. Por lo tanto, las muestras con un MSRscore de 6,5 o mas pueden tener llamadas de determinacion de sexo de feto masculino y las muestras con un MSRscore inferiores a 6,5 pueden tener llamadas de determinacion de sexo de feto femenino.
Una o mas cuantificaciones (por ejemplo, MSRscore) de secuencias nucleotfdicas que se mapean a un subconjunto de secciones genomicas (por ejemplo, region separadora de varones (MSR)) pueden estar correlacionadas con resultados de cuantificacion fetal. Los metodos para determinar el contenido de acidos nucleicos fetales (por ejemplo, fracciones fetales se conocen en la tecnica y se describen en la presente, como tambien un metodo de cuantificacion fetal basado en SRY (a veces expresado como SRY promedio o SRY.avg). En algunos casos, se ajustan reglas de llamada para la determinacion del sexo de acuerdo con los resultados de cuantificacion de ADN. Los metodos de cuantificacion fetal basadas en SRY pueden generar resultados espedficos para sexo, que pueden correlacionarse con los metodos para la determinacion del sexo descritos en la presente. Por ejemplo, si se predice que una muestra es masculina, la muestra puede determinarse como masculina si el SRY promedio es igual o superior a un umbral particular o puede resolverse como indeterminada si el SRY promedio es inferior a un umbral particular. Si una muestra se predice como femenina, la muestra puede determinarse como femenina si el SRY promedio es inferior a un umbral predeterminado o puede resolverse como indeterminada si el SRY promedio es superior a un umbral predeterminado. Los umbrales para SRY promedios pueden ser de aproximadamente 1 a aproximadamente 20. Por ejemplo, un umbral de SRY promedio puede ser de aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 o 19. En algunos casos, una muestra indeterminada se designa como “no de llamada”. Los metodos descritos en la presente pueden determinar un sexo del feto con una tasa de no llamada de entre aproximadamente el 0% a aproximadamente el 1%. Por ejemplo, una tasa de no llamada puede ser de aproximadamente el 0,1%, 0,2%, 0,3%, 0,4%, 0,5%, 0,6%, 0,7%, 0,8% o 0,9%.
El sexo del feto puede determinarse utilizando un metodo descrito en la presente (por ejemplo, Analisis de MSRscore) con una exactitud de por lo menos aproximadamente el 99% a aproximadamente el 100%. Por ejemplo, el sexo del feto puede determinarse con una exactitud de por lo menos aproximadamente el 99,1%, 99,2%, 99,3%, 99,4%, 99,5%, 99,6%, 99,7%, 99,8% o 99,9%. El sexo del feto puede determinarse con una exactitud cuyo mapeo es aproximadamente la misma o superior que la exactitud obtenida mediante metodos para la determinacion del sexo (por ejemplo, analisis de cariotas, analisis de SRY). El sexo del feto puede determinarse con una exactitud que tiene un intervalo de confianza (Cl) de aproximadamente el 90% a aproximadamente el 100%. Por ejemplo, el intervalo de confianza (CI, confidence interval) puede ser de aproximadamente de 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, o 99%.
5
10
15
20
25
30
35
40
45
50
55
Recuentos
Las lecturas de secuencias que mapean o son mapeadas o particionadas en base a un rasgo seleccionado o variable pueden cuantificarse para determinar el numero de lecturas que se mapea a una seccion genomica (por ejemplo, bin, particion, porcion genomica, porcion de un genoma de referencia, porcion de un similar a cromosoma Y). A veces la cantidad de lecturas de secuencias que se mapean a una seccion genomica reciben la denominacion de recuentos (por ejemplo, un recuento). Frecuentemente un recuento esta asociado con dos o mas secciones genomicas (por ejemplo, un conjunto de secciones genomicas) y son manipulados matematicamente (por ejemplo, se los promedia, adiciona, normaliza, o similar o una de sus combinaciones). Puede determinarse un recuento a partir de algunas o de la totalidad de las lecturas de secuencias mapeadas a (es decir, asociadas con) una seccion genomica. Puede determinarse un recuento a partir de un subconjunto predefinido de lecturas de secuencias. Los subconjuntos predefinidos de lecturas de secuencias mapeadas pueden definirse o seleccionarse utilizando cualquier rasgo o variable adecuados. Los subconjuntos predefinidos de lecturas de secuencias mapeadas pueden incluir de 1 a n lecturas de secuencias, donde n representa un numero igual a la suma de todas las lecturas de secuencias generadas a partir de un sujeto de pruebas o de una muestra tomada de un sujeto de referencia.
El numero total de lecturas de secuencias mapeadas puede determinarse mediante el recuento de la totalidad de las lecturas de secuencias mapeadas, y por ejemplo el numero total de lecturas de secuencias mapeadas puede determinarse sumando los recuentos mapeados para cada bin o particion. Un subconjunto de lecturas de secuencias mapeadas puede determinarse mediante el recuento de un subconjunto predeterminado de lecturas de secuencias mapeadas, y por ejemplo un predeterminado subconjunto de lecturas de secuencias mapeadas puede determinarse sumando los recuentos mapeados para cada bin o particion predeterminadas. Los subconjuntos predeterminados de lecturas de secuencias mapeadas pueden seleccionarse utilizando cualquier aspecto o variable adecuados.
El numero total de lecturas de secuencias mapeadas puede determinarse mediante el recuento de la totalidad de las lecturas de secuencias mapeadas para el cromosoma Y, y por ejemplo el numero total de secuencias mapeadas puede determinarse sumando los recuentos mapeados a cada bin o particion del cromosoma Y. Un subconjunto de lecturas de secuencias mapeadas puede determinarse mediante el recuento de un subconjunto predeterminado de lecturas de secuencias mapeadas en el cromosoma Y, y por ejemplo un subconjunto predeterminado de lecturas de secuencias mapeadas puede determinarse mediante la suma de los recuentos mapeados a cada bin o particion predeterminadas del cromosoma Y. La obtencion de recuentos de las lecturas de secuencias nucleotfdicas mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia puede a veces incluir solamente recuentos de las lecturas de secuencias mapeadas a secciones genomicas en el cromosoma Y, por ejemplo la obtencion de recuentos de las lecturas de secuencias mapeadas en el cromosoma Y y en otros cromosomas.
A veces se deriva un recuento a partir de lecturas de secuencias que se mapean y procesan o manipulan mediante un metodo, operacion o proceso u operacion matematicos conocidos en la especialidad. A veces se deriva un recuento a partir de lecturas de secuencias asociadas con una seccion genomica en la que parte o la totalidad de las lecturas de secuencias son ponderadas, filtradas, normalizadas, ajustadas, derivadas como un valor medio, anadidas a o restadas de o procesadas mediante una combinacion de los mismos. Puede derivarse un recuento a partir de las lecturas de secuencias en bruto o a partir de lecturas de secuencias filtradas. Un recuento (por ejemplo, varios recuentos) pueden determinarse mediante un metodo, operacion o proceso matematico, adecuados. A veces un valor de recuento se determina mediante un proceso matematico. A veces un valor de recuento es un valor promedio, un valor medio o una suma de lecturas de secuencias mapeadas a una seccion genomica. Frecuentemente un recuento es un numero medio de recuentos. Un recuento puede estar asociado con un valor de incertidumbre. Los recuentos pueden ser procesados (por ejemplo, normalizados) mediante un metodo conocido en la tecnica y/o descrito en la presente (por ejemplo, una normalizacion de a bins, normalizacion por contenido de GC, regresion lineal y no lineal de cuadrados mmimos, GC LOESS, LOWESS, PERUN, RM, GCRM, cQn y/o sus combinaciones).
Los recuentos (por ejemplo, recuentos en bruto, filtrados y/o normalizados) pueden procesarse y normalizarse a una o mas elevaciones. A veces los recuentos pueden ser procesados y/o normalizados respecto a una elevacion de referencia. Los recuentos procesados de acuerdo con una elevacion (por ejemplo, recuentos procesados) pueden asociarse con un valor de incertidumbre (por ejemplo, una varianza calculada, un error, desviacion estandar, valor p, desviacion media absoluta, etc.). Un valor de incertidumbre tfpicamente define un intervalo por arriba y por abajo de una elevacion. Puede utilizarse un valor para la desviacion en lugar de un valor de incertidumbre, y los ejemplos no limitantes de medidas de desviacion incluyen la desviacion estandar, desviacion promedia absoluta, desviacion media absoluta, puntaje estandar (por ejemplo, Puntaje Z, Valor Z, puntaje normal, variable estandarizada), y similares.
Los recuentos se obtienen frecuentemente de muestras de acidos nucleicos de una mujer embarazada que lleva un feto. Los recuentos de las lecturas de acidos nucleicos de secuencias mapeadas a una seccion genomica son frecuentemente recuentos representativos de tanto el feto como de la madre del feto (por ejemplo, un sujeto mujer embarazada). A veces algunos de los recuentos mapeados a una seccion genomica proceden de un genoma fetal y algunos de los recuentos mapeados a la misma seccion genomica son del genoma materno.
Modulo de recuentos
Los recuentos pueden ser provistos por un modulo de recuentos o por un aparato que comprende un modulo de
5
10
15
20
25
30
35
40
45
50
55
60
recuentos.
Un modulo de recuentos puede determinar, ensamblar y/o exhibir recuentos de acuerdo con un metodo de recuento conocido en la tecnica. En terminos generales un modulo de recuentos determina o ensambla recuentos de acuerdo con una metodologfa conocida en la tecnica. Un modulo de recuento o un aparato que comprende un modulo de recuentos puede ser requerido para proveer recuentos. Un aparato que comprende un modulo de recuentos puede comprender por lo menos un procesador. Los recuentos pueden ser provistos por un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) el cual procesador puede llevar a cabo y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de recuentos. Las lecturas pueden ser contadas por un aparato que incluye multiples procesadores, tales como procesadores coordinados y que funcionan en paralelo. Un modulo de recuentos puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de memoria y/o red de memoria (por ejemplo, una nube). Las lecturas pueden ser contadas mediante un aparato que comprende uno o mas de los siguientes: un modulo de secuenciacion, un modulo de mapeo, una o mas celdas de flujo, componentes para el tratamiento de fluidos, una camara, un display (por ejemplo, un LED, LCT o CRT) y similares. Un modulo de recuentos puede recibir datos y/o informacion desde un modulo de secuenciacion y/o modulo de mapeo, transformar los datos y/o informacion y proveer recuentos (por ejemplo, recuentos mapeados a secciones genomicas). Un modulo de recuentos puede recibir lecturas de secuencias mapeadas procedentes de un modulo de mapeado. Un modulo de recuentos puede recibir lecturas normalizadas de secuencias mapeadas procedentes de un modulo de mapeo o desde un modulo de normalizacion. Un modulo de recuentos puede transferir datos y/o informacion relacionada con recuentos (por ejemplo, recuentos, recuentos ensamblados y/o displays de recuentos) mediante cualquier otro aparato, periferico o modulo, adecuados. A veces los datos y/o informacion relacionados con recuentos se transfieren desde un modulo de recuentos a un modulo de normalizacion, un modulo de graficacion, un modulo de categorizacion y/o un metodo de resultado.
Procesamiento de datos
En la presente, las lecturas de secuencias mapeadas que han sido contadas llevan la designacion de “datos en bruto”, ya que los datos representan recuentos no manipulados (por ejemplo, recuentos en bruto). Los datos de lectura de secuencias en un conjunto de datos pueden ser objeto de un manipuleo adicional (por ejemplo, pueden ser manipulados matematica y/o estadfsticamente) para proveer un resultado. En algunos casos, los recuentos procesados llevan la denominacion de un “derivado de recuentos”. Los ejemplos no limitantes de un derivado de recuentos incluyen recuentos normalizados, niveles, elevaciones, perfiles y combinaciones similares a lo que precede. Puede utilizarse cualquier metodo de normalizacion adecuado para normalizar recuentos, tales como, por ejemplo, un metodo de normalizacion descrito en la presente. Los conjuntos de datos, inclusive los conjuntos de datos mas grandes, pueden beneficiarse del preprocesamiento para facilitar analisis ulteriores. El preprocesamiento de conjuntos de datos implica a veces la remocion de secciones genomicas redundantes y/o carentes de valor informativo o bins (por ejemplo, bins con datos sin valor informativo, lecturas mapeadas redundantes, secciones genomicas o bins con recuentos medianos cero, secuencias sobrerepresentadas o subrepresentadas). Si bien no deseamos limitarnos a la teona, el procesamiento y preprocesamiento de datos puede: (i) remover datos ruidosos; (ii) remover datos sin valor informativo, (iii) remover datos redundantes, (iv) reducir la complejidad de grandes conjuntos de datos, y/o (v) facilitar la transformacion de los datos de una forma en una o mas otras formas. En la presente, los terminos “preprocesamento” y “procesamiento”, cuando se los utiliza respecto a datos o conjuntos de datos, se designan colectivamente como “procesamiento”. El procesamiento puede hacer que los datos sean mas aptos para su analisis ulterior, y que puedan generar un resultado.
La expresion “datos ruidosos” utilizada en la presente, se refiere a: (a) datos que tienen una varianza significativa entre puntos de datos cuando se los analiza o grafica, (b) datos que tienen una desviacion estandar significativa (por ejemplo, mayor de 3 desviaciones estandar), (c) data que tienen un error estandar significativo de la media, similares, y combinaciones de lo que precede. Los datos ruidosos a veces se presentan debido a la cantidad y/o calidad del material de partida (por ejemplo, muestra de acido nucleico), y a veces se presentan como parte de procesos para preparar o replicar ADN utilizado para generar lecturas de secuencias. El ruido puede resultar de algunas secuencias que estan sobrerepresentadas cuando se utilizan metodos basados en PCR. Los metodos descritos en la presente pueden reducir o eliminar la contribucion de los datos ruidosos, y por ello reducir el efecto de los datos ruidosos en el resultado provisto.
Las expresiones “datos sin valor informativo”, “bins sin valor informativo”, y “secciones genomicas sin valor informativo” utilizadas en la presente se refieren a secciones genomicas, o a datos derivados de los mismos, que tienen un valor numerico que es significativamente diferente de un valor umbral predeterminado o recae fuera de un intervalo predeterminado de valores de corte. En la presente, las expresiones “umbral” y “valor umbral” se refieren a cualquier numero que se calcula utilizando un conjunto de datos calificativo y que sirve como un lfmite de diagnostico de una variacion genetica (por ejemplo, la determinacion del sexo del feto, una variacion en el numero de copias, un aneuploidfa, una aberracion cromosomica, y similares). A veces un umbral es superado por los resultados obtenidos mediante los metodos descritos en la presente y a un sujeto se le diagnostica una variacion genetica (por ejemplo, trisoirna 21) o se determina que es masculino o femenino. Es frecuentemente posible calcular un valor umbral o intervalo de valores mediante el manipuleo matematico y/o estadfstico de datos de lecturas de secuencias (por ejemplo, de una referencia y/o de un sujeto), y por ejemplo, datos de lecturas de secuencias manipulados para generar un valor umbral o intervalos de valores que pueden ser datos de lecturas de secuencias (por ejemplo, de una
5
10
15
20
25
30
35
40
45
50
55
60
referencia y/o sujeto). Puede determinate un valor de incertidumbre. Cualquier incertidumbre es por lo general una medida de la varianza o error y puede ser cualquier medida adecuada de varianza o error. Un valor de incertidumbre puede ser una desviacion estandar, error estandar, varianza calculada, valor p, o desviacion media absoluta (MAD).
Cualquier procedimiento adecuado puede utilizarse para procesar los conjuntos de datos descritos en la presente. Los ejemplos no limitantes de procedimientos adecuados para procesar conjuntos de datos incluyen el filtrado, normalizacion, ponderacion, supervision de alturas de picos, determinacion de relaciones de area, el procesamiento matematico de datos, el procesamiento estadfstico de datos, la aplicacion de algoritmos estadfsticos, analisis con un numero fijado de variables, analisis con variables optimizados, graficado de datos para identificar patrones o tendencias para el procesamiento adicional, similares y combinaciones de lo que precede. Los conjuntos de datos pueden procesarse en base a varios aspectos (por ejemplo, contenido de GC, lecturas mapeadas redundantes, regiones centromeras, regiones telomeras, sus similares y combinaciones) y/o variables (por ejemplo, el sexo del feto, edad materna, plodfa materna, contribucion porcentual del acido nucleico fetal, similares y sus combinaciones). El procesamiento de conjuntos de datos descrito en la presente puede reducir la complejidad y/o dimensionalidad de conjuntos de datos grandes y/o complejos. Un ejemplo no limitante de un conjunto de datos complejo incluye datos de lecturas de secuencias generadas a partir de uno o mas sujetos de prueba y una pluralidad de sujetos de referencia de diferentes edades y antecedentes etnicos. Los conjuntos de datos pueden incluir de miles a miles de millones de lecturas de secuencias para cada prueba y/o sujeto de referencia.
El procesamiento de datos puede efectuarse en cualquier numero de etapas. Por ejemplo, los datos pueden procesarse utilizando solamente un unico procedimiento de procesamiento, y por ejemplo los datos pueden procesarse utilizando 1 o mas, 5 o mas, 10 o mas o 20 o mas etapas de procesamiento (por ejemplo, 1 o mas etapas de procesamiento, 2 o mas etapas de procesamiento, 3 o mas etapas de procesamiento, 4 o mas etapas de procesamiento, 5 o mas etapas de procesamiento, 6 o mas etapas de procesamiento, 7 o mas etapas de procesamiento, 8 o mas etapas de procesamiento, 9 o mas etapas de procesamiento, 10 o mas etapas de

procesamiento, 11 o mas etapas de procesamiento, 12 o mas etapas de procesamiento, 13 o mas etapas de

procesamiento, 14 o mas etapas de procesamiento, 15 o mas etapas de procesamiento, 16 o mas etapas de

procesamiento, 17 o mas etapas de procesamiento, 18 o mas etapas de procesamiento, 19 o mas etapas de
procesamiento, o 20 o mas etapas de procesamiento). Las etapas de procesamiento pueden ser la misma etapa repetida dos o mas veces (por ejemplo, filtrando dos o mas veces, normalizando dos o mas veces), y por ejemplo, las etapas de procesamiento pueden ser dos o mas etapas de procesamiento (por ejemplo, filtrado, normalizado, supervision de alturas y bordes de picos; filtrado, normalizacion, normalizacion respecto a una referencia, manipulacion estadfstica para determinar valores p, y similares), llevados a cabo simultaneamente o consecutivamente. Puede utilizarse cualquier numero y/o combinacion adecuados de la misma etapa de procedimiento, o de varias etapas diferentes, para procesar datos de lecturas de secuencias para facilitar la provision de un resultado. El procesamiento de conjuntos de datos mediante los criterios descritos en la presente puede reducir la complejidad y/o dimensionalidad de un conjunto de datos.
Una o mas etapas de procesamiento pueden comprender una o mas etapas de filtrado. El termino “filtrado” utilizada en la presente, se refiere a la remocion de secciones genomicas o de bins de consideracion. Los bins pueden seleccionarse para su remocion sobre la base de cualquier criterio adecuado, lo que incluye sin limitacion los datos redundantes (por ejemplo, lecturas redundantes o lecturas mapeadas superpuestas), datos sin valor informativo (por ejemplo, bins con recuentos medianos cero), bins con secuencias sobrerepresentadas o infrarepresentadas, datos ruidosos, similares, o combinaciones de lo que precede. Un proceso de filtrado frecuentemente implica la remocion de uno o mas bins de la consideracion y restar los recuentos en el uno o mas bins seleccionados para la remocion de los recuentos contados o sumados para los bins, uno o mas cromosomas, o genoma bajo consideracion. Los bins pueden ser removidos sucesivamente (por ejemplo, a razon de una por vez para permitir la evaluacion del efecto de la remocion de cada bin individual), y por ejemplo todos los bins marcados para su remocion pueden ser removidos al mismo tiempo. Las secciones genomicas caracterizadas por una varianza por arriba o por debajo de un nivel determinado pueden ser removidas, lo que a veces en la presente recibe la denominacion de secciones genomicas “ruidosas”. Un proceso de filtrado puede comprender la obtencion de puntos de datos de un conjunto de datos que mapean a partir del perfil de elevacion medio de una seccion genomica, un cromosoma, o segmento de un cromosoma en un multiplo predeterminado de la varianza de perfil, y por ejemplo, un proceso de filtrado puede comprender la remocion de puntos de datos de un conjunto de datos que no se desvfan de la elevacion de perfil medio de una seccion genomica, un cromosoma o segmento de un cromosoma en un multiplo predeterminado de la varianza de perfil. Puede utilizarse un proceso de filtrado para reducir el numero de secciones genomicas candidato para establecer la presencia o ausencia de una variacion genetica. La reduccion del numero de secciones genomicas candidato analizadas para establecer la presencia o ausencia de una variacion genetica (por ejemplo, microdelecion, microduplicacion) frecuentemente reduce la complejidad y/o dimensionalidad de un conjunto de datos, y a veces aumenta la velocidad de la busqueda y/o identificacion de variaciones geneticas y/o aberraciones geneticas en dos o mas ordenes de magnitud.
Una o mas etapas de procesamiento pueden comprender una o mas o mas etapas de normalizacion. La normalizacion puede llevarse a cabo mediante cualquier metodo adecuado conocido en la tecnica. A veces la normalizacion comprende ajustar los valores medidos en diferentes escalas a una escala nocionalmente comun. A veces la normalizacion comprende un ajuste matematico sofisticado para alinear distribuciones de probabilidad de valores ajustados. En algunos casos la normalizacion comprende desalinear distribuciones a una distribucion normal. A veces la normalizacion comprende ajustes matematicos que permiten comparar valores correspondientes normalizados para
5
10
15
20
25
30
35
40
45
50
55
60
diferentes conjuntos de datos de una manera que elimina los efectos de determinadas influencias groseras (por ejemplo, errores y anomalfas). A veces la normalizacion comprende la puesta en escala. La normalizacion a veces comprende la division de uno o mas conjuntos de datos mediante una variable o formula predeterminadas. Los ejemplos no limitantes de metodos de normalizacion incluyen la normalizacion de a bins, la normalizacion mediante contenido de GC, regresion lineal y no lineal de cuadrados mmimos, LOESS, GC LOESS, LOWESS (Alisamiento de graficos de dispersion localmente ponderados), PERUN, enmascaramiento repetido (RM, repeat masking), normalizacion por GC y enmascaramiento repetido (GCRM), cQn y/o sus combinaciones. La determinacion del sexo del feto o de la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa) puede utilizar un metodo de normalizacion(por ejemplo, normalizacion de a bins, normalizacion por contenido de GC, regresion lineal y no lineal de cuadrados mmimos, LOESS, GC LOESS, LOWESS, PERUN, enmascaramiento repetido (RM), normalizacion por GC y enmascaramiento repetido (GCRM), cQn, un metodo de normalizacion conocido en la tecnica y/o una de sus combinaciones).
Por ejemplo, el LOESS es un metodo de modelacion de regresion conocido en la tecnica que combina multiples modelos de regresion en el metamodelo basado en el vecino k mas cercano. El LOESS recibe a veces la denominacion de “regresion polinomica localmente ponderada”. El GC LOESS, puede aplicar un modelo LOESS a la relacion entre los recuentos de fragmentos (por ejemplo, lecturas de secuencias, recuentos) y composicion de GC para secciones genomicas. El grafico de una curva suave a traves de un conjunto de puntos de datos utilizando LOESS se denomina a veces “curva de LOESS”, particularmente cuando cada valor alisado esta dado por una regresion ponderada cuadratica de cuadrados mmimos sobre el intervalo de valores de la variable de criterios scattergram en el eje de las y. Para cada punto en un conjunto de datos, el metodo LOESS se ajusta a un polinomio de bajo grado a un subconjunto de los datos, con valores variables explicativos cerca del punto cuya respuesta se esta estimando. Se ajusta el polinomio utilizando cuadrados mmimos ponderados, otorgandose una mayor ponderacion a los puntos cerca del punto cuya respuesta se esta estimando y menos ponderacion a los puntos mas alejados. El valor de la funcion de regresion para un punto es el obtenido evaluando el polinomio local mediante los valores variables explicativos para dicho punto de datos. El ajuste de LOESS se considera completo despues de que los valores de funcion de regresion hayan sido calculados para cada uno de los puntos de datos. Muchos de los detalles de los metodos, tales como el grado de las ponderaciones del modelo Y polinomico, son flexibles.
Puede utilizarse cualquier numero adecuado de normalizaciones. Los conjuntos de datos pueden ser normalizados 1 o mas, 5 o mas, 10 o mas o aun 20 o mas veces. Los conjuntos de datos pueden normalizarse a valores (por ejemplo, valor de normalizacion) representativos de cualquier aspecto o variable adecuados (por ejemplo, datos de muestras, datos de referencia, o ambos). Los ejemplos no limitantes de tipos de normalizacion de datos que pueden utilizarse incluyen la normalizacion de datos de recuento en bruto para una o mas pruebas seleccionadas o secciones genomicas de referencia al numero total de recuentos mapeados al cromosoma o el genoma entero en el que se mapean la o las secciones genomicas seleccionadas; la normalizacion de datos de recuentos en bruto para una o mas secciones genomicas seleccionadas respecto a un recuento de referencia mediana para una o mas secciones genomicas del cromosoma sobre el que se mapea una seccion genomica o segmentos dados; la normalizacion de datos de recuentos en bruto respecto a datos previamente normalizados o sus derivados; y la normalizacion de datos previamente normalizados respecto a otras variables de normalizacion predeterminadas. La normalizacion de un conjunto de datos tiene a veces el efecto de aislar errores estadfsticos, en funcion del rasgo o propiedad seleccionados como la variable de normalizacion predeterminada. La normalizacion de un conjunto de datos a veces tambien permite la comparacion entre los datos caractensticos de datos de diferentes escalas, por hecho de reducir los datos a una escala en comun (por ejemplo, a una variable de normalizacion predeterminada). Pueden utilizarse una o mas normalizaciones a un valor estadfsticamente derivado para minimizar las diferencias entre los datos y disminuir la importancia de los datos no relevantes. La normalizacion de secciones genomicas, o bins, respecto a un valor de normalizacion recibe a veces la denominacion de “normalizacion de a bins”.
Una etapa de procesamiento que comprende la normalizacion puede incluir la normalizacion a una ventana estatica, y por ejemplo, una etapa de procesamiento y que comprende la normalizacion puede incluir la normalizacion respecto a una ventana movil o deslizante. Tal como se utiliza en el presente, el termino “ventana” se refiere a una o mas secciones genomicas elegidas para el analisis, y a veces se utiliza como una referencia para la comparacion (por ejemplo, utilizada para la normalizacion y/o manipulacion matematica o estadfstica). La expresion “normalizacion respecto a una ventana estatica” utilizada en la presente, se refiere a un proceso de normalizacion en el que se utilizan una o mas secciones genomicas seleccionadas para la comparacion entre un sujeto y un conjunto de datos de referencia. Las secciones genomicas seleccionadas pueden utilizarse para generar un perfil. Por lo general una ventana estatica incluye un conjunto predeterminado de secciones genomicas que no cambian durante las manipulaciones y/o analisis. Las expresiones “normalizacion respecto a una ventana movil” y “normalizacion respecto a una ventana deslizante” utilizadas en la presente se refieren a normalizaciones llevadas a cabo en secciones genomicas localizadas en una region genomica (por ejemplo, entorno genetico inmediato, seccion genomica adyacente, y similares) de una seccion genomica de prueba seleccionada, en donde una o mas secciones genomicas de pruebas estan normalizadas respecto a secciones genomicas que de manera directa rodean la seccion genomica de prueba seleccionada. Las secciones genomicas seleccionadas pueden utilizarse para generar un perfil. Una normalizacion a ventana deslizante o movil frecuentemente incluye mover o deslizar de manera repetida respecto a una seccion genomica de prueba adyacente, y la normalizacion de la o las secciones genomicas de prueba adyacentes que de manera directa rodeen o sean adyacentes a la seccion genomica de pruebas recien seleccionada,
5
10
15
20
25
30
35
40
45
50
55
60
en donde las ventanas adyacentes tienen una o mas secciones genomicas en comun. Una pluralidad de secciones genomicas de prueba seleccionadas y/o cromosomas pueden analizarse mediante un proceso de ventana deslizante.
La normalizacion respecto a una ventana deslizante o movil puede generar uno o mas valores, donde cada valor representa una normalizacion respecto a un conjunto diferente de secciones genomicas de referencia seleccionadas entre diferentes regiones de un genoma (por ejemplo, cromosoma). El uno o mas valores generados pueden ser sumas acumulativas (por ejemplo, una estimacion numerica de la integral del perfil de recuentos normalizados sobre la seccion genomica seleccionada, dominio (por ejemplo, parte de un cromosoma), o cromosoma). Los valores generados por la ventana deslizante o movil pueden utilizarse para generar un perfil y para facilitar la obtencion de un resultado. Las sumas acumulativas de una o mas secciones genomicas puede visualizarse como una funcion de posicion genomica. El analisis de ventana movil o deslizante se utiliza a veces para analizar un genoma a efectos de establecer la presencia o ausencia de microdeleciones y/o de microinserciones. La exhibicion de una o mas sumas acumulativas de una o mas secciones genomicas puede utilizarse para identificar la presencia o ausencia de variaciones geneticas (por ejemplo, microdeleciones, microduplicaciones). El analisis por ventana movil o deslizante puede utilizarse para identificar regiones genomicas que contienen microdeleciones y por ejemplo, el analisis de ventana movil o deslizante puede utilizarse para identificar regiones genomicas que contienen microduplicaciones.
Una metodologfa de normalizacion particularmente util para reducir el error asociado con indicadores de acidos nucleicos lleva en la presente la denominacion de PERUN (Parameterized Error Removal and Unbiased Normalization, Remocion Parametrizada de Errores y Normalizacion sin Margen de Error) por ejemplo en la Solicitud de Patente International No. PCT/US12/59123). La metodologfa PERUN puede aplicarse a una variedad de indicadores de acido nucleico (por ejemplo, lecturas de secuencias de acido nucleico) a los fines de reducir los efectos de error que confunden las predicciones basadas en tales indicadores.
Por ejemplo, la metodologfa PERUN puede aplicarse a lecturas de secuencias de acidos nucleicos de una muestra y para reducir los efectos de error que pueden deteriorar la determinacion de las elevaciones de acidos nucleicos (por ejemplo, las determinaciones de elevaciones de secciones genomicas). Una aplicacion de este tipo es util para utilizar lecturas de secuencias de acidos nucleicos para evaluar la presencia o ausencia de una variacion genetica en un sujeto, manifestada como una elevacion variada de una secuencia de nucleotidos (por ejemplo, una seccion genomica). Los ejemplos no limitantes de variaciones en secciones genomicas incluyen los aneuploidfas de cromosoma por ejemplo, trisoirna 21, trisornfa 18, trisoirna 13 y la presencia o ausencia de un cromosoma de sexo (por ejemplo, XX en las mujeres versus XY en los hombres). Una trisoirna de un autosoma (por ejemplo, un cromosoma distinto de un cromosoma de sexo) puede llevar la denominacion de “cromosoma afectado”. Otros ejemplos no limitantes de variaciones en elevaciones en secciones genomicas incluyen las microdeleciones, microinserciones, duplicaciones y mosaiquismo.
En determinadas aplicaciones, la metodologfa PERUN puede reducir la falta de fiabilidad experimental mediante la normalizacion de indicadores de acidos nucleicos para grupos geonomicos particulares; estos ultimos reciben la denominacion de “bins”. Los bins incluyen una coleccion adecuada de indicadores de acidos nucleicos, un ejemplo no limitante de los cuales incluye una longitud de nucleotidos contiguos, que en la presente recibe la denominacion de seccion genomica o porcion de un genoma de referencia. Los bins pueden incluir los indicadores de acidos nucleicos descritos en la presente. En tales aplicaciones, la metodologfa PERUN generalmente normaliza los indicadores de acidos nucleicos en bins particulares a traves de un numero de muestras en tres dimensiones.
La metodologfa PERUN puede incluir calcular una elevacion de seccion genomica para cada bin a partir de una relacion ajustada entre (i) la falta de fiabilidad experimental para un bin de un genoma de referencia a las que se mapean las lecturas de secuencias, e (ii) recuentos de las lecturas de secuencias mapeadas al bin. La falta de fiabilidad experimental para cada uno de los bins puede determinarse a traves de multiples muestras de acuerdo con una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de secuencias mapeadas a cada uno de los bins, e (ii) un rasgo de mapeo para cada uno de los bins. La relacion ajustada para cada muestra puede ensamblarse para multiples muestras en tres dimensiones.
Una relacion puede ser generada mediante un metodo conocido en la tecnica. Puede generarse una relacion en dos dimensiones para cada muestra, y una variable probativa de error, o posiblemente probativa de error, puede seleccionarse para una o mas de las dimensiones. Una relacion puede ser generada, por ejemplo, utilizando software de graficacion conocido en la tecnica que mapea graficos utilizando valores de dos o mas variables provistas por un usuario. Una relacion puede ser ajustada mediante un metodo conocido en la tecnica (por ejemplo, software de graficacion). Determinadas relaciones puede ser ajustadas mediante regresion lineal, y la regresion linear puede generar un valor de pendiente y un valor de intercepcion. Determinadas relaciones a veces no son lineales y pueden ser ajustadas mediante una funcion no lineal, tal como una funcion parabolica, hiperbolica o exponencial, por ejemplo.
En la metodologfa PERUN, una o mas de las relaciones ajustadas puede ser linear. Para un analisis de acidos nucleicos circulantes libres de celulas de mujeres embarazadas, donde el margen de error experimental es margen de error de GC y el aspecto de mapeo es contenido de GC, la relacion ajustada para una muestra entre (i) los recuentos de las lecturas de secuencias mapeadas a cada bin, y (ii) el contenido de GC para cada uno de los bins, puede ser linear. Para esta ultima relacion ajustada, la pendiente forma parte de un margen de error de GC, y es posible determinar un coeficiente de margen de error de GC para cada bin cuando las relaciones ajustadas son ensambladas
5
10
15
20
25
30
35
40
45
50
55
60
entre multiples muestras. La relacion ajustada para multiples muestras y un bin entre (i) el coeficiente de margen de error de gC para el bin, y (ii) los recuentos de las lecturas de secuencias mapeadas de a bin, tambien puede ser lineal. Pueden obtenerse una intercepcion y una pendiente a partir de la relacion ajustada mencionada en ultimo termino. En tales aplicaciones, la pendiente esta orientada al margen de error espedfico para muestra e intercepta y esta orientado a un patron de atenuacion espedfico para bin comunes a todas las muestras. La metodologfa PERUN puede reducir de manera significativa dicho margen de error espedfico para muestra y la atenuacion espedfica para bin cuando se calculen las elevaciones en secciones genomicas para proveer un resultado (por ejemplo, la presencia o ausencia de una variacion genetica, la determinacion del sexo del feto).
Por lo tanto, la aplicacion de la metodologia PERUN a lecturas de secuencias a traves de multiples muestras en paralelo puede reducir de manera significativa el error causado por (i) el margen de error experimental espedfico de muestra (por ejemplo, margen de error de GC) y (ii) atenuacion, espedfico para bin, comun a las muestras. Otros metodos en los que cada una de estas dos fuentes de error se tiene en cuenta por separado consecutivamente frecuentemente no son capaces de reducir los mismos de una manera tan efectiva como la metodologia PERUN. Si bien no deseamos limitarnos a la teona, se preve que la metodologia PERUN reduce el error de manera mas efectiva en parte porque es un proceso por lo general aditivo y no se distribuye de manera ampliada como los procesos generalmente multiplicativos utilizados en otros enfoques de normalizacion (por ejemplo, GC-LOESS).
Pueden utilizarse tecnicas adicionales de normalizacion y estadfsticos en combinacion con una metodologia PERUN. Un proceso adicional puede aplicarse antes, durante, y/o despues de la utilizacion de la metodologia PERUN. Los ejemplos no limitantes de procesos que pueden utilizarse en combinacion con una metodologia PERUN se describen en lo que sigue.
Puede utilizarse una normalizacion o ajuste secundario de la elevacion de seccion genomica para el contenido de GC en conjuncion con una metodologia PERUN. Puede utilizarse un procedimiento adecuado para un ajuste o normalizacion adecuado para el contenido de GC (por ejemplo, GC-LOESS, GCRM). Es posible identificar una muestra particular para la aplicacion de un proceso de normalizacion de GC adicional. Por ejemplo, la aplicacion de una metodologia PERUN puede determinar el margen de error de GC para cada muestra, y una muestra asociada con un margen de error de GC por arriba de un determinado umbral puede ser seleccionarse para un proceso adicional para la normalizacion de gC. Un nivel de umbral predeterminado puede ser utilizado para seleccionar tales muestras para una normalizacion de GC adicional. Un filtrado de bin o proceso de ponderacion puede ser utilizado en conjuncion con una metodologia PERUN.
Modulo de margen de error de GC
La determinacion del margen de error de GC (por ejemplo, la determinacion del margen de error de GC para cada de las porciones de un genoma de referencia (por ejemplo, secciones genomicas)) puede ser provista por un modulo de margen de error de GC (por ejemplo, por un aparato que comprende un modulo de margen de error de GC). Puede requerirse un modulo de margen de error de GC para proveer la determinacion de un margen de error de GC. A veces un modulo de margen de error de GC provee una determinacion de margen de error de GC a partir de una relacion ajustada (por ejemplo, una relacion lineal ajustada) entre recuentos de las lecturas de secuencias mapeadas a cada una de las porciones de un genoma de referencia y contenido de GC de cada porcion. Un aparato que comprende un modulo de margen de error de GC puede comprender por lo menos un procesador. Un margen de error de determinaciones de GC (es decir, margen de error de datos de GC) puede ser provisto por un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) el cual procesador puede llevar a cabo y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) procedentes del modulo de margen de error de GC. El margen de error de los datos de GC puede ser provisto por un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un modulo de margen de error de gC puede operar con uno o varios procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de memoria y/o red de memoria (por ejemplo, una nube)). El margen de error de datos de GC puede ser provista por un aparato que comprende uno o mas de los siguientes: una o mas celdas de flujo, una camara, componentes para el manejo de fluidos, una impresora, un display (por ejemplo, un LED, LCT o CRT) y similares. Un modulo de margen de error de GC puede recibir datos y/o informacion desde un aparato o modulo adecuados. A veces un modulo de margen de error de GC puede recibir datos y/o informacion desde un modulo de secuenciado, un modulo de normalizacion, un modulo de ponderacion, un modulo de mapeo o modulo de recuento. Un modulo de margen de error de GC es a veces parte de un modulo de normalizacion (por ejemplo, de un modulo de normalizacion PERUN). Un modulo de margen de error de GC puede recibir lecturas de secuenciado procedentes de un modulo de secuenciado, lecturas de secuenciado mapeadas procedentes de un modulo de mapeo y/o recuentos procedentes de un modulo de recuentos. Frecuentemente un modulo de margen de error de gC recibe datos y/o informacion desde un aparato u otro modulo (por ejemplo, un modulo de recuentos), transforma los datos y/o informacion y provee un margen de error de datos de Gc y/o informacion (por ejemplo, una determinacion de margen de error de GC, una relacion lineal ajustada, y similares). El margen de error de datos de GC y/o informacion puede ser transferido desde un modulo de margen de error de GC a un modulo de nivel, modulo de filtrado, un modulo de comparacion, un modulo de normalizacion, un modulo de ponderacion, un modulo de ajuste de intervalo, un modulo de ajuste, un modulo de categorizacion, y/o un modulo de resultado.
Modulo de nivel
5
10
15
20
25
30
35
40
45
50
55
60
La determinacion de niveles (por ejemplo, elevaciones) y/o el calculo de niveles de secciones genomicas (por ejemplo, las elevaciones en secciones genomicas) para porciones de un genoma de referencia puede ser provista por un modulo de nivel (por ejemplo, por un aparato que comprende un modulo de nivel). Un modulo de nivel puede requerirse para proveer un nivel o un nivel calculado de seccion genomica. A veces un modulo de nivel provee un nivel de una relacion ajustada (por ejemplo, una relacion lineal ajustada) entre un margen de error de GC y recuentos de las lecturas de secuencias mapeadas a cada una de las porciones de un genoma de referencia. A veces un modulo de nivel calcula un nivel de seccion de seccion genomica como parte de PERUN. Un modulo de nivel puede proveer un nivel de seccion genomica (es decir, Li) de acuerdo con la ecuacion Li = (mi - GiS) I1 donde G; es el margen de error de GC, mi representa recuentos medidos mapeados a cada porcion de un genoma de referencia, i representa una muestra, y I representa la intercepcion y S es la pendiente de una relacion ajustada (por ejemplo, una relacion lineal ajustada) entre un margen de error de GC y recuentos de las lecturas de secuencias mapeadas a cada una de las porciones de un genoma de referencia. Un aparato que comprende un modulo de nivel puede comprender por lo menos un procesador. La determinacion de un nivel (es decir, datos de nivel) puede ser provista por un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) el cual procesador puede llevar a cabo y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) procedentes del modulo de nivel. Los datos de nivel pueden ser provistos por un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajen en paralelo entre sf. Un modulo de nivel puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de memoria y/o red de memoria (por ejemplo, una nube)). Los datos de nivel puede ser provistos por un aparato que comprende uno o mas de los siguientes: una o mas celdas de flujo, una camara, componentes para el manejo de fluidos, una impresora, un display (por ejemplo, un LED, LCT o CRT) y similares. Un modulo de nivel puede recibir datos y/o informacion desde un aparato o modulo adecuados. A veces un modulo de nivel puede recibir datos y/o informacion procedentes de un modulo de margen de error de GC, un modulo de secuenciacion, un modulo de normalizacion, un modulo de ponderacion, un modulo de mapeo o modulo de recuento. Un modulo de nivel puede recibir lecturas de secuenciado procedentes de un modulo de secuenciado, lecturas de secuenciado mapeadas procedentes de un modulo de mapeo y/o recuentos procedentes de un modulo de recuentos. Un modulo de nivel es a veces parte de un modulo de normalizacion (por ejemplo, de un modulo de
normalizacion PERUN). Frecuentemente un modulo de nivel recibe datos y/o informacion desde un aparato u otro
modulo (por ejemplo, un modulo de margen de error de GC), transforma los datos y/o informacion y provee datos de nivel y/o informacion (por ejemplo, la determinacion de un nivel, una relacion lineal ajustada, y similares). Los datos de nivel y/o informacion pueden ser transferidos desde un modulo de nivel a un modulo de comparacion, un modulo de normalizacion, un modulo de ponderacion, un modulo de ajuste de intervalo, un modulo de ajuste, un modulo de
categorizacion, un modulo de normalizacion y/o un modulo de resultado.
Modulo de filtrado
El filtrado de secciones genomicas puede ser provisto un modulo de filtrado (por ejemplo, por un aparato que comprende un modulo de filtrado). Un modulo de filtrado puede ser requerido para proveer datos filtrados de secciones genomicas (por ejemplo, secciones genomicas filtradas) y/o para remover secciones de su consideracion.
A veces un modulo de filtrado remueve recuentos mapeados de una seccion genomica de consideracion. A veces un modulo de filtrado remueve recuentos mapeados de una seccion genomica de la determinacion de un nivel de una elevacion o perfil. Un modulo de filtrado puede filtrar datos (por ejemplo, recuentos, recuentos mapeados a secciones genomicas, secciones genomicas, elevaciones de secciones genomicas, recuentos normalizados, recuentos en bruto, y similares) mediante uno o mas procedimientos de filtrado conocidos en la tecnica o descritos en la presente. Un aparato que comprende un modulo de filtrado puede comprender por lo menos un procesador. Los datos filtrados pueden ser provistos por un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) el cual procesador puede llevar a cabo y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) procedentes del modulo de filtrado. Los datos filtrados pueden ser provistos por un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajen en paralelo entre sf. Un modulo de filtrado puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de memoria y/o red de memoria (por ejemplo, una nube)). Los datos filtrados puede ser provistos por un aparato que comprende uno o mas de los siguientes: una o mas celdas de flujo, una camara, componentes para el manejo de fluidos, una impresora, un display (por ejemplo, un LED, LCT o CRT) y similares. Un modulo de filtrado puede recibir datos y/o informacion desde un aparato o modulo adecuados. A veces un modulo de filtrado puede recibir datos y/o informacion desde un modulo de secuenciado, un modulo de normalizacion, un modulo de ponderacion, un modulo de mapeo o modulo de recuento. Un modulo de filtrado puede recibir lecturas de secuenciado procedentes de un modulo de secuenciado, lecturas de secuenciado mapeadas procedentes de un modulo de mapeo y/o recuentos procedentes de un modulo de recuentos. Frecuentemente un modulo de filtrado recibe datos y/o informacion procedente de otro aparato o modulo, transforma los datos y/o informacion y provee datos y/o informacion filtrados (por ejemplo, recuentos filtrados, valores filtrados, secciones genomicas filtradas, y similares). Los datos y/o informacion filtrados pueden ser transferidos desde un modulo de filtrado a un modulo de comparacion, un modulo de normalizacion, un modulo de ponderacion, un modulo de ajuste de intervalo, un modulo de ajuste, un modulo de categorizacion, y/o un modulo de resultado.
Modulo de ponderacion
La ponderacion de secciones genomicas puede provista por un modulo de ponderacion (por ejemplo, por un aparato
5
10
15
20
25
30
35
40
45
50
55
60
que comprende un modulo de ponderacion). Un modulo de ponderacion puede ser requerido para ponderar secciones genomicas y/o proveer valores de secciones genomicas ponderadas. Un modulo de ponderacion puede ponderar secciones genomicas mediante uno o mas procedimientos de ponderacion conocidos en la tecnica o descritos en la presente. Un aparato que comprende un modulo de ponderacion puede comprender por lo menos un procesador. Las secciones genomicas ponderadas pueden ser provistas por un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) el cual procesador puede llevar a cabo y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) a partir del modulo de ponderacion. Las porciones genomicas ponderadas pueden ser provistas por un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajen en paralelo entre sf. Un modulo de ponderacion puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de memoria y/o red de memoria (por ejemplo, una nube)). Las porciones genomicas ponderadas pueden ser provistos por un aparato que comprende uno o mas de los siguientes: una o mas celdas de flujo, una camara, componentes para el manejo de fluidos, una impresora, un display (por ejemplo, un LED, LCT o CRT) y similares. Un modulo de ponderacion puede recibir datos y/o informacion desde un aparato o modulo adecuados. A veces un modulo de ponderacion puede recibir datos y/o informacion desde un modulo de secuenciado, un modulo de normalizacion, un modulo de filtrado, un modulo de mapeo y/o un modulo de recuentos. Un modulo de ponderacion puede recibir lecturas de secuenciado procedentes de un modulo de secuenciado, lecturas de secuenciado mapeadas procedentes de un modulo de mapeo y/o recuentos procedentes de un modulo de recuentos. Un modulo de ponderacion puede recibir datos y/o informacion procedentes de otro aparato o modulo, transforma los datos y/o informacion y provee datos y/o informacion (por ejemplo, porciones genomicas ponderadas, valores ponderados, y similares). Los datos y/o informacion de secciones genomicas ponderadas pueden ser transferidos desde un modulo de ponderacion a un modulo de comparacion, un modulo de normalizacion, un modulo de filtrado, un modulo de ajuste de intervalo, un modulo de ajuste, un modulo de categorizacion, y/o un modulo de resultado.
En conjuncion con una metodologfa PERUN puede utilizarse una tecnica de normalizacion que reduzca el error asociado con las inserciones, duplicaciones y/o deleciones (por ejemplo, variaciones en el numero de copias maternas y/o fetales).
La elevaciones en secciones genomicas calculadas mediante la metodologfa PERUN pueden utilizarse directamente para proveer un resultado. Las elevaciones en secciones genomicas pueden utilizarse directamente para proveer un resultado para la muestras en las que la fraccion fetal es de aproximadamente el 2% a aproximadamente el 6% o superior (por ejemplo, una fraccion fetal de aproximadamente el 4% o superior). Las elevaciones en secciones genomicas calculadas mediante la metodologfa PERUN son a veces objeto de un procesamiento ulterior para proveer un resultado. Las elevaciones calculadas en secciones genomicas puede ser elevaciones calculadas en secciones genomicas estandarizadas, la suma, el valor medio o mediano para una seccion genomica de prueba (por ejemplo, el cromosoma 21; cromosoma Y) puede dividirse por la suma, media o mediana o las elevaciones calculadas en secciones genomicas para secciones genomicas distintas de la seccion genomica de prueba (por ejemplo, autosomas distintos del cromosoma 21; cromosomas distintos del cromosoma Y), para generar una elevacion de seccion genomica experimental. Una elevacion de seccion genomica experimental o una elevacion de seccion genomica en bruto pueden utilizarse como parte de un analisis de estandarizacion, tal como el calculo de un Puntaje Z o Valor Z. Un puntaje Z puede ser generado para una muestra para lo cual se resta una elevacion de seccion genomica prevista de una elevacion de seccion genomica experimental o de una elevacion de seccion genomica en bruto, y el valor resultante puede ser dividido por una desviacion estandar para las muestras. Los puntajes Z resultantes pueden ser distribuidos para diferentes muestras y analizarselos, o se los puede referir a otras variables tales como fraccion fetal y otros, y analizarselos de manera de obtener un resultado.
Como se observa en la presente, la metodologfa PERUN no se limita a la normalizacion da el margen de error de GC y contenido de GC de por sf, y puede utilizarse para reducir el error asociado con otras fuentes de error. Un ejemplo no limitante de una fuente de margen de error de contenido no GC es la mapeabilidad. Cuando se abordan parametros de normalizacion distintos del margen de error de contenido de GC, una o mas de las relaciones ajustadas puede ser no lineal por ejemplo, hiperbolica, exponencial), en donde el margen de error experimental se determina a partir de una relacion lineal, por ejemplo, puede analizarse una estimacion de la curvatura del margen de error experimental.
La metodologfa PERUN puede aplicarse a una variedad de indicadores de acidos nucleicos. Los ejemplos no limitantes de indicadores de acidos nucleicos incluyen lecturas de acidos nucleicos de secuencias y elevaciones de acidos nucleicos en una ubicacion particular sobre un microarray. Los ejemplos no limitantes de lecturas de secuencias incluyen las obtenidas a partir de ADN circulante libre de celulas, aRn circulante libre de celulas, ADN celular y ARN celular. La metodologfa PERUN puede aplicarse a lecturas de secuencias mapeadas a secuencias de referencia adecuadas, tales como ADN de referencia genomica, ARN de referencia celular (por ejemplo, transcriptoma), y sus porciones (por ejemplo, una o mas partes de un complemento genomico de ADN o transcriptoma de ARN, una o mas partes de un cromosoma).
Por lo tanto, el acido nucleico celular (por ejemplo, ADN o ARN) puede servir como un indicador de acido nucleico. Las lecturas de acido nucleico celular mapeadas a genoma de referencia porciones pueden normalizarse utilizando la metodologfa PERUN.
El acido nucleico celular se halla a veces en asociacion con una o mas protemas, y un agente que capture acido nucleico asociado a protema puede utilizarse para enriquecer este ultimo. En determinados casos, un agente es un
5
10
15
20
25
30
35
40
45
50
55
60
anticuerpo o fragmento de anticuerpo que se mapea espedficamente a una protema en asociacion con un acido nucleico celular (por ejemplo, un acido nucleico que de manera espedfica se liga a una protema cromatina (por ejemplo, la protema histona)). Los procesos en los que se utiliza un anticuerpo o fragmentos de anticuerpo para enriquecer el acido nucleico celular ligado a una protema particular a veces llevan la denominacion de procesos de inmunoprecipitacion de cromatina (ChIP). El anticuerpo enriquecido en ChIP es un acido nucleico asociado con una protema celular, tales como ADN o ARN, por ejemplo. Las lecturas de acido nucleico enriquecido en ChIP pueden obtenerse utilizando tecnologfa conocida en la tecnica. Las lecturas de acido nucleico enriquecido en ChIP pueden ser mapeadas a una o mas porciones de un genoma de referencia, y los resultados pueden normalizarse utilizando la metodologfa PERUN para obtener un resultado.
Por lo tanto, en la presente se proveen metodos para calcular con un margen de error reducido elevaciones en secciones genomicas para una muestra de prueba, que comprenden (a) obtener recuentos de las lecturas de secuencias mapeadas a bins de un genoma de referencia, las cuales lecturas de secuencias son lecturas del acido nucleico celular procedentes de una muestra de prueba obtenida aislando una protema a la que el acido nucleico estado asociado; (b) determinar el margen de error experimental para cada uno de los bins a traves de multiples muestras de una relacion ajustada entre (i) los recuentos de las lecturas de secuencias mapeadas a cada uno de los bins, y (ii) un rasgo de mapeo para cada uno de los bins; y (c) calcular la elevacion de una seccion genomica para cada uno de los bins de una relacion ajustada entre el margen de error experimental y los recuentos de las lecturas de secuencias mapeadas a cada uno de los bins, por lo que se proveen elevaciones calculadas en secciones genomicas, con lo que el margen de error en los descuentos de las lecturas de secuencias mapeadas a cada uno de los bins se reduce en las elevaciones calculadas en secciones genomicas.
El ARN celular puede servir como indicador de acidos nucleicos. Las lecturas de ARN celular puede ser mapearse a porciones de ARN de referencia y normalizadas utilizando la metodologfa PERUN para obtener un resultado. Las secuencias conocidas para un ARN celular, conocidos como transcriptoma, o uno de sus fragmentos, pueden utilizarse como una referencia a la cual es posible mapear las lecturas de ARN de una muestra. Las lecturas de ARN de muestra pueden obtenerse utilizando la tecnologfa conocida en la tecnica. Los resultados de las lecturas de ARN mapeadas a una referencia pueden normalizarse utilizando la metodologfa PERUN para obtener un resultado.
Por lo tanto, en la presente se proveen metodos para calcular con un margen de error reducido elevaciones en secciones genomicas para una muestra de prueba, que comprenden (a) obtener recuentos de las lecturas de secuencias mapeadas a bins de ARN de referencia (por ejemplo, transcriptoma de referencia o uno o mas de sus segmentos), las cuales lecturas de secuencias son lecturas de ARN celular de una muestra de prueba; (b) determinar el margen de error experimental para cada uno de los bins a traves de multiples muestras de una relacion ajustada entre (i) los recuentos de las lecturas de secuencias mapeadas a cada uno de los bins, y (ii) un rasgo de mapeo para cada uno de los bins; y (c) calcular la elevacion de una seccion genomica para cada uno de los bins de una relacion ajustada entre el margen de error experimental y recuentos de las lecturas de secuencias mapeadas a cada uno de los bins, por lo que se proveen elevaciones calculadas en secciones genomicas, por lo que el margen de error en los recuentos de las lecturas de secuencias mapeadas a cada uno de los bins se reduce en las elevaciones calculadas en secciones genomicas.
Los niveles de acidos nucleicos de microarray pueden servir como indicadores de acidos nucleicos. Los niveles de acidos nucleicos a traves de muestras para un abordaje particular, o para hibridar acido nucleico, en un array pueden analizarse utilizando la metodologfa PERUN, por lo que se normalizan los indicadores de acidos nucleicos provistos por un analisis de microarray. De esta manera, un abordaje particular o la hibridacion de acido nucleico en un microarray es analogo a un bin para lecturas mapeadas de acidos nucleicos de secuencias, y la metodologfa PERUN puede utilizarse para normalizar datos de microarray de manera de proveer un resultado mejorado.
Por lo tanto, en la presente se proveen metodos para reducir el error del nivel del acido nucleico de array para una muestra de prueba, que comprenden (a) obtener niveles de acidos nucleicos en un microarray al que el acido nucleico de una muestra de prueba ha estado asociado, el cual microarray incluye un array de acidos nucleicos de captura; (b) determinar el margen de error experimental para cada uno de los acidos nucleicos de captura a traves de multiples muestras de una relacion ajustada entre (i) los niveles de muestras de prueba de acidos nucleicos asociados con cada uno de los acidos nucleicos de captura, y (ii) un rasgo de asociacion para cada uno de los acidos nucleicos de captura; y (c) calcular el nivel de un acido nucleico de una muestra de prueba para cada uno de los acidos nucleicos de captura de una relacion ajustada entre el margen de error experimental y los niveles del acido nucleico de la muestra de prueba asociados con cada uno de los acidos nucleicos de captura, por lo que se proveen niveles calculados, con lo que el margen de error en los niveles del acido nucleico de la muestra de prueba asociados con cada uno de los acidos nucleicos de captura se reduce en los niveles calculados. El rasgo de asociacion arriba mencionado puede ser cualquier rasgo relacionado con una hibridacion de un acido nucleico de muestra de prueba a un acido nucleico de captura que da origen, o puede dar origen a un error en la determinacion del nivel del acido nucleico de la muestra de prueba asociado con un acido nucleico de captura.
Modulo de normalizacion
Los datos normalizados (por ejemplo, los recuentos normalizados) pueden ser provistos por un modulo de normalizacion (por ejemplo, por un aparato que comprende un modulo de normalizacion). Un modulo de normalizacion
5
10
15
20
25
30
35
40
45
50
55
60
puede ser requerido para proveer datos normalizados (por ejemplo, recuentos normalizados) obtenidos de lecturas de secuenciacion. Un modulo de normalizacion puede normalizar los datos (por ejemplo, recuentos, recuentos filtrados, recuentos en bruto) por medio de uno o mas procedimientos de normalizacion conocidos en la tecnica. Un aparato que comprende un modulo de normalizacion puede comprender por lo menos un procesador. Los datos normalizados pueden ser provisto por un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) el cual procesador puede llevar a cabo y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) procedentes del modulo de normalizacion. Los datos normalizados pueden ser provistos por un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajen en paralelo entre sf. Un modulo de normalizacion puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de memoria y/o red de memoria (por ejemplo, una nube)). Los datos normalizados puede ser provistos por un aparato que comprende uno o mas de los siguientes: una o mas celdas de flujo, una camara, componentes para el manejo de fluidos, una impresora, un display (por ejemplo, un LED, LCT o CRT) y similares. Un modulo de normalizacion puede recibir datos y/o informacion desde un aparato o modulo adecuados. A veces un modulo de normalizacion puede recibir datos y/o informacion desde un modulo de secuenciado, un modulo de normalizacion, un modulo de mapeo o modulo de recuento. Un modulo de normalizacion puede recibir lecturas de secuenciado procedentes de un modulo de secuenciado, lecturas de secuenciado mapeadas procedentes de un modulo de mapeo y/o recuentos procedentes de un modulo de recuentos. Frecuentemente un modulo de normalizacion recibe datos y/o informacion procedente de otro aparato o modulo, transforma los datos y/o informacion y provee datos y/o informacion normalizados (por ejemplo, recuentos normalizados, valores normalizados, valores de referencia normalizados (NRVs), y similares). Los datos y/o informacion normalizados pueden ser transferidos desde un modulo de normalizacion a un modulo de comparacion, un modulo de normalizacion, un modulo de ajuste de intervalo, un modulo de ajuste, un modulo de categorizacion, y/o un modulo de resultado. A veces los recuentos normalizados (por ejemplo, los recuentos normalizados mapeados) se transfieren a un modulo de representacion previsto y/o un modulo de representacion experimental desde un modulo de normalizacion.
Una etapa de procesamiento puede comprender una ponderacion. Las expresiones “ponderado”, “ponderacion” o “funcion ponderal” o sus derivados o equivalentes gramaticales, utilizados en la presente, se refieren a la manipulacion matematica de una porcion o de la totalidad de un conjunto de datos a veces utilizado para alterar la influencia de determinados rasgos o variables de un conjunto de datos respecto a otro rasgo o conjunto de (por ejemplo, para incrementar o disminuir el significado y/o contribucion de los datos contenidos en una o mas secciones genomicas o bins, sobre la base de la calidad o utilidad de los datos en el en los bins seleccionados). Puede utilizarse una funcion de ponderacion para incrementar la influencia de los datos con una varianza de medicion relativamente pequena, y/o para disminuir la influencia de los datos con una varianza de medicion relativamente grande. Por ejemplo, los bins con una secuencia de datos sobrepresentadas o de baja calidad pueden ser “ponderados descendentemente” para minimizar la influencia sobre un conjunto de datos, y mientras que los bins seleccionados pueden ser “ponderados ascendentemente” a efectos de incrementar la influencia sobre un conjunto de datos. Un ejemplo no limitante de una funcion de ponderacion es [1 / (desviacion estandar)2]. Una etapa de ponderacion se lleva a veces a cabo de una manera sustancialmente similar a una etapa de normalizacion. Un conjunto de datos pueden dividirse por un valor predeterminado (por ejemplo, una variable de ponderacion). Una variable predeterminada (por ejemplo, una funcion minimizada blanco, Phi) se selecciona frecuentemente para ponderar diferentes partes de un conjunto de datos diferentemente (por ejemplo, para incrementar la influencia de determinados tipos de datos mientras se disminuye la influencia de otros tipos de datos).
Una etapa de procesamiento puede comprender una o mas o mas manipulaciones matematicas y/o estadfsticas. Cualquier manipulacion matematica y/o estadfstica adecuada, sola o en combinacion, puede utilizarse para analizar y/o manipular un conjunto de datos descrito en la presente. Puede utilizarse cualquier numero adecuado de manipulaciones matematicas y/o estadfsticas. Un conjunto de datos puede manipularse matematica y/o estadfsticamente 1 o mas, 5 o mas, 10 o mas o 20 o mas veces. Los ejemplos no limitantes de las manipulaciones matematicas y estadfsticas que pueden utilizarse incluyen la adicion, sustraccion, multiplicacion, division, funciones algebraicas, estimuladores de cuadrados mmimos, ajuste de curvas, ecuaciones diferenciales, polinomios racionales, polinomios dobles, polinomios ortogonales, Zs de puntaje, valores p, valores chi, valores phi, analisis de elevaciones pico, determinacion de elevaciones de bordes de pico, calculo de relaciones entre las areas de pico, analisis de la elevacion cromosomica mediana, calculo de la desviacion media absoluta, suma de los residuales cuadrados, valor mediano, desviacion estandar, error estandar, similares y sus combinaciones. Puede llevarse a cabo una manipulacion matematica y/o estadfstica sobre la totalidad o sobre una porcion de los datos de lecturas de secuencias, o productos procesados de los mismos. Los ejemplos no limitantes de variables o rasgos de conjuntos de datos que pueden manipularse estadfsticamente incluyen recuentos brutos, recuentos filtrados, recuentos normalizados, alturas de pico, anchos de pico, areas de pico, bordes de pico, tolerancias laterales, valores P, elevaciones medianas, distribucion de recuentos dentro de una region genomica, representacion relativa de especies de acidos nucleicos, similares y sus combinaciones.
Una etapa de procesamiento puede incluir la utilizacion de uno o mas algoritmos estadfsticos. Cualquier algoritmo estadfstico adecuado, solo o en combinacion, puede utilizarse para analizar y/o manipular un conjunto de datos descrito en la presente. Cualquier numero adecuado de algoritmos estadfsticos puede utilizarse. Pueden analizarse conjuntos de datos utilizando 1 o mas, 5 o mas, 10 o mas o 20 o mas algoritmos estadfsticos. Los ejemplos no limitantes de algoritmos estadfsticos adecuados para ser utilizado con un metodo descrito en la presente incluyen
5
10
15
20
25
30
35
40
45
50
55
60
arboles de decision, contraceros, comparaciones multiples, prueba omnibus, problema de Behrens-Fisher, bootstrapping, metodo de Fisher para combinar pruebas independientemente de su significancia, hipotesis nula, error de tipo I, error de tipo II, prueba exacto, prueba Z de una sola muestra, prueba Z con dos muestras, prueba t con una sola muestra, prueba t apareada, prueba t unificada de dos muestras que tienen varianzas iguales, prueba t con dos muestras no unificadas que tienen varianzas desiguales, prueba z de una proporcion, prueba z unificada de dos muestras, prueba z unificada de dos proporciones, prueba z no unificada de dos proporciones, prueba chi cuadrado de una muestra, prueba F de dos muestras para igualdad de varianzas, intervalo de confianza, intervalo crefble, significancia, metaanalisis, regresion lineal simple, regresion lineal robusta, similares o combinaciones de lo que precede. Los ejemplos no limitantes de variables o rasgos de conjuntos de datos que pueden analizarse utilizando algoritmos estadfsticos incluyen recuentos brutos, recuentos filtrados, recuentos normalizados, alturas de picos, anchos de picos, bordes de picos, tolerancias laterales, valores P, elevaciones medianas, elevaciones medias, distribucion de recuentos dentro de una region genomica, representacion relativa de especies de acidos nucleicos, similares y sus combinaciones.
Los conjuntos de datos puede analizarse utilizando multiplos (por ejemplo, 2 o mas) algoritmos estadfsticos (por ejemplo, regresion de cuadrados mmimos, analisis de componentes de principio, analisis de discriminantes lineales, analisis de discriminantes cuadraticos, embolsado, redes neurales, modelos de maquina de vector de soporte, bosques aleatorios, modelos de clasificacion de arboles, vecinos K mas cercanos, regresion logfstica y alisado de perdidas) y/o manipulaciones matematicas y/o estadfsticas (por ejemplo, que en la presente reciben la denominacion de manipulaciones). La utilizacion de multiples manipulaciones puede generar un espacio N-dimensional que puede utilizarse para proveer un resultado. El analisis de un conjunto de datos utilizando multiples manipulaciones puede reducir la complejidad y/o dimensionalidad del conjunto de datos. Por ejemplo, la utilizacion de multiples manipulaciones en un conjunto de datos de referencia puede generar un espacio N-dimensional (por ejemplo, un grafico de probabilidad) que puede utilizarse para representar la presencia o ausencia de una variacion genetica, en funcion del status genetico de las muestras de referencia (por ejemplo, positivo o negativo para una variacion genetica seleccionada). El analisis de muestras de prueba utilizando un conjunto sustancialmente similar de manipulaciones puede utilizarse para generar un punto N-dimensional para cada de las muestras de prueba. La complejidad y/o dimensionalidad de un conjunto de datos sujeto a veces se reduce a un valor individual o a un punto N- dimensional individual que puede compararse facilmente con el espacio N-dimensional generado a partir de los datos de referencia. Los datos de muestras de prueba que recaen dentro del espacio N-dimensional poblado por los datos de referencia sujeto son indicativos de un status genetico sustancialmente similar a la de los sujetos de referencia. Los datos de muestra de prueba que recaen fuera del espacio N-dimensional poblado por los datos de referencia sujeto son indicativos de un status genetico sustancialmente diferente del de los sujetos de referencia. Las referencias pueden ser euploides o de alguna otra manera no tienen una variacion genetica ni una condicion medica.
Despues de que los conjuntos de datos han sido contados, opcionalmente filtrados y normalizados, los conjuntos de datos procesados pueden ser objeto de manipulacion adicional mediante uno o mas procedimientos de filtrado y/o normalizacion. Un conjunto de datos que ha sido objeto de manipulacion adicional mediante uno o mas procedimientos de filtrado y/o normalizacion puede utilizarse para generar un perfil. El uno o mas procedimientos de filtrado y/o normalizacion pueden a veces reducir la complejidad y/o dimensionalidad del conjunto de datos. Puede proveerse un resultado sobre un conjunto de datos con una complejidad y/o dimensiones reducidas.
Las secciones genomicas puede ser filtradas en base a, o parcialmente en base a, una medida de error. Una medida de error que comprende valores de desviacion absolutos, tales como un factor R, puede utilizarse para la remocion o ponderacion de una seccion genomica. Un factor R puede definirse como la suma de las desviaciones absolutas de los valores de recuento predichos a partir de las mediciones reales divididos por los valores de recuento predichos a partir de las mediciones reales (por ejemplo, la ecuacion B en la presente). Si bien puede utilizarse una medida de error que comprende valores de desviacion absolutos, como alternativa es posible utilizar una medida de error adecuada. Puede utilizarse una medida de error que no comprende valores de desviacion absolutos. Las secciones genomicas pueden ser filtradas o ponderadas de acuerdo con una medida de mapeabilidad. A veces una seccion genomica es filtrada o ponderada de acuerdo con un numero relativamente bajo de lecturas de secuencias mapeadas a la seccion genomica (por ejemplo, 0, 1,2, 3, 4, 5 lecturas mapeadas a la seccion genomica). Las secciones genomicas pueden ser filtradas o ponderadas de acuerdo con el tipo analisis que se esta llevando a cabo. Por ejemplo, para el analisis de aneuploidea de cromosoma 13, 18 y/o 21, los cromosomas de sexo pueden ser filtrados, y es posible que solamente se analicen los autosomas, o un subconjunto de autosomas. Para la determinacion del sexo del feto, es posible filtrar los autosomas, y es posible analizar solamente los cromosomas de sexo (X e y), o uno de los cromosomas de sexo (X o Y).
Puede utilizarse el siguiente proceso de filtrado. Se selecciona el mismo conjunto de secciones genomicas (por ejemplo, bins) dentro de un cromosoma dado (por ejemplo, el cromosoma 21) y se compara el numero de lecturas en las muestras afectadas y no afectadas. El huelgo se refiere a muestras de trisomia 21 y euploide e implica un conjunto de secciones genomicas que abarca la mayor parte del cromosoma 21. El conjunto de secciones genomicas es el mismo entre las muestras de euploidfa y T21. La distincion entre un conjunto de secciones genomicas y una seccion individual no es crucial, por cuanto es posible definir una seccion genomica. Se compara la misma region en diferentes pacientes. Este proceso puede utilizarse para un analisis de trisoirna, tales como para T13 o T18 ademas de, o en lugar de, T21.
Puede utilizarse el siguiente proceso de filtrado. Se selecciona el mismo conjunto de secciones genomicas (por
5
10
15
20
25
30
35
40
45
50
55
60
ejemplo, bins) dentro de un cromosoma dado (por ejemplo, el cromosoma Y) y se compara el numero de lecturas en muestras masculinas y femeninas. El huelgo relaciona muestras masculinas y femeninas e implica un conjunto de secciones genomicas que recubren parte o la mayor parte del cromosoma Y. El conjunto de secciones genomicas es el mismo entre muestras masculinas y femeninas. La distincion entre un conjunto de secciones genomicas y una seccion individual no es crucial, ya que es posible definir una seccion genomica. Se compara la misma region genomica en diferentes pacientes. Estos procesos pueden utilizarse para determinar el sexo del feto, por ejemplo.
Despues de que los conjuntos de datos hayan sido contados, opcionalmente filtrados y normalizados, los conjuntos de datos procesados pueden manipularse mediante ponderacion. Es posible seleccionar una o mas secciones genomicas para su ponderacion para reducir la influencia de los datos (por ejemplo, datos ruidosos, datos sin valor informativo) contenidos en las secciones genomicas seleccionadas, y por ejemplo, es posible seleccionar una o mas secciones genomicas para su ponderacion a efectos de reforzar o aumentar la influencia de los datos (por ejemplo, datos con una pequena varianza medida) contenida en las secciones genomicas seleccionadas. Es posible ponderar un conjunto de datos utilizando una unica funcion de ponderacion que disminuye la influencia de los datos con grandes varianzas y aumenta la influencia de los datos con pequenas varianzas. A veces se utiliza una funcion de ponderacion para reducir la influencia de los datos con grandes varianzas y para aumentar la influencia de los datos con pequenas varianzas (por ejemplo, [1/(desviacion estandar)2]).
Es posible generar un grafico de perfiles de datos procesados adicionalmente manipulado por ponderacion para facilitar la clasificacion y/o proveer un resultado. Puede proveerse un resultado sobre la base de un grafico de perfiles de datos ponderados.
El filtrado o ponderacion de secciones genomicas puede llevarse a cabo en uno o mas puntos adecuados en un analisis. Por ejemplo, las secciones genomicas pueden ser filtradas o ponderadas antes o despues de que las lecturas de secuencias sean mapeadas a porciones de un genoma de referencia. Las secciones genomicas pueden ser filtradas o ponderadas antes o despues pueda determinarse un margen de error experimental para porciones de genoma individuales. Las secciones genomicas pueden ser filtradas o ponderadas antes o despues que se calculen las elevaciones en secciones genomicas.
Despues de que los conjuntos de datos hayan sido contados, opcionalmente filtrados, normalizados y opcionalmente ponderados, los conjuntos de datos procesados pueden ser manipulados por una o mas manipulaciones matematicas y/o estadfsticas (por ejemplo, funciones estadfsticas o algoritmos estadfsticos). Los conjuntos de datos procesados pueden ser objeto de manipulacion adicional mediante el calculo de los Puntajes Z para una o mas secciones genomicas seleccionadas, cromosomas, o porciones de cromosomas. Los conjuntos de datos procesados pueden ser objeto de manipulacion adicional calculando valores P. Las manipulaciones matematicas y/o estadfsticas puede incluir una o mas suposiciones pertenecientes a la fraccion ploidea y/o fetal. Un grafico de perfiles de datos procesados puede ser objeto de manipulacion adicional mediante una o mas manipulaciones estadfsticas y/o matematicas, a efectos de facilitar la clasificacion y/o de proveer un resultado. Puede proveerse un resultado sobre la base de un grafico de perfiles de datos manipulados estadfsticamente. Un resultado basado en un grafico de perfiles de datos manipulados estadfstica y/o matematicamente frecuentemente incluye una o mas suposiciones pertenecientes a la fraccion ploidea y/o fetal.
Es posible llevar a cabo multiples manipulaciones sobre conjuntos de datos procesados para generar un espacio N-dimensional y/o punto N-dimensional, despues de que los conjuntos de datos hayan sido recontados, opcionalmente filtrados y normalizados. Puede proveerse un resultado sobre la base de un grafico de perfiles de conjuntos de datos analizados en N-dimensiones.
Los conjuntos de datos pueden procesarse utilizando uno mas de los siguientes: analisis de elevacion de pico, analisis de ancho de pico, analisis de ubicacion del borde del pico, tolerancias laterales del pico, similares, o sus derivaciones, o combinaciones de lo que precede, como parte de o despues de que los conjuntos de datos hayan sido procesados y/o manipulados. Un grafico de perfiles de datos procesados utilizando uno o mas de los siguientes: analisis de elevacion de pico, analisis de ancho de pico, analisis de ubicacion del borde del pico, tolerancias laterales del pico, similares, o sus derivaciones, o combinaciones de lo que precede puede ser generado para facilitar la clasificacion y/o proveer un resultado. Puede proveerse un resultado sobre la base de un grafico de perfiles de datos que ha sido procesado utilizando uno o mas de los siguientes: analisis de elevacion de pico, analisis de ancho de pico, analisis de ubicacion del borde del pico, tolerancias laterales del pico, similares, o sus derivaciones, o combinaciones de lo que precede.
El uso de una o mas muestras de referencia de las que se sabe que estan libres de variacion genetica en cuestion permite generar un perfil de recuento de referencia mediano, que puede resultar en un valor predeterminado representativo de la ausencia de la variacion genetica, y frecuentemente se desvfa con respecto a un valor predeterminado en areas correspondientes a la ubicacion genomica en la que esta situada la variacion genetica en el sujeto de prueba, si el sujeto de prueba posefa la variacion genetica. En los sujetos de prueba que corren el riesgo de, o que sufran de una condicion medica asociada con una variacion genetica, se preve que el valor numerico de la o de las secciones genomicas vane significativamente con respecto al valor predeterminado de las ubicaciones genomicas no afectadas. La utilizacion de una muestras de referencia de las que se sabe que son portadoras de la variacion genetica en cuestion pueden utilizarse para generar un perfil de recuento de referencia mediano, lo que puede resultar
5
10
15
20
25
30
35
40
45
50
55
60
en un valor predeterminado representativo de la presencia de la variacion genetica, y que frecuentemente se desv^a de un valor predeterminado en areas correspondientes a la ubicacion genomica en la que el sujeto de prueba no es portador de la variacion genetica. En los sujetos de prueba en riesgo o que sufran de una condicion medica con una variacion genetica, se preve que el valor numerico para la o las secciones genomicas variara significativamente con respecto al valor predeterminado para ubicaciones genomicas afectadas.
El analisis y procesamiento de los datos puede incluir la utilizacion de una o mas suposiciones. Puede utilizarse un numero o tipo adecuados de suposiciones para analizar o procesar un conjunto de datos. Los ejemplos no limitantes de suposiciones que pueden utilizarse para el procesamiento y/o analisis de datos incluyen la ploidfa materna, la contribucion fetal, la prevalencia de determinadas secuencias en una poblacion de referencia, los antecedentes, la prevalencia de una condicion medica seleccionada entre miembros de una misma familia, el paralelismo entre perfiles de recuentos brutos de diferentes pacientes y/o pasadas despues de la normalizacion de GC y enmascaramiento repetido (por ejemplo, GCRM), las concordancias identicas representan artefactos de PCR (por ejemplo, una base de posicion identica), suposiciones inherentes en un ensayo fetal cuantificador (por ejemplo, FQA), suposiciones en cuanto a mellizos (por ejemplo, si hay 2 mellizos y solamente 1 esta afectado, la fraccion fetal efectiva es de solamente el 50% de la fraccion fetal medida total (similarmente para trillizos, cuatrillizos y quintillizos y similares)), ADN libre de celulas fetales (por ejemplo, cfADN) que recubre uniformemente la totalidad del genoma, sus similares y sus combinaciones.
En aquellos casos en que la calidad y/o profundidad de las lecturas de secuencias mapeadas no permite predecir el resultado en cuanto a la presencia o ausencia de una variacion genetica en un nivel de confianza deseado (por ejemplo, un nivel de confianza del 95% o superior), sobre la base de los perfiles de recuentos normalizados, es posible utilizar uno o mas algoritmos de manipulacion matematica y/o algoritmos de prediccion estadfsticos, para generar valores numericos adicionales utiles para el analisis de datos y/o para proveer un resultado. La expresion “perfil de recuento normalizado” utilizada en la presente, se refiere a un perfil generado utilizando recuentos normalizados. Ejemplos de metodos que puede utilizarse para generar recuentos normalizados y perfiles de recuentos normalizados se describen en la presente. Como se observo, las lecturas de secuencias mapeadas que han sido contadas pueden normalizarse respecto a recuentos de muestras de prueba o recuentos de muestras de referencia. Un perfil de recuentos normalizado puede representarse en forma de un grafico.
Perfiles
Una etapa de procesamiento puede comprender la generacion de uno o mas perfiles (por ejemplo, un grafico de perfiles)) a partir de diversos aspectos de un conjunto de datos o derivado de ellos (por ejemplo, el producto de una o mas etapas de procesamiento matematicos y/o estadfsticos conocidas en la tecnica y/o descritos en la presente). El termino “perfil” utilizado en la presente, se refiere a un producto de una manipulacion matematica y/o estadfstica de datos que puede facilitar la identificacion de patrones y/o correlaciones en grandes cantidades de datos. Un “perfil” frecuentemente incluye valores resultantes de una o mas manipulaciones de datos o conjuntos de datos, sobre la base de uno o mas criterios. Un perfil frecuentemente incluye multiples puntos de datos. Cualquier numero adecuado de puntos de datos puede ser incluido en un perfil, en funcion de la naturaleza y/o complejidad de un conjunto de datos. Los perfiles pueden incluir 2 o mas puntos de datos, 3 o mas puntos de datos, 5 o mas puntos de datos, 10 o mas puntos de datos, 24 o mas puntos de datos, 25 o mas puntos de datos, 50 o mas puntos de datos, 100 o mas puntos de datos, 500 o mas puntos de datos, 1.000 o mas puntos de datos, 5.000 o mas puntos de datos, 10.000 o mas puntos de datos, o 100.000 o mas puntos de datos.
Un perfil puede ser representativo de la totalidad de un conjunto de datos, y por ejemplo, un perfil puede ser representativo de una porcion o subconjunto de un conjunto de datos. Es decir, un perfil a veces incluye, o es generado, a partir de puntos de datos representativos de datos que no han sido filtrados para remover ningun dato, y a veces un perfil incluye o es generado a partir de puntos de datos representativos de datos que han sido filtrados para remover datos indeseados. Un punto de datos en un perfil puede representar los resultados de la manipulacion de los datos para una seccion genomica. Un punto de datos en un perfil puede incluir resultados de la manipulacion de datos para grupos de secciones genomicas. Los grupos de secciones genomicas puede ser adyacentes entre sf, y por ejemplo, los grupos de secciones genomicas pueden ser de diferentes partes de un cromosoma o genoma.
Los puntos de datos en un perfil derivado de un conjunto de datos pueden ser representativos de cualquier categorizacion de datos adecuada. Los ejemplos no limitantes de categonas en las cuales es posible agrupar los datos para generar puntos de datos de perfil incluyen: secciones genomicas basados en tamano, secciones genomicas basados en rasgos de secuencia (por ejemplo, contenido de GC, contenido de AT, posicion sobre una cromosoma (por ejemplo, brazo corto, brazo largo, centromero, telomero), y similares), niveles de expresion, cromosoma, similares y sus combinaciones. Es posible generar un perfil a partir de puntos de datos obtenidos de otro perfil (por ejemplo, perfil de datos normalizados renormalizados a un valor de normalizacion diferente para generar un perfil de datos renormalizado). Un perfil generado a partir de datos obtenidos a partir de otro perfil puede reducir el numero de puntos de datos y/o la complejidad del conjunto de datos. La reduccion del numero de puntos de datos y/o de la complejidad de un conjunto de datos frecuentemente facilita la interpretacion de los datos y/o facilita la provision de un resultado.
Un perfil es frecuentemente una coleccion de recuentos normalizados o no normalizados para dos o mas secciones genomicas. Un perfil frecuentemente incluye por lo menos una elevacion, y frecuentemente comprende dos o mas
5
10
15
20
25
30
35
40
45
50
55
60
elevaciones (por ejemplo, un perfil frecuentemente tiene multiples elevaciones). Por lo general, una elevacion es para un conjunto de secciones genomicas que tienen aproximadamente los mismos recuentos o recuentos normalizados. Las elevaciones se describen con mayor detalle en la presente. En algunos casos, un perfil comprende una o mas secciones genomicas, las cuales secciones genomicas pueden ser ponderadas, removidas, filtradas, normalizados, ajustadas, promediadas, derivados como una media, anadidas, sustrafdas, procesadas o transformadas mediante cualquiera de sus combinaciones. Un perfil frecuentemente comprende recuentos normalizados mapeados a secciones genomicas que definen dos o mas elevaciones, donde los recuentos estan ademas normalizadas de acuerdo con una de las elevaciones mediante un metodo adecuado. Frecuentemente los recuentos de un perfil (por ejemplo, la elevacion de un perfil) estan asociados a un valor de incertidumbre.
Un perfil que comprende una o mas elevaciones puede incluir una primera elevacion y una segunda elevacion. A veces una primera elevacion es diferente (por ejemplo, significativamente diferente) de una segunda elevacion. Una primera elevacion puede comprender un primer conjunto de secciones genomicas, una segunda elevacion puede comprender un segundo conjunto de secciones genomicas y el primer conjunto de secciones genomicas puede no ser un subconjunto del segundo juego de secciones genomicas. En algunos casos, un primer conjunto de secciones genomicas es diferente de un segundo conjunto de secciones genomicas a partir del que se determina una primera y una segunda elevacion. A veces un perfil puede tener multiples primeras elevaciones que son diferentes (por ejemplo, significativamente diferentes, por ejemplo, tienen un valor significativamente diferente) de una segunda elevacion dentro del perfil. A veces un perfil comprende uno o mas primeras elevaciones que son significativamente diferentes de una segunda elevacion dentro del perfil y una o mas de las primeras elevaciones se ajustan. A veces un perfil comprende una o mas primeras elevaciones que son significativamente diferentes de una segunda elevacion dentro del perfil, cada una de las una o mas primeras elevaciones comprende una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales y una o mas de las primeras elevaciones se ajustan. A veces una primera elevacion dentro de un perfil ha sido removida del perfil o ajustada (por ejemplo, almohadillada). Un perfil puede comprender multiples elevaciones que incluyen una o mas primeras elevaciones significativamente diferentes de una o mas segundas elevaciones y frecuentemente la mayona de las elevaciones en un perfil son segundas elevaciones, las cuales segundas elevaciones son aproximadamente iguales entre sf. A veces mas del 50%, mas del 60%, mas del 70%, mas del 80%, mas del 90% o mas del 95% de las elevaciones en un perfil son segundas elevaciones.
A veces un perfil se visualiza como un grafico. Por ejemplo, una o mas elevaciones que representan recuentos (por ejemplo, recuentos normalizados) de secciones genomicas pueden ser graficados y visualizados. Los ejemplos no limitantes de graficos de perfiles que pueden ser generados incluyen los recuentos brutos (por ejemplo, perfil de recuentos brutos o perfil en bruto), recuento normalizado, ponderado en bin, puntaje Z, valor p, relacion de area versus ploidea ajustada, elevacion mediana versus relacion entre fraccion fetal ajustada y medida, componentes de principio, similares, o sus combinaciones. Los graficos de perfil pueden permitir la visualizacion de los datos manipulados. Puede utilizarse un grafico de perfil para proveer un resultado (por ejemplo, relacion de area vs. ploidfa ajustada, elevacion mediana versus relacion entre fraccion fetal ajustada y medida, componentes de principio). Las expresiones “grafico de perfiles de recuento en bruto” o “grafico de perfiles en bruto” utilizadas en la presente se refieren a un grafico de recuentos en cada seccion genomica normalizada a recuentos totales en una region (por ejemplo, genoma, seccion genomica, cromosoma, bins de cromosoma o un segmento de un cromosoma). Es posible generar un perfil utilizando un proceso de ventana estatica, y por ejemplo, es posible generar un perfil utilizando un proceso de ventana deslizante.
A veces se compara un perfil generado para un sujeto de prueba con un perfil generado para uno o mas sujetos de referencia, para facilitar la interpretacion de manipulaciones matematicas y/o estadfsticas de un conjunto de datos y/o para proveer un resultado. Es posible generar un perfil sobre la base de una o mas suposiciones iniciales (por ejemplo, la contribucion materna de acido nucleico (por ejemplo, la fraccion materna), la contribucion fetal de acido nucleico (por ejemplo, la fraccion fetal), la ploidfa de la muestra de referencia, similares y combinaciones). Un perfil de prueba puede frecuentemente centrarse alrededor de un valor predeterminado representativo de la ausencia de una variacion genetica, y puede desviarse frecuentemente de un valor predeterminado en areas correspondientes a la ubicacion genomica en la que la variacion genetica se localiza en el sujeto de prueba, si el sujeto de prueba posefa la variacion genetica. En los sujetos de prueba en riesgo de, o que sufren de una condicion medica asociada con una variacion genetica, se preve que el valor numerico para una seccion genomica seleccionada vane significativamente respecto al valor predeterminado para ubicaciones genomicas no afectadas. En funcion de las suposiciones iniciales (por ejemplo, ploidfa fija o ploidfa optimizada, fraccion fetal fija o fraccion fetal optimizada o sus combinaciones) el valor umbral o de corte predeterminado o el intervalo umbral de valores indicativos de la presencia o ausencia de una variacion genetica puede variar sin dejar de proporcionar un resultado util para determinar la presencia o ausencia de una variacion genetica. Un perfil puede ser indicativo de y/o representativo de un fenotipo.
A tftulo de ejemplo no limitante, las muestras normalizadas y/o perfiles de recuentos de referencia pueden obtenerse a partir de datos brutos de lecturas de secuencias mediante (a) el calculo de recuentos medianos de referencia para cromosomas seleccionados o sus segmentos a partir de un conjunto de referencias del que se sabe que no es portador de una variacion genetica, (b) la remocion de secciones genomicas sin valor informativo de los recuentos brutos de referencia (por ejemplo, por filtrado); (c) normalizacion de los recuentos de referencia para todos los bins al numero residual total de recuentos (por ejemplo, la suma de los recuentos remanentes despues de la remocion de los bins sin valor informativo) para el cromosoma seleccionado de la muestra de referencia o ubicacion genomica seleccionada,
5
10
15
20
25
30
35
40
45
50
55
60
por lo que se genera un perfil normalizado del sujeto de referencia; (d) remocion de las correspondientes secciones genomicas de la muestra del sujeto de referencia; y (e) normalizacion de los recuentos remanentes del sujeto de prueba para una o mas ubicaciones genomicas seleccionadas a la suma de los recuentos medianos residuales de referencia para el o los cromosomas que contienen las ubicaciones genomicas seleccionadas, por lo que se genera un perfil normalizado del sujeto de prueba. Entre (c) y (d) puede incluirse una etapa de normalizacion adicional respecto al genoma entero, reducido por las secciones genomicas filtradas en (b).
Es posible generar el perfil de un conjunto de datos por una o mas manipulaciones de datos mapeados contados de lecturas de secuencias. Algunos aspectos incluyen lo siguiente. Las lecturas de secuencias se mapean y se determina el numero de rotulos de secuencia que se mapean a cada bin genomico (por ejemplo, se recuenta). Se genera un perfil de recuento bruto a partir de las lecturas de secuencias mapeadas que se recuentan. Se puede obtener un resultado comparando un perfil de recuento bruto de un sujeto de prueba a un perfil de recuentos medianos de referencia para cromosomas, secciones genomicas o segmentos de los mismos a partir de un conjunto de sujetos de referencia de los que se sabe que no tienen una variacion genetica.
Los datos de lecturas de secuencias pueden opcionalmente filtrarse para remover los datos ruidosos o secciones genomicas sin valor informativo. Despues del filtrado, los recuentos remanentes tfpicamente se suman para generar un conjunto de datos filtrado. Es posible generar un perfil de recuentos filtrado a partir de un conjunto de datos filtrado.
Despues de que los datos de lecturas de secuencias hayan sido contados y opcionalmente filtrados, los conjuntos de datos pueden normalizarse para generar elevaciones o perfiles. Un conjunto de datos puede normalizarse por normalizacion de una o mas secciones genomicas seleccionadas a un valor de referencia de normalizacion adecuado. Un valor de referencia de normalizacion puede ser representativo del total de recuentos para el cromosoma o cromosomas de los que se seleccionan secciones genomicas. Un valor de referencia de normalizacion puede ser representativo de una o mas secciones genomicas correspondientes, porciones de cromosomas o cromosomas procedentes de un conjunto de datos de referencia preparado a partir de un conjunto de sujetos de referencia de los que se sabe que no tienen una variacion genetica. Un valor de referencia de normalizacion puede ser representativo de una o mas secciones genomicas correspondientes, porciones de uno o mas cromosomas procedentes de un conjunto de datos de un sujeto de prueba preparado a partir de un sujeto de prueba que se esta analizando para establecer la presencia o ausencia de una variacion genetica. El proceso de normalizacion puede llevarse a cabo utilizando un enfoque de ventana estatica, y por ejemplo el proceso de normalizacion puede llevarse a cabo utilizando un enfoque de ventana movil o deslizante. Es posible generar un perfil que comprende recuentos normalizados para facilitar la clasificacion y/o proveer un resultado. Puede proveerse un resultado sobre la base de un grafico de un perfil que comprende recuentos normalizados (por ejemplo, utilizandose un grafico de un perfil de este tipo).
Elevaciones
Se puede atribuir un valor a una elevacion (por ejemplo, un numero). Una elevacion se puede determinar mediante un procedimiento, operacion o proceso matematico adecuado (por ejemplo, una elevacion procesada). El termino “nivel” como se usa en la presente es sinonimo del termino “elevacion” como se usa en la presente. Una elevacion a menudo es, o se deriva de, recuentos (por ejemplo, recuentos normalizados) para un conjunto de secciones genomicas. Algunas veces, una elevacion de una seccion genomica es sustancialmente igual al numero total de recuentos mapeados a una seccion genomica (por ejemplo, recuentos normalizados). A menudo, se determina una elevacion a partir de recuentos que se procesan, transforman o manipulan mediante un procedimiento, operacion o proceso matematico adecuado conocido en la tecnica. Algunas veces se obtiene una elevacion a partir de los recuentos que se procesan y los ejemplos no limitantes de los recuentos procesados incluyen recuentos ponderados, eliminados, filtrados, normalizados, ajustados, promediados, derivados como una media (por ejemplo, elevacion media), anadidos, sustrafdos, transformados o sus combinaciones. Algunas veces, una elevacion comprende recuentos que se normalizan (por ejemplo, recuentos normalizados de secciones genomicas). Una elevacion puede ser para los recuentos normalizados mediante un proceso adecuado, cuyos ejemplos no limitantes incluyen normalizacion por bin, normalizacion por contenido de GC, regresion de cuadrados mmimos lineal y no lineal, GC LOESS, LOWESS, PERUN, RM, GCRM, cQn, y/o sus combinaciones. Una elevacion puede comprender recuentos normalizados o cantidades relativas de recuentos. Algunas veces una elevacion es para recuentos o recuentos normalizados de dos o mas secciones genomicas que se promedian y la elevacion se refiere como una elevacion promedio. Algunas veces una elevacion es para un conjunto de secciones genomicas que tienen un recuento medio o una media de recuentos normalizados que se denomina elevacion media. Algunas veces se obtiene una elevacion se deriva para secciones genomicas que comprenden recuentos brutos y/o filtrados. Una elevacion se puede basar en recuentos que son brutos. Algunas veces una elevacion se asocia con un valor de incertidumbre. Una elevacion para una seccion genomica, o una “elevacion de seccion genomica”, es sinonimo de un “nivel de seccion genomica” en la presente a.
Los recuentos normalizados o no normalizados para dos o mas elevaciones (por ejemplo, dos o mas elevaciones en un perfil) algunas veces se pueden manipular matematicamente (por ejemplo, anadir, multiplicar, promediar, normalizar, similares o combinacion de estos) de acuerdo con las elevaciones. Por ejemplo, los recuentos normalizados o no normalizados para dos o mas elevaciones se pueden normalizar de acuerdo con una, algunas o todas las elevaciones de un perfil. Algunas veces los recuentos normalizados o no normalizados de todas las elevaciones en un perfil se normalizan de acuerdo con una elevacion en el perfil. Algunas veces los recuentos normalizados o no normalizados de una primera elevacion en un perfil se normalizan de acuerdo con los recuentos
5
10
15
20
25
30
35
40
45
50
55
60
normalizados o no normalizados de una segunda elevacion en el perfil.
Los ejemplos no limitantes de una elevacion (por ejemplo, una primera elevacion, una segunda elevacion) son una elevacion para un conjunto de secciones genomicas que comprende recuentos procesados, una elevacion para un conjunto de secciones genomicas que comprende una media, mediana o promedio de recuentos, una elevacion para un conjunto de secciones genomicas que comprende recuentos normalizados, similares o cualquiera de sus combinaciones. Una primera elevacion y una segunda elevacion en un perfil se puede derivar de los recuentos de secciones genomicas mapeadas al mismo cromosoma. Una primera elevacion y una segunda elevacion en un perfil se pueden derivar de los recuentos de secciones genomicas mapeadas a diferentes cromosomas.
Una elevacion se puede determinar a partir de recuentos normalizados o no normalizados mapeados a una o mas secciones genomicas. Una elevacion se puede determinar a partir de recuentos normalizados o no normalizados mapeados a dos o mas secciones genomicas, donde los recuentos normalizados para cada seccion genomica a menudo son aproximadamente los mismos. Puede haber variacion en los recuentos (por ejemplo, recuentos normalizados) en un conjunto de secciones genomicas para una elevacion. En un conjunto de secciones genomicas para una elevacion puede haber una o mas secciones genomicas que tienen recuentos que son significativamente diferentes que en otras secciones genomicas del conjunto (por ejemplo, picos y/o bajadas). Cualquier numero adecuado de recuentos normalizados o no normalizados asociados con cualquier numero adecuado de secciones genomicas puede definir una elevacion.
Algunas veces una o mas elevaciones se pueden determinar a partir de recuentos normalizados o no normalizados de todas o algunas de las secciones genomicas de un genoma. A menudo una elevacion se puede determinar a partir de todos o algunos de los recuentos normalizados o no normalizados de un cromosoma, o segmento de este. Algunas veces, dos o mas recuentos derivados de dos o mas secciones genomicas (por ejemplo, un conjunto de secciones genomicas) determinan una elevacion. Algunas veces dos o mas recuentos (por ejemplo, recuentos de dos o mas secciones genomicas) determinan una elevacion. Los recuentos de 2 a aproximadamente 100.000 secciones genomicas pueden determinar una elevacion. Los recuentos de 2 a aproximadamente 50.000, 2 a aproximadamente 40.000, 2 a aproximadamente 30.000, 2 a aproximadamente 20.000, 2 a aproximadamente 10.000, 2 a aproximadamente 5000, 2 a aproximadamente 2500, 2 a aproximadamente 1250, 2 a aproximadamente 1000, 2 a aproximadamente 500, 2 a aproximadamente 250, 2 a aproximadamente 100 o 2 a aproximadamente 60 secciones genomicas pueden determinar una elevacion. Los recuentos de aproximadamente 10 a aproximadamente 50 secciones genomicas pueden determinar una elevacion. Recuentos de aproximadamente 20 a aproximadamente 40 o mas secciones genomicas pueden determinar una elevacion. Una elevacion puede comprender recuentos de aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 45, 50, 55, 60 o mas secciones genomicas. Una elevacion puede corresponder a un conjunto de secciones genomicas (por ejemplo, un conjunto de secciones genomicas de un genoma de referencia, un conjunto de secciones genomicas de un cromosoma o un conjunto de secciones genomicas de un segmento de un cromosoma).
Una elevacion se puede determinar para los recuentos normalizados o no normalizados de secciones genomicas que son contiguas. Algunas veces las secciones genomicas (por ejemplo, un conjunto de secciones genomicas) que son contiguas representan segmentos vecinos de un genoma o segmentos vecinos de un cromosoma o gen. Por ejemplo, dos o mas secciones genomicas contiguas, cuando se alinean mediante fusion de las secciones genomicas de extremo a extremo, pueden representar un ensamblaje de secuencia de una secuencia de ADN mas larga que cada seccion genomica. Por ejemplo, dos o mas secciones genomicas contiguas pueden representar un genoma, cromosoma, gen, intron, exon o segmento del mismo intactos. Algunas veces, se determina una elevacion a partir de una coleccion (por ejemplo, un conjunto) de secciones genomicas contiguas y/o secciones genomicas no contiguas.
Elevaciones significativamente diferentes
Un perfil de recuentos normalizados puede comprender una elevacion (por ejemplo, una primera elevacion) significativamente diferente de otra elevacion (por ejemplo, una segunda elevacion) dentro del perfil. Una primera elevacion puede ser mayor o menor que una segunda elevacion. Una primera elevacion puede ser para un conjunto de secciones genomicas que comprende una o mas lecturas que comprende una variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales) y la segunda elevacion es para un conjunto de secciones genomicas que comprende lecturas que no tienen sustancialmente variacion del numero de copias. Significativamente diferente puede referirse a una diferencia observable. Algunas veces significativamente diferente se refiere a estadfsticamente diferentes o a diferencias estadfsticamente significativas. Una diferencia estadfsticamente significativa es algunas veces una evaluacion estadfstica de una diferencia observada. Una diferencia estadfsticamente significativa se puede evaluar mediante un metodo adecuado de la tecnica. Se puede usar cualquier umbral o rango adecuado para determinar que dos elevaciones son significativamente diferentes. En algunos casos dos elevaciones (por ejemplo, elevaciones medias) que difieren en aproximadamente 0,01 por ciento o mas (por ejemplo, 0,01 por ciento de uno o alguno de los valores de elevacion) son significativamente diferentes. Algunas veces dos elevaciones (por ejemplo, elevaciones medias) que difieren en aproximadamente 0,1 por ciento o mas son significativamente diferentes. En algunos casos, dos elevaciones (por ejemplo, elevaciones medias) que difieren en aproximadamente 0,5 por ciento o mas son significativamente diferentes. Algunas veces dos elevaciones (por ejemplo,
5
10
15
20
25
30
35
40
45
50
55
60
elevaciones medias) que difieren en aproximadamente 0,5, 0,75, 1, 1,5, 2, 2,5, 3, 3,5, 4, 4,5, 5, 5,5, 6, 6,5, 7, 7,5, 8, 8,5, 9, 9,5 o mas que aproximadamente 10% son significativamente diferentes. Algunas veces dos elevaciones (por ejemplo, elevaciones medias) son significativamente diferentes y no existe superposicion en ninguna elevacion y/o ninguna superpocion en un rango definido por un valor de incertidumbre calculado para una o ambas elevaciones. En algunos casos el valor de incertidumbre es una desviacion estandar expresada como sigma. Algunas veces dos elevaciones (por ejemplo, elevaciones medias) son significativamente diferentes y difieren en aproximadamente 1 o mas veces el valor de incertidumbre (por ejemplo, 1 sigma). Algunas veces dos elevaciones (por ejemplo, elevaciones medias) son significativamente diferentes y difieren en aproximadamente 2 o mas times el valor de incertidumbre (por ejemplo, 2 sigma), aproximadamente 3 o mas, aproximadamente 4 o mas, aproximadamente 5 o mas, aproximadamente 6 o mas, aproximadamente 7 o mas, aproximadamente 8 o mas, aproximadamente 9 o mas, o aproximadamente 10 o mas veces el valor de incertidumbre. Algunas veces dos elevaciones (por ejemplo, elevaciones medias) son significativamente diferentes cuando difieren en aproximadamente 1,1, 1,2, 1,3, 1,4, 1,5, 1,6, 1,7, 1,8, 1,9, 2,0, 2,1, 2,2, 2,3, 2,4, 2,5, 2,6, 2,7, 2,8, 2,9, 3,0, 3,1, 3,2, 3,3, 3,4, 3,5, 3,6, 3,7, 3,8, 3,9 o 4,0 veces el valor de incertidumbre o mas. El nivel de confianza puede aumentar a medida que aumenta la diferencia entre dos elevaciones. En algunos casos, el nivel de confianza disminuye a medida que disminuye la diferencia entre dos elevaciones y/o a medida que aumenta el valor de incertidumbre. Por ejemplo, algunas veces el nivel de confianza aumenta con la relacion de la diferencia entre elevaciones y la desviacion estandar (por ejemplo, MADs).
Un primer conjunto de secciones genomicas a menudo puede incluir secciones genomicas que son diferentes de (por ejemplo, no superpuestas con) un segundo conjunto de secciones genomicas. Por ejemplo, algunas veces una primera elevacion de recuentos normalizados es significativamente diferente de una segunda elevacion de recuentos normalizados en un perfil, y la primera elevacion es para un primer conjunto de secciones genomicas, la segunda elevacion es para un segundo conjunto de secciones genomicas y las secciones genomicas no se superponen en el primer conjunto y segundo conjunto de secciones genomicas. En algunos casos, un primer conjunto de secciones genomicas no es un subconjunto de un segundo conjunto de secciones genomicas del cual se determinan una primera elevacion y segunda elevacion, respectivamente. Algunas veces un primer conjunto de secciones genomicas es diferente y/o distinto de un segundo conjunto de secciones genomicas del cual se determinan una primera elevacion y segunda elevacion, respectivamente.
Algunas veces un primer conjunto de secciones genomicas es un subconjunto de un segundo conjunto de secciones genomicas de un perfil. Por ejemplo, algunas veces una segunda elevacion de recuentos normalizados para un segundo conjunto de secciones genomicas en un perfil comprende recuentos normalizados de un primer conjunto de secciones genomicas para una primera elevacion en el perfil y el primer conjunto de secciones genomicas es un subconjunto del segundo conjunto de secciones genomicas en el perfil. Algunas veces un promedio, media o mediana de una elevacion deriva de una segunda elevacion donde la segunda elevacion comprende una primera elevacion. Algunas veces, una segunda elevacion comprende un segundo conjunto de secciones genomicas que representan un cromosoma entero y una primera elevacion comprende un primer conjunto de secciones genomicas donde el primer conjunto es un subconjunto del segundo conjunto de secciones genomicas y la primera elevacion representa una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales que esta presente en el cromosoma.
Un valor de una segunda elevacion puede ser mas cercano a la media, promedio o mediana del valor de un perfil de recuento para un cromosoma, o segmento de este, que la primera elevacion. Una segunda elevacion puede ser una elevacion media de un cromosoma, una porcion de un cromosoma o un segmento de este. Una primera elevacion puede ser significativamente diferente de una elevacion predominante (por ejemplo, una segunda elevacion) que representa un cromosoma, o segmento de este. Un perfil puede incluir multiples primeras elevaciones que difieren significativamente de una segunda elevacion, y cada primera elevacion de modo independiente puede ser mayor o menor de la segunda elevacion. Una primera elevacion y una segunda elevacion se pueden derivar del mismo cromosoma y la primera elevacion es mayor o menor que la segunda elevacion, y la segunda elevacion es la elevacion predominante del cromosoma. Algunas veces, una primera elevacion y una segunda elevacion derivar del mismo cromosoma, una primera elevacion es indicativa de una variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas y/o fetales, supresion, insercion, duplicacion) y una segunda elevacion es una elevacion media o elevacion predominante de las secciones genomicas para un cromosoma, o segmento de este.
En algunos casos, una lectura en un segundo conjunto de secciones genomicas para una segunda elevacion sustancialmente no incluye una variacion genetica (por ejemplo, una variacion del numero de copias, una variacion del numero de copias maternas y/o fetales). A menudo, un segundo conjunto de secciones genomicas para una segunda elevacion incluye alguna variabilidad (por ejemplo, variabilidad en la elevacion, variabilidad en los recuentos para las secciones genomicas). Algunas veces, una o mas secciones genomicas en un conjunto de secciones genomicas para una elevacion asociada con sustancialmente ninguna variacion del numero de copias incluyen una o mas lecturas que tienen una variacion del numero de copias presente en un genoma materno y/o fetal. Por ejemplo, algunas veces un conjunto de secciones genomicas incluye una variacion del numero de copias que esta presente en un segmento pequeno de un cromosoma (por ejemplo, menos de 10 secciones genomicas) y el conjunto de secciones genomicas es para una elevacion asociada con sustancialmente ninguna variacion del numero de copias. En consecuencia un conjunto de secciones genomicas que incluye sustancialmente ninguna variacion del numero de copias aun puede incluir una variacion del numero de copias que esta presente en menos de aproximadamente 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 secciones genomicas de una elevacion.
5
10
15
20
25
30
35
40
45
50
55
Algunas veces una primera elevacion es para un primer conjunto de secciones genomicas y una segunda elevacion es para un segundo conjunto de secciones genomicas y el primer conjunto de secciones genomicas y segundo conjunto de secciones genomicas son contiguas (por ejemplo, adyacentes con respecto a las secuencias de acido nucleico de un cromosoma o segmento de este). Algunas veces el primer conjunto de secciones genomicas y segundo conjunto de secciones genomicas no son contiguas.
Se pueden utilizar lecturas de secuencias relativamente cortas de una mezcla de acido nucleico fetal y materno para proporcionar recuentos que se pueden transformar en una elevacion y/o un perfil. Los recuentos, elevaciones y perfiles se pueden representar en forma electronica o tangible y se pueden visualizar. Los recuentos mapeados a secciones genomicas (por ejemplo, representadas como elevaciones y/o perfiles) pueden proporcionar una representacion visual de un genoma fetal y/o materno, cromosoma o una porcion o segmento de un cromosoma que esta presente en un feto y /o mujer embarazada.
Modulo de comparacion
Una primera elevacion se puede identificar como significativamente diferente de una segunda elevacion mediante un modulo de comparacion o un aparato que comprende un modulo de comparacion. Un modulo de comparacion o un aparato que comprende un modulo de comparacion se puede requerir para proporcionar una comparacion entre dos elevaciones. Un aparato que comprende un modulo de comparacion puede comprender al menos un procesador. Se puede determinar que las elevaciones son significativamente diferentes mediante un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de comparacion. Se pueden determinar que las elevaciones son significativamente diferentes mediante un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un modulo de comparacion puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o una red de almacenamiento (por ejemplo, una nube)). Se pueden determinar que las elevaciones son significativamente diferentes mediante un aparato que comprende una o mas de los siguientes: una o mas celdas de flujo, una camara, componentes de manipulacion de lfquidos, una impresora, una pantalla (por ejemplo, una LED, LCT o CRT) y similares. Un modulo de comparacion puede recibir datos y/o informacion de un modulo adecuado. Un modulo de comparacion puede recibir datos y/o informacion de un modulo de secuenciacion, un modulo de mapeo, un modulo de recuento, o un modulo de normalizacion. Un modulo de comparacion puede recibir datos normalizados y/o informacion de un modulo de normalizacion. Los datos y/o informacion derivados de, o transformados por, un modulo de comparacion se pueden transferir de un modulo de comparacion un modulo de fijacion del rango, un modulo de graficos, un modulo de ajuste, un modulo de categorizacion o un modulo de resultados. Una comparacion entre dos o mas elevaciones y/o una identificacion de una elevacion como significativamente diferente de otra elevacion se puede transferir de (por ejemplo, proporcionar a) un modulo de comparacion a un modulo de categorizacion, modulo de fijacion del rango o modulo de ajuste.
Valor de elevacion de referenda y referenda normalizado
Algunas veces un perfil comprende una elevacion de referencia (por ejemplo, una elevacion usada como una referencia).
A menudo un perfil de recuentos normalizados proporciona una elevacion de referencia del cual se determinan las elevaciones esperadas y los rangos esperados (ver discusion siguiente sobre elevaciones y rangos esperados).
Una elevacion de referencia a menudo es para los recuentos normalizados de las secciones genomicas que comprenden lecturas mapeadas de una madre y un feto. Una elevacion de referencia es a menudo la suma de recuentos normalizados de lecturas mapeadas de un feto y una madre (por ejemplo, una mujer embarazada). Algunas veces una elevacion de referencia es para las secciones genomicas que comprenden lecturas mapeadas de una madre euploide y/o un feto euploide. Algunas veces una elevacion de referencia es para las secciones genomicas que comprenden lecturas mapeadas que tienen una variacion genetica fetal (por ejemplo, una aneuploidfa (por ejemplo, una trisoirna)), y/o lecturas que tienen una variacion genetica materna (por ejemplo, una variacion del numero de copias, insercion, supresion). Algunas veces una elevacion de referencia es para las secciones genomicas que comprenden lecturas mapeadas de un cromosoma sexual (por ejemplo, cromosoma X y/o cromosoma Y). Algunas veces una elevacion de referencia es para las secciones genomicas que incluyen sustancialmente no variaciones del numero de copias maternas y/o fetales. Algunas veces una segunda elevacion se usa como una elevacion de referencia. En algunos casos un perfil comprende una primera elevacion de los recuentos normalizados y una segunda elevacion de los recuentos normalizados, la primera elevacion es significativamente diferente de la segunda elevacion y la segunda elevacion es la elevacion de referencia. En algunos casos un perfil comprende una primera elevacion de los recuentos normalizados para un primer conjunto de secciones genomicas, una segunda elevacion de los recuentos normalizados para un segundo conjunto de secciones genomicas, el primer conjunto de secciones genomicas incluye lecturas mapeadas que tienen una variacion del numero de copias maternas y/o fetales, el segundo conjunto de secciones genomicas comprende lecturas mapeadas que tienen sustancialmente no maternal variacion del numero de copias y/o variacion del numero de copias fetales, y la segunda elevacion es una elevacion de referencia.
Los recuentos mapeados a las secciones genomicas para una o mas elevaciones de un perfil se pueden normalizar de
5
10
15
20
25
30
35
40
45
50
55
acuerdo con los recuentos de una elevacion de referencia. La normalizacion de los recuentos de una elevacion de acuerdo con los recuentos de una elevacion de referencia puede comprender dividir los recuentos de una elevacion por los recuentos de una elevacion de referencia o uno de sus multiplos o fracciones. Los recuentos normalizados de acuerdo con los recuentos de una elevacion de referencia a menudo se han normalizado de acuerdo con otro proceso (por ejemplo, PERUN) y los recuentos de una elevacion de referencia tambien a menudo se han normalizado (por ejemplo, por PERUN). Algunas veces los recuentos de una elevacion se normalizan de acuerdo con los recuentos de una elevacion de referencia y los recuentos de la elevacion de referencia son escalables a un valor adecuado antes o despues de la normalizacion. El proceso de escalado de los recuentos de una elevacion de referencia puede comprender cualquier constante adecuada (es decir, numero) y se puede aplicar cualquier manipulacion matematica adecuada a los recuentos de una elevacion de referencia.
A menudo se determina un valor de referencia normalizado (NRV) de acuerdo con los recuentos normalizados de una elevacion de referencia. La determinacion de un NRV puede comprender cualquier proceso de normalizacion adecuado (por ejemplo, manipulacion matematica) aplicado a los recuentos de una elevacion de referencia en la que se utiliza el mismo proceso de normalizacion para normalizar los recuentos de otras elevaciones dentro del mismo perfil. La determinacion de un NRV a menudo comprende dividir una elevacion de referencia por sf misma. La determinacion de un NRV a menudo comprende dividir una elevacion de referencia por un multiplo de sf mismo. La determinacion de un NRV a menudo comprende dividir una elevacion de referencia por la suma o diferencia de la elevacion de referencia y una constante (por ejemplo, cualquier numero).
Un NRV se denomina algunas veces como un valor nulo. Un NRV puede ser cualquier valor adecuado. Un NRV puede ser cualquier valor distinto de cero. Algunas veces un NRV es un numero entero. Algunas veces un NRV es un numero entero positivo. Un NRV puede ser 1, 10, 100 o 1000. A menudo, un NRV es igual a 1. Algunas veces un NRV es igual a cero. Los recuentos de una elevacion de referencia se pueden normalizar a cualquier NRV adecuado. Los recuentos de una elevacion de referencia se pueden normalizar a un NRV de cero. A menudo, los recuentos de una elevacion de referencia se normalizan a un NRV de 1.
Elevaciones esperadas
Una elevacion esperada es algunas veces una elevacion predefinida (por ejemplo, una elevacion teorica, elevacion predicha). Una “elevacion esperada” se denomina algunas veces en la presente como un “valor de elevacion predeterminado”. Una elevacion esperada puede ser un valor predicho para una elevacion de los recuentos normalizados para un conjunto de secciones genomicas que incluyen una variacion del numero de copias. En algunos casos, se determina una elevacion esperada para un conjunto de secciones genomicas que incluyen sustancialmente ninguna variacion del numero de copias. Se puede determinar una elevacion esperada para una ploidfa cromosomica (por ejemplo, 0, 1,2 (es decir, diploide), 3 o 4 cromosomas) o una microploidfa (supresion homocigotica o heterocigota, duplicacion, insercion o ausencia de esta). A menudo se determina una elevacion esperada para una microploidfa materna (por ejemplo, una variacion del numero de copias materna y/o fetal).
Una elevacion esperada para una variacion genetica o una variacion del numero de copias se puede determinar de cualquiera manera adecuada. A menudo una elevacion esperada se determina mediante una manipulacion matematica adecuada de una elevacion (por ejemplo, los recuentos mapeados a un conjunto de secciones genomicas para una elevacion). Algunas veces una elevacion esperada se determina mediante la utilizacion de una constante algunas veces denominada como una constante de elevacion esperada. Una elevacion esperada para una variacion del numero de copias algunas veces se calcula mediante la multiplicacion de una elevacion de referencia, recuentos normalizados de una elevacion de referencia o un NRV por una constante de elevacion esperada, adicion de una constante de elevacion esperada, sustraccion de una constante de elevacion esperada, division de una constante de elevacion esperada, o mediante una combinacion de estos. A menudo una elevacion esperada (por ejemplo, una elevacion esperada de una variacion del numero de copias maternas y/o fetales) determinada por el mismo sujeto, muestra o grupo de prueba se determina de acuerdo con la misma elevacion de referencia o NRV.
A menudo una elevacion esperada se determina mediante la multiplicacion de una elevacion de referencia, los recuentos normalizados de una elevacion de referencia o un NRV por una constante de elevacion esperada donde la elevacion de referencia, los recuentos normalizados de una elevacion de referencia o NRV no es igual a cero. Algunas veces una elevacion esperada se determina mediante la adicion de una constante de elevacion esperada a la elevacion de referencia, los recuentos normalizados de una elevacion de referencia o un NRV que es igual a cero. Una elevacion esperada, los recuentos normalizados de una elevacion de referencia, NRV y la constante de elevacion esperada pueden ser escalables. El proceso de escalado puede comprender cualquier constante adecuada (es decir, numero) y cualquier manipulacion matematica adecuada donde se aplica el mismo proceso de escalado a todos los valores en consideracion.
Constante de elevacion esperada
Una constante de elevacion esperada se puede determinar mediante un metodo adecuado. Algunas veces una constante de elevacion esperada se determina arbitrariamente. A menudo una constante de elevacion esperada se determina empmcamente. Algunas veces una constante de elevacion esperada se determina de acuerdo con una manipulacion matematica. Algunas veces una constante de elevacion esperada se determina de acuerdo con una
5
10
15
20
25
30
35
40
45
50
55
referencia (por ejemplo, un genoma de referencia, una muestra de referencia, datos de prueba de referencia). Una constante de elevacion esperada se puede predeterminar para una elevacion representativa de la presencia o ausencia de una variacion genetica o variacion del numero de copias (por ejemplo, una duplicacion, insercion o supresion). Una constante de elevacion esperada se puede predeterminar para una elevacion representativa de la presencia o ausencia de una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales. Una constante de elevacion esperada para una variacion del numero de copias puede ser cualquiera constante o conjunto de constantes adecuadas.
La constante de elevacion esperada para una duplicacion homocigota (por ejemplo, una duplicacion homocigota) puede ser de aproximadamente 1,6 a aproximadamente 2,4, de aproximadamente 1,7 a aproximadamente 2,3, de aproximadamente 1,8 a aproximadamente 2,2, o de aproximadamente 1,9 a aproximadamente 2,1. Algunas veces la constante de elevacion esperada para una duplicacion homocigota es aproximadamente 1,6, 1,7, 1,8, 1,9, 2,0, 2,1,2,2, 2,3 o aproximadamente 2,4. A menudo la constante de elevacion esperada para una duplicacion homocigota es aproximadamente 1,90, 1,92, 1,94, 1,96, 1,98, 2,0, 2,02, 2,04, 2,06, 2,08 o aproximadamente 2,10. A menudo la constante de elevacion esperada para una duplicacion homocigota es aproximadamente 2.
La constante de elevacion esperada para una duplicacion heterocigota (por ejemplo, una duplicacion homocigota) puede ser de aproximadamente 1,2 a aproximadamente 1,8, de aproximadamente 1,3 a aproximadamente 1,7, o de aproximadamente 1,4 a aproximadamente 1,6. Algunas veces la constante de elevacion esperada para una duplicacion heterocigota es aproximadamente 1,2, 1,3, 1,4, 1,5, 1,6, 1,7 o aproximadamente 1,8. A menudo la constante de elevacion esperada para una duplicacion heterocigota es aproximadamente 1,40, 1,42, 1,44, 1,46, 1,48, 1,5, 1,52, 1,54, 1,56, 1,58 o aproximadamente 1,60. La constante de elevacion esperada para una duplicacion heterocigota puede ser aproximadamente 1,5.
La constante de elevacion esperada para la ausencia de una variacion del numero de copias (por ejemplo, la ausencia de una variacion del numero de copias maternas y/o variacion del numero de copias fetales) puede ser de aproximadamente 1,3 a aproximadamente 0,7, de aproximadamente 1,2 a aproximadamente 0,8, o de aproximadamente 1,1 a aproximadamente 0,9. Algunas veces la constante de elevacion esperada para la ausencia de una variacion del numero de copias es aproximadamente 1,3, 1,2, 1,1, 1,0, 0,9, 0,8 o aproximadamente 0,7. A menudo la constante de elevacion esperada para la ausencia de una variacion del numero de copias es aproximadamente 1,09, 1,08, 1,06, 1,04, 1,02, 1,0, 0,98, 0,96, 0,94, o aproximadamente 0,92. La constante de elevacion esperada para la ausencia de una variacion del numero de copias puede ser aproximadamente 1.
La constante de elevacion esperada para una supresion heterocigota (por ejemplo, una materna, fetal o una supresion heterocigota materna y una fetal) puede ser de aproximadamente 0,2 a aproximadamente 0,8, de aproximadamente 0,3 a aproximadamente 0,7, o de aproximadamente 0,4 a aproximadamente 0,6. Algunas veces la constante de elevacion esperada para una supresion heterocigota es aproximadamente 0,2, 0,3, 0,4, 0,5, 0,6, 0,7 o aproximadamente 0,8. A menudo la constante de elevacion esperada para una supresion heterocigota es aproximadamente 0,40, 0,42, 0,44, 0,46, 0,48, 0,5, 0,52, 0,54, 0,56, 0,58 o aproximadamente 0,60. La constante de elevacion esperada para una supresion heterocigota puede ser aproximadamente 0,5.
La constante de elevacion esperada para una supresion homocigota (por ejemplo, una supresion homocigota) puede ser de aproximadamente -0,4 a aproximadamente 0,4, de aproximadamente -0,3 a aproximadamente 0,3, de aproximadamente -0,2 a aproximadamente 0,2, o de aproximadamente -0,1 a aproximadamente 0,1. Algunas veces la constante de elevacion esperada para una supresion homocigota es aproximadamente -0,4, -0,3, -0,2, -0,1, 0,0, 0,1, 0,2, 0,3 o aproximadamente 0,4. A menudo la constante de elevacion esperada para una supresion homocigota es aproximadamente -0,1, -0,08, -0,06, -0,04, -0,02, 0,0, 0,02, 0,04, 0,06, 0,08 o aproximadamente 0,10. A menudo la constante de elevacion esperada para una supresion homocigota es aproximadamente 0.
Rango de elevacion esperado
Algunas veces la presencia o ausencia de una variacion genetica o variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales) se determina mediante una elevacion que se halla dentro o fuera de un rango de elevacion esperado. Un rango de elevacion esperado a menudo se determina de acuerdo con una elevacion esperada. Algunas veces un rango de elevacion esperado se determina para una elevacion que comprende sustancialmente ninguna variacion genetica o sustancialmente ninguna variacion del numero de copias. Se puede usar un metodo adecuado para determinar un rango de elevacion esperado.
Algunas veces, un rango de elevacion esperado se define de acuerdo con un valor de incertidumbre adecuado calculado para una elevacion. Los ejemplos no limitantes de un valor de incertidumbre son una desviacion estandar, error estandar, varianza calculada, valor p, y desviacion absoluta media (MAD). Algunas veces, un rango de elevacion esperado para una variacion genetica o una variacion del numero de copias se determina, en parte, mediante el calculo del valor de incertidumbre para una elevacion (por ejemplo, una primera elevacion, una segunda elevacion, una primera elevacion y una segunda elevacion). Algunas veces un rango de elevacion esperado se define de acuerdo con un valor de incertidumbre calculado para un perfil (por ejemplo, un perfil de recuentos normalizados para un
5
10
15
20
25
30
35
40
45
50
55
60
cromosoma o segmento de este). Un valor de incertidumbre se puede calcular para una elevacion que comprende sustancialmente ninguna variacion genetica o sustancialmente ninguna variacion del numero de copias. Un valor de incertidumbre se puede calcular para una primera elevacion, una segunda elevacion o una primera elevacion y una segunda elevacion. Un valor de incertidumbre se puede determinar para una primera elevacion, una segunda elevacion o una segunda elevacion que comprende una primera elevacion.
Un rango de elevacion esperado algunas veces se calcula, en parte mediante la multiplicacion, adicion, sustraccion o division de un valor de incertidumbre por una constante (por ejemplo, una constante predeterminada) n. Se puede usar un procedimiento matematico adecuado o combinacion de procedimientos. La constante n (por ejemplo, constante predeterminada n) algunas veces se denomina como un intervalo de confianza. Un intervalo de confianza seleccionado se determina de acuerdo con la constante n que se selecciona. La constante n (por ejemplo, la constante predeterminada n, el intervalo de confianza) se puede determinar mediante una manera adecuada. La constante n puede ser un numero o fraccion de un numero mayor de cero. La constante n puede ser un numero entero. A menudo la constante n es un numero menor de 10. Algunas veces la constante n es un numero menor de aproximadamente 10, menor de aproximadamente 9, menor de aproximadamente 8, menor de aproximadamente 7, menor de aproximadamente 6, menor de aproximadamente 5, menor de aproximadamente 4, menor de aproximadamente 3, o menor de aproximadamente 2. Algunas veces la constante n es aproximadamente 10, 9,5, 9, 8,5, 8, 7,5, 7, 6,5, 6, 5,5, 5, 4,5, 4, 3,5, 3, 2,5, 2 o 1. La constante n se puede determinar empmcamente a partir de los datos derivados de sujetos (una mujer embarazada y/o un feto) con una disposicion genetica conocida.
A menudo un valor de incertidumbre y la constante n definen un rango (por ejemplo, valor de corte de incertidumbre). Por ejemplo, algunas veces un valor de incertidumbre es una desviacion estandar (por ejemplo, +/- 5) y se multiplica por una constante n (por ejemplo, un intervalo de confianza) de este modo define un rango o valor de corte de incertidumbre (por ejemplo, 5n a - 5n).
Un rango de elevacion esperado para una variacion genetica (por ejemplo, una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y variacion del numero de copias fetales) puede ser la suma de una elevacion esperada mas una constante n veces la incertidumbre (por ejemplo, n x sigma (por ejemplo, 6 sigma)). Algunas veces el rango de elevacion esperado para una variacion genetica o variacion del numero de copias designada por k se puede definir por la formula:
Formula R: (Rango de elevacion esperado)k = (Elevacion esperada)k + qa
donde a es un valor de incertidumbre, n es una constante (por ejemplo, una constante predeterminada) y el rango de elevacion esperado y la elevacion esperada son para la variacion genetica k (por ejemplo, k = una supresion heterocigota, por ejemplo, k = la ausencia de una variacion genetica). Por ejemplo, para una elevacion esperada igual a 1 (por ejemplo, la ausencia de una variacion del numero de copias), un valor de incertidumbre (es decir a) igual a +/- 0,05, y n=3, el rango de elevacion esperado se define como 1,15 a 0,85. El rango de elevacion esperado para una duplicacion heterocigota se puede determinar como 1,65 a 1,35 cuando la elevacion esperada para una duplicacion heterocigota puede ser 1,5, n = 3, y el valor de incertidumbre a es +/- 0,05. El rango de elevacion esperado para una supresion heterocigota se puede determinar como 0,65 a 0,35 cuando la elevacion esperada para una duplicacion heterocigota es 0,5, n = 3, y el valor de incertidumbre a puede ser +/- 0,05. El rango de elevacion esperado para una duplicacion homocigota se puede determinar como 2,15 a 1,85 cuando la elevacion esperada para una duplicacion heterocigota puede ser 2,0, n = 3 y el valor de incertidumbre a puede ser +/- 0,05. El rango de elevacion esperado para una supresion homocigota se puede determinar como 0,15 a -0,15 cuando la elevacion esperada para una duplicacion heterocigota es 0,0, n = 3 y el valor de incertidumbre a puede ser +/- 0,05.
Algunas veces un rango de elevacion esperado para una variacion del numero de copias homocigotas (por ejemplo, una variacion del numero de copias homocigotas maternas, fetales o maternas y fetales del numero de copias) se determina, en parte, de acuerdo con un rango de elevacion esperado para una correspondiente variacion heterocigota del numero de copias. Por ejemplo, algunas veces un rango de elevacion esperado para una duplicacion homocigota comprende todos los valores mayores que un lfmite superior de un rango de elevacion esperado para una duplicacion heterocigota. Algunas veces un rango de elevacion esperado para una duplicacion homocigota comprende todos los valores mayores o iguales a un lfmite superior de un rango de elevacion esperado para una duplicacion heterocigota. Algunas veces un rango de elevacion esperado para una duplicacion homocigota comprende todos los valores mayores que un lfmite superior de un rango de elevacion esperado para una duplicacion heterocigota y menor que el lfmite superior definido por la formula R donde a es un valor de incertidumbre y es un valor positivo, n es una constante y k es una duplicacion homocigota. Algunas veces un rango de elevacion esperado para una duplicacion homocigota comprende todos los valores mayores o iguales a un lfmite superior de un rango de elevacion esperado para una duplicacion heterocigota y menor de o igual al lfmite superior definido por la formula R, donde a es un valor de incertidumbre, o es un valor positivo, n es una constante y k es una duplicacion homocigota.
Un rango de elevacion esperado para una supresion homocigota puede comprender todos los valores menores de un lfmite inferior de un rango de elevacion esperado para una supresion heterocigota. Algunas veces un rango de elevacion esperado para una supresion homocigota comprende todos los valores menores o iguales a un lfmite inferior de un rango de elevacion esperado para una supresion heterocigota. Algunas veces un rango de elevacion esperado para una supresion homocigota comprende todos los valores menores de un lfmite inferior de un rango de elevacion
5
10
15
20
25
30
35
40
45
50
esperado para una supresion heterocigota y mayores que el l^mite inferior definido por la formula R donde o es un valor de incertidumbre, a es un valor negativo, n es una constante y k es una supresion homocigota. Algunas veces un rango de elevacion esperado para una supresion homocigota comprende todos los valores menores o iguales a un lfmite inferior de un rango de elevacion esperado para una supresion heterocigota y mayores de o iguales al lfmite inferior definido por la formula R donde ct es un valor de incertidumbre, a es un valor negativo, n es una constante y k es una supresion homocigota.
Un valor de incertidumbre se puede utilizar para determinar un valor umbral. Un rango (por ejemplo, un rango umbral) se puede obtener mediante el calculo del valor de incertidumbre determinado a partir de los recuentos brutos, filtrados y/o normalizados. Un rango se puede determinar mediante la multiplicacion del valor de incertidumbre para una elevacion (por ejemplo recuentos normalizados de una elevacion) por una constante predeterminada (por ejemplo, 1, 2, 3, 4, 5, 6, etc.) que representa el multiplo de incertidumbre (por ejemplo, numero de desviaciones estandares) elegidas como un umbral de corte (por ejemplo, multiplicar por 3 para 3 desviaciones estandares), mediante el cual se puede generar un rango. Un rango se puede determinar mediante la adicion y/o sustraccion de un valor (por ejemplo, un valor predeterminado, un valor de incertidumbre, un valor de incertidumbre multiplicado por una constante predeterminada) a y/o de una elevacion mediante el cual se puede generar un rango. Por ejemplo, para una elevacion igual a 1, una desviacion estandar de +/- 0,2, donde una constante predeterminada es 3, el rango se puede calcular como (1 + 3(0,2)) a (1 + 3(-0,2)), o 1,6 a 0,4. Un rango algunas veces puede definir un rango esperado o rango de elevacion esperado para una variacion del numero de copias. Algunas o todas las secciones genomicas que exceden un valor umbral, que caen fuera de un rango o que caen dentro de un rango de valores, se pueden eliminar como parte de, antes o despues de un proceso de normalizacion. Algunas o todas las secciones genomicas que exceden un valor umbral calculado, que caen fuera de un rango o que caen dentro de un rango, se pueden ponderar o ajustar como parte de o antes del proceso de normalizacion o clasificacion. Los ejemplos de ponderacion se describen en la presente. Los terminos “datos redundantes” y “lecturas mapeadas redundantes”, como se usan en la presente, se refieren a lecturas de secuencias derivadas de la muestra que se identifican como que ya han sido asignadas a una ubicacion genomica (por ejemplo, posicion base) y/o contadas para una seccion genomica.
Un valor de incertidumbre se puede determinar de acuerdo con la siguiente formula:
imagen1
donde Z representa la desviacion estandarizada entre dos elevaciones, L es la media (o mediana) de la elevacion y sigma es la desviacion estandar (o MAD). El subrndice O indica un segmento de un perfil (por ejemplo, una segunda elevacion, un cromosoma, un NRV, un “nivel euploide”, un nivel ausente de una variacion del numero de copias), y A indica otro segmento de un perfil (por ejemplo, una primera elevacion, una elevacion que representa una variacion del numero de copias, una elevacion que representa una aneuploidfa (por ejemplo, una trisoirna). La variable No representa el numero total de secciones genomicas en el segmento del perfil indicado por el subrndice O. Na representa el numero total de secciones genomicas el segmento del perfil indicado por el subrndice A.
Categorizacion de una variacion del numero de copias
Una elevacion (por ejemplo, una primera elevacion) que difiere significativamente de otra elevacion (por ejemplo, una segunda elevacion) a menudo se puede categorizar como una variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas y/o fetales, una variacion del numero de copias fetales, una supresion, duplicacion, insercion) de acuerdo con un rango de elevacion esperado. La presencia de una variacion del numero de copias se puede categorizar cuando una primera elevacion es significativamente diferente de una segunda elevacion y la primera elevacion se halla dentro del rango de elevacion esperado para una variacion del numero de copias. Por ejemplo, una variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas y/o fetales, una variacion del numero de copias fetales) se puede categorizar cuando una primera elevacion es significativamente diferente de una segunda elevacion y la primera elevacion se halla dentro del rango de elevacion esperado para una variacion del numero de copias. Algunas veces una duplicacion heterocigota (por ejemplo, una duplicacion heterocigota materna o fetal, o materna y fetal) o supresion heterocigota (por ejemplo, una supresion heterocigota materna o fetal, o materna y fetal) se categoriza cuando una primera elevacion es significativamente diferente de una segunda elevacion y la primera elevacion se halla dentro del rango de elevacion esperado para una duplicacion heterocigota o supresion heterocigota, respectivamente. Algunas veces una duplicacion homocigota o supresion homocigota se categoriza cuando una primera elevacion es significativamente diferente de una segunda elevacion y la primera elevacion se halla dentro del rango de elevacion esperado para una duplicacion homocigota o supresion homocigota, respectivamente.
Modulo de fijacion del rango
Los rangos esperados (por ejemplo, rango de elevacion esperados) para varias variaciones del numero de copias (por
5
10
15
20
25
30
35
40
45
50
55
60
ejemplo, duplicaciones, inserciones y/o supresiones) o rangos para la ausencia de una variacion del numero de copias se puede proporcionar mediante un modulo de fijacion del rango o mediante un aparato que comprende un modulo de fijacion del rango. En algunos casos, las elevaciones esperadas se proporcionan mediante un modulo de fijacion del rango o mediante un aparato que comprende un modulo de fijacion del rango. Un modulo de fijacion del rango o un aparato que comprende un modulo de fijacion del rango se puede requerir para proporcionar las elevaciones y/o rangos esperados. Algunas veces un modulo de fijacion del rango reune, ensambla y/o recibe los datos y/o la informacion de otro modulo o aparato. Algunas veces un modulo de fijacion del rango o un aparato que comprende un modulo de fijacion del rango proporciona y/o transfiere los datos y/o la informacion a otro modulo o aparato. Algunas veces un modulo de fijacion del rango acepta y reune los datos y/o la informacion de un componente o periferico. A menudo un modulo de fijacion del rango reune y ensambla elevaciones, elevaciones de referencia, valores de incertidumbre, y/o constantes. Algunas veces un modulo de fijacion del rango acepta y reune los datos y/o la informacion de entrada de un operador de un aparato. Por ejemplo, algunas veces un operador de un aparato proporciona una constante, un valor umbral, una formula o un valor predeterminado a un modulo. Un aparato que comprende un modulo de fijacion del rango puede comprender al menos un procesador. Las elevaciones esperadas y los rangos esperados se pueden proporcionar mediante un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de fijacion del rango. Los rangos esperados y elevaciones se pueden proporcionar mediante un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un modulo de fijacion del rango puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o una red de almacenamiento (por ejemplo, una nube)). Los rangos esperados se pueden proporcionar mediante un aparato que comprende un periferico o componente adecuado. Un modulo de fijacion del rango puede recibir los datos normalizados de un modulo de normalizacion o datos de comparacion de un modulo de comparacion. Los datos y/o la informacion derivados de o transformados por un modulo de fijacion del rango (por ejemplo, rangos ajustados, lfmites de rango, rangos de elevacion esperado, umbrales, y/o rangos umbral) se pueden transferir de un modulo de fijacion del rango a un modulo de ajuste, un modulo de resultados, un modulo de categorizacion, modulo de graficos u otro aparato y/o modulo adecuado.
Modulo de categorizacion
Una variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas y/o fetales, una variacion del numero de copias fetales, una duplicacion, insercion, supresion) se puede categorizar mediante un modulo de categorizacion o mediante un aparato que comprende un modulo de categorizacion. Algunas veces una variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas y/o fetales) se categoriza mediante un modulo de categorizacion.
Algunas veces una elevacion (por ejemplo, una primera elevacion) determinada como significativamente diferente de otra elevacion (por ejemplo, una segunda elevacion) se identifica como representativa de una variacion del numero de copias mediante un modulo de categorizacion. Algunas veces la ausencia de una variacion del numero de copias se determina mediante un modulo de categorizacion. Una determinacion de una variacion del numero de copias se puede determinar mediante un aparato que comprende un modulo de categorizacion. Un modulo de categorizacion se puede especializar para categorizar una variacion del numero de copias maternas y/o fetales, una variacion del numero de copias fetales, una duplicacion, supresion o insercion o carencia de estas o combinacion de los anteriores. Por ejemplo, un modulo de categorizacion que identifica una supresion materna puede ser diferente de y/o distinta de un modulo de categorizacion que identifica una duplicacion fetal. Un modulo de categorizacion o un aparato que comprende un modulo de categorizacion se puede requerir para identificar una variacion del numero de copias o un resultado determinante de una variacion del numero de copias. Un aparato que comprende un modulo de categorizacion puede comprender al menos un procesador. Una variacion del numero de copias o un resultado determinante de una variacion del numero de copias se puede categorizar mediante un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de categorizacion. Una variacion del numero de copias o un resultado determinante de una variacion del numero de copias se puede categorizar mediante un aparato que puede incluir multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un modulo de categorizacion puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o una red de almacenamiento (por ejemplo, una nube)). Algunas veces un modulo de categorizacion transfiere o recibe y/o reune los datos y/o la informacion a o de un componente o periferico. A menudo un modulo de categorizacion recibe, reune y/o ensambla recuentos, elevaciones, perfiles, los datos y/o la informacion normalizados, elevaciones de referencia, las elevaciones esperadas, los rangos esperados, valores de incertidumbre, ajustes, elevaciones ajustadas, graficos, comparaciones y/o constantes. Algunas veces un modulo de categorizacion acepta y reune los datos y/o la informacion de entrada de un operador de un aparato. Por ejemplo, algunas veces un operador de un aparato proporciona una constante, un valor umbral, una formula o un valor predeterminado a un modulo. Se pueden proporcionar los datos y/o la informacion mediante un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo.
La identificacion o categorizacion de una variacion del numero de copias o un resultado determinante de una variacion del numero de copias se puede proporcionar mediante un aparato que comprende un periferico o componente adecuado. Algunas veces un modulo de categorizacion reune, ensambla y/o recibe los datos y/o la informacion de otro modulo o aparato. Un modulo de categorizacion puede recibir datos normalizados de un modulo de normalizacion, las
5
10
15
20
25
30
35
40
45
50
55
60
elevaciones y/o rangos esperados de un modulo de fijacion del rango, datos de comparacion de un modulo de comparacion, graficos de un modulo de graficos, y/o datos de ajuste de un modulo de ajuste. Un modulo de categorizacion puede transformar los datos y/o la informacion que recibe en una determinacion de la presencia o ausencia de una variacion del numero de copias. Un modulo de categorizacion puede transformar los datos y/o la informacion que recibe en una determinacion de que una elevacion representa una seccion genomica que comprende una variacion del numero de copias o un tipo espedfico de variacion del numero de copias (por ejemplo, una supresion homocigota materna). Los datos y/o la informacion relacionados con una variacion del numero de copias o un resultado determinante de una variacion del numero de copias se pueden transferir de un modulo de categorizacion a un aparato y/o modulo adecuado. Una variacion del numero de copias o un resultado determinante de una variacion del numero de copias categorizadas por los metodos descritos en la presente se pueden verificar de modo independiente mediante analisis adicional (por ejemplo, mediante la secuenciacion espedfica de acido nucleico materno y/o fetal).
Determinacion de la fraccion fetal basada en la elevacion
Una fraccion fetal se puede determinar de acuerdo con una elevacion categorizada como representativa de una variacion del numero de copias maternas y/o fetales. Por ejemplo, la determinacion de la fraccion fetal a menudo comprende la evaluacion de una elevacion esperada para una variacion del numero de copias maternas y/o fetales utilizadas para la determinacion de la fraccion fetal. Algunas veces una fraccion fetal se determina para una elevacion (por ejemplo, una primera elevacion) categorizada como representativa de una variacion del numero de copias de acuerdo con un rango de elevacion esperado determinado para el mismo tipo de variacion del numero de copias. A menudo una fraccion fetal se determina de acuerdo con una elevacion observada que se halla dentro de un rango de elevacion esperado y de este modo se categoriza como una variacion del numero de copias maternas y/o fetales. Algunas veces una fraccion fetal se determina cuando una elevacion observada (por ejemplo, una primera elevacion) categorizada como una variacion del numero de copias maternas y/o fetales es diferente de la elevacion esperada determinada para la misma variacion del numero de copias materna y/o fetales.
Una elevacion (por ejemplo, una primera elevacion, una elevacion observada), puede ser significativamente diferente de una segunda elevacion, la primera elevacion se puede categorizar como una variacion del numero de copias maternas y/o fetales, y una fraccion fetal se puede determinar de acuerdo con la primera elevacion. Algunas veces una primera elevacion es una elevacion observada y/o experimentalmente obtenida que es significativamente diferente de una segunda elevacion en un perfil y una fraccion fetal se determina de acuerdo con la primera elevacion. Algunas veces la primera elevacion es una elevacion promedio, media o sumada y una fraccion fetal se determina de acuerdo con la primera elevacion. En algunos casos una primera elevacion y una segunda elevacion son elevaciones observadas y/o experimentalmente obtenidas y una fraccion fetal se determina de acuerdo con la primera elevacion. En algunos casos una primera elevacion comprende recuentos normalizados para un primer conjunto de secciones genomicas y una segunda elevacion comprende recuentos normalizados para un segundo conjunto de secciones genomicas y una fraccion fetal se determina de acuerdo con la primera elevacion. Algunas veces un primer conjunto de secciones genomicas de una primera elevacion incluye una variacion del numero de copias (por ejemplo, la primera elevacion es representativo de una variacion del numero de copias) y una fraccion fetal se determina de acuerdo con la primera elevacion. Algunas veces el primer conjunto de secciones genomicas de una primera elevacion incluye una variacion del numero de copias materna homocigota o heterocigota y una fraccion fetal se determina de acuerdo con la primera elevacion. Algunas veces un perfil comprende una primera elevacion para un primer conjunto de secciones genomicas y una segunda elevacion para un segundo conjunto de secciones genomicas, el segundo conjunto de secciones genomicas incluye sustancialmente ninguna variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales) y una fraccion fetal se determina de acuerdo con la primera elevacion.
Una elevacion (por ejemplo, una primera elevacion, una elevacion observada), puede ser significativamente diferente de una segunda elevacion, la primera elevacion se categoriza como para una variacion del numero de copias maternas y/o fetales, y una fraccion fetal se determina de acuerdo con la primera elevacion y/o una elevacion esperada de la variacion del numero de copias. Algunas veces una primera elevacion se categoriza como para una variacion del numero de copias de acuerdo con una elevacion esperada para una variacion del numero de copias y una fraccion fetal se determina de acuerdo con una diferencia entre la primera elevacion y la elevacion esperada. En algunos casos una elevacion (por ejemplo, una primera elevacion, una elevacion observada) se categoriza como una variacion del numero de copias maternas y/o fetales, y una fraccion fetal se determina como el doble de la diferencia entre la primera elevacion y elevacion esperada de la variacion del numero de copias. Algunas veces una elevacion (por ejemplo, una primera elevacion, una elevacion observada) se categoriza como una variacion del numero de copias maternas y/o fetales, la primera elevacion se sustrae de la elevacion esperada de este modo proporciona una diferencia, y una fraccion fetal se determina como el doble de la diferencia.
Algunas veces una elevacion (por ejemplo, una primera elevacion, una elevacion observada) se categoriza como una variacion del numero de copias maternas y/o fetales, una elevacion esperada se sustrae de una primera elevacion de este modo proporciona una diferencia, y la fraccion fetal se determina como el doble de la diferencia.
A menudo una fraccion fetal se proporciona como un porcentaje. Por ejemplo, una fraccion fetal se puede dividir por 100 de este modo proporciona un valor de porcentaje. Por ejemplo, para una primera elevacion representativa de una
5
10
15
20
25
30
35
40
45
50
55
60
duplicacion homocigota materna y que tiene una elevacion de 155 y una elevacion esperada para una duplicacion homocigota materna que tiene una elevacion de 150, una fraccion fetal se puede determinar como 10% (por ejemplo, (fraccion fetal = 2 x (155 - 150)).
Una fraccion fetal se puede determinar de dos o mas elevaciones dentro de un perfil que se categorizan como variaciones del numero de copias. Por ejemplo, algunas veces dos o mas elevaciones (por ejemplo, dos o mas primeras elevaciones) en un perfil se identifican como significativamente diferente de una elevacion de referencia (por ejemplo, una segunda elevacion, una elevacion que incluye sustancialmente ninguna variacion del numero de copias), las dos o mas elevaciones se categorizar como representativa de una variacion del numero de copias maternas y/o fetales y una fraccion fetal se determina de cada una de las dos o mas elevaciones. Algunas veces una fraccion fetal se determina de aproximadamente 3 o mas, aproximadamente 4 o mas, aproximadamente 5 o mas, aproximadamente 6 o mas, aproximadamente 7 o mas, aproximadamente 8 o mas, o aproximadamente 9 o mas las determinaciones de la fraccion fetal dentro de un perfil. Algunas veces una fraccion fetal se determina de aproximadamente 10 o mas, aproximadamente 20 o mas, aproximadamente 30 o mas, aproximadamente 40 o mas, aproximadamente 50 o mas, aproximadamente 60 o mas, aproximadamente 70 o mas, aproximadamente 80 o mas, o aproximadamente 90 o mas las determinaciones de la fraccion fetal dentro de un perfil. Algunas veces una fraccion fetal se determina de aproximadamente 100 o mas, aproximadamente 200 o mas, aproximadamente 300 o mas, aproximadamente 400 o mas, aproximadamente 500 o mas, aproximadamente 600 o mas, aproximadamente 700 o mas, aproximadamente 800 o mas, aproximadamente 900 o mas, o aproximadamente 1000 o mas las determinaciones de la fraccion fetal dentro de un perfil. Algunas veces una fraccion fetal se determina de aproximadamente 10 a aproximadamente 1000, aproximadamente 20 a aproximadamente 900, aproximadamente 30 a aproximadamente 700, aproximadamente 40 a aproximadamente 600, aproximadamente 50 a aproximadamente 500, aproximadamente 50 a aproximadamente 400, aproximadamente 50 a aproximadamente 300, aproximadamente 50 a aproximadamente 200, o aproximadamente 50 a aproximadamente 100 las determinaciones de la fraccion fetal dentro de un perfil.
Una fraccion fetal se puede determinar como el promedio o media de multiples determinaciones de la fraccion fetal dentro de un perfil. En algunos casos, una fraccion fetal determinada a partir de multiples determinaciones de la fraccion fetal es una media (por ejemplo, un promedio, una media, un promedio estandar, una mediana, o similares) de multiples determinaciones de la fraccion fetal. A menudo una fraccion fetal determinada a partir de multiples determinaciones de la fraccion fetal es un valor medio determinado por un metodo adecuado conocido en la tecnica o descrito en la presente. Algunas veces un valor medio de una determinacion de la fraccion fetal es una media ponderada. Algunas veces un valor medio de una determinacion de la fraccion fetal es una media no ponderada. Una media, mediana o promedio de la determinacion de la fraccion fetal (es decir, una media, mediana o promedio de determinacion del valor de fraccion fetal) generada a partir de multiples determinaciones de la fraccion fetal algunas veces se asocia con un valor de incertidumbre (por ejemplo, una varianza, desviacion estandar, MAD, o similares). Antes de la determinacion de una media, mediana o promedio del valor de la fraccion fetal a partir de multiples determinaciones, una o mas determinaciones desviadas se pueden eliminar (como se describe con mayor detalle en la presente).
Algunas determinaciones de la fraccion fetal dentro de un perfil algunas veces no se incluyen en la determinacion total de una fraccion fetal (por ejemplo, determinacion de la fraccion fetal media o promedio). Algunas veces una determinacion de la fraccion fetal deriva de una primera elevacion (por ejemplo, una primera elevacion que es significativamente diferente de una segunda elevacion) en un perfil y la primera elevacion no es indicativa de una variacion genetica. Por ejemplo, algunas primeras elevaciones (por ejemplo, picos o bajadas) en un perfil se generan de anomalfas o causas desconocidas. Tales valores a menudo generan las determinaciones de la fraccion fetal que difieren significativamente entre sf de las determinaciones de la fraccion fetal obtenidas de las variaciones del numero de copias determinadas. Algunas veces las determinaciones de la fraccion fetal que difieren significativamente entre sf las determinaciones de la fraccion fetal en un perfil se determinan y eliminan de una determinacion de la fraccion fetal. Por ejemplo, algunas determinaciones de la fraccion fetal obtenida de los picos y bajadas anomalas se identifican mediante su comparacion a otras las determinaciones de la fraccion fetal dentro de un perfil y se excluyen la determinacion total de la fraccion fetal.
Algunas veces, una determinacion independiente de la fraccion fetal que difiere significativamente una determinacion media, mediana o promedio de la fraccion fetal es una diferencia identificada, reconocida y/u observable. En algunos casos, el termino “difiere significativamente” puede significar estadfsticamente diferente y/o a diferencias estadfsticamente significativa. Una determinacion “independiente” de la fraccion fetal puede ser una fraccion fetal determinada (por ejemplo, en algunos casos una determinacion unica) de una elevacion categorizada espedfica como una variacion del numero de copias.
Se puede usar cualquier umbral o rango adecuado para determinar que una determinacion de la fraccion fetal difiere significativamente de una determinacion media, mediana o promedio de la fraccion fetal. En algunos casos una determinacion de la fraccion fetal difiere significativamente de una determinacion media, mediana o promedio de la fraccion fetal y la determinacion se puede expresar como una desviacion porcentual del valor promedio o medio. En algunos casos una determinacion de la fraccion fetal que difiere significativamente una determinacion media, mediana o promedio de la fraccion fetal difiere en aproximadamente 10 por ciento o mas. Algunas veces una determinacion de la fraccion fetal que difiere significativamente una determinacion media, mediana o promedio de la fraccion fetal difiere en aproximadamente 15 por ciento o mas. Algunas veces una determinacion de la fraccion fetal que difiere
5
10
15
20
25
30
35
40
45
50
55
60
significativamente una determinacion media, mediana o promedio de la fraccion fetal difiere en aproximadamente 15% a aproximadamente 100% o mas.
En algunos casos una determinacion de la fraccion fetal difiere significativamente de una determinacion media, mediana o promedio de la fraccion fetal de acuerdo con un multiplo de un valor de incertidumbre asociado con la determinacion de la fraccion fetal media o promedio. A menudo un valor de incertidumbre y la constante n (por ejemplo, un rango de confianza) define un rango (por ejemplo, valor de corte de incertidumbre). Por ejemplo, algunas veces un valor de incertidumbre es una desviacion estandar para las determinaciones de la fraccion fetal (por ejemplo, +/- 5) y se multiplica por una constante n (por ejemplo, un rango de confianza) de este modo define un rango o valor de corte de incertidumbre (por ejemplo, 5n a -5n, algunas veces denominado como 5 sigma). Algunas veces una determinacion independiente de la fraccion fetal se halla fuera de un rango definido por el valor de corte de incertidumbre y se considera significativamente diferente de una determinacion media, mediana o promedio de la fraccion fetal. Por ejemplo, para un valor medio de 10 y valor de corte de incertidumbre de 3, una fraccion fetal independiente mayor de 13 o menor de 7 es significativamente diferente. Algunas veces una determinacion de la fraccion fetal que difiere significativamente una determinacion media, mediana o promedio de la fraccion fetal difiere en mas de n veces el valor de incertidumbre (por ejemplo, n x sigma) donde n es aproximadamente igual a o mayor de 1,2, 3, 4, 5, 6, 7, 8, 9 o 10. Algunas veces una determinacion de la fraccion fetal que difiere significativamente una determinacion media, mediana o promedio de la fraccion fetal difiere en mas de n veces el valor de incertidumbre (por ejemplo, n x sigma) donde n es aproximadamente igual a o mayor de 1,1, 1,2, 1,3, 1,4, 1,5, 1,6, 1,7, 1,8, 1,9, 2,0, 2,1, 2,2, 2,3, 2,4, 2,5, 2,6, 2,7, 2,8, 2,9, 3,0, 3,1, 3,2, 3,3, 3,4, 3,5, 3,6, 3,7, 3,8, 3,9, o 4,0.
Una elevacion puede ser representativa de una microploidfa fetal y/o materna. Algunas veces una elevacion (por ejemplo, una primera elevacion, una elevacion observada), es significativamente diferente de una segunda elevacion, la primera elevacion se categoriza como una variacion del numero de copias maternas y/o fetales, y la primera elevacion y/o segunda elevacion es representativa de una microploidfa fetal y/o una microploidfa materna. En algunos casos una primera elevacion es representativa de una microploidfa fetal, Algunas veces una primera elevacion es representativa de una microploidfa materna. A menudo una primera elevacion es representativa de una microploidfa fetal y una microploidfa materna. Algunas veces una elevacion (por ejemplo, una primera elevacion, una elevacion observada), es significativamente diferente de una segunda elevacion, la primera elevacion se categoriza como una variacion del numero de copias maternas y/o fetales, la primera elevacion es representativa de una microploidfa fetal y/o materna y una fraccion fetal se determina de acuerdo con la microploidfa fetal y/o materna. En algunos casos una primera elevacion se categoriza como una variacion del numero de copias maternas y/o fetales, la primera elevacion es representativa de una microploidfa fetal y una fraccion fetal se determina de acuerdo con la microploidfa fetal. Algunas veces una primera elevacion se categoriza como una variacion del numero de copias maternas y/o fetales, la primera elevacion es representativa de una microploidfa materna y una fraccion fetal se determina de acuerdo con la microploidfa materna. Algunas veces una primera elevacion se categoriza como una variacion del numero de copias maternas y/o fetales, la primera elevacion es representativa de a maternal y una microploidfa fetal y una fraccion fetal se determina de acuerdo con la microploidfa materna y fetal.
Una determinacion de una fraccion fetal puede comprender la determinacion de una microploidfa fetal y/o materna. Algunas veces una elevacion (por ejemplo, una primera elevacion, una elevacion observada), es significativamente diferente de una segunda elevacion, la primera elevacion se categoriza como una variacion del numero de copias maternas y/o fetales, una microploidfa fetal y/o materna se determina de acuerdo con la primera elevacion y/o segunda elevacion y una fraccion fetal se determina. Algunas veces una primera elevacion se categoriza como una variacion del numero de copias maternas y/o fetales, una microploidfa fetal se determina de acuerdo con la primera elevacion y/o segunda elevacion y una fraccion fetal se determina de acuerdo con la microploidfa fetal. En algunos casos una primera elevacion se categoriza como una variacion del numero de copias maternas y/o fetales, una microploidfa materna se determina de acuerdo con la primera elevacion y/o segunda elevacion y una fraccion fetal se determina de acuerdo con la microploidfa materna. Algunas veces una primera elevacion se categoriza como una variacion del numero de copias maternas y/o fetales, a maternal y fetal microploidy se determina de acuerdo con la primera elevacion y/o segunda elevacion y una fraccion fetal se determina de acuerdo con la microploidfa materna y fetal.
Una fraccion fetal a menudo se determina cuando la microploidfa de la madre es diferente de (por ejemplo, no la misma que) la microploidfa del feto para una elevacion determinada o para una elevacion categorizada como una variacion del numero de copias. Algunas veces una fraccion fetal se determina cuando la madre es homocigota para una duplicacion (por ejemplo, una microploidfa de 2) y el feto es heterocigota para la misma duplicacion (por ejemplo, una microploidfa de 1,5). Algunas veces una fraccion fetal se determina cuando la madre es heterocigota para una duplicacion (por ejemplo, una microploidfa de 1,5) y el feto es homocigota para la misma duplicacion (por ejemplo, una microploidfa de 2) o la duplicacion es ausente en el feto (por ejemplo, una microploidfa de 1). Algunas veces una fraccion fetal se determina cuando la madre es homocigota para una supresion (por ejemplo, una microploidfa de 0) y el feto es heterocigota para la misma supresion (por ejemplo, una microploidfa de 0,5). Algunas veces una fraccion fetal se determina cuando la madre es heterocigota para una supresion (por ejemplo, una microploidfa de 0,5) y el feto es homocigota para la misma supresion (por ejemplo, una microploidfa de 0) o la supresion esta ausente en el feto (por ejemplo, una microploidfa de 1).
En algunos casos, una fraccion fetal no se puede determinar cuando la microploidfa de la madre es la misma (por ejemplo, identificada como la misma) como la microploidfa del feto para una elevacion determinada identificada como
5
10
15
20
25
30
35
40
45
50
55
60
una variacion del numero de copias. Por ejemplo, para una elevacion determinada donde tanto la madre como el feto portan el mismo numero de copies de una variacion del numero de copias, una fraccion fetal no se puede determinar. Por ejemplo, una fraccion fetal no se puede determinar para una elevacion categorizada como una variacion del numero de copias cuando tanto la madre como el feto son homocigotas para la misma supresion u homocigotas para la misma duplicacion. En algunos casos, una fraccion fetal no se puede determinar para una elevacion categorizada como una variacion del numero de copias cuando tanto la madre como el feto son heterocigotas para la misma supresion o heterocigota para la misma duplicacion. Cuando se realizan multiples determinaciones de la fraccion fetal para una muestra, determinaciones que desvfan significativamente de un medio, mediana o promedio del valor puede provenir de una variacion del numero de copias para las cuales la ploidfa materna es Igual a la ploidfa fetal, y tales determinaciones se pueden eliminar de la consideracion.
La microploidfa de una variacion del numero de copias maternas y variacion del numero de copias fetales puede ser desconocida. Algunas veces, en casos cuando no existe determinacion de microploidfa fetal y/o materna para una variacion del numero de copias, una fraccion fetal se genera y compara con una determinacion media, mediana o promedio de la fraccion fetal. Una determinacion de la fraccion fetal para una variacion del numero de copias que difiere significativamente de una determinacion media, mediana o promedio de la fraccion fetal algunas veces se debe a que la microploidfa de la madre y el feto son las mismas para la variacion del numero de copias. Una determinacion de la fraccion fetal que difiere significativamente una determinacion media, mediana o promedio de la fraccion fetal a menudo se excluye de una determinacion total de la fraccion fetal independientemente de la fuente o causa de la diferencia. La microploidfa de la madre y/o el feto se puede determinar y/o verificar por un metodo conocido en la tecnica (por ejemplo, por metodos de secuenciacion espedfica).
Ajustes de la elevacion
Una o mas elevaciones se pueden ajustar. Un proceso para ajustar una elevacion a menudo se denomina como relleno. Se pueden ajustar multiples elevaciones en un perfil (por ejemplo, un perfil de un genoma, un perfil cromosomico, un perfil de una porcion o segmento de un cromosoma). Algunas veces, se ajustan aproximadamente 1 a aproximadamente 10.000 o mas elevaciones en un perfil. Algunas veces se ajustan aproximadamente 1 a

aproximadamente a 1000, 1 a aproximadamente 900, 1 a aproximadamente 800, 1 a aproximadamente 700, 1 a

aproximadamente 600, 1 a aproximadamente 500, 1 a aproximadamente 400, 1 a aproximadamente 300, 1 a

aproximadamente 200, 1 a aproximadamente 100, 1 a aproximadamente 50, 1 a aproximadamente 25, 1 a
aproximadamente 20, 1 a aproximadamente 15, 1 a aproximadamente 10, o 1a aproximadamente 5 elevaciones en un perfil. Algunas veces se ajusta una elevacion. Una elevacion (por ejemplo, una primera elevacion de un perfil de recuento normalizado) que puede diferir significativamente de una segunda elevacion se ajusta. Algunas veces se ajusta una elevacion categorizada como una variacion del numero de copias. Algunas veces una elevacion (por ejemplo, una primera elevacion de un perfil de recuento normalizado) que difiere significativamente de una segunda elevacion se categoriza como una variacion del numero de copias (por ejemplo, una variacion del numero de copias, por ejemplo, una variacion del numero de copias maternas) y se ajusta. Una elevacion (por ejemplo, una primera elevacion) puede estar dentro de un rango de elevacion esperado para una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales y la elevacion se ajusta. Algunas veces, una o mas elevaciones (por ejemplo, elevaciones en un perfil) no se ajustan. Una elevacion (por ejemplo, una primera elevacion) puede estar fuera de un rango de elevacion esperado para una variacion del numero de copias y la elevacion no se ajusta. A menudo, una elevacion dentro de un rango de elevacion esperado para la ausencia de una variacion del numero de copias no se ajusta. Se puede realizar cualquier numero de ajustes en una o mas elevaciones en un perfil. Se puede ajustar una o mas elevaciones. Algunas veces 2 o mas, 3 o mas, 5 o mas, 6 o mas, 7 o mas, 8 o mas, 9 o mas y algunas veces 10 o mas elevaciones se ajustan.
Un valor de una primera elevacion se puede ajustar de acuerdo con un valor de una segunda elevacion.
Algunas veces una primera elevacion, identificada como representativa de una variacion del numero de copias, se ajusta al valor de una segunda elevacion, donde la segunda elevacion a menudo no se asocia con ninguna variacion del numero de copias. En algunos casos, un valor de una primera elevacion, identificada como representativa de una variacion del numero de copias, se ajusta asf el valor de la primera elevacion es aproximadamente igual a un valor de una segunda elevacion.
Un ajuste puede comprender una operacion matematica adecuada. Algunas veces un ajuste comprende una o mas operaciones matematicas. Algunas veces una elevacion se ajusta mediante la normalizacion, filtracion, promediado, multiplicacion, division, adicion o sustraccion o combinacion de estos. Algunas veces una elevacion se ajusta mediante un valor predeterminado o una constante. Algunas veces una elevacion se ajusta mediante la modificacion del valor de la elevacion al valor de otra elevacion. Por ejemplo, una primera elevacion se puede ajustar mediante la modificacion de su valor al valor de una segunda elevacion. Un valor en tales casos puede ser un valor procesado (por ejemplo, media, valor normalizado, y similares).
Algunas veces una elevacion se categoriza como una variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas) y se ajusta de acuerdo con un valor predeterminado denominado en la presente como un valor de ajuste predeterminado (PAV). A menudo un PAV se determina para una variacion espedfica del numero de copias. A menudo un PAV determinado para una variacion espedfica del numero de copias (por ejemplo, duplicacion
5
10
15
20
25
30
35
40
45
50
55
homocigota, supresion homocigota, duplicacion heterocigota, supresion heterocigota) se usa para ajustar una elevacion categorizada como una variacion espedfica del numero de copias (por ejemplo, duplicacion homocigota, supresion homocigota, duplicacion heterocigota, supresion heterocigota). En algunos casos, una elevacion se categoriza como una variacion del numero de copias y luego se ajusta de acuerdo con un PAV espedfico para el tipo de variacion del numero de copias categorizada. Algunas veces una elevacion (por ejemplo, una primera elevacion) se categoriza como una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales y se ajusta mediante la adicion o sustraccion de un PAV de la elevacion. A menudo una elevacion (por ejemplo, una primera elevacion) se categoriza como una variacion del numero de copias maternas y se ajusta mediante la adicion de un PAV a la elevacion. Por ejemplo, una elevacion categorizada como una duplicacion (por ejemplo, una duplicacion homocigota materna, fetal o materna y fetal) se puede ajustar mediante la adicion de un PAV determinado para una duplicacion espedfica (por ejemplo, una duplicacion homocigota) proporcionando de este modo una elevacion ajustada. A menudo un PAV determinado para una duplicacion del numero de copias es un valor negativo. La provision de un ajuste a una elevacion representativa de una duplicacion mediante la utilizacion de un PAV determinado para una duplicacion puede producir una reduccion en el valor de la elevacion. Una elevacion (por ejemplo, una primera elevacion) que difiere significativamente de una segunda elevacion se puede categorizar como una supresion del numero de copias (por ejemplo, una supresion homocigota, supresion heterocigota, duplicacion homocigota, duplicacion homocigota) y la primera elevacion se puede ajustar mediante la adicion de Un PAV determinado para una supresion del numero de copias. A menudo un pAv determinado para a supresion del numero de copias es un valor positivo. La provision de un ajuste a una elevacion representativa de una supresion mediante la utilizacion de un PAV determinado para una supresion puede producir un aumento en el valor de la elevacion.
Un PAV puede ser cualquier valor adecuado. A menudo un PAV se determina de acuerdo con y es espedfico para una variacion del numero de copias (por ejemplo, una variacion del numero de copias categorizada). En algunos casos un PAV se determina de acuerdo con una elevacion esperada para una variacion del numero de copias (por ejemplo, una variacion del numero de copias categorizada) y/o un factor de PAV. Un PAV algunas veces se determina mediante la multiplicacion de una elevacion esperada por un facto PAV. Por ejemplo, un PAV para una variacion del numero de copias se puede determinar mediante la multiplicacion de una elevacion esperada determinada para una variacion del numero de copias (por ejemplo, una supresion heterocigota) por un factor de PAV determinado para la misma variacion del numero de copias (por ejemplo, una supresion heterocigota). Por ejemplo, PAV se puede determinar mediante la siguiente formula:
PAVk = (Elevacion esperada)k x (factor PAV)k
Para la variacion del numero de copias k (por ejemplo, k = una supresion heterocigota)
Un factor PAV puede ser cualquier valor adecuado. Algunas veces un factor PAV para una duplicacion homocigota esta entre aproximadamente -0,6 y aproximadamente -0,4. Algunas veces un factor PAV para una duplicacion homocigota es aproximadamente -0,60, -0,59, -0,58, -0,57, -0,56, -0,55, -0,54, -0,53, -0,52, -0,51,-0,50, -0,49, -0,48, -0,47, - 0,46, -0,45, -0,44, -0,43, -0,42, -0,41 y -0,40. A menudo un factor PAV para una duplicacion homocigota es aproximadamente -0,5.
Por ejemplo, para un NRV de aproximadamente 1 y una elevacion esperada de una duplicacion homocigota igual a aproximadamente 2, el PAV para la duplicacion homocigota se determina como aproximadamente -1 de acuerdo con la formula anterior. En este caso, una primera elevacion categorizada como una duplicacion homocigota se ajusta mediante la adicion de aproximadamente -1 al valor de la primera elevacion, por ejemplo.
Algunas veces un factor PAV para una duplicacion heterocigota esta entre aproximadamente -0,4 y aproximadamente -0,2. Algunas veces un factor PAV para una duplicacion heterocigota es aproximadamente -0,40, -0,39, -0,38, -0,37, -0,36, - 0,35, -0,34, -0,33, -0,32, -0,31,-0,30, -0,29, -0,28, -0,27, -0,26, -0,25, -0,24, -0,23, -0,22, -0,21 y -0,20. A menudo un factor PAV para una duplicacion heterocigota es aproximadamente -0,33.
Por ejemplo, para un NRV de aproximadamente 1 y una elevacion esperada de una duplicacion heterocigota igual a aproximadamente 1,5, el PAV para la duplicacion homocigota se determina como aproximadamente -0,495 de acuerdo con la formula anterior. En este caso, una primera elevacion categorizada como una duplicacion heterocigota se ajusta mediante la adicion de aproximadamente -0,495 al valor de la primera elevacion, por ejemplo.
Algunas veces un factor PAV para una supresion heterocigota esta entre aproximadamente 0,4 y aproximadamente 0,2. Algunas veces un factor PAV para una supresion heterocigota es aproximadamente 0,40, 0,39, 0,38, 0,37, 0,36, 0,35, 0,34, 0,33, 0,32, 0,31, 0,30, 0,29, 0,28, 0,27, 0,26, 0,25, 0,24, 0,23, 0,22, 0,21 y 0,20. A menudo un factor PAV para una supresion heterocigota es aproximadamente 0,33.
Por ejemplo, para un NRV de aproximadamente 1 y una elevacion esperada de una supresion heterocigota igual a aproximadamente 0,5, el PAV para la supresion heterocigota se determina como aproximadamente 0,495 de acuerdo con la formula anterior. En este caso, una primera elevacion categorizada como una supresion heterocigota se ajusta mediante la adicion de aproximadamente 0,495 al valor de la primera elevacion, por ejemplo.
Algunas veces un factor PAV para una supresion homocigota esta entre aproximadamente 0,6 y aproximadamente
5
10
15
20
25
30
35
40
45
50
55
0,4. Algunas veces un factor PAV para una supresion homocigota es aproximadamente 0,60, 0,59, 0,58, 0,57, 0,56, 0,55, 0,54, 0,53, 0,52, 0,51, 0,50, 0,49, 0,48, 0,47, 0,46, 0,45, 0,44, 0,43, 0,42, 0,41 y 0,40. A menudo un factor PAV para una supresion homocigota es aproximadamente 0,5.
Por ejemplo, para un NRV de aproximadamente 1 y una elevacion esperada de una supresion homocigota igual a aproximadamente 0, el PAV para la supresion homocigota se determina como aproximadamente 1 de acuerdo con la formula anterior. En este caso, una primera elevacion categorizada como una supresion homocigota se ajusta mediante la adicion de aproximadamente 1 al valor de la primera elevacion, por ejemplo.
En algunos casos, un PAV es aproximadamente igual a o igual a una elevacion esperada para una variacion del numero de copias (por ejemplo, la elevacion esperada de una variacion del numero de copias).
Recuentos de una elevacion se puede normalizar antes de realizar un ajuste. En algunos casos, los recuentos de algunas o todas las elevaciones en un perfil se normalizan antes de realizar un ajuste. Por ejemplo, los recuentos de una elevacion se pueden normalizar de acuerdo con los recuentos de una elevacion de referencia o un NRV. En algunos casos, los recuentos de una elevacion (por ejemplo, una segunda elevacion) se normalizan de acuerdo con los recuentos de una elevacion de referencia o un NRV y los recuentos de todas las otras elevaciones (por ejemplo, una primera elevacion) en un perfil se normalizan con respecto a los recuentos de la misma elevacion de referencia o NRV antes de realizar un ajuste.
Una elevacion de un perfil puede resultar de uno o mas ajustes. Una elevacion de un perfil se puede determinar despues de ajusta una o mas elevaciones en el perfil. Una elevacion de un perfil se puede recalcular despues de realizar uno o mas ajustes.
Una variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales) se puede determinar (por ejemplo, determinar directa o indirectamente) de un ajuste. Por ejemplo, una elevacion en un perfil que se ajusto (por ejemplo, una primera elevacion ajustada) se puede identificar como una variacion del numero de copias maternas. La magnitud del ajuste puede indicar el tipo de variacion del numero de copias (por ejemplo, supresion heterocigota, duplicacion homocigota, y similares). En algunos casos, una elevacion ajustada en un perfil se puede identificar como representativa de una variacion del numero de copias de acuerdo con el valor de un PAV para la variacion del numero de copias. Por ejemplo, para un perfil dado, PAV es aproximadamente -1 para una duplicacion homocigota, aproximadamente -0,5 para una duplicacion heterocigota, aproximadamente 0,5 para una supresion heterocigota y aproximadamente 1 para una supresion homocigota. En el ejemplo precedente, una elevacion ajustada en aproximadamente -1 se puede identificar como una duplicacion homocigota, por ejemplo. Una o mas variaciones del numero de copias se pueden determinar a partir de un perfil o una elevacion que comprende uno o mas ajustes.
En algunos casos, se comparan las elevaciones ajustadas dentro de un perfil. Algunas veces las anomalfas y errores se identifican por comparacion de las elevaciones ajustadas. Por ejemplo, a menudo se comparan una o mas elevaciones ajustadas en un perfil y una elevacion particular se puede identificar como una anomalfa o error. Algunas veces una anomalfa o error se identifica dentro de una o mas secciones genomicas que componen una elevacion. Una anomalfa o error se puede identificar dentro de la misma elevacion (por ejemplo, en un perfil) o en una o mas elevaciones que representan secciones genomicas que son adyacentes, contiguas, lindante o colindante. Algunas veces una o mas elevaciones ajustadas son elevaciones de las secciones genomicas que son adyacentes, contiguas, lindante o colindante donde se comparan la una o mas elevaciones ajustadas y se identifica una anomalfa o error. Una anomalfa o error puede ser un pico o bajada en un perfil o elevacion donde la causa del pico o la bajada es conocida o desconocida. En algunos casos se comparan las elevaciones ajustadas y se identifica una anomalfa o error donde la anomalfa o error se debe a un error estocastico, sistematico, aleatorio o del usuario. Algunas veces se comparan las elevaciones ajustadas y una anomalfa o error se elimina de un perfil. En algunos casos, se comparan las elevaciones ajustadas y se ajusta una anomalfa o error se ajusta.
Modulo de ajuste
Los ajustes (por ejemplo, ajustes en las elevaciones o perfiles) se pueden realizar mediante un modulo de ajuste o mediante un aparato que comprende un modulo de ajuste. Un modulo de ajuste o un aparato que comprende un modulo de ajuste se puede requerir para ajustar una elevacion. Un aparato que comprende un modulo de ajuste puede comprender al menos un procesador. Una elevacion ajustada se puede proporcionar mediante un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de ajuste. Una elevacion se puede ajustar mediante un aparato que puede incluir multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un modulo de ajuste puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o una red de almacenamiento (por ejemplo, una nube)). Algunas veces un aparato que comprende un modulo de ajuste reune, ensambla y/o recibe los datos y/o la informacion de otro modulo o aparato. Algunas veces un aparato que comprende un modulo de ajuste proporciona y/o transfiere los datos y/o la informacion otro modulo o aparato.
Algunas veces un modulo de ajuste recibe y reune los datos y/o la informacion de un componente o periferico. A
5
10
15
20
25
30
35
40
45
50
55
60
menudo un modulo de ajuste recibe, reune y/o ensambla recuentos, elevaciones, perfiles, elevaciones de referencia, las elevaciones esperadas, rango de elevacion esperados, valores de incertidumbre, ajustes y/o constantes. A menudo un modulo de ajuste recibe, reune y/o ensambla elevaciones (por ejemplo, primeras elevaciones) que se categorizan o determinan que son las variaciones del numero de copias (por ejemplo, una variacion del numero de copias maternas, variacion del numero de copias fetales, o una variacion del numero de copias maternas y una variacion del numero de copias fetales). Algunas veces un modulo de ajuste acepta y reune los datos y/o la informacion de entrada de un operador de un aparato. Por ejemplo, algunas veces un operador de un aparato proporciona una constante, un valor umbral, una formula o un valor predeterminado a un modulo. Los datos y/o la informacion se puede proporcionar mediante un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Una elevacion se puede ajustar mediante un aparato que comprende un periferico o componente adecuado. Un aparato que comprende un modulo de ajuste puede recibir datos normalizados de un modulo de normalizacion, vana de un modulo de fijacion del rango, datos de comparacion de un modulo de comparacion, elevaciones identificadas (por ejemplo, identificadas como una variacion del numero de copias) de un modulo de categorizacion, y/o datos de ajuste de otro modulo de ajuste. Un modulo de ajuste puede recibir los datos y/o la informacion, transformar los datos y/o la informacion recibidos y proporcionar ajustes. Los datos y/o la informacion derivados de, o transformados por, un modulo de ajuste se pueden transferir de un modulo de ajuste a un modulo de categorizacion o a un aparato y/o modulo adecuado. Una elevacion ajustada por los metodos descritos en la presente se puede verificar y/o ajustar de modo independiente mediante el analisis adicional (por ejemplo, por secuenciacion espedfica del acido nucleico materno y/o fetal).
Modulo de graficos
Un recuento, una elevacion, y/o un perfil se pueden graficar (por ejemplo, con un diagrama). Algunas veces un grafico (por ejemplo, un diagrama) comprende un ajuste. Algunas veces un grafico comprende un ajuste de un recuento, una elevacion, y/o un perfil. Algunas veces se grafica un recuento, una elevacion, y/o un perfil y un recuento, elevacion, y/o un perfil comprende un ajuste. A menudo un recuento, se grafican una elevacion, y/o un perfil y un recuento, elevacion, y/o un perfil se comparan. Algunas veces una variacion del numero de copias (por ejemplo, una aneuploidfa, variacion del numero de copias) se identifica y/o categoriza a partir de un grafico de un recuento, una elevacion, y/o un perfil. Algunas veces el sexo del feto se determina a partir de un grafico de un recuento, una elevacion, y/o un perfil. Algunas veces se determina un resultado a partir de un grafico de un recuento, una elevacion, y/o un perfil. Un grafico (por ejemplo, un diagrama) se puede realizar (por ejemplo, generar) mediante un modulo de graficos o un aparato que comprende un modulo de graficos. Un modulo de graficos o un aparato que comprende un modulo de graficos puede ser necesario para graficar un recuento, una elevacion o un perfil. Un modulo de graficos puede exhibir un grafico o enviar un grafico a una pantalla (por ejemplo, un modulo de visualizacion). Un aparato que comprende un modulo de graficos puede comprender al menos un procesador. Un grafico se puede proporcionar mediante un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de graficos. Un grafico se puede realizar mediante un aparato que puede incluir multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un modulo de graficos puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o una red de almacenamiento (por ejemplo, una nube)). Algunas veces un aparato que comprende un modulo de graficos reune, ensambla y/o recibe los datos y/o la informacion de otro modulo o aparato. Algunas veces un modulo de graficos recibe y reune los datos y/o la informacion de un componente o periferico.
A menudo un modulo de graficos recibe, reune, ensambla y/o grafica lecturas de secuencias, secciones genomicas, lecturas mapeadas, recuentos, elevaciones, perfiles, elevaciones de referencia, elevaciones esperadas, rangos de elevacion esperados, valores de incertidumbre, comparaciones, elevaciones categorizadas (por ejemplo, elevaciones identificadas como variaciones del numero de copias) y/o resultados, ajustes y/o constantes. Algunas veces un modulo de graficos acepta y reune los datos y/o la informacion de entrada de un operador de un aparato. Por ejemplo, algunas veces un operador de un aparato proporciona una constante, un valor umbral, una formula o un valor predeterminado a un modulo de graficos. Los datos y/o la informacion se pueden proporcionar mediante un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un recuento, una elevacion y/o un perfil se puede graficar mediante un aparato que comprende un periferico o componente adecuado. Un aparato que comprende un modulo de graficos puede recibir datos normalizados de un modulo de normalizacion, rangos de un modulo de fijacion del rango, datos de comparacion de un modulo de comparacion, datos de categorizacion de un modulo de categorizacion, y/o datos de ajuste de un modulo de ajuste. Un modulo de graficos puede recibir los datos y/o la informacion, transformar los datos y/o la informacion y proporcionar los datos graficados. Algunas veces un aparato que comprende un modulo de graficos proporciona y/o transfiere los datos y/o la informacion a otro modulo o aparato. Un aparato que comprende un modulo de graficos puede graficar un recuento, una elevacion y/o un perfil y proporcionar o transferir los datos y/o la informacion relacionada con los graficos a un aparato y/o modulo adecuado. A menudo un modulo de graficos recibe, reune, ensambla y/o grafica elevaciones (por ejemplo, perfiles, primeras elevaciones) y transfiere los datos graficados y/o la informacion ay de un modulo de ajuste y/o modulo de comparacion. Los datos graficados y/o la informacion algunas veces se transfiere de un modulo de graficos a un modulo de categorizacion y/o un periferico (por ejemplo, una pantalla o impresora). Los graficos se pueden categorizar y/o determinar para comprender una variacion genetica (por ejemplo, una aneuploidfa o sexo del feto particular) o una variacion del numero de copias (por ejemplo, una variacion del numero de copias maternas y/o fetales). Un recuento,
5
10
15
20
25
30
35
40
45
50
55
60
una elevacion y/o un perfil graficado por los metodos descritos en la presente se puede verificar y/o ajustar de modo independiente mediante analisis adicional (por ejemplo, por secuenciacion espedfica de acido nucleico materno y/o fetal).
Algunas veces un resultado se determina de acuerdo con una o mas elevaciones. Una determinacion de sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa del cromosoma) se puede determinar de acuerdo con una o mas elevaciones ajustadas. Algunas veces, una determinacion de sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa del cromosoma) se determina de acuerdo con un perfil que comprende 1 a aproximadamente 10,000 elevaciones ajustadas. A menudo una determinacion de sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa del cromosoma) se determina de acuerdo con un perfil que comprende aproximadamente 1 a aproximadamente a 1000, 1 a aproximadamente 900, 1 a aproximadamente 800, 1 a aproximadamente 700, 1 a aproximadamente 600, 1 a aproximadamente 500, 1 a aproximadamente 400, 1 a aproximadamente 300, 1 a aproximadamente 200, 1 a aproximadamente 100, 1 a aproximadamente 50, 1 a aproximadamente 25, 1 a aproximadamente 20, 1 a aproximadamente 15, 1 a aproximadamente 10, o 1 a aproximadamente 5 ajustes. Algunas veces una determinacion de sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa del cromosoma) se determina de acuerdo con un perfil que comprende aproximadamente 1 ajuste (por ejemplo, una elevacion ajustada). Algunas veces un resultado se determina de acuerdo con una o mas perfiles (por ejemplo, un perfil de un cromosoma o segmento de este) que comprende una o mas, 2 o mas, 3 o mas, 5 o mas, 6 o mas, 7 o mas, 8 o mas, 9 o mas o algunas veces 10 o mas ajustes. Algunas veces, una determinacion de sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa del cromosoma) se determina de acuerdo con un perfil donde algunas elevaciones en un perfil no se ajustan. Algunas veces, una determinacion de sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa del cromosoma) se determina de acuerdo con un perfil donde se realizan los ajustes.
Un ajuste de una elevacion (por ejemplo, una primera elevacion) en un perfil puede reducir una determinacion falsa o resultado falso. Un ajuste de una elevacion (por ejemplo, una primera elevacion) en un perfil puede reducir la frecuencia y/o probabilidad (por ejemplo, probabilidad estadfstica, probabilidad) de una determinacion falsa o resultado falso. Una determinacion o resultado falso puede ser una determinacion o resultado que no es exacto. Una determinacion o resultado falso puede ser una determinacion o resultado que no es reflejo de la composicion genetica real o verdadera o la disposicion genetica real o verdadera (por ejemplo, la presencia o ausencia de una variacion genetica) de un sujeto (por ejemplo, una mujer embarazada, un feto y/o una de sus combinaciones). Algunas veces una determinacion o resultado falso es una determinacion negativa falsa. Una determinacion negativa o resultado negativo puede ser la ausencia de una variacion genetica (por ejemplo, aneuploidfa, variacion del numero de copias) o un sexo del feto particular (por ejemplo, feto femenino). Algunas veces una determinacion falsa o resultado falso es una determinacion positiva falsa o resultado positivo falso. Una determinacion positiva o resultado positivo puede ser la presencia de una variacion genetica (por ejemplo, aneuploidfa, variacion del numero de copias) o sexo del feto particular (por ejemplo, feto masculino). Una determinacion o resultado se puede utilizar en un diagnostico. Una determinacion o resultado puede ser para un feto.
Resultados
Los metodos descritos en la presente pueden proporcionar una determinacion de la presencia o ausencia de una variacion genetica (por ejemplo, aneuploidfa fetal, sexo del feto) para una muestra, proporcionando de este modo un resultado (por ejemplo, proporcionando de este modo un resultado determinante de la presencia o ausencia de una variacion genetica (Por ejemplo, aneuploidfa fetal, sexo del feto)). Una variacion genetica a menudo incluye una ganancia, una perdida y/o alteracion (por ejemplo, duplicacion, supresion, fusion, insercion, mutacion, reorganizacion, sustitucion o metilacion aberrante) de informacion genetica (por ejemplo, cromosomas, segmentos de cromosomas, regiones polimorficas, regiones translocadas, secuencia de nucleotidos alteradas, similares o combinaciones de lo anterior) que da como resultado un cambio detectable en el genoma o informacion genetica de un sujeto de prueba con respecto a una referencia. La presencia o ausencia de una variacion genetica se puede determinar mediante la transformacion, analisis y/o manipulacion de las lecturas de secuencias que se han mapeado a secciones genomicas (por ejemplo, bins genomicos).
Los metodos descritos en la presente algunas veces determinan el sexo del feto. Los metodos descritos en la presente algunas veces determinan la presencia o ausencia de una aneuploidfa fetal (por ejemplo, aneuploidfa total del cromosoma, aneuploidfa parcial del cromosoma o aberracion cromosomica segmentaria (por ejemplo, mosaiquismo, supresion y/o insercion)) para una muestra de prueba de una mujer embarazada que lleva un feto. Algunas veces los metodos descritos en la presente detectan euploidfa o carencia de euploidfa (no euploidfa) para una muestra de una mujer embarazada que lleva un feto. Los metodos descritos en la presente algunas veces detectan trisoirna para uno o mas cromosomas (por ejemplo, cromosoma 13, cromosoma 18, cromosoma 21 o sus combinaciones) o segmento de este.
El sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa fetal) se puede determinar mediante un metodo conocido en la presente, mediante un metodo conocido en la tecnica o mediante una de sus combinaciones. La presencia o ausencia de una variacion genetica generalmente se determina a partir de los recuentos de lecturas de secuencias mapeadas a las secciones genomicas de un genoma de referencia. Los
5
10
15
20
25
30
35
40
45
50
55
60
recuentos de lecturas de secuencias utilizadas para determinar la presencia o ausencia de una variacion genetica algunas veces son recuentos brutos y/o recuentos filtrados, y a menudo son recuentos normalizados. Un proceso o procesos de normalizacion adecuados se pueden usar para los recuentos normalizados, cuyos ejemplos no limitantes incluyen normalizacion por bin, normalizacion por contenido de GC, regresion de cuadrados mmimos lineal y no lineal, GC LoESS, LOWESS, PERUN, RM, GCRM, GCRM, y/o sus combinaciones. Los recuentos normalizados algunas veces se expresan como uno o mas niveles o elevaciones en un perfil para un conjunto o conjuntos particulares de secciones genomicas. Los recuentos normalizados algunas veces se ajustan o rellenan antes de determinar la presencia o ausencia de una variacion genetica.
La presencia o ausencia de una variacion genetica (por ejemplo, aneuploidfa fetal) y/o sexo del feto algunas veces se determina sin comparar recuentos para un conjunto de secciones genomicas con una referencia. Los recuentos medidos para una muestra de prueba y que estan en una region de prueba (por ejemplo, un conjunto de secciones genomicas de interes) se denominan como “recuentos de prueba” en la presente. Los recuentos de prueba algunas veces son recuentos procesados, promediados o sumados, una representacion, recuentos normalizados, o uno o mas niveles o elevaciones, como se describe en la presente. Algunas veces los recuentos de prueba se promedian o suman (por ejemplo, se calcula un promedio, media, mediana, modo o suma) para un conjunto de secciones genomicas, y los recuentos promediados o sumados se comparan con un umbral o rango. Los recuentos de prueba algunas veces se expresan como una representacion, que se puede expresar como una relacion o porcentaje de recuentos para un primer conjunto de secciones genomicas con los recuentos para un segundo conjunto de secciones genomicas. Algunas veces el primer conjunto de secciones genomicas es para uno o mas cromosomas de prueba (por ejemplo, cromosoma 13, cromosoma 18, cromosoma 21, o sus combinaciones) y algunas veces el segundo conjunto de secciones genomicas es para el genoma o una parte del genoma (por ejemplo, autosomas o autosomas y cromosomas sexuales). Algunas veces el primer conjunto de secciones genomicas es para uno o mas cromosomas de prueba (por ejemplo, cromosoma X, cromosoma Y, o sus combinaciones) y algunas veces el segundo conjunto de secciones genomicas es para el genoma o una parte del genoma (por ejemplo, autosomas). Algunas veces el primer conjunto de secciones genomicas es para una o mas primeras regiones de un cromosoma de prueba (por ejemplo, cromosoma X, cromosoma Y, o sus combinaciones) y algunas veces el segundo conjunto de secciones genomicas es para una o mas segundas regiones de un cromosoma de prueba (por ejemplo, cromosoma X, cromosoma Y, o sus combinaciones) o el cromosoma de prueba entero. Algunas veces una representacion se compara con un umbral o rango. Algunas veces los recuentos de prueba se expresan como uno o mas niveles o elevaciones para los recuentos normalizados respecto de un conjunto de secciones genomicas, y el uno o mas niveles o elevaciones se comparan con un umbral o rango. Los recuentos de prueba (por ejemplo, recuentos promediados o sumados, representacion, recuentos normalizados, uno o mas niveles o elevaciones) por encima o debajo de un umbral particular, en un rango particular o fuera de un rango particular algunas veces son determinantes de la presencia de una variacion genetica o carencia de euploidfa (por ejemplo, sin euploidfa). Los recuentos de prueba (por ejemplo, recuentos promediados o sumados, representacion, recuentos normalizados, uno o mas niveles o elevaciones) por debajo o encima de un umbral particular, en un rango particular o fuera de un rango particular algunas veces son determinantes de la ausencia de una variacion genetica o euploidfa.
La presencia o ausencia de una variacion genetica (por ejemplo, aneuploidfa fetal, sexo del feto) algunas veces se determina mediante la comparacion de los recuentos de prueba (por ejemplo, recuentos brutos, recuentos filtrados, recuentos promediados o sumados, representacion, recuentos normalizados, uno o mas niveles o elevaciones, para un conjunto de secciones genomicas) con una referencia. Una referencia puede ser una determinacion adecuada de recuentos. Los recuentos para una referencia algunas veces son recuentos brutos, recuentos filtrados, recuentos promediados o sumados, representacion, recuentos normalizados, uno o mas niveles o elevaciones, para un conjunto de secciones genomicas. Los recuentos de referencia a menudo son recuentos para una region de prueba euploide.
Los recuentos de prueba algunas veces pueden ser para un primer conjunto de secciones genomicas y una referencia incluye recuentos para un segundo conjunto de secciones genomicas diferentes del primer conjunto de secciones genomicas. Los recuentos de referencia algunas veces son para una muestra de acido nucleico de la misma mujer embarazada de la cual se obtiene la muestra de prueba. Algunas veces los recuentos de referencia son para una muestra de acido nucleico de una o mas mujeres embarazadas diferentes de la mujer de la que se obtuvo la muestra de prueba. Un primer conjunto de secciones genomicas puede estar en el cromosoma 13, cromosoma 18, cromosoma 21, cromosoma X, cromosoma Y, segmento de este o combinacion de lo anterior, y el segundo conjunto de secciones genomicas esta en otro cromosoma o cromosomas o segmento de este. En un ejemplo no limitante, donde un primer conjunto de secciones genomicas esta en el cromosoma 21 o segmento de este, un segundo conjunto de secciones genomicas a menudo esta en otro cromosoma (por ejemplo, cromosoma 1, cromosoma 13, cromosoma 14, cromosoma 18, cromosoma 19, segmento de este o combinacion de lo anterior). Una referencia a menudo se ubica en un cromosoma o segmento de este que es tipicamente euploide. Por ejemplo, el cromosoma 1 y el cromosoma 19 a menudo son euploides en los fetos debido a una alta tasa de mortalidad fetal temprana asociada con las aneuploidfas del cromosoma 1 y del cromosoma 19. Se puede generar una medicion de la desviacion entre los recuentos de la prueba y los recuentos de referencia.
Algunas veces una referencia comprende recuentos para el mismo conjunto de secciones genomicas que para los recuentos de prueba, donde los recuentos para la referencia son de una o mas muestras de referencia (por ejemplo, a menudo multiples muestras de referencia de multiples sujetos de referencia). Una muestra de referencia a menudo es de una o mas mujeres embarazadas diferentes de la mujer de la que se obtiene una muestra de prueba. Se puede
5
10
15
20
25
30
35
40
45
50
55
60
generar una medicion de la desviacion entre los recuentos de la prueba y los recuentos de referencia.
Se puede seleccionar una medicion adecuada de desviacion entre los recuentos de las pruebas y los recuentos de referencia, cuyos ejemplos no limitantes incluyen desviacion estandar, desviacion absoluta promedio, desviacion absoluta media, desviacion absoluta maxima, puntaje estandar (por ejemplo, valor z, puntaje z, puntaje normal, variable estandarizada) y similares. Las muestras de referencia pueden ser euploides para una region de prueba y se evalua la desviacion entre los recuentos de prueba y los recuentos de referencia. Una desviacion de menos de tres entre los recuentos de la prueba y los recuentos de referencia (por ejemplo, 3 - sigma para la desviacion estandar) a menudo e indicativa de una region de prueba euploide (por ejemplo, ausencia de una variacion genetica). Una desviacion de mas de tres entre los recuentos de la prueba y los recuentos de referencia a menudo es indicativa de una region de prueba no euploide (por ejemplo, presencia de una variacion genetica). Los recuentos de prueba significativamente por debajo de los recuentos de referencia, cuyos recuentos de referencia son indicativos de euploidfa, algunas veces son determinantes de una monosoirna. Los recuentos de prueba significativamente por encima de los recuentos de referencia, cuyos recuentos de referencia son indicativos de euploidfa, algunas veces son determinantes de una trisoirna. Se puede graficar y visualizar una medicion de la desviacion entre los recuentos de prueba para una muestra de prueba y los recuentos de referencia para sujetos de referencia multiples (por ejemplo, grafico de puntaje z).
Cualquier otra referencia adecuada se puede factorizar con los recuentos de prueba para determinar la presencia o ausencia de una variacion genetica (o determinacion de euploide o no euploide) para una region de prueba de una muestra de prueba. Por ejemplo, una determinacion de la fraccion fetal se puede factorizar con recuentos de prueba para determinar la presencia o ausencia de una variacion genetica. Se puede usar un proceso adecuado para cuantificar la fraccion fetal, cuyos ejemplos no limitantes incluyen un proceso de espectrometna de masas, un proceso de secuenciacion o sus combinaciones.
El personal de laboratorio (por ejemplo, un administrador de laboratorio) puede analizar valores (por ejemplo, recuentos de pruebas, recuentos de referencia, nivel de desviacion) que subyacen a la determinacion de la presencia o ausencia de una variacion genetica (para la determinacion de euploide o no euploide para una region de prueba). Para las llamadas relacionadas con la presencia o ausencia de una variacion genetica cercana o cuestionable, el personal de laboratorio puede volver a ordenar la misma prueba y/u ordenar una prueba diferente (por ejemplo, cariotipificacion y/o amniocentesis en el caso de aneuploidfa fetal y/o determinaciones de sexo del feto), que hace uso del mimo o diferente acido nucleico de muestra de un sujeto de prueba.
Una variacion genetica algunas veces se asocia con la condicion medica. Un resultado determinante de una variacion genetica es algunas veces un resultado determinante de la presencia o ausencia de una afeccion (por ejemplo, una afeccion medica), enfermedad, smdrome o anormalidad, o incluye, deteccion de una afeccion, enfermedad, smdrome o anormalidad (por ejemplo, los ejemplos no limitantes listados en las Tablas 2A y 2B). En algunos casos un diagnostico comprende la evaluacion de un resultado. Un resultado determinante de la presencia o ausencia de una afeccion (por ejemplo, una afeccion medica), enfermedad, smdrome o anormalidad mediante los metodos descritos en la presente algunas veces se pueden verificar de modo independiente por analisis adicional (por ejemplo, mediante cariotipificacion y/o amniocentesis).
El analisis y procesamiento de datos puede proporcionar uno o mas resultados. El termino “resultado” como se usa en la presente se puede referir a un resultado del procesamiento de datos que facilita la determinacion del sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa, una variacion del numero de copias).
Algunas veces el termino “resultado” como se usa en la presente se refiere a una conclusion que predice y/o determina el sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa, una variacion del numero de copias). Algunas veces el termino “resultado” como se usa en la presente se refiere a una conclusion que predice y/o determina un riesgo o probabilidad de un determinado sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, una aneuploidfa, una variacion del numero de copias) en un sujeto (por ejemplo, un feto). Un diagnostico algunas veces comprende el uso de un resultado. Por ejemplo, un profesional de la salud puede analizar un resultado y proporcionar un diagnostico basado en, o basado en parte en, el resultado. La determinacion, deteccion o diagnostico de una afeccion, smdrome o anormalidad puede comprender el uso de un resultado determinante de la presencia o ausencia de una variacion genetica. Un resultado basado en lecturas de secuencias mapeadas contadas o sus transformaciones puede ser determinante de la presencia o ausencia de una variacion genetica. Un resultado generado usando uno o mas metodos (por ejemplo, metodos de procesamiento de datos) descritos en la presente puede ser determinante de la presencia o ausencia de una o mas afecciones, smdromes o anormalidades listados en las siguientes Tablas 2A y 2B. Algunas veces un diagnostico comprende una determinacion de la presencia o ausencia de una afeccion, smdrome o anormalidad. A menudo un diagnostico comprende una determinacion de una variacion genetica que la naturaleza y/o causa de una afeccion, smdrome o anormalidad. Algunas veces un resultado no es un diagnostico. Un resultado a menudo comprende uno o mas valores numericos generados usando un metodo de procesamiento descrito en la presente en el contexto de una o mas consideraciones de probabilidad. Una consideracion de riesgo o probabilidad puede incluir, pero sin limitacion: un valor de incertidumbre, una medicion de variabilidad, nivel de confianza, sensibilidad, especificidad, desviacion estandar, coeficiente de variacion (CV) y/o nivel de confianza, puntuaciones Z, valores de Chi, valores de Phi, valores de ploidfa,
5
10
15
20
25
30
35
40
45
50
55
60
fraccion fetal ajustada, relaciones de area, elevacion media, similares o combinaciones de estos. Una consideracion de probabilidad puede facilitar la determinacion de si un sujeto esta en riesgo de tener o tiene una variacion genetica y un resultado determinante de la presencia o ausencia de un trastorno genetico a menudo incluye tal consideracion.
Un resultado algunas veces es un fenotipo. Un resultado algunas veces es un fenotipo con un nivel asociado de confianza (por ejemplo, un valor de incertidumbre, por ejemplo, un feto es positivo para la trisoirna 21 con un nivel de confianza del 99%, una mujer embarazada lleva un feto masculino con un nivel de confianza de 95 %, un sujeto de prueba es negativo para un cancer asociado con una variacion genetica a un nivel de confianza del 95%). Diferentes metodos de generacion de valores de resultados algunas veces pueden producir diferentes tipos de resultados. Generalmente, hay cuatro tipos de puntuaciones o llamadas posibles que se pueden realizar sobre la base de los valores de resultado generados usando los metodos descritos en la presente: verdadero positivo, falso positivo, verdadero negativo y falso negativo. Los terminos “puntaje”, “puntajes”, “llamada” y “llamadas” como se usa en la presente se refieren al calculo de la probabilidad de que una variacion genetica particular esta presente o ausente en un sujeto/muestra. El valor de un puntaje se puede usar para determinar, por ejemplo, una variacion, diferencia o relacion de lecturas de secuencias mapeadas que pueden corresponder a una variacion genetica. Por ejemplo, el calculo de un puntaje positivo para una variacion genetica o seccion genomica seleccionada a partir de un conjunto de datos, con respecto a un genoma de referencia puede conducir a una identificacion del sexo del feto y/o la presencia o ausencia de una variacion genetica, tal variacion genetica esta asociada con una afeccion medica (por ejemplo, cancer, preeclampsia, trisoirna, monosoirna y similares). Un resultado puede comprender una elevacion, un perfil y/o un grafico (por ejemplo, un perfil grafico). En estos ejemplos en los que un resultado comprende un perfil, se puede usar un perfil o combinacion de perfiles para un resultado. Los ejemplos no limitantes de perfiles que se pueden usar para un resultado incluyen perfiles de puntaje z, perfiles de valor p, perfiles de valor chi, perfiles de valor phi, similares, y sus combinaciones.
Un resultado generado para determinar la presencia o ausencia de una variacion genetica algunas veces incluye un resultado nulo (por ejemplo, un punto de datos entre dos clusteres, un valor numerico con una desviacion estandar que abarca valores para la presencia y ausencia de una variacion genetica, un conjunto de datos con un grafico del perfil que no es similar a los graficos del perfil para sujetos que tienen o estan libres de la variacion genetica que se investiga). Un resultado indicativo de un resultado nulo puede ser todavfa un resultado determinante y la determinacion puede incluir la necesidad de informacion adicional y/o una repeticion de la generacion y/o analisis de datos para determinar la presencia o ausencia de una variacion genetica.
Un resultado se puede generar despues de realizar una o mas etapas de procesamiento descritas en la presente.
Un resultado se puede generar como un resultado de las etapas de procesamiento descritas en la presente, y por ejemplo, un resultado se puede generar despues de que se realiza cada manipulacion estadfstica y/o matematica de un conjunto de datos. Un resultado relativo a la determinacion de la presencia o ausencia de una variacion genetica se puede expresar en una forma adecuada, tal forma comprende sin limitacion, una probabilidad (por ejemplo, relacion de probabilidades, valor p), probabilidad, valor dentro o fuera de un cluster, valor por encima o debajo de un valor umbral, un valor dentro de un rango (por ejemplo, un rango umbral), un valor con una medicion de varianza o confianza o un factor de riesgo asociado con la presencia o ausencia de una variacion genetica para un sujeto o muestra. La comparacion entre muestras puede permitir la confirmacion de la identidad de la muestra (por ejemplo, permite la identificacion de muestras repetidas y/o muestras que se han mezclado (por ejemplo, marcadas erroneamente, combinadas y similares)).
Un resultado puede comprender un valor por encima o debajo de un valor umbral o de corte predeterminado (por ejemplo, mayor de 1, menor de 1), y una incertidumbre o nivel de confianza asociados con el valor. Algunas veces un valor umbral o de corte predeterminado es una elevacion esperada o un rango de elevacion esperado. Un resultado tambien puede describir Una suposicion utilizada en el procesamiento de datos. Un resultado puede comprender un valor que se halla dentro o fuera de un rango predeterminado de valores (por ejemplo, un rango umbral) y la incertidumbre o nivel de confianza asociados para este valor que esta dentro o fuera del rango. Un resultado puede comprender un valor que es igual a un valor predeterminado (por ejemplo, igual a 1, igual a cero), o es igual a un valor dentro de un rango predeterminado de valores, y su incertidumbre o nivel de confianza asociados para que este valor sea igual o este dentro o fuera de un rango. Un resultado algunas veces se representa graficamente como un grafico (por ejemplo, grafico del perfil). El sexo del feto se puede determinar de acuerdo con o sobre la base de una comparacion sola o de acuerdo con o sobre la base de una comparacion en conjunto con uno o mas rasgos diferentes, tal como la evaluacion de la comparacion en conjunto por ejemplo con un valor de corte, tabla de consulta, una o mas determinaciones de sexo del feto diferentes, resultado, similares o combinacion de lo anterior.
Como se senalo anteriormente, un resultado se puede caracterizar como un verdadero positivo, verdadero negativo, falso positivo o falso negativo. La expresion “verdadero positivo” como se usa en la presente se refiere a un sujeto correctamente diagnosticado como portador de una variacion genetica. La expresion “falso positivo” como se usa en la presente se refiere a un sujeto erroneamente identificado como portador de una variacion genetica. La expresion “verdadero negativo” como se usa en la presente se refiere a un sujeto correctamente identificado como no portador de una variacion genetica. La expresion “falso negativo” como se usa en la presente se refiere a un sujeto erroneamente identificado como no portador de una variacion genetica. Dos mediciones de rendimiento para cualquier metodo dado se pueden calcular sobre la base de las relaciones de estas ocurrencias: (i) un valor de sensibilidad, que generalmente
5
10
15
20
25
30
35
40
45
50
55
60
es la fraccion de los positivos predichos que se identifican correctamente como positivos; y (ii) un valor de especificidad, que generalmente es la fraccion de negativos predichos correctamente identificados como negativos. El termino “sensibilidad” como se usa en la presente se refiere al numero de verdaderos positivos divididos por el numero de verdaderos positivos mas el numero de falsos negativos, donde la sensibilidad (sens) puede estar dentro del intervalo de 0 <sens <1. Idealmente, el numero de falsos negativos es igual a cero o cercano a cero, de manera que ningun sujeto es erroneamente identificado como no portador de al menos una variacion genetica cuando efectivamente tienen al menos una variacion genetica. Por el contrario, a menudo se hace una evaluacion de la capacidad de un algoritmo de prediccion para clasificar correctamente los negativos, una medicion complementaria para la sensibilidad. El termino “especificidad” como se usa en la presente se refiere al numero de verdaderos negativos dividido por el numero de verdaderos negativos mas el numero de falsos positivos, donde la sensibilidad (espec) puede estar dentro del intervalo de 0 <espec <1. Idealmente, el numero de falsos positivos es igual a cero o cercano a cero, de modo que no se identifica erroneamente ningun sujeto con al menos una variacion genetica cuando no se evalua la variacion genetica.
Una o mas de sensibilidad, especificidad y/o nivel de confianza se pueden expresan como porcentaje. El porcentaje, de modo independiente para cada variable, puede ser mayor de aproximadamente 90% (por ejemplo, aproximadamente 90, 91, 92, 93, 94, 95, 96, 97, 98 o 99%, o mayor de 99% (por ejemplo, aproximadamente 99,5%, o mayor de, aproximadamente 99,9% o mayor, aproximadamente 99,95% o mayor de, aproximadamente 99,99% o mayor)). El coeficiente de variacion (CV) se puede expresar como un porcentaje, y algunas veces el porcentaje es aproximadamente 10% o menos (por ejemplo, aproximadamente 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1%, o menos de 1% (por ejemplo, aproximadamente 0,5% o menos, aproximadamente 0,1% o menos, aproximadamente 0,05% o menos, aproximadamente 0,01% o menos)). Una probabilidad (por ejemplo, que un resultado particular no se debe al azar) se puede expresar como un puntaje Z, un valor p o los resultados de una prueba t. Una varianza, intervalo de confianza, sensibilidad, especificidad y similares medidos (por ejemplo, denominados colectivamente como parametros de confianza) para un resultado se pueden generar usando una o mas manipulaciones de procesamiento de datos descritos en la presente.
Algunas veces se selecciona un metodo que tiene sensibilidad y especificidad que equivale a uno, o 100%, o cerca de uno (por ejemplo, entre aproximadamente 90% a aproximadamente 99%). Se puede seleccionar un metodo que tiene una sensibilidad que equivale a 1, o 100%, y por ejemplo, se puede seleccionar un metodo que tiene una sensibilidad cercana a 1 (por ejemplo, una sensibilidad de aproximadamente 90%, una sensibilidad de aproximadamente 91%, una sensibilidad de aproximadamente 92%, una sensibilidad de aproximadamente 93%, una sensibilidad de aproximadamente 94%, una sensibilidad de aproximadamente 95%, una sensibilidad de aproximadamente 96%, una sensibilidad de aproximadamente 97%, una sensibilidad de aproximadamente 98%, o una sensibilidad de aproximadamente 99%). Se puede seleccionar un metodo que tiene una especificidad que equivale a 1, o 100%, y por ejemplo, se puede seleccionar un metodo que tiene una especificidad cercana a 1 (por ejemplo, una especificidad de aproximadamente 90%, una especificidad de aproximadamente 91%, una especificidad de aproximadamente 92%, una especificidad de aproximadamente 93%, una especificidad de aproximadamente 94%, una especificidad de aproximadamente 95%, una especificidad de aproximadamente 96%, una especificidad de aproximadamente 97%, una especificidad de aproximadamente 98%, o una especificidad de aproximadamente 99%).
Un metodo para determinar sexo del feto se puede realizar con una exactitud de al menos aproximadamente 90% a aproximadamente 100%. Por ejemplo, sexo del feto se puede determinar con una exactitud de al menos aproximadamente 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99,1%, 99,2%, 99,3%, 99,4%, 99,5%, 99,6%, 99,7%, 99,8% o 99,9%. El sexo del feto se puede determinar con una exactitud que es aproximadamente la misma o mas alta que la exactitud usando otros metodos de la determinacion de sexo del feto (por ejemplo, analisis de cariotipo, analisis de SRY). El sexo del feto se puede determinar con una exactitud que tiene rango de confianza (Cl) de aproximadamente 80% a aproximadamente 100%. Por ejemplo, el rango de confianza (Cl) puede ser aproximadamente 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, o 99%.
Modulo de resultados
La presencia o ausencia de una variacion genetica (una aneuploidfa, una aneuploidfa fetal, una variacion del numero de copias, sexo del feto) se puede identificar mediante un modulo de resultados o mediante un aparato que comprende un modulo de resultados. Algunas veces una variacion genetica se identifica mediante un modulo de resultados. A menudo una determinacion de sexo del feto y/o la presencia o ausencia de una aneuploidfa se identifica mediante un modulo de resultados. Un resultado determinante del sexo del feto o una variacion genetica (una aneuploidfa, una variacion del numero de copias) se puede identificar mediante un modulo de resultados o mediante un aparato que comprende un modulo de resultados. Un modulo de resultados se puede especializar para determinar una variacion espedfica genetica (por ejemplo, una trisoirna, una trisoirna 21, una trisoirna 18, sexo del feto). Por ejemplo, un modulo de resultados que identifica una trisoirna 21 puede ser diferente de y/o distinta de un modulo de resultados que identifica una trisoirna 18. Un modulo de resultados o un aparato que comprende un modulo de resultados se puede requerir para identificar una variacion genetica o un resultado determinante de una variacion genetica (por ejemplo, una aneuploidfa, una variacion del numero de copias, sexo del feto). Un aparato que comprende un modulo de resultados puede comprender al menos un procesador. Una variacion genetica o un resultado determinante de una variacion genetica se puede proporcionar mediante un aparato que incluye un procesador (por ejemplo, uno o mas
5
10
15
20
25
30
35
40
45
50
55
60
procesadores) tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de resultados. Una variacion genetica o un resultado determinante de una variacion genetica se pueden identificar mediante un aparato que puede incluir multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un modulo de resultados puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o una red de almacenamiento (por ejemplo, una nube)). Algunas veces un aparato que comprende un modulo de resultados reune, ensambla y/o recibe los datos y/o la informacion de otro modulo o aparato. Algunas veces un aparato que comprende un modulo de resultados proporciona y/o transfiere los datos y/o la informacion a otro modulo o aparato. Algunas veces un modulo de resultados transfiere, recibe o reune los datos y/o la informacion a o de un componente o periferico. A menudo un modulo de resultados recibe, reune y/o ensambla recuentos, elevaciones, perfiles, datos y/o informacion normalizados, elevaciones de referencia, elevaciones esperadas, rangos esperados, valores de incertidumbre, ajustes, elevaciones ajustadas, graficos, elevaciones categorizadas, comparaciones y/o constantes. Algunas veces un modulo de resultados acepta y reune los datos y/o la informacion de entrada de un operador de un aparato. Por ejemplo, algunas veces un operador de un aparato proporciona una constante, un valor umbral, una formula o un valor predeterminado a un modulo de resultados. Los datos y/o la informacion se pueden proporcionar mediante un aparato que incluye multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. La identificacion de una variacion genetica o un resultado determinante de una variacion genetica se puede proporcionar mediante un aparato que comprende un periferico o componente adecuado. Un aparato que comprende un modulo de resultados puede recibir datos normalizados de un modulo de normalizacion, las elevaciones y/o rangos esperados de un modulo de fijacion del rango, datos de comparacion de un modulo de comparacion, elevaciones categorizadas de un modulo de categorizacion, graficos de un modulo de graficos, y/o datos de ajuste de un modulo de ajuste. Un modulo de resultados puede recibir los datos y/o la informacion, transformar los datos y/o la informacion y proporcionar un resultado. Un modulo de resultados puede proporcionar o transferir los datos y/o la informacion relacionada con una variacion genetica o un resultado determinante de una variacion genetica con un aparato y/o modulo adecuado. Una variacion genetica o un resultado determinante de una variacion genetica identificado por los metodos descritos en la presente se pueden verificar de modo independiente mediante analisis adicional (por ejemplo, mediante la secuenciacion espedfica de acido nucleico materno y/o fetal).
Despues de que se han generado uno o mas resultados, a menudo se utiliza un resultado para proporcionar una determinacion de la presencia o ausencia de una variacion genetica y/o afeccion medica asociada. Un resultado tfpicamente se proporciona a un profesional de la salud (por ejemplo, tecnico o gerente de laboratorio, medico o asistente). A menudo un resultado es proporcionado por un modulo de resultados. Algunas veces un resultado se proporciona mediante un modulo de graficado. Algunas veces se proporciona un resultado en un periferico o componente de un aparato. Por ejemplo, algunas veces un resultado es proporcionado por una impresora o pantalla. Un resultado determinante de la presencia o ausencia de una variacion genetica se puede proporcionar a un profesional sanitario en forma de informe y, por ejemplo, el informe puede comprender una presentacion de un valor de resultado y un parametro de confianza asociado. Generalmente, un resultado se puede mostrar en un formato adecuado que facilita la determinacion de la presencia o ausencia de una variacion genetica y/o afeccion medica. Los ejemplos no limitantes de formatos adecuados para usar para informar y/o mostrar conjuntos de datos o informar un resultado incluyen datos digitales, un grafico, un grafico 2D, un grafico 3D y un grafico 4D, una imagen, un pictograma, un cuadro, un grafico de barras, un grafico de torta, un diagrama, un diagrama de flujo, un diagrama de dispersion, un mapa, un histograma, un grafico de densidad, un grafico de funciones, un diagrama de circuitos, un diagrama de bloques, un mapa de burbujas, un diagrama de constelacion, un diagrama de contorno, un cartograma, un grafico de arana, un diagrama de Venn, un nomograma, y similares, y combinacion de lo anterior.
La generacion de un resultado se puede visualizar como una transformacion de los datos de lectura de la secuencia de acido nucleico, o similares, en una representacion de un acido nucleico celular de un sujeto. Por ejemplo, el analisis de las lecturas de la secuencia de acido nucleico de un sujeto y la generacion de un perfil cromosomico y/o resultado se puede visualizar como una transformacion de fragmentos de lectura de secuencias relativamente pequena a una representacion de estructura de cromosoma relativamente grande. Un resultado puede provenir de una transformacion de lecturas de secuencias de un sujeto (por ejemplo, una mujer embarazada), en una representacion de una estructura existente (por ejemplo, un genoma, un cromosoma o segmento de este) presente en el sujeto (por ejemplo, un acido nucleico materno y/o fetal). Un resultado puede comprender una transformacion de lecturas de secuencias de un primer sujeto (por ejemplo, una mujer embarazada), en una representacion compuesta de estructuras (por ejemplo, un genoma, un cromosoma o segmento de este), y una segunda transformacion de la representacion compuesta que produce una representacion de una estructura presente en un primer sujeto (por ejemplo, una mujer embarazada) y/o un segundo sujeto (por ejemplo, un feto).
Uso de resultados
Un profesional de la salud u otro individuo calificado que recibe un informe que comprende uno o mas resultados determinantes de la presencia o ausencia de una variacion genetica puede usar los datos mostrados en el informe para hacer una llamada con respecto al estado del sujeto o paciente de prueba. El profesional de la salud puede hacer una recomendacion basada en el resultado proporcionado. Un profesional de la salud o un individuo cualificado puede proporcionar a un sujeto o paciente de prueba una llamada o puntaje con respecto a la presencia o ausencia de la variacion genetica basada en el valor o valores de resultado y los parametros de confianza asociados proporcionados en un informe. Un puntaje o llamada puede ser realizada manualmente por un profesional de la salud o un individuo
5
10
15
20
25
30
35
40
45
50
55
60
calificado, usando la observacion visual del informe proporcionado. Un puntaje o llamada se puede realizar mediante una rutina automatizada, algunas veces incrustada en software, y revisada por un profesional de la salud o un individuo calificado para la exactitud antes de proporcionar informacion a un sujeto o paciente de prueba. La expresion “recepcion de un informe” como se usa en la presente se refiere a la obtencion, por un medio de comunicacion, de una representacion escrita y/o grafica que comprende un resultado que, tras su revision, permite a un profesional de la salud u otro individuo cualificado realizar una determinacion en cuanto a la presencia o ausencia de variacion genetica en un sujeto o paciente de prueba. El informe se puede generar mediante un ordenador o entrada de datos humanos, y se puede comunicar por medios electronicos (por ejemplo, a traves de Internet, a traves de ordenador, por fax, desde una ubicacion de la red hasta otra en el mismo o diferentes sitios ffsicos) o por otro metodo de envfo o recepcion de datos (por ejemplo, servicio de correo, servicio de mensajena y similares). El resultado se puede transmitir a un profesional de la salud en un medio adecuado, que incluyen, sin limitacion, en forma verbal, de documento o de archivo. El archivo puede ser, por ejemplo, pero sin limitacion, un archivo auditivo, un archivo legible por ordenador, un archivo en papel, un archivo de laboratorio o un archivo de registro medico.
La expresion “proporcionar un resultado” y sus equivalentes gramaticales, como se usa en la presente, tambien se pueden referir a un metodo para obtener dicha informacion, que incluyen, sin limitacion, la obtencion de la informacion de un laboratorio (por ejemplo, un archivo de laboratorio). Un archivo de laboratorio se puede generar en un laboratorio que llevo a cabo uno o mas ensayos o una o mas etapas de procesamiento de datos para determinar la presencia o ausencia de la afeccion medica. El laboratorio puede estar en el mismo lugar o ubicacion diferente (por ejemplo, en otro pafs) como el personal que identifica la presencia o ausencia de la afeccion medica del archivo del laboratorio. Por ejemplo, el archivo de laboratorio puede ser generado en un lugar y transmitido a otro lugar en el que la informacion se transmitira a la mujer embarazada. El archivo del laboratorio puede estar en forma tangible o en forma electronica (por ejemplo, forma legible por ordenador).
Un resultado se puede proporcionar a un profesional de la salud, medico o persona calificada de un laboratorio y el profesional de la salud, medico o persona calificada puede realizar un diagnostico basado en el resultado. Se puede proporcionar un resultado a un profesional de la salud, medico o individuo calificado de un laboratorio y el profesional de la salud, medico o individuo calificado puede realizar un diagnostico basado, en parte, en el resultado junto con datos adicionales y/o informacion y otros resultados.
Un profesional de la salud o una persona calificada, puede proporcionar una recomendacion adecuada basada en el resultado o los resultados proporcionados en el informe. Los ejemplos no limitantes de recomendaciones que se pueden proporcionar basados en el informe de resultados proporcionado incluye cirugfa, radioterapia, quimioterapia, asesoramiento genetico, soluciones de tratamiento despues del parto (por ejemplo, planificacion de vida, atencion asistida a largo plazo, medicamentos, tratamientos sintomaticos) terminacion de embarazo, trasplante de organos, transfusion de sangre, similares o combinaciones de los anteriores. La recomendacion puede depender de la clasificacion basada en resultados proporcionada (por ejemplo, smdrome de Down, smdrome de Turner, afecciones medicas asociadas con variaciones geneticas en Tl3, afecciones medicas asociadas con variaciones geneticas en T18).
El software se puede usar para llevar a cabo una o mas etapas en los procesos descritos en la presente, que incluyen pero sin limitacion; recuento, procesamiento de datos, generacion de un resultado, y/o provision de una o mas recomendaciones basadas en resultados generados, como se describe con mayor detalle de aqrn en adelante.
Transformaciones
Como se senalo anteriormente, los datos algunas veces se transforman de una forma a otra. Los terminos “transformado”, “transformacion” y derivaciones gramaticales o equivalentes de estos, como se usa en la presente, se refieren a una alteracion de datos de un material de partida ffsico (por ejemplo, un sujeto de prueba y/o un acido nucleico de muestra de referencia) en una representacion digital del material de partida ffsico (por ejemplo, datos de lectura de secuencia) y, por ejemplo, puede incluir una transformacion adicional en uno o mas valores numericos o representaciones graficas de la representacion digital que se puede utilizar para proporcionar un resultado. El uno o mas valores numericos y/o representaciones graficas de datos representados digitalmente se pueden usar para representar el aspecto del genoma ffsico de un sujeto de prueba (por ejemplo, representar virtualmente o representar visualmente la presencia o ausencia de una insercion, duplicacion o supresion genomica; representar la presencia o ausencia de una variacion en la cantidad ffsica de una secuencia asociada con condiciones medicas). Algunas veces, una representacion virtual se transforma adicionalmente en uno o mas valores numericos o representaciones graficas de la representacion digital del material de partida. Estos procedimientos pueden transformar el material de partida ffsico en un valor numerico o representacion grafica, o una representacion del aspecto ffsico del genoma de un sujeto de prueba.
La transformacion de un conjunto de datos puede facilitar la provision de un resultado mediante la reduccion de la complejidad de los datos y/o la dimensionalidad de los datos. La complejidad del conjunto de datos algunas veces se reduce durante el proceso de transformacion de un material de partida ffsico en una representacion virtual del material de partida (por ejemplo, lecturas de secuencias representativas del material de partida ffsico). Se puede usar un rango o variable adecuada para reducir la complejidad y/o la dimensionalidad del conjunto de datos. Los ejemplos no limitantes de rasgos que se pueden elegir para su uso como una caractenstica espedfica para el procesamiento de
5
10
15
20
25
30
35
40
45
50
55
datos incluyen contenido de GC, prediccion de genero fetal, identificacion de aneuploid^a cromosomica, identificacion de genes o protemas particulares, identificacion de cancer, enfermedades, genes /rasgos heredados, anomaKas cromosomicas, una categona biologica, una categona qmmica, una categona bioqmmica, una categona de genes o protemas, una ontologfa de genes, una ontologfa de protemas, genes corregulados, genes de senalizacion celular, genes del ciclo celular, protemas pertenecientes a los genes anteriores, variantes de genes, variantes de protemas, genes corregulados, protemas co-reguladas, secuencia de aminoacidos, secuencia de nucleotidos, datos de estructura de protemas y similares, y combinaciones de los anteriores. Los ejemplos no limitantes de reduccion de complejidad de y/o dimensionalidad de conjunto de datos incluyen; reduccion de una pluralidad de lecturas de secuencias a graficos de perfil, reduccion de una pluralidad de lecturas de secuencias a valores numericos (por ejemplo, valores normalizados, puntuaciones Z, valores p); reduccion de multiples metodos de analisis a graficos de probabilidad o puntos individuales; analisis de componentes principales de las cantidades derivadas; y similares o combinaciones de estos.
Sistemas, aparato y productos de programa de computacion de normalizacion de la seccion genomica
En ciertos aspectos se proporciona un sistema que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias de acido nucleico de la muestra libre de celulas circulantes de un sujeto de prueba mapeado a las secciones genomicas de un genoma de referencia; y tales instrucciones ejecutables por el uno o mas procesadores estan configuradas para: (a) generar un perfil de recuento normalizado de la muestra mediante la normalizacion de los recuentos de las lecturas de secuencias para cada una de las secciones genomicas; y (b) determinar la presencia o ausencia de una aberracion cromosomica segmentaria o una aneuploidfa fetal o ambas del perfil de recuento normalizado de la muestra en (a).
En ciertos aspectos tambien se proporciona un aparato que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias de acido nucleico de la muestra libre de celulas circulantes de un sujeto de prueba mapeada a las secciones genomicas de un genoma de referencia; y tales instrucciones ejecutables por el uno o mas procesadores estan configuradas para:
(a) generar un perfil de recuento normalizado de la muestra mediante la normalizacion de los recuentos de las lecturas de secuencias para cada una de las secciones genomicas; y
(b) determinar la presencia o ausencia de una aberracion cromosomica segmentaria o una aneuploidfa fetal o ambas del perfil de recuento normalizado de la muestra en (a).
En ciertos aspectos tambien se proporciona un producto de programa de computacion incorporado en forma tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutadas por uno o mas procesadores estan configuradas para: (a) acceder a los recuentos de las lecturas de secuencias del acido nucleico de la muestra libre de celulas circulantes de un sujeto de prueba mapeadas a las secciones genomicas de un genoma de referencia; (b) generar un perfil de recuento normalizado de la muestra mediante la normalizacion de los recuentos de las lecturas de secuencias para cada una de las secciones genomicas; y (c) determinar la presencia o ausencia de una aberracion cromosomica segmentaria o una aneuploidfa fetal o ambas del perfil de recuento normalizado de la muestra en (b).
Los recuentos de las lecturas de secuencias para cada una de las secciones genomicas en un segmento del genoma de referencia (por ejemplo, el segmento es un cromosoma) se pueden normalizar individualmente de acuerdo con los recuentos totales de lecturas de secuencias en las secciones genomicas del segmento. Ciertas secciones genomicas del segmento algunas veces se eliminan (por ejemplo, filtran) y las restantes secciones genomicas del segmento se normalizan.
El sistema, aparato y/o producto de programa de computacion puede comprender : (i) un modulo de secuenciacion configurado para obtener lecturas de secuencias de acido nucleico; (ii) un modulo de mapeo configurado para mapear lecturas de secuencias de acido nucleico a las porciones de un genoma de referencia; (iii) un modulo de ponderacion configurado para ponderar secciones genomicas, (iv) un modulo de filtracion configurado para filtrar las secciones genomicas o los recuentos mapeados a una seccion genomica, (v) un modulo de recuento configurado para proporcionar recuentos de lecturas de secuencias de acido nucleico mapeadas a porciones de un genoma de referencia; (vi) un modulo de normalizacion configurado para proporcionar recuentos normalizados; (vii) un modulo de comparacion configurado para proporcionar una identificacion de una primera elevacion que es significativamente diferente de una segunda elevacion; (viii) un modulo de fijacion del rango configurado para proporcionar uno o mas rangos de nivel esperados; (ix) un modulo de categorizacion configurado para identificar una elevacion representativa de una variacion del numero de copias; (x) un modulo de ajuste configurado para ajustar un nivel identificado como una variacion del numero de copias; (xi) un modulo de graficos configurado para graficar y visualizar un nivel y/o un perfil; (xii) un modulo de resultados configurado para determinar un resultado (por ejemplo, resultado determinante de la presencia o ausencia de una aneuploidfa fetal); (xiii) un modulo de organizacion de la visualizacion de datos configurado para indicar la presencia o ausencia de una aberracion cromosomica segmentaria o una aneuploidfa fetal o ambas; (xiv) un modulo de procesamiento logico configurado para realizar una o mas de mapear lecturas de
5
10
15
20
25
30
35
40
45
50
55
60
secuencias, contar lecturas de secuencias mapeadas, normalizar recuentos y generar un resultado; o (xv) combinacion de dos o mas de los anteriores.
El modulo de secuenciacion y modulo de mapeo se puede configurar para transferir lecturas de secuencias del modulo de secuenciacion al modulo de mapeo. El modulo de mapeo y modulo de recuento algunas veces estan configurados para transferir lecturas de secuencias mapeadas del modulo de mapeo al modulo de recuento. El modulo de recuento y modulo de filtracion algunas veces estan configurados para transferir los recuentos del modulo de recuento al modulo de filtracion. El modulo de recuento y modulo de ponderacion algunas veces estan configuradas para transferir los recuentos del modulo de recuento al modulo de ponderacion. El modulo de mapeo y modulo de filtracion algunas veces estan configuradas para transferir lecturas de secuencias mapeadas del modulo de mapeo al modulo de filtracion. El modulo de mapeo y modulo de ponderacion algunas veces estan configuradas para transferir lecturas de secuencias mapeadas del modulo de mapeo al modulo de ponderacion. Algunas veces el modulo de ponderacion, modulo de filtracion y modulo de recuento estan configurados para transferir secciones genomicas filtradas y/o ponderadas del modulo de ponderacion y modulo de filtracion al modulo de recuento. El modulo de ponderacion y modulo de normalizacion algunas veces estan configurados para transferir secciones genomicas ponderadas del modulo de ponderacion al modulo de normalizacion. El modulo de filtracion y modulo de normalizacion algunas veces estan configurados para transferir secciones genomicas filtradas del modulo de filtracion al modulo de normalizacion. El modulo de normalizacion y/o modulo de comparacion se puede configurar para transferir recuentos normalizados al modulo de comparacion y/o modulo de fijacion del rango. El modulo de comparacion, modulo de fijacion del rango y/o modulo de categorizacion de modo independiente se pueden configurar para transferir (i) una identificacion de una primera elevacion que es significativamente diferente de una segunda elevacion y/o (ii) un rango de nivel esperado del modulo de comparacion y/o modulo de fijacion del rango al modulo de categorizacion. El modulo de categorizacion y el modulo de ajuste se pueden configurar para transferir una elevacion categorizada como una variacion del numero de copias del modulo de categorizacion al modulo de ajuste. El modulo de ajuste, modulo de graficos y el modulo de resultados se pueden configurar para transferir una o mas niveles ajustados del modulo de ajuste al modulo de graficos o modulo de resultados. El modulo de normalizacion algunas veces esta configurado para transferir recuentos de lecturas de secuencias normalizadas mapeadas a uno o mas del modulo de comparacion, modulo de fijacion del rango, modulo de categorizacion, modulo de ajuste, modulo de resultados o modulo de graficos.
Sistemas, aparato y producto de programa de computacions para eliminacion de error parametrizado y normalizacion sin sesgo
En ciertos aspectos se proporciona un sistema que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias mapeadas a las porciones de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) determinar un sesgo de guanina y citosina (GC) para cada una de las porciones del genoma de referencia para las multiples muestras de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, y (ii) contenido de GC cada una de las porciones; y (b) calcular un nivel de la seccion genomica para cada una de las porciones del genoma de referencia de una relacion ajustada entre (i) el sesgo GC y (ii) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, proporcionando de este modo niveles de la seccion genomica calculados, por lo que el sesgo en los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia se reduce en los niveles de la seccion genomica calculados.
En algunos aspectos tambien se proporciona un aparato que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias mapeadas a porciones de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) determinar un sesgo de guanina y citosina (GC) cada una de las porciones del genoma de referencia para las multiples muestras de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, y (ii) contenido de GC cada una de las porciones; y (b) calcular un nivel de la seccion genomica para cada una de las porciones del genoma de referencia a partir de una relacion ajustada entre (i) el sesgo GC y (ii) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, de este modo se proporcionan niveles de la seccion genomica calculados, por lo que el sesgo en los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia se reduce en los niveles de la seccion genomica calculados.
En ciertos aspectos tambien se proporciona un producto de programa de computacion incorporado en forma tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutadas por uno o mas procesadores estan configurados para: (a) acceder a los recuentos de las lecturas de secuencias mapeadas a porciones de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba; (b) determinar un sesgo de guanina y citosina (GC) cada una de las porciones del genoma de referencia para las multiples muestras a partir de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, y (ii) contenido de GC cada una de las porciones; y (c) calcular un nivel de la seccion genomica para cada una de las
5
10
15
20
25
30
35
40
45
50
55
60
porciones del genoma de referencia a partir de una relacion ajustada entre (i) el sesgo GC y (ii) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, de este modo se proporcionan niveles de la seccion genomica calculados, por lo que el sesgo en los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia se reduce en los niveles de la seccion genomica calculados.
En ciertos aspectos se proporciona un sistema que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias mapeadas a porciones de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) determinar un sesgo de guanina y citosina (GC) cada una de las porciones del genoma de referencia para las multiples muestras a partir de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, y (ii) contenido de GC cada una de las porciones; (b) calcular un nivel de la seccion genomica para cada una de las porciones del genoma de referencia a partir de una relacion ajustada entre el sesgo GC y los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, de este modo se proporcionan niveles de la seccion genomica calculados; y (c) identificar la presencia o ausencia de una aneuploidfa para el feto de acuerdo con los niveles de la seccion genomica calculados con una sensibilidad de 95% o mayor y una especificidad de 95% o mayor.
En ciertos aspectos tambien se proporciona un aparato que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias mapeadas a porciones de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) determinar un sesgo de guanina y citosina (GC) cada una de las porciones del genoma de referencia para las multiples muestras a partir de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, y (ii) contenido de GC cada una de las porciones; (b) calcular un nivel de la seccion genomica para cada una de las porciones del genoma de referencia a partir de una relacion ajustada entre el sesgo GC y los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, de este modo se proporcionan niveles de la seccion genomica calculados; y (c) identificar la presencia o ausencia de una aneuploidfa para el feto de acuerdo con los niveles de la seccion genomica calculados con una sensibilidad de 95% o mayor y una especificidad de 95% o mayor.
En ciertos aspectos tambien se proporciona un producto de programa de computacion incorporado en forma tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutadas por uno o mas procesadores estan configurados para: (a) acceder a los recuentos de las lecturas de secuencias mapeadas a porciones de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada que lleva un feto; (b) determinar un sesgo de guanina y citosina (GC) cada una de las porciones del genoma de referencia para las multiples muestras a partir de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, y (ii) contenido de GC cada una de las porciones; (c) calcular un nivel de la seccion genomica para cada una de las porciones del genoma de referencia a partir de una relacion ajustada entre el sesgo GC y los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, de este modo se proporcionan niveles de la seccion genomica calculados; y (d) identificar la presencia o ausencia de una aneuploidfa para el feto de acuerdo con los niveles de la seccion genomica calculados con una sensibilidad de 95% o mayor y una especificidad de 95% o mayor.
En ciertos aspectos tambien se proporciona un sistema que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias mapeadas a porciones de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) determinar el sesgo experimental para cada una de las porciones del genoma de referencia para las multiples muestras a partir de una relacion ajustada entre (i) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, y (ii) un rasgo de mapeo de cada una de las porciones; y (b) calcular un nivel de la seccion genomica para cada una de las porciones del genoma de referencia a partir de una relacion ajustada entre el sesgo experimental y los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, de este modo se proporcionan niveles de la seccion genomica calculados, por lo que el sesgo en los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia se reduce en los niveles de la seccion genomica calculados.
En ciertos aspectos tambien se proporciona un aparato que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias mapeadas a porciones de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada que lleva un feto; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) determinar el sesgo experimental para cada
5
10
15
20
25
30
35
40
45
50
55
60
una de las porciones del genoma de referencia para las multiples muestras a partir de una relacion ajustada entre (i) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, y (ii) un rasgo de mapeo de cada una de las porciones; y (b) calcular un nivel de la seccion genomica para cada una de las porciones del genoma de referencia a partir de una relacion ajustada entre el sesgo experimental y los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, de este modo se proporcionan niveles de la seccion genomica calculados, por lo que el sesgo en los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia se reduce en los niveles de la seccion genomica calculados.
En ciertos aspectos tambien se proporciona un producto de programa de computacion incorporado en forma tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutadas por uno o mas procesadores estan configurados para: (a) acceder a los recuentos de las lecturas de secuencias mapeadas a porciones de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una muestra de prueba; (b) determinar el sesgo experimental para cada una de las porciones del genoma de referencia para las multiples muestras a partir de una relacion ajustada entre (i) los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, y (ii) un rasgo de mapeo de cada una de las porciones; y (c) calcular un nivel de la seccion genomica para cada una de las porciones del genoma de referencia a partir de una relacion ajustada entre el sesgo experimental y los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia, de este modo se proporcionan niveles de la seccion genomica calculados, por lo que el sesgo en los recuentos de las lecturas de secuencias mapeadas a cada una de las porciones del genoma de referencia se reduce en los niveles de la seccion genomica calculados.
El sistema, aparato y/o producto de programa de computacion puede comprender un: (i) un modulo de secuenciacion configurado para obtener lecturas de secuencias de acido nucleico; (ii) un modulo de mapeo configurado para mapear lecturas de secuencias de acido nucleico a las porciones de un genoma de referencia; (iii) un modulo de ponderacion configurado para ponderar secciones genomicas; (iv) un modulo de filtracion configurado para filtrar secciones genomicas o los recuentos mapeados a una seccion genomica; (v) un modulo de recuento configurado para proporcionar recuentos de lecturas de secuencias de acido nucleico mapeadas a porciones de un genoma de referencia; (vi) un modulo de normalizacion configurado para proporcionar recuentos normalizados; (vii) un modulo de comparacion configurado para proporcionar una identificacion de una primera elevacion que es significativamente diferente de una segunda elevacion; (viii) un modulo de fijacion del rango configurado para proporcionar uno o mas rangos de nivel esperados; (ix) un modulo de categorizacion configurado para identificar una elevacion representativa de una variacion del numero de copias; (x) un modulo de ajuste configurado para ajustar un nivel identificado como una variacion del numero de copias; (xi) un modulo de graficos configurado para graficar y visualizar un nivel y/o un perfil; (xii) un modulo de resultados configurado para determinar un resultado (por ejemplo, resultado determinante de la presencia o ausencia de una aneuploidfa fetal); (xiii) un modulo de organizacion de la visualizacion de datos configurado para indicar la presencia o ausencia de una aberracion cromosomica segmentaria o una aneuploidfa fetal o ambas; (xiv) un modulo de procesamiento logico configurado para realizar una o mas de mapear lecturas de secuencias, contar lecturas de secuencias mapeadas, normalizar recuentos y generar un resultado; o (xv) combinacion de dos o mas de los anteriores.
El modulo de secuenciacion y modulo de mapeo se puede configurar para transferir lecturas de secuencias del modulo de secuenciacion al modulo de mapeo. El modulo de mapeo y modulo de recuento algunas veces estan configurados para transferir lecturas de secuencias mapeadas del modulo de mapeo al modulo de recuento. El modulo de recuento y modulo de filtracion algunas veces estan configurados para transferir los recuentos del modulo de recuento al modulo de filtracion. El modulo de recuento y modulo de ponderacion algunas veces estan configurados para transferir los recuentos del modulo de recuento al modulo de ponderacion. El modulo de mapeo y modulo de filtracion algunas veces estan configurados para transferir lecturas de secuencias mapeadas del modulo de mapeo al modulo de filtracion. El modulo de mapeo y modulo de ponderacion algunas veces estan configurados para transferir lecturas de secuencias mapeadas del modulo de mapeo al modulo de ponderacion. Algunas veces el modulo de ponderacion, modulo de filtracion y modulo de recuento estan configurados para transferir secciones genomicas filtradas y/o ponderadas del modulo de ponderacion y modulo de filtracion al modulo de recuento. El modulo de ponderacion y modulo de normalizacion algunas veces estan configurados para transferir secciones genomicas ponderadas del modulo de ponderacion al modulo de normalizacion. El modulo de filtracion y modulo de normalizacion algunas veces estan configurados para transferir secciones genomicas filtradas del modulo de filtracion al modulo de normalizacion. El modulo de normalizacion y/o modulo de comparacion se puede configurar para transferir recuentos normalizados al modulo de comparacion y/o modulo de fijacion del rango. El modulo de comparacion, modulo de fijacion del rango y/o modulo de categorizacion de modo independiente se puede configurar para transferir (i) una identificacion de una primera elevacion que es significativamente diferente de una segunda elevacion y/o (ii) un rango de nivel esperado del modulo de comparacion y/o modulo de fijacion del rango al modulo de categorizacion. El modulo de categorizacion y el modulo de ajuste se pueden configurar para transferir una elevacion categorizada como una variacion del numero de copias del modulo de categorizacion al modulo de ajuste. El modulo de ajuste, modulo de graficos y el modulo de resultados estan configurados para transferir una o mas niveles ajustados del modulo de ajuste al modulo de graficos o modulo de resultados. El modulo de normalizacion algunas veces esta configurado para transferir recuentos de lecturas de secuencias normalizadas mapeadas a una o mas del modulo de comparacion, modulo de fijacion del rango, modulo de categorizacion, modulo de ajuste, modulo de resultados o modulo de graficos.
5
10
15
20
25
30
35
40
45
50
55
60
Sistemas, aparato y productos de programa de computacion para el ajuste
En ciertos aspectos se proporciona un sistema que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias de acido nucleico mapeadas a las secciones genomicas de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) normalizar los recuentos mapeados a las secciones genomicas del genoma de referencia, proporcionando de este modo un perfil de recuentos normalizados para las secciones genomicas; (b) identificar una primera elevacion de los recuentos normalizados significativamente diferente de una segunda elevacion de los recuentos normalizados en el perfil, tal primera elevacion es para un primer conjunto de secciones genomicas, y tal segunda elevacion es para un segundo conjunto de secciones genomicas; (c) determinar un rango de elevacion esperado para una variacion homocigota y heterocigota del numero de copias de acuerdo con un valor de incertidumbre para un segmento del genoma; (d) ajustar la primera elevacion mediante un valor predeterminado cuando la primera elevacion esta dentro de uno del rango de elevacion esperados, proporcionando de este modo un ajuste de la primera elevacion; y
(e) determinar la presencia o ausencia de una aneuploidfa del cromosoma en el feto de acuerdo con las elevaciones de las secciones genomicas que comprende el ajuste de (d), por lo que el resultado determinante de la presencia o ausencia de la aneuploidfa del cromosoma se genera a partir de las lecturas de secuencias de acido nucleico.
En algunos aspectos tambien se proporciona un aparato que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias de acido nucleico mapeadas a las secciones genomicas de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) normalizar los recuentos mapeados a las secciones genomicas del genoma de referencia, proporcionando de este modo un perfil de recuentos normalizados para las secciones genomicas; (b) identificar una primera elevacion de los recuentos normalizados significativamente diferente de una segunda elevacion de los recuentos normalizados en el perfil, tal primera elevacion es para un primer conjunto de secciones genomicas, y tal segunda elevacion es para un segundo conjunto de secciones genomicas; (c) determinar un rango de elevacion esperado para una variacion homocigota y heterocigota del numero de copias de acuerdo con un valor de incertidumbre para un segmento del genoma; (d) ajustar la primera elevacion mediante un valor predeterminado cuando la primera elevacion esta dentro de uno del rango de elevacion esperados, proporcionando de este modo un ajuste de la primera elevacion; y (e) determinar la presencia o ausencia de una aneuploidfa del cromosoma en el feto de acuerdo con las elevaciones de las secciones genomicas que comprende el ajuste de (d), por lo que el resultado determinante de la presencia o ausencia de la aneuploidfa del cromosoma se genera a partir de las lecturas de secuencias de acido nucleico.
En ciertos aspectos tambien se proporciona un producto de programa de computacion incorporado en forma tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutadas por uno o mas procesadores estan configurados para: (a) acceder a los recuentos de lecturas de secuencias de acido nucleico mapeadas a las secciones genomicas de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada; (b) normalizar los recuentos mapeados a las secciones genomicas del genoma de referencia, proporcionando de este modo un perfil de recuentos normalizados para las secciones genomicas; (c) identificar una primera elevacion de los recuentos normalizados significativamente diferente de una segunda elevacion de los recuentos normalizados en el perfil, tal primera elevacion es para un primer conjunto de secciones genomicas, y tal segunda elevacion es para un segundo conjunto de secciones genomicas; (d) determinar un rango de elevacion esperado para una variacion homocigota y heterocigota del numero de copias de acuerdo con un valor de incertidumbre para un segmento del genoma; (e) ajustar la primera elevacion mediante un valor predeterminado cuando la primera elevacion esta dentro de uno del rango de elevacion esperados, proporcionando de este modo un ajuste de la primera elevacion; y (f) determinar la presencia o ausencia de una aneuploidfa del cromosoma en el feto de acuerdo con las elevaciones de las secciones genomicas que comprende el ajuste de (e), por lo que el resultado determinante de la presencia o ausencia de la aneuploidfa del cromosoma se genera a partir de las lecturas de secuencias de acido nucleico.
En ciertos aspectos tambien se proporciona un sistema que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias de acido nucleico mapeadas a las secciones genomicas de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) normalizar los recuentos mapeados a las secciones genomicas del genoma de referencia, proporcionando de este modo un perfil de recuentos normalizados para las secciones genomicas; (b) identificar una primera elevacion de los recuentos normalizados significativamente diferente de una segunda elevacion de los recuentos normalizados en el perfil, tal primera elevacion es para un primer conjunto de secciones genomicas, y tal segunda elevacion es para un segundo conjunto de secciones genomicas; (c) determinar un rango de elevacion esperado para una variacion homocigota y heterocigota del numero de copias de acuerdo con un valor de incertidumbre para un segmento del genoma; y (d) identificar una variacion del numero de copias maternas y/o fetales dentro de la seccion genomica basada en uno de los rangos de elevacion esperados, por lo que la variacion del numero de copias maternas y/o fetales se identifica a partir de las
5
10
15
20
25
30
35
40
45
50
55
60
lecturas de secuencias de acido nucleico.
En algunos aspectos tambien se proporciona un aparato que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias de acido nucleico mapeadas a las secciones genomicas de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) normalizar los recuentos mapeados a las secciones genomicas del genoma de referencia, proporcionando de este modo un perfil de recuentos normalizados para las secciones genomicas; (b) identificar una primera elevacion de los recuentos normalizados significativamente diferente de una segunda elevacion de los recuentos normalizados en el perfil, tal primera elevacion es para un primer conjunto de secciones genomicas, y tal segunda elevacion es para un segundo conjunto de secciones genomicas; (c) determinar un rango de elevacion esperado para una variacion homocigota y heterocigota del numero de copias de acuerdo con un valor de incertidumbre para un segmento del genoma; y (d) identificar una variacion del numero de copias maternas y/o fetales dentro de la seccion genomica basada en uno de los rangos de elevacion esperados, por lo que la variacion del numero de copias maternas y/o fetales se identifica a partir de las lecturas de secuencias de acido nucleico.
En ciertos aspectos tambien se proporciona un producto de programa de computacion incorporado en forma tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutadas por uno o mas procesadores estan configurados para: (a) acceder a los recuentos de lecturas de secuencias de acido nucleico mapeadas a las secciones genomicas de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada; (b) normalizar los recuentos mapeados a las secciones genomicas del genoma de referencia, proporcionando de este modo un perfil de recuentos normalizados para las secciones genomicas; (c) identificar una primera elevacion de los recuentos normalizados significativamente diferente de una segunda elevacion de los recuentos normalizados en el perfil, tal primera elevacion es para un primer conjunto de secciones genomicas, y tal segunda elevacion es para un segundo conjunto de secciones genomicas; (d) determinar un rango de elevacion esperado para una variacion homocigota y heterocigota del numero de copias de acuerdo con un valor de incertidumbre para un segmento del genoma; y (e) identificar una variacion del numero de copias maternas y/o fetales dentro de la seccion genomica basada en uno de los rangos de elevacion esperados, por lo que la variacion del numero de copias maternas y/o fetales se identifica a partir de las lecturas de secuencias de acido nucleico.
En algunos aspectos tambien se proporciona un sistema que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias de acido nucleico mapeadas a las secciones genomicas de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) normalizar los recuentos mapeados a las secciones genomicas del genoma de referencia, proporcionando de este modo un perfil de recuentos normalizados para las secciones genomicas; (b) identificar una primera elevacion de los recuentos normalizados significativamente diferente de una segunda elevacion de los recuentos normalizados en el perfil, tal primera elevacion es para un primer conjunto de secciones genomicas, y tal segunda elevacion es para un segundo conjunto de secciones genomicas; (c) determinar un rango de elevacion esperado para una variacion homocigota y heterocigota del numero de copias de acuerdo con un valor de incertidumbre para un segmento del genoma; (d) ajustar la primera elevacion de acuerdo con la segunda elevacion, proporcionando de este modo un ajuste de la primera elevacion; y (e) determinar la presencia o ausencia de una aneuploidfa del cromosoma en el feto de acuerdo con las elevaciones de las secciones genomicas que comprende el ajuste de (d), por lo que el resultado determinante de la presencia o ausencia de la aneuploidfa del cromosoma se genera a partir de las lecturas de secuencias de acido nucleico.
En ciertos aspectos se proporciona un aparato que comprende uno o mas procesadores y memoria, tal memoria comprende instrucciones ejecutables por el uno o mas procesadores y tal memoria comprende recuentos de lecturas de secuencias de acido nucleico mapeadas a las secciones genomicas de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada; y tales instrucciones ejecutables por el uno o mas procesadores estan configurados para: (a) normalizar los recuentos mapeados a las secciones genomicas del genoma de referencia, proporcionando de este modo un perfil de recuentos normalizados para las secciones genomicas; (b) identificar una primera elevacion de los recuentos normalizados significativamente diferente de una segunda elevacion de los recuentos normalizados en el perfil, tal primera elevacion es para un primer conjunto de secciones genomicas, y tal segunda elevacion es para un segundo conjunto de secciones genomicas; (c) determinar un rango de elevacion esperado para una variacion homocigota y heterocigota del numero de copias de acuerdo con un valor de incertidumbre para un segmento del genoma; (d) ajustar la primera elevacion de acuerdo con la segunda elevacion, proporcionando de este modo un ajuste de la primera elevacion; y (e) determinar la presencia o ausencia de una aneuploidfa del cromosoma en el feto de acuerdo con las elevaciones de las secciones genomicas que comprende el ajuste de (d), por lo que el resultado determinante de la presencia o ausencia de la aneuploidfa del cromosoma se genera a partir de las lecturas de secuencias de acido nucleico.
En algunos aspectos se proporciona un producto de programa de computacion incorporado en forma tangible en un medio legible por ordenador, que comprende instrucciones que cuando son ejecutadas por uno o mas procesadores estan configurados para: (a) acceder a los recuentos de lecturas de secuencias de acido nucleico mapeadas a las
5
10
15
20
25
30
35
40
45
50
55
60
secciones genomicas de un genoma de referencia, tales lecturas de secuencias son lecturas de acido nucleico libre de celulas circulantes de una mujer embarazada; (b) normalizar los recuentos mapeados a las secciones genomicas del genoma de referencia, proporcionando de este modo un perfil de recuentos normalizados para las secciones genomicas; (c) identificar una primera elevacion de los recuentos normalizados significativamente diferente de una segunda elevacion de los recuentos normalizados en el perfil, tal primera elevacion es para un primer conjunto de secciones genomicas, y tal segunda elevacion es para un segundo conjunto de secciones genomicas; (d) determinar un rango de elevacion esperado para una variacion homocigota y heterocigota del numero de copias de acuerdo con un valor de incertidumbre para un segmento del genoma; (e) ajustar la primera elevacion de acuerdo con la segunda elevacion, proporcionando de este modo un ajuste de la primera elevacion; y (f) determinar la presencia o ausencia de una aneuploidfa del cromosoma en el feto de acuerdo con las elevaciones de las secciones genomicas que comprende el ajuste de (e), por lo que el resultado determinante de la presencia o ausencia de la aneuploidfa del cromosoma se genera a partir de las lecturas de secuencias de acido nucleico.
El sistema, aparato y/o producto de programa de computacion puede comprender un: (i) un modulo de secuenciacion configurado para obtener lecturas de secuencias de acido nucleico; (ii) un modulo de mapeo configurado para mapear lecturas de secuencias de acido nucleico a las porciones de un genoma de referencia; (iii) un modulo de ponderacion configurado para ponderar secciones genomicas; (iv) un modulo de filtracion configurado para filtrar secciones genomicas o los recuentos mapeados a una seccion genomica; (v) un modulo de recuento configurado para proporcionar recuentos de lecturas de secuencias de acido nucleico mapeadas a porciones de un genoma de referencia; (vi) un modulo de normalizacion configurado para proporcionar recuentos normalizados; (vii) un modulo de comparacion configurado para proporcionar una identificacion de una primera elevacion que es significativamente diferente de una segunda elevacion; (viii) un modulo de fijacion del rango configurado para proporcionar uno o mas rangos de nivel esperados; (ix) un modulo de categorizacion configurado para identificar una elevacion representativa de una variacion del numero de copias; (x) un modulo de ajuste configurado para ajustar un nivel identificado como una variacion del numero de copias; (xi) un modulo de graficos configurado para graficar y visualizar un nivel y/o un perfil; (xii) un modulo de resultados configurado para determinar un resultado (por ejemplo, resultado determinante de la presencia o ausencia de una aneuploidfa fetal); (xiii) un modulo de organizacion de la visualizacion de datos configurado para indicar la presencia o ausencia de una aberracion cromosomica segmentaria o una aneuploidfa fetal o ambas; (xiv) un modulo de procesamiento logico configurado para realizar una o mas de mapear lecturas de secuencias, contar lecturas de secuencias mapeadas, normalizar recuentos y generar un resultado; o (xv) combinacion de dos o mas de los anteriores.
El modulo de secuenciacion y modulo de mapeo se puede configurar para transferir lecturas de secuencias del modulo de secuenciacion al modulo de mapeo. El modulo de mapeo y modulo de recuento algunas veces estan configurados para transferir lecturas de secuencias mapeadas del modulo de mapeo al modulo de recuento. El modulo de recuento y modulo de filtracion algunas veces estan configurados para transferir los recuentos del modulo de recuento al modulo de filtracion. El modulo de recuento y modulo de ponderacion algunas veces estan configurados para transferir los recuentos del modulo de recuento al modulo de ponderacion. El modulo de mapeo y modulo de filtracion algunas veces estan configurados para transferir lecturas de secuencias mapeadas del modulo de mapeo al modulo de filtracion. El modulo de mapeo y modulo de ponderacion algunas veces estan configurados para transferir lecturas de secuencias mapeadas del modulo de mapeo al modulo de ponderacion. Algunas veces el modulo de ponderacion, modulo de filtracion y modulo de recuento estan configurados para transferir secciones genomicas filtradas y/o ponderadas del modulo de ponderacion y modulo de filtracion al modulo de recuento. El modulo de ponderacion y modulo de normalizacion algunas veces estan configurados para transferir secciones genomicas ponderadas del modulo de ponderacion al modulo de normalizacion. El modulo de filtracion y modulo de normalizacion algunas veces estan configurados para transferir secciones genomicas filtradas del modulo de filtracion al modulo de normalizacion. El modulo de normalizacion y/o modulo de comparacion se puede configurar para transferir recuentos normalizados al modulo de comparacion y/o modulo de fijacion del rango. El modulo de comparacion, modulo de fijacion del rango y/o modulo de categorizacion de modo independiente se puede configurar para transferir (i) una identificacion de una primera elevacion que es significativamente diferente de una segunda elevacion y/o (ii) un rango de nivel esperado del modulo de comparacion y/o modulo de fijacion del rango al modulo de categorizacion. El modulo de categorizacion y el modulo de ajuste se pueden configurar para transferir una elevacion categorizada como una variacion del numero de copias del modulo de categorizacion al modulo de ajuste. El modulo de ajuste, modulo de graficos y el modulo de resultados se puede configurar para transferir una o mas niveles ajustados del modulo de ajuste al modulo de graficos o modulo de resultados. El modulo de normalizacion algunas veces esta configurado para transferir recuentos de lecturas de secuencias normalizadas mapeadas a una o mas del modulo de comparacion, modulo de fijacion del rango, modulo de categorizacion, modulo de ajuste, modulo de resultados o modulo de graficos.
Maquinas, software e interfaces
Ciertos procesos y metodos descritos en la presente (por ejemplo, cuantificacion, mapeo, normalizacion, fijacion de intervalo, ajuste, categorizacion, recuento y/o determinacion de lecturas de secuencias, recuentos, elevaciones y/o perfiles) no se pueden realizar a menudo sin un ordenador, procesador, software, modulo u otro aparato. Los metodos descritos en la presente son tfpicamente metodos implementados en ordenador, y una o mas porciones de un metodo algunas veces son realizadas por uno o mas procesadores. Aspectos pertenecientes a los metodos descritos en este documento generalmente son aplicables a los mismos procesos o relacionados implementados por instrucciones en sistemas, aparatos y productos de programas de computacion descritos en la presente. Los procesos y metodos
5
10
15
20
25
30
35
40
45
50
55
60
descritos en la presente (por ejemplo, cuantificacion, recuento y/o determinacion de lecturas de secuencias, recuentos, elevaciones y/o perfiles) se pueden realizar mediante metodos automatizados. Un metodo automatizado puede estar incorporado en software, modulos, procesadores, perifericos y/o un aparato que comprende los mismos, que determinan lecturas de secuencias, recuentos, mapeo, marcas de secuencia mapeadas, elevaciones, perfiles, normalizaciones, comparaciones, fijacion de rangos, categorizacion, ajustes, graficado, resultados, transformaciones e identificaciones. Como se usa en la presente, el software se refiere a instrucciones de programa legibles por ordenadorque, cuando son ejecutadas por un procesador, realizan operaciones de ordenador, tal como se describe en la presente.
Las lecturas de secuencias, recuentos, elevaciones, y perfiles derivados de un sujeto de prueba (por ejemplo, un paciente, una mujer embarazada) y/o de un sujeto de referencia tambien se pueden analizar y procesar para determinar la presencia o ausencia de una variacion genetica. Lecturas de secuencia, recuentos, elevaciones y/o perfiles algunas veces se denominan como “datos” o “conjuntos de datos”. Los datos o conjuntos de datos se pueden caracterizar por una o mas caractensticas o variables por ejemplo, basadas en secuencias [por ejemplo, contenido de GC, secuencia de nucleotidos espedfica, similares], funcion espedfica [por ejemplo, genes expresados, genes de cancer, etc.], basadas en la ubicacion [especifico del genoma, especifico del cromosoma, espedfico de la seccion genomica o el bin], similares y combinaciones de estos). Los datos o conjuntos de datos se pueden organizar en una matriz que tiene dos o mas dimensiones basadas en una o mas caractensticas o variables. Los datos organizados en matrices se pueden organizar usando cualquiera de las caractensticas o variables convenientes. Un ejemplo no limitante de datos en una matriz incluye datos que estan organizados por edad materna, ploidfa materna y contribucion fetal. Los conjuntos de datos caracterizados por una o mas caractensticas o variables algunas veces se pueden procesar despues del recuento.
Se pueden usar aparatos, software e interfaces para llevar a cabo los metodos descritos en la presente. Usando aparatos, software e interfaces, un usuario puede entrar, solicitar, consultar o determinar opciones para usar informacion, programas o procesos particulares (por ejemplo, mapear lecturas de secuencias, procesar datos mapeados y/o proporcionar un resultado), lo que puede implicar por ejemplo, la implementacion de algoritmos de analisis estadfsticos, algoritmos de significancia estadfstica, algoritmos estadfsticos, etapas iterativas, algoritmos de validacion y representaciones graficas. Un usuario puede introducir un conjunto de datos como informacion de entrada, un usuario puede descargar uno o mas conjuntos de datos mediante un medio de hardware adecuado (por ejemplo, una unidad flash) y/o un usuario puede enviar un conjunto de datos de un sistema a otro para el posterior procesamiento y/o provision de resultado (por ejemplo, enviar datos de lectura de secuencias de un secuenciador a un sistema de computacion para el mapeo de lectura de secuencia; enviar datos de secuencia mapeados a un sistema de computacion para procesar y producir un resultado y/o informe).
Un sistema normalmente comprende una o mas aparato. Cada aparato comprende una o mas de memoria, uno o mas procesadores, e instrucciones. Cuando un sistema incluye dos o mas aparatos, algo o la totalidad del aparato se puede ubicar en el mismo lugar, algo o la totalidad del aparato se puede ubicar en diferentes lugares, la totalidad del aparato se puede ubicar en un lugar y/o la totalidad del aparato se puede ubicar en diferentes lugares. Cuando un sistema incluye dos o mas aparatos, algo o la totalidad del aparato se puede ubicar en el mismo lugar que un usuario, algo o la totalidad del aparato se puede ubicar en un lugar diferente de un usuario, la totalidad del aparato se puede ubicar en el mismo lugar que el usuario, y/o la totalidad del aparato se puede ubicar en uno o mas lugares diferentes del usuario.
Un sistema algunas veces comprende un aparato de computacion y un aparato de secuenciacion, donde el aparato de secuenciacion esta configurado para recibir acido nucleico ffsico y generar lecturas de secuencias, y el aparato de computacion esta configurado para procesar las lecturas del aparato de secuenciacion. El aparato de computacion algunas veces esta configurado para determinar el sexo del feto y/o la presencia o ausencia de una variacion genetica (por ejemplo, variacion del numero de copias; fetal aneuploidfa del cromosoma) de las lecturas de secuencia.
Un usuario puede colocar por ejemplo una consulta en un software que puede adquirir un conjunto de datos a traves de acceso a Internet”, y por ejemplo, se puede pedir a un procesador programable que adquiera un conjunto de datos adecuado basado en parametros dados. Un procesador programable tambien puede solicitar a un usuario que seleccione una o mas opciones de conjunto de datos seleccionadas por el procesador sobre la base de los parametros dados. Un procesador programable puede solicitar al usuario que seleccione una o mas opciones de conjunto de datos seleccionadas por el procesador sobre la base de la informacion encontrada a traves de Internet, otra informacion interna o externa, o similares. Se pueden elegir opciones para seleccionar una o mas selecciones de caractensticas de datos, uno o mas algoritmos estadfsticos, uno o mas algoritmos de analisis estadfsticos, uno o mas algoritmos de significancia estadfstica, etapas iterativas, uno o mas algoritmos de validacion y una o mas representaciones graficas de metodos, aparatos o programas de computacion.
Los sistemas tratados en la presente pueden comprender componentes generales de sistemas de computacion, tales como, por ejemplo, servidores de red, sistemas portatiles, sistemas de escritorio, sistemas manuales, asistentes digitales personales, quioscos informaticos y similares. Un sistema de computacion puede comprender uno o mas medios de entrada tales como un teclado, pantalla tactil, raton, reconocimiento de voz u otros medios para permitir al usuario introducir datos en el sistema. Un sistema tambien puede comprender una o mas salidas, que incluyen, pero sin limitacion, una pantalla de visualizacion (por ejemplo, CRT o LCD), altavoz, maquina de FAX, impresora (por ejemplo, impresora laser, chorro de tinta, impacto, blanco y negro o en color) u otra salida util para proporcionar salida
5
10
15
20
25
30
35
40
45
50
55
60
de informacion visual, auditiva y/o impresa (por ejemplo, resultado y/o informe).
En un sistema, los medios de entrada y salida pueden estar conectados a una unidad central de procesamiento que puede comprender, entre otros componentes, un microprocesador para ejecutar instrucciones de programa y memoria para almacenar codigo de programa y datos. Los procesos se pueden implementar como un sistema de usuario unico ubicado en un sitio geografico unico. Los procesos se pueden implementar como un sistema multiusuario. En el caso de una implementacion multiusuario, se pueden conectar multiples unidades de procesamiento centrales por medio de una red. La red puede ser local, que abarca un solo departamento en una porcion de un edificio, un edificio entero, abarcan multiples edificios, abarcan una region, abarcan un pafs entero o se encuentran en todo el mundo. La red puede ser privada, posefda y controlada por un proveedor, o puede ser implementada como un servicio basado en Internet donde el usuario accede a una pagina web para ingresar y recuperar informacion. Por consiguiente, un sistema puede incluir una o mas maquinas, que pueden ser locales o remotas con respecto a un usuario. El usuario puede acceder a mas de una maquina en un lugar o en multiples lugares y los datos se pueden mapear y/o procesar en serie y/o en paralelo. De este modo, se puede utilizar una configuracion y un control adecuados para mapear y/o procesar datos usando multiples maquinas, tales como en plataformas de computacion de red local, de red remota y/o “nube”.
Un sistema puede incluir una interfaz de comunicaciones. Una interfaz de comunicaciones permite la transferencia de software y datos entre un sistema de computacion y uno o mas dispositivos externos. Los ejemplos no limitantes de interfaces de comunicaciones incluyen un modem, una interfaz de red (tal como una tarjeta Ethernet), un puerto de comunicaciones, una ranura y tarjeta PCMCIA y similares. El software y los datos transferidos a traves de una interfaz de comunicaciones estan generalmente en forma de senales, que pueden ser senales electronicas, electromagneticas, opticas y/u otras que pueden ser recibidas por una interfaz de comunicaciones. Frecuentemente se proporcionan senales a una interfaz de comunicaciones a traves de un canal. Un canal a menudo lleva senales y se puede implementar usando alambre o cable, fibra optica, una lmea telefonica, un enlace de telefono celular, un enlace de RF y/u otros canales de comunicacion. De este modo, en un ejemplo, se puede utilizar una interfaz de comunicaciones para recibir informacion de senal que puede ser detectada por un modulo de deteccion de senal.
Los datos se pueden introducir en un dispositivo y/o metodo adecuados, que incluyen, pero sin limitacion, dispositivos de entrada manuales o dispositivos de entrada de datos directos (DDE). Los ejemplos no limitantes de dispositivos manuales incluyen teclados, teclados de concepto, pantallas sensibles al tacto, lapices opticos, raton, bolas de seguimiento, joysticks, tabletas graficas, escaneres, camaras digitales, digitalizadores de video y dispositivos de reconocimiento de voz. Los ejemplos no limitantes de DDE incluyen lectores de codigos de barras, codigos de banda magnetica, tarjetas inteligentes, reconocimiento de caracteres de tinta magnetica, reconocimiento de caracteres opticos, reconocimiento de marcas opticas y documentos virtuales.
La salida de un aparato de secuenciacion puede servir como datos que pueden ser introducidos a traves de un dispositivo de entrada. Las lecturas de secuencias mapeadas pueden servir como datos que se pueden introducir a traves de un dispositivo de entrada. Los datos simulados se pueden generar mediante un proceso in silico y los datos simulados sirven como datos que se pueden introducir a traves de un dispositivo de entrada. La expresion “in silico” se refiere a la investigacion y los experimentos realizados utilizando un ordenador. Los procesos in silico incluyen, pero sin limitacion, lecturas de secuencias de mapeo y procesamiento de lecturas de secuencias mapeadas de acuerdo con los procedimientos descritos en la presente.
Un sistema puede incluir software util para llevar a cabo un proceso descrito en la presente, y el software puede incluir uno o mas modulos para llevar a cabo tales procesos (por ejemplo, modulo de secuenciacion, modulo de procesamiento logico, modulo de organizacion de visualizacion de datos). El termino “software” se refiere a instrucciones de programa legibles por ordenador que, cuando son ejecutadas por un ordenador, realizan operaciones de computacion. Las instrucciones ejecutables por uno o mas procesadores algunas veces se proporcionan como codigo ejecutable, que cuando se ejecuta, puede hacer que uno o mas procesadores implementen un metodo descrito en la presente. Un modulo descrito en al presente puede existir como un software, y las instrucciones (por ejemplo, procesos, rutinas, subrutinas) incorporadas en el software pueden ser implementadas o realizadas por un procesador. Por ejemplo, un modulo (por ejemplo, un modulo de software) puede ser parte de un programa que realiza un proceso o tarea particular. El termino “modulo” se refiere a una unidad funcional autonoma que se puede usar en un aparato o sistema de software mas grande. Un modulo puede comprender un conjunto de instrucciones para llevar a cabo una funcion del modulo. Un modulo puede transformar datos y/o informacion. Los datos y/o la informacion pueden estar en una forma adecuada. Por ejemplo, los datos y/o la informacion pueden ser digitales o analogicos. En algunos casos, los datos y/o la informacion pueden ser paquetes, bytes, caracteres o bits. Los datos y/o la informacion pueden ser cualquier dato o informacion reunida, ensamblada o utilizable. Los ejemplos no limitantes de datos y/o informacion incluyen medios adecuados, imagenes, video, sonido (por ejemplo, frecuencias, audibles o no audibles), numeros, constantes, un valor, objetos, tiempo, funciones, instrucciones, mapas, referencias, secuencias, lecturas, lecturas mapeadas, elevaciones, rangos, umbrales, senales, presentaciones, representaciones o transformaciones de estos.. Un modulo puede aceptar o recibir datos y/o informacion, transformar los datos y/o informacion en una segunda forma, y proporcionar o transferir la segunda forma a un aparato, periferico, componente u otro modulo. Un modulo puede realizar una o mas de las siguientes funciones no limitantes: por ejemplo, lecturas de secuencias de mapeo, provision de recuentos, ensamblaje de secciones genomicas, provision o determinacion de una elevacion, provision de un perfil de recuento, normalizacion (por ejemplo, normalizacion de lecturas, normalizacion de recuentos y similares), provision
5
10
15
20
25
30
35
40
45
50
55
60
de un perfil de recuento normalizado o elevaciones de recuentos normalizados, comparacion de dos o mas elevaciones, provision de valores de incertidumbre, provision o determinacion de elevaciones esperadas y los rangos esperados (por ejemplo, rangos de elevacion esperados, rangos umbral y elevaciones umbral), provision de ajustes a elevaciones (por ejemplo, ajuste de una primera elevacion, ajuste de una segunda elevacion, ajuste de un perfil de un cromosoma o un segmento de este y/o relleno), provision de identificacion (por ejemplo, identificacion del sexo del feto, variacion de numero de copias, variacion genetica o aneuploidfa), categorizacion, graficado y/o determinacion de un resultad. Un procesador, en algunos casos, puede llevar a cabo las instrucciones en un modulo. Se puede requerir que uno o mas procesadores lleven a cabo instrucciones en un modulo o grupo de modulos. Un modulo puede proporcionar datos y/o informacion a otro modulo, aparato o fuente y puede recibir datos y/o informacion de otro modulo, aparato o fuente.
Un producto de programa de computacion algunas veces se incorpora en un medio tangible de lectura por ordenador, y algunas veces se incorpora tangiblemente en un medio legible por ordenador no transitorio. Un modulo algunas veces se almacena en un medio legible por ordenador (por ejemplo, disco, unidad) o en la memoria (por ejemplo, memoria de acceso aleatorio). Un modulo y procesador capaz de implementar instrucciones desde un modulo se puede ubicar en un aparato o en diferentes aparatos. Un modulo y/o procesador capaz de implementar una instruccion para un modulo puede estar ubicado en el mismo lugar que un usuario (por ejemplo, una red local) o en un lugar diferente de un usuario (por ejemplo, una red remota, sistema de nube). En los aspectos en los que se lleva a cabo un metodo en conjuncion con dos o mas modulos, los modulos se pueden ubicar en el mismo aparato, uno o mas modulos se pueden ubicar en diferentes aparatos en el mismo lugar ffsica y uno o mas modulos se pueden ubicar en diferentes aparatos en diferentes lugares ffsicos.
Un aparato, puede comprender al menos un procesador para llevar a cabo las instrucciones en un modulo. Algunas veces se accede a los recuentos de lecturas de secuencias mapeadas a las secciones genomicas de un genoma de referencia mediante un procesador que ejecuta las instrucciones configuradas para llevar a cabo los metodos descritos en la presente. Los recuentos a los que accede un procesador pueden estar dentro de la memoria de un sistema, y se puede acceder a los recuentos y colocarlos en la memoria del sistema despues de obtenidos. Un aparato puede incluir un procesador (por ejemplo, uno o mas procesadores) tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) de un modulo. Un aparato puede incluir multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un aparato puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o una red de almacenamiento (por ejemplo, una nube)). Un aparato puede comprender a modulo. Algunas veces un aparato comprende una o mas modules.
Un aparato que comprende a modulo a menudo puede recibir y transferir una o mas de los datos y/o la informacion de otros modulos. En algunos casos, un aparato comprende perifericos y/o componentes. Algunas veces un aparato puede comprender una o mas perifericos o componentes que pueden transferir los datos y/o la informacion a y de otros modulos, perifericos y/o componentes. Algunas veces un aparato interactua con un periferico y/o componente que proporciona los datos y/o la informacion. Algunas veces los perifericos y componentes ayudan a un aparato en la realizacion de una funcion o interactuan directamente con un modulo. Los ejemplos no limitantes de perifericos y/o componentes incluyen un periferico de ordenador adecuado, I/O o metodo o dispositivo de almacenamiento, que incluyen pero sin limitacion escaneres, impresoras, pantallas (por ejemplo, monitores, LED, LCT o CRT), camaras, microfonos, almohadillas (por ejemplo, ipads, tabletas), pantallas tactiles, telefonos inteligentes, telefonos moviles, dispositivos de USB I/O, dispositivos de almacenamiento masivo USB, teclados, un raton de ordenador, lapices opticos, modems, discos duros, unidades de salto, unidades flash, un procesador, un servidor, CD, DVD, tarjetas graficas, dispositivos de I/O especializados (por ejemplo, secuenciadores, fotocelulas, tubos multiplicadores de fotos, lectores opticos, sensores, etc.), una o mas celdas de flujo, componentes de manipulacion de fluidos, controladores de interfaz de red, ROM, RAM, metodos y dispositivos de transferencia inalambrica (Bluetooth, WiFi y similares), world wide web (www), Internet, un ordenador y/u otro modulo.
Una o mas de un modulo de secuenciacion, modulo de procesamiento logico y modulo de organizacion de la visualizacion de datos se puede utilizar en un metodo descrito en la presente. Algunas veces un modulo de procesamiento logico, modulo de secuenciacion o modulo de organizacion de la visualizacion de datos, o un aparato que comprende una o mas de tales modulos, reunen, ensamblan, reciben proporcionan y/o transfieren los datos y/o la informacion a o de otro modulo, aparato, componente, periferico u operador de un aparato. Por ejemplo, algunas veces un operador de un aparato proporciona una constante, un valor umbral, una formula o un valor predeterminado a un modulo de procesamiento logico, modulo de secuenciacion o modulo de organizacion de la visualizacion de datos. Un modulo de procesamiento logico, modulo de secuenciacion o modulo de organizacion de la visualizacion de datos puede recibir datos y/o informacion de otro modulo, cuyos ejemplos no limitantes incluyen un modulo de procesamiento logico, modulo de secuenciacion, modulo de organizacion de la visualizacion de datos, modulo de secuenciacion, modulo de secuenciacion, modulo de mapeo, modulo de recuento, modulo de normalizacion, modulo de comparacion, modulo de fijacion del rango, modulo de categorizacion, modulo de ajuste, modulo de graficos, modulo de resultados, modulo de organizacion de la visualizacion de datos y/o modulo de procesamiento logico, similares o sus combinaciones. Los datos y/o la informacion derivados de o transformados por un modulo de procesamiento logico, modulo de secuenciacion o modulo de organizacion de la visualizacion de datos se pueden transferir de un modulo de procesamiento logico, modulo de secuenciacion o modulo de organizacion de la visualizacion de datos a un modulo de secuenciacion, modulo de secuenciacion, modulo de mapeo, modulo de
5
10
15
20
25
30
35
40
45
50
55
60
recuento, modulo de normalizacion, modulo de comparacion, modulo defijacion del rango, modulo de categorizacion, modulo de ajuste, modulo de graficos, modulo de resultados, modulo de organizacion de la visualizacion de datos, modulo de procesamiento logico u otro aparato y/o modulo adecuado. Un modulo de secuenciacion puede recibir los datos y/o la informacion de un modulo de procesamiento logico y/o modulo de secuenciacion y, por ejemplo transferir los datos y/o la informacion a un modulo de procesamiento logico y/o un modulo de mapeo. Algunas veces un modulo de procesamiento logico orquesta, controla, limita, organiza, ordena, distribuye, divide, transforma y/o regula datos y/o informacion o la transferencia de datos y/o informacion a y desde uno o mas modulos, perifericos o dispositivos. Un modulo de organizacion de la visualizacion de datos puede recibir los datos y/o la informacion de un modulo de procesamiento logico y/o modulo de graficos y transferir datos y/o informacion a un modulo de procesamiento logico, modulo de graficos, pantalla, periferico o dispositivo. Un aparato que comprende un modulo de procesamiento logico, modulo de secuenciacion o modulo de organizacion de la visualizacion de datos puede comprender al menos un procesador. Los datos y/o la informacion se puede proporcionar mediante un aparato que incluye un procesador (por ejemplo, uno o mas procesadores) tal procesador puede realizar y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) del modulo de procesamiento logico, modulo de secuenciacion y/o modulo de organizacion de la visualizacion de datos. Un modulo de procesamiento logico, modulo de secuenciacion o modulo de organizacion de la visualizacion de datos puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, servidor, dispositivo de almacenamiento y/o una red de almacenamiento (por ejemplo, una nube)).
El software a menudo se proporciona en un producto de programa que contiene instrucciones de programa registradas en un medio legible por ordenador, que incluyen, pero sin limitacion, medios magneticos que incluyen disquetes, discos duros y cinta magnetica; y medios opticos que incluyen discos CD-ROM, discos DVD, discos magnetoopticos, unidades flash, RAM, disquetes, similares, y otros medios sobre los cuales se pueden grabar las instrucciones del programa. En la implementacion en lmea, un servidor y un sitio web mantenidos por una organizacion se pueden configurar para proporcionar descargas de software a usuarios remotos, o los usuarios remotos pueden acceder a un sistema remoto mantenido por una organizacion para acceder de forma remota al software.
El software puede obtener o recibir informacion de entrada. El software puede incluir un modulo que obtiene o recibe datos espedficos (por ejemplo, un modulo de recepcion de datos que recibe datos de lectura de secuencias y/o datos de lectura mapeados) y puede incluir un modulo que procesa espedficamente los datos (por ejemplo, un modulo de procesamiento que procesa datos recibidos (por ejemplo, filtra, normaliza, proporciona un resultado y/o informa). Los terminos “obtencion” y “recepcion” de la informacion de entrada se refieren a la recepcion de datos (por ejemplo, lecturas de secuencias, lecturas mapeadas) por medios de comunicacion de ordenador desde un sitio de acceso local o remoto entrada de datos humanos o cualquier otro metodo de recepcion de datos. La informacion de entrada se puede generar en la misma ubicacion en la que se recibe, o se puede generar en una ubicacion diferente y transmite a la ubicacion de recepcion. La informacion de entrada se puede modificar antes de ser procesada (por ejemplo, dcolocada en un formato susceptible de procesamiento (por ejemplo, tabulado)).
Se puede proporcionar productos de programa de computacion, tal como, por ejemplo, un producto de programa de computacion que comprende un medio usable por ordenador que tiene un codigo del programa legible por ordenador incorporado allf, el codigo del programa legible por ordenador esta adaptado para ejecutar la implementacion de un metodo que comprende (a) la obtencion de lecturas de secuencias del acido nucleico de la muestra de un sujeto de prueba; (b) el mapeo de las lecturas de secuencias obtenidas en (a) a un genoma conocido, tal genoma conocido se ha dividido en secciones genomicas; (c) recuento de lecturas de secuencias mapeadas dentro de las secciones genomicas; (d) generar un perfil de recuento normalizado de la muestra mediante la normalizacion de los recuentos para las secciones genomicas obtenidas en (c); y (e) determinacion de la presencia o ausencia de una variacion genetica del perfil de recuento normalizado de la muestra en (d).
El software puede incluir uno o mas algoritmos. Se puede utilizar un algoritmo para procesar datos y/o proporcionar un resultado o informe de acuerdo con una secuencia finita de instrucciones. Un algoritmo a menudo es una lista de instrucciones definidas para completar una tarea. A partir de un estado inicial, las instrucciones pueden describir un calculo que procede a traves de una serie definida de estados sucesivos, que finalmente termina en un estado de terminacion final. La transicion de un estado a otro no es necesariamente determinista (por ejemplo, algunos algoritmos incorporan aleatoriedad). A modo de ejemplo, y sin limitacion, un algoritmo puede ser un algoritmo de busqueda, algoritmo de clasificacion, algoritmo de fusion, algoritmo numerico, algoritmo grafico, algoritmo de la cadena, algoritmo de modelado, el algoritmo geometrico computacional, algoritmo combinatorio, algoritmo de aprendizaje automatico, algoritmo de criptograffa, algoritmo de compresion de datos, algoritmo de analisis y similares. Un algoritmo puede incluir un algoritmo o dos o mas algoritmos que actuan en combinacion. Un algoritmo puede ser de cualquier clase de complejidad y/o complejidad parametrizada adecuada. Un algoritmo se puede usar para el calculo y/o procesamiento de datos, y por ejemplo, se puede usar en un enfoque determimstico o probabilfstico/predictivo. Un algoritmo se puede implementar en un ambiente computacional mediante el uso de un lenguaje de programacion adecuado, cuyos ejemplos no limitantes son C, C ++, Java, Perl, Python, Fortran, y similares. Un algoritmo se puede configurar o modificar para incluir margen de errores, analisis estadfstico, significancia estadfstica y/o comparacion con otros conjuntos de informacion o datos (por ejemplo, aplicable cuando se usa una red neuronal o un algoritmo de agrupamiento).
Se pueden implementar varios algoritmos para usar en software. Estos algoritmos se pueden entrenar con datos en bruto. Para cada nueva muestra de datos brutos, los algoritmos entrenados pueden producir un conjunto de datos
5
10
15
20
25
30
35
40
45
50
55
60
procesados o resultados representativos. Un conjunto de datos procesados algunas veces tiene una complejidad reducida en comparacion con el conjunto de datos originales que se proceso. Sobre la base de un conjunto procesado, el rendimiento de un algoritmo entrenado se puede evaluar sobre la base de la sensibilidad y especificidad. Se puede identificar y utilizar un algoritmo con la mas alta sensibilidad y/o especificidad.
Los datos simulados (o de simulacion) pueden ayudar al procesamiento de datos, por ejemplo, mediante el entrenamiento de un algoritmo o prueba de un algoritmo. Los datos simulados pueden incluir varias muestras hipoteticas de diferentes agrupaciones de lecturas de secuencias. Los datos simulados se pueden basar en lo que se podna esperar de una poblacion real o pueden estar sesgados para probar un algoritmo y/o asignar una clasificacion correcta. Los datos simulados tambien se denominan en la presente como datos “virtuales”. Las simulaciones se pueden realizar con un programa de computacion. Una etapa posible en el uso de un conjunto de datos simulados es evaluar la confianza de un resultado identificado, por ejemplo, que tan bien coincide un muestreo aleatorio o representa mejor los datos originales. Un abordaje es calcular un valor de probabilidad (valor p), que estima la probabilidad de que una muestra aleatoria tenga un puntaje mejor que las muestras seleccionadas. Se puede evaluar un modelo emprnco, en el que se supone que al menos una muestra coincide con una muestra de referencia (con o sin variaciones resueltas). Otra distribucion, tal como una distribucion de Poisson por ejemplo, se puede usar para definir la distribucion de probabilidad.
Un sistema puede incluir uno o mas procesadores. Un procesador se puede conectar a un bus de comunicacion. Un sistema de computacion puede incluir una memoria principal, a menudo memoria de acceso aleatorio (RAM), y tambien puede incluir una memoria secundaria. La memoria puede comprender un medio de almacenamiento no transitorio legible por ordenador. La memoria secundaria puede incluir, por ejemplo, una unidad de disco duro y/o una unidad de almacenamiento extrafble, que representa una unidad de disquete, una unidad de cinta magnetica, una unidad de disco optico, tarjeta de memoria y similares. Una unidad de almacenamiento extrafble a menudo dirige las lecturas de y/o escribe en una unidad de almacenamiento extrafble. Los ejemplos no limitantes de unidades de almacenamiento extrafbles incluyen un disquete, cinta magnetica, disco optico, y similares, que pueden ser lefdos y escritos por, por ejemplo, una unidad de almacenamiento extrafble. Una unidad de almacenamiento extrafble puede incluir un medio de almacenamiento utilizable por ordenador que tiene almacenado software y/o datos.
Un procesador puede implementar software en un sistema. Se puede programar un procesador para realizar automaticamente una tarea descrita en la presente que un usuario podna realizar. Por consiguiente, un procesador, o algoritmo conducido por dicho procesador, puede requerir poca o ninguna supervision o entrada de un usuario (por ejemplo, el software se puede programar para implementar una funcion automaticamente). La complejidad de un proceso es tan grande que una sola persona o grupo de personas no puede realizar el proceso en un marco de tiempo suficientemente corto para determinar la presencia o ausencia de una variacion genetica.
La memoria secundaria puede incluir otros medios similares para permitir que programas de computacion u otras instrucciones se carguen en un sistema de computacion. Por ejemplo, un sistema puede incluir una unidad de almacenamiento extrafble y un dispositivo de interfaz. Los ejemplos no limitantes de tales sistemas incluyen un cartucho de programa y una interfaz de cartucho (tal como la que se encuentra en dispositivos de videojuegos), un chip de memoria extrafble (tal como una EPROM o PROM) y un enchufe asociado, y otras unidades de almacenamiento extrafbles e interfaces que permiten que el software y los datos sean transferidos desde la unidad de almacenamiento extrafble a un sistema de computacion.
Una entidad puede generar recuentos de lecturas de secuencias, mapear las lecturas de secuencias a secciones genomicas, contar las lecturas mapeadas y utilizar las lecturas mapeadas contadas en un metodo, sistema, aparato o producto de programa de computacion descrito en la presente. Los recuentos de lecturas de secuencias mapeadas a secciones genomicas algunas veces pueden ser transferidos por una entidad a una segunda entidad para su uso por la segunda entidad en un metodo, sistema, aparato o producto de programa de computacion descrito en la presente.
Una entidad puede generar lecturas de secuencias y una segunda entidad mapea estas lecturas de secuencias a secciones genomicas en un genoma de referencia. La segunda entidad algunas veces cuenta las lecturas mapeadas y utiliza las lecturas mapeadas contadas en un metodo, sistema, aparato o producto de programa de computacion descrito en la presente. Algunas veces, la segunda entidad transfiere las lecturas mapeadas a una tercera entidad y la tercera entidad cuenta las lecturas mapeadas y utiliza las lecturas mapeadas en un metodo, sistema, aparato o producto de programa de computacion descrito en la presente. Algunas veces la segunda entidad cuenta las lecturas mapeadas y transfiere las lecturas mapeadas contadas a una tercera entidad, y la tercera entidad utiliza las lecturas mapeadas contadas en un metodo, sistema, aparato o producto de programa de computacion descrito en la presente. En aspectos que involucran una tercera entidad, la tercera entidad algunas veces puede ser la misma que la primera entidad. Es decir, la primera entidad algunas veces transfiere lecturas de secuencias a una segunda entidad, tal segunda entidad puede mapear lecturas de secuencias a las secciones genomicas en un genoma de referencia y/o contar las lecturas mapeadas, y la segunda entidad puede transferir las lecturas mapeadas y/o contadas a una tercera entidad. Una tercera entidad algunas veces puede utilizar las lecturas mapeadas y/o contadas en un metodo, sistema, aparato o producto de programa de computacion descrito en la presente, donde la tercera entidad algunas veces es la misma que la primera entidad y algunas veces la tercera entidad es diferente de la primera o segunda entidad.
Una entidad puede obtener sangre de una mujer embarazada, opcionalmente afsla acido nucleico de la sangre (por
5
10
15
20
25
30
35
40
45
50
55
60
ejemplo, del plasma o suero) y transfiere la sangre o acido nucleico a una segunda entidad que genera lecturas de secuencias del acido nucleico.
Determinados sistemas, aparatos y productos de programas de computacion
En determinados aspectos, se proporciona un metodo implementado por ordenador para determinar el sexo del feto, que comprende (a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; (b) determinacion del numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y; (c) determinacion del numero de recuentos de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf; (d) comparacion del numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y (e) determinacion del sexo del feto de acuerdo con la comparacion.
Tambien se proporcionan en determinados aspectos un sistema que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf; (c) comparar el numero de recuentos obtenidos en (a) y (b) o sus derivados, suministrando asf una comparacion; y (d) determinar el sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en determinados aspectos un aparato que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf; (c) comparar el numero de recuentos obtenidos en (a) y (b) o sus derivados, suministrando asf una comparacion; y (d) determinar el sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para (a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y; (c) determinar el numero de recuentos de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf; (d) comparar el numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y (e) determinar el sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un metodo implementado por ordenador para la determinacion del sexo del feto que comprende (a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; (b) remocion de las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X; (c) determinacion del numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos; (d) determinacion del numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde (i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones, (ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del
5
10
15
20
25
30
35
40
45
50
55
60
cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (e) comparacion del numero de recuentos obtenidos en (c) y (d) o sus derivados, suministrando as^ una comparacion; y (f) determinacion del sexo del feto de acuerdo con la comparacion en (e).
Tambien se proporciona en la presente un metodo para la determinacion del sexo del feto que comprende (a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, donde no estan incluidos los recuentos de lecturas de secuencias que se mapean tanto en el cromosoma Y como en el cromosoma X; (b) determinacion del numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos; (c) determinacion del numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde (i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones, (ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (d) comparacion del numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y (e) determinacion del sexo del feto de acuerdo con la comparacion en (d).
Tambien se proporciona en la presente un sistema que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) remover las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos; (c) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde (i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones, (ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (d) comparar el numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y (e) determinar el sexo del feto de acuerdo con la comparacion en (d).
Tambien se proporciona en la presente un aparato que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) remover las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos; (c) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde (i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones, (ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (d) comparar el numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y (e) determinar el sexo del feto de acuerdo con la comparacion en (d).
5
10
15
20
25
30
35
40
45
50
55
60
Tambien se proporciona en la presente un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para (a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; (b) remover las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X; (c) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos; (d) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde (i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones, (ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (e) comparar el numero de recuentos obtenidos en (c) y (d) o sus derivados, suministrando asf una comparacion; y (f) determinar el sexo del feto de acuerdo con la comparacion en (e).
Tambien se proporciona en la presente un sistema que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, donde no estan incluidos los recuentos de lecturas de secuencias que se mapean tanto en el cromosoma Y como en el cromosoma X; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos; (b) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde (i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones, (ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (c) comparar el numero de recuentos obtenidos en (a) y (b) o sus derivados, suministrando asf una comparacion; y (d) determinar el sexo del feto de acuerdo con la comparacion en (c).
Tambien se proporciona en la presente un aparato que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, donde no estan incluidos los recuentos de lecturas de secuencias que se mapean tanto en el cromosoma Y como en el cromosoma X; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos; (b) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde (i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones, (ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (c) comparar el numero de recuentos obtenidos en (a) y (b) o sus derivados, suministrando asf una comparacion; y (d) determinar el sexo del feto de acuerdo con la comparacion en (c).
Tambien se proporciona en la presente un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para (a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones
5
10
15
20
25
30
35
40
45
50
55
60
genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, donde no estan incluidos los recuentos de lecturas de secuencias que se mapean tanto en el cromosoma Y como en el cromosoma X;(b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos; (c) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, donde (i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones, (ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes; (d) comparar el numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y (e) determinar el sexo del feto de acuerdo con la comparacion en (d).
Tambien se proporciona en la presente un metodo implementado por ordenador para determinar el sexo del feto, que comprende (a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas en un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, donde el conjunto seleccionado de secciones genomicas en el cromosoma Y comprende (i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones; (ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y (iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones; (b) determinacion del numero de recuentos de lecturas de secuencias mapeadas en el conjunto de secciones genomicas en el cromosoma Y; (c) comparacion del numero de recuentos en (b) o su derivado, con un valor umbral, suministrando asf una comparacion; y (d) determinacion del sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un sistema que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, donde el conjunto seleccionado de secciones genomicas en el cromosoma Y comprende (i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones; (ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y (iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas en el conjunto de secciones genomicas en el cromosoma Y; (b) comparar el numero de recuentos en (a) o su derivado, con un valor umbral, suministrando asf una comparacion; y (c) determinar el sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un aparato que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, donde el conjunto seleccionado de secciones genomicas en el cromosoma Y comprende (i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones; (ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y (iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) determinar el numero de recuentos de lecturas de secuencias mapeadas en el conjunto de secciones genomicas en el cromosoma Y; (b) comparar el numero de recuentos en (a) o su derivado, con un valor umbral, suministrando asf una comparacion; y (c) determinar el sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores,
5
10
15
20
25
30
35
40
45
50
55
se configuran para (a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas en un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, donde el conjunto seleccionado de secciones genomicas en el cromosoma Y comprende (i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones; (ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y (iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones; (b) determinar el numero de recuentos de lecturas de secuencias mapeadas en el conjunto de secciones genomicas en el cromosoma Y; (c) comparar el numero de recuentos en (b) o su derivado, con un valor umbral, suministrando asf una comparacion; y (d) determinar el sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un metodo implementado por ordenador para determinar el sexo del feto, que comprende (a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; (b) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y (c) determinacion del sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un sistema que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y (b) determinar el sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un aparato que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y cuyas instrucciones ejecutables por uno o mas procesadores se configuran para (a) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y (b) determinar el sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para (a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; (b) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y (c) determinar el sexo del feto de acuerdo con la comparacion.
Tambien se proporciona en la presente un metodo implementado por ordenador para determinar el sexo del feto, que comprende
(a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; (b) determinacion del numero de recuentos de las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y; y (c) determinacion del sexo del feto de acuerdo con el numero de recuentos determinado in
(b) donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
Tambien se proporciona en la presente un sistema que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y cuyas instrucciones ejecutables por los uno o mas
5
10
15
20
25
30
35
40
45
50
55
60
procesadores se configuran para (a) determinar el numero de recuentos de las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y; y (b) determinar el sexo del feto de acuerdo con el numero de recuentos determinado en (a), donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
Tambien se proporciona en la presente un aparato que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para (a) determinar el numero de recuentos de las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y; y (b) determinar el sexo del feto de acuerdo con el numero de recuentos determinado en (a), donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
Tambien se proporciona en la presente un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para (a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; (b) determinar el numero de recuentos de las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y; y (c) determinar el sexo del feto de acuerdo con el numero de recuentos determinado en (b), donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
Un sistema, aparato y/o producto de programa de computacion pueden comprender un modulo de recuento configurado para contar lecturas mapeadas a secciones genomicas en un cromosoma Y o una porcion de ellas (por ejemplo, subconjunto de secciones genomicas en el cromosoma Y, conjunto seleccionado de secciones genomicas en el cromosoma Y, secciones genomicas en una region del cromosoma Y). Un modulo de recuento a menudo se configura para contar lecturas mapeadas a secciones genomicas en otros cromosomas (por ejemplo, uno o mas autosomas, cromosoma X, su combinacion). Los recuentos a veces son recuentos en bruto, filtrados, normalizados o combinacion de los anteriores. Un modulo de recuento a veces determina el numero de recuentos mapeados a un primer conjunto de secciones genomicas en un cromosoma Y y/o determina el numero de recuentos mapeadas en un segundo conjunto de secciones genomicas en un cromosoma Y. Un modulo de recuento a veces determina el numero de recuentos mapeados a una primera region del cromosoma Y y/o una segunda region del cromosoma Y. Un modulo de recuento puede contar lecturas mapeadas a regiones de cromosoma Y caracterizadas por lo siguiente: (i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones, (ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos y (iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes. Un modulo de recuento a veces cuenta lecturas mapeadas a un conjunto seleccionado de secciones genomicas en el cromosoma Y que comprende (i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones; (ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y (iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones, generando asf un conjunto seleccionado de secciones genomicas. Un modulo de recuento puede sumarlos recuentos en un cromosoma Y o su porcion y a veces puede determinar un promedio (por ejemplo, promedio, media, mediana, modo) de recuentos en un cromosoma Y o su porcion.
Un sistema, aparato y/o producto de programa de computacion puede comprender un modulo de comparacion de recuentos. Un modulo de comparacion de recuentos esta frecuentemente configurado para comparar el numero de recuentos de lecturas contadas por un modulo de recuento, con lo que efectua una comparacion entre recuento. Un modulo de comparacion de recuentos frecuentemente esta configurado para acceder, recibir, utilizar, almacenar, buscar y/o alinear recuentos de lecturas (por ejemplo, procedentes de un modulo de recuento o de un modulo de normalizacion). Un modulo de comparacion de recuentos esta frecuentemente configurado para proporcionar una comparacion adecuada entre conteos; los ejemplos no limitantes de esta comparacion incluyen una comparacion simple (por ejemplo, coincidencia o falta de coincidencia entre recuentos de lecturas mapeadas a un primer conjunto de secciones genomicas comparado con un segundo conjunto de secciones genomicas), comparacion matematica (por ejemplo, relacion, porcentaje), comparacion estadfstica (por ejemplo, comparaciones multiples, pruebas multiples, estandarizacion (por ejemplo, analisis de puntaje z)), sus similares y combinaciones. Un valor de comparacion de recuento adecuado puede proporcionarse mediante un modulo de comparacion de recuentos, ejemplos no limitantes de los cuales incluyen la presencia o ausencia de una coincidencia entre recuentos, una relacion, porcentaje, puntaje z, un valor acoplado con una medida de varianza o incertidumbre (por ejemplo, desviacion estandar, desviacion
5
10
15
20
25
30
35
40
45
50
55
60
absoluta mediana, intervalo de confianza), similares y combinaciones de los mismos. Un modulo de comparacion de conteo esta a veces configurado para transmitir un valor de comparacion a otro modulo o aparato, tal como un modulo de sexo del feto, un aparato de visualizacion o un aparato de impresion, por ejemplo.
Un sistema, aparato y/o producto de programa informatico puede comprender un modulo de sexo del feto. Un modulo de sexo del feto a veces esta configurado para proporcionar una determinacion del sexo del feto de acuerdo con los recuentos de lecturas mapeadas a un cromosoma Y o a una porcion de este. Un modulo de sexo del feto a veces esta configurado para proporcionar una determinacion del sexo del feto de acuerdo con una comparacion de recuentos (por ejemplo, recuentos mapeados a dos porciones diferentes de un cromosoma Y, recuentos sumados mapeados a un subconjunto de un cromosoma Y comparado con un valor mediano de recuentos mapeados a secciones genomicas en el cromosoma Y). Un modulo de sexo del feto esta frecuentemente configurado para acceder a, recibir, utilizar, almacenar, buscar y/o alinear una o mas comparaciones procedentes de un modulo de comparacion de recuentos y/o recuentos procedentes de un modulo de recuento. Un modulo de sexo del feto puede determinar el sexo del feto a partir de una o mas comparaciones o a partir de recuentos de una manera adecuada. Un modulo de sexo del feto a veces determina si hay una diferencia significativa entre los recuentos para diferentes conjuntos de secciones genomicas en un cromosoma Y. La importancia de una diferencia puede determinarse mediante un modulo de sexo del feto de una manera adecuada (por ejemplo, diferencia porcentual, analisis de puntaje Z). Un modulo de sexo del feto a veces determina si una determinacion de recuento o una comparacion de recuentos se halla en una categona particular. Por ejemplo, un modulo de sexo del feto puede categorizar una comparacion particular respecto a un umbral de relacion en particular o respecto a un intervalo de relaciones asociadas con la determinacion de un sexo masculino, o respecto a un umbral de relacion en particular o intervalo de relaciones asociado con la determinacion de un sexo femenino. En otro ejemplo no limitante, un modulo de sexo del feto puede categorizar una determinacion de recuentos en particular respecto a un umbral de recuentos en particular o respecto a un intervalo de recuentos asociados con la determinacion de un sexo masculino, o respecto a un umbral de recuentos en particular o respecto a un intervalo de recuentos asociado con la determinacion de un sexo femenino. Un modulo de sexo del feto puede proporcionar un resultado en un formato adecuado, que a veces es una llamada perteneciente al sexo del feto opcionalmente asociado con una medida de varianza o incertidumbre (por ejemplo, la desviacion estandar, la desviacion absoluta mediana, la exactitud (por ejemplo, dentro de un intervalo de confianza en particular). Un modulo de sexo del feto a veces esta configurado para transmitir una determinacion de sexo a otro modulo o aparato, tal como un aparato de visualizacion o una impresora, por ejemplo.
Un aparato o sistema que comprende un modulo descrito en la presente (por ejemplo, un modulo de comparacion de referencia) puede comprender uno o mas procesadores. Un aparato o sistema puede incluir multiples procesadores, tales como procesadores coordinados y que trabajan en paralelo. Un procesador (por ejemplo, uno o mas procesadores) en un sistema o aparato pueden llevar a cabo y/o implementar una o mas instrucciones (por ejemplo, procesos, rutinas y/o subrutinas) en un modulo descrito en la presente. Un modulo descrito en la presente a veces esta situado en la memoria o esta asociado con un aparato o sistema. Un modulo descrito en la presente puede operar con uno o mas procesadores externos (por ejemplo, una red interna o externa, un servidor, un dispositivo de memoria y/o una red de memoria (por ejemplo, una nube)). A veces, un modulo descrito en la presente esta configurado para acceder a, reunir, ensamblar y/o recibir datos y/o informacion procedente de otro modulo, aparato o sistema (por ejemplo, un componente, un periferico). A veces, un modulo descrito en la presente esta configurado para proporcionar y/o transferir datos y/o informacion a otro modulo, aparato o sistema (por ejemplo, un componente, un periferico). A veces, un modulo descrito en la presente esta configurado para acceder a, aceptar, recibir y/o reunir datos de entrada y/o informacion procedente de un operador de un aparato o sistema (es decir, un usuario). Por ejemplo, a veces un usuario provee una constante, un valor umbral, una formula y/o un valor predeterminado a un modulo. Un modulo descrito en la presente esta a veces configurado para transformar datos y/o informacion a la que accede, recibe, reune y/o ensambla.
Un sistema, aparato y/o producto de programa informatico puede comprender: (i) un modulo de secuenciacion configurado para obtener y/o acceder a lecturas de secuencias de acidos nucleicos y/o a lecturas de secuencias nucleotidicas parciales; (ii) un modulo de mapeo configurado para mapear lecturas de secuencias de acidos nucleicos a porciones de un genoma de referencia; (iii) un modulo de recuentos configurado para proporcionar recuentos de lecturas de secuencias de acidos nucleicos mapeados a porciones de un genoma de referencia; (iv) un modulo de normalizacion configurado para proporcionar recuentos normalizados; (v) un modulo de comparacion configurado para proporcionar una identificacion de una primera elevacion que es significativamente diferente de una segunda elevacion; (vi) un modulo de ajuste de intervalo configurado para proporcionar uno o mas intervalos de nivel previstos; (vii) un modulo de categorizacion configurado para identificar una elevacion representativa de la variacion de un numero de copias; (viii) un modulo de ajuste configurado para ajustar un nivel identificado como la variacion de un numero de copias; (ix) un modulo de graficado configurado para graficar y mostrar un nivel y/o un perfil; (x) un modulo de resultados configurado para determinar la presencia o ausencia de una variacion genetica, o para determinar un resultado (por ejemplo, un resultado determinante del sexo del feto y/o la presencia o ausencia de una aneuploidfa fetal); (xi) un modulo de organizacion de visualizacion de datos configurado para mostrar una determinacion de sexo del feto, o ambos; (xii) un modulo de procesamiento logico configurado para llevar a cabo una o mas lecturas de secuencias de mapa, lecturas de secuencias mapeadas de recuento, normalizar recuentos y generar un resultado; (xiii) un modulo de comparacion de recuentos, (xiv) un modulo de fraccion fetal configurado para proporcionar la determinacion de una fraccion fetal; (xv) un modulo de sexo del feto configurado para proporcionar la determinacion de
5
10
15
20
25
30
35
40
45
50
55
60
un sexo del feto; o (xvi) una combinacion de dos o mas de los anteriores.
Un modulo de secuenciacion y un modulo de mapeo pueden configurarse para transferir lecturas de secuencias desde el modulo de secuenciacion al modulo de mapeo. A veces, el modulo de mapeo y el modulo de recuentos estan configurados para transferir lecturas de secuencias mapeadas desde el modulo de mapeo al modulo de recuentos. El modulo de normalizacion y/o el modulo de comparacion se pueden configurar para transferir recuentos normalizados al modulo de comparacion y/o al modulo de ajuste de intervalo. El modulo de comparacion, el modulo de ajuste del intervalo y/o el modulo de categorizacion pueden estar configurado independientemente entre sf para transferir (i) una identificacion de una primera elevacion que es significativamente diferente de una segunda elevacion y/o (ii) un intervalo de niveles previsto a partir del modulo de comparacion y/o del modulo de ajuste de intervalo al modulo de categorizacion. El modulo de categorizacion y el modulo de ajuste pueden configurarse para transferir una elevacion categorizada como una variacion del numero de copias desde el modulo de categorizacion al modulo de ajuste. El modulo de ajuste, el modulo de graficado y el modulo de resultados pueden configurarse para transferir uno o mas niveles ajustados desde el modulo de ajuste al modulo de graficado o al modulo de resultados. El modulo de normalizacion a veces esta configurado para transferir recuentos de lecturas de secuencias normalizada mapeados a uno o mas de los siguientes: el modulo de comparacion, modulo de configuracion de intervalo, modulo de categorizacion, modulo de ajuste, modulo de resultados o modulo de graficado.
Variaciones geneticas y condiciones medicas
La presencia o ausencia de una varianza genetica pueden determinarse usando un metodo o aparato descritos en la presente. La presencia o ausencia de una o mas variaciones geneticas puede determinarse de acuerdo con un resultado proporcionado por metodos y aparatos descritos en la presente. Por lo general, una variacion genetica es un fenotipo genetico particular presente en determinados individuos, y frecuentemente hay una variacion genetica presente en una subpoblacion estadfsticamente significativa de individuos. Una variacion genetica puede ser una anomalfa cromosomica (por ejemplo, una aneuploidfa), una anomalfa cromosomica parcial o mosaiquismo, cada uno de los cuales se describe con mayor detalle en la presente. Los ejemplos no limitativos de variaciones geneticas incluyen una o mas deleciones (por ejemplo, microdeleciones), duplicaciones (por ejemplo, microduplicaciones), inserciones, mutaciones, polimorfismos (por ejemplo, polimorfismos de un solo nucleotido), fusiones, repeticiones (por ejemplo, repeticiones en tandem cortas), sitios de metilacion distintos, patrones de metilacion distintos, similares y combinaciones de los mismos. Una insercion, repeticion, delecion, duplicacion, mutacion o polimorfismo pueden ser de cualquier longitud y, por ejemplo, pueden ser de aproximadamente 1 base o par de bases (pb) hasta aproximadamente 250 megabases (Mb) de longitud. Una insercion, repeticion, delecion, duplicacion, mutacion o polimorfismo puede ser de aproximadamente 1 base o par de bases (bp) a aproximadamente 1.000 kilobases (kb) de longitud (por ejemplo, de aproximadamente 10 pb, 50 pb, 100 pb, 500 pb, 1 kb, 5 kb, 10 kb, 50 kb, 100 kb, 500 kb, o 1.000 kb de longitud).
Una variacion genetica es a veces una delecion. A veces, una delecion es una mutacion (por ejemplo, una aberracion genetica) en la que falta una parte de un cromosoma o una secuencia de ADN. Una supresion es frecuentemente una perdida de material genetico. Se puede eliminar cualquier numero de nucleotidos. Una delecion puede comprender la delecion de uno o mas cromosomas enteros, un segmento de un cromosoma, un alelo, un gen, un intron, un exon, cualquier region no codificante, cualquier region codificante, un segmento de la misma o una combinacion de los mismos. Una delecion puede comprender una microdelecion. Una delecion puede comprender la delecion de una sola base.
Una variacion genetica es a veces una duplicacion genetica. A veces, una duplicacion es una mutacion (por ejemplo, una aberracion genetica) en la que una parte de un cromosoma o una secuencia de ADN se copian y se inserta de nuevo en el genoma. A veces, una duplicacion genetica (es decir, duplicacion) es cualquier duplicacion de una region de ADN. Una duplicacion puede ser una secuencia de acido nucleico que se repite, frecuentemente en tandem, dentro de un genoma o cromosoma. Una duplicacion puede comprender una copia de uno o mas cromosomas enteros, un segmento de un cromosoma, un alelo, un gen, un intron, un exon, cualquier region no codificante, cualquier region codificante, segmento de la misma o combinacion de los mismos. Una duplicacion puede comprender una microduplicacion. Una duplicacion a veces comprende una o mas copias de un acido nucleico duplicado. Una duplicacion a veces se caracteriza como una region genetica repetida una o mas veces (por ejemplo, repetida 1,2, 3, 4, 5, 6, 7, 8, 9 o 10 veces). En algunos casos, las duplicaciones pueden variar desde pequenas regiones (miles de pares de bases) hasta cromosomas completos en algunos casos. Las duplicaciones frecuentemente ocurren como resultado de un error en la recombinacion homologa o debido a un evento de retrotransposon. Las duplicaciones se han asociado con determinados tipos de enfermedades proliferativas. Las duplicaciones se pueden caracterizar utilizando microarrays genomicos o hibridacion genetica comparativa (CGH).
Una variacion genetica es a veces una insercion. Una insercion es a veces la adicion de uno o mas pares de bases de nucleotidos en una secuencia de acidos nucleicos. Una insercion es a veces una microinsercion. A veces, una insercion comprende la adicion de un segmento de un cromosoma a un genoma, cromosoma o segmento del mismo. A veces, una insercion comprende la adicion de un alelo, un gen, un intron, un exon, cualquier region no codificante, cualquier region codificante, segmento de la misma o combinacion de los mismos en un genoma o segmento de este. A veces, una insercion comprende la adicion (es decir, insercion) de acido nucleico de origen desconocido en un genoma, cromosoma o segmento de este. A veces, una insercion comprende la adicion (es decir, la insercion) de una
5
10
15
20
25
30
35
40
45
50
55
60
sola base.
Como se usa en el presente documento, la expresion “variacion del numero de copias” se refiere a una clase o tipo de variacion genetica o aberracion cromosomica. Una variacion del numero de copia puede ser una delecion (por ejemplo, una microdelecion), una duplicacion (por ejemplo, una microduplicacion) o una insercion (por ejemplo, una microinsercion). Frecuentemente, el prefijo “micro”, tal como se utiliza aqm, se refiere a un segmento de acido nucleico de menos de 5 Mb de longitud. Una variacion del numero de copias puede incluir una o mas deleciones (por ejemplo, una microdelecion), duplicaciones y/o inserciones (por ejemplo, una microduplicacion, microinsercion) de un segmento de un cromosoma. En algunos casos, una duplicacion comprende una insercion. A veces una insercion es una duplicacion. A veces una insercion no es una duplicacion. Por ejemplo, frecuentemente la duplicacion de una secuencia en una seccion genomica aumenta los recuentos para una seccion genomica en la que se encuentra la duplicacion. Frecuentemente la duplicacion de una secuencia en una seccion genomica aumenta la elevacion. A veces, una duplicacion presente en las secciones genomicas que componen una primera elevacion aumenta la elevacion con respecto a una segunda elevacion donde hay una duplicacion ausente. A veces, una insercion aumenta los recuentos de una seccion genomica y una secuencia que representa la insercion esta presente (es decir, duplicada) en otra ubicacion dentro de la misma seccion genomica. A veces, una insercion no aumenta significativamente los recuentos de una seccion genomica o elevacion y la secuencia que se inserta no es una duplicacion de una secuencia dentro de la misma seccion genomica. A veces una insercion no se detecta o representa como una duplicacion y una secuencia duplicada que representa la insercion no se halla presente en la misma seccion genomica.
Una variacion de un numero de copias puede ser una variacion del numero de copias fetales. Frecuentemente, una variacion del numero de copias fetales es una variacion del numero de copias en el genoma de un feto. Una variacion del numero de copias puede ser una variacion del numero de copias maternas. A veces una variacion del numero de copias maternas y/o fetales es una variacion del numero de copias dentro del genoma de una mujer embarazada (por ejemplo, una mujer que lleva un feto), un sujeto mujer que dio a luz o una mujer capaz de portar un feto. Una variacion del numero de copias puede ser una variacion del numero de copias heterocigotos donde la variacion (por ejemplo, una duplicacion o delecion) esta presente en un alelo de un genoma. Una variacion del numero de copias puede ser una variacion del numero de copias homocigoticas donde la variacion esta presente en ambos alelos de un genoma. Una variacion del numero de copias puede ser una variacion heterocigotica u homocigotica del numero de copias fetales. Una variacion del numero de copias puede ser una variacion heterocigotica u homocigotica del numero de copias maternas y/o fetales. Una variacion del numero de copias a veces esta presente en un genoma materno y en un genoma fetal, en un genoma materno y no en un genoma fetal, o en un genoma fetal y no en un genoma materno.
El termino “ploidfa” se refiere al numero de cromosomas presentes en un feto o en una madre. A veces “ploidfa” es lo mismo que “ploidfa de cromosoma”. En los seres humanos, por ejemplo, los cromosomas autosomicos se hallan frecuentemente presentes de a pares. Por ejemplo, en ausencia de una variacion genetica, la mayona de los seres humanos tienen dos de cada cromosoma autosomico (por ejemplo, los cromosomas 1-22). La presencia del complemento normal de 2 cromosomas autosomicos en un ser humano se denomina frecuentemente euploide. “Microploidfa” tiene un significado similar a “ploidfa”. El termino “microploidfa” se refiere frecuentemente a la ploidfa de un segmento de un cromosoma. El termino “microploidfa” se refiere a veces a la presencia o ausencia de una variacion del numero de copias (por ejemplo, una delecion, duplicacion y/o insercion) dentro de un cromosoma (por ejemplo, una delecion, duplicacion o insercion homocigotas o heterocigotas, sus similares o ausencia de los mismos). La “ploidfa” y “microploidfa” a veces se determinan despues de la normalizacion de los recuentos de una elevacion en un perfil (por ejemplo, despues de normalizar los recuentos de una elevacion a un NRV de 1). Por lo tanto, una elevacion que representa un par de cromosomas autosomicos (por ejemplo, un euploide) a menudo se normaliza a un NRV de 1 y se denomina ploidfa de 1. De manera similar, una elevacion dentro de un segmento de un cromosoma que representa la ausencia de una duplicacion, delecion o insercion frecuentemente se normaliza a un NRV de 1 y se conoce como una microploidfa de 1. La ploidfa y microploidfa son a menudo espedficos para bin (por ejemplo, son espedficas para seccion genomica) y espedficos para muestra. La ploidfa se define frecuentemente como multiplos enteros de 1/2, en donde los valores de 1, 1/2, 0, 3/2 y 2 representan la euploidfa (por ejemplo, 2 cromosomas), 1 cromosoma presente (por ejemplo, una delecion de cromosoma), ningun cromosoma presente, 3 cromosomas (por ejemplo, una trisoirna) y 4 cromosomas, respectivamente. Del mismo modo, la microploidfa se define frecuentemente como multiplos enteros de 1/2, en donde los valores de 1,1/2, 0, 3/2 y 2 representan euploidfa (por ejemplo, no hay ninguna variacion del numero de copias), una delecion heterocigotica, delecion homocigotica, duplicacion heterocigotica y duplicacion homocigotica, respectivamente.
A veces, la microploidfa de un feto coincide con la microploidfa de la madre del feto (es decir, la mujer sujeto embarazada). A veces la microploidfa de un feto coincide con la microploidfa de la madre del feto y tanto la madre como el feto llevan la misma variacion del numero de copias heterocigotos, la misma variacion del numero de copias homocigoticas, o ambos son euploides. A veces la microploidfa de un feto es diferente de la microploidfa de la madre del feto. Por ejemplo, a veces la microploidfa de un feto es heterocigotica para una variacion del numero de copias, la madre es homocigotica para una variacion del numero de copias y la microploidfa del feto no coincide (por ejemplo, no es igual a) la microploidfa de la madre en cuanto a la variacion especificada del numero de copias.
A menudo, una microploidfa se asocia con una elevacion prevista. Por ejemplo, a veces una elevacion (por ejemplo, una elevacion en un perfil, a veces una elevacion que sustancialmente no incluye ninguna variacion en el numero de
5
10
15
20
25
30
35
40
45
50
55
60
copias) se normaliza a un VRN de 1 y la microploidfa de una duplicacion homocigotica es 2, una duplicacion heterocigotica es 1,5, una delecion heterocigotica es 0,5 y una delecion homocigotica es cero.
Una variacion genetica para la cual la presencia o ausencia puede ser identificada para un sujeto esta asociada con una condicion medica. Por lo tanto, la tecnologfa descrita en la presente puede usarse para identificar la presencia o ausencia de una o mas variaciones geneticas que estan asociadas con una condicion medica o estado medico. Los ejemplos no limitativos de condiciones medicas incluyen aquellos asociados con discapacidad intelectual (por ejemplo, Smdrome de Down), proliferacion celular aberrante (por ejemplo, cancer), presencia de un acido nucleico de microorganismo (por ejemplo, virus, bacteria, hongo, levadura) y preeclampsia.
A continuacion se describen ejemplos no limitativos de variaciones geneticas, condiciones medicas y estados.
Sexo fetal
La prediccion de un sexo del feto o de un trastorno relacionado con el sexo (por ejemplo, aneuploidfa del cromosoma sexual) puede determinarse mediante un metodo o aparato descritos en la presente. Un metodo en el que se puede determinar el sexo del feto tambien puede comprender la determinacion de la fraccion fetal y/o la presencia o ausencia de una variacion genetica fetal (por ejemplo, aneuploidfa del cromosoma fetal). La determinacion de la presencia o ausencia de una variacion genetica fetal puede realizarse de una manera adecuada; los ejemplos no limitantes incluyen analisis de cariotipos, amniocentesis, analisis de acidos nucleicos libres de celulas circulantes, analisis de ADN fetal libre de celulas, analisis de secuencias de nucleotidos, cuantificacion de lecturas de secuencias, enfoques dirigidos, enfoques basados en la amplificacion, enfoques basados en espectrometna de masas, enfoques basados en la metilacion diferencial, enfoques basados en la digestion diferencial, enfoques basados en polimorfismos, enfoques basados en la hibridacion (por ejemplo, mediante sondas), y similares.
Por lo general, la determinacion del genero se basa en un cromosoma sexual. En los seres humanos, hay dos cromosomas sexuales, los cromosomas X e Y. El cromosoma Y contiene un gen, SRY, que desencadena el desarrollo embrionario como masculino. Los cromosomas Y de los seres humanos y de otros mairnferos tambien contienen otros genes necesarios para la produccion normal de espermatozoides. Los individuos con XX son mujeres y con XY son masculinos y las variaciones, no limitantes, a menudo denominadas aneuploidfas cromosomicas sexuales, incluyen XO, XYY, XXX y XXY. En algunos casos, los varones tienen dos cromosomas X y un cromosoma Y (XXY, Smdrome de Klinefelter), o un cromosoma X y dos cromosomas Y (smdrome XYY, smdrome de Jacobs), y algunas mujeres tienen tres cromosomas X (XXX, smdrome de Triple X)o un unico cromosoma X en lugar de dos (Xo, smdrome de Turner). En algunos casos, solo una porcion de las celulas en un individuo se ven afectadas por una aneuploidfa del cromosoma sexual, lo que puede denominarse mosaiquismo (por ejemplo, el mosaiquismo de Turner). Otros casos incluyen aquellos en los que el SRY esta danado (lo que lleva a una mujer XY), o copiado a la X (lo que conduce a un varon XX).
En ciertos casos, puede ser beneficioso determinar el sexo de un feto in utero. Por ejemplo, un paciente (por ejemplo, una mujer embarazada) con antecedentes familiares de uno o mas trastornos relacionados con el sexo puede desear determinar el sexo del feto que lleva para ayudarle a evaluar el riesgo de que el feto herede dicho trastorno. Los trastornos relacionados con el sexo incluyen, sin limitacion, los trastornos ligados a X y ligados a Y. Los trastornos ligados al cromosoma X incluyen los trastornos recesivos ligados a X y los dominantes ligados a X. Los ejemplos de trastornos recesivos ligados a X incluyen, sin limitacion, los trastornos inmunes (por ejemplo, la enfermedad granulomatosa cronica (CYBB, chronic granulomatous disease), el smdrome de Wiskott-Aldrich, la inmunodeficiencia combinada severa ligada al X, la gammaglobulinemia ligada al X, el smdrome hiper-IgM de tipo 1, la enfermedad linfoproliferativa ligada a X (deficiencia de Properdin),trastornos hematologicos (por ejemplo, la hemofilia A, la hemofilia B, la anemia sideroblastica ligada a X), trastornos endocrinos (por ejemplo, smdrome de insensibilidad a los androgenos / enfermedad de Kennedy, smdrome de Kallmann KAL1, hipoplasia adrenal congenita ligada a X), trastornos metabolicos (por ejemplo, deficiencia de ornitina transcarbamilasa, smdrome oculocerebrorenal, adrenoleucodistrofia, deficiencia de glucosa-6-fosfato deshidrogenasa, deficiencia de piruvato dehidrogenasa, enfermedad de Danon / enfermedad de almacenamiento de glucogeno Tipo Mb, enfermedad de Fabry, smdrome de Hunter, smdrome de Lesch-Nyhan, enfermedad de Menkes / smdrome de cuerno occipital), trastornos del sistema nervioso (por ejemplo, smdrome de Coffin-Lowry, smdrome de MASA, smdrome de retardo mental de talasemia alfa ligada a X, Smdrome de retardo mental ligado al cromosoma X de Siderius, ceguera a los colores, albinismo ocular, enfermedad de Norrie, coroideremia, enfermedad de Charcot-Marie-Tooth (CMTX2-3), enfermedad de Pelizaeus-Merzbacher, SMAX2), trastornos de la piel y de los tejidos relacionados (por ejemplo, disqueratosis congenita, displasia hipohidrotica ectodermico (EDA), ictiosis ligada al cromosoma X, distrofia endotelial cornea ligada al cromosoma X), trastornos neuromusculares (por ejemplo, distrofia muscular de Becker / Duchenne, miopatfa centronuclear (MTM1), smdrome de Conradi-Hunermann, distrofia muscular de Emery-Dreifuss 1), trastornos urologicos (por ejemplo, el smdrome de Alport, la enfermedad de Dent, diabetes insfpida nefrogenica ligada al cromosoma X), trastornos oseos / dentales (por ejemplo AMELX Amelogenesis imperfecta) y otros trastornos (por ejemplo, smdrome de Barth, smdrome de McLeod, Smdrome de Smith-Fineman-Myers, smdrome de Simpson-Golabi-Behmel, smdrome de Mohr-Tranebjaerg, smdrome nasodigitoacustico). Los ejemplos de trastornos dominantes ligados a X incluyen, sin limitacion, la hipofosfatemia ligada a X, hipoplasia dermica focal, smdrome del X fragil, smdrome de Aicardi, Incontinentia pigmenti, smdrome de Rett, smdrome CHILD, smdrome de Lujan-Fryns y smdrome Orofaciodigital 1. Los ejemplos de trastornos ligados a Y incluyen, sin limitacion, infertilidad masculina,
5
10
15
20
25
30
35
40
45
50
55
retinitis pigmentosa y azoospermia. Anomali'as de cromosoma
La presencia o ausencia de una anomaKa cromosomica fetal se puede determinar usando un metodo o aparato descritos en la presente. Las anomalfas cromosomicas incluyen, sin limitacion, una ganancia o perdida de un cromosoma entero o de una region de un cromosoma que comprende uno o mas genes. Las anomalfas cromosomicas incluyen las monosoirnas, trisoirnas, polisoirnas, perdida de heterozigosidad, deleciones y/o duplicaciones de una o mas secuencias de nucleotidos (por ejemplo, uno o mas genes), inclusive deleciones y duplicaciones causadas por translocaciones desequilibradas. Los terminos “aneuploidfa” y “aneuploide”, como se utilizan en la presente, se refieren a un numero anormal de cromosomas en las celulas de un organismo. Dado que diferentes organismos tienen complejos cromosomicos muy variados, el termino “aneuploidfa” no se refiere a un numero particular de cromosomas, sino mas bien a la situacion en la cual el contenido de cromosomas dentro de una o mas celulas dadas de un organismo es anormal. El termino “aneuploidfa” utilizado en la presente puede referirse a un desequilibrio de material genetico causado por una perdida o ganancia de un cromosoma completo, o de parte de un cromosoma. Una “aneuploidfa” puede referirse a una o mas deleciones y/o inserciones de un segmento de un cromosoma.
El termino “monosoirna” tal como se utiliza en la presente se refiere a la ausencia de un cromosoma del complemento normal. La monosoirna parcial puede tener lugar en translocaciones o deleciones desequilibradas, en las cuales solo un segmento del cromosoma se halla presente en una sola copia. La monosoirna de los cromosomas sexuales (45, X) causa el smdrome de Turner, por ejemplo.
El termino “disoirna” se refiere a la presencia de dos copias de un cromosoma. Para organismos como los de los seres humanos que tienen dos copias de cada cromosoma (los que son diploides o “euploides”), la disoirna es la condicion normal. Para los organismos que normalmente tienen tres o mas copias de cada cromosoma (los que son triploides o superiores), la disoirna es un estado cromosomico aneuploide. En la disoirna unigenitora, ambas copias de un cromosoma provienen del mismo genitor (sin contribucion del otro genitor).
El termino “euploide” puede referirse a un complemento normal de cromosomas.
El termino “trisoirna”, como se utiliza en la presente, se refiere a la presencia de tres copias, en lugar de dos copias, de un cromosoma particular. La presencia de un cromosoma 21 adicional, que se encuentra en el smdrome de Down humano, se conoce como “Trisoirna 21.” La trisoirna 18 y la trisoirna 13 son otras dos trisoirnas autosomicas humanas. La trisoirna de cromosomas sexuales puede observarse en mujeres (por ejemplo, 47, XXX en el Smdrome de Triple X) o en varones (por ejemplo, 47, XXY en el Smdrome de Klinefelter, o 47, XYY en el Smdrome de Jacobs).
Los terminos “tetrasoirna” y “pentasoirna”, tal como se utilizan en la presente, se refieren a la presencia de cuatro o cinco copias de un cromosoma, respectivamente. Aunque rara vez se ha observado en autosomas, se han informado de casos de tetrasoirna y pentasoirna de las cromosomas en seres humanos, incluyendo XXXX, XXXY, XXYY, XYYY, XXXXX, XXXXY, XXXYY, XXYYY y XYYYY.
Las anomalfas cromosomicas pueden ser causadas por una variedad de mecanismos. Los mecanismos incluyen sin limitacion: (i) la no disyuncion que se produce como resultado de un punto de control mitotico debilitado, (ii) los puntos de control mitotico inactivos que causan una disyuncion en multiples cromosomas, (iii) la union merotelica que se produce cuando un cinetocoro esta unido a ambos polos del husillo mitotico, (iv) la formacion de un husillo multipolar cuando se forman mas de dos polos del husillo, (v) las formacion de un husillo monopolar cuando solo se forma un polo del husillo, y (vi) un intermedio tetraploide que se produce como resultado final del mecanismo del husillo monopolar .
Los terminos “monosoirna parcial” y “trisoirna parcial” utilizados en la presente se refieren a un desequilibrio de material genetico causado por la perdida o ganancia de parte de un cromosoma. Una monosoirna parcial o una trisoirna parcial pueden resultar de una translocacion desequilibrada, en donde un individuo lleva un cromosoma derivado formado debido a la ruptura y fusion de dos cromosomas diferentes. En esta situacion, el individuo tendna tres copias de parte de un cromosoma (dos copias normales y el segmento que existe en el cromosoma derivado) y solo una copia de parte del otro cromosoma implicado en el cromosoma derivado.
El termino “mosaiquismo” tal como se utiliza en la presente se refiere a aneuploidfa en algunas celulas, pero no en todas las celulas, de un organismo. Determinadas anomalfas cromosomicas pueden existir como anomalfas cromosomicas en mosaico y no mosaico. Por ejemplo, determinados individuos con trisoirna 21 individuos tienen el smdrome de mosaico de Down y algunos tienen el smdrome de Down no mosaico. Diferentes mecanismos pueden conducir al mosaiquismo. Por ejemplo, (i) un cigoto inicial puede tener tres cromosomas 21, lo que normalmente resultana en trisoirna simple 21, pero durante el curso de la division celular una o mas lmeas celulares perdio uno de los cromosomas 21; e (ii) un cigoto inicial puede tener dos cromosomas 21, pero durante el curso de la division celular se duplico uno de los cromosomas 21. El mosaiquismo somatico se produce probablemente a traves de mecanismos distintos de los tipicamente asociados con smdromes geneticos que involucran aneuploidfa completa o en mosaico. El mosaiquismo somatico ha sido identificado en determinados tipos de cancer y en algunas neuronas, por ejemplo. En determinados casos, la trisoirna 12 se ha identificado en la leucemia linfocftica cronica (CLL, chronic lymphocytic leukemia) y la trisoirna 8 se ha identificado en la leucemia mieloide aguda (LMA). Ademas, los smdromes geneticos en los que un individuo esta predispuesto a la ruptura de cromosomas (smdromes de inestabilidad cromosomica) se
asocian frecuentemente con un mayor riesgo de varios tipos de cancer, destacandose de esta manera el papel de la aneuploid^a somatica en la carcinogenesis. Los metodos y protocolos descritos en la presente permiten identificar la presencia o ausencia de anomalfas cromosomicas no mosaicas y de mosaico.
En las Tablas 2A y 2B presentan una lista no limitativa de condiciones, smdromes y/o anomalfas cromosomicas que 5 pueden identificarse potencialmente los mediante metodos y aparatos descritos en la presente. La Tabla 2B ha sido tomada de la base de datos DECIPHER actualizada al 6 de octubre de 2011 (por ejemplo, la version 5.1, basada en las posiciones mapeadas a GRCh37, disponible en localizador uniforme de recursos (URL, uniform resource locator) dechipher.sanger.ac.uk).
Tabla 2A
Cromosoma
Anomalia Enfermedad asociada
X
XO Smdrome de Turner
Y
XXY Smdrome de Klinefelter
Y
XYY Smdrome de doble Y
Y
XXX Smdrome de Trisomna X
Y
XXXX Smdrome de cuatro X
Y
delecion de Xp21 Smdrome de Duchenne/Becker, hipoplasia adrenal congenito, enfermedad granulomatosa cronica
Y
delecion de Xp22 Deficiencia de esteroide sulfatasa
Y
delecion de Xq26 Enfermedad linfoproliferativa X-ligada
1
1p (somatica) monosoiTHa trisoirna Neuroblastoma
2
monosomfa trisomna 2q Retardo del crecimiento, retardo del desarrollo y mental, y anomalfas ffsicas menores
3
monosomfa trisomna (somatica) Linfoma no de Hodgkin
4
monosomfa trisomna (somatico) Leucemia aguda no linfocftica (ANLLl, Acute non lymphocytic leukemia)
5
5p Cri du chat; Smdrome de Lejeune
5
5q (somatica) monosom^a trisom^a Smdrome mielodisplasico
6
monosom^a trisomna (somatica) Sarcoma de celulas claras
7
delecion de 7q11.23 Smdrome de William
7
monosom^a trisomfa Smdrome de monosom^a 7 de la infancia, somatico: adenomas renales corticales smdrome mielodisplasico
8
delecion de 8q24.1 Smdrome de Langer-Giedon
8
monosom^a trisomfa Smdrome mielodisplasico; smdrome de Warkany, somatico: leucemia mielogena cronica
Cromosoma
Anomalia Enfermedad asociada
9
monosoirna 9p Smdrome de ALAI
9
monosoirna 9p trisoirna parcial Smdrome de Rethore
9
trisoirna Smdrome de trisoirna 9 completa, Smdrome del mosaico trisoirna 9
10
monosom^a trisomna (somatica) ALL o ANLL
11
up- Aniridia; tumor de Wilms
11
11q- Smdrome de Jacobson
11
monosoirna (somatica) trisoirna Linajes mieloloides afectadas (ANLL, MDS)
12
monosom^a trisomna (somatica) CLL, Smdrome del mosaico trisoirna 9 (JGCT, Juvenile granulosa cell tumor, tumor juvenil de celulas granulosas)
13
13q- Smdrome-13q, Smdrome de Orbeli
13
delecion de 13q14 Retinoblastoma
13
monosom^a trisom^a Smdromes de Patau
14
monosomfa trisomna (somatica) Enfermedades mieloides (MDS, ANLL, CML atipico)
15
Delecion de 15q11 -q13 monosoirna Prader-Willi, sin de Angelman
15
trisoirna (somatica) Linajes mieloides y linfoides afectados, por ejemplo, MDS, ANLL, ALL, CLL)
16
Delecion de 16q13.3 Rubenstein-Taybi
3
monosoirna trisoirna (somatica) Carcinomas de celulas renales papilares (malignos)
17
17p-(somatica) Smdrome 17p en enfermedades malignas mieloides
17
Delecion de 17q11.2 Smith-Magenis
17
17q13.3 Miller-Dieker
17
monosom^a trisomna (somatica) Adenomas renales corticales
17
Trisoirna 17p11.2-12 Smdrome de Charcot-Marie Tooth de tipo 1, HNPP
18
18p- Smdrome de monosoirna 18p parcial o smdrome de Grouchy Lamy Thieffry
18
18q- Smdrome de Grouchy Lamy Salmon Landry
Cromosoma
AnomaKa Enfermedad asociada
18
monosomfa trisomfa Smdrome de Edwards
19
monosomfa trisom^a
20
20p- Smdrome de trisoirna 20p
20
delecion de 20p11.2-12 Alagille
20
20q- somatico: MDS, ANLL, policitemia vera, leucemia neutrofflica cronica
20
monosomna trisomna (somatica) Carcinomas de celulas renales papilares (malignos)
21
monosom^a trisom^a Smdrome de Down
22
Delecion de 22q11.2 Smdrome de DiGeorge, smdrome velocardiofacial, Smdrome de la cara anomalfa conotruncal, smdrome autosomal dominante de Opitz G/BBB, Smdrome cardiofacial de Caylor
22
monosom^a trisom^a Smdrome de trisomfa 22 completa
Tabla 2B
Smdrome
Cromosomas Inicio Fin Intervalo (Mb) Grado
Smdrome de microdelecion de 12q14
12 65.071.919 68.645525 3,57
Smdrome de microdelecion de 15q13.3
15 30.769.995 32701.482 1,93
Smdrome de microdelecion recurrente de 15q24
15 74.377.174 76.162.277 1,79
Smdrome de crecimiento excesivo de 15q26
15 99.357.970 102.521.392 3,16
Smdrome de microduplicacion de 16p11.2
16 29.501.198 30.202572 0,70
Smdrome de microdelecion de 16p11.2-p12.2
16 21.613.956 29.042.192 7,43
Trastorno de microdelecion recurrente (neurocognitivo) de 16p13.11 (locus de sensibilidad)
16 15.504.454 16.284.248 0,78
Smdrome
Cromosomas Inicio Fin Intervalo (Mb) Grado
Trastorno de microduplicacion recurrente de 16p13.11 (locus de sensibilidad de trastorno neurocognitivo)
16 15.504.454 16.284.248 0,78
Smdrome de microdelecion recurrente de 17q21.3
17 43.632.466 44.210.205 0,58 1
Smdrome de microdelecion de 1p36
1 10.001 5.408.761 5,40 1
Microdelecion recurrente de 1q21.1 (locus sensibilidad para trastornos del desarrollo neurologico)
1 146.512.930 147.737.500 1,22 3
Microduplicacion recurrente de 1q21.1 (posible locus de susceptibilidad para trastornos de neurodesarrollo)
1 146.512.930 147.737.500 1,22 3
Locus de sensibilidad de 1q21.1 para smdrome de radio de trombocitopenia ausente (TAR, Thrombocytopenia- Absent Radius)
1 145.401.253 145.928.123 0,53 3
Smdrome de delecion de 22q11 (smdrome velocardiofacial / de DiGeorge)
22 18.546.349 22.336.469 3,79 1
Smdrome de duplicacion de 22q11
22 18.546.349 22.336.469 3,79 3
Smdrome de delecion dista de 22q11.2
22 22.115.848 23.696.229 1,58
Smdrome de delecion de 22q13 (Smdrome de Phelan-Mcdermid)
22 51.045.516 51.187.844 0,14 1
Smdrome de microdelecion de 2p15-16.1
2 57.741.796 61.738.334 4,00
Smdrome de delecion de 2q33.1
2 196.925.089 205.206.940 8,28 1
2q37 monosoirna de 2q37
2 239.954.693 243.102.476 3,15 1
Smdrome de microdelecion de 3q29
3 195.672.229 197.497.869 1,83
Smdrome
Cromosomas Inicio Fin Intervalo (Mb) Grado
Smdrome de microduplicacion de 3q29
3 195.672.229 197.497.869 1,83
Smdrome de duplicacion de 7q11.23
7 72.332.743 74.616.901 2,28
Smdrome de delecion de 8p23.1
8 8.119.295 11.765.719 3,65
Smdrome de delecion subtelomerico de 9q
9 140.403.363 141.153.431 0,75 1
Leucodistrofia autosomica dominante de inicio en el adulto (ADLD, Adult-onset autosomal dominant leukodystrophy
5 126.063.045 126.204.952 0,14
Smdrome de Angelman (Tipo 1)
15 22.876.632 28.557.186 5,68 1
Smdrome de Angelman (Tipo 2)
15 23.758.390 28.557.186 4,80 1
Smdrome de ATR-16
16 60.001 834.372 0,77 1
AZFa
Y 14.352.761 15.154.862 0,80
AZFb
Y 20.118.045 26.065.197 5,95
AZFb+AZFc
Y 19.964.826 27.793.830 7,83
AZFc
Y 24.977.425 28.033.929 3,06
Smdrome de Ojos de Gato (Tipo 1)
22 1 16.971.860 16,97
Sin de Charcot-Marie- Tooth de tipo 1A (CMT1A)
17 13.968.607 15.434.038 1,47 1
Smdrome de Cri du Chat (delecion de 5p)
5 10.001 11.723.854 11,71 1
Enfermedad de Alzheimer de inicio precoz con angiopatfa amiloide cerebral
21 27.037.956 27.548.479 0,51
Poliposis adenomatoso familiar
5 112.101.596 112.221.377 0,12
Tendencia familiar a paralisis por presion (HNPP; Hereditary Liability to Pressure Palsies)
17 13.968.607 15.434.038 1,47 1
Discondrostosis de Leri-Weill (LDW)- delecion de SHOX
X 751.878 867.875 0,12
Smdrome
Cromosomas Inicio Fin Intervalo (Mb) Grado
Discondrostosis de Leri-Weill (LDW)- delecion de SHOX
X 460.558 753.877 0,29
Smdrome de Miller-Dieker (MDS)
17 1 2.545.429 2,55 1
Smdrome de microdelecion de NF1
17 29.162.822 30.218.667 1,06 1
Enfermedad de Pelizaeus- Merzbacher
X 102.642.051 103.131.767 0,49
Sin de Potocki-Lupski (smdrome de duplicacion de 17p11.2)
17 16.706.021 20.482.061 3,78
Smdrome de Potocki-Shaffer
11 43.985.277 46.064.560 2,08 1
Smdrome de Prader-Willi (Tipo 1)
15 22.876.632 28.557.186 5,68 1
Smdrome de Prader-Willi (Tipo 2)
15 23.758.390 28.557.186 4,80 1
RCAD (renal cysts and diabetes, quistes renales y diabetes)
17 34.907.366 36.076.803 1,17
Smdrome de Rubinstein-Taybi
16 3.781.464 3.861.246 0,08 1
Smdrome de Smith-Magenis
17 16.706.021 20.482.061 3,78 1
Smdrome de Sotos
5 175.130.402 177.456.545 2,33 1
Malformacion de manos/pies divididos 1 (SHFM1)
7 95.533.860 96.779.486 1,25
Deficiencia de esteroide sulfatasa (STS)
X 6.441.957 8.167.697 1,73
Smdrome de delecion de WAGR 11 p13
11 31.803.509 32.510.988 0,71
Smdrome de Williams-Beuren (WBS)
7 72.332.743 74.616.901 2,28 1
Smdrome de Wolf-Hirschhorn
4 10.001 2.073.670 2,06 1
Duplicacion de Xq28 (MECP2)
X 152.749.900 153.390.999 0,64
Las condiciones de Grado 1 tienen frecuentemente una o mas de las siguientes caractensticas; anomaKa patogenica; fuerte acuerdo entre los genetistas; muy penetrante; puede tener todavfa un fenotipo variable, pero algunas caractensticas comunes; todos los casos en la bibliograffa medida tienen un fenotipo clmico; no hay casos de 5 individuos sanos con la anomalfa; no se informo en las bases de datos DVG ni se encuentra en la poblacion sana; los datos funcionales que confirman un solo gen o un efecto de dosificacion de multiples genes; genes confirmados o genes fuertes candidatos; las implicaciones de manejo clmico estan definidas; riesgo de cancer conocido con
implicacion para la vigilancia; multiples fuentes de informacion (OMIM, GeneReviews, Orphanet, Unique, Wikipedia); y/o disponible para uso diagnostico (asesoramiento reproductivo).
Las condiciones de Gado 2 suelen tener una o mas de las siguientes caractensticas; anomalfa probablemente patogena, muy penetrante, fenotipo variable sin caractensticas consistentes distintas de DD; pocos casos/informes en 5 la bibliograffa medica; todos los casos informados tienen un fenotipo clmico; sin datos funcionales ni genes patogenos confirmados; multiples fuentes de informacion (OMIM, Genereviews, Orphanet, Unique, Wikipedia); y/o pueden utilizarse para fines de diagnostico y de asesoramiento reproductivo.
Las condiciones de Grado 3 suelen tener una o mas de las siguientes caractensticas; locus de susceptibilidad; individuos sanos o genitores no afectados de un proband descrito; presente en las poblaciones de control; no 10 penetrante; fenotipo leve y no espedfico; caractensticas menos consistentes; sin datos funcionales ni genes patogenos confirmados; fuentes de datos mas limitadas; la posibilidad de un segundo diagnostico sigue siendo una posibilidad para los casos que se desvfan de la mayona o si se presenta un nuevo hallazgo clmico; y/o precaucion cuando se usa para propositos de diagnostico y consejo guardado para asesoramiento reproductivo.
Preeclampsia
15 La presencia o ausencia de preeclampsia se puede determinar mediante un metodo o aparato descritos en la presente. La preeclampsia es una condicion en la cual la hipertension surge durante el embarazo (es decir, se trata de una hipertension inducida por el embarazo) y esta asociada con cantidades significativas de protema en la orina. En algunos casos, la preeclampsia tambien se asocia con niveles elevados de acido nucleico extracelular y/o alteraciones en los patrones de metilacion. Por ejemplo, se ha observado una correlacion positiva entre los niveles extracelulares 20 de RASSF1A hipermetilados derivados del feto y la gravedad de la preeclampsia. En determinados ejemplos, se observa una metilacion aumentada del ADN para el gen H19 en placentas preeclampticas en comparacion con los controles normales.
La preeclampsia es una de las principales causas de la mortalidad y morbilidad materna y fetal/neonatal en todo el mundo. Los acidos nucleicos libres de celulas en circulacion en el plasma y en el suero son novedosos biomarcadores 25 con aplicaciones clmicas prometedoras en diferentes campos medicos, incluyendo el diagnostico prenatal. Los cambios cuantitativos del ADN fetal libe de celulas (cff)ADN en el plasma materno como indicador de una preeclampsia inminente han sido objeto de informes en diferentes estudios, por ejemplo, utilizando la PCR cuantitativa en tiempo real para los loci SRY o DYS 14 masculino-espedficos. En los casos de preeclampsia de inicio temprano, se pueden observar niveles elevados en el primer trimestre. El aumento de los niveles de cffADN antes de la aparicion de 30 los smtomas puede deberse a la hipoxia/reoxigenacion dentro del espacio interviloso lo que conduce a estres oxidativo del tejido y a un aumento de la apoptosis y necrosis placentaria. Ademas de la evidencia de un aumento de la eliminacion de cffADN en la circulacion materna, tambien hay pruebas de la reduccion de la eliminacion de cffADN por los rinones en la preeclampsia. Dado que en la actualidad la cantidad de ADN fetal se determina mediante la cuantificacion de secuencias espedficas del cromosoma Y, los enfoques alternativos como la medicion del ADN total 35 libre de celulas o el uso de marcadores epigeneticos fetales independientes del sexo, tal como la metilacion del ADN, ofrecen una alternativa. El ARN libre de celulas, de origen placentario, es otro biomarcador alternativo que puede utilizarse para la deteccion y el diagnostico de la preeclampsia en la practica clmica. El ARN fetal se asocia con partmulas subcelulares placentarias que lo protegen de la degradacion. Los niveles de ARN fetal a veces son diez veces mas elevados en las mujeres embarazadas con preeclampsia en comparacion con los controles, y por lo tanto 40 es un biomarcador alternativo que se puede utilizar para la deteccion y el diagnostico de la preeclampsia en la practica clmica.
Agentes patogenos
La presencia o ausencia de una condicion patogenica puede determinarse mediante un metodo o aparato descritos en la presente. Una condicion patogenica puede ser causada por la infeccion de un huesped por un agente patogeno que 45 incluye, sin limitacion, una bacteria, virus u hongo. Dado que los agentes patogenos tipicamente poseen acido nucleico (por ejemplo, ADN genomico, ARN genomico, ARNm) que puede distinguirse del acido nucleico del huesped, los metodos y aparato proporcionados en la presente pueden usarse para determinar la presencia o ausencia de un agente patogeno. A menudo, los agentes patogenos poseen un acido nucleico con caractensticas unicas para un agente patogeno particular tales como, por ejemplo, el estado epigenetico y/o una o mas variaciones de secuencia, 50 duplicaciones y/o deleciones. Por lo tanto, los metodos proporcionados en la presente pueden usarse para identificar un agente patogeno particular o una variante de agente patogeno (por ejemplo, una cepa de agente patogeno).
Canceres
La presencia o ausencia de un trastorno de proliferacion celular (por ejemplo, un cancer) se puede determinar usando un metodo o aparato descritos en la presente. Por ejemplo, los niveles de acido nucleico libre de celulas en el suero 55 pueden elevarse en pacientes con varios tipos de cancer en comparacion con pacientes sanos. Los pacientes con enfermedades metastasicas, por ejemplo, a veces pueden tener niveles de ADN en el suero aproximadamente dos veces mas elevados que en los pacientes no metastaticos. Los pacientes con enfermedades metastasicas tambien pueden ser identificados mediante marcadores espedficos para cancer y/o determinados polimorfismos de un solo
nucleotido o repeticiones en tandem cortas, por ejemplo. Los ejemplos limitantes de tipos de cancer que pueden correlacionarse positivamente con niveles elevados de ADN circulante incluyen: cancer de mama, cancer colorrectal, cancer gastrointestinal, cancer hepatocelular, cancer de pulmon, melanoma, linfoma no Hodgkin, leucemia, mieloma multiple, cancer de vejiga, hepatoma, cancer de cuello uterino, cancer de esofago, cancer de pancreas y cancer de 5 prostata. Diversos canceres pueden poseer, y pueden a veces liberar en el torrente sangumeo, acidos nucleicos con caractensticas que pueden distinguirse de acidos nucleicos de celulas sanas no cancerosas, tales como, por ejemplo, variaciones de estado epigenetico y/o secuencia, duplicaciones y/o deleciones. Tales caractensticas pueden ser, por ejemplo, espedficas para un tipo particular de cancer. Por lo tanto, se contempla ademas que un metodo proporcionado en la presente puede usarse para identificar un tipo particular de cancer.
10 Ejemplos
Los ejemplos indicados a continuacion ilustran determinadas realizaciones y no delimitan la tecnologfa.
Ejemplo 1: Prediccion del sexo del feto mediante la evaluacion de regiones cromosomicas Y espedficas
En este ejemplo, los patrones de secuenciacion se analizaron en contra de las regiones funcionales del cromosoma Y. En base a la correlacion identificada entre los patrones de resultados de la secuenciacion de las regiones funcionales 15 del cromosoma Y, se desarrollo un metodo para la prediccion del sexo del feto.
Metodo
Se recolectaron datos de secuenciacion y se los utilizo para ilustrar un metodo para la prediccion del sexo. La informacion demografica de la muestra y la preparacion de la biblioteca de secuenciacion para este conjunto de datos se detallaron en: Eric M, Deciu C, Zwiefelhofer T, et al., Noninvasice detection of fetal trisomy 21 by sequencing of DNA 20 in Maternal Blood: a study in a clinical setting, Am J Obstet Gynecol 2011; 204: 205.e1-11. Se utilizo el instrumento cBOT de Illumina para generar clusteres. La secuenciacion se realizo utilizando el Genome Analyzer Ilx (lllumina, Inc., San Diego, CA) y se repitio usando la plataforma HISEQ de Illumina. La suite de software acompanante RTA1.6 / SCS2.6 de Illumina se utilizo para el analisis de imagenes y la llamada basica. Los rotulos de lectura corta se alinearon con el genoma humano de referencia (UCSC hg19) usando CASAVA 1.6. Los recuentos de secuencia en bruto se 25 tomaron directamente de la salida de archivo de resumen del programa CASAVA. Las lecturas de secuencias con un maximo de una alineacion de desajuste contra el genoma de referencia se contaron para cada bin 50 kb del cromosoma. Se excluyeron del calculo los bins en la region X-transpuesta con recuentos constantemente superiores a 3 veces la desviacion absoluta mediana de la region a traves del conjunto de datos. Se calcularon los recuentos medios para los bins de 50 kb en la region X-degenerada y las regiones X-transpuestas en el cromosoma Y. La razon 30 entre los recuentos medios, es decir, X-degenerado/X-transpuesto, se calculo para cada muestra y se uso como un mdice para llamar el sexo del feto. La muestra fue llamada como embarazo fetal masculino si la proporcion entre X-degenerado/X transpuesta era > 0,75; o de alguna otra manera un embarazo con un feto femenino. Las coordenadas de cada region funcional para el cromosoma Y y el cromosoma X se describen en la presente y en, por ejemplo, Skaletsky et al. (2003) Nature 423: 825 - 37; Ross et al. (2005) Nature 434: 325 - 37. La exactitud del 35 diagnostico se calculo para las muestras en base al procedimiento de control de calidad especificado en Ehrich et al., Am J Obstet Gynecol 2011; 204: 205.e1-11.
Correlacion de patrones de resultados de secuenciado con las regiones funcionales del cromosoma Y
Se resumieron recuentos de lecturas de secuencias para bins de 50 kb y se los grafico a lo largo de la longitud completa del cromosoma Y para muestras de mujeres embarazadas que llevaban fetos femeninos o masculinos 40 (Figura 1A). Para las muestras de mujeres embarazadas portadoras de un feto masculino, las regiones pseudoautosomicas en la region telomerica en el brazo p, las regiones heterocromaticas en el centromero y en el brazo q, una pequena region en el centro de la region X degenerada y una gran region hacia el final del brazo q, teman, todas ellas, recuentos cercanos a cero. Ya que estas regiones estan compuestas tipicamente por secuencias altamente repetitivas, las lecturas breves no alineadas de forma no unica se descartaron de los recuentos por filtrado. 45 Ademas, esencialmente ninguna lectura de secuencias se mapeo a las regiones heterocromaticas (~ 80,8% para el centromero heterocromatina y ~ 99,5% para el brazo q heterocromatina); una gran parte de estas regiones son huelgos de ensamble y ambiguedades intra-contig. Algunas lecturas de secuencias se mapearon a determinadas regiones ampliconicas, pero hubo grandes huelgos en estas regiones. El patron de recuentos de lecturas de secuencias para dichas regiones arriba descritas se comparo con el nivel de similitud intracromosomica (por ejemplo, 50 Fig. 5c en Skaletsky et al. (2003) Nature, 423: 825-837). Se encontro que el agotamiento de los recuentos de lecturas de secuencias en las regiones anteriores se correlacionaba altamente con los niveles de similitud intracromosomica de estas regiones. Por ejemplo, las subregiones que teman recuentos cercanos a cero son regiones que tienen una elevada similitud intracromosomica (es decir, cercana al 100%).
Las regiones X-transpuesta y X-degenerada teman niveles mas constantes de recuentos de lecturas de secuencias de 55 recuento a traves de todas las regiones, con la excepcion de picos esporadicos. Para las muestras de mujeres embarazadas que llevaban fetos masculinos, el nivel de los recuentos en las regiones transpuestas X fue menor que el de las regiones X-degeneradas. Las regiones X-transpuestas generalmente tienen un mayor nivel de similitud intercromosomico con la region homologa ligada a X (en el cromosoma X) en comparacion con el nivel de similitud
5
10
15
20
25
30
35
40
45
50
55
60
intercromosomico de las regiones X-degenerado. Las lecturas de secuencias que no se mapearon de manera unica en ambos cromosomas X e Y se eliminaron en los recuentos de resumen, lo que redujo as^ los niveles generales de los recuentos de secuencia en las regiones X-transpuestas. La figura 1A muestra un grafico de los recuentos medios (lmea negra solida) y el intervalo de 25 a 75 percentil (lmea negra punteada) para muestras de mujeres embarazadas que llevaban fetos masculinos (n = 211), que siguieron la tendencia descrita anteriormente.
Los recuentos de lecturas de secuencias para los bins de 50 kb tambien se graficaron para muestras de mujeres embarazadas que llevaban fetos femeninos (n = 214). Dado que el cromosoma Y faltaba en estas muestras, se observaron recuentos esencialmente cero en la mayona de las regiones del cromosoma Y, con la excepcion de los recuentos vestigiales en las regiones X-transpuestas. Es probable que estos recuentos vestigiales existan debido a una contribucion de las lecturas de secuencias de la region X transpuesta en el cromosoma X, que son sumamente homologas a la region transpuesta X en el cromosoma Y. Esta observacion fue respaldada examinando los recuentos de lecturas de secuencias sobre el cromosoma X. Para ambas muestras con fetos femenino o masculino, la region X-transpuesta en el cromosoma X tema un claro agotamiento en los recuentos en comparacion con las otras regiones (Figura 2).
El patron de recuentos de lecturas de secuencias descrito anteriormente tambien se comparo con el perfil de GC y los niveles de repeticion de mascara; sin embargo, las correlaciones entre los patrones de recuentos de secuencias y estas dos caractensticas genomicas no fueron fuertes (Figura 1B y Figura 1C].
Prediccion del sexo del feto mediante comparacion de los resultados de secuenciado de regiones X-degeneradas con regiones X- transpuestas
El analisis precedente mostro que la secuencia de los patrones de recuentos de lecturas de secuencias se correlacionaba con las regiones cromosoma Y funcionales. El analisis tambien mostro que los patrones de recuentos de lecturas de secuencias fueron diferentes para las muestras de mujeres embarazadas que llevan fetos femeninos versus muestras de mujeres embarazadas que llevan fetos masculinos. Estas correlaciones y diferencias se utilizaron en un ensayo para la prediccion del sexo del feto. Las regiones pseudoautosomicas y heterocromaticas teman recuentos cercanos a cero por lo que proporcionaron informacion limitada. Las regiones de amplicones tuvieron algunos recuentos, pero variaron de bin a bin, en funcion del nivel de similitud intracromosomica. Las regiones X-degeneradas y X-transpuestas tuvieron niveles de recuentos mas constantes en todas las regiones y, por lo tanto, se los eligio como regiones para analizar la prediccion de sexo.
Se calculo un coeficiente de varianza (CV) para los recuentos de lecturas de secuencias en regiones X-degeneradas y X-transpuestas para muestras de mujeres embarazadas cada una de las cuales era que lleva un feto masculino o femenino, para lo cual se utilizo la formula CV = desviacion estandar/valor medio. La varianza de los recuentos de lecturas de secuencias para cada region y para cada tipo de muestra se representa en las Figuras 6 a 9. Tanto las regiones X-transpuestas como las regiones X-degeneradas teman valores de CV mas bajos para muestras de mujeres embarazadas que llevan fetos masculinos vs mujeres embarazadas que llevan fetos femeninos. Ademas, para las muestras de mujeres embarazadas que llevan fetos masculinos, los valores de CV fueron mas bajos en las regiones X-degeneradas vs las regiones X-transpuestas.
Ademas de las diferencias en la varianza de los recuento de las secuencias, los patrones de recuentos de secuencias difenan en las regiones X-degeneradas y X-transpuestas, dependiendo ello de la muestra era de una mujer embarazada con un feto masculino o femenino. Por ejemplo, las muestras de mujeres embarazadas portadoras de feto masculino por lo general teman un recuento mas elevado en las regiones X-degeneradas en comparacion con las regiones X-transpuestas. A la inversa, las muestras de mujeres embarazadas que llevan fetos femeninos por lo general teman mayores recuentos en las regiones X-transpuestas en comparacion con las regiones X-degeneradas. Por lo tanto, las diferencias en los patrones de recuento en estas regiones podnan ser utilizadas como parametros para determinar el sexo del feto. Espedficamente, se uso la relacion entre el valor medio de los recuentos de los bins de 50 kb X-degeneradas y el valor medio de los recuentos de los bins de 50 kb X-transpuestas como un mdice para la prediccion del sexo del feto. Las Figuras 3 y 4 muestran el mdice de relacion de recuentos graficado vs la fraccion fetal estimada con un ensayo cuantificador fetal para lo cual se utilizo un marcador SRY en el cromosoma Y (Nygren et al., (2010) Clin Chem 56 (10): 1627-35).La mayona de las muestras tomadas de mujeres embarazadas que llevaban fetos femeninos teman un mdice de relacion de recuento inferior a 0,5. Tales valores estaban de acuerdo con los datos de la fraccion fetal obtenidos usando un marcador SRY (cerca de 0 para estas muestras). La mayona de las muestras de mujeres embarazadas que llevaban fetos masculinos teman un mdice de relacion de recuento mayor de 1,5, con la excepcion de unas pocas muestras con un mdice de relacion entre 0,5 y 1. Ademas, los datos de fraccion fetal obtenidos usando un marcador SRY indicaron la presencia de cromosoma Y en un intervalo del 0 al 40%. Por lo tanto, la evaluacion del mdice de relacion de recuentos proporciono una clara separacion de las muestras tomadas de mujeres embarazadas que llevan fetos femeninos y masculinos. Se selecciono un punto de corte de 0,75 para la llamada de sexo del feto. Por ejemplo, una muestra con una relacion de mdice de recuentos mayor que o igual al valor de corte (por ejemplo, 0,75) se denominana como un embarazo masculino; de lo contrario la muestra sena llamada como un embarazo femenino. La exactitud de la llamada de sexo con el mdice de relacion de recuentos fue de 99,29% (95% Cl: 97,95% - 99,76%, n = 425, con 211 fetos masculinos y 214 fetos femeninos). Este grupo de muestras paso el control de calidad y tema informacion conocida de sexo del feto. En la figura 5 se presenta una matriz de confusion (es decir, una tabla con dos filas y dos columnas que informa sobre el numero de negativos verdaderos, falsos positivos,
falsos negativos y verdaderos positivos) para el resultado del diagnostico. En este caso, un “positivo” resulto en un diagnostico de varon mientras que un “negativo” dio lugar a un diagnostico de nina. La matriz de confusion de la Figura 5 indica 213 negativos verdaderos (es decir, el diagnostico de femeninos en muestras de mujeres que llevan fetos femeninos), 209 verdaderos positivos (es decir, el diagnostico de varones en muestras de mujeres portaras de fetos 5 masculinos), 1 falso positivo (es decir, un diagnostico de varon en muestras tomadas de mujeres que llevan fetos femeninos) y 2 falsos negativos (es decir, diagnostico de nina en muestras tomadas de hembras que llevan fetos masculinos). Estos resultados fueron comparables a los resultados de un ensayo cuantificador fetal, que tema una exactitud del 99,06% (95% Cl: 97,61% - 99,63%). La exactitud de llamada de sexo tambien se calculo para un conjunto de datos mas grande (es decir, antes de la determinacion del control de calidad). La exactitud del conjunto de datos 10 mas grande, que inclrna todas las muestras antes del control de calidad, fue del 99,32% (95% Cl: 98,02% - 99,77%; n ~ 442, con 217 fetos masculinos y 225 fetos femeninos).
Discusion
En este ejemplo, se exploro la variacion de los recuentos de lecturas de secuencias entre diferentes regiones funcionales del cromosoma Y. Se demostro que los recuentos de lecturas de secuencias se correlacionaban con las 15 caractensticas biologicas de la secuencia. Espedficamente, el nivel de similitud de las secuencias intracromosomicas e intracromosomicas influyo en los patrones de los recuentos de las lecturas de secuencias. Basandose en esta observacion, se desarrollo un metodo para predecir el sexo del feto usando la informacion de secuenciacion para regiones espedficas del cromosoma Y. Al comparar los recuentos de las lecturas de secuencias para regiones X-degeneradas con los recuentos de las lecturas de secuencias para regiones X-transpuestas, se pudo detectar el 20 sexo del feto con una elevada exactitud. Por el hecho de comparando las subregiones en el cromosoma Y para cada muestra individualmente, se evito la necesidad de normalizacion entre cromosomas, muestras y lotes experimentales.
Para el conjunto de datos probado en este ejemplo, hubo una separacion clara de los valores de los indices de relacion de recuentos para las muestras tomadas de mujeres embarazadas que llevan fetos masculinos versus fetos femeninos. Se selecciono un valor de corte de 0,75, lo que genero una prediccion del sexo del feto de elevada 25 exactitud comparable a la prediccion del sexo del feto usando una prueba de cuantificador fetal. Cuando se aplico una plataforma de secuenciacion diferente (es decir, Illumina HISEQ) al mismo grupo de muestras, lo que genero una mayor cobertura de secuencias, el valor de corte de 0,75 era todavfa optimo. Debido a la mayor cobertura (aproximadamente 17 millones de lecturas por muestra utilizando HISEQ versus 6 millones de lecturas por muestra utilizando Genome Analyzer), se aclaro aun mas la separacion de los valores del mdice de la relacion entre los 30 recuentos para las muestras tomadas de mujeres embarazadas que llevan fetos masculinos versus fetos femenino (Figura 4).
Ejemplo 2: prediccion del sexo del feto mediante la evaluacion de regiones masculino espedficos
En este ejemplo, las alineaciones de secuencia se analizaron para ciertas regiones masculino espedficas del cromosoma Y. Sobre la base del analisis de alineacion, se desarrollo un metodo para la prediccion del sexo del feto.
35 Materiales y metodos
Se seleccionaron 1242 muestras de embarazo individuales del Estudio de Evaluacion Clfnica de Mujeres y Bebes (CEWI, Women and Infants Clinical Evaluation Study), que incluyeron 621 (50,0%) fetos femeninos y 621 (50,0%) fetos masculinos. El sexo del feto se determino previamente para cada muestra utilizando cariotipado convencional. Se prepararon bibliotecas de muestras utilizando una preparacion de biblioteca de secuenciacion semiautomatica y se 40 secuencio sucesivamente mediante secuenciacion masiva paralela de escopeta como se describe a continuacion.
Preparacion de bibliotecas de secuenciacion semiautomatizada
Se crearon bibliotecas en placas de 96 cavidades usando una version modificada del protocolo del fabricante para la preparacion de la biblioteca de TRUSEQ (lllumina, Inc., San Diego, CA). Se uso ccfADN extrafdo (40 pL) como plantilla para la preparacion de la biblioteca. Todas las bibliotecas fueron creadas usando un proceso semiautomatizado que 45 inclrna una instrumentacion del manipulador de lfquidos (Caliper ZEPHYR, Caliper Life Sciences, Hopkinton, MA) y una etapa de limpieza basada en perlas magneticas (AMPURE XP; Beckman Coulter) despues de la reparacion final, ligadura y procesos bioqmmicos de PCR. Debido a que el ccfADN ccf a menudo existe en el plasma materno dentro de un pequeno intervalo de tamanos de fragmentos, no se realizo ninguna seleccion de tamano sobre el ccfADN extrafdo ni sobre las bibliotecas preparadas. La evaluacion de la distribucion de los tamanos de las bibliotecas y la 50 cuantificacion se realizaron como se describe en la tecnica.
Secuenciacion de escopeta masivamente paralela
Se unificaron doce bibliotecas de secuenciacion isomolar y se las secuencio conjuntamente en el mismo carril (12plex) de una celda de flujo de lllumina v3 usando una plataforma HISEQ 2000 de lllumina, dando como resultado un aumento de 3 veces en el rendimiento de secuenciacion con relacion a otros metodos descritos en la tecnica. La 55 secuenciacion por smtesis (SBS) se realizo durante 36 ciclos seguido de 7 ciclos para leer cada codigo de barras de muestra.
Alineacion de secuencias y analisis cuantitativo
Unas lecturas de las muestras secuenciadas se alinearon con el genoma humano de referencia construido 37 (hg19) utilizando el alineador de lectura corta BOWTIE 2. Los parametros para el alineador se establecieron para evitar cualquier falta de concordancia en la region de semilla (es decir, la region 5 'de alta calidad de la lectura, tal como se 5 define mediante un algoritmo espedfico para el alineador BOWTIE 2). Las bases de ADN en el cromosoma Y se separaron en 1188 secciones genomicas (bins) de 50 kilobases (kb) contiguas que no se solapan. Para cada muestra, se agregaron las coordenadas alineadas de las lecturas para generar un mapa de resolucion de bin de 50kb que no se superpoma, para el cromosoma Y. Se calculo la mapeabilidad promedia de cada bin de 50 kb descargando los puntajes de mapeabilidad 36 mero de hg19 del browser de genoma USCC y promediando el puntaje de mapeabilidad 10 de bases individuales dentro de cada bin (Figura 10). La mapeabilidad de cada bin de 50 kb que utilizan el alineador BOWTIE 2 con la mapeabilidad de bins que utilizan un alineador ELAND. La comparacion se muestra en la Figura 11.
Se generaron senales de recuentos de lecturas de secuencias mapeadas de embarazos masculinos y femeninos a traves del cromosoma Y mediante la determinacion de recuentos medianos por bin para cada sexo. En la figura 12 se representa un grafico que muestra la diferencia entre una senal masculina (mujer embarazada que lleva un feto 15 masculino) y una senal femenina (mujer embarazada que lleva un feto femenino). Las dos senales mostraron una clara separacion entre embarazos masculinos y embarazos femeninos al nivel de la poblacion; sin embargo, en algunos casos, dicha separacion no es tan clara en el nivel de las muestras. Las senales caractensticas tambien indicaron que la mayona de los bins informativos tienen indices de entre 1 y 554, inclusive, con coordenadas de base de cromosomas Y equivalentes de 1-27699999. Por lo tanto, los bins que tienen indices mas alla del umbral arriba 20 mencionado fueron eliminados para un analisis ulterior.
En una etapa siguiente, los bins (con indices entre 1 y 554) se clasificaron independientemente en tres listas de bins. Cada lista se baso en uno de tres criterios diferentes que incluyen: 1) estabilidad a traves de la poblacion masculina (por ejemplo, bins que tienen recuentos de suma a traves de la poblacion masculina mayor que 0 y baja desviacion absoluta media (MAD)); 2) estabilidad a traves de la poblacion femenina (por ejemplo, bins que tienen bajo MAD a 25 traves de la poblacion femenina); y 3) bins mas discriminantes (por ejemplo, bins que tienen elevadas diferencias positivas entre las senales caractensticas masculinas y femeninas). Una interseccion de tres vfas de las listas dio lugar a un conjunto de bins a los que se hace referencia en la presente como Region Separadora de Varones (MSR). El puntaje de Region Separadora de Varones (MSRscore) es una representacion de la cuantificacion de lecturas de secuencias para bins de MSR y esta representado por la siguiente formula:
30
MSRscore(S) =
ZmensnRAW(bm(S))
MQS)
En esta ecuacion anterior, MSRscore para una muestra dada (S) es igual a la suma (!) de recuentos de lecturas de secuencias en bruto (RAW, raw secuence read amounts) para bins (bm) como elementos de (G) la region separadora de varones (MSR) dividida por la mediana (M) para la muestra (S). La mediana para la muestra S se representa por la siguiente formula:
M(S) = medicm(RAW{bi e chrY)\RAW{bi) > l)
35
En esta ecuacion anterior, la mediana (M) para la muestra (S), tambien denominada mediana ajustada, se refiere a la mediana del valor positivo (RAW (bi)> 1) de recuentos d lecturas de secuencias en bruto (RAW) para bins (bi) como elementos de (G) cromosoma Y (chrY) (es decir, bins en el cromosoma Y con valores recuentos de lectura positivos).
Cada una de las tres listas anteriores se refino adicionalmente calculando el MSRscore de cada muestra e 40 iterativamente excluyendo bins (es decir, a razon de un bin por iteracion, comenzando desde la parte inferior de cada lista). Los bins que, una vez excluidos, mejoraron la separacion de sexo (por ejemplo, aumentaron la separacion entre el 95° quintil de muestras femeninas y los 5° quintiles de las muestras masculinas por un margen de £ = 1% del huelgo existente). Por lo tanto, un bin se exclrna utilizando la iteracion anterior si su eliminacion dio lugar a un huelgo de separacion mayor entre varones y mujeres mayor que o igual al valor de £ = 1% del huelgo existente. En algunos 45 casos, el huelgo existente correspondfa a una distancia entre los Kmites trazados en el extremo inferior de los valores de recuento para las muestras clasificadas como fetos masculinos (por ejemplo, 5° quintil) y el extremo mas elevado de los valores de recuento para las muestras clasificadas como fetos femeninos (por ejemplo, 95esimo quintilo). La eliminacion iterativa de los bins genero una mayor distancia entre dichos Kmites. Se utilizo una funcion de cielorraso al final para retener algunos o todos los ultimos 10 bins. Por ejemplo, si los bins remanentes en un conjunto despues de 50 la ronda final de iteracion totalizaron 135 bins, se incluyeron los 5 bins siguientes, generandose un total de 140 bins en el conjunto. Tal filtracion iterativa dio lugar a 500 bins, 150 bins y 50 bins para los conjuntos clasificados 1,2 y 3, respectivamente (es decir, los 500 bins superiores de bins masculino-estables, 150 bins superiores de bins femenino estables, y 50 bins superiores de los bins mas discriminatorios). La superposicion entre los tres conjuntos de bins
despues de una iteracion final resulto en un conjunto de 30 bins. Estos bins llevan la denominacion de “regiones separadoras de varones optimas” y se utilizaron para llamar el sexo de los fetos.
Los puntajes de MSR se determinaron aplicando el metodo anterior (por ejemplo, usando las regiones separadoras de varones optimas) en las muestras de CEWI (Figura 13). Se selecciono un MSRscore de 6,5 como valor de corte entre 5 los fetos masculinos (mayores de 6,5) y los fetos femeninos (menos de 6,5).
Resultados
El metodo de la presente se utilizo para determinar una llamada de sexo del feto para cada una de las 1242 muestras de CEWI y resulto en una exactitud de 0,9936 con un intervalo de confianza del 95% (intervalo 0,9873-0,9972) (vease la Figura 18). El metodo se evaluo adicionalmente para cada una de 2091 muestras tomadas de una cohorte diferente 10 (estudio Wl, Palomaki y otros (2011) Genet Med. 13 (11): 913-20). Las 2091 muestras incluyeron 1084 fetos masculinos y 1007 fetos femeninos. Usando el metodo aqu descrito, 1076 fetos masculinos y 1002 fetos femeninos se llamaron con precision, lo que corresponde a una exactitud de 0,9938 con un intervalo de confianza del 95% (intervalo 0,9894-0,9967). Se realizo un segundo analisis de validacion independiente en una tercera cohorte (estudio CLIA) que inclrna 388 muestras (193 fetos masculinos y 195 fetos femeninos), obteniendose una exactitud de 0,9974 con un 15 intervalo de confianza del 95% (intervalo 0,9857-0,9999). Las tablas de exactitud (verdad) para la prediccion del sexo del feto basada en MSRscore se presentan en la Figura 18 para cada una de las tres cohortes.
Los resultados de la determinacion de sexo basados en MSRscore de la cohorte de Wl se compararon con los datos de cariotipo existentes de un estudio anterior. La Figura 17 muestra que para 18 de las muestras, dos muestras (es decir, la muestra n ° 1 y la muestra n.° 2) se puntuaron correctamente como masculinos utilizando el metodo MSRscore, pero 20 se incluyeron incorrectamente en la base de datos de Wl como femeninos en base al analisis de cariotipo. Cuatro de las muestras procedfan de mujeres embarazadas portadoras de mas de un feto, tres muestras eran de mujeres embarazadas que llevan fetos con una aneuploidfa; y nueve otras muestras cuya determinacion de sexo basado en MSRscore no concordaba con el correspondiente analisis de cariotipo.
Los datos de MSRscore para cada una de las tres cohortes se correlacionaron con los resultados de la cuantificacion 25 de ADN fetal basados en SRY. Las graficas de correlacion para las cohortes CEWI, Wl y CLIA se presentan en las Figuras 14,15 y 16, respectivamente. Las reglas de llamada para la determinacion de sexo se ajustaron de acuerdo con los resultados de la cuantificacion del ADN fetal. Espedficamente, si el MSRscore es mayor que 6,5 entonces la muestra se predice como masculina, de lo contrario, la muestra se predice como femenina. Para las muestras predichas como masculinas: si el promedio de SRY es mayor que 11 entonces la muestra se resuelve como 30 masculina; si el promedio de SRY es menor a 11 entonces la muestra se resuelve como “indeterminada”. Para las muestras predichas como femeninas: si el promedio de SRY es menor que 11 entonces la muestra se resuelve como femenina; si el promedio de SRY es mayor que 11 entonces la muestra se resuelve como “indeterminada”. Las tablas de exactitud (verdad) para la prediccion del sexo del feto basada en MSRscore combinada con los resultados de la cuantificacion del ADN fetal se presentan en la Figura 19 para cada una de las tres cohortes y un conjunto de datos 35 agrupados. El sometimiento de las llamadas de sexo del feto basadas en MSRscore a las metricas de cuantificacion de SRY mejoro la precision hasta 0.9943 y aumento el intervalo de confianza de la exactitud (0.9884, 0.9977) y resulto en una tasa de no llamada del 0,40% para la cohorte de CEWI. La exactitud para el conjunto de datos agrupados fue 0,9949 (95% Cl: 0,992 - 0,9969) y la tasa de no llamada fue del 0,46% (95% Cl: 0,28% - 0,73%). Por lo tanto, la exactitud del metodo de la presente para determinar el sexo del feto era aproximadamente igual o superior a la 40 exactitud tfpica de un analisis de cariotipo (por ejemplo, 0,994).
Ejemplo 3: Ejemplos de ftems
Tambien se describen en la presente los siguientes items.
A1. Un metodo para determinar el sexo del feto que comprende:
(a) obtencion de lecturas de secuencias de nucleotidos de una muestra que comprende hacer circular acido nucleico 45 libre de celulas de una mujer embarazada,
(b) mapeo de las lecturas de secuencias en secciones genomicas en un cromosoma Y,
(c) recuento del numero de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y,
(d) recuento del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en 50 una segunda region del cromosoma Y, en donde la primera region del cromosoma Y y la segunda region del
cromosoma Y son espacialmente distintas entre sf,
(e) comparacion del numero de recuentos obtenidos en (c) y (d) o sus derivados, realizando asf una comparacion, y
(f) determinacion del sexo del feto en base a la comparacion.
A1.1 Un metodo para determinar el sexo del feto, que comprende:
5
10
15
20
25
30
35
40
45
(a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto;
(b) determinacion del numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y;
(c) determinacion del numero de recuentos de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf;
(d) comparacion del numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y
(e) determinacion del sexo del feto de acuerdo con la comparacion.
A2. Un metodo para determinar el sexo del feto que comprende:
(a) mapeo de las lecturas de secuencias de nucleotidos que fueron obtenidas de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada en secciones genomicas en un cromosoma Y,
(b) recuento del numero de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y,
(c) recuento del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf,
(d) comparacion del numero de recuentos obtenidos en (b) y (c) o sus derivados, realizando asf una comparacion, y
(e) determinacion del sexo del feto en base a la comparacion.
A3. Un metodo para determinar el sexo del feto que comprende:
(a) obtencion de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada,
(b) aislamiento de la muestra de acido nucleico de la muestra,
(c) obtencion de lecturas de secuencias de nucleotidos de la muestra de acido nucleico,
(d) mapeo de las lecturas de secuencias en secciones genomicas en un cromosoma Y,
(e) recuento del numero de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y,
(f) recuento del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf,
(g) comparacion del numero de recuentos obtenidos en (e) y (f) o sus derivados, realizando asf una comparacion, y
(h) determinacion del sexo del feto en base a la comparacion.
A4. El metodo de cualquiera de los items A1 a A3, en donde la primera region del cromosoma Y y la segunda region del cromosoma Y son regiones eucromaticas.
A5. El metodo de cualquiera de los items A1 a A4, en donde la primera region del cromosoma Y comprende una o mas secuencias de nucleotidos seleccionadas de:
(a) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 2,6 Mb desde el extremo 5' y que termina en aproximadamente 2,9 Mb desde el extremo 5';
(b) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 6,6 Mb desde el extremo 5' y que termina en aproximadamente 7,5 Mb desde el extremo 5';
(c) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 14,1 Mb desde el extremo 5' y que termina en aproximadamente 16,1 Mb desde el extremo 5';
5
10
15
20
25
30
35
40
45
50
(d) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 16,2 Mb desde el extremo 5' y que termina en aproximadamente 18 Mb desde el extremo 5';
(e) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 18 Mb desde el extremo 5' y que termina en aproximadamente 18,3 Mb desde el extremo 5';
(f) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 18,5 Mb desde el extremo 5' y que termina en aproximadamente 19,6 Mb desde el extremo 5';
(g) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 21 Mb desde el extremo 5' y que termina en aproximadamente 22,2 Mb desde el extremo 5'; y
(h) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 22,5 Mb desde el extremo 5' y que termina en aproximadamente 23,5 Mb desde el extremo 5'.
A6. El metodo de cualquiera de los items A1 a A5, en donde la segunda region del cromosoma Y comprende una o mas secuencias de nucleotidos seleccionadas de:
(a) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 2,9 Mb desde el extremo 5' y que termina en aproximadamente 6,1 Mb desde el extremo 5'; y
(b) una o mas secuencias de nucleotidos ubicadas en un segmento del cromosoma Y que comprende una secuencia de nucleotidos que comienza en aproximadamente 6,4 Mb desde el extremo 5' y que termina en aproximadamente 6,6 Mb desde el extremo 5'.
A7. El metodo de cualquiera de los items A1 a A6, en donde la primera region del cromosoma Y comprende una o mas secuencias de nucleotidos con una identidad de secuencias de nucleotidos de entre aproximadamente el 60% a aproximadamente el 96% con regiones homologas en el cromosoma X.
A8. El metodo de cualquiera de los items A1 a A7, en donde la segunda region del cromosoma Y comprende una o mas secuencias de nucleotidos con al menos aproximadamente el 99% de identidad con regiones homologas en el cromosoma X.
A9. El metodo de cualquiera de los items A1 a A8, en donde la primera region del cromosoma Y comprende una o mas secuencias de nucleotidos que incluyen y/o se ubican dentro de aproximadamente 1 Mb de secuencia de nucleotidos que rodea loci genomicos seleccionados de: SRY, RPS4Y1, ZFY, AMELY, TBL1Y, PRKY, USP9Y, DBY, UTY, TMSB4Y, NLGN4Y, CYorf15A, CYorf15B, SMCY, EIF1AY y RPS4Y2.
A10. El metodo de cualquiera de los items A1 a A9, en donde la segunda region del cromosoma Y comprende uno o mas loci genomicos seleccionados de entre:
(a) TGIF2LY y/o secuencias de nucleotidos ubicadas dentro de aproximadamente 0,6 Mb 5' y/o aproximadamente 3,2 Mb 3' del locus TGIF2LY, y
(b) PCDH11Y y/o secuencias de nucleotidos ubicadas dentro de aproximadamente 2 Mb 5' y/o aproximadamente 1Mb 3' del locus PCDH11Y.
A11. El metodo de cualquiera de los items A1 a A10, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos.
A12. El metodo de cualquiera de los items A1 a A11, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones.
A13. El metodo de cualquiera de los items A1 a A12, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos.
A14. El metodo de cualquiera de los items A1 a A13, en donde la muestra es sangre.
5
10
15
20
25
30
35
40
45
A15. El metodo del item A14, en donde la muestra es suero.
A16. El metodo del item A14, en donde la muestra es plasma.
A17. El metodo de cualquiera de los items A1 a A16, en donde las lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas son exclusivamente lecturas de secuencias mapeadas.
A18. El metodo de cualquiera de los items A1 a A17, en donde las lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas son exclusivamente lecturas de secuencias mapeadas.
A19. El metodo de cualquiera de los items A1 a A18, en donde el sexo del feto se determina como masculino cuando la relacion de recuentos de lecturas de secuencias o su derivado, en la primera region respecto de los recuentos de lecturas de secuencias o su derivado en la segunda region es de 0,75 o mas.
A20. El metodo de cualquiera de los items A1 a A19, en donde el sexo del feto se determina como femenino cuando la relacion de recuentos de lecturas de secuencias o su derivado, en la primera region respecto de los recuentos de lecturas de secuencias o su derivado en la segunda region es menor que 0,75.
A21. El metodo de cualquiera de los items A1 a A20, que tambien comprende la determinacion de la fraccion fetal.
A22. El metodo de cualquiera de los items A1 a A21, en donde determinacion del sexo del feto no incluye la comparacion de los recuentos de lecturas de secuencias de nucleotidos en la primera region o la segunda region con los recuentos de lecturas de secuencias en otro cromosoma.
A23. El metodo de cualquiera de los items A1 a A22, que no incluye la normalizacion entre muestras.
A24. El metodo de cualquiera de los items A1 a A23, que no incluye la normalizacion entre lotes experimentales.
A25. El metodo de cualquiera de los items A1 a A24, en donde las lecturas de secuencias de nucleotidos representan una cobertura de plegado de genoma de aproximadamente 1.
A26. El metodo de cualquiera de los items A1 a A24, en donde las lecturas de secuencias de nucleotidos representan una cobertura de plegado de genoma inferior a 1.
A27. El metodo de cualquiera de los items A1 a A24, en donde las lecturas de secuencias de nucleotidos representan una cobertura de plegado de genoma superior a 1.
A27.1 El metodo de cualquiera de los items A1 a A27 que comprende la normalizacion de los recuentos.
A27.2 El metodo del item A27.1, en donde la normalizacion comprende:
(a) obtencion de recuentos de lecturas de secuencias mapeadas en porciones de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo;
(b) determinacion de un sesgo de guanina y citosina (GC) para cada una de las porciones del genoma de referencia
para multiples muestras de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de
secuencias mapeadas en cada una de las porciones del genoma de referencia y (ii) contenido de GC para cada una de
las porciones; y
(c) calculo de un nivel de seccion genomica para cada una de las porciones del genoma de referencia de una relacion ajustada entre (i) el sesgo de GC y (ii) los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia, proporcionando asf niveles de seccion genomica calculados, donde el sesgo en los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia se reduce en los niveles de seccion genomica calculados.
A27.3 El metodo de cualquiera de los items A1 a A27.2, que comprende la generacion de una o mas elevaciones. A27.4 El metodo del item A27.3, que comprende el ajuste de las una o mas elevaciones.
A27.5 El metodo del item A27.4, en donde el ajuste de las una o mas elevaciones comprende:
(a) obtencion de recuentos de lecturas de secuencias de acidos nucleicos mapeadas en secciones genomicas de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una mujer embarazada;
(b) normalizacion de los recuentos mapeados en las secciones genomicas del genoma de referencia, proporcionando asf un perfil de recuentos normalizados para las secciones genomicas;
(c) identificacion de una primera elevacion de los recuentos normalizados significativamente diferentes de una segunda elevacion de los recuentos normalizados en el perfil, cuya primera elevacion es para un primer conjunto de
5
10
15
20
25
30
35
40
45
secciones genomicas y cuya segunda elevacion es para un segundo conjunto de secciones genomicas;
(d) determinacion de un rango de elevacion esperado para una variacion de la cantidad de copias homocigotas y heterocigotas de acuerdo con un valor de incertidumbre para un segmento del genoma; y
(e) ajuste de la primera elevacion por un valor predeterminado cuando la primera elevacion esta dentro de uno de los rangos de elevacion esperados, proporcionando asf un ajuste de la primera elevacion.
A28. Un sistema que comprende uno o mas procesadores y memoria, cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y;
(b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf;
(c) comparar el numero de recuentos obtenidos en (a) y (b) o sus derivados, suministrando asf una comparacion; y
(d) determinar el sexo del feto de acuerdo con la comparacion.
A29. Un aparato que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y
cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y;
(b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf;
(c) comparar el numero de recuentos obtenidos en (a) y (b) o sus derivados, suministrando asf una comparacion; y
(d) determinar el sexo del feto de acuerdo con la comparacion.
A30. Un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para:
(a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto;
(b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y;
(c) determinar el numero de recuentos de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde la primera region del cromosoma Y y la segunda region del cromosoma Y son espacialmente distintas entre sf;
(d) comparar el numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y
(e) determinar el sexo del feto de acuerdo con la comparacion.
B1. Un metodo para determinar el sexo del feto que comprende:
(a) obtencion de lecturas de secuencias de nucleotidos de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada,
(b) mapeo de las lecturas de secuencias en secciones genomicas en un cromosoma Y,
5
10
15
20
25
30
35
40
45
(c) remocion de las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X,
(d) recuento del numero de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos,
(e) recuento del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes,
(f) comparacion del numero de recuentos obtenidos en (d) y (e) o sus derivados, realizando asf una comparacion, y
(g) determinacion del sexo del feto en base a la comparacion.
B1.1 Un metodo para determinar el sexo del feto que comprende:
(a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto;
(b) remocion de las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X;
(c) determinacion del numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos;
(d) determinacion del numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes;
(e) comparacion del numero de recuentos obtenidos en (c) y (d) o sus derivados, suministrando asf una comparacion; y
(f) determinacion del sexo del feto de acuerdo con la comparacion en (e).
B1.2 Un metodo para determinar el sexo del feto que comprende:
(a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, en donde no estan incluidos los recuentos de lecturas de secuencias que se mapean tanto en el cromosoma Y como en el cromosoma X;
(b) determinacion del numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos;
(c) determinacion del numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
5
10
15
20
25
30
35
40
45
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes;
(d) comparacion del numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y
(e) determinacion del sexo del feto de acuerdo con la comparacion en (d).
B2. Un metodo para determinar el sexo del feto que comprende:
(a) mapeo de las lecturas de secuencias de nucleotidos que fueron obtenidas de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada en secciones genomicas en un cromosoma Y,
(b) remocion de las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X,
(c) recuento del numero de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos,
(d) recuento del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes,
(e) comparacion del numero de recuentos obtenidos en (c) y (d) o sus derivados, realizando asf una comparacion, y
(f) determinacion del sexo del feto.
B3. Un metodo para determinar el sexo del feto que comprende:
(a) obtencion de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada,
(b) aislamiento de la muestra de acido nucleico de la muestra,
(c) obtencion de lecturas de secuencias de nucleotidos de la muestra de acido nucleico,
(d) mapeo de las lecturas de secuencias en secciones genomicas en un cromosoma Y,
(e) remocion de las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X,
(f) recuento del numero de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos,
(g) recuento del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del
5
10
15
20
25
30
35
40
45
cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes,
(h) comparacion del numero de recuentos obtenidos en (f) y (g) o sus derivados, realizando asf una comparacion, y
(i) determinacion del sexo del feto en base a la comparacion.
B4. El metodo de cualquiera de los items B1 a B3, en donde el numero de lecturas de secuencias o su derivado mapeadas en la primera region del cromosoma Y es entre aproximadamente 1 a aproximadamente 2,5 veces mayor que el numero de lecturas de secuencias o su derivado mapeadas en la segunda region del cromosoma Y en muestras de mujeres embarazadas que llevan fetos varones.
B5. El metodo de cualquiera de los items B1 a B4, en donde el coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre secciones genomicas de longitud fija en la primera region es menor que el coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre secciones genomicas de longitud fija en la segunda region en muestras de mujeres embarazadas que llevan fetos varones.
B6. El metodo de cualquiera de los items B1 a B5, en donde el coeficiente de varianza (CV) para los recuentos de lecturas de secuencias entre secciones genomicas de longitud fija en la primera region es menor en muestras de mujeres embarazadas que llevan fetos varones versus fetos femeninos.
B7. El metodo de cualquiera de los items B1 a B6, en donde el coeficiente de varianza (CV) para recuentos de lecturas de secuencias entre secciones genomicas de longitud fija en la segunda region es menor en muestras de mujeres embarazadas que llevan fetos varones versus fetos femeninos.
B8. El metodo de cualquiera de los items B5 a B7, en donde la seccion genomica de longitud fija es de 50 kb.
B9. El metodo de cualquiera de los items B1 a B8, en donde la muestra es sangre.
B10. El metodo del item B9, en donde la muestra es suero.
B11. El metodo del item B9, en donde la muestra es plasma.
B12. El metodo de cualquiera de los items B1 a B11, en donde el sexo del feto se determina como masculino cuando la relacion de recuentos de lecturas de secuencias o su derivado, en la primera region respecto de los recuentos de lecturas de secuencias o su derivado, en la segunda region es de 0,75 o mas.
B13. El metodo de cualquiera de los items B1 a B13, en donde el sexo del feto se determina como femenino cuando la relacion de recuentos de lecturas de secuencias o su derivado, en la primera region respecto de los recuentos de lecturas de secuencias o su derivado, en la segunda region es menor que 0,75.
B14. El metodo de cualquiera de los items B1 a B13, que tambien comprende la determinacion de la fraccion fetal.
B15. El metodo de cualquiera de los items B1 a B14, en donde determinacion del sexo del feto no incluye la comparacion de los recuentos de lecturas de secuencias de nucleotidos en la primera region o la segunda region con los recuentos de lecturas de secuencias en otro cromosoma.
B16. El metodo de cualquiera de los items B1 a B15, que no incluye la normalizacion entre muestras.
B17. El metodo de cualquiera de los items B1 a B16, que no incluye la normalizacion entre lotes experimentales.
B18. El metodo de cualquiera de los items B1 a B17, en donde las lecturas de secuencias de nucleotidos representan una cobertura de plegado de genoma de aproximadamente 1.
B19. El metodo de cualquiera de los items B1 a B17, en donde las lecturas de secuencias de nucleotidos representan una cobertura de plegado de genoma inferior a 1.
B20. El metodo de cualquiera de los items B1 a B17, en donde las lecturas de secuencias de nucleotidos representan una cobertura de plegado de genoma superior a 1.
B20.1 El metodo de cualquiera de los items B1 a B20 que comprende la normalizacion de los recuentos.
B20.2 El metodo del item B20.1, en donde la normalizacion comprende:
(a) obtencion de recuentos de lecturas de secuencias mapeadas en porciones de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo;
(b) determinacion de un sesgo de guanina y citosina (GC) para cada una de las porciones del genoma de referencia para multiples muestras de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de
5
10
15
20
25
30
35
40
45
secuencias mapeadas en cada una de las porciones del genoma de referencia y (ii) contenido de GC para cada una de las porciones; y
(c) calculo de un nivel de seccion genomica para cada una de las porciones del genoma de referencia de una relacion ajustada entre (i) el sesgo de GC y (ii) los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia, proporcionando asf niveles de seccion genomica calculados, donde el sesgo en los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia se reduce en los niveles de seccion genomica calculados.
B20.3 El metodo de cualquiera de los items B1 a B20.2, que comprende la generacion de una o mas elevaciones. B20.4 El metodo del item B20.3, que comprende el ajuste de las una o mas elevaciones.
B20.5 El metodo del item B20.4, en donde el ajuste de las una o mas elevaciones comprende:
(a) obtencion de recuentos de lecturas de secuencias de acidos nucleicos mapeadas en secciones genomicas de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una mujer embarazada;
(b) normalizacion de los recuentos mapeados en las secciones genomicas del genoma de referencia, proporcionando asf un perfil de recuentos normalizados para las secciones genomicas;
(c) identificacion de una primera elevacion de los recuentos normalizados significativamente diferentes de una segunda elevacion de los recuentos normalizados en el perfil, cuya primera elevacion es para un primer conjunto de secciones genomicas y cuya segunda elevacion es para un segundo conjunto de secciones genomicas;
(d) determinacion de un rango de elevacion esperado para una variacion de la cantidad de copias homocigotas y heterocigotas de acuerdo con un valor de incertidumbre para un segmento del genoma; y
(e) ajuste de la primera elevacion por un valor predeterminado cuando la primera elevacion esta dentro de uno de los rangos de elevacion esperados, proporcionando asf un ajuste de la primera elevacion.
B21. Un sistema que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y
cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) remover las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X;
(b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos;
(c) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes;
(d) comparar el numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y
(e) determinar el sexo del feto de acuerdo con la comparacion en (d).
B22. Un aparato que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de
5
10
15
20
25
30
35
40
45
una muestra de ensayo de una mujer embarazada que lleva un feto; y
cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) remover las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X;
(b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos;
(c) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes;
(d) comparar el numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y
(e) determinar el sexo del feto de acuerdo con la comparacion en (d).
B23. Un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para:
(a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto;
(b) remover las lecturas de secuencias que se mapean tanto en el cromosoma Y como el cromosoma X;
(c) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos;
(d) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes;
(e) comparar el numero de recuentos obtenidos en (c) y (d) o sus derivados, suministrando asf una comparacion; y
(f) determinar el sexo del feto de acuerdo con la comparacion en (e).
B24. Un sistema que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, en donde no estan incluidos los recuentos de lecturas de secuencias que se mapean tanto en el cromosoma Y como en el cromosoma X; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas
5
10
15
20
25
30
35
40
45
50
en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos;
(b) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes;
(c) comparar el numero de recuentos obtenidos en (a) y (b) o sus derivados, suministrando asf una comparacion; y
(d) determinar el sexo del feto de acuerdo con la comparacion en (c).
B25. Un aparato que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, en donde no estan incluidos los recuentos de lecturas de secuencias que se mapean tanto en el cromosoma Y como en el cromosoma X; y cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos;
(b) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes;
(c) comparar el numero de recuentos obtenidos en (a) y (b) o sus derivados, suministrando asf una comparacion; y
(d) determinar el sexo del feto de acuerdo con la comparacion en (c).
B26. Un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para:
(a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, en donde no estan incluidos los recuentos de lecturas de secuencias que se mapean tanto en el cromosoma Y como en el cromosoma X;
(b) determinar el numero de recuentos de lecturas de secuencias mapeadas en un primer conjunto de secciones genomicas en una primera region del cromosoma Y, en donde el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos;
(c) determinar el numero de recuentos del numero de lecturas de secuencias mapeadas en un segundo conjunto de secciones genomicas en una segunda region del cromosoma Y, en donde:
(i) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente mayor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos varones,
5
10
15
20
25
30
35
40
45
(ii) el numero general de lecturas de secuencias mapeadas en la primera region del cromosoma Y es significativa y consistentemente menor que el numero general de lecturas de secuencias mapeadas en la segunda region del cromosoma Y para muestras de mujeres embarazadas que llevan fetos femeninos, y
(iii) la primera region del cromosoma Y y la segunda region del cromosoma Y son diferentes;
(d) comparar el numero de recuentos obtenidos en (b) y (c) o sus derivados, suministrando asf una comparacion; y
(e) determinar el sexo del feto de acuerdo con la comparacion en (d).
C1. Un metodo para determinar el sexo del feto que comprende:
(a) seleccionar un conjunto de secciones genomicas en un cromosoma Y, en donde el conjunto comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones, generando asf un conjunto seleccionado de secciones genomicas;
(b) obtencion de lecturas de secuencias de nucleotidos de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada;
(c) mapeo de las lecturas de secuencias en (b) en secciones genomicas en un cromosoma Y;
(d) recuento del numero de lecturas de secuencias mapeadas en el conjunto seleccionado de secciones genomicas;
(e) comparacion del numero de recuentos de lecturas de secuencias obtenidas en (d) o su derivado, con un valor umbral, realizando asf una comparacion; y
(f) determinacion del sexo del feto en base a la comparacion.
C1.1 Un metodo para determinar el sexo del feto, que comprende:
(a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas en un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, en donde el conjunto seleccionado de secciones genomicas en el cromosoma Y comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones;
(b) determinacion del numero de recuentos de lecturas de secuencias mapeadas en el conjunto de secciones genomicas en el cromosoma Y;
(c) comparacion del numero de recuentos en (b) o su derivado, con un valor umbral, suministrando asf una comparacion; y
(d) determinacion del sexo del feto de acuerdo con la comparacion.
C2. Un metodo para determinar el sexo del feto que comprende:
(a) seleccionar un conjunto de secciones genomicas en un cromosoma Y, en donde el conjunto comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
5
10
15
20
25
30
35
40
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones, generando as^ un conjunto seleccionado de secciones genomicas;
(b) mapeo de las lecturas de secuencias de nucleotidos que fueron obtenidas de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada en secciones genomicas en un cromosoma Y;
(c) recuento del numero de lecturas de secuencias mapeadas en el conjunto seleccionado de secciones genomicas;
(d) comparacion del numero de recuentos de lecturas de secuencias obtenidas en (c) o su derivado, con un valor umbral, realizando asf una comparacion; y
(e) determinacion del sexo del feto en base a la comparacion.
C3. Un metodo para determinar el sexo del feto que comprende:
(a) seleccionar un conjunto de secciones genomicas en un cromosoma Y, en donde el conjunto comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones, generando asf un conjunto seleccionado de secciones genomicas;
(b) obtencion de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada;
(c) aislamiento de la muestra de acido nucleico de la muestra;
(d) obtencion de lecturas de secuencias de nucleotidos de la muestra de acido nucleico;
(e) mapeo de las lecturas de secuencias en secciones genomicas en un cromosoma Y;
(f) recuento del numero de lecturas de secuencias mapeadas en el conjunto seleccionado de secciones genomicas;
(g) comparacion del numero de recuentos de lecturas de secuencias obtenidas en (f) o su derivado, con un valor umbral, realizando asf una comparacion; y
(h) determinacion del sexo del feto en base a la comparacion.
C4. Un metodo para determinar el sexo del feto que comprende:
(a) seleccionar un conjunto de secciones genomicas en un cromosoma Y, en donde el conjunto comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones, generando asf un conjunto seleccionado de secciones genomicas;
(b) aislamiento de la muestra de acido nucleico de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada;
(c) obtencion de lecturas de secuencias de nucleotidos de la muestra de acido nucleico;
(d) mapeo de las lecturas de secuencias en secciones genomicas en un cromosoma Y;
(e) recuento del numero de lecturas de secuencias mapeadas en el conjunto seleccionado de secciones genomicas;
(f) comparacion del numero de recuentos de lecturas de secuencias obtenidas en (e) o su derivado, con un valor umbral, realizando asf una comparacion; y
(g) determinacion del sexo del feto en base a la comparacion.
5
10
15
20
25
30
35
40
45
(a) seleccionar un conjunto de secciones genomicas en un cromosoma Y, en donde el conjunto comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones, generando asf un conjunto seleccionado de secciones genomicas;
(b) aislamiento de la muestra de acido nucleico de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada;
(c) mapeo de las lecturas de secuencias de nucleotidos obtenidas de la muestra de acido nucleico en secciones genomicas en un cromosoma Y;
(d) recuento del numero de lecturas de secuencias mapeadas en el conjunto seleccionado de secciones genomicas;
(e) comparacion del numero de recuentos de lecturas de secuencias obtenidas en (d) o su derivado, con un valor umbral, realizando asf una comparacion; y
(f) determinacion del sexo del feto en base a la comparacion.
C4.2 Un metodo para determinar el sexo del feto que comprende:
(a) seleccionar un conjunto de secciones genomicas en un cromosoma Y, en donde el conjunto comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones, generando asf un conjunto seleccionado de secciones genomicas;
(b) obtencion de lecturas de secuencias de nucleotidos de la muestra de acido nucleico aislado de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada;
(c) mapeo de las lecturas de secuencias en secciones genomicas en un cromosoma Y;
(d) recuento del numero de lecturas de secuencias mapeadas en el conjunto seleccionado de secciones genomicas;
(e) comparacion del numero de recuentos de lecturas de secuencias obtenidas en (d) o su derivado, con un valor umbral, realizando asf una comparacion; y
(f) determinacion del sexo del feto en base a la comparacion.
C4.3 Un metodo para determinar el sexo del feto que comprende:
(a) mapeo de las lecturas de secuencias de nucleotidos que fueron obtenidas de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada en secciones genomicas en un cromosoma Y;
(b) recuento del numero de lecturas de secuencias mapeadas en un conjunto seleccionado de secciones genomicas en el cromosoma Y, en donde el conjunto comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones;
5
10
15
20
25
30
35
40
(c) comparacion del numero de recuentos de lecturas de secuencias obtenidas en (b) o su derivado, con un valor umbral, realizando as^ una comparacion; y
(d) determinacion del sexo del feto en base a la comparacion.
C5. El metodo de cualquiera de los items C1 a C4.3, en donde el conjunto seleccionado de secciones genomicas comprende secuencias de nucleotidos ubicadas dentro de los primeros 28 Mb desde el extremo 5' del cromosoma Y.
C6. El metodo de cualquiera de los items C1 a C5, en donde el numero de lecturas de secuencias mapeadas en cada una de las secciones genomicas seleccionadas es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos.
C7. El metodo de cualquiera de los items C1 a C6, en donde la muestra es sangre.
C8. El metodo del item C7, en donde la muestra es suero.
C9. El metodo del item C7, en donde la muestra es plasma.
C10. El metodo de cualquiera de los items C1 a C9, en donde las lecturas de secuencias mapeadas en el conjunto seleccionado de secciones genomicas son exclusivamente lecturas de secuencias mapeadas.
C11. El metodo de cualquiera de los items C1 a C10, que comprende la determinacion de un puntaje de region separadora de varones (MSRscore) para el numero de lecturas de secuencias de nucleotidos mapeadas en el conjunto seleccionado de secciones genomicas de acuerdo con la Ecuacion A:
imagen2
Ecuacion A
en donde S es una muestra, MSR es region separadora de varones, RAW es recuentos de lecturas de secuencias en bruto, bm es una seccion genomica en la MSR y M es la mediana del recuento de lecturas de secuencias.
C12. El metodo del item C11, en donde la mediana del recuento de lecturas de secuencias (M) es una mediana de recuentos de lecturas de secuencias en bruto de valor positivo para secciones genomicas de cromosoma Y.
C13. El metodo del item C11 o C12, en donde el sexo del feto se determina como masculino cuando el MSRscore es de 6,5 o mas.
C14. El metodo del item C11 o C12, en donde el sexo del feto se determina como femenino cuando el MSRscore es menor que 6,5.
C15. El metodo de cualquiera de los items C1 a C14, en donde el sexo del feto se determina con una precision de al menos aproximadamente el 99%.
C16. El metodo de cualquiera de los items C1 a C14, en donde el sexo del feto se determina con una precision de al menos aproximadamente el 99,4%.
C17. El metodo de cualquiera de los items C1 a C14, en donde el sexo del feto se determina con una precision de al menos aproximadamente el 99,5%.
C18. El metodo de cualquiera de los items C1 a C14, en donde el sexo del feto se determina con una precision de al menos aproximadamente el 99,7%.
C19. El metodo de cualquiera de los items C1 a C14, en donde el sexo del feto se determina con aproximadamente el 100% de precision.
C20. El metodo de cualquiera de los items C1 a C19, que tambien comprende la determinacion de la fraccion fetal.
C21. El metodo de cualquiera de los items C1 a C20, en donde las secciones genomicas tienen cada una de ellas una longitud predeterminada de nucleotidos contiguos en el cromosoma Y.
C22. El metodo del item C21, en donde las secciones genomicas tienen cada una un largo de aproximadamente 50 kb. C22.1 El metodo de cualquiera de los items C1 a C22. que comprende la normalizacion de los recuentos.
C22.2 El metodo del item C22.1, en donde la normalizacion comprende:
5
10
15
20
25
30
35
40
45
(a) obtencion de recuentos de lecturas de secuencias mapeadas en porciones de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo;
(b) determinacion de un sesgo de guanina y citosina (GC) para cada una de las porciones del genoma de referencia
para multiples muestras de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de
secuencias mapeadas en cada una de las porciones del genoma de referencia y (ii) contenido de GC para cada una de
las porciones; y
(c) calculo de un nivel de seccion genomica para cada una de las porciones del genoma de referencia de una relacion ajustada entre (i) el sesgo de GC y (ii) los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia, proporcionando asf niveles de seccion genomica calculados, donde el sesgo en los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia se reduce en los niveles de seccion genomica calculados.
C22.3 El metodo de cualquiera de los items C1 a C22.2, que comprende la generacion de una o mas elevaciones. C22.4 El metodo del item C22.3, que comprende el ajuste de las una o mas elevaciones.
C22.5 El metodo del item C22.4, en donde el ajuste de las una o mas elevaciones comprende:
(a) obtencion de recuentos de lecturas de secuencias de acidos nucleicos mapeadas en secciones genomicas de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una mujer embarazada;
(b) normalizacion de los recuentos mapeados en las secciones genomicas del genoma de referencia, proporcionando asf un perfil de recuentos normalizados para las secciones genomicas;
(c) identificacion de una primera elevacion de los recuentos normalizados significativamente diferentes de una segunda elevacion de los recuentos normalizados en el perfil, cuya primera elevacion es para un primer conjunto de secciones genomicas y cuya segunda elevacion es para un segundo conjunto de secciones genomicas;
(d) determinacion de un rango de elevacion esperado para una variacion de la cantidad de copias homocigotas y heterocigotas de acuerdo con un valor de incertidumbre para un segmento del genoma; y
(e) ajuste de la primera elevacion por un valor predeterminado cuando la primera elevacion esta dentro de uno de los rangos de elevacion esperados, proporcionando asf un ajuste de la primera elevacion.
C23. Un sistema que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, en donde el conjunto seleccionado de secciones genomicas en el cromosoma Y comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones, generando asf un conjunto seleccionado de secciones genomicas; y
cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) determinar el numero de recuentos de lecturas de secuencias mapeadas en el conjunto de secciones genomicas en el cromosoma Y;
(b) comparar el numero de recuentos en (a) o su derivado, con un valor umbral, suministrando asf una comparacion; y
(c) determinar el sexo del feto de acuerdo con la comparacion.
C24. Un aparato que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, en donde el conjunto
5
10
15
20
25
30
35
40
45
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones; y
cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) determinar el numero de recuentos de lecturas de secuencias mapeadas en el conjunto de secciones genomicas en el cromosoma Y;
(b) comparar el numero de recuentos en (a) o su derivado, con un valor umbral, suministrando asf una comparacion; y
(c) determinar el sexo del feto de acuerdo con la comparacion.
C25. Un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para:
(a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas en un conjunto seleccionado de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto, en donde el conjunto seleccionado de secciones genomicas en el cromosoma Y comprende:
i) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
ii) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
iii) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones;
(b) determinar el numero de recuentos de lecturas de secuencias mapeadas en el conjunto de secciones genomicas en el cromosoma Y;
(c) comparar el numero de recuentos en (b) o su derivado, con un valor umbral, suministrando asf una comparacion; y
(d) determinar el sexo del feto de acuerdo con la comparacion.
D1. Un metodo para determinar el sexo del feto que comprende:
(a) obtencion de lecturas de secuencias de nucleotidos de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada;
(b) mapeo de las lecturas de secuencias en (a) a un subconjunto de secciones genomicas en un cromosoma Y;
(c) recuento del numero de lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y, generando asf recuentos en el subconjunto de secciones genomicas;
(d) suma de los recuentos en el subconjunto de secciones genomicas y comparacion de los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y
(e) determinacion del sexo del feto en base a la comparacion.
D1.1 Un metodo para determinar el sexo del feto, que comprende:
(a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto;
(b) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una
5
10
15
20
25
30
35
40
45
comparacion; y
(c) determinacion del sexo del feto de acuerdo con la comparacion.
D2. El metodo del item D1 o D1.1, en donde el subconjunto de secciones genomicas en el cromosoma Y no incluye secciones genomicas seleccionadas en el cromosoma Y, cuyas secciones genomicas seleccionadas en el cromosoma Y, cuando se remueven del subconjunto, dan como resultado un incremento en una brecha de separacion entre fetos varones y fetos femeninos superior o igual al valor £ = 1%.
D3. El metodo del item D1, D1.1 o D2, en donde el recuento de la mediana para secciones genomicas en el cromosoma Y es igual a la mediana de recuentos de lecturas de secuencias en bruto de valor positivo en el cromosoma Y.
D4. El metodo de cualquiera de los items D1 a D3, en donde el subconjunto de secciones genomicas es aproximadamente de 50 secciones genomicas o menos.
D5. El metodo del item D4, en donde el subconjunto de secciones genomicas es de aproximadamente 30 secciones genomicas.
D6. El metodo de cualquiera de los items D1 a D5, en donde la comparacion se correlaciona con resultados de cuantificacion fetal.
D7. El metodo del item D6, en donde los resultados de cuantificacion fetal son resultados de cuantificacion a base de SRY.
D8. El metodo de cualquiera de los items D1 a D7, en donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
D9. El metodo de cualquiera de los items D1 a D8, en donde el sexo del feto se determina con una precision de aproximadamente el 0,994 o mas en un intervalo de confianza del 95%.
D10. El metodo de cualquiera de los items D1 a D9, en donde el sexo del feto se determina con una tasa de no llamada de aproximadamente el 0,46% o menos.
D11. El metodo del item D10, en donde la tasa de no llamada es de aproximadamente el 0,40% o menos.
D12. El metodo de cualquiera de los items D1 a D11, en donde el subconjunto de secciones genomicas comprende:
a) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
b) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
c) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones.
D13. El metodo de cualquiera de los items D1 a D12, en donde las secciones genomicas tienen cada una de ellas una longitud predeterminada de nucleotidos contiguos en el cromosoma Y.
D14. El metodo del item D13, en donde las secciones genomicas tienen cada una un largo de aproximadamente 50 kb.
D15. El metodo de cualquiera de los items D1 a D14, en donde el subconjunto de secciones genomicas comprende
secuencias de nucleotidos ubicadas dentro de los primeros 28 Mb desde el extremo 5' del cromosoma Y.
D16. El metodo de cualquiera de los items D1 a D15, en donde el numero de lecturas de secuencias mapeadas a cada una de las secciones genomicas en el subconjunto es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos.
D17. El metodo de cualquiera de los items D1 a D16, en donde las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas son exclusivamente lecturas de secuencias mapeadas.
D18. El metodo de cualquiera de los items D1 a D17, en donde la muestra es sangre.
D19. El metodo del item D18, en donde la muestra es suero.
D20. El metodo del item D18, en donde la muestra es plasma.
D20.1 El metodo de cualquiera de los items D1 a D20 que comprende la normalizacion de los recuentos.
5
10
15
20
25
30
35
40
45
(a) obtencion de recuentos de lecturas de secuencias mapeadas en porciones de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo;
(b) determinacion de un sesgo de guanina y citosina (GC) para cada una de las porciones del genoma de referencia
para multiples muestras de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de
secuencias mapeadas en cada una de las porciones del genoma de referencia y (ii) contenido de GC para cada una de
las porciones; y
(c) calculo de un nivel de seccion genomica para cada una de las porciones del genoma de referencia de una relacion ajustada entre (i) el sesgo de GC y (ii) los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia, proporcionando asf niveles de seccion genomica calculados, donde el sesgo en los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia se reduce en los niveles de seccion genomica calculados.
D20.3 El metodo de cualquiera de los items D1 a D20.2, que comprende la generacion de una o mas elevaciones. D20.4 El metodo del item D20.3, que comprende el ajuste de las una o mas elevaciones.
D20.5 El metodo del item D20.4, en donde el ajuste de las una o mas elevaciones comprende:
(a) obtencion de recuentos de lecturas de secuencias de acidos nucleicos mapeadas en secciones genomicas de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una mujer embarazada;
(b) normalizacion de los recuentos mapeados en las secciones genomicas del genoma de referencia, proporcionando asf un perfil de recuentos normalizados para las secciones genomicas;
(c) identificacion de una primera elevacion de los recuentos normalizados significativamente diferentes de una segunda elevacion de los recuentos normalizados en el perfil, cuya primera elevacion es para un primer conjunto de secciones genomicas y cuya segunda elevacion es para un segundo conjunto de secciones genomicas;
(d) determinacion de un rango de elevacion esperado para una variacion de la cantidad de copias homocigotas y heterocigotas de acuerdo con un valor de incertidumbre para un segmento del genoma; y
(e) ajuste de la primera elevacion por un valor predeterminado cuando la primera elevacion esta dentro de uno de los rangos de elevacion esperados, proporcionando asf un ajuste de la primera elevacion.
D21. Un sistema que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y
cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y
(b) determinar el sexo del feto de acuerdo con la comparacion.
D22. Un aparato que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y
cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y
(b) determinar el sexo del feto de acuerdo con la comparacion.
D23. Un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que
5
10
15
20
25
30
35
40
45
comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para:
(a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto;
(b) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y
(c) determinar el sexo del feto de acuerdo con la comparacion.
E1. Un metodo para determinar el sexo del feto que comprende:
(a) obtencion de lecturas de secuencias de nucleotidos de una muestra que comprende hacer circular acido nucleico libre de celulas de una mujer embarazada;
(b) mapeo de las lecturas de secuencias en (a) a un subconjunto de secciones genomicas en un cromosoma Y;
(c) recuento del numero de lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y, generando asf recuentos en el subconjunto de secciones genomicas;
(d) determinacion del sexo del feto en base a los recuentos generados en (c), en donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
E1.1 Un metodo para determinar el sexo del feto, que comprende:
(a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto;
(b) determinacion del numero de recuentos de las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y; y
(c) determinacion del sexo del feto de acuerdo con el numero de recuentos determinado en (b), en donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
E2. El metodo del item E1 o E1.1, que tambien comprende la suma de los recuentos en el subconjunto de secciones genomicas y comparacion de los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion.
E3. El metodo del item E2, en donde el recuento de la mediana para secciones genomicas en el cromosoma Y es igual a la mediana de recuentos de lecturas de secuencias en bruto de valor positivo en el cromosoma Y.
E4. El metodo del item E2 o E3, que comprende determinacion del sexo del feto en base a la comparacion.
E5. El metodo de cualquiera de los items E1 a E4, en donde el subconjunto de secciones genomicas comprende:
a) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
b) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
c) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos varones.
E6. El metodo de cualquiera de los items E1 a E5, en donde las secciones genomicas tienen cada una de ellas una longitud predeterminada de nucleotidos contiguos en el cromosoma Y.
E7. El metodo del item E6, en donde las secciones genomicas tienen cada una un largo de aproximadamente 50 kb.
E8. El metodo de cualquiera de los items E1 a E7, en donde el subconjunto de secciones genomicas comprende secuencias de nucleotidos ubicadas dentro de los primeros 28 Mb desde el extremo 5' del cromosoma Y.
E9. El metodo de cualquiera de los items E1 a E8, en donde el numero de lecturas de secuencias mapeadas a cada una de las secciones genomicas en el subconjunto es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos.
5
10
15
20
25
30
35
40
E11. El metodo del item E10, en donde la muestra es suero.
E12. El metodo del item E10, en donde la muestra es plasma.
E13. El metodo de cualquiera de los items E1 a E12, en donde las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas son exclusivamente lecturas de secuencias mapeadas.
E14. El metodo de cualquiera de los items E1 a E13, en donde el subconjunto de secciones genomicas en el cromosoma Y no incluye secciones genomicas seleccionadas en el cromosoma Y, cuyas secciones genomicas seleccionadas en el cromosoma Y, cuando se remueven del subconjunto, dan como resultado un incremento en una brecha de separacion entre fetos varones y fetos femeninos superior o igual al valor £ = 1%.
E15. El metodo de cualquiera de los items E1 a E14, en donde el subconjunto de secciones genomicas es aproximadamente de 50 secciones genomicas o menos.
E16. El metodo del item E15, en donde el subconjunto de secciones genomicas es de aproximadamente 30 secciones genomicas.
E17. El metodo de cualquiera de los items E2 a E16, en donde la comparacion se correlaciona con resultados de cuantificacion fetal.
E18. El metodo del item E17, en donde los resultados de cuantificacion fetal son resultados de cuantificacion a base de SRY.
E19. El metodo de cualquiera de los items E1 a E18, en donde el sexo del feto se determina con una precision de aproximadamente el 0,994 o mas en un intervalo de confianza del 95%.
E20. El metodo de cualquiera de los items E1 a E19, en donde el sexo del feto se determina con una tasa de no llamada de aproximadamente 0,46% o menos.
E21. El metodo del item E20, en donde la tasa de no llamada is aproximadamente 0,40% o menos.
E22. El metodo de cualquiera de los items E1 a E21, que comprende la determinacion de un puntaje de region separadora de varones (MSRscore) para el numero de lecturas de secuencias de nucleotidos mapeadas al subconjunto de secciones genomicas de acuerdo con la Ecuacion A:
MSRscore(S) =
SmEMSR RAW(bm(Sy)
M(5)
Ecuacion A
en donde S es una muestra, MSR es region separadora de varones, RAW es recuentos de lecturas de secuencias en bruto, bm es una seccion genomica en la MSR y M es la mediana del recuento de lecturas de secuencias.
E23. El metodo del item E22, en donde la mediana del recuento de lecturas de secuencias (M) es una mediana de recuentos de lecturas de secuencias en bruto de valor positivo para secciones genomicas de cromosoma Y.
E24. El metodo del item E22 o E23, en donde el sexo del feto se determina como masculino cuando el MSRscore es de 6,5 o mas.
E25. El metodo del item E22 o E23, en donde el sexo del feto se determina como femenino cuando el MSRscore es menor que 6,5.
E25.1 El metodo de cualquiera de los items E1 a E25, que comprende la normalizacion de los recuentos.
E25.2 El metodo del item E25.1, en donde la normalizacion comprende:
(a) obtencion de recuentos de lecturas de secuencias mapeadas en porciones de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo;
(b) determinacion de un sesgo de guanina y citosina (GC) para cada una de las porciones del genoma de referencia para multiples muestras de una relacion ajustada para cada muestra entre (i) los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia y (ii) contenido de GC para cada una de las porciones; y
5
10
15
20
25
30
35
40
45
(c) calculo de un nivel de seccion genomica para cada una de las porciones del genoma de referencia de una relacion ajustada entre (i) el sesgo de GC y (ii) los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia, proporcionando asf niveles de seccion genomica calculados, donde el sesgo en los recuentos de las lecturas de secuencias mapeadas en cada una de las porciones del genoma de referencia se reduce en los niveles de seccion genomica calculados.
E25.3 El metodo de cualquiera de los items E1 a E25.2, que comprende la generacion de una o mas elevaciones. E25.4 El metodo del item E25.3, que comprende el ajuste de las una o mas elevaciones.
E25.5 El metodo del item E25.4, en donde el ajuste de las una o mas elevaciones comprende:
(a) obtencion de recuentos de lecturas de secuencias de acidos nucleicos mapeadas en secciones genomicas de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una mujer embarazada;
(b) normalizacion de los recuentos mapeados en las secciones genomicas del genoma de referencia, proporcionando asf un perfil de recuentos normalizados para las secciones genomicas;
(c) identificacion de una primera elevacion de los recuentos normalizados significativamente diferentes de una segunda elevacion de los recuentos normalizados en el perfil, cuya primera elevacion es para un primer conjunto de secciones genomicas y cuya segunda elevacion es para un segundo conjunto de secciones genomicas;
(d) determinacion de un rango de elevacion esperado para una variacion de la cantidad de copias homocigotas y heterocigotas de acuerdo con un valor de incertidumbre para un segmento del genoma; y
(e) ajuste de la primera elevacion por un valor predeterminado cuando la primera elevacion esta dentro de uno de los rangos de elevacion esperados, proporcionando asf un ajuste de la primera elevacion.
E26. Un sistema que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y
cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) determinar el numero de recuentos de las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y; y
(b) determinar el sexo del feto de acuerdo con el numero de recuentos determinado en (a), en donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
E27. Un aparato que comprende uno o mas procesadores y memoria,
cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas en secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y
cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
(a) determinar el numero de recuentos de las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y; y
(b) determinar el sexo del feto de acuerdo con el numero de recuentos determinado en (a), en donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
E28. Un producto de programa de computacion tangiblemente realizado en un medio legible por ordenador, que comprende instrucciones que, cuando son ejecutadas por uno o mas procesadores, se configuran para:
(a) acceder a recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto;
(b) determinar el numero de recuentos de las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas en el cromosoma Y; y
(c) determinar el sexo del feto de acuerdo con el numero de recuentos determinado en (b), en donde el sexo del feto se
determina con una precision de aproximadamente el 0,9938 o mas en un intervalo de confianza del 95%.
La tecnologfa descrita ilustrativamente en la presente se puede poner en practica de modo apropiado en ausencia de cualquier elemento no espedficamente descrito en la presente. Asf, por ejemplo, en cada instancia en la presente, cualquiera de las expresiones “que comprende”, “que consiste esencialmente en” y “que consiste en” se puede 5 reemplazar por cualquiera de las otras dos expresiones. El termino “un” o “una” se puede referir a uno o una pluralidad de los elementos que modifica (por ejemplo, “un reactivo” puede significar uno o mas reactivos), a menos que sea contextualmente claro que se describe uno de los elementos o mas que uno de los elementos. El termino “aproximadamente” como se usa en la presente se refiere a un valor dentro del 10% del parametro subyacente (es decir, mas o menos el 10%) y el uso del termino “aproximadamente” al comienzo de una cadena de valores modifica 10 cada uno de los valores (es decir, “aproximadamente 1, 2 y 3” se refiere a aproximadamente 1, aproximadamente 2 y aproximadamente 3). Por ejemplo, un peso de “aproximadamente 100 gramos” puede incluir pesos de entre 90 gramos y 110 gramos. Por otra parte, cuando se describe un listado de valores en la presente (por ejemplo, aproximadamente 50%, 60%, 70%, 80%, 85% o 86%), el listado incluye todos sus valores intermedios y fracciones (por ejemplo, 54%, 85,4%).
15 Ciertas realizaciones de la tecnologfa se establecen en las reivindicaciones siguientes.

Claims (13)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    1. Un metodo para determinar el sexo del feto, que comprende:
    (a) obtencion de recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas ubicadas entre las coordenadas de la base 1 a 28.000.000 en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto;
    (b) suma de los recuentos mapeados al subconjunto de secciones genomicas y comparacion de los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y
    (c) determinacion del sexo del feto de acuerdo con la comparacion.
  2. 2. Un sistema para la determinacion del sexo del feto que comprende uno o mas procesadores y memoria,
    cuya memoria comprende instrucciones ejecutables por los uno o mas procesadores y cuya memoria comprende recuentos de lecturas de secuencias de nucleotidos mapeadas a un subconjunto de secciones genomicas ubicadas entre las coordenadas de la base 1 a 28.000.000 en un cromosoma Y de un genoma de referencia, cuyas lecturas de secuencias son lecturas de circulacion de acido nucleico libre de celulas de una muestra de ensayo de una mujer embarazada que lleva un feto; y
    cuyas instrucciones ejecutables por los uno o mas procesadores se configuran para:
    (a) sumar los recuentos mapeados al subconjunto de secciones genomicas y comparar los recuentos sumados con un recuento de la mediana para secciones genomicas en el cromosoma Y para la muestra, generando asf una comparacion; y
    (b) determinar el sexo del feto de acuerdo con la comparacion.
  3. 3. El metodo segun la reivindicacion 1 o el sistema segun la reivindicacion 2, en donde el subconjunto de secciones genomicas comprende:
    a) secciones genomicas que tienen un numero consistente de recuentos positivos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos varones;
    b) secciones genomicas que tienen un numero consistente de recuentos para lecturas de secuencias mapeadas de muestras de mujeres embarazadas que llevan fetos femeninos; y
    c) secciones genomicas que tienen una diferencia significativa y consistente de recuentos de lecturas de secuencias mapeadas entre muestras de mujeres embarazadas que llevan fetos varones y muestras de mujeres embarazadas que llevan fetos femeninos.
  4. 4. El metodo segun la reivindicacion 1 o 3 o el sistema segun la reivindicacion 2 o 3, en donde el subconjunto de secciones genomicas en el cromosoma Y no incluye secciones genomicas seleccionadas en el cromosoma Y, cuyas secciones genomicas seleccionadas en el cromosoma Y, cuando se remueven del subconjunto, dan como resultado un incremento en una brecha de separacion entre fetos varones y fetos femeninos superior o igual al valor £ = 1 %.
  5. 5. El metodo segun la reivindicacion 1, 3 o 4 o el sistema segun cualquiera de las reivindicaciones 2 a 4, en donde el numero de lecturas de secuencias mapeadas a cada una de las secciones genomicas en el subconjunto es significativa y consistentemente mayor para muestras de mujeres embarazadas que llevan fetos varones versus muestras de mujeres embarazadas que llevan fetos femeninos.
  6. 6. El metodo segun cualquiera de las reivindicaciones 1 y 3 a 5 o el sistema segun cualquiera de las reivindicaciones 2 a 5, en donde las lecturas de secuencias mapeadas en el subconjunto de secciones genomicas son exclusivamente lecturas de secuencias mapeadas.
  7. 7. El metodo segun cualquiera de las reivindicaciones 1 y 3 a 6 o el sistema segun cualquiera de las reivindicaciones 2 a 6, en donde el recuento de la mediana para secciones genomicas en el cromosoma Y es igual a la mediana de recuentos de lecturas de secuencias en bruto de valor positivo en el cromosoma Y.
  8. 8. El metodo segun cualquiera de las reivindicaciones 1 y 3 a 7 o el sistema segun cualquiera de las reivindicaciones 2 a 7, que comprende la determinacion de un puntaje de region separadora de varones (MSRscore) para el numero de lecturas de secuencias de nucleotidos mapeadas a cada una de las secciones genomicas en el subconjunto de acuerdo con la Ecuacion A:
    MSRscore(S) =
    SmGMSft RAMfiJW M(S)
    Ecuacion A
    en donde S es una muestra, MSR es region separadora de varones, RAW es recuentos de lecturas de secuencias en bruto, bm es una seccion genomica en la MSR y M es la mediana del recuento de lecturas de secuencias.
  9. 9. El metodo o el sistema segun la reivindicacion 8, en donde la mediana del recuento de lecturas de secuencias (M) es 5 una mediana de recuentos de lecturas de secuencias en bruto de valor positivo para secciones genomicas de cromosoma Y.
  10. 10. El metodo o el sistema segun la reivindicacion 8 o 9, en donde el sexo del feto se determina como masculino cuando el MSRscore es de 6,5 o mas o el sexo del feto se determina como femenino cuando el MSRscore es menor que 6,5.
    10 11. El metodo segun cualquiera de las reivindicaciones 1 y 3 a 10 o el sistema segun cualquiera de las reivindicaciones
    2 a 10, en donde la comparacion se correlaciona con resultados de cuantificacion fetal.
  11. 12. El metodo o el sistema segun la reivindicacion 11, en donde los resultados de cuantificacion fetal son resultados de cuantificacion a base de SRY.
  12. 13. El metodo segun cualquiera de las reivindicaciones 1 y 3 a 12 o el sistema segun cualquiera de las reivindicaciones
    15 2 a 12, en donde el sexo del feto se determina con una precision de aproximadamente el 0,9938 o mas en un intervalo
    de confianza del 95% y con preferencia, con una precision de aproximadamente el 0,994 o mas en un intervalo de confianza del 95%.
  13. 14. El metodo segun cualquiera de las reivindicaciones 1 y 3 a 13 o el sistema segun cualquiera de las reivindicaciones 2 a 13, en donde la muestra es sangre, suero o plasma.
    20
ES12778005.4T 2011-10-11 2012-10-10 Métodos y procesos para la evaluación no invasiva de variaciones genéticas Active ES2624686T3 (es)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201161545977P 2011-10-11 2011-10-11
US201161545977P 2011-10-11
US201261663477P 2012-06-22 2012-06-22
US201261663361P 2012-06-22 2012-06-22
US201261663477P 2012-06-22
US201261663361P 2012-06-22
PCT/US2012/059592 WO2013055817A1 (en) 2011-10-11 2012-10-10 Methods and processes for non-invasive assessment of genetic variations

Publications (1)

Publication Number Publication Date
ES2624686T3 true ES2624686T3 (es) 2017-07-17

Family

ID=48082404

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12778005.4T Active ES2624686T3 (es) 2011-10-11 2012-10-10 Métodos y procesos para la evaluación no invasiva de variaciones genéticas

Country Status (6)

Country Link
EP (2) EP3243908B1 (es)
CA (1) CA2851537C (es)
DK (1) DK2766496T3 (es)
ES (1) ES2624686T3 (es)
HK (1) HK1246362B (es)
WO (1) WO2013055817A1 (es)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8962247B2 (en) 2008-09-16 2015-02-24 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non invasive prenatal diagnoses
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
US9926593B2 (en) 2009-12-22 2018-03-27 Sequenom, Inc. Processes and kits for identifying aneuploidy
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2764458B1 (en) 2011-10-06 2021-04-07 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
LT2805280T (lt) 2012-01-20 2022-12-27 Sequenom, Inc. Diagnostikos būdai, kurie atsižvelgia į eksperimentines sąlygas
EP2820129A1 (en) 2012-03-02 2015-01-07 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
EP2852680B1 (en) * 2012-05-21 2019-12-25 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014011928A1 (en) 2012-07-13 2014-01-16 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10844424B2 (en) 2013-02-20 2020-11-24 Bionano Genomics, Inc. Reduction of bias in genomic coverage measurements
CA2901460A1 (en) 2013-02-20 2014-08-28 Bionano Genomics, Inc. Characterization of molecules in nanofluidics
WO2015130696A1 (en) * 2014-02-25 2015-09-03 Bionano Genomics, Inc. Reduction of bias in genomic coverage measurements
EP2971100A1 (en) 2013-03-13 2016-01-20 Sequenom, Inc. Primers for dna methylation analysis
EP4187543A1 (en) 2013-04-03 2023-05-31 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3578670B1 (en) 2013-05-24 2025-07-02 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
AU2014284180B2 (en) * 2013-06-21 2020-03-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN110176273B (zh) * 2013-10-04 2024-01-12 塞昆纳姆股份有限公司 遗传变异的非侵入性评估的方法和过程
EP3851539B1 (en) 2013-10-07 2026-01-07 Sequenom, Inc. Systems for non-invasive assessment of chromosome alterations
EP3736344A1 (en) 2014-03-13 2020-11-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20160034640A1 (en) 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
AU2015318017B2 (en) * 2014-09-18 2022-02-03 Illumina, Inc. Methods and systems for analyzing nucleic acid sequencing data
US10892035B2 (en) 2014-10-10 2021-01-12 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US20180327844A1 (en) * 2015-11-16 2018-11-15 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN105925612A (zh) * 2016-05-10 2016-09-07 华南农业大学 一种基于抑制Dby基因表达来进行小鼠性别控制的方法
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
EP3464626B1 (en) 2016-05-27 2022-04-06 Sequenom, Inc. Methods for detecting genetic variations
US11200963B2 (en) 2016-07-27 2021-12-14 Sequenom, Inc. Genetic copy number alteration classifications
CA3030894A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
US11352662B2 (en) 2017-01-20 2022-06-07 Sequenom, Inc. Sequence adapter manufacture and use
WO2018136882A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Methods for non-invasive assessment of copy number alterations
CA3198931A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Methods for non-invasive assessment of genetic alterations
WO2018140521A1 (en) 2017-01-24 2018-08-02 Sequenom, Inc. Methods and processes for assessment of genetic variations
IL269202B2 (en) 2017-03-17 2025-08-01 Sequenom Inc Methods and processes for assessment of genetic mosaicism
JP2022553829A (ja) 2019-10-31 2022-12-26 セクエノム, インコーポレイテッド 多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用
CN110749733B (zh) * 2019-12-06 2021-08-27 四川大学华西医院 Tgif2ly自身抗体检测试剂在制备肺癌筛查试剂盒中的用途
CN112729460B (zh) * 2020-12-28 2024-03-19 宁波铭瑞中兴电子科技有限公司 应用ups电源的液量检测方法、系统、智能终端及存储介质
PL445283A1 (pl) * 2023-06-20 2024-12-23 Instytut Centrum Zdrowia Matki Polki Sposób nieinwazyjnej analizy płodowego DNA oraz frakcji płodu z wykorzystaniem reakcji multipleks digital PCR

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
JP4683922B2 (ja) 2002-09-06 2011-05-18 トラスティーズ オブ ボストン ユニバーシティ 遺伝子発現の定量方法
AU2003298733B2 (en) 2002-11-27 2009-06-18 Agena Bioscience, Inc. Fragmentation-based methods and systems for sequence variation detection and discovery
JP5183063B2 (ja) 2003-07-05 2013-04-17 ザ ジョンズ ホプキンス ユニバーシティ 遺伝的変異の検出および列挙のための方法ならびに組成物
WO2006056480A2 (en) 2004-11-29 2006-06-01 Klinikum Der Universität Regensburg Means and methods for detecting methylated dna
EP2029777B1 (en) 2006-05-31 2017-03-08 Sequenom, Inc. Methods and compositions for the extraction of nucleic acid from a sample
CA2655269A1 (en) 2006-06-16 2007-12-21 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
KR20250002752A (ko) 2007-07-23 2025-01-07 더 차이니즈 유니버시티 오브 홍콩 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의 진단 방법
EP2195452B1 (en) 2007-08-29 2012-03-14 Sequenom, Inc. Methods and compositions for universal size-specific polymerase chain reaction
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
CN101889074A (zh) 2007-10-04 2010-11-17 哈尔西恩莫尔丘勒公司 采用电子显微镜对核酸聚合物测序
AU2009228312B2 (en) 2008-03-26 2015-05-21 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
EP2307540B1 (en) 2008-07-07 2017-04-19 Oxford Nanopore Technologies Limited Enzyme-pore constructs
JP5727375B2 (ja) 2008-09-16 2015-06-03 セクエノム, インコーポレイテッド 非侵襲性の出生前診断のために有用な、母体サンプル由来の胎児核酸のメチル化に基づく濃縮のためのプロセスおよび組成物
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
WO2010065470A2 (en) * 2008-12-01 2010-06-10 Consumer Genetics, Inc. Compositions and methods for detecting background male dna during fetal sex determination
EP3964586A1 (en) 2009-04-03 2022-03-09 Sequenom, Inc. Nucleic acid preparation compositions and methods
WO2011091063A1 (en) * 2010-01-19 2011-07-28 Verinata Health, Inc. Partition defined detection methods
AU2010343278B2 (en) 2010-01-19 2015-05-21 Verinata Health, Inc. Simultaneous determination of aneuploidy and fetal fraction
WO2011143659A2 (en) 2010-05-14 2011-11-17 Fluidigm Corporation Nucleic acid isolation methods
US20120219950A1 (en) * 2011-02-28 2012-08-30 Arnold Oliphant Assay systems for detection of aneuploidy and sex determination

Also Published As

Publication number Publication date
HK1246362B (en) 2019-12-06
HK1200875A1 (en) 2015-08-14
CA2851537C (en) 2020-12-29
EP3243908B1 (en) 2019-01-02
EP3243908A1 (en) 2017-11-15
EP2766496A1 (en) 2014-08-20
DK2766496T3 (en) 2017-05-15
WO2013055817A1 (en) 2013-04-18
EP2766496B1 (en) 2017-03-08
CA2851537A1 (en) 2013-04-18

Similar Documents

Publication Publication Date Title
ES2624686T3 (es) Métodos y procesos para la evaluación no invasiva de variaciones genéticas
US12534758B2 (en) Methods and processes for non-invasive assessment of genetic variations
US20250006298A1 (en) Methods and processes for non-invasive assessment of genetic variations
AU2020277215B2 (en) Methods and processes for non-invasive assessment of genetic variations
AU2020244389B2 (en) Methods and processes for non-invasive assessment of genetic variations
US8688388B2 (en) Methods and processes for non-invasive assessment of genetic variations
JP6227095B2 (ja) 遺伝的変異の非侵襲的評価のための方法およびプロセス
US20200105372A1 (en) Methods and processes for non-invasive assessment of genetic variations
HK1246362A1 (en) Methods and processes for non-invasive assessment of genetic variations
US20150005176A1 (en) Methods and processes for non-invasive assessment of genetic variations
HK40080493B (en) Methods and processes for non-invasive assessment of genetic variations
HK1200875B (en) Methods and processes for non-invasive assessment of genetic variations