ES2626620T3

ES2626620T3 - Sistema y método para corregir errores de extensión de cebadores en datos de secuencias de ácidos nucleicos

Info

Publication number: ES2626620T3
Application number: ES07750981.8T
Authority: ES
Inventors: Yi-Ju Chen; Keith Mcdade; John Simpson
Original assignee: 454 Life Science Corp
Current assignee: 454 Life Science Corp
Priority date: 2006-02-16
Filing date: 2007-02-15
Publication date: 2017-07-25
Anticipated expiration: 2027-02-15
Also published as: WO2007098049A3; JP5808515B2; EP2002367A4; CN101390101B; CN101390101A; JP2009527817A; WO2007098049A9; JP2013211043A; US20130054171A1; EP2578702A1; EP2002367A2; US9587274B2; EP2002367B1; CA2637617A1; JP5746265B2; WO2007098049A2; US8301394B2; CA2637617C; US20100192032A1

Abstract

Un método para corregir un error asociado con la sincronía fásica de datos de secuencia generados a partir de una población de copias sustancialmente idénticas de una molécula de ácido nucleico molde, que comprende: a) detectar una señal generada de la población de copias sustancialmente idénticas de una molécula de ácido nucleico molde en respuesta a la incorporación de uno o más nucleótidos en una reacción de secuenciación por síntesis; b) generar un valor de señal numérico "q" para la intensidad de señal detectada; c) repetir las etapas a)-b) para cada flujo de tipos; d) corregir los valores de señal numéricos "q" para el error de sincronía fásica "CAFIE" empleando un primer parámetro representativo del componente de extensión incompleta "λ" del error de sincronía fásica, y un segundo parámetro representativo del componente de adelantamiento "ε" del error de sincronía fásica, en el que un valor para el primer parámetro, "λ", y un valor para el segundo parámetro, "ε", se calculan realizando una búsqueda del mejor ajuste con una ecuación de matriz: p(n+1) >= [M-1 (p'(n) , ε, λ)] * q en la que M representa la matriz del modelo de cartografiado de CAFIE, de modo que [M-1 (p', ε, λ)] es la matriz inversa; p' >= sgn(p), en la que p' es el código binario de p, n es la iteración del flujo, y p(1) - q se emplea como la semilla; para cada uno del primer parámetro "λ" y el segundo parámetro "ε", y en el que los valores de señal numéricos "q" se vuelven a invertir para producir un valor de señal teórico "p" empleando la ecuación de matriz.

Description

5

10

15

20

25

30

35

40

45

50

55

DESCRIPCION

Sistema y metodo para corregir errores de extension de cebadores en datos de secuencias de acidos nucleicos Campo de la invencion

La presente invencion se refiere al campo de la biologfa molecular. De modo mas espedfico, la invencion se refiere a la correccion de errores en datos de secuencias de acidos nucleicos generados mediante lo que se denomina, en general, tecnicas de secuenciacion por smtesis (“Sequencing-by-Synthesis”, SBS).

Antecedentes de la invencion

La secuenciacion por smtesis (SBS) en general se refiere a metodos para determinar la identidad o la composicion de la secuencia de uno o mas nucleotidos en una muestra de acidos nucleicos, en los que los metodos comprenden la smtesis discontinua de una unica hebra de una molecula polinucleotfdica complementaria con una molecula de acido nucleico molde cuya composicion de secuencia de nucleotidos debe determinarse. Por ejemplo, las tecnicas de SBS generalmente actuan anadiendo un unico tipo de acido nucleico (tambien denominado nucleotido) a una molecula polinucleotfdica naciente que es complementaria con un tipo de acido nucleico de una molecula molde en la correspondiente posicion de la secuencia. La adicion del tipo de acido nucleico a la molecula naciente en general se detecta empleando una diversidad de metodos conocidos en la tecnica que incluyen, pero no se limitan a los que se denominan metodos de pirosecuenciacion o de deteccion fluorescente, tales como los que emplean terminadores reversibles. Generalmente, el proceso es iterativo hasta que se sintetiza una longitud de secuencia deseada o completa (es decir, estan representada todas las posiciones de la secuencia) complementaria con el molde. Algunos ejemplos de tecnicas de SBS se describen el patente de EE. UU. n.° 6.274.320; y las solicitudes de patente en las solicitudes de patente con n.os de serie 10/788.529 (documento US2004/0248161); 09/814.338 (documento US2002/0012930); 10/299.180 (documento US2003/0148344); 10/222.298 (documento US2007/0092875);

10/222.592 (documento US2003/0100102).

En algunas realizaciones de las SBS se disena un cebador oligonucleotfdico para que se asocie a una posicion complementaria predeterminada de la molecula molde de muestra. El complejo de cebador/molde se presenta a un tipo de nucleotido en presencia de una enzima polimerasa de acido nucleico. Si el tipo de nucleotido es complementario con el tipo de acido nucleico que se corresponde con una posicion de secuencia sobre la molecula molde de muestra que esta directamente adyacente al extremo 3' del cebador oligonucleotfdico, entonces la polimerasa extendera el cebador con el tipo de nucleotido. Como alternativa, en algunas realizaciones, el complejo de cebador/molde se presenta a una pluralidad de tipos de nucleotidos de interes (generalmente A, G, C, y T) a la vez, y se incorpora el tipo de nucleotido que es complementario con la correspondiente posicion de secuencia sobre la molecula molde de muestra que esta directamente adyacente al extremo 3' del cebador oligonucleotfdico. En cualquiera de las realizaciones descritas, el tipo de nucleotido puede bloquearse de modo qrnmico (tal como en la posicion 3'-O) para evitar una mayor extension y debe desbloquearse antes de la siguiente ronda de smtesis. Tal como se describio anteriormente, la incorporacion del tipo de nucleotido puede detectarse empleando una diversidad de metodos conocidos en la tecnica, por ejemplo, detectando la liberacion de pirofosfato (PPi) (se describen ejemplos en las patentes de EE. UU. n.os 6.210.891; 6.258.568; y 6.828.100), o a traves de marcadores detectables unidos a los nucleotidos. Algunos ejemplos de marcadores detectables incluyen, pero no se limitan a marcadores de masas y marcadores fluorescentes o quimioluminiscentes. En realizaciones tfpicas, los nucleotidos no incorporados se retiran, por ejemplo, mediante lavado. En las realizaciones en que se emplean marcadores detectables, estos generalmente deberan ser inactivados (por ejemplo, mediante escision qrnmica o fotoblanqueo) antes del siguiente ciclo de smtesis. Entonces la siguiente posicion de secuencia en el complejo de molde/polimerasa puede presentarse a otro tipo de nucleotido o a una pluralidad de tipos de nucleotidos de interes, tal como se describio anteriormente. Unos ciclos repetidos de adicion de nucleotidos, extension de cebadores, adquisicion de senales y lavado dan como resultado la determinacion de la secuencia de nucleotidos de la hebra molde.

En las realizaciones tfpicas de la SBS, un gran numero o una poblacion de moleculas de molde sustancialmente identicas (por ejemplo, 103, 104, 105, 106 o 107 moleculas) se analizan simultaneamente en una reaccion de secuenciacion cualquiera, para lograr una senal que sea lo suficientemente fuerte para obtener una deteccion fiable. Se requiere una “extension homogenea” de moleculas nacientes asociadas con sustancialmente todas las moleculas molde en una poblacion de una reaccion concreta para obtener unas proporciones bajas de senal a ruido. La expresion “extension homogenea”, tal como se emplea en la presente, se refiere, en general, a la relacion o fase de la reaccion de extension en la que cada una de las moleculas molde sustancialmente identicas descritas anteriormente estan realizando de modo homogeneo la misma etapa en la reaccion. Por ejemplo, cada reaccion de extension asociada con la poblacion de moleculas molde puede indicarse que esta en fase o en sincroma fasica con respecto a las demas cuando se estan realizando en la misma etapa de reaccion en la misma posicion de secuencia para cada una de las moleculas molde asociadas.

Sin embargo, los expertos en la tecnica relacionada apreciaran que una pequena fraccion de las moleculas molde en cada poblacion pierde o se aleja de la sincroma fasica con respecto al resto de las moleculas molde en la poblacion (es decir, las reacciones asociadas con la fraccion de moleculas molde se adelantan o se retrasan con respecto a las otras moleculas molde en la reaccion de secuenciacion realizada en la poblacion; algunos ejemplos se describen

5

10

15

20

25

30

35

40

45

50

55

60

en Ronaghi, M. Pyrosequencing sheds light on DNA sequencing, Genome Res., 11, 3-11 (2001) que se incorpora como referencia en la presente en su totalidad para todos los fines). Por ejemplo, cuando la reaccion no puede incorporar de modo adecuado uno o mas tipos de nucleotidos en una o mas moleculas nacientes para la extension de la secuencia en una posicion, esto provoca que cada reaccion posterior se produzca en una posicion de secuencia que este por detras y fuera de fase con respecto a la posicion de secuencia del resto de la poblacion. Este efecto se denomina en la presente “extension incompleta” ("incomplete extension", IE). Como alternativa, la extension inapropiada de una molecula naciente por la incorporacion de uno o mas tipos de nucleotidos en una posicion de secuencia que esta por delante y fuera de fase con respecto a la posicion de secuencia del resto de la poblacion se denomina en la presente “adelantamiento” (“carry forward”, CF). Los efectos combinados de CF y IE se denominan en la presente CAFIE.

Con respecto al problema de la extension incompleta, pueden existir varios mecanismos posibles que contribuyen a la IE que pueden producirse por sf solos o en alguna combinacion. Un ejemplo de un mecanismo posible que contribuye a la IE puede incluir que no se presente un tipo de nucleotido a un subconjunto de complejos de molde/polimerasa. Otro ejemplo de mecanismo posible que contribuye a la IE puede incluir que un subconjunto de moleculas de polimerasa no incorpore un tipo de nucleotido que se presenta de modo adecuado para su incorporacion en una molecula naciente. Otro ejemplo de un mecanismo posible que contribuye a la IE puede incluir la falta de actividad polimerasa en los complejos de molde/polimerasa.

Un ejemplo de otro mecanismo que puede ser responsable, al menos en parte, de errores de IE en los metodos de SBS puede incluir lo que se denomina terminacion reversible cfclica ("cyclic reversible termination", CRT), tal como se indica en Metzger (Genome Res., diciembre 2005, 15(12):1767-1776). En la CRT, los tipos de nucleotidos presentan un grupo 3'-O modificado (denominado habitualmente terminador de cadena, grupo protector o terminador) que evita la posterior extension de la molecula naciente despues de la incorporacion de un unico tipo de nucleotido. Estos grupos protectores se disenan para que puedan ser retirados mediante cualquiera de una diversidad de metodos, que incluyen el tratamiento qrnmico o el tratamiento lummico. Despues de la desproteccion en la posicion 3-O (y la creacion de un grupo 3'-OH), la molecula naciente puede ser extendida con otro tipo de nucleotido. Sin embargo, se producira una asincroma fasica cuando una fraccion de las moleculas nacientes siguen estando protegidas debido a una eficacia de desproteccion imperfecta (desproteccion incompleta). En el ciclo posterior, esta fraccion de moleculas nacientes, puesto que estan protegidas, no seran extendidas y, por tanto, se retrasaran y estaran fuera de fase con la posicion de secuencia del resto de la poblacion. Sin embargo, unas etapas de desproteccion posteriores pueden eliminar con exito al menos algunos de los grupos protectores que previamente se han mantenido de modo inapropiado, lo cual provoca que se reanude la extension y que se creen senales de las moleculas nacientes, con lo que se continua fuera de sincroma fasica con el resto de la poblacion. Los expertos en la tecnica apreciaran que pueden existir otros factores que contribuyan a la IE y que, por tanto, no se limitan a los ejemplos proporcionados anteriormente.

Los sistemas y los metodos de las realizaciones de la invencion descritas en la presente estan dirigidos a la correccion de errores de IE que puedan surgir de cualquiera de estos mecanismos o causas individuales o combinadas. Por ejemplo, la correccion de los errores de IE provocados por el acoplamiento de una desproteccion incompleta y una posterior desproteccion con exito es un objeto de la presente invencion.

Con respecto al problema del CF, pueden existir varios mecanismos posibles que contribuyen al CF que pueden producirse por sf solos o en alguna combinacion. Por ejemplo, un mecanismo posible puede incluir un exceso de tipos de nucleotidos que permanecen de un ciclo previo. Esto puede producirse porque el protocolo de lavado realizado al final de un ciclo eliminara la gran mayona, pero no necesariamente todos, los tipos de nucleotidos del ciclo. En el presente ejemplo, un resultado podna incluir una pequena fraccion de un tipo de nucleotido “A” presente en un ciclo de tipos de nucleotidos “G”, lo cual conducina a la extension de una pequena fraccion de la molecula naciente si un tipo de nucleotido “T” complementario estuviese presente en la correspondiente posicion de secuencia en la molecula molde. Otro ejemplo de un mecanismo posible que provoque un efecto de adelantamiento puede incluir un error de polimerasa, tal como la incorporacion inapropiada de un tipo de nucleotido en la molecula naciente que no sea complementario con el tipo de nucleotido en la molecula molde.

Un ejemplo de otro mecanismo que puede ser responsable, al menos en parte, de errores de CF en los metodos de SBS incluye la terminacion reversible cfclica, tal como se indica en Metzger (Genome Res., diciembre 2005, 15(12):1767-1776). En el presente ejemplo, tal como se describio anteriormente con respecto a la IE, puede emplearse una preparacion de tipos de nucleotidos 3-O-protegidos, en la que una fraccion de las moleculas de nucleotidos careceran de un grupo protector o han perdido su grupo protector. La perdida del grupo protector tambien puede producirse durante el proceso de secuenciacion antes de la etapa de desproteccion prevista. Esta falta de grupo desprotector provocara que algunas moleculas nacientes se extiendan en mas de un tipo de nucleotido cada vez. Esta extension multiple inapropiada de una fraccion de las moleculas nacientes hara que se adelanten en la posicion de secuencia y se encuentren fuera de fase con la posicion de secuencia del resto de la poblacion. Asf, los nucleotidos desprotegidos y/o los nucleotidos prematuramente desprotegidos pueden contribuir, al menos en parte, al CF en los metodos de SBS que implican CRT.

Los sistemas y los metodos de las realizaciones de la invencion descritas en la presente estan dirigidos a la correccion de errores de CF que puedan surgir de cualquiera de estos mecanismos o causas individuales o

5

10

15

20

25

30

35

40

45

50

combinadas. Por ejemplo, la correccion de los errores de CF que surgen debido a la falta de grupos protectores es un objeto de la presente invencion.

Ademas, los sistemas y los metodos de las realizaciones de la invencion descritas en la presente estan dirigidos a la correccion de ambos errores de IE y de CF, en los que ambos tipos de errores pueden producirse en cualquier combinacion para una poblacion en la misma reaccion de secuenciacion. Por ejemplo, IE y CF pueden surgir, cada uno, de una causa o mecanismo o de causas o mecanismos combinados, tal como se describio anteriormente.

Los expertos en la tecnica apreciaran que puede producirse un potencial para ambos errores de IE y CF en cada posicion de secuencia durante una reaccion de extension y, por tanto, pueden tener efectos acumulados evidentes en los datos de secuencia resultantes. Por ejemplo, los efectos pueden ser especialmente visibles hacia el final de una serie de reacciones de secuenciacion, que a veces tambien se denomina “ensayo” o “ensayo de secuenciacion”. Ademas, los efectos de IE y CF pueden imponer un lfmite superior a la longitud de una molecula molde que pueda ser secuenciada de modo fiable (que a veces se denomina “longitud de lectura”) empleando estrategias de SBS, debido a que la calidad de los datos de secuencia disminuye a medida que aumenta la longitud de lectura.

Por ejemplo un metodo de SBS puede generar datos de secuencia que comprendan mas de 25 millones de posiciones de secuencia en un ensayo tfpico con lo que se denomina una puntuacion de calidad “Phred” de 20 o mejor (una puntuacion de calidad Phred de 20 infiere que se preve que los datos de secuencias tengan una precision de 99% o mayor). Aunque el rendimiento global de secuenciacion con una calidad Phred 20 para el metodo de SBS es significativamente mayor que para los datos de secuencia generados por lo que los expertos en la tecnica conocen como metodos de secuenciacion de Sanger, que emplean una tecnica de electroforesis capilar, en la actualidad esto se produce al coste de unas longitudes de lectura sustancialmente mas cortas en el metodo de SBS (Margulies et al., 2005, Nature, 437: 376-80). Asf, el aumento del lfmite superior de las longitudes de lectura por medio de evitar o corregir la degradacion de los datos de secuencia producida por los errores de IE y CF provocana un aumento en el rendimiento global de secuenciacion en los metodos de SBS.

El documento US2004/197845 describe tecnicas de procesamiento de senals que pueden aplicarse cuando se estan replicando multiples copias de un molde de ADN.

Por tanto, resulta deseable proporcionar sistemas y metodos dirigidos a corregir los errores de IE y/o CF en los datos de secuencia producidos mediante los metodos de secuenciacion por smtesis de secuenciacion de acidos nucleicos.

Compendio de la invencion

Segun se define en las reivindicaciones adjuntas, la invencion proporciona un metodo para corregir un error asociado con la sincroma fasica de datos de secuencia generados a partir de una poblacion de copias sustancialmente identicas de una molecula de acido nucleico molde, que comprende:

a) detectar una senal generada de la poblacion de copias sustancialmente identicas de una molecula de acido nucleico molde en respuesta a la incorporacion de uno o mas nucleotidos en una reaccion de secuenciacion por smtesis;

b) generar un valor de senal numerico “q” para la intensidad de senal detectada;

c) repetir las etapas a)-b) para cada flujo de tipos;

d) corregir los valores de senal numericos “q” para el error de sincroma fasica “CAFIE” empleando un primer parametro representativo del componente de extension incompleta “A” del error de sincroma fasica, y un segundo parametro representativo del componente de adelantamiento “e” del error de sincroma fasica,

en el que un valor para el primer parametro, “A”, y un valor para el segundo parametro, “e”, se calculan realizando una busqueda del mejor ajuste con una ecuacion de matriz:

p(n+1) = [M"1 (p'(n),E, A)] * q

en la que M representa la matriz del modelo de cartografiado de CAFIE,

de modo que [M"1 (p', e, A)] es la matriz inversa;

p' = sgn(p), en la que p' es el codigo binario de p,

n es la iteracion del flujo,

y p(1) = q se emplea como la semilla;

para cada uno del primer parametro “A” y el segundo parametro “e”, y

en el que los valores de senal numericos “q” se vuelven a invertir para producir un valor de senal teorico “p”

empleando la ecuacion de matriz.

La invencion tambien proporciona un sistema para corregir un error asociado con la sincroma fasica de datos de secuencia generados a partir de una poblacion de copias sustancialmente identicas de una molecula de acido nucleico molde, que comprende:

5 un ordenador que comprende un codigo de programa almacenado para su ejecucion en el, y dicho codigo de programa realiza un metodo que comprende:

a) generar un valor de senal numerico “q” para la intensidad de senal detectada en respuesta a la incorporacion de uno o mas nucleotidos, en una reaccion de secuenciacion por smtesis, en la poblacion de copias sustancialmente identicas de una molecula de acido nucleico molde;

10 b) repetir la etapa a) para cada flujo de tipos; y

c) corregir el valor de senal numerico “q” para el error de sincroma fasica empleando un primer parametro representativo del componente de extension incompleta “A” del error de sincroma fasica, y un segundo parametro representativo del componente de adelantamiento “e” del error de sincroma fasica,

en el que un valor para el primer parametro, “A”, y un valor para el segundo parametro, “e”, se calculan realizando 15 una busqueda del mejor ajuste con una ecuacion de matriz:

p(n+1) = [M-1 (p'(n), e, A)] * q

en la que M representa la matriz del modelo de cartografiado de CAFIE,

de modo que [M-1 (p', e, A)] es la matriz inversa;

p' = sgn(p), en la que p' es el codigo binario de p,

20 n es la iteracion del flujo,

y p(1) = q se emplea como la semilla;

para cada uno del primer parametro “A” y el segundo parametro “e”, y

en el que los valores de senal numericos “q” se vuelven a invertir para producir un valor de senal teorico “p” empleando la ecuacion de matriz.

25 Las ventajas logradas por las realizaciones de la presente invencion incluyen, pero no se limitan a: (a) se aumenta la calidad de los datos de secuencia, lo cual provoca que se necesite una menor profundidad en la cobertura de secuencia para lograr un nivel de precision deseado de la secuencia consenso; b) se extiende la longitud de lectura de secuencia util, lo cual significa que pueden obtenerse datos de secuencia de mayor calidad a partir de un unico ensayo; (c) debido a que se extiende la longitud de lectura de secuencia util, son necesarios menos ensayos para 30 lograr una profundidad concreta de cobertura de secuencia; (d) debido a que se extiende la longitud de lectura de secuencia util, son necesarias menos secuencias para ensamblar un contigo de secuencia que abarque una region concreta; y (e) las mayores longitudes de lectura resultantes facilitan el ensamblaje de lecturas solapantes, en particular en regiones de secuencia repetitiva.

Breve descripcion de los dibujos

35 Las anteriores y otras caractensticas se apreciaran con mas claridad a partir de la siguiente descripcion detallada cuando se considera junto con los dibujos adjuntos. En los dibujos, las referencias numericas equivalentes indican estructuras, elementos o etapas del metodo equivalentes, y el dfgito mas a la izquierda de una referencia numerica indica el numero de la figura en la que el elemento de la referencia aparece por primera vez (por ejemplo, el elemento 160 aparece por primera vez en la figura 1). Sin embargo, todas estas convenciones pretenden ser 40 generales o ilustrativas, no limitantes.

La figura 1 es una representacion grafica simplificada de una realizacion de un modelo matematico para convertir un flujograma teorico “perfecto” en un flujograma observado “sucio”;

la figura 2 es una representacion grafica simplificada de una realizacion de una inversion del modelo de cartografiado de la figura 1;

45 la figura 3a es una representacion grafica simplificada de una realizacion de modelos para los calculos de matriz directa e inversa que incluyen los modelos de cartografiado de las figuras 1 y 2;

la figura 3b es una representacion grafica simplificada de una realizacion de un calculo de matriz directa que emplea el modelo directo de la figura 3a;

5

10

15

20

25

30

35

40

45

50

55

la figura 4a es una representacion grafica simplificada de una realizacion de un calculo de matriz inversa que emplea el modelo inverso de la figura 3a;

la figura 4b es una representacion grafica simplificada de una realizacion de los resultados obtenidos empleando diferentes niveles de correccion iterativa empleando el modelo inverso de las figuras 3a y 4a;

la figura 5 es una representacion grafica simplificada de una realizacion de los resultados del metodo de correccion de errores de CAFIE de la invencion descrita en la presente;

la figura 6 es una representacion grafica simplificada de una realizacion de la distribucion de los valores de parametros a traves de una muestra de poblaciones de moleculas molde sustancialmente identicas; y

la figura 7 es una representacion grafica simplificada de una realizacion de los efectos de la correccion solo de IE, y los efectos de la correccion de CAFIE.

Descripcion detallada de la invencion

Las realizaciones de la invencion descrita en la presente se basan, al menos en parte, en el descubrimiento de que un flujograma teorico o “perfecto” puede convertirse en un flujograma “sucio” observado en la vida real por medio de un modelo matematico de IE y CF. La expresion “flujograma”, tal como se emplea en la presente, se refiere, en general, a una representacion de los datos de secuenciacion generados a partir de un ensayo de secuenciacion que puede incluir, por ejemplo, una representacion grafica de los datos de secuenciacion. Por ejemplo, un flujograma perfecto o teorico representa los datos generados de un ensayo de secuenciacion que no presenta errores procedentes de los mecanismos de CAFIE descritos anteriormente ni otros tipos de errores de fondos. Siguiendo la misma lmea, un flujograma sucio u observado representa los datos generados de un ensayo de secuenciacion que incluyen los factores de error de CAFIE y de fondo. En el presente ejemplo, todos o algunos de los factores de error pueden aproximarse de modo preciso y aplicarse al modelo de flujograma perfecto para proporcionar una representacion de los datos reales obtenidos a partir de un ensayo real de secuenciacion.

De modo importante, la invencion descrita en la presente tambien se basa, al menos en parte, en el descubrimiento de que una inversion del modelo matematico descrito anteriormente puede emplearse para aproximar un flujograma teorico perfecto a partir de un flujograma observado sucio. Asf, continuando con el ejemplo anterior, puede aplicarse una aproximacion de error a los datos de secuencia reales representados en un flujograma observado, dando como resultado una representacion de un flujograma teorico sustancialmente perfecto de los datos de secuencia reales con todos los factores de error o sustancialmente todos los factores de error eliminados.

Los expertos en la tecnica relacionada apreciaran que la eliminacion precisa de los errores de los datos proporciona una interpretacion mas eficaz y precisa de dichos datos. Asf, por ejemplo, la eliminacion de los errores de los datos generados en un ensayo de secuenciacion da como resultado la produccion de lecturas mas precisas que identifican a cada tipo de acido nucleico en una secuencia generadas a partir de un ensayo de secuenciacion, y una informacion de secuencia con mas calidad.

Algunas realizaciones de la invencion descrita en la presente incluyen sistemas y metodos para analizar los datos generados a partir de ensayos de secuenciacion de SBS en un aparato de secuenciacion. Algunos ejemplos de metodos y aparatos de SBS pueden emplear lo que se denomina una estrategia de secuenciacion basada en pirofosfato que puede comprender, por ejemplo, uno o mas de un dispositivo de deteccion, tal como una camara de dispositivo acoplado a carga (CCD), una camara de microfluidos, un soporte de cartuchos de muestra, o valvulas de bombeo y flujo. Tomando como ejemplo la secuenciacion basada en pirofosfato, las realizaciones de un aparato pueden emplear la quimioluminiscencia como metodo de deteccion, que, en la secuenciacion de pirofosfato, produce un nivel inherentemente bajo de ruido de fondo. En el presente ejemplo, el soporte de cartuchos de muestra para la secuenciacion puede incluir lo que se denomina una “placa de picotitulacion” formada a partir de un placa frontal de fibra optica que esta grabada con acido para producir cientos de miles de pocillos muy pequenos, cada uno previsto para contener una poblacion de moleculas molde sustancialmente identicas. En algunas realizaciones, cada poblacion de moleculas molde sustancialmente identicas puede disponerse sobre un sustrato solido, tal como una esfera, cada uno de los cuales puede colocarse en uno de dichos pocillos. Continuando con el presente ejemplo, un aparato puede incluir un elemento de administracion de reactivo para proporcionar reactivos fluidos a los soportes de la placa de picotitulacion, asf como un dispositivo de deteccion de tipo CCD previsto para recoger los fotones emitidos de cada pocillo en la placa de picotitulacion. Otros ejemplos de aparatos y metodos para realizar la secuenciacion de tipo SBS y la secuenciacion de pirofosfato se describen en las solicitudes de patente con n.os de serie 10/767.779 (documento US2005/0130173); y 11/195.254 (documento US2006/0040297).

Ademas, los sistemas y los metodos de las realizaciones de la invencion descritas en la presente pueden incluir la implementacion en un medio de lectura por ordenador almacenado para su ejecucion en un sistema informatico. Por ejemplo, a continuacion se describen en detalle varias realizaciones para procesar y corregir errores en las senales detectados empleando sistemas y metodos de SBS que pueden ejecutarse en sistemas informaticos.

Un ordenador puede incluir cualquier tipo de plataforma informatica, tal como una estacion de trabajo, un ordenador personal, un servidor o cualquier otro ordenador actual o futuro. Los ordenadores generalmente incluyen

5

10

15

20

25

30

35

40

45

50

55

60

componentes conocidos, tales como un procesador, un sistema operativo, un sistema de memoria, dispositivos de almacenamiento de memoria, controladores de entradas-salidas, dispositivos de entradas-salidas y dispositivos de visualizacion. Los expertos en la tecnica pertinente entenderan que existen muchos componentes de un ordenador y configuraciones posibles y que tambien pueden incluir memoria de cache, una unidad de copia de seguridad de los datos y muchos otros dispositivos.

Los dispositivos de visualizacion pueden incluir dispositivos de visualizacion que proporcionan informacion visual, y esta informacion generalmente puede organizarse de forma logica y/o ffsica como una matriz de pfxeles. Tambien puede incluirse un controlador de interfaz que puede comprender cualquiera de una diversidad de programas de software conocidos o futuros para proporcionar interfaces de salidas y entradas. Por ejemplo, las interfaces pueden incluir lo que se denomina en general "interfaz grafica del usuario" (“Graphical User Interface”, GUI) que proporciona una o mas representaciones graficas a un usuario. Las interfaces generalmente se configuran para que acepten entradas del usuario empleando un medio de seleccion o de entradas conocido por los expertos en la tecnica relacionada.

En las mismas realizaciones, o en realizaciones alternativa, las aplicaciones en un ordenador tambien pueden emplear una interfaz que incluye lo que se denomina "interfaces de lmea de comandos" (“command line interfaces”, CLI). Las CLI generalmente proporcionan una interaccion basada en un texto entre una aplicacion y un usuario. Generalmente, las interfaces de lmea de comandos presentan salidas y reciben entradas como lmeas de texto a traves de dispositivos de visualizacion. Por ejemplo, algunas implementaciones pueden incluir lo que se denomina “shell” (interprete de comandos), tales como Unix Shell, conocido por los expertos en la tecnica relacionada, o Microsoft Windows Powershell que emplea arquitecturas de programacion del tipo orientado a objetos, tales como la infraestructura digital Microsoft.NET.

Los expertos en la tecnica relacionada apreciaran que las interfaces pueden incluir uno o mas GUI, CLI o una de sus combinaciones.

Un procesador puede incluir un procesador disponible en el mercado, tal como un procesador Itanium® o Pentium® fabricado por Intel Corporation, un procesador SPARC® fabricado por Sun Microsystems, un procesador Athalon™ u Opteron™ fabricado por AMD Corporation, o puede ser cualquier otro procesador disponible en la actualidad o que estara disponible en el futuro. Algunas realizaciones de un procesador tambien pueden incluir lo que se denomina procesadores multinucleo y/o configurado para emplear una tecnologfa de procesamiento en paralelo en una configuracion de un solo nucleo o multinucleo. Por ejemplo, una arquitectura multinucleo generalmente comprende dos o mas “nucleos de ejecucion” procesadores. En el presente ejemplo, cada nucleo de ejecucion puede funcionar como un procesador independiente que permita la ejecucion en paralelo de multiples hilos. Ademas, los expertos en la tecnica relacionada apreciaran que un procesador puede configurarse en lo que se denomina, en general, como arquitecturas de 32 o 64 bits, u otras configuraciones de arquitecturas conocidas en la actualidad o que puedan desarrollarse en el futuro.

Un procesador generalmente ejecuta un sistema operativo, que puede ser, por ejemplo, un sistema operativo de tipo Windows® (tal como Windows® XP o Windows Vista®) de Microsoft Corporation; el sistema operativo Mac OS X de Apple Computer Corp. (tales como los sistemas operativos 7.5 Mac OS X v10.4 “Tiger” o 7.6 Mac OS X v10.5 “Leopard”); un sistema operativo Unix® o de tipo Linux, disponibles en muchos suministradores, o lo que se denomina un codigo abierto; cualquier otro sistema operativo actual o futuro; o algunas de sus combinaciones. Un sistema operativo forma una interfaz con los programas fijos y el hardware de una manera conocida, y ayuda al procesador a coordinar y ejecutar las funciones de diversos programas informaticos que pueden estar escritos en una diversidad de lenguajes de programacion. Un sistema operativo, generalmente en cooperacion con un procesador, coordina y ejecuta funciones de los otros componentes de un ordenador. Un sistema operativo tambien proporciona la planificacion, el control de entradas-salidas, la gestion de archivos y datos, la gestion de la memoria y el control de la comunicacion y servicios relacionados, todo segun tecnicas conocidas.

La memoria del sistema puede incluir cualquiera de una diversidad de dispositivos de almacenamiento de memoria conocidos o futuros. Los ejemplos incluyen cualquier dispositivo de memoria de acceso aleatorio (RAM) disponible, un medio magnetico, tal como una cinta o un disco duro integrado, un medio optico, tal como un disco compacto de grabacion y lectura, u otro dispositivo de almacenamiento de memoria. Los dispositivos de almacenamiento de memoria pueden incluir cualquiera de una diversidad de dispositivos conocidos o futuros, que incluyen una unidad de disco compacto, una unidad de cinta, una unidad de disco duro extrafble, una unidad USB o flash, o una unidad de disquete. Estos tipos de dispositivos de almacenamiento de memoria generalmente pueden leer de un medio de almacenamiento de programas (y escribir en este; el medio no se muestra) tal como, respectivamente, un disco compacto, una cinta magnetica, un disco duro extrafble, una unidad USB o flash, o un disquete flexible. Cualquiera de estos medios de almacenamiento de programas, u otros empleados en la actualidad o que puedan desarrollarse en el futuro, puede considerarse un producto de programa informatico. Se apreciara que estos medios de almacenamiento de programas generalmente almacenan datos y/o un programa de software informatico. Los programas de software informaticos, tambien denominados logica de control del ordenador, generalmente se almacenan en la memoria del sistema y/o el dispositivo de almacenamiento de programas empleado junto con un dispositivo de almacenamiento de memoria.

5

10

15

20

25

30

35

40

45

50

55

60

En algunas realizaciones, se indica que un producto de programa informatico comprende un medio disponible para el ordenador que tiene almacenado en su interior la logica de control (programa de software informatico, que incluye el codigo del programa). La logica de control, cuando es ejecutada por un procesador, hace que el procesador realice las funciones descritas en la presente. En otras realizaciones, algunas funciones se implementan principalmente en el hardware empleando, por ejemplo, una maquina de estados de hardware. La implementacion de la maquina de estados de hardware para que realice las funciones descritas en la presente sera evidente para los expertos en la tecnica pertinente.

Los controladores de entradas-salidas pueden incluir cualquiera de una diversidad de dispositivos conocidos para aceptar y procesar informacion procedente de un usuario, tanto un ser humano como una maquina, de modo local o remoto. Estos dispositivos incluyen, por ejemplo, tarjetas de modem, tarjetas inalambricas, tarjetas de interfaz de redes, tarjetas de sonido u otros tipos de controladores para cualquiera de una diversidad de dispositivos de entradas conocidos. Los controladores de salidas incluyen controladores para cualquiera de una diversidad de dispositivos de visualizacion conocidos para presentar la informacion a un usuario, tanto un ser humano como una maquina, de modo local o remoto. En la realizacion descrita en la presente, los elementos funcionales de un ordenador se comunican entre sf a traves de un sistema de canal (bus). Algunas realizaciones de un ordenador pueden comunicarse con algunos elementos funcionales empleando una red u otros tipos de comunicaciones remotas.

Tal como sera evidente para los expertos en la tecnica pertinente, puede cargarse una aplicacion de control de instrumento y/o de procesamiento de datos, si estan implementados en un software, y ejecutarse desde la memoria del sistema y/o un dispositivo de almacenamiento de memoria. Todas las aplicaciones de control de instrumento y/o de procesamiento de datos, o sus porciones, tambien pueden residir en un dispositivo de memoria de solo lectura, o similar, del dispositivo de almacenamiento de memoria, y estos dispositivos no requieren que las aplicaciones de control de instrumento y/o de procesamiento de datos se carguen primero a traves de controladores de entradas- salidas. Los expertos en la tecnica pertinente entenderan que las aplicaciones de control de instrumento y/o de procesamiento de datos, o sus porciones, pueden ser cargadas por un procesador, de una manera conocida, en la memoria del sistema, o en la memoria de cache, o en ambas, si resulta ventajoso para la ejecucion.

Ademas, un ordenador puede incluir uno o mas archivos de biblioteca, archivos de datos experimentales, y un cliente de internet almacenados en la memoria del sistema. Por ejemplo, los datos experimentales pueden incluir datos relacionados con uno o mas experimentos o ensayos, tales como valores de senales detectadas u otros valores asociados con uno o mas procesos o experimentos de SBS. Ademas, un cliente de internet puede incluir una aplicacion configurada para acceder a un servicio remoto en otro ordenador empleando una red y puede comprender, por ejemplo, lo que se denominan en general "navegadores". En el presente ejemplo, algunos de los navegadores que se emplean habitualmente incluyen Netscape® 8.1.2, disponible en Netscape Communications Corp., Microsoft® Internet Explorer 7, disponible en Microsoft Corporation, Mozilla Firefox® 2 de Mozilla Corporation, Safari 1.2 de Computer Corp., u otro tipo de navegador que se conoce en la tecnica en la actualidad o que pueda ser desarrollado en el futuro. Ademas, en la misma realizacion o en otras realizaciones, un cliente de internet puede incluir o puede ser un elemento de aplicaciones de software especializadas configuradas para acceder a informacion remota a traves de una red, tal como una aplicacion de procesamiento de datos para aplicaciones de SBS.

Una red puede incluir uno o mas de los diversos tipos de redes conocidas por los expertos en la tecnica. Por ejemplo, una red puede incluir una red de area local o amplia que emplea lo que se denomina habitualmente un serie de protocolo TCP/IP para comunicarse. Una red puede incluir una red que comprende un sistema mundial de redes de ordenadores interconectados, que se denomina habitualmente internet, o tambien puede incluir diversas arquitecturas de redes internas (intranet). Los expertos en la tecnica relacionada tambien apreciaran que algunos usuarios en los entornos conectados por red pueden preferir emplear lo que se denomina habitualmente como cortafuegos (“firewalls”, a veces denominados tambien filtros de paquetes o dispositivos de proteccion de fronteras) para controlar el trafico de informacion hacia y desde los sistemas de hardware y/o software. Por ejemplo, los cortafuegos pueden comprender elementos de hardware o software, o alguna de sus combinaciones, y generalmente se disenan para reforzar las poltticas de seguridad introducidas por los usuarios, tales como, por ejemplo, los administradores de una red, etc.

Los ejemplos de realizaciones de SBS generalmente emplean ciclos iterativos o en serie de adicion de tipos de nucleotidos a las moleculas molde descritas anteriormente. Estos ciclos tambien se denominan en la presente “flujos”. Por ejemplo, en cada flujo se presenta uno de los cuatro tipos de nucleotidos, A, G, C o T (por ejemplo, para los metodos de secuenciacion de pirofosfato (PPi)), o los cuatro tipos de nucleotidos se presentan juntos al complejo de molde-polimerasa (por ejemplo, para los metodos de secuenciacion que emplean un marcador diferente asociado con cada tipo de nucleotido). Continuando con el presente ejemplo, un flujo puede incluir un tipo de nucleotido complementario con el tipo de nucleotido en la molecula molde en la posicion de secuencia inmediatamente adyacente al extremo 3' de la molecula naciente que se esta sintetizando, en el que el tipo de nucleotido se incorporara en la molecula naciente. En el presente ejemplo, la incorporacion del tipo de nucleotido puede detectarse en forma de una senal de luz (por ejemplo, una senal de luz que puede incluir, por ejemplo, luz generada por un proceso luminiscente o fluorescente) u otra senal, tal como un marcador de masas. Despues de cada iteracion de un flujo de un tipo de nucleotido, se implementa un metodo de lavado para eliminar el exceso no incorporado del tipo de nucleotido y los reactivos. Tras completar la etapa de lavado, la siguiente iteracion de un flujo

5

10

15

20

25

30

35

40

45

50

presenta otro tipo de nucleotido, o mezcla de tipos de nucleotidos, al complejo de molde-polimerasa. En algunas realizaciones, un "ciclo de flujo" puede referirse a la adicion de cuatro tipos de nucleotidos de modo iterativo o en paralelo, en el que, por ejemplo, un ciclo de flujo incluye la adicion de los cuatro tipos de nucleotidos.

Cuando se representa graficamente en un flujograma, un valor para la luz detectada u otra senal para cada flujo puede ser de aproximadamente cero (lo cual indica que un tipo de nucleotido en el flujo no era complementary con el tipo de nucleotido en el molde en la siguiente posicion de secuencia y, por tanto, no se incorpora) o aproximadamente uno (lo cual indica que se ha detectado la incorporacion de exactamente un tipo de nucleotido complementario con el tipo de nucleotido en el molde), o un numero entero aproximadamente mayor que uno (lo cual indica que se ha detectado la incorporacion de dos o mas copias del tipo de nucleotido presentado en el flujo que es complementario con dos tipos de nucleotidos consecutivos en el molde).

Tal como se describio anteriormente, un resultado teorico de una serie iterativa de flujos produce una senal de cada flujo que debe ser exactamente cero, o un numero entero, y se representa en un flujograma perfecto. A traves de diversas variaciones experimentales que incluyen mecanismos de Cf e IE, las senales detectadas reales tienden a fluctuar alrededor de estos valores teoricos esperados en cantidades variables. Las senales detectadas que incluyen esta variacion se representan como un flujograma sucio u observado.

Los terminos flujograma y pirograma se emplean en la presente de modo intercambiable. Las expresiones “flujograma perfecto”, “flujograma limpio” y “flujograma teorico” se emplean en la presente de modo intercambiable. Las expresiones “flujograma sucio”, “flujograma de la vida real” y “flujograma observado” se emplean en la presente de modo intercambiable.

Ademas, tal como se emplea en la presente, una “lectura” se refiere, en general, a los datos de la secuencia completa obtenidos de una unica molecula molde de acido nucleico o una poblacion de una pluralidad de copias sustancialmente identicas de la molecula molde. Una “molecula naciente” en general se refiere a una hebra de ADN que esta siendo extendida por la ADN polimerasa dependiente de molde mediante la incorporacion de tipos de nucleotidos que son complementarios con el correspondiente tipo de nucleotido en la molecula molde. La expresion “eficacia de consumacion”, tal como se emplea en la presente, se refiere, en general, al porcentaje de moleculas nacientes que han sido extendidas de modo apropiado durante un flujo concreto. La expresion “tasa de extension incompleta”, tal como se emplea en la presente, se refiere, en general, a la proporcion del numero de moleculas nacientes que no han sido extendidas de modo apropiado frente al numero de todas las moleculas nacientes.

Algunas realizaciones de la invencion descrita en la presente corrigen las senales detectadas de cada flujo para tomar en cuenta los mecanismos de CF e IE descritos anteriormente. Por ejemplo, un aspecto de la invencion incluye calcular el grado de perdida de sincroma fasica para cualquier secuencia conocida, suponiendo unos niveles dados de CF e IE.

La tabla 1, ilustrada a continuacion, proporciona un ejemplo de valores umbral desarrollados con un modelo matematico para IE y CF que proporciona una precision del 99% o mejor (por ejemplo, la lectura es al menos 99% representativa de la secuencia real de la molecula molde) para diferentes longitudes de lectura. Los valores predichos presentados en la tabla 1 ilustran el impacto de los efectos de CF e IE sobre la precision de la secuenciacion para diversas longitudes de lectura, y el grado de error de IE y CF que puede tolerarse para lograr una precision de lectura de aproximadamente 99%. La tabla 1 demuestra que, para una lectura no corregida, resulta tolerable una tasa de CF no mayor que 1% (suponiendo que IE es igual a cero para esa poblacion) para que una longitud de lectura de aproximadamente 100 posiciones de secuencia sea 99% precisa (es decir, una eficacia de consumacion del 99% o mayor). Ademas, una tasa de IE no mayor que 0,25% resulta tolerable (suponiendo que la tasa de CF es igual a cero) para que una longitud de lectura de aproximadamente 100 posiciones de secuencia sea 99% precisa.

Tabla 1: Tasas predichas de error que con las que se obtiene una precision del 99% a diferentes longitudes de lectura

Longitud de lectura (bases): 100 200 400

Extension incompleta: 0,0 0,0025 0,0 0,0013 0,0 0,0007

Adelantamiento: 0,01 0,0 0,005 0,0 0,003 0,00

Precision predicha: aprox. 99% aprox. 99% aprox. 99% aprox. 99% aprox. 99% aprox. 99%

Se entendera que los valores presentados en la tabla 1 solo son ilustrativos y no deben considerarse limitantes. Los expertos en la tecnica apreciaran que varios factores pueden contribuir a la variabilidad de los valores, tales como las secuencias genomicas o de referencia, y otros parametros empleados para formular predicciones. Por ejemplo, las realizaciones tfpicas de los metodos de SBS en general logran unas tasas de CF que vanan del 1-2%, mientras que las tasas de IE vanan del 0,1-0,4% (es decir, la eficacia de consumacion vana del 99,6-99,9%). Tal como se

describio anteriormente, la correccion de CF e IE resulta deseable porque la perdida de la sincroma fasica tiene un efecto acumulado a traves de la longitud de lectura y degrada la calidad de una lectura a medida que aumenta la longitud de lectura.

En una realizacion de la invencion descrita en la presente, se supone que los valores que representa ambos CF y IE 5 son sustancialmente constantes a lo largo de la lectura completa de una poblacion de moleculas molde sustancialmente identicas, tal como, por ejemplo, una poblacion de moleculas molde que reside dentro de un unico pocillo de un sistema de placa de picotitulacion. Esto permite la correccion numerica de cada posicion de secuencia a lo largo de la lectura completa empleando dos parametros sencillos, la “extension incompleta” y el “adelantamiento”, sin ningun conocimiento a priori de la secuencia real de la molecula molde. El sistema y los 10 metodos de las realizaciones de la invencion descritas en la presente son utiles para determinar y corregir las cantidades de CF y IE que se producen en una poblacion de moleculas molde. Por ejemplo, las realizaciones de la invencion corrigen el valor de la senal detectada de cada flujo para cada poblacion de moleculas molde sustancialmente identicas que residen en cada pocillo para tomar en cuenta los CF e IE.

Las realizaciones de la presente invencion desarrollan un modelo de la falta de sincroma fasica como un 15 cartografiado no lineal:

Ejemplo comparativo: ecuacion (1)

M(p, £, A) = q

en la que:

- M es el cartografiado de CAFIE

20 - p es el flujograma “perfecto” hipotetico [como una matriz]

- A es el parametro de eficacia de consumacion

- £ es el parametro de adelantamiento

- q es el flujograma “sucio” [como una matriz]

Un flujograma “perfecto” teorico puede convertirse en un flujograma “sucio” observado en la vida real mediante el 25 uso de la formula de modelo de cartografiado indicada en la ecuacion (1) para calcular los IE y CF. Puede generarse un modelo para dicha formula de cartografiado, por ejemplo, analizando los errores que son introducidos en un flujograma observado (q) mediante la secuenciacion de una molecula molde polinucleotidica que tiene una secuencia conocida. Un ejemplo ilustrativo del modelo matematico indicado en la ecuacion (1) se ilustra en la figura 1.

30 Por ejemplo, en el lado izquierdo de la figura 1, el flujograma teorico 101 es una representacion ilustrativa de un flujograma teorico (perfecto o ideal) (p), que muestra un valor de potencia de senal idealizado indicado entre corchetes junto a su tipo de nucleotido asociado. Cada valor idealizado del flujograma teorico 101 es un numero entero o cero. En el presente ejemplo, un valor de “1” representa una potencia de senal detectada del 100% producida por la incorporacion de un unico nucleotido, y “0” representa una senal del 0% (por ejemplo, en un pocillo 35 que comprende una poblacion de un millon de moleculas molde sustancialmente identicas y un millon de moleculas nacientes, “1” representa la senal producida cuando cada molecula naciente es extendida en un unico nucleotido, “2” representa la senal producida cuando cada molecula naciente es extendida en dos nucleotidos, etc.).

En el lado derecho de la figura 1, el flujograma observado 103 es una representacion ilustrativa de un valor de potencia de senal detectado a partir de un flujograma observado (o sucio simulado) (q). De modo similar, cada valor 40 de potencia de senal en el flujograma 103 se indica entre corchetes junto a su tipo de nucleotido asociado. Tambien en el lado derecho de la figura 1 aparece el flujo 105 que proporciona un numero representativo que representa la secuencia de flujo iterativo asociada con un tipo de nucleotido y los valores de senal (por ejemplo, cada iteracion de un flujo 105 representa una adicion de un tipo de nucleotido, seguido de un proceso de lavado). Por ejemplo, el flujo 1, tal como se ilustra en la figura 1, esta asociado con el tipo de nucleotido “C” introducido en dicha iteracion del flujo 45 105, y a se corresponde con un valor de senal para el flujograma teorico 101 y el flujograma observado 103.

En el ejemplo de la figura 1, las diferencias en los valores de potencia de senal entre el flujograma teorico 101 y el flujograma observado 103 para cada iteracion del flujo 105 indican, al menos en parte, una perdida de sincroma fasica. Por ejemplo, los valores de senal representados en el flujograma observado 103 no son numeros enteros, sino que generalmente son ligeramente mayores o ligeramente menores que el valor ideal representado en el 50 flujograma teorico 101 para la misma iteracion del flujo 105.

El modelo de cartografiado 110 representado como “M” puede calcularse empleando valores conocidos para los parametros 113. Por ejemplo, los parametros 113 incluyen un parametro £ (adelantamiento) y un parametro A (eficacia de consumacion). Los parametros 113 pueden emplearse para calcular el modelo de cartografiado 110 y convertir los valores de senal del flujograma teorico (p) 101 en los valores observados (q) 103. En el presente

5

10

15

20

25

40

45

ejemplo, el valor de error representado por el modelo de cartografiado 110 se acumula con cada iteracion del flujo 105, y crece de modo exponencial.

Continuando con el anterior ejemplo, el error representado por el valor de error puede, en teona, crecer de modo exponencial con cada flujo. Por ejemplo, las reacciones de secuenciacion sincronizadas en fase asociadas con cada poblacion de moleculas molde sustancialmente identicas se convierten en tres subpoblaciones diferentes sincronizadas en fase despues de una iteracion del flujo. Las subpoblaciones incluyen: una primera subpoblacion de reacciones sincronizadas en fase, en la que el tipo de nucleotido en el flujo se ha incorporado de modo adecuado en la posicion de secuencia apropiada con relacion a las moleculas molde (por ejemplo, no se han producido efectos de CAFIE); una segunda subpoblacion de reacciones sincronizadas en fase, en la que se ha producido una incorporacion inadecuada por mecanismos de CF y las reacciones estan adelantadas con respecto a la posicion de secuencia con relacion a la primera poblacion; y una tercera subpoblacion de reacciones sincronizadas en fase, en la que se ha producido una incorporacion inadecuada por mecanismos de IE y las reacciones estan retrasadas con respecto a la posicion de secuencia de la primera poblacion. En el presente ejemplo, en la siguiente iteracion del flujo se formaran tres subsubpoblaciones a partir de cada una de las tres subpoblaciones descritas anteriormente, etc. Los expertos en la tecnica relacionada apreciaran que, en la enesima iteracion del flujo existiran 3" poblaciones de reacciones sincronizadas en fase que anaden, cada una, una senal al flujo ".

Continuando con el anterior ejemplo, la figura 2 proporciona una representacion ilustrativa de una inversion del modelo de cartografiado 110, que en la figura 2 se representa como un modelo de cartografiado de inversion 210. Por ejemplo, mediante el calculo de los valores correctos de los parametros 113 (por ejemplo, un valor para ambos parametros £ (adelantamiento) y A (eficacia de consumacion)), los valores de las senales del flujograma observado (q) 103 se invierten de nuevo para producir los valores de las senales del flujograma teorico (p) 101.

Los expertos en la tecnica relacionada apreciaran que los valores de las senales representados en las figuras 1 y 2 se proporcionan solo como ilustracion y que es posible una amplia gama de valores de senales. Asf, no deben considerarse limitantes.

Algunas de las realizaciones de la invencion ejecutan el cartografiado invertido en dos etapas consecutivas, (i) y (ii), indicadas a continuacion:

Para cada flujo de tipo de nucleotido i:

(i) - extension de la molecula naciente por medio de la adicion de tipos de nucleotidos:

q, =*-I>yP;

30

(rrij, ntj.) (my., my) + A.(-l,l) m}^}

para todas las j, de modo que Nj = Ni y py >0

(ii) - extension de la molecula naciente por medio de los tipos de nucleotidos sobrantes de una adicion previa:

' q, <-qy +.s2>jPj

< j

(mj ,mf) + £ (-1,1) m ;p^5

para todas las j, de modo que Nj = N-i y py >0

en la que:

- pi es el valor de senal del flujograma teorico (limpio) en el i-esimo flujo de tipos de nucleotidos

- q,-es el valor de senal del flujograma observado (sucio) en el i-esimo flujo de tipos de nucleotidos

- mi es la fraccion de moleculas de tipos de nucleotidos disponibles para la incorporacion en una posicion de secuencia del flujograma para el i-esimo flujo de tipos de nucleotidos

- Ni es la i-esima adicion de un tipo de nucleotido (A, C, G, o T)

- (j, j) son indices apareados, de modo que py es el siguiente valor positivo de pjen el flujograma

El modelo de cartografiado realiza estos calculos flujo a flujo (por ejemplo, las iteraciones del flujo 105), y actualiza el flujograma observado (q), y la fraccion de las moleculas molde, m, recursivamente a traves de las etapas (i) y (ii).

La figura 3a proporciona un ejemplo ilustrativo de modelos empleados para los calculos de matriz. Por ejemplo, tal como se describira con mas detalle a continuacion, puede emplearse el modelo de matriz directa 310 para obtener el modelo de matriz inversa 320. En el presente ejemplo, pueden emplearse los calculos de matriz empleando el

5

10

15

20

25

30

35

40

45

50

modelo de matriz inversa 320 para obtener los calculos para los parametros 113. Por ejemplo, pueden aplicarse diversos valores para los parametros 113 en los calculos de matriz y evaluarse para el grado de ajuste con el flujograma observado 103. Generalmente, se determina que los parametros 113 que proporcionan el mejor ajuste con el flujograma observado (q) 103 son buenas estimaciones de los valores reales de los parametros 113.

Ademas, la figura 3b proporciona un ejemplo ilustrativo de un calculo de matriz directa empleando el modelo de matriz directa 310. En el presente ejemplo, el flujograma observado (q) 103 es generado por los calculos de matriz empleando los parametros 113 que incluyen un valor de eficacia de consumacion A = 0,95, y un valor de adelantamiento £ = 0,05. Cada fila asociada con una iteracion del flujo 105 de la matriz registra las operaciones y los resultados de las etapas recursivas (i, ii) para cada flujo de tipo de nucleotido.

La ecuacion (1) y las etapas recursivas (i, ii) pueden reescribirse como una operacion de tabla-matriz:

Ejemplo comparativo: ecuacion (2)

[M (p', £, A)] * p = q

en la que:

- [M (p', £, A)] es una matriz

- * es la multiplicacion de tabla-matriz

- p' = sgn(p), es el binario que codifica un flujograma teorico o “perfecto” (por ejemplo, el flujograma p en la figura 1, p = [0 1 0 2 0 0 1 0 3 0 1 2] sera codificado como p' = [0 1 0 1 0 0 1 0 1 0 1 1]*).

La forma inversa de la ecuacion (2) produce el cartografiado inverso, convirtiendo el flujograma observado “sucio” (q) 103 de nuevo en el flujograma teorico (p) 101:

Ejemplo comparativo: ecuacion (3)

p = [M-1 (p', £, A)] * q

en la que:

- [M-1 (p', £, A)] es la matriz inversa (conjunto teorico)

Se emplea un metodo iterativo para resolver la ecuacion inversa (3), ilustrada como un modelo de matriz inversa 320 en la figura 3a, para obtener el flujograma teorico (p) 101 para cada lectura. Esta iteracion se realiza con un par concreto de parametros 113 (£, A) para la inversion de CAFIE:

Ecuacion (4)

p (n+1) = [M-1 (p'(n), £, A)] * q

en la que p'(n) = sgn(p(n) - umbral), y se emplea p(1) = q como semilla para el calculo. El valor del umbral depende de las proporciones de senal a ruido del sistema.

De modo similar a la figura 3b, la figura 4a proporciona un ejemplo ilustrativo de un calculo de matriz inversa empleando el modelo de matriz inversa 320. En el presente ejemplo, el flujograma limpio teorico (p) 101 se genera a partir del flujograma sucio observado (q) 103 empleando los parametros 113 que incluyen un valor de eficacia de consumacion A = 0,95, y un valor de adelantamiento £ = 0,05.

Por ejemplo, en una implementacion, puede emplearse un valor fijo, umbral = 0,2. En esta implementacion, el binario que codifica un flujograma p' codifica un valor de “1” cuando el valor del flujograma p es mayor que 0,2, y codifica un valor de “0” cuando el valor del flujograma p es menor o igual a 0,2. En el presente ejemplo, el valor umbral 0,2 es un calculo de la proporcion de senal a ruido.

Como alternativa, algunas implementaciones pueden emplear un valor umbral en el intervalo entre 0 y 1, tal como 0,05, 0,1, o 0,3. Asf, el flujograma observado “sucio” (q) 103 puede invertirse de nuevo al flujograma teorico “perfecto” limpio (p) 101 a traves de la ecuacion (4), para un par concreto de parametros 113 (£, A). En muchas implementaciones, una unica iteracion de la inversion de flujograma puede ser suficiente en general. En algunas implementaciones puede resultar deseable realizar 2, 3, o mas iteraciones de la inversion del flujograma con lo que puede mejorarse la precision de la representacion del flujograma con cada iteracion, en particular para longitudes de lectura mas largas, hasta la convergencia del calculo en una solucion con una calidad deseada. En una realizacion preferida, puede realizarse una iteracion o dos iteraciones de la inversion del flujograma para mejorar la eficacia computacional. Ademas, algunas realizaciones de la invencion implementadas mediante un codigo informatico pueden permitir al usuario la seleccion de un numero de iteraciones para realizar y/o realizar en serie cada iteracion en respuesta a una seleccion del usuario. Por ejemplo, un usuario puede realizar selecciones empleando metodos

5

10

15

20

25

30

35

40

45

50

55

60

conocidos en la tecnica, tales como la introduccion de valores en uno o mas campos o la seleccion de botones presentados en una GUI. En el presente ejemplo, un usuario puede introducir un valor que indique el numero de iteraciones a realizar y/o el usuario puede seleccionar un boton para ejecutar una iteracion de la invencion. Ademas, el usuario puede seleccionar una indicacion de la calidad de los datos, y la invencion realiza las iteraciones hasta que se logra el nivel de calidad de datos.

La figura 4b proporciona un ejemplo ilustrativo de como los resultados pueden mejorar a lo largo de un numero de iteraciones sucesivas empleando el metodo de la ecuacion (4). El flujograma bruto 410 ilustra una realizacion del flujograma observado (q) 103 que tiene unos valores de parametros 113 que incluyen un valor de eficacia de consumacion A = 0,997 y un valor de adelantamiento £ = 0,03 de 336 interacciones del flujo de adicion de tipos de nucleotidos y cada iteracion esta representada por una barra de flujo 409. Por ejemplo, cada barra de flujo 409 representa un flujo de un tipo de nucleotido y cada tipo puede ser representado espedficamente mediante un color o un patron de la barra 409. Ademas, el valor de la senal detectado o corregido asociado con cada flujo se representa mediante la altura de la barra 409 con relacion a la escala indicada por la intensidad de senal 405.

Los expertos en la tecnica apreciaran que existe un alto grado de variabilidad en el flujograma bruto 410 con respecto al valor de la intensidad de senal 405 para las barras de flujo 409, en particular para una longitud de lectura mayor que 50 posiciones de secuencia con relacion a la escala indicada por la longitud de senal 407. En otras palabras, los valores de senales para la mayona de las barras de flujo 409 no incluyen los valores de senales que son numeros enteros. El flujograma de 2 iteraciones 420 ilustra la misma realizacion del flujograma observado q) 103 despues de 2 iteraciones de correccion empleando una realizacion de la invencion. La coherencia de la intensidad de senal 405 para las barras de flujo 409 mejora, en particular, en las barras de flujo 409 en la posicion 150 de longitud de lectura 407 o menor. De modo similar, se demuestran mejoras en la calidad de los datos en el flujograma de 4 iteraciones 430 y el flujograma de 8 iteraciones 440, respectivamente, en los que el flujograma 440 indica que sustancialmente todas las barras de flujo 409 muestran coherencia y valores de numeros enteros.

En algunas realizaciones, las estimaciones de los valores para los parametros 113 pueden determinarse empleando la ecuacion (4). Por ejemplo, el valor de mejor ajuste para el parametro de eficacia de consumacion (A) puede ser determinado realizando los calculos de ensayo empleando la ecuacion (4) introduciendo diferentes valores para el parametro de eficacia de consumacion, mientras que se emplea un valor fijo para el parametro de CF. En el presente ejemplo, pueden emplearse sucesivamente unos valores de A = 1, 0,999, 0,998, ..., 0,990, con un valor fijo de CF £ = 0 y obtenerse resultado para cada uno. En diferentes realizaciones, el intervalo de 0,001 entre los valores A de entrada puede ser reemplazado por otros intervalos, tales como, por ejemplo, unos valores de intervalo de 0,05, 0,01, 0,005, 0,001, 0,0005, 0,0001, o similares.

Continuando con el presente ejemplo, si cualquier valor de senal 405 para una barra de flujo 409 en un flujograma teorico calculado (p) cae por debajo de cero despues de resolver la ecuacion (4) usando un valor de entrada para A, entonces ese valor de A se declara como el valor del parametro de eficacia de consumacion de mejor ajuste. Despues de determinar el valor de A de mejor ajuste, el posterior uso de valores de A mas pequenos provoca lo que se denomina un “sobreajuste” y se producen senales de flujo artificialmente negativas. Tambien en el presente ejemplo, un valor de senal corregido 405 para algunas barras de flujo 409 en una posicion de secuencia despues de una larga serie de barras de flujo 409 que representan homopolfmeros (por ejemplo, una serie de posiciones de secuencia que comprenden el mismo tipo de nucleotido) puede caer por debajo de cero. El punto en que pasa a ser menor que cero se ilustra en un ovalo 503 en la figura 5, y la eficacia de consumacion de mejor ajuste se indica en lo sucesivo como A*.

De forma similar, en algunas realizaciones, el efecto de CF puede abordarse mediante una estrategia similar. Por ejemplo, pueden ensayarse unos valores para el parametro de CF que pueden incluir, por ejemplo, unos valores de £ = 0, 0,0025, 0,005, 0,0075, 0,01, ..., 0,04, fijandose el parametro de eficacia de consumacion A en el valor A* previamente determinado. Esto se ilustra en la figura 5 como la etapa 2^3, en la que el ovalo 503 indica la posicion inicial 2 (£, A) = (0, A*). En el presente ejemplo, el intervalo de 0,0025 entre los valores de entrada para £ se presenta como ilustracion y puede ser reemplazado por otros valores de intervalo pequenos, tales como, por ejemplo, unos valores de intervalo de 0,05, 0,01, 0,005, 0,001, 0,0005, 0,0001, 0,00001, o similares. Si cualquier valor de senal 405 para una barra de flujo 409 en un flujograma teorico calculado (p) cae por debajo de cero despues de resolver la ecuacion (4) usando un valor de entrada para £ (por ejemplo, cualquier valor de senal 405 para una barra de flujo 409 distinto del valor de senal 405 para las barra de flujo 409 que caiga por debajo de cero durante la busqueda a lo largo del trayecto de A), entonces ese valor de £ se declara como el valor del parametro de CF de mejor ajuste. Despues de determinar el valor de £ de mejor ajuste, el posterior uso de valores mas altos provocara un sobreajuste y se produciran senales de flujo artificialmente negativas. Tambien en el presente ejemplo, un valor de senal corregido 405 para algunas barras de flujo 409 en una posicion de secuencia antes de una larga serie de barras de flujo 409 que representan homopolfmeros puede caer por debajo de cero. El punto en que pasa a ser menor que cero se ilustra en un ovalo 505 en la figura 5, y el CF de mejor ajuste se indica en lo sucesivo como £*.

La figura 5 proporciona un ejemplo ilustrativo en el que, por ejemplo, el eje de abscisas representa el eje de eficacia de consumacion 520, y el eje de ordenadas representa el eje de CF 510. Las graficas dentro de los ovalos 501, 503, y 505 representan cada una las etapas, segun se describio anteriormente, y comprenden un ejemplo de porcion de un flujograma que muestra tres senales. Por ejemplo, la barra central representa la barra de la senal principal 537,

5

10

15

20

25

30

35

40

45

50

flanqueada por la senal minoritaria izquierda (barra de CF 535), y la senal minoritaria derecha (barra de IE 533). El ovalo 501 ilustra la etapa de un flujograma observado original (q) 103, en el que la barra de la senal principal 537 esta disminuida por la asincroma fasica, y las senales minoritarias de la barra de CF 535 y la barra de IE 533 representan el ruido provocado por la asincroma fasica. El ovalo 503 representa una etapa en la que la IE ha sido corregida, en la que la senal asociada con la barra de IE 533a se elimina, y la barra de la senal principal central 537 aumenta en consecuencia. Tal como se describio anteriormente, el punto en que la IE se ha corregido puede incluir, por ejemplo, el punto en que pasa a ser menor que cero para el parametro de eficacia de consumacion de mejor ajuste y se indica como A* El ovalo 505 representa otra etapa en la que el CF ha sido corregido, ilustrado por la eliminacion de la senal asociada con la barra de 535a, y la barra de la senal principal central 537 aumenta en consecuencia. Tal como se describio anteriormente, el punto en que el CF se ha corregido puede incluir, por ejemplo, el punto en que pasa a ser menor que cero para el parametro de eficacia de consumacion de mejor ajuste y se indica como e* El ovalo 505 ilustra el resultado de la correccion, que es una aproximacion del flujograma teorico esperado en el que el ruido atribuible a los errores de asincroma fasica ha sido sustancialmente eliminado.

Asf, puesto que las cantidades de CF e IE, asf como la secuencia subyacente de la molecula molde p son desconocidas a priori, los metodos de la invencion pueden utilizarse en un modo de analisis completo de novo. No es necesario un conocimiento anterior de la eficacia de incorporacion de la polimerasa (es decir, A) ni de la eficacia de eliminacion de nucleotidos (es decir, e), ni se requiere ninguna secuencia de nucleotidos de referencia para realizar la inversion.

En algunas realizaciones, el proceso de busqueda para el calculo de parametros descrito anteriormente construye una matriz [M] a traves de las etapas (i, ii) en cada intervalo de busqueda de entrada de e y A, que resulta limitante desde el punto de vista de la eficacia computacional. Estas limitaciones pueden superarse, al menos en parte, empleando aproximaciones sobre la operacion de construccion de la matriz. Por ejemplo, se puede evitar reconstruir la matriz en cada intervalo de busqueda y, por tanto, esto aumenta en gran medida la velocidad computacional. A continuacion se describen dos metodos:

Metodo 1:

A unos valores bajos de e y (1-A) (por ejemplo, (1-A) <= 0,001 y e <= 0,0025), la matriz [M] se descompone y se aproxima a una forma:

Ecuacion (5)

[M (p', e, A)] ~ [L(p', AA)]* * [U (p', Ae)f

en la que:

- Ae = 0,0025 y AA = 0,001, son los intervalos en el eje de e y A, respectivamente.

- * y w son las potencias de matriz, con las propiedades de w ~ e/Ae y * ~ (1-A)/AA.

- [L (p', AA)] es una matriz diagonal inferior, que modeliza el efecto de IE a una deficiencia AA pequena.

- [U (p', AA)] es una matriz diagonal superior, que modeliza el efecto de CF a una deficiencia Ae pequena.

A traves de esta descomposicion, la ecuacion (5) construye una matriz diagonal inferior L y una matriz diagonal superior U solo una vez a lo largo de la trayectoria de la busqueda, y los grados de no consumacion y de adelantamiento en la cuadncula de busqueda, (e, A), son modelizados por las potencias de las matrices, (w, *). Los valores bajos en los intervalos de busqueda, Ae = 0,0025 y AA = 0,001, pueden ser sustituidos por otros valores bajos, tales como, por ejemplo, 0,05, 0,01, 0,005, 0,001, 0,0005, 0,0001, o similares.

En lugar de buscar en las cuadnculas de (e, A) previamente mostradas, el metodo, en este caso, avanza a traves de un conjunto de cuadnculas de (w, *), que preferiblemente son numeros enteros positivos para facilitar los calculos

de las potencias de las matrices. El mejor ajuste (w*, **) se define en la condicion del punto en que pasa a ser

menor que cero; los correspondientes parametros de eficacia de consumacion y CF son A* = (1 - **AA) y e* = w*Ae.

Metodo 2:

Siguiendo la ecuacion (5) en los casos de e y (1-A) bajos, las matrices de potencia diagonales inferior y superior, [L]* and [U]w , volvieron a aproximarse mediante:

Ecuacion (6)

Ecuacion (7)

[L]* = ([I] + [l])*~ [I] + <M

[U]w = ([I] + [u])w ~ [I] + w[u]

en las que:

- [I] es la matriz de identidad,

- [/] y [u] son matrices fuera de la diagonal de [L] y [U], respectivamente.

Esto formula una circunvalacion de la etapa de calcular las potencias de las matrices y, por tanto, proporciona una 5 mayor velocidad (por ejemplo, una disminucion) en el tiempo computacional. El espacio de busqueda en (w, ^) contiene ahora numeros reales positivos solo. El mejor ajuste (w*, ^*) se define en la condicion del punto en que pasa a ser menor que cero; los correspondientes parametros de eficacia de consumacion y CF son A* = (1 - ^*AA) y £* = W*Ae.

Las realizaciones presentadas en la presente se basan en la construccion y la inversion de matrices y una busqueda 10 bidimensional en el plano (e, A) para sondar la pareja optima de parametros de CAFIE. Estos calculos se realizan en cada poblacion de moleculas molde sustancialmente identicas, que, por ejemplo, pueden incluir un analisis pocillo a pocillo en un sistema de tipo de placa de picotitulacion. En algunas realizaciones, se construye una matriz para cada poblacion/pocillo para producir unos valores optimos de CAFIE (e*, A*). La figura 6 proporciona un ejemplo ilustrativo de la distribucion de los valores A* del parametro de eficacia de consumacion 605 y los valores e* del parametro CF 15 607 en una muestra de varios cientos de miles de poblaciones/pocillos 603, segun se calcula empleando el metodo

1 de inversion/busqueda descrito anteriormente. El calculo mediante el uso del metodo 2 descrito anteriormente, que requiere menos tiempo computacional que el metodo 1, proporciona unos resultados similares.

Las realizaciones descritas anteriormente tambien suponen que las tasas asociadas con los parametros constantes de eficacia de consumacion A y CF e permanecen constantes a lo largo de los ensayos de secuenciacion. Esta 20 suposicion puede aliviarse aplicando los procedimientos de busqueda de CAFIE e inversion en lo que se denomina “ventanas de flujo” en flujogramas que comprenden varios ciclos de flujos (siendo “varios” cualquier numero entero entre 1 y el numero total de ciclos de flujo). Por ejemplo, cada ventana de flujo es un subconjunto del conjunto completo de ciclos de flujo representados en un flujograma, y es necesario determinar un par de parametros de CAFIE y el correspondiente flujograma teorico limpio 101. En el presente ejemplo, cada ventana de flujo se dispone 25 de tal forma que se inicia desde el primer flujo en el flujograma asociado con un ensayo de secuenciacion y finaliza a cierto flujo mas corto o igual a la longitud completa de los ciclos de flujo en el flujograma, en el que cada ventana de flujo mas pequena esta anidada dentro de una mas grande. Para cada ventana de flujo n, los procesos de busqueda e inversion se producen independientemente para producir un conjunto de parametros de CAFIE 113, que ahora son funciones de indices de ventana n: e* = E*(n) y A* = A*(n). El flujograma teorico limpio calculado 101, p(n), tambien 30 anidado, es el resultado de estos valores variables de los parametros de CAFIE que dependen de los indices n. Una proceso de “cosido”: p = p(n) para los flujos entre las ventanas (n-1) y n reensambla las secuencias de las ventanas del flujo p(n) en el flujograma limpio final (p) 101.

En la misma realizacion o en realizaciones alternativas, la suposicion de unos valores constantes para A y e puede ser eliminada por otro metodo. Por ejemplo, los parametros de eficacia de consumacion A y de CF e pueden suponer 35 unas formas parametricas, tales como exponenciales, para cada adicion de un tipo de nucleotido “N” (“A”, “G”, “C”, o “T”), y como funciones de la posicion de flujo “f” (1, 2, 3, . . . ):

AN(f) = A°N*exp(-8N * f),

EN(f) = e0n* exp(-pN * f)

en la que:

40 - AN(f) es la eficacia de consumacion del tipo de nucleotido “N” en el “f”-esimo flujo

- EN(f) es el CF del tipo de nucleotido “N” en el “f”-esimo flujo

- A0n y e0n son los valores iniciales

- Sn y Pn son las tasas de atenuacion

Se aplican metodos de busqueda en los espacios de cuatro parametros, An(0), en(0), Sn y Pn, para determinar los 45 valores optimos.

Ademas, los expertos en la tecnica relacionada tambien apreciaran que pueden existir otras fuentes de ruido no relacionadas con los mecanismos de CAFIE descritos. Dichas fuentes de ruido pueden incluir, pero no se limitan a fuentes electronicas, tales como lo que se denomina “corriente oscura”, fuentes opticas, fuentes biologicas, fuentes qmmicas u otras fuentes conocidas en la tecnica o que puedan ser descubiertas en el futuro. Algunas realizaciones 50 de la invencion descrita en la presente pueden mostrar niveles variables de sensibilidad a otras fuentes de ruido que, en muchas aplicaciones, pueden estar a un nivel sustancialmente constante y/o previsible. Por ejemplo, los niveles previsibles y constantes de ruido atribuible a fuentes conocidas o desconocidas en general son faciles de corregir. Un metodo de correccion consiste en anadir o restar matematicamente un valor asociado con el ruido (que depende

5

10

15

20

25

30

35

40

de que el ruido anada un exceso de senal o reduzca la senal detectada) de los valores de senales asociados con un flujo.

En algunas realizaciones en las que el nivel de ruido no es previsible, al menos en parte, las estimaciones del nivel de ruido pueden obtenerse de la informacion incluida en los datos de senal. Por ejemplo, para tipos de nucleotidos que se sabe o se predice que no van a estar presentes en una posicion de secuencia, se espera que el valor de la senal real fuera igual a cero. Por tanto, cualquier senal detecta puede atribuirse a todas las fuentes de ruido en el sistema. En el presente ejemplo, puesto que la invencion descrita en la presente calcula el ruido procedente de mecanismos de CAFIE, este ruido debe eliminarse de los datos y el ruido subyacente queda revelado. En el presente ejemplo, las estimaciones pueden mejorar observando todas las posiciones de secuencia “cero-mera” en un ensayo de secuencia. En este caso, el valor de “umbral” en el binario que codifica p' ecuacion (4), puede determinarse dinamicamente para cada ensayo para que represente su nivel de ruido, en lugar de un valor fijo, tal como se describio en la anterior realizacion.

Ademas, algunas realizaciones de la presente invencion pueden incluir lo que se denominan “criterios de seguridad” para evitar la sobrecorreccion de los datos de secuencia representados en un flujograma observado. Tal como se describio anteriormente, la sobrecorreccion puede provocar una acumulacion exponencial en los errores introducidos a medida que el algoritmo descrito se itera. Por ejemplo, las otras fuentes de ruido descritas anteriormente pueden determinar los criterios de seguridad que incluyen una cantidad de correccion que debe ser aplicada a los datos de senales. Por ejemplo, algunas implementaciones pueden suponer un nivel concreto de ruido procedente de fuentes que no son CAFIE y aplicar unos criterios de seguridad que pueden denominarse como una correccion del 60% (por ejemplo, 100% implica la correccion total) a los datos. Esta estimacion emplea un flujograma “tnbrido”, “0,6p + 0,4q”, que comprende 60% del flujograma limpio calculado p y 40% del flujograma sucio observado q. Como alternativa, si el ruido que no es CAFIE aparece a un nivel “bajo”, puede aplicarse un porcentaje mayor de correccion, tal como, por ejemplo, 80%.

Ejemplo 1

Los genomas de Staphylococcus aureus COL y Mycoplasma genitalium fueron secuenciados con secuenciacion al azar ("shotgun") en un secuenciador 454 Life Sciences Genome Sequencer (Margulies et al., 2005). La figura 7 proporciona un ejemplo ilustrativo de los efectos de la correccion solo de IE y la correccion de CAFIE en la cobertura del genoma, la exactitud de la secuencia consenso, la longitud de lectura media, y el porcentaje de pocillos que han logrado 100% de precision de las longitudes de lectura a lo largo de 125 posiciones de secuencia. Mediante cada una de estas medidas, la correccion de CAFIE fue mejor que la correccion solo de IE. La correccion solo de IE fue mejor que los resultados obtenidos sin correccion. Se prepararon por separado esferas con secuencias control y se mezclaron con la muestra experimental antes de la preparacion de la matriz.

Mediante el uso de los anteriores procedimientos, el promedio de longitud de lectura para un ensayo de 63 ciclos aumento desde 112 posiciones de secuencia hasta 147 posiciones de secuencia, que es casi el maximo teorico para iteraciones de 63 ciclos o 252 flujos (por ejemplo, cada ciclo de flujo incluye 4 iteraciones de flujo de tipo de nucleotido). El maximo teorico se calcula multiplicando el numero de ciclos de flujo, en este caso 63, por el numero de posiciones de secuencia (2,5) que son extendidas, en promedio, en cada ciclo de adiciones de 4 nucleotidos: 63 x 2,5 = 157,5 (maximo teorico). El promedio de longitud de lectura de 147 posiciones de secuencia se determino cartografiando los flujogramas con una secuencia genomica conocida, con una precision del 95% a lo largo de los ciclos de flujo.

Claims

5

10

15

20

25

30

35

40

REIVINDICACIONES

1. - Un metodo para corregir un error asociado con la sincroma fasica de datos de secuencia generados a partir de una poblacion de copias sustancialmente identicas de una molecula de acido nucleico molde, que comprende:

a) detectar una senal generada de la poblacion de copias sustancialmente identicas de una molecula de acido nucleico molde en respuesta a la incorporacion de uno o mas nucleotidos en una reaccion de secuenciacion por smtesis;

b) generar un valor de senal numerico “q” para la intensidad de senal detectada;

c) repetir las etapas a)-b) para cada flujo de tipos;

d) corregir los valores de senal numericos “q” para el error de sincroma fasica “CAFIE” empleando un primer parametro representativo del componente de extension incompleta “A” del error de sincroma fasica, y un segundo parametro representativo del componente de adelantamiento “e” del error de sincroma fasica,

en el que un valor para el primer parametro, “A”, y un valor para el segundo parametro, “e”, se calculan realizando una busqueda del mejor ajuste con una ecuacion de matriz:

p(n+1) = [M-1 (p'(n), e, A)] * q

en la que M representa la matriz del modelo de cartografiado de CAFIE,

de modo que [M-1 (p', e, A)] es la matriz inversa;

p' = sgn(p), en la que p' es el codigo binario de p,

n es la iteracion del flujo,

y p(1) = q se emplea como la semilla;

para cada uno del primer parametro “A” y el segundo parametro “e”, y

en el que los valores de senal numericos “q” se vuelven a invertir para producir un valor de senal teorico “p” empleando la ecuacion de matriz.
2. - El metodo de la reivindicacion 1, que comprende ademas:

e) incorporar cada valor de senal corregido en un flujograma de la molecula de acido nucleico molde.
3. - El metodo de la reivindicacion 1, en el que:

la etapa b) comprende ademas la etapa de incorporar el valor de senal en un flujograma asociado con una secuencia de una molecula de acido nucleico molde; y

la etapa d) comprende ademas corregir cada uno de los valores de senal para el error de sincroma fasica en el flujograma;

y comprende ademas la etapa de:

e) generar un flujograma corregido empleando los valores corregidos.
4. - El metodo de la reivindicacion 3, que comprende ademas:

f) repetir iterativamente las etapas d)-e) empleando los valores de senal corregidos procedentes de una iteracion previa para la etapa d), en el que algunos o todos los valores de senal corregidos mejoran en calidad con cada iteracion.
5. - El metodo de la reivindicacion 1 o 3, en el que:

el componente de extension incompleta y el componente de adelantamiento son ambos tratados como sustancialmente constantes para cada posicion de secuencia de la molecula de acido nucleico molde.
6. - El metodo de la reivindicacion 1 o 3, en el que:

el componente de adelantamiento es tratado como sustancialmente constante para cada posicion de secuencia de la molecula de acido nucleico molde.
7. - El metodo de la reivindicacion 1 o 3, en el que:

5

10

15

20

25

30

35

40

la senal incluye luz emitida en respuesta a la incorporacion de uno o mas nucleotidos.
8. - El metodo de la reivindicacion 7, en el que:

la luz incluye luz quimioluminiscente procedente de la reaccion de secuenciacion, y, opcionalmente, en el que:

la reaccion de secuenciacion incluye una reaccion de secuenciacion de pirofosfato.
9. - El metodo de la reivindicacion 7, en el que:

la luz incluye luz fluorescente procedente de la reaccion de secuenciacion, y, opcionalmente, en el que:

la reaccion de secuenciacion incluye una reaccion de secuenciacion que emplea terminadores reversibles.
10. - El metodo de la reivindicacion 1 o 3, en el que:

el valor de senal es indicativo de un numero de nucleotidos incorporados.
11. - El metodo de la reivindicacion 1 o 3, en el que:

el calculo del mejor ajuste para el primer y el segundo valor de los parametros incluye una busqueda empleando un intervalo entre los valores de ensayo y la aplicacion de una o mas aproximaciones sobre la ecuacion de matriz en cada valor de ensayo, en el que la aproximacion proporciona una mejor eficacia computacional del calculo.
12. - El metodo de la reivindicacion 3, en el que el metodo comprende ademas la etapa (c') entre las etapas c) y d):

c') dividir el flujograma en una pluralidad de subconjuntos, en el que cada subconjunto comprende una o mas posiciones de secuencia de la molecula de acido nucleico molde;

y en el que:

la etapa d) comprende ademas corregir cada valor de senal en cada subconjunto, y en el que el primer parametro representa el componente de extension incompleta del error de sincroma fasica en cada subconjunto, y el segundo parametro representa el componente de adelantamiento del error de sincroma fasica en cada subconjunto; y

la etapa e) comprende ademas combinar los subconjuntos corregidos en el flujograma corregido empleando los valores corregidos.
13. - El metodo de la reivindicacion 12, en el que:

el error de sincroma fasica incluye un componente de extension incompleta y un componente de adelantamiento que fluctuan a lo largo de una pluralidad de posiciones de secuencia de la molecula de acido nucleico molde.
14. - El metodo de la reivindicacion 12, en el que:

el error de sincroma fasica incluye un componente de adelantamiento que fluctua a lo largo de una pluralidad de posiciones de secuencia de la molecula de acido nucleico molde.
15. - Un sistema para corregir un error asociado con la sincroma fasica de datos de secuencia generados a partir de una poblacion de copias sustancialmente identicas de una molecula de acido nucleico molde, que comprende:

un ordenador que comprende un codigo de programa almacenado para su ejecucion en el, y dicho codigo de programa realiza un metodo que comprende:

a) generar un valor de senal numerico “q” para la intensidad de senal detectada en respuesta a la incorporacion de uno o mas nucleotidos, en una reaccion de secuenciacion por smtesis, en la poblacion de copias sustancialmente identicas de una molecula de acido nucleico molde;

b) repetir la etapa a) para cada flujo de tipos; y

c) corregir el valor de senal numerico “q” para el error de sincroma fasica empleando un primer parametro representativo del componente de extension incompleta “A” del error de sincroma fasica, y un segundo parametro representativo del componente de adelantamiento “e” del error de sincroma fasica,

en el que un valor para el primer parametro, “A”, y un valor para el segundo parametro, “e”, se calculan realizando una busqueda del mejor ajuste con una ecuacion de matriz:

5

10

15

20

25

30

35

p(n+1) = [M-1 (p'(n), £, A)] * q en la que M representa la matriz del modelo de cartografiado de CAFIE, de modo que [M-1 (p', £, A)] es la matriz inversa; p' = sgn(p), en la que p' es el codigo binario de p, n es la iteracion del flujo, y p(1) = q se emplea como la semilla;

para cada uno del primer parametro “A” y el segundo parametro “£”, y

en el que los valores de senal numericos “q” se vuelven a invertir para producir un valor de senal teorico “p” empleando la ecuacion de matriz.
16. - El sistema de la reivindicacion 15, en el que el metodo realizado por el codigo de programa comprende ademas:

d) incorporar cada valor de senal corregido en un flujograma de la molecula de acido nucleico molde; y opcionalmente comprende ademas:

e) proporcionar el flujograma a un usuario.
17. - El sistema de la reivindicacion 15, en el que:

la etapa a) comprende ademas la etapa de incorporar el valor de senal en un flujograma asociado con una secuencia de una molecula de acido nucleico molde; y

la etapa c) comprende ademas corregir cada valor de senal para el error de sincroma fasica en el flujograma; y que comprende ademas la etapa de:

d) generar un flujograma corregido empleando los valores corregidos.
18. - El sistema de la reivindicacion 17, en el que el metodo realizado por el codigo de programa comprende ademas:

e) repetir iterativamente las etapas c)-d) empleando los valores de senal corregidos procedentes de una iteracion previa para la etapa c), en el que algunos o todos los valores de senal corregidos mejoran en calidad con cada iteracion, y opcionalmente la etapa de repetir iterativamente responde a la seleccion por parte de un usuario de un numero de iteraciones que se van a realizar.
19. - El sistema de la reivindicacion 17, en el que el metodo realizado por el codigo de programa comprende ademas: e) proporcionar el flujograma corregido a un usuario.
20. - El sistema de la reivindicacion 17, en el que el sistema comprende ademas la etapa b') entre las etapas b) y c):

b') dividir el flujograma en una pluralidad de subconjuntos, en el que cada subconjunto comprende una o mas posiciones de secuencia de la molecula de acido nucleico molde;

y en el que:

la etapa c) comprende ademas corregir cada valor de senal en cada subconjunto para el error de sincroma fasica, y en el que el primer parametro representa el componente de extension incompleta del error de sincroma fasica en cada subconjunto, y el segundo parametro representa el componente de adelantamiento del error de sincroma fasica en cada subconjunto; y

la etapa d) comprende ademas combinar los subconjuntos corregidos en el flujograma corregido empleando los valores de senal corregidos.