ES2292110T3 - Programa de ordenador para ayudar en la identificacion de snps (polimorfismos de un solo nucleotido) con microformaciones. - Google Patents
Programa de ordenador para ayudar en la identificacion de snps (polimorfismos de un solo nucleotido) con microformaciones. Download PDFInfo
- Publication number
- ES2292110T3 ES2292110T3 ES05712057T ES05712057T ES2292110T3 ES 2292110 T3 ES2292110 T3 ES 2292110T3 ES 05712057 T ES05712057 T ES 05712057T ES 05712057 T ES05712057 T ES 05712057T ES 2292110 T3 ES2292110 T3 ES 2292110T3
- Authority
- ES
- Spain
- Prior art keywords
- data
- snps
- probes
- sequence
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S977/00—Nanotechnology
- Y10S977/70—Nanostructure
- Y10S977/788—Of specified organic or carbon-based composition
- Y10S977/789—Of specified organic or carbon-based composition in array format
- Y10S977/79—Of specified organic or carbon-based composition in array format with heterogeneous nanostructures
- Y10S977/791—Molecular array
- Y10S977/792—Nucleic acid array, e.g. human genome array
Abstract
Un método implementado en ordenador, para identificar polimorfismos de un solo nucleótido a partir de datos de hibridación de microformaciones para un proceso de resecuenciación, comprendiendo el método las etapas de: organizar los datos en grupos de posiciones que corresponden a variaciones de la secuencia en una posición de un solo nucleótido; clasificar los grupos de posiciones como un conformador o no-conformador, dependiendo de si las sondas de mayor intensidad para la posición de un solo nucleótido se conforman o no se conforman a la secuencia de referencia en esa posición; correlacionar los conformadores y no-conformadores en un espacio de características que representa la geometría física de la microformación; e identificar como SNP posibles, solamente aquéllos no-conformadores que están situados en el espacio de características adyacente a los conformadores.
Description
Programa de ordenador para ayudar en la
identificación de SNPS (polimorfismos de un solo nucleótido) con
microformaciones.
La llegada de la tecnología de microformaciones
("microarrays") de ADN hace posible construir una formación de
centenares de miles de secuencias de ADN en un área muy pequeña, tal
como del tamaño de una platina de microscopio. Véanse, por ejemplo,
la patente de EE.UU. Nº 6.375.903 y la patente de EE.UU. Nº
5.143.854. La descripción de la patente de EE.UU. Nº 6.375.903
permite la construcción de los llamados instrumentos sintetizadores
de formaciones sin máscara (MAS = Maskless Array Synthesizer) en los
que se usa la luz para dirigir síntesis de secuencias de ADN,
siendo gobernada la dirección de la luz usando un dispositivo de
microespejo digital (DMD = Digital Micromirror Device), conocido
también como procesador digital de luz (DLP = Digital Light
Processor). Usando un instrumento MAS, la selección de secuencias
de ADN a construir en la microformación se efectúa bajo control de
software, de modo que se pueden construir formaciones
individualmente personalizadas a petición. En general, la
tecnología de síntesis de microformaciones ADN basadas en los MAS
permite la síntesis en paralelo de alrededor de más de 800.000
oligonucleótidos únicos en un área muy pequeña de una platina
estándar de microscopio. Las microformaciones son sintetizadas,
generalmente, usando la luz para dirigir qué oligonucleótidos son
sintetizados en posiciones específicas de una formación, llamándose
características estas posiciones. Típicamente, una secuencia de
nucleótidos es sintetizada en cada característica de la formación,
es decir, hay múltiples sondas en cada característica, pero todas
esas sondas tienen la misma secuencia de nucleótidos. Para ciertas
aplicaciones, sería ventajoso tener oligonucleótidos de diferentes
secuencias presentes dentro de una característica de la formación,
y poder controlar la relación y la dirección (5'-3',
o 3'-5') de estos oligonucleótidos.
Un uso de las microformaciones es para efectuar
análisis de secuencias de ADN aisladas, de organismos vivos. La
ciencia ha puesto a disposición, ahora, secuencias de ADN
generalizadas de genomas enteros de varios organismos importantes,
incluidos los humanos. Una técnica que se puede usar para
identificar una variante genética es secuenciar el ADN genómico de
un individuo y, después, comparar esa secuencia con la secuencia de
referencia de ese organismo. Se ha encontrado que muchas
diferencias en la secuencia de ADN son presentadas como variaciones
únicas en la secuencia de ADN, denominadas, a menudo, como
polimorfismos de un solo nucleótido o SNP (Single Nucleotide
Polymorphism). Efectuar una comparación de secuencias entre el
genoma entero secuenciado de un individuo y el genoma de referencia
de esa especie, es para identificar, por este mecanismo de fuerza
bruta, los SNP para ese individuo. Sin embargo, este proceso es
demasiado laborioso para ser práctico en la detección de SNP a gran
escala. Por lo tanto, la identificación y análisis de los SNP es una
tecnología a la que se ha dedicado mucha atención.
La presente invención se resume como un método
para identificar polimorfismos de un solo nucleótido a partir de
datos de hibridación de microformaciones, siendo utilizados los
datos como un procedimiento de resecuenciación. El método incluye
las etapas de organizar los datos en grupos, cada uno de los cuales
representa todas las variaciones observadas de la secuencia en una
posición de un solo nucleótido; clasificar cada grupo como
conformador o no-conformador dependiendo de si las
sondas de mayor intensidad para la posición de un solo nucleótido se
ajustan o no se ajustan a la secuencia de referencia en esa
posición; correlacionar los conformadores y
no-conformadores en un espacio de características;
e identificar como SNP posibles solamente aquéllos conformadores que
están situados en partes del espacio de características de los
datos de microformaciones densamente pobladas con
conformadores.
El método está fundado en el aprendizaje
mecanizado y es neutro en cuanto a la bioquímica de hibridaciones
particulares y, por tanto, mejorará su predictibilidad con el
tiempo. El método es capaz de discernir SNP reales, del ruido, en
un solo experimento.
Otros objetos, ventajas y características de la
presente invención serán evidentes en la siguiente memoria
descriptiva.
La Figura 1 es un diagrama de flujo que ilustra
el flujo lógico de información en el presente método.
La Figura 2 es una ilustración del concepto del
espacio de características, y de cómo se efectúa el análisis de
datos en el espacio de características.
La Figura 3 es una representación gráfica del
significado de la elección de un parámetro en el algoritmo usado
para el aprendizaje mecanizado.
La Figura 4 es una representación gráfica de
datos de la detección de SNP reales.
La Figura 5 es una representación gráfica de
datos, que muestra la tasa de llamados frente a la tasa de detección
para los SNP.
El método de resecuenciación genómica eficiente,
descrito aquí, ha mostrado resultados significativos y utiliza
tecnología de microformaciones de oligonucleótidos para su
información de entrada. En particular, este tipo de resecuenciación
comienza con una microformación, o chip, que consta de un teselado
completo de la secuencia de referencia. Las microformaciones tienen
sondas de oligonucleótidos dispuestas en áreas denominadas
características. La terminología del teselado completo con respecto
a un chip o medio de microformación es que el chip tiene, por lo
menos, una característica que contiene sondas que corresponden
exactamente a cada 25-mer en la secuencia de
referencia. Además, el chip teselado también contiene, por cada base
en esta secuencia de referencia de 25-mer, tres
características, cada una de las cuales contiene sondas de
no-coincidencia con un solo nucleótido sustituido,
es decir, una sola falta de coincidencia. Cada sonda de
no-coincidencia corresponde a cada posible
variación de nucleótido o SNP en esta posición, que podría estar o
no estar presente en una variación de la secuencia de referencia.
Después, este chip de resecuenciación de teselado se usa en un
proceso de hibridación frente al ADN genómico de individuos de la
especie, y en el resultado de la hibridación medida, midiendo la
intensidad óptica de fluorescencia desde el ADN etiquetado de la
muestra coincidente a los conjuntos de sondas de la formación. En
teoría, cada vez que un SNP está presente en una muestra genómica
individual particular, la característica con una sonda no
coincidente que representa esta variante de SNP debe tener una señal
medida de intensidad mayor que la correspondiente característica
para la sonda que coincide con la secuencia de referencia. Sin
embargo, debido a la impredecibilidad de la intensidad de la señal,
que varía el rendimiento de la hibridación, y a varias otras
fuentes de ruido y error, este método da lugar, típicamente, a
muchas posiciones de base cuyas identidades están predichas
incorrectamente. Soluciones actuales a este problema requieren un
reajuste extenso de parámetros que implica el análisis de
cantidades muy grandes de datos. Este reajuste necesita ser
repetido cada vez que se cambian las condiciones experimentales.
Otra limitación de los métodos actuales es que, para tener una sola
sonda representada por un número suficiente de píxeles, se debe usar
un escáner de alta resolución muy costoso.
En este documento se presenta una técnica que
usa aprendizaje mecanizado para diferenciar los SNP potenciales, de
ruido de chips y variaciones en las condiciones de hibridación. A
diferencia de otros métodos, el método de esta invención no
requiere dicho escáner de alta resolución y, además, no requiere
ningún reajuste exterior al único chip que se está analizando. Para
organismos haploides, esto produce resultados similares a los
resultados publicados en la tasa de identificación de SNP para el
mejor conocido de los métodos estadísticos actuales. El método de
esta invención usa solamente la intensidad media de señal de cada
característica del chip, y no requiere datos del exterior del
chip.
Para ilustrar esta técnica, imaginemos que la
tarea inmediata es identificar los SNP en el contexto de un proceso
particular de resecuenciación de ADN basado en microformaciones de
oligonucleótidos. Este tipo de resecuenciación consiste en teselar
totalmente (produciendo características que tienen sondas
correspondientes a cada 25-mer) la secuencia de
referencia del ADN de un organismo a través de una región de
interés. Para cada una de estas características que tienen sondas
correspondientes a la secuencia de referencia, también se crean, en
la microformación, otras tres características que tienen sondas
únicas no coincidentes. Cada una de las sondas no coincidentes
inserta una base dife-
rente de nucleótidos en su posición central. Por ejemplo, si el ADN de referencia del organismo incluye la secuencia:
rente de nucleótidos en su posición central. Por ejemplo, si el ADN de referencia del organismo incluye la secuencia:
- CTGACATGCAGCTATGCATGCATGAA
Entonces, la característica que corresponde a la
secuencia de referencia tendrá esta secuencia complementaria:
- GACTGTACGTCGATACGTACGTACTT
Para efectuar la resecuenciación convencional de
la microformación, la microformación incluiría, entonces,
características con sondas que tienen cada una de las siguientes
secuencias:
- GACTGTACGTCGAAACGTACGTACTT
- GACTGTACGTCGACACGTACGTACTT
- GACTGTACGTCGAGACGTACGTACTT
Para los propósitos de esta descripción, un
grupo de sondas, tales como las que representan todos los posibles
SNP en una posición dada, se llamará un grupo de posiciones o
grupo-p.
Los detalles del método de interpretar dicho
chip de resecuenciación se pueden resumir como sigue: Dados los
datos de un solo chip de resecuenciación, que representa, ya sea el
genoma completo de un organismo, o alguna región o regiones de
interés en dicho genoma, identificar, entre las posiciones en las
cuales la secuencia de muestra parece diferir de la secuencia de
referencia, cuáles de estas posiciones son probablemente SNP
reales, en lugar de ruido, y devolver una salida que identifique
estas posiciones junto con una medida de confianza para cada
una.
Para entender la nueva solución descrita en este
documento, consideremos que después que el chip ha sido expuesto a
la muestra, cada una de las sondas tendrá una intensidad resultante.
(Cuando nos referirnos a las sondas, en esta descripción, nos
referimos al conjunto de sondas de una característica, y los
términos sondas y características se usan algunas veces
intercambiablemente en el resto de la descripción). Cada conjunto de
grupos-p de 4 de tales intensidades se denomina un
ejemplo. Para la mayoría de estos ejemplos, la mayor de las 4
intensidades será la sonda de referencia, es decir, la sonda sin
base no coincidente. En la siguiente Tabla 1 se presenta una
muestra de datos de un proceso de resecuenciación. Las sondas de
resecuenciación se muestran en la parte superior de la Tabla 1,
seguidas por los datos de intensidades deducidos experimentalmente y
el agrupamiento de los datos en un ejemplo. Como se muestra en la
Tabla 1, se ilustran ejemplos para los cuales se encuentra la mayor
intensidad para los conformadores de secuencias de referencia, como
se esperaba. Para los propósitos del algoritmo de aprendizaje
mecanizado, los conformadores también se llamarán ejemplos
positivos. Cuando una de las sondas no coincidentes tiene la mayor
intensidad de las sondas para ese nucleótido, el
grupo-p se denomina un
no-conformador. Para los propósitos de los
algoritmos de aprendizaje mecanizado, los
no-conformadores también se llamarán ejemplos
negativos. Algunos de estos ejemplos negativos reflejan SNP reales
en el ADN genómico del organismo individual. Sin embargo, muchos o
la mayoría de ellos son los resultados de fallos de hibridación u
otros tipos de ruido que no representan un SNP en la muestra. El
objetivo es determinar la diferencia entre los SNP reales y el
ruido.
La metodología usada para determinar esta
diferencia es un proceso de dos etapas, resumido en la Tabla 2. Un
punto clave es que éste es un proceso de aprendizaje de dos etapas.
Primero, se efectúa un experimento de aprendizaje mecanizado
estándar para producir y comprobar modelos de
grupos-p conformadores frente a
grupos-p no-conformadores que usan
las características disponibles (de nuevo, característica es el
término para un área de la microformación dedicada a una sola
sonda). Después, esto se usa como un modelo intermediario para
grupos-p cuya base de mayor intensidad representa
exactamente la secuencia de la muestra. Como se ilustra en la
Figura 1, los grupos-p que son identificados como
exactos, pero indican algo más que la base de referencia en una
posición dada, son denominados SNP candidatos. Se puede usar este
modelo como tal intermediario porque se han desarrollado las
siguientes dos reglas generalizadas, que se han mantenido para todos
los datos que se han visto hasta ahora: 1) La inmensa mayoría de
ejemplos negativos son debidos a ruido en los datos. 2) Los
ejemplos resultantes de hibridaciones apropiadas estarán mucho más
próximos entre sí en el espacio de características (que se describe
más adelante) que a ejemplos que resultan de fallos de
hibridación.
Siguiendo estas reglas, un área de espacio de
características con gran densidad de ejemplos positivos es
improbable que contenga sondas que sean fallos de hibridación. De
hecho, la probabilidad de que cualquier ejemplo dado en un área sea
un error de hibridación puede ser estimada aproximadamente por la
densidad de ejemplos negativos en esa área de espacio de
características, Esto se ilustra en la Figura 2, donde los
conformadores y los no-conformadores están situados
en su geometría real en el espacio de características de la
microformación, y la identificación de un SNP probablemente real
está ilustrada por el hecho de que está rodeado en el espacio físico
por conformadores. En otras palabras, el
no-conformador en las proximidades de otros
no-conformadores no es creíble, pero un
no-conformador en las proximidades de conformadores
es creíble. Efectuando esta estimación para cada uno de los
ejemplos negativos en el conjunto de ensayo, se encuentra una
probabilidad aproximada de que el no-conformador
sea el resultado de un error de hibridación, en lugar de un SNP real
en el genoma del individuo. Los ejemplos negativos con muy baja
probabilidad de ser errores de hibridación e, inversamente, alta
probabilidad de ser una reflexión correcta de la secuencia
subyacente, son predichos, por este método, como que son SNP. Así
pues, el modelo estará dominado por las características que
identifican un grupo-p fiable. Teóricamente, en
casos en que no es cierta la primera suposición, el conjunto de
ensayo podría ser complementado, simplemente, con datos de otros
chips que contengan pocos o ningún SNP.
La solución de la presente invención emplea
aprendizaje supervisado, que es el aprendizaje a partir de un
conjunto de ejemplos etiquetados, para categorizar ejemplos futuros
que no están etiquetados. Otra característica importante del
software de la invención es que, aunque este tipo de aprendizaje
requiere, a menudo, ejemplos etiquetados humanamente, dicho
software no necesita que el usuario etiquete ningún ejemplo. Las
categorías son determinadas automáticamente a partir de los
datos.
Para descubrir cuáles de estos ejemplos
negativos son probablemente SNP reales, se aplica al problema un
número de algoritmos de aprendizaje mecanizado, que incluyen Redes
Neurales Artificiales, Árboles de Decisión, y K Vecinos Más
Próximos. En experimentos no descritos en este documento, se
encuentra que el mejor realizador era al algoritmo de K Vecinos Más
Próximos. Los K Vecinos Más Próximos es un algoritmo de
clasificación muy conocido dentro de la comunidad de Aprendizaje
Mecanizado. Se denomina un algoritmo de clasificación porque se usa
para clasificar ejemplos basados en características conocidas. Este
algoritmo particular consiste en trazar cada ejemplo en un espacio
de características y, después, para cada uno de estos ejemplos,
encontrar los otros K ejemplos más próximos a él en este espacio de
características. Las categorías de estos K vecinos dictan la
predicción. Si es mayor que algún umbral P de estos vecinos, es un
ejemplo positivo; la predicción es positiva. De lo contrario, la
predicción es negativa. El número de ejemplos positivos entre los K
vecinos también se puede usar como una medida de confianza de la
predicción.
El valor apropiado para K y definiciones útiles
de proximidad y espacio de características tienden a variar entre
tareas de aprendizaje. En este caso, el espacio de características
de esta invención es el espacio de ejemplos de 5 dimensiones, donde
4 de las dimensiones corresponden a las intensidades de las 4 sondas
del ejemplo, y la quinta dimensión es la identidad de la base en la
posición central de la sonda con la mayor intensidad del ejemplo.
La proximidad entre dos sondas se define como infinita en casos en
que los dos ejemplos difieren en la quinta dimensión. En todos los
demás casos, se define como:
proximidad =
\sum\limits^{i=1}_{4} |grupo-p_{1i} -
grupo-p_{2i}|
\newpage
Donde grupo-p_{1} = ejemplo 1,
y grupo-p_{2} = ejemplo 2, y
grupo-p_{Ni} = la intensidad de la sonda más
intensa de orden i en el ejemplo grupo-p_{N}.
Para escoger una buena K, se ensayan varios
valores entre uno y 250 para ver cuántos falsos positivos
necesitarían haber sido registrados para identificar todos los SNP
reales. Los resultados de este ensayo se muestran en la Figura 3.
Aunque, como se ilustra en la Figura 3, parece que hay un amplio
margen de valores apropiados para K, se ha escogido K = 100.
Se usa un algoritmo de línea de base para
comparar la sonda de mayor intensidad con la segunda sonda de mayor
intensidad. Este algoritmo se describe en la Tabla 3. Si la relación
está por encima de un valor umbral, se supone que la base
representada por la sonda de mayor intensidad es la base de la
secuencia. Si este grupo-p es un
no-conformador, el algoritmo de línea de base se
llama SNP candidato.
Ejemplo
Para evaluar el algoritmo, se escoge una tarea
realista útil. Una cepa de virus SARS (Severe Acute Respiratory
Syndrome = Síndrome Respiratorio Agudo Grave) ha sido completamente
secuenciada mediante secuenciación capilar estándar. Se suministró
una cepa diferente de muestra. Esta muestra difería en secuencia
genética, de la referencia, en un grado desconocido. La tarea fue
identificar los SNP candidatos entre estas variaciones. Las
predicciones serían evaluadas subsiguientemente usando otra
secuenciación capilar y varios otros métodos de laboratorio.
Usando la secuencia de referencia, se diseñó un
chip de resecuenciación que incluía las cepas directas e inversas
de este virus. Después se expuso este chip a ácidos nucléicos de la
muestra del nuevo virus. Después se usó el algoritmo de la
invención para predecir los SNP en este chip. Una vez obtenidos
estos resultados, se combinaron la predicciones directas e inversas
para cada posición de SNP posible, promediando las dos
predicciones.
El algoritmo de la invención se comportó muy
bien en esta tarea. De las 24.900 posiciones de secuencias
representadas por grupos-p en este chip, 442 fueron
no-conformadoras. De estas 442, la solución de la
invención identificó 36 como SNP candidatos. Subsiguientes
experimentos de laboratorio confirmaron 24 SNP, todos los cuales
fueron identificados por el software de la invención. Este
resultado total está resumido en la parte delantera de una curva
Característica-Operativa-Receptora
(ROC =
Receiver-Operating-Characteristic),
de la Figura 4.
Una curva ROC es una gráfica de positivos
verdaderos frente a positivos falsos. Se obtiene ejecutando un
algoritmo en varios umbrales. En el caso del algoritmo de los K
vecinos más próximos, este umbral es el porcentaje de vecinos que
necesitan ser etiquetados como ejemplos positivos para que un
grupo-p no-conformador sea
clasificado como un SNP. En este caso, los positivos falsos son
no-SNP incorrectamente clasificados como SNP. Los
positivos verdaderos son SNP correctamente identificados por el
algoritmo de la invención. Una curva perfecta de aprendiz
alcanzaría la esquina superior izquierda, puesto que significaría
que el algoritmo es capaz de identificar todos los positivos
verdaderos sin producir ningún positivo falso. Aunque la curva del
algoritmo de la invención no alcanza completamente esta esquina,
obsérvese que domina el algoritmo de línea de base.
Tomando como base los resultados de este
experimento, parece que el método descrito en este documento es muy
superior al algoritmo de línea de base descrito anteriormente, y es
un método fiable y eficiente para la identificación de los SNP. Sin
embargo, recuérdese que esta solución clasifica algunos
grupos-p como no-llamados, a saber,
aquéllos grupos cuyos vecinos son predominantemente
no-conformadores. El porcentaje de
grupos-p que son llamados (ya sean SNP o
no-SNP) también se conoce como la tasa de llamados.
Si esta tasa es demasiado baja, el procedimiento es inútil porque
el chip no puede ser interpretado. Por tanto, para que sea útil, el
software también debe dar lugar a una buena tasa de llamados.
Para ajustar la tasa de llamados, se puede usar
el valor umbral, como se describió anteriormente. Como se ilustra
en la Figura 5, la solución de la invención mantiene
satisfactoriamente la tasa de llamados por encima del 97% para
umbrales entre el 94% y el 98%, que identifican fácilmente todos los
SNP de la muestra y desclasifica solamente un pequeño número de
no-SNP.
Claims (4)
1. Un método implementado en ordenador, para
identificar polimorfismos de un solo nucleótido a partir de datos
de hibridación de microformaciones para un proceso de
resecuenciación, comprendiendo el método las etapas de:
organizar los datos en grupos de posiciones que
corresponden a variaciones de la secuencia en una posición de un
solo nucleótido;
clasificar los grupos de posiciones como un
conformador o no-conformador, dependiendo de si las
sondas de mayor intensidad para la posición de un solo nucleótido
se conforman o no se conforman a la secuencia de referencia en esa
posición;
correlacionar los conformadores y
no-conformadores en un espacio de características
que representa la geometría física de la microformación; e
identificar como SNP posibles, solamente
aquéllos no-conformadores que están situados en el
espacio de características adyacente a los conformadores.
2. Un método como el reivindicado en la
reivindicación 1, en el que la identificación de los SNP incluye un
algoritmo de aprendizaje mecanizado para situar los conjuntos de
datos en el espacio de características.
3. Un método como el reivindicado en la
reivindicación 2, en el que el algoritmo de aprendizaje mecanizado
es el algoritmo de K vecinos más próximos.
4. Un método como el reivindicado en la
reivindicación 1, en el que el espacio de características es un
espacio de cinco dimensiones constituido por cuatro intensidades de
las cuatro sondas en el espacio de posiciones, y la identidad de la
base en la posición central de la sonda.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US53922004P | 2004-01-26 | 2004-01-26 | |
US539220P | 2004-01-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2292110T3 true ES2292110T3 (es) | 2008-03-01 |
Family
ID=34826044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05712057T Active ES2292110T3 (es) | 2004-01-26 | 2005-01-26 | Programa de ordenador para ayudar en la identificacion de snps (polimorfismos de un solo nucleotido) con microformaciones. |
Country Status (7)
Country | Link |
---|---|
US (1) | US7904250B2 (es) |
EP (1) | EP1709565B1 (es) |
AT (1) | ATE368903T1 (es) |
CA (1) | CA2554977A1 (es) |
DE (1) | DE602005001850T2 (es) |
ES (1) | ES2292110T3 (es) |
WO (1) | WO2005073894A2 (es) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012059906A (ja) * | 2010-09-09 | 2012-03-22 | Sony Corp | 記憶素子、メモリ装置 |
EP3090061A2 (en) | 2013-12-31 | 2016-11-09 | F. Hoffmann-La Roche AG | Methods of assessing epigenetic regulation of genome function via dna methylation status and systems and kits therefor |
CN107878166A (zh) * | 2017-12-14 | 2018-04-06 | 苏州宝特威机电有限公司 | 一种可自动展开的汽车遮阳篷 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5143854A (en) * | 1989-06-07 | 1992-09-01 | Affymax Technologies N.V. | Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof |
DE69942272D1 (de) * | 1998-02-23 | 2010-06-02 | Wisconsin Alumni Res Found | Deranordnungen |
-
2005
- 2005-01-26 WO PCT/US2005/002429 patent/WO2005073894A2/en active IP Right Grant
- 2005-01-26 US US11/043,294 patent/US7904250B2/en not_active Expired - Fee Related
- 2005-01-26 CA CA002554977A patent/CA2554977A1/en not_active Abandoned
- 2005-01-26 AT AT05712057T patent/ATE368903T1/de not_active IP Right Cessation
- 2005-01-26 ES ES05712057T patent/ES2292110T3/es active Active
- 2005-01-26 DE DE602005001850T patent/DE602005001850T2/de active Active
- 2005-01-26 EP EP05712057A patent/EP1709565B1/en not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
DE602005001850T2 (de) | 2008-04-17 |
WO2005073894A2 (en) | 2005-08-11 |
EP1709565B1 (en) | 2007-08-01 |
CA2554977A1 (en) | 2005-08-11 |
US20060014164A1 (en) | 2006-01-19 |
DE602005001850D1 (de) | 2007-09-13 |
EP1709565A2 (en) | 2006-10-11 |
ATE368903T1 (de) | 2007-08-15 |
WO2005073894A3 (en) | 2005-12-08 |
US7904250B2 (en) | 2011-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weinstein et al. | DNA microscopy: optics-free spatio-genetic imaging by a stand-alone chemical reaction | |
Fogel et al. | Evolutionary computation in bioinformatics | |
Zhang | Advanced analysis of gene expression microarray data | |
Sprinzak et al. | Correlated sequence-signatures as markers of protein-protein interaction | |
EP2923293B1 (en) | Efficient comparison of polynucleotide sequences | |
NL2023311B9 (en) | Artificial intelligence-based generation of sequencing metadata | |
Klie et al. | Biological cluster evaluation for gene function prediction | |
ES2292110T3 (es) | Programa de ordenador para ayudar en la identificacion de snps (polimorfismos de un solo nucleotido) con microformaciones. | |
US20070143031A1 (en) | Method of analyzing a bio chip | |
Rahmann | The shortest common supersequence problem in a microarray production setting | |
Metzger et al. | Epistasis facilitates functional evolution in an ancient transcription factor | |
US20050177315A1 (en) | Feature extraction of partial microarray images | |
Moore et al. | Cellular automata and genetic algorithms for parallel problem solving in human genetics | |
Li | Inferring gene regulatory networks from time series microarray data | |
Lee et al. | Evolution strategy applied to global optimization of clusters in gene expression data of DNA microarrays | |
Huda et al. | MTBGD: Mutli Type Biclustering for Genomic Data | |
Popa et al. | Hardness and approximation of the asynchronous border minimization problem | |
Zand | Network-Based Unsupervised Machine Learning for Single Cell Data Analysis | |
Danford et al. | Discovering regulatory overlapping RNA transcripts | |
Zhao et al. | Spatial Reconstruction of Oligo and Single Cells by De Novo Coalescent Embedding of Transcriptomic Networks | |
Abdullah et al. | Biclustering gene expression data in the presence of noise | |
Jha | Computational Physics | |
Qin | New machine-learning-based techniques for DNA microarray image segmentation. | |
Warfsmann | A Nonlinear systemic approach to genome analysis | |
Cheng | New microarray image segmentation using Segmentation Based Contours method |