ES2609479T3 - Procedimiento implementado por ordenador y sistema informático para la identificación de organismos - Google Patents

Procedimiento implementado por ordenador y sistema informático para la identificación de organismos Download PDF

Info

Publication number
ES2609479T3
ES2609479T3 ES05798706.7T ES05798706T ES2609479T3 ES 2609479 T3 ES2609479 T3 ES 2609479T3 ES 05798706 T ES05798706 T ES 05798706T ES 2609479 T3 ES2609479 T3 ES 2609479T3
Authority
ES
Spain
Prior art keywords
sequences
sequence
specific
organism
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05798706.7T
Other languages
English (en)
Inventor
Stefan Emler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SmartGene GmbH
Original Assignee
SmartGene GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SmartGene GmbH filed Critical SmartGene GmbH
Application granted granted Critical
Publication of ES2609479T3 publication Critical patent/ES2609479T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry

Abstract

Un procedimiento implementado por ordenador para identificar tipos de organismos a partir de una secuencia genética diana, que comprende: recibir la secuencia genética diana; seleccionar automáticamente en una base de datos (4) a partir de una pluralidad de perfiles (42) de secuencias específicas de tipos de organismos, en el que cada perfil (42) de secuencias define regiones de secuencias informativas para la diferenciación de los tipos de organismos individuales e incluye información específica de la posición relacionada con más de una secuencia (41) de referencia asociada de un tipo de organismo específico, en el que un perfil (42) de secuencias seleccionado tiene una correlación más alta con la secuencia genética diana en base a dicha información específica de la posición del perfil específico del tipo de organismo relacionado; recuperar automáticamente desde la base de datos (4) secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado; comparar automáticamente la secuencia genética diana con las secuencias (41) de referencia y ponderar automáticamente los resultados de comparación relacionados con las regiones de secuencias informativas usando factores de ponderación asociados con las regiones de secuencias informativas definidas en el perfil de secuencias seleccionado; determinar a partir de las secuencias (41) de referencia una secuencia (41) de referencia específica del tipo de organismo que tiene una mejor coincidencia con la secuencia genética diana, en el que la mejor coincidencia se determina en base a los resultados de comparación ponderados para las regiones de secuencias informativas; y asignar a la secuencia genética diana un tipo de organismo en base a la secuencia de referencia específica del tipo de organismo con la mejor coincidencia.

Description

5
10
15
20
25
30
35
40
45
50
55
60
DESCRIPCION
Procedimiento implementado por ordenador y sistema informatico para la identificacion de organismos
La presente invention se refiere a un procedimiento implementado por ordenador y un sistema informatico para la identificacion de organismos. Espedficamente, la presente invencion se refiere a un procedimiento implementado por ordenador y un sistema informatico para la identificacion de tipos de organismos a partir de una secuencia genetica diana. La presente invencion se refiere tambien a un producto de programa de ordenador para controlar el sistema basado en ordenador de manera que el sistema ejecute el procedimiento de identificacion de tipos de organismos a partir de la secuencia genetica diana.
Los diagnosticos medicos dependen cada vez mas del analisis de dianas geneticas de seres humanos o microorganismos. Tfpicamente, este analisis se basa en la comparacion de una secuencia genetica diana individual con secuencias de referencia obtenidas de una base de datos de referencia. La secuencia de referencia con una coincidencia mas estrecha es recuperada desde la base de datos de referencia. De esta manera, para la identificacion de tipos de organismos a partir de una secuencia genetica diana, los procedimientos y sistemas convencionales comparan y recuperan las secuencias de referencia con respecto a su similitud con la secuencia diana. Convencionalmente, la similitud se determina a partir de coincidencias globales a lo largo del segmento comun mas largo de las secuencias diana y de referencia. Se tiene en cuenta el numero de errores de coincidencia en un segmento independientemente de sus posiciones. Por ejemplo, en microbiologfa, el proyecto de base de datos ribosomica (Ribosomal Database Project, RDP-II), accesible en
http://rdp.cme.msu.edu/, la diferenciacion ribosomica de microorganismos (Ribosomal Differentiation of Microorganisms, RIDOM™), accesible en
http://www.ridom.de/, y la base de datos europea de ARN ribosomico, accesible en
http://www.psb.ugent.be/rRNA/, ofrecen servicios de clasificacion basados en secuencias rADN 16S (acido desoxirribonucleico ribosomico) bacterianas. En estos sistemas, se usan procedimientos que incluyen las etapas siguientes: (i) comparar la secuencia diana con una base de datos de secuencias de referencia de ADNr 16S, produciendo un conjunto de secuencias estrechamente coincidentes; (ii) construir un alineamiento multiple de secuencias (Multiple Sequence Alignment, MSA) a partir de la secuencia diana y este conjunto de secuencias de referencia; (iii) extraer una matriz de distancias a partir de la MSA, y usar esta matriz para construir un arbol evolutivo; (iv) colocar la secuencia de consulta en el arbol, y visualizar las relaciones resultantes. Sin embargo, estos sistemas no discriminan entre diferencias entre secuencias que podnan ser triviales en origen, por ejemplo, debido a errores de secuenciacion o variaciones biologicamente no importantes, y diferencias encontradas en posiciones que se sabe que son diagnosticas de diferencias entre cepas o entre especies. Por consiguiente, en estos sistemas, los errores de secuenciacion o las mutaciones aleatorias en regiones que no son significativas tienen el mismo impacto sobre la clasificacion de secuencias que los errores de coincidencia en ciertas regiones variables relacionadas con el genero o la especie, por ejemplo. Debido a que las posiciones de estas regiones variables no se conocen antes de la identificacion del tipo de organismo (por ejemplo, genero, especie, sub-tipo, variante o clado) de una muestra determinada, la metodologfa basada en la comparacion de secuencias depende mucho del usuario y requiere un nivel de experiencia que no se encuentra facilmente en los laboratorios de diagnostico.
Un objeto de la presente invencion es proporcionar un procedimiento implementado por ordenador y un sistema informatico para la identificacion de tipos de organismos a partir de una secuencia genetica diana, en el que el tipo de organismo incluye entidad, genero, especie, subtipo, variante y/o clado asociados con el organismo, cuyos sistema y procedimiento no tengan las desventajas de la tecnica anterior. En particular, un objeto de la presente invencion es proporcionar un procedimiento implementado por ordenador y un sistema informatico para la identificacion de tipos de organismos a partir de una secuencia genetica diana, cuyos sistema y procedimiento discriminen entre diferencias triviales y significativas entre secuencias. Las referencias realizadas en la presente memoria al termino "organismo" o "tipo de organismo" se entendera que incluyen los terminos "entidad", "genero", "especie", "sub-tipo", "grupo", "cepa", "variante" y/o "clado" en el contexto de la clasificacion taxonomica.
Segun la presente invencion, los objetos anteriores se consiguen particularmente mediante las caractensticas de las reivindicaciones independientes. Ademas, a partir de las reivindicaciones dependientes y la description se desprenden realizaciones ventajosas adicionales.
Segun la presente invencion, los objetos indicados anteriormente se consiguen particularmente en el sentido de que, para identificar los tipos de organismos a partir de una secuencia genetica diana, seleccionado automaticamente desde una base de datos hay un perfil de secuencias seleccionado que tiene una correlation mas alta con la secuencia genetica diana en base a information espedfica de la position del perfil espedfico del tipo de organismo relacionado. El perfil de secuencias se selecciona de entre una pluralidad de perfiles espetificos del tipo de organismo en la base de datos, en el que cada perfil define regiones de secuencias informativas para diferenciar los tipos de organismos individuales e incluye dicha informacion espedfica de la posicion relacionada con mas de una secuencia de referencia asociada de un tipo de organismo espedfico. Preferiblemente, los perfiles espetificos del tipo incluyen perfiles espedficos del genero o espedficos del grupo; ademas, los perfiles espedficos del tipo pueden incluir perfiles espedficos de la especie, espetificos
5
10
15
20
25
30
35
40
45
50
55
60
del sub-tipo, especficos de la variante y/o especficos del clado. Las secuencias de referencia, asociadas con el perfil de secuencias seleccionado, son recuperadas automaticamente desde la base de datos. La secuencia genetica diana es comparada automaticamente con las secuencias de referencia y los resultados de la comparacion, relacionados con las regiones de secuencias informativas, son ponderados de manera automatica usando factores de ponderacion asociados con las regiones de secuencias informativas definidas en el perfil de secuencias seleccionado. Posteriormente, a partir de las secuencias de referencia, se determina una secuencia de referencia espedfica del tipo del organismo que tiene una mejor coincidencia con la secuencia genetica diana, en el que la mejor coincidencia se determina en base a los resultados de la comparacion ponderados para las regiones de secuencias informativas. La secuencia de referencia especfica del tipo que tiene la mejor coincidencia con la secuencia genetica diana, considerando los resultados ponderados de la comparacion, se selecciona de manera automatica o se establece como una entrada superior en una lista ordenada. La ponderacion de los resultados de comparacion para las regiones de secuencias informativas hace que sea posible identificar el tipo de organismo a partir de la secuencia genetica diana, mientras se discrimina entre diferencias triviales e importantes entre secuencias. Los resultados obtenidos mediante una busqueda de perfiles y el alineamiento ponderado proporcionaran una medida que refleja la asignacion correcta del tipo de organismo en bacteriologfa, micologfa y virologfa. Por consiguiente, se mejora la asignacion de tipos de organismos, por ejemplo especies bacterianas y fungicas o subtipos virales. Los tipos de organismos se asignan no solo en base a criterios estadfsticos, sino tambien en base a perfiles biologicamente relevantes. Por consiguiente, se derivan resultados mas fiables para el analisis de secuencias en una disposicion rutinaria de facil uso. Generalmente, el tiempo necesario para producir resultados se acorta y el tratamiento de los pacientes se beneficiara de unos resultados mas rapidos y precisos.
En una realizacion, los resultados de la comparacion incluyen un numero de diferencias y/o correspondencias en los codigos de nucleotidos de cada una de las secuencias de referencia en comparacion con la secuencia genetica diana (codigos de nucleotidos que incluyen tambien codigos IUPAC (International Union of Pure and Applied Chemistry, union internacional de codigos de qmmica pura y aplicada)). La ponderacion los resultados de la comparacion incluye determinar para cada secuencia de referencia un numero ponderado de diferencias y/o correspondencias multiplicando con un factor de ponderacion el numero de diferencias y/o correspondencias relacionadas con las regiones de secuencias informativas. Ademas, hay almacenada una lista de las secuencias de referencia, ordenada por el numero ponderado de diferencias y/o correspondencias de la secuencia de referencia respectiva.
En una realizacion preferida, la secuencia genetica diana y las secuencias de referencia asociadas con el perfil de secuencias seleccionado se evaluan para nuevas regiones de secuencias informativas para el perfil seleccionado. Ademas, el perfil seleccionado es adaptado mediante el almacenamiento de una nueva region de secuencia informativa como una parte del perfil de secuencias seleccionado. El refinamiento del perfil de secuencias con regiones de secuencias informativas recientemente identificadas hace que sea posible considerar aspectos evolutivos de los organismos, por ejemplo, relaciones evolutivas entre especies y cepas. La adaptacion continua de los perfiles de secuencias ayuda a ajustar las anotaciones filogeneticas y, en ultima instancia, taxonomicas y, de esta manera, proporcionara informacion importante para los microbiologos y los medicos con relacion a la patogenicidad y la epidemiologfa de microorganismos desconocidos o clasificados erroneamente.
En una realizacion, la evaluacion de la secuencia genetica diana y las secuencias de referencia incluye el alineamiento de la secuencia genetica diana y las secuencias de referencia asociadas con el perfil de secuencias seleccionado, y la identificacion de nuevas regiones de secuencias informativas. Las nuevas regiones de secuencias informativas se determinan mediante la identificacion de los codigos de nucleotidos correspondientes a una misma posicion secuencial en al menos un numero definido de la secuencia genetica diana y las secuencias de referencia.
Preferiblemente, los perfiles de secuencias especficas del tipo de organismo almacenados en la base de datos se determinan mediante el alineamiento de las secuencias geneticas especficas del tipo, mediante la creacion de secuencias de consenso para cada tipo de organismo, mediante la identificacion de las regiones informativas que permiten la diferenciacion de los tipos de organismos individuales, mediante la adicion de informacion de anotacion de secuencia, y mediante la definicion de perfiles de secuencias espedficas del tipo en base a las regiones informativas.
En una realizacion, los perfiles de secuencias especficas del tipo almacenados en la base de datos incluyen perfiles de secuencias especficas del genero o especficas del grupo. Los perfiles especficos del genero o especficos del grupo se determinan mediante el alineamiento de secuencias geneticas espedficas del genero o espedficas del grupo, mediante la creacion de secuencias de consenso para cada tipo de organismo, mediante la identificacion de las regiones informativas que permiten la diferenciacion de los organismos individuales, y mediante la definicion de perfiles de secuencias espedficas del genero o especficas del grupo en base a las regiones informativas.
En una realizacion adicional, la secuencia genetica diana es corregida en base al perfil de secuencias seleccionado mediante la comparacion de la secuencia genetica diana con las secuencias de referencia asociadas con el perfil de secuencias seleccionado. Para las diferencias de codigos de nucleotidos situadas en las regiones de secuencias informativas, se evalua si las diferencias indican o no otro tipo de organismo. La adaptacion del perfil de secuencias
5
10
15
20
25
30
35
40
45
50
55
60
seleccionado se inicia para aquellas diferencias evaluadas como indicativas de otro tipo de organismo. La correccion automatica basada en el perfil de secuencias seleccionado hace que sea posible corregir la secuencia genetica diana mientras se discrimina entre diferencias triviales e importantes entre secuencias.
Preferiblemente, la secuencia genetica diana es recibida por un servidor desde un usuario a traves de una red de telecomunicaciones. Ademas, el tipo organismo de la secuencia genetica diana, definido por la secuencia de referencia espedfica del tipo de organismo, es transmitido por el servidor a traves de la red de telecomunicaciones a una interfaz de usuario. La implementacion del procedimiento en un servidor basado en la red hace que sea posible proporcionar de manera eficiente (en terminos de rendimiento y costes financieros) la identificacion automatica de los tipos de organismos a partir de una secuencia genetica diana como un servicio centralizado, disponible para una pluralidad de usuarios conectados a la red de telecomunicaciones. El uso de una tecnologfa basada en servidor para identificar tipos de organismos a partir de una secuencia genetica diana hace posible que un usuario use su propio equipo informatico sin tener que instalar ningun software o hardware. En la base de datos en red, los perfiles espedficos del tipo pueden ser anadidos y mejorados continuamente en base a secuencias diana suministradas a traves de la red por los usuarios. Ademas, la base de datos de secuencias de referencia, la aplicacion de software, asf como cualquier herramienta de software, pueden ser actualizadas en lmea sin ninguna molestia para los usuarios. Ademas, el servidor basado en red puede permitir el intercambio y la comparticion de datos entre institutos expertos alejados, asf como la evaluation de entradas de base de datos que representan tipos de organismos, por ejemplo, especies bacterianas y fungicas o subtipos vmcos, con respecto a su clasificacion taxonomica. De esta manera, el servidor basado en la red hace posible que los expertos re-evaluen y validen conjuntos de datos de referencia para bacterias, micobacterias, hongos y virus.
Ademas de un procedimiento implementado por ordenador y un sistema informatico para la identificacion de tipos de organismos a partir de una secuencia genetica diana, la presente invention se refiere tambien a un producto de programa de ordenador que incluye medios de codigo de programa de ordenador para controlar uno o mas procesadores del sistema informatico de manera que el sistema ejecute el procedimiento de identificacion de los tipos de organismos a partir de una secuencia genetica diana. En particular, un producto de programa de ordenador que incluye unos medios legibles por ordenador que contienen los medios de codigo de programa de ordenador (por ejemplo, modulos de software programados, tal como se describe mas detalladamente mas adelante).
La presente invencion se explicara mas detalladamente, a modo de ejemplo, con referencia a los dibujos, en los que:
La Figura 1 muestra un diagrama de bloques que ilustra esquematicamente una configuration ejemplar de un sistema informatico para poner en practica las realizaciones de la presente invencion, en el que dicha configuracion comprende un servidor con una base de datos, y dicha configuracion esta conectada a un terminal de entrada de datos a traves de una red de telecomunicaciones.
La Figura 2 muestra un diagrama de flujo que ilustra un ejemplo de una secuencia de etapas para el establecimiento de un perfil de secuencias para un organismo diana.
La Figura 3 muestra un diagrama de flujo que ilustra un ejemplo de una secuencia de etapas ejecutadas segun la presente invencion para la identificacion de un tipo de organismo a partir de una secuencia genetica diana.
La Figura 4 muestra un diagrama de flujo que ilustra un ejemplo de una secuencia de etapas ejecutadas segun la presente invencion para la adaptation de los perfiles de secuencias en base a una secuencia genetica diana.
En la Figura 1, el numero de referencia 1 se refiere a un terminal de entrada de datos. Tal como se ilustra en la Figura 1, el terminal 1 de entrada de datos incluye un ordenador 11 personal con un teclado 12 y un monitor 13 de visualization. Tal como se ilustra esquematicamente, en una realization, el ordenador 11 personal incluye un modulo 14 de usuario implementado como un modulo de software programado, por ejemplo una miniaplicacion (“applet”) de programa ejecutable que se descarga desde el servidor 3 a traves de la red 2 de telecomunicaciones.
Conectado al ordenador 11 personal, hay un secuenciador 5 convencional, que proporciona al ordenador 11 personal datos de secuencia de fragmentos de ADN (acido desoxirribonucleico). Por ejemplo, los datos de secuencia de fragmentos incluyen senales de secuencia e information asociada (por ejemplo, valores de pico) de los fragmentos de ADN, en el que cada senal de secuencia incluye senales de los cuatro tipos de nucleotidos adenina, citosina, guanina y timina (A, C, G, T). En general, las expresiones "secuencia genetica", "secuencia diana" o "secuencia de referencia" se usan en la presente memoria para hacer referencia a una secuencia de codigos de nucleotidos, es decir, una secuencia de codigos, cada uno de los cuales representa uno de los tipos de nucleotidos. Las secuencias estan relacionadas con bacterias, hongos, hongos microscopicos y virus, por ejemplo.
Tal como se ilustra en la Figura 1, el terminal 1 de entrada de datos esta conectado al servidor 3 a traves de una red 2 de telecomunicaciones. Preferiblemente, la red 2 de telecomunicaciones incluye Internet y/o una Intranet, haciendo que el servidor 3 sea accesible como un servidor web a traves de la World Wide Web o dentro de una red IP diferente, respectivamente. La red 2 de telecomunicaciones puede incluir tambien otra red fija, tal como una red de area local (Local Area Network, LAN) o una red digital de servicios integrados (Integrated Services Digital Networkd, ISDN) y/o una red
5
10
15
20
25
30
35
40
45
50
55
inalambrica, tal como una red de radio movil (por ejemplo, sistema global para comunicaciones moviles (Global System for Mobile communication, GSM) o sistema universal de telefoma movil (Universal Mobile Telephone System, UMTS)), o una red de area local inalambrica (Wireless Local Area Network, WLAN). En una realizacion local, el terminal 1 de entrada de datos esta conectado directamente al servidor 3, o el terminal 1 de entrada de datos y el servidor 3 estan implementados en el mismo ordenador, por ejemplo, un PC.
Tal como se ilustra esquematicamente en la Figura 1, el servidor 3 esta conectado a la base de datos 4. El servidor 3 puede incluir uno o mas ordenadores, cada uno con uno o mas procesadores. La base de datos 4 puede estar implementada en un ordenador compartido con el servidor 3 o en un ordenador separado.
El servidor 3 incluye diferentes modulos funcionales, concretamente, un modulo 30 de comunicaciones, un modulo 31 de aplicacion, un modulo 32 de seleccion de perfil, un modulo 33 de recuperacion, un modulo 34 de comparacion, un modulo 35 de determinacion de tipo, un modulo 36 de adaptacion de perfil, un modulo 37 de creacion de perfil, y un modulo 38 de correccion. El modulo 30 de comunicaciones incluye elementos de hardware y software convencionales configurados para intercambiar datos a traves de la red 2 de telecomunicaciones con una pluralidad de terminales 1 de entrada de datos. El modulo 31 de aplicacion es un modulo de software programado configurado para proporcionar una interfaz de usuario a los usuarios del terminal 1 de entrada de datos. Preferiblemente, la interfaz de usuario es proporcionada a traves de un navegador de Internet convencional tal como Microsoft Explorer o Mozilla. De manera alternativa, la interfaz de usuario es generada por el modulo 14 de usuario. Por ejemplo, el modulo 31 de aplicacion transmite una copia del modulo 14 de usuario a traves de la red 2 de telecomunicaciones al ordenador 11 personal del usuario. El modulo 14 de usuario es instalado y activado en el ordenador 11 personal. Cuando esta activo, el modulo 14 de usuario controla un procesador del ordenador 11 personal de manera que genera la interfaz de usuario en pantalla 13. El modulo 32 de seleccion de perfil, el modulo 33 de recuperacion, el modulo 34 de comparacion, el modulo 35 de determinacion de tipo, el modulo 36 de adaptacion de perfil, el modulo 37 de creacion de perfil y el modulo 38 de correccion son modulos de software programado que se ejecutan en un ordenador del servidor 3.
Tal como se ilustra esquematicamente en la Figura 1, la base de datos 4 incluye secuencias 41 de referencia y perfiles 42 de secuencia asociados para diferentes tipos de organismos. Los perfiles 42 se almacenan y se asignan a las secuencias 41 de referencia. Tfpicamente, mas de una secuencia 41 de referencia es asignada a un perfil 42 de secuencias. Los perfiles 42 definen regiones de secuencias informativas para la diferenciacion de organismos individuales, es decir, los perfiles 42 incluyen informacion espedfica de la posicion relacionada con una o mas secuencias 41 de referencia asociadas de un tipo especfico de organismo, es decir, un genero, especie, sub-tipo, variante y/o clado espedficos. La informacion espedfica de la posicion es asignada a una posicion espedfica o a un intervalo de multiples posiciones en una secuencia. El intervalo esta definido, por ejemplo, por una posicion inicial y una posicion final en la secuencia de referencia o por una posicion inicial y una longitud (es decir, numero de posiciones de la secuencia). De manera alternativa, la informacion espedfica de la posicion puede ser representada tambien por medio de modelos ocultos de Markov (Hidden Markov Models, HMM). Aunque no son identicos, los perfiles 42 y HMM son suficientemente similares de manera que pueden ser usados de manera intercambiable en el presente contexto. Los perfiles 42 de secuencia resumen la informacion contenida en un alineamiento multiple de secuencias: el documento de anotaciones espedficas de la posicion, para cada posicion (columna) en el alineamiento, la probabilidad de encontrar un residuo determinado (patron) en esa posicion, el coste de abrir un hueco en el alineamiento antes o despues de esta posicion ("coste de hueco abierto"), y las probabilidades de encontrar residuos particulares inmediatamente antes o despues de la posicion actual. Tal como se ilustra en la Tabla 1, en una realizacion, los perfiles 42 estan provistos de informacion adicional, por ejemplo, la ponderacion asignada a las posiciones individuales en el calculo de las puntuaciones de alineamiento, o los parametros estructurales asociados con intervalos de posiciones.
Perfil de secuencia
Secuencia(s) genetica(s) de referencia asignada(s)
Identificador de perfil
Informacion espedfica de la posicion
Region/ especificacion de posicion
Anotacion Factor de ponderacion
Tabla 1
Los perfiles 42 iniciales son establecidos y almacenados por el modulo 37 de creacion de perfil, tal como se describira a continuacion con referencia a la Figura 2. Un perfeccionamiento y una adaptacion adicionales de los perfiles son proporcionados por el modulo 36 de adaptacion de perfil, tal como se describira mas adelante con referencia a la Figura 4.
Tal como se ilustra en la Figura 2, en la etapa S20, se especifica un organismo diana o grupo de organismos diana. Preferiblemente, el organismo diana esta definido por un genero o especie espedficos. Sin embargo, una persona con conocimientos en la materia entendera que el organismo diana puede estar definido ademas por un sub-tipo, variante y/o
5
10
15
20
25
30
35
40
45
50
55
60
clado. La diana es especificada por un usuario a traves de una interfaz de usuario visualizada en la pantalla 13 o en otro terminal de entrada de datos conectado al servidor 3. Por ejemplo, la diana se selecciona de una lista desplegable o es introducida en un campo de entrada de datos. De manera alternativa, la diana puede ser seleccionada tambien automaticamente por el modulo 37 de creacion de perfil desde una lista de posibles dianas.
En la etapa S21, se seleccionan secuencias de tipo validadas para la diana especificada en la etapa S20. Por ejemplo, las secuencias geneticas validadas son seleccionadas automaticamente por el modulo 37 de creacion de perfil a partir de las secuencias 41 de referencia en la base de datos 4. Sin embargo, al menos inicialmente, las secuencias geneticas validadas son recuperadas desde una base de datos de referencia validada o son seleccionadas e introducidas por una persona experta usando el terminal 1 de entrada de datos. Las secuencias de tipo validadas para la diana especificada cubren todas las posiciones variables conocidas, es decir, todas las regiones de secuencias informativas (posiciones) que se sabe que son diagnosticas de diferencias entre cepas o entre especies y, de esta manera, indicativas de tipos de organismos (incluyendo genero, especie, sub-tipo, variante y/o clado).
En la etapa S22, usando el modulo 37 de creacion de perfil, se genera una semilla MSA (alineamiento multiple de secuencias) a partir de las secuencias de tipo validadas seleccionadas en la etapa S21. En particular, usando el modulo 37 de creacion de perfil, se alinean las secuencias de tipo y se crea una secuencia de consenso para el tipo de organismo respectivo.
En la etapa S23, se identifican regiones informativas que permiten la diferenciacion de tipos de organismos individuales. Usando el modulo 37 de creacion de perfil, el MSA generado en la etapa S22 es provisto de anotaciones para estructuras secundarias (regiones de emparejamiento 3' y 5'), y para posiciones que se sabe que son diagnosticas de diferencias entre cepas o entre especies en el organismo diana, es decir, posiciones que se sabe que son indicativas de los tipos de organismos (incluyendo genero, especie, sub-tipo, variante y/o clado).
En la etapa S24, el modulo 37 de creacion de perfil convierte el MSA anotado en uno o mas perfiles anotados y almacena estos perfiles 42 en la base de datos 4.
En la etapa S25, usando el modulo 37 de creacion de perfil, los perfiles 42 almacenados en la etapa S24 son calibrados de manera iterativa. La calibracion iterativa se consigue usando el perfil o los perfiles para buscar una coleccion de secuencias de referencia (validadas por expertos) que se sabe que pertenecen o que no pertenecen al tipo de organismo respectivo, es decir, genero, especie, sub-tipo, variante y/o clado.
En la etapa S26, usando el modulo 37 de creacion de perfil, la anotacion de los perfiles 42 es enriquecida mediante la inclusion de posiciones que discriminan entre el organismo diana y otros generos.
En la etapa S27, los perfiles anotados son validados por personas expertas en la materia y por medio de estadfsticas de secuencias de muestra disponibles. Para fines de validacion, los perfiles 42 almacenados en la base de datos 4 se ponen a disposicion de los expertos a traves del servidor 3 y la red 2 de telecomunicaciones. Por ejemplo, los perfiles validados son provistos de un indicador, o un certificado o firma electronicos en la base de datos 4.
En los parrafos siguientes, la identificacion de un tipo de organismo a partir de una secuencia genetica diana se describe con referencia a la Figura 3.
En la etapa S1, una secuencia genetica diana es recibida por el modulo 30 de comunicaciones a traves de la red 2 de telecomunicaciones. La secuencia genetica diana es proporcionada por el terminal 1 de entrada de datos. Por ejemplo, la secuencia genetica diana esta almacenada en el ordenador 11 personal o es generada a partir de los datos de secuencia de fragmentos de ADN proporcionados por un secuenciador 5. Preferiblemente, la secuencia genetica diana es definida por un usuario a traves de una interfaz de usuario visualizada en la pantalla 13 por el modulo 31 de aplicacion o por el modulo 14 de usuario. Posteriormente, el procedimiento para identificar el tipo de organismo se inicia automaticamente. De manera alternativa, el procedimiento es iniciado por el usuario al activar un elemento de control, tal como un pulsador grafico, en la interfaz de usuario.
En la etapa S2, el modulo 32 de seleccion de perfil determina en la base de datos 4 el perfil 42 de secuencia que tiene la correlacion mas alta con la secuencia genetica diana recibida en la etapa S1. El grado de correlacion entre la secuencia genetica diana y los perfiles 42 de secuencia se determina en base a la informacion espedfica de la posicion contenida en los perfiles 42 de secuencias, es decir, el modulo 32 de seleccion de perfil usa las anotaciones de perfil en las regiones de secuencias informativas para seleccionar el perfil 42 que tiene la mejor coincidencia con la secuencia genetica diana. Preferiblemente, el perfil de secuencias con la mejor coincidencia se determina aplicando para cada perfil sus factores de ponderacion especficos de la posicion a las desviaciones y/o las correspondencias de la secuencia diana con relacion al perfil.
5
10
15
20
25
30
35
40
45
50
55
60
En la etapa S3, el modulo 33 de recuperacion carga desde la base de datos 4 las secuencias 41 geneticas de referencia asociadas con el perfil 42 de secuencia seleccionado en la etapa S2.
En la etapa S4, el modulo 34 de comparacion compara la secuencia genetica diana, recibida en la etapa S1, con una de las secuencias geneticas de referencia, recuperada en la etapa S3. Ademas, el modulo 34 de comparacion pondera los resultados de comparacion con los factores de ponderacion asociados con el perfil de secuencias, particularmente, los factores de ponderacion asociados con las regiones de secuencias informativas. Por consiguiente, los resultados de comparacion relacionados con una primera region de secuencia pueden ser ponderados con otro factor de ponderacion distinto al de los resultados de comparacion relacionados con otra segunda region de secuencia. De esta manera, el modulo 34 de comparacion pondera el numero de diferencias y/o el numero de correspondencias, entre la secuencia genetica diana y la secuencia genetica de referencia respectiva, usando factores de ponderacion asociados con las regiones de secuencias informativas descritas en el perfil 42.
En la etapa S6, el modulo 34 de comparacion almacena una puntuacion, indicativa del nivel de coincidencia, asignada a la secuencia genetica de referencia respectiva. La puntuacion se basa en los resultados de comparacion ponderados. Por ejemplo, el modulo 34 de comparacion almacena una puntuacion basada en el numero ponderado de diferencias y/o correspondencias.
En la etapa S7, el modulo 31 de aplicacion comprueba si hay o no secuencias geneticas de referencia adicionales asignadas al perfil seleccionado que deben ser procesadas. Si hay mas secuencias de referencia a ser procesadas, el procesamiento continua en la etapa S4. De lo contrario, si se han procesado todas las secuencias de referencia asignadas al perfil seleccionado, el procesamiento continua en la etapa S8.
En la etapa S8 opcional, el modulo 35 de determinacion de tipo genera una lista completa o parcial de las secuencias de referencia asignadas al perfil seleccionado. La lista esta ordenada por la puntuacion asignada a las secuencias de referencia. Por ejemplo, la lista (con sus entradas y puntuaciones asignadas) es transmitida a traves de la red 2 de telecomunicaciones al terminal 1 de entrada de datos, donde se muestra al usuario en la pantalla 13.
En la etapa S9, el modulo 35 de determinacion de tipo determina la secuencia genetica de referencia espedfica del tipo que tiene la mejor coincidencia con la secuencia genetica diana. El modulo 35 de determinacion de tipo determina la secuencia genetica de referencia especfica del tipo en base a las puntuaciones asignadas, es decir, los resultados de comparacion ponderados, por ejemplo, el numero ponderado de diferencias y/o correspondencias asignado a las secuencias de referencia recuperadas en la etapa S3. Por ejemplo, la secuencia genetica de referencia espedfica del tipo se define por el numero ponderado mas bajo de diferencias y/o el numero ponderado mas alto de correspondencias. La informacion del tipo asociada con la secuencia genetica de referencia espedfica del tipo es seleccionada para definir el tipo de organismo de la secuencia genetica diana. De esta manera, el tipo de organismo de la secuencia genetica diana es definido por el genero, especie, sub-tipo, variante y/o clado asociados con la secuencia genetica de referencia espedfica del tipo. Preferiblemente, el tipo de organismo y su puntuacion asignada son transmitidos por el modulo 30 de comunicaciones a traves de la red 2 de telecomunicaciones al terminal 1 de entrada de datos, donde el tipo de organismo y su puntuacion asignada se muestran al usuario en la pantalla 13.
Tal como se ilustra en la Figura 4, en una realizacion, despues de las etapas S1 a S9, la secuencia genetica diana recibida en la etapa S1 es usada para refinar el perfil 42 de secuencia seleccionado en la etapa S2. En la etapa S10 opcional, el modulo 36 de adaptacion de perfil almacena la secuencia genetica diana como una secuencia genetica de referencia en la base de datos 4, asignada al perfil 42 seleccionado en la etapa S2. En una realizacion, la secuencia genetica diana es almacenada como una secuencia genetica de muestra en la base de datos 4. El refinamiento del perfil 42 de secuencia es desencadenado, por ejemplo, por un numero definido de muestras y/o estadfsticas almacenadas de muestras y secuencias de referencia almacenadas.
En la etapa S11, el modulo 36 de adaptacion de perfil evalua la nueva secuencia genetica de referencia de la etapa S10, o una o mas secuencias geneticas de muestra almacenadas en la etapa S10, para las nuevas regiones de secuencias informativas. En particular, el modulo 36 de adaptacion de perfil determina si las secuencias geneticas de referencia (y posiblemente secuencias geneticas de muestra), asignadas al perfil 42 de secuencia respectivo tienen o no regiones de secuencias informativas que todavfa no estan incluidas en el perfil de secuencias pero indican un tipo de organismo, es decir, un genero, especie, sub-tipo, variante y/o clado. En esencia, el modulo 36 de adaptacion de perfil determina las posiciones o regiones de secuencia que tienen una correlacion a lo largo de las secuencias geneticas de referencia respectivas (y, posiblemente, las secuencias geneticas de muestra) que supera un umbral de correlacion definido. Por ejemplo, el modulo 36 de adaptacion de perfil alinea la nueva secuencia de referencia (y, posiblemente, las secuencias geneticas de muestra) y las secuencias de referencia relacionadas con el perfil seleccionado, e identifica nuevas regiones de secuencias informativas mediante la identificacion de los codigos de nucleotidos correspondientes en la misma posicion secuencial en al menos un numero definido de la nueva secuencia de referencia (y, posiblemente, las secuencias geneticas de muestra) y las secuencias de referencia.
5
10
15
20
25
30
35
40
45
En la etapa S12, el modulo 36 de adaptacion de perfil determina si hay o no una o mas regiones de secuencias informativas nuevas. Si hay regiones de secuencias informativas nuevas, el procesamiento continua en la etapa S13. De lo contrario, el procesamiento de la secuencia genetica diana termina en la etapa S14.
En la etapa S13, en base a la region o las regiones de secuencias informativas nuevas determinadas en la etapa S11, el modulo 36 de adaptacion de perfil adapta el perfil de secuencias seleccionado en la etapa S2. De esta manera, el perfil de secuencias seleccionado en la etapa S2 es refinado anadiendo la region o las regiones de secuencias informativas nuevas al perfil de secuencias. Posteriormente, el perfil de secuencias refinado puede ser sometido a una calibracion y una validacion iterativas, tal como se describe en el contexto de las etapas S25 y S27.
El modulo 38 de correccion esta configurado para ayudar a corregir, o corregir automaticamente, la secuencia genetica diana, recibida en la etapa S1, en base al perfil de secuencias, seleccionado en la etapa S2. Para ayudar a un usuario en la correccion de la secuencia diana, el modulo 38 de correccion indica en un interfaz de usuario cualquier region de secuencia informativa que permite la diferenciacion del tipo de organismo. Preferiblemente, esta indicacion es proporcionada en un alineamiento de secuencia diana, secuencia o secuencias de referencia y/o una secuencia de consenso, mostradas en la interfaz de usuario, poniendo de relieve visualmente las regiones de secuencias informativas. Para proporcionar correccion automatica, para las diferencias que surgen de los codigos de nucleotidos situados en las regiones de secuencias informativas, indicativas de tipos de organismos, el modulo 38 de correccion calcula los valores de la probabilidad de que la diferencia sea debida a un error en la secuencia diana o que la diferencia indique otro tipo de organismo. Ademas, el modulo 38 de correccion aplica valores de umbral a los valores de probabilidad calculados y corrige automaticamente un error (por ejemplo, en la secuencia de consenso), o inserta (en la secuencia de consenso) un codigo especial que indica ambiguedad, por ejemplo un codigo IUPAC (union internacional de qmmica pura y aplicada), o desencadena una adaptacion del perfil de secuencias, tal como se ha descrito anteriormente con referencia a las Figuras 2 y 4.
En la descripcion de las realizaciones representativas de la invencion, la memoria descriptiva puede haber presentado el procedimiento y/o el proceso como una secuencia particular de etapas. Sin embargo, en la medida en que el procedimiento o proceso no depende del orden particular de las etapas establecido en la presente memoria, el procedimiento o proceso no debena estar limitado a la secuencia de etapas particular descrita. Tal como apreciara una persona con conocimientos ordinarios en la materia, son posibles otras secuencias de etapas. Por lo tanto, el orden particular de las etapas expuestas en la memoria descriptiva no debena interpretarse como una limitacion de las reivindicaciones.
La descripcion anterior de las realizaciones de la invencion ha sido presentada con fines ilustrativos y descriptivos. No pretende ser exhaustiva ni limitar la invencion a las formas precisas descritas. Muchas variaciones y modificaciones de las realizaciones descritas en la presente memoria seran evidentes para una persona con conocimientos ordinarios en la materia a la luz de la descripcion anterior. El alcance de la invencion esta definido solamente por las reivindicaciones adjuntas, y por sus equivalentes. En particular, ademas de los sectores de la bacteriologfa, micologfa y virologfa, la presente invencion puede ser aplicada tambien en cualquier otro sector en el que esten implicadas busquedas de similitud de secuencias, por ejemplo, en enfermedades humanas y veterinarias y predisposiciones a enfermedades (por ejemplo, cancer), en enfermedades infecciosas tales como HBV, HIV, etc., asf como en la tipificacion de animales, seres humanos, plantas, microorganismos y virus.

Claims (27)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    REIVINDICACIONES
    1. Un procedimiento implementado por ordenador para identificar tipos de organismos a partir de una secuencia genetica diana, que comprende:
    recibir la secuencia genetica diana;
    seleccionar automaticamente en una base de datos (4) a partir de una pluralidad de perfiles (42) de secuencias espedficas de tipos de organismos, en el que cada perfil (42) de secuencias define regiones de secuencias informativas para la diferenciacion de los tipos de organismos individuales e incluye informacion espedfica de la posicion relacionada con mas de una secuencia (41) de referencia asociada de un tipo de organismo espedfico, en el que un perfil (42) de secuencias seleccionado tiene una correlacion mas alta con la secuencia genetica diana en base a dicha informacion espedfica de la posicion del perfil espedfico del tipo de organismo relacionado;
    recuperar automaticamente desde la base de datos (4) secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado;
    comparar automaticamente la secuencia genetica diana con las secuencias (41) de referencia y ponderar automaticamente los resultados de comparacion relacionados con las regiones de secuencias informativas usando factores de ponderacion asociados con las regiones de secuencias informativas definidas en el perfil de secuencias seleccionado;
    determinar a partir de las secuencias (41) de referencia una secuencia (41) de referencia espedfica del tipo de organismo que tiene una mejor coincidencia con la secuencia genetica diana, en el que la mejor coincidencia se determina en base a los resultados de comparacion ponderados para las regiones de secuencias informativas; y
    asignar a la secuencia genetica diana un tipo de organismo en base a la secuencia de referencia espedfica del tipo de organismo con la mejor coincidencia.
  2. 2. Procedimiento segun la reivindicacion 1, en el que los resultados de la comparacion incluyen un numero de diferencias en los codigos de nucleotidos de cada una de las secuencias (41) de referencia en comparacion con la secuencia genetica diana; en el que la ponderacion de los resultados de la comparacion incluye determinar para cada secuencia (41) de referencia un numero ponderado de diferencias multiplicando con un factor de ponderacion el numero de diferencias relacionadas con las regiones de secuencias informativas; y en el que el procedimiento incluye ademas almacenar una lista de las secuencias (41) de referencia, en el que la lista esta ordenada por el numero ponderado de diferencias de la secuencia (41) de referencia correspondiente.
  3. 3. Procedimiento segun una de las reivindicaciones 1 o 2, en el que los resultados de la comparacion incluyen un numero de correspondencias en los codigos de nucleotidos de cada una de las secuencias (41) de referencia en comparacion con la secuencia genetica diana; en el que la ponderacion de los resultados de la comparacion incluye determinar para cada secuencia (41) de referencia un numero ponderado de correspondencias multiplicando con un factor de ponderacion el numero de correspondencias relacionadas con las regiones de secuencias informativas; y en el que el procedimiento incluye ademas almacenar una lista de las secuencias (41) de referencia, en el que la lista esta ordenada por el numero ponderado de correspondencias de la secuencia (41) de referencia correspondiente.
  4. 4. Procedimiento segun una de las reivindicaciones 1 a 3, en el que la secuencia genetica diana y las secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado se evaluan para nuevas regiones de secuencias informativas para el perfil (42) de secuencias seleccionado; y en el que el perfil (42) de secuencias seleccionado es adaptado mediante el almacenamiento de una nueva region de secuencia informativa como una parte del perfil (42) de secuencias seleccionado.
  5. 5. Procedimiento segun la reivindicacion 4, en el que la evaluacion de la secuencia genetica diana y las secuencias (41) de referencia incluye el alineamiento de la secuencia genetica diana y las secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado, y la identificacion de las nuevas regiones de secuencias informativas mediante la identificacion de los codigos de nucleotidos correspondientes a una misma posicion secuencial en al menos un numero definido de la secuencia genetica diana y las secuencias (41) de referencia.
  6. 6. Procedimiento segun una de las reivindicaciones 1 a 5, en el que los perfiles (42) de secuencias espedficas del tipo de organismo almacenados en la base de datos (4) se determinan mediante el alineamiento de las secuencias geneticas espedficas del tipo de organismo, mediante la creacion de secuencias de consenso para cada tipo de organismo, mediante la identificacion de las regiones informativas que permiten la diferenciacion de los tipos de organismos individuales, y mediante la definicion de los perfiles (42) de secuencias espedficas del tipo de organismo en base a las regiones informativas.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
  7. 7. Procedimiento segun la reivindicacion 6, en el que los perfiles (42) de secuencias espedficas del tipo de organismo almacenados en la base de datos (4) incluyen perfiles (42) de secuencias espedficas del genera o espedficas del grupo, y en el que los perfiles (42) de secuencias espedficas del genera o espedficas del grupo se determinan mediante el alineamiento de las secuencias geneticas espedficas del genero o espedficas del grupo, mediante la creacion de secuencias de consenso para cada tipo de organismo, mediante la identificacion de las regiones informativas que permiten la diferenciacion de los tipos de organismos individuales, y mediante la definicion de los perfiles (42) de secuencias espedficas del genero o espedficas del grupo en base a las regiones informativas.
  8. 8. Procedimiento segun una de las reivindicaciones 1 a 7, en el que la secuencia genetica diana es corregida en base al perfil (42) de secuencias seleccionado mediante la comparacion de la secuencia genetica diana con las secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado, mediante la evaluacion para las diferencias de los codigos de nucleotidos, situados en las regiones de secuencias informativas, de si las diferencias indican o no otro tipo de organismo, e iniciando la adaptacion del perfil (42) de secuencias seleccionado para las diferencias evaluadas como indicativas de otro tipo de organismo.
  9. 9. Procedimiento segun una de las reivindicaciones 1 a 8, en el que la secuencia genetica diana es recibida por un servidor (3) desde un usuario a traves de una red (2) de telecomunicaciones; y en el que el tipo de organismo de la secuencia genetica diana, definido por la secuencia (41) de referencia espedfica del tipo de organismo, es transmitido por el servidor (3) a traves de la red (2) de telecomunicaciones a una interfaz de usuario.
  10. 10. Un sistema informatico para la identificacion de tipos de organismos a partir de una secuencia genetica diana, en el que el sistema comprende:
    una base de datos (4) que comprende una pluralidad de perfiles (42) de secuencias espedficas del tipo de organismo, en el que cada perfil (42) de secuencias define regiones de secuencias informativas para diferenciar tipos de organismos individuales e incluye informacion espedfica de la posicion relacionada con mas de una secuencia (41) de referencia asociada de un tipo de organismo espedfico; un modulo (32) de seleccion de perfil (42) configurado para seleccionar automaticamente, a partir de dichos perfiles (42) de secuencias, un perfil (42) de secuencias seleccionado que tiene una correlacion mas alta con la secuencia genetica diana en base a dicha informacion espedfica de la posicion del perfil espedfico del tipo de organismo relacionado;
    un modulo (33) de recuperacion configurado para recuperar automaticamente desde la base de datos (4)
    secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado;
    un modulo (34) de comparacion configurado para comparar automaticamente la secuencia genetica diana
    con las secuencias (41) de referencia y ponderar automaticamente los resultados de la comparacion
    relacionados con las regiones de secuencias informativas usando factores de ponderacion asociados con
    las regiones de secuencias informativas definidas en el perfil de secuencias seleccionado;
    un modulo (35) de determinacion de tipo configurado para determinar, a partir de las secuencias (41) de
    referencia, una secuencia (41) de referencia espedfica del tipo de organismo que tiene una mejor
    coincidencia con la secuencia genetica diana, en el que la mejor coincidencia se determina en base a los
    resultados de comparacion ponderados para las regiones de secuencias informativas; y
    asignar a la secuencia genetica diana un tipo de organismo en base a la secuencia de referencia espedfica
    del tipo de organismo con la mejor coincidencia.
  11. 11. Sistema segun la reivindicacion 10, en el que los resultados de la comparacion incluyen un numero de diferencias en los codigos de nucleotidos de cada una de las secuencias (41) de referencia en comparacion con la secuencia genetica diana; en el que el modulo (34) de comparacion esta configurado para determinar, para cada secuencia (41) de referencia, un numero ponderado de diferencias multiplicando con un factor de ponderacion el numero de diferencias relacionadas con las regiones de secuencias informativas; y en el que el modulo (35) de determinacion de tipo esta configurado para almacenar una lista de las secuencias (41) de referencia, en el que la lista esta ordenada por el numero ponderado de diferencias de la secuencia (41) de referencia respectiva.
  12. 12. Sistema segun una de las reivindicaciones 10 u 11, en el que los resultados de la comparacion incluyen un numero de correspondencias en los codigos de nucleotidos de cada una de las secuencias (41) de referencia en comparacion con la secuencia genetica diana; en el que el modulo (34) de comparacion esta configurado para determinar, para cada secuencia (41) de referencia, un numero ponderado de correspondencias multiplicando con un factor de ponderacion el numero de correspondencias relacionadas con las regiones de secuencias informativas; y en el que el modulo (35) de determinacion de tipo esta configurado para almacenar una lista de secuencias (41) de referencia, en el que la lista esta ordenada por el numero ponderado de correspondencias de la secuencia (41) de referencia respectiva.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
  13. 13. Sistema segun una de las reivindicaciones 10 a 12, que comprende ademas un modulo (36) de adaptacion de perfil (42) configurado para evaluar la secuencia genetica diana y las secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado para nuevas regiones de secuencias informativas para el perfil (42) de secuencias seleccionado, y para adaptar el perfil (42) de secuencias seleccionado mediante el almacenamiento de una nueva region de secuencia informativa como parte del perfil (42) de secuencias seleccionado.
  14. 14. Sistema segun la reivindicacion 13, en el que el modulo (36) de adaptacion de perfil (42) esta configurado para alinear la secuencia genetica diana y las secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado, y para identificar las nuevas regiones de secuencias informativas mediante la identificacion de los codigos de nucleotidos correspondientes a una misma posicion secuencial en al menos un numero definido de la secuencia genetica diana y las secuencias (41) de referencia.
  15. 15. Sistema segun una de las reivindicaciones 10 a 14, que comprende ademas un modulo (37) de creacion de perfil configurado para determinar los perfiles (42) de secuencias espedficas de tipo de organismo almacenados en la base de datos (4) mediante el alineamiento de las secuencias geneticas espedficas del tipo de organismo, mediante la creacion de secuencias de consenso para cada tipo de organismo, mediante la identificacion de las regiones informativas que permiten la diferenciacion de los tipos de organismos individuales, y mediante la definicion de los perfiles (42) de secuencias espedficas del tipo de organismo en base a las regiones informativas.
  16. 16. Sistema segun la reivindicacion 15, en el que los perfiles (42) de secuencias espedficas del tipo de organismo almacenadas en la base de datos (4) incluyen perfiles (42) de secuencias espedficas del genero o espedficas del grupo, y en el que el modulo (37) de creacion de perfil esta configurado para determinar los perfiles (42) de secuencias espedficas del genero o espedficas del grupo mediante el alineamiento las secuencias geneticas espedficas del genero o espedficas del grupo, mediante la creacion de secuencias de consenso para cada cada tipo de organismo, mediante la identificacion de las regiones informativas que permiten la diferenciacion de los tipos de organismos individuales, y mediante la definicion de los perfiles (42) de secuencias espedficas del genero o espedficas del grupo en base a las regiones informativas.
  17. 17. Sistema segun una de las reivindicaciones 10 a 16, que comprende ademas un modulo (38) de correccion configurado para corregir la secuencia genetica diana en base al perfil (42) de secuencias seleccionado mediante la comparacion de la secuencia genetica diana con las secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado, para evaluar para las diferencias de los codigos de nucleotidos, situados en regiones de secuencias informativas, si las diferencias indican o no otro tipo organismo, y para iniciar la adaptacion del perfil (42) de secuencias seleccionado para las diferencias evaluadas como indicativas de otro tipo de organismo.
  18. 18. Sistema segun una de las reivindicaciones 10 a 17, que comprende ademas un modulo (30) de comunicaciones configurado para recibir la secuencia genetica diana desde un usuario a traves de una red (2) de telecomunicaciones, y para transmitir el tipo de organismo de la secuencia genetica diana, definido por la secuencia (41) de referencia espedfica del tipo de organismo, a traves de la red (2) de telecomunicaciones a una interfaz de usuario.
  19. 19. Un producto de programa de ordenador adaptado para realizar el procedimiento de la reivindicacion 1.
  20. 20. Producto de programa de ordenador segun la reivindicacion 19, que comprende ademas medios de codigo de programa de ordenador para controlar los procesadores del sistema informatico, de manera que el sistema incluye en los resultados de la comparacion un numero de diferencias en los codigos de nucleotidos de cada una de las secuencias (41) de referencia en comparacion con la secuencia genetica diana; determina para cada secuencia (41) de referencia un numero ponderado de diferencias multiplicando con un factor de ponderacion el numero de diferencias relacionadas con las regiones de secuencias informativas; y almacena una lista de las secuencias (41) de referencia, en el que la lista esta ordenada por el numero ponderado de las diferencias de la secuencia (41) de referencia respectiva.
  21. 21. Producto de programa de ordenador segun una de las reivindicaciones 19 o 20, que comprende ademas medios de codigo de programa de ordenador para controlar los procesadores del sistema informatico, de manera que el sistema incluye en los resultados de la comparacion un numero de correspondencias en los codigos de nucleotidos de cada una de las secuencias (41) de referencia en comparacion con la secuencia genetica diana; determina para cada secuencia (41) de referencia un numero ponderado de correspondencias multiplicando con un factor de ponderacion el numero de correspondencias relacionadas con las regiones de secuencias informativas; y almacena una lista de las secuencias (41) de referencia, en el que la lista esta ordenada por el numero ponderado de las correspondencias de la secuencia (41) de referencia respectiva.
  22. 22. Producto de programa de ordenador segun una de las reivindicaciones 19 a 21, que comprende ademas
    5
    10
    15
    20
    25
    30
    35
    40
    45
    medios de codigo de programa de ordenador para controlar los procesadores del sistema informatico, de manera que el sistema evalua la secuencia genetica diana y las secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado para las nuevas regiones de secuencias informativas para el perfil (42) de secuencias seleccionado; y adapta el perfil (42) de secuencias seleccionado mediante el almacenamiento de una nueva region de secuencia informativa como una parte del perfil (42) de secuencias seleccionado.
  23. 23. Producto de programa de ordenador segun la reivindicacion 22, que comprende ademas medios de codigo de programa de ordenador para controlar los procesadores del sistema informatico, de manera que el sistema, en la evaluacion de la secuencia genetica diana y las secuencias (41) de referencia, alinea la secuencia genetica diana y las secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado; e identifica las nuevas regiones de secuencias informativas mediante la identificacion de los codigos de nucleotidos correspondientes a una misma posicion secuencial en al menos un numero definido de la secuencia genetica diana y las secuencias
    (41) de referencia.
  24. 24. Producto de programa de ordenador segun una de las reivindicaciones 19 a 23, que comprende ademas medios de codigo de programa de ordenador para controlar los procesadores del sistema informatico, de manera que el sistema determina los perfiles (42) de secuencias espedficas del tipo de organismo almacenados en la base de datos (4) mediante el alineamiento de las secuencias geneticas espedficas del tipo de organismo, mediante la creacion de secuencias de consenso para cada tipo de organismo, mediante la identificacion de las regiones informativas que permiten la diferenciacion de los tipos de organismos individuales, y mediante la definicion de los perfiles (42) de secuencias espedficas del tipo de organismo en base a las regiones informativas.
  25. 25. Producto de programa de ordenador segun la reivindicacion 24, que comprende ademas medios de codigo de programa de ordenador para controlar los procesadores del sistema informatico, de manera que el sistema incluye en los perfiles (42) de secuencias espedficas del tipo de organismo, almacenados en la base de datos (4), perfiles
    (42) de secuencias espedficas del genero o espedficas del grupo; y determina los perfiles (42) de secuencias espedficas del genero o espedficas del grupo mediante el alineamiento de las secuencias geneticas espedficas del genero o espedficas del grupo, mediante la creacion de secuencias de consenso para cada tipo de organismo, mediante la identificacion de las regiones informativas que permiten la diferenciacion de los tipos de organismos individuales, y mediante la definicion de los perfiles (42) de secuencias espedficas del genero o espedficas del grupo en base a las regiones informativas.
  26. 26. Producto de programa de ordenador segun una de las reivindicaciones 19 a 25, que comprende ademas medios de codigo de programa de ordenador para controlar los procesadores del sistema informatico, de manera que el sistema corrige la secuencia genetica diana en base al perfil (42) de secuencias seleccionado mediante la comparacion de la secuencia genetica diana con las secuencias (41) de referencia asociadas con el perfil (42) de secuencias seleccionado; evalua para las diferencias de los codigos de nucleotidos, situados en regiones de secuencias informativas, si las diferencias indican o no otro tipo de organismo; e inicia la adaptacion del perfil (42) de secuencias seleccionado para las diferencias evaluadas como indicativas de otro tipo de organismo.
  27. 27. Producto de programa de ordenador segun una de las reivindicaciones 19 a 26, que comprende ademas medios de codigo de programa de ordenador para controlar los procesadores del sistema informatico, de manera que el sistema recibe la secuencia genetica diana desde un usuario a traves de una red (2) de telecomunicaciones; y transmite a traves de la red (2) de telecomunicaciones a una interfaz de usuario el tipo de organismo de la secuencia genetica diana definido por la secuencia (41) de referencia espedfica del tipo de organismo.
ES05798706.7T 2005-11-09 2005-11-09 Procedimiento implementado por ordenador y sistema informático para la identificación de organismos Active ES2609479T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CH2005/000664 WO2007053962A1 (en) 2005-11-09 2005-11-09 Computer-implemented method and computer system for identifying organisms

Publications (1)

Publication Number Publication Date
ES2609479T3 true ES2609479T3 (es) 2017-04-20

Family

ID=35615570

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05798706.7T Active ES2609479T3 (es) 2005-11-09 2005-11-09 Procedimiento implementado por ordenador y sistema informático para la identificación de organismos

Country Status (4)

Country Link
US (2) US20090287631A1 (es)
EP (1) EP1946230B1 (es)
ES (1) ES2609479T3 (es)
WO (1) WO2007053962A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116718A (ja) * 2007-11-08 2009-05-28 Hitachi Ltd プラント監視制御システム
US20120320627A1 (en) 2011-05-17 2012-12-20 Pixi Lighting Llc Flat panel lighting device and driving circuitry
US9546781B2 (en) 2013-04-17 2017-01-17 Ever Venture Solutions, Inc. Field-serviceable flat panel lighting device
US9500328B2 (en) 2013-04-17 2016-11-22 Pixi Lighting, Inc. Lighting assembly
CN103559425B (zh) * 2013-11-19 2017-02-15 黑龙江省森林工程与环境研究所 一种高通量基因测序的有效数据分类寻优目标检测系统及检测方法
AU2018353924A1 (en) 2017-12-29 2019-07-18 Clear Labs, Inc. Automated priming and library loading device
CN110085284B (zh) * 2019-04-29 2021-02-26 深圳大学 一种面向ssd的基因对比方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6872523B1 (en) * 2000-05-30 2005-03-29 The Board Of Regents Of The University Of Nebraska Materials and methods for molecular detection of clinically relevant pathogenic fungal species
US20040023209A1 (en) * 2001-11-28 2004-02-05 Jon Jonasson Method for identifying microorganisms based on sequencing gene fragments
DE10206406A1 (de) * 2002-02-15 2003-11-13 Smartgene Gmbh Reinach Vorrichtung und Verfahren zur Durchführung und Auswertung genetischer Analysen

Also Published As

Publication number Publication date
US20090287631A1 (en) 2009-11-19
WO2007053962A1 (en) 2007-05-18
EP1946230A1 (en) 2008-07-23
US20170212985A1 (en) 2017-07-27
EP1946230B1 (en) 2016-10-19

Similar Documents

Publication Publication Date Title
US20190295687A1 (en) Method and system for genome identification
ES2609479T3 (es) Procedimiento implementado por ordenador y sistema informático para la identificación de organismos
Aggarwal et al. False discovery rate estimation in proteomics
Archer et al. Analysis of high-depth sequence data for studying viral diversity: a comparison of next generation sequencing platforms using Segminator II
US20120053845A1 (en) Method and system for analysis and error correction of biological sequences and inference of relationship for multiple samples
US20020179097A1 (en) Method for providing clinical diagnostic services
EP1352356A2 (en) Method for predicting therapeutic agent resistance using neural networks
JP2007102709A (ja) 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム
Naeem et al. A diagnostic genomic signal processing (GSP)-based system for automatic feature analysis and detection of COVID-19
US20170108509A1 (en) Method For Using Protein Databases To Identify Microorganisms
KR20200102182A (ko) 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치
US20170132361A1 (en) Sequence assembly method
US11710537B2 (en) Optimal selection method of gene chip probes for cancer screening
US8032309B2 (en) Method for identifying motifs and/or combinations of motifs having a boolean state of predetermined mutation in a set of sequences and its application
Yu et al. Revisit of machine learning supported biological and biomedical studies
Foulkes Genetic association studies
Roychoudhury et al. Genomic analysis of early spread of monkeypox virus in Washington State
US10892036B1 (en) Systems and methods for determining the identity of alleles from genomic sequencing data
KR20200104672A (ko) 클러스터링 기법을 이용한 생물종 서식지 추적 방법 및 장치
Robinson Discovery and Annotation of Repeats, Signatures, and Patterns in Genomic Sequences
US20030082594A1 (en) System and method for analyzing resistance of a pathogen to one or more treatments
Wheeler et al. BLAST QuickStart Example-Driven Web-Based BLASTING Tutorial
Song Disease Gene Identification by Integrating Domain Interactions and Mutations in the Proteins
Mulder et al. In Silico Characterization of Proteins InterPro and Proteome Analysis