ES2930419T3 - Un método o sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo - Google Patents

Un método o sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo Download PDF

Info

Publication number
ES2930419T3
ES2930419T3 ES19766108T ES19766108T ES2930419T3 ES 2930419 T3 ES2930419 T3 ES 2930419T3 ES 19766108 T ES19766108 T ES 19766108T ES 19766108 T ES19766108 T ES 19766108T ES 2930419 T3 ES2930419 T3 ES 2930419T3
Authority
ES
Spain
Prior art keywords
mismatches
dna sequence
sequence
phenotype
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19766108T
Other languages
English (en)
Inventor
Clement Champion
Liam Dolan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oxford University Innovation Ltd
Original Assignee
Oxford University Innovation Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2018903304A external-priority patent/AU2018903304A0/en
Application filed by Oxford University Innovation Ltd filed Critical Oxford University Innovation Ltd
Application granted granted Critical
Publication of ES2930419T3 publication Critical patent/ES2930419T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)

Abstract

Un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en el que el método comprende (a) alinear la secuencia de ADN de una secuencia de ADN de referencia e identificar un primer conjunto de desajustes de secuencia entre las dos secuencias; donde la muestra de prueba es de una planta no vascular mutagenizada; (b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de desajustes de secuencia entre las dos secuencias; (c) filtrar el primer conjunto de desajustes con respecto al segundo conjunto de desajustes para identificar un subconjunto de desajustes que son exclusivos del primer conjunto de desajustes, en el que el subconjunto de desajustes son mutaciones candidatas para la mutación causante; donde la muestra de prueba es de una planta no vascular que exhibe el fenotipo de interés y donde al menos una muestra de comparación es de una planta no vascular independiente del mismo género que no exhibe el fenotipo de interés; y donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género. Además, un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en el que el método comprende a) alinear la secuencia de ADN de una secuencia de ADN de referencia e identificar un primer conjunto de desajustes de secuencia entre las dos secuencias; donde la muestra de prueba es de una planta no vascular mutagenizada; (b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de desajustes de secuencia entre las dos secuencias; (c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjuntos de discrepancias de secuencia en el que la muestra de prueba y la muestra o muestras de comparación son de muestras independientes plantas no vasculares que presentan el fenotipo de interés y en las que las plantas no vasculares independientes son del mismo género; y donde la secuencia de ADN de referencia es una secuencia de referencia conocida o una planta no vascular del género o una planta no vascular del género. (c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjuntos de discrepancias de secuencia en el que la muestra de prueba y la muestra o muestras de comparación son de muestras independientes plantas no vasculares que presentan el fenotipo de interés y en las que las plantas no vasculares independientes son del mismo género; y donde la secuencia de ADN de referencia es una secuencia de referencia conocida o una planta no vascular del género o una planta no vascular del género. (c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjuntos de discrepancias de secuencia en el que la muestra de prueba y la muestra o muestras de comparación son de muestras independientes plantas no vasculares que presentan el fenotipo de interés y en las que las plantas no vasculares independientes son del mismo género; y donde la secuencia de ADN de referencia es una secuencia de referencia conocida o una planta no vascular del género o una planta no vascular del género. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Un método o sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo
Sector de la Técnica
La presente invención se refiere en general a un método o sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo.
Estado de la Técnica
La identificación del genotipo asociado con un fenotipo de interés es crucial en numerosas aplicaciones en biología vegetal. El descubrimiento de mutaciones después de un experimento de mutagénesis normalmente implica cruzar el mutante con una planta de tipo silvestre, generando poblaciones mutantes y de tipo silvestre masivas e identificando mutaciones que se producen únicamente en la mayor parte de los mutantes. Hacerlo permite que los genomas de tipo silvestre y mutante se recombinen, reduciendo, por tanto, el número de mutaciones de fondo en el genoma mutado y aumentando la posibilidad de identificar la mutación causante. Sin embargo, esta etapa preliminar tiene un coste.
En primer lugar, la necesidad de hacer cruces representa una limitación cualitativa para las líneas habituales de descubrimiento de mutaciones en las que no pueden cruzarse mutantes estériles. Es probable que muchas mutaciones (ya sean mutaciones causales o de fondo) provoquen esterilidad.
En segundo lugar, la necesidad de hacer cruces representa una limitación cuantitativa para las líneas habituales de descubrimiento de mutaciones en las que el cruzamiento requiere pasar por al menos (y a menudo más de) un ciclo reproductivo, lo que lleva su tiempo y cuesta dinero, limitando, por tanto, el rendimiento de la línea.
Addo-Quaye et al. (2016), GENES GENOMES GENETICS 7(2):413-425, divulga la identificación de una mutación que provoca un codón de parada prematuro en el ortólogo de sorgo que codifica la enzima biosintética del ácido giberélico ent-kaureno oxidasa. Aunque se evita cruzar mutantes fenotípicamente seleccionados, el método usa múltiples etapas de autopolinización y análisis de la segregación.
Objeto de la invención
Un objeto de la presente invención es superar sustancialmente, o al menos mejorar, una o más desventajas de las disposiciones existentes.
Se divulgan disposiciones que buscan abordar los problemas anteriores evitando la necesidad de hacer cruces antes del descubrimiento de parte de la secuencia de ADN (mutación causante) de una secuencia de ADN de muestra que provoca un fenotipo de interés en una muestra analizada.
De acuerdo con un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo, comprendiendo el método la etapa de seleccionar muestras de comparación basándose en i) una predicción de que la muestra de ensayo y las muestras de comparación forman parte de un grupo de complementación y/o ii) una predicción de que las muestras de comparación no albergan la mutación causante, y comprendiendo además el método las etapas de un procesador configurado para ejecutar un código de programa informático almacenado en un medio legible por ordenador, ejecutando el código de programa informático el método de: obtener datos de secuencia de ADN de muestra asociados con la muestra de ensayo; obtener datos de secuencia de ADN de referencia asociados con una muestra de referencia; obtener datos de secuencia de ADN de comparación asociados con las muestras de comparación; determinar un primer conjunto de datos de secuencia de ADN no coincidentes asociados con los datos de secuencia de ADN de muestra y los datos de secuencia de ADN de referencia; determinar conjuntos adicionales de datos de secuencias de ADN no coincidentes asociados con los datos de secuencia de ADN de comparación y los datos de secuencia de ADN de referencia; y filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes para obtener un conjunto de discrepancias candidatas que incluyan la mutación causante para la identificación de la mutación causante dentro de las discrepancias candidatas.
También se divulga en el presente documento, pero no como parte de la invención reivindicada, un sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo, comprendiendo el sistema un medio para seleccionar muestras de comparación basándose en i) una predicción de que la muestra de ensayo y las muestras de comparación forman parte de un grupo de complementación y/o ii) una predicción de que las muestras de comparación no albergan la mutación causante, y comprendiendo además el sistema un procesador configurado para ejecutar un código de programa informático almacenado en un medio legible por ordenador, estando configurado el código de programa informático para: obtener datos de secuencia de ADN de muestra asociados con la muestra de ensayo; obtener datos de secuencia de ADN de referencia asociados con una muestra de referencia; obtener datos de secuencia de ADN de comparación asociados con las muestras de comparación; determinar un primer conjunto de datos de secuencia de a Dn no coincidentes asociados con los datos de secuencia de ADN de muestra y los datos de secuencia de ADN de referencia; determinar conjuntos adicionales de datos de secuencias de ADN no coincidentes asociados con los datos de secuencia de ADN de comparación y los datos de secuencia de ADN de referencia; y filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes para obtener un conjunto de discrepancias candidatas que incluyan la mutación causante para la identificación de la mutación causante dentro de las discrepancias candidatas.
De acuerdo con un primer aspecto de la presente invención, se proporciona un método implementado por ordenador para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género, y en donde el método no comprende una etapa de análisis de la segregación, análisis complejo de la segregación, análisis másico de la segregación, autopolinización, fertilización, cruzamiento, retrocruzamiento o fertilización con una línea casi isogénica de las plantas no vasculares.
De acuerdo con un segundo aspecto de la presente invención, se proporciona un método implementado por ordenador para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género, y en donde el método no comprende una etapa de análisis de la segregación, análisis complejo de la segregación, análisis másico de la segregación, autopolinización, fertilización, cruzamiento, retrocruzamiento o fertilización con una línea casi isogénica de las plantas no vasculares.
De acuerdo con otro aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en un helecho, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de helechos independientes que presentan el fenotipo de interés y en donde los helechos independientes son del mismo género; y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para un helecho del género.
De acuerdo con otro aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en un helecho, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo presenta el fenotipo de interés y en donde la muestra de comparación es de un helecho independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para un helecho del género.
De acuerdo con otro aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en un alga, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de algas independientes que presentan el fenotipo de interés y en donde las algas independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para un alga del género.
De acuerdo con otro aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en un alga, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo es de un alga que presenta el fenotipo de interés y en donde la muestra de comparación es de un alga independiente del mismo género que no presenta el fenotipo de interés; y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para un alga del género.
Descripción de las figuras
Ahora se describirá al menos una realización de la presente invención con referencia a los dibujos, en los que:
La figura 1 es un diagrama de flujo de proceso de un método para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra analizada, de acuerdo con realizaciones de la presente invención;
La figura 2 forma un diagrama de bloques esquemático de un sistema informático en el que pueden poner en práctica las disposiciones descritas, de acuerdo con realizaciones de la presente invención;
La figura 3 es un diagrama de flujo de proceso adicional de un método para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra analizada, de acuerdo con realizaciones de la presente invención;
Las figuras 4-7 muestran representaciones de lecturas de secuencia en comparación con lecturas de referencia como ejemplos de diversos procesos, de acuerdo con realizaciones de la presente invención;
Figura 8: Fenotipo de rizoides de plantas Marchantía polymorpha de dos días de edad. Fenotipo de rizoides de tipo silvestre (A), fenotipo de rizoides ondulados (B). Los rizoides son células que crecen rectas en el tipo silvestre (A) y onduladas en algunos mutantes (B).
Figura 9: Fenotipo de la epidermis dorsal de plantas Marchantía polymorpha de dos meses de edad. Fenotipo de epidermis de tipo silvestre (A), fenotipo de epidermis estirada (B). La epidermis dorsal muestra poros para el aire (A, flechas), que en algunos mutantes (B) están estirados.
Figura 10: Rendimiento de la vía de descubrimiento de mutaciones no basada en alelismo en UV4.32.
A: Efecto del número creciente de fondos mutantes no alélicos sobre la eficacia de filtrado. B: Número de discrepancias de UV4.32 restantes después de cada etapa de filtrado cuando se usan 8 líneas mutantes de UV no alélicas.
Figura 11: Rendimiento de la vía de descubrimiento de mutaciones no basada en alelismo en mutantes resistentes al clorsulfurón. El aumento del número de fondos mutantes alélicos mejora la eficiencia de filtrado. El cuadro de dispersión más a la izquierda representa el número total de discrepancias en una línea mutante resistente al clorsulfurón antes de filtrar las discrepancias, que también se observan en el genoma de tipo silvestre resecuenciado.
Descripción detallada de la invención
Cuando se hace referencia en uno cualquiera o más de los dibujos adjuntos a etapas y/o rasgos característicos, que tienen los mismos números de referencia, esas etapas y/o rasgos característicos tienen para los fines de esta descripción la o las mismas funciones u operaciones, a menos que aparezca la intención contraria.
Debe apreciarse que los análisis contenidos en la sección "Antecedentes" y lo anterior que se refiere a disposiciones de la técnica anterior se refieren a análisis de documentos o dispositivos que forman conocimiento público a través de su respectiva publicación y/o uso. Esto no debe interpretarse como una representación por parte del autor o autores de la presente invención o del solicitante de la patente de que dichos documentos o dispositivos forman parte del conocimiento general común en la técnica.
A continuación se proporcionan determinadas definiciones de los términos usados en el presente documento.
Fenotipo: un conjunto de características observables de un individuo.
Fenotipo de interés: Un fenotipo a investigar usando los métodos y sistemas divulgados en el presente documento. El fenotipo de interés puede ser una característica o rasgo observable deseable. En algunos casos, el fenotipo de interés puede ser un conjunto de características observables que son favorables en comparación con plantas de tipo silvestre. En algunos casos, el fenotipo de interés puede ser un conjunto de características observables que son diferentes en comparación con plantas de tipo silvestre. En algunos casos, el fenotipo de interés puede ser un conjunto de características observables que son favorables en comparación con algas o helechos de tipo silvestre. En algunos casos, el fenotipo de interés puede ser un conjunto de características observables que son diferentes en comparación con algas o helechos de tipo silvestre.
M0, M1 y M2: M0 indica una población de plantas (es decir, la población original) en un experimento de mutagénesis antes de la exposición a un mutágeno. M1 es la notación usada para referirse a la misma población de plantas (es decir, la población original) después de la exposición a un mutágeno. La generación M2 se refiere a su descendencia después de autopolinización (es decir, el proceso de cruzar el mutante consigo mismo).
Discrepancia: una diferencia en la secuencia de una lectura (por ejemplo, una parte de una secuencia de ADN de una muestra analizada que se somete a prueba para identificar una mutación causante dentro de esa muestra analizada) en comparación con una parte de una secuencia de ADN de referencia con la que la lectura se alinea mejor.
Mutación: un cambio físico en la secuencia de ADN de una planta mutagenizada en comparación con una secuencia de ADN de referencia.
Mutación causante: una mutación que provoca un fenotipo de interés.
Mutación de fondo: una mutación que no está provocando el fenotipo de interés.
Estudio de asociación amplia del genoma: La identificación de variantes genéticas hereditarias asociadas con riesgo de enfermedad o un rasgo particular. Este método examina todo el genoma en busca de polimorfismos genéticos naturales, normalmente polimorfismos mononucleotídicos (SNP), que se producen con mayor frecuencia en los casos (personas con la enfermedad o el rasgo que se está evaluando) que en los controles (personas sin la enfermedad o el rasgo).
Haploide/diploide/poliploidía: el estado de ploidía es el número de conjuntos de cromosomas que contiene un organismo en un momento dado de su ciclo vital. Una planta puede alternar entre un estado haploide y un estado diploide durante su ciclo vital. Una planta haploide es una planta que predominantemente pasa su ciclo vital en el estado haploide, es decir, con un solo conjunto de cromosomas. Una planta diploide es una planta que predominantemente pasa su ciclo vital en el estado diploide, es decir, con dos conjuntos de cromosomas. Una planta poliploide es una planta que predominantemente pasa su ciclo vital en el estado diploide, es decir, con más de dos conjuntos de cromosomas. Las hepáticas, por ejemplo, Marchantía polymorpha, es haploide durante la mayor parte de su ciclo vital, es decir, contiene un solo conjunto de cromosomas. En comparación, las plantas superiores, tales como gramíneas o dicotiledóneas, son diploides o poliploides, es decir, tienen 2 o más conjuntos de cromosomas durante la mayor parte de su ciclo vital.
Herbicida: compuesto químico usado para destruir o inhibir las plantas, células vegetales, semillas de las plantas o crecimiento de tejidos vegetales.
Hetero/homocigoto: Los organismos haploides, diploides y poliploides pueden contener tantas versiones de un gen dado como conjuntos de cromosomas tiene. Por ejemplo, un organismo haploide contiene solamente una versión, o alelo, mientras que un organismo diploide puede contener 2 versiones diferentes del mismo gen (heterocigoto) o 2 versiones idénticas del mismo gen (homocigoto).
Cruzamiento: el proceso de cruzar una línea polimórfica con una línea de referencia (habitualmente la línea parental) con la intención de segregar las mutaciones de fondo de la mutación causante.
Mutante investigado: se refiere a la línea mutante en la que se tiene que identificar la mutación causante.
Planta no vascular: Una planta que carece de un sistema vascular (xilema y floema).
Análisis de segregación: Una técnica estadística para ajustar modelos genéticos formales a datos sobre rasgos expresados o enfermedades (fenotipos) en miembros de la familia biológica para determinar el modo de herencia más probable para el rasgo o la enfermedad en estudio. El análisis de segregación requiere múltiples generaciones de miembros de la familia para determinar los patrones de herencia del fenotipo que se está analizando.
Mutante de sustracción: línea mutante independiente usada para eliminar por ordenador las mutaciones de fondo de un mutante investigado. Estas pueden ser líneas mutantes alélicas independientes o líneas mutantes no alélicas independientes. Una muestra de comparación es una muestra de un mutante de sustracción.
Grupo de complementación: un grupo de complementación define un grupo de alelos (es decir, versiones de un gen) que no logran complementarse entre sí. Por extensión, un grupo de complementación también puede definir un grupo de líneas mutantes que albergan alelos que no logran complementarse entre sí. Es decir, no se observa recombinación de los fenotipos parentales en la descendencia de un cruce entre las líneas mutantes del mismo grupo de complementación. En Marchantía polymorpha, por ejemplo, si dos alelos mutantes están en el mismo grupo de complementación, el 100 % de las plantas F1 resultantes de un cruce entre los mutantes presentan todas el fenotipo mutante. Un grupo de complementación normalmente identifica un solo gen polimórfico (es decir, un gen cuya secuencia de ADN está mutada).
Secuencia de ADN de referencia: Secuencia del genoma de referencia para la planta, alga o helecho que se está investigando. Las secuencias de ADN de referencia están publicadas en bases de datos disponibles públicamente.
El propósito del proceso y sistema descritos en el presente documento es posibilitar la identificación de la mutación causante en una muestra vegetal elegida. Es decir, el proceso y sistema descritos posibilitan la identificación de parte de una secuencia génica (la mutación causante) en una muestra vegetal elegida.
Li et al., 2016 (Gene discovery by chemical mutagenesis and whole-genome sequencing in Dictyostelium, Genome research 26:1268-1276) describe el uso de la secuenciación del genoma completo para la identificación de genes mutantes en un Díctyostelíum, un moho mucilaginoso. Díctyostelíum es un miembro del filo Mycetozoa (Amoebozoa) y, por lo tanto, filogenéticamente distante de las plantas no vasculares y las algas. Thole et al., 2015 (Next-generation sequencing as a tool to quickly identify causative EMS-generated mutations, Plant Signaling & Behavior 10:1-4) detalla la identificación de mutaciones generadas por metanosulfonato de etilo en Arabídopsís thalíana usando la secuenciación del genoma completo en mutantes M4. La presente invención no depende de mutantes fértiles, lo que permite, por tanto, detectar una gama más amplia de mutantes.
El proceso y sistema descritos en el presente documento usan una estrategia alternativa al filtrado de mutaciones. En lugar de cruzamiento, el proceso y sistema identifican inicialmente todas las mutaciones en el mutante investigado, tanto mutaciones de fondo como causantes. Es decir, el proceso y sistema descritos incluyen etapas que identifican todas las partes de la secuencia de ADN que han mutado en comparación con una secuencia de ADN de referencia. Algunas de estas mutaciones son mutaciones de fondo (no se consideran útiles) y otras son mutaciones causantes. En el método de cruzamiento, las etapas de cruzamiento intentaron reducir el número de mutaciones de fondo en esta fase.
Entonces, el proceso y sistema los comparan con todas las mutaciones de otros mutantes que se ha previsto que no portarán la mutación causante del mutante investigado, o se ha previsto que serán parte de un grupo de complementación con la muestra analizada. Usando múltiples mutantes de sustracción, la potencia del filtrado se aumenta para eliminar las mutaciones de fondo y los artefactos técnicos.
La figura 1 muestra un diagrama de flujo de proceso de un método para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra analizada.
En general, el proceso comienza en la etapa S101. En S103, S105 y S107, la muestra, los datos de secuencia de ADN de referencia y comparación (sustracción) se obtienen mediante el código de programa informático del sistema informático descrito con referencia a la figura 1. Por ejemplo, los datos de secuencia de ADN pueden obtenerse directamente del sistema de secuenciación de ADN 1329, u obtenerse de la memoria dentro del sistema informático, o formar una memoria externa al sistema informático, o desde dispositivos que son externos al sistema informático a través de la WAN o LAN.
Los datos de secuencia de ADN de la muestra están asociados con la muestra analizada. Los datos de secuencia de ADN de referencia están asociados con una muestra de referencia. Los datos de secuencia de ADN de comparación (o sustracción) están asociados con muestras de comparación (o sustracción). Se seleccionan múltiples muestras de comparación, donde la selección de cada una de las múltiples muestras de comparación se realiza basándose en i) una predicción de que la muestra analizada y la muestra de comparación seleccionada forman parte de un grupo de complementación o ii) una predicción de que la muestra de comparación seleccionada no alberga la mutación causante.
En la etapa S109, el proceso determina un primer conjunto de datos de secuencia de ADN no coincidentes asociados con los datos de secuencia de ADN de muestra y los datos de secuencia de ADN de referencia.
En la etapa S111, el proceso determina conjuntos adicionales de datos de secuencias de ADN no coincidentes asociados con los datos de secuencia de ADN de comparación y los datos de secuencia de ADN de referencia.
En la etapa S113, el proceso lleva realiza diversas etapas de filtrado basadas en el tipo de muestras de comparación que se han seleccionado (como se describe a continuación) para producir un conjunto de discrepancias candidatas que incluyen la mutación causante. En particular, en la etapa S113, se filtra el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes para obtener un conjunto de discrepancias candidatas que incluyan la mutación causante para la identificación de la mutación causante dentro de las discrepancias candidatas.
Las etapas anteriores (y etapas adicionales) se describen con más detalle en el presente documento.
La figura 2 representa un sistema informático 1300, sobre el que pueden ponerse en práctica las diversas disposiciones descritas. Se entenderá que el sistema informático funcionará de una manera única una vez que los procesos descritos en el presente documento se implementen dentro del sistema informático por medio de un código de programa informático almacenado en un medio legible por ordenador. Un procesador dentro del sistema informático está configurado para ejecutar el código de programa informático para realizar las etapas del proceso descritas en el presente documento.
Como se observa en la figura 2, el sistema informático 1300 incluye: un módulo de ordenador 1301; dispositivos de entrada, tales como un teclado 1302, un dispositivo de puntero de ratón 1303, un escáner 1326, una cámara 1327, una pantalla táctil 1328 y un micrófono 1380; y dispositivos de salida que incluyen una impresora 1315, un dispositivo de pantalla 1314 y altavoces 1317. Además, el sistema informático puede incluir un dispositivo de entrada en forma de un sistema de secuenciación de ADN 1329. El sistema de secuenciación de ADN puede ser, por ejemplo, el sistema de secuenciación de ADN que es una plataforma de secuenciación de la serie Illumina Hiseq, tal como HiSeq 2000 o HiSeq 4000. La salida del sistema de secuenciación de ADN es dos archivos que contienen las lecturas sin procesar, una para cada compañero de las lecturas emparejadas. Es decir, por ejemplo, las plataformas de secuenciación Illumina están diseñadas para leer los miembros de una secuencia de ADN. Ambos miembros, también denominados compañeros, están vinculados y juntos forman una lectura emparejada. Por lo tanto, la secuenciación de Illumina produce dos archivos, uno para los compañeros de la izquierda y otro para los compañeros de la derecha. Se entenderá que la invención no se limita a producir lecturas emparejadas.
Se entenderá que el sistema de secuenciación de ADN 1329 puede no estar conectado directamente al sistema informático mediante la interfaz de E/S 1313. Por ejemplo, el sistema de secuenciación de ADN 1329 puede estar conectado a una red de área extensa 1320 o a una red de área local 1322.
El módulo de ordenador 1301 puede usar un dispositivo transceptor de modulador-desmodulador (módem) externo 1316 para comunicarse hacia y desde una red de comunicaciones 1320 mediante una conexión 1321. La red de comunicaciones 1320 puede ser una red de área extensa (WAN), tal como Internet, una red de telecomunicaciones celular o una WAN privada. Cuando la conexión 1321 es una línea telefónica, el módem 1316 puede ser una conexión de alta capacidad (por ejemplo, cable), o el módem 1316 puede ser un módem de banda ancha. También puede usarse un módem inalámbrico para conexión inalámbrica a la red de comunicaciones 1320.
El módulo de ordenador 1301 normalmente incluye al menos una unidad de procesador 1305 y una unidad de memoria 1306. Por ejemplo, la unidad de memoria 1306 puede tener una memoria de acceso aleatorio (RAM) de semiconductores y una memoria solamente de lectura (ROM) de semiconductores. El módulo de ordenador 1301 también incluye varias interfaces de entrada/salida (E/S) que incluyen: una interfaz de audio y vídeo 1307 que se acopla a la pantalla de vídeo 1314, altavoces 1317 y micrófono 1380; una interfaz de E/S 1313 que se acopla al teclado 1302, el ratón 1303, el escáner 1326, la cámara 1327, la pantalla táctil 1328 y el sistema de secuenciación de ADN 1329 (por ejemplo) u otro dispositivo de interfaz con el ser humano (no ilustrado); y una interfaz 1308 para el módem externo 1316 y la impresora 1315. En algunas implementaciones, el módem 1316 puede incorporarse dentro del módulo de ordenador 1301, por ejemplo, dentro de la interfaz 1308. El módulo de ordenador 1301 también tiene una interfaz de red local 1311, que permite el acoplamiento del sistema informático 1300 mediante una conexión 1323 a una red de comunicaciones de área local 1322, conocida como red de área local (LAN). Como se ilustra en la figura 2, la red de comunicaciones local 1322 también puede acoplarse a la red extensa 1320 mediante una conexión 1324, que normalmente incluiría un dispositivo denominado "cortafuegos" o un dispositivo de funcionalidad similar. La interfaz de red local 1311 puede comprender una tarjeta de circuito Ethernet, un dispositivo inalámbrico Bluetooth® o un dispositivo inalámbrico IEEE 802.11; sin embargo, se pueden poner en práctica muchos otros tipos de interfaces para la interfaz 1311.
Las interfaces de E/S 1308 y 1313 pueden producir conectividad en serie o paralela, o ambas, implementándose normalmente la primera de acuerdo con los estándares de bus universal en serie (USB) y teniendo conectores USB correspondientes (no ilustrados). Se proporcionan dispositivos de almacenamiento 1309 y normalmente incluyen una unidad de disco duro (HDD) 1310. También pueden usarse otros dispositivos de almacenamiento, tal como una unidad de disquete y una unidad de cinta magnética (no ilustrada). Normalmente se proporciona una unidad de disco óptico 1312 para que actúe como una fuente de datos no volátil. Los dispositivos de memoria portátiles, tales como discos ópticos (por ejemplo, CD-ROM, DVD, disco Blu-ray™), memoria USB, discos duros externos portátiles, por ejemplo, pueden usarse como fuentes apropiadas de datos para el sistema 1300.
Los componentes 1305 a 1313 del módulo de ordenador 1301 normalmente se comunican mediante un bus interconectado 1304 y de una manera que da como resultado un modo de funcionamiento convencional del sistema informático 1300 conocido por los expertos en la materia pertinente. Por ejemplo, el procesador 1305 está acoplado al bus del sistema 1304 usando una conexión 1318. Asimismo, la memoria 1306 y la unidad de disco óptico 1312 están acopladas al bus del sistema 1304 mediante conexiones 1319. Ejemplos de ordenadores en los que pueden ponerse en práctica las disposiciones descritas incluyen IBM-PC y compatibles, Apple Mac™ o sistemas informáticos similares.
Los métodos descritos en el presente documento pueden implementarse usando el sistema informático 1300 en donde los procesos de la figura 1 y los procesos asociados, a describir, pueden implementarse como uno o más programas de aplicación de programa informático 1333 ejecutables dentro del sistema informático 1300. En particular, las etapas de los métodos descritos de identificación de una mutación causante se logran mediante instrucciones 1331 (véase la figura 2) en el programa informático 1333 que se llevan realizan dentro del sistema informático 1300. Las instrucciones de programa informático 1331 pueden formarse como uno o más módulos de código, cada uno para realizar una o más tareas particulares.
El programa informático puede almacenarse en un medio legible por ordenador, incluyendo los dispositivos de almacenamiento descritos a continuación, por ejemplo. El programa informático se carga en el sistema informático 1300 desde el medio legible por ordenador, y entonces lo ejecuta el sistema informático 1300. Un medio legible por ordenador que tiene dicho programa informático o programa informático grabado en el medio legible por ordenador es un producto de programa informático. El uso del producto de programa informático en el sistema informático 1300 logra preferentemente un aparato ventajoso para identificar mutaciones causantes.
El programa informático 1333 normalmente se almacena en la HDD 1310 o en la memoria 1306. El programa informático se carga en el sistema informático 1300 desde un medio legible por ordenador y lo ejecuta el sistema informático 1300. Por tanto, por ejemplo, el programa informático 1333 puede almacenarse en un medio de almacenamiento de disco legible ópticamente (por ejemplo, CD-ROM) 1325 que lo lee la unidad de disco óptico 1312. Un medio legible por ordenador que tiene dicho programa informático o programa de ordenador grabado es un producto de programa informático. El uso del producto de programa informático en el sistema informático 1300 logra preferentemente un aparato para identificar mutaciones causantes.
En algunos casos, los programas de aplicación 1333 pueden suministrarse al usuario codificados en uno o más CD-ROM 1325 y leerse mediante la unidad 1312 correspondiente o, como alternativa, puede leerlos el usuario desde las redes 1320 o 1322. Aún más, el programa informático también puede cargarse en el sistema informático 1300 desde otros medios legibles por ordenador. Los medios de almacenamiento legibles por ordenador se refieren a cualquier medio de almacenamiento tangible no transitorio que proporciona instrucciones y/o datos grabados al sistema informático 1300 para su ejecución y/o procesamiento. Ejemplos de dichos medios de almacenamiento incluyen disquetes, cinta magnética, CD-ROM, DVD, disco Blu-ray™, una unidad de disco duro, una ROM o circuito integrado, memoria USB, un disco magnetoóptico o una tarjeta legible por ordenador, tal como una tarjeta PCMCIA y similares, sean dichos dispositivos o no internos o externos del módulo de ordenador 1301. Ejemplos de medios de transmisión legibles por ordenador transitorios o no tangibles que también pueden participar en proporcionar programa informático, programas de aplicación, instrucciones y/o datos al módulo de ordenador 1301 incluyen canales de transmisión de radio o infrarrojos, así como una conexión de red a otro ordenador o dispositivo en red, e Internet o Intranets, incluyendo transmisiones de correo electrónico e información registrada en sitios web y similares.
La segunda parte de los programas de aplicación 1333 y los módulos de código correspondientes mencionados anteriormente pueden ejecutarse para implementar una o más interfaces gráficas de usuario (GUI) para reproducir o representar de otro modo en la pantalla 1314. A través de la manipulación normalmente del teclado 1302 y el ratón 1303, un usuario del sistema informático 1300 y la aplicación puede manipular la interfaz de una manera funcionalmente adaptable para proporcionar comandos de control y/o entrada a las aplicaciones asociadas con la o las GUI. También pueden implementarse otras formas de interfaces de usuario funcionalmente adaptables, tal como una interfaz de audio que utiliza la salida de mensajes de voz mediante los altavoces 1317 y la entrada de comandos de voz del usuario mediante el micrófono 1380.
En general, el procesador 1305 recibe un conjunto de instrucciones que se ejecutan en el mismo. El procesador 1305 espera una entrada posterior, a lo que reacciona el procesador 1305 ejecutando otro conjunto de instrucciones. Cada entrada puede provenir de una o más de varias fuentes, incluyendo datos generados por uno o más de los dispositivos de entrada 1302, 1303, datos recibidos de una fuente externa a través de una de las redes 1320, 1302, datos recuperados de uno de los dispositivos de almacenamiento 1306, 1309 o datos recuperados de un medio de almacenamiento 1325 insertado en el lector 1312 correspondiente, todo representado en la figura 2. La ejecución de un conjunto de instrucciones, en algunos casos, puede dar como resultado la salida de datos. La ejecución también puede implicar el almacenamiento de datos o variables en la memoria 1334.
La figura 3 muestra un diagrama de flujo de proceso de un método para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra analizada.
En la etapa S301, los genomas del mutante (muestra) investigado (y del mutante o mutantes de sustracción (comparación)) se secuencian por el sistema de secuenciación de ADN para producir datos de secuencia de ADN de muestra analizados (y datos de secuencia de ADN de comparación, es decir, sustracción). Como se menciona anteriormente, se usa un sistema de secuenciación de ADN para producir los datos de secuencia de ADN para cada una de las muestras analizadas y las muestras de comparación. Los datos de secuencia de ADN incluyen datos de lectura sin procesar que consisten en múltiples lecturas o secuencias de texto. Los datos de secuencia de ADN se preparan para el análisis después de realizar procesos de recorte de calidad, intercalado y normalización sobre los datos de secuenciación del ADN.
En la etapa S302, el procesador realiza el proceso de recorte de calidad para los datos de secuencia de ADN de muestra analizada, por ejemplo, que podría realizarse usando un script (archivo de órdenes) que aporte instrucciones a cualquier programa informático conocido adecuado, tales como, por ejemplo, el programa Trimmomatic-0.32. El programa de recorte recorta los adaptadores de Illumina y la parte de las lecturas asociadas con una mala calidad de secuenciación. También pueden usarse otros procesos conocidos para realizar un recorte de calidad.
En la etapa S303, el procesador puede realizar un proceso de intercalado, que podría, por ejemplo, realizarse usando cualquier script de análisis adecuado. Por ejemplo, cuando el sistema de secuenciación obtiene lecturas emparejadas, el script de análisis puede usarse para reunir las dos lecturas de pareja de todas las lecturas emparejadas en un solo archivo.
En la etapa S304, el procesador realiza el proceso de normalización que podría, por ejemplo, realizarse cabo normalizando por 31-meros usando un script que aporte instrucciones a cualquier programa informático conocido adecuado, tales como, por ejemplo, Jemer-0.7.1. En este ejemplo, el programa de normalización examina la distribución de k-meros en todas las lecturas usando un valor predefinido para k y descarta una cantidad proporcional de lecturas que contienen los k-meros más frecuentes porque solamente proporcionan información redundante. Esta etapa hace que las siguientes etapas sean más eficientes en el uso de la memoria.
En la etapa S305, además, el procesador desintercala o desacopla el archivo de lecturas normalizadas usando cualquier script de análisis adecuado que separa las dos lecturas de pareja de todas las lecturas emparejadas en dos archivos. Esta etapa es la opuesta a la etapa de intercalado. Para cada lectura emparejada, hay dos compañeros identificados como pertenecientes a la misma lectura emparejada. Pueden escribirse en el mismo archivo (es decir, intercalados) o en archivos separados (desintercalados). El proceso de pasar de uno a otro es simplemente analizar de acuerdo con una cadena de marcado que identifica a los compañeros como pertenecientes a la misma lectura emparejada. Este marcado se origina en los archivos producidos por la plataforma de secuenciación y se parece a XYZ/1 para el compañero 1 y a XYZ/2 para el compañero 2. El programa informático los identifica mediante la coincidencia de texto y escribe la secuencia de ADN correspondiente en los mismos archivos o en dos archivos separados.
Esta etapa es necesaria para que las lecturas se procesen hasta la siguiente etapa.
En las etapas S306 y S307, el procesador alinea las lecturas preparadas de los datos de secuencia de ADN de muestra con el genoma de referencia y el procesador ordena los archivos de alineación según la posición de las alineaciones en el genoma de referencia. Además, el procesador alinea las lecturas preparadas de los datos de secuencia de ADN de comparación (es decir, sustracción) con el genoma de referencia y el procesador ordena los archivos de alineación según la posición de las alineaciones en el genoma de referencia.
Para la etapa de alineación en la etapa S306 (para los datos de secuencia de ADN tanto de muestra como de comparación), las lecturas normalizadas relevantes se alinean con los datos de secuencia de ADN de referencia usando un script que aporta instrucciones a cualquier programa informático conocido adecuado, tales como, por ejemplo, el programa bowtie2-2.1.0. Las lecturas emparejadas se comparan de manera eficaz con la secuencia completa del genoma de los progenitores de tipo silvestre de los mutantes y se retiene la mejor coincidencia. Se generan varios parámetros que describen la alineación y se escriben en un archivo de alineación, incluyendo la posición de la alineación, la confianza con que la lectura emparejada se alinea en esta posición, la presencia, el tipo y detalle de las discrepancias dentro de la alineación, etc.
Para la etapa de clasificación de posiciones en S307 (para los datos de secuencia de ADN tanto de muestra como de comparación), el archivo de alineación relevante se ordena por la posición de las alineaciones en el genoma de referencia utilizando un script que aporta instrucciones a cualquier programa informático conocido adecuado, tales como, por ejemplo, la función "sort" del programa bio-samtools-2.0.5.
El procesador extrae las discrepancias en la etapa S308 de los archivos de alineación ordenados por posición y colocados en un archivo de discrepancias candidatas, si las discrepancias están respaldados por una puntuación de alineación convincente. Por ejemplo, las discrepancias se extraen del archivo de alineación ordenado por posición usando un script que aporta instrucciones a cualquier programa informático conocido adecuado, tales como, por ejemplo, la función de programa mpileup del programa bio-samtools-2.0.5. La función mpileup examina el archivo de alineación ordenado por posición en busca de las discrepancias y escribe en un nuevo archivo toda la información relacionada con las discrepancias de las lecturas que tienen probabilidad de alinearse correctamente por encima de un umbral predefinido.
En la etapa S309, el procesador excluye las regiones del genoma donde se alinean más lecturas de las esperadas. Es decir, se define una profundidad de secuenciación por el número de lecturas de secuenciación de la muestra que se alinean con una región de la secuencia de ADN de referencia. Al secuenciar la secuencia de ADN de una muestra, el usuario puede seleccionar cuántas veces desea secuenciar la misma parte de la secuencia de ADN. Esta selección define la profundidad de secuenciación esperada. Por ejemplo, tener un objetivo de profundidad de secuenciación de 1 requeriría que el sistema de muestreo secuenciara la secuencia de ADN completa de la muestra una sola vez. Para una profundidad de secuenciación esperada de 20, el sistema de muestreo secuenciaría 20 veces más el ADN de la muestra.
Por lo tanto, como ejemplo, si la profundidad de secuenciación observado en una posición definida es 10, entonces se alinean 10 lecturas de secuenciación con una región de la secuencia de ADN de referencia que incluye esta posición. Si la profundidad de la secuencia esperada fuera 1, esto sugeriría que 9 de las 10 lecturas se han alineado frente a esta región de la secuencia de ADN por error. Por este motivo, el programa informático considera cualquier discrepancia en una región de la secuencia de ADN de referencia donde la profundidad de secuenciación observada es mayor que la profundidad de secuenciación esperada como la consecuencia probable de tener lecturas mal alineadas y, por tanto, las elimina del conjunto de datos no coincidentes. En otras palabras, la discrepancia se considera un artefacto de alineación y no una mutación candidata y, por tanto, se descarta o elimina del conjunto de datos. De acuerdo con la presente realización, el programa informático usa los datos del archivo de discrepancias y aporta instrucciones a una función denominada varFilter desde un programa denominado bcftools. Se entenderá que puede usarse cualquier otro programa informático adecuado para implementar esta funcionalidad.
El proceso de profundidad de secuenciación anterior en la etapa de decisión SX01 y la etapa S309, también se aplica al conjunto adicional de datos de secuencia de ADN de comparación con respecto a los datos de secuencia de ADN de referencia.
En otras palabras, para determinar el primer conjunto o conjuntos adicionales de datos de secuencia de ADN no coincidentes, el método y programa informático descritos pueden rechazar al menos una región de los datos de secuencia de ADN de muestra que se alinea con los datos de secuencia de ADN de referencia basándose en que la profundidad de lectura real esté por encima de la profundidad de lectura esperada.
Además, el sistema usa la frecuencia de la aparición de discrepancias en el grupo de lecturas que se alinean en una posición en el genoma para filtrar los artefactos de alineación en la etapa de decisión SX02 y la etapa S310. Por ejemplo, si el mutante es una especie diploide, la frecuencia esperada de la discrepancia en el genoma mutante es de un 50 %, mientras que en una especie haploide es de un 100 %. Si la profundidad de secuenciación observada no coincide con la profundidad de secuenciación esperada para la especie definida, las lecturas asociadas se descartan del conjunto de datos. De nuevo, esto se aplica a los conjuntos de datos para las secuencias de ADN tanto de muestra como de comparación. Para finalizar, en la decisión SX03 y la etapa S311, el procesador ignora las discrepancias respaldadas por muy pocas lecturas eliminando las discrepancias del archivo de discrepancias candidatas. El sistema filtra más las discrepancias usando criterios biológicos. El primer criterio biológico es la especificidad del la discrepancia con el mutante o mutantes investigados. Hay dos escenarios principales que pueden usarse por separado o conjuntamente. Para el escenario A, los mutantes de sustracción y la muestra analizada se parecen o se comportan de forma similar (es decir, son fenotípicamente similares), y/o para el escenario B, las líneas mutantes independientes y la muestra analizada se parecen y se comportan de manera diferente (es decir, son fenotípicamente distintas). Para el escenario A, las muestras de comparación (sustracción) se seleccionan basándose en una predicción de que el mutante investigado (de muestra) y los mutantes de sustracción (comparación) forman un grupo de complementación basándose en que son fenotípicamente similares. Esto puede someterse a prueba opcionalmente mediante cruce por pares si los mutantes no son estériles. Esta etapa de predicción puede denominarse "etapa de predicción del grupo de complementación" en determinadas realizaciones. A continuación, el sistema realiza las etapas de recorte de calidad, normalización, alineación, colocación y clasificación (como se describe anteriormente) de las lecturas no coincidentes (discrepancias) para las líneas de sustracción (es decir, la secuencia génica de la hipotética muestra mutante de comparación). A continuación, el sistema compara el conjunto de discrepancias del mutante investigado (de muestra) con los conjuntos de discrepancias de los mutantes de sustracción (comparación) y retiene en un conjunto candidato de discrepancias solamente las discrepancias que se encuentran tanto en el mutante investigado como en todos los mutantes de sustracción. Al retener las discrepancias (en comparación con la muestra de referencia) que se encuentran tanto en el mutante investigado como en el de sustracción, las posibilidades de que una de las discrepancias se asocie con la mutación causante son mucho mayores. Por lo tanto, esta etapa reduce el número de mutaciones candidatas y, por tanto, la cantidad de procesamiento adicional que se requiere para determinar la mutación causante. Para el escenario B, las muestras de comparación (sustracción) se seleccionan basándose en una predicción de que los mutantes de sustracción (comparación) no albergan la mutación causante del mutante investigado (de muestra). Esto puede someterse a prueba opcionalmente mediante cruce por pares si los mutantes no son estériles. Esta etapa de predicción puede denominarse "etapa de predicción de mutación causante de comparación" en determinadas realizaciones. A continuación, el sistema realiza las etapas de recorte de calidad, normalización, alineación, colocación y clasificación (como se describe anteriormente) de las lecturas no coincidentes (discrepancias) para las líneas de comparación de sustracción. A continuación, el sistema compara el conjunto de discrepancias del mutante investigado (de muestra) con los conjuntos de discrepancias de los mutantes de sustracción (comparación) y retiene en el conjunto candidato de discrepancias solamente las discrepancias que son específicas para el mutante investigado. Es decir, si se encuentra la misma discrepancia en la secuencia génica tanto en la muestra mutante de sustracción como en la muestra mutante investigada, se considera que la discrepancia particular no es la mutación causante.
El sistema puede realizar el proceso asociado con el escenario A y el escenario B de forma consecutiva o simultánea para aumentar la potencia de todo el proceso.
Para finalizar, también pueden usarse criterios biológicos convencionales para descartar discrepancias en el mutante investigado que es poco probable que sean las mutaciones causantes. En primer lugar, el sistema puede descartar las discrepancias que no son coherentes con la característica distintiva mutacional esperada del método de mutagénesis usado para crear los mutantes. Es decir, puede realizarse filtrado de discrepancias no canónicas cuando el sistema retiene solamente las discrepancias en el conjunto de discrepancias candidatas que no coinciden con la característica distintiva mutacional del método de mutagénesis usado para generar el mutante investigado. A continuación, el sistema descarta las discrepancias que no provocan un cambio en la secuencia de aminoácidos de la proteína codificada (es decir, mutaciones que se encuentran en regiones intergénicas, en la región no traducida o en los intrones). Es decir, puede realizarse filtrado de discrepancias no codificantes cuando el sistema retiene solamente las discrepancias en el conjunto de discrepancias candidatas que provocan un cambio en la secuencia de aminoácidos de una proteína.
Por ejemplo, el procesador recupera la secuencia codificante del gen mutado (de muestra) como entrada y almacena la secuencia proteínica traducida correspondiente en una matriz temporal. A continuación, el sistema puede repetir lo mismo para la secuencia codificante de referencia y enviar la secuencia proteínica correspondiente a la matriz temporal. Además, el sistema puede entonces hacer coincidir el texto con ambos elementos de la matriz temporal y, ante la ausencia de una coincidencia, escribir la discrepancia asociada al conjunto de discrepancias candidatas.
Con referencia a la figura 4, se proporciona un ejemplo de múltiples lecturas 401 tomadas de una muestra y referenciadas frente a una secuencia de ADN de referencia 403. Como se indica en 405, las múltiples lecturas de la muestra se han alineado y ordenado por posición con referencia a los datos de secuencia de ADN de referencia 403. Es decir, las lecturas (de la muestra) se representan sobre la secuencia de referencia a la que corresponden las lecturas de la muestra (posicionalmente) o con la que se alinean.
La línea vertical 407 indica que existe una diferencia entre cualquier lectura que pase por la línea y los datos de secuencia de ADN de referencia en esa posición. Es decir, hay una discrepancia entre la secuencia de esa lectura y la secuencia de referencia.
La sección 409 indica la secuencia codificante de los genes. En el contexto de la presente realización, un gen es una secuencia de ADN que codifica una proteína. Partes del gen portan la información requerida para la codificación de la proteína, mientras que el resto no. La parte que porta esta información se denomina secuencia codificante del gen. Esto se representa visualmente en 409 con barras negras gruesas (secuencia codificante) y líneas finas (secuencia no codificante).
La sección 411 indica el número de lecturas de la muestra en una posición dada de la secuencia de referencia.
Se entenderá que, aunque la figura 4 se ha descrito con referencia a múltiples lecturas de datos de secuencia de ADN de muestra y datos de secuencia de ADN de referencia, el mismo tipo de información también se produce con los datos de secuencia de ADN de comparación (sustracción) y los datos de secuencia de ADN de referencia.
Con referencia a la figura 5, se proporciona un ejemplo adicional de múltiples lecturas 501 tomadas de una muestra y referenciadas frente a una sola lectura 503 de datos de secuencia de ADN de referencia. En esta representación gráfica, el número observado de lecturas de la secuencia de ADN de muestra se muestra en la posición asociada con respecto a la secuencia de referencia. Esto posibilita que el programa informático determine si la profundidad de secuenciación esperada es coherente con la profundidad de secuenciación medida.
En la posición 505, puede verse que la profundidad de secuenciación observada (es decir, el número de lecturas en esta posición) es coherente con la profundidad de secuenciación esperada y, por tanto, las discrepancias en estas lecturas se mantienen en el archivo de discrepancias candidatas. Por otro lado, en la posición 507, puede verse que la profundidad de secuenciación observada (es decir, el número de lecturas en esta posición) no es coherente con la profundidad de secuenciación esperada y, por tanto, estas lecturas no se mantienen en el archivo de discrepancias candidatas; es decir, se borran, eliminan o descartan del archivo de discrepancias candidatas.
En la figura 6, se representa una representación gráfica de determinación de si se un criterio de frecuencia está asociado con la frecuencia alélica esperada. En este ejemplo, en la posición indicada por la flecha 601, la secuencia de ADN de la muestra difiere en todas las lecturas en la posición pertinente con respecto a la secuencia de ADN de referencia. Por tanto, la frecuencia alélica es del 100 % y los datos de discrepancia se mantienen en el archivo de discrepancias candidatas a medida que se cumple el criterio de frecuencia.
En la figura 7, se representa una representación gráfica de determinación de si se un criterio de frecuencia está asociado con la frecuencia alélica esperada. En este ejemplo, en la posición indicada por las flechas 701 y 703, la secuencia de ADN de la muestra difiere en estas lecturas en la posición pertinente con respecto a la secuencia de ADN de referencia. Por tanto, la frecuencia alélica no es del 100 % y los datos de discrepancia no se mantienen en el archivo de discrepancias candidatas; es decir, se borran, eliminan o descartan del archivo de discrepancias candidatas porque no se cumple el criterio de frecuencia.
De acuerdo con el primer, tercer, quinto y séptimo aspectos de la divulgación, se proporcionan métodos para identificar una mutación asociada con un fenotipo de interés, es decir, una mutación causante. En estos aspectos, los mutantes de sustracción y la muestra analizada se parecen o se comportan de forma similar (es decir, son fenotípicamente similares).
De acuerdo con un segundo, cuarto, sexto y octavo aspectos de la divulgación, se proporcionan métodos para identificar una mutación asociada con un fenotipo de interés. En estos aspectos, las líneas mutantes independientes y la muestra analizada se parecen y se comportan de manera diferente (es decir, son fenotípicamente distintas).
En estos aspectos, no es esencial tener una predicción o conocimiento del modo de acción o la diana biológica asociada con el fenotipo de interés antes de implementar el método. Por lo tanto, el método puede usarse para identificar una mutación causante en una planta que presente un fenotipo de interés en donde se desconoce la ubicación probable en el genoma de la mutación causante.
En una realización, se proporciona un método implementado por ordenador para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género, y en donde el método no comprende una etapa de análisis de la segregación, análisis complejo de la segregación, análisis másico de la segregación, autopolinización, fertilización, cruzamiento, retrocruzamiento o fertilización con una línea casi isogénica de las plantas no vasculares.
En una realización, se proporciona un método implementado por ordenador para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género, y
en donde el método no comprende una etapa de análisis de segregación, análisis complejo de la segregación, análisis másico de la segregación, autopolinización, fertilización, cruzamiento, retrocruzamiento o fertilización con una línea casi isogénica de las plantas no vasculares.
En una realización, el método comprende además
(b-i) alinear la secuencia de ADN de al menos una muestra de comparación adicional con la secuencia de ADN de referencia e identificar un tercer conjunto de discrepancias de secuencia entre las dos secuencias; en donde la muestra o muestras de comparación adicionales son de plantas no vasculares independientes que presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y
en donde (c) comprende además filtrar el primer conjunto de discrepancias con respecto al tercer conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y tercer conjunto de discrepancias de secuencia, en donde los dos subconjuntos de discrepancias son mutaciones candidatas para la mutación causante.
En una realización, el método comprende además
(b-i) alinear la secuencia de ADN de al menos una muestra de comparación adicional con la secuencia de ADN de referencia e identificar un tercer conjunto de discrepancias de secuencia entre las dos secuencias; en donde la muestra o muestras de comparación adicionales son de helechos independientes que presentan el fenotipo de interés y en donde los helechos independientes son del mismo género; y
en donde (c) comprende además filtrar el primer conjunto de discrepancias con respecto al tercer conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y tercer conjunto de discrepancias de secuencia, en donde los dos subconjuntos de discrepancias son mutaciones candidatas para la mutación causante.
En una realización, el método comprende además
(b-i) alinear la secuencia de ADN de al menos una muestra de comparación adicional con la secuencia de ADN de referencia e identificar un tercer conjunto de discrepancias de secuencia entre las dos secuencias; en donde la muestra o muestras de comparación adicionales son de algas independientes que presentan el fenotipo de interés y en donde las algas independientes son del mismo género; y
en donde (c) comprende además filtrar el primer conjunto de discrepancias con respecto al tercer conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y tercer conjunto de discrepancias de secuencia, en donde los dos subconjuntos de discrepancias son mutaciones candidatas para la mutación causante.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias; y
alinear la secuencia de ADN de al menos una muestra de comparación adicional con la secuencia de ADN de referencia e identificar un tercer conjunto de discrepancias de secuencia entre las dos secuencias,
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias; y
filtrar el primer conjunto de discrepancias con respecto al tercer conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y tercer conjunto de discrepancias, en donde los dos subconjuntos de discrepancias son mutaciones candidatas para la mutación causante y;
en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra o muestras de comparación son de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés y en donde la muestra o muestras de comparación adicionales son de una planta no vascular independiente del mismo género que presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
Exponer una planta o población de plantas a un mutágeno puede provocar mutaciones en el genoma de la planta. Asimismo, exponer una planta de o población de helechos o algas puede provocar mutaciones en su genoma. Las mutaciones pueden producirse al azar o pueden ser mutaciones dirigidas. La alteración del genoma a través del proceso de mutagénesis puede provocar, en consecuencia, un fenotipo alterado. Pueden usarse numerosos mutágenos para generar plantas, helechos y algas mutantes para uso en la presente invención.
En una realización, la muestra de ensayo se ha mutagenizado. En una realización, la muestra de ensayo se ha mutagenizado por exposición a un mutágeno. En una realización, la muestra de ensayo y la al menos una muestra de comparación se han mutagenizado. En una realización, la muestra de ensayo y la al menos una muestra de comparación se han mutagenizado por exposición a un mutágeno.
En una realización, la muestra de ensayo se ha mutagenizado, en donde la mutagénesis no se produce de forma natural. En una realización, la muestra de ensayo y la al menos una muestra de comparación se han mutagenizado, en donde la mutagénesis no se produce de forma natural. En una realización, la muestra de ensayo se ha mutagenizado, en donde la mutagénesis se induce experimentalmente. En una realización, la muestra de ensayo y la al menos una muestra de comparación se han mutagenizado, en donde la mutagénesis se induce experimentalmente.
En una realización, el mutágeno es radiación. En una realización, el mutágeno se selecciona del grupo que consiste en luz ultravioleta (UV), rayos X, rayos gamma y neutrones. En una realización, el mutágeno es luz ultravioleta, opcionalmente luz UV-A, u V-B o UV-C. En una realización, el mutágeno es luz UV-B.
En una realización, el mutágeno es un agente químico. En una realización, el agente químico es un agente alquilante, opcionalmente metanosulfonato de etilo (EMS), sulfato de dimetilo, azida de sodio, metilnitronitrosoguanidina (MNNG). En una realización, el agente químico es un agente de desaminación. En una realización, el agente químico es un agente intercalante.
En una realización, el mutágeno es un elemento transponible (también conocido como transposón). Un experto en la materia entenderá que existen numerosos mutágenos para inducir mutagénesis en plantas y que pueden emplearse en el método de la presente invención.
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia vegetal no vascular que se ha mutagenizado por exposición a un agente químico o físico. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de helecho que se ha mutagenizado por exposición a un agente químico o físico. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de algas que se ha mutagenizado por exposición a un agente químico o físico.
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia vegetal no vascular que se ha mutagenizado por un agente químico. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia vegetal no vascular que se ha mutagenizado por radiación. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de helecho que se ha mutagenizado por un agente químico. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de helecho que se ha mutagenizado por radiación. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de algas que se ha sido mutagenizado por un agente químico. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es la materia biológica de algas que se ha mutagenizado por radiación.
En una realización, el método incluye las siguientes etapas preliminares:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) obtener una muestra de ensayo de una planta no vascular mutagenizada que presenta un fenotipo de interés; (iii) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que presente el mismo fenotipo de interés; o
(iii) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que no presente el fenotipo de interés;
en donde de (i) a (iiii) se realizan antes de (a).
En una realización, el método incluye las siguientes etapas preliminares:
(i) exponer una población de helechos a un mutágeno;
(ii) obtener una muestra de ensayo de un helecho mutagenizado que presenta un fenotipo de interés;
(iii) obtener al menos una muestra de comparación de un helecho mutagenizado independiente que presente el mismo fenotipo de interés; o
(iii) obtener al menos una muestra de comparación de un helecho mutagenizado independiente que no presente el fenotipo de interés;
en donde de (i) a (iiii) se realizan antes de (a).
En una realización, el método incluye las siguientes etapas preliminares:
(i) exponer una población de algas a un mutágeno;
(ii) obtener una muestra de ensayo de un helecho mutagenizado que presenta un fenotipo de interés;
(iii) obtener al menos una muestra de comparación de un alga mutagenizada independiente que presente el mismo fenotipo de interés; o
(iii) obtener al menos una muestra de comparación de un alga mutagenizada independiente que no presente el fenotipo de interés;
en donde de (i) a (iiii) se realizan antes de (a).
En una realización, el método comprende recibir una muestra de ensayo y/o al menos una muestra de comparación. En una realización, el método comprende recibir las secuencias de ADN de una muestra de ensayo y/o al menos una muestra de comparación. En una realización, el método comprende obtener una muestra de ensayo y/o al menos una muestra de comparación. En una realización, el método comprende aislar una muestra de ensayo y/o al menos una muestra de comparación. En una realización, el método comprende aislar las secuencias de ADN de una muestra de ensayo y/o al menos una muestra de comparación.
En una realización, la muestra de ensayo puede ser la planta completa o una parte sustancial de la planta. En una realización, la muestra de ensayo puede ser la planta completa o una parte sustancial del helecho. En una realización, la muestra de ensayo puede ser la planta completa o una parte sustancial del alga. En una realización, la muestra de ensayo puede ser un protoplasto vegetal, callo, esporofito, esporocito, espora, gema, gametofito, esperma, anteridio, rizoide, cigoto o embrión. En una realización, la muestra de ensayo puede ser tejido vegetal no vascular. En una realización, la muestra de ensayo puede ser tejido de helecho. En una realización, la muestra de ensayo puede ser tejido de algas.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
en donde la muestra de ensayo es de una planta no vascular mutagenizada;
(b) alinear la secuencia de a Dn de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares de generación M1 independientes que se han expuesto a un mutágeno y en donde las plantas no vasculares independientes presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) obtener una muestra de ensayo de una planta no vascular mutagenizada que presenta un fenotipo de interés; (iii) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que presente el mismo fenotipo de interés y;
(a) alinear la secuencia de ADN de la muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para la planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
en donde la muestra de ensayo es de una planta no vascular mutagenizada;
(b) alinear la secuencia de a Dn de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares de generación M1 independientes que se han expuesto a un mutágeno y en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) obtener una muestra de ensayo de una planta no vascular mutagenizada que presenta un fenotipo de interés; (iii) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que no presente el mismo fenotipo de interés; y
(a) alinear la secuencia de ADN de la muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
De acuerdo con la invención, la etapa (b) comprende alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias. Al menos una muestra de comparación comprende tanto una muestra de comparación, así como una o más muestras de comparación (por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 o más muestras de comparación).
En una realización, la etapa (b) comprende alinear la secuencia de ADN de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 o más muestras de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias. En una realización, el método utiliza siete o más muestras de comparación. En el caso de múltiples muestras de comparación (es decir, 2 o más), se realizan múltiples comparaciones independientes. En primer lugar, entre la secuencia de ADN de la primera muestra de comparación y la secuencia de ADN de referencia para obtener un primer conjunto de discrepancias. En segundo lugar, entre la secuencia de ADN de la segunda muestra de comparación y la secuencia de ADN de referencia para obtener un segundo conjunto de discrepancias. En tercer lugar, entre la secuencia de ADN de la tercera muestra de comparación y la secuencia de ADN de referencia para obtener un tercer conjunto de discrepancias. Asimismo, esto se realiza en relación con la cuarta, quinta, sexta, séptima, octava, novena, décima, undécima, duodécima, decimotercera, decimocuarta o decimoquinta muestra, y puede realizarse en relación con tantas muestras de comparación como se usen para el análisis. El primer, segundo, tercer, etc. conjunto de discrepancias identificados en la etapa (b) forman colectivamente el segundo conjunto de discrepancias y se usan para filtrar con respecto al primer conjunto de discrepancias identificadas en la etapa (a) del método. Se conocen varias herramientas para realizar estas etapas de comparación, por ejemplo, el programa vcftools o SnpSift.
La presente invención no depende de comprender el modo de herencia de la mutación causante asociada con el rasgo fenotípico de interés. Por lo tanto, la presente invención evita la etapa que requiere mucho tiempo, empleada en estudios tradicionales de mutagénesis, de cruzamientos de mutantes de interés para determinar los patrones de segregación. Además, la presente invención no depende de asociar un fenotipo de interés y grupos de polimorfismos que se segregan en la descendencia de un mutante M1 con el fenotipo de interés. Por lo tanto, la presente invención evita la etapa que requiere mucho tiempo, empleada en estudios tradicionales de mutagénesis, de cruzamientos de mutantes de interés para cartografiar mutaciones causantes. En una realización, la muestra de ensayo es un mutante de generación M1. En una realización, la muestra de ensayo y la al menos una muestra de comparación son mutantes de generación M1. Como resultado de ser mutantes M1, las plantas no vasculares no se han cruzado. Por lo tanto, es posible identificar mutaciones causantes en mutantes M1 que provocan esterilidad ya que el método no requiere cruzar los mutantes para identificar una mutación causante.
En una realización, la muestra de ensayo es un mutante de generación M1 o M2. En una realización, la muestra de ensayo y la al menos una muestra de comparación son mutantes de generación M1 o M2. En una realización, la muestra de ensayo es un mutantes de generación M1, M2 o M3. En una realización, la muestra de ensayo y la al menos una muestra de comparación son mutantes de generación M1, M2 o M3.
De acuerdo con la invención, el método no requiere la etapa de análisis de segregación, análisis complejo de segregación o análisis másico de segregación para identificar una mutación causante asociada con un fenotipo de interés. Por tanto, el método no requiere una etapa de fertilización de las plantas no vasculares para identificar una mutación causante asociada con un fenotipo de interés. Además, el método no requiere autopolinización, fertilización, cruzamiento, retrocruzamiento o fertilización con una línea casi isogénica de las plantas no vasculares para identificar una mutación causante asociada con un fenotipo de interés.
En una realización, el método no requiere el conocimiento de las características de herencia del fenotipo de interés para identificar la mutación causante. En una realización, el método no comprende la etapa de determinar el patrón de herencia del fenotipo de interés para identificar la mutación causante.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias de secuencia;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y en donde las plantas no vasculares independientes presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género;
en donde el método no comprende una etapa de análisis de segregación, análisis complejo de segregación o análisis másico de segregación para identificar una mutación causante asociada con un fenotipo de interés.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y en donde las plantas no vasculares independientes presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género;
el método no requiere una etapa de fertilización para identificar una mutación causante asociada con un fenotipo de interés.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género;
en donde el método no comprende una etapa de análisis de segregación, análisis complejo de segregación o análisis másico de segregación para identificar una mutación causante asociada con un fenotipo de interés.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género;
en donde el método no requiere una etapa de autofertilización para identificar una mutación causante asociada con un fenotipo de interés.
En una realización, la muestra de ensayo es materia biológica de una planta haploide. En una realización, la muestra de ensayo y la al menos una muestra de comparación es materia biológica de una planta haploide. En una realización, la muestra de ensayo es materia biológica de una planta predominantemente en la fase haploide durante su ciclo vital. En una realización, la muestra de ensayo y la al menos una muestra de comparación es materia biológica de una planta predominantemente en la fase haploide durante su ciclo vital.
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un alga. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un alga clorófita o estreptófita. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de Mesostigmatophyceae, Chlorokybophyceae, Klebsormidiophyceae, Zygnematophyceae, Charophyceae y Coleochaetophyceae.
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un alga del género Chlamydomonas. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de Chlamydomonas caudata Wille, Chlamydomonas ehrenbergii Gorozhankin, Chlamydomonas elegans, Chlamydomonas moewusii, Chlamydomonas nivalis, Chlamydomonas ovoidae o algas Chlamydomonas reinhardtii. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un alga Chlamydomonas reinhardtii.
En una realización, la muestra de ensayo es materia biológica y/o al menos una muestra de comparación de una planta terrestre no vascular, en donde la planta no vascular es una briófita. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de una briófita seleccionada del grupo que consiste en musgo, hepática y antocerote.
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un antocerote.
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un musgo. En una realización, la muestra de ensayo es materia biológica de un musgo del género Physcomitrella. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un musgo Physcomitrella patens o Physcomitrella readeri. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un musgo Physcomitrella patens.
En una realización preferida, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de una hepática. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de una planta de la clase Jungermanniopsida. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de una planta de las subclases Jungermanniidae o Metzgeriidae. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de una planta de la clase Marchantiopsida. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de una planta de las subclases Marchantiidae o Sphaerocarpidae. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de una planta de la clase Haplomitriopsida.
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de hepática frondosa, hepática taloide simple o una hepática taloide compleja.
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de una planta de la especie Marchantía. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de Marchantía alpestris,
Marchantía aquatica, Marchantía berteroana, Marchantía carril', Marchantía chenopoda,
Marchantía debilis, Marchantía domingenis, Marchantía emarginata, Marchantía foliacia,
Marchantía grossibarba, Marchantía inflexa, Marchantía linearis, Marchantía macropora,
Marchantía novoguineensis, Marchantía paleacea, Marchantía palmata, Marchantía papillate, Marchantía pappeana, Marchantía polymorpha (también conocida como M. aquatica),
Marchantía rubribarba, Marchantía solomonensis, Marchantía streimannii, Marchantía subgeminata, Marchantía vitiensis, Marchantía wallisii o Marchantía nepalensis. En una realización preferida, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de Marchantía polymorpha.
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un helecho. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un helecho eusporangiado o un helecho leptosporangiado (también conocido como helecho Polypodiidae). En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un helecho. En una realización, la muestra de ensayo es materia biológica de un helecho eusporangiado. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un helecho maratiáceo (Marattiidae, Marattiaceae), un helecho cola de caballo (Equisetiidae, Equisetaceae), un helecho batidor o un helecho en luna.
En una realización, la muestra de ensayo y la al menos una muestra de comparación son muestras de plantas independientes del mismo género. En una realización, la muestra de ensayo y la al menos una muestra de comparación son muestras de plantas independientes de la misma especie. En una realización, la muestra de ensayo y la al menos una muestra de comparación son muestras de helechos independientes del mismo género. En una realización, la muestra de ensayo y la al menos una muestra de comparación son muestras de helechos independientes de la misma especie. En una realización, la muestra de ensayo y la al menos una muestra de comparación son muestras de algas independientes del mismo género. En una realización, la muestra de ensayo y la al menos una muestra de comparación son muestras de algas independientes de la misma especie.
En una realización, la secuencia de ADN de referencia es una secuencia de ADN conocida para una planta del mismo género que las plantas usadas como muestra de ensayo y la al menos una muestra de comparación. En una realización, la secuencia de ADN de referencia es una secuencia de ADN conocida para una planta de la misma especie que las plantas usadas como muestra de ensayo y la al menos una muestra de comparación. En una realización, la secuencia de ADN de referencia es una secuencia de ADN conocida para un helecho del mismo género que los helechos usados como muestra de ensayo y la al menos una muestra de comparación. En una realización, la secuencia de ADN de referencia es una secuencia de ADN conocida para un helecho de la misma especie que el helecho usado como muestra de ensayo y la al menos una muestra de comparación. En una realización, la secuencia de ADN de referencia es una secuencia de ADN conocida para un alga del mismo género que los helechos usados como muestra de ensayo y la al menos una muestra de comparación. En una realización, la secuencia de ADN de referencia es una secuencia de ADN conocida para un alga de la misma especie que el helecho usado como muestra de ensayo y la al menos una muestra de comparación. En una realización, el método comprende (a) alinear la secuencia de ADN de una muestra de ensayo con una o más secuencias de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias y/o (b) alinear la secuencia de ADN de al menos una muestra de comparación con una o más secuencias de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias. Los genomas de referencia están ampliamente disponibles en bases de datos públicas y un experto en la materia comprende la manera de seleccionar una secuencia de referencia apropiada.
En una realización, el método comprende (a) alinear la secuencia de ADN de una muestra de ensayo con dos o más secuencias de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia; y/o (b) alinear la secuencia de ADN de al menos una muestra de comparación con dos o más secuencias de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia. En el caso de múltiples muestras de ADN de referencia (es decir, 2 o más), se realizan múltiples comparaciones independientes. En primer lugar, entre la secuencia de ADN de una muestra de ensayo y la primera secuencia de ADN de referencia para obtener un primer conjunto de discrepancias. En segundo lugar, entre la muestra de ensayo y la segunda secuencia de ADN de referencia para obtener un segundo conjunto de discrepancias. En tercer lugar, entre la muestra de ensayo y la secuencia de ADN de referencia para obtener un tercer conjunto de discrepancias, etc. El primer, segundo, tercer, etc. conjunto de discrepancias forman colectivamente el primer conjunto de discrepancias para la etapa (a). Asimismo, se realizan múltiples comparaciones independientes para comparar la al menos una muestra de comparación con las múltiples secuencias de ADN de referencia para formar el segundo conjunto de discrepancias para la etapa (b).
En una realización, la muestra de ensayo y/o al menos una muestra de comparación es materia biológica de un organismo de esporulación, por ejemplo, una planta de esporulación, un alga de esporulación o helecho de esporulación. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es de una planta no vascular que se reproduce mediante esporas. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es de un helecho que se reproduce mediante esporas. En una realización, la muestra de ensayo y/o al menos una muestra de comparación es de un alga que se reproduce mediante esporas.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta de hepática, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas de hepática independientes que se han expuesto a un mutágeno y en donde las plantas de hepática independientes presentan el fenotipo de interés y en donde las hepáticas independientes son del mismo género; y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta de hepática del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta de hepática, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas de hepática independientes que se han expuesto a un mutágeno y en donde la muestra de ensayo es de una planta de hepática que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta de hepática independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta de hepática del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en un helecho, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas de helecho independientes que se han expuesto a un mutágeno y en donde las plantas de helecho independientes presentan el fenotipo de interés y en donde los helechos independientes son del mismo género; y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para un helecho del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta de helecho, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas de helecho independientes que se han expuesto a un mutágeno y en donde la muestra de ensayo es de una planta de helecho que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta de helecho independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para un helecho del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en un alga, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de algas independientes que se han expuesto a un mutágeno y en donde las algas independientes presentan el fenotipo de interés y en donde las algas independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para un alga del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en un alga, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de algas independientes que se han expuesto a un mutágeno y en donde la muestra de ensayo es de una alga que presenta el fenotipo de interés y en donde la muestra de comparación es de un alga independiente del mismo género que no presenta el fenotipo de interés;
y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para un alga del género.
En una realización, el fenotipo de interés es un rasgo característico morfológico tal como el tamaño, la altura, el tamaño, el color o estructura de la planta no vascular, helecho o alga. En una realización, el fenotipo de interés es una propiedad observable tal como un mayor rendimiento, tolerancia a las agresiones, resistencia a las agresiones, tolerancia a las agresiones abióticas, resistencia a las agresiones abióticas, tolerancia a la sal, resistencia a la sal, esterilidad, resistencia a la sequía, tolerancia a la sequía, resistencia a las temperaturas calientes o frías, resistencia a las heladas, tolerancia a las heladas, tasa de crecimiento, tasa de división celular, tolerancia a enfermedades, resistencia a enfermedades, sensibilidad a enfermedades, tolerancia a herbicidas, resistencia a herbicidas, sensibilidad a herbicidas, tolerancia a antibióticos, resistencia a antibióticos o sensibilidad a antibióticos. Dependiendo del fenotipo de interés deseado, la planta, el alga o el helecho pueden presentar niveles aumentados o disminuidos del rasgo de interés (por ejemplo, resistencia a herbicidas) en comparación con las plantas de tipo silvestre. En una realización, el fenotipo de interés es una planta que presenta un aumento de un 10, 20, 30, 40, 50, 60, 70, 80, 90 o 100 % del rasgo de interés en comparación con los niveles de tipo silvestre. En una realización, el fenotipo de interés es una planta que presenta un aumento de un 200, 250, 300, 350, 400, 450 o 500 % del rasgo de interés en comparación con los niveles de tipo silvestre. En una realización, el fenotipo de interés es una planta que presenta una disminución de un 10, 20, 30, 40, 50, 60, 70, 80, 90 o 100 % del rasgo de interés en comparación con los niveles de tipo silvestre.
En una realización, el fenotipo de interés es resistencia a herbicidas. En una realización, el fenotipo de interés es tolerancia a herbicidas. En una realización, el fenotipo de interés es sensibilidad a herbicidas. En una realización, el fenotipo de interés puede ser mayor resistencia o mayor tolerancia a un patógeno vírico, bacteriano o fúngico. En una realización, el fenotipo de interés puede ser mayor resistencia o mayor tolerancia a un herbicida natural, sintético o químico. En una realización preferida, el fenotipo de interés puede se mayor resistencia a herbicidas. En una realización preferida, el fenotipo de interés puede ser mayor resistencia a herbicidas con respecto a un herbicida específico. La muestra de ensayo puede derivar de una planta no vascular resistente a un herbicida específico y la al menos una muestra de comparación puede ser de plantas no vasculares independientes que sean resistentes a un herbicida alternativo o que presenten un fenotipo alternativo (es decir, que no presenten resistencia al herbicida específico). En el caso de resistencia a herbicidas, la resistencia puede determinarse como la supervivencia de la planta después de la exposición al herbicida de interés (es decir, la planta no muere después de la exposición al herbicida). En una realización, la supervivencia se determina como la supervivencia de la planta una semana después de la exposición al herbicida. En una realización, la supervivencia se determina como la supervivencia de la planta dos semanas después de la exposición al herbicida. En una realización, la supervivencia se determina como la supervivencia de la planta tres semanas después de la exposición al herbicida.
En una realización, el método comprende exponer una planta no vascular, helecho o alga o helecho a un agente. La exposición a un agente puede provocar que una planta, helecho o alga presente un fenotipo de interés. El agente puede ser un nutriente, molécula que desencadena una respuesta de privación de nutrientes, modulador del crecimiento vegetal, inhibidor del crecimiento vegetal, potenciador del crecimiento vegetal, fertilizante o herbicida. En una realización, la muestra de ensayo es de una planta no vascular que se ha expuesto a un agente. En una realización, la muestra de ensayo es de un helecho que se ha expuesto a un agente. En una realización, la muestra de ensayo es de un alga que se ha expuesto a un agente. En una realización, la muestra de ensayo es de una planta no vascular que se ha expuesto a un herbicida.
En una realización, el método comprende exponer la planta no vascular a un agente de interés y seleccionar una planta no vascular que presente un fenotipo de interés basándose en la respuesta de la planta no vascular al agente. En una realización, el método comprende exponer la planta no vascular a un herbicida y seleccionar una planta no vascular que presente un fenotipo de interés basándose en la respuesta de la planta no vascular al herbicida. En una realización, el método comprende exponer la planta no vascular a un herbicida y seleccionar una planta no vascular que presente resistencia al herbicida.
En una realización, el método comprende exponer el helecho a un agente de interés y seleccionar un helecho que presente un fenotipo de interés basándose en la respuesta del helecho al agente. En una realización, el método comprende exponer las algas a un agente de interés y seleccionar un alga que presente un fenotipo de interés basándose en la respuesta del alga al agente.
En una realización, el método incluye las siguientes etapas preliminares:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) exponer una población de plantas no vasculares a un agente;
(iii) obtener una muestra de ensayo de una planta no vascular mutagenizada;
(iv) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente; en donde de (i) a (iv) se realizan antes de (a).
La exposición al agente puede provocar un fenotipo de interés. En una realización, el método comprende exponer la planta no vascular a un agente de interés y seleccionar una planta no vascular que presente un fenotipo de interés basándose en la respuesta de la planta no vascular al agente.
En una realización, el método comprende las siguientes etapas preliminares:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) exponer una población de plantas no vasculares a un herbicida;
(iii) obtener una muestra de ensayo de una planta no vascular mutagenizada;
(iv) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente; en donde de (i) a (iv) se realizan antes de (a).
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y además en donde la planta no vascular se ha expuesto a un agente;
en donde las plantas no vasculares independientes presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y además en donde la planta no vascular se ha expuesto a un herbicida;
en donde las plantas no vasculares independientes presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con resistencia a herbicidas en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y además en donde la planta no vascular se ha expuesto a un herbicida;
y en donde las plantas no vasculares independientes presentan resistencia al herbicida y en donde las plantas no vasculares independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y además en donde la planta no vascular se ha expuesto a un agente;
en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y además en donde la planta no vascular se ha expuesto a un herbicida;
en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con resistencia a herbicidas en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que se han expuesto a un mutágeno y en donde la muestra de ensayo es de una planta no vascular que presenta resistencia a herbicidas y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que presenta un fenotipo diferente;
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) exponer una población de plantas no vasculares a un agente;
(iii) obtener una muestra de ensayo de una planta no vascular mutagenizada que presenta un fenotipo de interés; (iv) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que presente el mismo fenotipo de interés y;
(a) alinear la secuencia de ADN de la muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) exponer una población de plantas no vasculares a un herbicida;
(iii) obtener una muestra de ensayo de una planta no vascular mutagenizada que presenta un fenotipo de interés; (iv) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que presente el mismo fenotipo de interés y;
(a) alinear la secuencia de ADN de la muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con resistencia a herbicidas en una planta no vascular, en donde el método comprende:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) exponer una población de plantas no vasculares a un herbicida;
(iii) obtener una muestra de ensayo de una planta no vascular mutagenizada que presenta resistencia al herbicida; (iv) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que no presente el mismo fenotipo de interés y;
(a) alinear la secuencia de ADN de la muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) exponer una población de plantas no vasculares a un agente;
(iii) obtener una muestra de ensayo de una planta no vascular mutagenizada que presenta un fenotipo de interés; (iv) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que no presente el fenotipo de interés y;
(a) alinear la secuencia de ADN de la muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con resistencia a herbicidas en una planta no vascular, en donde el método comprende:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) exponer una población de plantas no vasculares a un herbicida;
(iii) obtener una muestra de ensayo de una planta no vascular mutagenizada que presente resistencia a herbicidas; (iv) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que no presente el mismo fenotipo de interés; y
(a) alinear la secuencia de ADN de la muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con resistencia a herbicidas en una planta no vascular, en donde el método comprende:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) exponer una población de plantas no vasculares a un herbicida;
(iii) obtener una muestra de ensayo de una planta no vascular mutagenizada que presente resistencia a herbicidas; (iv) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente que no presente el mismo fenotipo de interés y;
(a) alinear la secuencia de ADN de la muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(i) obtener ADN genómico de una muestra de ensayo y ADN genómico de al menos una muestra de comparación y generar una colección de secuenciación;
(ii) realizar la generación de grupos;
(iii) secuenciar el ADN genómico de una muestra de ensayo y el ADN genómico de al menos una muestra de comparación para obtener lecturas de secuencia;
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
en donde la muestra de ensayo es de una planta no vascular mutagenizada;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un método para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(i) obtener ADN genómico de una muestra de ensayo y ADN genómico de al menos una muestra de comparación y generar una colección de secuenciación;
(ii) realizar la generación de grupos;
(iii) secuenciar el ADN genómico de una muestra de ensayo y el ADN genómico de al menos una muestra de comparación para obtener lecturas de secuencia;
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
en donde la muestra de ensayo es de una planta no vascular mutagenizada;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias de secuencia;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En una realización, el método comprende secuenciar las secuencias de ADN de la muestra de ensayo y la al menos una muestra de comparación para proporcionar lecturas sin procesar. En una realización, la etapa de secuenciar el ADN comprende el recorte de calidad y la normalización de las secuencias de ADN leídas sin procesar. Existen numerosos paquetes de programa informático para realizar cada una de estas etapas de secuenciación.
Los métodos descritos en el presente documento son métodos implementados por ordenador. En una realización, las etapas (a) a (c) y opcionalmente (d) del método se ejecutan mediante un código de programa informático. En una realización, un procesador configurado para ejecutar el código de programa informático almacenado en un medio legible por ordenador ejecuta las etapas (a) a (c) y opcionalmente (d) del método mediante el código de programa informático.
En una realización, el método comprende filtrar las mutaciones candidatas identificadas con filtros biológicos para proporcionar un número reducido de mutaciones candidatas para la mutación causante. Esta etapa de filtrado adicional puede realizarse después de la primera etapa de filtrado (c) de filtrado del primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias. El filtro biológico puede ser un filtro para mutaciones no coherentes con la característica distintiva mutacional del método de mutagénesis (filtro de discrepancias no canónicas). El filtro biológico puede ser un filtro para discrepancias que no provoquen un cambio en la secuencia de aminoácidos de la proteína codificada. El filtro biológico puede ser un filtro para mutaciones no codificantes. El filtro biológico puede ser un filtro para discrepancias que se encuentran en la secuencia codificante de un gen con una función predicha.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un sistema para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el sistema comprende un procesador configurado para ejecutar el código de programa informático almacenado en un medio legible por ordenador, estando configurado el código de programa informático para:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
en donde la muestra de ensayo es de una planta no vascular mutagenizada;
(b) alinear la secuencia de a Dn de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, un sistema para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el sistema comprende un procesador configurado para ejecutar el código de programa informático almacenado en un medio legible por ordenador, estando configurado el código de programa informático para:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias;
en donde la muestra de ensayo es de una planta no vascular mutagenizada;
(b) alinear la secuencia de a Dn de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante;
en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés y en donde la al menos una muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y
en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género.
También se contemplan otros aspectos, pero no forman parte de la invención reivindicada, tales como, por ejemplo, un método para
la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo, comprendiendo el método la etapa de seleccionar muestras de comparación basándose en i) una predicción del grupo de complementación de que la muestra de ensayo y las muestras de comparación de líneas mutantes M1 alélicas independientes forman parte de un grupo de complementación y/o ii) una predicción de mutación causante de comparación de que las muestras de comparación de líneas mutantes M1 no alélicas independientes y plantas de tipo silvestre M0 no albergan la mutación causante, en donde ni la
predicción del grupo de complementación ni la predicción de mutación causante de comparación comprende una etapa de análisis de segregación, y comprendiendo el método además las etapas de un procesador configurado para ejecutar el código de programa informático almacenado en un medio legible por ordenador, ejecutando el código de programa informático el método de: obtener datos de secuencia de ADN de muestra asociados con la muestra de ensayo; obtener datos de secuencia de ADN de referencia asociados con una muestra de referencia; obtener datos de secuencia de ADN de comparación asociados con las muestras de comparación; determinar un primer conjunto de datos de secuencia de a Dn no coincidentes asociados con los datos de secuencia de ADN de muestra y los datos de secuencia de ADN de referencia; determinar conjuntos adicionales de datos de secuencias de ADN no coincidentes asociados con los datos de secuencia de ADN de comparación y los datos de secuencia de ADN de referencia; y filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes para obtener un conjunto de discrepancias candidatas que incluyan la mutación causante para la identificación de la mutación causante dentro de las discrepancias candidatas.
Como otro ejemplo, también se contempla, pero no forma parte de la invención reivindicada, un sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo, comprendiendo el sistema un medio para seleccionar muestras de comparación basándose en i) una predicción del grupo de complementación de que la muestra de ensayo y las muestras de comparación de líneas mutantes M1 alélicas independientes forman parte de un grupo de complementación y/o ii) una predicción de mutación causante de comparación de que las muestras de comparación de líneas mutantes M1 no alélicas independientes y plantas de tipo silvestre M0 no albergan la mutación causante, en donde ni la predicción del grupo de complementación ni la predicción de mutación causante de comparación comprende una etapa de análisis de segregación, y comprendiendo el sistema además un procesador configurado para ejecutar el código de programa informático almacenado en un medio legible por ordenador, estando configurado el código de programa informático para: obtener datos de secuencia de ADN de muestra asociados con la muestra de ensayo; obtener datos de secuencia de ADN de referencia asociados con una muestra de referencia; obtener datos de secuencia de ADN de comparación asociados con las muestras de comparación; determinar un primer conjunto de datos de secuencia de ADN no coincidentes asociados con los datos de secuencia de ADN de muestra y los datos de secuencia de ADN de referencia; determinar conjuntos adicionales de datos de secuencias de ADN no coincidentes asociados con los datos de secuencia de ADN de comparación y los datos de secuencia de ADN de referencia; y filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes para obtener un conjunto de discrepancias candidatas que incluyan la mutación causante para la identificación de la mutación causante dentro de las discrepancias candidatas.
En un aspecto que no forma parte de la invención reivindicada, se proporciona un método para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo, comprendiendo el método la etapa de seleccionar muestras de comparación basándose en i) una predicción de que la muestra de ensayo y las muestras de comparación forman parte de un grupo de complementación y/o ii) una predicción de que las muestras de comparación no albergan la mutación causante, y comprendiendo además el método las etapas de un procesador configurado para ejecutar un código de programa informático almacenado en un medio legible por ordenador, ejecutando el código de programa informático el método de:
obtener datos de secuencia de ADN de muestra asociados con la muestra de ensayo;
obtener datos de secuencia de ADN de referencia asociados con una muestra de referencia;
obtener datos de secuencia de ADN de comparación asociados con las muestras de comparación; determinar un primer conjunto de datos de secuencia de ADN no coincidentes asociados con los datos de secuencia de ADN de muestra y los datos de secuencia de ADN de referencia;
determinar conjuntos adicionales de datos de secuencias de ADN no coincidentes asociados con los datos de secuencia de ADN de comparación y los datos de secuencia de ADN de referencia; y
filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes para obtener un conjunto de discrepancias candidatas que incluyan la mutación causante para la identificación de la mutación causante dentro de las discrepancias candidatas.
En un aspecto, las muestras de comparación se seleccionan basándose en la predicción de que la muestra de ensayo y las muestras de comparación forman parte de un grupo de complementación, y comprendiendo además el código de programa informático que ejecuta el método de:
filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes mediante:
determinar datos de secuencia de ADN no coincidentes comunes que se encuentran tanto en i) el primer conjunto de datos de secuencia de ADN no coincidentes como en ii) los conjuntos adicionales de datos de secuencia de ADN no coincidentes, y
generar el conjunto de discrepancias candidatas basándose en los datos de secuencia de ADN no coincidentes comunes.
En un aspecto, las muestras de comparación se seleccionan basándose en la predicción de que las muestras de comparación no albergan la mutación causante, y comprendiendo además el código de programa informático que ejecuta el método de: filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes mediante:
determinar datos de secuencia de ADN no coincidentes poco comunes que se encuentran en el primer conjunto de datos de secuencia de ADN no coincidentes y no en los conjuntos adicionales de datos de secuencia de ADN no coincidentes y
generar el conjunto de discrepancias candidatas basándose en los datos de secuencia de ADN no coincidentes poco comunes.
En un aspecto, la etapa de determinar el primer conjunto de datos de secuencia de ADN no coincidentes comprende las etapas del código de programa informático:
alinear cada lectura de los datos de secuencia de ADN de muestra con los datos de secuencia de ADN de referencia; y
ordenar las lecturas alineadas de los datos de secuencia de ADN de muestra basándose en la posición de las lecturas de los datos de secuencia de ADN de muestra con respecto a los datos de secuencia de ADN de referencia.
En un aspecto, la etapa de determinar el segundo conjunto o conjuntos adicionales de datos de secuencia de ADN no coincidentes comprende las etapas del código de programa informático:
alinear cada lectura de los datos de secuencia de ADN de comparación con los datos de secuencia de ADN de referencia; y
ordenar las lecturas alineadas de los datos de secuencia de ADN de comparación basándose en la posición de las lecturas de los datos de secuencia de ADN de comparación con respecto a los datos de secuencia de ADN de referencia.
En un aspecto, la etapa de determinar el primer conjunto de datos de secuencia de ADN no coincidentes comprende las etapas del código de programa informático:
rechazar al menos una región de los datos de secuencia de ADN de muestra que se alinea con los datos de secuencia de ADN de referencia basándose en el tamaño de la región que se alinea sobre una profundidad de secuenciación predeterminada.
En un aspecto, la etapa de determinar el segundo conjunto o conjuntos adicionales de datos de secuencia de ADN no coincidentes comprende las etapas del código de programa informático:
rechazar al menos una región de los datos de secuencia de ADN de comparación que se alinea con los datos de secuencia de ADN de referencia basándose en el tamaño de la región que se alinea sobre una profundidad de secuenciación predeterminada.
En un aspecto, en donde el código de programa informático ejecuta además el método de:
determinar una pluralidad de primeros conjuntos de datos de secuencia de ADN no coincidentes, determinar un número de conjuntos en la pluralidad del primer conjunto en el que se produce una discrepancia, y
tras una determinación positiva de que el número de conjuntos en los que se produce la discrepancia supera un umbral predeterminado, añadir los datos de secuencia de ADN no coincidentes asociados con la discrepancia al conjunto de discrepancias candidatas.
En un aspecto que no forma parte de la invención reivindicada, se proporciona un sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo, comprendiendo el sistema un medio para seleccionar muestras de comparación basándose en i) una predicción de que la muestra de ensayo y las muestras de comparación forman parte de un grupo de complementación y/o ii) una predicción de que las muestras de comparación no albergan la mutación causante, y comprendiendo además el sistema un procesador configurado para ejecutar un código de programa informático almacenado en un medio legible por ordenador, estando configurado el código de programa informático para:
obtener datos de secuencia de ADN de muestra asociados con la muestra de ensayo;
obtener datos de secuencia de ADN de referencia asociados con una muestra de referencia;
obtener datos de secuencia de ADN de comparación asociados con las muestras de comparación; determinar un primer conjunto de datos de secuencia de ADN no coincidentes asociados con los datos de secuencia de ADN de muestra y los datos de secuencia de ADN de referencia;
determinar conjuntos adicionales de datos de secuencias de ADN no coincidentes asociados con los datos de secuencia de ADN de comparación y los datos de secuencia de ADN de referencia; y filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes para obtener un conjunto de discrepancias candidatas que incluyan la mutación causante para la identificación de la mutación causante dentro de las discrepancias candidatas.
En un aspecto, las muestras de comparación se seleccionan basándose en la predicción de que la muestra de ensayo y las muestras de comparación forman parte de un grupo de complementación, y el código de programa informático está configurado además para: filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes mediante el código de programa informático que está configurado para:
determinar datos de secuencia de ADN no coincidentes comunes que se encuentran tanto en i) el primer conjunto de datos de secuencia de ADN no coincidentes como en ii) los conjuntos adicionales de datos de secuencia de ADN no coincidentes, y
generar el conjunto de discrepancias candidatas basándose en los datos de secuencia de ADN no coincidentes comunes.
En un aspecto, las muestras de comparación se seleccionan basándose en la predicción de que las muestras de comparación no albergan la mutación causante, y el código de programa informático está configurado para: filtrar el primer conjunto de datos de secuencia de ADN no coincidentes con respecto a los conjuntos adicionales de datos de secuencia de ADN no coincidentes mediante el código de programa informático que está configurado para:
determinar datos de secuencia de ADN no coincidentes poco comunes que se encuentran en el primer conjunto de datos de secuencia de ADN no coincidentes y no en los conjuntos adicionales de datos de secuencia de ADN no coincidentes y
generar el conjunto de discrepancias candidatas basándose en los datos de secuencia de ADN no coincidentes poco comunes.
En un aspecto, para determinar el primer conjunto de datos de secuencia de ADN no coincidentes, el código de programa informático está configurado además para:
alinear cada lectura de los datos de secuencia de ADN de muestra con los datos de secuencia de ADN de referencia; y
ordenar las lecturas alineadas de los datos de secuencia de ADN de muestra basándose en la posición de las lecturas de los datos de secuencia de ADN de muestra con respecto a los datos de secuencia de ADN de referencia.
En un aspecto, para determinar el segundo conjunto o conjuntos adicionales de datos de secuencia de ADN no coincidentes, el código de programa informático está configurado además para:
alinear cada lectura de los datos de secuencia de ADN de comparación con los datos de secuencia de ADN de referencia; y
ordenar las lecturas alineadas de los datos de secuencia de ADN de comparación basándose en la posición de las lecturas de los datos de secuencia de ADN de comparación con respecto a los datos de secuencia de ADN de referencia.
En un aspecto, para determinar el primer conjunto de datos de secuencia de ADN no coincidentes, el código de programa informático está configurado además para:
rechazar al menos una región de los datos de secuencia de ADN de muestra que se alinea con los datos de secuencia de ADN de referencia basándose en el tamaño de la región que se alinea sobre una profundidad de secuenciación predeterminada.
En un aspecto, para determinar los conjuntos adicionales de datos de secuencia de ADN no coincidentes, el código de programa informático está configurado además para:
rechazar al menos una región de los datos de secuencia de ADN de comparación que se alinea con los datos de secuencia de ADN de referencia basándose en el tamaño de la región que se alinea sobre una profundidad de secuenciación predeterminada.
En un aspecto, el código de programa informático está configurado además para:
determinar una pluralidad de primeros conjuntos de datos de secuencia de ADN no coincidentes, determinar un número de conjuntos en la pluralidad del primer conjunto en el que se produce una discrepancia, y
tras una determinación positiva de que el número de conjuntos en los que se produce la discrepancia supera un umbral predeterminado, añadir los datos de secuencia de ADN no coincidentes asociados con la discrepancia al conjunto de discrepancias candidatas.
En un aspecto de la presente divulgación que no forma parte de la invención reivindicada, se proporciona un medio de almacenamiento legible por ordenador que tiene un programa informático grabado en el mismo, siendo el programa ejecutable por un ordenador para hacer que el ordenador realice el método de una cualquiera de las realizaciones divulgadas en el presente documento.
Aplicabilidad industrial
Las disposiciones descritas son aplicables a las industrias de secuenciación de ADN y, en particular, a las industrias que se ocupan de la detección de mutaciones causantes en secuencias de ADN.
El método y/o sistema de programa informático divulgado posibilita el descubrimiento de mutaciones causantes sin la necesidad de cruzar mutantes. Por lo tanto, pueden identificarse mutaciones causantes en mutantes estériles usando el método y/o sistema de programa informático divulgado. Identificar mutaciones que provocan esterilidad puede tener aplicaciones en el campo de las tecnologías agrícolas. Pueden diseñarse mutaciones que provocan esterilidad en especies de plantas relevantes para la agricultura para producir semillas estériles. Por ejemplo, pueden aplicarse mutaciones que provocan esterilidad a la tecnología de restricción de uso de genes (GURT).
En el contexto de la presente memoria descriptiva, la expresión "que comprende" significa "que incluye principalmente, pero no necesariamente de forma exclusiva" o "que tiene" o "que incluye" y no "que consiste únicamente en". Variaciones de la expresión "que comprende", tales como "comprenden" y "comprende" tienen significados correspondientemente variados.
Ejemplo 1: Descubrimiento de una mutación en el gen de GTPASAS de RHO del gen PROTEÍNA POTENCIADORA DE PLANTAS que altera la fertilidad (caso B)
Se generaron varias líneas mutantes independientes irradiando esporas de Marchantía polymorpha con ultravioleta B. Las líneas mutantes se clasificaron en dos grupos fenotípicos: algunas tenían rizoides rectos (figura 8A) y epidermis intacta (figura 9A), algunas tenían rizoides ondulados (figura 8B) y epidermis estirada (figura 9B).
Nuestro objetivo fue identificar la mutación causante en la línea mutante UV4.32, que tiene rizoides ondulados y epidermis estirada. Se extrajo el ADN de un mutante UV4.32 con rizoides ondulados y epidermis estirada usando la planta completa como muestra y extracción convencional de ADN con fenolcloroformo-IAA. Los genomas de UV4.32 y el genoma de 7 líneas mutantes independientes con rizoides rectos y epidermis intacta se secuenciaron usando la tecnología de plataforma HiSeq-2000 de Illumina.
La calidad de las lecturas sin procesar se recortó con T rimmomatic-0.32 y se normalizó con Khmer0.7.1 con un tamaño de k-mero de 31. Las lecturas resultantes se alinearon frente al genoma de referencia usando bowtie2-2.1.0 configurado en modo --muy-sensible-local. El genoma de referencia usando es un borrador del conjunto genómico de Marchantía polymorpha disponible públicamente en la base de datos NCBI Whole Genome Shotgun (WGS).
Las alineaciones se ordenaron por posición y las discrepancias dentro de las lecturas con una calidad q superior a 35 se extrajeron usando la función sort y mpileup de bio-samtools-2.0.5. Debido a que probablemente se provocaron alineaciones incorrectas, las discrepancias en regiones con cobertura superior a
100X se excluyeron usando la función varFilter de bcftools del paquete samtools-0.1.9. A continuación, las discrepancias se retuvieron únicamente si estaban respaldadas por más de 7 lecturas y si parecían lo suficientemente homocigóticas basándose en un valor FQ negativo o un valor a F1 superior a
0,5001.
En total, se identificaron 143292 discrepancias en UV4.32 antes de cualquier filtrado. El número de discrepancias específicas de UV4.32 disminuyó con el número de líneas mutantes de UV con rizoides rectos y epidermis intacta usadas para el filtrado (figura 10a ).
Por último, usando todas las líneas de filtrado secuenciadas, el número de discrepancias candidatas se redujo a 12000 discrepancias, o más de un 90 % de disminución (figura 3B). Esto muestra que la etapa de filtrado que sustrae el conjunto de discrepancias en la muestra de ensayo mediante el conjunto de discrepancias en las muestras de comparación que se ha previsto que no alberguen la mutación causante, aumentó la rigurosidad de la identificación de discrepancias candidatas, antes de las etapas de filtrado convencional.
Se realizaron etapas de filtrado posteriores para filtrar las discrepancias incoherentes con la característica distintiva de UV, filtrar las discrepancias fuera de la secuencia codificante del gen y filtrar las discrepancias no sinónimas. Estas tres etapas de filtrado redujeron más el número de discrepancias candidatas a 10 mutaciones que eran coherentes con la característica distintiva de mutación UV esperada (figura 3), que se había previsto que estarían en la secuencia codificante de un gen (figura 3) y que cambiarían la secuencia de aminoácidos de la proteína correspondiente (tabla 1).
Tabla 1: Mutaciones candidatas para UV4.32 en genes de Marchantia y genes homólogos de Arabidopsis correspondientes. Arabidopsis thaliana es el modelo más establecido para genética de plantas y la función de los
Figure imgf000033_0001
De las 10 mutaciones, la mutación más fuerte es una eliminación de 2 pares de bases que provoca un codón de parada prematura en MpREN (tabla 1). Se sabe que los mutantes Ren presentan el mismo fenotipo que UV4.32 (Honkanen et al., 2016 y datos no publicados/figura 2B). Esto sugiere que las etapas de filtrado posteriores fueron suficientemente conservadoras.
En conjunto, esto muestra que la versión de nuestra vía basada en sustraer el conjunto de discrepancias en la muestra de ensayo con respecto al conjunto de discrepancias en las muestras de comparación que está previsto que no alberguen la mutación causante posibilita la identificación de un pequeño número de mutaciones, incluyendo la mutación causante, sin necesidad de cruzar las líneas mutantes.
Ejemplo 2: Descubrimiento de mutaciones en el gen ACETOLACTATO SINTASA que provocan resistencia al clorsulfurón (caso A)
Se irradiaron esporas de Marchantia polymorpha con radiación ultravioleta B y se identificaron siete líneas mutantes independientes resistentes al herbicida clorsulfurón. La resistencia al clorsulfurón se determinó mediante una planta de Marchantia polymorpha que estaba viva dos semanas después de la exposición a una dosis letal de clorsulfurón (dosis de 0,1 ppm, es decir, una dosis suficiente para destruir el 100 % de las plantas de tipo silvestre).
Dado que todas las plantas mutantes compartían el mismo fenotipo (resistencia al clorsulfurón), planteamos la hipótesis de que cada una albergaba la misma mutación causante. Comparar los mutantes resistentes al clorsulfurón con el genoma de referencia identificó individualmente más de 100000 discrepancias y en primer lugar filtramos nuestras discrepancias, que también estaban presentes en un genoma M0 de tipo silvestre (figura 11, los 2 cuadros de dispersión más a la izquierda).
Para someter a prueba la eficacia de la versión basada en alelismo de nuestra vía, la aplicamos a combinaciones de 4, 5, 6 y los 7 mutantes de clorsulfurón. Cuantas más líneas de sustracción alélicas usamos, más eficaz se vuelve la vía. De hecho, usando las 7 líneas resistentes al clorsulfurón, redujimos el número de discrepancias de casi 100000 a 11 mutaciones candidatas que son coherentes con la característica distintiva mutacional esperada y están en la secuencia codificante de un gen (figura 11).
De las 11 mutaciones candidatas que son comunes a los 7 mutantes resistentes al clorsulfurón, pero que están ausentes en el tipo silvestre, 5 provocan un cambio en la secuencia de aminoácidos de la proteína codificada (tabla 3). De esas 5 mutaciones candidatas, solamente una está en un gen con una función predicha. De hecho, se sabe que esta mutación exacta en el gen de la acetolactato sintasa provoca resistencia al clorsulfurón en otros modelos de plantas.
Figure imgf000034_0001
Ejemplo 3: Descubrimiento de mutaciones en el gen ACETOLACTATO SINTASA que provocan resistencia al clorsulfurón (caso AB)
Para mejorar la potencia de las vías ejemplificadas en el ejemplo 1 y el ejemplo 2, combinamos ambas estrategias: en esta realización de la vía, las mutaciones causantes se buscan en el grupo de discrepancias que son comunes a los mutantes alélicos y están ausentes en los mutantes de tipo silvestre y no alélicos.
Usando 3 líneas mutagenizadas sensibles al clorsulfurón, filtramos 4 de las 11 discrepancias específicas resistentes al clorsulfurón identificadas previamente como coherentes con la característica distintiva mutacional esperada y que están en la secuencia codificante de un gen, dejándonos finalmente con solamente 4 mutaciones candidatas (tabla 4) que se ha previsto que provoquen un cambio en la secuencia de aminoácidos de una proteína.
Esto representa un aumento de un 20-30 % en la potencia de la vía en comparación con la vía ejemplificada en el ejemplo 2 en solitario. Debido a que la potencia de la vía en los ejemplos 1 y 2 aumenta con el número de líneas de sustracción alélicas y no alélicas respectivamente, predecimos que la potencia de la vía ejemplificada en el presente ejemplo aumentará más si usamos más líneas de sustracción alélicas y no alélicas.
Tabla 4. Mutaciones candidatas (tabla 4) que se ha previsto que provoquen un cambio en la secuencia de min i n r ín .
Figure imgf000034_0002

Claims (15)

REIVINDICACIONES
1. Un método implementado por ordenador para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias; en donde la muestra de ensayo es de una planta no vascular mutagenizada;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias para identificar un subconjunto de discrepancias que son únicas al primer conjunto de discrepancias, en donde el subconjunto de discrepancias son mutaciones candidatas para la mutación causante; en donde la muestra de ensayo es de una planta no vascular que presenta el fenotipo de interés;
en donde la al menos una muestra de comparación es de una planta no vascular independiente del mismo género que no presenta el fenotipo de interés; y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género; y
en donde el método no comprende una etapa de análisis de segregación, análisis complejo de la segregación, análisis másico de la segregación, autopolinización, fertilización, cruzamiento, retrocruzamiento o fertilización con una línea casi isogénica de las plantas no vasculares.
2. Un método implementado por ordenador para identificar una mutación asociada con un fenotipo de interés en una planta no vascular, en donde el método comprende:
(a) alinear la secuencia de ADN de una muestra de ensayo con una secuencia de ADN de referencia e identificar un primer conjunto de discrepancias de secuencia entre las dos secuencias; en donde la muestra de ensayo es de una planta no vascular mutagenizada;
(b) alinear la secuencia de ADN de al menos una muestra de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias;
(c) filtrar el primer conjunto de discrepancias con respecto al segundo conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias de secuencia;
en donde la muestra de ensayo y la muestra o muestras de comparación son de plantas no vasculares independientes que presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género; y en donde la secuencia de ADN de referencia es una secuencia de referencia conocida para una planta no vascular del género; y
en donde el método no comprende una etapa de análisis de segregación, análisis complejo de la segregación, análisis másico de la segregación, autopolinización, fertilización, cruzamiento, retrocruzamiento o fertilización con una línea casi isogénica de las plantas no vasculares.
3. El método implementado por ordenador de la reivindicación 1, en donde el método comprende, además:
(b-1) alinear la secuencia de ADN de al menos una muestra de comparación adicional con la secuencia de ADN de referencia e identificar un tercer conjunto de discrepancias de secuencia entre las dos secuencias; en donde la muestra o muestras de comparación adicionales son de plantas no vasculares independientes que presentan el fenotipo de interés y en donde las plantas no vasculares independientes son del mismo género: y en donde (c) comprende además filtrar el primer conjunto de discrepancias con respecto al tercer conjunto de discrepancias de secuencia para identificar un subconjunto de discrepancias que son comunes al primer y segundo conjunto de discrepancias de secuencia, en donde los dos subconjuntos de discrepancias son mutaciones candidatas para la mutación causante.
4. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 3, en donde el fenotipo de interés es una propiedad observable seleccionada del grupo que consiste en mayor rendimiento, tolerancia a las agresiones, resistencia a las agresiones, tolerancia a las agresiones abióticas, resistencia a las agresiones abióticas, tolerancia a la sal, resistencia a la sal, esterilidad, resistencia a la sequía, tolerancia a la sequía, resistencia a las temperaturas calientes o frías, resistencia a las heladas, tolerancia a las heladas, tasa de crecimiento vegetal, tasa de división de células vegetales, tolerancia a enfermedades, resistencia a enfermedades, sensibilidad a enfermedades, tolerancia a herbicidas, tolerancia a herbicidas, sensibilidad a herbicidas, tolerancia a antibióticos, resistencia a antibióticos y sensibilidad a antibióticos.
5. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 3, en donde el fenotipo de interés es mayor resistencia o mayor tolerancia a un herbicida natural, sintético o químico.
6. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 5, en donde la planta no vascular es una hepática frondosa, hepática taloide simple o una hepática taloide compleja.
7. El método implementado por ordenador de la reivindicación 6, en donde la planta no vascular se selecciona del grupo que consiste en Marchantía alpestris, Marchantía aquatica, Marchantía berteroana, Marchantía carrii, Marchantía chenopoda, Marchantía debílís, Marchantía domíngenís, Marchantía emargínata, Marchantía folíacía, Marchantía grossíbarba, Marchantía inflexa, Marchantía linearis, Marchantía macropora, Marchantía novoguineensis, Marchantía paleacea, Marchantía palmata, Marchantía papíllate, Marchantía pappeana, Marchantía polymorpha, Marchantía rubribarba, Marchantía solomonensis, Marchantía streimannii, Marchantía subgeminata, Marchantía vitiensis, Marchantía wallisii y Marchantía nepalensis.
8. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 7, en donde la muestra de ensayo mutagenizada es un mutante M1.
9. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 8, en donde la muestra de comparación de una planta no vascular independiente es una planta no vascular mutagenizada.
10. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 9, en donde la muestra de ensayo mutagenizada comprende una mutación que no se produce de forma natural.
11. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 10, en donde la etapa (b) comprende alinear la secuencia de ADN de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 o más muestras de comparación con la secuencia de ADN de referencia e identificar un segundo conjunto de discrepancias de secuencia entre las dos secuencias; y/o en donde el método comprende (d) filtrar adicionalmente las mutaciones candidatas con filtros biológicos.
12. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 11, en donde la planta no vascular es un haploide.
13. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 12, en donde la planta no vascular se selecciona del grupo que consiste en musgo, hepática y antocerote, y opcionalmente en donde la planta no vascular es un musgo seleccionado de Physcomitrella patens o Physcomitrella readeri.
14. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 13, en donde el fenotipo de interés es un rasgo característico morfológica seleccionado del grupo que consiste en el tamaño de la planta, altura de la planta, tamaño de la hoja, color de la planta y estructura de la planta; y/o en donde el fenotipo de interés es mayor resistencia o mayor tolerancia a un patógeno vírico, bacteriano o fúngico.
15. El método implementado por ordenador de una cualquiera de las reivindicaciones 1 a 14, en donde el método comprende, además:
(i) exponer una población de plantas no vasculares a un mutágeno;
(ii) exponer una población de plantas no vasculares a un agente;
(iii) obtener una muestra de ensayo de una planta no vascular mutagenizada;
(iv) obtener al menos una muestra de comparación de una planta no vascular mutagenizada independiente; en donde de (i) a (iv) se realizan antes de (a).
ES19766108T 2018-09-05 2019-09-05 Un método o sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo Active ES2930419T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2018903304A AU2018903304A0 (en) 2018-09-05 A method or system for identification of a causative mutation causing a phenotype of interest in a tested sample
AU2019902478A AU2019902478A0 (en) 2019-07-12 A method or system for identification of a causative mutation causing a phenotype of interest in a tested sample
PCT/IB2019/057464 WO2020049491A2 (en) 2018-09-05 2019-09-05 A method or system for identification of a causative mutation causing a phenotype of interest in a test sample

Publications (1)

Publication Number Publication Date
ES2930419T3 true ES2930419T3 (es) 2022-12-12

Family

ID=67909442

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19766108T Active ES2930419T3 (es) 2018-09-05 2019-09-05 Un método o sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo

Country Status (10)

Country Link
US (1) US20210335449A1 (es)
EP (2) EP3846613B1 (es)
JP (1) JP7477501B2 (es)
CN (1) CN112638152B (es)
CA (1) CA3106344A1 (es)
DK (1) DK3846613T3 (es)
ES (1) ES2930419T3 (es)
HU (1) HUE060446T2 (es)
PL (1) PL3846613T3 (es)
WO (1) WO2020049491A2 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113130005B (zh) * 2021-04-12 2022-11-22 中国科学院东北地理与农业生态研究所 一种基于m2群体的候选因果突变位点基因定位的方法
CN117947163A (zh) * 2021-12-24 2024-04-30 广州燃石医学检验所有限公司 变体核酸样本背景水平的评估方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2270166A3 (en) * 2002-09-18 2011-08-10 Mendel Biotechnology, Inc. Polynucleotides and polypeptides in plants
JP2015035212A (ja) 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
JP6675164B2 (ja) 2015-07-28 2020-04-01 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体

Also Published As

Publication number Publication date
DK3846613T3 (da) 2022-10-31
EP3846613A2 (en) 2021-07-14
CN112638152A (zh) 2021-04-09
CN112638152B (zh) 2023-02-17
WO2020049491A3 (en) 2020-07-30
WO2020049491A2 (en) 2020-03-12
JP7477501B2 (ja) 2024-05-01
US20210335449A1 (en) 2021-10-28
CA3106344A1 (en) 2020-03-12
HUE060446T2 (hu) 2023-02-28
EP3846613B1 (en) 2022-09-28
EP4148740A1 (en) 2023-03-15
PL3846613T3 (pl) 2023-03-20
JP2022501014A (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
Winfield et al. High‐density SNP genotyping array for hexaploid wheat and its secondary and tertiary gene pool
Taranto et al. Genome-wide SNP discovery and population structure analysis in pepper (Capsicum annuum) using genotyping by sequencing
Greiner et al. The role of plastids in plant speciation
Willing et al. UVR2 ensures transgenerational genome stability under simulated natural UV-B in Arabidopsis t haliana
US11791017B2 (en) Soybean anti-pod-shattering major QTLqPD05, and mapping method and application thereof
Vallejo‐Marín et al. Strongly asymmetric hybridization barriers shape the origin of a new polyploid species and its hybrid ancestor
Guajardo et al. Genome-wide SNP identification in Prunus rootstocks germplasm collections using genotyping-by-sequencing: phylogenetic analysis, distribution of SNPs and prediction of their effect on gene function
Palumbo et al. First draft genome sequencing of fennel (Foeniculum vulgare Mill.): Identification of simple sequence repeats and their application in marker-assisted breeding
ES2930419T3 (es) Un método o sistema para la identificación de una mutación causante que provoca un fenotipo de interés en una muestra de ensayo
ES2714369T3 (es) Mutaciones inducidas relacionadas con heterosis
Preite et al. Increased transgenerational epigenetic variation, but not predictable epigenetic variants, after environmental exposure in two apomictic dandelion lineages
Liu et al. Impact of fruit shape selection on genetic structure and diversity uncovered from genome-wide perfect SNPs genotyping in eggplant
Mizuno et al. The genotype-dependent phenotypic landscape of quinoa in salt tolerance and key growth traits
Chao et al. High density genetic map and quantitative trait loci (QTLs) associated with petal number and flower diameter identified in tetraploid rose
Larekeng et al. Moderate Level of Genetic diversity in Anthocephalus macrophyllus Roxb, an endemic tree of Sulawesi and Its Implication in conservation
Natcheva et al. Recombination and introgression of nuclear and chloroplast genomes between the peat mosses, Sphagnum capillifolium and Sphagnum quinquefarium
Shah et al. Genetic diversity analysis of Pakistan rice (Oryza sativa) germplasm using multiplexed single nucleotide polymorphism markers
Bouck et al. Genetic mapping of species boundaries in Louisiana irises using IRRE retrotransposon display markers
Duncan et al. Morphological and genetic differentiation and reproductive isolation among closely related taxa in the Ipomoea series Batatas
Yu et al. Genetic diversity and population structure analysis of citrus germplasm with single nucleotide polymorphism markers
Heuermann et al. Combining next‐generation sequencing and progeny testing for rapid identification of induced recessive and dominant mutations in maize M2 individuals
Rajesh et al. Insights on genetic diversity, population structure, and linkage disequilibrium in globally diverse coconut accessions using genotyping-by-sequencing
Eickholt et al. Registration of USDA‐Max× Soja Core Set‐1: Recovering 99% of wild soybean genome from PI 366122 in 17 agronomic interspecific germplasm lines
Zhang et al. Mapping quantitative trait loci and predicting candidate genes for leaf angle in maize
Zhang et al. Construction of a high-density genetic map and identification of leaf trait-related QTLs in Chinese bayberry (Myrica rubra)