ES2744675T3

ES2744675T3 - Gen R4 restaurador de la esterilidad masculina citoplasmática (CMS) tipo C de maíz, marcadores moleculares y su uso

Info

Publication number: ES2744675T3
Application number: ES15191795T
Authority: ES
Inventors: Bruce Nagel; Siva P Kumpatla; Ruihua Ren; Peizhong Zheng; Gary L Cutter; Steven A Thompson; Thomas W Greene
Original assignee: Dow AgroSciences LLC
Current assignee: Corteva Agriscience LLC
Priority date: 2010-10-06
Filing date: 2011-09-26
Publication date: 2020-02-25
Anticipated expiration: 2031-09-26
Also published as: WO2012047595A3; CA2812576A1; CL2013000911A1; RU2016136834A; EP3018217A2; EP3018217A3; BR112013008387B1; EP2625291A2; MX349350B; MX2013003917A; BR122020012639B1; CA2812576C; RU2016114532A3; UY33654A; EP2625291A4; HUE045078T2; CL2016000546A1; NZ707345A; RU2729107C2; AU2011312559B2

Abstract

Un método para identificar una planta que comprende un gen restaurador funcional de la esterilidad masculina citoplasmática tipo C de maíz, el método comprende: aislar las moléculas de ácido nucleico de una planta; y tamizar las moléculas de ácido nucleico aisladas para detectar una molécula de ácido nucleico que comprende un alelo marcador de Rf4 en una secuencia de nucleótidos seleccionada del grupo que consiste en la SEQ ID NO:105, la SEQ ID NO:109, la SEQ ID NO:111, la SEQ ID NO:115, las SEQ ID NO:118-120, la SEQ ID NO:123, la SEQ ID NO:126, la SEQ ID NO:134; y los marcadores denominados ID de polimorfismo núm. 1-106 en la Tabla 3, en donde la presencia del alelo marcador de Rf4 en la secuencia de ácido nucleico es indicativa de un gen restaurador funcional de la esterilidad masculina citoplasmática tipo C de maíz.

Description

DESCRIPCIÓN

Gen R/4 restaurador de la esterilidad masculina citoplasmática (CMS) tipo C de maíz, marcadores moleculares y su uso

Campo técnico

La presente descripción se refiere a genes de fertilidad en plantas. En algunas modalidades, la descripción se refiere a R/4, un gen restaurador de la fertilidad de maíz. En las modalidades particulares, la descripción se refiere a composiciones y métodos para restaurar la fertilidad a la esterilidad masculina citoplasmática tipo C (CMS-C), por ejemplo, utilizando marcadores moleculares ligados a, o que residen dentro de, el gen Rf4. Las modalidades particulares se refieren a métodos para utilizar secuencias de ácido nucleico particulares para identificar plantas que contienen el restaurador de la fertilidad a CMS-C, y para la producción de semilla híbrida. Algunas modalidades particulares se refieren a los polipéptidos asociados con la restauración de la fertilidad a CMS-C. En particular la presente invención se relaciona con un método para identificar una planta que comprende un gen restaurador funcional de la esterilidad masculina citoplasmática tipo C de maíz, el método comprende: aislar moléculas de ácido nucleico de una planta; y tamizar las moléculas de ácido nucleico aisladas para detectar una molécula de ácido nucleico que comprende un alelo marcador de Rf4 en una secuencia de nucleótidos seleccionada del grupo que consiste en la SEQ ID NO:105, la SEQ ID NO:109, la SEQ ID NO:111, la SEQ ID NO:115, las SEQ ID NO:118-120, la SEQ ID NO:123, la SEQ ID NO:126, la SEQ ID NO:134; y los marcadores denominados ID de polimorfismo núm.

1-106 en la Tabla 3, en donde la presencia del alelo marcador de Rf4 en la secuencia de ácido nucleico es indicativa de un gen restaurador funcional de la esterilidad masculina citoplasmática tipo C de maíz. Además, la presente invención se relaciona con un método para introducir el gen Rf4-bHLH de maíz en un organismo huésped mediante transformación genética, el método comprende: analizar el ADN genómico de una planta con sondas que son específicamente hibridables a alelos marcadores de Rf4 para identificar el gen Rf4 en la planta; en donde los alelos marcadores de Rf4 se seleccionan del grupo que consiste en la SEQ ID NO:105, la SEQ ID NO:109, la SEQ ID NO:111, la SEQ ID NO:115, las SEQ ID NO:118-120, la SEQ ID NO:123, la SEQ ID NO:126, la SEQ ID NO:134; y los marcadores denominados ID de polimorfismo núm. 1-106 en la Tabla 3;

aislar un segmento del ADN genómico de la planta que hibrida específicamente a sondas que son específicamente hibridables a los alelos marcadores de Rf4;

introducir el segmento aislado de ADN genómico en el organismo huésped; y analizar el ADN del organismo huésped con sondas que son específicamente hibridables a alelos marcadores de Rf4 para identificar el gen Rf4 en el organismo huésped.

Antecedentes

El desarrollo del mejoramiento de plantas híbridas ha posibilitado avances considerables en cuando a calidad y cantidad de las cosechas producidas. La producción incrementada y la combinación de características deseables, tales como resistencia a enfermedades e insectos, tolerancia al calor y la sequía, y variaciones en composición de las plantas son todos posibles, en parte, debido a los procedimientos de hibridación. Los procedimientos de hibridación se basan en la contribución de polen de una planta progenitora masculina a una planta progenitora femenina para producir el híbrido resultante.

Las plantas pueden autopolinizarse si el polen de una flor es transferido a la misma flor u otra flor de la misma planta. Las plantas pueden polinizarse de forma cruzada si el polen se origina en una flor de una planta diferente. Las plantas de maíz (Zea mays) pueden mejorarse tanto por técnicas de autopolinización como de polinización cruzada. Las plantas de maíz tienen flores masculinas, las cuales están localizadas en la panícula, y flores femeninas, las cuales están localizadas en la espiga de la misma planta. La polinización natural en el maíz ocurre cuando el polen de las panículas alcanza los estigmas que se encuentran en las partes superiores de las espigas incipientes. El desarrollo de los híbridos de maíz se basa en los sistemas de esterilidad masculina.

El desarrollo de los híbridos de maíz requiere el desarrollo de líneas endogámicas homocigóticas, el cruzamiento de estas líneas, y la evaluación de los cruzamientos. El mejoramiento del pedigrí y la selección recurrente son dos métodos de fitomejoramiento utilizados para desarrollar líneas endogámicas a partir de poblaciones. Los programas de fitomejoramiento combinan los rasgos deseables de dos o más líneas endogámicas o diversas fuentes de base amplia en grupos de fitomejoramiento a partir de los cuales se desarrollan líneas endogámicas nuevas mediante autopolinización y selección de los fenotipos deseados. Una variedad híbrida de maíz es el cruzamiento de dos de dichas líneas endogámicas, cada una de las cuales puede tener una o más características deseables ausentes en una o que complementan a la otra. Las plantas endogámicas nuevas se cruzan con otras líneas endogámicas y los híbridos de estos cruzamientos se evalúan para determinar cuáles son deseables. La progenie híbrida de la primera generación se designa como F1. En el desarrollo de los híbridos, únicamente los híbridos F1 son los que se buscan. El híbrido F1 normalmente es más vigoroso que sus progenitores endogámicos. Este vigor híbrido, denominado heterosis, normalmente conduce a, por ejemplo, un crecimiento vegetal incrementado y una producción incrementada.

La semilla de maíz híbrida puede ser producida por un sistema de esterilidad masculina que incorpora la remoción manual de panículas. Para producir semilla híbrida, la panícula masculina es removida del progenitor endogámico femenino en crecimiento, el cual puede ser plantado en diversos patrones de filas alternas con el progenitor endogámico masculino. En consecuencia, considerando que existe aislamiento suficiente del polen de maíz extraño, las espigas del progenitor endogámico femenino serán fertilizadas únicamente con el polen del progenitor endogámico masculino. La semilla resultante es la semilla híbrida F1.

La remoción manual de panículas requiere mucha mano de obra y es costosa. Además, la remoción manual de panículas con frecuencia es poco efectiva, por ejemplo, debido a que la variación ambiental en el desarrollo de las plantas puede dar como resultado que las plantas desarrollen panículas después de que se completó la remoción manual de panículas de la planta progenitora femenina o debido a que el operario que remueve las panículas puede no remover por completo la panícula de una planta endogámica femenina. Si no es efectiva la remoción de panículas, la planta femenina liberará polen con éxito y algunas plantas femeninas se autopolinizarán. Esto dará como resultado la cosecha de semilla de la planta endogámica femenina junto con la semilla híbrida que normalmente es producida. La semilla de la planta endogámica femenina no es tan productiva como la semilla F1. Además, la presencia de semilla de la planta endogámica femenina puede representar un riesgo de seguridad del germoplasma para el productor de la semilla híbrida.

A una planta endogámica femenina también se le puede remover la panícula en forma mecánica a través de una máquina. La remoción mecánica de las panículas es aproximadamente tan confiable como la remoción manual de panículas, aunque es más rápida y menos costosa. Sin embargo, la mayoría de las máquinas para la remoción de panículas produce más daños a las plantas que la remoción manual de panículas. Por consiguiente, en la actualidad no existe una forma de remoción de panículas completamente satisfactoria.

La esterilidad masculina genética es un método alternativo que se puede utilizar en la producción de semilla híbrida. El proceso de remoción de panículas laborioso puede evitarse en algunos genotipos utilizando plantas endogámicas con esterilidad masculina citoplasmática (CMS). En la ausencia de un gen restaurador de la fertilidad, las plantas de una línea endogámica con CMS tienen esterilidad masculina como resultado de factores que resultan del genoma citoplasmático, a diferencia del genoma nuclear. Por consiguiente, la característica de la esterilidad masculina es heredada de manera exclusiva a través del progenitor femenino en las plantas de maíz, debido a que únicamente el progenitor femenino proporciona citoplasma a la semilla fertilizada. Las plantas con CMS son fertilizadas con polen de otro progenitor endogámico que no tiene esterilidad masculina. El polen del segundo progenitor endogámico puede o no contribuir con genes que hacen que las plantas híbridas tengan fertilidad masculina. Normalmente, la semilla del maíz normal con panícula removida y la semilla CMS producida del mismo híbrido deben mezclarse para asegurar que están disponibles las cargas de polen adecuadas para la fertilización cuando las plantas híbridas se cultivan y asegurar la diversidad citoplasmática.

Las desventajas de CMS como un sistema para la producción de semilla híbrida incluyen la asociación de variantes específicas de CMS con susceptibilidad a ciertas enfermedades de los cultivos. Véase, por ejemplo, la publicación de Beckett (1971) Crop Science 11:724-6. Este problema ha desalentado específicamente el uso de la variante CMS-T en la producción de semilla híbrida de maíz, y ha tenido un impacto negativo en el uso de CMS en el maíz en general.

La esterilidad masculina citoplasmática (CMS) es la incapacidad heredada por vía materna de producir polen funcional. Más de 40 fuentes de CMS se han descubierto y clasificado en tres grupos principales por sus diferentes reacciones de restauración de la fertilidad en el maíz. Estos grupos son designados como CMS-T (Texas), CMS-S (USDA) y CMS-C (Charrua). Beckett (1971). En el grupo CMS-T, dos genes dominantes, Rf1 y Rf2, los cuales están localizados en los cromosomas 3 y 9, respectivamente, se requieren para la restauración de la fertilidad del polen. Duvick (1965) Adv. Genetics 13:1-56. El citoplasma S es restaurado por un solo gen, Rf3, el cual ha sido mapeado en el cromosoma 2. Laughnan y Gabay (1978) "Nuclear and cytoplasmic mutations to fertility en S malesterile maize", en Maize Breeding and Genetics, pp. 427-446.

En comparación con CMS-T y CMS-S, en análisis anteriores se ha descubierto que la restauración de la fertilidad de CMS-C es muy compleja. Duvick (1972), "Potential usefulness of new cytoplasmic male sterile and sterility system", en Proceeding of the 27th annual corn and sorghum research conference, pp. 197-201, descubrió que la restauración completa de la fertilidad en CMS-C es controlada por un alelo dominante del gen Rf4. Khey-Pour y otros (1981) también descubrieron que este gen será suficiente para la restauración de CMS-C. Sin embargo, la publicación de Josephson y otros (1978), "Genetics and inheritance of fertility restoration of male sterile cytoplasms in corn", en Proceedings of the 33rd corn and sorghum research conference 7:13, propuso que la restauración completa de la fertilidad en CMS-C estaba condicionada por la acción complementaria de los alelos dominantes de dos genes, Rf4 y Rf5, los cuales se han mapeado desde entonces en los cromosomas 8 y 5, respectivamente. Sisco (1991) Crop Sci. 31:1263-6. Mientras que, Chen y otros (1979) Acta Agronom. Sin. 5(4):21-28, consideraron que los dos genes restauradores dominantes en CMS-C tienen funciones duplicadas. Para complicar aún más el sistema, Vidakovic (1988), Maydica 33:51-65, demostraron la existencia de tres genes dominantes y complementarios para la restauración completa de la fertilidad en CMS-C, agregando el gen, Rf6. Vidakovic y otros, (1997a) Maize Genet. Coop. News Lett. 71:10; (1997b) Maydica 42:313-6, reportaron posteriormente que estos genes complementarios, Rf4, Rf5, y Rf6, no eran de hecho los únicos sistemas genéticos para la restauración de la fertilidad en CMS-C del maíz. Por lo tanto, los mecanismos de restauración de la fertilidad de CMS-C permanecen sin resolver. Como resultado, es difícil seleccionar líneas restauradoras para algunas líneas con esterilidad genotípica.

Los marcadores moleculares son particularmente útiles para acelerar el proceso de introducción de un gen o loci de rasgos cuantitativos (QTL) en una variedad de cultivo de élite o una línea de fitomejoramiento por medio de retrocruzamiento. Los marcadores ligados al gen pueden ser utilizados para seleccionar plantas que poseen el rasgo deseado, y los marcadores a través de todo el genoma pueden utilizarse para seleccionar plantas que son genéticamente similares al progenitor recurrente (Young y Tanksley (1989) Theor. Appl. Genet. 77:95-101; Hospital y otros (1992) Genetics 132:1199-210).

La mayoría de los genes restauradores de la fertilidad de las plantas se han clonado por medio de una estrategia de clonación basada en el mapa. A la fecha, se han aislado nueve genes de R / a partir de varias especies de plantas que incluyen el maíz (Zea Mays L.) (Cui y otros (1996) Science 272:1334-6; Liu y otros (2001) Plant Cell 13:1063-78), Petunia (Petunia hybrida) (Bentolila y otros (2002) Proc. Natl. Acad. Sci. USA 99:10887-92, rábano (Raphanus sativus L.) (Brown y otros (2003) Plant J. 35:262-72; Desloire y otros (2003) EMBO Rep. 4:1-7; Koizuka y otros (2003) Plant J. 34:407-15), sorgo (Sorghum bicolor L.) (Klein y otros (2005) Theor. Appl. Genet. 111:994-1012), arroz (Oryza sativa L.) (Kazama y Toriyama (2003) FE^bS Lett. 544:99-102; Akagi y otros (2004) Theor. Appl. Genet.

108:1449-57; Komori y otros (2004) Plant J. 37:315-25; Wang y otros (2006) Plant Cell 18:676-87; y Fujii y Toriyama (2009) Proc. Natl. Acad. Sci. USA 106(23):9513-8), y flor mono (Mimulus guttalus) (Barr y Fishman (2010) Genetics 184:455-65).

Todos los genes restauradores identificados, excepto Rf2 en el maíz y Rf17 en el arroz, codifican diferentes proteínas con repeticiones de pentatricopéptido (PPR). Los genomas de plantas codifican varios cientos de proteínas PPR con muchas de ellas involucradas en la regulación de la expresión génica en organelos. Lurin y otros (2004) Plant Cell 16:2089-103; y Schmitz-Linneweber y Small (2008) Trends Plant Sci. 12:663-70. Una proteína PPR contiene de 2 a 27 repeticiones de 35 aminoácidos, llamadas motivos PPR. Small y Peeters, (2000) Trends Biochem. Sci. 25(2):46-7. Se pronostica que las proteínas PPR se unen al ARN (Delannoy y otros (2007) Biochemical Society Transactions 35:1643-7), y muchas proteínas PPR están dirigidas a la mitocondria donde están localizados los genes asociados con CMS y sus productos. Lurin y otros (2004), supra. La evidencia sugiere que las proteínas PPR se unen directamente a los transcritos de CMS. Akagi y otros (2004), supra; Gillman y otros (2007) Plant J. 49:217-27; y Kazama y otros (2008) Plant J. 55:619-28. Las proteínas Rf reducen la expresión de los transcritos asociados con CMS cambiando sus patrones de procesamiento (Kazama y Toriyama (2003), supra), disminuyendo la estabilidad del ARN (Wang y otros (2006), supra; y Ohta y otros (2010) Plant Cell Rep. 29:359-69), o evitando su traducción (Kazama y otros (2008), supra).

La información adicional con respecto a los genes restauradores de la fertilidad de maíz, arroz, petunia y rábano se puede encontrar en la Solicitud de Patente de los Estados Unidos con núm. de serie US2006/0253931, y en las Patentes de los Estados Unidos núm. 5,981,833; 5,624,842; 4,569,152; 6,951,970; 6,392,127; 7,612,251; 7,314,971; 7,017,375; 7,164,058; y 5,644,066.

Descripción de la invención

El alcance de la invención se define en las reivindicaciones. Todo el contenido adicional descrito en la presente descripción ha de considerarse una explicación o como alternativas. En la presente descripción se describe el mapeo del locus Rf4 del maíz en una región pequeña de 12 kb localizada en la parte superior del cromosoma 8. Dentro de esta región, el único candidato probable para Rf4 es un gen que codifica un factor de transcripción bHLH. Clonando el locus Rf4-bHLH de líneas con CMS-C, no restauradoras y restauradoras, se identificó una serie de variaciones de secuencia. A nivel de proteína, la línea con CMS-C y las líneas no restauradoras tienen la misma secuencia, y son diferentes al alelo restaurador (también idénticas entre sí) por 4 cambios de aminoácidos, que incluyen un residuo de tirosina hidrófilo conservado dentro del dominio bHLH (Y186) que se cambia a un residuo de fenilalanina hidrófobo (Fw) en la línea restauradora.

El gen Rf4 de maíz y su polipéptido codificado se identifican en la presente descripción, y las moléculas de ácido nucleico que comprenden la secuencia del gen Rf4 se describen adicionalmente. De manera sorpresiva, el gen Rf4 no es un gen de proteína con repeticiones de pentatricopéptido (PPR), como lo son casi todos los otros genes restauradores de la fertilidad. Además, se demostró que la restauración de la fertilidad en el germoplasma del sistema CMS-C/Rf4 de la presente invención es controlada por Rf4 como un gen restaurador dominante único, lo cual fue inesperado debido al trabajo reciente de varios grupos. Véase, supra. El residuo de tirosina hidrófilo dentro del dominio bHLH del rf4-bHLH (Y186) de maíz, el cual se cambió a un residuo de fenilalanina hidrófobo (F187) en las líneas restauradoras, se conserva entre las monocotiledóneas. Por consiguiente, la identificación del gen R/4 y los marcadores del gen R/4 puede facilitar en gran medida el desarrollo y despliegue del rasgo de restauración de la fertilidad en CMS-C ampliamente en el germoplasma vegetal.

En las modalidades, la mutación del residuo de tirosina conservado en la posición 186 de r/4-bHLH a un residuo de aminoácido hidrófobo (por ejemplo, fenilalanina) es responsable del fenotipo restaurador en el polipéptido R/4-bHLH. Por consiguiente, en la presente descripción se describen genes Rf4-bHLH de maíz o los ortólogos de los genes R/4-bHLH de maíz que codifican un residuo de aminoácido hidrófobo en esa posición (como los identificados por la alineación de secuencias), donde estos genes contribuyen a un fenotipo restaurador de CMS-C cuando se introducen en una planta.

En la presente descripción se describen marcadores moleculares de ácido nucleico que están ligados a (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) o que residen dentro del gen Rf4 de maíz. En algunas modalidades, los marcadores que están ligados a (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) o que residen dentro del gen Rf4 de maíz, o la secuencia génica de Rf4 de maíz misma, se pueden utilizar para introducir el gen Rf4 de maíz en los organismos, por ejemplo, las plantas (por ejemplo, el maíz y otras monocotiledóneas).

En la presente descripción también se describen los métodos para utilizar los marcadores moleculares de ácido nucleico que están ligados a o que residen dentro del gen Rf4 , por ejemplo y sin limitación, para identificar plantas con un gen restaurador funcional de CMS tipo C; para introducir el Rf4 en genotipos vegetales nuevos (por ejemplo, a través del fitomejoramiento asistido por marcador o transformación genética); y para producir semillas híbridas a partir de los cruzamientos de una planta masculina que comprende los marcadores moleculares de ácido nucleico que están ligados a o que residen dentro del gen Rf4 y una planta femenina que porta CMS tipo C.

Adicionalmente se describen medios para restaurar la fertilidad al maíz con CMS-C, y medios para identificar las plantas que portan un gen para restaurar la fertilidad al maíz con CMS-C. En algunos ejemplos, un medio para restaurar la fertilidad al maíz con CMS-C puede ser un marcador que está ligado a (por ejemplo, ligado; estrechamente ligado; o ligado de manera extremadamente estrecha) o que reside dentro del gen Rf4 de maíz. En algunos ejemplos, un medio para identificar las plantas que portan un gen para restaurar la fertilidad al maíz con CMS-C puede ser una sonda que hibrida específicamente a un marcador que está ligado a (por ejemplo, ligado; estrechamente ligado; o ligado de manera extremadamente estrecha) o que reside dentro del gen Rf4 de maíz. En la presente descripción también se describen métodos mediante los cuales las semillas híbridas pueden ser producidas a partir de cruzamientos de una planta masculina que comprende marcadores moleculares de ácido nucleico que están ligados a (por ejemplo, ligados, estrechamente ligados; o ligados de manera extremadamente estrecha) o que residen dentro del gen Rf4 de maíz y una planta femenina que porta CMS tipo C. La producción de dicha semilla híbrida puede dar como resultado ahorro en costos debido a la eliminación de la remoción manual o mecánica de panículas, y puede incrementar adicionalmente la producción de semilla.

Adicionalmente se describen métodos para utilizar las moléculas de ácido nucleico descritas en la presente descripción para identificar secuencias homólogas de Rf4 a partir de especies de plantas diferentes al maíz (por ejemplo, mediante la comparación de secuencias). En algunas modalidades, el sistema CMS-C/Rf4 para la producción de semillas híbridas está diseñado en especies de plantas diferentes al maíz.

Breve descripción de los dibujos

La figura 1 incluye 197 marcadores SNP determinados dentro de la región del gen Rf4 y sus posiciones en el mapa físico.

La figura 2 incluye una representación de treinta y cuatro plantas recombinantes seleccionadas en forma aleatoria, con sus datos fenotípicos y los datos genéticos correspondientes de los 27 marcadores SNP.

La figura 3 incluye una representación de las posiciones relativas de los marcadores SNP para el gen Rf4 y los genes dentro de una región de 1,5 Mb en el cromosoma 8.

La figura 4 incluye una representación de las posiciones relativas de los marcadores SNP para el gen Rf4 y los genes dentro de una región de 0,56 Mb y una región de 100 kb en el cromosoma 8.

La figura 5, incluye una representación del mapeo fino de Rf4 en una región de 12 kb. Las letras indican los genotipos: A = homocigótico para BE4207 (CMS); H = Heterocigótico. Las flechas indican los marcadores del límite izquierdo y derecho de Rf4, y las dos plantas recombinantes más críticas.

La figura 6 incluye una representación dibujada de la estructura genómica de un alelo Rf4-bHLH, que muestra una región codificante completa (INICIO a TERMINACIÓN - 1,38 kb), un 5'UTR/Promotor de 1,1 kb, y un 3'UTR/Terminador de 0,75 kb.

La figura 7 incluye las alineaciones de secuencias de R/4-bHLH de los siguientes genotipos de maíz: B73; BE4207; B104; XJH58; BE9515; y MLW03. Las posiciones de INICIO y TERMINACIÓN de la traducción y de los marcadores para DAS-CMS21 hasta DAS-CMS34 localizadas dentro del gen están etiquetadas. Las ubicaciones de los SNP y los InDel están sombreadas

La figura 8 incluye las alineaciones de secuencias pronosticadas del ADNc de R/4-bHLH de los siguientes genotipos de maíz: B73; BE4207; B104; XJH58; BE9515; y MLW03. Las posiciones de INICIO y TERMINACIÓN de la traducción y de los marcadores para DAS-CMS22-25, 28-29, y 31 localizadas dentro de los ADNc están etiquetadas. La figura 9 incluye las alineaciones de secuencias proteicas de R/4-bHLH pronosticadas. Las ubicaciones del dominio bHLH conservado, las señales de localización nuclear (NLS), y las posiciones de los marcadores correspondientes para DAS-CMS22, 23, y 28 están etiquetadas. La sustitución de Tyr a Phe en el dominio bHLH es producida por la sustitución del dinucleótido AC a TT en la posición 747 (de la secuencia de ADNc pronosticada de B73), casi adyacente al marcador DAS-CMS24 (véase la figura 8 y la ID de polimorfismo 54 en la Tabla 3).

La figura 10 incluye los datos que muestran los patrones de expresión de Rf4-HLH. L1= hoja de 5 semanas, L2=hoja de 7 semanas, L3=hoja de 9 semanas, T=Panículas con anteras y polen en desarrollo, P=Polen liberado. A=homocigótico para BE4207, H=Heterocigótico, B=Homocigótico para XJH58. Los datos representen las medias de tres plantas de cada genotipo para la segregación de F3 y 1 planta de cada uno de los progenitores. Las barras de error representan la desviación estándar

La figura 11, incluye las alineaciones de R/4-bHLH de maíz (del restaurador XJH58 y el no restaurador BE4207) con sus ortólogos de otras especies monocotiledóneas. La ubicación del dominio bHLH conservado está subrayada. Los cuatro cambios de aminoácidos entre R/4-bHLH de XJH58 y R/4-bHLH de BE4207 están etiquetados.

Listado de secuencias

Las secuencias de ácido nucleico listadas en el listado de secuencias acompañante se muestran utilizando las abreviaturas de letras estándar para las bases de nucleótidos, como se definió en el C.F.R 37 § 1.822. Únicamente se muestra una cadena de cada secuencia de ácido nucleico, pero se comprende que la cadena complementaria está incluida mediante cualquier referencia a la cadena presentada. Por simplicidad, cuando se describe un gen o locus, el gen puede ser descrito mediante la forma mutante del gen, (por ejemplo, Rf4, a diferencia de r/4), incluso cuando la secuencia real puede ser la forma de tipo natural del gen en la ubicación genómica correspondiente. No obstante, se comprenderá que ambos alelos tienen secuencias diferentes, y será evidente a partir del contexto, a cuál alelo se refiere de manera precisa. En el listado de secuencias acompañante:

Las SEQ ID NO:1-197 muestran las secuencias de nucleótidos de ejemplo de los marcadores moleculares de ácido nucleico que están ligados a (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) o que residen dentro del gen Rf4 de maíz.

Las SEQ ID NO:198-211, muestran las secuencias de nucleótidos dentro de una región de aproximadamente 0,56 Mb en la parte superior del cromosoma 8 de maíz, en la cual se mapeó inicialmente el alelo R f4. La SEQ ID NO:203 es el alelo Rf4-bHLH.

Las SEQ ID NO:212-216 representan las diferencias de secuencias de nucleótidos de ejemplo entre líneas de maíz con CMS (BE4207) y restauradora (XJH58).

La SEQ ID NO:217 muestra la secuencia de nucleótidos del intervalo de aproximadamente 12 kb de la variedad de maíz B73 para la cual se realizó el mapeo fino del alelo Rf4.

La SEQ ID NO:218 muestra la secuencia de nucleótidos de un alelo rf4-bHLH de las variedades de maíz B73 y BE4207.

La SEQ ID NO:219 muestra la secuencia de nucleótidos de un alelo bHLH de la variedad de maíz B104.

La SEQ ID NO:220 muestra la secuencia de nucleótidos de un alelo Rf4-bHLH de las variedades de maíz XJH58, BE9515, y MLW03.

La SEQ ID NO:221 muestra la secuencia de nucleótidos de un ADNc de rf4-bHLH pronosticado de las variedades de maíz B73 y B4207.

La SEQ ID NO:222 muestra la secuencia de nucleótidos de un ADNc de bHLH pronosticado de la variedad de maíz B104.

La SEQ ID NO:223 muestra la secuencia de nucleótidos de un ADNc de Rf4-bHLH pronosticado de las variedades de maíz XJH58, BE9515, y MLW03.

La SEQ ID NO:224 muestra la secuencia de aminoácidos de un polipéptido r/4-bHLH de maíz pronosticado.

La SEQ ID NO:225 muestra la secuencia de aminoácidos de un polipéptido R/4-bHLH de maíz pronosticado.

La SEQ ID NO:226 muestra la secuencia de aminoácidos de un polipéptido r/4-bHLH de Brachypodium distachyon pronosticado.

La SEQ ID NO:227 muestra la secuencia de aminoácidos de un polipéptido r/4-bHLH de Sorghum bicolor pronosticado.

La SEQ ID NO:228 muestra la secuencia de aminoácidos de un polipéptido r/4-bHLH de Oryza sativa pronosticado. Las SEQ ID NO:229 y 230 muestran las señales de localización nuclear (NLS) pronosticadas en R/4-bHLH.

Modo(s) de llevar a cabo la invención

l. Resumen de las diversas modalidades

El alcance de la invención se define en las reivindicaciones. Todo el contenido adicional descrito en la presente descripción ha de considerarse una explicación o como alternativas. En la presente descripción se describen modalidades particulares de genes que afectan la fertilidad masculina en las plantas, el Rf4 de maíz, y los marcadores genéticos estrechamente ligados a los mismos, los cuales pueden ser útiles en una variedad de sistemas para controlar la fertilidad masculina. Adicionalmente, el polimorfismo inherente en los marcadores genéticos estrechamente ligados descritos permite que el fitomejorador de seguimiento al alelo particular del gen, Rf4 o rf4, en una población segregante. El gen Rf4 inicialmente se mapeó en el cromosoma 8 en tres poblaciones derivadas de los cruzamientos de cuatro variedades de cultivo de maíz: BE4207 x BE9515; BE4207 x MLW03F; y BE4207 x XJH58. El mapeo fino y la clonación basada en el mapa se demostraron a modo de ejemplo en la población BE4207 x XJH58, localizándose eventualmente al gen Rf4 dentro de aproximadamente 12 kb.

La restauración de la esterilidad masculina citoplasmática (CMS) ha sido una práctica agrícola común en la producción de semilla híbrida durante muchos años. El uso del gen restaurador de la fertilidad (Rf) con la esterilidad masculina citoplasmática simplifica los programas de producción de semilla y reduce los costos generales eliminando por completo la remoción manual o mecánica de panículas. Sin embargo, los beneficios completos de las aplicaciones de la genética de restauración de la fertilidad de la esterilidad masculina citoplasmática tipo C en el maíz para la producción de semilla híbrida no se ha logrado, debido a que los estudios anteriores de la genética de restauración de la fertilidad de la esterilidad masculina citoplasmática tipo C en el maíz han producido resultados contradictorios.

En vista de la importancia práctica de la esterilidad masculina citoplasmática y la restauración de la fertilidad del polen en la producción de semilla híbrida de maíz, y la necesidad de la diversificación de fuentes de citoplasma, se describe el mapeo fino del gen restaurador Rf4 de maíz para CMS-C en una región muy pequeña utilizando marcadores moleculares con una técnica de genotipificación KASPar™ y la identificación del gen Rf4 de maíz a través de la clonación basada en el mapa. Se descubrió que R/4 es un gen restaurador dominante único para CMS-C en tres líneas endogámicas de maíz: BE9515, MLW03 y XJH58.

Rf4 se mapeó primero utilizando marcadores SSR y SNP en una región de aproximadamente 5,0 Mb, empezando desde el marcador SSR umc-1075 hasta la parte superior del brazo corto del cromosoma 8. Se creó una población de validación BE4207 x XJH58 F2 con 500 individuos y se clasificó en cuanto a la fertilidad en el campo. Se tamizó un total de 197 marcadores SNP con la población de validación y se identificaron 104 recombinantes dentro de la región de 5,0 Mb. Al comparar las clasificaciones fenotípicas y los datos de genotipo de las líneas recombinantes informativas, el gen Rf4 de maíz fue identificado de manera positiva dentro de una región de aproximadamente 0,56 Mb (14 genes), y probablemente dentro de 100 kb (6 genes).

Por consiguiente, el uso de las modalidades de los métodos descritos en la presente descripción demostró que el gen Rf4 se selecciona del grupo que consiste en GRMZM2G122853 (SEQ ID NO:198); AC187051.4_FG005 (SEQ ID N0:199); GRMZM2G122851 (SEQ ID NO:200); GRMZM2G 122850 (SEQ ID NO:201); GRMZM2G582028 (SEQ ID NO:202); GRMZM2G021276 (SEQ ID NO:203); GRMZM2G381376 (SEQ ID NO:204); GRMZM2G081127 (SEQ ID NO:205); GRMZM2G085111 (SEQ ID NO:206); GRMZM2G085038 (SEQ ID NO:207); GRMZM2G317468 (SEQ ID NO:208); GRMZM2G328030 (SEQ ID NO:209); GRMZM2G029450 (SEQ ID NO:210); y GRMZM2G077212 (SEQ ID NO:211).

Utilizando una población de mapeo fino grande de aproximadamente 5000 individuos, el locus Rf4 de maíz se mapeó en una región pequeña de aproximadamente 12 kb, localizada en la parte superior del cromosoma 8. Se demostró por este medio que el gen Rf4 se selecciona del grupo que consiste en un elemento transponible de planta [GRMZM2G582028 (SEQ ID NO:202)] y un factor de transcripción básico hélice-bucle-hélice (bHLH) (GRMZM2G021276 (SEQ ID NO:203)). De estos dos genes, el único candidato probable para R/4 es el factor de transcripción básico hélice-bucle-hélice (bHLH), GRMZM2G021276 (SEQ ID NO:203), que es el gen R/4. Por consiguiente, en modalidades particulares, el gen R/4 es GRMZM2G021276 SEQ ID No :203), el cual en algunas ocasiones se denomina Rf4-bHLH en la presente descripción. Se deberá comprender que un gen R/4 también puede ser una secuencia de ADN que codifica al mismo polipéptido que el gen Rf4-bHLH de maíz, por ejemplo, la secuencia codificante de la SEQ ID NO:203.

El locus bHLH se clonó a partir de la línea con CMS de maíz BE4207; la línea de maíz B104; y tres líneas restauradoras de maíz: XJH58, BE9515, y MLW03. Se identificó una serie de variaciones de secuencia entre las diferentes líneas endogámicas. De manera notable, las tres líneas restauradoras tienen secuencias de ADN de Rf4-bHLH idénticas, mientras que B73 y BE4207 (que no contienen un restaurador Rf4 funcional) son idénticas. La secuencia de B104 es más similar al alelo de BE4207/B73 que al alelo restaurador. A nivel de proteína, BE4207, B73, y B104 tienen la misma secuencia y son diferentes al producto génico del alelo restaurador por 4 cambios de aminoácidos, que incluyen la sustitución de una fenilalanina hidrófoba por una tirosina hidrófila conservada en el dominio bHLH.

En consistencia con la función de Rf4 en la restauración de la fertilidad del polen, el alelo restaurador de Rf4-bHLH se expresa específicamente en las panículas en desarrollo (con anteras y polen) de las plantas que restauran la CMS-C. La línea con CMS de maíz BE4207 no emite anteras ni desarrolla polen funcional. Como resultado, se detectó expresión muy baja o inexistente de rf4-bHLH en las hojas y los tejidos reproductivos masculinos de las plantas BE4207. Debido a que B73 (una línea endogámica que no contiene citoplasma con CMS-C ni restaura CMS-C) tiene una expresión significativa de rf4-bHLH, es poco probable la restauración de la fertilidad debido a una diferencia en el nivel de expresión entre el alelo restaurador (Rf4-bHLH) y el alelo no restaurador (rf4-bHLH).

La restauración de la fertilidad masculina se considera que se debe a las diferencias de las secuencias de aminoácidos entre los productos génicos del alelo restaurador y el alelo no restaurador. En particular, Y186 de r/4-bHLH de maíz está localizada en la primera hélice (Carretero-Paulet y otros (2010) Plant Physiol. 153:1398-412; y Pires y Dolan (2010) Mol. Biol. Evol. 27:862-74) dentro del dominio de unión al ADN de bHLH, y este residuo se conserva de manera absoluta en B73 (sin CMS, no restauradora), BE4207 (con CMS, no restauradora), y en ortólogos de sorgo, arroz y Brachypodium. Este residuo hidrófilo se cambia a una fenilalanina hidrófoba (Fw) en las tres líneas restauradoras de maíz. Dicha sustitución no conservada podría alterar de manera significativa la estructura de hélice en el dominio bHLH, y afectar la unión al ADN y la transcripción génica posterior. En vista de lo anterior, se pronostica que el alelo r/4 de B104 no restaura la fertilidad de CMS-C, debido a que bHLH de B104 tiene la secuencia proteica idéntica a r/4-bHLH de B73 y BE4207, que incluye la tirosina conservada en la posición 186.

En algunas modalidades, los marcadores moleculares de alta productividad basados en Rf4-bHLH o estrechamente ligados descritos en la presente descripción pueden ser utilizados para la identificación de genotipos con un restaurador R/4, la introgresión de R/4 en genotipos nuevos en maíz y otras plantas para la conversión masculina, y la remoción de R/4 de las plantas femeninas con CMS. Con los marcadores y el gen R/4 en la mano, ahora es posible transferir de manera confiable el Rf4 a germoplasmas de élite e incrementar la escala de uso del sistema CMS-C/R/4 para la producción de semilla híbrida. La implementación completa de este sistema puede proporcionar beneficios financieros significativos para la industria agrícola y los consumidores de sus productos.

II. Términos

Retrocruzamiento: Los métodos de retrocruzamiento se pueden utilizar para introducir una secuencia de ácido nucleico en las plantas. La técnica de retrocruzamiento se ha utilizado ampliamente durante décadas para introducir nuevos rasgos en las plantas. Jensen, N., Ed. Plant Breeding Methodology, John Wiley & Sons, Inc., 1988. En un protocolo de retrocruzamiento típico, la variedad de interés original (progenitor recurrente) se cruza con una segunda variedad (progenitor no recurrente) que porta un gen de interés a transferir. La progenie resultante de este cruzamiento se cruza entonces otra vez con el progenitor recurrente, y el procedimiento se repite hasta que se obtiene una planta en donde esencialmente todas las características morfológicas y fisiológicas deseadas de la planta recurrente se han recuperado en la planta convertida, además del gen transferido del progenitor no recurrente.

Ligado, estrechamente ligado y ligado de manera extremadamente estrecha: Como se utiliza en la presente descripción, el ligamiento entre genes o marcadores se refiere al fenómeno en el cual los genes o marcadores en un cromosoma muestran una probabilidad medible de transferirse juntos a los individuos de la siguiente generación. Cuanto más cercanos entre sí estén dos genes o marcadores, más cercana a (1) se vuelve esta probabilidad. Por consiguiente, el término "ligado" puede referirse a uno o más genes o marcadores que se transfieren junto con un gen con una probabilidad mayor que 0,5 (la cual se espera de la distribución independiente donde los marcadores/genes están localizados en cromosomas diferentes). Debido a que la proximidad de dos genes o marcadores en un cromosoma está directamente relacionada con la probabilidad de que los genes o marcadores se transfieran juntos a los individuos de la siguiente generación, el término "ligado" también se puede referir en la presente descripción a uno o más genes o marcadores que están localizados dentro de aproximadamente 2,0 Mb entre sí en el mismo cromosoma de maíz. Por consiguiente, dos genes o marcadores "ligados", pueden estar separados por aproximadamente 2,1 Mb; 2,00 Mb; aproximadamente 1,95 Mb; aproximadamente 1,90 Mb aproximadamente 1,85 Mb aproximadamente 1,80 Mb aproximadamente 1,75 Mb aproximadamente 1,70 Mb aproximadamente 1,65 Mb aproximadamente 1,60 Mb aproximadamente 1,55 Mb aproximadamente 1,50 Mb aproximadamente 1,45 Mb: aproximadamente 1,40 Mb aproximadamente 1,35 Mb aproximadamente 1,30 Mb 'aproximadamente 1,25 Mb aproximadamente 1,20 Mb aproximadamente 1,15 Mb aproximadamente 1,10 Mb aproximadamente 1,05 Mb aproximadamente 1,00 Mb aproximadamente 0,95 Mb aproximadamente 0,90 Mb aproximadamente 0,85 Mb aproximadamente 0,80 Mb aproximadamente 0,75 Mb aproximadamente 0,70 Mb aproximadamente 0,65 Mb aproximadamente 0,60 Mb aproximadamente 0,55 Mb aproximadamente 0,50 Mb aproximadamente 0,45 Mb aproximadamente 0,40 Mb aproximadamente 0,35 Mb aproximadamente 0,30 Mb aproximadamente 0,25 Mb aproximadamente 0,20 Mb aproximadamente 0,15 Mb aproximadamente 0,10 Mb aproximadamente 0,05 Mb; aproximadamente 0,025 Mb; aproximadamente 0,012 Mb; y aproximadamente 0,01 Mb Los ejemplos particulares de marcadores que están "ligados" a R/4 incluyen secuencias de nucleótidos en la parte superior del cromosoma 8 del genoma de maíz, por ejemplo, las SEQ ID NO:1-197; y los marcadores denominados ID de polimorfismo núm. 1-106 (Tabla 3) en la presente descripción.

Como se utiliza en la presente descripción, el término "estrechamente ligados" se puede referir a uno o más genes o marcadores que están localizados dentro de aproximadamente 0,5 Mb entre sí en el mismo cromosoma de maíz. Por consiguiente, dos genes o marcadores "estrechamente ligados" pueden estar separados por aproximadamente 0,6 Mb; aproximadamente 0,55 Mb; 0,5 Mb; aproximadamente 0,45 Mb; aproximadamente 0,4 Mb; aproximadamente 0,35 Mb; aproximadamente 0,3 Mb; aproximadamente 0,25 Mb; aproximadamente 0,2 Mb; aproximadamente 0,15 Mb; aproximadamente 0,12 Mb; aproximadamente 0,1 Mb; y aproximadamente 0,05 Mb. Los ejemplos particulares de marcadores que están "estrechamente ligados" a Rf4 incluyen las SEQ ID NO:6-9; la SEQ ID NO:105; la SEQ ID NO:109; la SEQ ID NO:111; la SEQ ID NO:115; las SEQ ID NO:118-120; la SEQ ID NO:123; la SEQ ID NO:126; la SEQ ID NO:134; la SEQ ID NO:135; la SEQ ID NO:137; la SEQ ID NO:138; la SEQ ID NO:144; la SEQ ID NO:149; SEQ ID NO:151; SEQ ID NO:160; la SEQ ID NO:163; la SEQ ID NO:164; la SEQ ID NO:167; la SEQ ID NO:173; SEQ ID NO:177; SEQ ID NO:178; la SEQ ID NO:183; las SEQ ID NO:189-191; y la SEQ ID NO:197; y los marcadores denominados ID de polimorfismo núm. 1-106 (Tabla 3) en la presente descripción. Como se utiliza en la presente descripción, el término "ligados de manera extremadamente estrecha" se puede referir a uno o más genes o marcadores que están localizados dentro de aproximadamente 100 kb entre sí en el mismo cromosoma de maíz. Por consiguiente, dos genes o marcadores "ligados de manera extremadamente estrecha" pueden estar separados por aproximadamente 125 kb; aproximadamente 120 kb; aproximadamente 115 kb; aproximadamente 110 kb; aproximadamente 105 kb; 100 kb; aproximadamente 95 kb; aproximadamente 90 kb; aproximadamente 85 kb; aproximadamente 80 kb; aproximadamente 75 kb; aproximadamente 70 kb aproximadamente 65 kb; aproximadamente 60 kb; aproximadamente 55 kb; aproximadamente 50 kb aproximadamente 45 kb; aproximadamente 40 kb; aproximadamente 35 kb; aproximadamente 30 kb aproximadamente 25 kb; aproximadamente 20 kb; aproximadamente 15 kb; aproximadamente 12 kb aproximadamente 10 kb; aproximadamente 5 kb; y aproximadamente 1 kb. Los ejemplos particulares de marcadores que están "ligados de manera extremadamente estrecha" a R/4 incluyen la SEQ ID NO:105; la SEQ ID NO:109; la SEQ ID NO:111; la SEQ ID NO:115; las SEQ ID NO:118-120; la SEQ ID NO:123; la SEQ ID NO:126; y la SEQ ID NO:134; y los marcadores denominados ID de polimorfismo núm. 1-106 (Tabla 3) en la presente descripción. El alcance de la invención se define en las reivindicaciones, que están limitadas a los marcadores “ligados de manera extremadamente estrecha”.

Los marcadores genéticos ligados, estrechamente ligados, y ligados de manera extremadamente estrecha de Rf4 pueden ser útiles en los programas de fitomejoramiento asistido por marcador para identificar el restaurador para los tipos de genes de esterilidad masculina citoplasmática tipo C de maíz, y para mejorar este rasgo en variedades de maíz.

Locus: Como se utiliza en la presente descripción, el término "locus" se refiere a una posición en el genoma que corresponde a una característica medible (por ejemplo, un rasgo). Un locus de SNP se define por una sonda que hibrida al ADN contenido dentro del locus.

Marcador: Como se utiliza en la presente descripción, un marcador se refiere a un gen o secuencia de nucleótidos que se puede utilizar para identificar plantas que tienen un alelo particular, por ejemplo, Rf4. Un marcador puede ser descrito como una variación en un locus genómico determinado. Un marcador genético puede ser una secuencia de ADN corta, tal como una secuencia que rodea el cambio en un solo par de bases (polimorfismo de nucleótido simple, o "SNP"), o una larga, por ejemplo, un minisatélite/repetición de secuencia simple ("SSR"). Un "alelo marcador" se refiere a la versión del marcador que está presente en una planta particular.

El término marcador como se utiliza en la presente descripción puede referirse a un segmento clonado de ADN cromosómico de maíz (por ejemplo, como el definido por una de las SEQ ID NO:1-197, o ID de polimorfismo núm. 1 106 (Tabla 3)), y además o alternativamente puede referirse a una molécula de ADN que es complementaria a un segmento clonado de ADN cromosómico de maíz (por ejemplo, el ADN complementario a una de las SEQ ID NO:1-197 o ID de polimorfismo núm. 1-106 (Tabla 3)).

En algunas modalidades, la presencia de un marcador en una planta puede detectarse a través del uso de una sonda de ácido nucleico. Una sonda puede ser una molécula de ADN o una molécula de ARN. Las sondas de ARN pueden ser sintetizadas por medios conocidos en la materia, por ejemplo, utilizando una plantilla de la molécula de ADN. Una sonda puede contener toda o una porción de la secuencia de nucleótidos del marcador y la secuencia de nucleótidos adicional, contigua del genoma de maíz. Esto se denomina en la presente descripción una "sonda contigua". La secuencia de nucleótidos adicional, contigua se denomina "corriente arriba" o "corriente abajo" del marcador original, dependiendo de si la secuencia de nucleótidos contigua del cromosoma de maíz está en el lado 5' o el lado 3' del marcador original, como se comprende de manera convencional. La secuencia de nucleótidos adicional, contigua puede estar localizada entre el marcador original y la región de 100 kb en el cromosoma 8 del genoma de maíz que está localizada entre las posiciones de mapa 564.922 y 601.460. Por consiguiente, la secuencia de nucleótidos contigua puede estar localizada entre el marcador original y la región de 12 kb en el cromosoma 8 del genoma de maíz que está localizada entre las posiciones de mapa 86.247 y 98.188. Como lo reconocerán aquellos expertos en la materia, el proceso para obtener la secuencia de nucleótidos adicional, contigua para su inclusión en un marcador puede repetirse casi de forma indefinida (limitado únicamente por la longitud del cromosoma), identificando de esta manera marcadores adicionales a lo largo del cromosoma de maíz. Todos los marcadores descritos anteriormente pueden utilizarse en algunas modalidades descritas en la presente descripción.

Una secuencia de sonda oligonucleotídica puede prepararse por síntesis o por clonación. Los vectores de clonación adecuados son bien conocidos por aquellos expertos en la materia. Una sonda oligonucleotídica puede estar etiquetada o no etiquetada. Existe una variedad amplia de técnicas para etiquetar moléculas de ácido nucleico, que incluyen, por ejemplo y sin limitación: Radioetiquetado por traducción de mella; cebado aleatorio; adición de colas con desoxitransferasa terminal; o similares, donde los nucleótidos empleados están etiquetados, por ejemplo, con 32P radioactivo. Otras etiquetas las cuales pueden ser utilizadas, incluyen por ejemplo y sin limitación: Fluoróforos; enzimas; substratos de enzimas; cofactores enzimáticos; inhibidores de enzimas; y similares. Alternativamente, el uso de una etiqueta que proporciona una señal detectable, por sí misma o junto con otros agentes reactivos, puede ser reemplazado por ligandos a los cuales se unen receptores, donde los receptores están etiquetados (por ejemplo, mediante las etiquetas indicadas anteriormente) para proporcionar señales detectables, ya sea por sí mismos o junto con otros reactivos. Véase, por ejemplo, la publicación de Leary y otros (1983) Proc. Natl. Acad. Sci. USA 80:4045-9. Una sonda puede contener una secuencia de nucleótidos que no es contigua a la del marcador original; esta sonda se denomina una "sonda no contigua" en la presente descripción. La secuencia de la sonda no contigua está localizada de manera suficientemente cercana a la secuencia del marcador original en el genoma de maíz de manera que la sonda no contigua está ligada genéticamente al mismo gen (por ejemplo, R/4). Por ejemplo, en algunas modalidades, una sonda no contigua puede estar localizada dentro de 500 kb; 450 kb; 400 kb; 350 kb; 300 kb; 250 kb; 200 kb; 150 kb; 125 kb; 120 kb; 100 kb; 0,9 kb; 0,8 kb; 0,7 kb; 0,6 kb; 0,5 kb; 0,4 kb; 0,3 kb; 0,2 kb; o 0,1 kb del marcador original en el genoma de maíz.

Una sonda puede ser una copia exacta de un marcador a detectar. Una sonda también puede ser una molécula de ácido nucleico que comprende, o consiste en, una secuencia de nucleótidos la cual es sustancialmente idéntica a un segmento clonado de ADN cromosómico de maíz (por ejemplo, como está definido por las SEQ ID NO:1-197 e ID de polimorfismo núm. 1-106 (Tabla 3)). Como se utiliza en la presente descripción, el término "sustancialmente idéntico" se puede referir a secuencias de nucleótidos que son más de 85 % idénticas. Por ejemplo, una secuencia de nucleótidos sustancialmente idéntica puede ser 85,5 %; 86 %; 87 %; 88 %; 89 %; 90 %; 91 %; 92 %; 93 %; 94 %; 95 %; 96 %; 97 %; 98 %; 99 % o 99,5 % idéntica a la secuencia de referencia.

Una sonda también puede ser una molécula de ácido nucleico que es "específicamente hibridable" o "específicamente complementaria" a una copia exacta del marcador a detectar ("ADN objetivo"). "Específicamente hibridable" y "específicamente complementaria" son términos que indican un grado suficiente de complementariedad de manera que ocurre la unión estable y específica entre la molécula de ácido nucleico y el ADN objetivo. Una molécula de ácido nucleico no necesita ser 100 % complementaria a su secuencia objetivo para ser específicamente hibridable. Una molécula de ácido nucleico es específicamente hibridable cuando existe un grado de complementariedad suficiente para evitar la unión inespecífica del ácido nucleico a secuencias que no son objetivo bajo condiciones en las que se desea la unión específica, por ejemplo, bajo condiciones de hibridación rigurosas. Las condiciones de hibridación que dan como resultado grados particulares de rigurosidad variarán dependiendo de la naturaleza del método de hibridación de elección y la composición y longitud de las secuencias de ácido nucleico que hibridan. Generalmente, la temperatura de hibridación y la fuerza iónica (especialmente la concentración de Na+ y/o Mg++) del tampón de hibridación determinarán la rigurosidad de la hibridación, aunque los tiempos de lavado también influyen en la rigurosidad. Los cálculos con respecto a las condiciones de hibridación requeridas para lograr los grados particulares de rigurosidad son conocidos por aquellos expertos en la materia, y se analizan, por ejemplo, en la publicación de Sambrook y otros (ed.) Molecular Cloning: A Laboratory Manual, 2da ed., vol. 1-3, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1989, capítulos 9 y 11; y en la publicación de Hames y Higgins (eds.) Nucleic Acid Hybridization, IRL Press, Oxford, 1985. La instrucción y guía detalladas adicionales con respecto a la hibridación de ácidos nucleicos se puede encontrar, por ejemplo, en la publicación de Tijssen, "Overview of principles of hybridization and the strategy of nucleic acid probe assays", en Laboratory Techniques in Biochemistry and Molecular Biology- Hybridization with Nucleic Acid Probes, Parte l, Capítulo 2, Elsevier, NY, 1993; y la publicación de Ausubel y otros, Eds., Current Protocols in Molecular Biology, Capítulo 2, Greene Publishing and Wiley-lnterscience, NY, 1995.

Como se utiliza en la presente descripción, "condiciones rigurosas" abarca las condiciones bajo las cuales la hibridación ocurrirá únicamente si existe menos de 25 % de incompatibilidad entre la molécula de hibridación y el ADN objetivo. "Condiciones rigurosas" incluye adicionalmente niveles particulares de rigurosidad. Por consiguiente, como se utiliza en la presente descripción, las condiciones de "rigurosidad moderada" son aquellas bajo las cuales las moléculas con más de 25 % de incompatibilidad de secuencia no hibridarán; las condiciones de "rigurosidad media" son aquellas bajo las cuales las moléculas con más de 15 % de incompatibilidad no hibridarán; y las condiciones de "rigurosidad alta" son aquellas bajo las cuales las secuencias con más de 10 % de incompatibilidad no hibridarán. Las condiciones de "rigurosidad muy alta" son aquellas bajo las cuales las secuencias con más de 6 % de incompatibilidad no hibridarán.

En modalidades particulares, las condiciones de rigurosidad son la hibridación a una temperatura de 65 °C en tampón de solución salina-citrato de sodio (SSC) 6x, solución de Denhardt 5x, 0,5 % de SDS, y 100 |jg de ADN fragmentado de testículo de salmón, seguidas por lavados secuenciales de 15-30 minutos a una temperatura de 65 °C en tampón SSC 2x y 0,5 % de SDS, seguido por tampón SSC 1x y 0,5 % de SDS, y finalmente por tampón SSC 0,2x y 0,5% de SDS.

Con respecto a todas las sondas analizadas, supra, la sonda puede comprender secuencias de ácido nucleico adicionales, por ejemplo, promotores; señales de transcripción; y/o secuencias de vector. Cualquiera de las sondas analizadas, supra, puede utilizarse para definir adicionalmente marcadores que están estrechamente ligados a un gen involucrado en la restauración de la fertilidad al maíz con esterilidad citoplasmática tipo C (por ejemplo, R/4).

Los marcadores definidos de esta manera pueden ser equivalentes a los marcadores de ejemplo nombrados en la presente descripción.

Fitomejoramiento asistido por marcador: Como se utiliza en la presente descripción, el término "fitomejoramiento asistido por marcador" puede referirse a un método para mejorar directamente uno o más rasgos complejos (por ejemplo, restaurador de la fertilidad de CMS-C). En la práctica actual, los fitomejoradores intentan identificar los rasgos fácilmente detectables, tales como el color de la flor, la apariencia de la cubierta de la semilla, o variantes de isozimas, que están ligados a un rasgo agronómicamente deseado. Los fitomejoradores siguen entonces el rasgo agronómico en las poblaciones de fitomejoramiento segregantes, siguiendo la segregación del rasgo fácilmente detectable. Sin embargo, existen muy pocas de estas relaciones de ligamiento disponibles para utilizarse en el fitomejoramiento.

El fitomejoramiento asistido por marcador proporciona un proceso eficiente en tiempo y costo para el mejoramiento de las variedades de plantas. Varios ejemplos de la aplicación del fitomejoramiento asistido por marcador involucran el uso de marcadores tipo isozima. Véase, por ejemplo, la publicación de Tanksley y Orton, eds. (1983) Isozymes in Plant Breeding and Genetics, Amsterdam: Elsevier. Un ejemplo es un marcador tipo isozima asociado con un gen para la resistencia a una plaga de nemátodo en el tomate. La resistencia, controlada por un gen designado como Mi, está localizada en el cromosoma 6 del tomate y está muy estrechamente ligada a Aps1, una isozima de fosfatasa ácida. El uso del marcador tipo isozima Aps1 para seleccionar de forma indirecta el gen Mi proporcionó las ventajas de que la segregación en una población puede determinarse de manera inequívoca con las técnicas electroforéticas estándar; el marcador tipo isozima puede medirse en tejido de plántulas, obviando la necesidad de mantener las plantas hasta la madurez; y la codominancia de los alelos del marcador tipo isozima permite la discriminación entre los homocigóticos y los heterocigóticos. Véase la publicación de Rick (1983) en Tanksley y Orton, supra.

Enlazado en forma operativa: Una primera secuencia de nucleótidos está enlazada en forma operativa con una segunda secuencia de ácido nucleico cuando la primera secuencia de ácido nucleico está en una relación funcional con la segunda secuencia de ácido nucleico. Por ejemplo, un promotor están enlazado en forma operativa a una secuencia codificante si el promotor afecta la transcripción o expresión de la secuencia codificante. Cuando se producen de manera recombinante, las secuencias de ácido nucleico enlazadas en forma operativa generalmente son contiguas, y, cuando es necesario unir dos regiones que codifican proteínas, en el mismo marco de lectura (por ejemplo, en un ORF policistrónico). Sin embargo, los ácidos nucleicos no necesitan ser contiguos para estar enlazados en forma operativa

Promotor: Como se utiliza en la presente descripción, el término "promotor" se refiere a una región de ADN que puede estar corriente arriba del inicio de la transcripción, y que puede estar involucrado en el reconocimiento y la unión de la polimerasa de ARN y otras proteínas para iniciar la transcripción. Un promotor puede estar enlazado en forma operativa a un gen para la expresión en una célula, o un promotor puede estar enlazado en forma operativa a una secuencia de nucleótidos que codifica una secuencia señal la cual puede estar enlazada en forma operativa a un gen para la expresión en una célula. Un "promotor de plantas" puede ser un promotor con la capacidad de iniciar la transcripción en células vegetales. Los ejemplos de promotores bajo el control del desarrollo incluyen promotores que inician preferentemente la transcripción en ciertos tejidos, tales como hojas, raíces, semillas, fibras, vasos de xilema, traqueidas, o esclerénquima. Dichos promotores se denominan "preferidos por el tejido". Los promotores que inician la transcripción únicamente en ciertos tejidos se denominan "específicos para tejido". Un promotor "específico del tipo celular" principalmente conduce la expresión en ciertos tipos celulares en uno o más órganos, por ejemplo, células vasculares en raíces u hojas. Un promotor "inducible" puede ser un promotor el cual puede estar bajo control ambiental. Los ejemplos de condiciones ambientales que pueden iniciar la transcripción mediante promotores inducibles incluyen condiciones anaeróbicas o la presencia de luz. Los promotores específicos para tejido, preferidos por el tejido, específicos del tipo celular, e inducibles constituyen la clase de promotores "no constitutivos". Un promotor "constitutivo" es un promotor el cual puede estar activo bajo la mayoría de las condiciones ambientales. Cualquier promotor inducible puede utilizarse en algunas modalidades de la presente invención. Véase la publicación de Ward y otros (1993) Plant Mol. Biol. 22:361-366. Con un promotor inducible, la tasa de transcripción se incrementa en respuesta a un agente inductor. Los promotores inducibles de ejemplo incluyen, sin limitación: Los promotores del sistema ACEI que responde al cobre; el gen In2 de maíz que responde a los protectores de herbicida de bencenosulfonamida; el represor Tet de Tn10; y el promotor inducible de un gen de hormona esteroide, cuya actividad de transcripción puede inducirse mediante una hormona glucocorticosteroide (Schena y otros (1991) Proc. Natl. Acad. Sci. USA 88:0421).

Los promotores constitutivos de ejemplo incluyen, sin limitación: Los promotores de virus de plantas, tales como el promotor 35S de CaMV; los promotores de genes de actina de arroz; los promotores de ubiquitina; pEMU; MAS; el promotor de histona H3 de maíz; y el promotor de ALS, el fragmento Xba1/NcoI 5' al gen estructural ALS3 de Brassica napus (o una similitud de secuencia de nucleótidos con dicho fragmento Xba1/NcoI) (Solicitud PCT internacional WO 96/30530).

Cualquier promotor específico para tejido o preferido por el tejido también puede utilizarse en algunas modalidades de la presente invención. Las plantas transformadas con un gen enlazado en forma operativa a un promotor específico para tejido pueden producir el producto proteico del transgén de manera exclusiva, o preferentemente, en un tejido específico. Los promotores específicos para tejido o preferidos por el tejido de ejemplo incluyen, sin limitación: Un promotor preferido por la raíz, tal como el del gen de faseolina; un promotor específico de la hoja e inducido por la luz tal como el de cab o rubisco; un promotor específico de antera tal como el de LAT52; un promotor específico de polen tal como el de Zm13; y un promotor preferido por microespora, tal como el de apg.

Identidad de secuencia: El término "identidad de secuencia" o "identidad", como se utiliza en la presente descripción en el contexto de dos secuencias de ácido nucleico o polipéptido, puede referirse a los residuos en las dos secuencias que son iguales cuando se alinean para la correspondencia máxima en una ventana de comparación especificada.

Cuando el porcentaje de identidad de secuencia se utiliza en referencia a las proteínas, se reconoce que las posiciones de residuo que no son idénticas con frecuencia difieren en sustituciones de aminoácidos conservadoras, donde los residuos de aminoácidos son sustituidos por otros residuos de aminoácidos con propiedades químicas similares (por ejemplo, carga, hidrofobicidad, o efectos estéricos), y por consiguiente no cambian las propiedades funcionales de la molécula.

Por consiguiente, cuando las secuencias difieren en sustituciones conservadoras, el porcentaje de identidad de secuencia puede ajustarse hacia arriba para corregir la naturaleza conservadora de la sustitución en el sitio del residuo no idéntico. Las secuencias que difieren en dichas sustituciones conservadoras se dice que tienen "similitud de secuencia" o "similitud". Las técnicas para hacer este ajuste son bien conocidas por aquellos expertos en la materia. Normalmente, dichas técnicas involucran la puntuación de una sustitución conservadora como incompatibilidad parcial, en lugar de completa, incrementando de esta manera el porcentaje de identidad de secuencia. Por ejemplo, cuando un aminoácido idéntico recibe una puntuación entre 0 y 1, y una sustitución no conservadora recibe una puntuación de 0, una sustitución conservadora recibe una puntuación entre 0 y 1. La puntuación de las sustituciones conservadoras puede calcularse, por ejemplo, como fueron implementadas en el programa PC/GENE (Intelligenetics, Mountain View, CA).

Como se utiliza en la presente descripción, el término "porcentaje de identidad de secuencia" puede hacer referencia al valor determinado comparando dos secuencias alineadas en forma óptima en una ventana de comparación, en donde la porción de la secuencia en la ventana de comparación puede comprender adiciones o deleciones (es decir, interrupciones) en comparación con la secuencia de referencia (la cual no comprende adiciones o deleciones) para la alineación óptima de las dos secuencias. El porcentaje se calcula determinando el número de posiciones en las cuales aparece el nucleótido o residuo de aminoácido idéntico en ambas secuencias para producir el número de posiciones con coincidencia, dividiendo el número de posiciones con coincidencia entre el número total de posiciones en la ventana de comparación, y multiplicando el resultado por 100 para producir el porcentaje de identidad de secuencia.

Polimorfismo de nucleótido simple (SNP): Como se utiliza en la presente descripción, el término "polimorfismo de nucleótido simple" puede referirse a una variación de la secuencia de ADN que ocurre cuando un solo nucleótido en el genoma (u otra secuencia compartida) difiere entre los miembros de una especie o pares de cromosomas en un individuo.

Dentro de una población, los SNP pueden ser asignados a una frecuencia de alelo menos común, la frecuencia alélica más baja en un locus que es observada en una población particular. Esta es simplemente la menor de las dos frecuencias alélicas para polimorfismos de nucleótido simple. Existen variaciones entre las poblaciones humanas, así que un alelo de SNP que es común en un grupo geográfico o étnico puede ser mucho más raro en otro.

Los polimorfismos de nucleótido simple pueden encontrarse dentro de secuencias codificantes de genes, regiones no codificantes de genes, o en las regiones intergénicas entre los genes. Los SNP dentro de una secuencia codificante no necesariamente cambiarán la secuencia de aminoácidos de la proteína que se produce, debido a la redundancia del código genético. Un SNP en el cual ambas formas conducen a la misma secuencia de polipéptido se denomina "sinónimo" (en algunas ocasiones llamado una mutación silente). Si se produce una secuencia de polipéptido diferente, se denominan "no sinónimos". Un cambio no sinónimo puede ser contrasentido o sin sentido, donde un cambio contrasentido da como resultado un aminoácido diferente y un cambio sin sentido da como resultado un codón de terminación prematuro. Los SNP que no están en las regiones codificantes de proteína todavía pueden tener consecuencias para el corte y empalme de genes, la unión a factores de transcripción, o la secuencia de ARN no codificante. Los SNP normalmente son bialélicos y por consiguiente de ensayo fácil en plantas y animales. Sachidanandam (2001) Nature 409:928-33.

InDel: Como se utiliza en la presente descripción, el término "InDel" se utiliza generalmente para describir una inserción o una deleción en un gen. Por consiguiente, un "InDel" se refiere simplemente a una mutación particular que puede ser ya sea una inserción, una deleción, o una combinación de las mismas.

Rasgo o fenotipo: Los términos "rasgo" y "fenotipo" se utilizan indistintamente en la presente descripción. Para los propósitos de la presente descripción, un rasgo de interés particular es la restauración de la fertilidad de CMS tipo C.

III. Gen R/4 restaurador de CMS-C de maíz y los marcadores moleculares del mismo

Se proporcionan los marcadores moleculares que están ligados (por ejemplo, estrechamente ligados) al gen restaurador de CMS-C de maíz, Rf4. Se identifican segmentos de ADN que contienen secuencias involucradas en la restauración de la fertilidad a plantas con CMS-C. Estos segmentos están localizados entre marcadores que están ligados (por ejemplo, estrechamente ligados) al gen Rf4. Por consiguiente, también se proporcionan moléculas de ácido nucleico que comprenden el gen Rf4. Los segmentos identificados, y los marcadores de los mismos, se describen en la presente descripción, en parte, por su posición en una región particular en la parte superior del cromosoma 8 de maíz.

La posición de los segmentos identificados, y los marcadores de los mismos, cuando se expresa como frecuencias de recombinación o unidades de mapa, se proporciona en la presente descripción como una cuestión de información general. Las modalidades descritas en la presente descripción fueron realizadas en la población de maíz, BE4207 x XJH58. Sin embargo, las posiciones de los segmentos particulares y los marcadores como unidades de mapa son expresadas haciendo referencia a la secuencia genómica de la línea endogámica de maíz B73 disponible públicamente (B73 RefGen v1 o v2), el cual se puede encontrar en la red mundial en www2.genome.arizona.edu/genomes/maize, o ftp.maizesequence.org/current/assembly/. Las secuencias genómicas de las variedades de maíz BE4207 y XJH58 todavía no están disponibles. Se espera que los números proporcionados para los segmentos particulares y los marcadores como unidades de mapa pueden variar de una variedad de cultivo a otra y no son parte de la definición esencial de los segmentos de ADN y los marcadores, cuyos segmentos de ADN y marcadores de otra forma son descritos, por ejemplo, mediante la secuencia de nucleótidos. El alelo dominante del gen R/4 controla la restauración de la fertilidad en el sistema CMS-C/R/4. En las modalidades, se determina que el gen R/4 es un gen seleccionado del grupo que consiste en GRMZM2GI22853 (SEQ ID NO:198); AC187051.4_FG005 (SEQ ID NO:199); GRMZM2GI2285I (SEQ ID NO:200); GRMZM2G 122850 (SEQ ID NO:201); GRMZM2G582028 (SEQ ID NO:202); GRMZM2G021276 (SEQ ID NO:203); GRMZM2G381376 (SEQ ID NO:204); GRMZM2G081127 (SEQ ID NO:205); GRMZM2G085111 (SEQ ID NO:206); GRMZM2G085038 (SEQ ID NO:207); GRMZM2G317468 (SEQ ID NO:208); GRMZM2G328030 (SEQ ID NO:209); GRMZM2G029450 (SEQ ID NO:210); y GRMZM2G077212 (SEQ ID NO:211). En las modalidades particulares, el gen Rf4 es Rf4-bHLH (SEQ ID ⁿO:2^o3). Por ejemplo, un gen Rf4-bHLH se proporciona por la SEQ ID NO:220.

En la presente descripción también se describen secuencias de nucleótidos las cuales son sustancialmente idénticas a Rf4-bHLH. Por ejemplo, en algunas modalidades, una molécula de ácido nucleico es un homólogo de Rf4 que es por lo menos aproximadamente 85 % idéntico a Rf4-bHLH. Un homólogo de Rf4 puede ser 86 %; 87 %; 88 %; 89 %; 90 %; 91 %; 92 %; 93 %; 94 %; 95 %; 96 %; 97 %; 98 %; 99 % o 99,5 % idéntico a Rf4-bHLH. Dicho homólogo de Rf4 puede ser identificado fácilmente y aislado a partir de cualquier genoma completo o parcial fácilmente disponible para aquellos expertos en la materia para una variedad de organismos.

Algunas modalidades también incluyen variantes funcionales del gen Rf4. Las variantes funcionales de Rf4 incluyen, por ejemplo, la secuencia de Rf4-bHLH que comprende una o más sustituciones, deleciones o inserciones de nucleótidos, en donde la variante funcional restaura la fertilidad masculina al maíz con CMS-C, como se puede medir mediante las técnicas de rutina bien conocidas por aquellos expertos en la materia. Por ejemplo, la capacidad de una variante particular del gen Rf4 para restaurar la fertilidad masculina a maíz con CMS-C puede determinarse mediante la introducción de rutina de la mutación o fragmento en las plantas homocigóticas para un alelo de rf4 estéril, seguido por la observación de rutina de la planta en cuanto a la esterilidad masculina. Las variantes funcionales del gen Rf4 pueden ser creadas por mutagénesis dirigida al sitio, mutación inducida, o pueden aparecer como variantes alélicas (polimorfismos, por ejemplo, SNP). En los ejemplos particulares, una variante funcional de Rf4 es la secuencia de Rf4-bHLH que comprende una o más sustituciones, deleciones o inserciones de nucleótidos, de manera que la variante codifica un polipéptido R/4-bHLH que comprende una sustitución de aminoácido hidrófobo (por ejemplo, Phe) por Y186 dentro del dominio bHLH.

En algunas modalidades, por lo tanto, las variantes funcionales del gen Rf4 pueden ser mutaciones de Rf4 , o fragmentos más pequeños que la secuencia completa de Rf4, los cuales pueden retener las propiedades de control de la esterilidad masculina del gen Rf4. En vista de esta descripción, un experto en la materia puede determinar fácilmente si una mutación o fragmento de la secuencia de Rf4 expuesta en la presente descripción retiene las propiedades del gen Rf4.

También se describen polipéptidos R/4-bHLH (por ejemplo, la SEQ ID NO:225) y polipéptidos que son sustancialmente idénticos a R/4-bHLH. Por ejemplo, en algunas modalidades, un polipéptido que es sustancialmente idéntico a R/4-bHLH puede ser por lo menos aproximadamente 25 % idéntico a R/4-bHLH y tiene un residuo de aminoácido hidrófobo (por ejemplo, Phe) en la posición que corresponde a F187 de la SEQ ID NO:225, como se determinó mediante una alineación de secuencias. En algunas modalidades, un polipéptido que es sustancialmente idéntico a R/4-bHLH puede ser 86 %; 87 %; 88 %; 89 %; 90 %; 91 %; 92 %; 93 %; 94 %; 95 %; 96 %; 97 %; 98 %; 99 % o 99,5 % idéntico a R/4-bHLH. Dichos polipéptidos que son sustancialmente idénticos a R/4bHLH pueden ser identificados fácilmente y deducidos a partir de los genomas completos o parciales o las librerías de ADNc disponibles fácilmente para aquellos expertos en la materia para una variedad de organismos.

IV. Métodos para utilizar el gen R/4

El gen Rf4 descrito en la presente descripción puede ser utilizado en cualquiera de muchas formas conocidas por aquellos expertos en la materia para manipular un gen para producir un efecto deseado. Por ejemplo, y sin limitación, el gen Rf4 puede ser utilizado para: introducir una secuencia de Rf4 mutante en una planta para producir esterilidad; para introducir una mutación en la secuencia de Rf4 nativa; para introducir una molécula de ácido nucleico antisentido dirigida al ADN o ARN de Rf4 en una planta para afectar la fertilidad; para utilizar formaciones de horquilla; o para enlazar secuencia(s) de Rf4 con otras secuencias de ácido nucleico para controlar la expresión del producto génico de Rf4.

Por ejemplo, en algunas modalidades, el gen R/4 determinado para ser seleccionado del grupo que consiste en GRMZM2G 122853 (SEQ ID NO:198); AC187051.4 FG005 (SEQ ID NO:199); GRMZM2G122851 (SEQ ID NO:200); GRMZM2G 122850 (SEQ ID NO:201); GRMZM2G582028 (SEQ ID NO:202); GRMZM2G021276 (SEQ ID NO:203); GRMZM2G381376 (SEQ ID NO:204); GRMZM2G081127 (SEQ ID NO:205); GRMZM2G085111 (SEQ ID NO:206); GRMZM2G085038 (SEQ ID NO:207); GRMZM2G317468 (SEQ ID NO:208); GRMZM2G328030 (SEQ ID NO:209); GRMZM2G029450 (SEQ ID NO:210); y GRMZM2G077212 (SEQ ID NO:211) puede utilizarse para facilitar la utilización del sistema de fertilidad masculina CMS-C/Rf4 junto con otros genes o mutantes que afectan la fertilidad masculina en el maíz. Por ejemplo, en las modalidades particulares, el gen Rf4-bHLH puede utilizarse para facilitar la utilización del sistema de fertilidad masculina CMS-C/Rf4 junto con otros genes o mutantes que afectan la fertilidad masculina en el maíz.

En algunas modalidades, el gen Rf4 puede ser introducido en una planta de maíz que es adecuada para utilizarse en un sistema de fertilidad masculina diferente al sistema de fertilidad masculina CMS-C/Rf4. Alternativamente, un gen o gen mutante diferente a Rf4 puede ser introducido en una planta de maíz que es adecuada para utilizarse en el sistema de fertilidad masculina CMS-C/Rf4, de manera que el gen o gen mutante introducido puede utilizarse para proporcionar un control de la fertilidad adicional o complementario. Los ejemplos específicos de otros genes y mutaciones de fertilidad masculina en el maíz incluyen: CMS-T/Rfl; CMS-T/Rf2; CMS-S/Rf3; ms1 (Singleton y Jones (1930) J. Hered. 21:266-8); ms2 y ms3 (Eyster (1931) J. Hered. 22:99-102); ms5, ms7, ms8, ms9, ms10, ms11, ms12, ms13, y ms14 (Beadle (1932) Genetics 17:413-31); ms17 (Emerson (1932) Science 75:566); ms20 (Eyster (1934) Bibliographia Genetica 11:187-392); ms23 y ms24 (West y Albertsen (1985) MNL 59:87); ms25 y ms26 (Loukides y otros (1995) Am. J. Bot. 82:1017-23); ms27 y ms38 (Albertsen y otros (1996) MNL 70:30-1); ms28 (Golubovskaya (1979) MNL 53:66-70); ms29 y ms31 (Trimnell y otros (1998) MNL 72:37-38); ms30 (Albertsen y otros (1999) MNL 73:48); ms32, ms36, y ms37 (Trimnell y otros (1999) MNL 73:48-50); ms33 y ms34 (Patterson (1995) MNL 69:126-8); ms43 (Golubovskaya (1979) Int. Rev. Cytol. 58:247-90); ms45 (Albertsen y otros (1993) Proc. Annu. Corn Sorghum Ind. Res. Conf. 48:224-33; y ms48, ms49, y ms50 (Trimnell y otros (2002) MNL 76:38-9).

Cuando una secuencia de ácido nucleico (por ejemplo, Rf4) es "introducida" en un organismo, tal como una planta, la técnica o metodología utilizada para la introducción de una molécula de ácido nucleico que comprende la secuencia particular no es esencial para la invención, y puede ocurrir mediante cualquier técnica o metodología conocida por aquellos expertos en la materia. De acuerdo con el método de la invención, una molécula de ácido nucleico es introducida mediante métodos de transformación directa, tales como transformación mediada por Agrobacterium del tejido vegetal; bombardeo de microproyectiles; electroporación; etc. En otros métodos una molécula de ácido nucleico puede introducirse mediante cruzamiento de una planta que tiene la secuencia de nucleótidos particular con otra planta, de manera que la progenie tenga la secuencia de nucleótidos incorporada en su genoma. Dichas técnicas de fitomejoramiento son bien conocidas para aquellos expertos en la materia. Las técnicas de fitomejoramiento asistido por marcador, como las que se describen en la presente descripción, pueden facilitar en gran medida la incorporación de Rf4 a través de dichos cruzamientos.

En las modalidades en donde el gen Rf4 es introducido en un organismo, puede ser deseable que el gen Rf4 sea introducido de manera que el gen Rf4 esté enlazado en forma operativa a una o más secuencias reguladoras, por ejemplo, la introducción por medio del uso de un plásmido que comprende el gen Rf4 enlazado en forma operativa a las secuencias reguladoras deseadas. Las secuencias reguladoras útiles en la expresión de secuencias de ácido nucleico heterólogas son bien conocidas en la materia, e incluyen, por ejemplo y sin limitación: Promotores (por ejemplo, promotores constitutivos; promotores específicos para tejido; y promotores específicos para etapa del desarrollo); secuencias de terminación; secuencias potenciadoras; secuencias de orientación subcelular; e intrones. En algunas modalidades, el gen Rf4 puede ser introducido a un organismo con una o más secuencias de ácido nucleico deseables adicionales (por ejemplo, genes). Las secuencias de ácido nucleico deseables adicionales pueden incluir, por ejemplo: Genes que codifican proteínas extrañas; genes agronómicos; genes de resistencia a enfermedades en plantas; genes que confieren resistencia a una plaga de plantas; genes que confieren resistencia a un herbicida; y genes que confieren o contribuyen a un rasgo de valor agregado (por ejemplo, metabolismo de ácidos grasos modificado; contenido de fitato disminuido; y composición de carbohidratos modificada). Los ejemplos de todas las secuencias de ácido nucleico mencionadas anteriormente son conocidos por aquellos expertos en la materia.

El gen R/4 también puede ser introducido a un organismo con uno o más genes marcadores enlazados en forma operativa con un elemento regulador (un promotor, por ejemplo) que permite que las células transformadas que contienen el marcador sean, ya sea recuperadas por selección negativa (es decir, inhibición del crecimiento de las células que no contienen el gen marcador de selección) o mediante la selección positiva (es decir, tamizaje del producto codificado por el marcador genético). Muchos genes marcadores de selección para la transformación son bien conocidos en las técnicas de transformación e incluyen, por ejemplo, genes que codifican enzimas que desintoxican metabólicamente un agente químico selectivo el cual puede ser un antibiótico o un herbicida, o genes que codifican un objetivo alterado, el cual puede ser insensible al inhibidor. Unos cuantos métodos de selección positiva también son conocidos en la materia. Los ejemplos de genes marcadores adecuados para utilizarse en células vegetales pueden incluir, por ejemplo, y sin limitación: El gen de neomicina fosfotransferasa II (nptII) (Fraley y otros (1983) Proc. Natl. Acad. Sci. USA 80:4803); el gen de higromicina fosfotransferasa (Vanden Elzen y otros (1985) Plant Mol. Biol. 5:299); gentamicina acetil transferasa, estreptomicina fosfotransferasa, aminoglicósido-3'-adenil transferasa, y el determinante de resistencia a bleomicina (Véase, por ejemplo, la publicación de Hayford y otros (1988) Plant Physiol. 86:1216; Jones y otros (1987) Mol. Gen. Genet. 210:86); Svab y otros (1990) Plant Mol. Biol. 14:197; y Hille y otros (1986) Plant Mol. Biol. 7:171); genes marcadores de selección que confieren resistencia a herbicidas, tales como glifosato, glufosinato o bromoxinilo (Véase, por ejemplo, la publicación de Comai y otros (1985) Nature 317:741-744; Gordon-Kamm y otros (1990) Plant Cell 2:603-618; y Stalker y otros (1988) Science 242:419-423); dihidrofolato reductasa de ratón (Eichhollz y otros (1987) Somatic Cell Mol. Genet. 13:67); 5-enolpiruvilshiquimato-3-fosfato sintasa de plantas (Shah y otros (1986) Science 233:478); acetolactato sintasa de plantas (Charest y otros (1990) Plant Cell Rep. 8:643).

Otra clase de genes marcadores adecuados para la transformación de plantas emplea el tamizaje de las células vegetales presumiblemente transformadas en lugar de la selección genética directa de las células transformadas para la resistencia a una sustancia tóxica, tal como un antibiótico. Estos genes son particularmente útiles para cuantificar o visualizar el patrón de expresión espacial de un gen en tejidos específicos, y con frecuencia se denominan "genes reporteros", debido a que pueden fusionarse a un gen o secuencia reguladora del gen para la investigación de la expresión génica. Los genes utilizados comúnmente para el tamizaje de las células transformadas incluyen p-glucuronidasa (GUS), p-galactosidasa, luciferasa y cloramfenicol acetiltransferasa. Véase, por ejemplo, la publicación de Jefferson (1987) Plant Mol. Biol. Rep. 5:387; Teeri y otros (1989) EMBO J. 8:343; Koncz y otros (1987) Proc. Natl. Acad. Sci USA 84:131; y DeBlock y otros (1984) EMBO J. 3:1681.

Recientemente, los métodos in vivo para la visualización de la actividad GUS que no requieren la destrucción del tejido vegetal se han puesto a disposición. Publicación 2908 de Molecular Probes, Imagene Green.TM., p. 1-4, 1993; y Naleway y otros (1991) J. Cell Biol. 115:151a. Además, los genes que codifican las proteínas fluorescentes (por ejemplo, GF^p, EGFP, EBFP, ECFP, y YFP) se han utilizado como marcadores para la expresión génica en células procarióticas y eucarióticas. Véase la publicación de Chalfie y otros (1994) Science 263:802. Las proteínas fluorescentes y las mutaciones de las proteínas fluorescente pueden utilizarse como marcadores de tamizaje.

En algunas modalidades, el gen Rf4 de maíz y los fragmentos o segmentos del gen Rf4 de maíz descritos en la presente descripción pueden utilizarse para identificar las secuencias homólogas de Rf4 de organismos diferentes al maíz (por ejemplo, mediante la comparación de secuencias). Las secuencias de los organismos diferentes al maíz que son homólogas al gen Rf4 de maíz pueden ser identificadas y aisladas de acuerdo con las técnicas bien conocidas, por ejemplo, con base en su homología de secuencia a Rf4-bHLH. Por ejemplo, toda o una parte de la secuencia codificante de Rf4-bHLH puede utilizarse como una sonda la cual hibrida específicamente a otras secuencias presentes en una población de fragmentos de ADN genómico clonados (es decir, una librería genómica) de un organismo de acuerdo con las técnicas de rutina. Por consiguiente, también se describen aquellas secuencias de nucleótidos las cuales hibridan específicamente a una secuencia de Rf4-bHLH (por ejemplo, la SEQ ID NO:220). Alternativamente, las secuencias de los organismos diferentes al maíz que son homólogas al gen Rf4 de maíz pueden ser identificadas y aisladas mediante la comparación de secuencias. Por ejemplo, el genoma secuenciado completo o parcial de un organismo puede explorarse, de acuerdo con las técnicas de rutina, con una secuencia de Rf4-bHLH de maíz (por ejemplo, la SEQ ID NO:220) para identificar genes dentro del genoma del organismo que comparten un grado alto de identidad de secuencia con el Rf4 de maíz y por consiguiente, probablemente son homólogos de Rf4.

Por ejemplo, toda o parte de una secuencia de R/4 de maíz (por ejemplo, la SEQ ID NO:220) se puede utilizar como una "secuencia de referencia". Generalmente, las secuencias de ácido nucleico (por ejemplo, los fragmentos de ADN clonados o genómicos de una librería genómica) que son comparados con la secuencia de referencia comprenden una "ventana de comparación", la cual es un segmento contiguo específico de la secuencia de ácido nucleico. La ventana de comparación puede comprender adiciones o deleciones (por ejemplo, interrupciones) en comparación con la secuencia de referencia (la cual no comprende adiciones o deleciones) para la alineación óptima de las dos secuencias. La ventana de comparación normalmente es por lo menos de 20 nucleótidos contiguos de longitud, aunque puede ser de 30, 40, 50, 100, o 200 nucleótidos de longitud, o más larga. Para evitar una similitud alta con la secuencia de referencia debido a la inclusión de deleciones en la ventana de comparación de secuencias de polinucleótidos, una "penalización de interrupción" puede introducirse para ser sustraída del número de coincidencias de nucleótido.

Los métodos para alinear las secuencias para su comparación son bien conocidos en la materia. La determinación del porcentaje de identidad de secuencia entre dos secuencias cualesquiera puede lograrse utilizando los algoritmos matemáticos disponibles. Los ejemplos no limitantes de dichos algoritmos matemáticos son el algoritmo de Myers y Milles (1988), CABIOS 4:11-7; el algoritmo de alineación local de Smith y otros (1981) Adv. Appl. Math. 2:482; el algoritmo de alineación global de Needleman y Wunsch (1970), J. Mol. Biol. 48:443-53; el método de búsqueda de alineación local de Pearson y Lipman (1988), Proc. Natl. Acad. Sci.USA 85:2444-8; el algoritmo de Karlin y Altschul (1990), Proc. Natl. Acad. Sci. USA 87:2264, y Karlin y Altschul (1993) Proc. Natl. Acad. Sci. USA 90:5873-7.

Un experto en la materia puede implementar estos algoritmos matemáticos en una computadora para comparar las secuencias para determinar la identidad de secuencia, o para explorar una base de datos que comprende una pluralidad de secuencias (por ejemplo, una base de datos de genomas de organismos) de acuerdo con la identidad de secuencia compartida con una secuencia de referencia. Dichas implementaciones incluyen, sin limitación, CLUSTAL en el programa PC/Gene (Intelligenetics, Mountain View, CA); y el programa ALIGN y GAP, BESTFIT, BLAST, FASTA, y TFASTA en el paquete de software GCG de Wisconsin Genetics, v. 10 (Accelrys Inc., San Diego, CA). Las alineaciones de secuencias que utilizan estos programas pueden realizarse utilizando sus parámetros por defecto. Alternativamente, puede ser deseable modificar los parámetros por defecto en algunas búsquedas (por ejemplo, alterando un valor de una penalización de interrupción). La selección de una implementación de cómputo particular de algoritmos matemáticos para el cálculo de la identidad de secuencia y la selección de los valores de los parámetros para utilizar en un algoritmo seleccionado, son a consideración de un experto en la materia.

En algunas modalidades, el sistema CMS-C/R4 para la producción de semilla híbrida puede ser diseñado en una variedad de maíz que carece de un gen restaurador Rf4 funcional o una especie de planta diferente al maíz, por ejemplo, mediante la introducción del gen Rf4 dentro de dicha variedad de maíz o especie de planta.

Por consiguiente, de acuerdo con algunas modalidades, el gen Rf4 descrito en la presente descripción puede utilizarse en un método para producir semilla híbrida. Un método para producir semilla híbrida puede comprender la obtención de una molécula de ácido nucleico que comprende una secuencia de Rf4-bHLH de maíz (por ejemplo, la SEQ ID NO:220), o una secuencia de nucleótidos que hibrida específicamente a una secuencia de Rf4-bHLH de maíz. Esa molécula de ácido nucleico puede entonces ser introducida en una célula vegetal o tejido vegetal, en donde la planta de la cual se obtiene la célula vegetal o tejido vegetal puede ser Zea mays, o una especie de planta diferente. De manera subsiguiente, una planta completa transformada puede ser generada a partir de la célula vegetal o tejido vegetal dentro del cual se ha introducido la molécula de ácido nucleico. Una planta con esterilidad masculina citoplasmática puede entonces ser polinizada por la planta completa transformada. Una semilla que genera una planta fértil puede entonces ser obtenida a partir de la planta con esterilidad masculina citoplasmática que ha sido polinizada por la planta completa transformada.

En modalidades particulares, las variantes funcionales u homólogos del gen Rf4-bHLH de maíz pueden utilizarse en lugar de una secuencia de Rf4-bHLH de maíz (por ejemplo, la SEQ ID NO:220), o la secuencia de nucleótidos que hibrida específicamente a la secuencia de Rf4-bHLH de maíz, en un método para producir semilla híbrida. Una planta completa transformada que es generada, por ejemplo, mediante los métodos descritos anteriormente, puede tener la capacidad de producir semillas. Sin embargo, dichas semillas pueden o no tener la capacidad de crecer hasta plantas fértiles. Por consiguiente, algunas modalidades de los métodos para producir semilla híbrida involucran las técnicas de cultivo de tejidos vegetales. Dichas técnicas son de rutina y conocidas ampliamente por aquellos expertos en la materia.

En las modalidades donde el sistema CMS-C/Rf4 para la producción de semilla híbrida está diseñado en especies de plantas diferentes al maíz, puede ser necesario introducir también moléculas de ácido nucleico que comprenden una o más secuencias de ácido nucleico involucradas en el sistema de esterilidad masculina CMS-C en las especies de plantas. Por ejemplo, el alelo rf4-bHLH recesivo puede ser introducido para reemplazar un ortólogo de Rf4-bHLH en la especie de planta para generar una planta rf4/rf4 con esterilidad masculina, en la cual el gen Rf4-bHLH puede ser introducido con el objeto de diseñar el sistema CMS-C/Rf4 para la producción de semilla híbrida en la especie.

En algunas modalidades, el gen Rf4 descrito en la presente descripción, se puede utilizar en un método para la producción de semilla híbrida que comprende fertilizar una planta femenina que tiene el rasgo de esterilidad masculina tipo CMS-C con polen de una planta masculina que comprende el gen Rf4. En estas y otras modalidades, se puede utilizar una secuencia de Rf4-bHLH de maíz (por ejemplo, la SEQ ID NO:220), una secuencia de nucleótidos que hibrida específicamente a la secuencia de Rf4-bHLH de maíz, o las variantes funcionales u homólogos de la secuencia de Rf4-bHLH de maíz.

En algunas modalidades, un método para producir semilla híbrida comprende generar una primera planta que comprende R/4, por ejemplo, mediante retrocruzamiento: mutagénesis; transformación; o recombinación homóloga.

Una segunda planta que tiene el rasgo de esterilidad masculina tipo CMS-C puede entonces obtenerse, o ser generada, por ejemplo, mediante retrocruzamiento; mutagénesis, o recombinación homóloga. La segunda planta puede entonces ser cruzada con la primera planta para obtener semillas híbridas fértiles de la segunda planta. En las modalidades, la primera planta puede ser una planta masculina, y la segunda planta puede ser una planta femenina.

En los ejemplos particulares de los métodos para producir semilla híbrida, la planta puede ser una planta de maíz. En los ejemplos adicionales, se pueden utilizar plantas diferentes al maíz. Las modalidades de los métodos para producir semilla híbrida se pueden aplicar a cualquier planta, tal como plantas de reproducción sexual, que incluyen plantas de valor agronómico, por ejemplo y sin limitación: maíz; frijol de soya, alfalfa; trigo; semilla de colza; arroz; sorgo; remolacha; Brachypodium; monocotiledóneas, dicotiledóneas; diversos vegetales que incluyen pepino, tomate, chiles, etc.; diversos árboles que incluyen manzano, peral, durazno, cerezo, secoya, pino, roble, etc.; y diversas plantas de ornato.

V. Métodos para utilizar los marcadores moleculares de R/4

Los métodos para utilizar los marcadores moleculares de ácido nucleico que están ligados a o que residen dentro del gen R/4 para identificar las plantas con un gen restaurador funcional de CMS tipo C pueden dar como resultado ahorros en costos para los desarrolladores de plantas, debido a que dichos métodos pueden eliminar la necesidad de cruzar plantas que comprenden un gen restaurador funcional con las líneas de plantas con CMS y posteriormente evaluar el fenotipo de las progenies del cruzamiento.

Los marcadores adicionales pueden ser identificados como equivalentes a cualquiera de los marcadores de ejemplo nombrados en la presente descripción (por ejemplo, las SEQ ID NO:1-197 e ID de polimorfismo núm. 1-106 (Tabla 3)), por ejemplo, determinando la frecuencia de recombinación entre el marcador adicional y un marcador nombrado de ejemplo. Dichas determinaciones pueden utilizar un método mejorado de contrastes ortogonales con base en el método de Mather (1931), The Measurement of Linkage in Heredity, Methuen & Co., Londres, seguido por una prueba de probabilidad máxima para determinar la frecuencia de recombinación. Allard (1956) Hilgardia 24:235-78. Si el valor de la frecuencia de recombinación es menor que o igual a 0,10 (es decir, el 10 %) en cualquier variedad de cultivo de maíz, entonces el marcador adicional es considerado equivalente al marcador de referencia particular para los propósitos de uso en los métodos actualmente descritos.

Un medio para restaurar la fertilidad al maíz con CMS-C puede incluir una secuencia de ácido nucleico de una planta, la detección de cuyo ácido nucleico proporciona por lo menos una indicación fuerte de que la planta que comprende la secuencia de ácido nucleico comprende un gen restaurador de CMS-C funcional. En algunos ejemplos, un medio para restaurar la fertilidad al maíz con CMS-C es un marcador que está ligado a (por ejemplo, ligado; estrechamente ligado; o ligado de manera extremadamente estrecha) o que reside dentro del gen Rf4-bHLH. Un medio para identificar las plantas de maíz que portan un gen para restaurar la fertilidad al maíz con CMS-C puede ser una molécula que presenta una señal detectable cuando es agregada a una muestra obtenida de una planta que porta un gen para restaurar la fertilidad al maíz con CMS-C. La hibridación específica de los ácidos nucleicos es una señal detectable, y una sonda de ácido nucleico que hibrida específicamente a un gen restaurador de CMS-C, o una secuencia de ácido nucleico genómica diferente que es un indicador de la presencia de un gen restaurador de CMS-C funcional, puede, por consiguiente, ser un medio para identificar las plantas de maíz que portan un gen para restaurar la fertilidad al maíz con CMS-C. En algunos ejemplos, un medio para identificar las plantas que portan un gen para restaurar la fertilidad al maíz con CMS-C es una sonda que hibrida específicamente a un marcador que están ligado a (por ejemplo, ligado; estrechamente ligado; o ligado de manera extremadamente estrecha) o que reside dentro del gen Rf4-bHLH de maíz.

En algunas modalidades, los marcadores que flanquean el gen Rf4 pueden utilizarse para transferir segmento(s) del ADN progenitor donante que contiene de manera inequívoca el gen Rf4. En las modalidades particulares, los marcadores son seleccionados del grupo de marcadores que comprende las SEQ ID NO:1-197 e ID de polimorfismo núm. 1-106 (Tabla 3), o de los marcadores equivalentes a los marcadores seleccionados del grupo de marcadores que comprenden las SEQ ID NO:1-197 e ID de polimorfismo núm. 1-106 (Tabla 3). En algunas modalidades, un método para utilizar los marcadores que flanquean el gen Rf4 para transferir el(los) segmento(s) de ADN progenitor donante que contienen de manera inequívoca el gen Rf4 puede comprender analizar el ADN genómico de dos plantas progenitoras con sondas que son específicamente hibridables a los marcadores ligados a (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen R/4; realizar el cruzamiento sexual de los dos genotipos de plantas progenitoras para obtener una población de progenie, y analizar esa progenie para evaluar la presencia de los marcadores ligados (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen Rf4 ; el retrocruzamiento de la progenie que contiene los marcadores ligados (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen Rf4 con el genotipo receptor para producir una primera población de retrocruzamiento, y posteriormente continuar con un programa de retrocruzamiento hasta que se obtiene una progenie final que comprende cualquier rasgo(s) deseado(s) exhibido(s) por el genotipo progenitor y el gen Rf4. En las modalidades particulares, la progenie individual obtenida en cada paso de cruzamiento y retrocruzamiento se selecciona mediante el análisis de marcadores de Rf4 en cada generación. En algunas modalidades, el análisis del ADN genómico de las dos plantas progenitoras con las sondas que son específicamente hibridables a los marcadores ligados (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen Rf4 revela que una de las plantas progenitoras comprende menos de los marcadores ligados a los cuales hibridan específicamente las sondas, o ninguno de los marcadores ligados a los cuales hibridan específicamente las sondas.

En algunas modalidades, los marcadores que están ligados a (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) o que residen dentro del gen Rf4-bHLH de maíz, o la secuencia génica de Rf4-bHLH de maíz misma, se pueden utilizar para introducir el gen Rf4 de maíz en una planta de maíz mediante transformación genética. En las modalidades particulares, los marcadores son seleccionados del grupo de marcadores que comprende las SEQ ID NO:1-197 e ID de polimorfismo núm. 1-106 (Tabla 3), o de los marcadores equivalentes a los marcadores seleccionados del grupo de marcadores que comprende las SEQ ID NO:1-197 e ID de polimorfismo núm. 1-106 (Tabla 3). En algunas modalidades, un método para introducir el gen Rf4 de maíz en una planta de maíz mediante la recombinación genética puede comprender analizar el ADN genómico de una planta (por ejemplo, una planta de maíz) con sondas que son específicamente hibridables a los marcadores ligados (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen Rf4 o al gen Rf4 mismo para identificar el gen Rf4 en la planta; aislar un segmento del ADN genómico de la planta que comprende el gen Rf4, por ejemplo, mediante la extracción del ADN genómico y la digestión el ADN genómico con una o más enzimas endonucleasas de restricción; amplificar opcionalmente el segmento aislado de ADN; introducir el segmento aislado de ADN en una célula o tejido de una planta de maíz huésped; y analizar el ADN de la planta de maíz huésped con las sondas que son específicamente hibridables a los marcadores ligados (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen Rf4 o al gen Rf4 mismo para identificar el gen Rf4 en la planta de maíz huésped. En las modalidades particulares, el segmento aislado de ADN puede ser introducido en la planta de maíz huésped de manera que se integre en forma estable en el genoma de la planta de maíz huésped.

En algunas modalidades, los marcadores que están ligados a (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) o que residen dentro del gen Rf4-bHLH de maíz, o la secuencia génica de Rf4-bHLH de maíz misma, se pueden utilizar para introducir el gen R/4 de maíz en otros organismos, por ejemplo, plantas. En las modalidades particulares, los marcadores son seleccionados del grupo de marcadores que comprende las SEQ ID NO:1-197 e ID de polimorfismo núm. 1-106 (Tabla 3), o de los marcadores equivalentes a los marcadores seleccionados del grupo de marcadores que comprende las SEQ ID NO:1-197 e ID de polimorfismo núm. 1-106 (Tabla 3). En algunas modalidades, un método para introducir el gen Rf4 de maíz en un organismo diferente al maíz puede comprender analizar el ADN genómico de una planta (por ejemplo, una planta de maíz) con sondas que son específicamente hibridables a los marcadores ligados (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen Rf4 o al gen Rf4 mismo para identificar el gen R/4 en la planta; aislar un segmento del ADN genómico de la planta que comprende el gen Rf4, por ejemplo, mediante la extracción del ADN genómico y la digestión del ADN genómico con una o más enzimas endonucleasas de restricción; amplificar opcionalmente el segmento aislado de ADN; introducir el segmento aislado de ADN en un organismo diferente al maíz; y analizar el ADN del organismo diferente al maíz con las sondas que son específicamente hibridables a los marcadores ligados (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen Rf4 o al gen Rf4 mismo para identificar el gen Rf4 en el organismo. En las modalidades particulares, el segmento aislado de ADN puede ser introducido en el organismo de manera que es integrado en forma estable en el genoma del organismo.

En algunas modalidades, los marcadores que están ligados a (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) o que residen dentro del gen Rf4 , o la secuencia génica de Rf4 misma, se puede utilizar para identificar una planta con un gen restaurador funcional de la esterilidad masculina CMS-C. En las modalidades particulares, la planta es una planta de maíz. En algunas modalidades, las moléculas de ácido nucleico (por ejemplo ADN genómico o ARNm) pueden extraerse de una planta. Las moléculas de ácido nucleico extraídas pueden entonces ponerse en contacto con una o más sondas que son específicamente hibridables a los marcadores ligados (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen Rf4 o al gen Rf4 mismo. La hibridación específica de las una o más sondas a las moléculas de ácido nucleico extraídas es indicativa de la presencia de un gen restaurador funcional de la esterilidad masculina CMS-C en la planta.

En algunas modalidades, los marcadores que están ligados a (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) o que residen dentro del gen Rf4 , o la secuencia génica de Rf4 misma, se pueden utilizar para producir semilla híbrida. La producción de semilla híbrida de acuerdo con dichos métodos puede dar como resultado ahorro en costos debido a la eliminación de la remoción manual o mecánica de panículas, y puede incrementar adicionalmente la producción de semilla. En las modalidades particulares, el método puede comprender cruzar una planta masculina que comprende marcadores moleculares de ácido nucleico que están ligados a (por ejemplo, ligados, estrechamente ligados; o ligados de manera extremadamente estrecha) o que residen dentro del gen Rf4 de maíz y una planta femenina que tiene el fenotipo de esterilidad masculina CMS tipo C.

VI. Organismos que comprenden el gen R/4

En la presente descripción también se describe un organismo que incluye una molécula de ácido nucleico que comprende una secuencia de Rf4-bHLH (por ejemplo, la SEQ ID NO:220), una secuencia de ácido nucleico que es específicamente hibridable a una secuencia de Rf4-bHLH, o una variante funcional de una secuencia de Rf4-bHLH. Un organismo adecuado puede ser cualquier planta, levadura, o bacteria adecuada. A modo de ejemplo no limitante, una planta que comprende las secuencias mencionadas anteriormente puede ser una planta de valor agronómico, por ejemplo y sin limitación: maíz; frijol de soya, alfalfa; trigo; semilla de colza; arroz; sorgo; remolacha; Brachypodium; monocotiledóneas, dicotiledóneas; diversos vegetales que incluyen pepino, tomate, chiles, etc.; diversos árboles que incluyen manzano, peral, durazno, cerezo, secoya, pino, roble, etc.; y diversas plantas de ornato. En las modalidades particulares, el organismo puede ser una planta de reproducción sexual. Una planta que porta semillas que comprende una secuencia de ácido nucleico particular puede producir semillas que comprenden la secuencia de ácido nucleico.

Las células vegetales que comprenden una secuencia de Rf4-bHLH (por ejemplo, la SEQ ID NO:220), una secuencia de ácido nucleico que es específicamente hibridable a una secuencia de Rf4-bHLH, o una variante funcional de una secuencia de Rf4-bHLH, puede ser cultivada y mantenida como células de cultivo de tejidos vegetales, o ciertas fitohormonas conocidas en la materia que pueden agregarse el medio de cultivo, provocando de esta manera que las células de cultivo de tejidos vegetales se diferencien y formen una variedad de planta nueva, cuya variedad de planta nueva puede ser fértil o estéril. Dichos métodos de cultivo de plantas útiles en estas y otras modalidades son de rutina y bien conocidos en la materia.

Algunas modalidades de la descripción proporcionan un virus (por ejemplo, un bacteriófago, o virus de planta) que comprende una secuencia de Rf4-bHLH (por ejemplo, la SEQ ID nO:220), una secuencia de ácido nucleico que es específicamente hibridable a una secuencia de Rf4-bHLH, o una variante funcional de una secuencia de Rf4-bHLH.

Ejemplos

Ejemplo 1: Materiales y Métodos

Población de validación

Una línea con esterilidad masculina de tipo CMS-C, BE4207, y una línea restauradora de la esterilidad masculina que responde al tipo CMS-C, XJH58, fueron utilizadas como progenitores para generar la progenie F1. Después la progenie F1 se autopolinizó para generar una población F2. La población F2, que consiste en 500 individuos, se utilizó para la identificación del gen Rf4 y los marcadores ligados (por ejemplo, ligados; estrechamente ligados; o ligados de manera extremadamente estrecha) al gen Rf4.

Mapeo fino de la población BE4207/XJH58 F3

Un total de 5.465 semillas seleccionadas de 15 familias heterocigóticas F2 de la población de validación F2 que segregan fragmentos diferentes dentro de la región de 4,2 Mb en la parte superior del cromosoma 8 fueron plantadas en un pabellón de verano de 2010 en Arlington, Wisconsin. Las muestras de hojas fueron recolectadas de las 5.104 plántulas germinadas para su genotipificación.

Clasificación de fertilidad.

Las 500 plantas en esta población F2 fueron clasificadas en forma fenotípica de acuerdo con la liberación de polen de las panículas. Las plantas que liberaron polen fueron clasificadas como fértiles. Las plantas que no liberaron polen fueron clasificadas como estériles. La restauración de Rf4 en esta población fue completa; no se observaron plantas con fertilidad parcial.

Extracción de ADN y cuantificación.

8 perforaciones de tejido foliar se recolectaron de cada planta de la población F2, y se extrajo el ADN utilizando el instrumento Biocel™ 1800 (Agilent Inc., Santa Clara, CA). El proceso de extracción de ADN utilizado fue: (1) agregar una esfera de aleación de tungsteno de ~.32 cm de diámetro a cada tubo; (2) agregar 300 pl de tampón de lisis RLT (Qiagen Inc., Germantown, MD) a cada tubo; (3) tapar y triturar durante 6 minutos a 1.500 golpes/minuto en un SPEX 2000 Geno/Grinder® (OPS Diagnostics, LLC, Lebanon, NJ); (4) centrifugar las muestras a una velocidad de 6.000 rpm durante 5 minutos; (5) destapar los tubos; los siguientes pasos se llevan a cabo en el Biocel™ 1800: (6) transferir 200 pl de sobrenadante a una placa de ensayo de fondo redondo y pocillos cuadrados de 1,1 ml que contiene 10 pl de microesferas MagAttract® Suspension G (Qiagen Inc.); (7) incubar durante 2 minutos; (8) agitar a una velocidad de 1.200 rpm durante 40 segundos; (9) incubar durante 2 minutos; (10) colocar la placa de ensayo sobre un estante magnético y permitir que se separen las microesferas durante 40 segundos; (11) remover el sobrenadante; (12) primer lavado - agregar 190 pl de tampón de lavado RPW™ mezclado previamente con RNasa e isopropanol, y agitar a una velocidad de 1.200 rpm durante 40 segundos; (13) colocar la placa de ensayo sobre el estante magnético y permitir que las microesferas se separen durante 20 segundos; (14) remover el sobrenadante; (15) segundo lavado - agregar 190 |jl de tampón de lavado con etanol al 100 %, y agitar a una velocidad de 1.200 rpm durante 40 segundos; (16) colocar la placa de ensayo sobre un estante magnético y permitir que se separen las microesferas durante 20 segundos; (17) tercer lavado - agregar 190 j l de tampón de lavado con etanol al 100 %; (18) agitar a una velocidad de 1.200 rpm durante 40 segundos; (19) colocar la placa de ensayo sobre el estante magnético y permitir que se separen las microesferas durante 20 segundos; (20) remover el sobrenadante; (21) incubar la placa durante 5 minutos a temperatura ambiente; (22) agregar 100 j l de tampón de elución AE™ (Qiagen lnc.); (23) agitar durante 2 minutos; (24) colocar la placa de ensayo sobre el estante magnético y dejar que se separen las microesferas durante 30 segundos; y (25) transferir el sobrenadante a una placa limpia etiquetada y sellarlo. El ADN se almacenó a una temperatura de 4 °C. El ADN fue cuantificado utilizando PicoGreen® (Invitrogen Inc., Carlsbad, CA), y la concentración fue normalizada a 5-6 ng/jl para utilizar en el sistema de genotipificación KASPar™ (KBioscience lnc., Hoddesdon, Reino Unido).

Sistema de genotipificación de SNP KASPar™

El sistema de genotipificación por PCR específica de alelo competitiva (KASPar™) es un sistema de detección de SNP que utiliza una técnica basada en la extensión de oligonucleótidos específicos de alelo y la transferencia de energía de resonancia de fluorescencia (FRET) para la generación de señales. Cada marcador SNP en un ensayo KASPar™ requiere únicamente de dos componentes: La mezcla de ensayo (una mezcla de tres cebadores no etiquetados: dos oligonucleótidos específicos de alelo, y un oligonucleótido inverso común específico del locus); y la mezcla de reacción (los otros componentes requeridos para la PCR, que incluyen el sistema de reporte de fluorescencia universal y la polimerasa Taq).

El sistema de administración de la información de laboratorio de KBioscience (KLIMS™) (KBioscience lnc.) se utilizó para el diseño de los cebadores, y los oligonucleótidos fueron sintetizados por Integrated DNA Technology (Coralville, IA). Las reacciones KASPar™ fueron realizadas de acuerdo con la recomendación del fabricante. La PCR empezó con la desnaturalización a una temperatura de 94 °C durante 15 minutos, seguida por 20 ciclos de 10 segundos de desnaturalización a una temperatura de 94 °C, 5 segundos de hibridación a una temperatura de 57 °C, posteriormente 10 segundos de extensión a una temperatura de 72 °C, cuyos 20 ciclos fueron seguidos por 22 ciclos con 10 segundos de desnaturalización a una temperatura de 94 °C, 20 segundos de hibridación a una temperatura de 57 °C, posteriormente 40 segundos de extensión a una temperatura de 72 °C. Las señales fluorescentes después de completar las reacciones KASPar™ fueron leídas en un espectrofluorómetro (Tecan GENioS™, Mannedorf, Suiza) con una longitud de onda de excitación a 485 nm, y una longitud de onda de emisión a 535 nm para el fluoróforo FAM; y una longitud de onda de excitación a 525 nm, y una longitud de onda de emisión a 560 nm para el fluoróforo VIC. Los datos fueron analizados utilizando el software Klustercaller™ (KBiosciences Inc.) para determinar los genotipos de cada marcador SNP en una población.

Extracción de ARN y PCR en tiempo real (RT-PCR)

Las plantas progenitoras y F3 que segregan la región de R/4 se cultivaron en un invernadero. Los tejidos de hojas fueron recolectados de las plantas con 5 semanas, 7 semanas y 9 semanas de edad. Los tejidos de panícula con anteras/polen en desarrollo y el polen liberado (en las plantas fértiles) también fueron recolectados. El ARN total se extrajo utilizando un Kit RNeasy™ Plant Mini (Qiagen Inc.). El ADNc fue sintetizado utilizando el kit de transcripción inversa QuantiTect™ (Qiagen Inc.). Para la RT-PCR, los cebadores específicos para el gen R/4, cebadores de control de invertasa de maíz, y las sondas doblemente etiquetadas con colorantes FAM o VIC y Minor Groove Binding Non Fluorescence Quencher™ I (MGBNFQ) se sintetizaron por Applied Biosystems (Foster City, CA). La mezcla maestra de genotipificación TaqMan™ (Applied Biosystems) se utilizó para preparar reacciones de PCR de 10 jl, y se realizó la PCR en un equipo LightCycler™ 480 (Roche). El programa de PCR incluyó: 10 minutos de activación a una temperatura de 95 °C, seguido por 50 ciclos a una temperatura de 95 °C durante 10 segundos y una temperatura de 58 °C durante 38 segundos. Las señales de fluorescencia fueron registradas al final de cada ciclo. El nivel de expresión relativa se calculó utilizando el método Delta CT utilizando invertasa como el control. Ejemplo 2: Mapeo del gen Rf4

Análisis de segregación de fertilidad

La proporción de segregación de fertilidad en la población F2 fue de 3:1. Tabla 1. Los resultados demostraron que la restauración de la fertilidad en el sistema CMS-C/R/4 es controlada por un gen restaurador dominante, R/4.

Tabla 1: Datos de fenotipo de la población de validación

Mapeo genético preliminar de Rf4 en la población F2 utilizando los marcadores SNP.

101 marcadores SNP localizados cerca de la parte superior del cromosoma 8 de maíz se utilizaron para el tamizaje de progenitores con 5 poblaciones de mapeo de Rf4 diferentes, y se determinó que están dentro de la región de Rf4 de 5,0 Mb. Un grupo de 12 marcadores fueron polimórficos en las cinco poblaciones, mientras que 27, incluyendo los 12 marcadores polimórficos comunes, mostraron polimorfismo entre los progenitores de la población BE4207 x XJH58 F2. Los 12 marcadores comunes inicialmente fueron utilizados para determinar el genotipo de los 500 individuos en la población F2 para identificar las líneas recombinantes dentro de la región de 5,0 Mb. Los restantes 15 marcadores polimórficos fueron utilizados entonces para determinar el genotipo de las 104 líneas recombinantes. Treinta y cuatro recombinantes seleccionados en forma aleatoria se muestran en la figura 2, con sus datos fenotípicos y datos genotípicos correspondientes para los 27 marcadores como ejemplos. Un análisis más detallado de las 42 líneas recombinantes más informativas reveló que el gen Rf4 está localizado en una región de aproximadamente 1.505 Mb en la parte superior del cromosoma 8, definida por el marcador SNP DAS-PZ40624 (SEQ ID NO:8). Dentro de esta región, existen aproximadamente 30 genes (no se muestran los datos).

De manera interesante e inesperada, en vista del hecho de que todos los genes restauradores identificados previamente, excepto por el Rf2 de maíz y el Rf17 de arroz, codifican proteínas con repeticiones de pentatricopéptido (PPR), no existe un gen de PPR pronosticado dentro de la región de 1.505 Mb que contiene Rf4, aunque existen tres genes de PPR localizados en 1.509, 4.288 y 4.748 Mb respectivamente. Figura 3.

Mapeo genético fino de Rf4 con recombinantes informativos y marcadores SNP adicionales.

Para mapear de manera más fina la ubicación cromosómica del gen restaurador, Rf4, los 96 marcadores SNP localizados de la posición de nucleótido 12.507 a 1.504.526 en el cromosoma 8 se seleccionaron para una investigación de polimorfismo en progenitores. 28 marcadores SNP fueron polimórficos entre los dos progenitores de mapeo. 93 recombinantes, incluyendo algunos recombinantes informativos potenciales no incluidos en la ronda anterior de tamizaje, se seleccionaron para su genotipificación con los 28 marcadores. Utilizando la misma comparación de fenotipo/genotipo descrita anteriormente, el gen Rf4 fue mapeado en forma positiva en una región de 0,56 Mb utilizando los 19 recombinantes más informativos, definidos por las plantas S-301 y S-115 y el marcador SNP PZE-108000459 (SEQ ID NO:134) como el límite derecho, como se muestra en la figura 4. Con base en los datos genotípicos y fenotípicos de la planta S-378 (estéril), el gen R/4 puede residir dentro de una región de menos de 100 kb, definida por el marcador SⁿP PZE-108000086 (SEQ ID NO:105). Véase la figura 4. Por consiguiente, el Rf4 fue mapeado en una región de 0,56 Mb que contiene aproximadamente 14 genes, y mapeado adicionalmente en una región de menos de 100 kb que contiene seis genes potenciales. Véase la Tabla 2. La secuencia del gen Rf4 se selecciona del grupo que consiste en GRMZM2G122853 (SEQ ID NO:198); AC187051.4_FG005 (SEQ ID NO:199); GRMZM2G122851 (SEQ ID NO:200); GRMZM2G 122850 (SEQ ID NO:201); GRMZM2G582028 (SEQ ID NO:202); GRMZM2G021276 (SEQ ID NO:203); GRMZM2G381376 (SEQ ID NO:204); GRMZM2G081127 (SEQ ID NO:205); GRMZM2G085111 (SEQ ID NO:206); GRMZM2G085038 (SEQ ID NO:207); GRMZM2G317468 (SEQ ID NO:208); GRMZM2G328030 (SEQ ID NO:209); GRMZM2G029450 (SEQ ID NO:210); y GRMZM2G077212 (SEQ ID NO:211).

Tabla 2 Genes pronosticados con la región de Rf4

Esos resultados son consistentes con aquellos reportados en un cartel titulado "Restoration of c-type cytoplasmic male sterility in maize: Fine-mapping of R/4", presentado recientemente por Kohls y otros en Maize Genetics Conference 2010. Según informan, Kohls y otros mapearon un gen Rf4 en una región de 0,5 Mb cerca de la parte superior del cromosoma 8 utilizando un número limitado de marcadores. Sin embargo, los materiales genéticos utilizados por Kohls y otros fueron muy diferentes de aquellos utilizados en el trabajo descrito actualmente. De manera importante, Kohls y otros descubrieron un porcentaje significativo de individuos Rf4 únicamente semifértiles, mientras que la restauración de la fertilidad en la población F2 presente fue completa (no se encontraron individuos semifértiles). Adicionalmente, la mejor resolución de mapa (<100 kb vs. 500 kb) se utilizó para identificar el Rf4, y también para describir marcadores mucho más útiles, que incluyen a aquellos que están ligados de manera extremadamente estrecha a Rf4.

Los resultados presentados en la presente descripción, demuestran el mapeo del locus Rf4 en un fragmento cromosómico muy pequeño e identifican el gen Rf4. A diferencia de la mayoría de los genes Rf clonados hasta ahora, Rf4 no es, casi de manera certera, un gen de PPR. Los marcadores moleculares ligados descritos en la presente descripción (que incluyen los marcadores estrechamente ligados y los marcadores ligados de manera extremadamente estrecha) se pueden utilizar para facilitar la selección asistida por marcador de las líneas restauradoras en el sistema CMS-C/R/4 y para promover el desarrollo de maíz híbrido utilizando este sistema solo, o junto con otros sistemas.

Ejemplo 3: Mapeo fino del gen Rf4

Se generó una población de mapeo fino BE4207/XJH58 F3 grande de 5104 individuos derivada de las líneas recombinantes descritas anteriormente.

En la población F2, se mapeó a Rf4 en una región de menos de 100 kb en la parte superior del cromosoma 8. Sin embargo, no existen marcadores moleculares dentro de esta región excepto por PZE-108000086, con un SNP en la posición de nucleótido 98 468. Se llevaron a cabo dos métodos para identificar los polimorfismos para los marcadores adicionales dentro de este intervalo. En el primer método, se diseñó un experimento de captura de secuencias NimbleGen™ (Roche Inc.) (Fu y otros (2010) Plant J. 62:898-909) para capturar todos los polimorfismos alrededor de la región de 6,0 Mb en la parte superior del cromosoma 8 entre la línea con CMS BE4207 y la línea restauradora XJH58, junto con dos líneas restauradoras adicionales BE9515 y MLW03. La captura de secuencias, la secuenciación de los objetivos capturados, y la designación de SNP se realizaron mediante el NimbleGen™ de acuerdo con el procedimiento recomendado por el fabricante. En tándem con los experimentos de captura NimbleGen™, secuencias de ADN no repetitivas en la región de Rf4 (la parte superior de 100 kb del cromosoma 8) fueron recuperadas del genoma B73, y los cebadores de PCR fueron diseñados para la amplificación de los fragmentos genómicos de los dos progenitores de mapeo, BE4207 y XJH58. Se secuenciaron los fragmentos de PCR de ambos progenitores y se identificaron los polimorfismos (tanto de SNP como InDel).

Con base en los resultados de ambos experimentos, varios miles de SNP e InDel entre la línea con CMS BE4207 y la línea restauradora XJH58 fueron identificados dentro de la región capturada de 6 Mb, que incluyen 77 SNP y 29 InDel en los primeros 100 kb. Tabla 3. El experimento de amplificación por PCR se dirigió a los primeros 100 kb, con énfasis particular en los dos genes expresados en esta región, una peroxidasa de plantas (GRMZM2G122853 (SEQ ID NO:198)) y un factor de transcripción básico hélice-bucle-hélice (bHLH) (GRMZM2G021276 (SEQ ID NO:203)). La secuenciación de los productos de PCR identificó 35 SNP y 24 InDel. Tabla 3. De manera notable, la mayoría de los cambios identificados en los fragmentos de PCR también se descubrieron en el proyecto de captura de secuencias (50 de entre 59, o el 84,7 %). Juntos, los dos métodos descubrieron 106 cambios únicos (ID de polimorfismo 1-106) entre los dos progenitores de mapeo, que incluyen 77 SNP y 29 InDel en la región de R/4 de 100 kb seleccionada como objetivo. Tabla 3.

Con base en su ubicación en el mapa físico y el contexto de secuencia, 33 de los cambios únicos (24 SNP y 9 InDel) se utilizaron para diseñar los cebadores para la genotipificación de alta productividad de las poblaciones de mapeo F3 utilizando los ensayos KASPar™ (Tabla 3), esencialmente como los que se describen en el Ejemplo 1.

Tabla 3. Polimorfismos entre línea con CMS (BE4207) y restauradora (XJH58) y los marcadores KASPar™ para el mapeo de R/4. La posición de nucleótido de B73 se basa en el genoma de maíz B73 RefGen_v1, aunque v2 tiene la secuencia idéntica dentro de los 100 kb del cromosoma 8.

Claims

REIVINDICACIONES

1. Un método para identificar una planta que comprende un gen restaurador funcional de la esterilidad masculina citoplasmática tipo C de maíz, el método comprende:

aislar las moléculas de ácido nucleico de una planta; y

tamizar las moléculas de ácido nucleico aisladas para detectar una molécula de ácido nucleico que comprende un alelo marcador de Rf4 en una secuencia de nucleótidos seleccionada del grupo que consiste en la SEQ ID NO:105, la SEQ ID NO:109, la SEQ ID NO:111, la SEQ ID NO:115, las SEQ ID NO:118-120, la SEQ ID NO:123, la SEQ ID NO:126, la SEQ ID NO:134; y los marcadores denominados ID de polimorfismo núm. 1-106 en la Tabla 3, en donde la presencia del alelo marcador de Rf4 en la secuencia de ácido nucleico es indicativa de un gen restaurador funcional de la esterilidad masculina citoplasmática tipo C de maíz. 2. El método de acuerdo con la reivindicación 1, en donde las moléculas de ácido nucleico aisladas son de ADN genómico.

3. El método de acuerdo con la reivindicación 1, en donde el tamizaje de las moléculas de ácido nucleico aisladas para detectar una molécula de ácido nucleico que comprende un alelo marcador de Rf4 en una secuencia de nucleótidos seleccionada del grupo que consiste en la SEQ ID NO:105, la SEQ ID NO:109, la SEQ ID NO:111, la SEQ ID NO:115, las SEQ ID NO:118-120, la SEQ ID NO:123, la SEQ ID NO:126, la SEQ ID NO:134; y los marcadores denominados ID de polimorfismo núm. 1-106 en la Tabla 3, se realiza utilizando la reacción en cadena de la polimerasa específica de alelo competitiva.

4. El método de acuerdo con la reivindicación 1, que comprende además determinar el genotipo de la planta para cada uno de los marcadores denominados ID de polimorfismo núm. 1-106 en la Tabla 3.

5. Un método para introducir el gen Rf4-bHLH de maíz en un organismo huésped mediante transformación genética, el método comprende

analizar el ADN genómico de una planta con sondas que son específicamente hibridables a alelos marcadores de Rf4 para identificar el gen Rf4 en la planta; en donde los alelos marcadores de Rf4 se seleccionan del grupo que consiste en la SEQ ID NO:105, la SEQ ID NO:109, la SEQ ID NO:111, la SEQ ID NO:115, las SEQ ID NO:118-120, la SEQ ID NO:123, la SEQ ID NO:126, la SEQ ID NO:134; y los marcadores denominados ID de polimorfismo núm. 1-106 en la Tabla 3;

aislar un segmento del ADN genómico de la planta que hibrida específicamente a sondas que son específicamente hibridables a los alelos marcadores de Rf4;

introducir el segmento aislado de ADN genómico en el organismo huésped; y

analizar el ADN del organismo huésped con sondas que son específicamente hibridables a alelos marcadores de Rf4 para identificar el gen Rf4 en el organismo huésped, en donde preferentemente el organismo huésped en una planta en floración, se prefiere más el organismo huésped Zea mays.

6. El método de acuerdo con la reivindicación 5, en donde el segmento aislado de ADN se integra en forma estable en el genoma del organismo huésped.

FIG . 1 ^{CONTINUACIÓN}

FIG. 2 C r o m o s o m a 8

FIG. 3

FIG. 7

B73 rf4-bHLH (SEQ ID NO:218) (1) GGCAAGCTAATGGGGTACATATGGA BE4207 rf4-bHLH (SEQ ID NO:218) (1) GGCAAGCTAATGGGGTACATATGGA B104 bHLH (SEQ ID NO:219) (1) GGCAAGCTAATGGGGTACATATGGA XJH58 Rf4-bHLH (SEQ ID NO:220) (1) GGCAAGCTAATGGGGTACATATGGA BE9515 Rf4-bHLH (SEQ ID NO:220) (1) GGCAAGCTAATGGGGTACATATGGA MLW03 Rf4-bHLH (SEQ ID NO:220) (1) GGCAAGCTAATGGGGTACATATGGA

(26) AGGAGGAAACCAAGTCGATCGTCGTCGTAGCATGTCGGTGTGGGTACTACACTACAC (26) AGGAGGAAACCAAGTCGATCGTCGTCGTAGCATGTCGGTGTGGGTACTACACTACAC (26) AGGAGGAAAC CAAGTC GATCGTC GTCGTAGC ATGTC GGTGTGGGTAC TACAC TACAC (26) AGGAGGAAACCAAGTCGATCGTCGTCGTAGCATGTCGGTGTGGGTACTACACTACAC (26) AGGAGGAAAC CAAGTCGATC GTCGTC GTAGC ATGTC GGTGTGGGTACTACAC TACAC (26) AGGAGGAAACCAAGTCGATCGTCGTCGTAGCATGTCGGTGTGGGTACTACACTACAC

(83) ACACATATACATGGGCAACGCAAGGCCACCTTTCTGAATCCTGCATGAGCGTGTACC (83) ACACATATACATGGGCAACGCAAGGCCACCTTTCTGAATCCTGCATGAGCGTGTACC (83) ACACATATACATGGGCAACGCAAGGCCACCTTTCTGAATCCTGCATGAGCGTGTACC (83) ACACATATACATGGGCAACGCAAGGCCACCTTTCTGAATCCTGCATGAGCGTGTACC (83) ACACATATACATGGGCAACGCAAGGCCACCTTTCTGAATCCTGCATGAGCGTGTACC (83) ACACATATACATGGGCAACGCAAGGCCACCTTTCTGAATCCTGCATGAGCGTGTACC

(140) ACTAGAATTGTCAGTGTGTGCGGTGTATGGCAGGTTTTTGGTTCGGCAAGTGGGGCC (140) ACTAGAATTGTCAGTGTGTGCGGTGTATGGCAGGTTTTTGGTTCGGCAAGTGGGGCC (140) ACTAGAATTGTCAGTGTGTGCGGTGTATGGCAGGTTTTTGGTTCGGCAAGTGGGGCC (140) ACTAGAATTGTCAGTGTGTGCGGTGTATGGCAGGTTTTTGGTTCGGCAAGTGGGGCC (140) ACTAGAATTGTCAGTGTGTGCGGTGTATGGCAGGTTTTTGGTTCGGCAAGTGGGGCC (140) ACTAGAATTGTCAGTGTGTGCGGTGTATGGCAGGTTTTTGGTTCGGCAAGTGGGGCC

(197) CTCCGGGGAGGAATCTCAGTAACAAACCGCTCTTCTGAAAAGGTCAGCCATCCCCGG (197) CTCCGGGGAGGAATCTCAGTAACAAACCGCTCTTCTGAAAAGGTCAGCCATCCCCGG (197) CTCCGGGGAGGAATCTCAGTAACAAACCGCTCTTCTGAAAAGGTCAGCCATCCCCGG (197) CTCCGGGGAGGAATCTCAGTAACAAACCGCTCTTCTGAAAAGGTCAGCCATCCCCGG (197) CTCCGGGGAGGAATCTCAGTAACAAACCGCTCTTCTGAAAAGGTCAGCCATCCCCGG (197) CTCCGGGGAGGAATCTCAGTAACAAACCGCTCTTCTGAAAAGGTCAGCCATCCCCGG

(254) TCCGGTCCGGTGATGTCGTCGCTGTCGCTCTGCTAGCTTGCTGCCGATCCCCCCCCC (254) TCCGGTCCGGTGATGTCGTCGCTGTCGCTCTGCTAGCTTGCTGCCGATCCCCCCCCC (254) TCCGGTCCGGTGATGTCGTCGCTGTCGCTCTGCTAGCTTGCTGCCGATCCCCCCCCC (254) TCCGGTCCGGTGATGTCGTCGCTGTCGCTCTGCTAGCTTGCTGCCGATCCCCCCCCC (254) TCCGGTCCGGTGATGTCGTCGCTGTCGCTCTGCTAGCTTGCTGCCGATCCCCCCCCC (254) TCCGGTCCGGTGATGTCGTCGCTGTCGCTCTGCTAGCTTGCTGCCGATCCCCCCCCC FIG . 7 ^CONT

(311) CCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATACTTAGTTTAAT (311) CCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATACTTAGTTTAAT (311) -----------•TTCTTCTCTCTACCCCTCCCTCCACCTCATAAATACTTAGTTTAAT (311) CCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATACTTAGTTTAAT (311) CCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATACTTAGTTTAAT (311) CCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATACTTAGTTTAAT

(368) AACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTTTTCTGAAGGA (368) AACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTTTTCTGAAGGA (357) AACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTTTTCTGAAGGA (368) AACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTTTTCTGAAGGA (368) AACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTTTTCTGAAGGA (368) AACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTTTTCTGAAGGA

(425) AAAAAAAGGTTTGATACTCCTCTACCTAGCTAGTCCTGCATGCCGCTAATGTGCGTC (425) AAAAAAAGGTTTGATACTCCTCTACCTAGCTAGTCCTGCATGCCGCTAATGTGCGTC (414) AAAAAAAGGTTTGATACTCCTCTACCTAGCTAGTCCTGCATGCCGCTAATGTGCGTC (425) AAAAAAAGGTTTGATACTCCTCTACCTAGCTAGTCCTGCATGCCGCTAATGTGCGTC (425) AAAAAAAGGTTTGATACTCCTCTACCTAGCTAGTCCTGCATGCCGCTAATGTGCGTC (425) AAAAAAAGGTTTGATACTCCTCTACCTAGCTAGTCCTGCATGCCGCTAATGTGCGTC

(482) TTGCCTGTTTATTTGTTCTTAATAAGGGCTGCCTATCTATTATATTTTGCACCTGTT (482) TTGCCTGTTTATTTGTTCTTAATAAGGGCTGCCTATCTATTATATTTTGCACCTGTT (471) TTGCCTGTTTATTTGTTCTTAATAAGGGCTGCCTATCTATTATATTTTGCACCTGTT (482) TTGCCTGTTTATTTGTTCTTAATAAGGGCTGCCTATCTATTATATTTTGCACCTGTT (482) TTGCCTGTTTATTTGTTCTTAATAAGGGCTGCCTATCTATTATATTTTGCACCTGTT (482) TTGCCTGTTTATTTGTTCTTAATAAGGGCTGCCTATCTATTATATTTTGCACCTGTT * (DAS-CMS21)

(539) TTGCTGTGTTCTTGGTAACTAGCTTAATTCCTT§¡GCCTACAATCGTCAAATCCCCCC (539) TTGCTGTGTTCTTGGTAACTAGCTTAATTCCTTCGCCTACAATCGTCAAATCCCCCC (528) TTGCTGTGTTCTTGGTAACTAGCTTAATTCCTTÍGCCTACAATCGTCAAATCCCCCC (539) TTGCTGTGTTCTTGGTAACTAGCTTAATTCCTTTGCCTACAATCGTCAAATCCCCCC (539) tt gctgt gttct tggta actag cttaa ttcc tt|gc ctacaa tcgtcAAATCCCCCC (539) tt gctgt gttct tggta actag cttaa ttcc tt|gc ctacaa tcgtc aaatc ccccc

(596) ca tcatc agtca gatga acttt tgatc gaatt gaagt tgttc ttcta attcg gcccc (596) ca tcatc agtca gatga acttt tgatc gaatt gaagt tgttc ttcta attcg gcccc (585) ca tcatc agtca gatga acttt tgatc gaatt gaagt tgttc ttcta attcg gcccc (596) CATCATCAGTCAGATGAACTTTTGATCGAATTGAAGTTGTTCTTCTAATTCGGCCCC (596) CATCATCAGTCAGATGAACTTTTGATCGAATTGAAGTTGTTCTTCTAATTCGGCCCC (596) CATCATCAGTCAGATGAACTTTTGATCGAATTGAAGTTGTTCTTCTAATTCGGCCCC FIG. 7 ^CONT.

(653) AGCAGCGCCCATGCATCTGGTTTTATTTGCTTTCTGTTGGGTATAATATGCAAGACC (653) AGCAGCGCCCATGCATCTGGTTTTATTTGCTTTCTGTTGGGTATAATATGCAAGACC (642) AGCAGCGCCCATGCATCTGGTTTTATTTGCTTTCTGTTGGGTATAATATGCAAGACC (653) AGCAGCGCCCATGCATCTGGTTTTATTTGCTTTCTGTTGGGTATAATATGCAAGACC (653) AGCAGC GCCCATGCATC TGGTTTTATTTGC TTTC TGTTGGGTATAATATGCAAGAC C

(710) TTTTGTTGCTAGGGCAAGGCTGCAACCACATGCGTGTACTGAACTCATGATGTAACT (710) TTTTGTTGCTAGGGCAAGGCTGCAACCACATGCGTGTACTGAACTCATGATGTAACT (699) TTTTGTTGCTAGGGCAAGGCTGCAACCACATGCGTGTACTGAACTCATGATGTAACT (710) TTTTGTTGC TAGGGCAAGGC TGCAAC CACATGC GTGTAC TGAAC TCATGATGTAAC T (710) TTTTGTTGC TAGGGCAAGGC TGCAAC CACATGCGTGTAC TGAAC TCATGATGTAAC T (710) TTTTGTTGCTAGGGCAAGGCTGCAACCACATGCGTGTACTGAACTCATGATGTAACT

(767) CATCCTTTTTGTTTGCTCACAGAATCACTACTCTACTGCACTTCCTTTTCATCCGAT (767) CATCCTTTTTGTTTGCTCACAGAATCACTACTCTACTGCACTTCCTTTTCATCCGAT (756) CATCCTTTTTGTTTGCTCACAGAATCACTACTCTACTGCACTTCCTTTTCATCCGAT (767) CATCCTTTTTGTTTGCTCACAGAATCACTACTCTACTGCACTTCCTTTTCATCCGAT (767) CATCCTTTTTGTTTGCTCACAGAATCACTACTCTACTGCACTTCCTTTTCATCCGAT (767) CATCCTTTTTGTTTGCTCACAGAATCACTACTCTACTGCACTTCCTTTTCATCCGAT

(824) CCGCAATCTTTTTTTTCTTTTACATGCTTTAGTTTTCTCTCTTTCTTGATTACAAAC (824) CCGCAATCTTTTTTTTCTTTTACATGCTTTAGTTTTCTCTCTTTCTTGATTACAAAC (813) CCGCAATCTTTTTTTTCTTTTACATGCTTTAGTTTTCTCTCTTTCTTGATTACAAAC (824) CCGCAATCTTTTTTTTCTTTTACATGCTTTAGTTTTCTCTCTTTCTTGATTACAAAC (824) CCGCAATCTTTTTTTTCTTTTACATGCTTTAGTTTTCTCTCTTTCTTGATTACAAAC (824) CCGCAATCTTTTTTTTCTTTTACATGCTTTAGTTTTCTCTCTTTCTTGATTACAAAC

(881) ATGATTACTGGAACTTTCTTAGGCTGCCTTCCCCTTCCTTGGATCTGCTTTAGTTTT (881) ATGATTACTGGAACTTTCTTAGGCTGCCTTCCCCTTCCTTGGATCTGCTTTAGTTTT (870) ATGATTACTGGAACTTTCTTAGGCTGCCTTCCCCTTCCTTGGATCTGCTTTAGTTTT (881) ATGATTACTGGAACTTTCTTAGGCTGCCTTCCCCTTCCTTGGATCTGCTTTAGTTTT (881) ATGATTACTGGAACTTTCTTAGGCTGCCTTCCCCTTCCTTGGATCTGCTTTAGTTTT (881) ATGATTACTGGAACTTTCTTAGGCTGCCTTCCCCTTCCTTGGATCTGCTTTAGTTTT

(938) CTTTTTTGGGCTACCGCGCGCGGCTTATTTGAGTTTATCACTTGCTGCATATACATA (938) CTTTTTTGGGCTACCGCGCGCGGCTTATTTGAGTTTATCACTTGCTGCATATACATA (927) CTTTTTTGGGCTACCGCGCGCGGCTTATTTGAGTTTATCACTTGCTGCATATACATA (938) CTTTTTTGGGCTACCGCGCGCGGCTTATTTGAGTTTATCACTTGCTGCATATACATA (938) CTTTTTTGGGCTACCGCGCGCGGCTTATTTGAGTTTATCACTTGCTGCATATACATA (938) CTTTTTTGGGCTACCGCGCGCGGCTTATTTGAGTTTATCACTTGCTGCATATACATA FIG. 7 ^CONT.

(995) ATATATATATACATGCATGCGATGGCGTTCATGTTACTCAACTACAGATCTGTTTCT (995) ATATATATATACATGCATGCGATGGCGTTCATGTTACTCAACTACAGATCTGTTTCT (984) ATATATATATACATGCATGCGATGGCGTTCATGTTACTCAACTACAGATCTGTTTCT (995) ATATATATATACATGCATGCGATGGCGTTCATGTTACTCAACTACAGATCTGTTTCT (995) ATATATATATACATGCATGCGATGGCGTTCATGTTACTCAACTACAGATCTGTTTCT (995) ATATATATATACATGCATGCGATGGCGTTCATGTTACTCAACTACAGATCTGTTTCT START

(1052) GTTCGTGTGTTTCAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGATGT (1052) GTTCGTGTGTTTCAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGATGT (1041) GTTCGTGTGTTTCAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGATGT (1052) GTTCGTGTGTTTCAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGATGT (1052) GTTCGTGTGTTTCAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGATGT (1052) GTTCGTGTGTTTCAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGATGT

(1109) ATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACGCCG (1109) ATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACGCCG (1098) ATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACGCCG (1109) ATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACGCCG (1109) ATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACGCCG (1109) ATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACGCCG

(1166) GCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCTTCC (1166) GCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCTTCC (1155) GCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCTTCC (1166) GCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCTTCC (1166) GCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCTTCC (1166) GCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCTTCC

(1223) ACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGCCGC (1223) ACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGCCGC (1212) ACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGCCGC (1223) ACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGCCGC (1223) ACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGCCGC (1223) ACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGCCGC

(1280) AGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGCAGT (1280) AGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGCAGT (1269) AGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGCAGT (1280) AGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGCAGT (1280) AGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGCAGT (1280) AGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGCAGT FIG. 7 _CONT.

(1337) ACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGTTCC (1337) ACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGTTCC (1326) ACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGTTCC (1337) ACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGTTCC (1337) ACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGTTCC (1337) ACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGTTCC

* (DAS-CMS22)

(1394) GCGACTACTGCGACGGCCACTACCCCACCGCCGAGCCGTACATCCGCGGGACAATGA (1394) GCGACTACTGCGACGGCCACTACCCCACCGCCGAGCCGTACATCCGCGGGACAATGA (1383) GCGACTACTGCGACGGCCACTACCCCACCGCCGAGCCGTACATCCGCGGGACAATGA (1394) GCGACTACTGCGACGGCAACTACCCCACCGCCGAGCCGTACATCCGCGGGACAATGA (1394) GCGACTACTGCGACGGCAACTACCCCACCGCCGAGCCGTACATCCGCGGGACAATGA (1394) GCGACTACTGCGACGGCAACTACCCCACCGCCGAGCCGTACATCCGCGGGACAATGA (DAS-CMS23) ***

(1451) CTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCC-- TACA (1451) CTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCC— -TACA (1440) CTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCC-- ;TACA (1451) CTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCCGCCTACA (1451) CTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCCGCCTACA (1451) CTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCCGCCTACA

(1505) TGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCGGCA (1505) TGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCGGCA (1494) TGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCGGCA (1508) TGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCGGCA (1508) TGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCGGCA (1508) TGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCGGCA

(1562) GGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCGTCG (1562) GGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCGTCG (1551) GGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCGTCG (1565) GGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCGTCG (1565) GGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCGTCG (1565) GGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCGTCG (DAS-CMS24) *

(1619) AGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTACACCGCCCTCATGC (1619) AGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTACACCGCCCTCATGC (1608) AGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTÁCACCGCCCTCATGC (1622) AGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTTTACGGCCCTCATGC (1622) AGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTTTACGGCCCTCATGC (1622) AGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTTTACGGCCCTCATGC FIG. 7 ^CONT.

* (DAS-CMS2 5)

(1676) ACCTCATACCCAACGTTACAAAGGTCGTAC-~--------1- ------CAAATCCT (1676) AC CTCATAC CC AACGTTACAAAGGTCGTAC
--------CAAATCCT

(1665) AC CTCATACCC AACG'ITACAAAGGTCGTAC -— -CAAATCCT (1679) ACCTCATACCCAACGTTACGAAGGTCGTACGGCGTACTTGCGCGCGGACCAAATCCT (1679) ac ctcat accc aacgt tacg aaggt cgta cgGGGt áctt gcgc gcgga ccaaa tcct (1679) ACCTCATACCCAACGTTACGAAGGTCGTACGGCGTACTTGCGCGCGGACCAAATCCT

* (DAS-CMS2 6)

(1714) CCTCTTATGTTCGTC---CATCGTTTCAAATTAAGTTAAAAAATTAATTCACGGTTC (1714) CCTCTTATGTTCGTC-— CATCGTTTCAAATTAAGTTAAAAAATTAATTCACGGTTC (1703) CCTCTTATGT'L’CGTC.. CATCGTTTGAAATTAAGTTAAAAAATTAATTCACGGTTC (173 6) CCTCTTATGTTCGTCGTCCATCGTCTCAAATTAA---------- TTCACGGTTC (173 6) CCTCTTATGTTCGTCGTCCATCGTCTCAAATTAA------------- TTCACGGTTC (173 6) CCTCTTATGTTCGTCGTCC ATCGTCTCAAATTAA- --- ------ — TTCACGGTTC *** (DAS-CMS27)

(1768) TTGTTGTT-— TATTTTTTGCGCACTGCAGACTGATAGGGCGACGGTGATCTCGGAC (1768) TTGTTGTT-- TATTTTTTGCGCACTGCAGACTGATAGGGCGACGGTGATCTCGGAC (1757) TTGTTGTT---TATTTTTTGCGCACTGCAGACTGATAGGGCGACGGTGATCTCGGAC (1780) TTGTTGTTGTTTATTTTTTGCGCACTGCAGACTGATAGGGCGACGGTGATCTCGGAC (1780) TTGTTGTTGTTTATTTTTTGCGCACTGCAGACTGATAGGGCGACGGTGATCTCGGAC (1780) TTGTTGTTGTTTATTTTTTGCGCACTGCAGACTGATAGGGCGACGGTGATCTCGGAC

(1822) GCGATCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTG (1822) GCGATCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTG (1811) GCGATCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTG (1837) GCGATCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTG (1837) GCGATCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTG (1837) GCGATCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTG

(1879) GAGAAGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCT (1879) GAGAAGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCT (1868) GAGAAGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCT (1894) GAGAAGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCT (1894) GAGAAGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCT (1894) GAGAAGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCT

(1936) GCGGTGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCG (1936) GCGGTGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCG (1925) GCGGTGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCG (1951) GCGGTGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCG (1951) GCGGTGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCG (1951) GCGGTGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCG FIG- 7 ^CONT.

* (DAS-CMS2 8)

(1993) CCGCCGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAG (1993) CCGCCGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAG (1982) CCGCCGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAG (2008) CCGCTGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAG (2008) CCGCTGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAG (2008) CCGCTGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAG

(2050) GACACGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAG (2050) GACACGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAG (2039) GACACGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAG (2065) GACACGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAG (2065) GACACGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAG (2065) GACACGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAG * (DAS-CMS2 9) (2107) CGCCGGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGATGACCTCCGCCTT (2107) CGCCGGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGATGACCTCCGCCTT (2096) CGCCGGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGATGACCTCCGCCTT (2122) CGCCGGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGACGACCTCCGCCTT (2122) CGCCGGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGACGACCTCCGCCTT (2122) CGCCGGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGACGACCTCCGCCTT

(2164) GACCTCGTCCACCTCTCCGGCGGCAAGAT.CGGTGACTGTCAAATCTACATGTTCAAC (2164) GACCTCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAAC (2153) GACCTCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAAC (2179) GACCTCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAAC (2179) GACCTCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAAC (2179) GACCTCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAAC

(2221) ACCAAGGTACATACGAATACGATACGTAGCCATTGATCGATCTGTAATTCTGTAGCC (2221) ACCAAGGTACATACGAATACGATACGTAGCCATTGATCGATCTGTAATTCTGTAGCC (2210) ACCAAGGTACATACGAATACGATACGTAGCCATTGATCGATCTGTAATTCTGTAGCC (2236) ACCAAGGTACATACGAATACGATACGTAGCCATTGATCGATCTGTAATTCTGTAGCC (2236) ACCAAGGTACATACGAATACGATACGTAGCCATTGATCGATCTGTAATTCTGTAGCC (2236) ACCAAGGTACATACGAATACGATACGTAGCCATTGATCGATCTGTAATTCTGTAGCC

*************** (DAS-CMS 3 0)

(2278) TGA CGATT- — ------------ — -----CCGAGGTTTCTG------------------------------------------GT (2278) TGACGATT ----- --— -— --CCGAGGTTTCTG-------------- ------GT (2267) TGACGATT---------- -----CCGAGGTTTCTG----------- --------- GT (2293) TGACGATTTCATGCATTACTTTTCCGAGGTTTCTGTGCTATACTACCTAACCTAGGT (2293) TGACGATTTCÁTGCATTACTTTTCCGAGGTTTCTGTGCTATACTACCTAACCTAGGT (2293) ^{t g a c g a t t t c}A^{t g c a t t a c t t t t c c g a g g t t t c t g t g c t a t a c t a c c t a a c c t a g g t} FIG. 7 ^CONT.

(2300) GCTAAAAAATGCATCTTTTTTTCTCAGATGACAATGCTTTCTGTCTTTGTTCACCGC (2300) GCTAAAAAATGCATCTTTTTTTCTCAGATGACAATGCTTTCTGTCTTTGTTCACCGC (2289) GCTAAAAAATGCATCTTTTTTTCTCAGATGACAATGCTTTCTGTCTTTGTTCACCGC (2350) GCTAAAAAATGCACCTTTTTTTCTCAGATGACAATGCTTTCTGTCTTTGTTCACCGC (2350) GCTAAAAAATGCACCTTTTTTTCTCAGATGACAATGCTTTCTGTCTTTGTTCACCGC (2350) GCTAAAAAATGCACCTTTTTTTCTCAGATGACAATGCTTTCTGTCTTTGTTCACCGC

(2357) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (2357) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (2346) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (2407) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (2407) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (2407) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG STOP

(2414) TGGTGGAC GAGTACTAGGC TAC CATGCAC TTGAATTTC TAGCTAGC TC TAC GTAC CG (2414) TGGTGGACGAGTACTAGGCTACCATGCACTTGAATTTCTAGCTAGCTCTACGTACCG (2403) TGGTGGAC GAGTAC TAGGC TACCATGCAC TTGAATTTC TAGC TAGC TC TACGTAC CG (2464) TGGTGGACGAGTACTAGGCTACCATGCACTTGAATTTCTAGCTAGCTCTACGTACCG (2464) TGGTGGACGAGTACTAGGCTACCATGCACTTGAATTTCTAGCTAGCTCTACGTACCG (2464) TGGTGGAC GAGTAC TAGGCTAC CATGCAC TTGAATTTC TAGC TAGC TC TAC GTAC CG * (DAS-CMS31) (2471) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGACTAGTTAGTTGTTACC (2471) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGACTAGTTAGTTGTTACC (2460) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGACTAGTTAGTTGTTACC (2521) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGAATAGTTAGTTGTTACC (2521) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGAATAGTTAGTTGTTACC (2521) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGAATAGTTAGTTGTTACC

(2528) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (2528) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (2517) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (2578) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (2578) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (2578) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA

(2585) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGGTTAT (2585) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGGTTAT (2574) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGGTTAT (2635) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGGTTAT (2635) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGGTTAT (2635) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGGTTAT FIG . 7 ^CONT.

(2642) TATATATATTTATGTGT-TTATTACTGGTCTATTAATTTGTCTTATTATTAATGTAT (2642) TATATÁTATTTATGTGT-TTATTACTGGTCTATTAATTTGTCTTATTATTAATGTAT (2631) TATATATATTTATGTGT-TTATTACTGGTCTATTAATTTGTCCTATTATTAATGTAT (2692) TATAT--— TTATGTGTATTATTACTGGTCTATCAATTTGTCCTATTATT---GTAT (2692) T A T A T --------TTAT GTG TAT TATT ACT GGTC TAT CA AT TT GT CC TA TT AT T- -- GT AT (2692) T A T A T - ---T TA TG TG TA TTA TTA CTGG TCT ATCA ATT TGT CCTA TTA TT-- -GT AT

* (DAS-CMS32)

(2698) TGCCTGTCAAGGAATAAATGGTATGATGACCATATTTATGCATAGATAGGATCGGAT (2698) TGC CTGTCAAGGAATAAATGGTATGATGACCATATTTATGCATAGATAGGATCGGAT (2687) TGCCTGTC AAGGAAT AAATGATATGATGACCAT ATTTATGC ATAGATAGGA-'-—;--T (2742) TGCCTGTC AAGGAAT AAATTGTATGATGACTAT ATTTATGC ATAGATAGGA- --:--T (2742) TGCCTGTCAAGGAATAAATTGTATGATGACTATATTTATGCATAGATAGGA-----T (2742) TGCCTGTCAAGGAATAAATTGTATGATGACTATATTTATGCATAGATAGGA--— T

(2755) GAGTAGGTTCACTTGCTTGAGTTCACCGGTATAATTCCGG-------ATACATCTGG (2755) GAGTAGGTTCACTTGCTTGAGTTCACCGGTATAATTCCGG-------ATACATCTGG (2739) GAGTAGGTTCACTTGCTTGAGTTCACCGGTATAATTCTGG------ATACATCTGG (2794) GAGTAGGTTCACTTGCTTGAGTTCACCGGTATAATTCTGGTTTCTGGATACATCTGG (2794) GAGTAGGTTCACTTGCTTGAGTTCACCGGTATAATTCTGGTTTCTGGATACATCTGG (2794) GAGTAGGTTCACTTGCTTGAGTTCACCGGTATAATTCTGGTTTCTGGATACATCTGG * (DAS-CMS33)

(2805) TTAGGTCATCCTTTGGTCAGCTGCCCGCAAGCTTAACTCCGTGCGATATACAATATA (2805) TTAGGTCATCCTTTGGTCAGCTGCCCGCAAGCTTAACTCCGTGCGATATACAATATA (2789) TTAGGTCATCCTTTGGTCAGCTGCCCGCAA---------CGTGCGATATACAATATA (2851) TTAGGTCAGCCTTTGGTCAGCTGCCCGCAAGCTTAACTCCGTGCGATATACACTATA (2851) TTAGGTCAGCCTTTGGTCAGCTGCCCGCAAGCTTAACTCCGTGCGATATACACTATA (2851) TTAGGTCAGCCTTTGGTCAGCTGCCCGCAAGCTTAACTCCGTGCGATATACACTATA

(2862) C AG ATT TTA TTAT GGT TT TC CC CT GA AC CT TC GT GA CT AA CT AT GT TA TC AT T TT TA (2862) C AG ATT TTA TTAT GGT TT TC CC CT GA AC CT TC GT GA CT AA CT AT GT TA TC AT T TT TA (2837) C AT A TT TT A TT AT GT TT TT -------------------TTC GTG AC TA AC TA TG TT AT CA TT TT TA (2908) C AA A TT TT A TT AT GT TT TT ------------------TTCG TGA CT AA CT AT GT TA TC AT TT TT A (2908) C A AA T TT T AT TA TG T TT TT -------------------TTCG TG ACT AAC TATGTTATC A TT T TT A (2908) C A AA T TT T AT TA TG T TT TT -------------------TT CGTG AC TA AC TA TG TT AT CA TT TT TA

(2919) TAGCTTTATAGTCTACAAACTGTTTTATACTCAGCTTGATAAGTACATTCTGGTTTG (2919) TAGCTTTATAGTCTACAAACTGTTTTATACTCAGCTTGATAAGTACATTCTGGTTTG (2884) TAGCTTTATAGTCTACAAACTGTTTTATACTCAGCTTGATAAGTACATTCTGGTTTG (2955) TAGCTTTATAGTCTACAAACTGTTTTATACTCAGCTTGATAAGTACATTCTGGTTTG (2955) TAGCTTTATAGTCTACAAACTGTTTTATACTCAGCTTGATAAGTACATTCTGGTTTG (2955) TAGCTTTATAGTCTACAAACTGTTTTATACTCAGCTTGATAAGTACATTCTGGTTTG FIG. 7 ^CONT.

* (DAS-CMS34)

(2976) GACGATGG-TTTTTTTTTCTTGCAAAA-TGAATTTGTCTTCAGCCTTTACGACTACA (2976) GACGATGG-TTTTTTTTTCTTGCAAAA-TGAATTTGTCTTCAGCCTTTACGACTACA (2941) GACGAT-- -TTTTTTTTCTTGCAAAAATGAATTTGTCTTCAGCCTTTACGACTACA (3012) GACGATGGTTTTTTTTTTCTTGCAAAAATGAATTTGTCTTCAGCCTTTACGACTACA (3012) GACGATGGTTTTTTTTTTCTTGCAAAAATGAATTTGTCTTCAGCCTTTACGACTACA (3012) GACGATGGTTTTTTTTTTCTTGCAAAAATGAATTTGTCTTCAGCCTTTACGACTACA

(3031) TACAGTTTAGTT---- - -------- --TGTATTAATTGATACCGGAAGATCAGATT (3031) TACAGTTTAGTT--- -^-----------TGTATTAATTGATACCGGAAGATCAGATT (2994) TACAGTTTAGTTCTTAGAGTATCTCATCTGTATTAATTGATACCGGAAGA---GATT (3069) TACAGTTTAGTT--- - - -------— TGTATTAATTGATACCAGAAGATCAGATT (3069) TACAGTTTAGTT---- -----------TGTATTAATTGATACCAGAAGATCAGATT (3069 ) TACAGTTTAGTT----------------TGTATTAATTGATACCAGAAGATCAGATT

(3072) CGGACCACATATAAACAAGGAATATATAGCACGTACTCGCTGAACCTTAAATATAGT (3072) CGGACCACATATAAACAAGGAATATATAGCACGTACTCGCTGAACCTTAAATATAGT (3048) CGGGCCACATATAAACAAGGAATATATAGCACGTACTCGCTGAACCTTAAATATAGT (3110) CGGACCACATATAAACAAGGAATATATAGCACGTACTCGCTGAACCTTAAATATAGT (3110) CGGACCACATATAAACAAGGAATATATAGCACGTACTCGCTGAACCTTAAATATAGT (3110) CGGACCACATATAAACAAGGAATATATAGCACGTACTCGCTGAACCTTAAATATAGT

(3129) CAGGAAAATAGAGGGTTAACTAAACCGATCCAGAAACCAATTACATTGATATTGACT (3129) CAGGAAAATAGAGGGTTAACTAAACCGATCCAGAAACCAATTACATTGATATTGACT (3105) CAGGAACATAGAGGGTTAACTAAACCGATCCAGAAACCAATTACATTGATATTGACT (3167) CAGGAACATAGAGGGTTAACTAAACCGATCCAGAAACCAATTACATTGATATTGACT (3167) CAGGAACATAGAGGGTTAACTAAACCGATCCAGAAACCAATTACATTGATATTGACT (3167) CAGGAACATAGAGGGTTAACTAAACCGATCCAGAAACCAATTACATTGATATTGACT

(3186) CTATTCTTCGTT

(3186) CTATTCTTCGTT

(3162) CTATTCTTCGTT

(3224) CTATTCTTCGTT

(3224) CTATTCTTCGTT

(3224) CTATTCTTCGTT

FIG. 8

B73 rf4-bHLH cDNA (SEQ ID NO::221) (1) CTCTGCTAGCTTGCTGCCGA BE4207 rf4-bHLH cDNA (SEQ ID NO::221) (1) CTCTGCTAGCTTGCTGCCGA B104 bHLH CDNA (SEQ ID NO::222) (1) CTCTGCTAGCTTGCTGCCGA XJH58 Rf4-bHLH cDNA (SEQ ID NO::223) (1) CTCTGCTAGCTTGCTGCCGA BE9515 Rf4-bHLH cDNA (SEQ ID NO::223) (1) CTCTGCTAGCTTGCTGCCGA MLW03 Rf4-bHLH cDNA (SEQ ID NO::223) (1) CTCTGCTAGCTTGCTGCCGA

(21) TCCCCCCCCCCCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATAC (21) TCCCCCCCCCCCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATAC (21) TCCCCCCCCC----------- TTCTTCTCTCTACCCCTCCCTCCACCTCATAAATAC (21) TCCCCCCCCCCCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATAC (21) TCCCCCCCCCCCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATAC (21) TCCCCCCCCCCCCCCCCCCCCTTCTTCTCTCTACCCCTCCCTCCACCTCATAAATAC

(78) TTAGTTTAATAACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTT (78) TTAGTTTAATAACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTT (61) TTAGTTTAATAACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTT (78) TTAGTTTAATAACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTT (78) TTAGTTTAATAACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTT (78) TTAGTTTAATAACCTTGCACTGCCGCAGTAGCCCTTAACTGCTGCTATCTATCTCTT

(135) TTCTGAAGGAAAAAAAAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGA (135) TTCTGAAGGAAAAAAAAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGA (124) TTCTGAAGGAAAAAAAAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGA (135) TTCTGAAGGAAAAAAAAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGA (135) TTCTGAAGGAAAAAAAAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGA (135) TTCTGAAGGAAAAAAAAGTTCAGCGCGCAGTTAAGCATAGCAGGACGACCACGACGA START

(192) TGTATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACG (192) TGTATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACG (181) TGTATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACG (192) TGTATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACG (192) TGTATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACG (192) TGTATCACCCGCAGTGCGAGCTCCTGACGATGGCGCACGAAACGCCGGACCTGGACG

(249) CCGGCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCT (249) CCGGCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCT (238) CCGGCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCT (249) CCGGCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCT (249) CCGGCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCT (249) CCGGCCAGCCGCACCTAACCGTCTCCGGCGTCGCCAGCATCCCGGCAGAGCTGAGCT FIG. 8 ^CONT

(306) TCCACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGC (306) TCCACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGC (295) TCCACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGC (306) TCCACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGC (306) TCCACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGC (306) TCCACCTGCTGCACTCGCTCGACGCCGCGGCGGCGGTCAATCCCGTCACGGCGCCGC

(363) CGCAGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGC (363) CGCAGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGC (352) CGCAGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGC (363) CGCAGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGC (363) CGCAGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGC (363) CGCAGTCCACCATCGACTACTTCCTCGGCGGCGCCGATCCCCACCAGCAGGCCATGC

(420) AGTACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGT (420) AGTACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGT (409) AGTACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGT (420) AGTACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGT (420) AGTACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGT (420) AGTACGAGCCGCTGCCGCCCGCCGCGGGCGGCCACCACCAGTACACCATGGACATGT

* (DAS-CMS22)

(477) TCCGCGACTACTGCGACGGCCACTACCCCACCGCCGAGCCGTACATCCGCGGGACAA (477) TCCGCGACTACTGCGACGGCCACTACCCCACCGCCGAGCCGTACATCCGCGGGACAA (466) TCCGCGACTACTGCGACGGCCACTACCCCACCGCCGAGCCGTACATCCGCGGGACAA (477) TCCGCGACTACTGCGACGGCAACTACCCCACCGCCGAGCCGTACATCCGCGGGACAA (477) TCCGCGACTACTGCGACGGCAACTACCCCACCGCCGAGCCGTACATCCGCGGGACAA (477) TCCGCGACTACTGCGACGGCAACTACCCCACCGCCGAGCCGTACATCCGCGGGACAA (DAS-CMS23) *** (534) TGACTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCC-— T (534) TGACTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCC---T (523 ) TGACTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCC — T (534) TGACTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCCGCCT (534) TGACTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCCGCCT (534) TGACTGGAGCCCTCGTGTTCGGGGCCACCGACGACGACGACTCGGCCGCTGCCGCCT

(585) ACATGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCG (585) ACATGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCG (574) ACATGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCG (588) ACATGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCG (588) ACATGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCG (588) ACATGCCCGGGGGGCACTTTGAGACCTCCCCGCCGCCGCCACGCGCCACCGGCCGCG FIG. 8 ^CONT.

(642) GCAGGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCG (642) GCAGGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCG (631) GCAGGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCG (645) GCAGGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCG (645) GCAGGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCG (645) GCAGGAAGCGGGGCAGGGCGCTGGGCGGCGGCTTCCATGCTGTGCTGGCCAACGGCG (DAS-CMS24) *

(699) TCGAGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTACACCGCCCTCA (699) TCGAGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTACACCGCCCTCA (688) TCGAGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTACACCGCCCTCA (702) TCGAGAAGAAGGAGAAGCAGCGCCGGCTGCGGCTCACCGAGAAGTTTACGGCCCTCA (702) TCGAGAAGAAGGAGAAGCAGCC-CCGGCTGCGGCTC ACCGAGAAGTTTACGGCCCTCA (702) TCGAGAAGAAGGAGAAGC AGCC-CCGGCTGCGGCTC ACCGAGAAGTTTACGGCCCTCA

* (DAS-CMS2 5)

(756) TGCACCTCATACCCAACGTTACAAAGACTGATAGGGCGACGGTGATCTCGGACGCGA (756) TGCACCTCATACCCAACGTTACAAAGACTGATAGGGCGACGGTGATCTCGGACGCGA (745) TGCACCTCATACCCAACGTTACAAAGACTGATAGGGCGACGGTGATCTCGGACGCGA (759) TGCACCTCATACCCAACGTTACGAAGACTGATAGGGCGACGGTGATCTCGGACGCGA (759) TGCACCTCATACCCAACGTTACGAAGACTGATAGGGCGACGGTGATCTCGGACGCGA (759) TGCACCTCATACCCAACGTTACGAAGACTGATAGGGCGACGGTGATCTCGGACGCGA

(813) TCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTGGAGA (813) TCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTGGAGA (802) TCGAGTACATC CAGGAGC TGGGGAGGAC GGTGGAGGAGC TGAC GCTGC TGGTGGAGA (816) TCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTGGAGA (816) TCGAGTACATCCAGGAGCTGGGGAGGACGGTGGAGGAGCTGACGCTGCTGGTGGAGA (816) TC GAGTACATC CAGGAGC TGGGGAGGAC GGTGGAGGAGC TGAC GCTGC TGGTGGAGA

(870) AGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCTGCGG (870) AGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCTGCGG (859) AGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCTGCGG (873) AGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCTGCGG (873) AGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCTGCGG (873) AGAAGCGGCGCCGGAGGGAGCTGCAGGGGGACGTCGTGGACGCGGCGCCGGCTGCGG

(927) TGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCGCCGC (927) TGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCGCCGC (916) TGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCGCCGC (930) TGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCGCCGC (930) TGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCGCCGC (930) TGGTTGCTGCCGCCGGTGAGGCGGAGAGCTCGGAGGGCGAGGTGGCTCCTCCGCCGC FIG. 8 ^CONT.

* (DAS-CMS2 8)

(984) CGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAGGACA (984) CGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAGGACA (973) CGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAGGACA (987) TGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAGGACA (987) TGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAGGACA (987) TGGCCGTGCCGCGGCAGCCGATCCGGAGCACGTACATCCAGCGGCGGAGCAAGGACA

(1041) CGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAGCGCC (1041) CGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAGCGCC (1030) CGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAGCGCC (1044) CGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAGCGCC (1044) CGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAGCGCC (1044) CGTCCGTGGACGTGCGGATCGTGGAGGAGGACGTGAACATCAAGCTCACCAAGCGCC * (DAS-CMS29) (1098) GGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGATGACCTCCGCCTTGACC (1098) GGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGATGACCTCCGCCTTGACC (1087) GGCGCGACGGGT'GCCTCGCAGCCGCGTCGCGCGCGCT'GGATGACCTCCGCCTTGACC (1101) GGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGACGACCTCCGCCTTGACC (1101) GGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGACGACCTCCGCCTTGACC (1101) GGCGCGACGGGTGCCTCGCAGCCGCGTCGCGCGCGCTGGACGACCTCCGCCTTGACC

(1155) TCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAACACCA (1155) TCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAACACCA (1144) TCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAACACCA (1158) TCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAACACCA (1158) TCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAACACCA (1158) TCGTCCACCTCTCCGGCGGCAAGATCGGTGACTGTCAAATCTACATGTTCAACACCA

(1212) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (1212) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (1201) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (1215) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (1215) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG (1215) AGATTCACAAGGGGTCTTCAGTGTTTGCGAGTGCAGTGGCCGGTAGGCTGATGGAAG STOP

(12 69) TGGTGGAC GAGTAC TAGGC TACCATGCAC TTGAATTTC TAGC TAGC TCTACGTACCG (12 69) TGGTGGAC GAGTAC TAGGC TACCATGCAC TTGAATTTC TAGCTAGC TCTAC GTAC CG (1258) TGGTGGACGAGTACTAGGCTACCATGCACTTGAATTTCTAGCTAGCTCTACGTACCG (1272) TGGTGGAC GAGTAC TAGGC TACCATGCAC TTGAATTTC TAGC TAGC TCTAC GTAC CG (1272) TGGTGGACGAGTACTAGGCTACCATGCACTTGAATTTCTAGCTAGCTCTACGTACCG (1272) TGGTGGACGAGTACTAGGCTACCATGCACTTGAATTTCTAGCTAGCTCTACGTACCG FIG. 8 ^CONT.

* (DAS-CMS31) (1326) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGACTAGTTAGTTGTTACC (1326) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGACTAGTTAGTTGTTACC (1315) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGACTAGTTAGTTGTTACC (132 9) CGCTGC TATGAATC TAGC TATAGC GTTTC TTGGATGAAAGAATAGTTAGTTGTTAC C (1329) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGAATAGTTAGTTGTTACC (1329) CGCTGCTATGAATCTAGCTATAGCGTTTCTTGGATGAAAGAATAGTTAGTTGTTACC

(1383) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (1383) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (1372) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (1386) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (1386) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA (1386) TTCTATCTTTGCTTCAATTAAATCCGCTTGCTCGTTACAGACTGAGTTTGTTTCTAA

(1443) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGG (1443) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGG (1443) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGG (1443) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGG (1443) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGG (1443) ATGTCAAGGTTGTTTTGGTCAAATTGAATAAATTGGCACACTGGCCTGTGAGG FIG. 9

B73 rf4-bHLH (SEQ ID NO:224) (1) MYHPQCELLTMAHETPDLDAGQPHLTVS BE4207 rf4-bHLH (SEQ ID NO:224) (1) MYHPQCELLTMAHETPDLDAGQPHLTVS B104 bHLH (SEQ ID N O :224) (1) MYHPQCELLTMAHETPDLDAGQPHLTVS XJH58 Rf4-bHLH (SEQ ID NO:225) (1) MYHPQCELLTMAHETPDLDAGQPHLTVS BE9515 Rf4-bHLH (SEQ ID NO:225) (1) MYHPQCELLTMAHETPDLDAGQPHLTVS MLW03 Rf4-bHLH (SEQ ID N O :225) (1) MYHPQCELLTMAHETPDLDAGQPHLTVS

(29) GVASIPAELSFHLLHSLDAAAAVNPVTAPPQSTIDYFLGGADPHQQAMQYEPLPPAA (29) GVASIPAELSFHLLHSLDAAAAVNPVTAPPQSTIDYFLGGADPHQQAMQYEPLPPAA (29) GVASIPAELSFHLLHSLDAAAAVNPVTAPPQSTIDYFLGGADPHQQAMQYEPLPPAA (29) GVASIPAELSFHLLHSLDAAAAVNPVTAPPQSTIDYFLGGADPHQQAMQYEPLPPAA (29) GVASIPAELSFHLLHSLDAAAAVNPVTAPPQSTIDYFLGGADPHQQAMQYEPLPPAA (29) GVASIPAELSFHLLHSLDAAAAVNPVTAPPQSTIDYFLGGADPHQQAMQYEPLPPAA * (DAS-CMS22) * (DAS-CMS23) (86) GGHHQYTMDMFRDYCDGHYPTAEPYIRGTMTGALVFGATDDDDS-AAAYMPGGHFET (86) GGHHQYTMDMFRDYCDGHYPTAEPYIRGTMTGALVFGATDDDDS-AAAYMPGGHFET (86) GGHHQYTMDMFRDYCDGHYPTAEPYIRGTMTGALVFGATDDDDS-AAAYMPGGHFET (86) GGHHQYTMDMFRDYCDGÑYPTAEPYIRGTMTGALVFGATDDDDSAAAAYMPGGHFET (86) GGHHQYTMDMFRDYCDGNYPTAEPYIRGTMTGALVFGATDDDDSAAAAYMPGGHFET (86) GGHHQYTMDMFRDYCDGNYPTAEPYIRGTMTGALVFGATDDDDSAAAAYMPGGHFET NLS bHLH Domain (142) SPPPPRATGRGRKRGRALGGGFHAVLANGVEKKEKQRRLRLTEKYTALMHLIPNVTK (142) SPPPPRATGRGRKRGRALGGGFHAVLANGVEKKEKQRRLRLTEKYTALMHLIPNVTK (142) SPPPPRATGRGRKRGRALGGGFHAVLANGVEKKEKQRRLRLTEKYTALMHLIPNVTK (143) SPPPPRATGRGRKRGRALGGGFHAVLANGVEKKEKQRRLRLTEKFTALMHLIPNVTK (143) SPPPPRATGRGRKRGRALGGGFHAVLANGVEKKEKQRRLRLTEKFTALMHLIPNVTK (143) S PPPPRATGRGRKRGRALGGGFHAVLANGVEKKEKQRRLRLTEKFTALMHLIPNVTK

"" NLS

(199) TDRATVISDAIEYIQELGRTVEELTLLVEKKRRRRELQGDWDAAPAAWAAAGEAE (199) TDRATVISDAIEYIQELGRTVEELTLLVEKKRRRRELQGDWDAAPAAWAAAGEAE (199) TDRATVISDAIEYIQELGRTVEELTLLVEKKRRRRELQGDWDAAPAAWAAAGEAE (200) TDRATVISDAIEYIQELGRTVEELTLLVEKKRRRRELQGDWDAAPAAWAAAGEAE (200) TDRATVISDAIEYIQELGRTVEELTLLVEKKRRRRELQGDWDAAPAAWAAAGEAE (200) TDRATVISDAIEYIQELGRTVEELTLLVEKKRRRRELQGDWDAAPAAWAAAGEAE * (DAS-CMS28)

(256) SSEGEVAPPPPAVPRQPIRSTYIQRRSKDTSVDVRIVEEDVNIKLTKRRRDGCLAAA (256) SSEGEVAPPPPAVPRQPIRSTYIQRRSKDTSVDVRIVEEDVNIKLTKRRRDGCLAAA (256) SSEGEVAPPPPAVPRQPIRSTYIQRRSKDTSVDVRIVEEDVNIKLTKRRRDGCLAAA (257) SSEGEVAPPPLAVPRQPIRSTYIQRRSKDTSVDVRIVEEDVNIKLTKRRRDGCLAAA (257) SSEGEVAPPPLAVPRQPIRSTYIQRRSKDTSVDVRIVEEDVNIKLTKRRRDGCLAAA (257) SSEGEVAPPPLAVPRQPIRSTYIQRRSKDTSVDVRIVEEDVNIKLTKRRRDGCLAAA

(313) SRALDDLRLDLVHL SGGKIGDCQIYMFNTK1HKGS SVFASAVAGRLMEWDEY (313) SRALDDLRLDLVHLSGGKIGDCQIYMFNTK1HKGSSVFASAVAGRLMEWDEY (313) SRALDDLRLDLVHL SGGK IGDCQ IYMFNTK1HKGS SVF ASAVAGRLMEWDE Y (314) SRALDDLRLDLVHLSGGKIGDCQIYMFNTK1HKGSSVFASAVAGRLMEWDEY (314) S RALDDLRLDLVHL SGGKIGDCQIYMFNTK1HKGS SVFASAVAGRLMEWDEY (314) SRALDDLRLDLVHL SGGK IGDCQI YMFNTK 1HKGS SVFAS AVAGRLMEWDE Y FiG. 10

---- y

S e g re g a c ió n de F3s FIG. 11

XJH58 Rf4-bHLH (SEQ ID NO::225) (1) MYHPQCELLTMAHETPDLDAG--QP BE4207 rf4-bHLH (SEQ ID NO :224) (1) MYHPQCELLTMAHETPDLDAG--QP BRADI2G112 60 bHLH (SEQ ID NO :226) (1) MYHPQCELL-MPHESLDMDAWGQS Sb03g011940 bHLH (SEQ ID NO: ^{■ .2 2 1 )} (1) MYHPQCELL-MAHEAQDLDAAGQPH Qs01gll870 bHLH (SEQ ID NO::228) (1) MYHPQCELL-MPLESLEMD--VGQS

(24) HLTVSGVA-SIPAELSFHLLHSLDAAAAVNPVTAPP-- QSTIDYFL--GGADPHQ-(24) HLTVSGVA-SIPAELSFHLLHSLDAAAAVNPVTAPP---QSTIDYFL--GGADPHQ-(25) HLAASGVS-AIPAELNFHLLHHSFVDTAASP------ QPPTVDYFFPGTD---PPP (25) HLAVSGVAGSIPAELSFHLLHSLDATAAVMNSVTP-- -QSTIDYFLGVGGADPHQP (23) HLAAAVAA-AMPGELNFHLLHSLDAAAAAASSTAASASSQPTVDYFFGGADQQPPPP * (N/H)

(74 ) QAMQYEPLPPAAGGHHQYTMDMFRDYCD-- — -— GNYPTAHPYIRG — TMTGA (74 ) QAMQYEPLPPAAGGHHQYTMDMFRDYCD------- GTTYPTAKPYIRG--- TMTGA (71) AAVQFEQL AATNIJH-AMSMLRDYY---- ----GQQYPAETYLRGGPRTTTGS SS (78) AALQYE PLPP PGG-HHQHTMNML RDYC SNGGG— GGHYPTAEPYLRG-----TRTGA (79) AAMQYDQL-- AAPHHHQT VAMT,RIJYYGGHYPPAAAAAAATEAYFRGGP RTAG SSS * (A/-)

(119) LVFGATDDDDSAAAAYMPGGHFETSPPPPRATGRGRKRGRALGGGFHAVLANGVEKK (119) LVFGATDDDDS-AAAYMPGGHFETSPPPPRATGRGRKRGRALGGGFHAVLANGVEKK (116 ) LVFGVAHDDES --AAYNMVGPFVESS PTTRAAG-GGRKRNRGSRAAGGPAHGGVEKK (12 8) LVFGATDDDES-AAAYMPGG PFVETS PPPRATG-GRKRGRALGGGFHAGL ANGVEKK (132) LVFGPADDES---- AFMVGPFE-S SPTPRSGG-GRKRSRATAGFHGGGPANGVEKK * (F/Y)

(176) EKQRRLRLTEKFTALMHLIPNVTKTDRATVISDAIEYIQELGRTVEELTLLVEKKRR (175) EKQRRLRLTEKYTALMHLIPNVTKTDRATVISDAIEYIQELGRTVEELTLLVEKKRR (170) EKQRRLRLTEKYTALMLLIPNRTKEDRATVISDAIEYIQELGRTVEELTLLVGKKRR (183) EKQRRQRLTEKYTALMHLIPMVTKPDRATVISDAIEYIQELGRTVEELTLLVEKKRR (182) EKQRRLRLTEKYNALMLLIPNRTKEDRATVISDAIEYIQELGRTVEELTLLVEKKRR

’ ’ ’ ... (L/P) *

(233 ) RR------ELQGDWDAAPAAWAAAG- - --EAESSE- ----- -GEVAPPPL-- AV (232) RR------ELQGDWDAAPAAWAAAG----EAESSE------ -GEVAPPPP-- AV (227) RNGAGEHHLHQGDWDAAPAVGAAGELVLAAESSEG -- --EVQAPLAAL- -- (240) RR------ELQGDWDAAPTAVWAAAATGGEAE SSE- -— ---GEVAPPPPPPAAV (239) RR------EMQGDWDAATSSWAGMDQAAE-SSEGEVMAAAAMGÁVAPPPRQ----

(270) PRQPIRSTYIQRRSKDTSVDVRIVEEDVNIKLTKRRRDGCLAAASRALDDLRLDLVH (269) PRQPIRSTYIQRRSKDTSVDVRIVEEDVNIKLTKRRRDGCLAAASRALDDLRLDLVH (272) --QPIRSTYIQRKSKETFVDVRIVEDEVNIKLTKRRRDGCLAAASRALDDLRLDLVH (284) QRQPIRSTYIQRRSKDTSVDVRIVEEDVNIKLTKRRRDGCLAAASRALDDLRLDLVH (285) --APIRSTYIQRRSKETFVDVRIVEDDVNIKLTKRRRDGCLAAASRALDDLRLDLVH FIG . 11 ^CONT.

(327) LSGGKIGDCQIYMFNTKIHKGSSVFASAVAGRLMEWDEY (326) LSGGKIGDCQIYMFNTKIHKG SSVFAS AVAGRLME W D E Y (327 ) LSGGKIGDCHI YMFNTKIHQGSPVFASAVASKLIEWDEY (341) LSGGKIGDCHIYMFNTKIHKGSSVFASAVASRLMEWDEY (340) LSGGKIGDCHI YMFNTKIHSGSPVFASAVASRLIEWDEY