ES2751126T3 - Método de diseño para proteína de unión a ARN usando motivo de PPR, y uso del mismo - Google Patents

Método de diseño para proteína de unión a ARN usando motivo de PPR, y uso del mismo Download PDF

Info

Publication number
ES2751126T3
ES2751126T3 ES12841435T ES12841435T ES2751126T3 ES 2751126 T3 ES2751126 T3 ES 2751126T3 ES 12841435 T ES12841435 T ES 12841435T ES 12841435 T ES12841435 T ES 12841435T ES 2751126 T3 ES2751126 T3 ES 2751126T3
Authority
ES
Spain
Prior art keywords
amino acids
ppr
rna
protein
motif
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12841435T
Other languages
English (en)
Inventor
Takahiro Nakamura
Yusuke Yagi
Keiko Kobayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu University NUC
Original Assignee
Kyushu University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu University NUC filed Critical Kyushu University NUC
Application granted granted Critical
Publication of ES2751126T3 publication Critical patent/ES2751126T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/415Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from plants
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8216Methods for controlling, regulating or enhancing expression of transgenes in plant cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8261Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield
    • C12N15/8287Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for fertility modification, e.g. apomixis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8261Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield
    • C12N15/8287Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for fertility modification, e.g. apomixis
    • C12N15/8289Male sterility
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/5308Immunoassay; Biospecific binding assay; Materials therefor for analytes not provided for elsewhere, e.g. nucleic acids, uric acid, worms, mites
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/85Fusion polypeptide containing an RNA binding domain
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2522/00Reaction characterised by the use of non-enzymatic proteins
    • C12Q2522/10Nucleic acid binding proteins
    • C12Q2522/101Single or double stranded nucleic acid binding proteins
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Immunology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Botany (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Tropical Medicine & Parasitology (AREA)

Abstract

Método para preparar una proteína que comprende diseñar una proteína que puede unirse a una molécula de ARN de una manera selectiva de base de ARN o específica de secuencia de bases de ARN, comprendiendo el método: diseñar una proteína que se une específicamente a ARN que tiene una secuencia específica prestando atención a la combinación de aminoácidos A1, A4 y Lii o la combinación de aminoácidos A4 y Lii, en el que la proteína contiene uno o más motivos de PPR que consisten cada uno en un polipéptido de 30 a 38 aminoácidos de longitud representado por la fórmula 1: (Hélice A)-X-(Hélice B)-L (Fórmula 1) (en la que: la hélice A es un resto de 12 aminoácidos de longitud capaz de formar una estructura de hélice α, y está representado por la fórmula 2: A1-A2-A3-A4-A5-A6-A7-A8-A9-A10-A11-A12 (Fórmula 2) en el que, en la fórmula 2, de A1 a A12 representan independientemente un aminoácido; X no existe, o es un resto de 1 a 9 aminoácidos de longitud; la hélice B es un resto de 11 a 13 aminoácidos de longitud capaz de formar una estructura de hélice α; y L es un resto de 2 a 7 aminoácidos de longitud representado por la fórmula 3; Lvii-Lvi-Lv-Liv-Liii-Lii-Li (Fórmula 3) en el que, en la fórmula 3, los aminoácidos se numeran "i" (-1), "ii" (-2), y así sucesivamente desde el lado del extremo C-terminal, con la condición de que de Liii a Lvii pueden no existir), y la combinación de tres aminoácidos A1, A4 y Lii, o la combinación de dos aminoácidos A4 y Lii de un motivo de PPR contenido en la proteína es una combinación correspondiente a una base de ARN diana o una base de ARN específica que constituye una secuencia de bases diana.

Description

DESCRIPCIÓN
Método de diseño para proteína de unión a ARN usando motivo de PPR, y uso del mismo
Campo técnico
La presente invención se refiere a una proteína capaz de unirse selectiva o específicamente a una base de ARN o secuencia de ARN pretendida. Según la presente invención, se usa un motivo de repetición de pentatricopéptido (PPR). La presente invención puede usarse para la identificación y el diseño de una proteína de unión a ARN, la identificación de un ARN diana de una proteína de PPR, así como el control funcional de ARN. La presente invención es útil en el campo de la medicina, campo de la agricultura, y así sucesivamente.
Técnica anterior
En los últimos años, se han establecido y usado técnicas de unión de factores de proteína de unión a ácido nucleico dilucidadas mediante diversos análisis para una secuencia pretendida. Usando tal unión específica de secuencia, está volviéndose posible analizar la ubicación intracelular de un ácido nucleico diana (ADN o ARN), eliminar una secuencia de ADN diana, o controlar (activar o inactivar) la expresión de un gen que codifica para una proteína que existe en el sentido de 3' desde una secuencia diana de este tipo.
Aunque están llevándose a cabo investigación y desarrollo usando proteínas de dedos de cinc (documento no de patente 1) y efectores de TAL (documento no de patente 2, documento de patente 1), que son factores de proteína que actúan sobre ADN, como materiales de ingeniería de proteínas, el desarrollo de factores de proteína que actúan específicamente sobre ARN todavía está extremadamente limitado. Esto se debe a que cualquier correspondencia general entre la afinidad para ARN de secuencias de aminoácidos que constituyen proteínas y secuencias de ARN que pueden unirse está poco dilucidada, o no hay tal correspondencia. Con respecto a la proteína pumilio constituida por la repetición de dos o más motivos de puf que consisten cada uno en 38 aminoácidos, se ha demostrado excepcionalmente que un motivo de puf se une a una base de ARN (documento no de patente 3), y está intentándose desarrollar una nueva proteína que tenga una propiedad de unión a ARN y una técnica de modificación de la propiedad de unión a ARN usando las proteínas pumilio (documento no de patente 4). Sin embargo, los motivos de puf están altamente conservados y sólo existe un número extremadamente pequeño. Por tanto, sólo se usan para la creación de un factor de proteína que interacciona con una secuencia de ARN limitada.
Las proteínas de PPR (proteínas que tienen el motivo de repetición de pentatricopéptido (PPR)) se han identificado basándose en información de secuencia de genoma (documento no de patente 5), proteínas que constituyen una gran familia que consiste en aproximadamente 500 miembros sólo para plantas. Aunque las proteínas de PPR se codifican en el núcleo, actúan principalmente para el control de orgánulos (cloroplastos y mitocondrias) a nivel de ARN, escisión, traducción, corte y empalme, edición y estabilidad de ARN de una manera específica del gen. Las proteínas de PPR tienen normalmente una estructura que comprende aproximadamente 10 motivos de 35 aminoácidos contiguos escasamente conservados, es decir, motivos de PPR, y se considera que la combinación de los motivos de PPR es responsable de la unión selectiva de secuencia con ARN. Casi todas las proteínas de PPR consisten únicamente en las repeticiones de aproximadamente 10 motivos de PPR, y en muchos casos, no puede encontrarse en las mismas ningún dominio requerido para la expresión de acción catalítica. Por tanto, se considera que la identidad de las proteínas de PPR es un adaptador de ARN (documento no de patente 6).
Los inventores de la presente invención propusieron un método para modificar una proteína de unión a ARN usando este motivo de PPR (documento de patente 2).
El documento WO 2011/111829 describe una técnica para identificar aminoácidos que desempeñan un papel principal para que el motivo de PPR funcione como unidad de unión a ARN y controlar las características de unión a ARN del mismo.
Fujii et al. (PNAS, 2011, 108(4): 1723-28) describen que la mayoría de las angiospermas para las que existen datos de secuencia genómica extensos contienen múltiples genes de PPR relacionados con genes de restauración de la fertilidad (Rf). Estos genes de tipo Rf muestran un número de rasgos característicos en comparación con otros genes de PPR, lo que sugiere selección por diversificación. Las mayores probabilidades de selección por diversificación se observaron para los residuos de aminoácido 1, 3 y 6 dentro del motivo de PPR.
Keizo et al. (Dai 52 Kai, Proceedings Of The Annual Meeting Of The Japanese Society Of Plant Physiologists, 11 de marzo de 2011, página 332) describen que la proteína de PPR de rábano blanco con esterilidad masculina citoplasmática Kosena se une a ARN y que los genes de PPR de diversas variedades de rábano blanco muestran polimorfismos de aminoácidos en varios residuos.
Los documentos WO 02/088179 y JP 2002355041 describen el aislamiento de un gen de PPR, en particular un gen de Rf1 de origen de rábano, e identifican su estructura.
Koizuka et al. (Plant J, 2003, 34(4): 407-15) describen la caracterización genética de un gen de proteína de repetición de pentatricopéptido, orf687, que restaura la fertilidad en el rábano Kosena con esterilidad masculina citoplasmática.
El documento EP 1 586 652 se refiere a una semilla transgénica para cultivos con rasgos mejorados que se proporcionan mediante ADN recombinante de mejora de rasgos en la que las plantas que se hacen crecer a partir de tal semilla transgénica muestran uno o más rasgos mejorados en comparación con una planta de control.
Referencias de la técnica anterior
Bibliografía de patentes
Documento de patente 1: documento WO2011/072246
Documento de patente 2: documento WO2011/111829
Bibliografía no de patentes
Documento no de patente 1: Maeder, M.L., Thibodeau-Beganny, S., Osiak, A., Wright, D.A., Anthony, R.M., Eichtinger, M., Jiang, T., Foley, J.E., Winfrey, R.J., Townsend, J.A., et al. (2008), Rapid “open-source” engineering of customized zinc-finger nucleases for highly efficient gene modification, Mol. Cell, 31, 294-301
Documento no de patente 2: Miller, J.C., Tan, S., Qiao, G, Barlow, K.A., Wang, J., Xia, D.F., Meng, X., Paschon, D.E., Leung, E., Hinkley, S.J., et al. (2011), A TALE nuclease architecture for efficient genome editing, Nature Biotech., 29, 143-148.
Documento no de patente 3: Wang, X., McLachlan, J., Zamore, P.D., y Hall, T.M. (2002), Modular recognition of RNA by a human pumilio-homology domain, Cell, 110, 501-512
Documento no de patente 4: Cheong, C.G., y Hall, T.M. (2006), Engineering RNA sequence specificity of Pumilio repeats, Proc. Natl. Acad. Sci. USA, 103, 13635-13639
Documento no de patente 5: Small, I.D., y Peeters, N. (2000), The PPR motif- a TPR-related motif prevalent in plant organellar proteins, Trends Biochem. Sci., 25, 46-47
Documento no de patente 6: Woodson, J.D., y Chory, J. (2008), Coordination of gene expression between organellar and nuclear genomes, Nature Rev. Genet., 9, 383-395
Sumario de la invención
Objetivo que va a lograrse mediante la invención
Se espera que las propiedades de las proteínas de PPR como adaptador de ARN se determinen mediante las propiedades de los motivos de PPR que constituyen las proteínas de PPR y la combinación de una pluralidad de los motivos de PPR. Sin embargo, la correlación de la constitución de aminoácidos y la función de los mismos está poco esclarecida. Si se identifican aminoácidos que funcionan cuando los motivos de PPR muestran la propiedad de unión a ARN, y se dilucida la relación entre la estructura de un motivo de PPR y una base diana, puede construirse una proteína capaz de unirse a un ARN que tiene una longitud y secuencia arbitrarias manipulando artificialmente la estructura de un motivo de PPR o combinación de una pluralidad de motivos de PPR.
Medios para lograr el objetivo
Con el fin de lograr el objetivo anteriormente mencionado, los inventores de la presente invención examinaron proteínas de PPR genéticamente analizadas, especialmente tales proteínas de p Pr implicadas en la edición de ARN (modificación de información genética a nivel de ARN, especialmente la conversión de citosina (de aquí en adelante abreviada como C) en uracilo (de aquí en adelante abreviado como U)), y secuencias de ARN diana de las mismas, y dilucidaron que tres aminoácidos en los motivos de PPR (los aminoácidos 1, 4 y “ii” (-2)) comprenden información responsable de la unión a una base de ARN específica usando técnicas científicas computacionales. Más precisamente, los inventores de la presente invención encontraron que la selectividad de base de ARN de unión (también denominada especificidad) del motivo de PPR se determina mediante tres aminoácidos, es decir, los aminoácidos primero y cuarto contenidos en la primera hélice de entre dos de las estructuras de hélice a que constituyen el motivo, así como el segundo (“ii” (-2)) aminoácido desde el extremo (lado del extremo C-terminal) en el resto que puede formar una estructura de bucle después de la segunda hélice, y lograron la presente invención. Por tanto, la presente invención proporciona lo siguiente.
[1] Un método para preparar una proteína que comprende diseñar una proteína que puede unirse a una molécula de a Rn de una manera selectiva de base de ARN o específica de secuencia de bases de ARN, comprendiendo el método:
diseñar una proteína que se une específicamente a ARN que tiene una secuencia específica prestando atención a la combinación de aminoácidos A1, A4 y Lm o la combinación de aminoácidos A4 y Lm,
en el que la proteína contiene uno o más motivos de PPR (preferiblemente de 2 a 14 motivos de PPR) que consisten cada uno en un polipéptido de 30 a 38 aminoácidos de longitud representado por la fórmula 1:
[F1]
(Hélice A)-X-(Hélice B)-L (Fórmula 1)
(en la que:
la hélice A es un resto de 12 aminoácidos de longitud capaz de formar una estructura de hélice a, y está representado por la fórmula 2:
[F2]
A1-A2-A3-A4-A5-A6-A7-A8-A9-A10-A11-A12 (Fórmula 2)
en el que, en la fórmula 2, de A1 a A12 representan independientemente un aminoácido;
X no existe, o es un resto de 1 a 9 aminoácidos de longitud;
la hélice B es un resto de 11 a 13 aminoácidos de longitud capaz de formar una estructura de hélice a; y
L es un resto de 2 a 7 aminoácidos de longitud representado por la fórmula 3;
[F3]
Lvii-Lvi-Lv-Liv-Liii-Lii-Li (Fórmula 3)
en el que, en la fórmula 3, los aminoácidos se numeran “i” (-1), “ii” (-2), y así sucesivamente desde el lado del extremo C-terminal,
con la condición de que de Un a Lvii pueden no existir), y
la combinación de tres aminoácidos A1, A4 y Lm, o la combinación de dos aminoácidos A4 y Lm de un motivo de PPR contenido en la proteína es una combinación correspondiente a una base de ARN diana o una base de ARN específica que constituye una secuencia de bases diana.
[2] El método según el punto [1], en el que la combinación de los tres aminoácidos A1, A4 y Lm es una combinación correspondiente a la secuencia de bases o base de ARN diana, y la combinación de los aminoácidos se determina según una cualquiera de las siguientes proposiciones:
(3-1) cuando los tres aminoácidos A1, A4 y Lm son valina, asparagina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U (uracilo);
(3-2) cuando los tres aminoácidos A1, A4 y Lm son valina, treonina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a A (adenina);
(3-3) cuando los tres aminoácidos A1, A4 y Lm son valina, asparagina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a C (citosina);
(3-4) cuando los tres aminoácidos A1, A4 y Lm son ácido glutámico, glicina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a G (guanina);
(3-5) cuando los tres aminoácidos A1, A4 y Lm son isoleucina, asparagina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a C o U;
(3-6) cuando los tres aminoácidos A1, A4 y Lm son valina, treonina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a G;
(3-7) cuando los tres aminoácidos Ai, A4 y Lm son lisina, treonina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a G;
(3-8) cuando los tres aminoácidos Ai, A4 y Ln son fenilalanina, serina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a A;
(3-9) cuando los tres aminoácidos Ai, A4 y Lm son valina, asparagina y serina, respectivamente, el motivo de PPR puede unirse selectivamente a C;
(3-10) cuando los tres aminoácidos Ai, A4 y Lm son fenilalanina, treonina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a A;
(3-11) cuando los tres aminoácidos Ai, A4 y Lm son isoleucina, asparagina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U o A;
(3-i2) cuando los tres aminoácidos Ai, A4 y Lm son treonina, treonina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a A;
(3-i3) cuando los tres aminoácidos Ai, A4 y Lm son isoleucina, metionina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U o C;
(3-i4) cuando los tres aminoácidos Ai, A4 y Lm son fenilalanina, prolina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U;
(3-i5) cuando los tres aminoácidos Ai, A4 y Lm son tirosina, prolina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U; y
(3-i6) cuando los tres aminoácidos Ai, A4 y Lm son leucina, treonina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a G.
[3] El método según el punto [i], en el que la combinación de los dos aminoácidos A4 y Lm es una combinación correspondiente a la secuencia de bases o base de ARN diana, y la combinación de los aminoácidos se determina según una cualquiera de las siguientes proposiciones:
(2-i) cuando A4 y Lm son asparagina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a U; (2-2) cuando A4 y Lm son asparagina y asparagina, respectivamente, el motivo puede unirse selectivamente a C; (2-3) cuando A4 y Lm son treonina y asparagina, respectivamente, el motivo puede unirse selectivamente a A;
(2-4) cuando A4 y Lm son treonina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a G; (2-5) cuando A4 y Lm son serina y asparagina, respectivamente, el motivo puede unirse selectivamente a A;
(2-6) cuando A4 y Lm son glicina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a G; (2-7) cuando A4 y Lm son asparagina y serina, respectivamente, el motivo puede unirse selectivamente a C;
(2-8) cuando A4 y Lm son prolina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a U; (2-9) cuando A4 y Lm son glicina y asparagina, respectivamente, el motivo puede unirse selectivamente a A;
(2-i0) cuando A4 y Lm son metionina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a U; ( 2 - i i ) cuando A4 y Lm son leucina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a C; y (2-i2) cuando A4 y Lm son valina y treonina, respectivamente, el motivo puede unirse selectivamente a U.
[4] Un método para preparar una proteína que puede unirse a una molécula de ARN de una manera selectiva de base de ARN o específica de secuencia de bases de ARN, comprendiendo el método:
diseñar una proteína según el método según cualquiera de los puntos [ i] a [3];
preparar un transformante usando una secuencia de ácido nucleico que codifica para la proteína.
[5] El método según el punto [4], que comprende además producir la proteína usando el transformante.
[6] Un método para identificar una base o secuencia de bases diana para una proteína de unión a ARN que comprende uno o más (preferiblemente de 2 a 14) de los motivos de PPR definidos en el punto [1], en el que: la base o secuencia de bases se identifica determinando la presencia o ausencia de una base correspondiente a una combinación de los tres aminoácidos A1, A4 y Ln de los motivos de PPR, o una combinación de los dos aminoácidos A4 y Lii de los motivos de PPR basándose en cualquiera de las proposiciones (3-1) a (3-16) mencionadas en el punto [2], o cualquiera de las proposiciones (2-1) a (2-12) mencionadas en el punto [3].
[7] Un método para identificar una proteína de PPR que comprende uno o más (preferiblemente de 2 a 14) de los motivos de PPR definidos en el punto [1], y puede unirse a una base de ARN diana o un ARN diana que tiene una secuencia de bases específica, en el que:
la proteína de PPR se identifica determinando la presencia o ausencia de una combinación de los tres aminoácidos A1, A4 y Lii de los motivos de PPR, o combinación de dos aminoácidos A4 y Lii de los motivos de PPR correspondientes a la base de ARN diana o una base específica que constituye el ARN diana basándose en cualquiera de las proposiciones (3-1) a (3-16) mencionadas en el punto [2], o cualquiera de las proposiciones (2-1) a (2-12) mencionadas en el punto [3].
[8] Un método para controlar una función de ARN que comprende diseñar una proteína mediante el método según el punto [1] y usar la proteína para controlar una función de ARN.
[9] Un método para preparar un complejo que comprende una región que consiste en una proteína y una región funcional, comprendiendo el método:
diseñar una proteína mediante el método según el punto [1]; y
unir la proteína y una región funcional entre sí.
[10] Un método para modificar un material genético celular, comprendiendo el método:
preparar una célula que contiene un ARN que tiene una secuencia diana;
preparar un complejo que comprende una región que consiste en una proteína y una región funcional mediante el método según el punto [9]; e
introducir el complejo en la célula,
de modo que la región de proteína del complejo se une al ARN que tiene la secuencia diana, y por tanto la región funcional modifica la secuencia diana.
[11] Un método para evaluar la fertilidad de un gen de una proteína de PPR, que comprende:
la etapa de detectar polimorfismo de aminoácidos observado entre diversas variedades para un gen de una proteína de PPR que funciona como factor de restauración de la fertilidad para esterilidad masculina citoplasmática;
la etapa de especificar la relación del polimorfismo y la fertilidad para el gen; y
la etapa de especificar una secuencia de bases de un gen de una proteína de PPR obtenida a partir de una muestra de prueba, y determinar la fertilidad de la muestra de prueba, en el que la proteína de PPR es una proteína que comprende uno o más (preferiblemente de 2 a 16) motivos de PPR que consisten cada uno en un polipéptido de 30 a 38 aminoácidos de longitud representado por la fórmula 1:
[F4]
(Hélice A)-X-(Hélice B)-L (Fórmula 1)
(en la que:
la hélice A es un resto de 12 aminoácidos de longitud capaz de formar una estructura de hélice a, y está representado por la fórmula 2:
[F5]
A1-A2-A3-A4-A5-A6-A7-A8-A9-A10-A11-A12 (Fórmula 2)
en el que, en la fórmula 2, de Ai a A12 representan independientemente un aminoácido;
X no existe, o es un resto de 1 a 9 aminoácidos de longitud;
la hélice B es un resto de 11 a 13 aminoácidos de longitud capaz de formar una estructura de hélice a; y
L es un resto de 2 a 7 aminoácidos de longitud representado por la fórmula 3;
[F6]
Lvii-Lvi-Lv-Liv-Liii-Lii-Li (Fórmula 3)
en el que, en la fórmula 3, los aminoácidos se numeran “i” (-1), “ii” (-2), y así sucesivamente desde el lado del extremo C-terminal,
con la condición de que de Lm a Lvii pueden no existir),
el polimorfismo de aminoácidos se especifica como polimorfismo observado en unidades de los motivos de PPR, y el polimorfismo observado en los motivos de PPR se identifica mediante una combinación de los tres aminoácidos A1, A4 y Lii, o una combinación de los dos aminoácidos A4 y Lm de un motivo contenido en la proteína.
[12] El método según el punto [11], en el que la fertilidad se indica por el hecho de que los aminoácidos 4 en todos los motivos de PPR en la proteína de PPR son los mismos que los aminoácidos 4 en todos los motivos de PPR correspondientes de Enko B, o el hecho de que los aminoácidos “ii” en todos los motivos de PPR en la proteína de PPR son los mismos que los aminoácidos “ii” en todos los motivos de PPR correspondientes de Enko B.
[13] El método según uno cualquiera de los puntos [11] o [12], en el que el gen de la proteína de PPR es un gen familiar portado en el mismo locus que el del “gen de ORF687” que codifica para Enko B, un gen que codifica para una proteína que muestra una identidad de aminoácidos del 90% o superior con respecto a Enko B, o un gen que muestra una identidad de secuencia de nucleótidos del 90% o superior con respecto al “gen de ORF687” que codifica para Enko B.
[14] El método según uno cualquiera de los puntos [11] a [13], en el que las proteínas codificadas por los genes de tipo orf687 de diversas variedades son cualquiera de las proteínas de SEQ ID NO: 576 a 578 y de 585 a 591.
Efecto de la invención
Según la presente invención, pueden proporcionarse un motivo de PPR capaz de unirse a una base de ARN diana y una proteína que lo contiene. Usando una pluralidad de motivos de PPR, puede proporcionarse una proteína capaz de unirse a un ARN diana que tiene una longitud o secuencia arbitrarias.
Según la presente invención, puede predecirse e identificarse un ARN diana de una proteína de PPR arbitraria y, a la inversa, puede predecirse e identificarse una proteína de PPR capaz de unirse a un ARN arbitrario. La predicción de una secuencia de ARN diana de este tipo potencia la posibilidad de elucidar la identidad genética de la misma y usarla. Por ejemplo, en el caso de considerar la fertilidad como una función de la proteína de PPR según la presente invención, para un gen industrialmente útil de proteína de PPR tal como los capaces de funcionar como factor de restauración para esterilidad masculina citoplasmática, pueden determinarse las funcionalidades de diversos genes homólogos del mismo que proporcionan proteínas que muestran polimorfismo de aminoácidos basándose en la diferencia de las secuencias de ARN diana de los mismos.
Además, puede unirse una región funcional a un motivo de PPR o proteína de PPR proporcionado por la presente invención para preparar un complejo.
La presente invención puede usarse además para un método de administración del complejo anteriormente mencionado a un organismo vivo y dejar que funcione, una preparación de un transformante usando una secuencia de ácido nucleico (ADN o ARN) que codifica para una proteína obtenida mediante la presente invención, así como la modificación, el control y la impartición específicos de una función en diversas situaciones en organismos (células, tejidos e individuos).
Breve descripción de los dibujos
[Figura 1] La figura 1 muestra las secuencias y números de aminoácido conservados del motivo de PPR. La figura 1A muestra los aminoácidos que constituyen el motivo de PPR definido en la presente invención, y los números de aminoácido de los mismos. La figura 1B muestra las posiciones de los tres aminoácidos (1, 4 y “ii” (-2)) que controlan la propiedad de selección de base de unión en la estructura supuesta. La figura 1C muestra las posiciones de los aminoácidos en la estructura supuesta. Usando las secuencias de aminoácidos totales de CRR4 (SEQ ID NO: 6) y CRR21 (SEQ ID NO: 3) de Arabidopsis thaliana como secuencias de consulta para el programa PHYRE (http://www.sbg.bio.ic.ac.uk/phyre/), se analizaron las estructuras supuestas. Como resultado, se predijeron las estructuras con altas puntuaciones usando O-GlucNAc transferasa (lw3b) como molde (4,3e-17 y 4,7e-16, para CRR4 y CRR21). De entre las estructuras, se muestran el 5° motivo de PPR de CRR4 (figura de la izquierda) y el 8° motivo de PPR de CRR21 (figura de la derecha). Las posiciones 1, 4 y “ii” (-2) se muestran como barras de color magenta (gris oscuro en la indicación monocromática).
[Figura 2] La figura 2 muestra las proteínas de PPR de edición de ARN analizadas hasta ahora y los sitios de edición de ARN como dianas de las mismas.
[Figura 3-1] La figura 3-1 muestra las secuencias de motivo de PPR y los números de aminoácido de proteínas de PPR de edición de ARN de Arabidopsis thaliana.
[Figura 3-2] La figura 3-2 muestra la continuación de la figura 3-1.
[Figura 3-3] La figura 3-3 muestra la continuación de la figura 3-2.
[Figura 3-4] La figura 3-4 muestra la continuación de la figura 3-3.
[Figura 4] La figura 4 muestra los aminoácidos en los motivos de PPR implicados en el reconocimiento de ARN. La figura 4A muestra la identificación de aminoácidos que tienen una capacidad de especificación de nucleótido de unión en el motivo de PPR. Los motivos de PPR de la proteína de PPR de edición de ARN se alinean con una secuencia en el sentido 5' de sitio de edición de ARN en diversas posiciones. La alineación se realizó disponiendo las secuencias en una correspondencia de 1 motivo a 1 nucleótido, de una manera lineal contigua. La alineación P1 se obtuvo ajustando el último motivo de PPR de la proteína a la base 1 nucleótido antes de la C editable. Después se movió la secuencia de bases hacia la derecha, 1 base cada vez, para obtener las alineaciones P2 a P6. Los cuadrados representan motivos de PPR, y el rombo representa motivos adicionales (E, E+, DYW) en el lado del extremo C-terminal. Si los aminoácidos en sitios específicos en el motivo (por ejemplo, aminoácidos de los motivos indicados en verde (gris oscuro en la indicación monocromática)) son responsables del reconocimiento de bases de ARN, puede esperarse una baja aleatoriedad para los nucleótidos correspondientes en una alineación específica (figura inferior a la derecha). De lo contrario, se espera una alta aleatoriedad (figura superior a la derecha). La figura 4B muestra las capacidades de especificación de base de ARN de unión de los aminoácidos 1, 4 y “ii” (-2). Se muestra una baja aleatoriedad entre el aminoácido y la base en cada alineación en cuanto a un valor de P. La figura 4C muestra capacidades de especificación de base de ARN de unión de los aminoácidos 1, 4 y “ii” (-2) para diversas clasificaciones de ácidos nucleicos. Se indican de una manera similar a la de la figura 4B. Los ácidos nucleicos se clasifican según el tipo de nucleobase, purina o pirimidina (RY, A y G o U y C), y la presencia o ausencia de grupos de formación de enlaces de hidrógeno (WS, A y U o G y C). La figura 4D muestra los resultados de análisis detallados adicionales de las capacidades de especificación de base de unión de los aminoácidos de reconocimiento de ARN en los motivos de PPR mostrados en la figura 4C mencionada anteriormente. Se demostró que, además de que el aminoácido 4 determina principalmente el tipo de la base de unión, purina o pirimidina (RY), el aminoácido “ii” (-2) funciona para determinar la forma del nucleótido, forma amino (A y C) o forma ceto (G y U) (MK) (figura 4D). La figura 4E muestra ejemplos de códigos de reconocimiento de ARN (códigos de PPR) de varios motivos de PPR. Las letras blancas indican los tipos de aminoácidos 1, 4 y “ii” (-2). Las frecuencias de aparición de los códigos se indican en la fila de “N.°”, y las frecuencias de aparición de los ácidos nucleicos correspondientes se indican en las filas de “Frecuencia de nucleótido”.
[Figura 5] La figura 5 muestra la identificación (ejemplos) de los aminoácidos en los motivos de PPR implicados en el reconocimiento de ARN. Se buscaron los aminoácidos implicados en el reconocimiento de ARN usando conjuntos de datos de bases de ARN correspondientes a los motivos de PPR en cada alineación. Por ejemplo, usando datos de bases de ARN correspondientes a los motivos de PPR en la alineación P4, se analizaron las capacidades de especificación de base de ARN de unión de los aminoácidos 4 y 5. Para cada alineación, en primer lugar se clasificaron los datos según los tipos de los aminoácidos, y se calcularon los números de las bases de ARN contenidas (tabla superior izquierda). Después, se prepararon valores teóricos de los números basándose en las medianas de las frecuencias de aparición de todas las bases de ARN contenidas en los conjuntos de datos (tabla superior derecha). Mediante la prueba de la chi cuadrado usando estas dos clases de datos, se calcularon los valores de P. Las tablas superiores muestran los resultados de análisis para el aminoácido 4 en la alineación P4, para el que se obtuvieron valores de P significativos, y las tablas inferiores muestran los resultados de análisis para el aminoácido 5 en la alineación P4, para el que no se obtuvieron valores de P significativos.
[Figura 6] La figura 6 muestra los resultados de búsqueda de los aminoácidos responsables de la capacidad de especificación de base de ARN. La figura 6A muestra valores de P para baja aleatoriedad entre el tipo de aminoácido y la frecuencia de aparición de base calculada para los aminoácidos de todas las posiciones en las alineaciones P1 a P6. Los aminoácidos que mostraron valores de P significativos (P < 0,01) se indican de color magenta (gris oscuro en la indicación monocromática). Las líneas (líneas horizontales en los gráficos) de color cian (gris oscuro en la indicación monocromática) indican un valor de P de 0,01. La figura 6B muestra el resumen de la baja aleatoriedad para cada alineación. Un producto de los valores de P de los aminoácidos de las posiciones mostradas en la figura 6A para cada alineación se muestra como valor total de la baja aleatoriedad para esa alineación.
[Figura 7] La figura 7 muestra las capacidades de especificación de base de ARN de unión ejercidas por dos aminoácidos. Las capacidades de especificación de base de ARN de unión ejercidas por diferentes combinaciones de dos aminoácidos (aminoácidos 1 y 4, 1 y “ii”, y 4 y “ii”) se analizaron basándose en la baja aleatoriedad de aminoácidos y bases correspondientes, y los resultados se muestran de la misma manera que la usada en la figura 4.
[Figura 8] La figura 8 muestra los códigos de reconocimiento de ARN de los motivos de PPR extraídos a partir de Arabidopsis thaliana.
[Figura 9] La figura 9 muestra las secuencias de proteínas de PPR de edición de ARN de Physcomitrella patens subesp. patens y los sitios de edición de ARN en los que actúan las proteínas. Junto con las estructuras de motivo de las proteínas, se muestran las secuencias de los aminoácidos 1, 4 y “ii” (-2) en cada motivo de PPR. Las letras de colores magenta y cian (ambas están en gris oscuro en la indicación monocromática) muestran las combinaciones de aminoácidos homólogos a los códigos de triPPR o diPPR extraídos a partir de Arabidopsis thaliana. También se muestran los motivos adicionales (E, E+, DYW) en el lado del extremo C-terminal. Las secuencias de los sitios de edición de ARN en las que actúan las proteínas (secuencias en el sentido de 5' que contienen C editable) se muestran en cuanto a las posiciones en la alineación P4 mostrada en la figura 4.
[Figura 10] La figura 10 muestra un diagrama de flujo de un método para calcular la puntuación de coincidencia entre una proteína de PPR y una secuencia de ARN de sitio de edición de ARN. A partir de la base de datos Uniprot o PROSITE, se obtienen modelos de proteínas de PPR, y los números de aminoácido se facilitan según la figura 1. Se extraen los aminoácidos 1, 4 y “ii”. Como ejemplo, se muestra la proteína de PPR de musgo, PpPPR71. Después, se convierten las combinaciones de aminoácidos coincidentes en una matriz de código de triPPR. Los motivos que no pueden convertirse en los códigos de triPPR se convierten entonces en una matriz de código de diPPR. En paralelo, los 30 nt de sitio de edición de ARN (el último nucleótido es la C editable) se convierten en una matriz de expresión. Como ejemplo, se muestra la secuencia de ccmFCeU122SF, en la que actúa la proteína PpPPR71. Después, se obtienen productos de números de cuadrículas correspondientes de la matriz de código de proteína y la matriz de expresión de ARN, y se calculan puntuaciones de coincidencia a partir de la suma de los mismos. La última línea de la matriz de código de proteína debe hacerse coincidir con la línea correspondiente a la base 4 nucleótidos antes de la C editable. Este cálculo se realiza para matrices de código de proteína preparadas a partir de los códigos de triPPR y los códigos de diPPR. Se calcula un valor de P provisional para cada secuencia de ARN con cada uno de los códigos de triPPR y los códigos de diPPR usando una curva de distribución normal preparada a partir de puntuaciones de coincidencia para una pluralidad de secuencias de ARN. La puntuación de coincidencia final (valor de P) se calcula como producto de los valores de P provisionales de los códigos de triPPR y de diPPR.
[Figura 11] La figura 11 muestra la predicción de las secuencias de ARN diana de las proteínas de PPR usando los códigos de PPR. La figura 11A muestra las puntuaciones de coincidencia para los sitios de edición de ARN de los códigos de triPPR o de diPPR obtenidos mediante la conversión de los aminoácidos 1, 4 y “ii” (-2) extraídos a partir de las proteínas de PPR de musgo tal como se muestra en la figura 10, valores que se muestran en cuanto a valores de P. Como sitios de edición de ARN, se usaron 13 sitios de edición de ARN del musgo, y como secuencias de referencia, se usaron 34 sitios de edición de ARN de cloroplasto de Arabidopsis thaliana. En el dibujo, sólo se muestran las puntuaciones de coincidencia para los 13 sitios de edición de ARN del musgo. Los rombos indican puntuaciones de coincidencia de las proteínas para los sitios de edición respectivos. Los sitios de edición correctos se muestran en color magenta (gris sólido en la indicación monocromática). La figura 11B muestra los valores de P mostrados en la figura 11A en forma de tabla.
[Figura 12] La figura 12 muestra la verificación de precisión para la predicción de sitios de edición de ARN usando proteínas de edición de ARN de Arabidopsis thaliana. La precisión de predicción se verificó usando las proteínas de PPR de Arabidopsis thaliana usadas para la extracción de código. La figura 12A muestra la predicción de sitios de edición de ARN de 13 proteínas de PPR conocidas con respecto a los 34 sitios de edición de ARN de cloroplasto totales. Los rombos indican las puntuaciones de coincidencia entre las proteínas y las secuencias de sitio de edición de ARN. Los sitios de edición de ARN correcto se muestran en color magenta (gris sólido en la indicación monocromática). La figura 12B muestra la predicción de sitios de edición de ARN de 11 proteínas de PPR conocidas con respecto a los 488 sitios de edición de ARN de mitocondria totales.
[Figura 13] La figura 13 muestra la predicción de los sitios de edición de ARN diana de la proteína de PPR de Arabidopsis thaliana, AHG11, y la verificación experimental de la misma. La figura 13A muestra la estructura de motivo de AHG11. Tiene una estructura típica de proteína de PPR de edición de ARN que comprende 12 motivos de PPR y los motivos adicionales (E, E+, DYW) en el lado del extremo C-terminal. En mutantes de Ahg11, puede encontrarse un nuevo codón de terminación de la traducción en la región codificante generado mediante la mutación puntual en la posición indicada con el asterisco (295 Trp). La figura 13B muestra la predicción de los sitios de edición de ARN diana usando todos los sitios de edición de ARN contenidos en los cloroplastos y las mitocondrias de Arabidopsis thaliana. Se muestran los diez sitios de edición principales que mostraron los valores de P más altos. Se verificó experimentalmente la presencia o ausencia de la edición de ARN en cepa de tipo natural y cepa mutante, y los resultados se muestran en la columna de estado de edición. Los sitios para los que se detectó edición de ARN tanto en la cepa de tipo natural como en la cepa mutante se indican como E, y el sitio para el que no pudo observarse edición de ARN únicamente en la cepa mutante se indica como Un. La figura 13C muestra los resultados de la predicción en forma de gráfico. La figura 13D muestra la verificación experimental de los sitios de edición de ARN diana de AHG11. Se muestran los resultados del análisis de secuencia de la región que contiene el nad4 de mitocondria. Se extrajeron ARN a partir de la cepa de tipo natural y la cepa mutante ahg11, se prepararon ADNc mediante transcripción inversa y se llevó a cabo el análisis de secuencia de nucleótidos de los mismos. Hay dos sitios de edición de ARN (nsd4_362 y _376) en esta región. Los sitios editados se indican con flechas negras y el sitio no editado se indica con una flecha blanca.
[Figura 14] La figura 14 muestra la predicción de los sitios diana en la secuencia de genoma de cloroplasto. Se predijeron los sitios diana en la secuencia de genoma total de cloroplasto de Arabidopsis thaliana (154.478 pb) usando seis proteínas de PPR. Para la predicción, se usaron los códigos extraídos a partir de Arabidopsis thaliana (códigos de At) o los códigos extraídos a partir de Arabidopsis thaliana y el musgo (códigos de At+Pp).
[Figura 15] La figura 15 muestra los códigos de reconocimiento de ARN de los motivos de PPR extraídos a partir de Arabidopsis thaliana y Physcomitrella patens subesp. patens.
[Figura 16-1] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 16-2] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 16-3] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 16-4] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 16-5] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 16-6] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 16-7] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 16-8] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 16-9] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 16-10] La figura 16 muestra secuencias de aminoácidos o secuencias de nucleótidos relevantes para la presente invención.
[Figura 17] La figura 17 muestra el análisis de la unión de la proteína de Enko B y ARN que contiene el gen de esterilidad masculina citoplasmática (CMS).
[Figura 18] La figura 18 muestra la unión de las proteínas de tipo ORF687 y ARN.
[Figura 19] La figura 19 muestra la predicción de la secuencia de unión del factor de restauración de la fertilidad que actúa sobre el citoplasma de tipo Ogura.
[Figura 20] La figura 20 muestra la estructura secundaria y el cambio estructural de la región de ARN de unión candidata de proteína de tipo ORF687.
[Figura 21-1] La figura 21 muestra la alineación de proteínas de tipo ORF687.
[Figura 21-2] La figura 21 muestra la alineación de proteínas de tipo ORF687.
[Figura 22] La figura 22 muestra una lista de los aminoácidos de especificación de base de proteínas de tipo ORF687 contenidas en diversas variedades de rábano.
Descripción de realizaciones
[Motivo de PPR y proteína de PPR]
El término “motivo de PPR” usado en la presente invención se refiere a un polipéptido que consiste en de 30 a 38 aminoácidos y que tiene una secuencia de aminoácidos que muestra un valor de E determinado mediante análisis de secuencia de aminoácidos usando un programa de búsqueda de dominio de proteína en la Web, es decir, un valor de E obtenido usando Pfam, PF01535 o Prosite, PS51375, no mayor que un valor predeterminado (de manera deseable E-03), a menos que se indique especialmente. Los números de posición de aminoácidos que constituyen el motivo de PPR definido en la presente invención son sustancialmente sinónimos de los que pueden obtenerse con PF01535, pero corresponden a los obtenidos restando 2 de los números de las posiciones de aminoácido obtenidas con PS51375 (por ejemplo, la posición 1 a la que se hace referencia en la presente invención es la posición 3 obtenida con PS51375). Además, el aminoácido “ii” (-2) es el segundo aminoácido desde el extremo (lado del extremo C-terminal) de los aminoácidos que constituyen el motivo de PPR, o el segundo aminoácido hacia el lado del extremo N-terminal desde el primer aminoácido del siguiente motivo de PPR, es decir, -2° aminoácido (figura 1). Cuando el siguiente motivo de PPR no se identifica de manera definitiva, el aminoácido que está 2 aminoácidos antes que el primer aminoácido de la siguiente estructura de hélice es el aminoácido “ii”. Para Pfam, puede consultarse http://pfam.sanger.ac.uk/, y para Prosite, puede consultarse http://www.expasy.org/prosite/. Aunque la capacidad de conservación de la secuencia de aminoácidos conservada del motivo de PPR es baja a nivel de aminoácido, dos de las hélices a como estructura secundaria están bien conservadas. Aunque un motivo de PPR típico está constituido por 35 aminoácidos, la longitud del mismo es tan variable como de 30 a 38 aminoácidos. Más específicamente, el motivo de PPR al que se hace referencia en la presente invención consiste en un polipéptido de a 30 a 38 aminoácidos de longitud representado por la fórmula 1.
[F 4]
(Hélice A)-X-(Hélice B)-L (Fórmula 1)
En la fórmula:
la hélice A es un resto de 12 aminoácidos de longitud capaz de formar una estructura de hélice a, y está representado por la fórmula 2;
[F5]
A1-A2-A3-A4-A5-A6-A7-A8-A9-A10-A11-A12 (Fórmula 2)
en el que, en la fórmula 2, de A1 a A12 representan independientemente un aminoácido;
X no existe, o es un resto de 1 a 9 aminoácidos de longitud;
la hélice B es un resto de 11 a 13 aminoácidos de longitud capaz de formar una estructura de hélice a; y
L es un resto de 2 a 7 aminoácidos de longitud representado por la fórmula 3;
[F6]
Lvii-Lvi-Lv-Liv-Liii-Lii-Li (Fórmula 3)
en el que, en la fórmula 3, los aminoácidos se numeran “i” (-1), “ii” (-2), y así sucesivamente desde el lado del extremo C-terminal,
con la condición de que de Un a Lvii pueden no existir.
El término “proteína de PPR” usado en la presente invención se refiere a una proteína de PPR que comprende uno o más, preferiblemente dos o más, de los motivos de PPR mencionados anteriormente, a menos que se indique especialmente. El término “proteína” usado en esta memoria descriptiva se refiere a cualquier sustancia que consiste en un polipéptido (cadena que consiste en una pluralidad de aminoácidos unidos mediante enlaces peptídicos), a menos que se indique especialmente, e incluye las que consisten en un polipéptido de un peso molecular comparativamente bajo. El término “aminoácido” usado en la presente invención se refiere a una molécula de aminoácido habitual, y también se refiere a un residuo de aminoácido que constituye una cadena peptídica. A cuál de ellos se refiere quedará claro para los expertos en la técnica a partir del contexto.
Existen muchas clases de proteínas de PPR en plantas, y en el caso de Arabidopsis thaliana, pueden encontrarse aproximadamente 500 clases de proteínas y aproximadamente 5000 clases de los motivos. También en muchas plantas terrestres, tales como planta de arroz, álamo y Selaginella, existen motivos de PPR y proteínas de PPR de diversas secuencias de aminoácidos. Se sabe que algunas proteínas de PPR son factores importantes para obtener semillas de F1 para vigor híbrido como factor de restauración de la fertilidad que funciona para la formación de polen (gameto masculino). Como acción análoga a la restauración de la fertilidad, se ha aclarado que algunas proteínas de PPR funcionan para la especiación. También se ha aclarado que la mayoría de las proteínas de PPR actúan sobre ARN en mitocondrias o cloroplastos.
Para animales, se sabe que una anomalía de la proteína de PPR identificada como LRPPRC provoca síndrome de Leigh de tipo franco-canadiense (LSFC, síndrome de Leigh, encefalomielopatía necrotizante subaguda).
El término “selectivamente” usado en la presente invención referente a la propiedad de unión del motivo de PPR con base de ARN significa que la actividad de unión para una base de entre las bases de ARN es mayor que las actividades de unión para las otras bases, a menos que se indique lo contrario. Con respecto a esta selectividad, los expertos en la técnica pueden planificar y llevar a cabo un experimento para confirmarla, y también puede obtenerse mediante cálculo tal como se divulga en los ejemplos descritos en esta memoria descriptiva.
El término base de ARN usado en la presente invención se refiere a una base de un ribonucleótido que constituye ARN, específicamente, uno cualquiera de adenina (A), guanina (G), citosina (C) y uracilo (U). La proteína de PPR puede tener selectividad por una base en ARN, pero no se une a un monómero de ácido nucleico.
Aunque el método de búsqueda de secuencia para los aminoácidos conservados como motivo de PPR se había establecido antes de lograrse la presente invención, la correspondencia entre el aminoácido y la unión selectiva con base de ARN no se había descubierto en absoluto.
La presente invención proporciona los siguientes hallazgos.
(I) Información referente a posiciones de aminoácidos importante para la unión selectiva: específicamente, la combinación de los tres aminoácidos, aminoácidos 1, 4 y “ii” (-1) (A1, A4, Ln), o la combinación de los dos aminoácidos, aminoácidos 4 y “ii” (-1) (A4, Ln), es importante para la unión selectiva con una base de ARN, y a qué base de ARN se une el motivo se determina mediante una combinación de este tipo.
La presente invención se basa en los hallazgos referentes a la combinación de los tres aminoácidos A1, A4 y Ln, y/o la combinación de los dos aminoácidos A4 y Ln encontrados por los inventores de la presente invención.
(II) Información referente a la correspondencia de la combinación de los tres aminoácidos de A1, A4 y Ln y base de ARN: específicamente, se menciona lo siguiente.
(3-1) Cuando la combinación de los tres aminoácidos de A1, A4 y Ln es una combinación de valina, asparagina y ácido aspártico como A1, A4 y L¡¡, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a U, que se une de manera menos fuerte a C, y que se une de manera todavía menos fuerte a A o G.
(3-2) Cuando la combinación de los tres aminoácidos de A1, A4 y L¡í es una combinación de valina, treonina y asparagina como A1, A4 y Ln, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a A, que se une de manera menos fuerte a G, y que se une de manera todavía menos fuerte a C, pero no se une a U.
(3-3) Cuando la combinación de los tres aminoácidos de A1, A4 y L¡í es una combinación de valina, asparagina y asparagina como A1, A4 y Ln, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a C, y que se une de manera menos fuerte a A o U, pero no se une a G.
(3-4) Cuando la combinación de los tres aminoácidos de A1, A4 y L¡í es una combinación de ácido glutámico, glicina y ácido aspártico como A1, A4 y L¡¡, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a G, pero no se une a A, U ni C.
(3-5) Cuando la combinación de los tres aminoácidos de A1, A4 y L¡¡ es una combinación de isoleucina, asparagina y asparagina como A1, A4 y L¡¡, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a C, que se une de manera menos fuerte a U, y que se une de manera todavía menos fuerte a A, pero no se une a G.
(3-6) Cuando la combinación de los tres aminoácidos de A1, A4 y L¡¡ es una combinación de valina, treonina y ácido aspártico como A1, A4 y L¡¡, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a G, y que se une de manera menos fuerte a U, pero no se une a A ni C.
(3-7) Cuando la combinación de los tres aminoácidos de Ai, A4 y Ln es una combinación de lisina, treonina y ácido aspártico como Ai, A4 y Lm, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a G, y que se une de manera menos fuerte a A, pero no se une a U ni C.
(3-8) Cuando la combinación de los tres aminoácidos de Ai, A4 y Lm es una combinación de fenilalanina, serina y asparagina como Ai, A4 y Ln, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a A, que se une de manera menos fuerte a C, y que se une de manera todavía menos fuerte a G y U.
(3-9) Cuando la combinación de los tres aminoácidos de Ai, A4 y Lm es una combinación de valina, asparagina y serina como Ai, A4 y Ln, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a C, y que se une de manera menos fuerte a U, pero no se une a A ni G.
(3-i0) Cuando la combinación de los tres aminoácidos de Ai, A4 y Ln es una combinación de fenilalanina, treonina y asparagina como Ai, A4 y Ln, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a A, pero no se une a G, U ni C.
(3 - ii) Cuando la combinación de los tres aminoácidos de Ai, A4 y Ln es una combinación de isoleucina, asparagina y ácido aspártico como Ai, A4 y L¡¡, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a U, y que se une de manera menos fuerte a A, pero no se une a G ni C.
(3-i2) Cuando la combinación de los tres aminoácidos de Ai, A4 y L¡í es una combinación de treonina, treonina y asparagina como Ai, A4 y Ln, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a A, pero no se une a G, U ni C.
(3-i3) Cuando la combinación de los tres aminoácidos de Ai, A4 y Ln es una combinación de isoleucina, metionina y ácido aspártico como Ai, A4 y Ln, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a U, y que se une de manera menos fuerte a C, pero no se une a A ni G.
(3-i4) Cuando la combinación de los tres aminoácidos de Ai, A4 y L¡í es una combinación de fenilalanina, prolina y ácido aspártico como Ai, A4 y Ln, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a U, y que se une de manera menos fuerte a C, pero no se une a A ni G.
(3-i5) Cuando la combinación de los tres aminoácidos de Ai, A4 y Ln es una combinación de tirosina, prolina y ácido aspártico como Ai, A4 y L¡í, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a U, pero no se une a A, G ni C.
(3-i6) Cuando la combinación de los tres aminoácidos de Ai, A4 y L¡¡ es una combinación de leucina, treonina y ácido aspártico como Ai, A4 y L¡¡, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a G, pero no se une a A, U ni C.
(II) Información referente a la correspondencia de combinación de los dos aminoácidos de A4 y L¡¡ y base de ARN: específicamente, se menciona lo siguiente.
(2-i) Cuando A4 y L¡¡ son asparagina y ácido aspártico, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a U, que se une de manera menos fuerte a C, y que se une de manera todavía menos fuerte a A y G.
(2-2) Cuando A4 y L¡¡ son asparagina y asparagina, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a C, que se une de manera menos fuerte a U, y que se une de manera todavía menos fuerte a A y G.
(2-3) Cuando A4 y L¡¡ son treonina y asparagina, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a A, y se une débilmente a G, U y C.
(2-4) Cuando A4 y L¡¡ son treonina y ácido aspártico, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a G, y se une débilmente a A, U y C.
(2-5) Cuando A4 y L¡¡ son serina y asparagina, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a A, y que se une de manera menos fuerte a G, U y C.
(2-6) Cuando A4 y L¡¡ son glicina y ácido aspártico, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a G, que se une de manera menos fuerte a U, y que se une de manera todavía menos fuerte a A, pero no se une a C.
(2-7) Cuando A4 y L¡¡ son asparagina y serina, respectivamente, el motivo de PPR tiene una capacidad de unión a
i3
base de ARN selectiva que se une fuertemente a C, que se une de manera menos fuerte a U, y que se une de manera todavía menos fuerte a A y G.
(2-8) Cuando A4 y Ln son prolina y ácido aspártico, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a U, y que se une de manera menos fuerte a G y C, pero no se une a A.
(2-9) Cuando A4 y Ln son glicina y asparagina, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a A, y que se une de manera menos fuerte a G, pero no se une a C ni U.
(2-10) Cuando A4 y Ln son metionina y ácido aspártico, respectivamente, el motivo de PPR tiene una capacidad de unión a base de a Rn selectiva que se une fuertemente a U, y se une débilmente a A, G y C.
(2-11) Cuando A4 y Ln son leucina y ácido aspártico, respectivamente, el motivo de PPR tiene una capacidad de unión a base de a Rn selectiva que se une fuertemente a C, y que se une de manera menos fuerte a U, pero no se une a A ni G.
(2-12) Cuando A4 y Ln son valina y treonina, respectivamente, el motivo de PPR tiene una capacidad de unión a base de ARN selectiva que se une fuertemente a U, y que se une de manera menos fuerte a A, pero no se une a G ni C. En los ejemplos descritos en esta memoria descriptiva, la unión de proteínas parcialmente analizadas de manera genética o por biología molecular y posibles secuencias diana de ARN de las mismas se analiza adicionalmente mediante técnicas científicas computacionales para obtener los hallazgos anteriormente mencionados. Más precisamente, la unión o unión selectiva de las proteínas y el ARN se analiza basándose en el valor de P (probabilidad) como índice. Según la presente invención, cuando el valor de P es de 0,05 o menor (contingencia del 5% o menos), lo cual significa un nivel generalmente significativo, preferiblemente cuando el valor de P es de 0,01 o menor (contingencia del 1% o menos), más preferiblemente cuando se calcula un valor de P más significativo en comparación con los niveles anteriores, se evalúa que la probabilidad de unión de la proteína y el ARN es lo suficientemente alta. Los expertos en la técnica pueden entender totalmente tal evaluación basándose en el valor de P.
La propiedad de unión de una combinación específica de aminoácidos en posiciones específicas para una base de ARN puede confirmarse de manera experimental. Los experimentos para un propósito de este tipo incluyen la preparación de un motivo de PPR o una proteína que contiene una pluralidad de motivos de PPR, la preparación de un ARN de sustrato y la prueba para determinar la propiedad de unión (por ejemplo, ensayo de desplazamiento en gel). Estos experimentos los conocen bien los expertos en la técnica y, para procedimientos y condiciones específicos para los mismos, puede hacerse referencia al documento de patente 2, por ejemplo.
[Uso de motivo de PPR y proteína de PPR]
Identificación y diseño:
Un motivo de PPR puede reconocer una base de ARN específica. Además, según la presente invención, eligiendo aminoácidos de posiciones específicas, pueden seleccionarse o diseñarse motivos de PPR que reconocen selectivamente cada uno de A, U, G y C, y una proteína que contiene una serie apropiada de tales motivos de PPR puede reconocer una secuencia específica correspondiente. Por tanto, según la presente invención, puede predecirse e identificarse una proteína de PPR natural que se une selectivamente a ARN que tiene una secuencia de bases específica y, a la inversa, puede predecirse e identificarse ARN que sirve como diana de unión de una proteína de PPR. La predicción e identificación de una diana de este tipo es útil para dilucidar la identidad genética de la misma, y expande la disponibilidad de la diana.
Además, según la presente invención, puede diseñarse un motivo de PPR que puede unirse selectivamente a una base de ARN deseada, y una proteína que comprende una pluralidad de motivos de PPR que puede unirse de manera específica de secuencia a un ARN deseado. Para diseñar restos distintos de los aminoácidos de las posiciones importantes en el motivo de PPR, puede hacerse referencia a información de secuencia de motivos de PPR naturales. Además, también puede diseñarse una proteína o motivo de PPR de este tipo tal como se mencionó anteriormente sustituyendo únicamente los aminoácidos de las posiciones de interés en la secuencia completa de una proteína o motivo de PPR natural. Aunque el número de veces de repetición del motivo de PPR puede elegirse de manera apropiada dependiendo de la secuencia diana, puede ser, por ejemplo, de 2 o más, o de 2 a 20.
En el momento del diseño, pueden tenerse en cuenta tipos de aminoácidos distintos de los de la combinación de aminoácidos 1, 4 y “ii” o aminoácidos 4, y “ii”. Por ejemplo, los tipos de los aminoácidos 8° y 12° descritos en el documento de patente 2 mencionado anteriormente pueden ser importantes para la expresión de la actividad de unión a ARN. Según el estudio de los inventores de la presente invención, As de un determinado motivo de PPR y A12 del mismo motivo de PPR pueden actuar conjuntamente para la unión a ARN. As puede ser un aminoácido básico, preferiblemente lisina, o un aminoácido ácido, preferiblemente ácido aspártico, y A12 puede ser un aminoácido básico, un aminoácido neutro o un aminoácido hidrófobo.
El motivo o la proteína diseñado puede prepararse mediante los métodos bien conocidos por los expertos en la técnica. Es decir, la presente invención proporciona un motivo de PPR que se une selectivamente a una base de ARN específica, y una proteína de PPR que se une específicamente a ARN que tiene una secuencia específica, que se diseñan prestando atención a la combinación de aminoácidos 1,4 y “ii” o la combinación de aminoácidos 4 y “ii”. En particular, se encontró que, para la acción sobre la fertilidad como función de la proteína de PPR, el aminoácido 4 (A4) y el aminoácido “ii” son eficaces para ambos casos de la combinación de tres aminoácidos y la combinación de dos aminoácidos mencionadas anteriormente. Un motivo y una proteína de este tipo pueden prepararse mediante los métodos bien conocidos por los expertos en la técnica, incluso en una cantidad relativamente grande, y tales métodos pueden comprender determinar una secuencia de ácido nucleico que codifica para una secuencia de aminoácidos de un motivo o una proteína objetivo a partir de esa secuencia de aminoácidos, clonarla y preparar un transformante que produce el motivo o la proteína objetivo.
Preparación de complejo y uso del mismo:
El motivo de PPR o la proteína de PPR proporcionado por la presente invención puede prepararse en un complejo mediante unión de una región funcional. La región funcional significa un resto que tiene una función biológica específica tal como función enzimática, función catalítica, función de inhibición y función de promoción ejercidas en células u organismos vivos, o un resto que tiene una función como marcador. Una región de este tipo consiste, por ejemplo, en una proteína, un péptido, un ácido nucleico, una sustancia fisiológicamente activa o un fármaco. Los ejemplos de proteína como región funcional incluyen ribonucleasa (ARNasa). Los ejemplos de ARNasa incluyen ARNasa A (por ejemplo, ribonucleasa pancreática bovina A, PDB 2AAS) y ARNasa H. Un complejo de este tipo no existe en la naturaleza, y es una sustancia nueva.
Además, el complejo proporcionado por la presente invención puede ser capaz de suministrar la región funcional a una célula u organismo vivo de una manera específica de secuencia de ARN, y permitir que funcione. Por tanto, puede ser capaz de modificar o alterar el ARN, o conferir una nueva función al a Rn , en una célula u organismo vivo de una manera específica de secuencia de ARN, al igual que las proteínas de dedos de cinc (documento no de patente 1 mencionado anteriormente) o efector de TAL (documento no de patente 2 y documento de patente 1 mencionados anteriormente). Además, puede ser capaz de suministrar un fármaco a ARN de una manera específica de secuencia de ARN. Por tanto, la presente invención proporciona un método para suministrar un material funcional de una manera específica de secuencia de ARN.
Se sabe que algunas proteínas de PPR son importantes para obtener semillas de F1 para vigor híbrido como factor de restauración de la fertilidad que funciona para la formación de polen (gameto masculino). Se espera que pueda identificarse un factor de restauración de la fertilidad aún no identificado, y mediante la presente invención puede desarrollarse una técnica para aprovechar altamente un factor de este tipo. Por ejemplo, tal como se dilucida en los ejemplos descritos en esta memoria descriptiva, si se detecta polimorfismo de aminoácidos para un gen para un motivo de PPR específico en una proteína de PPR que funciona como factor de restauración de la fertilidad para esterilidad masculina citoplasmática, y se establece relación del polimorfismo y la fertilidad para el gen, puede evaluarse si el gen de la proteína de PPR en una muestra de prueba tiene un genotipo relacionado con la fertilidad o un genotipo relacionado con la esterilidad. Los ejemplos del gen de la proteína de PPR en el que se detecta el polimorfismo en un caso de este tipo tal como se mencionó anteriormente incluyen, por ejemplo, en el caso de rábano, un gen familiar ubicado en el mismo locus que el del “gen de OFR687” que codifica para la proteína OFR687 de Enko (denominada Enko B), un gen que codifica para una proteína que muestra una identidad de aminoácidos del 90% o superior con respecto a Enko B, y un gen que muestra una identidad de secuencia de nucleótidos del 90% o superior con respecto al “gen de ORF687” que codifica para Enko B. El gen familiar ubicado en el mismo locus que el del “gen de OFR687” que codifica para la proteína OFR687 de Enko (denominada Enko B) incluye todos los genes mostrados en las figuras 21 y 22 (Kosena B, Comet B, Enko A, Comet A, Icicle CA, rrORF690-1, rrORF690-2, PC_PPRA, PC_PPR-BL), pero no se limita a los mismos. El gen que codifica para una proteína que muestra una identidad de aminoácidos del 90% o superior con respecto a Enko B, y el gen que muestra una identidad de secuencia de nucleótidos del 90% o superior con respecto al “gen de ORF687” que codifica para Enko B pueden obtenerse buscando en bases de datos de genes, y la especie de origen del mismo no está limitada a las de rábano. El motivo de PPR es un motivo de PPR que consiste en un polipéptido de 30 a 38 aminoácidos de longitud representado por la fórmula 1 mencionada anteriormente, y la proteína de PPR puede comprender uno o más de tales motivos de PPR (preferiblemente de 2 a 16 motivos). Como polimorfismo en el motivo de PPR, puede usarse el polimorfismo de la combinación de aminoácidos 1, 4 y “ii” o la combinación de aminoácidos 4 y “ii”, que se dilucidó que era responsable de la unión de motivo de PPR a ARN mediante la presente invención. Tal como se observa a partir de los valores de P mostrados en la figura 4B o 4D, de entre los aminoácidos de las combinaciones responsables de la unión del motivo de PPR a ARN, el aminoácido 4 desempeña el papel más importante, y el aminoácido “ii” desempeña el segundo papel más importante. Se dilucidó además que, en comparación con la proteína de PPR de Enko B, el hecho de que los aminoácidos 4 de todos los motivos de PPR en una proteína codificada por un gen como objeto de prueba es el mismo que los de Enko B, o el hecho de que los aminoácidos “ii” en todos los motivos de PPR correspondientes es el mismo que los de Enko B, es importante para la función como factor de restauración de la fertilidad. Además, también se dilucidó que, de manera similar a la restauración de la fertilidad, algunas proteínas de PPR actúan sobre la especiación. Se espera que la identificación y modificación de un ARN diana de la proteína de PPR permitan el cruce de especies, cruce que hasta ahora ha sido imposible. Además, dado que la mayoría de las proteínas de PPR actúan sobre ARN en mitocondrias y cloroplastos, las nuevas proteínas de PPR proporcionadas por la presente invención contribuirán a la modificación y mejora de las funciones referentes a la fotosíntesis, respiración y síntesis de metabolitos útiles.
Además, para animales, se sabe que una anomalía de la proteína de PPR identificada como LRPPRC provoca síndrome de Leigh de tipo franco-canadiense (LSFC, síndrome de Leigh, encefalomielopatía necrotizante subaguda). La presente divulgación puede contribuir al tratamiento (tratamiento profiláctico, tratamiento terapéutico, supresión por adelantado) de LSFC.
Además, las proteínas de PPR están implicadas en todas las etapas de procesamiento de ARN observadas en orgánulos, digestión, edición de ARN, traducción, corte y empalme, y estabilidad de ARN. Según la presente invención, puede esperarse que, modificando la selectividad de base de unión de un motivo de PPR, pueda modificarse la expresión de un ARN deseado.
Las proteínas de PPR usadas en la presente invención como materiales funcionan principalmente para la especificación del sitio de edición de la edición de ARN (conversión de información genética en ARN, de C a U en muchos casos) (véanse las referencias 2 y 3 mencionadas más adelante). Las proteínas de PPR de este tipo tienen un motivo adicional que se sugiere que interacciona con una enzima de edición de ARN que existe en el lado del extremo C-terminal. Puede esperarse que, usando una proteína de PPR que tiene una estructura de este tipo, pueda introducirse polimorfismo de nucleótidos y pueda tratarse una enfermedad o un estado inducido por polimorfismo de nucleótidos.
Además, una parte de las proteínas de PPR tienen una enzima de escisión de ARN en el lado del extremo C-terminal. Modificando la selectividad de base de ARN de unión del motivo de PPR en el lado del extremo N-terminal de una proteína de PPR de este tipo, puede constituirse una enzima de escisión de ARN específica de secuencia de ARN. Además, puede usarse un complejo que tiene un resto de marcador tal como GFP unido a una proteína de PPR para visualizar un ARN deseado en un organismo vivo.
Además, las proteínas de PPR existentes incluyen aquellas que actúan sobre ADN. Se ha notificado que una de ellas es el activador de la transcripción de un gen mitocondrial, y otra es un activador de la transcripción ubicado en el núcleo. Por tanto, también puede ser posible diseñar un factor de proteína que se une a una secuencia de ADN deseada basándose en los hallazgos obtenidos mediante la presente invención.
Ejemplos
Ejemplo 1: Recogida de proteínas de PPR implicadas en la edición de ARN y secuencias diana de las mismas Con referencia a la información mostrada en la figura 2, las proteínas de PPR de Arabidopsis thaliana implicadas en la edición de ARN analizadas hasta ahora (SEQ ID NO: 2 a 24) se recogieron a partir de la base de datos de información de genoma de Arabidopsis thaliana (MATDB: http://mips.gsf.de/proj/thal/db/index.html), y se recogieron secuencias alrededor de sitios de edición de ARN que sirven como diana (SEQ ID NO: 48, 50, 53, 55, 57, 59, 60, 61, 62, 63, 64, 65, 68, 69, 70, 71, 73, 74, 76, 78, 80, 122, 206, 228, 232, 252, 284, 316, 338, 339, 358, 430, 433, 455, 552 y 563) a partir de la base de datos de edición de ARN (http://biologia.unical.it/py_script/overview.html). Como secuencias de ARN, se recogieron las de 31 nucleótidos en el sentido de 5' desde el residuo de C (citosina) editable incluyendo esa C. Todas las proteínas recogidas y los sitios de edición de ARN correspondientes a las proteínas se muestran en la figura 2.
A las estructuras de motivo de PPR en las proteínas, se les confieren los números de aminoácido definidos en la presente invención, así como la información de la base de datos Uniprot (http://www.uniprot.org/). Los motivos de PPR contenidos en 24 de las proteínas de PPR de Arabidopsis thalianas (SEQ ID NO: 2 a 25) usadas para los experimentos y los números de aminoácido de los mismos se muestran en la figura 3.
Ejemplo 2: Identificación de aminoácidos que confieren selectividad de base de unión
Las investigaciones han dilucidado hasta ahora que las proteínas de PPR implicadas en la edición de ARN tienen un motivo que tiene una secuencia de aminoácidos conservada específica en el lado del extremo C-terminal (motivos E, E+ y DYW, con la condición de que con frecuencia el motivo DYW no existe). Se ha sugerido que se requieren más de diez aminoácidos en el motivo E+ para la conversión de C (citosina) en U (uracilo), no para la unión selectiva a ARN (referencia 3). Además, también se ha sugerido en el artículo no de patente anterior que la información requerida para el reconocimiento de la C editable está incluida en los 20 nucleótidos en el sentido de 5' y 5 nucleótidos en el sentido de 3' de la misma. Es decir, puede predecirse que una pluralidad de motivos de PPR en la proteína de PPR reconocen “alguna parte” de la secuencia en el sentido de 5' de la C editable, y el motivo E+ está ubicado cerca de la C editable. Además, se considera una posibilidad de que aminoácidos específicos en el motivo de PPR pueden reconocer el residuo de ARN de la secuencia en el sentido de 5' al que se unen (figura 4A).
Esta posibilidad se verificó usando las 24 proteínas de PPR de edición de ARN de Arabidopsis thaliana y secuencias de a Rn diana de las mismas descritas en el ejemplo 1. En primer lugar, se alinearon todos los motivos de PPR de la proteína de PPR con los residuos de ARN correspondientes disponiendo el último motivo de PPR en la proteína en el primer nucleótido a partir de la C editable con una correspondencia de 1 motivo a 1 nucleótido en contigüidad lineal (figura 4A, alineación P1). Después, se movió la secuencia de ARN hacia la derecha, 1 nucleótido cada vez, para obtener las alineaciones P2 a P6. En el conjunto de datos para cada una de estas alineaciones P1 a P6, se recogió la información sobre los residuos de ARN correspondientes a los motivos de PPR.
Para una proteína de PPR que funciona para un único sitio de edición, se facilitó una puntuación de 1 para cada aparición del nucleótido de ARN (A, U, G o C). Para proteínas de PPR que funcionan para 2 y 3 sitios de edición, se facilitaron puntuaciones de 0,5 y 0,3 para cada aparición del nucleótido de ARN, respectivamente. Después, se clasificaron los conjuntos de motivos de PPR y nucleótidos según tipos de aminoácidos para cada uno de los números de aminoácido en los motivos de PPR. Generalmente puede predecirse que los aminoácidos y residuos de ARN se emparejan de manera aleatoria para los tipos de los mismos (alta aleatoriedad o alta entropía) (se muestra un ejemplo en el gráfico superior en el lado derecho en la figura 4A). Sin embargo, si un aminoácido de una posición específica tiene capacidad de selección de base de ARN de unión, se predice que la base de ARN correspondiente converge hacia una clase o clases limitadas de los mismos en alineaciones correctas (P1 a P6 mencionadas anteriormente) (baja aleatoriedad o baja entropía, se muestra un ejemplo en el gráfico inferior en el lado derecho en la figura 4A).
Se calculó la baja aleatoriedad anteriormente mencionada para todos los números de aminoácido de los motivos de PPR para los conjuntos de datos de las alineaciones P1 a P6 creadas anteriormente. Se calculó la baja aleatoriedad mediante la prueba de la chi cuadrado basándose en un valor teórico (promedio de frecuencias de aparición de todos los nucleótidos) (se muestran ejemplos en la figura 5).
Como resultado, para los aminoácidos 1, 4 y “ii” (-2) en la alineación P4, se determinó que el valor P de significación es menor de 0,01 (probabilidad inferior al 1%) (figura 4B). Es decir, se reveló que el último motivo de PPR en la proteína de PPR de edición de ARN está dispuesto en la base 4 nucleótidos antes que la C editable, y los tres aminoácidos (1, 4 y “ii”) son responsables de la selección de base de ARN de unión. Además, dado que no se calculó ningún valor de P significativo para las alineaciones P3 y P5, se reveló que no hay ninguna interferencia a partir de los motivos de PPR de ambos lados, es decir, un motivo de PPR reconoce un residuo de ARN, y la unión no depende de la constitución de los motivos. Para los demás aminoácidos en la alineación P4, y todos los aminoácidos de las demás alineaciones, no se obtuvo ningún valor de P significativo (figura 6). Además, se clasificaron las bases de ARN en las de purina (A y G) o pirimidina (C y U) (RY), y se realizó el mismo cálculo. Como resultado, sólo se obtuvo un valor de P extremadamente significativo (P < 0,01) para el aminoácido 4 (figura 4C). Esto indica que el aminoácido 4 determina principalmente cuál de la purina y la pirimidina es la base de ARN a la que unirse. Se analizó en más detalle la capacidad de especificación de base de unión de los aminoácidos de reconocimiento de ARN en el motivo de PPR mostrado en la figura 4C. Como resultado, además de que el aminoácido 4 distingue principalmente el tipo de la base a la que se une, purina o pirimidina (RY), se encontró que el aminoácido “ii” (-2) funciona para distinguir la forma de la base, forma amino (A y C) o forma ceto (G y U) (MK, figura 4D).
Combinaciones de los tres aminoácidos (1, 4 y “ii”) usados 3 o más veces se definieron como códigos de triPPR de entre los códigos de reconocimiento de ARN de los motivos de PPR, y se calculó el valor de P para cada uno de ellos para calcular la capacidad de especificación de base de ARN de unión de los mismos. En la figura 4E se muestra una parte de los códigos de triPPR identificados.
Dado que los aminoácidos de las tres posiciones eran extremadamente diversos, se calculó la capacidad de especificación de base de ARN de unión para dos aminoácidos (1 y 4, 1 y “ii”, o 4 y “ii”). Como resultado, se calculó un valor de P notable para la combinación de aminoácidos 4 y “ii” (figura 7). Por tanto, combinaciones de aminoácidos 4 y “ii” usadas 3 o más veces se definieron como códigos de diPPR de ente los códigos de reconocimiento de ARN de los motivos de PPR. En la figura 8 se muestran los códigos de triPPR y códigos de diPPR identificados en la figura 8.
Ejemplo 3: Verificación de códigos de reconocimiento de ARN identificados
Se verificaron los códigos de reconocimiento de ARN para los motivos de PPR identificados usando las proteínas de PPR de edición de ARN de Arabidopsis thaliana. Para la verificación, se usaron las proteínas de PPR de edición de ARN de Physcomitrella patens subesp. patens. Ya se ha dilucidado que, en Physcomitrella patens subesp. patens (de aquí en adelante denominado musgo), se produce edición de ARN en 13 sitios en total (11 sitios en mitocondrias, 2 sitios en cloroplastos, SEQ ID NO: 32 a 44). Además, también se ha dilucidado que 6 proteínas de PPR (PpPPR_56, 71, 77, 78, 79 y 91) funcionan para la edición de ARN en 9 sitios, respectivamente. Las proteínas y los sitios de edición de ARN correspondientes se muestran en la figura 9.
Se realizó la verificación tal como se muestra en la figura 10. En primer lugar, se obtuvo la información de secuencia de aminoácidos de las proteínas de PPR de musgo a partir de un artículo no de patente (SEQ ID NO: 26 a 31, figuras 2 y 9), y se extrajeron los tres aminoácidos (1, 4 y “ii”) a partir de cada motivo de PPR según el modelo de motivo de PPR definido tal como se muestra en la figura 1. Cuando la combinación de los tres aminoácidos extraídos concordaba con uno cualquiera de los códigos de triPPR identificados a partir de Arabidopsis thaliana, se convirtió en una matriz de puntuación de base de unión representada por ese código. Después, un motivo de PPR que no podía convertirse en ninguno de los códigos de triPPR, pero concordaba con uno cualquiera de los códigos de diPPR, se convirtió en la matriz de puntuación de nucleótido de unión de código de diPPR. En paralelo, se obtuvieron secuencias circundantes de los sitios de edición de ARN (secuencias de 31 meros que tenían la C editable en el extremo 3') a partir de un artículo no de patente (SEQ ID NO: 32 a 44, figuras 2, 9 y 16), y se convirtieron en una matriz de números de este tipo de la secuencia de ARN tal como se muestra en la figura 10. Se multiplicaron entre sí los números de las cuadrículas correspondientes de la matriz de puntuación de base de unión de la proteína y la matriz de números de la secuencia de a Rn , para no contradecir a la alineación P4 anteriormente mencionada (el último motivo de PPR corresponde a la base 4 nucleótidos antes que la C editable), y se calculó la suma de los valores obtenidos como puntuación de coincidencia de la proteína y la secuencia de a Rn . Se realizó este cálculo para los códigos de triPPR, códigos de diPPR y las matrices de puntuación de base de unión de PPR (matrices de puntuación de PPR) de los mismos.
Para una clase de proteína, se realizó este cálculo para todos los sitios de edición de ARN del musgo (13 sitios). Además, también se realizó el mismo cálculo para 34 secuencias de ARN de los sitios de edición de ARN de cloroplasto de Arabidopsis thaliana (figura 16, SEQ ID NO: 45 a 78) como secuencias de referencia de secuencias circundantes de sitios de edición de ARN.
Después, a partir de las puntuaciones de coincidencia de las proteínas para las secuencias de ARN, se creó una curva de distribución normal, y se calcularon valores de P provisionales de las puntuaciones de coincidencia para las secuencias de ARN para los códigos de triPPR y códigos de diPPR, respectivamente.
Se calcularon valores de P finales (puntuaciones de coincidencia de proteína y secuencia de ARN) como productos de los valores de P provisionales para código de triPPR y código de diPPR.
Las puntuaciones de coincidencia de las proteínas de PPR de musgo y 13 sitios de edición de ARN de musgo se muestran en la figura 11. Como resultado del análisis, se especificaron computacionalmente 6 clases de las proteínas para los sitios de edición de ARN correctos de las 7 clases de las proteínas. Es decir, este análisis reveló que toda la información para la especificación de base de ARN de unión realizada por el motivo de PPR está contenida en los tres aminoácidos (1, 4 y “ii”). Dicho de otro modo, se reveló que puede buscarse una proteína de PPR que se une a una secuencia de ARN pretendida haciendo referencia a la información sobre las combinaciones de los dos o tres aminoácidos mostrados en la figura 8 (códigos de triPPR y de diPPR). Al mismo tiempo, también se mostró que puede sintetizarse una proteína artificial que se une a una secuencia de ARN pretendida usando o uniendo un motivo de PPR que tiene tal información de aminoácidos.
Ejemplo 4: Identificación de moléculas diana de proteínas de PPR de edición de ARN no analizadas
Después, se realizó un análisis usando Arabidopsis thaliana, que tiene un número mayor de sitios de edición de ARN en comparación con el musgo (34 sitios en genoma cloroplástico (SEQ ID NO: 45 a 78) y 488 sitios en genoma mitocondrial (SEQ ID NO: 79 a 566), véase la figura 6). Con el fin de verificar la precisión de predicción, se predijeron sitios de edición de ARN de 24 clases de proteínas de PPR usadas para la extracción del código. Como resultado, para las proteínas de PPR ubicadas en el cloroplasto, se predijo al menos un sitio de edición de ARN correcto con el valor de P más alto para 10 clases de proteínas de 13 clases de las proteínas. Para proteínas de PPR ubicadas en mitocondrias, se predijo un sitio de edición de ARN correcto con un valor dentro de los 20 principales para los mismos para 8 clases de proteínas de 11 clases de las proteínas (figura 12). Basándose en los resultados de esta verificación de precisión de predicción, se predijeron sitios de edición de ARN diana de las proteínas de PPR de las que se desconocía la función. Un mutante AHG11 es un mutante que tiene una anomalía en la ruta de ácido abscísico, y las proteínas codificadas por los genes del mismo (ahg11, at2g44880) tienen una estructura de motivo de tipo proteína de PPR de edición de ARN típica (figura 13, SEQ ID NO: 1). Se predijeron sitios de edición de ARN, y se verificaron experimentalmente 405 sitios para mitocondrias y 30 sitios para cloroplastos incluyendo los de valores dentro de los 20 principales de los mismos. Como resultado, se reveló que sólo la edición de ARN de nad4_376 de mitocondrias predicha con el 7° valor de P más alto tenía una anomalía en el mutante (figura 13).
Después, se intentó identificar secuencias de ARN diana en los genomas totales de los orgánulos, es decir, un conjunto de datos de aproximadamente 3 x 105 secuencias de ARN. Para este análisis, se usó la matriz de probabilidad de códigos de PPR mostrada en la figura 8. Además, para los motivos que tienen una combinación de aminoácidos que no concuerda con ninguno de los códigos de diPPR y de triPPR, se aplicó la frecuencia de fondo. Se sometieron las matrices de probabilidad de las proteínas producidas al análisis de FIMO en la serie MEME (http://meme.nbcr.net/meme4_6_1/fimo-intro.html) junto con la secuencia de nucleótidos total de cloroplasto de Arabidopsis thaliana (AP000423).
Como resultado, para CRR4 y CRR21, pudieron predecirse correctamente secuencias de ARN diana de las mismas. Además, se mejoraron los códigos extrayendo los códigos de PPR también a partir de las proteínas de PPR de musgo (figura 15). Como resultado, la precisión de predicción se mejoró notablemente para varias proteínas.
Estos resultados indican que puede identificarse una secuencia diana correcta a partir de secuencias de ARN de varios cientos de miles de patrones usando los códigos de PPR identificados. A la inversa, buscando un motivo de PPR que tiene aminoácidos que coinciden con el código en las posiciones (1, 4 y “ii”), puede identificarse una proteína que se une a la secuencia de ARN útil pretendida. Alternativamente, se mostró que, uniendo un motivo de PPR, puede crearse una proteína de unión a ARN artificial que muestra una alta selectividad de secuencia. Los expertos en la técnica también entenderán que, obteniendo una combinación de aminoácidos en las posiciones afectadas que coincide con cualquiera de los códigos de PPR mediante la introducción de mutación, puede conferirse selectividad de unión a ARN pretendida.
La figura 15 muestra la evaluación de la capacidad de selección de base de ARN de unión de códigos de triPPR y códigos de diPPR basándose en los valores de P. Puede estimarse que los códigos de PPR que mostraron un valor de P significativo (P < 0,05) tienen una alta capacidad de selección de base de ARN de unión.
Ejemplo 5: Predicción de secuencia de ARN diana de Rf de rábano
Después, basándose en los hallazgos obtenidos mediante la presente invención, se determinaron funciones de las proteínas de PPR que funcionan como factor de restauración de la fertilidad para esterilidad masculina citoplasmática (ejemplos 5 a 9).
La esterilidad masculina citoplasmática (CMS) es una característica en la que el gameto masculino llega a no funcionar ya normalmente debido a una mutación en un genoma citoplasmático, especialmente un genoma mitocondrial. Se sabe que esta característica se compensa por un gen de restauración de la fertilidad (restaurador de fertilidad, Rf), que con frecuencia existe en el núcleo, y el gameto masculino se vuelve de ese modo normal. Esta característica se usa para el método de cultivo de primer híbrido filial, y es una de las características importantes desde el punto de vista agrícola. Se sabe que, en un sistema de CMS-Rf de este tipo, el gen de Rf codifica para una proteína de PPR en muchos casos.
La esterilidad del citoplasma de tipo Ogura (sinónimo, tipo Kosena) usado en el método de cultivo de primer híbrido filial para rábano o colza se origina en la expresión del gen de orf125 en un genoma mitocondrial, y se cancela mediante la presencia del gen de orf687 codificado en el núcleo, y el citoplasma adquiere fertilidad. El producto de gen de orf687 es una proteína de PPR, y se considera que actúa sobre ARN que contiene orf125 para inactivar la expresión del mismo, y como resultado se cancela la esterilidad.
Sin embargo, ha resultado claro a partir de los análisis trematológicos anteriores que se observa polimorfismo de aminoácidos para los genes de tipo orf687 de diversos linajes de rábano, y que este polimorfismo de aminoácidos afecta a la función del gen como factor de restauración de la fertilidad. Sin embargo, no se ha establecido ningún método para estimar la funcionalidad de un gen a partir de la secuencia de aminoácidos codificada por el mismo. Por tanto, en primer lugar se especificó un motivo de PPR en la secuencia de aminoácidos de la proteína ORF687 del rábano de variedad Enko (denominado Enko B), que se sabe que funciona como Rf dominante, se extrajeron aminoácidos responsables de la capacidad de especificación de base (1, 4 y ii) a partir del mismo y se convirtieron en un código de PPR, y después se predijo la secuencia de ARN diana del mismo para un producto de transcripción que contiene el orf125 mitocondrial (figura 19).
En paralelo, se usan tres clases de proteínas de tipo ORF687, la proteína ORF687 del rábano de variedad Enko (denominada Enko B), que se sabe que funciona como Rf dominante, una proteína de tipo ORF687 que está contenida de manera similar en Enko y se asemeja correctamente a ORF687, pero actúa como gen regresivo (denominada Enko A), y un gen homólogo al ORF687 de Enko que existe en el genoma de Kosena, que es una variedad de rábano diferente (denominada Kosena B, gen recesivo), como materiales de experimentación, y se analizaron biológicamente las características de los mismos.
(5-1) Preparación del ADN genómico a partir de rábano
Se cultivó rábano en medio Murashige y Skoog (que contienen sacarosa al 2% y goma gellan al 0,5%) durante tres semanas. Se extrajeron las hojas verdes (0,5 g) de la planta cultivada con fenol/cloroformo, y después se añadió etanol para insolubilizar el ADN. Se disolvió el ADN recogido en 100 |il de la disolución de TE (Tris-HCl 10 mM (pH 8,0), EDTA 1 mM), se añadieron 10 unidades de ARNasa A (libre de ADNasa, Takara Bio) a la mezcla, y se dejó la reacción a 37°C durante 30 minutos. Después, se extrajo de nuevo la mezcla de reacción con fenol/cloroformo y se recogió el ADN mediante precipitación con etanol. Se obtuvo ADN en una cantidad de 10 |ig.
(5-2) Clonación de genes que codifican para proteínas de tipo ORF687
Realizando PCR usando ADN genómico de rábano como molde, cebadores de oligonucleótidos, cebador Enko_B-F y cebador Enko_B-R (SEQ ID NO: 567 y 568, respectivamente) para Enko B, cebadores de oligonucleótidos, cebador kosena_B-F y cebador kosena_B-R (SEQ ID NO: 569 y 570, respectivamente) para Kosena B, o cebadores de oligonucleótidos, cebador Enko_AF y cebador Enko_A-R (s Eq ID NO: 571 y 572, respectivamente) para Enko A, y KOD-FX (TOYOBO) como enzima de extensión de ADN en 50 |il de una mezcla de reacción con 25 ciclos de 95°C durante 30 segundos, 60°C durante 30 segundos y 72°C durante 30 segundos, se amplificaron los genes, respectivamente.
Se clonaron los fragmentos de ADN obtenidos usando el vector pBAD/Thio-TOPO (Invitrogen) según el protocolo adjunto. Se determinaron las secuencias de ADN para confirmar que las secuencias eran aquellas homólogas a las secuencias de ADN correspondientes pretendidas (Enko B (SEQ ID NO: 573), Kosena B (SEQ ID NO: 574), Enko A (SEQ ID NO: 575)).
(5-3) Preparación de proteínas de tipo ORF687 recombinantes
Se transformó la cepa TOP10 de Escherichia coli (Invitrogen) con los plásmidos obtenidos anteriormente. Se cultivó la cepa de Escherichia coli a 37°C en 300 ml del medio LB que contenía ampicilina a una concentración de 100 |ig/ml (300 ml del medio contenidos en un matraz cónico de 1 l). Cuando la turbidez del medio de cultivo en cuanto a la absorbancia a una longitud de onda de 600 nm alcanzó 0,5, se añadió L-arabinosa como inductor a una concentración final del 0,2%, y se continuó adicionalmente el cultivo durante 4 horas.
Se recogieron las células mediante centrifugación, después se suspendieron en 200 ml de tampón A (Tris-HCl 50 mM (pH 8,0), KCl 500 mM, imidazol 2 mM, MgCh 10 mM, Triton X100 al 0,5%, glicerol al 10%) que contenía 1 mg/ml de lisozima, y se alteraron mediante ultrasonicación y congelación/descongelación. Se centrifugó la suspensión celular a 15.000 x g durante 20 minutos, y después se recogió el sobrenadante como extracto crudo. Se aplicó este extracto crudo a una columna rellena con una resina de columna de níquel (ProBond A, Invitrogen) equilibrada con tampón A.
Tras lavarse suficientemente la columna con tampón A que contenía imidazol 20 mM, se realizó cromatografía en columna con gradiente de concentración en dos etapas, en la que la proteína objetivo se eluyó con tampón A que contenía imidazol 200 mM. Las proteínas obtenidas eran proteínas de fusión que comprendían la secuencia de aminoácidos de SEQ ID NO: 576 (Enko B), SEQ ID NO: 577 (Kosena B) o SEQ ID NO: 578 (Enko A), la secuencia de aminoácidos de tiorredoxina para potenciar la solubilidad en el lado del extremo N-terminal, y una secuencia de etiqueta de histidina en el lado del extremo C-terminal. Se sometió cada fracción purificada en un volumen de 100 |il a diálisis frente a 500 ml de tampón E (Tris-HCl 20 mM (pH 7,9), KCl 60 mM, MgCh 12,5 mM, EDTA 0,1 mM, glicerol al 17%, DTT 2 mM), y después se usó como muestra purificada.
(5-4) Preparación de ARN de sustrato
Como ARN de sustrato, se usaron tres clases de ARN que contenían la secuencia de un ADN mitocondrial de citoplasma de rábano de tipo Ogura, ARNa, ARNb y ARNc.
Se amplificaron los ADN mediante PCR usando cebadores de oligonucleótidos, cebador A-F y cebador A-R (SEQ ID NO: 579 y 580, respectivamente) para ARNa, cebadores de oligonucleótidos, cebador B-F y cebador B-R (SEQ ID NO: 581 y 582 respectivamente) para ARNb, o cebadores de oligonucleótidos, cebador C-F y cebador C-R (SEQ ID NO: 583 y 584, respectivamente) para ARNc, y KODFX (TOYOBO) como enzima de extensión de ADN, en 50 |il de una mezcla de reacción que contenía 10 ng del ADN de citoplasma de rábano de tipo Ogura anteriormente mencionado como molde, con 25 ciclos de 95°C durante 30 segundos, 60°C durante 30 segundos y 72°C durante 30 segundos. A cada uno de los cebadores directos (-F), se les añadió la secuencia de promotor de t 7 para sintetizar el ARN de sustrato in vitro.
Se purificó cada uno de los fragmentos de ADN obtenidos revelándolo sobre gel de agarosa, y después escindiendo una sección de gel que los contenía. Permitiendo una reacción usando el fragmento de ADN purificado como molde a 37°C durante 60 minutos en 20 |il de una mezcla de reacción que contenía mezcla de NTP (10 nmol de GTP, CPT, ATP, y 0,5 nmol de UTP), 4 |il de [32P]a-UTP (GE Healthcare, 3000 Ci/mmol), y ARN polimerasa de T7 (Takara Bio), se sintetizó un ARN de sustrato.
Se sometió el ARN de sustrato a extracción con fenol/cloroformo y precipitación con etanol, y después se reveló la cantidad total del mismo mediante electroforesis sobre gel de poliacrilamida al 6% desnaturalizado que contenía urea 6 M, y se detectó el ARN marcado con 32P exponiendo el gel a una película de rayos X durante 60 segundos. Después, se escindió la sección del ARN marcado con 32P a partir del gel, y se sumergió en 200 |il de una disolución de elución de gel (acetato de sodio 0,3 M, EDTA 2,5 mM, SDS al 0,01%) a 4°C durante 12 horas para eluir el ARN a partir del gel. Se midió la radiactividad de 1 |il de la fracción de ARN, y se calculó la cantidad total del ARN sintetizado. Se sometió la disolución de ARN a precipitación con etanol, y después se disolvió el ARN en agua ultrapura a 2500 cpm/|il (1 fmol/|il). Mediante este método de preparación, habitualmente se obtuvieron aproximadamente 100 |il de ARN de 2500 cpm/|il.
(5-5) Experimento de unión de proteína y ARN
Se prepararon proteínas recombinantes de Enko B (Rf), Kosena B (rf) y Enko A (rf, proteína de tipo ORF687 existente en la variedad Enko), y se verificaron las actividades de unión a ARN de las mismas.
Se analizaron las actividades de unión a ARN de las proteínas recombinantes preparadas (Enko B (SEQ ID NO: 576), Kosena B (SEQ ID NO: 577) y Enko A (SEQ ID No : 578)) mediante el ensayo de desplazamiento en gel. Se mezcló el ARN de sustrato anteriormente mencionado (BD120, 375 pM, 7,5 fmol/20 |il) y de 0 a 2500 nM de cada proteína recombinante en 20 |il de una mezcla de reacción (Tris-HCl 10 mM (pH 7,9), KCl 30 mM, MgCh 6 mM, DTT 2 mM, glicerol al 8%, Triton X-100 al 0,0067%), y se dejó la reacción a 25°C durante 15 minutos. Después, se añadieron 4 |il de una disolución de glicerol al 80% a la mezcla de reacción, se revelaron 10 |il de la mezcla sobre gel de poliacrilamida no desnaturalizado al 10% que contenía 1 x TBE (Tris-HCl 89 mM, ácido bórico 89 mM, EDTA 2 mM), y tras la electroforesis se secó el gel.
Se midió la radiactividad de ARN en el gel con un dispositivo Bioimaging Analyzer BAS2000 (Fuji Photo Film).
Ejemplo 6: Experimento de unión a ARN usando proteínas recombinantes
La figura 17 muestra el análisis de unión de la proteína de Enko B y ARN que contiene el gen de esterilidad masculina citoplasmática (CMS). La figura 17A muestra un diagrama esquemático alrededor de orf125 mitocondrial, y también muestra esquemáticamente las regiones de ARNa, ARNbc, ARNb y ARNc usadas en el experimento de unión. La figura 17B muestra la unión de la proteína de Enko B y ARN. Se hicieron reaccionar la proteína de Enko B (1,4 nmol) y ARNbc marcado con 32P (0,1 ng) en presencia de ARNa, ARNbc, ARNb y ARNc no marcados (x 5 y x 10 p/p con respecto a ARNbc, usado como sustancia de inhibición de competencia) en 20 |il de una mezcla de reacción para realizar el experimento de competencia de desplazamiento en gel. Complejo A mencionado en el lado izquierdo del diagrama indica el complejo de la proteína y ARN, y Libre ▲ indica el propio ARN.
Tal como se muestra en los dibujos, la unión de la proteína y ARN se visualiza como una diferencia en el grado de migración del ARN marcado con 32P. Esto se debe a que el peso molecular del complejo del ARN marcado con 32P y la proteína es mayor que el peso molecular del ARN marcado con 32P solo, y por tanto el grado de migración del mismo en la electroforesis se vuelve más pequeño.
En este experimento, se preparó una proteína recombinante de Enko B, y se verificó la unión de la misma con un ARN mitocondrial que contenía orf125 mediante ensayo de desplazamiento en gel de competencia. Se mezclaron ARNb marcado con RI y la proteína, y después se añadió ARN no marcado. Es decir, una intensidad de señal más reducida de la banda en la posición indicada como Complejo significa que el ARN en esa posición añadido como agente de competencia y la proteína se unen, es decir, la posición corresponde a una región de ARN a la que se une Enko B con mayor afinidad. Como resultado, se reveló que Enko B se une fuertemente a la región de ARNb.
La secuencia candidata de n.° 208 muestra el valor de P más significativo en la predicción de secuencia de unión mostrada en la figura 19, y está ubicada correctamente en el extremo 3' de metionina de ARNt. Sin embargo, los análisis hasta ahora revelaron que no hay ninguna diferencia en cuanto a la cantidad de ARNt y la configuración de ARN que contiene orf125 (presencia o ausencia de escisión) entre linajes estériles y con fertilidad restaurada, y el experimento de unión in vitro (figura 17B) reveló que la secuencia de ARNa que contenía la secuencia de n.° 208 y Enko B no se unían. Por tanto, se evaluó que esta región no está implicada en la fertilidad y esterilidad de citoplasma de tipo Ogura.
Por consiguiente, análisis adicionales se centraron en las regiones de n.os 316, 352 y 373 contenidas en ARNb. ARNb consiste en 125 b. Aunque se intentó reducir la región de unión a un orden de 20 b usando mutación por barrido, no pudo limitarse a un único sitio (ahora se muestran los datos). Por tanto, se consideró que puede existir una pluralidad de sitios de unión para Enko B en ARNb.
Ejemplo 7: Actividad de unión a ARN de proteínas de tipo Rf
La figura 18 muestra la unión de proteínas de tipo ORF687 y ARN. La figura 18A muestra los resultados de análisis de características de unión a ARN de proteínas de tipo ORF687 realizado mediante ensayo de desplazamiento en gel para determinar la unión de Enko B (Rf), Kosena B (rf) y Enko A (rf) con ARNb. La figura 18B muestra los resultados de la figura 18A en forma de gráfico, y las constantes de disociación (Kd) de las proteínas que representan las capacidades de unión a ARN de las mismas se calcularon basándose en este gráfico. La figura 18C muestra los resultados de cálculo de las puntuaciones de coincidencia de Enko B (Rf), Kosena B (rf) y Enko A (rf), y los posibles sitios de unión de las mismas realizados de la misma manera que la usada para obtener los resultados mostrados en la figura 19.
Como resultado, en el estado de no competencia, las tres clases de proteínas (Enko B, Kosena B y Enko A) se unieron a ARNb con alta afinidad. En cuanto a Kosena B, se analizó la actividad de unión a ARN en el estado de competencia, pero no se observó una diferencia definitiva de la actividad en comparación con la observada para Enko B (figuras 18A y 18B).
Kosena B muestra con frecuencia una actividad de unión a ARN ligeramente menor que la de Enko B (aproximadamente 2 veces inferior en cuanto a Kd). Sin embargo, en muchos casos se detecta una diferencia de 10 o más veces de la actividad para la unión a ARN general, y la diferencia anterior no puede considerarse una diferencia significativa.
Las proteínas tampoco muestran una diferencia definitiva de las puntuaciones de coincidencia para las regiones correspondientes en la predicción basada en los códigos de PPR (figura 18C). Por tanto, se decidió examinar una posibilidad de que la diferencia de Enko B y Kosena B pueda originarse en la diferencia de acciones ejercidas tras la unión, no en una simple diferencia en afinidad de unión a ARN.
Además, en la figura 19 se muestra la predicción de secuencias de unión de un factor de restauración de la fertilidad que actúa sobre el citoplasma de tipo Ogura. La figura 19A muestra los resultados para la predicción de la unión de la proteína de Enko B usando los códigos de PPR, y la estructura de ARN que contiene el gen de CMS, orf125, se muestra en el diagrama inferior de la figura 19A. En cuanto a las regiones desde ARNa hasta ARNc mostradas en la figura 19A, véase la figura 17. En la figura 19A, se centra en las regiones de n.os 208, 230, 316, 352 y 373, de entre las regiones que mostraron un valor de P significativamente alto (figura 19A).
Además, en la figura 19B se muestran logos de secuencia de las secuencias de ARN diana predichas a partir de la secuencia de proteína ORF687 (secuencias de las regiones que mostraron un valor de P significativo (n.os 208, 316, 352, 373)), secuencias de ARN de unión candidatas, y logos de secuencia de las secuencias de ARN diana predichas a partir de la secuencia de la proteína de tipo ORF687 de la variedad de rábano que tiene un rf recesivo, Kosena (Kosena B). Además, también se muestra la base de unión predicha de Kosena B, que es un rf recesivo. Se reveló que las bases especificadas por EnkoB y Kosena B son diferentes (UA en el caso de Rf, y GC en el caso de rf), debido al polimorfismo de aminoácidos en los motivos de PPR 2° y 3°. Puede predecirse que esta diferencia está directamente relacionada con la diferencia funcional entre Rf y rf.
Ejemplo 8: Predicción y análisis de la estructura de ARN
Basándose en la predicción computerizada y el experimento de unión a ARN in vitro, se contempló una posibilidad de que Rf se una a la región de ARNb, especialmente las regiones de n.os 316, 352 y 373. Basándose en el análisis in vitro, también se contempló una posibilidad de que ARNb tenga una pluralidad de sitios de unión. Por tanto, se predijo la estructura secundaria de la secuencia de ARNb, y se prestó atención a las regiones.
Los resultados se muestran en la figura 20. La figura 20 muestra la estructura secundaria y el cambio estructural de las regiones de ARN de unión candidatas de proteína de tipo ORF687. La figura 20a muestra la estructura secundara de la región que incluye la región de n.° 306 y los sitios de unión predichos para la proteína de tipo ORF687, y muestra motivos de PPR con cajas junto con las bases correspondientes. Se enfatizan los motivos de PPR 2° y 3° para los que Enko B (Rf) y Kosena B (rf) muestran una diferencia notable. La figura 20B muestra la estructura secundaria de la región que incluye las regiones de n.os 352 y 373 y los sitios de unión predichos para la proteína de tipo ORF687. La figura 20C muestra resultados que indican el cambio estructural de ARNb inducido por Enko B, que se obtuvieron mezclando ARNb y proteína Enko B, y después añadiendo una ARNasa selectiva de cadena doble (ARNasa V1).
Como resultado, se reveló que la región n.° 316 corresponde a la estructura de tallo-bucle inmediatamente en el sentido de 3' desde el codón de iniciación de orf125 (figura 20A). Además, los motivos de PPR 2° y 3° que muestran polimorfismo entre Enko B y Kosena B estaban ubicados en la cadena doble en la raíz del tallo-bucle. En particular, la base correspondiente al 3° motivo de PPR es A en Enko B, mientras que es C en Kosena B (véase la figura 19B). Basándose en estos resultados, se contempló una hipótesis de trabajo según la cual Enko B se une a la región afectada para fomentar la formación de la estructura de tallo-bucle, y de ese modo inhibir la traducción de orf125. También se predice una estructura de cadena doble para las regiones n.os 352 y 373, y se contempló que la proteína Rf se une en ambos lados (figura 20B). Sin embargo, en tal caso, se espera que la estructura se destruya mediante la unión de Rf (se fomenta la formación de cadena sencilla). Además, no se contemplaron diferencias en la base y estructura correspondientes para los motivos de PPR 2° y 3°, para los que Rf y rf muestran diferencia, y no pudo predecirse ningún mecanismo molecular específico.
Por tanto, se mezcló ARN marcado internamente con las proteínas, y se añadió ARNasa V1 a la mezcla para descomponer únicamente el ARN marcado. La ARNasa V1 es una ARNasa que escinde selectivamente sólo regiones de cadena doble de ARN. Como resultado, se demostró que el ARN de sustrato se descompone más rápidamente en presencia de la proteína, concretamente, se fomenta la formación de ARN de cadena doble en presencia de Rf (Enko B) (figura 20C). Es decir, se consideró que la inhibición de la traducción basada en la formación de ARN de cadena doble en ARNm de orf125 mediante Rf es la principal causa de la restauración de la fertilidad en la esterilidad masculina citoplasmática de tipo Ogura.
Ejemplo 9: Determinación de la función para la restauración de la capacidad de fertilidad del gen de tipo ORF687 Hasta ahora se han aislado genes de tipo ORF687 a partir de diversas variedades de rábano, y la funcionalidad de los mismos como Rf se estima basándose en experimentos de coincidencia. Sin embargo, las secuencias de aminoácidos codificadas son muy similares, y por tanto es imposible determinar la funcionalidad como Rf a partir de las características de conservación de las secuencias de aminoácidos completas.
En este ejemplo, en primer lugar se analizaron secuencias de las proteínas de tipo ORF687. Específicamente, se usaron las secuencias de proteína mostradas en SEQ ID NO: 576 a 578 y de 585 a 591 como materiales, y se analizaron las secuencias de las mismas como proteínas de PPR. Usando todas las secuencias como secuencias de consulta para CLUSTALW (http://www.genome.jp/tools/clustalw/), se obtuvo la alineación de secuencias. Usando el software de análisis de dominio que puede usarse en la Web:
Pfam (http://pfam.sanger.ac.uk/),
InterProScan (http://www.ebi.ac.uk/Tools/InterProScan/) y
Prosite (http://www.expasy.org/prosite/),
se creó la alineación de las proteínas de tipo ORF687, y se analizaron las estructuras de motivo de PPR de las proteínas. Los resultados se muestran en la figura 21. Todas las proteínas de tipo ORF687 consistían cada una en 16 motivos de PPR (figura 21).
A partir de los modelos de motivo de PPR obtenidos, se extrajeron los aminoácidos 1, 2 y “ii” (-2) según los números de aminoácido mostrados en el documento no de patente 5, y se usaron para la determinación de la función para la capacidad de restauración de la fertilidad de las proteínas de tipo ORF.
Por tanto, se determinaron las funciones de las 9 clases de genes de tipo Rf usando los códigos de PPR. Se extrajeron los aminoácidos responsables de la capacidad de especificación de base (1, 4 y ii) de la misma manera que la usada para Enko B mencionada anteriormente, se convirtieron en códigos de PPR, y se usaron para la determinación de la funcionalidad de los mismos usando la especie de aminoácido como intervalos de unión a ARN (figura 22). Aunque Enko B y Kosena B muestran una homología del 99,4% para las secuencias completas, dos de los intervalos de unión a ARN muestran polimorfismo de aminoácidos, y se consideró que estaban profundamente implicados en el carácter dominante y recesivo para la restauración de la fertilidad mediante los genes de tipo ORF687 (referencia no de patente 4). Además, el gen Comet B que está ubicado en el mismo locus que el de Enko B en la variedad Comet muestra una homología del 98,0% con respecto a Enko B, y los intervalos de unión a ARN de los mismos son completamente iguales. Pudo verificarse el hallazgo de que Comet B es un gen dominante obtenido mediante las pruebas de coincidencia anteriores. Además, Enko A es un gen solapante que está ubicado cerca de Enko B, y también se sugirió desde el punto de vista del reconocimiento de ARN que es un gen recesivo. Estos datos sugieren que, para el carácter dominante y recesivo para la restauración de la fertilidad de los genes de tipo ORF687, es importante que los aminoácidos responsables de la capacidad de especificación de base (1, 4, ii) sean los mismos en todos los motivos de PPR correspondientes en los genes de tipo ORF687, en particular, que tengan los mismos aminoácidos 4 (A4), o los mismos aminoácidos “ii”. Entre otras cosas, se considera que es especialmente importante que tengan los mismos aminoácidos 4 (A4). Desde este punto de vista, se consideró que los genes que están ubicados en el mismo locus que el de Enko B en diversos linajes de rábano, de los que se desconoce información referente a la fertilidad, rrORF690-1, rrORF690-2, icicle_pprCA, PC_PPR-A y PC_PPRBL, tienen intervalos de unión a ARN diferentes de los de Enko B, que es un gen dominante, y estos genes también son rf recesivo.
Los resultados descritos anteriormente sugieren que los códigos de PPR usados en la presente invención pueden acelerar la determinación de funciones de proteínas de PPR útiles desde el punto de vista industrial, que actúan como factor de restauración de la fertilidad. Cuando se usa un nuevo linaje para el método de cultivo de primer híbrido filial usando el sistema de CMS-Rf, puede determinarse si las secuencias de gen de Rf candidato tienen capacidad de restauración de la fertilidad a partir de las secuencias de los mismos mediante la técnica anterior. Los inventores de la presente invención determinaron funciones de los genes de tipo ORF687 de 21 clases de nuevas variedades de rábano, y determinaron satisfactoriamente si la capacidad de restauración de la fertilidad del gen de tipo ORF es dominante o recesiva para 19 variedades (no se muestran los datos). Esta técnica puede aplicarse no sólo al rábano del citoplasma de tipo Ogura, sino también a diversos citoplasmas y variedades de plantas que contienen una proteína de PPR como Rf.

Claims (11)

    REIVINDICACIONESMétodo para preparar una proteína que comprende diseñar una proteína que puede unirse a una molécula de ARN de una manera selectiva de base de ARN o específica de secuencia de bases de ARN, comprendiendo el método:diseñar una proteína que se une específicamente a ARN que tiene una secuencia específica prestando atención a la combinación de aminoácidos A1, A4 y Lm o la combinación de aminoácidos A4 y Ln, en el que la proteína contiene uno o más motivos de PPR que consisten cada uno en un polipéptido de 30 a 38 aminoácidos de longitud representado por la fórmula 1:
  1. [F1]
    (Hélice A)-X-(Hélice B)-L (Fórmula 1)
    (en la que:
    la hélice A es un resto de 12 aminoácidos de longitud capaz de formar una estructura de hélice a, y está representado por la fórmula 2:
  2. [F2]
    A1-A2-A3-A4-A5-A6-A7-A8-A9-A10-A11-A12 (Fórmula 2)
    en el que, en la fórmula 2, de A1 a A12 representan independientemente un aminoácido;
    X no existe, o es un resto de 1 a 9 aminoácidos de longitud;
    la hélice B es un resto de 11 a 13 aminoácidos de longitud capaz de formar una estructura de hélice a; y L es un resto de 2 a 7 aminoácidos de longitud representado por la fórmula 3;
  3. [F3]
    Lvii-Lvi-Lv-Liv-Liii-Lii-Li (Fórmula 3)
    en el que, en la fórmula 3, los aminoácidos se numeran “i” (-1), “ii” (-2), y así sucesivamente desde el lado del extremo C-terminal,
    con la condición de que de Lm a Lvii pueden no existir), y
    la combinación de tres aminoácidos A1, A4 y Lm, o la combinación de dos aminoácidos A4 y Ln de un motivo de PPR contenido en la proteína es una combinación correspondiente a una base de ARN diana o una base de ARN específica que constituye una secuencia de bases diana.
    Método según la reivindicación 1, en el que la combinación de los tres aminoácidos A1, A4 y Ln es una combinación correspondiente a la secuencia de bases o base de ARN diana, y la combinación de los aminoácidos se determina según una cualquiera de las siguientes proposiciones:
    (3-1) cuando los tres aminoácidos A1, A4 y Lm son valina, asparagina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U (uracilo);
    (3-2) cuando los tres aminoácidos A1, A4 y Lm son valina, treonina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a A (adenina);
    (3-3) cuando los tres aminoácidos A1, A4 y Ln son valina, asparagina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a C (citosina);
    (3-4) cuando los tres aminoácidos A1, A4 y Ln son ácido glutámico, glicina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a G (guanina);
    (3-5) cuando los tres aminoácidos A1, A4 y Ln son isoleucina, asparagina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a C o U;
    (3-6) cuando los tres aminoácidos A1, A4 y Lm son valina, treonina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a G;
    (3-7) cuando los tres aminoácidos Ai, A4 y Ln son lisina, treonina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a G;
    (3-8) cuando los tres aminoácidos Ai, A4 y Ln son fenilalanina, serina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a A;
    (3-9) cuando los tres aminoácidos Ai, A4 y Ln son valina, asparagina y serina, respectivamente, el motivo de PPR puede unirse selectivamente a C;
    (3-10) cuando los tres aminoácidos Ai, A4 y Ln son fenilalanina, treonina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a A;
    (3-11) cuando los tres aminoácidos Ai, A4 y Ln son isoleucina, asparagina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U o A;
    (3-i2) cuando los tres aminoácidos Ai, A4 y Ln son treonina, treonina y asparagina, respectivamente, el motivo de PPR puede unirse selectivamente a A;
    (3-i3) cuando los tres aminoácidos Ai, A4 y Ln son isoleucina, metionina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U o C;
    (3-i4) cuando los tres aminoácidos Ai, A4 y Ln son fenilalanina, prolina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U;
    (3-i5) cuando los tres aminoácidos Ai, A4 y Ln son tirosina, prolina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a U; y
    (3-i6) cuando los tres aminoácidos Ai, A4 y Ln son leucina, treonina y ácido aspártico, respectivamente, el motivo de PPR puede unirse selectivamente a G.
    Método según la reivindicación i, en el que la combinación de los dos aminoácidos A4 y Ln es una combinación correspondiente a la secuencia de bases o base de ARN diana, y la combinación de los aminoácidos se determina según una cualquiera de las siguientes proposiciones:
    (2- i) cuando A4 y Ln son asparagina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a U;
    (2-2) cuando A4 y Ln son asparagina y asparagina, respectivamente, el motivo puede unirse selectivamente a C;
    (2-3) cuando A4 y Ln son treonina y asparagina, respectivamente, el motivo puede unirse selectivamente a A;
    (2-4) cuando A4 y Ln son treonina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a G;
    (2-5) cuando A4 y Ln son serina y asparagina, respectivamente, el motivo puede unirse selectivamente a A; (2-6) cuando A4 y Ln son glicina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a G;
    (2-7) cuando A4 y Ln son asparagina y serina, respectivamente, el motivo puede unirse selectivamente a C; (2-8) cuando A4 y Ln son prolina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a U;
    (2-9) cuando A4 y Ln son glicina y asparagina, respectivamente, el motivo puede unirse selectivamente a A; (2- i 0) cuando A4 y Ln son metionina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a U;
    (2- i i ) cuando A4 y Ln son leucina y ácido aspártico, respectivamente, el motivo puede unirse selectivamente a C; y
    (2-12) cuando A4 y Lm son valina y treonina, respectivamente, el motivo puede unirse selectivamente a U.
  4. 4. Método para preparar una proteína que puede unirse a una molécula de ARN de una manera selectiva de base de ARN o específica de secuencia de bases de ARN, comprendiendo el método:
    diseñar una proteína según el método según una cualquiera de las reivindicaciones 1 a 3;
    preparar un transformante usando una secuencia de ácido nucleico que codifica para la proteína.
  5. 5. Método según la reivindicación 4, que comprende además producir la proteína usando el transformante.
  6. 6. Método para identificar una base o secuencia de bases diana para una proteína de unión a ARN que comprende uno o más (preferiblemente de 2 a 14) de los motivos de PPR definidos en la reivindicación 1, en el que:
    la base o secuencia de bases se identifica determinando la presencia o ausencia de una base correspondiente a una combinación de los tres aminoácidos A1, A4 y Lm de los motivos de PPR, o una combinación de los dos aminoácidos A4 y Lii de los motivos de PPR basándose en cualquiera de las proposiciones (3-1) a (3-16) mencionadas en la reivindicación 2, o cualquiera de las proposiciones (2-1) a (2-12) mencionadas en la reivindicación 3.
  7. 7. Método para identificar una proteína de PPR que comprende uno o más de los motivos de PPR definidos en la reivindicación 1, y puede unirse a una base de ARN diana o un ARN diana que tiene una secuencia de bases específica, en el que:
    la proteína de PPR se identifica determinando la presencia o ausencia de una combinación de los tres aminoácidos A1, A4 y Lii de los motivos de PPR, o combinación de dos aminoácidos A4 y Lii de los motivos de PPR correspondientes a la base de ARN diana o una base específica que constituye el ARN diana basándose en cualquiera de las proposiciones (3-1) a (3-16) mencionadas en la reivindicación 2, o cualquiera de las proposiciones (2-1) a (2-12) mencionadas en la reivindicación 3.
  8. 8. Método para controlar una función de ARN que comprende diseñar una proteína mediante el método según la reivindicación 1 y usar la proteína para controlar una función de ARN.
  9. 9. Método para preparar un complejo que comprende una región que consiste en una proteína y una región funcional, comprendiendo el método:
    diseñar una proteína mediante el método según la reivindicación 1; y
    unir la proteína y una región funcional entre sí.
  10. 10. Método para modificar un material genético celular, comprendiendo el método:
    preparar una célula que contiene un ARN que tiene una secuencia diana;
    preparar un complejo que comprende una región que consiste en una proteína y una región funcional mediante el método según la reivindicación 9; e
    introducir el complejo en la célula,
    de modo que la región de proteína del complejo se une al ARN que tiene la secuencia diana, y por tanto la región funcional modifica la secuencia diana.
  11. 11. Método para evaluar la fertilidad de un gen de una proteína de PPR, que comprende:
    la etapa de detectar polimorfismo de aminoácidos observado entre diversas variedades para un gen de una proteína de PPR que funciona como factor de restauración de la fertilidad para esterilidad masculina citoplasmática;
    la etapa de especificar la relación del polimorfismo y la fertilidad para el gen; y
    la etapa de especificar una secuencia de bases de un gen de una proteína de PPR obtenida a partir de una muestra de prueba, y determinar la fertilidad de la muestra de prueba, en el que la proteína de PPR es una proteína que comprende uno o más (preferiblemente de 2 a 16) motivos de PPR que consisten cada uno en un polipéptido de 30 a 38 aminoácidos de longitud representado por la fórmula 1:
    [F4]
    (Hélice A)-X-(Hélice B)-L (Fórmula 1)
    (en la que:
    la hélice A es un resto de 12 aminoácidos de longitud capaz de formar una estructura de hélice a, y está representado por la fórmula 2:
    [F5]
    A1-A2-A3-A4-A5-A6-A7-A8-A9-A10-A11-A12 (Fórmula 2)
    en el que, en la fórmula 2, de A1 a A12 representan independientemente un aminoácido;
    X no existe, o es un resto de 1 a 9 aminoácidos de longitud;
    la hélice B es un resto de 11 a 13 aminoácidos de longitud capaz de formar una estructura de hélice a; y L es un resto de 2 a 7 aminoácidos de longitud representado por la fórmula 3;
    [F6]
    Lvii-Lvi-Lv-Liv-Liii-Lii-Li (Fórmula 3)
    en el que, en la fórmula 3, los aminoácidos se numeran “i” (-1), “ii” (-2), y así sucesivamente desde el lado del extremo C-terminal,
    con la condición de que de Lm a Lvii pueden no existir),
    el polimorfismo de aminoácidos se especifica como polimorfismo observado en unidades de los motivos de PPR, y el polimorfismo observado en los motivos de PPR se identifica mediante una combinación de los tres aminoácidos A1, A4 y Lm, o una combinación de los dos aminoácidos A4 y Ln de un motivo contenido en la proteína.
    Método según la reivindicación 11, en el que la fertilidad se indica por el hecho de que los aminoácidos 4 en todos los motivos de PPR en la proteína de PPR son los mismos que los aminoácidos 4 en todos los motivos de PPR correspondientes de Enko B, o el hecho de que los aminoácidos “ii” en todos los motivos de PPR en la proteína de PPR son los mismos que los aminoácidos “ii” en todos los motivos de PPR correspondientes de Enko B.
    Método según una cualquiera de las reivindicaciones 11 ó 12, en el que el gen de la proteína de PPR es un gen familiar portado en el mismo locus que el del “gen de ORF687” que codifica para Enko B, un gen que codifica para una proteína que muestra una identidad de aminoácidos del 90% o superior con respecto a Enko B, o un gen que muestra una identidad de secuencia de nucleótidos del 90% o superior con respecto al “gen de ORF687” que codifica para Enko B.
    Método según una cualquiera de las reivindicaciones 11 a 13, en el que las proteínas codificadas por los genes de tipo orf687 de diversas variedades son cualquiera de las proteínas de SEQ ID NO: 576 a 578 y de 585 a 591.
ES12841435T 2011-10-21 2012-10-22 Método de diseño para proteína de unión a ARN usando motivo de PPR, y uso del mismo Active ES2751126T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011231346 2011-10-21
PCT/JP2012/077274 WO2013058404A1 (ja) 2011-10-21 2012-10-22 Pprモチーフを利用したrna結合性蛋白質の設計方法及びその利用

Publications (1)

Publication Number Publication Date
ES2751126T3 true ES2751126T3 (es) 2020-03-30

Family

ID=48141047

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12841435T Active ES2751126T3 (es) 2011-10-21 2012-10-22 Método de diseño para proteína de unión a ARN usando motivo de PPR, y uso del mismo

Country Status (8)

Country Link
US (7) US9513283B2 (es)
EP (2) EP2784157B1 (es)
JP (8) JP6164488B2 (es)
AU (4) AU2012326971C1 (es)
DK (1) DK2784157T3 (es)
ES (1) ES2751126T3 (es)
PT (1) PT2784157T (es)
WO (1) WO2013058404A1 (es)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2784157B1 (en) * 2011-10-21 2019-09-18 Kyushu University, National University Corporation Design method for rna-binding protein using ppr motif, and use thereof
EP2838912A4 (en) * 2012-04-16 2015-11-18 Univ Western Australia PEPTIDES FOR BINDING NUCLEOTIDE TARGETS
BR122020018292B1 (pt) * 2013-04-22 2023-05-16 Hiroshima University Métodos para controlar uma função de dna tendo uma sequência alvo, para identificar uma base de dna ou sequência de base de dna, e para identificar uma proteína ppr
CN111500569A (zh) * 2014-03-05 2020-08-07 国立大学法人神户大学 特异性转变靶向dna序列的核酸碱基的基因组序列的修饰方法、及其使用的分子复合体
CN108271384B (zh) 2015-09-09 2022-04-15 国立大学法人神户大学 用于特异性转变靶向dna序列的核酸碱基的革兰氏阳性菌的基因组序列的转变方法、及其使用的分子复合体
WO2017091630A1 (en) 2015-11-23 2017-06-01 The Regents Of The University Of California Tracking and manipulating cellular rna via nuclear delivery of crispr/cas9
US11220693B2 (en) 2015-11-27 2022-01-11 National University Corporation Kobe University Method for converting monocot plant genome sequence in which nucleic acid base in targeted DNA sequence is specifically converted, and molecular complex used therein
DK3466978T3 (da) * 2016-06-03 2021-04-26 Univ Kyushu Nat Univ Corp Fusionsprotein til forbedring af proteinekspression fra mål-mRNA
SG11201810606TA (en) 2016-06-03 2018-12-28 Univ Kyushu Nat Univ Corp FUSION PROTEIN FOR IMPROVING PROTEIN EXPRESSION FROM TARGET mRNA
EP3498726A4 (en) * 2016-08-10 2020-03-25 Fujifilm Wako Pure Chemical Corporation DNA-BINDING PROTEIN WITH PPR MOTIF AND USE OF THE DNA-BINDING PROTEIN
WO2018208998A1 (en) 2017-05-10 2018-11-15 The Regents Of The University Of California Directed editing of cellular rna via nuclear delivery of crispr/cas9
CN108959852B (zh) * 2017-05-24 2021-12-24 北京工业大学 基于氨基酸-核苷酸成对偏好性信息的蛋白质上与rna结合模块的预测方法
CN108932400B (zh) * 2017-05-24 2021-07-23 北京工业大学 一种考虑界面信息的有效的蛋白质-rna复合物结构预测方法
JP2021526858A (ja) 2018-06-08 2021-10-11 ロックアネイビオ, インコーポレイテッド Rna標的化融合タンパク質組成物および使用方法
CN114729017A (zh) 2019-05-29 2022-07-08 日商基因编辑力股份有限公司 Ppr蛋白的有效制作方法及其应用
EP3977849A4 (en) * 2019-05-29 2023-06-28 Editforce, Inc. Ppr protein with less aggregation and use thereof
CA3145309A1 (en) 2019-07-10 2021-01-14 Locanabio, Inc. Rna-targeting knockdown and replacement compositions and methods for use
CN115698296A (zh) 2020-03-31 2023-02-03 日商基因编辑力股份有限公司 编辑靶标rna的方法
CA3200588A1 (en) 2020-12-01 2022-06-09 David A. Nelles Rna-targeting compositions and methods for treating myotonic dystrophy type 1
CA3200453A1 (en) 2020-12-01 2022-06-09 David A. Nelles Rna-targeting compositions and methods for treating cag repeat diseases
WO2022221278A1 (en) 2021-04-12 2022-10-20 Locanabio, Inc. Compositions and methods comprising hybrid promoters
WO2022226375A1 (en) 2021-04-23 2022-10-27 Locanabio, Inc. Tissue-targeted modified aav capsids and methods of use thereof
JP2024514956A (ja) 2021-04-23 2024-04-03 ロックアネイビオ, インコーポレイテッド 組織標的化された改変aavカプシドおよびその使用方法
WO2022230924A1 (ja) 2021-04-30 2022-11-03 国立大学法人大阪大学 筋強直性ジストロフィー1型治療薬
JP7125727B1 (ja) 2021-09-07 2022-08-25 国立大学法人千葉大学 核酸配列改変用組成物および核酸配列の標的部位を改変する方法
WO2023154807A2 (en) 2022-02-09 2023-08-17 Locanabio, Inc. Compositions and methods for modulating pre-mrna splicing

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002355041A (ja) * 2001-04-25 2002-12-10 Mitsubishi Chemicals Corp 細胞質雄性不稔から可稔への回復に関与する遺伝子
US20040117868A1 (en) 2002-01-29 2004-06-17 Jun Imamura Protein participating in restoration from cytoplasmic male sterility to fertility and gene encoding the same
EP1382612B1 (en) 2001-04-25 2011-07-27 Institut National de la Recherche Agronomique Protein participating in restoration from cytoplasmic male sterility to fertility and gene encoding the same
JP4102099B2 (ja) 2001-04-25 2008-06-18 アンスティテュ ナシオナル ドゥ ラ ルシェルシュ アグロノミック 細胞質雄性不稔から可稔への回復に関与するタンパク質及びそれをコードする遺伝子
US20060041961A1 (en) 2004-03-25 2006-02-23 Abad Mark S Genes and uses for pant improvement
WO2009113249A1 (ja) 2008-03-12 2009-09-17 国立大学法人東北大学 イネcw型雄性不稔細胞質に対する稔性回復遺伝子及び稔性回復方法
EP2510096B2 (en) 2009-12-10 2018-02-07 Regents of the University of Minnesota Tal effector-mediated dna modification
JP2013128413A (ja) 2010-03-11 2013-07-04 Kyushu Univ Pprモチーフを利用したrna結合性蛋白質の改変方法
EP2784157B1 (en) * 2011-10-21 2019-09-18 Kyushu University, National University Corporation Design method for rna-binding protein using ppr motif, and use thereof
EP2838912A4 (en) * 2012-04-16 2015-11-18 Univ Western Australia PEPTIDES FOR BINDING NUCLEOTIDE TARGETS

Also Published As

Publication number Publication date
US20180247018A1 (en) 2018-08-30
JP7381133B2 (ja) 2023-11-15
AU2019280013B2 (en) 2022-03-31
EP3611261A1 (en) 2020-02-19
WO2013058404A1 (ja) 2013-04-25
JP6934644B2 (ja) 2021-09-15
JP6454398B2 (ja) 2019-01-16
DK2784157T3 (da) 2019-10-21
JP6267388B2 (ja) 2018-01-24
AU2017254874A1 (en) 2017-11-16
JP6270192B2 (ja) 2018-01-31
US10340028B2 (en) 2019-07-02
US20200294626A1 (en) 2020-09-17
JPWO2013058404A1 (ja) 2015-04-02
AU2017254874B2 (en) 2019-09-12
JP6164488B2 (ja) 2017-07-19
US11742056B2 (en) 2023-08-29
EP2784157A4 (en) 2015-07-01
JP2017148078A (ja) 2017-08-31
JP2022177289A (ja) 2022-11-30
EP2784157A1 (en) 2014-10-01
JP2018042569A (ja) 2018-03-22
AU2012326971B2 (en) 2017-10-19
JP2024010112A (ja) 2024-01-23
US20240047005A1 (en) 2024-02-08
US9984202B2 (en) 2018-05-29
US20140335521A1 (en) 2014-11-13
AU2012326971C1 (en) 2018-02-08
US9513283B2 (en) 2016-12-06
EP2784157B1 (en) 2019-09-18
PT2784157T (pt) 2019-10-29
US10943671B2 (en) 2021-03-09
US20210249103A1 (en) 2021-08-12
AU2019280013A1 (en) 2020-01-16
US20190311783A1 (en) 2019-10-10
JP7157483B2 (ja) 2022-10-20
AU2022204654A1 (en) 2022-07-21
JP2021130678A (ja) 2021-09-09
JP2017192391A (ja) 2017-10-26
AU2012326971A1 (en) 2014-06-12
US20170124252A1 (en) 2017-05-04
JP2018078896A (ja) 2018-05-24
US10679731B2 (en) 2020-06-09

Similar Documents

Publication Publication Date Title
ES2751126T3 (es) Método de diseño para proteína de unión a ARN usando motivo de PPR, y uso del mismo
Qi et al. Identification of a novel salt tolerance gene in wild soybean by whole-genome sequencing
Coyne et al. Comparative genomics of the pathogenic ciliate Ichthyophthirius multifiliis, its free-living relatives and a host species provide insights into adoption of a parasitic lifestyle and prospects for disease control
Meagher Divergence and differential expression of actin gene families in higher plants
Zhang et al. Chromosome-scale assemblies of the male and female Populus euphratica genomes reveal the molecular basis of sex determination and sexual dimorphism
Nelson et al. Extending the model of Arabidopsis telomere length and composition across Brassicaceae
Yin et al. Evolution of phage-type RNA polymerases in higher plants: characterization of the single phage-type RNA polymerase gene from Selaginella moellendorffii
Mahdavi et al. Characterization of two predicted DASH-related proteins from the green alga Volvox carteri provides new insights into their light-mediated transcript regulation and DNA repair activity
Zhang et al. Identification and molecular evolution of the La and LARP genes in 16 plant species: A focus on the Gossypium hirsutum
Ebenezer The genome of Euglena gracilis: Annotation, function and expression