ES2965485T3 - Sistema de expresión de proteínas con múltiples copias génicas - Google Patents

Sistema de expresión de proteínas con múltiples copias génicas Download PDF

Info

Publication number
ES2965485T3
ES2965485T3 ES18755213T ES18755213T ES2965485T3 ES 2965485 T3 ES2965485 T3 ES 2965485T3 ES 18755213 T ES18755213 T ES 18755213T ES 18755213 T ES18755213 T ES 18755213T ES 2965485 T3 ES2965485 T3 ES 2965485T3
Authority
ES
Spain
Prior art keywords
sequence
pdi
sequences
different
host cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18755213T
Other languages
English (en)
Inventor
Clemens Achmüller
Norbert Lamping
Matjaz Vogelsang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Novartis AG
Original Assignee
Novartis AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Novartis AG filed Critical Novartis AG
Application granted granted Critical
Publication of ES2965485T3 publication Critical patent/ES2965485T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • C12N15/81Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
    • C12N15/815Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts for yeasts other than Saccharomyces
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/705Receptors; Cell surface antigens; Cell surface determinants
    • C07K14/70578NGF-receptor/TNF-receptor superfamily, e.g. CD27, CD30, CD40, CD95
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K16/00Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/67General methods for enhancing the expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • C12N15/81Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P21/00Preparation of peptides or proteins
    • C12P21/02Preparation of peptides or proteins having a known sequence of two or more amino acids, e.g. glutathione
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/575Hormones
    • C07K14/62Insulins
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2317/00Immunoglobulins specific features
    • C07K2317/60Immunoglobulins specific features characterized by non-natural combinations of immunoglobulin fragments
    • C07K2317/62Immunoglobulins specific features characterized by non-natural combinations of immunoglobulin fragments comprising only variable region components
    • C07K2317/622Single chain antibody (scFv)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/30Non-immunoglobulin-derived peptide or protein having an immunoglobulin constant or Fc region, or a fragment thereof, attached thereto

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Mycology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Immunology (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Cell Biology (AREA)
  • Toxicology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)

Abstract

La presente invención pertenece al campo de la biotecnología, concretamente al campo de la expresión de proteínas recombinantes. La presente invención se centra en dos problemas que se encuentran comúnmente durante la expresión de proteínas recombinantes: la baja cantidad de expresión de proteínas y la inestabilidad genética de las líneas celulares utilizadas para la expresión de proteínas recombinantes. El principio básico de la presente invención es introducir varios casetes de expresión en una célula, cuyos casetes de expresión codifican todos para la misma proteína recombinante madura de interés, pero cuyos casetes de expresión tienen diferentes secuencias de nucleótidos. Casete de expresión significa una secuencia de polinucleótidos que comprende al menos una secuencia promotora, un codón de inicio, una secuencia de polinucleótidos que codifica una proteína que se pretende que se exprese de forma recombinante (POI), un codón de parada y un terminador. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Sistema de expresión de proteínas con múltiples copias génicas
La presente invención pertenece al campo de la biotecnología, específicamente al campo de la expresión de proteínas recombinantes. La presente invención se centra en dos problemas que se presentan habitualmente durante la expresión de proteínas recombinantes, la baja cantidad de expresión proteica y la inestabilidad genética de las líneas celulares utilizadas para la expresión de proteínas recombinantes. El principio básico de la presente invención es introducir varios casetes de expresión en una célula cuyos casetes de expresión codifican todos la misma proteína recombinante madura de interés, pero cuyos casetes de expresión tienen diferentes secuencias de nucleótidos. Casete de expresión se refiere a una secuencia de polinucleótidos que comprende al menos una secuencia promotora, un codón de inicio, una secuencia de polinucleótidos que codifica una proteína que está destinada a expresarse de manera recombinante (PDI), un codón de parada y un terminador.
Campo de la invención:
La presente invención pertenece al campo de la biotecnología, específicamente al campo de la expresión de proteínas recombinantes. Además, la invención se refiere a las células modificadas para expresar una proteína recombinante (proteína de interés, PDI) con mayores rendimientos y a las células modificadas que son menos propensas a inestabilidad genética debido a la reorganización del material genético introducido en dichas células modificadas. En otro aspecto, la invención se refiere a los vectores, casetes de expresión utilizados para generar dichas células modificadas, así como a métodos para generar dichas células modificadas y métodos para producir proteínas recombinantes utilizando dichas células modificadas, dichos vectores y dichos casetes de expresión.
Descripción de la técnica anterior:
La expresión de proteínas recombinantes en general tiene dos objetivos principales: En primer lugar se obtiene una proteína recombinante de alta calidad, p. ej., pura, con bajo contenido de productos de degradación, homogénea en cuanto a la secuencia de aminoácidos y modificaciones postraduccionales, soluble, con un plegamiento tridimensional correcto y que tiene la misma actividad biológica que la proteína nativa de tipo natural. En segundo lugar, el objetivo es obtener una proteína recombinante en una cantidad elevada en poco tiempo, p. ej., para ahorrar costes, tiempo y recursos durante el proceso de producción.
La presente invención se centra en dos problemas que se presentan habitualmente durante la expresión de proteínas recombinantes, la baja cantidad de expresión proteica y la inestabilidad genética de las líneas celulares utilizadas para la expresión de proteínas recombinantes.
Con el fin de obtener grandes cantidades de proteína recombinante, habitualmente se intenta introducir no solo una copia del llamado casete de expresión en la célula elegida para la producción de la proteína recombinante, sino que se intenta introducir varias copias del casete de expresión en una célula y, posteriormente, seleccionar aquellas células hospedadoras modificadas que tienen el número elevado óptimo de casetes de expresión con el fin de expresar la cantidad máxima de la proteína de interés (PDI). Esta estrategia tiene al menos dos inconvenientes:
En primer lugar, cuantas más copias del casete de expresión se introduzcan en la célula, más probable es que con el tiempo las secuencias de estos casetes de expresión se recombinen entre sí debido a la similitud de sus secuencias, lo que promueve la recombinación. Como consecuencia, los reordenamientos de las secuencias de nucleótidos dentro de la célula hospedadora modificada dan como resultado un genoma inestable de la célula hospedadora modificada utilizada para la expresión de proteínas. Esto da como resultado una menor expresión de proteína recombinante de la célula modificada con el tiempo. En el peor de los casos, estos procesos de recombinación no deseados producen secuencias alteradas de la PDI, lo que no solo disminuye la tasa de expresión de proteínas recombinantes, sino que también disminuye la calidad, porque la proteína recombinante obtiene una mezcla de diferentes variantes de la PDI, por ejemplo, versiones truncadas o mutadas de la PDI, o PDI con dominios y regiones duplicados, etc.
En segundo lugar, se reconoce habitualmente que un alto número de copias de un casete de expresión no es garantía de una alta tasa de expresión de la PDI. Probablemente, un número demasiado alto del casete de expresión da como resultado algún tipo de sobrecarga o sobretensión de la maquinaria molecular necesaria para la expresión de proteínas de la célula hospedadora modificada y, por lo tanto, la tasa de expresión de la PDI disminuye una vez que el número de copia del casete de expresión dentro de la célula hospedadora supera un umbral determinado.
Sumario de la invención:
El principio básico de la presente invención es introducir varios casetes de expresión en una célula cuyos casetes de expresión codifican todos la misma proteína recombinante madura de interés, pero cuyos casetes de expresión tienen diferentes secuencias de nucleótidos. Una de las principales ventajas de la presente invención es su aplicabilidad universal, que no se limita a un determinado tipo de células, sino que puede utilizarse para células procariotas así como eucariotas.
Por ejemplo, los casetes de expresión pueden tener diferentes promotores, diferentes terminadores, diferentes secuencias señal, etc. y la secuencia que codifica la PDI puede ser la misma en los casetes de expresión, o puede ser diferente en los diferentes casetes de expresión, sin embargo, la secuencia de aminoácidos de la PDI es siempre la misma. Los casetes de expresión pueden tener diferentes secuencias de nucleótidos que codifican la misma PDI con la misma secuencia de aminoácidos utilizando el código genético degenerado. El mismo aminoácido puede ser codificado por hasta 6 codones diferentes y, por lo tanto, es posible tener la misma secuencia de aminoácidos codificada por secuencias de nucleótidos bastante diferentes. Además, si el mismo elemento vectorial, como un casete de expresión, un marcador de selección, un origen de replicación, etc., se utiliza dos veces dentro de un vector o se utiliza en más de un vector, dicho elemento vectorial puede utilizarse en diferentes orientaciones dentro de las secuencias vectoriales. Esto aumenta aún más las diferencias de las secuencias vectoriales y, por lo tanto, disminuye la probabilidad de recombinación de dichos elementos vectoriales dentro de una célula hospedadora transfectada que comprende estos dos o más elementos vectoriales idénticos. Esto aumenta aún más la estabilidad genética de dicha célula hospedadora.
Esta estrategia tiene al menos dos ventajas principales. Por un lado, los casetes de expresión ahora tienen secuencias de nucleótidos bastante diferentes y, por lo tanto, es menos probable que se recombinen entre sí. Esto puede dar como resultado un genoma más estable de la célula modificada, lo que a su vez permite tener un mayor número de copias de los casetes de expresión dentro de la célula modificada. Por otro lado, es menos probable que la maquinaria de síntesis de proteínas de una célula modificada se vea sobrecargada o sobretensionada debido a las altas tasas de expresión de la PDI, porque la célula modificada utiliza en paralelo:
• Diferentes promotores, que a su vez utilizan diferentes conjuntos de factores de transcripción, que pueden evitar posibles cuellos de botella debido a la falta de cantidades suficientes de ciertos factores de transcripción
• Diferentes secuencias señal, lo que da como resultado el uso en paralelo de diferentes mecanismos de secreción de PDI, que pueden evitar posibles cuellos de botella en las vías de secreción
• Secuencia codificante diferente de las PDI, que a su vez utilizan diferentes proporciones de ARNt para la síntesis de PDI, que puede evitar posibles cuellos de botella en el suministro de ciertos ARNt
• Diferentes secuencias terminadoras, lo que da como resultado el uso en paralelo de diferentes mecanismos de terminación/factores de terminación, que pueden evitar posibles cuellos de botella en las vías de terminación
Además de estos dos aspectos, la presente invención tiene además una tercera ventaja. El experto no está obligado a averiguar en una serie de experimentos, qué combinación de promotor y PDI funciona mejor en una determinada célula hospedadora que se va a modificar, debido a que siempre se utiliza un conjunto de diferentes tipos de promotores en paralelo e incluso si un promotor individual en una determinada combinación de PDI/célula hospedadora no funciona bien, esto no necesariamente tiene un gran efecto en la tasa de expresión general de la PDI, ya que se utilizan otros promotores diferentes al mismo tiempo que pueden compensar al promotor no óptimo. Esto puede dar como resultado, p. ej., tiempos de desarrollo más rápidos para las células hospedadoras modificadas adecuados para una expresión recombinante rentable y eficaz de una PDI.
El concepto de varios vectores usados en paralelo, donde cada vector comprende un único casete de expresión diferente para la misma PDI, tiene la ventaja adicional de que es más flexible en comparación con el concepto también posible de usar vectores que comprenden varios casetes de expresión diferentes dentro del mismo vector. Con un conjunto de diferentes vectores con casete de expresión único, el experto puede probar fácil y rápidamente varias combinaciones de diferentes casetes de expresión, e incluso puede variar fácilmente la abundancia relativa de los casetes de expresión individuales, simplemente transfectando simultáneamente los diferentes vectores en diferentes cantidades (cantidad de ADN transfectado de cada vector con casete de expresión único) en una célula hospedadora. Esto permite ajustar el número de copia de los casetes de expresión individuales para obtener un resultado óptimo con respecto a la estabilidad genética de la célula hospedadora y/o con respecto a la tasa de expresión de la PDI.
Se pueden obtener ventajas similares si los casetes de expresión tienen las mismas secuencias promotoras. Por ejemplo, los casetes de expresión tienen las mismas secuencias promotoras, diferentes secuencias de nucleótidos que codifican la misma secuencia de aminoácidos maduros de la PDI, y opcionalmente diferentes secuencias terminadoras y/o diferentes secuencias señal, si están presentes.
También los diferentes ARNm como resultado de diferentes secuencias codificantes de la PDI tienen diferentes secuencias de nucleótidos y, por lo tanto, pueden tener diferentes estabilidades, semividas y diferentes estructuras secundarias que pueden o no interferir con la traducción eficaz del ARNm en una PDI. Este mecanismo evita que la tasa de expresión general sea baja solo porque, por casualidad, una determinada versión de ARNm es inestable o tiene una estructura tridimensional desfavorable, porque otras versiones de ARNm más adecuadas están presentes al mismo tiempo y compensan eso.
En general, cuantas más copias de un ácido nucleico que codifica una PDI se utilicen para transfectar una célula hospedadora, mayor será la tasa de expresión. Sin embargo, un experto en el campo de la expresión de proteínas recombinantes sabe que hay un cierto umbral para eso, lo que significa que para un cierto número de copias la tasa de expresión ya no aumenta, sino que en su lugar puede ciertamente disminuir. El número de copias óptimo generalmente se determina empíricamente para cada célula o PDI. Es probable que también se observe el mismo efecto utilizando la estrategia de expresión de proteínas de la invención divulgada en el presente documento. Se espera que aumentar el número de copias de casetes de expresión individuales de la invención a un cierto umbral del número de copias ya no aumente la tasa de expresión de proteínas. Además, se espera que aumentar el número de casetes de expresión diferentes que codifican la misma secuencia de aminoácidos de la PDI también tenga un cierto número umbral, y que aumentar adicionalmente el número de dichos casetes de expresión diferentes no aumente adicionalmente la cantidad de PDI expresada. El experto en el campo de la expresión de proteínas recombinantes sabe cómo determinar empíricamente el número óptimo de un casete de expresión para una determinada PDI en un determinado tipo de célula hospedadora, por ejemplo, simplemente midiendo la cantidad de PDI expresada y comparándola con el número de copias de los casetes de expresión detectados en la misma célula hospedadora.
Una de las principales ventajas de la presente invención es su aplicabilidad universal, independiente del tipo de células utilizadas. La invención es utilizable para todo tipo de células, eucariotas así como procariotas. Se puede utilizar, por ejemplo, con células de mamíferos, células de levaduras, células fúngicas, bacterias, etc.
En la técnica anterior no hay constancia de este concepto. La única estrategia de expresión de proteínas que va remotamente en la dirección de la invención descrita en el presente documento es el concepto de expresar varias PDI diferentes al mismo tiempo en la misma célula hospedadora, por ejemplo, la cadena alfa y beta de un receptor de linfocitos T (WO 2016/073794), la cadena ligera y pesada de un anticuerpo (WO 03/018771), L- y H-ferritina (J. Microbiol. Biotechnol, 2008, 18: 926-932), Kudlaet al.(Science, 2009, vol. 324, no. 5924, páginas 255-258) divulgan la configuración y el cribado de una colección sintética de genes GFP variados, WO 2008/077881 se refiere a un sistema de cribado con el fin de encontrar la secuencia codificante óptima de un gen de interés que se va a expresar, etc. Sin embargo, estos conceptos en la técnica anterior son claramente diferentes a la invención presente en varios aspectos:
• La intención principal no es obtener células hospedadoras que sean genéticamente más estables con menos recombinación no deseada y asimismo el concepto no es obtener mayores tasas de expresión introduciendo más copias de ácidos nucleicos en las células hospedadoras, que codifican para la misma PDI.
• La única razón para la expresión de dos o más PDI diferentes simultáneamente en una célula hospedadora, como se describe en la técnica anterior, es obtener complejos de proteínas construidos a partir de diferentes PDI, que en un caso ideal incluso son ensamblados por la célula hospedadora para obtener el complejo proteico final, tal como un receptor de linfocitos T o un anticuerpo.
• La intención principal en la técnica anterior no es obtener la máxima expresión de PDI, sino expresar las diferentes PDI en una proporción cuantitativa estequiométrica correcta para fomentar el correcto ensamblaje del complejo proteico. Por esta razón, en la técnica anterior se utiliza un vector, que contiene dos casetes de expresión dentro del mismo vector, en donde cada casete de expresión da como resultado la expresión de una de las dos cadenas polipeptídicas del complejo proteico multimérico, muy a menudo un fragmento de anticuerpo compuesto por dos cadenas polipeptídicas. Al combinar ambos casetes de expresión en el mismo vector, el problema de expresar ambas cadenas polipeptídicas en cantidad equimolar es mucho más fácil de resolver.
El documento WO 2016/005931 describe un método para aumentar la expresión de proteínas enE.coliutilizando un sistema de expresión de cistrones dual e independiente en donde ambos cistrones se ubican dentro de un vector. El objetivo principal de esta solicitud es aumentar la expresión de proteínas, especialmente fragmentos de anticuerpos tales como los fragmentos de Fab que consisten en dos secuencias polipeptídicas. También se divulga el uso del sistema de expresión de cistrones dual para la expresión de una sola proteína de interés. Sin embargo, también este concepto es diferente de la presente invención en varios aspectos:
• No se divulga el uso de más de dos cistrones y solo se divulga el uso de un vector que contenga estos dos cistrones. No se divulga el uso de más de dos cistrones ni el uso alternativo de varios vectores en paralelo, donde cada vector contenga un cistrón.
• La razón de utilizar dos cistrones es expresar simultáneamente dos cadenas de polipéptidos separadas necesarias para un complejo proteico, tal como un anticuerpo, y aumentar la cantidad de proteína recombinante.
• Solo se divulga la expresión de proteínas como cuerpos de inclusión en células bacterianas.
Realizaciones de la invención:
En el presente documento se proporciona una célula hospedadora que comprende tres o más tipos diferentes de casetes de expresión, codificando cada casete de expresión la misma Proteína De Interés (PDI) con idéntica secuencia de aminoácidos madura, y comprendiendo cada tipo de casete de expresión al menos una secuencia promotora, una secuencia polinucleotídica de la secuencia que codifica la PDI y una secuencia terminadora, en donde dichos casetes de expresión difieren en, que comprenden
a) diferentes secuencias promotoras,
y opcionalmente
(b) diferentes secuencias de nucleótidos que codifican la misma secuencia de aminoácidos madura de la PDI debido al uso de código genético degenerado, y/o
(c) diferentes secuencias terminadoras, y/o
d) diferentes secuencias señal, si están presentes,
preferentemente
una célula hospedadora que comprende tres o más tipos diferentes de casetes de expresión, codificando cada casete de expresión la misma Proteína De Interés (PDI) con idéntica secuencia de aminoácidos madura, y comprendiendo cada tipo de casete de expresión al menos una secuencia promotora, una secuencia polinucleotídica de la secuencia que codifica la PDI y una secuencia terminadora, en donde dichos casetes de expresión difieren en, que comprenden
1. (A)
(Aa) diferentes secuencias promotoras,
(Ab) diferentes secuencias de nucleótidos que codifican la misma secuencia de aminoácidos madura de la PDI debido al uso de código genético degenerado, y opcionalmente
(Ac) diferentes secuencias terminadoras, y/o
(Ad) diferentes secuencias señal, si están presentes,
o en donde dichos casetes de expresión difieren en que comprenden
2. (B)
(Ba) las mismas secuencias promotoras,
(Bb) diferentes secuencias de nucleótidos que codifican la misma secuencia de aminoácidos madura de la PDI debido al uso de código genético degenerado, y opcionalmente
(Bc) diferentes secuencias terminadoras, y/o
(Bd) diferentes secuencias señal, si están presentes.
En algunas realizaciones, dicha célula hospedadora expresa cantidades más altas de dicha PDI en comparación con una célula hospedadora que comprende el mismo número de casetes de expresión con secuencias promotoras idénticas, en donde dichas cantidades más altas de dicha PDI se determinan, por ejemplo, midiendo dicha PDI utilizando medidas ELISA, inmunoelectrotransferencias medidas densitométricamente, geles SDS-PAGE teñidos con plata o azul coomassie medidos densitométricamente, espectrometría de masas cuantitativa o cuantificación del área por debajo del pico de dicha PDI después de la separación cromatográfica de dicha PDI de una muestra. La cantidad de dicha PDI es al menos un 5 %, 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 100 %, 150 %, 200 %, 300 %, 400 % o al menos un 500 % mayor en comparación con una célula hospedadora que comprende el mismo número de casetes de expresión pero con secuencias promotoras idénticas. La cantidad de dicha PDI aumenta en al menos un 50 %, preferentemente en al menos un 30 %, más preferentemente en al menos un 20 %, de la manera más preferente en al menos un 10 %. En otra parte del presente documento se describen métodos adecuados para determinar la cantidad de expresión de PDI.
En algunas realizaciones, dicha célula hospedadora es más estable en comparación con una célula hospedadora que comprende el mismo número de casetes de expresión pero con secuencias promotoras idénticas en donde la estabilidad genética se determina, por ejemplo, determinando el número de copia de la GOP dentro de las células hospedadoras después de al menos 100 generaciones de células hospedadoras, por ejemplo, mediante PCR cuantitativa, o determinando la longitud correcta de los productos de PCR obtenidos mediante el uso de cebadores de PCR específicos para GOP, o secuenciando el genoma de la célula hospedadora. En otra parte del presente documento se describen métodos adecuados para determinar la estabilidad del genoma de las células hospedadoras.
En algunas realizaciones, la estabilidad genética se mide determinando cuánta variación genética con respecto a dichos casetes de expresión está presente en dichas células hospedadoras después de al menos 20, 30, 40, 50, 60, 70, 80, 90, 100, 150, 200, 300, 400, o al menos 500 generaciones de células procariotas o después de al menos 20, 30, 40, 50, 60, 70, 80, 90, 100, 150, 200, 300, 400, o al menos 500 generaciones de células eucariotas. La variación genética de las células procariotas, especialmente de las células deEscherichia coli,se mide después de al menos 200 generaciones de células, preferentemente después de al menos 150 generaciones de células, más preferentemente después de al menos 100 generaciones de células, de la manera más preferente después de al menos 50 generaciones de células. La variación genética de las células de levadura, preferentemente de las células deSaccharomyces cerevisiaeoPichia pastoris,más preferentemente de las células dePichia pastoris,se mide después de al menos 160 generaciones de células, preferentemente después de al menos 120 generaciones de células, más preferentemente después de al menos 80 generaciones de células, de la manera más preferente después de al menos 40 generaciones de células. La variación genética de las células de mamífero, tales como células CHO, se mide después de al menos 150 generaciones de células, preferentemente después de al menos 120 generaciones de células, más preferentemente después de al menos 90 generaciones de células, de la manera más preferente después de al menos 60 generaciones de células.
En algunas realizaciones, dicha estabilidad genética está indicada por un cambio del genoma de la célula hospedadora que afecta a una secuencia de nucleótidos con una longitud de al menos 5 a 20, preferentemente de al menos 5 a 100, más preferentemente al menos 5 a 500, de la manera más preferente de al menos 5 a 1500 nucleótidos.
En algunas realizaciones, el promotor se selecciona de la lista que comprende un promotor unidireccional, un promotor bidireccional y/o un promotor que controla la expresión de dos o más PDI, por ejemplo, mediante el uso de secuencias IRES.
En algunas realizaciones, dicha secuencia promotora tiene una longitud de al menos 10, 15, 20, 30, 40, 50, 100, 150, 200, 250, 300, 400, 500, 600, 700, 800, 900, 1000, 1200, 1400, 1600, 1800, 2000, 2500 o al menos 3000 nucleótidos. Dicha secuencia promotora tiene una longitud de al menos 50, preferentemente al menos 20, más preferentemente al menos 15, de la manera más preferente de al menos 10 nucleótidos para células procariotas. Dicha secuencia promotora en el caso de las células de levadura, preferentemente en el caso dePichia pastorisoSaccharomyces cerevisiae,más preferentemente en el caso dePichia pastoris,tiene una longitud de al menos 500, preferentemente al menos 300, más preferentemente al menos 200, de la manera más preferente al menos 100 nucleótidos. Dicha secuencia promotora para células de mamíferos tales como CHO tiene una longitud de al menos 500, preferentemente al menos 300, más preferentemente al menos 200, de la manera más preferente al menos 100 nucleótidos para células de mamíferos tales como las células CHO.
En algunas realizaciones, dicho promotor es un promotor activo constitutivo, o en donde dicho promotor es un promotor inducible.
En algunas realizaciones, al menos un casete de expresión comprende un promotor inducible y al menos un casete de expresión comprende un promotor activo de manera constitutiva.
En algunas realizaciones, la secuencia terminadora está presente en al menos tres, preferentemente al menos dos, más preferentemente al menos una copia, y en donde dichas secuencias terminadoras son las mismas o diferentes secuencias terminadoras, si hay más de una secuencia terminadora presente.
En algunas realizaciones, la secuencia señal comprende una secuencia señal de secreción y/o una secuencia de direccionamiento intracelular, que dirige la PDI a un cierto compartimiento, orgánulo o ubicación deseados de la célula, por ejemplo, en el caso de las células bacterianas al periplasma.
En algunas realizaciones, dicha secuencia señal es una secuencia señal diferente con respecto a su secuencia de aminoácidos, y/o en donde dicha secuencia señal tiene la misma secuencia de aminoácidos pero está codificada por una secuencia de nucleótidos diferente.
En algunas realizaciones, la célula hospedadora comprende al menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 o 15 casetes de expresión.
En algunas realizaciones, al menos un casete de expresión codifica dos o más PDI con idéntica secuencia de aminoácidos madura, en donde entre las secuencias que codifican dichas dos o más PDI se ubica una secuencia IRES, o una secuencia que funciona como una secuencia IRES. Las alternativas para las secuencias IRES que funcionan como secuencias IRES son, por ejemplo, las secuencias 2A, P2A, T2A y las secuencias F2A (S.C.L. Hoet al.,PLOS, 2013, Vol. 8, Número 5, e63247).
En algunas realizaciones, rige el punto (b) y dichas diferentes secuencias de nucleótidos de la secuencia que codifica la PDI están codificadas por un código genético degenerado, donde el código genético degenerado da como resultado al menos un 50 % de la diferencia máxima teórica posible de la secuencia de nucleótidos para esa secuencia de nucleótidos que codifica la PDI particular con el fin de obtener una secuencia de aminoácidos madura idéntica de dicha PDI particular. En algunas realizaciones, rige el punto (b) y dichas diferentes secuencias de nucleótidos de la secuencia que codifica la PDI están codificadas por un código genético degenerado, donde el código genético degenerado da como resultado al menos un 5 %, 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, al menos un 90 % o un 100 % de la diferencia máxima teórica posible de la secuencia de nucleótidos para esa secuencia de nucleótidos que codifica la PDI particular con el fin de obtener una secuencia de aminoácidos madura idéntica de dicha PDI particular.
En algunas realizaciones, el promotor, dicho terminador, y/o dichas secuencias señal, si están presentes, difieren al menos en un 20 %, preferentemente al menos un 30 %, más preferentemente al menos un 40 %, de la manera más preferente al menos un 50 % en cuanto a su secuencia de nucleótidos.
En algunas realizaciones, dichas secuencias promotoras difieren en al menos un 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, al menos un 80 % en cuanto a su secuencia de nucleótidos, y/o en donde dichas secuencias terminadoras difieren en al menos un 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, al menos un 80 % en cuanto a su secuencia de nucleótidos, y/o en donde dicha secuencia señal, si está presente, difiere en al menos un 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, al menos un 80 % en cuanto a su secuencia de nucleótidos.
En algunas realizaciones, la PDI es heteróloga respecto a dicha célula hospedadora.
En algunas realizaciones, rige el punto (b) y dichas diferentes secuencias de nucleótidos de las secuencias que codifican la PDI tienen al menos una longitud de 30, preferentemente al menos 60, más preferentemente al menos 90 nucleótidos. En algunas realizaciones, rige el punto (b) y dichas diferentes secuencias de nucleótidos de la secuencia que codifica la PDI tienen al menos una longitud de 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 250, 300, 350, 400, 450, 500, 750, 1000, 1500, al menos de 2000 nucleótidos. Las secuencias de nucleótidos tienen preferentemente una longitud de secuencia de al menos 180, preferentemente de al menos 120, más preferentemente de al menos 60, de la manera más preferente de al menos 30 nucleótidos.
En algunas realizaciones, la célula hospedadora es
(i) una célula eucariota, preferentemente seleccionada entre
(a) células fúngicas filamentosas, preferentementeAspergillus, TrichodermaoPenicillium,
(b) células de levadura, preferentementePichia pastoris, Saccharomyces cerevisiaeoY. lipolytica,más preferentementePichia pastoris,
(c) células de mamíferos, preferentemente células CHO (ovario de hámster chino),
(d) células humanas, preferentemente células HEK293 (HEK = siglas en inglés de riñón embrionario humano),
(e) células de insecto, preferentemente células sf5, sf21 o High Five (sf =Spondoptera frugiperda),o (ii) una célula procariótica, preferentemente una célula bacteriana, más preferentementeEscherichia coli.
En algunas realizaciones, dicha célula hospedadora es una célula CHO, dePichia pastorisoEscherichia coli,preferentemente dicha célula hospedadora es una célula CHO o dePichia pastoris. En algunas realizaciones, dicha célula hospedadora es una célula CHO.
En algunas realizaciones, dicha célula hospedadora es una célula dePichia pastoris.
En algunas realizaciones, dicha célula hospedadora es una célula deEscherichia coli.
En el presente documento se proporciona también un método para generar una célula hospedadora que comprende el paso de transfectar dicha célula hospedadora con al menos tres secuencias de ácido nucleico diferentes, en donde cada secuencia de ácido nucleico comprende al menos un casete de expresión diferente que codifica la misma secuencia de aminoácidos madura de dicha PDI.
En algunas realizaciones, la transfección de dicha célula hospedadora se realiza con al menos 2, 3, 4, 5, 6, 7, 8, 9 o al menos 10 secuencias de ácido nucleico diferentes, por ejemplo, diferentes vectores. Dicha transfección se realiza con al menos 6, preferentemente con al menos 4, más preferentemente con al menos 3, de la manera más preferente con al menos 2 ácidos nucleicos diferentes.
En el presente documento se proporciona un método para generar una célula hospedadora que comprende un paso de transfección de dicha célula hospedadora con al menos una secuencia de ácido nucleico, en donde dicha secuencia de ácido nucleico comprende al menos tres casetes de expresión diferentes, y cada uno de dichos casetes de expresión codifica la misma secuencia de aminoácidos madura de dicha PDI.
En algunas realizaciones, la transfección de dicha célula hospedadora se realiza con una secuencia de ácido nucleico donde la secuencia de ácido nucleico comprende al menos 2, 3, 4, 5, 6, 7, 8, 9 o al menos 10 casetes de expresión diferentes. Dichos ácidos nucleicos comprenden al menos 6, preferentemente al menos 5, más preferentemente al menos 4, de la manera más preferente al menos 3 casetes de expresión.
En el presente documento se proporciona un ácido nucleico que comprende al menos tres casetes de expresión como se han definido anteriormente.
En el presente documento se proporciona un ácido nucleico que comprende al menos 2, 3, 4, 5, 6, 7, 8, 9 o al menos 10 casetes de expresión como se han definido anteriormente. Dichos ácidos nucleicos comprenden al menos 6, preferentemente al menos 5, más preferentemente al menos 4, de la manera más preferente al menos 3 casetes de expresión.
En el presente documento se proporciona un vector que comprende al menos tres casetes de expresión como se han definido anteriormente.
En algunas realizaciones, el vector comprende además un marcador de selección con antibióticos o un marcador de selección metabólica o auxótrofa.
En algunas realizaciones, dicho marcador de selección con antibióticos en el caso de las células bacterianas es preferentemente una resistencia a la Ampicilina, Kanamicina, Zeocina, Geneticina (G418), Neomicina, Glifosato, Puromicina, Higromicina B, Fleomicina, Blasticidina, Ácido Micofenólico, etc.
En algunas realizaciones, dicho marcador de selección metabólica en el caso de las células CHO es preferentemente dihidrofolato-reductasa (DHFR), glutamina-sintetasa (GS), receptor de ácido fólico (foIR), etc.
En algunas realizaciones, dicho marcador de selección metabólica en el caso de las células de levadura es preferentemente LEU2, HIS3, URA3, ADE, 5-FOA (Ácido 5-Fluoroorótico), etc. (Brachmannet. al.,1998, Yeast, 14:115-132), y/o preferentemente dicho marcador de selección con antibióticos es Zeocina, G418 (Geneticina), Fleomicina, Higromicina B, Puromicina, Blasticidina, Ácido Micofenólico, etc.
Aquí se proporciona un vector que comprende al menos 3, 4, 5, 6, 7, 8, 9, o al menos 10 casetes de expresión con diferentes promotores, en donde dichos casetes de expresión carecen de un gen de interés y opcionalmente en la posición del gen de interés ausente se inserta un sitio de clonación o un sitio de clonación múltiple. Dicho vector comprende al menos 6, preferentemente al menos 5, más preferentemente al menos 4, de la manera más preferente al menos 3 casetes de expresión.
En el presente documento se proporciona un kit que comprende al menos tres ácidos nucleicos, en donde dichos ácidos nucleicos son preferentemente vectores, y en donde cada ácido nucleico comprende al menos un casete de expresión como se ha definido anteriormente.
En algunas realizaciones, dicho kit comprende al menos 3, 4, 5, 6, 7, 8, 9 o al menos 10 ácidos nucleicos.
En algunas realizaciones, dichos ácidos nucleicos son vectores.
En el presente documento se proporciona un kit que comprende un ácido nucleico como se ha definido anteriormente o un vector como se ha definido anteriormente.
En algunas realizaciones, dicho ácido nucleico comprende al menos 3, 4, 5, 6, 7, 8, 9 o al menos 10 casetes de expresión. En algunas realizaciones, dicho ácido nucleico es un vector.
En algunas realizaciones, dicho vector o dichos vectores son vectores como se han definido anteriormente.
En algunas realizaciones, el kit comprende además instrucciones en forma de folleto en papel, un manual electrónico o en otra forma, donde las instrucciones explican cómo usar dicho kit.
En el presente documento se proporciona un proceso para la producción de una PDI mediante el uso de una célula hospedadora como se ha definido anteriormente, un ácido nucleico como se ha definido anteriormente, un vector como se ha definido anteriormente o un kit como se ha definido anteriormente.
En algunas realizaciones, dicha PDI es una proteína monocatenaria, o se origina a partir de un precursor de un polipéptido monocatenario, tal como, por ejemplo, la insulina.
En algunas realizaciones, dicha proteína monocatenaria es una proteína que
a) está presente en la naturaleza como una proteína monocatenaria;
b) está presente en la naturaleza como una proteína que comprende al menos dos cadenas polipeptídicas, pero dicha proteína en la naturaleza se origina a partir de una proteína precursora monocatenaria, p. ej., la insulina (el precursor de la insulina es una única cadena, la insulina con el procesamiento final comprende dos cadenas conectadas por puentes disulfuro);
c) es una proteína de fusión que está compuesta de diferentes proteínas;
d) es una proteína de fusión que está compuesta de partes de la misma proteína;
e) es una proteína de fusión que está compuesta de partes de diferentes proteínas; o
f) está presente en la naturaleza como una proteína que comprende al menos dos cadenas polipeptídicas, pero que fue producida mediante el uso de técnicas de biología molecular de una manera que resulta en una proteína monocatenaria, tal como, por ejemplo, un anticuerpo monocatenario.
Definiciones y términos en el significado de la presente invención:
El término «y/o» donde se utilice en el presente documento incluye el significado de «y», «o» y «todos o cualquier otra combinación de los elementos conectados por dicho término». Por ejemplo, A, B y/o C significa A, B, C, A+B, A+C, B+C y A+B+C.
«Célula hospedadora» se refiere a la célula que se utiliza para la expresión de una proteína recombinante. La célula hospedadora puede ser cualquier tipo de células tales como células bacterianas, células de levadura, células fúngicas, células de mamífero, células humanas, líneas celulares tales como células cancerosas o células que han sido modificadas experimentalmente para dar como resultado células inmortalizadas (= células que se dividen un número ilimitado de veces, lo mismo que las células cancerosas), etc.
«Casete de expresión» se refiere a una secuencia de polinucleótidos que comprende al menos una secuencia promotora, un codón de inicio, una secuencia de polinucleótidos que codifica una proteína que está destinada a expresarse de manera recombinante (PDI), un codón de parada y un terminador. Un casete de expresión puede comprender secuencias reguladoras adicionales y de otro tipo, tales como potenciadores, secuencias señal, potenciadores, intrones, secuencias IRES, etc. Una célula hospedadora que comprende tres o más casetes de expresión diferentes puede ser una célula hospedadora que ha sido transfectada con tres o más vectores, comprendiendo cada vector un casete de expresión diferente. La célula hospedadora resultante puede comprender dichos vectores presentes como plásmidos dentro de su citosol, o puede haber integrado dichos casetes de expresión y opcionalmente partes adicionales de dichos vectores en su genoma. También podría ser que algunos de los vectores transfectados estén integrados (de manera parcial o completa) en el genoma de dichas células hospedadoras, mientras que otros de dichos vectores transfectados están presentes como plásmidos dentro del citosol de dicha célula hospedadora. O bien, dicho hospedador también puede haber sido transfectado con al menos un vector que comprende al menos tres casetes de expresión diferentes dentro de dicho vector, o con mezclas de vectores que comprenden casetes de expresión individuales y al mismo tiempo transfectado con vectores que comprenden dos o más casetes de expresión diferentes.
La «transfección» con un GDI (es decir, un casete de expresión de un GDI) o con un vector (es decir, un vector que comprende al menos un casete de expresión de un GDI) puede dar lugar a células hospedadoras transfectadas (o células hospedadoras transformadas, que es lo mismo), en donde dichas células hospedadoras han integrado dicho GDI o dicho vector en su cromosoma (si dicha célula tiene solo un cromosoma), o dichas células hospedadoras han integrado dicho GDI o dicho vector en varios o todos sus cromosomas (si dicha célula hospedadora tiene más de un cromosoma). Dicho GDI o vector puede integrarse una o varias veces en dicho cromosoma, preferentemente se integra varias veces en un cromosoma. Preferentemente está integrado en más de un cromosoma de la misma célula hospedadora. Si un vector se integra en un cromosoma, la secuencia completa o solo una parte de la secuencia de dicho vector puede integrarse en dicho cromosoma, pero al menos el casete de expresión de dicho GDI presente en dicho vector está integrado en dicho cromosoma. Como alternativa, dicho vector puede no integrarse en un cromosoma de dicha célula hospedadora, sino que puede existir fuera de un cromosoma dentro del citosol de dicha célula hospedadora, por ejemplo, en forma de un ácido desoxipolinucleico bicatenario circular. Si dicha célula hospedadora es un eucariota, más preferentemente si dicha célula hospedadora es una célula de mamífero o de levadura o fúngica, de la manera más preferente se dice que la célula hospedadora es una célula CHO o una célula dePichia pastoris,preferentemente dicho GDI o dicho vector se integra en un cromosoma de dicha célula hospedadora. Si dicha célula hospedadora es un procariota, preferentemente una célula bacteriana, más preferentemente una célula deE. coli,dicho vector preferentemente no está integrado en el cromosoma de dicha célula hospedadora, sino que se encuentra en el citosol de dicha célula hospedadora.
Si un casete de expresión comprende dos o más secuencias polinucleotídicas que codifican la proteína que se pretende expresar de manera recombinante (PDI) y dichas dos o más secuencias polinucleotídicas se expresan debido a la función de un único polinucleótido promotor dentro de dicho casete de expresión, se sigue considerando dicho casete de expresión como un solo casete de expresión. Tal casete de expresión, por ejemplo, podría generarse a partir del uso de secuencias IRES, o del uso de un promotor bidireccional. Un promotor bidireccional es un promotor que es el resultado en la expresión de dos secuencias codificantes, donde una de las cuales se ubica en 5' respecto al promotor y otra se ubica en 3' respecto al promotor.
Otras partes de un vector utilizado de acuerdo con la invención, cuyas partes no son directamente necesarias para la expresión de la PDI, tales como, por ejemplo, el origen de la replicación (ori), el gen de resistencia a antibióticos o el marcador de selección metabólica, etc., no se consideran parte del casete de expresión. Sin embargo, también algunas o todas estas partes del vector pueden ser diferentes en diferentes vectores. Por ejemplo, si se utilizan varios vectores individuales de acuerdo con la invención, cada uno de estos vectores puede contener un gen de resistencia a antibióticos diferente o un marcador de selección metabólica diferente o un origen de replicación (ori) diferente, etc. Como alternativa, el gen de resistencia a antibióticos y/o el marcador de selección metabólica, etc. pueden ser la misma proteína, pero la secuencia de ácido nucleico dentro del vector que codifica dicha proteína puede ser diferente debido al código genético degenerado, pero aún así codificar la misma proteína de resistencia a antibióticos o proteína marcadora de selección metabólica.
«Codificante»: Un polinucleótido o secuencia «codifica» si da como resultado, cuando se combina con secuencias reguladoras apropiadas tales como un promotor, un codón de inicio, un codón de parada y un terminador, etc., la expresión de una proteína o polipéptido o péptido que comprenda al menos 10, al menos 20, al menos 30, al menos 50 o al menos 100 aminoácidos conectados a través de enlaces peptídicos.
«Secuencia codificante» o «región codificante» se refiere a aquellas partes de un polinucleótido, que codifican la secuencia de aminoácidos de la secuencia de aminoácidos madura. «Secuencia de aminoácidos madura» se explica unos pocos párrafos más adelante.
«Marco de lectura abierto» se refiere a aquellas partes de un polinucleótido que codifican las secuencias de aminoácidos, independientemente de si estas secuencias de aminoácidos están presentes en la secuencia de aminoácidos madura final o si estas secuencias de aminoácidos se eliminan durante el procesamiento de la PDI, por ejemplo, secuencias de aminoácidos de un péptido señal, que se eliminan de la PDI para obtener la «secuencia de aminoácidos madura».
«Proteína de interés», también abreviada PDI, es una proteína, polipéptido o péptido que comprende al menos 10, al menos 20, al menos 30, al menos 50, al menos 100, al menos 150, al menos 200, al menos 250 aminoácidos conectados a través de enlaces peptídicos, donde se prevé que la PDI se exprese de forma recombinante mediante el uso de una célula hospedadora. La PDI está codificada por un “Gen De Interés» (GDI). La secuencia de aminoácidos de la PDI se considera la «secuencia de aminoácidos madura».
La PDI puede ser una proteína, polipéptido o péptido, que está presente en la naturaleza, o una proteína, polipéptido o péptido, que no está presente en la naturaleza, por ejemplo, una proteína de fusión de dos péptidos, polipéptidos, proteínas, dominios de proteínas, etc. presentes en la naturaleza, donde dicha proteína de fusión no está presente en la naturaleza. Por ejemplo, la PDI puede ser una proteína presente en la naturaleza fusionada con una etiqueta de His, o fusionada con otros péptidos que tienen como finalidad marcar, o purificar la proteína de fusión, o proteínas de fusión que comprenden dominios de dos o más proteínas presentes en la naturaleza, donde los dominios normalmente no están presentes en la naturaleza dentro de una proteína, polipéptido o péptido, o una secuencia no humana que ha sido «humanizada» como, por ejemplo, anticuerpos humanizados, etc. Los anticuerpos humanizados son, por ejemplo, anticuerpos murinos, cuya parte constante de la secuencia de aminoácidos ha sido reemplazada por la parte correspondiente de la secuencia de aminoácidos de un anticuerpo humano. Por lo tanto, «secuencia de aminoácidos madura» en general se refiere a la secuencia final de aminoácidos destinada a ser producida por la persona que diseñó o realizó el experimento para obtener la PDI.
En consecuencia, la secuencia de aminoácidos madura de una PDI puede ser:
• la secuencia de una proteína, tal como está presente en la naturaleza;
• un fragmento o dominio de la secuencia de una proteína, donde dicho fragmento o dominio no se encuentra en la naturaleza;
• un muíante de una secuencia de una proteína, donde dicho muíante no se encuentra en la naturaleza;
• una proteína de fusión, por ejemplo, obtenida mediante la adición de péptidos utilizados para la detección o purificación de la proteína de fusión;
• una proteína de fusión, por ejemplo, construida a partir de dominios de proteínas de dos o más proteínas diferentes;
• una proteína de fusión, por ejemplo, construida mediante dominios de proteínas, que se han reorganizado, en comparación con su disposición natural;
• una proteína que ha sido diseñada completamente desde cero por el hombre;
• etc.
«Secuencia de aminoácidos madura» se refiere, por ejemplo, a la secuencia de aminoácidos de una proteína después de que haya experimentado en su totalidad los pasos de procesamiento de la proteína, polipéptido o péptido no recombinante correspondiente con respecto a su secuencia de aminoácidos. Por ejemplo, se han eliminado las secuencias señal de secreción, se ha convertido la forma «pre-» o «prepro-» de, por ejemplo, una proteína en la secuencia final de la proteína, polipéptido o péptido, o se han eliminado las secuencias internas de la secuencia de aminoácidos durante el procesamiento. Por ejemplo, en el caso de la insulina esto significa: preproinsulina: eliminación de la secuencia señal = proinsulina; proinsulina: eliminación del péptido C interno = insulina = la secuencia de aminoácidos madura en este caso.
«Proteína recombinante madura» se refiere a una proteína recombinante que comprende una secuencia de aminoácidos madura, como se ha definido anteriormente. Los intrones en general no codifican una parte de la proteína, el polipéptido o el péptido maduros.
«Secuencias de procesamiento» se refiere a secuencias de aminoácidos, que se eliminan de la proteína, el polipéptido o el péptido para obtener una secuencia de aminoácidos madura, tales como secuencias señal de secreción, secuencias señal para el direccionamiento proteico intracelular, preprosecuencias, prosecuencias, etc.
La secuencia de la PDI puede comprender o puede carecer parcial o completamente de secuencias de procesamiento. Dichas secuencias de procesamiento están a menudo presentes en proteínas presentes en la naturaleza (proteínas nativas, proteínas naturales) y a menudo son necesarias para el procesamiento correcto de la proteína nativa, o para la ubicación física correcta de la proteína nativa en la ubicación correcta dentro o fuera de la célula, o para el transporte de la proteína nativa, etc. Una secuencia transmembrana generalmente no se elimina durante el procesamiento de una proteína, polipéptido o péptido y, por lo tanto, normalmente no se considera una secuencia de procesamiento. Una secuencia transmembrana solo se considera entonces secuencia de procesamiento si la PDI solo se ubica transitoriamente en la membrana celular mediante el uso de dicha secuencia transmembrana y dicha secuencia transmembrana se elimina del resto de la PDI durante el procesamiento de la PDI para obtener la PDI.
«Promotor» o «secuencias promotoras» se refiere a una región de un polinucleótido, que inicia la transcripción de un gen o, en el caso de la presente invención, inicia la transcripción de una secuencia de nucleótidos que codifica una PDI. El promotor puede ser un «promotor inducible» o «promotor constitutivo». Las secuencias IRES y secuencias que funcionan como secuencias IRES no se consideran un promotor o una secuencia promotora. «Promotor inducible» se refiere a un promotor que puede ser inducido por la presencia o ausencia de ciertos factores de inducción, y «promotor constitutivo» se refiere a un promotor no regulado que está activo en todo momento, independientemente de la presencia de ciertos factores de inducción, que permite la transcripción continua de su gen o genes asociados. Opcionalmente, un promotor puede iniciar la transcripción de dos o más genes si, por ejemplo, estos dos o más genes están separados por una secuencia IRES. Opcionalmente, un promotor puede iniciar la transcripción de dos genes, si dicho promotor por ejemplo es un promotor bidireccional.
«Código genético degenerado» significa que para un determinado aminoácido hay más de un codón de nucleótidos. Por ejemplo, el aminoácido cisteína puede ser codificado por los siguientes dos codones diferentes: TGC o TGT, el aminoácido arginina puede ser codificado por los siguientes 6 codones: CGG, CGA, CGC, CGT, AGG, AGA, etc. Como consecuencia, la misma secuencia de aminoácidos puede estar codificada por diferentes secuencias de nucleótidos. Si solo se intercambian los codones individuales, pero no el aminoácido que estos codones codifican. El código genético degenerado es el mismo para casi todos los organismos con algunas excepciones. Por ejemplo, las mitocondrias humanas tienen un código genético diferente. En esta solicitud de patente, «código genético degenerado» siempre se refiere al código genético de la célula específica o el orgánulo específico (tal como una mitocondria), que se pretende utilizar para expresar la PDI.
«Terminador» significa lo mismo que «terminador de la transcripción». De acuerdo con la invención, un terminador es una sección de la secuencia de ácidos nucleicos que marca el final de la secuencia de ácido nucleico necesaria para codificar una PDI. Por lo general, dicho terminador se ubica a poca distancia en dirección 3' del codón de parada del GDI. En procariotas, la terminación incluye la terminación de la transcripción independiente de Rho así como la dependiente de Rho. Las secuencias de terminación procariotas utilizadas de acuerdo con la invención son preferentemente secuencias de terminación independientes de Rho, tales como las secuencias de terminación de T7 y rrnB. La terminación independiente de Rho también se conoce como terminación intrínseca. Preferentemente en un casete de expresión se utilizan una o dos secuencias terminadoras. Dos secuencias terminadoras combinadas aumentan la eficiencia de la terminación. Si se utilizan secuencias IRES, preferentemente se coloca más de una secuencia terminadora entre dos secuencias que codifican la PDI. Las secuencias terminadoras de mamíferos son, por ejemplo, secuencias terminadoras de SB40, hGH, BGH o rbGlob.
«Secuencia señal» se refiere a una secuencia de aminoácidos que generalmente se necesita para dirigir una proteína, polipéptido o péptido que va a ser secretado en la región extracelular, y dicha secuencia señal generalmente se elimina de la secuencia de aminoácidos madura por proteólisis. También hay secuencias señal que dirigen la proteína, el polipéptido o el péptido a ciertos orgánulos de la célula. Las células bacterianas también utilizan secuencias señal, por ejemplo, secuencias señal que dirigen una PDI al periplasma. Las secuencias señal generalmente se ubican en el extremo N-terminal de una secuencia de aminoácidos, pero también pueden estar presentes en el extremo C-terminal o pueden estar presentes internamente, dentro de la secuencia polipeptídica.
Las secuencias «IRES», también llamadas secuencias de «sitio interno de entrada al ribosoma» son secuencias de nucleótidos dentro del ARNm, que permiten el inicio de la traducción dentro de la secuencia de ARNm y no dependen del extremo 5' del ARNm para el inicio de la traducción. Por lo tanto, las secuencias IRES permiten expresar dos o más PDI a partir de un ARNm. Son alternativas para las secuencias IRES con la misma función principal que las secuencias IRES, por ejemplo, las secuencias 2A, P2A, T2A y F2A.
La secuencia proteica, polipeptídica, peptídica «heteróloga» se refiere a que la secuencia de aminoácidos codificada por una secuencia de nucleótidos no está presente de manera natural en la célula hospedadora. Si una secuencia de aminoácidos, que está presente de manera natural en la célula hospedadora se muta (p. ej., mutaciones puntuales, inserciones, deleciones, fusiones, etc.), la secuencia mutada resultante también se considera una secuencia heteróloga.
La secuencia polinucleotídica o nucleotídica «heteróloga» se refiere a que la secuencia polinucleotídica o nucleotídica no está presente de forma natural en la célula hospedadora. Si una secuencia polinucleotídica o nucleotídica presente de manera natural en la célula hospedadora se modifica mediante el intercambio de nucleótidos individuales de manera que dicha secuencia polinucleotídica o nucleotídica siga codificando la misma secuencia de aminoácidos, tal secuencia polinucleotídica o nucleotídica modificada se considera heteróloga.
Los términos «diferencia de secuencia», y términos como «difiere», «diferente», «que difiere», etc., si se mencionan en relación con secuencias de aminoácidos o secuencias de ácido nucleico, deben determinarse, por ejemplo, de la siguiente manera:
En la presente invención, se hace referencia, p. ej., a «diferentes secuencias promotoras» o diferentes secuencias de nucleótidos que codifican la (misma) secuencia de aminoácidos madura de la PDI. Así, para determinar si dichas secuencias son «diferentes», se comparan las respectivas secuencias correspondientes (secuencias de aminoácidos o secuencias de nucleótidos) con respecto a su identidad secuencial. Por ejemplo, se comparan las secuencias promotoras o las secuencias de nucleótidos que codifican la secuencia de aminoácidos madura de la PDI.
Si se comparan dos o más secuencias con respecto a su identidad secuencial, la comparación solo considera que un nucleótido o aminoácido es idéntico si exactamente el mismo nucleótido o aminoácido está presente en una posición determinada. Especialmente para las comparaciones de secuencias de aminoácidos, debe distinguirse claramente entre la identidad secuencial y la homología secuencial. En la presente solicitud de patente en el contexto de comparaciones de secuencias, siempre se hace referencia a la identidad secuencial, no la homología secuencial, excepto si se menciona expresamente lo contrario. Homología significa, por ejemplo, que el aminoácido en una determinada posición dentro de una secuencia no es idéntico, sino que solo es similar en cuanto a sus características químicas y/o biológicas y/o físicas. Son ejemplos de tales aminoácidos, que comúnmente se consideran homólogos:
• aminoácidos con carga positiva: Arginina, Histidina, Lisina, o
• aminoácidos con carga negativa: Ácido Aspártico, Ácido Glutámico, o
• aminoácidos polares sin carga: Serina,Treonina, Asparagina, Glutamina, o
• aminoácidos aromáticos: Fenilalanina, Tirosina, Triptófano, o
• aminoácidos alifáticos: Glicina, Alanina, Valina, Leucina, Isoleucina, o
• aminoácidos que contienen azufre: Cisteína, Metionina, o
• alfa-aminoácido secundario heterocíclico: Prolina
Las alineaciones secuenciales o las diferencias de secuencia, por ejemplo, se pueden determinar con varios métodos, software y algoritmos. Tales determinaciones pueden realizarse, por ejemplo, utilizando los servicios web del Instituto Nacional de la Salud (NIH, por sus siglas en inglés), https://blast.ncbi.nlm.nih.gov/Blast.cqi, o utilizando los servicios web del Instituto Europeo de Bioinformática (EMBL-EBI, por sus siglas en inglés), http://www.ebi.ac.uk/Tools/psa/. «Identidad secuencial» o «% de identidad» se refiere al porcentaje de coincidencias de residuos entre dos secuencias de proteínas, polipéptidos, péptidos, aminoácidos o nucleótidos alineados utilizando un algoritmo estandarizado. Un algoritmo de este tipo puede insertar, de forma estandarizada y reproducible, huecos en las secuencias que se comparan con el fin de optimizar la alineación entre dos secuencias y, por lo tanto, lograr una comparación más significativa de las dos secuencias. Debido a los diferentes algoritmos y configuraciones de software, es posible que una alineación o comparación secuencial de las mismas dos secuencias utilizando diferentes softwares/algoritmos no dé exactamente el mismo resultado. Por lo tanto, deben proporcionarse el software y la configuración del software con el fin de definir claramente cómo se obtuvieron los resultados.
Para los propósitos de la presente invención, la identidad secuencial entre dos secuencias se determina utilizando el programa BLAST de NCBI versión 2.6.0 (10-enero-2017), BLAST = siglas en inglés de Herramienta Básica de Búsqueda de Alineación Local, (Altschulet al.,Nucleic Acid Res. (1997) 25:3389-3402). Como secuencia de referencia se utiliza siempre la más corta de las dos secuencias promotoras que se comparan. Por ejemplo, si un determinado promotor Xcorto con una longitud de secuencia de 100 nucleótidos se alinea/compara con el mismo promotor Xlargo, que es el mismo promotor pero una versión más larga de dicho promotor de 200 nucleótidos, una comparación de las dos secuencias Xcorto y Xlargo da el siguiente resultado: Si la secuencia más corta Xcorto es la secuencia de referencia, que se compara con la versión más larga de la secuencia, concretamente, Xlargo, entonces Xcorto es idéntico en un 100 % a Xlargo. Sin embargo, si la secuencia más larga Xlargo es la referencia y se compara con Xcorto, entonces Xlargo es solo idéntico en un 50 % a Xcorto. En consecuencia, en la presente solicitud de patente se consideraría siempre una comparación de la secuencia Xcorto y la secuencia Xlargo como idéntica en un 100 % y no idéntica en un 50 %, porque como secuencia de referencia dentro de estas solicitudes siempre se utiliza la secuencia más corta de las secuencias promotoras que se comparan.
La identidad secuencial de dos secuencias de aminoácidos, por ejemplo, se puede determinar con blastp, donde se establecen los siguientes parámetros predeterminados del algoritmo: «Secuencias diana máx» = 100, «Problemas cortos» = «Ajuste automático a los parámetros para secuencias de entrada cortas», «Umbral esperado» = 10, «Tamaño de palabra» = 6, «Coincidencias máx en un intervalo problema» = 0, «Matriz» = BLOSUM62, «Costes de hueco» = «Existencia: 11 Extensión: 1», «Ajustes de composición» = «Ajuste de matriz de puntuación de composición condicional», Filtros y máscaras: «Regiones de baja complejidad», «Máscara solo para tabla de búsqueda», «Máscara de letras minúsculas», los tres filtros desactivados.
La identidad secuencial de dos secuencias de nucleótidos, por ejemplo, se puede determinar con blastn, donde se establecen los siguientes parámetros predeterminados del algoritmo: «Secuencias diana máx» = 100, «Problemas cortos» = «Ajuste automático a los parámetros para secuencias de entrada cortas», «Umbral esperado» = 10, «Tamaño de palabra» = 28, «Coincidencias máx en un intervalo problema» = 0, «Calificaciones de coincidencia/no coincidencia» = 1 2, «Costes de hueco» = «Lineal», Filtros y máscaras: «Regiones de baja complejidad», «Máscara solo para tabla de búsqueda», ambos filtros activados.
Si se mencionan nucleótidos de secuencias de nucleótidos, las abreviaturas A, T, G, C y U representan los diferentes nucleótidos. Siempre que se menciona T o U como nucleótido, T y U pueden intercambiarse entre sí, a menos que esto no tenga sentido desde un punto de vista experimental o científico. Si los términos secuencia de nucleótidos, polinucleótido, etc. se utilizan dentro de la aplicación, siempre se entiende ADN y/o ARN, o ácidos desoxinucleicos y/o desoxirribonucleicos, en la medida en que esto tenga sentido desde un punto de vista experimental o científico.
El uso del código genético degenerado permite tener varias secuencias de nucleótidos diferentes, todas las cuales codifican una secuencia de aminoácidos idéntica. El número de diferencias entre dos secuencias de nucleótidos que codifican la misma proteína madura depende de la secuencia de aminoácidos de dicha proteína madura. De manera muy simplificada, todos los aminoácidos están codificados por tres nucleótidos, y el último nucleótido del codón de la mayoría de los aminoácidos puede variar entre Guanina (G), Citosina (C), Alanina (A) y Timidina (T). Así que la mayoría de los aminoácidos tienen cuatro codones diferentes, cada uno de los cuales codifica el mismo aminoácido. Como consecuencia, un polipéptido maduro de, por ejemplo ,100 aminoácidos de longitud es codificado por 300 nucleótidos, y cada tercer nucleótido puede ser mutado sin cambiar la secuencia de aminoácidos. Así que en este modelo simplificado se pueden intercambiar 100 nucleótidos del total de 300 nucleótidos debido al código degenerado sin cambiar la secuencia de aminoácidos correspondiente. Este modelo simplificado da como resultado una diferencia teórica máxima de la secuencia de nucleótidos de un 33,3 %. Si se desea un 50 % de la diferencia teórica máxima de la secuencia de nucleótidos, un 50 % de estos 100 nucleótidos, es decir, 50 nucleótidos pueden ser intercambiados por otros nucleótidos, lo que da como resultado una diferencia de la secuencia de nucleótidos de un 16,65 %.
En realidad, este cálculo es un poco más difícil. Por ejemplo, la secuencia de nucleótidos máxima de la siguiente secuencia peptídica se puede calcular de la siguiente manera:
Tabla 1:
Como resultado, la secuencia de nucleótidos del péptido de muestra Pep1 tiene 24 de 30 posiciones nucleotídicas, que pueden ser intercambiadas por al menos un nucleótido diferente sin cambiar la secuencia de aminoácidos. La secuencia máxima de nucleótidos diferentes es 24 / 30 = 0,8, lo que significa una diferencia máxima de secuencia de nucleótidos de un 80 %.
Si se calcula lo mismo para el péptido Pep2, el resultado es el siguiente: la Metionina y el Triptófano tienen cada uno un solo codón, lo que significa que ningún nucleótido puede intercambiarse sin cambiar el aminoácido codificado. Todos los demás aminoácidos tienen dos, tres o cuatro codones diferentes, pero todos los codones tienen el primer y segundo nucleótido fijo, con lo que solo puede variar el tercer nucleótido.
Como resultado, la secuencia de nucleótidos de Pep2 tiene solo 7 de 30 nucleótidos, que pueden intercambiarse sin cambiar la secuencia de aminoácidos codificada. La secuencia máxima de nucleótidos diferentes es, por lo tanto, 7 / 30 = 0,23, lo que significa una diferencia máxima de secuencia de nucleótidos de un 23 %.
Por lo tanto, la variación máxima de la secuencia de nucleótidos sin cambiar la secuencia de aminoácidos depende en gran medida de la secuencia de aminoácidos de la PDI. Si, por ejemplo, está previsto, que la diferencia de nucleótidos debe ser un 50 % de la diferencia máxima posible de la secuencia de nucleótidos para seguir obteniendo una secuencia de aminoácidos madura idéntica, este valor de un 50 % para Pep 1 sería de un 50 % de un 80 % = 40 %, mientras que el valor de un 50 % para Pep2 sería de un 50 % de un 23 % = 11,5 %.
Con esta estrategia, un experto puede calcular fácilmente para cualquier PDI el % de variación de la secuencia de nucleótidos madura, lo cual es posible, si, por ejemplo, se desea un 50 % de la diferencia máxima posible de la secuencia de nucleótidos, con el fin de obtener una secuencia de aminoácidos madura idéntica de la PDI.
La «estabilidad genética» o, como alternativa, también denominada «estabilidad genómica» de acuerdo con la invención significa que la secuencia de ácido nucleico que pertenece al genoma de una célula hospedadora no «cambia significativamente» con el tiempo, p. ej., durante un cierto número de generaciones celulares o divisiones celulares de dicha célula hospedadora. Tales cambios pueden ser el resultado, por ejemplo, de eventos de recombinación homóloga de secuencias de nucleótidos muy similares o idénticas. Si, por ejemplo, varias copias idénticas de un casete de expresión se han integrado en el genoma de una célula hospedadora, la probabilidad de que más adelante estas secuencias de nucleótidos idénticas se recombinen con cada una puede aumentar. Tales eventos de recombinación, por ejemplo, pueden dar lugar a la deleción parcial o completa, duplicación o multiplicación de dichos casetes de expresión. También puede producirse un reordenamiento de dichos cambios de la ubicación del casete de expresión dentro de un cromosoma o cambios respecto a su orientación dentro de un cromosoma.
Un «cambio significativo» en cuanto a la estabilidad genética significa reordenamientos más grandes del genoma de una célula hospedadora, tales como deleción, duplicación, multiplicación, reordenamiento, reubicación, deleción parcial, duplicación parcial, multiplicación parcial, reordenamiento parcial, reubicación parcial, etc. de secuencias de nucleótidos dentro del genoma de la célula hospedadora. Tales inestabilidades genéticas pueden afectar preferentemente a secuencias de nucleótidos de casetes de expresión introducidos en el genoma de la célula hospedadora con el fin de que dicha célula hospedadora exprese una PDI. Un cambio significativo del genoma de la célula hospedadora puede afectar a una secuencia de nucleótidos con una longitud de al menos 5 a 20, preferentemente de al menos 5 a 100, más preferentemente al menos 5 a 500, de la manera más preferente de al menos 5 a 1500 nucleótidos.
Un número limitado de mutaciones puntuales de, por ejemplo, casetes de expresión, solo se consideran cambios poco importantes del genoma de la célula hospedadora. Este número limitado de mutaciones puntuales son comunes en la naturaleza y, normalmente, pueden ocurrir en cualquier célula con el tiempo, especialmente durante la división celular y el envejecimiento celular. Este número limitado de mutaciones puntuales no se considera una alteración de la estabilidad genética y no se considera que cambie significativamente las secuencias de ácido nucleico.
El genoma de la célula hospedadora de acuerdo con la invención se considera como los cromosomas, los cromosomas de las mitocondrias y los plásmidos extracromosómicos presentes en la célula hospedadora antes de la introducción de casetes de expresión que codifican una PDI. De acuerdo con la invención, los ácidos nucleicos tales como ARNm, ARNt, ARNr, etc. no se consideran pertenecientes al genoma de dicha célula hospedadora.
No todos los tipos de estos ácidos nucleicos que pertenecen al genoma están presentes en todos los tipos de células hospedadoras. Por ejemplo, las células hospedadoras bacterianas generalmente no contienen cromosomas mitocondriales.
«Generaciones de células» significa que una generación de células es la duplicación del número de una determinada célula hospedadora. Dependiendo del tipo de célula hospedadora, una generación de células puede tardar solo unos minutos, por ejemplo, en el caso de una célula hospedadora bacteriana, o puede tardar varias horas o incluso varios días, por ejemplo, en el caso de células de mamífero.
Una «proteína monocatenaria», de acuerdo con la invención, incluye proteínas que comprenden una única cadena de aminoácidos. Las proteínas que se modifican durante el procesamiento postraduccional de un precursor monocatenario, pero que consisten en varias cadenas de aminoácidos, finalmente conectadas a través de puentes disulfuros, tales como, por ejemplo, la insulina humana, se siguen considerando proteínas monocatenarias de acuerdo con esta invención. Estas proteínas monocatenarias, que después del procesamiento postraduccional comprenden dos o más cadenas de aminoácidos, pueden identificarse fácilmente analizando el marco de lectura abierto de la secuencia de nucleótidos codificantes de dicha proteína monocatenaria. Un marco de lectura abierto es un tramo continuo de codones que no contienen un codón de parada (generalmente un TAA, TAG o TGA en el caso de ácidos desoxirribonucleicos, o UAA, UAG o UGA en el caso de ácidos ribonucleicos) dentro de una secuencia de nucleótidos. El marco de lectura abierto puede codificar una única cadena polipeptídica que más adelante, durante el procesamiento de dicha cadena polipeptídica, puede ser procesada en una proteína que comprende dos o más cadenas polipeptídicas. Tal proteína, de acuerdo con esta invención, se sigue considerando una proteína monocatenaria.
Un «vector», de acuerdo con la invención es preferentemente un desoxipolinucleótido circular bicatenario, que puede ser linealizado, por ejemplo, por digestión con una endonucleasa de restricción que reconoce solo el sitio dentro de la secuencia de nucleótidos de dicho vector. Un vector puede ser producido por técnicas de biología molecular, o puede ser sintetizado química o enzimáticamente, utilizando técnicas conocidas en la técnica
Un «gen de resistencia» o «marcador de resistencia» se refiere a un gen que codifica una proteína que hace que una célula hospedadora sea resistente a la actividad de una sustancia tóxica, preferentemente un antibiótico.
Por lo general, «marcador metabólico» se refiere a un gen que codifica una proteína que proporciona a la célula hospedadora la capacidad de sintetizar un determinado metabolito, tal como, por ejemplo un determinado aminoácido, metabolito que es necesario para el crecimiento o la supervivencia de la célula hospedadora.
Por lo general, un «marcador seleccionable» es un gen de resistencia, un marcador metabólico o un marcador auxotrófico, pero también puede ser, por ejemplo, un gen que permite reconocer una célula hospedadora que alberga dicho gen, por ejemplo, un gen que codifica una proteína coloreada, o que codifica una enzima que genera o metaboliza una sustancia coloreada, o una enzima tal como la luciferasa que emite luz al metabolizar un sustrato, etc.
Un kit de acuerdo con la invención es un conjunto de materiales adecuados para, por ejemplo, expresar una proteína recombinante o una PDI. Un kit normalmente puede contener materiales tales como células hospedadoras, vectores de expresión de proteínas, cebadores de PCR adecuados para detectar partes de dichos vectores de expresión de proteínas, medios de cultivo adecuados para cultivar dichas células huésped, agentes químicos y tampones adecuados para transfectar con vectores células hospedadoras, enzimas para realizar reacciones de PCR, enzimas para cortar vectores circulares y obtener vectores lineales, manuales de instrucciones que explican cómo usar dicho kit o que explican para qué fines dicho kit es adecuado, etc.
«Derivados de células» o derivados de líneas celulares, o «derivados de células hospedadoras» o «derivados de líneas celulares hospedadoras» son células que se originaron a partir de células o células hospedadoras, en donde dichas células o células hospedadoras han sido manipuladas de manera que, por ejemplo, contengan o carezcan de ciertos genes de resistencia, contengan o carezcan de ciertos genes metabólicos, contengan o carezcan de ciertos genes que permitan distinguir dichas células o células hospedadoras de sus correspondientes células o células hospedadoras no modificadas. Por lo general, los derivados de células o células hospedadoras son genéticamente casi idénticos a la célula o célula hospedadora correspondiente de la que se originaron (sus células progenitoras), pero solo son diferentes en cuanto a uno o muy pocos genes, tales como los tipos de genes mencionados anteriormente.
Descripción detallada de la invención:
Las células hospedadoras de acuerdo con la invención en principio pueden ser cualquier tipo de células, tales como líneas celulares o células primarias o incluso mezclas de diferentes tipos de células o muestras de tejidos, órganos u organismos multicelulares enteros. Preferentemente las células son líneas celulares procariotas o eucariotas.
Si las células procariotas se utilizan de acuerdo con la invención, las células son preferentemente bacterias tales comoEscherichia coli,tales como BL21, BL21(DE3), W3110, MG1655, RB791, RV308, oBacillus megaterium,tales como QM B1551, PV361, DSM319, oPseudomonas,tales comoP. aeruginosa, P. putida, P. fluorescens, P. alcaligenes, P. aeruginosaPAO1-LAC,P. putidaKT2440, oStreptomyces,tales como S.coelicolorA3, S.avermitilis, S. griseus, S. scabies, S. lividansTK24, S.lividans1326. Los ejemplos deE. coliincluyen los derivados de la cepa K12 deEscherichia coli,específicamente HMS 174, HMS174 (DE3), NM533, XL1-Azul, C600, DH1, HB101, JM109, así como los derivados de las cepas B, específicamente BL-21, BL21 (DE3) y similares. En general, también los derivados, tales como las células procariotas modificadas, tales como las bacterias, son adecuados para su uso en la invención. Tal modificación, por ejemplo, puede ser la deleción o inactivación de proteasas, o la deleción o inactivación de otros genes.
Si las células eucariotas se utilizan de acuerdo con la invención, las células son preferentemente células de levadura, células fúngicas filamentosas, células de insecto, células de mamífero o células humanas.
Las células de levadura son preferentemente levaduras metilotróficas (= células de levadura que pueden utilizar metanol como una fuente de carbono y energía) tales comoKomagataella pastoris=Pichia pastoris, P. methanolica, H. polymorpa, O. minuta, C. biodiniio levaduras no metilotróficas tales comoSaccharomyces cerevisiae, Kluyveromyces lactis, P. Stipitis, Yarrowia lipolytica, Z. rouxii, Z. bailii, A. adeninivorans, Kluyveromyces marxianus, Schizosaccharomyces pombeyArxula adeninivorans.Son ejemplos de las cepas dePichia pastorisútiles en la presente invención X33 y sus subtipos GS115, KM71, CBS7435 (mut+) y sus subtipos CBS7435 muts, CBS7435 mutsdeltaArg, CBS7435 mutsdeltaHis, CBS7435 mutsdeltaArg, deltaHis, CBS7435 muts PDI+, CBS 704 (=NRRL Y-1603 = DSMZ 70382), CBS 2612 (=NRRL Y-7556), CBS 9173-9189 y DSMZ 70877, PPS-9010 (disponible en ATUM, anteriormente DNA2,0, Newark, CA, EE. UU.) y PPS-9016 (disponible en ATUM, anteriormente DNA2,0, Newark, CA, EE. UU.), así como mutantes de estas. En general, también los derivados de tales células de levadura, tales como, por ejemplo, las células de levadura modificadas, son adecuados para su uso en la invención. Tal modificación, por ejemplo, podría ser la deleción o inactivación de las proteasas de levadura, o la deleción o inactivación de otros genes tales como, por ejemplo, el gen tipo ssn6 (para más detalles véase el documento WO2016139279A1) o la deleción de los denominados plásmidos asesinos del genoma de levadura, especialmente del genoma deP. pastoriso de S.cerevisiae(Sturmbergeret al.,J Biotechnol., 2016, 235:121-131).
Las células fúngicas filamentosas son preferentementeAspergillustales como,A. niger, A. oryzae, A. terreus, A. awamori, A. nidulans,oTrichodermatales como,T. reesei, T. reeseiQM9414,T. reeseiRUT-C30,T. reesi T. atroviride, T. harzianum, T. virens, T. asperellum, T. longibrachiatum, oPenicilliumtales comoP. purpurogenum, P. funiculosum, Penicillium (Talaromyces) emersonii, P. camembertiyP. roquefortiy sus derivados.
Las células de insecto son preferentemente células Sf9 o Sf21 (ambas deSpondoptera frugiperda),células High-Five (igual que Hi5, igual que las High-Five BTI-TN-5B1-4) o células Tn-368 (ambas deTrichoplusia ni),o células Se301 (deSpondoptera exigua)y sus derivados.
Las células de mamíferos son preferentemente células CHO (ovario de hámster chino = CHO), como CHO-K1, CHO-DXB11, CHO-S, CHO-DG44 y sus derivados.
Las células humanas son preferentemente células HEK293 (riñón embrionario humano = HEK), tales como HT-1080, PER.C6, HKB-11, CAP y HuH-7 y sus derivados.
Las células y las líneas celulares se pueden obtener de diversas fuentes, tales como colecciones de cultivos tisulares, tales como la Colección de Cultivos Tipo Estadounidense (ATCC), 10801 University Boulevard, Manassas, VA 20110, EE. UU., Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH (DSMZ), InhoffenstralJe 38124 Braunschweig, Alemania, Centraalbureau voor Schimmelcultures (CBS), Uppsalalaan, 3584 CT Utrecht (Utrecht), Países Bajos, El Centro de Depósito Genético de coli (CGSC), 730 Torre de Biología Kline, Depto. de Biología Molecular y de Desarrollo, 266, Whitney, Whitney, 8. PO BOX 208103, Universidad de Yale, New Haven, CT 06520-8103, EE. UU. o de proveedores comerciales tales como Merck KGaA, Frankfurter StralJe 250, 64293 Darmstadt, Alemania, GE Healthcare, Chalfont St Giles, Buckinghamshire, Gran Bretaña, Thermo Fischer Scientific, 168 Third Avenue, Waltham, MA EE. UU. 02451, etc.
Tabla 2:
Tabla 3:
Tabla 4:
Las técnicas de biología molecular, tales como clonación, transfección, determinación del número de copias de los casetes de expresión transfectados, diseño y síntesis química de vectores, uso y elección de elementos de los vectores tales como orígenes de replicaciones, resistencias a antibióticos, marcadores de selección, promotores, secuencias señal, terminadores, etc., técnicas de cultivo celular, técnicas de expresión de proteínas, incluidas las técnicas víricas, por ejemplo, utilizadas para el sistemaBacculovirus,etc., determinación cuantitativa y semicuantitativa de la expresión de proteínas, etc., son todos métodos estándar de laboratorio y con los que el experto está familiarizado. Los protocolos se pueden obtener de libros de texto estándar y manuales de laboratorio, por ejemplo, de M.R.Green, J.Sambrook, 2013, Molecular cloning: a laboratory manual, Cold Spring Harbor, N.Y.; Current Protocols in Protein Science, John Wiley & Sons Inc. ISSN 1934-3655; Current Protocols in Molecular Biology, John Wiley & Sons Inc. ISSN 1934-3639; Advanced Technologies for Protein Complex Production and Characterization, editora M. Cristina Vega, Springer, 2016, ISSN 0065 2598; Bacculovirus and Insect Cell Expression protocols, tercera edición, editor David W. Murhammer, Humana Press, 2016, ISSN 1064-3745; Recombinant Gene Expression, Reviews and Protocol, Third Edition, Editor A. Lorence, Humana Press, ISSN 1064-3745, etc.
Medida de la expresión de la célula hospedadora de la PDI
Con el fin de determinar si una célula hospedadora transfectada con diferentes casetes de expresión de acuerdo con la invención expresa mayores cantidades de dicha PDI en comparación con una célula hospedadora que comprende el mismo número de casetes de expresión con secuencias de los casetes de expresión idénticas, se conocen varios sistemas de prueba estándar tales como ELISA (ensayo de inmunoadsorción enzimática), ensayos ELIspot (ensayo de puntos de inmunoadsorción enzimática), ensayos de resonancia de plasmones superficiales (Biacore Life Science, ahora GE Healthcare), ensayos de chip de proteínas, PCR cuantitativa con transcriptasa inversa (qRT-PCR), medida densitométrica de inmunoelectrotransferencias, geles de SDS-PAGE teñidos con azul de coomassie o plata, espectrometría de masas cuantitativa, cálculo del área del pico bajo el pico de PDI correspondiente de un cromatograma de una muestra de PDI, etc.). El experto conoce protocolos adecuados para llevar a cabo dichos métodos y estos se pueden consultar, por ejemplo, en M.R. Green, J. Sambrook, 2013, Molecular cloning: a laboratory manual, Cold Spring Harbor, N.Y., o en Current Protocols in Protein Science, John Wiley & Sons Inc. ISSN 1934-3655.
Medida de la estabilidad genética
La estabilidad genética, por ejemplo, se puede medir determinando el número de copias de diferentes casetes de expresión de acuerdo con la invención en las células hospedadoras de la invención en comparación con el número de copias de expresión idéntica que se conocen en la técnica en casetes en células hospedadoras. Los números de copia de los casetes de expresión, por ejemplo, se pueden determinar mediante PCR cuantitativa (qPCR). Los cebadores para qPCR se pueden diseñar de manera que amplifiquen la totalidad o una parte de los casetes de expresión. Si el número de copias de los casetes de expresión se modifica después de varias generaciones de células, esto es prueba de inestabilidad genómica. Además, la longitud de la secuencia de los productos de qPCR se puede determinar, por ejemplo, mediante electroforesis en gel de agarosa. Si se produjeron deleciones o duplicaciones de partes de los productos de expresión, la longitud de la secuencia de los productos de qPCR se modifica en consecuencia, lo que también indica inestabilidad genómica. Otros métodos para determinar el número de copias de los casetes de expresión son, por ejemplo, las transferencias de Southern o la hibridaciónin situfluorescente (FISH). El experto conoce protocolos adecuados para llevar a cabo dicho método y estos se pueden consultar, por ejemplo, en M.R. Green, J. Sambrook, 2013, Molecular cloning: a laboratory manual, Cold Spring Harbor, N.Y., o en Current Protocols in Molecular Biology, John Wiley & Sons Inc. ISSN 1934-3639.
Breve descripción de las figuras
Figura 1:Mapas vectoriales de los vectores utilizados para la transfección de células de levadura(Pichia pastoris),en donde el vector comprende 1, 2, 3 o 4 casetes de expresión para la PDI y en donde dentro de un vector para cada casete de expresión de PDI siempre se utilizan diferentes secuencias para la secuencia promotora, la secuencia señal, la secuencia del GDI (secuencias codificantes diferentes pero que dan como resultado, debido al código genético degenerado, siempre la misma secuencia de aminoácidos de la PDI; GDI denominado variante 1 a variante 4, que se abrevian de var1 a var4), y la secuencia terminadora. Cada vector de levadura comprende como esqueleto del vector un casete de expresión de resistencia al antibiótico Zeocin que comprende el promotor híbrido que funciona en levadura así como enE. co li(pILV5 combinado con pEM72), seguido de la secuencia que codifica la resistencia al antibiótico Zeocin (ZeoR), seguido del terminador de alcohol-oxidasa (AODTT), seguido del origen de la replicación de pUC (pUC ori). Solo en el caso de Y392_1*GDI, al pUC ori le sigue la secuencia terminadora de proteína de tipo lectina (LLPTT).
Figura 1A:
El vector de levadura Y391_1 x GDI, además del esqueleto del vector, contiene el siguiente casete de expresión para un GDI, que en este caso es un anticuerpo monocatenario (scFV):
• Promotor de la proteína de tipo lectina (pLLP), como gen de interés (GDI) un anticuerpo monocatenario (scFv_var4), secuencia terminadora de la alcohol-deshidrogenasa (ADHTT)
Figura 1B:
El vector de levadura Y393_2 x GDI, además del esqueleto del vector, contiene el siguiente casete de expresión para un GDI, que en ambos casos codifica la misma secuencia de aminoácidos de un anticuerpo monocatenario (scFV):
• Promotor de la gliceraldehído-3-fosfato--deshidrogenasa (pGAP), secuencia señal del factor de acoplamiento alfa 2 (MFa2SS), como variación 1 del gen de interés del mismo anticuerpo monocatenario (scFv_var 1), secuencia terminadora de la proteína de tipo lectina (LLPTT)
• Promotor de la proteína de tipo lectina (pLLP), como variación 2 del gen de interés del mismo anticuerpo monocatenario (scFv_var 4), secuencia terminadora de la alcohol-deshidrogenasa (ADHTT)
Figura 1C:
El vector de levadura Y394_3 x GDI, además del esqueleto del vector, contiene el siguiente casete de expresión para un GDI, que en los tres casos codifica la misma secuencia de aminoácidos de un anticuerpo monocatenario (scFV):
• Promotor de alcohol-deshidrogenasa (pADH), secuencia señal de la albúmina sérica humana (HSASS), anticuerpo monocatenario, variante 2 (scFv_var2), secuencia terminadora del citocromo c1 (cyc1TT)
• Promotor de la gliceraldehído-3-fosfato--deshidrogenasa (pGAP), secuencia señal del factor de acoplamiento alfa 2 (MFa2SS), anticuerpo monocatenario, variante 1 (scFv_var1), secuencia terminadora de la proteína de tipo lectina (LLPTT)
• Promotor de la proteína de tipo lectina (pLLP), secuencia señal de la proteína de tipo lectina (LLPSS), anticuerpo monocatenario, variante 4 (scFv_var4), secuencia terminadora de la alcohol-deshidrogenasa (ADHTT)Figura 1D:
El vector de levadura Y395_4 x GDI, además del esqueleto del vector, contiene el siguiente casete de expresión para un GDI, que en los cuatro casos codifica la misma secuencia de aminoácidos de un anticuerpo monocatenario (scFV):
• Promotor de alcohol- deshidrogenasa (pADH), secuencia señal de la albúmina sérica humana (HSASS), anticuerpo monocatenario, variante 2 (scFv_var2), secuencia terminadora del citocromo c1 (cyc1TT)
• Promotor de la gliceraldehído-3-fosfato--deshidrogenasa (pGAP), secuencia señal del factor de acoplamiento alfa 2 (MFa2SS), anticuerpo monocatenario, variante 1 (scFv_var1), secuencia terminadora de la proteína de tipo lectina (LLPTT)
• Promotor de la proteína de tipo lectina (pLLP), secuencia señal de la proteína de tipo lectina (LLPSS), anticuerpo monocatenario, variante 4 (scFv_var4), secuencia terminadora de la alcohol-deshidrogenasa (ADHTT)
• Promotor del factor de transelongación (pTEF), secuencia señal del factor de acoplamiento alfa 4 (MFa4SS), anticuerpo monocatenario, variante 3 (scFv_var3), secuencia terminadora de la alcohol-oxidasa (AOXTT)Figura 2:
Secuencias de los vectores de expresión de la Figura 1.
1. A) Vector de levadura Y391_1*GDI (SEQ-ID NO.: 1)
2. B) Vector de levadura Y393_2*GDI (SEQ-ID NO.: 2)
3. C) Vector de levadura Y394_3xGDI (SEQ-ID NO.: 3)
4. D) Vector de levadura Y395_4xGDI (SEQ-ID NO.: 4)
Figura 3:
Mapas vectoriales de los vectores utilizados para la transfección de células de mamíferos (células CHO), comprendiendo cada vector un casete de expresión único, en donde los casetes de expresión comprenden como GDI la secuencia de una proteína de fusión que consiste en una región constante de un anticuerpo fusionada al dominio de unión al ligando de un receptor de TNF 2. Además, cada vector comprende el marcador de selección metabólica dihidrofolato-reductasa (DHFR), una enzima que, por ejemplo, permite que las células CHO (ovario de hámster chino) crezcan en un medio de cultivo celular que carece de timidina, lo que permite seleccionar CHO (u otras células) transfectadas con vectores que comprenden DHFR entre células no transfectadas. Además, cada vector comprende la secuencia del gen de resistencia a la neomicina (NeoR), que permite seleccionar células transformadas utilizando el antibiótico neomicina. Además, cada vector comprende otro gen de resistencia a antibióticos seleccionado entre resistencia a la ampicilina (AmpR), resistencia a la espectromicina (SpectR) y resistencia al cloranfenicol (CmR). Cada vector comprende un promotor diferente, una secuencia señal diferente y una secuencia terminadora diferente dentro del casete de expresión para el GDI.
La Figura 3 A representa el vector pNT-MG001. Los detalles de los elementos del vector se muestran en la Tabla 7.
La Figura 3 B representa el vector pNT-MG002. Los detalles de los elementos del vector se muestran en la Tabla 7.
La Figura 3 C representa el vector pNT-MG003. Los detalles de los elementos del vector se muestran en la Tabla 7.
La Figura 3 D representa el vector pNT-MG004. Los detalles de los elementos del vector se muestran en la Tabla 7.
Figura 4:
Secuencias de los vectores de expresión de la Figura 3.
1. A) Vector de mamíferos pNT-MG001 (SEQ-ID NO.: 5)
2. B) Vector de mamíferos pNT-MG002 (SEQ-ID NO.: 6)
3. C) Vector de mamíferos pNT-MG003 (SEQ-ID NO.: 7)
4. D) Vector de mamíferos pNT-MG004 (SEQ-ID NO.: 8)
Ejemplos y métodos:
Métodos para las células de Pichia pastoris
Generación de vectores de levadura: El conjunto de vectores contiene un vector con un casete de expresión, un vector con dos casetes de expresión diferentes, un vector con tres casetes de expresión diferentes y un vector con cuatro casetes de expresión diferentes. En el conjunto de vectores, cada uno de los cuatro casetes de expresión diferentes tiene una secuencia de nucleótidos diferente del GDI, pero la PDI resultante tiene una secuencia de aminoácidos madura idéntica, y cada uno de los cuatro casetes de expresión diferentes comprende una secuencia de nucleótidos promotora diferente, una secuencia señal diferente y una secuencia de nucleótidos terminadora diferente. La Fig. 1A a 1D muestra los mapas vectoriales de estos vectores, mientras que la Fig. 2A a 2D y las SEQ-ID-NO. 1, 2, 3 y 4 muestran las secuencias de nucleótidos completas de estos vectores.
Las cuatro secuencias de nucleótidos diferentes de la PDI se diseñan mediante el uso del código genético degenerado. La PDI es un anticuerpo monocatenario (scFV, ESBA1845 = scFv = fragmento variable monocatenario = fragmento de un anticuerpo artificial que comprende una cadena polipeptídica única que incluye su dominio de unión al antígeno). Se utilizan 4 variantes diferentes de dicho scFv denominadas scFv_var1, scFv_var2, scFv_var3 y scFv_var4, que codifican todas ellas una secuencia de aminoácidos idéntica pero tienen diferentes secuencias de nucleótidos debido al uso del código genético degenerado. Las secuencias promotoras utilizadas son el promotor de la proteína de tipo lectina dePichia pastoris(pLLP), el promotor de GAP (pGAP), el promotor de ADH (pADH) y el promotor de TEF (pTEF). Las secuencias señal de secreción utilizadas para la PDI son la secuencia señal de la proteína tipo lectina deP. pastoris(LLPSS), la secuencia señal del factor de acoplamiento alfa-4 de S.cerevisiae(MFa4SS), la secuencia señal de la albúmina sérica humana ((HSASS) y la secuencia señal del factor de acoplamiento alfa-2 de S.cerevisiae(MFa2SS). Las secuencias terminadoras son la de la alcohol-deshidrogenasa (ADHTT), la secuencia terminadora de la proteína de tipo lectina dePichia pastoris(LLPTT), la secuencia terminadora del terminador del citocromo c1 (cyc1TT), y la secuencia terminadora de la alcohol-oxidasa (AOXTT). El marcador de selección de células de levadura utilizado en todos los vectores es Zeocinr, expresado mediante el uso del promotor de ILV5, la secuencia señal de EM72 y el terminador de AOD. El pUC ori se utiliza en todos los vectores de expresión de levaduras.
Generación de vectores
Los cuatro vectores de expresión diferentes están diseñados como se muestra en los mapas vectoriales de la Figura 1A a 1D, teniendo las secuencias vectoriales como se muestra en la Figura 2A a 2D y en las SEQ ID NOs: 1, 2, 3 y 4. Todos los vectores se sintetizan químicamente utilizando el servicio de síntesis DNA2.0 (ahora ATUM) de ATUM, Newark, California, EE. UU.
Transfección de P. pastoris
Se utilizan los cuatro vectores diferentes para transfectar individualmente la célula de levadura dePichia pastorisSSS1. Esta célula de levadura se describe en la solicitud de patente WO2016139279A1 y es genéticamente idéntica aPichia pastorisCBS 7435 e idéntica a NRRL Y-11430, excepto que el gen similar a ssn6 se interrumpe en la posición 807480 del cromosoma 1 del genoma deP. pastorisCBS 7435 mediante la inserción del casete de expresión como se describe en el documento WO 2016/139270 A1. La secuencia completa de CBS 7435 se divulga en Journal of Biotechnology, publicado en 2011, vol. 154, páginas 312-320 año 2011. Las secuencias de nucleótidos se publican en GenBank con los siguientes números de acceso: Cromosoma 1: FR839628.1; Cromosoma 2: FR839629.1; Cromosoma 3: FR839630.1; Cromosoma 4: FR839631.1; Mitocondria: FR839632.1
Expresión de PDI en placas de 48 pocillos profundos, medida semicuantitativa de PDI
Las transfecciones se siembran en estrías y los clones individuales transformados se cultivan en medio sintético. Después de 70 horas se elimina el sobrenadante del cultivo celular del cultivo, se eliminan las células de levadura y los residuos celulares del sobrenadante por centrifugación y se cargan 10 pL de sobrenadante y se separan electroforéticamente en geles SDS-PAGE (4-12 % de Novex NuPage, Invitrogen). Después de teñir con azul de coomassie o después de teñir con plata los geles de SDS-PAGE, la banda de proteína de la scFv (ESBA1845), que tiene un peso molecular de aproximadamente 26 kDa, se determina semicuantitativamente mediante exploración y medida densitométrica de la banda de proteína en los geles. La intensidad de la señal proporciona una estimación de la tasa de expresión de la proteína scFv.
La concentración de la PDI en el sobrenadante se determinó aplicando electroforesis capilar automatizada (LabChip GXII-Touch, Perkin Elmer, Waltham, MA, EE. UU.) de acuerdo con las recomendaciones del fabricante.
Tabla 5:Ex resión de PDI medida or nanolaboratoriolab-on-a chiPerkin Elmer
Expresión de la PDI en P. pastoris en matraces agitadores, determinación de la estabilidad genética
Los clones individuales deP. pastorisse cultivan en matraces agitadores durante 4 semanas. El cultivo celular se diluye con medio cuando es necesario para asegurar el crecimiento de las células. Antes y después de este cultivo de 4 semanas, se determina el número de copias de los casetes de expresión mediante, por ejemplo, PCR cuantitativa (qPCR). Opcionalmente, o además, la secuencia de los casetes de expresión se determina por secuenciación y se determina el tamaño correcto de los ácidos nucleicos amplificados por PCR mediante electroforesis en gel de agarosa, de acuerdo con métodos conocidos en la técnica. Estos experimentos se realizan con el fin de determinar la estabilidad genética de los clones.
Métodos para células CHO
Generación de vectores
Se diseñan cuatro vectores de expresión para CHO diferentes, codificando cada uno la misma PDI. Se utilizaron dos secuencias de nucleótidos diferentes que codifican la misma secuencia de aminoácidos de la PDI (Etanercept var1 y Etanercept var2). Los cuatro vectores diferentes contienen cada uno solo un casete de expresión que codifica para la mismo PDI, un casete de expresión para neomicina (marcador de selección con antibióticos), un casete de expresión para otra resistencia a antibióticos y un casete de expresión para DHFR (marcador de selección metabólica necesario para el crecimiento de la línea celular CHO). Dentro de cada uno de los cuatro vectores diferentes se utilizan diferentes promotores y terminadores para el GDI, el marcador de selección con neomicina y la DHFR, lo que significa que dentro de un vector se utilizan diferentes promotores y terminadores. La secuencia de nucleótidos del marcador de selección con neomicina y la DHFR es idéntica en los cuatro vectores. Todos los vectores se sintetizan químicamente utilizando el servicio de síntesis GeneArt de Geneart AG, Regensburg, Alemania, ahora perteneciente a Life Technologies. Los detalles sobre los elementos vectoriales de los diferentes vectores se pueden encontrar en la Tabla 6, los mapas vectoriales se representan en las Figuras 3A a 3D, y las secuencias se representan en las Figuras 4A a 4D y en las SEQ ID NOs: 5, 6, 7 y 8.
Los vectores para CHO comprenden cada vez solo un casete de expresión, casete de expresión que es diferente en cada uno de los cuatro vectores. De forma detallada, cada casete de expresión utiliza un promotor diferente, una secuencia señal diferente y un terminador diferente. La PDI es siempre la misma. Además, cada vector comprende un casete de expresión para el marcador de selección metabólica DHFR (codificado cada vez por la misma secuencia de nucleótidos), un casete de expresión para el marcador de selección con antibióticos Neomicina R (NeoR) (codificado cada vez por la misma secuencia de nucleótidos), y un casete de expresión que codifica otro marcador de selección con antibióticos que sea un marcador de selección diferente, concretamente, resistencia a ampicilina (AmpR), resistencia a espectromicina (SpectR) o resistencia a cloranfenicol (CmR), o marcador de selección que es el mismo marcador de selección pero insertado en el vector en una orientación diferente, p. ej., en este caso el marcador de resistencia a ampicilina en dos orientaciones diferentes dentro del vector pNT-MG001 y pNT-MG004. Además, los vectores 4 contienen todos como esqueleto del vector una secuencia del fago f1, un origen de replicación, ya sea pBR322 o p16A, en donde también se utiliza pBR322 en dos orientaciones diferentes dentro de los vectores. En la siguiente Tabla se proporciona una visión general de los diferentes elementos vectoriales de los vectores de mamíferos.
Tabla 6:
Las secuencias de nucleótidos de los vectores pNT-MG001 a pNT-MG004 se proporcionan en la Figura 4 A a D y en el protocolo de secuencia, SEQ-ID NO: 5, 6, 7 y 8. Como se puede apreciar en la Tabla 6 y en la Figura 3 A a D, pNT-MG001 a pNT-MG003 contienen todos como PDI la secuencia de Etanercept, var2 (= versión 2), mientras que pNT-MG004 contiene Etanercept, var1 (= versión 1). Las var1 y var2 representan una secuencia de nucleótidos con codones optimizados, donde ambas codifican la misma secuencia de aminoácidos, sin embargo con un uso de codones ligeramente diferente. La secuencia de nucleótidos de var1 y var2 es más de un 90 % idéntica (determinada por métodos como se describen en otra parte del presente documento) y la diferencia solo se debe al uso de dos algoritmos de optimización de codones diferentes para var1 y var2. Solo se indica la secuencia de nucleótidos de var2 (utilizada en los vectores pNT-MG001 a pNT-MG003) en la Figura 4 y en el protocolo de secuencia. Para el principio de la invención y para llevar a cabo los experimentos descritos no es necesario conocer la secuencia de nucleótidos de var1, siempre y cuando esté claro que tanto var1 como var2 codifican exactamente la misma secuencia de aminoácidos.
La Tabla 7 muestra todas las características de los vectores de expresión usados Y391_1xGDI, Y393_2*GDI, Y394_3*GDI, Y394_4*GDI, pNT-MG001, pNT-MG002, pNT-MG003 y pNT-MG004.
Tabla 7:
Obtención de líneas celulares estables
Las células CHO (DHFR) se transfectan con un vector individual de los cuatro vectores o con una mezcla de los cuatro vectores. Las transfecciones estables se realizan utilizando el kit de nucleofección Amaxa (Lonza AG, Suiza) siguiendo las instrucciones del fabricante. En resumen, se transfectan 5 * 106 células CHO con 3 |jg de ADN vectorial linealizado por transfección. Todos los vectores se utilizan en la transfección individualmente o como una mezcla de los cuatro vectores combinados. Después de la transfección, se añade el medio de crecimiento y las células se cultivan en una atmósfera con un 10 % de CO<2>durante 24-48 h a 37 °C con agitación a 110 rpm. Tras la recuperación de las células, se realizan dos rondas de selección. En primer lugar, las células se seleccionan utilizando el medio que contiene G418, seguido de la selección utilizando metotrexato (MTX) después de que se alcance una viabilidad celular de un 90 %. Las células se mantienen bajo la selección con MTX hasta que la viabilidad celular alcanza más de un 90 % (generalmente 3 4 semanas después de la transfección). A lo largo del período de selección, las células se cultivan utilizando medio fresco dos veces a la semana. La clonación de una sola célula se realiza utilizando un enfoque de clonación de dilución limitante estándar. Los clones individuales se seleccionaron en función del número de copias del vector (es decir, al menos dos copias por clon).
De cada transfección se seleccionan clones individuales y se estudia la tasa de expresión (título) de la PDI, la estabilidad del título del clon en el tiempo, la escisión del péptido líder por clon y la estabilidad genética del clon en el tiempo. Con título se quiere decir la concentración (mg/L) de PDI recombinante, en este caso Etanercept, en medio de cultivo tisular.
Análisis de los números de copia del vector en líneas celulares
Se evalúa el número de copias integradas del vector mediante PCR cuantitativa (qPCR). Se utiliza la cuantificación relativa para estimar el número de constructos de expresión integrados por clon. También se utiliza la repetición de la evaluación del número de copias después de 3 meses para determinar si el número de copias de la PDI dentro de las líneas celulares individuales es estable a lo largo del tiempo. La separación de los productos de PCR por electroforesis en gel de agarosa permite además determinar si el tamaño del polinucleótido amplificado por PCR es estable a lo largo del tiempo, lo que es otro indicador de estabilidad genética de los clones individuales de las líneas celulares. Se puede utilizar el análisis de fusión de alta resolución de los productos de PCR para confirmar la identidad de los productos de la PCR.
Análisis de producción de PDI por líneas celulares
Se aplica un proceso genérico de 14 días semicontinuo para la evaluación de la productividad. Todos los procesos semicontinuos se realizan en 100 mL de medio sin suero. Se inoculan en el medio 4 * 105 células viables/mL y el cultivo celular se incuba en una atmósfera con un 10 % de CO<2>a 37 °C con agitación a 110 rpm (diámetro de agitación de 50 mm) y con cambio de temperatura a 33 °C el día 7. La concentración celular y la viabilidad se miden utilizando un analizador Vi-Cell XR. Los títulos se miden en los días de cultivo 7, 10 y 14 utilizando el sistema Cedex (Roche Diagnostics Deutschland GmbH, Mannheim, Alemania). La medida se basa en un método turbidimétrico que utiliza anticuerpos dirigidos contra la región Fc humana. Las cosechas se recolectan al final de los procesos semicontinuos y se purifican mediante cromatografía con proteína A.
Análisis de la estabilidad genética de las líneas celulares
Se siembran clones de células individuales a una densidad de 3 * 105 células/mL en matraces de 75 cm3 en cultivo en suspensión en ausencia de presión selectiva. Las pruebas de productividad se realizan cada 6 semanas durante un período de 3 meses. La expresión de la PDI se mide utilizando métodos estándar conocidos por el experto, tales como ensayos ELISA, ELISPOT, inmunoelectrotransferencia cuantitativa, espectrometría de masas cuantitativa, resonancia de plasmones superficiales (p. ej., Biacore, Suecia), etc.
Análisis de la escisión del péptido señal por las líneas celulares
El análisis de la escisión correcta del péptido líder se realiza mediante secuenciación peptídica utilizando espectrometría de masas o degradación de Edman. La escisión incorrecta del péptido señal se puede evaluar utilizando una medición de masa intacta. La proteína se desglucosila en primer lugar con N-glucosidasa (PNGasa) F y posteriormente se analiza la masa intacta de la proteína mediante LC-MS en un espectrómetro de masas de alta resolución. Las masas se identifican de acuerdo con las masas teóricas calculadas de los aductos de proteína y péptido señal y la proporción de péptido señal con escisión errónea se calcula a partir de las intensidades de los picos.
Todos los métodos descritos o mencionados en el presente documento para las células de levaduraPichia pastoris,células de mamíferos CHO, así como para otros tipos de células de acuerdo con la invención, son métodos estándar conocidos por el experto. Tales métodos se describen, por ejemplo, en manuales de métodos de laboratorio estándar, tales como, por ejemplo, en M.R. Green, J. Sambrook, 2013, «Molecular cloning: a laboratory manual», Cold Spring Harbor, N.Y., o en «Current Protocols in Molecular Biology», John Wiley & Sons Inc. ISSN 1934-3639 y «Current protocols in Protein Science», John Wiley & Sons Inc. ISSN 1934-3655, o en otros títulos de la serie «Current Protocols» de John Wiley & Sons Inc.
La invención no incluye la posible presencia accidental de dos o más casetes de expresión dentro de una célula individual de una colección de células, donde los casetes de expresión comprenden el mismo GDI pero con una secuencia codificante diferente para ese mismo casete de expresión, en donde dicha colección de células está destinada a someterse a un cribado para detectar una secuencia codificante de un GDI con una tasa de expresión máxima en la línea celular utilizada para la construcción de la colección de células.

Claims (14)

REIVINDICACIONES
1. Célula hospedadora que comprende tres o más tipos diferentes de casetes de expresión, codificando cada casete de expresión la misma Proteína De Interés (PDI) con idéntica secuencia de aminoácidos madura, y comprendiendo cada tipo de casete de expresión al menos una secuencia promotora, una secuencia polinucleotídica de la secuencia que codifica la PDI y una secuencia terminadora, en donde dichos casetes de expresión difieren en que comprenden
(A)
(Aa) diferentes secuencias promotoras,
(Ab) diferentes secuencias de nucleótidos que codifican la misma secuencia de aminoácidos madura de la PDI debido al uso de código genético degenerado,
y opcionalmente
(Ac) diferentes secuencias terminadoras, y/o
(Ad) diferentes secuencias señal, si están presentes,
o en donde dichos casetes de expresión difieren en que comprenden
(B)
(Ba) las mismas secuencias promotoras,
(Bb) diferentes secuencias de nucleótidos que codifican la misma secuencia de aminoácidos madura de la PDI debido al uso de código genético degenerado,
y opcionalmente
(Be) diferentes secuencias terminadoras, y/o
(Bd) diferentes secuencias señal, si están presentes.
2. Célula hospedadora de acuerdo con la reivindicación 1, en donde al menos un casete de expresión codifica dos o más PDI con idéntica secuencia de aminoácidos madura, en donde entre las secuencias que codifican dichas dos o más PDI se ubica respectivamente una secuencia IRES.
3. Célula hospedadora de acuerdo con una cualquiera de las reivindicaciones 1 o 2, en donde en el punto (Ab) de la alternativa (A) de la reivindicación 1 dichas diferentes secuencias de nucleótidos de la secuencia que codifica la PDI están codificadas por un código genético degenerado, donde el código genético degenerado da como resultado al menos un 50 % de la diferencia máxima teórica posible de la secuencia de nucleótidos para esa secuencia de nucleótidos que codifica la PDI particular con el fin de obtener una secuencia de aminoácidos madura idéntica de dicha PDI particular, o en donde en el punto (Bb) de la alternativa (B) dichas diferentes secuencias de nucleótidos de la secuencia que codifica la PDI están codificadas por un código genético degenerado, donde el código genético degenerado da como resultado al menos un 50 % de la diferencia máxima teórica posible de la secuencia de nucleótidos para esa secuencia de nucleótidos que codifica la PDI particular con el fin de obtener una secuencia de aminoácidos madura idéntica de dicha PDI particular.
4. Célula hospedadora de acuerdo con una cualquiera de las reivindicaciones 1 a 3, en donde en la alternativa (A) dicho promotor, dicho terminador y/o dichas secuencias señal, si están presentes, y en la alternativa (B) dicho terminador y/o dicha secuencia señal, si está presente, difieren respectivamente entre los diferentes casetes de expresión utilizados en al menos un 20 %, preferentemente al menos un 30 %, más preferentemente al menos un 40 %, de la manera más preferente al menos un 50 % con respecto a su secuencia de nucleótidos.
5. Célula hospedadora de acuerdo con una cualquiera de las reivindicaciones 1 a 4, en donde dicho PDI es heterólogo respecto a dicha célula hospedadora.
6. Célula hospedadora de acuerdo con una cualquiera de las reivindicaciones 1 a 5, en donde dichas secuencias de nucleótidos diferentes de las secuencias que codifican la PDI tienen al menos una longitud de 30, preferentemente de al menos 60, más preferentemente de al menos 90 nucleótidos.
7. Célula hospedadora de acuerdo con una cualquiera de las reivindicaciones 1 a 6, en donde dicha célula hospedadora es
(i) una célula eucariota, preferentemente seleccionada entre
(a) células fúngicas filamentosas, preferentementeAspergillus, TrichodermaoPenicillium;
(b) células de levadura, preferentementePichia pastoris, Saccharomyces cerevisiaeoY. lipolytica,más preferentementePichia pastoris;
(c) células de mamífero, preferentemente células CHO (ovario de hámster chino);
(d) células humanas, preferentemente células HEK293 (HEK = riñón embrionario humano);
(e) células de insecto, preferentemente células sf5, sf21 o High Five;
o
(ii) una célula procariótica, preferentemente una célula bacteriana, más preferentementeEscherichia coli.
8. Método para generar una célula hospedadora como se define en una cualquiera de las reivindicaciones 1 a 7, que comprende el paso de transfectar dicha célula hospedadora con al menos tres secuencias de ácido nucleico diferentes, en donde cada secuencia de ácido nucleico comprende al menos un casete de expresión diferente que codifica la misma secuencia de aminoácidos madura de dicha PDI.
9. Método para generar una célula hospedadora como se define en una cualquiera de las reivindicaciones 1 a 7, que comprende el paso de transfectar dicha célula hospedadora con al menos una secuencia de ácido nucleico, en donde dicha secuencia de ácido nucleico comprende al menos tres tipos diferentes de casetes de expresión, y cada uno de dichos casetes de expresión codifica la misma secuencia de aminoácidos madura de dicha PDI.
10. Ácido nucleico que comprende al menos tres casetes de expresión como se definen en una cualquiera de las reivindicaciones 1 a 6.
11. Vector que comprende al menos tres casetes de expresión como se definen en una cualquiera de las reivindicaciones 1 a 6.
12. Kit que comprende un ácido nucleico como se define en la reivindicación 10, o un vector como se define en la reivindicación 11.
13. Proceso para producir una PDI, que comprende un paso de uso de una célula hospedadora como se define en cualquiera de las reivindicaciones 1 a 7, un ácido nucleico como se define en la reivindicación 10, un vector como se define en la reivindicación 11, o un kit como se define en la reivindicación 12.
14. Proceso de acuerdo con la reivindicación 13, en donde dicha PDI es una proteína monocatenaria o se origina a partir de un precursor de un polipéptido monocatenario, tal como, por ejemplo, la insulina.
ES18755213T 2017-08-23 2018-08-22 Sistema de expresión de proteínas con múltiples copias génicas Active ES2965485T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17187552 2017-08-23
PCT/EP2018/072687 WO2019038338A1 (en) 2017-08-23 2018-08-22 PROTEIN EXPRESSION SYSTEM WITH MULTIPLE GENIC COPIES

Publications (1)

Publication Number Publication Date
ES2965485T3 true ES2965485T3 (es) 2024-04-15

Family

ID=59713848

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18755213T Active ES2965485T3 (es) 2017-08-23 2018-08-22 Sistema de expresión de proteínas con múltiples copias génicas

Country Status (6)

Country Link
US (1) US11851666B2 (es)
EP (2) EP3673062B1 (es)
JP (2) JP7278261B2 (es)
CN (1) CN111094566B (es)
ES (1) ES2965485T3 (es)
WO (1) WO2019038338A1 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2964775T3 (en) * 2013-03-08 2019-04-15 Biogrammatics Inc Yeast promoters for protein expression
EP3901266A1 (en) 2020-04-22 2021-10-27 LEK Pharmaceuticals d.d. Super-enhancers for recombinant gene expression in cho cells

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100513414C (zh) 2001-08-27 2009-07-15 杰南技术公司 进行抗体表达和装配的系统
EP1492874B1 (en) 2002-03-29 2011-01-19 XOMA Technology Ltd. Multigenic vector plasmids and methods for increasing expression of recombinant polypeptides
CN101578367B (zh) * 2006-12-22 2012-05-30 诺维信公司 良好表达的合成基因的选择
EP2929027B1 (en) 2012-12-06 2018-02-21 Agilent Technologies, Inc. Molecular fabrication
LT3167065T (lt) * 2014-07-09 2020-07-27 Lupin Limited Dviguba cistroninė bakterinė raiškos sistema
JP6770966B2 (ja) * 2014-11-05 2020-10-21 ジェネンテック, インコーポレイテッド 細菌における2鎖タンパク質の生成方法
WO2016139279A1 (en) * 2015-03-03 2016-09-09 Sandoz Ag Constitutive yeast LLP promoter-based expression system
EP3065340A1 (en) 2015-03-04 2016-09-07 ABB Technology AG Method for automated configuration of an IED

Also Published As

Publication number Publication date
JP7278261B2 (ja) 2023-05-19
JP2020532966A (ja) 2020-11-19
US11851666B2 (en) 2023-12-26
EP3673062A1 (en) 2020-07-01
EP4276191A3 (en) 2023-12-27
JP2023052149A (ja) 2023-04-11
CN111094566B (zh) 2024-05-24
WO2019038338A1 (en) 2019-02-28
EP4276191A2 (en) 2023-11-15
CN111094566A (zh) 2020-05-01
US20220025387A1 (en) 2022-01-27
EP3673062B1 (en) 2023-09-06

Similar Documents

Publication Publication Date Title
CA2876550C (en) Cho expression system
AU2005254734B2 (en) Production of polypeptides by improved secretion
JP2023052149A (ja) マルチコピー遺伝子タンパク質発現系
CA2847061C (en) Protein expression
JP6162246B2 (ja) キメラサイトメガロウイルスプロモーター配列およびエンハンサー配列を含む発現ベクター
ES2920510T3 (es) Vectores de selección novedosos y métodos para seleccionar células hospedadoras eucariotas
EP2700713A1 (en) Screening and enrichment system for protein expression in eukaryotic cells using a tricistronic expression cassette
US20100311116A1 (en) Fast generation of high expression stable cell lines expressing recombinant proteins under minimal and short-term selective pressure
EP3209770B1 (en) Novel selection marker for cell transfection and protein production
WO2021110119A1 (zh) 一种高活性转座酶及其应用
EA035444B1 (ru) Получение полностью процессированного и функционального фактора x в фурин-секретирующей системе экспрессии млекопитающего
JP6824594B2 (ja) 合成遺伝子の設計方法
Dai et al. Improved fusion protein expression of EGFP via the mutation of both Kozak and the initial ATG codon
RU2799794C2 (ru) АМИНОАЦИЛ-тРНК-СИНТЕТАЗА ДЛЯ ЭФФЕКТИВНОГО ВВЕДЕНИЯ ПРОИЗВОДНОГО ЛИЗИНА В БЕЛОК
JP2005506053A (ja) アポエクオリンをコードするコドン最適化核酸およびそれらの使用方法
RU2790662C1 (ru) АМИНОАЦИЛ-тРНК-СИНТЕТАЗА, ЭФФЕКТИВНОЕ ВВЕДЕНИЕ ПРОИЗВОДНЫХ ЛИЗИНА
JP2019088191A (ja) 誘導型プロモーター
CN116615462A (zh) 抗体构建体的表达技术