ES2915562T3 - Métodos para generar bibliotecas combinatorias con código de barras - Google Patents

Métodos para generar bibliotecas combinatorias con código de barras Download PDF

Info

Publication number
ES2915562T3
ES2915562T3 ES17816357T ES17816357T ES2915562T3 ES 2915562 T3 ES2915562 T3 ES 2915562T3 ES 17816357 T ES17816357 T ES 17816357T ES 17816357 T ES17816357 T ES 17816357T ES 2915562 T3 ES2915562 T3 ES 2915562T3
Authority
ES
Spain
Prior art keywords
nucleic acid
sequence
target nucleic
cassette
nuclease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17816357T
Other languages
English (en)
Inventor
Ryan Gill
Andrew Garst
Tanya Elizabeth Lipscomb
Marcelo Bassalo
Ramsey Zeitoun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inscripta Inc
University of Colorado
Original Assignee
Inscripta Inc
University of Colorado
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inscripta Inc, University of Colorado filed Critical Inscripta Inc
Application granted granted Critical
Publication of ES2915562T3 publication Critical patent/ES2915562T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1079Screening libraries by altering the phenotype or phenotypic trait of the host
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Abstract

Un método de ingeniería genómica, el método comprende: a) poner en contacto una población de células con un polinucleótido, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa guiada por ácido nucleico, en donde el polinucleótido comprende 1) un casete de edición que comprende: i) una primera secuencia de ácido nucleico diana modificada; ii) una primera mutación del motivo adyacente al protoespaciador (PAM), en donde la nucleasa guiada por ácido nucleico no reconoce la mutación PAM; iii) una primera secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la primera secuencia de ácido nucleico guía comprende una primera región espaciadora complementaria a una porción del primer ácido nucleico diana y compatible con la nucleasa guiada por ácido nucleico, y en donde la primera región espaciadora es suficientemente complementaria a la porción del primer ácido nucleico diana para hibridar y reclutar la nucleasa guiada por ácido nucleico; y iv) brazos de homología que flanquean la primera secuencia de ácido nucleico diana modificada, en donde los brazos de homología permiten la incorporación de la primera secuencia de ácido nucleico diana modificada en el primer ácido nucleico diana mediante recombinación homóloga o reparación impulsada por homología; y 2) un casete grabador que comprende: i) un código de barras flanqueado por brazos de homología, en donde los brazos de homología permiten la incorporación del código de barras en el segundo ácido nucleico diana mediante recombinación homóloga o reparación impulsada por homología, y en donde el código de barras identifica de forma única la primera secuencia de ácido nucleico diana modificada; y ii) una segunda secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la segunda secuencia de ácido nucleico guía comprende una segunda región espaciadora complementaria a una porción del segundo ácido nucleico diana y compatible con la nucleasa guiada por ácido nucleico, y en donde la segunda región espaciadora es suficientemente complementaria a la porción del segundo ácido nucleico diana para hibridar y reclutar la nucleasa guiada por ácido nucleico; y b) permitir que la primera secuencia de ácido nucleico guía, la segunda secuencia de ácido nucleico guía y la nucleasa guiada por ácido nucleico creen una edición del genoma dentro del primer ácido nucleico diana y el segundo ácido nucleico diana; y en donde el método no es un método para modificar la identidad genética de la línea germinal de los seres humanos.

Description

DESCRIPCIÓN
Métodos para generar bibliotecas combinatorias con código de barras
Antecedentes de la invención
Comprender la relación entre la estructura de aminoácidos de una proteína y su función general sigue siendo de gran importancia práctica, clínica y científica para biólogos e ingenieros. La evolución dirigida puede ser una poderosa herramienta de ingeniería y descubrimiento, pero la naturaleza aleatoria y, a menudo, combinatoria de las mutaciones hace que sus impactos individuales sean difíciles de cuantificar y, por lo tanto, desafía la ingeniería adicional. El análisis más sistemático de las contribuciones de los residuos individuales o la mutagénesis de saturación sigue siendo laborioso y requiere mucho tiempo para proteínas completas y simplemente no es posible en escalas de tiempo razonables para la edición de múltiples proteínas en paralelo, tales como vías metabólicas o complejos de múltiples proteínas, mediante el uso de métodos estándar.
El documento WO2015/123339 describe la ingeniería del genoma multiplexada habilitada para CRISPR.
Resumen de la descripción
La invención proporciona un método de ingeniería genómica, el método comprende:
a) poner en contacto una población de células con un polinucleótido, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa guiada por ácido nucleico, en donde el polinucleótido comprende
1) un casete de edición que comprende: i) una primera secuencia de ácido nucleico diana modificada; ii) una primera mutación del motivo adyacente al protoespaciador (PAM), en donde la nucleasa guiada por ácido nucleico no reconoce la mutación PAM; iii) una primera secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la primera secuencia de ácido nucleico guía comprende una primera región espaciadora complementaria a una porción del primer ácido nucleico diana y compatible con la nucleasa guiada por ácido nucleico, y en donde la primera región espaciadora es suficientemente complementaria a la porción del primer ácido nucleico diana para hibridar y reclutar la nucleasa guiada por ácido nucleico; y iv) brazos de homología que flanquean la primera secuencia de ácido nucleico diana modificada, en donde los brazos de homología permiten la incorporación de la primera secuencia de ácido nucleico diana modificada en el primer ácido nucleico diana mediante recombinación homóloga o reparación impulsada por homología; y
2) un casete grabador que comprende: i) un código de barras flanqueado por brazos de homología, en donde los brazos de homología permiten la incorporación del código de barras en el segundo ácido nucleico diana mediante recombinación homóloga o reparación impulsada por homología, y en donde el código de barras identifica de forma única la primera secuencia de ácido nucleico diana modificada; y ii) una segunda secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la segunda secuencia de ácido nucleico guía comprende una segunda región espaciadora complementaria a una porción del segundo ácido nucleico diana y compatible con la nucleasa guiada por ácido nucleico, y en donde la segunda región espaciadora es suficientemente complementaria a la porción del segundo ácido nucleico diana para hibridar y reclutar la nucleasa guiada por ácido nucleico; y
b) permitir que la primera secuencia de ácido nucleico guía, la segunda secuencia de ácido nucleico guía y la nucleasa guiada por ácido nucleico creen una edición del genoma dentro del primer ácido nucleico diana y el segundo ácido nucleico diana;
y en donde el método no es un método para modificar la identidad genética de la línea germinal de los seres humanos.
La invención también proporciona un método para identificar células genomanipuladas, el método comprende:
a) proporcionar células, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa dirigida;
b) introducir en las células un polinucleótido que comprende:
1) un primer ácido nucleico donante que comprende: i) una secuencia de ácido nucleico diana modificada; ii) una secuencia mutante del motivo adyacente al protoespaciador (PAM); y iii) una primera secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la primera secuencia de ácido nucleico guía comprende una primera secuencia guía complementaria a una porción del primer ácido nucleico diana, y en donde la primera secuencia guía es suficientemente complementaria a la porción del primer ácido nucleico diana para hibridar y reclutar la nucleasa dirigida; y iv) brazos de homología que flanquean la secuencia de ácido nucleico diana modificada, en donde los brazos de homología permiten la incorporación de la secuencia de ácido nucleico diana modificada en el primer ácido nucleico diana mediante recombinación homóloga o reparación impulsada por homología; y
2) un segundo ácido nucleico donante que comprende i) un código de barras flanqueado por brazos de homología, en donde los brazos de homología permiten la incorporación del código de barras en el segundo ácido nucleico diana mediante recombinación homóloga o reparación dirigida por homología, y en donde el código de barras identifica de forma única la secuencia de ácido nucleico diana modificada; y ii) una segunda secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la segunda secuencia de ácido nucleico guía comprende una segunda secuencia guía complementaria a una porción del segundo ácido nucleico diana y en donde la segunda secuencia guía es suficientemente complementaria a la porción del segundo ácido nucleico diana para hibridar y reclutar la nucleasa dirigida;
c) escindir el primer ácido nucleico diana mediante la nucleasa dirigida en células que no comprenden la secuencia PAM mutante, y enriquecer de esta manera las células que comprenden la secuencia de ácido nucleico diana modificada;
d) repetir las etapas a)-c) al menos una vez mediante el uso de las células enriquecidas en la etapa c) como las células para la etapa a) de la siguiente ronda, en donde el código de barras de cada ronda se incorpora adyacente al código de barras de la ronda anterior, de esta manera se genera una matriz de secuencias de grabación que comprende una pluralidad de códigos de barras trazables;
e) secuenciar la secuencia de grabación, para identificar de esta manera células genomanipuladas que comprenden una combinación deseada de ácidos nucleicos diana modificados;
y en donde el método no es un método para modificar la identidad genética de la línea germinal de los seres humanos.
En la presente descripción se describen composiciones que comprenden: i) un primer ácido nucleico donante que comprende: a) una primera secuencia de ácido nucleico diana modificada; b) una primera mutación del motivo adyacente al protoespaciador (PAM); y c) una primera secuencia de ácido nucleico guía que comprende una primera región espaciadora complementaria a una porción del primer ácido nucleico diana; y ii) un segundo ácido nucleico donante que comprende: a) un código de barras correspondiente a la primera secuencia de ácido nucleico diana modificada; y b) una segunda secuencia de ácido nucleico guía que comprende una segunda región espaciadora complementaria a una porción de un segundo ácido nucleico diana. Se describen además composiciones en donde la primera secuencia de ácido nucleico diana modificada comprende al menos un ácido nucleico insertado, eliminado o sustituido en comparación con un primer ácido nucleico diana no modificado correspondiente. Se describen además composiciones en donde el primer ácido nucleico guía y el segundo ácido nucleico guía son compatibles con una nucleasa guiada por ácido nucleico. Se describen además composiciones en donde la nucleasa guiada por ácido nucleico es una proteína Cas de Tipo II o Tipo V. Se describen además composiciones en donde la nucleasa guiada por ácido nucleico es un homólogo de Cas9 o un homólogo de Cpf1. Se describen además composiciones en donde el segundo ácido nucleico donante comprende una segunda mutación PAM. Se describen además composiciones en donde la secuencia de ácido nucleico del segundo donante comprende una secuencia reguladora o una mutación para activar o desactivar un marcador cribable o rastreable. Se describen además composiciones en donde la secuencia de ácido nucleico del segundo donante se dirige a un sitio de aterrizaje único.
En la presente descripción se describen métodos de ingeniería genómica, el método comprende: a) poner en contacto una población de células con un polinucleótido, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa guiada por ácido nucleico, en donde el polinucleótido comprende 1) un casete de edición que comprende: i) una primera secuencia de ácido nucleico diana modificada; ii) una primera mutación del motivo adyacente al protoespaciador (PAM); iii) una primera secuencia de ácido nucleico guía que comprende una región espaciadora complementaria a una porción del primer ácido nucleico diana y compatible con la nucleasa guiada por ácido nucleico; y 2) un casete grabador que comprende i) un código de barras correspondiente a la primera secuencia de ácido nucleico diana modificada; y ii) una segunda secuencia de ácido nucleico guía que comprende una segunda región espaciadora complementaria a una porción del segundo ácido nucleico diana y compatible con la nucleasa guiada por ácido nucleico; b) permitir que la primera secuencia de ácido nucleico guía, la segunda secuencia de ácido nucleico guía y la nucleasa guiada por ácido nucleico creen una edición del genoma dentro del primer ácido nucleico diana y el segundo ácido nucleico diana. Se describen además, métodos que comprenden además c) secuenciar una porción del código de barras, para identificar de esta manera el primer ácido nucleico diana modificado que se insertó dentro del primer ácido nucleico diana en la etapa a). Se describen además, métodos en donde la nucleasa guiada por ácido nucleico es una nucleasa CRISPR. Se describen además, métodos en donde la mutación PAM no es reconocida por la nucleasa guiada por ácido nucleico. Se describen además, métodos en donde la nucleasa guiada por ácido nucleico es una proteína Cas de Tipo II o Tipo V. Se describen además, métodos en donde la nucleasa guiada por ácido nucleico es un homólogo de Cas9 o un homólogo de Cpf1. Se describen además métodos en donde el casete grabador comprende además una segunda mutación de PAM que no es reconocida por la nucleasa guiada por ácido nucleico.
En la presente descripción se describen métodos de ingeniería genética recursiva seleccionable que comprenden a) poner en contacto células que comprenden una nucleasa guiada por ácido nucleico con un polinucleótido que comprende un casete grabador, comprendiendo dicho casete grabador i) una secuencia de ácido nucleico que se recombina en un sitio de aterrizaje único incorporado durante un proceso previo ronda de ingeniería, en donde la secuencia de ácido nucleico comprende un código de barras único; y ii) un RNA guía compatible con la nucleasa guiada por ácido nucleico que se dirige al sitio de aterrizaje único; y b) permitir que la nucleasa guiada por ácido nucleico edite el sitio de aterrizaje único, con la incorporación de esta manera del código de barras único en el sitio de aterrizaje único. Se describen además métodos en donde la secuencia de ácido nucleico comprende además una secuencia reguladora que activa o desactiva la transcripción de un marcador seleccionable o cribable. Se describen además, métodos en donde la secuencia de ácido nucleico comprende además una mutación de PAM que no es compatible con la nucleasa guiada por ácido nucleico. Se describen además, métodos en donde la secuencia de ácido nucleico comprende además un segundo sitio de aterrizaje único para rondas de ingeniería posteriores. Se describen además métodos en donde el polinucleótido comprende además un casete de edición que comprende a) una primera secuencia de ácido nucleico diana modificada; b) una primera mutación del motivo adyacente al protoespaciador (PAM); y c) una primera secuencia de ácido nucleico guía que comprende una primera región espaciadora complementaria a una porción del primer ácido nucleico diana, en donde el código de barras único corresponde al primer ácido nucleico diana modificado de manera que el ácido nucleico diana modificado puede identificarse mediante el código de barras único.
En la presente descripción se proporcionan composiciones que comprenden i) un primer ácido nucleico donante que comprende: a) una primera secuencia de ácido nucleico diana modificada; b) una secuencia mutante del motivo adyacente al protoespaciador (PAM); y c) una primera secuencia de ácido nucleico guía que comprende una primera región espaciadora complementaria a una porción del primer ácido nucleico diana; y ii) un segundo ácido nucleico donante que comprende: a) una secuencia de grabación; y b) una segunda secuencia de ácido nucleico guía que comprende una segunda región espaciadora complementaria a una porción del segundo ácido nucleico diana. En algunos aspectos, el primer ácido nucleico donante y el segundo ácido nucleico donante están unidos covalentemente 0 comprendidos en una única molécula de ácido nucleico. Se proporcionan además composiciones en donde el primer ácido nucleico diana modificado comprende un brazo de homología 5' y un brazo de homología 3'. Se proporcionan además composiciones en donde el brazo de homología 5' y el brazo de homología 3' son homólogos a la secuencia de ácido nucleico que flanquea un protoespaciador complementario a la primera región espaciadora. Se proporcionan además composiciones en donde la primera secuencia de ácido nucleico diana modificada comprende al menos un ácido nucleico insertado, eliminado o sustituido en comparación con un primer ácido nucleico diana no modificado correspondiente. Se proporcionan además composiciones en donde el primer gRNA es compatible con una nucleasa guiada por ácido nucleico, lo que facilita de esta manera la escisión mediada por nucleasa del primer ácido nucleico diana. Se proporcionan además composiciones en donde la nucleasa guiada por ácido nucleico es una proteína Cas, tal como una proteína Cas de Tipo II o Tipo V. Se proporcionan además composiciones en donde la nucleasa guiada por ácido nucleico es Cas9 o Cpf1. Se proporcionan además composiciones en donde la nucleasa guiada por ácido nucleico es MAD2 o MAD7. Se proporcionan además composiciones en donde la nucleasa guiada por ácido nucleico es una enzima genomanipulada o no natural. Se proporcionan además composiciones en donde la nucleasa guiada por ácido nucleico es una enzima genomanipulada o no natural derivada de Cas9 o Cpf1. Se proporcionan además composiciones en donde la nucleasa guiada por ácido nucleico es una enzima genomanipulada o no natural que tiene menos del 80 % de homología con Cas9 o Cpf1. Se proporcionan además composiciones en donde la secuencia de PAM mutante no es reconocida por la nucleasa guiada por ácido nucleico. Se proporcionan además composiciones en donde la secuencia de grabación comprende un código de barras. Se proporcionan además composiciones en donde la secuencia de grabación comprende un fragmento de un marcador seleccionable o cribable. Se proporcionan además composiciones en donde la secuencia de grabación comprende una secuencia única mediante la cual se identifica específicamente la primera secuencia de ácido nucleico diana modificada. Se proporcionan además composiciones en donde la secuencia de grabación comprende una secuencia única mediante la cual pueden seleccionarse o enriquecerse las células editadas. Un primer ácido nucleico donante puede ser un casete, tal como un casete de edición como se describe en la presente descripción. Un segundo ácido nucleico donante puede ser un casete, tal como un casete grabador como se describe en la presente descripción. Un primer ácido nucleico donante y un segundo ácido nucleico donante pueden estar comprendidos en un solo casete. Un primer ácido nucleico donante y un segundo ácido nucleico donante pueden estar unidos covalentemente. En cualquiera de estos ejemplos, los elementos del casete o ácidos nucleicos donantes pueden ser contiguos o no contiguos.
En la presente descripción se proporcionan células que comprenden un cromosoma genomanipulado o un ácido polinucleico que comprende: una primera secuencia modificada; un primer motivo adyacente protoespaciador mutante (PAM); una primera secuencia de grabación, cuya secuencia identifica de forma única la primera secuencia modificada, en donde la primera secuencia modificada y la primera secuencia de grabación están separadas por al menos 1 bp. Se proporcionan además células en donde la primera secuencia modificada y la primera secuencia de grabación están separadas por al menos 100 bp. Se proporcionan además células en donde la primera secuencia modificada y la primera secuencia de grabación están separadas por al menos 500 bp. Se proporcionan además células en donde la primera secuencia modificada y la primera secuencia de grabación están separadas por al menos 1 kbp. Se proporcionan además células en donde la primera secuencia de grabación es un código de barras. Se proporcionan además células en donde la primera secuencia modificada está dentro de una secuencia codificante. Se proporcionan además células en donde la primera secuencia modificada comprende al menos un nucleótido insertado, eliminado o sustituido en comparación con una secuencia no modificada. Se proporcionan además células que comprenden además: una segunda secuencia modificada; un segundo PAM mutante; y una segunda secuencia de grabación, cuya secuencia identifica de forma única la segunda secuencia modificada, en donde la segunda secuencia modificada y la segunda secuencia de grabación están separadas por al menos 1 kb. Se proporcionan además células en donde la primera secuencia de grabación y la segunda secuencia de grabación están separadas por menos de 100 bp. Se proporcionan además células en donde la segunda secuencia de grabación es un código de barras. Se proporcionan además células en donde la segunda secuencia modificada está dentro de una secuencia codificante. Se proporcionan además células en donde la segunda secuencia modificada comprende al menos un nucleótido insertado, eliminado o sustituido en comparación con una secuencia no modificada. Se proporcionan además células en donde la primera secuencia de grabación y la segunda secuencia de grabación están inmediatamente adyacentes entre sí o en solapamiento, generando de esta manera una secuencia de grabación combinada. Se proporcionan además células en donde la secuencia de grabación combinada comprende un marcador seleccionable o detectable. Se proporcionan además células en donde la secuencia de grabación combinada comprende un marcador seleccionable o detectable mediante el cual las células pueden enriquecerse o seleccionarse.
En la presente descripción se proporcionan métodos de ingeniería genómica, el método comprende: a) introducir en una población de células una pluralidad de polinucleótidos, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa dirigida, en donde cada polinucleótido comprende: i) una primera secuencia de ácido nucleico diana modificada; ii) una secuencia mutante del motivo adyacente al protoespaciador (PAM); iii) una primera secuencia de ácido nucleico guía que comprende una secuencia guía complementaria a una porción del primer ácido nucleico diana; y (iv) una secuencia de grabación; b) insertar la primera secuencia de ácido nucleico diana modificada dentro del primer ácido nucleico diana; c) insertar la secuencia de grabación dentro del segundo ácido nucleico diana; d) escindir el primer ácido nucleico diana mediante la nucleasa dirigida en células que no comprenden la secuencia PAM mutante, lo que enriquece de esta manera las células que comprenden la primera secuencia de ácido nucleico diana modificada insertada. Se proporcionan además métodos en donde la secuencia de grabación está unida al primer ácido nucleico diana modificado. Se proporcionan además métodos en donde cada polinucleótido comprende además una segunda secuencia PAM mutante. Se proporcionan además métodos en donde cada polinucleótido comprende además una segunda secuencia guía de ácido nucleico que comprende una secuencia guía complementaria a una porción del segundo ácido nucleico diana. Se proporcionan además métodos en donde la secuencia de grabación comprende una secuencia única mediante la cual el primer ácido nucleico diana modificado se identifica específicamente al secuenciar la secuencia de grabación. Se proporcionan además métodos que comprenden además e) secuenciar la secuencia de grabación, para identificar de esta manera el primer ácido nucleico diana modificado que se insertó dentro del primer ácido nucleico diana en la etapa b). Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada comprende escindir el primer ácido nucleico diana mediante la nucleasa en complejo con el producto de transcripción de la primera secuencia de ácido nucleico guía. Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada comprende además la reparación dirigida por homología. Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada comprende además la recombinación homóloga. Se proporcionan además métodos en donde el polinucleótido comprende además una segunda secuencia de ácido nucleico guía que comprende una región espaciadora complementaria a una porción del segundo ácido nucleico diana. Se proporcionan además métodos en donde insertar la secuencia de grabación comprende escindir el segundo ácido nucleico diana por la nucleasa en complejo con el producto de transcripción de la segunda secuencia de ácido nucleico guía. Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada comprende además la reparación dirigida por homología. Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada comprende además la recombinación homóloga. Se proporcionan además métodos en donde la nucleasa dirigida es una proteína Cas. Se proporcionan además métodos en donde la proteína Cas es una proteína Cas de Tipo II o Tipo V. Se proporcionan además métodos en donde la proteína Cas es Cas9 o Cpf1. Se proporcionan además métodos en donde la nucleasa dirigida es una nucleasa dirigida por ácido nucleico. Se proporcionan además métodos en donde la nucleasa dirigida es MAD2 o MAD7. Se proporcionan además métodos en donde la secuencia PAM mutante no es reconocida por la nucleasa dirigida. Se proporcionan además métodos en donde la nucleasa dirigida es una nucleasa dirigida genomanipulada. Se proporcionan además métodos en donde la secuencia de PAM mutante no es reconocida por la nucleasa dirigida genomanipulada. Se proporcionan además métodos que comprenden además la introducción de una segunda pluralidad de polinucleótidos en una segunda población de células que comprende las células enriquecidas de la etapa d), en donde cada célula dentro de la segunda población de células comprende un tercer ácido nucleico, un cuarto ácido nucleico diana y una nucleasa dirigida. Se proporcionan además métodos en donde cada uno de los segundos polinucleótidos comprende: i) una tercera secuencia de ácido nucleico diana modificada; ii) una tercera secuencia mutante del motivo adyacente al protoespaciador (PAM); iii) una tercera secuencia guía de ácido nucleico que comprende una región espaciadora complementaria a una porción del tercer ácido nucleico diana; y (iv) una segunda secuencia de grabación. Se proporcionan además métodos en donde cada segundo polinucleótido comprende además una cuarta secuencia PAM mutante. Se proporcionan además métodos en donde cada segundo polinucleótido comprende además una cuarta secuencia de ácido nucleico guía que comprende una secuencia guía complementaria a una porción del cuarto ácido nucleico diana. Se proporcionan además métodos que comprenden además: a) insertar la tercera secuencia de ácido nucleico diana modificada dentro del tercer ácido nucleico diana; b) insertar la segunda secuencia de grabación dentro del cuarto ácido nucleico diana; c) escindir el tercer ácido nucleico diana por la nucleasa en células que no comprenden la segunda secuencia PAM mutante, lo que enriquece de esta manera las células que comprenden la tercera secuencia de ácido nucleico diana modificada insertada. Se proporcionan además métodos en donde el cuarto ácido nucleico diana es adyacente al segundo ácido nucleico diana. Se proporcionan además métodos en donde la primera secuencia de grabación insertada es adyacente a la segunda secuencia de grabación, de manera que puede obtenerse información de secuenciación para la primera y segunda secuencia de grabación a partir de una sola lectura de secuenciación. Se proporcionan además métodos que comprenden además obtener información de secuencia de la primera y segunda secuencia de grabación dentro de una única lectura de secuencia, para identificar de esta manera la primera y tercera secuencia de ácido nucleico diana modificada insertada en el primer y tercer ácido nucleico diana respectivamente.
En la presente descripción se proporcionan métodos para identificar células genomanipuladas, el método comprende: a) proporcionar células, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa dirigida, b) introducir en las células un polinucleótido que comprende: 1) un primer ácido nucleico donante que comprende i) una secuencia de ácido nucleico diana modificada; ii) una secuencia mutante del motivo adyacente al protoespaciador (PAM); y iii) una primera secuencia guía de ácido nucleico que comprende una primera secuencia guía complementaria a una porción del primer ácido nucleico diana; y 2) un segundo ácido nucleico donante que comprende i) una secuencia de grabación correspondiente a la secuencia de ácido nucleico diana modificada; y ii) una segunda secuencia de ácido nucleico guía que comprende una segunda secuencia guía complementaria a una porción del segundo ácido nucleico diana, c) escindir el primer ácido nucleico diana mediante la nucleasa en células que no comprenden la secuencia PAM mutante, lo que enriquece de esta manera las células que comprenden la secuencia de ácido nucleico diana modificada, d) repetir las etapas a) - c) al menos una vez mediante el uso de las células enriquecidas en la etapa c) como células para el paso a) de la siguiente ronda, en donde la secuencia de grabación de cada ronda se incorpora adyacente a la secuencia de grabación de la ronda anterior, lo que genera de esta manera una matriz de secuencias de grabación que comprende una pluralidad de códigos de barras rastreables, y e) secuenciar la secuencia registrada, para identificar de esta manera células genomanipuladas que comprenden una combinación deseada de ácidos nucleicos diana modificados. Se proporcionan además métodos en donde el segundo ácido nucleico donante comprende además una segunda secuencia PAM mutante. Se proporcionan además métodos en donde la secuenciación de la matriz de secuencias de grabación comprende obtener información de secuencia para cada una de la pluralidad de secuencias de grabación dentro de una sola lectura de secuenciación. Se proporcionan además métodos en donde las etapas a) - c) se repiten al menos una vez. Se proporcionan además métodos en donde las etapas a) - c) se repiten al menos dos veces. Se proporcionan además métodos en donde la secuencia de grabación es un código de barras. Se proporcionan además métodos en donde el primer ácido nucleico donante y el segundo ácido nucleico donante están unidos covalentemente. Un primer ácido nucleico donante puede ser un casete, tal como un casete de edición como se describe en la presente descripción. Un segundo ácido nucleico donante puede ser un casete, tal como un casete grabador como se describe en la presente descripción. Un primer ácido nucleico donante y un segundo ácido nucleico donante pueden estar comprendidos en un solo casete. Un primer ácido nucleico donante y un segundo ácido nucleico donante pueden estar unidos covalentemente. En cualquiera de estos ejemplos, los elementos del casete o ácidos nucleicos donantes pueden ser contiguos o no contiguos.
En la presente descripción se proporcionan métodos para identificar células genomanipuladas, el método comprende: a) proporcionar células, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa dirigida, b) introducir en las células un polinucleótido que comprende: 1) un primer ácido nucleico donante que comprende i) una secuencia de ácido nucleico diana modificada; ii) una secuencia mutante del motivo adyacente al protoespaciador (PAM); y iii) una primera secuencia guía de ácido nucleico que comprende una primera secuencia guía complementaria a una porción del primer ácido nucleico diana; y 2) un segundo ácido nucleico donante que comprende i) un fragmento marcador correspondiente a la secuencia de ácido nucleico diana modificada; y ii) una segunda secuencia de ácido nucleico guía que comprende una segunda secuencia guía complementaria a una porción del segundo ácido nucleico diana, c) escindir el primer ácido nucleico diana mediante la nucleasa en células que no comprenden la secuencia PAM mutante, lo que enriquece de esta manera las células que comprenden la secuencia de ácido nucleico diana modificada, d) repetir las etapas a) - c) al menos una vez mediante el uso de las células enriquecidas en la etapa c) como células para la etapa a) de la siguiente ronda, en donde el fragmento marcador de cada ronda se incorpora junto al fragmento marcador de la ronda anterior, lo que genera de esta manera un marcador completo, y e) identificar células que comprenden el marcador completo, para identificar de esta manera células genomanipuladas que comprenden una combinación deseada de ácidos nucleicos diana modificados. Se proporcionan además métodos en donde el segundo ácido nucleico donante comprende además una segunda secuencia PAM mutante. Se proporcionan además métodos en donde el marcador completo comprende un marcador seleccionable. Se proporcionan además métodos en donde el marcador seleccionable comprende un marcador de resistencia a antibióticos o un marcador auxotrófico. Se proporcionan además métodos en donde el marcador completo comprende un indicador detectable. Se proporcionan además métodos en donde el indicador detectable comprende un indicador fluorescente. Se proporcionan además métodos en donde el indicador detectable comprende un gen. Se proporcionan además métodos en donde el indicador detectable comprende un promotor o un elemento regulador. Se proporcionan además métodos en donde el elemento promotor o regulador activa o desactiva la transcripción de un elemento seleccionable o detectable. Se proporcionan además métodos en donde el indicador detectable comprende un elemento detectable o seleccionable que altera una característica de una colonia que comprende el elemento en comparación con una colonia que no comprende el elemento. Un primer ácido nucleico donante puede ser un casete, tal como un casete de edición como se describe en la presente descripción. Un segundo ácido nucleico donante puede ser un casete, tal como un casete grabador como se describe en la presente descripción. Un primer ácido nucleico donante y un segundo ácido nucleico donante pueden estar comprendidos en un solo casete. Un primer ácido nucleico donante y un segundo ácido nucleico donante pueden estar unidos covalentemente. En cualquiera de estos ejemplos, los elementos del casete o ácidos nucleicos donantes pueden ser contiguos o no contiguos.
En la presente descripción se proporcionan métodos de ingeniería genómica, el método comprende: a) introducir en una población de células un polinucleótido, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa dirigida, en donde el polinucleótido comprende: i) una primera secuencia de ácido nucleico diana modificada; ii) una secuencia de reconocimiento de nucleasa mutante; iii) una secuencia de grabación; b) insertar la primera secuencia de ácido nucleico diana modificada dentro del primer ácido nucleico diana; c) insertar la secuencia de grabación dentro del segundo ácido nucleico diana; y d) seleccionar un fenotipo de interés. Se proporcionan además métodos en donde el polinucleótido comprende además un segundo sitio de reconocimiento de nucleasa mutante. Se proporcionan además métodos en donde la selección de un fenotipo de interés comprende escindir el primer ácido nucleico diana mediante la nucleasa en células que no comprenden la secuencia de reconocimiento de la nucleasa mutante, lo que enriquece de esta manera las células que comprenden la primera secuencia de ácido nucleico diana modificada insertada. Se proporcionan además métodos en donde la selección de un fenotipo de interés comprende escindir el segundo ácido nucleico diana por la nucleasa en células que no comprenden la segunda secuencia de reconocimiento de nucleasa mutante, lo que enriquece de esta manera las células que comprenden la primera secuencia de ácido nucleico diana modificada insertada. Se proporcionan además métodos en donde la secuencia de grabación está unida al primer ácido nucleico diana modificado. Se proporcionan además métodos en donde la secuencia de grabación comprende una secuencia única mediante la cual el primer ácido nucleico diana modificado se identifica específicamente al secuenciar la secuencia de grabación. Se proporcionan además métodos que comprenden además e) secuenciar la secuencia de grabación, para identificar de esta manera el primer ácido nucleico diana modificado que se insertó dentro del primer ácido nucleico diana en la etapa b). Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada comprende la reparación dirigida por homología. Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada comprende la recombinación homóloga. Se proporcionan además métodos en donde la nucleasa es una proteína Cas. Se proporcionan además métodos en donde el polinucleótido comprende además una primera secuencia guía de ácido nucleico que comprende una secuencia guía complementaria a una porción del primer ácido nucleico diana. Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada comprende escindir el primer ácido nucleico diana mediante la nucleasa en complejo con el producto de transcripción de la primera secuencia de ácido nucleico guía. Se proporcionan además métodos en donde el polinucleótido comprende además una segunda secuencia guía de ácido nucleico que comprende una secuencia guía complementaria a una porción del segundo ácido nucleico diana. Se proporcionan además métodos en donde insertar la secuencia de grabación comprende escindir el segundo ácido nucleico diana por la nucleasa en complejo con el producto de transcripción de la segunda secuencia de ácido nucleico guía. Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada o la secuencia de grabación comprende la reparación dirigida por homología. Se proporcionan además métodos en donde insertar la primera secuencia de ácido nucleico diana modificada o la secuencia de grabación comprende recombinación homóloga. Se proporcionan además métodos en donde la secuencia de reconocimiento de nucleasa mutante comprende una secuencia PAM mutante no reconocida por la nucleasa dirigida. Se proporcionan además métodos en donde la proteína Cas es una proteína Cas de Tipo II o Tipo V. Se proporcionan además métodos en donde la nucleasa dirigida es MAD2. Se proporcionan además métodos en donde la secuencia PAM mutante no es reconocida por MAD2. Se proporcionan además métodos en donde la nucleasa dirigida es MAD7. Se proporcionan además métodos en donde la secuencia PAM mutante no es reconocida porMAD7. Se proporcionan además métodos en donde la proteína Cas es Cas9. Se proporcionan además métodos en donde la secuencia PAM mutante no es reconocida por Cas9. Se proporcionan además métodos en donde la proteína Cas es Cpf1. Se proporcionan además métodos en donde la secuencia PAM mutante no es reconocida por Cpf1. Se proporcionan además métodos en donde la nucleasa es una nucleasa Argonaute. Se proporcionan además métodos que comprenden además la introducción de oligonucleótidos de DNA guía que comprenden una secuencia guía complementaria a una porción del primer ácido nucleico diana antes de seleccionar un fenotipo. Se proporcionan además métodos en donde la secuencia de reconocimiento de nucleasa mutante comprende una secuencia flanqueante diana mutante no reconocida por la nucleasa Argonaute. Se proporcionan además métodos en donde la nucleasa es una nucleasa con dedos de zinc. Se proporcionan además métodos en donde la secuencia de reconocimiento de nucleasa mutante no es reconocida por la nucleasa con dedos de zinc. Se proporcionan además métodos en donde la nucleasa es una nucleasa efectora de tipo activador de la transcripción (TALEN). Se proporcionan además métodos en donde la secuencia de reconocimiento de nucleasa mutante no es reconocida por TALEN.
Breve descripción de las figuras
Las Figuras 1A-1C representan un ejemplo de flujo de trabajo de ingeniería genética que incluye el diseño de dianas, el diseño de plásmidos y la generación de bibliotecas de plásmidos.
Las Figuras 2A-2D representan datos de validación para un experimento de ejemplo mediante el uso de un método de ingeniería descrito.
Las Figuras 3A-3C representan un flujo de trabajo de ingeniería genética rastreable de ejemplo, que incluye un plásmido que comprende un casete de edición y un casete grabador, y la secuenciación aguas abajo de códigos de barras para identificar la edición o mutación incorporada.
Las Figuras 3D-3E representan un flujo de trabajo de ingeniería genética rastreable de ejemplo, que incluye rondas iterativas de ingeniería con un casete de edición y un casete grabador diferentes con un código de barras único (BC) en cada ronda, seguido de selección y seguimiento para confirmar la etapa de ingeniería exitosa en cada ronda. Las Figuras 4A-4B representan un ejemplo de incorporación de una mutación objetivo y una mutación PAM mediante el uso de un plásmido que comprende un casete de edición.
Las Figuras 5A-5B representan un ejemplo de un plásmido que comprende un casete de edición, diseñado para incorporar una mutación diana y una mutación PAM en una primera secuencia diana, y un casete grabador, diseñado para incorporar una secuencia de código de barras en una segunda secuencia diana. La Figura 5B representa datos de ejemplo que validan la incorporación del casete de edición y el casete grabador y la selección de las células bacterianas genomanipuladas.
La Figura 6 representa un ejemplo de flujo de trabajo de ingeniería recursiva.
Las Figuras 7A-7B representan un flujo de trabajo de curado de plásmido de ejemplo para ingeniería combinatoria y validación de un experimento de ejemplo mediante el uso de dicho flujo de trabajo.
Las Figuras 8A-8B representan un ejemplo de flujo de trabajo de ingeniería genética que incluye el diseño de dianas, el diseño de plásmidos y la generación de bibliotecas de plásmidos.
Las Figuras 9A-9D representan datos de validación para un ejemplo de experimento de ingeniería genética.
Las Figuras 10A-10F representan un conjunto de datos de ejemplo de un experimento de ingeniería genética.
Las Figuras 11A-11C representan un diseño y un conjunto de datos de ejemplo de un experimento de ingeniería genética.
Las Figuras 12A-12F representan un diseño de ejemplo para un experimento de ingeniería genética.
Las Figuras 13A-13D representan ejemplos de ediciones diseñadas para ser realizadas por ingeniería genética. Las Figuras 14A-14B representan un diseño de ejemplo para un experimento de ingeniería genética.
Las Figuras 15A-15D representan un ejemplo de controles de eficiencia de edición de Cas9.
Las Figuras 16A-16E representan ejemplos de toxicidad de la escisión del dsDNA en E. coli.
Las Figuras 16F-16H representan un ejemplo de un ensayo de transformación y supervivencia, y eficiencias de edición y grabación, con plásmidos con un número de copias alta y baja que expresan Cas9.
Las Figuras 17A-17D representan un ejemplo de estrategia de ingeniería genética para la eliminación de genes. Las Figuras 18A-18B representan un ejemplo de edición de controles de eficiencia por cotransformación de casetes de ácido nucleico guía y dsDNA lineal.
Las Figuras 19A-19D representan un ejemplo de análisis y estadísticas de clonación de bibliotecas.
Las Figuras 20A-20B representan un ejemplo de precisión de edición de seguimiento de casetes de poblaciones recombinadas.
La Figura 21 representa un ejemplo de las características de crecimiento de las mutaciones de fo1A en medios mínimos M9
Las Figuras 22A-22C representan un ejemplo de perfiles de enriquecimiento para casetes de edición fo1A en medios mínimos.
Las Figuras 23A-23F representan un ejemplo de validación de mutaciones acrB identificadas para mejorar la tolerancia a solventes y antibióticos.
Las Figuras 24A-24D representan un ejemplo de análisis de evaluación de variante mutante.
La Figura 25 representa un ejemplo de reconstrucción de mutaciones identificadas por selección con eritromicina. Las Figuras 26A-26B representan un ejemplo de validación de la mutación Crp S28P para furfural o tolerancia térmica.
Las Figuras 27A-27C representan un ejemplo de estudios de correlación de edición y código de barras.
La Figura 28 representa un ejemplo de una estrategia de grabación seleccionable.
La Figura 29 representa un ejemplo de una estrategia de grabación seleccionable.
Las Figuras 30A-30B representan datos de un experimento de grabación seleccionable.
Las Figuras 31A-31B representan las eficiencias de edición y transformación de varias nucleasas guiadas por ácidos nucleicos de un experimento de ejemplo.
La Figura 32 representa las eficiencias de edición de la nucleasa MAD2 con varios ácidos nucleicos guía.
La Figura 33 representa las eficiencias de edición de la nucleasa MAD7 con varios ácidos nucleicos guía.
Descripción detallada de la descripción
En la presente descripción se proporcionan métodos y composiciones para permitir estrategias sofisticadas de ingeniería combinatoria para optimizar y explorar fenotipos complejos. Muchos fenotipos de interés para la investigación básica y la biotecnología son el resultado de combinaciones de mutaciones que ocurren en loci distales. Por ejemplo, el cáncer a menudo está relacionado con mutaciones que influyen en múltiples funciones genéticas distintivas en lugar de una sola edición cromosómica. Igualmente, muchos procesos metabólicos y reguladores que son el objetivo de los continuos esfuerzos de ingeniería requieren las actividades de muchas proteínas que actúan en conjunto para producir el resultado fenotípico de interés. Los métodos y composiciones descritos en la presente descripción pueden proporcionar formas de ingeniería y creación de prototipos rápidos de tales funciones, ya que pueden proporcionar una construcción rápida y un informe preciso sobre los efectos mutacionales en muchos sitios en paralelo.
Los métodos y composiciones descritos en la presente descripción pueden llevarse a cabo o usarse en cualquier tipo de célula en la que pueda funcionar un sistema de nucleasa guiado por ácido nucleico, tales como CRISPR o Argonaute, u otros sistemas de nucleasa dirigida, tales como TALEN, z Fn o meganucleasa (por ejemplo, apuntar y escindir DNA), incluidas células procariotas, eucariotas o arqueas. La célula puede ser una célula bacteriana, tal como Escherichia spp. (por ejemplo, E. coli). La célula puede ser una célula fúngica, tal como una célula de levadura, por ejemplo, Saccharomyces spp. La célula puede ser una célula humana. La célula puede ser una célula de alga, una célula vegetal, una célula de insecto o una célula de mamífero, incluida una célula humana. Adicional o alternativamente, los métodos descritos en la presente descripción pueden llevarse a cabo in vitro o en sistemas libres de células en los que puede funcionar un sistema de nucleasa guiado por ácido nucleico, como CRISPR o Argonaute, u otros sistemas de nucleasa, tales como TALEN, ZFN o meganucleasa. (por ejemplo apuntar y escindir el DNA).
En la presente descripción se describen composiciones y métodos para la ingeniería genética. Se describen métodos y composiciones adecuados para ingeniería genética rastreable o recursiva. El método y las composiciones descritos pueden usar la síntesis y la clonación de oligonucleótidos multiplexados masivamente para permitir la edición del genoma multiplexado, rastreable y de alta fidelidad con una resolución de un solo nucleótido en una escala de genoma completo.
Plásmidos rastreables
Los métodos y las composiciones pueden usarse para realizar una edición rastreable de alta fidelidad, por ejemplo, con una resolución de un solo nucleótido y pueden usarse para realizar la edición a escala del genoma completo o en moléculas de ácido nucleico episomal. La síntesis y/o la clonación de oligonucleótidos multiplexados masivamente pueden usarse en combinación con un sistema de nucleasa dirigida, tales como un sistema CRISPR, un sistema MAD2, un sistema MAD7 u otro sistema de nucleasa guiado por ácido nucleico, para la edición.
Como se usa en la presente, "casete" a menudo se refiere a un polinucleótido de una sola molécula. Un casete puede comprender DNA. Un casete puede comprender RNA. Un casete puede comprender una combinación de DNA y RNA. Un casete puede comprender nucleótidos no naturales o nucleótidos modificados. Un casete puede ser monocatenario. Un casete puede ser de doble cadena. Un casete puede sintetizarse como una sola molécula. Un casete puede ensamblarse a partir de otros casetes, oligonucleótidos u otras moléculas de ácido nucleico. Un casete puede comprender uno o más elementos. Dichos elementos pueden incluir, como ejemplos no limitantes, uno o más de cualquiera de las secuencias de edición, secuencias de grabación, ácidos nucleicos guía, promotores, elementos reguladores, secuencias PAM mutantes, brazos de homología, sitios de cebadores, regiones de unión, sitios de aterrizaje únicos, un casete, y cualquier otro elemento descrito en la presente descripción. Dichos elementos pueden estar en cualquier orden o combinación. Cualquier dos o más elementos pueden ser contiguos o no contiguos. Un casete puede estar comprendido dentro de un ácido polinucleico más grande. Dicho ácido polinucleico más grande puede ser lineal o circular, como un plásmido o un vector viral. Un casete puede ser un casete sintetizado. Un casete puede ser un casete rastreable.
Un casete puede diseñarse para usarse en cualquier método o composición descritos en la presente descripción, incluidos los métodos de ingeniería múltiplex y los métodos de ingeniería rastreables. Como se describe en la presente descripción un casete ilustrativo puede acoplar dos o más elementos, como 1) un ácido nucleico guía (por ejemplo, gRNA o gDNA) diseñado para dirigirse a una secuencia diana especificada por el usuario en el genoma y 2) una secuencia de edición y/o secuencia de grabación (por ejemplo, Figura 1B y Figura 5A). Un casete que comprende una secuencia de edición y un ácido nucleico guía puede denominarse casete de edición. Un casete que comprende una secuencia de edición puede denominarse casete de edición. Un casete que comprende una secuencia de grabación y un ácido nucleico guía puede denominarse casete grabador. Un casete que comprende una secuencia de grabación puede denominarse casete grabador. En una modalidad preferida, una casete de edición y una casete grabador se suministran en la célula al mismo tiempo. Además, un casete de edición y un casete grabador pueden unirse covalentemente. Además, estos elementos pueden sintetizarse juntos mediante síntesis de oligonucleótidos multiplexados.
Un casete puede comprender uno o más ácidos nucleicos guía y el casete de edición como un polinucleótido contiguo. En otros ejemplos, uno o más ácidos nucleicos guía y el casete de edición son contiguos. En otros ejemplos, uno o más ácidos nucleicos guía y el casete de edición no son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía y el casete de edición no son contiguos.
Un casete puede comprender uno o más ácidos nucleicos guía, un casete de edición y un casete grabador como un polinucleótido contiguo. En otros ejemplos, uno o más ácidos nucleicos guía, el casete de edición y el casete grabador son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía, el casete de edición y el casete grabador son contiguos. En otros ejemplos, uno o más ácidos nucleicos guía, el casete de edición y el casete grabador no son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía, el casete de edición y el casete grabador no son contiguos.
Un casete puede comprender uno o más ácidos nucleicos guía, uno o más casetes de edición y uno o más casetes de grabación como un polinucleótido contiguo. En otros ejemplos, uno o más ácidos nucleicos guía, uno o más casetes de edición y uno o más casetes de grabación son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía, dos o más casetes de edición y dos o más casetes de grabación son contiguos. En otros ejemplos, uno o más ácidos nucleicos guía, uno o más casetes de edición y uno o más casetes de grabación no son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía, dos o más casetes de edición y dos o más casetes de grabación no son contiguos.
Un casete puede comprender uno o más ácidos nucleicos guía y una secuencia de edición como un polinucleótido contiguo. En otros ejemplos, uno o más ácidos nucleicos guía y la secuencia de edición son contiguos. En otros ejemplos, uno o más ácidos nucleicos guía y la secuencia de edición no son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía y la secuencia de edición no son contiguos.
Un casete puede comprender uno o más ácidos nucleicos guía, una secuencia de edición y una secuencia de grabación como un polinucleótido contiguo. En otros ejemplos, uno o más ácidos nucleicos guía, la secuencia de edición y la secuencia de grabación son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía, la secuencia de edición y la secuencia de grabación son contiguos. En otros ejemplos, uno o más ácidos nucleicos guía, la secuencia de edición y la secuencia de grabación no son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía, la secuencia de edición y la secuencia de grabación no son contiguos.
Un casete puede comprender uno o más ácidos nucleicos guía, una o más secuencias de edición y una o más secuencias de grabación como un polinucleótido contiguo. En otros ejemplos, uno o más ácidos nucleicos guía, una o más secuencias de edición y una o más secuencias de grabación son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía, dos o más secuencias de edición y dos o más secuencias de grabación son contiguas. En otros ejemplos, uno o más ácidos nucleicos guía, una o más secuencias de edición y una o más secuencias de grabación no son contiguos. En otros ejemplos, dos o más ácidos nucleicos guía, dos o más secuencias de edición y dos o más secuencias de grabación no son contiguos.
Un casete de edición puede comprender una secuencia de edición. Una secuencia de edición puede comprender una mutación, tal como una mutación sinónima o no, y brazos de homología (HA). Una secuencia de edición puede comprender una mutación, tal como una mutación sinónima o no, y brazos de homología (HA) diseñados para someterse a una recombinación homóloga con la secuencia diana en el sitio de rotura de doble cadena mediada por nucleasa guiada por ácido nucleico (por ejemplo Figura 1B).
Un casete grabador puede comprender una secuencia de grabación. Una secuencia de grabación puede comprender una secuencia rastreable, tal como un código de barras o un marcador, y brazos de homología (HA). Una secuencia de grabación puede comprender una secuencia rastreable, tal como un código de barras o un marcador, y brazos de homología (HA) diseñados para someterse a una recombinación homóloga con el cromosoma en el sitio de rotura de doble cadena mediada por nucleasa guiada por ácido nucleico (por ejemplo, Figura 1B).
Un casete puede codificar maquinaria (por ejemplo, nucleasa dirigida, ácido nucleico guía, casete de edición y/o casete grabador como se describe en la presente descripción) necesaria para inducir la rotura de la cadena, así como también la reparación diseñada que puede enriquecerse y/o rastrearse selectivamente en las células. Una célula puede ser cualquier célula, tal como una célula eucariota, una célula arquea, una célula procariota, o un microorganismos tal como E. coli (por ejemplo, las Figuras 2A-2D).
Un casete puede comprender un casete de edición. Un casete puede comprender un casete grabador. Un casete puede comprender un ácido nucleico guía y un casete de edición. Un casete puede comprender un ácido nucleico guía y un casete grabador. Un casete puede comprender un ácido nucleico guía, un casete de edición y un casete grabador. Un casete puede comprender dos ácidos nucleicos guía, un casete de edición y un casete grabador. Un casete puede comprender más de dos ácidos nucleicos guía, uno o más casetes de edición y uno o más casetes de grabación. Estos elementos de un casete pueden unirse covalentemente. Estos elementos de un casete pueden ser contiguos. Estos elementos de un casete pueden ser contiguos.
Un casete puede comprender una secuencia de edición. Un casete puede comprender una secuencia de grabación. Un casete puede comprender un ácido nucleico guía y una secuencia de edición. Un casete puede comprender un ácido nucleico guía y una secuencia de grabación. Un casete puede comprender un ácido nucleico guía, una secuencia de edición y una secuencia de grabación. Un casete puede comprender dos ácidos nucleicos guía, una secuencia de edición y una secuencia de grabación. Un casete puede comprender más de dos ácidos nucleicos guía, una o más secuencias de edición y una o más secuencias de grabación. Estos elementos de un casete pueden unirse covalentemente. Estos elementos de un casete pueden ser contiguos. Estos elementos de un casete pueden ser contiguos.
Las ediciones de un solo genoma pueden rastrearse mediante el uso de tecnologías de secuenciación, por ejemplo, tecnologías de secuenciación de lectura corta (por ejemplo, Figura 1C), tecnologías de secuenciación de lectura larga o cualquier otra tecnología de secuenciación conocida en la técnica.
Tras la transformación, cada casete de edición puede generar la modificación genética diseñada dentro de la célula transformada. En algunos ejemplos, el casete de edición puede actuar en trans como un código de barras de la mutación genética introducida por el casete de edición y puede permitir el seguimiento de esta frecuencia de mutación en una población compleja a lo largo del tiempo y en muchas condiciones de crecimiento diferentes (por ejemplo, las Figuras 2A-2D y la Figura 1C).
En algunos ejemplos, un casete grabador inserta la secuencia rastreable diseñada, como un marcador o una secuencia de código de barras, dentro de la célula transformada. En algunos ejemplos, el casete grabador puede actuar en cis como un código de barras de la mutación cromosómica y puede permitir el seguimiento de esta frecuencia de mutación en una población compleja a lo largo del tiempo y en muchas condiciones de crecimiento diferentes.
Al proporcionar seguimiento cis y/o trans de mutaciones genómicas diseñadas, los métodos proporcionados en la presente descripción simplifican la preparación de muestras y la profundidad de cobertura para mapear la diversidad de todo el genoma y proporcionan herramientas poderosas para la ingeniería a escala genómica (por ejemplo, la Figura 1C).
Puede agruparse una pluralidad de casetes en una biblioteca de casetes. Una biblioteca de casetes puede comprender al menos 2 casetes. Una biblioteca de casetes puede comprender de 5 a un millón de casetes. Una biblioteca de casetes puede comprender al menos un millón de casetes. Debe entenderse que una biblioteca de casetes puede comprender cualquier número de casetes.
Una biblioteca de casetes puede comprender casetes que tengan cualquier combinación de elementos comunes y elementos únicos o no comunes en comparación con los otros casetes dentro del grupo. Por ejemplo, una biblioteca de casetes puede comprender sitios de cebadores comunes o brazos de homología comunes mientras que también contienen códigos de barras no-comunes o únicos. Los elementos comunes pueden ser compartidos por una pluralidad, mayoría o todos los casetes dentro de una biblioteca de casetes. Los elementos no comunes pueden ser compartidos por una pluralidad, una minoría o una subpoblación de casetes dentro de la biblioteca de casetes. Los elementos únicos pueden ser compartidos por una, unas pocas o una subpoblación de casetes dentro de la biblioteca de casetes, de manera que sea capaz de identificar o distinguir una, unas pocas o una subpoblación de casetes de los otros casetes dentro la biblioteca de casetes. Dichas combinaciones de comunes y no comunes son ventajosos para las técnicas de multiplexación como se describe en la presente descripción.
Los casetes descritos en la presente descripción pueden generar la modificación genética diseñada o insertar el marcador diseñado o la secuencia de código de barras con alta eficiencia dentro de una célula transformada. En muchos ejemplos, la eficiencia es mayor al 50%. En algunos ejemplos, la eficiencia es del 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, 99 % o 100 % (por ejemplo, las Figuras 32A, 32B, y 33).
En algunos ejemplos, la eficiencia de transformación, edición y/o grabación puede aumentarse mediante la modulación de la expresión de uno o más componentes descritos en la presente descripción, tal como una nucleasa guiada por ácido nucleico. Los métodos para modular componentes se describen en la presente descripción y son conocidos en la técnica. Dichos métodos pueden incluir la expresión de un componente, tal como una nucleasa guiada por ácido nucleico o una enzima CRISPR de un sistema sujeto en un plásmido con un número de copias baja o alta, en dependencia del diseño experimental.
En la presente descripción se describen métodos y composiciones para generar casetes. Un casete puede comprender un casete como se describe en la presente descripción. Por ejemplo, un casete puede comprender cualquier combinación de un casete de edición y/o un casete grabador descrito en la presente descripción. Dicho casete puede estar compuesto por una molécula de ácido polinucleico más grande. Dicha molécula de ácido polinucleico más grande puede ser lineal o circular, tal como un plásmido o un vector viral.
Un casete de edición puede comprender una mutación con relación a una secuencia de ácido nucleico diana. El casete de edición puede comprender una secuencia homóloga a la secuencia diana que flanquea la mutación deseada o la secuencia de edición. El casete de edición puede comprender una región que reconoce una secuencia diana de un ácido nucleico en una célula o población de células, o se hibrida con ella, es homóloga a la secuencia diana del ácido nucleico de la célula e incluye una mutación o una mutación deseada, de al menos un nucleótido con relación a la secuencia diana.
Un casete de edición puede comprender una primera secuencia de edición que comprende una primera mutación con relación a una secuencia diana. Una primera mutación puede comprender una mutación tal como una inserción, eliminación o sustitución de al menos un nucleótido en comparación con la secuencia diana que no se edita. La mutación puede incorporarse en una región codificante o en una región no codificante.
Un casete de edición puede comprender una segunda secuencia de edición que comprende una segunda mutación con relación a una secuencia diana. La segunda mutación puede diseñarse para mutar o silenciar de cualquier otra manera una secuencia PAM de manera que una nucleasa guiada por ácido nucleico o una nucleasa CRISPR correspondiente ya no pueda escindir la secuencia diana. En tales casos, esta mutación o silenciamiento de un PAM puede servir como método para seleccionar transformantes en los que se haya incorporado la primera secuencia de edición.
En algunos ejemplos, un casete de edición comprende al menos dos mutaciones, en donde una mutación es una mutación PAM. En algunos ejemplos, la mutación PAM puede estar en un segundo casete de edición. Dicho segundo casete de edición puede estar unido covalentemente y puede ser continuo o no contiguo a los otros elementos del casete.
Un casete de edición puede comprender un ácido nucleico guía, tal como un gen que codifica un gRNA, opcionalmente unido operativamente a un promotor. El ácido nucleico guía puede diseñarse para hibridarse con la secuencia de ácido nucleico diana en la que se incorporará la secuencia de edición.
Un casete grabador puede comprender una secuencia de grabación. Una secuencia de grabación puede comprender una secuencia de código de barras u otro marcador seleccionable o rastreable o fragmento del mismo. La secuencia de grabación puede estar comprendida dentro de un casete grabador. Los casetes de grabación pueden comprender regiones homólogas a un sitio de inserción dentro de una secuencia de ácido nucleico diana de manera que la secuencia de grabación se incorpore mediante recombinación homóloga o sistemas de reparación dirigidos por homología. El sitio de incorporación del casete grabador puede estar comprendido en la misma molécula de DNA que el ácido nucleico diana que va a ser editado por un casete de edición. La secuencia de grabación puede comprender un código de barras, una secuencia de DNA única y/o un fragmento o una copia completa de un elemento o marcador seleccionable o detectable.
Un casete de grabación puede comprender una mutación con relación a la secuencia diana. La mutación puede diseñarse para mutar o silenciar de cualquier otra manera una secuencia PAM de manera que una nucleasa guiada por ácido nucleico o una nucleasa CRISPR correspondiente ya no pueda escindir la secuencia diana. En tales casos, esta mutación o silenciamiento de un sitio PAM puede servir como método para seleccionar transformantes en los que se haya incorporado la primera secuencia de grabación. Un casete grabador puede comprender una mutación de PAM. La mutación PAM puede diseñarse para mutar o silenciar de cualquier otra manera un sitio PAM de manera que una nucleasa CRISPR correspondiente ya no pueda escindir la secuencia diana. En tales casos, esta mutación o silenciamiento de un sitio pA m puede servir como método para seleccionar transformantes en los que se ha incorporado la secuencia de grabación.
Un casete grabador puede comprender un ácido nucleico guía, tal como un gen que codifica un gRNA. Un promotor puede unirse operativamente a una secuencia de ácido nucleico que codifica un ácido nucleico guía capaz de dirigir una nucleasa guiada por ácido nucleico a la secuencia diana deseada. Un ácido nucleico guía puede dirigirse a un sitio único dentro del sitio diana. En algunos casos, el ácido nucleico guía se dirige a un sitio de aterrizaje único que se incorporó en una ronda previa de ingeniería. En algunos casos, el ácido nucleico guía se dirige a un sitio de aterrizaje único que se incorporó por un casete grabador en una ronda previa de ingeniería.
Un casete grabador puede comprender un código de barras. Un código de barras puede ser un código de barras único o relativamente único, de manera que la mutación correspondiente pueda identificarse en base al código de barras. En algunos ejemplos, el código de barras es una secuencia no natural que no se encuentra en la naturaleza. En la mayoría de los ejemplos, la combinación de la mutación deseada y el código de barras dentro del casete de edición no ocurre de forma natural y no se encuentra en la naturaleza. Un código de barras puede tener cualquier número de nucleótidos de longitud. Un código de barras puede tener 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 o más de 30 nucleótidos de longitud. En algunos casos, el código de barras tiene más de 30 nucleótidos de longitud. Puede generarse un código de barras mediante la síntesis de oligonucleótidos degenerados. Un código de barras puede diseñarse racionalmente o especificarse por el usuario.
Un casete grabador puede comprender un sitio de aterrizaje. Un sitio de aterrizaje puede servir como sitio de destino para un casete grabador para una ronda de ingeniería sucesiva. Un sitio de aterrizaje puede comprender un PAM. Un sitio de aterrizaje puede ser una secuencia única. Un sitio de aterrizaje puede ser al menos aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50 nucleótidos de longitud. En algunos casos, el sitio de aterrizaje es mayor a 50 nucleótidos de longitud.
Un casete grabador puede comprender un marcador seleccionable o detectable, o una secuencia reguladora o mutación que activa o desactiva un marcador seleccionable o detectable. En tales casos, la activación o desactivación de un marcador seleccionable puede usarse para la selección o la contraselección, respectivamente, de rondas iterativas de ingeniería. Un ejemplo de secuencia reguladora incluye un sitio de unión a ribosomas (RBS), aunque se prevén otras secuencias reguladoras de este tipo. Las mutaciones que activan un marcador seleccionable o detectable pueden incluir cualquier codón de inicio posible que sea reconocido por la maquinaria de transcripción del hospedero. Una mutación que desactiva un marcador seleccionable o detectable incluye una mutación que elimina un codón de inicio o una que inserta un codón de terminación prematuro o una mutación de cambio de marco de lectura.
Un casete grabador puede comprender uno o más de un ácido nucleico guía dirigido a un sitio diana en el que se incorporará la secuencia de grabación, una mutación PAM para silenciar un PAM usado por el RNA guía, un código de barras correspondiente a un casete de edición, un único sitio para servir como un sitio de aterrizaje para un casete grabador de rondas posteriores de ingeniería, una secuencia reguladora o mutación que activa o desactiva un marcador seleccionable o detectable, estos uno o más elementos están flanqueados por brazos de homología que están diseñados para promover la recombinación de estos uno o más elementos en el sitio diana escindido que es el objetivo del RNA guía.
Un casete grabador puede comprender un primer brazo de homología, una mutación de PAM, un código de barras, un sitio de aterrizaje único, una secuencia reguladora o mutación para un marcador seleccionable o detectable, un segundo brazo de homología y un RNA guía. El primer brazo de homología puede ser un brazo de homología aguas arriba. El segundo brazo de homología puede ser un brazo de homología aguas abajo. Los brazos de homología pueden ser homólogos a las secuencias que flanquean un sitio de escisión al que se dirige el RNA guía.
Un casete puede comprender dos ácidos nucleicos guía diseñados para dirigirse a dos secuencias de ácidos nucleicos diana distintas. En cualquier caso, el ácido nucleico guía puede comprender un solo gRNA o gRNA quimérico que consiste de secuencias de crRNA y trRNA, o alternativamente, el gRNA puede comprender crRNA y trRNA separados, o un ácido nucleico guía puede comprender un crRNA. En otros ejemplos, el ácido nucleico guía puede introducirse simultáneamente con un ácido polinucleico rastreable o un plásmido que comprende un casete de edición y/o un casete grabador. En estos casos, el ácido nucleico guía puede codificarse en un plásmido separado o suministrarse en forma de RNA a través de métodos de suministro bien conocidos en la técnica.
Un casete puede comprender un gen que codifica una nucleasa guiada por ácido nucleico, tal como una nucleasa CRISPR, funcional con el ácido nucleico guía elegido. Puede proporcionarse un gen de nucleasa CRISPR o nucleasa guiada por ácido nucleico en un plásmido separado. Puede proporcionarse una nucleasa guiada por ácido nucleico o una nucleasa CRISPR en el genoma o plásmido episomal de un organismo hospedador en el que se introducirá un ácido polinucleico o plásmido rastreable. En cualquiera de estos ejemplos, el gen de la nucleasa guiada por ácido nucleico o de la nucleasa CRISPR puede unirse operativamente a un promotor constitutivo o inducible. Los ejemplos de promotores constitutivos e inducibles adecuados se conocen bien en la técnica. Puede proporcionarse una nucleasa guiada por ácido nucleico o una nucleasa CRISPR como mRNA o polipéptido mediante el uso de sistemas de suministro bien conocidos en la técnica. Dichos sistemas de suministro de mRNA o polipéptidos pueden incluir, pero no se limitan a, nanopartículas, vectores virales u otras tecnologías permeables a las células.
Un casete puede comprender un marcador seleccionable o detectable, por ejemplo, tal como el comprendido dentro de un casete grabador. Por ejemplo, el casete grabador puede comprender un código de barras, tal como una secuencia de ácido nucleico rastreable que puede correlacionarse de forma única con una mutación genética del casete de edición correspondiente, o correlacionar de cualquier otra manera identificable con una mutación genética de manera que la secuenciación del código de barras permitirá la identificación de la correspondiente mutación genética introducida por el casete de edición. En otros ejemplos, el casete grabador puede comprender una copia completa o un fragmento de un gen que codifica un gen de resistencia a antibióticos, un marcador auxotrófico, una proteína fluorescente u otros marcadores seleccionables o detectables conocidos.
Bibliotecas de plásmidos rastreables
Una biblioteca rastreable puede comprender una pluralidad de casetes como se describe en la presente descripción. Una biblioteca rastreable puede comprender una pluralidad de ácidos polinucleicos rastreables o plásmidos que comprenden un casete como se describe en la presente descripción. Un casete, polinucleótido o plásmido que comprende una secuencia de grabación o un casete grabador como se describe en la presente descripción puede denominarse casete, polinucleótido o plásmido rastreable. Un casete, polinucleótido o plásmido que comprende una secuencia de edición o un casete de edición como se describe en la presente descripción puede denominarse casete, polinucleótido o plásmido rastreable.
En algunos casos, dentro de la biblioteca rastreable hay combinaciones distintas de casete de edición y casete grabador que se secuencian para determinar qué secuencia de edición corresponde con un marcador dado o secuencia de código de barras comprendida dentro del casete grabador. Por lo tanto, cuando las secuencias de edición y grabación se incorporan a una secuencia de destino, puede determinar la edición que se incorporó secuenciando la secuencia de grabación. Secuenciar la secuencia de grabación o el código de barras puede reducir significativamente el tiempo y el costo de la secuenciación.
El tamaño de la biblioteca puede depender del diseño del experimento. Por ejemplo, si el objetivo es editar cada aminoácido dentro de una proteína de interés, entonces el tamaño de la biblioteca puede depender del número (N) de aminoácidos en una proteína de interés, con una biblioteca de saturación completa (los 20 aminoácidos en cada posición o aminoácidos no naturales) con una escala de 19 (o más) xN y una biblioteca de mapeo de alanina con una escala de 1> <N. Por lo tanto, el cribado de proteínas incluso muy grandes de más de 1000 aminoácidos pueden ser manejable dadas las capacidades actuales de síntesis de oligos múltiple (por ejemplo 120000 oligos). Además de o como una alternativa a la actividad de cribado, las propiedades más generales con cribados y selecciones de alto rendimiento desarrolladas pueden probarse de manera eficiente mediante el uso de las bibliotecas descritas en la presente descripción. Debe entenderse fácilmente que las bibliotecas pueden diseñarse para mutar cualquier número de aminoácidos dentro de una proteína diana, incluidos 1, al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, etc. al número total de aminoácidos dentro de una proteína diana. Adicionalmente, pueden dirigirse a aminoácidos seleccionados, como aminoácidos catalíticamente activos o aquellos involucrados en interacciones proteína-proteína. Cada aminoácido al que se dirige la mutación puede mutarse en cualquier número de aminoácidos alternativos, tal como cualquier otro aminoácido natural o no natural o análogo de aminoácido. En algunos ejemplos, todos los aminoácidos objetivos están mutados al mismo aminoácido, como la alanina. En otros casos, los aminoácidos objetivos se mutan independientemente a cualquier otro aminoácido en cualquier combinación o permutación.
Las bibliotecas rastreables pueden comprender mutaciones rastreables en residuos individuales o secuencias de interés. Las bibliotecas rastreables pueden generarse mediante el uso de matrices de oligonucleótidos sintetizados a la medida. Los plásmidos rastreables pueden generarse mediante el uso de cualquier método de clonación o ensamblaje conocido en la técnica. Por ejemplo, los plásmidos CREATE-de grabación pueden generarse mediante síntesis química, ensamblaje Gibson, SLIC, CPEC, p Ca , clonación sin ligación, otras técnicas de ensamblaje de oligo in vitro, clonación tradicional basada en ligación o cualquiera de sus combinaciones.
Las secuencias de grabación, como los códigos de barras, pueden diseñarse en silico a través de un código estándar con una mutación degenerada en el codón diana. La mutación degenerada puede comprender 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 27, 28, 29, 30 o más de 30 residuos de ácido nucleico. En algunos ejemplos, las mutaciones degeneradas pueden comprender 15 residuos de ácido nucleico (N15).
Los brazos de homología pueden añadirse a una secuencia de grabación y/o secuencia de edición para permitir la incorporación de la secuencia de grabación y/o la de edición en la ubicación deseada mediante recombinación homóloga o reparación impulsada por homología. Los brazos de homología pueden añadirse mediante síntesis, ensamblaje in vitro, PCR u otros métodos conocidos en la técnica. Por ejemplo, los brazos de homología pueden ensamblarse a través de la extensión de oligos con solapamiento, el ensamblaje de Gibson o cualquier otro método descrito en la presente descripción. Puede añadirse un brazo de homología a ambos extremos de una secuencia de grabación y/o de edición, flanqueando de esta manera la secuencia con dos brazos de homología distintos, por ejemplo, un brazo de homología 5' y un brazo de homología 3'.
Los mismos brazos de homología 5' y 3' pueden añadirse a una pluralidad de secuencias de grabación distintas, generando de esta manera una biblioteca de secuencias de grabación únicas que tienen cada una el mismo objetivo espaciador o sitio de inserción objetivo. Los mismos brazos de homología 5' y 3' pueden añadirse a una pluralidad de secuencias de edición distintas, generando de esta manera una biblioteca de secuencias de edición únicas que tienen cada una el mismo objetivo espaciador o sitio de inserción objetivo. En ejemplos alternativos, pueden añadirse diferentes o una variedad de brazos de homología 5' o 3' a una pluralidad de secuencias de grabación o secuencias de edición.
Una biblioteca de secuencias de grabación que comprende brazos de homología flanqueantes puede clonarse en una estructura de vector. En algunos ejemplos, la secuencia de grabación y los brazos de homología se clonan en un casete de grabación. Los casetes de grabación pueden, en algunos casos, comprender además una secuencia de ácido nucleico que codifica un ácido nucleico guía o un gRNA genomanipulado para dirigirse al sitio deseado de inserción de la secuencia de grabación. En muchos casos, las secuencias de ácido nucleico que flanquean el sitio de corte mediado por CRISPR/Cas son homólogas o sustancialmente homólogas a los brazos de homología comprendidos dentro del casete grabador.
Una biblioteca de secuencias de edición que comprende brazos de homología flanqueantes puede clonarse en una estructura de vector. En algunos ejemplos, la secuencia de edición y los brazos de homología se clonan en un casete de edición. Los casetes de edición pueden, en algunos casos, comprender además una secuencia de ácido nucleico que codifica un ácido nucleico guía o gRNA genomanipulado para dirigirse al sitio deseado de inserción de la secuencia de edición. En muchos casos, las secuencias de ácido nucleico que flanquean el sitio de escisión mediado por CRISPR/Cas son homólogas o sustancialmente homólogas a los brazos de homología comprendidos dentro del casete de edición.
Las bibliotecas de edición de todo el gen o todo el genoma pueden subclonarse en una estructura de vector. En algunos casos, la estructura del vector comprende una casete grabador como se describe en la presente descripción. La biblioteca de secuencias de edición puede insertarse o ensamblarse en un segundo sitio para generar plásmidos rastreables competentes que pueden incrustar el código de barras de grabación en un locus fijo mientras se integran las bibliotecas de edición en una amplia variedad de sitios definidos por el usuario.
Una secuencia de grabación y/o casete puede ensamblarse o insertarse primero en una estructura de vector, seguido de la inserción de una secuencia de edición y/o casete. En otros casos, una secuencia de edición y/o casete puede insertarse o ensamblarse primero en una estructura de vector, seguido de la inserción de una secuencia de grabación y/o casete. En otros casos, una secuencia y/o casete de grabación y una secuencia y/o casete de edición se insertan o ensamblan simultáneamente en un vector. En otros casos, una secuencia de grabación y/o casete y una secuencia de edición y/o casete están comprendidas en el mismo casete antes de la inserción o ensamble simultáneos en un vector. En otros casos, una secuencia y/o casete de grabación y una secuencia y/o casete de edición se vinculan antes de la inserción o ensamble simultáneos en un vector. En otros casos, una secuencia y/o casete de grabación y una secuencia y/o casete de edición se unen covalentemente antes de la inserción o ensamble simultáneos en un vector. En cualquiera de estos casos, pueden generarse plásmidos rastreables o bibliotecas de plásmidos.
Puede sintetizarse un casete o molécula de ácido nucleico que comprenda uno o más elementos descritos en la presente descripción. Por ejemplo, puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición y un ácido nucleico guía. Puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición y un casete grabador. Puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición, un ácido nucleico guía y un casete grabador. Puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición, un casete grabador y dos ácidos nucleicos guía. Puede sintetizarse una molécula de ácido nucleico que comprende un casete grabador y un ácido nucleico guía. Puede sintetizarse una molécula de ácido nucleico que comprende un casete grabador. Puede sintetizarse una molécula de ácido nucleico que comprende un casete de edición. En cualquiera de estos casos, el ácido nucleico guía puede opcionalmente unirse operativamente a un promotor. En cualquiera de estos casos, la molécula de ácido nucleico puede incluir además uno o más códigos de barras.
Los casetes sintetizados o las moléculas de ácido nucleico sintetizadas pueden sintetizarse mediante el uso de cualquier método de síntesis de oligonucleótidos conocido en la técnica. Por ejemplo, los casetes pueden sintetizarse mediante síntesis de oligonucleótidos basada en matrices. En tales ejemplos, después de la síntesis de los oligonucleótidos, los oligonucleótidos pueden escindirse de la matriz. La escisión de oligonucleótidos de una matriz puede crear un grupo de oligonucleótidos.
El software y los métodos de automatización pueden usarse para la síntesis y generación múltiplex. Por ejemplo, el software y la automatización pueden usarse para crear 10, 102, 103, 104, 105, 106, o más casetes, tales como casetes rastreables. Un método de automatización puede generar plásmidos rastreables de manera rápida. Los casetes rastreables pueden procesarse a través de un flujo de trabajo con etapas mínimas para producir bibliotecas de todo el genoma definidas con precisión.
Pueden generarse bibliotecas de casetes, tales como bibliotecas de casetes rastreables, que comprenden dos o más moléculas de ácido nucleico o plásmidos que comprenden cualquier combinación descrita en la presente descripción de secuencia de grabación, secuencia de edición, ácido nucleico guía y código de barras opcional, incluidas combinaciones de uno o más de cualquier de los elementos antes mencionados. Por ejemplo, dicha biblioteca puede comprender al menos 2, 3, 4, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 1000, 1500, 2000, 2500, 3000, 3500, 4000, 4500, 5000, 5500, 6000, 6500, 7000, 7500, 8000, 8500, 9000, 9500, 104, 105, 106, 107, 108, 109, 1010, o más moléculas de ácido nucleico o plásmidos de la presente descripción. Debe entenderse que tal biblioteca puede incluir cualquier número de moléculas de ácido nucleico o plásmidos, incluso si el número específico no se menciona explícitamente anteriormente.
Los casetes o las bibliotecas de casetes pueden secuenciarse para determinar la secuencia de grabación y el par de secuencias de edición que se incluye en cada casete. En otros casos, una secuencia de grabación conocida se combina con una secuencia de edición conocida durante el proceso de generación de la biblioteca. Se prevén otros métodos para determinar la asociación entre una secuencia de grabación y una secuencia de edición comprendida en una molécula de ácido nucleico o plásmido común, de manera que la secuencia de edición pueda identificarse mediante la identificación o secuenciación de la secuencia de grabación.
Métodos y composiciones para rastrear bibliotecas episomales editadas que se transportan entre E. coli y otros organismos/líneas celulares se proporcionan en la presente descripción. Las bibliotecas pueden estar compuestas por plásmidos, cromosomas artificiales bacterianos (BAC), cromosomas artificiales de levadura (YAC), cromosomas sintéticos o genomas virales o de fagos. Estos métodos y composiciones pueden usarse para generar bibliotecas de códigos de barras portátiles en organismos hospederos, tal como E. coli. La generación de bibliotecas en tales organismos puede ofrecer la ventaja de técnicas establecidas para realizar la recombinación homóloga. Las bibliotecas de plásmidos con código de barras pueden secuenciarse en profundidad en un sitio para rastrear la diversidad mutacional dirigida a través de las porciones restantes del plásmido, lo que permite mejoras dramáticas en la profundidad de la cobertura de la biblioteca (por ejemplo, la Figura 3A).
Métodos de ingeniería rastreables
En la Figura 3A se representa un ejemplo de flujo de trabajo de ingeniería rastreable. Cada plásmido puede codificar un casete grabador diseñado para editar un sitio en el DNA diana (por ejemplo, la Figura 3A, casete negro). Los sitios a los que se dirige pueden ser sitios funcionalmente neutros, o pueden ser un gen marcador seleccionable o detectable. El brazo de homología (HA) del casete grabador puede contener una secuencia de grabación (por ejemplo la Figura 3B) que se inserta en el sitio de grabación durante la recombinación. La recombinación puede comprender la escisión del DNA, tal como la escisión del DNA mediada por nucleasa guiada por ácido nucleico, y la reparación mediante recombinación homóloga. La secuencia de grabación puede comprender un código de barras, una secuencia de DNA única o una copia completa o un fragmento de un marcador seleccionable o detectable. En algunos ejemplos, la secuencia de grabación es de 15 nucleótidos. La secuencia de grabación puede comprender menos de 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 88, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200 o más de 200 nucleótidos.
A través de un enfoque de clonación multiplexada, el casete grabador puede acoplarse covalentemente a al menos un casete de edición en un plásmido (por ejemplo, Figura 3A, casete verde) para generar bibliotecas de plásmidos rastreables que tienen una combinación única de grabador y casete de edición. Esta biblioteca rastreable puede secuenciarse para generar el mapeo de grabador/edición y usarse para rastrear bibliotecas de edición en grandes segmentos del DNA diana (por ejemplo, la Figura 3C). Las secuencias de grabación y de edición pueden estar comprendidas en el mismo polinucleótido, en cuyo caso ambas se incorporan a la secuencia de ácido nucleico diana, como un genoma o un plásmido, mediante el mismo evento de recombinación. En otros ejemplos, las secuencias de grabación y edición pueden estar compuestas en casetes separados dentro del mismo plásmido rastreable, en cuyo caso las secuencias de grabación y edición se incorporan a la secuencia de ácido nucleico diana mediante eventos de recombinación separados, ya sea simultáneamente o secuencialmente.
En la presente descripción se proporcionan métodos para combinar la síntesis de oligonucleótidos multiplex con la recombinación, para crear bibliotecas de mutaciones rastreables y diseñadas específicamente. Cribados y/o selecciones seguidas de secuenciación de alto rendimiento y/o métodos de micromatrices de código de barras pueden permitir un mapeo rápido de mutaciones que conducen a un fenotipo de interés.
Los métodos y composiciones descritos en la presente descripción pueden usarse para manipular y rastrear simultáneamente eventos de ingeniería en una secuencia de ácido nucleico diana.
Los plásmidos rastreables pueden generarse mediante el uso de técnicas de ensamblaje o clonación in vitro. Por ejemplo, los plásmidos CREATE-de grabación pueden generarse mediante el uso de síntesis química, ensamblaje Gibson, SLIC, CPEC, PCA, clonación sin ligación, otras técnicas de ensamblaje de oligo in vitro, clonación basada en ligación tradicional o cualquiera de sus combinaciones.
Los plásmidos rastreables pueden comprender al menos una secuencia de grabación, como un código de barras, y al menos una secuencia de edición. En la mayoría de los casos, la secuencia de grabación se usa para grabar y realizar un seguimiento de los eventos de ingeniería. Cada secuencia de edición puede usarse para incorporar una edición deseada en una secuencia de ácido nucleico diana. La edición deseada puede incluir inserción, eliminación, sustitución o alteración de la secuencia de ácido nucleico diana. En algunos ejemplos, una o más secuencias de grabación y secuencias de edición están comprendidas en un solo casete comprendido dentro del plásmido rastreable de manera que se incorporan a la secuencia de ácido nucleico diana mediante el mismo evento de ingeniería. En otros ejemplos, las secuencias de grabación y edición están comprendidas en casetes separados dentro del plásmido rastreable, de manera que cada uno de ellos se incorpora al ácido nucleico diana mediante distintos eventos de ingeniería. En algunos ejemplos, el plásmido rastreable comprende dos o más secuencias de edición. Por ejemplo, puede usarse una secuencia de edición para alterar o silenciar una secuencia PAM, mientras que puede usarse una segunda secuencia de edición para incorporar una mutación en una secuencia distinta.
Las secuencias de grabación pueden insertarse en un sitio separado del sitio de inserción de la secuencia de edición. La secuencia de grabación insertada puede separarse de la secuencia de edición por 1 bp o cualquier número de pares de bases. Por ejemplo, la distancia de separación puede ser de aproximadamente 1 bp, 10 bp, 50 bp, 100 bp, 500 bp, 1 kb, 2 kb, 5 kb, 10 kb o mayor. La distancia de separación puede ser cualquier número entero discreto de pares de bases. Debería entenderse fácilmente que allí el límite del número de pares de bases que separan los dos sitios de inserción puede estar limitado por el tamaño del genoma, cromosoma o polinucleótido en el que se realizan las inserciones. En algunos ejemplos, la distancia máxima de separación depende del tamaño del ácido nucleico o del genoma diana.
Las secuencias de grabación pueden insertarse adyacente a las secuencias de edición o cerca de la secuencia de edición. Por ejemplo, la secuencia de grabación puede insertarse fuera del marco de lectura abierto dentro del cual se inserta la secuencia de edición. La secuencia de grabación puede insertarse en una región no traducida adyacente a un marco de lectura abierto dentro del cual se ha insertado una secuencia de edición. La secuencia de grabación puede insertarse en un sitio funcionalmente neutral o no funcional. La secuencia de grabación puede insertarse en un gen marcador seleccionable o detectable.
En algunos ejemplos, la secuencia de ácido nucleico diana está comprendida dentro de un genoma, un cromosoma artificial, un cromosoma sintético o un plásmido episomal. En varios ejemplos, la secuencia de ácido nucleico diana puede ser in vitro o in vivo. Cuando la secuencia de ácido nucleico diana está in vivo, el plásmido CREATE-de grabación puede introducirse en los organismos hospederos mediante transformación, transfección, conjugación, biolística, nanopartículas, tecnologías de permeabilidad celular u otros métodos conocidos para el suministro de DNA, o cualquier de sus combinaciones. En tales ejemplos, el organismo hospedero puede ser un eucariota, un procariota, una bacteria, una arquea, una levadura u otro hongo.
El evento de ingeniería puede comprender recombinación, unión de extremos no homólogos, recombinación homóloga o reparación impulsada por homología. En algunos ejemplos, el evento de ingeniería se realiza in vitro o in vivo.
Los métodos descritos en la presente descripción pueden llevarse a cabo en cualquier tipo de célula en la que pueda funcionar un sistema de nucleasa guiado por ácido nucleico (por ejemplo, dirigir y escindir el DNA), incluidas las células procariotas y eucariotas o in vitro. En algunas modalidades, la célula es una célula bacteriana, tal como Escherichia spp. (por ejemplo, E. coli). En otras modalidades, la célula es una célula fúngica, tal como una célula de levadura, por ejemplo, Saccharomyces spp. En otras modalidades, la célula es una célula de alga, una célula vegetal, una célula de insecto o una célula de mamífero, incluida una célula humana.
En algunos ejemplos, una célula es un organismo recombinante. Por ejemplo, la célula puede comprender un sistema de nucleasa guiado por ácido nucleico no nativo. Adicional o alternativamente, la célula puede comprender maquinaria del sistema de recombinación. Dichos sistemas de recombinación pueden incluir el sistema de recombinación de rojo lambda, Cre/10x, attB/attP u otros sistemas de integrasa. Cuando proceda, el plásmido rastreable puede tener los componentes complementarios o la maquinaria necesaria para que el sistema de recombinación seleccionado funcione de manera correcta y eficiente.
Un método para la edición del genoma puede comprender: (a) introducir un vector que codifica al menos un casete de edición y al menos un ácido nucleico guía en una primera población de células, produciendo de esta manera una segunda población de células que comprende el vector; (b) mantener la segunda población de células en condiciones en las que se expresa o mantiene una nucleasa guiada por ácido nucleico, en donde la nucleasa guiada por ácido nucleico está codificada en el vector, un segundo vector, en el genoma de células de la segunda población de células, o introducido de cualquier otra manera en la célula, dando como resultado la escisión del DNA y la incorporación del casete de edición; (c) obtener células viables. Dicho método puede comprender opcionalmente además (d) secuenciar la molécula de DNA diana en al menos una célula de la segunda población de células para identificar la mutación de al menos un codón.
Un método para la edición del genoma puede comprender: (a) introducir un vector que codifica al menos un casete de edición que comprende una mutación PAM como se describe en la presente descripción y al menos un ácido nucleico guía en una primera población de células, produciendo de esta manera una segunda población de células que comprende el vector; (b) mantener la segunda población de células en condiciones en las que se expresa o mantiene la nucleasa guiada por ácido nucleico, en donde la nucleasa guiada por ácido nucleico está codificada en el vector, un segundo vector, en el genoma de células de la segunda población de células o introducido de cualquier otra manera en la célula, lo que da como resultado la escisión del DNA, la incorporación del casete de edición y la muerte de las células de la segunda población de células que no comprenden la mutación PAM, mientras que las células de la segunda población de células que comprenden la mutación PAM son viables; (c) obtener células viables. Dicho método puede comprender opcionalmente además (d) secuenciar el DNA diana en al menos una célula de la segunda población de células para identificar la mutación de al menos un codón.
El método para la edición del genoma rastreable puede comprender: (a) introducir un vector que codifica al menos un casete de edición, al menos un casete de grabación y al menos dos gRNA en una primera población de células, produciendo de esta manera una segunda población de células que comprende el vector; (b) mantener la segunda población de células en condiciones en las que se expresa o mantiene una nucleasa guiada por ácido nucleico, en donde la nucleasa guiada por ácido nucleico está codificada en el vector, un segundo vector, en el genoma de células de la segunda población de células, o introducido de cualquier otra manera en la célula, lo que da como resultado la escisión del d Na y la incorporación de los casetes de edición y grabación; (c) obtener células viables. Dicho método puede comprender opcionalmente además (d) secuenciar la secuencia de grabación de la molécula de DNA diana en al menos una célula de la segunda población de células para identificar la mutación de al menos un codón.
En algunos ejemplos donde el plásmido rastreable comprende un casete de edición diseñado para silenciar un sitio PAM, un método para la edición del genoma rastreable puede comprender: (a) introducir un vector que codifica al menos un casete de edición, un casete grabador y al menos dos gRNA en una primera población de células, produciendo de esta manera una segunda población de células que comprende el vector; (b) mantener la segunda población de células en condiciones en las que se expresa o mantiene una nucleasa guiada por ácido nucleico, en donde la nucleasa guiada por ácido nucleico está codificada en el vector, un segundo vector, en el genoma de células de la segunda población de células, o introducido de cualquier otra manera en la célula, lo que da como resultado la escisión del DNA, la incorporación del casete de edición y el casete grabador, y la muerte de las células de la segunda población de células que no comprenden la mutación PAM, mientras que las células de la segunda población de células que comprenden la mutación PAM son viables; y (c) obtener células viables. Dicho método puede comprender opcionalmente además (d) secuenciar la secuencia de grabación del DNA diana en al menos una célula de la segunda población de células para identificar la mutación de al menos un codón. Dichos métodos también pueden comprender además un casete grabador que comprende una segunda mutación PAM, de manera que ambos PAM deben ser silenciados por la mutación pA m del casete de edición y la mutación PAM del casete grabador para evitar la muerte celular.
En algunos ejemplos, la eficiencia de la transformación se determina mediante el uso de un control de ácido nucleico guía no dirigido, que permite la validación del procedimiento de recombinación y los cálculos de CFU/ng. En algunos casos, la eficiencia absoluta se obtiene contando el número total de colonias en cada placa de transformación, por ejemplo, contando las colonias rojas y blancas de un control galK. En algunos ejemplos, la eficiencia relativa se calcula por el número total de transformantes exitosos (por ejemplo, colonias blancas) de todas las colonias de un control (por ejemplo, control galK).
Los métodos de la descripción pueden proporcionar, por ejemplo, mejoras mayores a 1000x en la eficiencia, la escala, el costo de generar una biblioteca combinatoria y/o la precisión de tal generación de biblioteca.
Los métodos de descripción pueden proporcionar, por ejemplo, más de: 10x, 50x, 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x, 1100x, 1200x, 1300x, 1400x, 1500x, 1600x, 1700x, 1800x, 1900x, 2000x, o mejoras mayores en la eficiencia de generar bibliotecas genómicas o combinatorias.
Los métodos de descripción pueden proporcionar, por ejemplo, más de: 10x, 50x, 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x, 1100x, 1200x, 1300x, 1400x, 1500x, 1600x, 1700x, 1800x, 1900x, 2000x, o mejoras mayores en la escala de generación de bibliotecas genómicas o combinatorias.
Los métodos de descripción pueden proporcionar, por ejemplo, más de: 10x, 50x, 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x, 1100x, 1200x, 1300x, 1400x, 1500x, 1600x, 1700x, 1800x, 1900x, 2000x, o disminuciones mayores en los costos de generar bibliotecas genómicas o combinatorias.
Los métodos de descripción pueden proporcionar, por ejemplo, más de: 10x, 50x, 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x, 900x, 1000x, 1100x, 1200x, 1300x, 1400x, 1500x, 1600x, 1700x, 1800x, 1900x, 2000x, o mejoras mayores en la precisión, de la generación de bibliotecas genómicas o combinatorias.
Seguimiento recursivo para ingeniería combinatoria
En la presente descripción se describen métodos y composiciones para rondas iterativas de ingeniería. En la presente descripción se describen estrategias de ingeniería recursiva que permiten la implementación de ingeniería rastreable a nivel de una célula única a través de varios ciclos de ingeniería en serie (por ejemplo, la Figura 3D o la Figura 6). Estos métodos y composiciones descritos pueden habilitar tecnologías basadas en la búsqueda que pueden construir y explorar de manera efectiva el espacio genotípico complejo. Los términos recursivo e iterativo pueden usarse indistintamente.
Los métodos de ingeniería combinatoria pueden comprender múltiples rondas de ingeniería. Los métodos descritos en la presente descripción pueden comprender 2 o más rondas de ingeniería. Por ejemplo, un método puede comprender 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 25, 30 o más de 30 rondas de ingeniería.
En algunos ejemplos, durante cada ronda de ingeniería, se incorpora una nueva secuencia de grabación, como un código de barras, en el mismo locus o en uno cercano en un sitio diana (por ejemplo, la Figura 3D, barras verdes o la Figura 6, barras negras) de manera que después de múltiples ciclos de ingeniería para construir diversidad combinatoria en todo el genoma (por ejemplo, la Figura 3E, barras verdes o la Figura 6, barras grises) puede usarse una PCR, o una reacción similar, del locus de grabación para reconstruir cada genotipo combinatorio o para confirmar que la edición diseñada de cada ronda se ha incorporado en el sitio de destino.
En la presente descripción se describen métodos para seleccionar para sucesivas rondas de ingeniería. La selección puede ocurrir por una mutación PAM incorporada por un casete de edición. La selección puede ocurrir por una mutación PAM incorporada por un casete grabador. La selección puede ocurrir mediante el uso de un marcador seleccionable, detectable o contraseleccionable. La selección puede ocurrir dirigida a un sitio para edición o grabación que se incorporó por una ronda anterior de ingeniería, seleccionando de esta manera variantes que incorporaron con éxito secuencias de ediciones y de grabación de ambas rondas o todas las rondas anteriores de ingeniería.
La cuantificación de estos genotipos puede usarse para comprender los efectos mutacionales combinatorios en grandes poblaciones y la investigación de fenómenos biológicos importantes como la epistasis.
La edición en serie y el seguimiento combinatorio pueden implementarse mediante el uso de sistemas de vectores recursivos como se describe en la presente descripción. Estos sistemas de vectores recursivos pueden usarse para moverse rápidamente a través del procedimiento de transformación (por ejemplo, la Figura 7A). En algunos ejemplos, estos sistemas constan de dos o más plásmidos que contienen orígenes de replicación ortogonales, marcadores de antibióticos y gRNA. El gRNA en cada vector puede diseñarse para dirigirse a uno de los otros marcadores de resistencia para su destrucción mediante escisión mediada por nucleasa guiada por ácido nucleico. Estos sistemas pueden usarse, en algunos ejemplos, para realizar transformaciones en las que se cambia la presión de selección de antibióticos para eliminar el plásmido anterior e impulsar el enriquecimiento de la siguiente ronda de genomas genomanipulados. Pueden realizarse dos o más pasos a través del ciclo de transformación, o en otras palabras, pueden realizarse múltiples rondas de ingeniería. La introducción de los casetes de grabación y los casetes de edición necesarios en vectores recursivos, como se describe en la presente descripción, puede usarse para la edición simultánea del genoma y el curado de plásmidos en cada etapa de transformación con altas eficiencias.
En algunos ejemplos, el sistema de vector recursivo descrito en la presente descripción comprende 2, 3, 4, 5, 6, 7, 8, 9, 10 o más de 10 plásmidos únicos. En algunos ejemplos, el sistema de vector recursivo puede usar un plásmido particular más de una vez siempre que se use un plásmido distinto en la ronda anterior y en la ronda subsiguiente.
Los métodos recursivos y las composiciones descritas en la presente descripción pueden usarse para restaurar la función de un elemento seleccionable o detectable en un genoma o plásmido al que se dirige. El elemento seleccionable o detectable puede incluir un gen de resistencia a antibióticos, un gen fluorescente, una secuencia de DNA única o marca de agua, u otro gen indicador, cribable, o seleccionable conocido. En algunos ejemplos, cada ronda sucesiva de ingeniería puede incorporar un fragmento del elemento seleccionable o detectable, de manera que al final de las rondas de ingeniería, todo el elemento seleccionable o detectable se ha incorporado al genoma o plásmido diana. En tales ejemplos, solo pueden seleccionarse o detectarse aquellos genomas o plásmidos que hayan incorporado con éxito todos los fragmentos y, por lo tanto, todas las mutaciones correspondientes deseadas. De esta manera, las células seleccionadas o detectadas se enriquecerán para aquellas que hayan incorporado las ediciones de todas y cada una de las rondas iterativas de ingeniería.
Los métodos recursivos pueden usarse para cambiar un marcador seleccionable o detectable entre una posición de encendido y apagado, o entre una posición de apagado y encendido, con cada ronda sucesiva de ingeniería. El uso de tal método permite la conservación de los marcadores seleccionables o detectables disponibles al requerir, por ejemplo, el uso de un solo marcador seleccionable o seleccionable. Además, la secuencia reguladora corta o el codón de inicio o los codones que no son de inicio pueden usarse para activar y desactivar el marcador seleccionable o detectable. Dichas secuencias cortas pueden encajar fácilmente dentro de un casete o polinucleótido, tal como un casete sintetizado.
Pueden realizarse una o más rondas de ingeniería mediante el uso de los métodos y composiciones descritos en la presente descripción. En algunos ejemplos, cada ronda de ingeniería se usa para incorporar una edición única de las rondas anteriores. Cada ronda de ingeniería puede incorporar una secuencia de grabación única. Cada ronda de ingeniería puede resultar en la eliminación o curación del plásmido CREATE usado en la ronda de ingeniería anterior. En algunos ejemplos, la incorporación exitosa de la secuencia de grabación de cada ronda de ingeniería da como resultado un marcador seleccionable o detectable completo y funcional o una combinación de secuencia única.
Pueden insertarse casetes de grabación únicos que comprenden secuencias de grabación tales como códigos de barras o marcadores seleccionables o detectables con cada ronda de ingeniería, generando de esta manera una secuencia de grabación que es indicativa de la combinación de ediciones o etapas de ingeniería realizados. Las secuencias de grabación sucesivas pueden insertarse adyacentes entre sí. Las secuencias sucesivas pueden insertarse a distancia entre sí.
Las secuencias sucesivas pueden insertarse a distancia entre sí. Por ejemplo, secuencias sucesivas de grabación pueden insertarse y separarse por 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100 o mayora 100 bp. En algunos ejemplos, las secuencias de grabación sucesivas están separadas por aproximadamente 10, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1100, 1200, 1300, 1400, 1500 o mayor a 1500 bp.
Las secuencias de grabación sucesivas pueden estar separadas por cualquier número deseado de pares de bases y pueden ser dependiente y limitadas por el número de secuencias de grabación sucesivas que se insertarán, el tamaño del ácido nucleico diana o los genomas diana y/o el diseño de la secuencia de grabación final deseada. Por ejemplo, si la secuencia de grabación compilada es un marcador seleccionable o detectable funcional, entonces las secuencias de grabación sucesivas pueden insertarse dentro del mismo marco de lectura y próximas entre sí. Si la secuencia de grabación compilada es un conjunto único de códigos de barras para ser identificados mediante secuenciación y no tiene un elemento de secuencia de codificación, entonces las secuencias de grabación sucesivas pueden insertarse con cualquier número deseado de pares de bases separándolas. En estos casos, la distancia de separación puede estar en dependencia de la tecnología de secuenciación que se use y del límite de longitud de lectura.
En algunos ejemplos, un casete grabador comprende un sitio de aterrizaje que se usa como sitio de destino para el casete grabador de la próxima ronda de ingeniería. Mediante el uso de dicho método, las rondas sucesivas de casetes de grabación solo pueden introducirse en el sitio diana si el casete grabador de la ronda anterior se incorporó con éxito, proporcionando de esta manera el sitio de destino para la presente ronda de ingeniería (por ejemplo, la Figura 28).
Ácido nucleico guía
Un ácido nucleico guía puede formar complejos con una nucleasa guiada por ácido nucleico compatible y puede hibridarse con una secuencia diana, dirigiendo de esta manera la nucleasa a la secuencia diana. Una nucleasa guiada por ácido nucleico en cuestión capaz de formar un complejo con un ácido nucleico guía puede denominarse nucleasa guiada por ácido nucleico que es compatible con el ácido nucleico guía. Igualmente, un ácido nucleico guía capaz de formar complejos con una nucleasa guiada por ácido nucleico puede denominarse ácido nucleico guía que es compatible con las nucleasas guiadas por ácido nucleico.
Un ácido nucleico guía puede ser DNA. Un ácido nucleico guía puede ser RNA. Un ácido nucleico guía puede comprender tanto DNA como RNA. Un ácido nucleico guía puede comprender nucleótidos modificados de origen no natural. En los casos donde el ácido nucleico guía comprende RNA, el ácido nucleico guía de RNA puede estar codificado por una secuencia de DNA en una molécula de polinucleótido tal como un plásmido, un constructo lineal o un casete de edición como se describe en la presente descripción.
Un ácido nucleico guía puede comprender una secuencia guía. Una secuencia guía es una secuencia polinucleotídica que tiene suficiente complementariedad con una secuencia polinucleotídica diana para hibridarse con la secuencia diana y la unión específica de secuencia directa a la secuencia diana de una nucleasa guiada por ácido nucleico en complejo. El grado de complementariedad entre una secuencia guía y su correspondiente secuencia diana, cuando se alinea de forma óptima mediante el uso de un algoritmo de alineación adecuado, es aproximadamente o más de aproximadamente 50 %, 60 %, 75 %, 80 %, 85 %, 90 %, 95 %, 97,5%, 99% o más. La alineación óptima puede determinarse con el uso de cualquier algoritmo adecuado para alinear secuencias. En algunas modalidades, una secuencia guía es aproximadamente o más de aproximadamente 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75 o más nucleótidos de longitud. En algunas modalidades, una secuencia guía tiene menos de aproximadamente 75, 50, 45, 40, 35, 30, 25, 20 nucleótidos de longitud. Preferentemente, la secuencia guía tiene una longitud de 10-30 nucleótidos. La secuencia guía puede tener una longitud de 15-20 nucleótidos. La secuencia guía puede tener una longitud de 15 nucleótidos. La secuencia guía puede tener una longitud de 16 nucleótidos. La secuencia guía puede tener una longitud de 17 nucleótidos. La secuencia guía puede tener una longitud de 18 nucleótidos. La secuencia guía puede tener una longitud de 19 nucleótidos. La secuencia guía puede tener una longitud de 20 nucleótidos.
Un ácido nucleico guía puede comprender una secuencia de andamio. En general, una "secuencia de andamio" incluye cualquier secuencia que tenga una secuencia suficiente para promover la formación de un complejo de nucleasa dirigida, en donde el complejo de nucleasa dirigida comprende una nucleasa guiada por ácido nucleico y un ácido nucleico guía que comprende una secuencia de andamio y una secuencia guía. Una secuencia suficiente dentro de la secuencia de andamio para promover la formación de un complejo de nucleasa dirigida puede incluir un grado de complementariedad a lo largo de dos regiones de secuencia dentro de la secuencia de andamio, tal como una o dos regiones de secuencia involucradas en la formación de una estructura secundaria. En algunos casos, las regiones de una o dos secuencias están comprendidas o codificadas en el mismo polinucleótido. En algunos casos, las regiones de una o dos secuencias están comprendidas o codificadas en polinucleótidos separados. El alineamiento óptimo puede determinarse mediante cualquier algoritmo de alineamiento adecuado y puede explicar además estructuras secundarias, tales como la autocomplementación dentro de una o dos regiones de secuencia. En algunas modalidades, el grado de complementariedad entre una o dos regiones de secuencia a lo largo de la más corta de las dos cuando está óptimamente alineada es aproximadamente o más de aproximadamente 25 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, 97,5 %, 99 % o superior. En algunas modalidades, al menos una de las dos regiones de secuencia tiene aproximadamente o más de aproximadamente 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 40, 50 o más nucleótidos de longitud.
Una secuencia de andamio de un ácido nucleico guía en cuestión puede comprender una estructura secundaria. Una estructura secundaria puede comprender una región de pseudonudo. En algún ejemplo, la compatibilidad de un ácido nucleico guía y una nucleasa guiada por ácido nucleico está determinada al menos parcialmente por la secuencia dentro de o adyacente a una región de pseudonudo del RNA guía. En algunos casos, la cinética de unión de un ácido nucleico guía a una nucleasa guiada por ácido nucleico está determinada en parte por estructuras secundarias dentro de la secuencia de andamio. En algunos casos, la cinética de unión de un ácido nucleico guía a una nucleasa guiada por ácido nucleico está determinada en parte por la secuencia de ácido nucleico con la secuencia de andamio.
En aspectos de la invención, los términos "ácido nucleico guía" se refieren a un polinucleótido que comprende 1) una secuencia guía capaz de hibridar con una secuencia diana y 2) una secuencia de andamio capaz de interactuar o formar complejos con una nucleasa guiada por ácido nucleico como se describió en la presente descripción.
Un ácido nucleico guía puede ser compatible con una nucleasa guiada por ácido nucleico cuando los dos elementos pueden formar un complejo de nucleasa dirigida funcional capaz de escindir una secuencia diana. A menudo, puede encontrarse una secuencia de andamio compatible para un ácido nucleico guía compatible escaneando secuencias adyacentes a un loci de nucleasa guiado por ácido nucleico nativo. En otras palabras, las nucleasas guiadas por ácidos nucleicos nativos pueden codificarse en un genoma en la proximidad de un ácido nucleico guía compatible correspondiente o una secuencia de andamio.
Las nucleasas guiadas por ácidos nucleicos pueden ser compatibles con ácidos nucleicos guía que no se encuentran dentro del hospedero endógeno de las nucleasas. Dichos ácidos nucleicos guía ortogonales pueden determinarse mediante pruebas empíricas. Los ácidos nucleicos guía ortogonales pueden provenir de diferentes especies bacterianas o ser sintéticos o genomanipulados de cualquier otra manera para que no se produzcan de forma natural.
Los ácidos nucleicos guía ortogonales que son compatibles con una nucleasa guiada por ácido nucleico común pueden comprender una o más características comunes. Las características comunes pueden incluir una secuencia fuera de una región de pseudonudo. Las características comunes pueden incluir una región de pseudonudo. Las características comunes pueden incluir una secuencia primaria o una estructura secundaria.
Un ácido nucleico guía puede genomanipularse para dirigirse a una secuencia diana deseada mediante la alteración de la secuencia guía de manera que la secuencia guía sea complementaria a la secuencia diana, lo que permite de esta manera la hibridación entre la secuencia guía y la secuencia diana. Un ácido nucleico guía con una secuencia guía genomanipulada puede denominarse ácido nucleico guía genomanipulado. Los ácidos nucleicos guía genomanipulados a menudo no se producen de forma natural y no se encuentran en la naturaleza.
Más métodos
En la presente descripción se describen métodos para la ingeniería genómica que emplean una nucleasa, tal como una nucleasa guiada por ácido nucleico para realizar cambios dirigidos de evolución/producción del genoma (eliminaciones, sustituciones, adiciones) en una secuencia diana, tal como DNA o RNA, por ejemplo, DNA genómico o DNA episomal. Las nucleasas adecuadas pueden incluir, por ejemplo, nucleasas guiadas por RNA como Cas9, Cpf1, MAD2 o MAD7, nucleasas guiadas por DNA tal como Argonaute u otras nucleasas como nucleasas con dedos de zinc, TALEN o meganucleasas. Los genes de nucleasa pueden obtenerse de cualquier fuente, tal como una bacteria, arquea, procariota, eucariota o virus. Por ejemplo, puede obtenerse un gen Cas9 de una bacteria que alberga el sistema CRISPR Tipo II correspondiente, tal como la bacteria S. pyogenes (SEQ ID NO: 110). La secuencia de ácidos nucleicos y/o la secuencia de aminoácidos de la nucleasa puede estar mutada, con relación a la secuencia de una nucleasa natural. Una mutación puede ser, por ejemplo, una o más inserciones, eliminaciones, sustituciones o cualquier combinación de dos o tres de las anteriores. En algunos casos, la nucleasa mutada resultante puede tener una actividad de nucleasa aumentada o reducida con relación a la nucleasa natural. En algunos casos, la nucleasa mutada resultante puede no tener actividad nucleasa con relación a la nucleasa natural.
En la presente descripción se proporcionan métodos para la edición del genoma mediada por nucleasas guiada por ácidos nucleicos. Algunos métodos descritos pueden incluir un proceso de construcción de dos etapas que se basa en la generación de bibliotecas de casetes que incorporan mutaciones dirigidas desde casetes de edición directamente en un genoma, molécula de ácido nucleico episomal o molécula de ácido nucleico aislada. En algunos ejemplos, durante la primera etapa de la construcción de la biblioteca de casetes, los casetes de edición diseñados racionalmente pueden cotransformarse en células con un ácido nucleico guía (por ejemplo, RNA guía) que se hibrida o se dirige a una secuencia de DNA diana. En algunos ejemplos, el ácido nucleico guía se introduce como una molécula de RNA o se codifica en una molécula de DNA.
Los casetes de edición pueden diseñarse de manera que acoplen la eliminación o mutación de un sitio PAM con la mutación de uno o más codones deseados o residuos de ácido nucleico en la secuencia de ácido nucleico adyacente. El sitio PAM eliminado o mutado, en algunos casos, ya no puede ser reconocido por la nucleasa guiada por ácido nucleico elegida. En algunos ejemplos, puede eliminarse o mutarse al menos un PAM o más de un PAM, como dos, tres, cuatro o más PAM.
Los métodos descritos en la presente descripción pueden permitir la generación de una biblioteca de casetes completa en una sola transformación. La biblioteca de casetes puede recuperarse, en algunos casos, mediante la amplificación de los cromosomas recombinantes, por ejemplo, mediante una reacción de PCR, mediante el uso de una característica sintética o un sitio de cebado de los casetes de edición. En algunos ejemplos, se incorpora simultáneamente una segunda eliminación o mutación de PAM. Este enfoque puede acoplar covalentemente las mutaciones dirigidas por codón directamente a una eliminación de PAM.
En algunos ejemplos, existe una segunda etapa para la construcción de bibliotecas de casetes. Durante la segunda etapa, las bibliotecas de casetes amplificadas por PCR que contienen la eliminación/mutación de PAM de destino y las mutaciones dirigidas, tal como una mutación deseada de uno o más nucleótidos, tal como uno o más nucleótidos en uno o más codones, pueden cotransformarse en células virgen. Las células pueden ser células eucariotas, células arqueas o células procariotas. Las bibliotecas de casetes pueden cotransformarse con un ácido nucleico guía o un plásmido que las codifica para generar una población de células que expresen una biblioteca de proteínas diseñada racionalmente. Las bibliotecas pueden cotransformarse con un ácido nucleico guía, como un gRNA, gRNA quimérico, gRNA dividido o un conjunto de crRNA y trRNA. La biblioteca de casetes puede comprender una pluralidad de casetes en donde cada casete comprende un casete de edición y un ácido nucleico guía. La biblioteca de casetes puede comprender una pluralidad de casetes en donde cada casete comprende un casete de edición, casetes de grabación y dos ácidos nucleicos guía.
En algunos sistemas de nucleasa dirigida, el ácido nucleico guía puede guiar la selección de una secuencia diana. Como se usa en la presente, una secuencia diana se refiere a cualquier locus in vitro o in vivo, o en el ácido nucleico de una célula o población de células en las que se desea una mutación de al menos un nucleótido, tal como una mutación de al menos un nucleótido en al menos un codón. La secuencia diana puede ser, por ejemplo, un locus genómico, una secuencia genómica diana o un locus extracromosómico. El ácido nucleico guía puede expresarse como una molécula de DNA, denominada DNA guía, o como una molécula de RNA, denominada RNA guía. Un ácido nucleico guía puede comprender una secuencia guía, que es complementaria a una región de la región diana. Un ácido nucleico guía puede comprender una secuencia de andamio que puede interactuar con una nucleasa guiada por ácido nucleico compatible y, opcionalmente, puede formar una estructura secundaria. Un ácido nucleico guía puede funcionar para reclutar una nucleasa guiada por ácido nucleico en el sitio diana. Una secuencia guía puede ser complementaria a una región aguas arriba del sitio diana. Una secuencia guía puede ser complementaria de al menos una porción del sitio diana. Una secuencia guía puede ser completamente complementaria (100 % complementaria) al sitio diana o incluir una o más discrepancias, siempre y cuando sea suficientemente complementaria al sitio diana para hibridar/guiar y reclutar específicamente la nucleasa. Las nucleasas guiadas por ácidos nucleicos adecuadas incluyen, como ejemplos no limitantes, nucleasas CRISPR, nucleasas Cas, tales como Cas9 o Cpf1, MAD2 y MAD7.
En algunos sistemas CRISPR, el RNA CRISPR (crRNA o RNA que contiene espaciador) y el RNA CRISPR transactivador (tracrRNA o trRNA) pueden guiar la selección de una secuencia diana. Como se usa en la presente, una secuencia diana se refiere a cualquier locus in vitro o in vivo, o en el ácido nucleico de una célula o población de células en las que se desea una mutación de al menos un nucleótido, tal como una mutación de al menos un nucleótido en al menos un codón. La secuencia diana puede ser, por ejemplo, un locus genómico, una secuencia genómica diana o un locus extracromosómico. El tracrRNA y el crRNA pueden expresarse como una sola molécula de RNA quimérico, denominada RNA de guía única, RNA guía o gRNA. La secuencia de ácido nucleico del gRNA comprende una primera secuencia de ácido nucleico, también denominada primera región, que es complementaria a una región de la región diana y una segunda secuencia de ácido nucleico, también denominada segunda región, que forma una estructura de bucle de tallo y funciones para reclutar una nucleasa CRISPR en la región diana. La primera región del gRNA puede ser complementaria a una región aguas arriba de la secuencia genómica diana. La primera región del gRNA puede ser complementaria de al menos una porción de la región diana. La primera región del gRNA puede ser completamente complementaria (100 % complementaria) a la secuencia genómica diana o incluir una o más discrepancias, siempre y cuando sea lo suficientemente complementaria a la secuencia genómica diana para hibridar/guiar y reclutar específicamente una nucleasa CRISPR, como Cas9 o Cpf 1.
Una secuencia guía o primera región del gRNA puede tener al menos 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 o al menos 30 nucleótidos de longitud. La secuencia guía o la primera región del gRNA puede tener una longitud de al menos 20 nucleótidos.
Una estructura de bucle de tallo que puede formarse mediante la secuencia de andamiaje o la segunda secuencia de ácido nucleico de un gRNA puede tener al menos 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 7, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 o 100 nucleótidos de longitud. Una estructura de bucle de tallo puede tener una longitud de 80 a 90 o de 82 a 85 nucleótidos. Una secuencia de andamio o una segunda región del gRNA que forma una estructura de bucle de tallo puede tener una longitud de 83 nucleótidos.
Un ácido nucleico guía de un casete que se introduce en una primera célula mediante el uso de los métodos descritos en la presente descripción puede ser el mismo que el ácido nucleico guía de un segundo casete que se introduce en una segunda célula. Puede introducirse más de un ácido nucleico guía en la población de primeras células y/o en la población de segundas células. Los más de un ácido nucleico guía pueden comprender secuencias guía que son complementarias a más de una región diana.
Los métodos descritos en la presente descripción pueden comprender el uso de oligonucleótidos. Dichos oligonucleótidos pueden obtenerse o derivarse de muchas fuentes. Por ejemplo, un oligonucleótido puede derivarse de una biblioteca de ácidos nucleicos que se ha diversificado mediante recombinación aleatoria no homóloga (NRR); dicha biblioteca se denomina biblioteca NRR. Puede sintetizarse un oligonucleótido, por ejemplo, mediante síntesis basada en matriz u otro método de síntesis química conocido. La longitud de un oligonucleótido puede estar en dependencia del método usado para obtener el oligonucleótido. Un oligonucleótido puede tener una longitud aproximada de 50-200 nucleótidos, de 75-150 nucleótidos o de entre 80-120 nucleótidos. Un oligonucleótido puede tener una longitud de aproximadamente 10, 20, 30, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200 o más nucleótidos, incluidos cualquier número entero, por ejemplo, 51, 52, 53, 54, 201, 202, etc. Un oligonucleótido puede tener una longitud de aproximadamente 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1250, 1500, 1750, 2000 o más nucleótidos, incluido cualquier número entero, por ejemplo, 101,203, 1001,2001,2010, etc.
Los oligonucleótidos y/u otras moléculas de ácido nucleico pueden combinarse o ensamblarse para generar un casete. Dicho casete puede comprender (a) una región que es homóloga a una región diana del ácido nucleico de la célula e incluye una mutación deseada de al menos un nucleótido o un codón con relación a la región diana, y (b) un protoespaciador adyacente mutación del motivo (PAM). La mutación de PAM puede ser cualquier inserción, eliminación o sustitución de uno o más nucleótidos que muta la secuencia de PAM de manera que ya no sea reconocida por un sistema de nucleasa guiado por ácido nucleico o un sistema de nucleasa CRISPR. Puede decirse que una célula que comprende una mutación PAM de este tipo es "inmune" a la muerte mediada por nucleasas. La mutación deseada con relación a secuencia de la región diana puede ser una inserción, eliminación y/o sustitución de uno o más nucleótidos. En algunos ejemplos, la inserción, eliminación y/o sustitución de uno o más nucleótidos se encuentra en al menos un codón de la región diana. Alternativamente, el casete puede sintetizarse en una sola síntesis, que comprende (a) una región que es homóloga a una región diana del ácido nucleico de la célula e incluye una mutación deseada de al menos un nucleótido o un codón con relación a la región diana, (b) una mutación del motivo adyacente al protoespaciador (PAM), y opcionalmente (c) una región que es homóloga a una segunda región diana del ácido nucleico de la célula e incluye una secuencia de grabación.
Los métodos descritos en la presente descripción pueden aplicarse a cualquier molécula de ácido nucleico diana de interés, de cualquier procariota, incluidas bacterias y arqueas, o cualquier eucariota, incluidos genes de levaduras, mamíferos y humanos, o cualquier partícula viral. El módulo de ácido nucleico puede ser una secuencia de ácido nucleico no codificante, un gen, un genoma, un cromosoma, un plásmido, una molécula de ácido nucleico episomal, un cromosoma artificial, un cromosoma sintético o un ácido nucleico viral.
En la presente descripción se describen métodos para evaluar la eficiencia de recuperación de bibliotecas de cepas donantes. La eficiencia de la recuperación puede verificarse en base a la presencia de un producto de PCR o de los cambios en los tamaños o la secuencia de amplicón o producto de PCR obtenidos con cebadores dirigidos al locus diana seleccionado. Los cebadores pueden diseñarse para hibridar con secuencias endógenas o secuencias heterólogas contenidas en la molécula de ácido nucleico donante. Por ejemplo, el cebador de la PCR puede diseñarse para hibridar con una secuencia heteróloga de manera que la PCR solo sea posible si se incorpora el ácido nucleico del donante. La secuenciación de los productos de p Cr de las bibliotecas recuperadas indica que la secuencia heteróloga o el sitio de cebado sintético de los casetes de dsDNA o las secuencias donantes pueden incorporarse con una eficiencia de aproximadamente el 90-100 %. En otros ejemplos, la eficiencia puede ser aproximadamente del 5 %, 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 %, 99 % o 100%.
En algunos casos, la capacidad de mejorar las eficiencias de edición final de los métodos descritos en la presente descripción puede evaluarse al realizar la construcción de casetes en cepas con deficiencia genética antes de transferirlas a una cepa donante de tipo salvaje en un esfuerzo por evitar la pérdida de mutaciones durante la fase de construcción del donante. Adicional o alternativamente, la eficiencia de los métodos descritos puede evaluarse dirigiéndose a un gen esencial. Los genes esenciales pueden incluir cualquier gen requerido para la supervivencia o replicación de una partícula viral, célula u organismo. En algunos ejemplos, los genes esenciales incluyen dxs, metA y fo1A. Los genes esenciales se han dirigido de manera efectiva mediante el uso de las estrategias de diseño de ácido nucleico guía descritas. Otros genes esenciales adecuados se conocen bien en la técnica.
En la presente descripción se proporcionan métodos para aumentar las eficiencias de edición mediante la modulación del nivel de una nucleasa guiada por ácido nucleico. Esto se podría hacer mediante el uso de plásmidos de control de copias, tales como plásmidos con un número alto de copias o plásmidos con un número bajo de copias. Los plásmidos con un número de copias bajo podrían ser plásmidos que pueden tener aproximadamente 20 o menos copias por célula, como opuesto a los plásmidos con un número de copias alto que pueden tener aproximadamente 1000 copias por célula. Los plásmidos de alto número de copias y los plásmidos de bajo número de copias se conocen bien en la técnica y se entiende que no es necesario conocer una copia exacta del plásmido por célula para caracterizar un plásmido como de alto o bajo número de copias.
En algunos casos, la disminución del nivel de expresión de una nucleasa guiada por ácido nucleico, tal como Cas9, Cpf1, MAD2 o MAD7, puede aumentar las eficiencias de transformación, edición y/o grabación. En algunos casos, la disminución del nivel de expresión de la nucleasa guiada por ácido nucleico se realiza expresando la nucleasa guiada por ácido nucleico en un plásmido de bajo número de copias.
En algunos casos, el aumento del nivel de expresión de una nucleasa guiada por ácido nucleico, tal como Cas9, Cpf1, MAD2 o MAD7, puede aumentar las eficiencias de transformación, edición y/o grabación. En algunos casos, el aumento del nivel de expresión de la nucleasa guiada por ácido nucleico se realiza expresando la nucleasa guiada por ácido nucleico en un plásmido con un número elevado de copias.
También se contemplan otros métodos para modular el nivel de expresión de una proteína y son conocidos en la técnica. Dichos métodos incluyen el uso de un promotor inducible o constitutivo, la incorporación de potenciadores u otros elementos reguladores de la expresión en un plásmido de expresión, mediante el uso de RNAi, amiRNAi u otras técnicas de silenciamiento de RNA para modular el nivel de transcripción, la fusión de la proteína de interés con un dominio de degradación o cualquier otro método conocido en la técnica.
En la presente descripción se proporcionan métodos para generar bibliotecas mutantes. En algunos ejemplos, la biblioteca de mutantes puede construirse y recuperarse de manera efectiva dentro de 1-3 horas después de la recombinación. En algunos ejemplos, la biblioteca de mutantes se construye dentro de las 0,5, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12 o 24 horas después de la recombinación. En algunos ejemplos, la biblioteca de mutantes puede recuperarse dentro de un plazo de 0,5, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 24, 36 o 48 horas después de la recombinación y/o la construcción por recombinación.
Algunos métodos descritos en la presente descripción pueden usarse para la edición genómica de precisión rastreable. En algunos ejemplos, los métodos descritos en la presente descripción pueden lograr una edición/mutación de alta eficiencia mediante el uso de un solo casete que codifica tanto un casete de edición como un ácido nucleico guía y, opcionalmente, un casete grabador y un segundo ácido nucleico guía. Alternativamente, un solo vector puede codificar un casete de edición mientras se proporciona un ácido nucleico guía de forma secuencial o concomitante. Los métodos descritos en la presente descripción pueden proporcionar una generación, en una sola etapa, de cientos o miles de ediciones/mutaciones de precisión cuando se usan con la síntesis de DNA en paralelo, tal como la síntesis de DNA basada en matrices. Las mutaciones pueden mapearse secuenciando el casete de edición en el vector, en lugar de secuenciar el genoma o una sección del genoma de la célula u organismo.
Los métodos descritos en la presente descripción pueden tener una amplia utilidad en aplicaciones de ingeniería de proteínas y genomas, así como también para la reconstrucción de mutaciones, como las mutaciones identificadas en experimentos de evolución en laboratorio. En algunos ejemplos, los métodos y composiciones descriptos aquí pueden combinar un casete de edición, que podría incluir una mutación deseada y una mutación PAM, con un gen que codifica un ácido nucleico guía en un solo vector.
En algunos ejemplos, puede generarse una biblioteca mutante rastreable en una sola transformación o una sola reacción.
Los métodos descritos en la presente descripción pueden comprender la introducción de un casete que comprende un casete de edición que incluye la mutación deseada y la mutación PAM en una célula o población de células. En algunas modalidades, la célula en la que se introduce el casete o el vector comprende además una nucleasa guiada por ácido nucleico, tal como Cas9, Cpf1, MAD2 o MAD7. En algunas modalidades, un gen o mRNA que codifica la nucleasa guiada por ácido nucleico se introduce de manera concomitante, secuencial o subsecuentemente en la célula o población de células. La expresión de un sistema de nucleasa dirigida, incluida la nucleasa guiada por ácido nucleico y un ácido nucleico guía, en la célula o población celular puede activarse de manera que el ácido nucleico guía reclute la nucleasa guiada por ácido nucleico en la región diana, donde se produce la escisión del dsDNA.
En algunos ejemplos, sin desear limitarse a ninguna teoría en particular, la región homóloga de un casete de edición complementario a la secuencia diana muta el PAM y uno o más codones de la secuencia diana. Las células de la población de células que no integraron la mutación PAM pueden someterse a una muerte celular no editada debido a la escisión del dsDNA mediada por nucleasa guiada por ácido nucleico. En algunos ejemplos, las células de la población de células que integran la mutación PAM no se someten a muerte celular; siguen siendo viables y se enriquecen selectivamente hasta alcanzar una gran abundancia. Pueden obtenerse células viables y pueden proporcionar una biblioteca de mutaciones rastreables o dirigidas.
En algunos ejemplos, sin desear limitarse a ninguna teoría en particular, la región homóloga de un casete grabador complementario a la secuencia diana muta el PAM e introduce un código de barras en una secuencia diana. Las células de la población de células que no integraron la mutación PAM pueden someterse a una muerte celular no editada debido a la escisión del dsDNA mediada por nucleasa guiada por ácido nucleico. En algunos ejemplos, las células de la población de células que integran la mutación PAM no se someten a muerte celular; siguen siendo viables y se enriquecen selectivamente hasta alcanzar una gran abundancia. Pueden obtener células viables y pueden proporcionar una biblioteca de mutaciones rastreables.
Un vector separado o mRNA que codifica una nucleasa guiada por ácido nucleico puede introducirse en la célula o población de células. La introducción de un vector o mRNA en una célula o población de células puede realizarse mediante el uso de cualquier método o técnica conocida en la técnica. Por ejemplo, los vectores pueden introducirse mediante protocolos estándar, tales como transformación que incluye transformación química y electroporación, transducción y bombardeo de partículas. Adicional o alternativamente, el mRNA puede introducirse mediante protocolos estándar, tales como transformación como se describe en la presente descripción, y/o mediante técnicas que implican nanopartículas o péptidos permeables a las células.
Un casete de edición puede incluir (a) una región que reconoce (se hibrida con) una región diana de un ácido nucleico en una célula o población de células, es homóloga a la región diana del ácido nucleico de la célula e incluye una mutación, referida a una mutación deseada, de al menos un nucleótido que puede estar en al menos un codón con relación a la región diana, y (b) una mutación del motivo adyacente al protoespaciador (PAM). En algunos ejemplos, el casete de edición comprende además un código de barras. El código de barras puede ser un código de barras único o relativamente único de manera que la mutación correspondiente pueda identificarse en base al código de barras. La mutación del PAM puede ser cualquier inserción, eliminación o sustitución de uno o más nucleótidos que muta la secuencia del PAM de manera que el PAM mutado (mutación del PAM) no es reconocido por un sistema de nucleasa guiado por ácido nucleico elegido. Puede decirse que una célula que comprende tal mutación PAM es "inmune" a la muerte mediada por nucleasa guiada por ácido nucleico. La mutación deseada con relación a la secuencia de la región diana puede ser una inserción, eliminación y/o sustitución de uno o más nucleótidos y puede ser al menos un codón de la región diana. En algunas modalidades, la distancia entre la mutación PAM y la mutación deseada tiene de al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 40, 50, 60, 70, 80, 90 o 100 nucleótidos en el casete de edición. En algunas modalidades, la mutación PAM se encuentra al menos a 9 nucleótidos del final del casete de edición. En algunas modalidades, la mutación deseada se encuentra al menos a 9 nucleótidos del final del casete de edición.
Una mutación deseada puede ser una inserción de una secuencia de ácido nucleico con relación a la secuencia de la secuencia diana. La secuencia de ácido nucleico insertada en la secuencia diana puede tener cualquier longitud. En algunas modalidades, la secuencia de ácido nucleico insertada tiene al menos 1,2, 3, 4, 5, 850, 900, 950, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, o al menos 2000 nucleótidos de longitud. En modalidades en las que se inserta una secuencia de ácido nucleico en la secuencia diana, el casete de edición comprende una región que tiene al menos 10, 15, 20, 25, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, o al menos 60 nucleótidos de longitud y homología a la secuencia diana. Los brazos de homología o región homóloga pueden tener aproximadamente 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, o más nucleótidos de longitud, incluido cualquier número entero de esta manera. Los brazos de homología o región homóloga pueden tener más de 200 nucleótidos de longitud.
Un código de barras puede ser un código de barras único o relativamente único, de manera que la mutación correspondiente pueda identificarse en base al código de barras. En algunos ejemplos, el código de barras es una secuencia no natural que no se encuentra en la naturaleza. En la mayoría de los ejemplos, la combinación de la mutación deseada y el código de barras dentro del casete de edición no ocurre de forma natural y no se encuentra en la naturaleza. Un código de barras puede tener cualquier número de nucleótidos de longitud. Un código de barras puede tener 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30 o más de 30 nucleótidos de longitud. En algunos casos, el código de barras tiene más de 30 nucleótidos de longitud.
Un casete de edición o casete grabador puede comprender al menos una porción de un gen que codifica un ácido nucleico guía y, opcionalmente, un promotor unido al ácido nucleico guía codificado. En algunas modalidades, la porción del gen que codifica el ácido nucleico guía codifica la porción del ácido nucleico guía que es complementaria a la secuencia diana. La porción del ácido nucleico guía que es complementaria a la secuencia diana, o la secuencia guía, puede tener al menos 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 o al menos 30 nucleótidos de longitud. En algunas modalidades, la secuencia guía tiene una longitud de 24 nucleótidos. En algunas modalidades, la secuencia guía tiene una longitud de 18 nucleótidos.
En algunas modalidades, el casete de edición o el casete grabador comprende además al menos dos sitios de cebado. Los sitios de cebado pueden usarse para amplificar el casete, por ejemplo mediante PCR. En algunas modalidades, la porción de la secuencia guía se usa como sitio de cebado.
Los casetes de edición o los casetes de grabación para uso en los métodos descritos pueden obtenerse o derivarse de muchas fuentes. Por ejemplo, los casetes pueden sintetizarse, por ejemplo, mediante síntesis basada en matrices, síntesis multiplex, síntesis multiparalela, ensamblaje por PCR, ensamblaje in vitro, ensamblaje Gibson o cualquier otro método de síntesis conocido en la técnica. En algunas modalidades, el casete de edición o casete grabador se sintetiza, por ejemplo, mediante síntesis basada en matriz, síntesis multiplex, síntesis multiparalela, ensamblaje por PCR, ensamblaje in vitro, ensamblaje Gibson o cualquier otro método de síntesis conocido en la técnica. La longitud del casete de edición o del casete grabador puede depender del método usado para obtener dicho casete.
Un casete de edición puede tener aproximadamente 50-300 nucleótidos, 75-200 nucleótidos o entre 80-120 nucleótidos de longitud. En algunas modalidades, el casete de edición puede tener cualquier longitud discreta entre 50 nucleótidos y 1 Mb.
Un casete grabador puede tener aproximadamente 50-300 nucleótidos, 75-200 nucleótidos o entre 80-120 nucleótidos de longitud. En algunas modalidades, el casete grabador puede tener cualquier longitud discreta entre 50 nucleótidos y 1 Mb.
Los métodos descritos en la presente descripción también pueden implicar la obtención de casetes de edición y casetes de grabación y la construcción de un vector o plásmido rastreable. Los métodos para construir un vector serán conocidos por un experto en la técnica y pueden implicar ligar los casetes en una estructura de vector. En algunos ejemplos, la construcción del plásmido se produce mediante métodos de ensamblaje de DNA in vitro, ensamblaje de oligonucleótidos, ensamblaje basado en PCR, SLIC, CPEC u otros métodos de ensamblaje bien conocidos en la técnica. En algunas modalidades, los casetes o un subconjunto (conjunto) de casetes pueden amplificarse antes de la construcción del vector, por ejemplo, mediante PCR.
La célula o población de células que comprende un polinucleótido que codifica una nucleasa guiada por ácido nucleico puede mantenerse o cultivarse en condiciones en las que se expresa la nucleasa. La expresión de nucleasa guiada por ácido nucleico puede controlarse o puede activarse de forma constitutiva. Los métodos descritos en la presente descripción pueden implicar el mantenimiento de las células en condiciones en las que se activa la expresión de la nucleasa, lo que da como resultado la producción de la nucleasa, por ejemplo, Cas9, Cpf1, MAD2 o MAD7. Las condiciones específicas en las que se expresa la nucleasa guiada por ácido nucleico pueden depender de factores, como la naturaleza del promotor usado para regular la expresión de la nucleasa. La expresión de nucleasa guiada por ácido nucleico puede inducirse en presencia de una molécula inductora, como la arabinosa. Cuando la célula o población de células que comprende DNA codificante de nucleasa guiada por ácido nucleico está en presencia de la molécula inductora, puede producirse la expresión de la nucleasa. La expresión de CRISPR-nucleasa puede reprimirse en presencia de una molécula represora. Cuando la célula o población de células que comprende d Na codificante de nucleasa guiada por ácido nucleico está en ausencia de una molécula que reprima la expresión de la nucleasa, puede ocurrir la expresión de la nucleasa.
Las células o la población de células que permanecen viables pueden obtenerse o separarse de las células que se someten a una muerte celular no editada como resultado de la muerte mediada por nucleasas guiada por ácido nucleico; esto puede hacerse, por ejemplo, extendiendo la población de células en la superficie de cultivo, lo que permite el crecimiento de las células viables, que luego están disponibles para su evaluación.
En la presente descripción se describen métodos para la identificación de la mutación sin necesidad de secuenciar el genoma o grandes porciones del genoma de la célula. Los métodos pueden implicar la secuenciación del casete de edición, el casete grabador o el código de barras para identificar la mutación de uno o más codones. La secuenciación del casete de edición puede realizarse como un componente del vector o después de su separación del vector y, opcionalmente, amplificación. La secuenciación puede realizarse mediante el uso de cualquier método de secuenciación conocido en la técnica, tal como la secuenciación de Sanger o los métodos de secuenciación de última generación.
Algunos métodos descritos en la presente descripción pueden llevarse a cabo en cualquier tipo de célula en la que pueda funcionar un sistema de nucleasa dirigida, o dirigirse y escindir el DNA, incluidas las células procariotas y eucariotas. En algunas modalidades, la célula es una célula bacteriana, como Escherichia spp., por ejemplo, E. coli. En otras modalidades, la célula es una célula fúngica, tal como una célula de levadura, por ejemplo, Saccharomyces spp. En otras modalidades, la célula es una célula de alga, una célula vegetal, una célula de insecto o una célula de mamífero, incluida una célula humana.
Un "vector" es cualquiera de una variedad de ácidos nucleicos que comprenden una secuencia deseada o secuencias para suministrarse o expresarse en una célula. Puede incluirse una secuencia deseada en un vector, tal como mediante restricción y ligadura o mediante métodos de recombinación o ensamblaje conocidos en la técnica. Los vectores suelen estar compuestos típicamente de DNA, aunque también se encuentran disponibles vectores de RNA. Los vectores incluyen, pero no se limitan a, plásmidos, fósmidos, fagémidos, genomas de virus, cromosomas artificiales y moléculas de ácido nucleico sintético.
Los vectores útiles en los métodos descritos en la presente descripción pueden comprender al menos un casete de edición como se describe en la presente descripción, al menos un gen que codifica un gRNA y, opcionalmente, un promotor y/o un código de barras. Puede incluirse más de un casete de edición en el vector, por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más casetes de edición. Los más de un casete de edición pueden diseñarse para dirigirse a diferentes regiones diana, por ejemplo, podría haber diferentes casetes de edición, cada uno de los cuales contiene al menos una región homóloga con una región diana diferente. En otros ejemplos, cada casete de edición se dirige a la misma región diana, mientras que cada casete de edición comprende una mutación deseada diferente con relación a la región diana. En otros ejemplos, la pluralidad de casetes de edición puede comprender una combinación de casetes de edición dirigidos a la misma región diana y casetes de edición dirigidos a diferentes regiones diana. Cada casete de edición puede comprender un código de barras de identificación. Alternativa o adicionalmente, el vector puede incluir uno o más genes que codifican más de un gRNA, por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más gRNA. Los más de un gRNA pueden contener regiones que son complementarias a una porción de diferentes regiones diana, por ejemplo, si hay diferentes gRNA, cada uno de los cuales puede ser complementario a una porción de una región diana diferente. En otros ejemplos, más de un gRNA puede dirigirse a la misma región diana. En otros ejemplos, más de un gRNA puede ser una combinación de gRNA dirigidos a las mismas y diferentes regiones diana.
Un casete que comprende un gen que codifica una porción de un ácido nucleico guía puede ligarse o ensamblarse en un vector que codifica otra porción de un ácido nucleico guía. Tras la unión o el ensamblaje, la porción del ácido nucleico guía del casete y la otra porción del ácido nucleico guía pueden formar un ácido nucleico guía funcional. Pueden unirse operativamente un promotor y un gen que codifica un ácido nucleico guía.
En algunas modalidades, los métodos implican la introducción de un segundo vector que codifica una nucleasa guiada por ácido nucleico, tales como Cas9, Cpf1, MAD2 o MAD7. El vector puede comprender además uno o más promotores unidos operativamente a un gen que codifica la nucleasa guiada por ácido nucleico.
Como se usa en la presente, "operablemente" unido puede significar que el promotor afecta o regula la transcripción del DNA que codifica un gen, tal como el gen que codifica el gRNA o el gen que codifica una nucleasa CRISPR.
Un promotor puede ser un promotor nativo tal como un promotor presente en la célula en la que se introduce el vector. Un promotor puede ser un promotor inducible o reprimible, por ejemplo, el promotor puede regularse permitiendo la transcripción inducible o reprimible de un gen, tal como el gen que codifica el ácido nucleico guía o el gen que codifica una nucleasa guiada por ácido nucleico. Dichos promotores que están regulados por la presencia o ausencia de una molécula pueden denominarse inductores o represores, respectivamente. La naturaleza del promotor necesario para la expresión del ácido nucleico guía o la nucleasa guiada por ácido nucleico puede variar en base a la especie o el tipo de célula y puede ser reconocido por un experto en la técnica.
Un vector separado que codifica una nucleasa guiada por ácido nucleico puede introducirse en una célula o población de células antes o al mismo tiempo que la introducción de un plásmido rastreable como se describe en la presente descripción. El gen que codifica una nucleasa guiada por ácido nucleico puede integrarse en el genoma de la célula o población de células, o el gen puede mantenerse episomalmente. El DNA que codifica la nucleasa guiada por ácido nucleico puede integrarse en el genoma celular antes de la introducción del plásmido rastreable, o después de la introducción del plásmido rastreable. En algunos ejemplos, una molécula de ácido nucleico, tal como el DNA que codifica una nucleasa guiada por ácido nucleico, puede expresarse a partir del DNA integrado en el genoma. En algunas modalidades, un gen que codifica Cas9, Cpf1, MAD2 o MAD7 se integra en el genoma de la célula.
Los vectores o casetes útiles en los métodos descritos en la presente descripción pueden comprender además dos o más sitios de cebado. En algunas modalidades, la presencia de sitios de cebado flanqueantes permite la amplificación del vector o casete.
En algunas modalidades, un casete o vector codifica una nucleasa guiada por ácido nucleico que comprende una o más secuencias de localización nuclear (NLS), tal como aproximadamente o más de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más NLS. En algunas modalidades, la nucleasa genomanipulada comprende aproximadamente o más de aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9, 10 o más NLS en o cerca del extremo amino, aproximadamente o más de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más NLS en o cerca del extremo carboxilo terminal, o una combinación de estos (por ejemplo, uno o más NLS en el extremo amino terminal y uno o más NLS en el extremo carboxi). Cuando está presente más de un NLS, cada uno puede seleccionarse independientemente de los demás, de manera que un solo NLS puede estar presente en más de una copia y/o en combinación con uno o más NLS presentes en una o más copias. En una modalidad preferida de la invención, la nucleasa genomanipulada comprende a lo máximo 6 NLS. En algunas modalidades, una NLS se considera cerca del extremo N o C cuando el aminoácido más cercano de la NLS está dentro de aproximadamente 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 40, 50, o más aminoácidos a lo largo de la cadena polipeptídica desde el extremo N o C. Los ejemplos no limitativos de NLS incluyen una secuencia de NLS derivada de: la NLS del antígeno T grande del virus SV40, que tiene la secuencia de aminoácidos PKKKRKV (SEQ ID NO: 111); el NLS de nucleoplasmina (por ejemplo, el NLS bipartito de nucleoplasmina con la secuencia KRPAATKKAGQAKKKK (SEQ ID NO: 112)); el c-myc NLS que tiene la secuencia de aminoácidos PAAKRVKLD (SEQ ID NO: 113) o RQRRNELKRSP (SEQ ID NO: 114); teniendo el hRNPAl M9 NLS la secuencia NQ S SNF GPMKGGNF GGRS SGP Y GGGGQ YF AKPRNQGGY (SEQ ID NO: 115); la secuencia RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO: 116) del dominio IBB de importina-alfa; las secuencias VSRKRPRP (SEQ ID NO: 117) y PPKKARED (SEQ ID NO: 115) de la proteína T del mioma; la secuencia PQPKKKPL (SEQ ID NO: 119) de p53 humana; la secuencia SALIKKKKKMAP (SEQ ID NO: 120) de ratón c-abl IV; las secuencias DRLRR (SEQ ID NO: 121) y PKQKKRK (SEQ ID NO: 122) del virus de la influenza NS1; la secuencia RKLKKKIKKL (SEQ ID NO: 123) del antígeno delta del virus de la hepatitis; la secuencia REKKKFLKRR (SEQ ID NO: 124) de la proteína Mxl de ratón; la secuencia KRKGDEVDGVDEVAKKKSKK (SEQ ID NO: 125) de la poli(ADP-ribosa) polimerasa humana; y la secuencia RKCLQAGMNLEARKTKK (SEQ ID NO: 126) de los receptores de hormonas esteroides (humanos) glucocorticoides.
En general, uno o más NLS tienen la fuerza suficiente para impulsar la acumulación de la nucleasa guiada por ácido nucleico en una cantidad detectable en el núcleo de una célula eucariota. En general, la fuerza de la actividad de localización nuclear puede derivar del número de NLS, el NLS particular usado o una combinación de estos factores. La detección de la acumulación en el núcleo puede realizarse mediante cualquier técnica adecuada. Por ejemplo, puede fusionarse un marcador detectable con la nucleasa guiada por ácido nucleico, de manera que pueda visualizarse la ubicación dentro de una célula, como en combinación con un medio para detectar la ubicación del núcleo (por ejemplo, una tinción específica para el núcleo tal como DAPI). Los núcleos celulares también pueden aislarse de las células, cuyo contenido puede analizarse luego mediante cualquier proceso adecuado para detectar proteínas, como inmunohistoquímica, transferencia Western o ensayo de actividad enzimática. La acumulación en el núcleo también puede determinarse indirectamente, por ejemplo, mediante un ensayo del efecto de la formación del complejo de nucleasa guiada por ácido nucleico (por ejemplo, ensayo de escisión o mutación del DNA en la secuencia diana, o ensayo de actividad de expresión génica alterada afectada por formación de complejo de nucleasa dirigida y/o actividad de nucleasa guiada por ácido nucleico), en comparación con un control no expuesto a la nucleasa guiada por ácido nucleico o complejo de nucleasa dirigida, o expuesto a una nucleasa guiada por ácido nucleico que carece de uno o más NLS.
ProSAR
Los métodos descritos en la presente descripción son capaces de diseñar de unas pocas a cientos de secuencias genéticas o proteínas simultáneamente. Estos métodos pueden permitir mapear en un solo experimento muchos o todos los posibles cambios de residuos sobre una colección de proteínas deseadas en un rasgo de interés, como parte de proteínas individuales de interés o como parte de una vía. Este enfoque puede usarse al menos para lo siguiente mediante el mapeo i) cualquier número de cambios de residuos para cualquier número de proteínas de interés en una vía bioquímica específica o que catalizan reacciones similares o ii) cualquier número de residuos en los sitios reguladores de cualquier número de proteínas o interés con un regulón específico o iii) cualquier número de residuos de un agente biológico usado para tratar una condición de salud.
En algunas modalidades, los métodos descritos en la presente descripción incluyen identificar variaciones genéticas de uno o más genes diana que afectan a cualquier número de residuos, como uno o más, o todos los residuos de una o más proteínas diana. De acuerdo con estas modalidades, las composiciones y métodos descritos en la presente descripción permiten el análisis paralelo de dos o más proteínas diana o proteínas que contribuyen a un rasgo. El análisis paralelo de múltiples proteínas mediante un solo experimento descrito puede facilitar la identificación, modificación y diseño de sistemas superiores, por ejemplo, para producir un subproducto eucariota o procariota, producir un subproducto eucariota, por ejemplo, un agente biológico tal como un factor de crecimiento o un anticuerpo, en un organismo procariota y similares. Los productos biológicos relevantes usados en el análisis y el tratamiento de enfermedades pueden producirse en estos entornos modificados genéticamente que podrían reducir el tiempo de producción, aumentar la calidad y reducir los costos para los fabricantes y los consumidores.
Algunas modalidades descritas en la presente descripción comprenden construcciones de uso para estudiar variaciones genéticas de un gen o segmento de gen en donde el gen o segmento de gen es capaz de generar una proteína. Puede generarse una construcción para cualquier cantidad de residuos, como uno, dos, más de dos o todas las modificaciones de residuos de una proteína diana que está unida a un agente rastreable, como un código de barras. Un código de barras indicativo de una variación genética de un gen de una proteína diana puede ubicarse fuera del marco de lectura abierto del gen. En algunas modalidades, dicho código de barras puede ubicarse a muchos cientos o miles de bases del gen. Se contempla en la presente descripción que estos métodos pueden realizarse in vivo. Como se describe en la presente descripción en algunos ejemplos, dicha construcción comprende un ácido polinucleico rastreable o un plásmido.
Las construcciones descritas en la presente descripción pueden usarse para compilar una biblioteca completa de variaciones genéticas que abarque todos los cambios de residuos de una proteína diana, más de una proteína diana
o proteínas diana que contribuyen a un rasgo. En ciertas modalidades, las bibliotecas descritas en la presente descripción pueden usarse para seleccionar proteínas con cualidades mejoradas para crear un sistema mejorado de proteína única o múltiple, por ejemplo, para producir un subproducto, tal como un agente químico, biocombustible, agente biológico, agente farmacéutico o para biomasa, o biológico en comparación con un sistema no selectivo.
Mapeo de la Relación Secuencia-Actividad de Proteínas (ProSAR)
Comprender la relación entre la estructura de aminoácidos de una proteína y su función general sigue siendo de gran importancia práctica, clínica y científica para biólogos e ingenieros. La evolución dirigida puede ser una poderosa herramienta de ingeniería y descubrimiento, pero la naturaleza aleatoria y, a menudo, combinatoria de las mutaciones hace que sus impactos individuales sean difíciles de cuantificar y, por lo tanto, desafía la ingeniería adicional. El análisis más sistemático de las contribuciones de los residuos individuales o la mutagénesis de saturación sigue siendo laborioso y requiere mucho tiempo para proteínas completas y simplemente no es posible en escalas de tiempo razonables para múltiples proteínas en paralelo, tales como vías metabólicas o complejos de múltiples proteínas, mediante el uso de métodos estándar.
En la presente descripción se proporcionan métodos que pueden usarse para examinar rápida y eficientemente las funciones de algunos o todos los genes en un genoma viral, microbiano o eucariota mediante el uso de mezclas de oligonucleótidos con código de barras. En algunas modalidades, estas composiciones y métodos pueden usarse para desarrollar una tecnología nueva y poderosa para mapear de manera integral las relaciones estructura-actividad de proteínas (ProSAR).
Mediante el uso de los métodos y las composiciones descritos en la presente descripción, la síntesis de casetes multiplex puede combinarse con la recombinación para crear bibliotecas mutantes de mutaciones diseñadas específicamente y con código de barras a lo largo de uno o más genes de interés en paralelo. Cribados y/o selecciones seguidas de secuenciación de alto rendimiento y/o métodos de micromatrices de códigos de barras pueden permitir un mapeo rápido de las relaciones entre secuencia de proteínas y actividad (ProSAR). En algunas modalidades, el mapeo sistemático de ProSAR puede dilucidar mutaciones de aminoácidos individuales para mejorar la función y/o la actividad y/o la estabilidad, etc.
Los métodos pueden iterarse para mejorar combinatoriamente la función, la actividad o la estabilidad. Los casetes pueden generarse mediante síntesis de oligonucleótidos. Dado que las capacidades existentes de síntesis múltiplex de oligonucleótidos pueden alcanzar más de 120000 oligonucleótidos por matriz, combinadas con la recombinación, los métodos descritos en la presente descripción pueden escalarse para construir bibliotecas mutantes para docenas o cientos de proteínas en un solo experimento. En algunos ejemplos, al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 25, 50, 75, 100, 150, 200, 250, 300, 400, 500, 600, 700, 800, 900, 1000 o más proteínas pueden estar parcial o completamente cubiertas por bibliotecas mutantes generadas por los métodos descritos en la presente descripción.
En la presente descripción se describen estrategias para construir bibliotecas de sustitución con código de barras para varias proteínas diferentes al mismo tiempo. Mediante el uso de la tecnología de síntesis de DNA multiplex existente, como
las descritas, una biblioteca de sustitución parcial o completa para una o más construcciones de proteínas puede codificarse con barras, o no codificarse si se desea, para una o varios cientos de proteínas al mismo tiempo. Como se describe en la presente descripción en algunos ejemplos, dichas bibliotecas comprenden plásmidos rastreables.
Algunas modalidades en la presente descripción se aplican al análisis y la construcción de bibliotecas de estructura/función/estabilidad de cualquier proteína con una selección o cribado correspondiente para la actividad. El tamaño de la biblioteca de casetes puede depender del número (N) de aminoácidos en una proteína de interés, con una biblioteca de saturación completa, que incluye los 20 aminoácidos en cada posición y, opcionalmente, aminoácidos no naturales, escalando hasta 19 (o más) xN y una biblioteca de mapeo de alanina escalando como 1> <N. Por lo tanto, en algunos ejemplos, la detección de proteínas incluso muy grandes de más de 1000 aminoácidos puede ser manejable dadas las capacidades actuales de síntesis de oligos multiplex de al menos 120000 oligos por matriz.
Además o como una alternativa a la actividad de cribados, las propiedades más generales con cribados y selecciones desarrolladas de alto rendimiento pueden probarse eficientemente mediante el uso de métodos y casetes descritos en la presente descripción. Por ejemplo, los indicadores universales de plegado y solubilidad de proteínas pueden genomanipularse para la expresión en el citoplasma, el periplasma y la membrana interna. En algunos ejemplos, una biblioteca de proteínas puede seleccionarse en diferentes condiciones, como diferentes temperaturas, diferentes sustratos o cofactores, para identificar los cambios de residuos necesarios para la expresión de varios rasgos. En otras modalidades, debido a que los residuos pueden analizarse uno a la vez, las mutaciones en los residuos importantes para un rasgo particular, como la termoestabilidad, la resistencia a las presiones ambientales o los aumentos o disminuciones en la funcionalidad o la producción, pueden combinarse mediante recombinación múltiplex con mutaciones importantes para varios otros rasgos, tales como la actividad catalítica, para crear bibliotecas combinatorias para la optimización de múltiples rasgos.
Los métodos descritos en la presente descripción pueden proporcionar la creación y/o evaluación de bibliotecas mutacionales completas, in vivo, de una o más proteínas diana. Estos enfoques pueden ampliarse a través de casetes de grabación o tecnología de códigos de barras para generar bibliotecas mutacionales rastreables para cualquier número de residuos o cada residuo en una proteína. Este enfoque puede basarse en el método de mapeo de la relación secuencia-actividad de proteínas extendido para trabajar in vivo, capaz de trabajar en una o en unas pocas o cientos de proteínas simultáneamente, en dependencia de la tecnología seleccionada. Por ejemplo, estos métodos permiten mapear en un solo experimento cualquier número, la mayoría o todos los posibles cambios de residuos sobre una colección de proteínas deseadas en un rasgo de interés, como parte de proteínas individuales de interés o como parte de una vía.
En algunos ejemplos, estos enfoques pueden usarse al menos para lo siguiente al mapear i) cualquier número o todos los cambios de residuos para cualquier número o todas las proteínas en una vía bioquímica específica, como la producción de licopeno, o que catalizan reacciones similares, tal como deshidrogenasas u otras enzimas de una vía de uso para producir un efecto deseado o producir un producto, o ii) cualquier número o todos los residuos en los sitios reguladores de cualquier número o todas las proteínas con un mecanismo regulador específico, como la respuesta de choque térmico, o iii) cualquier número o todos los residuos de un agente biológico usado para tratar una condición de salud, tal como insulina, un factor de crecimiento (HCG), un producto biológico anticancerígeno o una proteína de reemplazo para una población deficiente.
Pueden asignarse puntajes relacionados con varios parámetros de entrada para generar uno o más puntajes compuestos para diseñar organismos o sistemas de ingeniería genómica. Estos puntajes pueden reflejar la calidad de las variaciones genéticas en genes o loci genéticos con relación a la selección de un organismo o el diseño de un organismo para una producción, característica o características predeterminadas. Ciertos organismos o sistemas pueden diseñarse en base a de la necesidad de organismos mejorados para biorrefinación, biomasa, como cultivos, árboles, pastos, residuos de cultivos o residuos forestales, producción de biocombustibles y mediante el uso de conversión biológica, fermentación, conversión química y catálisis para usar y generar compuestos, producción biofarmacéutica y producción biológica. En ciertas modalidades, esto puede lograrse modulando el crecimiento o la producción de microorganismos a través de métodos de manipulación genética descritos en la presente descripción.
La manipulación genética mediante métodos descritos en la presente descripción de genes que codifican una proteína puede usarse para fabricar los cambios genéticos deseados que pueden dar como resultado fenotipos deseados y pueden lograrse a través de numerosas técnicas que incluyen, pero no se limitan a, i) introducción de nuevo material genético, ii) inserción genética, interrupción o eliminación de material genético existente, así como también, iii) mutación de material genético, tal como una mutación puntual, o cualquier combinación de i, ii y iii, que resulte en cambios genéticos deseados con cambios fenotípicos deseados. Las mutaciones pueden ser dirigidas o aleatorias, además de aquellas que incluyen, pero no se limitan a, mutagénesis propensa a errores o dirigida a través de PCR, cepas mutantes y mutagénesis aleatoria. Las mutaciones pueden incorporarse mediante el uso de plásmidos rastreables y métodos como se describe en la presente descripción.
Los métodos descritos pueden usarse para insertar y acumular modificaciones de orden superior en el genoma de un microorganismo o una proteína diana; por ejemplo, se describen múltiples mutaciones específicas de sitio diferentes en el mismo genoma, con alta eficiencia para generar bibliotecas de genomas con más de 1, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 150, 200, 250, 300 o más modificaciones específicas. En algunos ejemplos, estas mutaciones se encuentran dentro de módulos reguladores, elementos reguladores, regiones codificantes de proteínas o regiones no codificantes. Las modificaciones de codificación de proteínas pueden incluir, pero no se limitan a, cambios de aminoácidos, optimización de codones y ajuste de traducción.
En algunos casos, se proporcionan métodos para el suministro conjunto de reactivos a una única célula biológica. Los métodos implican generalmente la unión o el enlace de dos o más casetes, seguido del suministro de los casetes unidos a una sola célula. Generalmente, los métodos proporcionados en la presente descripción implican el suministro de dos o más casetes a una sola célula. En muchos casos, es conveniente que cada célula individual reciba los dos o más casetes. Los métodos tradicionales de suministro de reactivos a menudo pueden ser ineficientes y/o inconsistentes, lo que lleva a situaciones en las que algunas células reciben solo uno de los casetes. Los métodos proporcionados en la presente descripción pueden mejorar la eficiencia y/o la consistencia del suministro de reactivos, de manera que la mayoría de las células en una población celular reciba cada una los dos o más casetes. Por ejemplo, más del 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 %, 96 %, 97 %, 98 %, 99 % de las células en una población celular puede recibir los dos o más casetes.
Los dos o más casetes pueden unirse mediante cualquier método conocido en la técnica y, generalmente, el método elegido estará en consonancia con la química de los casetes. Generalmente, los dos o más casetes están unidos por un enlace covalente (es decir, enlazados covalentemente), sin embargo, se prevén otros tipos de enlaces químicos no covalentes, como enlaces de hidrógeno, enlaces iónicos y enlaces metálicos. De esta forma, el casete de edición y el casete grabador pueden unirse y suministrarse en una sola celda. Luego, una edición conocida se asocia con un grabador conocido o secuencia de código de barras para esa célula.
En un ejemplo, los dos o más casetes son ácidos nucleicos, tales como dos o más ácidos nucleicos. Los ácidos nucleicos pueden ser RNA, DNA o una combinación de ambos, y pueden contener cualquier número de nucleótidos modificados químicamente o análogos de nucleótidos. En algunos casos, se unen dos o más casetes de RNA para su suministro a una sola célula. En otros casos, se unen dos o más casetes de DNA para su suministro a una sola célula. En otros casos más, se unen casetes de DNA y casetes de RNA para su suministro a una sola célula. Los ácidos nucleicos pueden derivar de RNA genómico, DNA complementario (cDNA) o DNA sintetizado química o enzimáticamente.
Un casete puede ser de 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79,80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, aproximadamente 110, aproximadamente 120, aproximadamente 130, aproximadamente 140, aproximadamente 150, aproximadamente 160, aproximadamente 170, aproximadamente 180, aproximadamente 190, aproximadamente 200, aproximadamente 210, aproximadamente 220, aproximadamente 230, aproximadamente 240, aproximadamente 250, aproximadamente 275, aproximadamente 300, aproximadamente 325, aproximadamente 350, aproximadamente 375, aproximadamente 400, aproximadamente 425, aproximadamente 450, aproximadamente 475, aproximadamente 500, aproximadamente 525, aproximadamente 550, aproximadamente 575, aproximadamente 600, aproximadamente 625, aproximadamente 650, aproximadamente 675, aproximadamente 700, aproximadamente 725, aproximadamente 750, aproximadamente 775, aproximadamente 800, aproximadamente 825, aproximadamente 850, aproximadamente 875, aproximadamente 900, aproximadamente 925, aproximadamente 950, aproximadamente 975, aproximadamente 1000, aproximadamente 1100, aproximadamente 1200, aproximadamente
1300, aproximadamente 1400, aproximadamente 1500, aproximadamente 1750, aproximadamente 2000, aproximadamente 2500, aproximadamente 3000, aproximadamente 4000, aproximadamente 5000, aproximadamente
6000, aproximadamente 7000, aproximadamente 8000, aproximadamente 9000, aproximadamente 10 000, o más residuos de nucleótidos de longitud, hasta una proteína de longitud completa que codifica o elementos genéticos reguladores.
Pueden unirse dos o más casetes en una molécula de ácido nucleico lineal o pueden unirse en un plásmido o molécula
de ácido nucleico circular. Los dos o más casetes pueden unirse directamente entre sí o pueden estar separados por uno o más espaciadores o enlazadores de nucleótidos.
Pueden unirse covalentemente dos o más casetes en casetes lineales o pueden unirse covalentemente en un plásmido o molécula de ácido nucleico circular. Los dos o más casetes pueden estar unidos covalentemente directamente entre
sí o pueden estar separados por uno o más espaciadores o enlazadores de nucleótidos.
Puede unirse cualquier número y variedad de casetes para su suministro conjunto. Por ejemplo, los dos o más casetes pueden incluir ácidos nucleicos, lípidos, proteínas, péptidos, moléculas pequeñas o cualquiera de sus combinaciones.
Los dos o más casetes pueden ser esencialmente cualquier casete que pueda unirse.
En ejemplos preferidos, los dos o más casetes están unidos covalentemente (por ejemplo, mediante un enlace químico). El enlace covalente puede ayudar a garantizar que los dos o más casetes se suministren de conjunto a una sola célula. Generalmente, los dos o más casetes se unen covalentemente antes de su suministro a una célula. Puede utilizarse cualquier método de unión covalente de dos o más moléculas, y debe entenderse que los métodos usados estarán determinados, al menos en parte, por los tipos de casetes a unir.
En algunos casos, se proporcionan métodos para el suministro conjunto de reactivos a una única célula biológica. Los métodos implican generalmente la unión o enlace covalente de dos o más casetes, seguido del suministro de los casetes unidos covalentemente en una sola célula. Los métodos proporcionados pueden ayudar a asegurar que una célula individual reciba los dos o más casetes. Puede utilizarse cualquier método conocido de suministrar reactivos para suministrar los casetes unidos a una célula y dependerá, al menos en parte, de la química de los casetes que se van a administrar. Los ejemplos no limitativos de métodos de suministrar reactivos pueden incluir: transformación, lipofección, electroporación, transfección, nanopartículas y similares.
Como se describe en la presente descripción, en diversas modalidades, pueden introducirse casetes o ácidos nucleicos aislados, donantes o de edición en una célula o microorganismo para alterar o modular un aspecto de la célula o microorganismo, por ejemplo, la supervivencia o el crecimiento del microorganismo. El ácido nucleico aislado puede derivarse de RNA genómico, DNA complementario (DNAc), DNA sintetizado química o enzimáticamente.
Adicional o alternativamente, los ácidos nucleicos aislados pueden ser útiles para capturar sondas, cebadores, oligonucleótidos de detección marcados o fragmentos para el ensamblaje de DNA.
Un "ácido nucleico" puede incluir moléculas monocatenarias y/o bicatenarias, así como también DNA, RNA, ácidos nucleicos modificados químicamente y análogos de ácidos nucleicos. Se contempla que un ácido nucleico puede ser de 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, aproximadamente 180, aproximadamente 190, aproximadamente
200, aproximadamente 210, aproximadamente 220, aproximadamente 230, aproximadamente 240, aproximadamente
250, aproximadamente 275, aproximadamente 300, aproximadamente 325, aproximadamente 350, aproximadamente
375, aproximadamente 400, aproximadamente 425, aproximadamente 450, aproximadamente 475, aproximadamente
500, aproximadamente 525, aproximadamente 550, aproximadamente 575, aproximadamente 600, aproximadamente
625, aproximadamente 650, aproximadamente 675, aproximadamente 700, aproximadamente 725, aproximadamente
750, aproximadamente 775, aproximadamente 800, aproximadamente 825, aproximadamente 850, aproximadamente
875, aproximadamente 900, aproximadamente 925, aproximadamente 950, aproximadamente 975, aproximadamente
1000, aproximadamente 1100, aproximadamente 1200, aproximadamente 1300, aproximadamente 1400, aproximadamente 1500, aproximadamente 1750, aproximadamente 2000, aproximadamente 2500, aproximadamente
3000, aproximadamente 4000, aproximadamente 5000, aproximadamente 6000, aproximadamente 7000, aproximadamente 8000, aproximadamente 9000, aproximadamente 10000 o más residuos de nucleótidos de longitud, hasta una proteína de longitud completa que codifica o elementos genéticos reguladores.
Los ácidos nucleicos aislados pueden prepararse mediante cualquier método conocido en la técnica, por ejemplo, mediante el uso de métodos recombinantes estándar, métodos de ensamblaje, técnicas sintéticas o sus combinaciones. En algunas modalidades, los ácidos nucleicos pueden clonarse, amplificarse, ensamblarse o construirse de cualquier otra manera.
Los ácidos nucleicos pueden comprender convenientemente secuencias además de una porción de un riboconmutador de lisina. Por ejemplo, puede añadirse un sitio de clonación múltiple que comprenda uno o más sitios de restricción de endonucleasas. Un ácido nucleico puede unirse a un vector, adaptador o enlazador para la clonación de un ácido nucleico. Pueden añadirse secuencias adicionales a dicha clonación y secuencias para optimizar su función, ayudar en el aislamiento del ácido nucleico o mejorar la introducción del ácido nucleico en una célula. El uso de vectores de clonación, vectores de expresión, adaptadores y enlazadores es bien conocido en la técnica.
Los ácidos nucleicos aislados pueden obtenerse a partir de fuentes celulares, bacterianas o de otro tipo mediante el uso de cualquier número de metodologías de clonación conocidas en la técnica. En algunas modalidades, sondas de oligonucleótidos que se hibridan selectivamente, en condiciones rigurosas, con otros oligonucleótidos o con los ácidos nucleicos de un organismo o célula. Se conocen métodos para la construcción de bibliotecas de ácidos nucleicos y puede usarse cualquiera de dichos métodos conocidos.
El DNA, el RNA o el cDNA genómicos celulares pueden seleccionarse en busca de la presencia de un elemento genético identificado de interés mediante el uso de una sonda basada en una o más secuencias. Pueden emplearse varios grados de rigurosidad de hibridación en el ensayo.
Las condiciones de alta rigurosidad para la hibridación de ácidos nucleicos se conocen bien en la técnica. Por ejemplo, las condiciones pueden comprender condiciones de baja salinidad y/o alta temperatura, como las proporcionadas por NaCl de aproximadamente 0,02 M a aproximadamente 0,15 M a temperaturas de aproximadamente 50 °C a aproximadamente 70 °C. Se entiende que la temperatura y la fuerza iónica de una rigurosidad deseada se determinan en parte por la longitud de los ácidos nucleicos particulares, la longitud y el contenido de nucleótidos de las secuencias diana, la composición de carga de los ácidos nucleicos y la presencia o concentración de formamida, cloruro de tetrametilamonio u otro(s) solvente(s) en una mezcla de hibridación. Los ácidos nucleicos pueden ser completamente complementarios a una secuencia diana o pueden exhibir una o más discrepancias.
Los ácidos nucleicos de interés también pueden amplificarse mediante el uso de una variedad de técnicas de amplificación conocidas. Por ejemplo, la tecnología de reacción en cadena de la polimerasa (PCR) puede usarse para amplificar secuencias diana directamente a partir de DNA, RNA o cDNA. La PCR y otros métodos de amplificación in vitro también pueden ser útiles, por ejemplo, para clonar secuencias de ácidos nucleicos, fabricar ácidos nucleicos para usarlos como sondas para detectar la presencia de un ácido nucleico diana en las muestras, para la secuenciación de ácidos nucleicos o para otros fines.
Los ácidos nucleicos aislados pueden prepararse mediante síntesis química directa mediante métodos tales como el método del fosfotriéster o mediante el uso de un sintetizador automático. La síntesis química generalmente produce un oligonucleótido monocatenario. Este puede convertirse en DNA de doble cadena por hibridación con una secuencia complementaria o por polimerización con una DNA polimerasa mediante el uso de la cadena sencilla como molde.
Se contempla cualquier método conocido en la técnica para identificar, aislar, purificar, usar y ensayar las actividades de las proteínas diana contempladas en la presente descripción. Las proteínas diana contempladas en la presente descripción incluyen agentes proteicos usados para tratar una condición humana o para regular procesos (por ejemplo, parte de una vía como una enzima) implicados en la enfermedad de un mamífero humano o no humano. También se contempla cualquier método conocido para la selección y producción de anticuerpos o fragmentos de anticuerpos. Adicional o alternativamente, las proteínas diana pueden ser proteínas o enzimas involucradas en una vía o proceso en un virus, célula u organismo.
Sistemas de escisión de ácidos nucleicos dirigidos
Algunos métodos descritos en la presente descripción comprenden la escisión dirigida de secuencias de ácido nucleico específicas mediante el uso de una nucleasa o un sistema de nucleasa específica del sitio, dirigida y/o genomanipulado. Tales nucleasas pueden crear roturas de doble cadena (DSB) en las ubicaciones deseadas en un genoma o molécula de ácido nucleico. En otros ejemplos, una nucleasa puede crear una ruptura de una sola cadena. En algunos casos, se usan dos nucleasas, cada una de las cuales genera una rotura de una sola cadena.
La rotura de una o más cadenas dobles o sencillas puede repararse mediante procesos naturales de recombinación homóloga (HR) y unión de extremos no homólogos (NHEJ) mediante el uso de la maquinaria endógena de la célula. Adicional o alternativamente, puede usarse maquinaria de recombinación endógena o heteróloga para reparar la rotura o roturas inducidas.
Las nucleasas genomanipuladas como las nucleasas con dedos de zinc (ZFN), las nucleasas efectoras similares a activadores de la transcripción (TALEN), las endonucleasas dirigidas genomanipuladas y las endonucleasas guiadas por RNA o DNA, como CRISPR/Cas tal como Cas9 o CPF1, y/o los sistemas Argonaute, son particularmente apropiado para llevar a cabo algunos de los métodos de la presente invención. Adicional o alternativamente, pueden usarse sistemas de direccionamiento de RNA, tales como sistemas CRISPR/Cas que incluyen nucleasas c2c2.
Los métodos descritos en la presente descripción pueden comprender la escisión de un ácido nucleico diana mediante el uso de un sistema CRISPr , tal como un sistema CRISPR Tipo I, Tipo II, Tipo III, Tipo IV, Tipo V o Tipo VI. Los sistemas CRISPR/Cas pueden ser sistemas multiproteicos o sistemas de proteína efectora única. Los sistemas CRISPR de multiproteínas o Clase 1 incluyen sistemas Tipo I, Tipo III y Tipo IV. Alternativamente, los sistemas de Clase 2 incluyen una sola molécula efectora e incluyen Tipo II, Tipo V y Tipo VI.
Los sistemas CRISPR usados en los métodos descritos en la presente descripción pueden comprender proteínas efectoras únicas o múltiples. Una proteína efectora puede comprender uno o múltiples dominios de nucleasa. Una proteína efectora puede dirigirse al DNA o al RNA, y el DNA o el RNA pueden ser monocatenarios o bicatenarios. Las proteínas efectoras pueden generar roturas de doble cadena o de una sola cadena. Las proteínas efectoras pueden comprender mutaciones en un dominio de nucleasa generando de esta manera una proteína nickasa. Las proteínas efectoras pueden comprender mutaciones en uno o más dominios de nucleasa, generando de esta manera una nucleasa catalíticamente muerta que puede unirse pero no escindir una secuencia diana. Los sistemas CRISPR pueden comprender uno o varios RNA guía. El gRNA puede comprender un crRNA. El gRNA puede comprender un RNA quimérico con secuencias crRNA y tracrRNA. El gRNA puede comprender un crRNA y un tracrRNA separados. Las secuencias de ácido nucleico diana pueden comprender un motivo adyacente al protoespaciador (PAM) o un sitio flanqueante del protoespaciador (PFS). El PAM o PFS puede estar a 3' o 5' del sitio diana o protoespaciador. La escisión de una secuencia diana puede generar extremos romos, salientes 3' o salientes 5'.
Un gRNA puede comprender una secuencia espaciadora. Las secuencias espaciadoras pueden ser complementarias a las secuencias diana o a las secuencias protoespaciadoras. Las secuencias espaciadoras pueden tener 10, 11, 12, 13, 14, 15, 16,
18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35 o 36 nucleótidos de longitud. En algunos ejemplos, la secuencia espaciadora puede tener menos de 10 o más de 36 nucleótidos de longitud.
Un gRNA puede comprender una secuencia repetida. En algunos casos, la secuencia repetida es parte de una porción de doble cadena del gRNA. Una secuencia repetida puede tener 10, 11, 12, 13, 14, 15, 16, 17,
19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 o 50 nucleótidos de longitud. En algunos ejemplos, la secuencia espaciadora puede tener menos de 10 o más de 50 nucleótidos de longitud.
Un gRNA puede comprender uno o más nucleótidos sintéticos, nucleótidos no naturales, nucleótidos con una modificación, desoxirribonucleótido o cualquiera de sus combinaciones.
Adicional o alternativamente, un gRNA puede comprender una horquilla, una región enlazadora, una región monocatenaria, una región bicatenaria o cualquiera de sus combinaciones. Adicional o alternativamente, un gRNA puede comprender una molécula indicadora o de señalización.
Una nucleasa CRISPR puede expresarse de forma endógena o recombinante dentro de una célula. Una nucleasa CRISPR puede codificarse en un cromosoma, extracromosómicamente, o en un plásmido, cromosoma sintético o cromosoma artificial. Puede proporcionarse o suministrarse una nucleasa CRISPR a la célula como un polipéptido o mRNA que codifica el polipéptido. En tales ejemplos, el polipéptido o el mRNA pueden suministrarse a través de mecanismos estándar conocidos en la técnica, tal como mediante el uso de péptidos, nanopartículas o partículas virales permeables a las células.
Los gRNA pueden ser codificados por DNA genético o episomal dentro de una célula. En algunos ejemplos, los gRNA pueden proporcionarse o suministrarse en una célula que expresa una nucleasa CRISPR. Los gRNA pueden proporcionarse o suministrarse de manera concomitante con una nucleasa CRISPR o secuencialmente. Los r Na guía pueden sintetizarse químicamente, transcribirse in vitro o generarse de cualquier otra manera mediante el uso de técnicas estándar de generación de RNA conocidas en la técnica.
Un sistema CRISPR puede ser un sistema CRISPR Tipo II, por ejemplo, un sistema Cas9. La nucleasa de tipo II puede comprender una única proteína efectora que, en algunos casos, comprende dominios de nucleasa RuvC y HNH. En algunos casos, una nucleasa Tipo II funcional puede comprender dos o más polipéptidos, cada uno de los cuales comprende un dominio de nucleasa o un fragmento del mismo. Las secuencias de ácido nucleico diana pueden comprender un motivo adyacente al protoespaciador (PAM) en 3'. En algunos ejemplos, el PAM puede estar en 5' del ácido nucleico diana. Los RNA guía (gRNA) pueden comprender un único gRNA quimérico, que contiene secuencias tanto de crRNA como de tracrRNA. Alternativamente, el gRNA puede comprender un conjunto de dos RNA, por ejemplo, un crRNA y un tracrRNA. La nucleasa Tipo II puede generar una ruptura de doble cadena, que en algunos casos crea dos extremos romos. En algunos casos, la nucleasa CRISPR Tipo II está genomanipulada para ser una nickasa, de manera que la nucleasa solo genera una rotura de una sola cadena. En tales casos, los gRNA pueden dirigirse a dos secuencias de ácido nucleico distintas, de manera que la nickasa genere dos roturas de una sola cadena. En algunos ejemplos, las dos roturas de una sola cadena crean efectivamente una rotura de doble cadena. En algunos casos donde se usa una nickasa de tipo II para generar dos roturas de cadena sencilla, los extremos libres de ácido nucleico resultantes pueden ser romos, tener un saliente 3' o un saliente 5'. En algunos ejemplos, una nucleasa de tipo II puede estar muerta catalíticamente de manera que se une a una secuencia diana, pero no se escinde. Por ejemplo, una nucleasa de tipo II podría tener mutaciones en los dominios RuvC y HNH, lo que haría de esta manera que ambos dominios de nucleasa no fueran funcionales. Un sistema CRISPR Tipo II puede ser uno de los tres subtipos, a saber, Tipo II-A, Tipo II-B o Tipo II-C.
Un sistema CRISPR puede ser un sistema CRISPR Tipo V, por ejemplo, un sistema Cpf1, C2cl o C2c3. La nucleasa de Tipo V puede comprender una sola proteína efectora, que en algunos casos comprende un solo dominio de nucleasa RuvC. En otros casos, una nucleasa funcional de Tipo V comprende un dominio RuvC dividido entre dos o más polipéptidos. En tales casos, las secuencias de ácido nucleico diana pueden comprender un 5' PAM o un 3' PAM. Los RNA guía (gRNA) pueden comprender un solo gRNA o un solo crRNA, tal como puede ser el caso de Cpf1. En algunos casos, no se necesita un tracrRNA. En otros ejemplos, tal como cuando se usa C2cl, un gRNA puede comprender un solo gRNA quimérico, que contiene secuencias de crRNA y tracrRNA o el gRNA puede comprender un conjunto de dos RNA, por ejemplo, un crRNA y un tracrRNA. La nucleasa CRISPR Tipo V puede generar una rotura de doble cadena, que en algunos casos genera un saliente de 5'. En algunos casos, la nucleasa CRISPR Tipo V está genomanipulada para ser una nickasa, de manera que la nucleasa solo genera una rotura de una sola cadena. En tales casos, los gRNA pueden dirigirse a dos secuencias de ácido nucleico distintas, de manera que la nickasa genere dos roturas de una sola cadena. En algunos ejemplos, las dos roturas de una sola cadena crean efectivamente una rotura de doble cadena. En algunos casos donde se usa una nickasa de tipo V para generar dos roturas de cadena sencilla, los extremos libres de ácido nucleico resultantes pueden ser romos, tener un saliente 3' o un saliente 5'. En algunos ejemplos, una nucleasa de Tipo V puede estar muerta catalíticamente de manera que se une a una secuencia diana, pero no se escinde. Por ejemplo, una nucleasa de tipo V podría tener mutaciones en un dominio RuvC, lo que haría de esta manera que el dominio de la nucleasa no fuera funcional.
Un sistema CRISPR puede ser un sistema CRISPR Tipo VI, por ejemplo, un sistema C2c2. Una nucleasa de Tipo VI puede comprender un dominio HEPN. En algunos ejemplos, la nucleasa de tipo VI comprende dos o más polipéptidos, cada uno de los cuales comprende un dominio de nucleasa HEPN o un fragmento del mismo. En tales casos, las secuencias de ácido nucleico diana pueden ser RNA, tal como RNA monocatenario. Cuando se usa el sistema CRISPR Tipo VI, un ácido nucleico diana puede comprender un sitio flanqueante del protoespaciador (PFS). El PFS puede ser 3' o 5' o la secuencia diana o protoespaciadora. Los RNA guía (gRNA) pueden comprender un solo gRNA o un solo crRNA. En algunos casos, no se necesita un tracrRNA. En otros ejemplos, un gRNA puede comprender un solo gRNA quimérico, que contiene secuencias de crRNA y tracrRNA o el gRNA puede comprender un conjunto de dos RNA, por ejemplo, un crRNA y un tracrRNA. En algunos ejemplos, una nucleasa de Tipo VI puede estar muerta catalíticamente de manera que se une a una secuencia diana, pero no se escinde. Por ejemplo, una nucleasa de tipo VI podría tener mutaciones en un dominio HEPN, lo que haría de esta manera que los dominios de la nucleasa no fueran funcionales.
Los ejemplos no limitantes de nucleasas adecuadas, incluidas las nucleasas guiadas por ácidos nucleicos, para usar en la presente descripción incluyen C2cl, C2c2, C2c3, Casl, CaslB, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (también conocidos como Csnl y Csxl2), CaslO, Cpf1, Csyl, Csy2, Csy3, Csel, Cse2, Cscl, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmrl, Cmr3, Cmr4, Cmr5, Cmr6, Csbl, Csb2, Csb3, Csxl7, Csxl4, CsxlOO, Csxl6, CsaX, Csx3, Csxl, Csxl5, Csfl, Csf2, Csf3, Csf4, homólogos de los mismos, ortólogos de los mismos o versiones modificadas de los mismos.
Las nucleasas guiadas por ácido nucleico adecuadas pueden ser de un organismo de un género que incluye, pero no se limita a, Thiomicrospira, Succinivibrio, Candidatus, Porphyromonas, Acidomonococcus, Prevotella, Smithella, Moraxella, Synergistes, Francisella, Leptospira, Catenibacterium, Kandleria, Clostridium, Dorea, Coprococcus, Enterococcus, Fructobacillus, Weissella, Pediococcus, Corynebacter, Sutterella, Legionella, Treponema, Roseburia, Filifactor, Eubacterium, Streptococcus, Lactobacillus, Mycoplasma, Bacteroides, Flaviivola, Flavobacterium, Sphaerochaeta, Azospirillum, Gluconacetobacter, Neisseria, Roseburia, Parvibaculum, Staphylococcus, Nitratifractor, Mycoplasma, Alicyclobacillus, Brevibacilus, Bacillus, Bacteroidetes, Brevibacilus, Carnobacterium, Clostridiaridium, Clostridium, Desulfonatronum, Desulfovibrio, Helcococcus, Leptotrichia, Listeria, Methanomethyophilus, Methylobacterium, Opitutaceae, Paludibacter, Rhodobacter, Sphaerochaeta, Tuberibacillus, y Campylobacter. Las especies de organismos de tal género pueden ser como se discute en la presente descripción de cualquier otra manera. Las nucleasas guiadas por ácido nucleico adecuadas pueden ser de un organismo de un género o género no clasificado dentro de un reino, que incluye pero no se limita a Firmicute, Actinobacteria, Bacteroidetes, Proteobacteria, Spirochates y Tenericutes. Las nucleasas guiadas por ácido nucleico adecuadas pueden ser de un organismo de un género o género no clasificado dentro de un filo que incluyen, pero no se limitan a, Erysipelotrichia, Clostridia, Bacilli, Actinobacteria, Bacteroidetes, Flavobacteria, Alphaproteobacteria, Betaproteobacteria, Gammaproteobacteria, Deltaproteobacteria, Epsilonproteobacteria, Spirochaetes y Mollicutes. Las nucleasas guiadas por ácido nucleico adecuadas pueden ser de un organismo de un género o género no clasificado dentro de un orden que incluyen, pero no se limitan a, Clostridiales, Lactobacillales, Actinomycetales, Bacteroidales, Flavobacteriales, Rhizobiales, Rhodospirillales, Burkholderiales, Neisseriales, Legionellales, Nautiliales, Campylobacterales, Spirochaetales, Mycoplasmatales y Thiotrichales. Las nucleasas guiadas por ácidos nucleicos adecuadas pueden ser de un organismo de un género o género no clasificado dentro de una familia que incluye, pero no se limita a, Lachnospiraceae, Enterococcaceae, leuconostocaceae, lactobaciláceas, estreptococos, Peptostreptococcaceae, Staphylococcaceae, Eubacteriaceae, Corynebacterineae, Bacteroidaceae, Flavobacterium, Cryomoorphaceae, Rhodobiaceae, Rhodospirillaceae, Acetobacteraceae, Sutterellaceae, Neisseriaceae, Legionellaceae, Nautiliaceae, Campylobacteraceae, Spirochaetaceae, Mycoplasmataceae, Pisciririckettsiaceae y Francisellaceae.
Otras nucleasas guiadas por ácidos nucleicos adecuadas para su uso en los métodos, sistemas y composiciones de la presente descripción incluyen las derivadas de un organismo tal como, pero no se limita a, Thiomicrospira sp. XS5, Eubacterium rectale, Succinivibrio dextrinosolvens, Candidatus Methanoplasma termitum, Candidatus Methanomethylophilus alvus, Porphyromonas crevioricanis, Flavobacterium branchiophilum, Acidomonococcus sp., Lachnospiraceae bacteria C0E1, Prevotella brevis ATCC 19188, Smithella sp. SCADC, Moraxella bovoculi, Synergistes jonesii, Bacteroidetes oral taxon 274, Francisella tularensis, Leptospira inadai serovar Lyme str. 10, Acidomonococcus sp. estructura cristalina (5B43) S. mutans, S. agalactiae, S. equisimilis, S. sanguinis, S. pneumonia; C. jejuni, C. coli; N. salsuginis, N. tergarcus; S. auricularis, S. carnosus; N. meningitidis, N. gonorrhoeae; L. monocytogenes, L. ivanovii; C. botulinum, C. difficile, C. tetani, C. sordellii; Francisella tularensis 1, Prevotella albensis, bacteria Lachnospiraceae MC2017 1, Butyrivibrio proteoclasticus, bacteria Peregrinibacteria GW2011_GWA2_33_10, bacteria Parcubacteria GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacteria MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacteria ND2006, Porphyromonas crevioricanis 3, Prevotella disiens, Porphyromonas macacae, Catenibacterium sp. CAG:290, Kandleria vitulina, bacteria Clostridiales KA00274, bacteria Lachnospiraceae 3-2, Dorea longicatena, Coprococcus catus GD/7, Enterococcus columbae DSM 7374, Fructobacillus sp. EFB-N1, Weissella halotolerans, Pediococcus acidilactici, Lactobacillus curvatus, Streptococcus pyogenes, Lactobacillus versmoldensis y Filifactor alocis ATCC 35896.
Las nucleasas adecuadas para usar en cualquiera de los métodos descritos en la presente descripción incluyen, pero no se limitan a, nucleasas que tienen las secuencias enumeradas en la Tabla 1, u homólogos que tienen al menos 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 99 % de identidad de secuencia con cualquiera de las nucleasas enumeradas en la Tabla 1.
Tabla 1.
Figure imgf000035_0001
En algunos métodos descritos en la presente descripción, los sistemas Argonaute (Ago) pueden usarse para escindir secuencias de ácido nucleico diana. La proteína Ago puede derivarse de un procariota, un eucariota o una arquea. El ácido nucleico diana puede ser RNA o DNA. Una diana de DNA puede ser monocatenaria o bicatenaria. En algunos ejemplos, el ácido nucleico diana no requiere una secuencia flanqueante diana específica, tal como una secuencia equivalente a un motivo adyacente al protoespaciador o secuencia flanqueante al protoespaciador. La proteína Ago puede crear una ruptura de doble cadena o una ruptura de una sola cadena. En algunos ejemplos, cuando una proteína Ago forma una rotura de cadena sencilla, pueden usarse dos proteínas Ago en combinación para generar una rotura de doble cadena. En algunos ejemplos, una proteína Ago comprende uno, dos o más dominios de nucleasa. En algunos ejemplos, una proteína Ago comprende uno, dos o más dominios catalíticos. Uno o más dominios catalíticos o de nucleasa pueden mutarse en la proteína Ago, generando de esta manera una proteína nickasa capaz de generar roturas de cadena sencilla. En otros ejemplos, las mutaciones en una o más nucleasas o dominios catalíticos de una proteína Ago generan una proteína Ago catalíticamente muerta que puede unirse pero no escindir un ácido nucleico diana.
Las proteínas Ago pueden dirigirse a secuencias de ácido nucleico diana mediante un ácido nucleico guía. En muchos ejemplos, el ácido nucleico guía es un DNA guía (gDNA). El gDNA puede tener un extremo 5' fosforilado. El gDNA puede ser monocatenario o bicatenario. El gDNA monocatenario puede tener 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49 o 50 nucleótidos de longitud. En algunos ejemplos, el gDNA puede tener menos de 10 nucleótidos de longitud. En algunos ejemplos, el gDNA puede tener más de 50 nucleótidos de longitud.
La escisión mediada por Argonaute puede generar extremos romos, salientes de 5' o salientes de 3'. En algunos ejemplos, se eliminan uno o más nucleótidos del sitio diana durante o después de la escisión.
La proteína Argonaute puede expresarse de forma endógena o recombinante dentro de una célula. Argonaute puede codificarse en un cromosoma, extracromosómicamente, o en un plásmido, cromosoma sintético o cromosoma artificial. Adicional o alternativamente, puede proporcionarse o suministrarse una proteína Argonaute a la célula como un polipéptido o mRNA que codifica el polipéptido. En tales ejemplos, el polipéptido o el mRNA pueden suministrarse a través de mecanismos estándar conocidos en la técnica, tal como mediante el uso de péptidos, nanopartículas o partículas virales permeables a las células.
Los DNA guía pueden ser proporcionados por DNA episomal o genético dentro de una célula. En algunos ejemplos, el gDNA se transcribe de forma inversa a partir de RNA o mRNA dentro de una célula. En algunos ejemplos, los gDNA pueden proporcionarse o suministrarse en una célula que expresa una proteína Ago. Los DNA guía pueden proporcionarse o suministrarse de manera concomitante con una proteína Ago o secuencialmente. Los DNA guía pueden sintetizarse químicamente, ensamblarse o generarse de cualquier otra manera mediante el uso de técnicas estándar de generación de DNA conocidas en la técnica. Los DNA guía pueden escindirse, liberarse o derivarse de cualquier otra manera a partir de DNA genómico, moléculas de DNA episomal, moléculas de ácido nucleico aisladas o cualquier otra fuente de moléculas de ácido nucleico.
En algunos casos, se proporcionan composiciones que comprenden una nucleasa tal como una nucleasa guiada por ácido nucleico (por ejemplo, Cas9, Cpf1, MAD2 o m AD7) o una nucleasa guiada por DNA (por ejemplo, Ago), unida a un mecanismo enzimático de remodelación de cromatina. Sin desear limitarse a la teoría, una proteína de fusión de nucleasa como se describe en la presente descripción puede proporcionar una accesibilidad mejorada a regiones de DNA altamente estructurado. Los ejemplos no limitantes de enzimas remodeladoras de cromatina que pueden unirse a una nucleasa guiada por ácido nucleico pueden incluir: histona acetiltransferasas (HAT), histona desacetilasas (HDAC), histona metiltransferasas (HMT), complejos de remodelación de cromatina y proteínas efectoras de tipo activador de la transcripción (Tal). Las histonas desacetilasas pueden incluir HDAC1, HDAC2, HDAC3, HDAC4, HDAC5, HDAC6, HDAC7, HdAc 8, HDAC9, HDAC10, HDAC11, sirtuina 1, sirtuina 2, sirtuina 3, sirtuina 4, sirtuina 5, sirtuina 6 y sirtuina 7. Las histona acetiltransferasas pueden incluir GCN5, PCAF, Hatl, Elp3, Hpa2, Hpa3, ATF-2, Nutl, Esal, Sas2, Sas3, Tip60, MOF, MOZ, MORF, HBOl, p300, CBP, SRC-1, ACTR, TIF-2, SRC-3, TAFII250, TFIIIC, Rttl09 y CLOCK. Las histonas metiltransferasas pueden incluir ASH1L, DOT1L, EHMT1, EHMT2, EZH1, EZH2, MLL, MLL2, MLL3, MLL4, MLL5, NSD1, PRDM2, SET, SETBP1, SETD1A, SETD1B, SETD2, SETD3, SETD4, SETD5, SETD6, SETD7, SETD8, SETD9, SETDB1, SETDB2, SETMAR, SMYD1, SMYD2, SMYD3, SMYD4, SMYD5, SUV39H1, SUV39H2, SUV420H1 y SUV420H2. Los complejos de remodelación de cromatina pueden incluir SWFSNF, ISWI, NuRD/Mi-2/CHD, INO80 y SWR1.
En algunos casos, la nucleasa es una nucleasa de tipo salvaje. En otros casos, la nucleasa es una nucleasa genomanipulada quimérica. Las nucleasas genomanipuladas quiméricas como se describen en la presente descripción pueden comprender uno o más fragmentos o dominios, y los fragmentos o dominios pueden ser de una nucleasa, tal como una nucleasa guiada por ácido nucleico, ortólogos de organismos de géneros, especies u otros grupos filogenéticos descritos en la presente descripción; ventajosamente, los fragmentos proceden de ortólogos de nucleasas de diferentes especies. Una nucleasa genomanipulada quimérica puede estar compuesta por fragmentos o dominios de al menos dos nucleasas diferentes. Una nucleasa genomanipulada quimérica puede estar compuesta por fragmentos o dominios de al menos dos especies diferentes. Una nucleasa genomanipulada quimérica puede estar compuesta por fragmentos o dominios de al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleasas diferentes o especies diferentes. En algunos casos, más de un fragmento o dominio de una nucleasa o especie, en donde más de un fragmento o dominio están separados por fragmentos o dominios de una segunda nucleasa o especie. En algunos ejemplos, una nucleasa genomanipulada quimérica comprende 2 fragmentos, cada uno de una proteína o nucleasa diferente. En algunos ejemplos, una nucleasa genomanipulada quimérica comprende 3 fragmentos, cada uno de una proteína o nucleasa diferente. En algunos ejemplos, una nucleasa genomanipulada quimérica comprende 4 fragmentos, cada uno de una proteína o nucleasa diferente. En algunos ejemplos, una nucleasa genomanipulada quimérica comprende 5 fragmentos, cada uno de una proteína o nucleasa diferente.
Las proteínas de fusión de nucleasa pueden expresarse de forma recombinante dentro de una célula. Una proteína de fusión de nucleasa puede codificarse en un cromosoma, extracromosómicamente, o en un plásmido, cromosoma sintético o cromosoma artificial. Una nucleasa y una enzima de remodelación de la cromatina pueden genomanipularse por separado y luego unirse covalentemente, antes de su suministro a una célula. Una proteína de fusión de nucleasa puede proporcionarse o suministrarse a la célula como un polipéptido o mRNA que codifica el polipéptido. En tales ejemplos, el polipéptido o el mRNA pueden suministrarse a través de mecanismos estándar conocidos en la técnica, tal como mediante el uso de péptidos, nanopartículas o partículas virales permeables a las células.
Expresión dependiente del ciclo celular de nucleasas dirigidas.
En algunos casos, se proporcionan composiciones que comprenden una nucleasa dependiente del ciclo celular. Una nucleasa dependiente del ciclo celular generalmente incluye una nucleasa dirigida como se describió en la presente descripción unida a una enzima que conduce a la degradación de la nucleasa dirigida durante la fase G1 del ciclo celular y la expresión de la nucleasa dirigida durante la fase G2/M del ciclo celular. Dicha expresión dependiente del ciclo celular puede, por ejemplo, sesgar la expresión de la nucleasa en células donde la reparación dirigida por homología (HDR) es más activa (por ejemplo, durante la fase G2/M). En algunos casos, la nucleasa se une covalentemente a una proteína regulada por el ciclo celular, tal como una que se degrada activamente durante la fase G1 del ciclo celular y se expresa activamente durante la fase G2/M del ciclo celular. En un ejemplo no limitante, la proteína regulada por el ciclo celular es Geminina. Otros ejemplos no limitativos de proteínas reguladas por el ciclo celular pueden incluir: Ciclina A, Ciclina B, Hsll, Cdc6, Finl, p21 y Skp2.
En algunos casos, la nucleasa es una nucleasa de tipo salvaje.
En otros casos, la nucleasa es una nucleasa genomanipulada. Las nucleasas genomanipuladas pueden no ocurrir de forma natural.
Las nucleasas dirigidas que no ocurren naturalmente y los sistemas de nucleasa dirigida que no ocurren naturalmente pueden abordar muchos de estos desafíos y limitaciones.
En la presente descripción se describen sistemas de nucleasas que no pueden dirigirse de forma natural. Dichos sistemas de nucleasa dirigida están genomanipulados para abordar uno o más de los desafíos descritos anteriormente y pueden denominarse sistemas de nucleasas genomanipulados. Los sistemas de nucleasas genomanipuladas pueden comprender una o más de una nucleasa genomanipuladas, como una nucleasa guiada por ácido nucleico genomanipulada, un ácido nucleico guía genomanipulado, polinucleótidos genomanipulados que codifican dicha nucleasa o polinucleótidos genomanipulados que codifican dicho ácido nucleico guía. Las nucleasas genomanipuladas, los ácidos nucleicos guía genomanipulados y los polinucleótidos genomanipulados que codifican la nucleasa genomanipulada o el ácido nucleico guía genomanipulado no se producen de forma natural y no se encuentran en la naturaleza. De ello se deduce que los sistemas de nucleasas genomanipulados que incluyen uno o más de estos elementos no se producen de forma natural.
Ejemplos no limitativos de tipos de ingeniería que pueden realizarse para obtener un sistema de nucleasa que no se produzca de forma natural son los siguientes. La ingeniería puede incluir la optimización de codones para facilitar la expresión o mejorar la expresión en una célula hospederas, como una célula hospedera heteróloga. La ingeniería puede reducir el tamaño o el peso molecular de la nucleasa para facilitar la expresión o el suministro. La ingeniería puede alterar la selección de PAM para cambiar la especificidad de PAM o el intervalo de PAM reconocidos. La ingeniería puede alterar, aumentar o disminuir la estabilidad, la procesividad, la especificidad o la eficiencia de un sistema de nucleasa dirigida. La ingeniería puede alterar, aumentar o disminuir la estabilidad de las proteínas. La ingeniería puede alterar, aumentar o disminuir la procesividad de la exploración de ácidos nucleicos. La ingeniería puede alterar, aumentar o disminuir la especificidad de la secuencia diana. La ingeniería puede alterar, aumentar o disminuir la actividad de la nucleasa. La ingeniería puede alterar, aumentar o disminuir la eficiencia de edición. La ingeniería puede alterar, aumentar o disminuir la eficiencia de transformación. La ingeniería puede alterar, aumentar o disminuir la nucleasa o guiar la expresión de ácidos nucleicos.
Los ejemplos de secuencias de ácidos nucleicos no naturales que se describen en la presente descripción incluyen secuencias con codones optimizados para la expresión en bacterias, tales como E. coli (por ejemplo, las SEQ ID NO: 41-60), secuencias con codones optimizados para la expresión en eucariotas de una sola célula, tales como levadura (por ejemplo, las SEQ ID NO: 127-146), secuencias con codón optimizado para la expresión en eucariotas multicelulares, como células humanas (por ejemplo, las SEQ ID NO: 147-166), polinucleótidos usados para la clonación o expresión de cualquiera de las secuencias descritas en la presente descripción (por ejemplo, las SEQ ID NO: 61-80), plásmidos que comprenden secuencias de ácido nucleico (por ejemplo, las SEQ ID NO: 21-40) unidas operativamente a un promotor heterólogo o señal de localización nuclear u otro elemento heterólogo, proteínas generadas a partir de secuencias de ácido nucleico genomanipuladas u optimizadas por codones (por ejemplo, las SEQ ID NO: 1-20), o ácidos nucleicos guía diseñados que comprenden cualquiera de las SEQ ID NO: 84-107. Dichas secuencias de ácidos nucleicos no naturales pueden amplificarse, clonarse, ensamblarse, sintetizarse, generarse a partir de oligonucleótidos o dNTP sintetizados, u obtenerse de cualquier otra manera mediante el uso de métodos conocidos por los expertos en la técnica.
Ejemplos adicionales de secuencias de ácido nucleico no naturales que se describen en la presente descripción incluyen secuencias con codones optimizados para la expresión en bacterias, tales como E. coli (por ejemplo, la SEQ ID NO: 168), secuencias con codones optimizados para la expresión en eucariotas de una sola célula, tales como levaduras (por ejemplo, la SEQ ID NO: 169), secuencias con codones optimizados para la expresión en eucariotas multicelulares, tales como células humanas (por ejemplo, la SEQ ID NO: 170), polinucleótidos usados para la clonación o expresión de cualquier secuencia descrita en la presente descripción (por ejemplo, la SEQ ID NO: 171), plásmidos que comprenden secuencias de ácido nucleico (por ejemplo, la SEQ ID NO: 167) unidas operativamente a un promotor heterólogo o
a una señal de localización nuclear u otro elemento heterólogo, proteínas generadas a partir de secuencias de ácido nucleico diseñadas u optimizadas por codón (por ejemplo las SEQ ID NO: 108-110), o ácidos nucleicos guía genomanipulados compatibles con cualquier nucleasa dirigida descrita en la presente descripción. Dichas secuencias de ácidos nucleicos no naturales pueden amplificarse, clonarse, ensamblarse, sintetizarse, generarse a partir de oligonucleótidos o dNTP sintetizados, u obtenerse de cualquier otra manera mediante el uso de métodos conocidos por los expertos en la técnica.
Un ácido nucleico guía puede ser DNA. Un ácido nucleico guía puede ser RNA. Un ácido nucleico guía puede comprender tanto DNA como RNA. Un ácido nucleico guía puede comprender nucleótidos modificados de origen no natural. En los casos donde el ácido nucleico guía comprende RNA, el ácido nucleico guía de RNA puede estar codificado por una secuencia de DNA en una molécula de polinucleótido tal como un plásmido, un constructo lineal o un casete de edición como se describe en la presente descripción.
Las nucleasas guiadas por ácidos nucleicos pueden ser compatibles con ácidos nucleicos guía que no se encuentran dentro del hospedero endógeno de las nucleasas. Dichos ácidos nucleicos guía ortogonales pueden determinarse mediante pruebas empíricas. Los ácidos nucleicos guía ortogonales pueden provenir de diferentes especies bacterianas o ser sintéticos o genomanipulados de cualquier otra manera para que no se produzcan de forma natural.
Los ácidos nucleicos guía ortogonales que son compatibles con una nucleasa guiada por ácido nucleico común pueden comprender una o más características comunes. Las características comunes pueden incluir una secuencia fuera de una región de pseudonudo. Las características comunes pueden incluir una región de pseudonudo (por ejemplo, 172­ 181). Las características comunes pueden incluir una secuencia primaria o una estructura secundaria.
Un ácido nucleico guía puede genomanipularse para dirigirse a una secuencia diana deseada mediante la alteración de la secuencia guía de manera que la secuencia guía sea complementaria a la secuencia diana, lo que permite de esta manera la hibridación entre la secuencia guía y la secuencia diana. Un ácido nucleico guía con una secuencia guía genomanipulada puede denominarse ácido nucleico guía genomanipulado. Los ácidos nucleicos guía genomanipulados a menudo no se producen de forma natural y no se encuentran en la naturaleza.
En otros casos, la nucleasa es una nucleasa quimérica. Las nucleasas quiméricas pueden ser nucleasas genomanipuladas. Las nucleasas quiméricas, como se describe en la presente descripción, pueden comprender uno o más fragmentos o dominios, y los fragmentos o dominios pueden ser de una nucleasa, tal como una nucleasa guiada por ácido nucleico, ortólogos de organismos de géneros, especies u otros grupos filogenéticos; ventajosamente, los fragmentos proceden de ortólogos de nucleasas de diferentes especies. Una nucleasa quimérica puede estar compuesta por fragmentos o dominios de al menos dos nucleasas diferentes. Una nucleasa quimérica puede estar compuesta por fragmentos o dominios de al menos dos especies diferentes. Una nucleasa quimérica puede estar compuesta por fragmentos o dominios de al menos 2, 3, 4, 5, 6, 7, 8, 9, 10 o más nucleasas diferentes o especies diferentes. En algunos casos, más de un fragmento o dominio de una nucleasa o especie, en donde más de un fragmento o dominio están separados por fragmentos o dominios de una segunda nucleasa o especie. En algunos ejemplos, una nucleasa quimérica comprende 2 fragmentos, cada uno de una proteína o nucleasa diferente. En algunos ejemplos, una nucleasa quimérica comprende 3 fragmentos, cada uno de una proteína o nucleasa diferente. En algunos ejemplos, una nucleasa quimérica comprende 4 fragmentos, cada uno de una proteína o nucleasa diferente. En algunos ejemplos, una nucleasa quimérica comprende 5 fragmentos, cada uno de una proteína o nucleasa diferente.
Ejemplos
Ejemplo 1: Plásmidos y bibliotecas CREATE
Las Figuras 1A-C representan un ejemplo de una descripción general del diseño y el flujo de trabajo de la Ingeniería del genoma rastreable habilitado por CRISPR (CREATE). La Figura 1A muestra un ejemplo de la metodología CREATE que permite que las modificaciones programáticas del genoma se centren en residuos de aminoácidos clave o en promotores dianas en todo el genoma. Tales bibliotecas permiten por lo tanto la evaluación sistemática de las relaciones secuencia/actividad para una amplia variedad de dianas genómicas en paralelo. La Figura 1B representa un ejemplo de casetes CREATE diseñados para codificar secuencias de brazo de homología (HA) y de RNA guía (gRNA) para dirigirse a un locus específico en el genoma de E. coli. El brazo de homología de 100 bp se diseñó para introducir una mutación de codón específica (codón diana) que puede enriquecerse selectivamente mediante una mutación PAM sinónima para rescatar la secuencia de la escisión de Cas9 y permitir una mutagénesis altamente eficiente. Los sitios PI y P2 (negro) sirven como sitios de cebado general que permiten la amplificación multiplexada, la clonación y la secuenciación de muchas bibliotecas en paralelo. El promotor (J23119, verde) es un promotor constitutivo que impulsa la expresión del gRNA. En la parte inferior de la Figura 1B también se representa un ejemplo detallado del diseño HA para introducir un codón de terminación en el residuo 145 en el locus galK. La secuencia superior muestra la secuencia del genoma de tipo salvaje con el PAM (CCG; cuyo complemento inverso es CGG, que es reconocido por S. pyogenes Cas9) y el codón diana (TAT, que codifica Y) resaltados. El diseño HA introduce una "cicatriz silenciosa" en el sitio PAM (CgG, cuyo complemento inverso es CCG, que no es reconocido por S. pyogenes Cas9) y una mutación TAT>TAA de un solo nucleótido en el codón 145 (que da como resultado un STOP). Esta estrategia de diseño se implementó programáticamente para codificar regiones en todo el genoma. La Figura 1C representa una descripción general de un flujo de trabajo CREATE de ejemplo. Los casetes CREATE se sintetizan en una micromatriz que se suministra como grandes grupos de oligo (104a 106 miembros individuales de la biblioteca). La clonación y la recombinación en paralelo permitieron el procesamiento de estos grupos en bibliotecas genómicas, en algunos casos en 23 días. La secuenciación profunda de los plásmidos CREATE puede usarse para rastrear la aptitud de miles de mutaciones de precisión en todo el genoma después de la selección o detección de las bibliotecas de mutantes.
Ejemplo 2 - Validación de plásmido CREATE
Las Figuras 2A-D representan un ejemplo del efecto de la actividad de Cas9 en las eficiencias de transformación y edición. Los casete galK CREATE 120/17 (120 bp HA y 17 bp PAM/separación de codones) dirigido al codón 145 en el gen galK o un vector de gRNA no dirigido de control se transformó en células portadoras de pSIM5 junto con plásmidos dCas9 (por ejemplo, conjunto de barras de la izquierda en la Figura 2A) o Cas9 (por ejemplo, conjunto de barras de la derecha en la Figura 2A). El plásmido pSIM5 lleva maquinaria de recombinación de rojo lambda. El gen cas9 se clonó en la estructura del pBTBX-2 bajo el control de un promotor pBAD para permitir el control de la actividad de escisión mediante la adición de arabinosa. Las eficiencias de transformación de cada vector se muestran con barras de color gris oscuro. El número total de células recombinantes (barras de color gris claro) se calculó en base a la detección de colonias rojas/blancas en agar MacConkey. En los casos donde las colonias blancas eran indetectables mediante la detección en placa, asumimos 104 eficiencias de edición. También se observó una reducción de 102 veces en la eficiencia de transformación en comparación con el control de gRNA no dirigido para los casetes CREATE transformados en el fondo de Cas9.
La Figura 2B representa un ejemplo de la caracterización de la longitud HA del casete CREATE y la separación PAM/codón en la eficiencia de edición. Todos los casetes se diseñaron para introducir una parada TAA en el codón 145 en el gen mediante el uso de PAM a la distancia indicada (PAM/parte inferior del codón) del codón diana y longitudes de brazos de homología variables (HA, parte inferior). Las barras gris oscuro y gris claro corresponden a la expresión no inducida o inducida de Cas9 bajo el promotor pBAD mediante el uso de arabinosa al 0,2 %. En la mayoría de los casos, la eficiencia de la edición parece no verse afectada por la inducción, lo que sugiere que las cantidades bajas de Cas9 debido a la expresión con fugas son suficientes para una edición de alta eficiencia.
La Figura 2C muestra datos de ejemplo de la secuenciación de los loci genómicos de las reacciones de recombinación CREATE. Los casetes galK de la Figura 2B están etiquetados de acuerdo con la longitud de HA y la separación entre codones PAM. Los otros loci mostrados eran casetes aislados de reacciones de clonación de bibliotecas multiplexadas. El gráfico de barras (Figura 2C) indica el número de veces que se observó cada genotipo mediante la secuenciación de colonias genómicas después de la recombinación con cada casete CREATE. Las etiquetas y en la parte inferior indican la presencia o ausencia de la mutación diseñada en los dos sitios relevantes en cada clon. El recuadro circular indica la posición relativa de cada gen en el genoma de E. coli.
La Figura 2D representa un ejemplo de la cobertura de la biblioteca a partir de la clonación multiplexada de plásmidos CREATE. Los recuentos de secuenciación profunda de cada variante se muestran con respecto a su posición en el genoma. El recuadro muestra un histograma de estos recuentos de plásmidos para toda la biblioteca. La distribución sigue la distribución de Poisson esperada para conteos promedio bajos.
Ejemplo 3: grabación CREATE usada para diseñar bibliotecas de DNA episomal rastreables
La Figura 3A represente un ejemplo de una descripción general del método usado para generar una biblioteca de DNA episomal rastreable. La transformación de un plásmido grabador CREATE genera modificaciones del DNA diana en dos sitios. Se produce una edición en el gen diana deseado (gris) que introduce un codón o una mutación promotora diseñada para probar objetivos de ingeniería específicos. La segunda edición se dirige a un sitio funcionalmente neutral e introduce un código de barras de 15 nucleótidos (BC, negro). En virtud del acoplamiento de estas bibliotecas en un solo plásmido CREATE, el DNA diana se edita en ambos sitios y cada código de barras único puede usarse para realizar un seguimiento de las ediciones en el resto del plásmido.
La Figura 2B representa un ejemplo del diseño de código de barras CREATE. Se construye una biblioteca degenerada a partir del solapamiento de oligos y se clona en un sitio separado del vector CREATE para fabricar una biblioteca de casetes de grabación CREATE que pueden acoplarse a las bibliotecas de edición del diseñador.
La Figura 2C representa una estrategia de mapeo de grabación CREATE ilustrativa. La secuenciación profunda tanto del DNA diana (izquierda) como de los plásmidos CREATE permite una estrategia de mapeo de secuencia simple al permitir que cada casete de edición sea asignado de forma única por la secuencia del código de barras. Esto permite realizar un seguimiento de la aptitud relativa de cada código de barras (y, por lo tanto, editarlo) durante los procesos de selección o detección y puede transferirse entre diferentes organismos mediante el uso de vectores estándar.
Ejemplo 4 - Edición de DNA episomal mediada por CREATE
Los métodos y composiciones descritos en la presente descripción se usaron para mutar un residuo clave del gen de la cas9 usado para el proceso CREATE (por ejemplo, Figura 4A-4B). Se diseñó un casete para fabricar una mutación R1335K en la proteína Cas9. Este casete se clonó en un plásmido CREATE y se transformó en MG1655 E. coli portando los vectores pSIM5 y X2-Cas9. El vector pSIM5 comprende la maquinaria de recombinación de rojo lambda. El vector X2-Cas9 comprende un casete de expresión de Cas9 inducible por arabinosa. Después de tres horas de recuperación en LB suplementado con arabinosa al 0,4 % para inducir la expresión de Cas9, las células se sembraron en agar que contenía antibióticos que mantienen la presión selectiva para la replicación de los plásmidos X2-Cas9 y CREATE. La PCR de colonias de clones aleatorios reveló que las ediciones diseñadas del plásmido CREATE se transfirieron eficientemente al plásmido X2-Cas9 (por ejemplo, la Figura 4B). De los clones que se secuenciaron, el 100 % contenía la mutación PAM silenciosa en X2Cas9 y 6/14 (43 %) también contenía la edición de codificación deseada. Esta es la primera demostración de que la edición basada en plásmidos mediante el uso de CREATE es sólida a pesar de los números de copias superiores asociados con el plásmido diana en comparación con los esfuerzos anteriores de ingeniería del genoma.
Ejemplo 5 - Edición y seguimiento mediados por CREATE del casete doble del genoma de E. coli
Para probar el rendimiento de la estrategia de grabación en un contexto genómico, probamos la capacidad de editar dos loci genómicos distales en el genoma de E. coli (por ejemplo, Figura 5A). Para hacerlo, clonamos bibliotecas de casetes de grabación CREATE diseñadas para incrustar los códigos de barras de 15 nucleótidos en el locus galK. Después de la clonación, aislamos algunos códigos de barras únicos y clonamos un segundo casete de edición diseñado para incorporar una mutación F153R en el gen de la dihidrofo1Ato reductasa (DHFR)//bZT que nuestros estudios CREATE anteriores identificaron como conferidora de tolerancia al antibiótico trimetoprima. El genotipado de las cepas de E. coli que siguieron a la transformación del vector de grabación dual CREATE de acuerdo con los protocolos descritos anteriormente produjeron los datos en la Figura 5A. La eficiencia del código de barras (100 %) fue superior que la edición del genoma de destino (80-90 %), lo que garantiza que pueda rastrearse los genomas editados. De la población transformada, observamos que > 80 % de las colonias contenían la edición del código de barras en el locus galK según lo determinado por la detección de colonias rojas y blancas (por ejemplo, Figura 5B). De las colonias con código de barras encontramos que el 85 % de las colonias también codificaron la mutación DHFR F153R, lo que indica que tenemos un fuerte seguimiento entre las ediciones del código de barras y del codón. La Figura 5B representa el número total de colonias (CFU) en experimentos duplicados que se editan y/o codifican con barras. Los números de CFU editados se calcularon por extrapolación de los datos en la Figura 5A al número total de CFU en la placa. Los números de UFC con código de barras se calcularon contando el número de colonias blancas en un cribado galK (sitio en el que se integra el código de barras). Estos datos muestran que la mayoría de las colonias con código de barras contenían la edición genómica diseñada.
Ejemplo 6- Curado de plásmidos para ingeniería combinatoria
La Figura 6 representa un ejemplo de ingeniería y seguimiento de genoma combinatorio. Se usan tres plásmidos CREATE recursivos, cada uno con un gRNA dirigido a uno de los otros marcadores de esta serie (indicados por líneas T). Durante cada transformación, se incorporan una edición y un código de barras en el genoma y se cura el plásmido CREATE anterior. De esta forma, pueden realizarse transformaciones iterativas rápidas para construir una combinación definida de mutaciones o una biblioteca combinatoria para buscar fenotipos mejorados. El sitio de grabación es compatible con tecnologías de secuenciación de lectura corta que permiten rastrear la aptitud de las combinaciones en una población. Tal enfoque permite una rápida investigación de la epistasis genética y la optimización de fenotipos relevantes para la investigación básica o para aplicaciones biológicas comerciales.
La Figura 3D y la Figura 3E representan otro ejemplo de ingeniería genómica combinatoria. Con cada ronda de ingeniería, se incorpora un casete de edición (rectángulo azul en la Figura 3D) a la secuencia diana en el genoma (estrella azul) y un casete grabador (rectángulo verde en la Figura 3D) se incorpora a una secuencia diana diferente del genoma (guion verde en el panel central de la Figura 3D). En este ejemplo, cada secuencia de grabación comprende un código de barras de 15 nucleótidos. Como se muestra en el panel derecho de la Figura 3D, las secuencias de grabación se insertan adyacente a la última secuencia de grabación, independientemente de dónde se insertó el casete de edición. Cada casete grabador puede eliminar simultáneamente un sitio PAM. Después de terminar cada ronda de ingeniería, las células genomanipuladas pueden seleccionarse y luego las mutaciones insertadas pueden rastrearse mediante la secuenciación de la región de grabación que comprende todos los casetes del grabación insertados. Mediante la secuenciación de la biblioteca de plásmidos inicial, cada casete de edición puede unirse o asociarse con uno o más códigos de barras únicos dentro del casete grabador. Dado que cada casete grabador corresponde al casete de edición asociado, las mutaciones incorporadas por los casetes de edición pueden rastrearse o identificarse mediante la secuencia del casete de grabación, o la secuencia de los códigos de barras dentro del casete de grabación. Como se demuestra en la Figura 3E, mediante la secuenciación de todos los casetes de grabación o los códigos de barras dentro de los casetes de grabación, cada una de las mutaciones insertadas puede identificarse y rastrearse. Las secuencias de grabación insertadas pueden denominarse sitio de grabación, matriz de grabación o matriz de códigos de barras. Como resultado, después de rondas recursivas de ingeniería, la secuenciación de la matriz de códigos de barras o el sitio de grabación permite el seguimiento del historial de eventos de edición genómica en la cepa. Cuando los casetes de grabación se insertan en el orden que se representa, por ejemplo, en la Figura 3D, la matriz de código de barras o el sitio de grabación pueden identificar el orden en que se insertaron las mutaciones, así como también cuál es la mutación.
Ejemplo 7 - Ingeniería recursiva mediante el uso de eventos de ingeniería de grabación CREATE iterativos
El ejemplo de ingeniería recursiva representado en la Figura 7A se usó para el curado de plásmidos para demostrar que el diseño es extremadamente eficiente para eliminar los vectores anteriores (Figura 7B). Cada plásmido CREATE puede seleccionarse positivamente en base a los antibióticos indicados (Trimeth: trimetoprima, Carb: carbenicilina, Tet: tetraciclina) y contiene un gRNA dirigido a uno de los otros marcadores de antibióticos. Por ejemplo, el plásmido reCREATEl puede seleccionarse para la carbenicilina y codifica un gRNA que se dirigirá selectivamente al gen de resistencia a la trimetoprima para su destrucción. Una pasada a través de la serie de marcadores de antibióticos carb/tetraciclina/trimetoprima permite la incorporación selectiva de hasta tres ediciones específicas. La función de grabación se implementaría como se ilustra en la Figura 5, pero se omite aquí por simplicidad.
La Figura 7B representa un ejemplo de datos de rondas iterativas de ingeniería CREATE. Se inició una serie de transformaciones en serie con células transformadas con X2cas9 (kan) y el vector reCREATEl. Los resultados del recubrimiento por puntos indican que el curado tiene una efectividad del 99,99 % en cada etapa de transformación, lo que garantiza una ingeniería altamente eficiente en cada ronda de transformación. Como se describe en la presente descripción, la edición del genoma y el curado del plásmido simultáneos en cada etapa de transformación con altas eficiencias se lograron mediante la introducción de los casetes CREATE de grabación y edición necesarios en vectores recursivos (por ejemplo, Figura 7B).
Ejemplo 8- Diseño y flujo de trabajo CREATE
En las Figuras 8A-8B se representa un ejemplo de descripción general del flujo de trabajo de diseño de ingeniería del genoma rastreable habilitado para CRISPR (CREATE). La Figura 8A muestra un ejemplo de anatomía de un casete CREATE diseñado para la ingeniería de proteínas. Los casetes codifican un espaciador (rojo) junto con parte de una secuencia de RNA guía (gRNA) y un brazo de homología de diseño (HA) que puede moldear la recombinación homóloga en el sitio de corte genómico. Para fines de ingeniería de proteínas, la HA está diseñada para acoplar sistemáticamente mutaciones a un codón específico o sitio diana (TS, azul) a una mutación PAM sinónima cercana (SPM, rojo) para rescatar la secuencia de la escisión Cas9 y permitir una mutagénesis altamente eficiente. Los sitios de cebado (PI y P2, negro) están diseñados para permitir la amplificación multiplexada y la clonación de subgrupos específicos de síntesis masiva basada en matrices paralelas. Un promotor constitutivo (verde) impulsa la expresión del gRNA. La Figura 8A muestra además un ejemplo detallado del diseño de HA para introducir un codón de terminación en el residuo 145 en el locus galK. La secuencia superior muestra el genoma wt con el codón PAM y TS resaltado. Las secuencias de traducción se muestran para ilustrar que el mutante resultante contiene una sola mutación no sinónima en el sitio diana. La Figura 8B muestra un ejemplo de descripción general del flujo de trabajo CREATE. Los oligos CREATE se sintetizan en una micromatriz y se suministran como grupos grandes (104-106 miembros individuales de la biblioteca). Estos casetes se amplifican y clonan en multiplex con la capacidad de subagrupar diseños. Después de la introducción de los plásmidos CREATE en las células que expresan las mutaciones Cas9, se transfieren al genoma con gran eficacia. La medición de la frecuencia de cada plásmido antes (fi, t1) y después de la selección (fi, t2) mediante secuenciación profunda proporciona puntuaciones de enriquecimiento (Ei) para cada casete CREATE. Estas puntuaciones permiten la identificación rápida de variantes adaptativas con una resolución de hasta un solo nucleótido o aminoácido para miles de loci en paralelo.
Ejemplo 9- Validación de diseño CREATE
La Figura 9A representa un ejemplo de los efectos de la actividad de Cas9 en la transformación y las eficiencias de edición se midieron sin un casete con un espaciador y HA de 120 bp dirigido al galK (ga/.£_Y145*_120/17) Los transformantes totales (TT blanco) producidos por este vector CREATE se muestran en blanco y el número total de recombinantes (TR) en azul oscuro. TR se calcula como el producto de la eficiencia de edición y Tt. Los asteriscos indican experimentos en los que no se pudieron observar recombinantes mediante cribado basado en placas. La Figura 9B muestra un ejemplo de caracterización de la longitud HA del casete CREATE y la separación PAM/codón en la eficiencia de edición. Todos los casetes se diseñaron para introducir una parada TAA en el codón 145 en el gen mediante el uso de PAM a la distancia indicada (PAM/parte inferior del codón) del codón diana y longitudes de brazos de homología variables (HA, parte inferior). Las barras blancas y azules corresponden a la expresión inducida o no inducida de Cas9 bajo el promotor pBAD mediante el uso de arabinosa al 0,2 %. En la mayoría de los casos, la eficiencia de la edición parece no verse afectada por la inducción, lo que sugiere que las cantidades bajas de Cas9 debido a la expresión con fugas son suficientes para una edición de alta eficiencia. La Figura 9C representa un ejemplo de determinación de la eficiencia de edición para casetes derivados de oligo mediante la secuenciación de los loci genómicos. El casete ga/AT_Y145*_120/17 de las Figuras 9A y 9B se muestra en blanco como referencia. El gráfico de barras indica el número de veces que se observó cada genotipo mediante la secuenciación de colonias genómicas después de la recombinación con cada casete CREATE. El recuadro circular indica la posición relativa de cada gen en el genoma de E. coli. La Figura 9D representa que la distancia entre SPM y el TS (como se ejemplifica en la Figura 8A) está fuertemente correlacionada con la eficiencia de edición (ediciones correctas/total de secuencias muestreadas). Los casetes galK con 44 y 59 bp en la Figura 9B se omitieron de este análisis. Las barras de error representadas se derivan de N=3 réplicas independientes del experimento indicado.
Ejemplo 10- Mutagénesis por saturación de exploración de un gen cromosómico esencial
Las Figuras 10A-10C muestran un ejemplo donde se usó CREATE para generar una biblioteca de mutagénesis por saturación de exploración completa del gen fo1A para la identificación de mutaciones que pueden conferir resistencia a TMP. El puntaje de enriquecimiento promedio ponderado de conteo de dos ensayos de selección se representa gráficamente como una función de la posición del residuo (derecha). Los casetes que codifican mutaciones no sinónimas se muestran en gris y los que codifican mutaciones sinónimas en negro. Los casetes con puntuaciones de enriquecimiento mayores a 1,8 se resaltan en rojo y las mutaciones que afectan a los sitios informados anteriormente se etiquetan como referencia. Las líneas discontinuas indican valores de enriquecimiento que son significativamente diferentes (p<0,05) del conjunto de datos sinónimos según lo determinado por el arranque de los intervalos de confianza. Estos valores se muestran como un histograma como referencia (centro). Las mutaciones que parecen tener un impacto significativo en la resistencia a DHFR se resaltan como esferas rojas en el extremo derecho. Las Figuras 10D-10F representan un ejemplo de análisis de crecimiento de las variantes wt (izquierda) F153W (centro) y F153R (derecha) en el intervalo indicado de concentraciones de TMP (mostrado a la derecha).
Ejemplo 11- Reconstrucción del conjunto de mutaciones ALE e ingeniería avanzada de genotipos termotolerantes
La Figura 11A representa gráficos genómicos de ejemplo de puntuaciones de enriquecimiento para bibliotecas CREATE cultivadas a 42,2 °C en condiciones mínimas de medios. El gráfico más interno ilustra los recuentos de la biblioteca de plásmidos antes de la selección con etiquetas para los 20 representantes principales. El anillo exterior muestra la aptitud de las variantes de biblioteca agrupadas después del crecimiento en medios mínimos a temperatura elevada (42,2 °C). Las barras están coloreadas de acuerdo con el enriquecimiento log2. Las barras azules representan mutaciones perjudiciales, las barras rojas representan mutaciones significativamente enriquecidas y las barras grises indican mutaciones que parecen neutrales en este ensayo. Las 20 variantes más enriquecidas están etiquetadas como referencia y las etiquetas correspondientes a las variantes derivadas de ALE están coloreadas en rojo. La Figura 11B muestra un histograma de puntuaciones de enriquecimiento de todas las variantes de la biblioteca (gris), mutantes derivados de ALE (rojo) y mutantes sinónimos (negro) en condiciones de crecimiento a 42,2 °C. La línea gris punteada indica puntajes de enriquecimiento significativos en comparación con la población sinónima. Los histogramas se normalizan como una fracción del número total de variantes que superan el umbral de recuento (número indicado entre paréntesis). Tenga en cuenta que 231 de 251 casetes ALE no sinónimos únicos muestreados por este experimento parecen proporcionar beneficios de crecimiento significativos. La Figura 11C representa el enriquecimiento de mutaciones en base a la distancia mutacional del wt. Las mutaciones que requieren transiciones de 2 y 3 nucleótidos (nt) son extremadamente raras o están ausentes en los enfoques ALE; sin embargo, observamos que los dos clones más enriquecidos de la selección de la biblioteca agrupada (dirigidos al regulador Crp) requieren dos sustituciones de nucleótidos y se destacan en el extremo derecho.
Ejemplo 12- Mapeo a escala del genoma de sustituciones de aminoácidos para el estudio de resistencia y tolerancia a antibióticos
La Figura 12A representa gráficos genómicos de ejemplo de enriquecimiento (log2) de variantes de la biblioteca en presencia de eritromicina (externa) y rifampicina (central). El gráfico más interno ilustra la distribución de conteo de los plásmidos de entrada como referencia. La coloración y el etiquetado son como en la Figura 11A-11C. La Figura 12B representa el mapeo de la mutación CREATE a nivel de aminoácido individual. Los casetes CREATE que introducen cadenas laterales voluminosas en los aminoácidos 1572, S531 y L533 (rojo) de la subunidad p de la r Na polimerasa (rpoB) están muy enriquecidos en presencia de rifampicina de bibliotecas dirigidas a todo el genoma. La Figura 11C representa una región ampliada del factor de transcripción MarA unido a su diana de DNA afín que se muestra como referencia (PDB ID 1BL0). El residuo wt Q89 sobresale de la interfaz de unión al DNA debido a interacciones estéricas y electrostáticas desfavorables entre esta cadena lateral y el DNA. La sustitución Q89N identificada por selección introduce un donante de H y acorta la cadena lateral de manera que pueden ocurrir enlaces de H productivos entre este residuo y la cadena principal del DNA. Tal interacción probablemente favorece una unión de DNA más fuerte y la inducción de genes de resistencia aguas abajo. La Figura 12D representa el gráfico de enriquecimiento de bibliotecas de direccionamiento de todo el genoma con 10 g/L de acetato o 2 g/L de furfural, respectivamente. La coloración es la misma que en la Figura 11A. La Figura 12E representa el mapeo CREATE a nivel de gen que revela tendencias a nivel de gen. El fuerte enriquecimiento fis meta y fadR dirigido a mutaciones en acetato sugiere funciones importantes para estos genes en la tolerancia al acetato, como se muestra en la Figura 12F, al igual que en las selecciones de furfural que se muestran en la Figura 12E.
Ejemplo 13: Estrategias de diseño flexible habilitadas para CREATE
En las Figuras 13A-13D se representa la ilustración de diseños ejemplos compatibles con la estrategia CREATE. La Figura 13A muestra las aplicaciones de ingeniería de proteínas en las que se adopta un enfoque de codones silenciosos (arriba, véase también las Figuras 8A-8B). Esta estrategia de mutación permite la mutagénesis dirigida de regiones clave de proteínas para alterar características tales como la unión al DNA, las interacciones proteína-proteína, la catálisis o la regulación alostérica. Encima se ilustra una ilustración de una biblioteca de mutagénesis de saturación de unión a DNA diseñada para el factor de transcripción global Fis diseñada para este estudio. La Figura 13B muestra que los sitios PAM de mutaciones del promotor en la proximidad de un sitio de inicio de la transcripción (TSS) especificado, pueden interrumpirse mediante el reemplazo de nucleótidos o casetes de integración. Para simplificar este procedimiento de diseño usado en este estudio, los elementos CAP o UP de consenso se diseñaron para la integración en una ubicación fija con relación al TSS sin tener en cuenta los posibles efectos que estas mutaciones pueden tener en los genes proximales. La Figura 13C muestra un diseño de casete de ejemplo para mutagenizar un sitio de unión a ribosomas (RBS). La Figura 13D representa un ejemplo de un diseño de eliminación simple. Los puntos a y b se incluyen para ilustrar la distancia entre dos sitios en el locus de eliminación del gen. En todos los casos, los diseños de casete interrumpen un PAM objetivo para permitir el enriquecimiento selectivo del mutante diseñado.
Ejemplo 14- Ingeniería de la vía del licopeno
Las Figuras 14A-14B representan ediciones realizadas en la vía DMAPP en E. coli, que es el precursor del licopeno. Se realizaron ediciones en los ORF para 11 genes. Se diseñaron ocho ediciones para mejorar la actividad y 3 ediciones para reducir la actividad de las enzimas competitivas. Se construyeron y seleccionaron aproximadamente 10 000 variantes dentro de la vía del licopeno.
Ejemplo 15- Controles de eficiencia de edición de Cas9
La Figura 15 representa los experimentos de control de edición de Cas9. El casete CREATE galK_120/17 off (las ediciones relevantes se muestran en rojo en la parte inferior) se transformó en diferentes fondos para evaluar la eficiencia de la recombinación homóloga entre el plásmido CREATE y el genoma diana. Las colonias rojas representan variantes genómicas sin editar (wt) y las colonias blancas representan variantes editadas. La transformación en células que contenían solo los plásmidos pSIM5 o pSIM5/X2 y dCas9 no exhibió recombinación detectable como lo indica la falta de colonias blancas. En presencia de Cas9 activo (X2-Cas9 a la derecha) observamos una edición de alta eficiencia (> 80 %), lo que indica los requisitos para la escisión de dsDNA para lograr una edición de alta eficiencia y una cobertura de biblioteca.
Ejemplo 16- Toxicidad de la escisión de gRNA dsDNA en E. coli
Las Figuras 16A-16C representan experimentos que prueban la toxicidad de generar roturas de doble cadena en E. coli. La toxicidad de un solo gRNA cortado en E. coli como se observó en experimentos de control con un gRNA dirigido a galK (secuencia espaciadora TTAACTTTGCGTAACAACGC) o fo1A (secuencia espaciadora GTAATTTTGTATAGAATTTA). En ausencia de una plantilla de reparación, observamos una fuerte destrucción del gRNA. Eficiencias de rescate de 103-104 se observan tras la cotransformación de un oligodonante monocatenario que indica la necesidad de una plantilla de reparación homóloga para aliviar esta toxicidad, b) Toxicidad de múltiples ediciones CREATE. Los sitios objetivos se ilustran gráficamente a la izquierda y en la parte inferior del gráfico de barras. Se usó un control de gRNA no dirigido para estimar la eficiencia de transformación sin modificaciones (extremo izquierdo, sin sitios dianas). Un casete CREATE dirigido a fo1A (verde) o galK (rojo) o una combinación de los dos. Nótese la toxicidad multiplicativa en E. coli de tener gRNA adicionales expresados a partir del mismo plásmido. En este escenario, existe una reparación homóloga para cada sitio, lo que sugiere que la escisión del gRNA fuera del objetivo sería altamente letal. Estos datos sugieren que la escisión fuera del objetivo por un casete CREATE se eliminaría selectivamente de la población al principio de la fase de construcción de la biblioteca.
Las Figuras 16D-16E representan datos de otro ensayo de supervivencia celular de este tipo. El casete de edición contenía una mutación F153R, que conduce a la sensibilidad a la temperatura del gen fo1A. El casete de la grabación contenía un código de barras de 15 nucleótidos diseñado para interrumpir el gen galK, lo que permite la detección de colonias en placas de agar MacConkey. En este ejemplo, generar dos cortes disminuyó la supervivencia celular en comparación con generar cero o un corte.
La Figura 16F representa los datos de un ensayo de transformación y supervivencia que compara un plásmido de bajo número de copias (Ec23) que expresa Cas9 y un plásmido de alto número de copias (MG) que expresa Cas9. Se usaron diferentes vectores con distintos casetes de edición para dirigirse a diferentes sitios objetivo de genes (fo1A, lacZ, xylA y rhaA). Los casetes de grabación se diseñaron para dirigirse a diferentes secuencias dentro del gen galK, ya sea en el sitio SI, S2 o S3. El vector recursivo usado tenía una estructura de vector diferente en comparación con los demás y es parte de un sistema de 3 vectores diseñado para ingeniería iterativa que cura la célula del vector redondo anterior. Los datos indican que una menor expresión de Cas9 (vector Ec23) aumenta la supervivencia y/o la eficiencia de transformación. La disminución de la expresión de Cas9 aumentó la eficiencia de transformación en órdenes de magnitud en células sometidas a dos cortes genómicos (casete de edición y casete grabador).
La Figura 16G muestra la correlación entre la eficiencia de edición y la eficiencia de grabación en células transformadas con el plásmido de bajo número de copias (Ec23) que expresa Cas9 y el plásmido de alto número de copias (MG) que expresa Cas9. Las eficiencias de edición y grabación fueron similares para la expresión alta (MG) y baja (Ec23) de Cas9. El plásmido Ec23 produjo más colonias y tuvo una mejor supervivencia (como se muestra en la Figura 16E), mientras mantenía una alta eficiencia de edición dual (incorporación de casete de edición y de grabación).
Ejemplo 17- Estrategia CREATE para eliminación de genes
Las Figuras 17A-D representan un ejemplo de estrategia CREATE para la eliminación de genes. La Figura 17A representa un diseño de casete de ejemplo para eliminar 100 bp del galK ORF. El HA está diseñado para recombinarse con regiones de homología con el espacio designado, con cada lado de 50 bp de CREATE HA diseñado para recombinarse en el sitio designado (azul). La ubicación del espaciador/PAM (rojo) es proximal a uno de los brazos de homología y se elimina durante la recombinación, lo que permite el enriquecimiento seleccionable del segmento eliminado. La Figura 17B representa la electroforesis de amplicones de PCR cromosómicos de clones recombinados con este casete. La Figura 17C representa el diseño para la eliminación de 700 bp como en a). La Figura 17D representa la PCR de colonias de casetes de eliminación de 700 bp como en la Figura 17B). Los asteriscos en la Figura 17B y 17D indican colonias que parecen tener la eliminación diseñada. Tenga en cuenta que algunos clones parecen tener bandas que pertenecen tanto al wt como al tamaño de las deleciones, lo que indica que la segregación cromosómica en algunas de las colonias es incompleta cuando se sembraron en placas 3 horas después de la recombinación.
Ejemplo 18- Edición de controles de eficiencia por cotransformación de casetes de gRNAy dsDNA lineal
La Figura 18 representa el efecto de la distancia PAM en la eficiencia de edición mediante el uso de amplicones de PCR de dsDNA lineales y cotransformación con un gRNA. A la izquierda hay una ilustración de los experimentos que usan amplicones de PCR que contienen un codón de terminación dual (TAATAA) en un lado (asterisco) y una mutación PAM justo aguas abajo del gen galK (recuadro gris) en el otro extremo, que se cotransformaron con un gRNA dirigido al sitio PAM de galK aguas abajo. Los cebadores se diseñaron de manera que las mutaciones estuvieran a 40 nt del final del amplicón para garantizar suficiente homología para la recombinación. Los datos se obtuvieron de estos experimentos mediante cribado de colonias rojas/blancas. En la parte inferior se muestra un ajuste lineal de los datos. Se incluyeron casetes en los que solo estaba presente la mutación PAM, ya que se observó que los controles del ensayo tenían tasas muy bajas de inactivación de GalK. Estos experimentos se realizaron en una cepa BW25113 de E. coli en la que el gen mutS se inactivó para permitir una edición de alta eficiencia con plantillas de DNA de doble cadena. Este enfoque en MG1655 no logró una edición de alta eficiencia debido al alelo mutS activo.
Ejemplo 19-Análisis y estadísticas de clonación de bibliotecas
La Figura 19A representa las lecturas de una biblioteca de plásmidos de ejemplo después de la clonación de acuerdo con el número total de discrepancias entre la lectura y la secuencia de diseño objetivo. La mayoría de los plásmidos coinciden con el diseño correcto. Sin embargo, hay un gran número de mutantes con indel o desajustes de 4 pares de bases que se observaron en esta población clonada. La Figura 19B representa un gráfico del perfil de mutación para el conjunto de plásmidos en función de la posición del casete. Se observa un aumento en la frecuencia de mutación cerca del centro del brazo de homología (HA), lo que indica un pequeño sesgo de error en la secuenciación o síntesis de esta región. Sospechamos que esto se debe a la presencia de secuencias complementarias al elemento espaciador en el gRNA. La Figura 19C representa un histograma de las distancias entre el PAM y el codón para los casetes CREATE diseñados en este estudio. La gran mayoría (> 95 %) estuvo dentro de las restricciones de diseño probadas en la Figura 9A-9D. La pequeña fracción que está más allá de 60 bp se hizo en los casos donde no había una mutación PAM sinónima en una proximidad más cercana. La Figura 19D representa la cobertura de la biblioteca a partir de la clonación multiplexada de plásmidos CREATE. Los recuentos de secuenciación profunda de cada variante se muestran con respecto a su posición en el genoma. El recuadro muestra un histograma del número de variantes que tienen los recuentos de plásmidos indicados en las bibliotecas clonadas.
Ejemplo 20- Precisión del rastreo de casetes CREATE de poblaciones recombinadas
La Figura 20A representa un gráfico de correlación de las frecuencias de lectura del casete CREATE en la población de plásmidos antes de la exposición a Cas9 (eje x) y después de 3 horas después de la transformación en un fondo de Cas9. La Figura 20B representa un gráfico de correlación entre reacciones de recombinación replicadas después de la recuperación durante la noche. Las líneas grises indican la línea de correlación perfecta como referencia. Los valores R2 y p se calcularon a partir de un ajuste lineal a los datos mediante el uso del paquete de estadísticas Python SciPy. Se aplicó un umbral de conteo de 5 para cada experimento repetido a los datos para filtrar el ruido de cada conjunto de datos.
Ejemplo 21- Características de crecimiento de mutaciones de fo1A en medio mínimo M9
La Figura 21 representa las características de crecimiento de las mutaciones de fo1A en medio mínimo M9. Si bien F153R parece mantener las características de crecimiento normales, la velocidad de crecimiento de la mutación F153W es significativamente más lenta en estas condiciones, lo que sugiere que estas dos sustituciones de aminoácidos en el mismo sitio tienen efectos muy diferentes en la aptitud del organismo, presumiblemente debido a los diferentes cambios invocados en la estabilidad/dinámica de esta proteína.
Ejemplo 22: Perfiles de enriquecimiento para casetes fo1A CREATE en medios mínimos
La Figura 22 representa los perfiles de enriquecimiento para casetes fo1A CREATE en medios mínimos. Los casetes que codifican HA sinónimos se muestran en negro y los casetes no sinónimos en gris, las líneas discontinuas indican puntuaciones de enriquecimiento con una significancia de p<0,05 en comparación con la media de la población sinónima estimada a partir de un análisis de arranque. La puntuación de enriquecimiento observada para cada casete mutante en cada posición de la secuencia de proteína se muestra a la izquierda y un histograma de estas puntuaciones de enriquecimiento como una fracción de las variantes totales a la derecha. Las dos poblaciones parecen ser en gran medida similares. Los residuos conservados que son altamente nocivos se muestran en azul como referencia.
Ejemplo 23- Validación de mutaciones acrB recientemente identificadas para mejorar la tolerancia a solventes y antibióticos
La Figura 23A representa a la izquierda una descripción general global de la bomba de eflujo AcrB. Los sustratos ingresan a la bomba a través de las aberturas en el espacio periplásmico y se extruyen a través del complejo AcrB/AcrA/TolC a través de la membrana externa y hacia el espacio extracelular. Los residuos diana de la biblioteca están resaltados con esferas azules como referencia y el punto rojo indica la región donde se agruparon muchas de las variantes enriquecidas. A la derecha hay una ampliación del motivo bucle-hélice que linda con el embudo central donde se identificaron mutaciones enriquecidas en isobutanol (esferas rojas y verde azulado), que presumiblemente afectan el transporte de solutos desde el espacio periplásmico. Los mutantes dirigidos a la posición T60 (esferas verde azulado) también se enriquecieron en presencia de eritromicina. La Figura 23B representa la confirmación de las mutaciones N70D y D73L para la tolerancia al isobutanol. La mutación N70D en particular parece mejorar la OD final en un grado significativo.
Se midió la OD final de las cepas reconstruidas en tubos eppendorf de 1,5 mL tapados después de 48 horas de incubación. Las barras de error se derivan de N=3 ensayos y los valores de p se derivan de una prueba T de una cola. La Figura 23C representa un crecimiento mejorado del mutante AcrB t 60N que se observó en concentraciones inhibidoras de eritromicina (200 pg/mL) e isobutanol (1,2 %) en una placa de 96 pocillos agitada, lo que indica que esta mutación puede potenciar la actividad de eflujo de esta bomba hacia muchos compuestos. Para estos experimentos, los diseños de casetes CREATE se sintetizaron individualmente, se clonaron y se verificaron las secuencias antes de recombinarlos en E. coli MG1655 para reconstruir las mutaciones y las modificaciones genómicas fueron secuenciadas por PCR de colonias para confirmar la asociación genotipo-fenotipo.
Ejemplo 24- Beneficios de la mutagénesis racional para el muestreo de nuevos genotipos adaptativos
Las Figuras 24A-24D representan el número de variantes detectadas en los experimentos CREATE que involucran 500 pg/mL de rifampicina (Figura 24A), 500 pg/mL de eritromicina (Figura 24B), 10 g/L de acetato (Figura 24C) y 2 g/L de furfural (Figura 24D). Si bien los sistemas que evolucionan naturalmente o la PCR propensa a errores están muy sesgados hacia el muestreo de polimorfismos de un solo nucleótido (por ejemplo, mutaciones de 1 nt, rojo), estos histogramas ilustran las posibles ventajas de los enfoques de diseño racional que pueden identificar mutaciones raras o inaccesibles (2 y 3 nt, verde y azul respectivamente). Por ejemplo, las soluciones de aptitud más alta parecen estar sesgadas hacia estas raras mutaciones en las selecciones de rifampicina, eritromicina y furfural en diversos grados. Estos resultados indican que los procedimientos tales como CREATE deberían permitir un análisis más rápido y riguroso de las mutaciones que mejoran la aptitud, de la misma manera que se usan enfoques computacionales para mejorar la evolución dirigida para la ingeniería de proteínas.
Ejemplo 25- Reconstrucción de mutaciones identificadas por selección con eritromicina
La Figura 25 representa cepas reconstruidas cultivadas en 0,5 mL en tubos eppendorf de 1,5 mL tapados después de 48 horas de incubación en presencia de 200 pg/mL de eritromicina y medidas finales de OD evaluadas. Las barras de error se derivan de N=3 ensayos. Se realizó una prueba T de una cola en cada conjunto de mediciones para determinar los valores de p indicados para la significancia del beneficio del crecimiento.
Ejemplo 26- Validación de la mutación Crp S28P para furfural o tolerancia térmica
La Figura 26A representa una estructura cristalina de la proteína reguladora Crp con variantes identificadas por selección de furfural resaltadas en rojo (PDB ID 3N4M). Varios diseños CREATE dirigidos a residuos cerca del sitio de unión del AMP cíclico (aa. 28-30, 65) de este regulador se enriquecieron mucho en selecciones mínimas de medios para furfural o tolerancia térmica, lo que sugiere que estas mutaciones pueden mejorar el crecimiento de E. coli en medios mínimos bajo una variedad de condiciones de estrés. La Figura 26B representa la validación del mutante Crp S28P identificado en selecciones de 2 g/L de furfural en medio M9. Este mutante se reconstruyó como se describió para AcrB T60S en el Ejemplo 23.
Ejemplo 27- Mapeo de la relación entre la secuencia y la actividad a escala del genoma con una resolución de un solo nucleótido
Los avances en la síntesis y secuenciación del DNA han motivado esfuerzos cada vez más complejos para programar racionalmente modificaciones genómicas en escalas de tiempo de laboratorio. La realización de tales esfuerzos requiere estrategias que abarquen el ciclo de ingeniería avanzada de diseño-construcción-prueba no solo con la generación de manera precisa y eficiente de grandes cantidades de diseños mutantes, sino también con el mapeo de los efectos de estas mutaciones en rendimientos similares. La ingeniería del genoma rastreable habilitada para CRISPR (CREATE) acopla la edición CRISPR altamente eficiente con la síntesis masiva de oligómeros en paralelo para permitir la edición de precisión rastreable a gran escala del genoma. Esto se puede lograr mediante el uso de casetes sintéticos que vinculan un RNA guía de orientación con casetes de reparación homólogos racionalmente programables que se pueden diseñar sistemáticamente para editar loci en un genoma y rastrear sus efectos fenotípicos. Demostramos la flexibilidad y la facilidad del uso de CREATE para la ingeniería del genoma mediante el mapeo paralelo de las relaciones secuencia-actividad para aplicaciones que van desde la mutagénesis de saturación del sitio, la ingeniería racional de proteínas, las bibliotecas completas de sustitución de residuos y la reconstrucción de experimentos de evolución de laboratorio adaptativos anteriores.
Validación del diseño del casete CREATE
Para lograr nuestros objetivos de ingeniería, tuvimos en cuenta una serie de consideraciones de diseño clave para maximizar la eficiencia de edición así como también convertir un proceso de diseño complejo en un flujo de trabajo fácilmente ejecutable. Por ejemplo, cada casete CREATE está diseñado para incluir un RNA guía de orientación (gRNA) y un brazo de homología (HA) que introduce mutaciones racionales en el sitio de escisión cromosómica (por ejemplo, Figura 8A). El HA codifica tanto la edición genómica de interés junto con una mutación PAM sinónima que está diseñada para anular la escisión de Cas9 después de la reparación (por ejemplo, Fig. 8B). Este arreglo no solo garantiza que Cas9 pueda enriquecer selectivamente la edición deseada a altos niveles, sino también que las secuencias necesarias para guiar la escisión y el HR se acoplen covalentemente durante la síntesis y, por lo tanto, se suministren simultáneamente a la misma célula durante la transformación. La edición de alta eficiencia de la selección basada en CRISPR en E. coli también debería garantizar una fuerte correlación entre el plásmido CREATE y las secuencias genómicas y permitir que la secuencia del plásmido sirva como código de barras de transacción o proxy para la edición genómica (por ejemplo, Figura 8C). Suponiendo que los cambios en la frecuencia del plásmido bajo diferentes presiones selectivas se correlacionan con su edición genómica asociada, permite de esta manera monitorear en paralelo el impacto de modificaciones genómicas precisas en muchos loci mediante el uso de un enfoque simple de secuenciación aguas abajo para mapear genotipos enriquecidos en una escala de población, análogo a metodologías previas de rastreo genómico.
Para probar este concepto, primero realizamos experimentos de control mediante el uso de un casete CREATE diseñado para inactivar el gen galK introduciendo una mutación de punto único para convertir el codón 145 de TAT a un codón de terminación TAA (por ejemplo, Figura 8B) mediante el uso de un HA de 120 bp. La eficiencia de edición de este casete mediante el uso de Cas9 y el control dCas9 deficiente en nucleasa se evaluó mediante el uso de un ensayo de detección de colonias rojas/blancas (por ejemplo, Figuras 8A-B, Figuras 15A-15C). Estos experimentos también indicaron que la HR entre un plásmido de doble cadena circular y el cromosoma depende fuertemente de la escisión de Cas9 ya que no se observa recombinación en ausencia de la enzima activa (por ejemplo, Figuras 15A-15D). Esto contrasta con los enfoques de recombinación monocatenarios en los que los oligonucleótidos se hibridan con alta eficiencia en la cadena rezagada de la horquilla de replicación. La Cas9 también tiene un impacto adverso en la eficiencia de transformación general debido a la toxicidad de la escisión de dsDNA en E. coli (por ejemplo, Figuras 9A-9D). Esta toxicidad se exacerba aún más cuando se realiza CREATE en dos sitios simultáneamente en la misma célula (por ejemplo, Figuras 16A-16E); que, cuando se combina con la ausencia de una vía de unión de extremos no homóloga efectiva, respalda firmemente el hecho de que los eventos de edición fuera del objetivo deberían ser raros dentro de una biblioteca recombinada. Adicionalmente, la toxicidad limita el tamaño de la construcción y la cobertura de la biblioteca, sin embargo, notamos que las 104-105 variantes/pg de DNA observadas (por ejemplo, la Figura 9A) está en una escala compatible con las capacidades actuales de síntesis de oligo (104-5 oligos por pedido). Por lo tanto, anticipamos que mediante el uso del diseño de oligos sintéticos CREATE, podríamos generar simultáneamente ~105 o más mutaciones de diseño en cualquier ubicación del genoma y mapear con precisión dichas mutaciones en un fenotipo objetivo.
Para caracterizar aún más cómo los cambios en el diseño del casete CREATE influyen en la eficiencia de edición, variamos la longitud del HA (80-120 bp) y la distancia entre el codón PAM/TS (17-59 bp) (por ejemplo, Figura 9B). La inducción de Cas9 reveló que todas estas variantes de casetes pueden soportar alta eficiencia de HR. También se observa conversión de alta eficiencia en ausencia de inducción de Cas9, lo que indica que la expresión de bajo nivel de Cas9, debido a un promotor inducible con fugas, es suficiente para impulsar la escisión y la HR (por ejemplo, Figura 9B). Para verificar que las ediciones coincidieran con nuestro diseño previsto, secuenciamos el cromosoma de clones elegidos aleatoriamente y descubrimos que el 71 % (27/38) contenía una coincidencia perfecta con el diseño CREATE, mientras que el 26 % (10/38) contenía solo la edición PAM y el 3 % restante (1/38) parecían escape del wt. Como prueba adicional de la flexibilidad del diseño, realizó experimentos similares mediante el uso de casetes de eliminación que introducen deleciones de diferentes tamaños (por ejemplo, Figuras 17A-17D) y observó eficiencias similares (>70 %) lo que indican que las mismas capacidades de seguimiento y automatización del diseño deberían extenderse fácilmente a una variedad de los objetivos de diseño (por ejemplo, Figuras 13A-13D).
Diseño de alto rendimiento y construcción de bibliotecas multiplexadas
Para escalar el proceso CREATE para aplicaciones de todo el genoma, desarrollamos un software personalizado para automatizar el diseño de casetes que tiene en cuenta los criterios mencionados anteriormente para identificar sistemáticamente una secuencia PAM más cercana a un sitio diana (TS) de interés y modificarla para crear una mutación PAM sinónima. Este software de diseño es parte de un conjunto de herramientas de diseño basadas en la web que se pueden implementar para E. coli y se está desarrollando para otros organismos, así como también para un conjunto ampliado de sistemas CRISPR-Cas. Esta plataforma de software permite un diseño racional de alto rendimiento de bibliotecas genómicas en un formato que es compatible con la síntesis de oligos basada en matriz paralelizada y métodos de clonación basados en homología simple que se pueden realizar en lotes para la construcción de bibliotecas (por ejemplo, Figura 8B).
Mediante el uso de este software de diseño, generamos un total de 52 356 casetes CREATE para un intervalo de aplicaciones donde el mapeo de secuencia a actividad por métodos tradicionales llevaría mucho tiempo y sería prohibitivamente costoso. Brevemente, los diseños de la biblioteca incluyeron: 1) una saturación completa del gen fo1A para mapeartodo el panorama mutacional de un gen esencial en su contexto cromosómico 2) mutagénesis por saturación de residuos funcionales en 35 reguladores globales, bombas de eflujo y enzimas metabólicas implicadas en una amplio intervalo de fenotipos de tolerancia y producción en E. coli 3) una reconstrucción del conjunto completo de mutaciones no sinónimas identificadas por un reciente estudio de evolución adaptativa de laboratorio (ALE) de termotolerancia, y 4) bibliotecas de ingeniería de promotores diseñadas para incorporar elementos UP o elementos de unión a CAP en los sitios de inicio de la transcripción anotados en RegulonDB (por ejemplo, Figuras 13A-13D).
Las bibliotecas de oligonucleótidos agrupados se amplificaron y clonaron en paralelo y se aisló un subconjunto de variantes individuales para caracterizar aún más la eficiencia de edición en diferentes loci (por ejemplo, Figura 9C). La amplificación y la secuenciación de los loci genómicos después de la transformación con los plásmidos CREATE revelaron eficiencias de edición del 70 % en promedio (106 de 144 clones muestreados en siete loci diferentes), con un intervalo del 30 % para el casete metA_V20L al 100 % para el casete rpoH_V179H. Curiosamente, las diferencias en la eficiencia de edición para cada casete estaban altamente correlacionadas con la distancia entre el PAM y el codón diana (por ejemplo., Figura 9D), una característica que también parece afectar la capacidad de las plantillas de DNA lineal para introducir mutaciones dirigidas efectivas (por ejemplo, Figuras 18A-18B). Esta relación sugiere que los diseños posteriores de CREATE deberían aumentar fácilmente la eficiencia de edición mediante la optimización de los criterios de selección de PAM. También notamos que las diferencias en la eficiencia de edición pueden reflejar los efectos perjudiciales de algunas mutaciones en la aptitud del organismo (metA se considera un gen esencial en la mayoría de las condiciones de los medios), y que puede haber un límite superior en el número de mutaciones que se pueden observar para una proteína particular. Finalmente, estos datos se obtuvieron fuera de cualquier etapa selectiva o de detección específica que enriquezca mutantes cromosómicos de interés y, como tal, demuestra la capacidad de este enfoque para construir bibliotecas mutacionales.
Para caracterizar aún más la fidelidad de la síntesis multiplexada y los procedimientos de clonación, realizamos una secuenciación profunda en las bibliotecas agrupadas (por ejemplo, Figuras 19A-D). De las 594998 lecturas totales de las bibliotecas de casetes CREATE clonadas, 550 152 (92 %) pasaron el filtrado de calidad y produjeron aciertos en la base de datos de diseño. De estos, observamos una coincidencia perfecta para 34 291 (65 %) de las posibles variantes únicas y notamos que muchos casetes que faltaban en este grupo inicial se observaron en selecciones posteriores, lo que sugiere que en la etapa de clonación podemos cubrir fácilmente la mayoría de los espacio de diseño previsto. Un análisis en profundidad de estas lecturas reveló que el 46 % de las lecturas que pasaban el filtro de calidad eran coincidencias exactas con su diseño previsto, y el resto contenía indeles o discrepancias de 1-4 bp, principalmente en la región HA cerca del sitio de mutación diseñado (por ejemplo, Figura 19A). El sesgo mutacional en esta región sugiere que los elementos espaciadores repetitivos en las porciones de HA y gRNA del casete pueden formar estructuras secundarias que afectan negativamente a la secuenciación o la síntesis (por ejemplo, Figura 19B). Observamos que estos diseños variantes se identifican fácilmente a través de la estrategia de código de barras de plásmidos CREATE y que, en algunos casos, es posible que desee tener esta diversidad adicional en la biblioteca generada. También observamos una correlación significativa (p<0,05) entre las frecuencias variantes de los grupos clonados y después de la recuperación durante la noche después de la recombinación, así como también entre los experimentos de recombinación replicados (por ejemplo, Figuras 20A-20B). Estos resultados sugieren que las variantes bien representadas deben rastrearse fácilmente mediante nuestra metodología con una precisión similar a los procedimientos anteriores de mutagénesis de saturación basados en CRISPR realizados en un solo loci.
Ingeniería de proteínas basada en CREATE
Para probar la solidez de la metodología CREATE para la ingeniería de proteínas a nivel de un solo gen, realizamos una mutagénesis de exploración profunda del gen fo1A esencial. Este gen codifica la enzima dihidrofo1Ato reductasa (DHFR) responsable de la producción de tetrahidrofo1Ato y la biosíntesis de pirimidinas, purinas y ácidos nucleicos. La DHFR también es la diana principal del antibiótico trimetoprim (TMP) y otros antifo1Atos que se usan como antibióticos o quimioterapéuticos. La gran cantidad de datos estructurales y bioquímicos de la función de la DHFR y la resistencia a los antibióticos lo convierten en un modelo ideal para la validación del enfoque.
Una biblioteca CREATE diseñada para saturar cada codón del 2-158 de la enzima DHFR se recombinó en E. coli MG1655 y se dejó recuperar durante la noche. Después de la recuperación ~ 109 células (cultivo saturado de 1 mL) se transfirieron a medios que contenían concentraciones inhibidoras de TMP y se dejaron crecer durante 48 horas. A continuación, se secuenciaron las poblaciones de plásmidos resultantes para evaluar nuestra capacidad de capturar información a nivel de sustituciones de aminoácidos individuales que pueden conferir resistencia a TMP (por ejemplo, Figuras 10A-10B). Los intervalos de confianza de arranque para el efecto mutacional se derivaron mediante el uso de los datos de enriquecimiento de las 158 mutaciones sinónimas incluidas en este experimento (por ejemplo, Figuras 10A-10B). Mediante el uso de este criterio, observamos niveles significativos (P<0,05) de enriquecimiento para 74 sustituciones (2,3 % del espacio de diseño) que cubren 49 posiciones de aa en la proteína. Aunque este grado de flexibilidad mutacional de una enzima esencial puede parecer contrario a la intuición, respalda las conclusiones anteriores de que esta enzima no ha alcanzado su óptimo evolutivo y que muchas mutaciones pueden mejorar la tolerancia a TMP a través de la mejora de la actividad enzimática endógena o la alteración del panorama de plegamiento dinámico de esta enzima.
Estos resultados también soportan el hecho de que investigamos más profundamente el espacio de mutación de las variantes de aptitud mejorada mediante el uso de estrategias de mutagénesis racional. Por ejemplo, observamos 7 sustituciones significativamente enriquecidas en la posición F153 (por ejemplo, Figuras 10A-10B), ninguna de las cuales se identificó previamente mediante PCR propensa a errores y evolución de laboratorio adaptativa (ALE). Para validar estas mutaciones específicas, reconstruimos las variantes F153R y F153W, que no se habían informado previamente en la literatura y abarcaban un amplio intervalo de la escala de enriquecimiento medida en esta posición (por ejemplo, Figuras 10D-10F). Confirmamos que el mutante F153R altamente enriquecido crece rápidamente en un amplio intervalo de concentraciones de TMP, mientras que el mutante F153W muestra crecimiento solo en la concentración moderada de TMP usada en la selección, en consistencia con sus puntuaciones de enriquecimiento respectivas (por ejemplo, Figuras 10A-10F). Además, 6 de las 7 mutaciones que identificamos mediante el uso de CREATE requieren dos cambios de nucleótidos para convertir el codón TTT de wt en uno de los aminoácidos observados (I: 1 nt, W: 2 nt, D: 2 nt, R: 2 nt, P: 2 nt, M: 2 nt, H: 2 nt). Las mutaciones F153R y F153Wtambién parecen afectar la actividad de la enzima nativa de formas distintas (por ejemplo, Figura 21), lo que implica que estas sustituciones pueden conferir tolerancia al alterar el ciclo enzimático de esta enzima de formas distintas.
Además de mapear las sustituciones que confieren resistencia a TMP, también intentamos identificar sustituciones que afectan la actividad nativa de la DHFR. Para hacerlo, comparamos las frecuencias de cada variante de plásmido después del crecimiento durante la noche en M9 (por ejemplo, Figuras 22A-22C). En este caso, observamos perfiles de enriquecimiento general similares para conjuntos de mutaciones sinónimas y no sinónimas, y que muy pocas mutaciones tenían un impacto significativo en el crecimiento. Este resultado inesperado sugiere la necesidad de una mayor profundidad de secuenciación y/o estrategias de selección alternativas para asignar una alta confianza a las variantes de baja aptitud.
Como una validación independiente de las aplicaciones de ingeniería de proteínas, generamos una biblioteca de 4240 variantes dirigida a la bomba de eflujo de múltiples fármacos AcrB en E. coli (por ejemplo, Figuras 23 A-23F). Esta proteína actúa como una bomba de intercambio de protones que exporta una amplia variedad de productos químicos, incluidos antibióticos, mutágenos químicos y alcoholes de cadena corta que se buscan como biocombustibles de próxima generación y que motivan numerosos esfuerzos de ingeniería. La biblioteca se diseñó para dirigirse a la cámara interior, el embudo de salida que canaliza los sustratos hacia el componente de la membrana externa del complejo AcrB/AcrA/TolC y las regiones clave del dominio transmembrana donde se han identificado mutaciones que confieren tolerancia al isobutanol y a los alcoholes de cadena más larga (por ejemplo, Figuras 23A-23C). Luego construimos la biblioteca AcrB CREATE de manera idéntica a la biblioteca Fo1A y cultivamos la biblioteca en presencia de isobutanol al 1,2 %. La secuenciación identificó múltiples mutaciones en el motivo bucle-hélice adyacente al embudo de eflujo central que se enriquecieron significativamente, lo que sugiere que esta subestructura puede proporcionar una nueva diana para la actividad de eflujo mejorado por ingeniería. La reconstrucción de las mutaciones AcrB N70D y D73L también confirmó la capacidad de estas mutaciones para potenciar el crecimiento global en presencia de estrés por este solvente (por ejemplo, Figura 23D).
Evaluación paralela de la aptitud del genotipo a partir de estudios de adaptación a gran escala
A continuación, buscamos expandir nuestros esfuerzos desde la escala de una sola proteína y validar el uso de CREATE a escala del genoma. Para hacerlo, elegimos reconstruir y mapear mutaciones resultantes de un estudio previo de evolución de laboratorio adaptativo de la tolerancia térmica de E. coli. ALE se ha usado ampliamente como una herramienta para estudiar la adaptación bacteriana en respuesta a un amplio intervalo de factores estresantes ambientales. Sin embargo, en la mayoría de los casos, el genoma se somete a múltiples mutaciones, lo que dificulta evaluar la contribución de cada mutación al fenotipo en cuestión. Aquí, diseñamos y construimos una biblioteca CREATE para incluir los 645 mutantes no sinónimos del experimento ALE de Tenailon y otros y luego sometimos esta biblioteca a una selección de crecimiento en medios mínimos a 42,2 °C. Para evaluar los posibles efectos que podrían surgir de la mutación PAM sinónima, incluimos redundancia en el diseño de esta biblioteca, de manera que cada codón objetivo se acopló a dos mutaciones PAM diferentes para proporcionar una redundancia de diseño de 4 veces para cada mutación no sinónima. Con fines de calibración, la biblioteca ALE se agrupó con las bibliotecas dirigidas a proteínas para permitir comparaciones de enriquecimiento relativo de las bibliotecas no derivadas de ALE como punto de referencia (por ejemplo, Figuras 11A-11C). De los más de 50000 casetes en este experimento, observamos 405 casetes de la biblioteca derivada de ALE por encima del umbral de conteo mínimo, pertenecientes a 252 variantes únicas (por ejemplo, Figura 1B). De estos 346 casetes (que codifican 231 cambios no sinónimos) se enriquecieron significativamente en comparación con los controles sinónimos (por ejemplo, Figura 1B), lo que sugiere que el 92 % (231/252) de las mutaciones muestreadas confieren importantes ventajas de crecimiento selectivo como mutaciones cromosómicas individuales, en consistencia con su fijación durante el crecimiento adaptativo. Además, encontramos que 141 mutaciones de las bibliotecas CREATE adicionales también se enriquecieron significativamente, con 86 de estos residuos dirigidos en o alrededor del sitio de unión de cAMP de Crp, un regulador central del metabolismo del carbono. La identificación de un número tan grande de mutantes de Crp es altamente sugestivo de un papel para Crp en la tolerancia térmica de acuerdo con hallazgos previos.
Para cada mutante, también calculamos el número de mutaciones requeridas para convertir el codón wt en cada uno de los otros 19 aminoácidos (por ejemplo, Figura 11C). Al igual que con fo1A, descubrimos que las mutaciones de alto impacto, como las mutaciones crp S28P y L30Y, requieren más de una sustitución de un solo nucleótido y, por lo tanto, serían inaccesibles o extremadamente raras en sistemas que evolucionan naturalmente en escalas de tiempo de laboratorio. De hecho, este parecía ser un tema recurrente en muchas de las selecciones que realizamos (por ejemplo, Figuras 24A-24D) que destaca nuevamente el valor de las estrategias de búsqueda impulsadas por DNA sintético para aplicaciones de ingeniería genómica.
Mapeo de alto rendimiento de ediciones de precisión seleccionables a gran escala del genoma
Para validar aún más el método para el mapeo y la exploración a escala del genoma, desafiamos las bibliotecas de orientación de todo el genoma con antibióticos o solventes relevantes para la bioproducción (por ejemplo, Figuras 12A-12F). En el caso de las selecciones realizadas con rifampicina, un antibiótico que inhibe la transcripción por la RNA polimerasa (por ejemplo, Figura 12A, círculo interior), observamos una serie de variantes enriquecidas que destacaron la solidez del enfoque CREATE para el mapeo de resolución atómica. Por ejemplo, 10 de los 50 resultados principales identificaron mutaciones en los residuos 1572, L533 y S531 de la subunidad P de la RNA polimerasa (codificada por rpoB), incluidas variantes que forman parte del sitio de unión de la rifampicina (por ejemplo, Figura 12B). En 6 de las 7 variantes enriquecidas, los datos sugieren que es necesaria una sustitución voluminosa para impedir estéricamente la unión de 7 rifampicina. Además de las mutaciones de la subunidad P, las selecciones de rifampicina enriquecieron varias mutaciones en el activador transcripcional MarA, cuya sobreexpresión debido a la inactivación de marR es un aspecto bien estudiado de los fenotipos de resistencia a antibióticos múltiples (MAR) en E. coli. En la estructura cristalina unida al DNA de MarA, Q89 se coloca cerca de la cadena principal del DNA pero apunta hacia la solución debido a un choque estérico entre otros posibles rotámeros y el grupo fosfato más cercano en la cadena principal del DNA (por ejemplo, Figura 12C). El modelado de las mutaciones MarA Q89N y Q89D identificadas por esta selección sugiere que el acortamiento de la cadena lateral en una sola unidad de carbono puede permitir nuevas interacciones de enlaces H entre proteína y DNA y, de esta manera, mejorar la respuesta general de inducción de MAR.
Para comparar estos resultados con un antibiótico que interfiere con la traducción, realizamos otra ronda de selecciones en presencia de eritromicina (por ejemplo, círculo exterior Figura 12A). Los perfiles de enriquecimiento de esta selección nuevamente destacaron loci previamente implicados en la resistencia a este antibiótico. Por ejemplo, observamos un fuerte enriquecimiento de 4 mutaciones diferentes en la bomba de eflujo AcrB que actúa como exportador principal de este fármaco desde el espacio periplásmico (por ejemplo, Figura 12A). Curiosamente, una de las variantes (AcrB T60N) aparece en el mismo residuo identificado a partir de selecciones de isobutanol (por ejemplo, Figuras 23A-23F). Al igual que con las otras mutaciones, la reconstrucción validó que al menos dos de estas mutaciones (por ejemplo, T60N en las Figuras 23E-23F y
D73L en la Figura 25) puede mejorar significativamente la tolerancia tanto a la eritromicina así como también al isobutanol, lo que respalda aún más la idea de que este motivo puede proporcionar un objetivo de ingeniería útil para un amplio intervalo de fenotipos de tolerancia. Además de AcrB, también observamos el enriquecimiento de múltiples mutantes soxR y rpoS, ambos previamente implicados en la tolerancia al estrés y los fenotipos generales de resistencia a los antibióticos. En total, observamos que 136 de las 341 mutaciones significativamente enriquecidas (40 %) se identificaron dentro de las proteínas RpoB, MarA, MarR, SoxR, AcrB o dxs, cada una de las cuales tiene una extensa validación previa como genes de resistencia a los antibióticos.
Finalmente, realizamos selecciones mediante el uso de furfural o acetato, componentes comunes del hidrolizado celulósico que inhiben el crecimiento bacteriano en condiciones de fermentación industrial y, por lo tanto, son el objetivo de muchos esfuerzos de ingeniería de cepas (por ejemplo, Figuras 12D-12F). En presencia de altas concentraciones de acetato (10 g/L, por ejemplo, diagrama interno de la Figura 12D), las 100 primeras mutaciones de clasificación fueron predominantes por casetes dirigidos a los genes fis, fadR, rho y fnr respectivamente (por ejemplo, Figura 12E). Los reguladores Fis, Fnr y FadR están todos involucrados en la regulación transcripcional del gen acs de utilización del acetato primario, y están implicados en el llamado "interruptor de acetato" que permite a la célula eliminar el acetato de manera efectiva. La inactivación de estos reguladores conduce a la expresión constitutiva de las vías de utilización del acetato y los fenotipos de crecimiento de acetato mejorados, lo que sugiere que las mutaciones identificadas en este estudio (por ejemplo, Figuras 12E-12F) probablemente inhiban estas funciones reguladoras al desestabilizar sus respectivas dianas proteicas.
Por el contrario a la tolerancia ácida débil del acetato, los perfiles de enriquecimiento obtenidos con la presencia de concentraciones inhibidoras del crecimiento de furfural (2 g/L) fueron significativamente diferentes con las mutaciones observadas con mayor frecuencia dirigidas al regulador de la respuesta al estrés oxidativo rpoS (por ejemplo, Figura 12F). Se cree que la inhibición del crecimiento de furfural ocurre a través del agotamiento de las reservas celulares de NADPH, un cofactor importante en la prevención del estrés oxidativo y las vías anabólicas para el crecimiento celular. De acuerdo con nuestros hallazgos, estudios previos de RpoS han demostrado que los alelos inactivos se ven favorecidos en tales escenarios de agotamiento de nutrientes. Curiosamente, también observamos algunas de las mismas mutaciones en crp que se observaron en las selecciones a 42,2 °C (por ejemplo, Figuras 11A y 11C) y tras la reconstrucción confirmamos que el mutante Crp S28P puede mejorar sustancialmente el crecimiento en presencia de furfural (por ejemplo, Figuras 26A-26B). También encontramos que esta selección se enriqueció de forma única para las variantes de la transhidrogenasa PntA, una transhidrogenasa unida a la membrana que transfiere iones de hidruro de NADH a NADP+ para mantener reservas suficientes para el anabolismo. Por lo tanto, una mutación en 1258A muy próxima a la hendidura de unión al sustrato puede impartir una mayor producción de NADPH.
Colectivamente, estas selecciones validan la estrategia CREATE al demostrar la capacidad de mapear asociaciones conocidas así como también el poder de este método para el mapeo rápido de mutaciones nuevas a rasgos de interés. También es importante tener en cuenta que, por el contrario a diferencia de la mayoría de las otras tecnologías de genómica funcional que identifican principalmente mutaciones de pérdida de función, la capacidad de realizar una mutagénesis de exploración a gran escala abre la puerta a búsquedas genómicas más generales que también pueden identificar nuevas mutaciones de ganancia de función.
En este trabajo hemos demostrado que CREATE permite el mapeo paralelo de decenas de miles de mutaciones de aminoácidos y promotores en un solo experimento. La construcción, selección y mapeo de >50 000 mutaciones de todo el genoma (por ejemplo, Figuras 11A-11C y 12A-12F) puede, en algunos ejemplos, llevarse a cabo en 1-2 semanas por un solo investigador, lo que ofrece una mejora de órdenes de magnitud en la economía, el rendimiento, y escala de destino sobre los métodos actuales de vanguardia en biología sintética. Es importante destacar que la capacidad de rastrear el enriquecimiento de las variantes de la biblioteca permite multiplexar la secuencia en el mapeo de la actividad mediante un flujo de trabajo simple basado en PCR mediante el uso de solo un conjunto de cebadores en oposición a enfoques de secuenciación posteriores más complicados que se limitan a unas pocas docenas de loci. Además, la capacidad de mapear los efectos de la variación del nivel de un solo nucleótido o aminoácido en regiones codificantes o promotores permite a CREATE abordar un conjunto considerablemente más diverso de objetivos de diseño que las tecnologías genómicas de alto rendimiento anteriores, tales como la recombinación multiplexada rastreable (TRMR) o enfoques Tn-seq que se limitan al análisis de resolución de genes. Tales capacidades permiten nuevos paradigmas para descifrar la función de los genes y la ingeniería de rasgos celulares, incluidos los flujos de trabajo en los que se podrían implementar rondas iterativas de CREATE para realizar la ingeniería del genoma impulsada por el diseño y abordar un amplio intervalo de ambiciones.
En particular, como una distinción adicional de los enfoques anteriores, la mutagénesis de alta eficiencia (por ejemplo, Figuras 9A-9D) informada en este trabajo no solo mejoró en un orden de magnitud, sino que también se logró en una cepa MG1655 de tipo salvaje en la que todo el DNA nativo las vías de reparación están intactas. La mayoría de los esfuerzos de recombinación informados anteriormente en E. coli han usado ingeniería de oligos monocatenarios que requiere la eliminación de los genes de reparación de errores de emparejamiento u oligonucleótidos modificados químicamente para lograr la mutagénesis con una eficiencia del 1-30 %. La combinación de sustratos de recombinación homóloga basados en plásmidos y la escisión del dsDNA Cas9 parece eludir estos requisitos (por ejemplo, Figuras 13A-13D y Figuras 9A-9D), eliminando la necesidad de modificaciones genéticas especializadas fuera de los genes Cas9 y k-RED para realizar una edición eficiente y seguimiento en una escala de población (por ejemplo, Figuras 9A-9D). Este hecho, junto con la amplia utilidad de la edición CRISPR, sugiere que el enfoque CREATE se trasladará fácilmente a un amplio intervalo de microorganismos tales como Saccharomyces cerevisiae y otras bacterias recombinogénicas para las que se encuentran disponibles protocolos de transformación de alta eficiencia. La estrategia CREATE también debe ser compatible con un amplio intervalo de sistemas CRISPR/Cas que usan enfoques de automatización similares para el diseño y el seguimiento. Sin embargo, la extensión de esta metodología a eucariotas superiores requerirá el desarrollo de estrategias para superar la unión de extremos no homólogos, así como también sistemas de seguimiento alternativos que puedan replicarse de manera estable.
La estrategia CREATE proporciona un enfoque simplificado para el mapeo de la secuencia a la actividad y la evolución dirigida mediante la integración de la síntesis de oligos multiplexados, la edición CRISPR-CAS y la secuenciación de alto rendimiento.
Ejemplo 28- Mapeo de la relación entre la secuencia y la actividad a escala del genoma con resolución de un solo nucleótido, ejemplos adicionales
Posibles efectos del mapeo inconsistente del código de barras del plásmido a la edición genómica
Notamos que la biblioteca CREATE inicial incluía diseños que esperaríamos que tuvieran un mapeo de baja confianza entre el código de barras del plásmido y la edición genómica (como se explica principalmente por la distancia entre el PAM y la mutación diana en el casete CREATE, vea la Figura 2d). Describimos más abajo los diversos escenarios que pueden surgir en la fracción de casos donde el seguimiento del plásmido puede conducir a conclusiones erróneas con respecto a una variante genómica. Algunas cosas a tener en cuenta al evaluar estos escenarios incluyen i) el casete de plásmido debe tener una influencia funcional mínima o nula con relación a la edición genómica, ii) los loci genómicos solo serán la secuencia WT o la secuencia del casete de edición que obtengamos a través de la secuenciación, y iii) la edición fuera del sitio es muy poco probable dada la toxicidad de la edición CRISPR-Cas de múltiples sitios (por ejemplo, Figuras 16A-16E) o cuando se realiza en ausencia de una plantilla de reparación de edición adicional. Finalmente, observamos que el uso de experimentos repetidos y una secuenciación más profunda también pueden abordar estos problemas.
Seguimiento de variantes de alta aptitud (seguimiento de enriquecimiento positivo)
En los casos en que exista una fuerte ventaja selectiva para la modificación genómica (y, por lo tanto, el plásmido asociado), solo observaremos células con la edición en el cromosoma posterior a la selección. Por lo tanto, esto casi siempre es un verdadero positivo, particularmente cuando los tiempos de selección son cortos, lo que limita la posibilidad de mutaciones aleatorias debido a un error de replicación que barre a la población. Si bien este fenómeno puede conducir a una subestimación cuantitativa de la verdadera aptitud de una mutación debido a un perfil de enriquecimiento que representa la convolución de la aptitud modificada y wt, no producirá falsos positivos. Además, el uso de experimentos replicados y/o selecciones más largas también puede abordar este problema potencial y eliminar conclusiones erróneas con respecto al impacto de las mutaciones en la aptitud.
Seguimiento de variantes de baja aptitud (seguimiento de enriquecimiento negativo)
En los casos donde la mutación codificada tiene una contribución de aptitud negativa pero está unida a un cromosoma PAM solo o no modificado, sobrestimaríamos incorrectamente la aptitud del mutante y supondríamos que está más cerca de wt, especialmente para tiempos de selección más largos (por ejemplo, ver las Figuras 22A-22C). Sin embargo, cualquier enfoque de secuenciación profunda debe lidiar con limitaciones similares debido a la falta de información sobre tales mutaciones después de la selección y los problemas asociados con las estadísticas de conteo en estos escenarios. Además, debemos señalar que este escenario solo es relevante para el subconjunto de mutantes de aptitud verdaderamente negativa (que deberían ser 10-20 % en base a la evolución dirigida histórica y los datos de ALE) dentro de la fracción no editada (-30 %) y que permanecen en el fracción sin editar en múltiples transformaciones replicadas. En otras palabras, es un escenario de pequeño porcentaje (4-5 %) que se puede detectar y/o abordar a través de transformaciones replicadas en donde se observarían inconsistencias en el mutante particular que aparece ocasionalmente con la aptitud WT.
Cobertura incompleta
En los casos en que una variante no esté presente en la población inicial (debido tanto a la baja eficiencia de transformación como a la baja eficiencia de edición), podrían surgir un par de escenarios. Como implican los puntos anteriores, si la mutación es beneficiosa, se podría concluir erróneamente que no confiere una ventaja de aptitud física, y si es verdaderamente perjudicial, también se le podría asignar incorrectamente una puntuación de aptitud neutral. Esto parece encontrarse a veces en este trabajo e impacta tanto en el error asociado con las mediciones repetidas como en nuestra capacidad para distinguir las variantes de baja aptitud de un control sinónimo. Sin embargo, nuestra capacidad para identificar mutantes beneficiosos es sólida a pesar de estos problemas, como lo demuestra nuestra capacidad para identificar fácilmente mutaciones nuevas y previamente validadas. Las estrategias para abordar esto mediante la superación de la toxicidad de Cas9 y la mejora de la eficiencia de la recombinación prometen eliminar en gran medida tales problemas. Además, aumentar el número de réplicas, aumentar la profundidad de la secuenciación y/o mejorar la cobertura de la biblioteca mediante la realización de una transformación a mayor escala también puede ayudar a solucionar estos problemas.
Escisión de gRNA fuera del objetivo
La escisión del gRNA fuera del objetivo debería ser rara en E. coli debido al tamaño relativamente pequeño de su genoma (4 Mb) y, por lo tanto, a la falta de regiones (no dirigidas) de homología con el casete CREATE. Además, la toxicidad de los gRNA en presencia de Cas9 (por ejemplo, Figura 9A) asegura que la supervivencia de las células se vea comprometida en E. coli debido a roturas de dsDNA. Cada corte adicional introducido en E. coli parece incurrir en efectos de toxicidad multiplicativa, incluso cuando se proporcionan plantillas de reparación homólogas para cada sitio de corte (por ejemplo, Figuras 16A-16E). Este efecto de toxicidad se vería exacerbado aún más por la ausencia de una plantilla de reparación para guiar la HR (por ejemplo, Figuras 16A-16E), como sería el caso de un evento de escisión fuera de la diana de un único gRNA que se dirige a dos sitios pero que contiene solo un único HA.
Mutagénesis aleatoria fuera del objetivo (evolución)
La probabilidad de que una variante CREATE esté fuertemente enriquecida debido a una mutación fuera del objetivo es muy improbable debido a 2 factores: 1) el efecto de toxicidad por las razones expuestas anteriormente y 2) las bajas tasas de mutación de MG1655 u otras cepas capaces de reparar mutaciones en comparación con las tasas de mutagénesis de CREATE, particularmente en múltiples réplicas de selección. También hemos validado que podemos transferir el grupo de plásmidos de nuevo a un fondo parental virgen y verificar rápidamente el enriquecimiento de la mejora de la aptitud de los plásmidos CREATE a partir de la población inicial. Al igual que los datos replicados, esto nos permite desacoplar cada plásmido CREATE del potencial de mutaciones de fondo que interferirían con nuestro análisis. Estos factores simplifican las suposiciones hechas durante nuestro análisis, cuya validez está respaldada por genotipos validados externa e internamente que se identificaron durante este trabajo.
Posibles efectos de las mutaciones sinónimas
Las mutaciones sinónimas (por ejemplo, en la región PAM) pueden conferir efectos inesperados sobre el fenotipo. Hemos controlado esto de varias maneras. En cada experimento, incluimos un control interno que consiste en una biblioteca de mutaciones sinónimas (1/20 en cada codón o 5 % de la entrada total), cada una de las cuales muestra diferentes combinaciones de codones y PAM y, por lo tanto, nos da una idea del intervalo de posibles efectos que podemos tener en un gen al medir el perfil de enriquecimiento de muchos cambios sinónimos. Mediante el uso de esta población como control, podemos identificar con precisión cambios significativos en la aptitud en la resolución de aminoácidos individuales como sugiere el trabajo. También podemos controlar este efecto mediante la utilización de enfoques de muestreo redundantes donde un sitio está acoplado a múltiples mutaciones de PAM similar a lo que se hizo para el estudio ALE descrito en la presente descripción.
Consideraciones de diseño de la biblioteca CREATE
Se implementaron una variedad de principios de diseño en las bibliotecas dirigidas a genes descritas en algunos trabajos descritos en la presente descripción. Por ejemplo, la biblioteca fo1A (3140 casetes) fue diseñada para ser una biblioteca exploratoria imparcial para la mutagénesis de saturación de un solo sitio completo y la actividad de secuencia. Sin embargo, para la mayoría de los genes, buscamos maximizar la probabilidad de genotipos interesantes eligiendo enfocarnos en la diversidad de sitios con mayor probabilidad de tener un impacto funcional en la proteína objetivo (por ejemplo, sitios de unión al DNA, sitios activos, regiones identificadas como puntos críticos mutacionales por selecciones previas). Los sitios que se incluyeron en estos diseños de biblioteca se seleccionaron en base a la información depositada en bases de datos que incluyen Ecocyc (biocyc.org/), Uniprot (uniprot.org/) y PDB (rcsb.org/pdb), así como también citas de literatura relevante que identificaron residuos o regiones de interés mediante el uso de enfoques de evolución dirigida. Las bases de datos Uniprot y Ecocyc proporcionan funciones de secuencia seleccionadas manualmente que indican efectos mutacionales y dominios importantes de cada proteína. En los casos donde había suficiente información estructural para modelar los sitios de unión de ligandos o DNA, las estructuras cristalinas relevantes se cargaron en Pymol y se realizaron selecciones manuales de residuos y se exportaron como listas numéricas. Para las bibliotecas de promotores, tomamos en cuenta el espaciado de estos sitios con relación al sitio de inicio de la transcripción y la secuencia de reconocimiento canónico del sitio de unión de CRP (AAATGTGATCTAGATCACATTT ubicado entre -72 y -40 con relación al sitio de inicio de la transcripción) o el elemento UP (AAAATTTTTTTTCAAAAGTA -60 desde el sitio de inicio de la transcripción) que reclutan directamente la subunidad alfa de la RNA polimerasa. Estas secuencias se diseñaron para integrarse en estas posiciones con relación a las anotaciones del sitio de inicio de la transcripción disponibles públicamente en RegulonDB mediante el uso de una variación del software de diseño automatizado CREATE diseñado para el direccionamiento de proteínas (por ejemplo, Figuras 13A-13D). Estos casetes se realizaron con la intención de evaluar los efectos de la dosificación y regulación de genes en la aptitud. Finalmente, diseñamos una biblioteca para reconstruir todas las 645 mutaciones no sinónimas dirigidas a 197 genes que se identificaron mediante un experimento ALE integral en el que se secuenciaron los genomas completos de 115 aislamientos después de un año de adaptación al crecimiento a temperatura elevada (por ejemplo, 42,2 °C). En total, diseñamos 52356 oligómeros, con 48080 destinados a saturar 2404 posiciones de codones en 35 genes, 2550 oligos se hicieron para regenerar las mutaciones ALE, 379 mutantes del promotor UP y 772 mutaciones del promotor CAP de una manera que permitiría el mapeo simultáneo de la relación entre la secuencia y la actividad.
Principios de automatización y diseño de casetes
En base a los experimentos de control con galK (por ejemplo, Figuras 9A-9D) y las restricciones de longitud de síntesis comercial máxima actual (200 bp de Agilent), desarrollamos un diseño general para cada casete CREATE (por ejemplo, Figuras 8A-8B).
El diseño de los casetes CREATE se automatizó mediante el uso de scripts de Python personalizados. El algoritmo básico toma una secuencia de genes, una lista de residuos objetivo y una lista de codones como entradas. La secuencia del gen se busca en todos los sitios PAM disponibles con la secuencia espadadora correspondiente. Luego, esta lista se ordena de acuerdo con la proximidad relativa a la posición del codón objetivo. Para cada sitio PAM en la lista inicial, el algoritmo busca mutaciones sinónimas que se puedan realizar en el marco y que también interrumpan directamente el sitio PAM; en caso de que se cumpla esta condición, el algoritmo procede a cambiar el codón prescrito y a diseñar el sitio completo del casete CREATE con el espaciador que lo acompaña e itera para cada codón de entrada y posición respectivamente. Para cada mutación de PAM, se comprueban todas las posibles sustituciones de codones sinónimos antes de pasar al siguiente sitio de PAM. Para las bibliotecas de saturación de codones en este estudio, elegimos los codones más frecuentes (genscript.com/cgi-bin/tools/codon_freq_table) para cada sustitución de aminoácido diseñada de acuerdo con las estadísticas de uso de E. coli. El script se puede ejecutar rápidamente en un ordenador portátil y se usó para generar el diseño completo de estas bibliotecas en < 10 minutos. El algoritmo usado en este estudio fue diseñado para hacer posibles las mutaciones más conservadoras mediante el uso de a veces solo el PAM como marcador de mutación seleccionable.
Plásmidos
El vector de amplia gama de huéspedes X2-cas9 se construyó amplificando el gen cas9 del DNA genómico de S. pyogenes en la estructura de pBTBX2 (Lucigen). Se proporciona un mapa vectorial y una secuencia de este vector y el casete CREATE galK_Y145*_120/17 en las siguientes ubicaciones: benchling.eom/s/3c941j/edit; benchling.com/s/xRBDwcMy/edit.
Los experimentos de edición realizados en parte de este trabajo emplearon el vector X2-cas9 en combinación con el vector pSIM5 (redrecombineering.ncifcrf.gov/strains— plasmids.html) para lograr las eficiencias reportadas.
Recombinación de bibliotecas CREATE
Las bibliotecas genómicas se prepararon mediante la transformación de bibliotecas de plásmidos CREATE en una cepa de E. coli MG1655 de tipo salvaje que lleva el plásmido pSIM5 sensible a la temperatura (lambda RED) y un plásmido de amplio rango de huéspedes que contiene un gen cas9 inducible de DNA genómico de S. pyogenes clonado en la estructura de pBTBX-2 (X2cas9, por ejemplo, Figuras 15A-15D). Se indujo pSIM5 durante 15 min a 42 °C seguido de enfriamiento en hielo durante 15 min. Las células se lavaron 3 veces con 1/5 del volumen de cultivo inicial de ddH2O (por ejemplo, 10 mL de lavado para 50 mL de cultivo). Después de la electroporación, las células se recuperaron en l B arabinosa al 0,4 % para inducir Cas9. Las células se recuperaron 1-2 horas antes de la siembra puntual para determinar la cobertura de la biblioteca y se transfirieron aun volumen 10X para la recuperación durante la noche en LB+ 0,4 % de arabinosa 50 pg/mL de kanamicina 100 pg/mL de carbenicilina. Los cultivos saturados durante la noche se sedimentaron y se resuspendieron en 5 ml de LB. Se usó 1 mL para hacer stocks de glicerol y el otro 1 mL se lavó con los medios de selección apropiados antes de proceder con la selección.
Para los experimentos de control con galK, usamos casetes CREATE diseñados para convertir Y145 (TAT) en un codón de terminación (TAA) con una mutación de un solo punto en esta posición y una segunda mutación de punto para hacer una mutación sinónima que suprime el sitio PAM objetivo (por ejemplo Figura 8B y Figuras 13A-13D). Las eficiencias de edición (por ejemplo, Figuras 13A-13D y Figuras 9A-9B) se estimaron mediante el uso de un cribado basado en placa roja/blanca en agar MacConkey suplementado con galactosa al 1 % como se describió anteriormente.
Procedimientos de selección
Después de la recuperación durante la noche, las células se cosecharon por sedimentación y resuspensión en medios de selección frescos. Todas las selecciones se realizaron en un matraz de agitación y se inocularon a una DO 600 inicial de 0,1. Se llevaron a cabo tres diluciones en serie (48-96 horas en dependencia de la velocidad de crecimiento en la condición objetivo) para cada selección transfiriendo 1/100 del volumen del medio después de que los cultivos alcanzaran la fase estacionaria. Las selecciones a 42 °C se realizaron en medio M9 glucosa al 0,2 % para imitar la baja disponibilidad de carbono de la adaptación inicial. Las selecciones de antibióticos se llevaron a cabo en LB 500 pg/mL de rifampicina o eritromicina para asegurar una selección estricta. Las selecciones de solventes se realizaron en M9 glucosa al 0,4 % y 10 g/L de acetato (sin tamponar) o 2 g/L de furfural. Las selecciones se cosecharon sedimentando 1 mL del cultivo final y el sedimento celular se hirvió en 100 pL de tampón TE para conservar tanto el plásmido como el DNA genómico para los análisis deseados posteriores.
Preparación y secuenciación de bibliotecas
Los cebadores personalizados compatibles con Illumina se diseñaron para permitir una sola etapa de amplificación del plásmido CREATE y la asignación de lecturas experimentales mediante códigos de barras. Los casetes CREATE se amplificaron directamente a partir de las secuencias de plásmidos de lisados celulares hervidos mediante el uso de 20 ciclos de PCR con la polimerasa Phusion (NEB) mediante el uso de hibridación a 60 °C y tiempos de extensión de 1:30 minutos. Al igual que en el procedimiento de clonación, se mantuvo un número mínimo de ciclos de PCR para evitar la acumulación de mutaciones y casetes CREATE recombinados que se observaron cuando se implementó un número excesivo de ciclos de PCR (por ejemplo, >25-30). Los fragmentos amplificados se verificaron y cuantificaron mediante electroforesis en gel de agarosa al 1 % y se agruparon de acuerdo con la profundidad de lectura deseada para cada muestra. La biblioteca agrupada se limpió mediante el uso del estuche de limpieza Qiaquick PCR y se procesó para NGS con estuches de preparación de Alúmina estándar. La secuenciación de Alúmina y la preparación de muestras se realizaron con los cebadores.
Preprocesamiento de secuenciación de alto rendimiento y generación de conteo
Las lecturas de secuenciación de Alúmina de extremo emparejado se ordenaron de acuerdo con el índice de código de barras de golay con una tolerancia de hasta 3 discrepancias y luego se fusionaron mediante el uso del algoritmo usearch -fastq_merge. Luego, las lecturas ordenadas se compararon con la base de datos de casetes CREATE diseñados mediante el uso del algoritmo usearch_global en un umbral de identidad del 90 %, lo que permitió hasta 60 aciertos posibles para cada lectura. Los aciertos resultantes se ordenaron aún más de acuerdo con el porcentaje de identidad y la asignación de lectura se realizó mediante el uso del diseño de casete CREATE que mejor coincidía con un límite final del 98 % de identidad con el diseño inicial. Se debe señalar que esta estrategia de asignación de lectura intenta identificar las correlaciones entre los genotipos diseñados y, por lo tanto, puede pasar por alto otras características importantes que surgen debido a las mutaciones que podrían ocurrir durante el procedimiento experimental. Este enfoque se tomó tanto para simplificar el análisis de datos así como también para evaluar el diseño y el procedimiento de anotación "directos" y su capacidad para identificar con precisión fenómenos genéticos significativos.
Análisis de datos y cálculo de aptitud
Las puntuaciones de enriquecimiento (o puntuaciones absolutas de aptitud) se calcularon como la puntuación de enriquecimiento log2 mediante el uso de la siguiente ecuación:
donde FX,fes la frecuencia
del casete X en el punto de tiempo final y Fv es la frecuencia inicial del casete X y W es la aptitud absoluta de cada variante. Las frecuencias se determinaron dividiendo los recuentos de lectura de cada variante por los recuentos experimentales totales, incluidos los que se perdieron durante el filtrado. Cada selección se realizó por duplicado y se usó el promedio ponderado de conteo de las dos mediciones para inferir el puntaje de aptitud promedio de cada
Hai-0 “ ■ Es-i conteo i * Wt
l í mutación de la siguiente manera: i conteo i
Estos puntajes se usaron para clasificar y evaluar las contribuciones de aptitud de cada mutación bajo las diversas presiones de selección investigadas. Para todas las selecciones, tomamos puntajes de aptitud absolutos promedio para todos los mutantes sinónimos como una medida compuesta de la tasa de crecimiento promedio. Las puntuaciones de enriquecimiento absoluto se consideraron significativas si el enriquecimiento mutante era al menos /- 2*o (por ejemplo, p = 0,05 suponiendo una distribución normal) del valor del tipo salvaje. Realizamos dos réplicas de cada selección informada en este estudio para obtener estas cifras y aplicamos un umbral de corte de 10 en los experimentos repetidos para su inclusión en cada análisis.
Para cada codón objetivo, nuestros diseños también incluyeron una variante sinónima para proporcionar un control experimental interno. Por lo tanto, el 5 % de los casetes dirigidos a proteínas codificaron mutaciones sinónimas que nos permiten estimar los intervalos de confianza para los efectos de las mutaciones mediante el uso de scripts de arranque de Python personalizados. Los datos de enriquecimiento de cada experimento se volvieron a muestrear con el reemplazo 20 000 para obtener estimaciones del intervalo de confianza del 95 % que se usaron para inferir la significación estadística de las puntuaciones de enriquecimiento para cada análisis presentado en el manuscrito.
Reconstrucciones mutantes y medidas de crecimiento.
Los casetes AcrB T60N y Crp S28P y Fo1A F153R/W CREATE se ordenaron como gblocks separados de IDT, se clonaron y verificaron la secuencia. Cada casete se transformó en MG1655 y se seleccionó la colonia para identificar un clon con la edición genómica diseñada. Estas cepas (por ejemplo, Figura 21 y Figuras 22A-22C) se sometieron luego a las condiciones de crecimiento de la selección de la biblioteca agrupada como se indica. Las curvas de crecimiento se tomaron por triplicado para cada condición en 100 pL en un lector de placas de 96 pocillos para medir la absorbancia a 600 nm. Se cubrió la placa y se añadió agua a los pocillos vacíos para reducir la evaporación durante el crecimiento.
Software y generación de figuras.
Los gráficos circulares se generaron mediante el uso de Circos v0.67. Los gráficos se generaron en Python 2.7 mediante el uso de las bibliotecas de gráficos matplotlib y las figuras se realizaron con Adobe Illustrator CS5. Las puntuaciones de entropía para Fo1A (Figura 10A) se determinaron mediante el uso del paquete ProDy Python y la alineación del proteoma representativo RP35 de la accesión de Pfam PF00186.
Las figuras de las bibliotecas de proteínas y las mutaciones de alta aptitud se realizaron mediante el uso de The PyMol Molecular Graphics System, Schrodinger, LLC. Las siguientes son las proteínas y PDB usadas en la generación de figuras: AcrB (3W9H, 4K7Q, 3AOC), Fis (3JR.9), Ihf (1IHF), RNA polimerasa (4KMU, 4IGC), Crp (3N4M), MarA(1BLO) y SoxR (2ZHG).
Ejemplo 29: Probando la correlación Editar-Código de barras
Se analizó una cepa que expresaba un plásmido con un número bajo de copias (Ec23), que es un vector dual Cas9-pSIM5, mediante el uso de diferentes casetes de edición de genes (lacZ, xylA y rhaA) y casetes de grabación con diferentes códigos de barras y sitios de inserción (sitio galK 1, sitio galK 2 y sitio galK 3) (Resumido en la Figura 27A). Los posibles resultados se representan en la Figura 27B. Preselección, todas las combinaciones de edición/código de barras/WT son posibles. Después de la selección, las celdas de edición podrían enriquecerse, ya sea que tengan un código de barras o no en este diseño experimental.
Las transformaciones se sembraron en placas en medios selectivos que permitieron el enriquecimiento de las células que contenían las ediciones de genes. Se secuenciaron 30 colonias de cada transformación de combinación para determinar si contenían el código de barras deseado.
La Figura 27C muestra los resultados de los datos de secuenciación. Dos de las combinaciones de edición/código de barras se encontraron en el 100 % de las colonias analizadas (30/30 colonias) y la otra transformación de combinación de edición/código de barras se encontró en aproximadamente el 97 % de las colonias analizadas (29/30 colonias). La única colonia que no se genomanipuló correctamente contenía la edición del gen, pero no el código de barras.
En general, 89 de las 90 colonias analizadas tienen la edición genética y el código de barras diseñados.
Ejemplo 30: grabación seleccionable
Cuando no se selecciona un código de barras, permite el enriquecimiento de células sin código de barras incluso si se incorpora y selecciona la edición de genes correspondiente. La Figura 28 representa una estrategia de ejemplo para seleccionar el evento de grabación (por ejemplo, la incorporación del código de barras por el casete de grabación), además de seleccionar la incorporación del casete de edición, lo que aumenta, de esta manera, la eficiencia de recuperación de células que han sido editadas y codificadas.
Como se muestra en la Figura 28, las secuencias SO, SI, S2, etc. están diseñadas para ser el objetivo del RNA guía asociado con el casete grabador de la siguiente ronda. En el ejemplo representado, en la primera ronda de ingeniería, se incorporan una mutación PAM, un código de barras, un sitio SI y elementos reguladores necesarios para activar un marcador seleccionable en el sitio SO en la región objetivo. Esto activa el marcador seleccionable TetR y permite el enriquecimiento de variantes de mutantes con código de barras con el sitio SI que tiene el sitio PAM de la primera ronda eliminado. En la segunda ronda de ingeniería, se incorpora al sitio SI de la ronda anterior un nuevo casete de grabación que comprende una segunda mutación PAM, un segundo código de barras, un sitio S2 y una mutación que desactiva el marcador seleccionable. Esto permite la contraselección de variantes que han incorporado el segundo código de barras y el sitio S2. Las rondas subsiguientes continúan cambiando el marcador seleccionable entre un estado activado y desactivado y usan la selección o la contraselección respectivamente para enriquecer las variantes deseadas. El casete de grabación de cada ronda está diseñado para incorporarse a una secuencia única (por ejemplo, SO, SI, etc.) que se incorporó en la ronda anterior. Esto garantiza que la última ronda de códigos de barras se haya realizado correctamente, de modo que todos las etapas de ingeniería deseadas estén contenidas en el producto final. La incorporación de mutaciones de PAM en cada etapa también ayuda a garantizar que se seleccionen las variantes de código de barras deseadas, ya que las células que tienen las secuencias de PAM no modificadas se eliminarán, ya que no pueden escapar de la escisión de la enzima CRISPR.
Esta estrategia usa varios métodos para aumentar la eficiencia de aislar las variantes deseadas que contienen todas las ediciones diseñadas de cada ronda de ingeniería. La mutación PAM, el interruptor de marcador seleccionable y el sitio de aterrizaje único incorporados en cada ronda por separado aumentan la eficiencia y juntos también aumentan la eficiencia. Estas herramientas permiten la selección de cada ronda de grabación y permiten el diseño de RNA guía de grabación altamente activos. Se genera una matriz de códigos de barras igualmente espaciados (o no igualmente espaciados, en dependencia del diseño) y facilitan los análisis aguas abajo, tales como la secuenciación de la matriz de códigos de barras para determinar qué ediciones correspondientes se incorporan en todo el genoma.
La Figura 29 representa un diseño experimental para probar la estrategia de grabación seleccionable descrita anteriormente. Un plásmido (pRECl) que contenía un casete de edición y un casete grabador se transformó en células. El casete de edición contenía un casete de edición no dirigido o una mutación que incorporaba una mutación (no TS) o una mutación sensible a la temperatura (TS) en un gen diana. El casete grabador se diseñó para incorporarse al sitio SO en el gen diana que originalmente tenía desactivado el marcador seleccionable tetR. El casete grabador también contenía una mutación PAM que eliminó el sitio SO PAM, el primer código de barras (BC1), un sitio SI único para incorporar el casete grabador de la ronda de ingeniería posterior y una mutación correctiva que activará el marcador seleccionable TetR. Un RNA guía en el casete de la grabadora que se dirige a un sitio PAM en el sitio SO (SO-gRNA) permite que una enzima CRISPR, en este caso Cas9, escinda el sitio SO. El casete grabador se recombina en el sitio SO escindido. Se incorpora la mutación PAM, lo que significa que el SO-gRNA ya no puede apuntar al sitio SO, lo que mata de esta manera las células WT y enriquece las células que recibieron el código de barras. El marcador seleccionable TetR también se activó, lo que permitió una mayor selección de la variante con código de barras.
Los datos de las Figuras 30A y 30B muestran los resultados del experimento descrito anteriormente y representado en la Figura 29. De las colonias resistentes a Tet que se recuperaron de la ronda de transformación e ingeniería, se secuenciaron 16 y se determinó que todas contenían el código de barras diseñado (Figura 30A). La Figura 30B muestra que las células de control que no contenían el sitio objetivo de grabación (no objetivo) no sobrevivieron a la presencia de Tet, mientras que las células que contenían el sitio objetivo se codificaron con éxito como evidencia al encender TetR, lo que permitió a las células seleccionarse en medios que contienen Tet. Se confirmó que las colonias resistentes a Tet en el sitio genómico tenían activado el gen TetR. Estos datos mostraron que la grabación seleccionable fue exitosa.
Ejemplo 31: Expresión de nucleasas MAD
Las secuencias de ácido nucleico de tipo salvaje para MAD1-MAD20 incluyen las SEQ ID NO 21-40, respectivamente. Estas nucleasas MAD se optimizaron por codones para la expresión en E. coli y las secuencias optimizadas por codones se enumeran como las SEQ ID NO: 41-60, respectivamente (resumidas en la Tabla 2).
Se clonaron MAD1-MAD20 con codones optimizados en un constructo de expresión que comprende un promotor constitutivo o inducible (por ejemplo, el promotor T7 SEQ ID NO: 83, o el promotor pBAD SEQ ID NO: 81 o SEQ ID NO: 82) y un marcador 6X-His opcional. Los constructos de expresión MAD1-MAD20 generados se proporcionan como las Se Q ID NO: 61-80, respectivamente.
Tabla 2.
Figure imgf000056_0001
Figure imgf000057_0001
Ejemplo 32: Nucleasas MAD2 y MAD7
Las nucleasas MAD2 y MAD7 son nucleasas guiadas por ácidos nucleicos que pueden usarse en los métodos descritos en la presente descripción. Las nucleasas Mad2 (SEQ ID NO: 2) y Mad 7 (SEQ ID NO: 7) se clonaron y transformaron en células. Los casetes de edición diseñados para mutar un sitio diana en un gen galK se diseñaron con mutaciones, lo que permitió el cribado en blanco/rojo de colonias editadas con éxito. Los casetes de edición también codificaron un ácido nucleico guía diseñado para dirigirse a galK. Los casetes de edición se transformaron en células de E. coli que expresaban MAD2, MAD7 o Cas9. La Figura 31A muestra la eficiencia de edición de Mad2 y Mad7 en comparación con Cas9 (SEQ ID NO: 110). La Figura 31B muestra la eficiencia de transformación como lo evidencian las tasas de supervivencia celular. En este ejemplo, el ácido nucleico guía usado con MAD2 y MAD7 comprendía una secuencia de andamiaje-12 y una secuencia guía dirigida a galK. El ácido nucleico guía usado con Cas9 comprendía una secuencia compatible con S. pyogenes Cas9.
La Figura 32 y la Tabla 3 muestran más ejemplos de edición de genes mediante el uso de la nucleasa MAD2. En este experimento, se probaron diferentes secuencias de ácido nucleico guía. La secuencia guía de los ácidos nucleicos guía se dirigió al gen galK como se describió anteriormente. La secuencia de andamio de los ácidos nucleicos guía fue una de varias secuencias ensayadas como se indica. Los ácidos nucleicos guía con andamio-5, andamio-10, andamio-11 y andamio-12 pudieron formar complejos funcionales con MAD2.
La Figura 33 y la Tabla 4 muestran más ejemplos de edición de genes mediante el uso de la nucleasa MAD7. En este experimento, se probaron diferentes secuencias de ácido nucleico guía. La secuencia guía de los ácidos nucleicos guía se dirigió al gen galK como se describió anteriormente. La secuencia de andamio de los ácidos nucleicos guía fue una de varias secuencias ensayadas como se indica. Los ácidos nucleicos guía con andamio-10, andamio-11 y andamio-12 (por ejemplo, Figura 31 A) pudieron formar complejos funcionales con MAD7. Las secuencias de aminoácidos se proporcionan en la Tabla 2 y las secuencias de andamiaje se proporcionan en la Tabla 3 y la Tabla 4. La Tabla 3 y la Tabla 4 también proporcionaron las mutaciones diseñadas en los casetes de edición que se usaron para mutar el gen diana galK.
Más detalles y caracterizaciones de MAD2, MAD7 y otras nucleasas MAD se describen en la Solicitud de EE. UU. No.
15/631,989, presentada el 23 de junio de 2017, y la Solicitud de EE. UU. No. 15/632,001, presentada el 23 de junio de 2012.
Tabla 3.
Figure imgf000057_0002
Figure imgf000058_0001
Tabla 4
Figure imgf000058_0002
Listado de secuencias
Tabla 5.
Figure imgf000059_0001
Figure imgf000060_0001
Figure imgf000061_0001
Figure imgf000062_0001
Figure imgf000063_0001
Figure imgf000064_0001
Figure imgf000065_0001
Figure imgf000066_0001
Figure imgf000067_0001
Figure imgf000068_0001
Figure imgf000069_0001
Figure imgf000070_0001
Figure imgf000071_0001
Figure imgf000072_0001
Figure imgf000073_0001
Figure imgf000074_0001
Figure imgf000075_0001
Figure imgf000076_0001
Figure imgf000077_0001
Figure imgf000078_0001
Figure imgf000079_0001
Figure imgf000080_0001
Figure imgf000081_0001
Figure imgf000082_0001
Figure imgf000083_0001
Figure imgf000084_0001
Figure imgf000085_0001
Figure imgf000086_0001
Figure imgf000087_0001
Figure imgf000088_0001
Figure imgf000089_0001
Figure imgf000090_0001
Figure imgf000091_0001
Figure imgf000092_0001
Figure imgf000093_0001
Figure imgf000094_0001
Figure imgf000095_0001
Figure imgf000096_0001
Figure imgf000097_0001
Figure imgf000098_0001
Figure imgf000099_0001
Figure imgf000100_0001
Figure imgf000101_0001
Figure imgf000102_0001
Figure imgf000103_0001
Figure imgf000104_0001
Figure imgf000105_0001
Figure imgf000106_0001
Figure imgf000107_0001
Figure imgf000108_0001
Figure imgf000109_0001
Figure imgf000110_0001
Figure imgf000111_0001
Figure imgf000112_0001
Figure imgf000113_0001
Figure imgf000114_0001
Figure imgf000115_0001
Figure imgf000116_0001
Figure imgf000117_0001
Figure imgf000118_0001
Figure imgf000119_0001
Figure imgf000120_0001
Figure imgf000121_0001
Figure imgf000122_0001
Figure imgf000123_0001
Figure imgf000124_0001
Figure imgf000125_0001
Figure imgf000126_0001
Figure imgf000127_0001
Figure imgf000128_0001
Figure imgf000129_0001
Figure imgf000130_0001
Figure imgf000131_0001
Figure imgf000132_0001
Figure imgf000133_0001
Figure imgf000134_0001
Figure imgf000135_0001
Figure imgf000136_0001
Figure imgf000137_0001
Figure imgf000138_0001
Figure imgf000139_0001
Figure imgf000140_0001
Figure imgf000141_0001
Figure imgf000142_0001
Figure imgf000143_0001
Figure imgf000144_0001
Figure imgf000145_0001
Figure imgf000146_0001
Figure imgf000147_0001
Figure imgf000148_0001
Figure imgf000149_0001
Figure imgf000150_0001
Figure imgf000151_0001
Figure imgf000152_0001
Figure imgf000153_0001
Figure imgf000154_0001
Figure imgf000155_0001
Figure imgf000156_0001
Figure imgf000157_0001
Figure imgf000158_0001
Figure imgf000159_0001
Figure imgf000160_0001
Figure imgf000161_0001
Figure imgf000162_0001
Figure imgf000163_0001
Figure imgf000164_0001
ACTTT AíifiT Crfí ATT A ATGGGÍiG AGT AG A A AGCTG ACTC A ATTAATGATATT A ATTTGG.A ACCrT A CGTGCAAAAAAGTOGATAa GTGGCTTGa TAGTAAGGAGTTTGCTCTGTOGCATGTACTAGAAGC AATTAAGAGAACAGGAAACAATG ATGCATTT AATtí AATATATT AGTAAAATGAtí tíACGGCTAG AO AAAAGAT A G ACGCCGCACGTAAGG AAATG AA G TIT A TTT CCOAC A A, A A TATCT GGCG MOA AGAGTCGATTCACATCATC,AAGACCCTAÍTICGATTCTGTTCAtítíAATTTCTCCA l I I II I IAACCT CTTC AA AQC A AG AC AAG AC ATTCCCTT AG ATGGGGCTTTTT AT GCCGAATTT GATO A AGTTC ATT C AAAGTTGTTTGCrATTGTTCCTCTTTAC AATAAGGTc c g ta a tta c c t t a c t a a a a a t a a c t t g AACACCAAGAAAATAAAGTTAAAGTTCAAGAATCCGACrCTTGCGAAGGGGTGGOATCAGAAT AAa GTTIATGATTATGtT AGCrrAATATTTCTAA tíAGATGG tíAATTAlTACTTAGGAATC ATC AA TCCAA AGCfiTAAtíA A AA ACATTAAATTTC1AACA AGGGTCAGGC AATGGCÜCATTCTATAGAA A A ATGGTGT AT AAGCAAATACC AGG ACOTA AC A AG A A tTTGC CTCGCGTATTTTT A At'TTC A ACA AAtíGGTAAAAAAGAAT ATAAACCAAGCA.AAGAAATTa ttg a a g Ctta c g a a g c a g a t a a a c a c ATCAGAGGTGAT AAGTTC GATCTOGATTTCTGC C ATAAATTGATTGACTTTTTTAAOGAATCTAT AGAAAAAC ATAAGG A CTGGT CCAAATTTAATTTCTA CrTCTtAC OTA CA GAAAGTTATGtíTGA C ATTTC AG AATTTT ATTT AGACflTTGAflAAACAAGG ATATAGGATGCATTTTGAA AATATTTCAGC GGAA ACCATCGACGA a ta g ü ttg a g a a g g íítg a ttta ttc ttg ttc c a a a ttt a c a a t a a a g AC TTCOTTAAAGCTGCAACCGG AAAGAAGGATATGCATACCATATATTGGAAC GCIOCATTCTCCC C AG A A AACTTACAAGATGTCOTKTTAAAGCTTAAT tí GAGAAG CTCAGCTOTTCTATAGAGACAA GAGTGAT AT AAAAG AG A TTGTGC ATCGGG AAGGTGAAATTCTGGTGAACAGAACTTACAATGG TCOTACACCCGTTCCAGAC AAAATAC ATAAAAa ACTG A (^G ATTATCATAATGCTAGG AC AAAG GACTTGGOCtí AGGCCAAGG.ACfTACCTC GATAAAGTTAG ATATTTCAAGG CA C ACTAT GAT ATT A C GAAAG AC AG GAG AT ATTTAAACGATAAAATTTACTTTC ATGTCCCTTT(^CCCTTAACTTTA AA GC TA ATGGTAAAAAGAATTTGAA CAAAATTiGTAATTGAtJAAGTTTTTATCGCLACGAAAAAGCTC AC AT AATCGOAATOGACCOCOG AG AGAGAAATTTACT(7TATTATAOTATCATCG AC AGAAGTGG AAAG ATTA T ItíATC AGCAATCTTTGAACGTCATTGATGGGTTTGACTATCGGGAAAAGTTAAAT C AA aGGG AA ATTGA AATG A AGG ATGCG AGACA ATC a TGG A ATGCC ATTGGTA A A ATT AAAG AT CTC AAGGAGGGGT ACTTATCAAAAGCTGTACACGAGAT AACTAAAATG GCTATCG AAT ATAATG CAATTGT rCTTAATGGAAGAATTGAATTATGGTTTTAAACGCGGCAGGTTTAAAGTCGAAAAACA AATATACCAAAAGTITTO A A A AC ATGTT A ATTG AT A AG ATG A ACT ATCTTGTTTTC.A A AG ATGC A CCTGATGAGAGTCCTGGCGGTGTGCTGAACGCCTATCAATTAAGAAACCCATTAGAGTCCriTG CT AA ACTGGGTAAA CAAACTG GC ATTCTATTTTATG TTCCAOCCGCTTACACCT CAAAG ATCG AT C CAAC GAtX GGTTTTGrAAA CTTATTT AATACTTCTTC CAAAACAAAC GC GCAAG AACGCAAAG A ATTCGTa GA A A a aTTTGA ATCAATATCCTATAGCGCAAAAGATCGAGGTATATTCGCTTTCGCT TTTGACTACAGAAAGTTTGGC a c t t c c a a g a c a g a t c a t a a a a a t g t g tGGACCGCTTatac c a ACGG AGAA AGGATGCOTTAT ATTAAAGAA AAAAAGAGG AACGAACTATTTCATCCATCGAAAG AAATTAAAGAAGCTniiACAAtíCAGCGGAATCAAATATGATGGAGGTCAAAACATAtTTTlCAG ATATTCTC AGATCTAAT AATAAC GGTCTTATTTACACCATGTATTCATCTTITATCGCTGCG ATCC AAA TGCGTGTGTATGATGGCAAGGAAOATTATATTATATCTC CTATTAAAAATTCAA AGGÍTTGA ATTTTITCGCACGGATCCAAAAAGAAGAGAGCITCCA ATTGACGC CGATGCTAACGGTGCITAC AATATTGCATTGCGTCÍGTGAACTTa CTATGAG a g o c a to g c o g aa a ag tttg a tc cg g a ca g tc AAAAAATGGCGAAATTGGAGCTAAAGCACAAGGATrGGTTTG AATTCATGC AtLACCC GTGGCG attg a
Figure imgf000166_0001
Figure imgf000167_0001
Figure imgf000168_0001
Figure imgf000169_0001
Figure imgf000170_0001
Figure imgf000171_0001
Figure imgf000172_0001
Figure imgf000173_0001
Figure imgf000174_0001
Figure imgf000175_0001
Figure imgf000176_0001
Figure imgf000177_0001
Figure imgf000178_0001
O
11
9
Figure imgf000179_0001
Figure imgf000180_0001
Figure imgf000181_0001
Figure imgf000182_0001
GCATOTCCTAGATX^AAATtnrAOTTTGTCAC CTC)CCTTCJ3AICTTCT(3A.TTAAGATOAA CG ACC TGCAOGGTG ACTTOA AGAAC AO AACG ATAG1TTTTGATCCAG ATOCTCCTOnCTTTO AATATAA TGCT GAGG ATCCTGCTtlA C ATC ATCATTAAACTG AC AGCTAG ATATGCGAAAGAAGCACrríiATT AAAAATC AAA ATOTCOGCAATTATOTT AAG AACGCTATT ACO AC AACTAACGC AAACGG ACTA GGTTÜGTTGCTÜAACAAAÜÜCCTTTCCTTATTGCCTGTCTCCACTGATTGACGAACTATTGGAÜTT
T a TTGGG GTC 10 AG AG ATCCCATCCT AGCTGTCATGCGTTG AT, AGa ACTTa TCGO T C a G T T a G a a GCACCIGAACTCrrCG AAAAAAATGTTTTTTc t g a t a c t c g t t c c g a g g t t c a a g g t a t g a t ag a TTC AGCTGTAAGCA ATCAT ATCGOT AGOCTGTCA AGCTCTCGTA ATTCATTGAGCATOG ACTO AG AGGAACTTGAG AÜATTtATAAAATCTTTTC:AAATTCATACACCAC ATTGTTC ATT ATTTA t AGGC QCTCAATCCTTATCTC AACAATTGGAAAG CCT ACCCGAAGCATrGCAGTCAG GAGTGAAC AGTG CTOATATT CTGCTCGQ CTCAACCCAATACATGTTGAC AAA'TTCTTTOGTGGAOG AGTCAATCGCT ACtjTATCAGAGAAíX TTAAATAGAATTA,ACTACCTGrTCCGGCGTTGCAGG.A C AG ATTAACGCíTG CT A TT A A G A G G A A A G C TA TT G A TOGTGA G A A G AT A C A TTTA C C C O C TG C TTG G TC AG AGTTA A T TTCTTTACCCTITATTGGGCAACCAÍTrGATrtlATínTGAATCAGATTTAGCCCACTTAAAGAACC AATACCAGAC ATTQTCTAAOGAATTT<JATACGCTO ATTTCCGC ACTQCAAAAG AATTTCGACTT A A A T TTT A A TA A A G C Í.TTG C T TA A T O G A A C A C A A C A T TTC G A Ü G í :TA TG TÜ TA G A T C A A G A A A A A A G A A TG C C C TTTC TA A GC CTGAGATCGTTA G TTA TA G A G A TTTG C T A C C C A G G T rG A C T T U J T G T CTTT ATA GGO OCTCT CTA<TrCTTGAOGAG G GCGGG T A T AGA A G TA C TG A A A A A jGCA O AAG AT AT TTG AGTCC A AOTCTG A ATT A AG AG AGCACOTTCATGAA AG A A A AT ACTTOGT ATTTGTTTCTCTG CTCGAT AG A A A A G c C AAG A A O C T C C T a O T T 'T T G ACTGACTCTAGGCCTCATTT ATTGCAC GTaA TTGATGAA AT ATT AC AAT ATG AT AATTT AG AG A AT AAGGATAG AGAATCTTTGTGTrTTAGTTCG ATCTGGTTATTTACTOGC COGCCTACCAGACC AACTCTCCTCTTCCTTTATAAATCTTCCAATCAT TATTTAAA AAGGCTrATTGTTGCTTGATAGATTTTATTCAATACTrACT AAATTAATAGATrATTrCT TTTOTGATGTTG GTAACTTCCOCTTTTAAGTCflAACTTAAGTGQ GCTGCAGTAC AGAGC AAACA AACAATT TTTTGTG GTT AC GCGC A CTTTGTCAjCC AT ATTTü G G AT (LT A A A TT fJ GTTTAT ü TGC C C A a a Q a T a AAG ATTG G C TG O TTC C TTC CC a a ATGTTCG AGGOGAG A TTTG COG AC ATTTTQC a a t CGGATTATATGGTGTGGAAGGAGGCTGGAAGATTGTGTGTTATTGAGACAÜCTAAGCATTTGTC TA AC ATTAAAAAATCTOTATT CTCAAGTGAA GAAGTCCTCCCC1T1TT AAGAGAATTGCCACAC C GTACGTTTATCCAAACTGAGGTCAGGGOTTTAGG GpO TGAATGTOGAC GGTATTGCATTT AAT A ACTpTfG G AT ATATTTTCTTTGAAG ACTpTT T A G C A ATTGOTpT G T A AGTT A A AGT G AGTCfiCp AC A A A cactagtctggtccaaacattaaatagatggtttgaaggcggtaaggtctcgccgcctagcatc CAATTTÍíACiAGAtiCATATTACA AAAAAÍiATGATCAAATCCACG Aí íGACGCTGCAAAAAGGAAG ATAaGOTTTC A A ATGCC AGCT ag ag AOTTGOT AC ACGCGTC AGACGACGC AGG ATOO ACCCCCT CCTATTTACTTGGTATCGATCCC GGTTGAATATGGTATGGGTTTGTGATT GGT CTCAATAAATAAT GGCG AAGTTTT AG AT AGC GGATTT AT AC AC ATAAATTCATTGATAAATTTCGCTTCTA AGAA ATC AAATCATCAAACCA.AAG’TTGTTCCG.AGGCAGCAATACAAGTCACCATACGCCA.ACTATCTAGAA CA ATCTAA AGAITCTGCAGCAGGACrACATAGCTCATATTTTGG ATAG ACTTATTTACA AGTTGA ACGCCCrAt't'CGTnTtGAAGCTCTAlCTÜÜCAAIAGTCAAAGOGCAGCGGATCAÜGlTrGÜAC A AAAGITrCTCAnCTTCTAr ACCTGGGG AGATA ATGATGCACA AAATTCAATTCGTAAGCA AC7AT TGCTTCGGTCCTTCACACTGGGACATTAAAGGCATGTTGACCCAaCCGCCAACAGAAAAAAAG CGCAAACCATACATTGCCTTTCX’CüGTTGAtAAGTTTC.TTCTTATGGTAATTtTCAAAGGTGTTC ATGTTGTGG aCGTa ACCCaaTTCA AC A aTTGCGOG a A ATGGCGaAGCaGaCaTCGaTTAaGGa
Figure imgf000184_0001
Figure imgf000185_0001
Figure imgf000186_0001
Figure imgf000187_0001
Figure imgf000188_0001
Figure imgf000189_0001
Figure imgf000190_0001
Figure imgf000191_0001
Figure imgf000192_0001
Figure imgf000193_0001
Figure imgf000194_0001
Figure imgf000195_0001
Figure imgf000196_0001
Figure imgf000197_0001
T AGOOATATTCTOCCOQAOTTTOTG ATTCAC A AT A AT AAGT ATTCrGCTT CGGAGAAGGAGGA A A AGACTCAGGTG ATT A A ACTGTnTCTC GGTTCGCC ACTTCTTTCAA AGaTTATTTCA A AA ATCG CGGCAACTGJ L L 11 CCGCTCAOGACATCTCCTCCTCTTCCTGCCACCGGATCGT.A AACGACAATG CCG AG ATGTTTTTT AQT a aGGCCCTTGTQT aTCGG aQGaTAGTGA AQ AGCCTGTCC A ATQ ATG A CATAAAtAAAATTTCTGCCGATATGAAGGATACCCTCAAAGAGATGACCCTTÜAAGAAATTTAC TCCTACG AG A A GT ATGGGG AGTTC ATC ACCC AGGAOGGG ATTTCCTTCT ATA ATG AC ATCTGÍT G CGAACüTGAACAÜCTTGATGAACCTGTACTGÜCAGAAGAATAACCAAAAGAAAAATCTCTACA AGCTTC A GAAGTT AC AT AAGC A GATCCTOTGTAT CGCGGATACCT CATATGA GGTTC CTTAT AA
úTTCGAGAGTGATúAAG AAGTtíTAL C AÍiTCKjTAAATGGAITCTTAGACAATATTTCGTCCAAA CATATACTOGAGAGACTGAGAAAGATCGGGGACAATTACAATGGGTACAATCTCGACAAGATT TATATCGTGTC GAAGTTTT ACGAATCT GTOAGCCAG AAAACAT ACAGOQ ATTOGGAAACC ATTA ATA CCGCGCTTGAAATTCACTACAA TAATATTCTGCCTGGCAACGG AAAAAGCAA GGCCGATAA GGTAAAAAA GGC AGTCAAAAATG A CCTTCAGAAA AGT ATCACCGAAATC AATÜ ACTTGGTGAG
t’AACT ACAAATTGTGTTCAGAOGATAATATT AAAGOGGAAACGTACAT ACATGAAATTAGCCAT ATTCTGAATA ACTTTG AGCCGC AGG A ACTT A AGT AC A ACCCTG A A ATTC ATCTCGTCG A A AGCG AATTGAAGGGCTCTGAATTGAAAAACGTTCTTGAGGTGATAATGAAGGGTTTGt’ATTCiGTÜCTCT GlUmATGACTGAAGAGCTGGTTGATAAGGAC AACAACTTTT A TGCTGAACTTGAGGAAATCT ACO A CG AQATCTAC CCTOTQATTAGCTTGTAPAACCTC GTCAQAAACTACGTTACCCAGAAGC C GTACAGCAC GAAAAAAATAAAG CTTjAACTTTGGTATTCC OACTCTCGC CG ATGGATOGAG C AAG TCQAAGÜAATATTCCAAC AATG CCATC ATT CTTATGCOAfl ACAATCTOTATTACCTCGG CATCTT TAACGCCAAAAACAA GCCGG ATAAGAAAATCATTCAAGGG AATACGAGC GAOAATAAGGGCG ACTATAAGAAAATGATCTACAACTTACnGCCAC3GTCXX: AATAAAATGATTC CTAAGGTGTTTCT GTGATCGAAAACAGGTGTAGA AACATATAAGCCCAÍjCGCATArATCCTGGAAGGC7TACAAGCA AAACAAACA CATCAAAACCAGCAAWLACTTTWlTATCACATTCTOCCACG AT CTAATCG ACTAC TTGAAAAATTGGATCÜCXIATTGACCfTGAGTGÜAAGAACrrCÜGCTTTGACTTGTL’OÜACACGAG TACCTACG A AG A C ATTTCTOGATT CTACCGTG AGGTTOA GCTGCAGCGTTA T AAA ATTG ACTO G ACATACATCAGTGAAAAAGACATtTATCTAC.TCCAÜGAGAACGÜCiCAGCTCTATCT[:TTCCAÜA TTTATAATAAGGATTTCAjGCAAGAAGTCCACnjGAAACCiACAATCTGCATACAATGTATCTTAA GAACTTGTTTAGCGA,A GA G AATTTG,AAAGATATCGTTCTAAAGTTAAACGQ GQAAGCC GAG ATT TTGTTTCGAAAGTCTTCCATTAAGAATCrAATTATTC AC A AG A AGGGC AGTATCCTGGTC A ACAG AACCTATGAGG CCGAGGAAAA G O ACCAGTTC GGT AAT ATACAAATTOTGCGC AAG AACATCCC C GAG AACATTTAC CAGClAGCTCTATAAATA CTTC AACGA CAAAAGC GATAAGGAÍXTTTCCCiAC G AGGGTGCC AaGCTGA AaA ACGTGGTGGGACACCATO A AGCAGCCACCaACATOOTCaA AGAT tatcgttatac atatgac aaatattttctgcac atgc ctattaga ataaactttaa ggcaaac AA GACCGGGTTCATCAATGACCGGATACTCCAGTACATCCiCAAAAGAGAAGGACCTCCATGTGATC GGCATOGACC GCOGTO AAA GAAAT CTCATTTACGTC AGCOTTATCG ACACTTGTG GAAAC ATTG TGGAGCAGAAGTCCTTGVtCATTGTTAACGCCTATGACTATCAGATCAAOCrCAAACACCAGGA AGOTGCTCGTCAGATTGCGAGGAAAGAATGaAAAGAGATCG GC AAOATCAAGGAGATCAAAGA AGGGTATCTGAGCTTGGTGATTCAC GAGATCTCCAAAATGGTCATCAAOTACAACGCrATTATC CCGaTCGAAGACCTCTCFTaCGGCTTTaAGAACGGGCGCTTTAAACTGCAGCGCCACGTCTATC AGAAGTTCGAGACTATÜC.TTATCAATAAGC.TÜAATTACTTGGTCTTTAACGATATCAÜTATCACC c a g a a c g g ago a c t g c t g a a a g q t t a c c a o c t c a c a t a t a t t c c c g a t a a o g tc a aga a t c t g g
Figure imgf000199_0001
Figure imgf000200_0001
Figure imgf000201_0001
Figure imgf000202_0001
Figure imgf000203_0001
Figure imgf000204_0001
Figure imgf000205_0001
Figure imgf000206_0001
Figure imgf000207_0001
CCTOGCXAAAATCTTAGCCAACCTDGCCGMíTACtiOTCTÍjATTOCAjCTTTTCATOOCCTTCACAG ATAGCA ATG AGCCG ATCGTCA AGG AGATTAa GTGGATCGA AAAGa GCCGCAATC AGAGTGTGC GGAGGCTTüGACAAAGAC ATGTTTATTC.’AüCjC.’C.’CTüGA AOGCTTCCTT AGGTGGü A AAGCTGüAA CCTGA AGGTTA AQG A AGa GTa CGA A a A AGTCGAG a a GGa QC ATa AG ACrmGGAGG AGCGC AT C AAAGAAG ACATCCAüG c c it t a a g t g t c t a g a a c a g ta tg a g a a a g a a c g g c a g g a a c a g c t GCTGCGTG ATACa CTG A ACACAA A CGAATATCOCCTCtAGCAACt AGGGGACTCAG AGOCTOO AG AGAA ATCATTCAA A AtrTGGCTCAAAATGGATG AA AATÜ AGGGGTCTtiAAAA ATACCTTGAAGTr TTCA AGGA CTACCAGCGGA A GC ACCCTAG AG AAG CCGGCGAC TAT ACtTGTTTACG AATTtTTGA GCAA GAAGGAGAATCATTTTATATGGAGG AATCACCC GC AGTACCCATATCTGTACGCAAC CTT
Ctg c g a a a tc g a c.a a g a a a a ,AAAAACLA cGCCAA GCAACAGGCTa c a ttta c tc tGGCCGAC cc TATCAATCACCCTCT ATGOG TCCG GTTTGAGGAOCOCT CCGG AAGCAATCTGAATAAATATGGT ATTCTGACrGAA C AGTTAC AC AC AGAGAAGCTC AAG AAGAAACTTACGGTGCAG CTGGAC CG C CTGATATACCCAACAO AGTCCGO AGG ATGGO AAG AGAAAOQ AAA GGTTGACATCGTACTOCTT
t c atCt G Gtc A G rn rA cAAC c ,aGa tattc c tg g a c atCg a ü Ga g a a Ggg Ga a a t acúcCttc a GATACAAGGACGAGTCCATAAAGTTCGCACTGAAGGGTACTTTAGCCGGTGCTAGCGTGCAGTT C GACC GCGATCA CCTG.AGACGGTACCC CCACAA GGTGGA GAGCGGGAACCíITjGGAC g a a tc ta c m A A T AT GACAGTGAACATTGAAC CCACAG AGAGTCCAGTTAGTAAATCC CTGAAAATTC AC CGTGACOACTTTGCGAAATTTGTGAATTTCAAGGCAAAGClAGCrTACGGAGTGGATCAAGÜATT C AAAGGOAAAGAAGCrGAAATCTGGTATCGAATCTC1-CGAGATCGCTCr CCGTOTC ATGAGCAT CGATCTGGCIACAGC GC CAGGCAGCTGCC GCCAOTATATTCGAaGTaOTAQAC CAAAAGCCTGA CATCOAGGGAAAGCTUnViiGCCAATCAAAGGCACAOAGCTGTATGCGGTGCACCGGGCGTCC TTTAATATAAAG CTGCC CGOTGAAACCCTGGTGAAG TCACGOG AGGTGCTTAG AAAAGCCCGA GAGGArAACC1-CAAACTGATGAACCAAAAACTG-AACTTTCTGAGGAACGTCCTGCACTTTCAGC AGTT CG AA GAT ATTACCG AACGCG AAAAGAGAGTAACC AAOTGGATATCTCGTCAAG A GAA CA
GtGACGTt’CCXjTTAGTGTATGAGGACGAACTCATCCAAATAOÜGGAÜTTGATUTATAAGGCCTA GA AGGATTGGGTCOCCTmCTTA AGGAGCTTC AC A AACGGCTAG AGGTCG AA ATa GGTA A AGAG GTGAAAGATTGÜGÜGAAGTCGCTCAGCGACXjGGAGGAAGGÜACTTTATGGGATCT!LTTTGAAGA ACATTGACGAAATOGATAGAACGAGAAAATTTTTGTTGAGATGGTOCC TGCGAOOCACCGAGCC TGG AG A GGTG AGGCOO TTAGAACCAG GACAG AGOTTC GCTATCOATC AGCT GAATCACCTCAAT GCTCTGAAOGAGC.ACCGCCTCAAC¡AAAAT(!C¡CCAATAC:AATCATAATGCACGOCCTTÍ¡[¡CTACT GCTACOACGTCCaAAAGAAGAAGTOaCAGGCCAAGAATCOCGCCTGTCAAATTATCCTTTTTGA GGATCTTAGC AATT. AC’A ACCCCT ATfjAACAGCGGTCC AG ATTCG A A A ATAGTAAGCTCA7GAAD TGGAGCCGC AGGGAG ATOC CQCGC C A AGTGGC CCTT CAG GOOGAAATTT ATGGGCTGCAGGTA GGOGAGGTCGGGQOÜCAATTdlCCTOGCGCTTTCATGíOCiAAAAJCTiGGAAGTCCrGGAATOCGGT GC TC AGTGGTGAC AAA GGA GAAGTTQC AAGACAATCGG l"J1J T H 'AAAAACTTAC AG CGGGAGG GAAGGCTGACC CTGGATAAGATAG CCGTACTTAAGGAA GCAGATCTCíTAC C CTGACAAA GGCG GrGAAAAGrKATTAGCITGAGCAAGGACCG AAAACTTGTGAC C AC CC ACGCTGAC ATCAATGC C¡GCA CAGAACCTGCAOAAGAGATTTTGGACTCQCACCC AC GGATTCTACAAAGTTTACTGC AAA GCATATCAAGTAGA CGGACAGAC C GTATACATC CCCGAGTC C AAAGATCAGAAGCAfiAAAATT ATTGAAGAOrTTOOGGAAGGGTACTTT ATOCTOAAQGATGGTGTCTACGAATGGQGCAADGCTG G T A A A C T T A A A A TTA A G A A G G G C A G C T GT A .A A C A G TC CT C C A G C G A G T T A C T T G A T T C TG AT A T TCTGAA AGACAGTTTCXjACCTGGCCAGDGAACTT AAAGQGGAAAAATT aatg ctg taccg g g ac
Figure imgf000209_0001
Figure imgf000210_0001
Figure imgf000211_0001
Figure imgf000212_0001
Figure imgf000213_0001
Figure imgf000214_0001
Figure imgf000215_0001
Figure imgf000216_0001
Figure imgf000217_0001
Figure imgf000218_0001
Figure imgf000219_0001
*
Figure imgf000220_0001
Figure imgf000221_0001
Figure imgf000222_0001
Figure imgf000223_0001
Figure imgf000224_0001
Figure imgf000225_0001
Figure imgf000226_0001

Claims (13)

REIVINDICACIONESi . Un método de ingeniería genómica, el método comprende:a) poner en contacto una población de células con un polinucleótido, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa guiada por ácido nucleico, en donde el polinucleótido comprende
1) un casete de edición que comprende: i) una primera secuencia de ácido nucleico diana modificada; ii) una primera mutación del motivo adyacente al protoespaciador (PAM), en donde la nucleasa guiada por ácido nucleico no reconoce la mutación PAM; iii) una primera secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la primera secuencia de ácido nucleico guía comprende una primera región espaciadora complementaria a una porción del primer ácido nucleico diana y compatible con la nucleasa guiada por ácido nucleico, y en donde la primera región espaciadora es suficientemente complementaria a la porción del primer ácido nucleico diana para hibridar y reclutar la nucleasa guiada por ácido nucleico; y iv) brazos de homología que flanquean la primera secuencia de ácido nucleico diana modificada, en donde los brazos de homología permiten la incorporación de la primera secuencia de ácido nucleico diana modificada en el primer ácido nucleico diana mediante recombinación homóloga o reparación impulsada por homología; y
2) un casete grabador que comprende: i) un código de barras flanqueado por brazos de homología, en donde los brazos de homología permiten la incorporación del código de barras en el segundo ácido nucleico diana mediante recombinación homóloga o reparación impulsada por homología, y en donde el código de barras identifica de forma única la primera secuencia de ácido nucleico diana modificada; y ii) una segunda secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la segunda secuencia de ácido nucleico guía comprende una segunda región espaciadora complementaria a una porción del segundo ácido nucleico diana y compatible con la nucleasa guiada por ácido nucleico, y en donde la segunda región espaciadora es suficientemente complementaria a la porción del segundo ácido nucleico diana para hibridar y reclutar la nucleasa guiada por ácido nucleico; y
b) permitir que la primera secuencia de ácido nucleico guía, la segunda secuencia de ácido nucleico guía y la nucleasa guiada por ácido nucleico creen una edición del genoma dentro del primer ácido nucleico diana y el segundo ácido nucleico diana;
y en donde el método no es un método para modificar la identidad genética de la línea germinal de los seres humanos.
2. El método de la reivindicación 1, que comprende además c) secuenciar una porción del código de barras, para identificar de esta manera el primer ácido nucleico diana modificado que se insertó dentro del primer ácido nucleico diana en la etapa a).
3. El método de la reivindicación 1 o la reivindicación 2, en donde la nucleasa guiada por ácido nucleico comprende la secuencia de aminoácidos de la SEQ ID No. 2.
4. El método de la reivindicación 1 o la reivindicación 2, en donde la nucleasa guiada por ácido nucleico comprende la secuencia de aminoácidos de la SEQ ID No. 7.
5. Un método para identificar células genomanipuladas, el método comprende:
a) proporcionar células, en donde cada célula comprende un primer ácido nucleico diana, un segundo ácido nucleico diana y una nucleasa dirigida;
b) introducir en las células un polinucleótido que comprende:
1) un primer ácido nucleico donante que comprende: i) una secuencia de ácido nucleico diana modificada; ii) una secuencia mutante del motivo adyacente al protoespaciador (PAM); y iii) una primera secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la primera secuencia de ácido nucleico guía comprende una primera secuencia guía complementaria a una porción del primer ácido nucleico diana, y en donde la primera secuencia guía es suficientemente complementaria a la porción del primer ácido nucleico diana para hibridar y reclutar la nucleasa dirigida; y iv) brazos de homología que flanquean la secuencia de ácido nucleico diana modificada, en donde los brazos de homología permiten la incorporación de la secuencia de ácido nucleico diana modificada en el primer ácido nucleico diana mediante recombinación homóloga o reparación impulsada por homología; y
2) un segundo ácido nucleico donante que comprende i) un código de barras flanqueado por brazos de homología, en donde los brazos de homología permiten la incorporación del código de barras en el segundo ácido nucleico diana mediante recombinación homóloga o reparación dirigida por homología, y en donde el código de barras identifica de forma única la secuencia de ácido nucleico diana modificada; y ii) una segunda secuencia de ácido nucleico guía unida operativamente a un promotor, en donde la segunda secuencia de ácido nucleico guía comprende una segunda secuencia guía complementaria a una porción del segundo ácido nucleico diana y en donde la segunda secuencia guía es suficientemente complementaria a la porción del segundo ácido nucleico diana para hibridar y reclutar la nucleasa dirigida;
c) escindir el primer ácido nucleico diana mediante la nucleasa dirigida en células que no comprenden la secuencia PAM mutante, y enriquecer de esta manera las células que comprenden la secuencia de ácido nucleico diana modificada;
d) repetir las etapas a)-c) al menos una vez mediante el uso de las células enriquecidas en la etapa c) como las células para la etapa a) de la siguiente ronda, en donde el código de barras de cada ronda se incorpora adyacente al código de barras de la ronda anterior, de esta manera se genera una matriz de secuencias de grabación que comprende una pluralidad de códigos de barras trazables;
e) secuenciar la secuencia de grabación, para identificar de esta manera células genomanipuladas que comprenden una combinación deseada de ácidos nucleicos diana modificados;
y en donde el método no es un método para modificar la identidad genética de la línea germinal de los seres humanos.
6. El método de la reivindicación 5, en donde secuenciar la matriz de secuencias de grabación comprende obtener información de secuencia para cada uno de la pluralidad de códigos de barras dentro de una única lectura de secuencia.
7. El método de la reivindicación 5, en donde el segundo ácido nucleico donante comprende además una segunda secuencia de PAM mutante.
8. El método de la reivindicación 5, en donde las etapas a)-c) se repiten al menos dos veces.
9. El método de una cualquiera de las reivindicaciones 5 a 8, en donde la nucleasa guiada por ácido nucleico comprende la secuencia de aminoácidos de la SEQ ID No. 2.
10. El método de una cualquiera de las reivindicaciones 5 a 8, en donde la nucleasa guiada por ácido nucleico comprende la secuencia de aminoácidos de la SEQ ID No. 7.
11. El método de una cualquiera de las reivindicaciones 1-4, en donde la región espaciadora tiene una longitud de 10-36 nucleótidos.
12. El método de una cualquiera de las reivindicaciones 1-11, en donde las células son células eucariotas.
13. El método de una cualquiera de las reivindicaciones 1-11, en donde las células son células procariotas.
ES17816357T 2016-06-24 2017-06-23 Métodos para generar bibliotecas combinatorias con código de barras Active ES2915562T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662354516P 2016-06-24 2016-06-24
US201662367386P 2016-07-27 2016-07-27
US201762483930P 2017-04-10 2017-04-10
PCT/US2017/039146 WO2017223538A1 (en) 2016-06-24 2017-06-23 Methods for generating barcoded combinatorial libraries

Publications (1)

Publication Number Publication Date
ES2915562T3 true ES2915562T3 (es) 2022-06-23

Family

ID=60676029

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17816357T Active ES2915562T3 (es) 2016-06-24 2017-06-23 Métodos para generar bibliotecas combinatorias con código de barras

Country Status (10)

Country Link
US (5) US10017760B2 (es)
EP (1) EP3474669B1 (es)
JP (1) JP2019518478A (es)
CN (1) CN109688820B (es)
AU (1) AU2017280353B2 (es)
CA (1) CA3029254A1 (es)
DK (1) DK3474669T3 (es)
ES (1) ES2915562T3 (es)
LT (1) LT3474669T (es)
WO (1) WO2017223538A1 (es)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015217208B2 (en) 2014-02-11 2018-08-30 The Regents Of The University Of Colorado, A Body Corporate CRISPR enabled multiplexed genome engineering
US9988624B2 (en) 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
US11208649B2 (en) 2015-12-07 2021-12-28 Zymergen Inc. HTP genomic engineering platform
WO2017100376A2 (en) 2015-12-07 2017-06-15 Zymergen, Inc. Promoters from corynebacterium glutamicum
US20190300864A1 (en) * 2016-05-20 2019-10-03 Braingene Ab Destabilising domains for conditionally stabilising a protein
US10337051B2 (en) 2016-06-16 2019-07-02 The Regents Of The University Of California Methods and compositions for detecting a target RNA
US11293021B1 (en) 2016-06-23 2022-04-05 Inscripta, Inc. Automated cell processing methods, modules, instruments, and systems
WO2017223538A1 (en) 2016-06-24 2017-12-28 The Regents Of The University Of Colorado, A Body Corporate Methods for generating barcoded combinatorial libraries
JP2019519242A (ja) 2016-06-30 2019-07-11 ザイマージェン インコーポレイテッド 細菌ヘモグロビンライブラリーを生成するための方法およびその使用
EP3478845A4 (en) 2016-06-30 2019-07-31 Zymergen, Inc. METHODS OF PRODUCING A GLUCOSE PERMEASE BANK AND USES THEREOF
ES2817973T3 (es) 2016-07-01 2021-04-08 Microsoft Technology Licensing Llc Almacenamiento a través de la edición iterativa del ADN
US10892034B2 (en) 2016-07-01 2021-01-12 Microsoft Technology Licensing, Llc Use of homology direct repair to record timing of a molecular event
US11359234B2 (en) 2016-07-01 2022-06-14 Microsoft Technology Licensing, Llc Barcoding sequences for identification of gene expression
US20180004537A1 (en) * 2016-07-01 2018-01-04 Microsoft Technology Licensing, Llc Molecular State Machines
CA3034110A1 (en) * 2016-08-17 2018-02-22 Katholieke Universiteit Leuven Drug-target identification by rapid selection of drug resistance mutations
JP2019532644A (ja) 2016-09-30 2019-11-14 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア Rna誘導型核酸修飾酵素及びその使用方法
CN110418647A (zh) 2016-09-30 2019-11-05 加利福尼亚大学董事会 Rna指导的核酸修饰酶及其使用方法
JP7136816B2 (ja) * 2017-06-23 2022-09-13 インスクリプタ, インコーポレイテッド 核酸誘導型ヌクレアーゼ
US10011849B1 (en) 2017-06-23 2018-07-03 Inscripta, Inc. Nucleic acid-guided nucleases
US9982279B1 (en) 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases
US20190002874A1 (en) 2017-06-30 2019-01-03 Inscripta, Inc. Cell libraries created using rationally designed nucleic acids
US10738327B2 (en) 2017-08-28 2020-08-11 Inscripta, Inc. Electroporation cuvettes for automation
WO2019055878A2 (en) * 2017-09-15 2019-03-21 The Board Of Trustees Of The Leland Stanford Junior University MULTIPLEX PRODUCTION AND BAR CODIFICATION OF GENETICALLY MODIFIED CELLS
AU2018338990B2 (en) 2017-09-30 2022-06-23 Inscripta, Inc. Flow through electroporation instrumentation
US11970719B2 (en) 2017-11-01 2024-04-30 The Regents Of The University Of California Class 2 CRISPR/Cas compositions and methods of use
WO2019089820A1 (en) 2017-11-01 2019-05-09 The Regents Of The University Of California Casz compositions and methods of use
WO2019152932A1 (en) * 2018-02-05 2019-08-08 The Regents Of The University Of Colorado, A Body Corporate Construction and methods of use of a barcoded and gene edited dna library
US10443031B1 (en) 2018-03-29 2019-10-15 Inscripta, Inc. Methods for controlling the growth of prokaryotic and eukaryotic cells
WO2019195701A1 (en) * 2018-04-05 2019-10-10 Massachusetts Eye And Ear Infirmary Methods of making and using combinatorial barcoded nucleic acid libraries having defined variation
US10376889B1 (en) 2018-04-13 2019-08-13 Inscripta, Inc. Automated cell processing instruments comprising reagent cartridges
US10508273B2 (en) 2018-04-24 2019-12-17 Inscripta, Inc. Methods for identifying selective binding pairs
US10557216B2 (en) 2018-04-24 2020-02-11 Inscripta, Inc. Automated instrumentation for production of T-cell receptor peptide libraries
US10858761B2 (en) 2018-04-24 2020-12-08 Inscripta, Inc. Nucleic acid-guided editing of exogenous polynucleotides in heterologous cells
CN114854720A (zh) 2018-06-30 2022-08-05 因思科瑞普特公司 用于改进活细胞中编辑序列的检测的仪器、模块和方法
WO2020011985A1 (en) * 2018-07-12 2020-01-16 Keygene N.V. Type v crispr/nuclease-system for genome editing in plant cells
EP3830301A1 (en) 2018-08-01 2021-06-09 Mammoth Biosciences, Inc. Programmable nuclease compositions and methods of use thereof
US10532324B1 (en) 2018-08-14 2020-01-14 Inscripta, Inc. Instruments, modules, and methods for improved detection of edited sequences in live cells
US11142740B2 (en) 2018-08-14 2021-10-12 Inscripta, Inc. Detection of nuclease edited sequences in automated modules and instruments
US10752874B2 (en) 2018-08-14 2020-08-25 Inscripta, Inc. Instruments, modules, and methods for improved detection of edited sequences in live cells
US20210309981A1 (en) * 2018-08-22 2021-10-07 Junjie Liu Variant type v crispr/cas effector polypeptides and methods of use thereof
US11718847B2 (en) * 2018-08-29 2023-08-08 Agilent Technologies, Inc. Amplifying oligonucleotides and producing libraries of dual guide constructs
CA3108892A1 (en) 2018-08-30 2020-04-23 Inscripta, Inc. Improved detection of nuclease edited sequences in automated modules and instruments
EP3861112A4 (en) * 2018-10-04 2022-09-21 The Regents of the University of Colorado, A Body Corporate MODIFIED CHIMERIC NUCLEIC ACID GUIDED NUCLEASE CONSTRUCTS AND THEIR USES
US11214781B2 (en) 2018-10-22 2022-01-04 Inscripta, Inc. Engineered enzyme
WO2020086475A1 (en) 2018-10-22 2020-04-30 Inscripta, Inc. Engineered enzymes
EP3874509A1 (en) * 2018-11-03 2021-09-08 BlueAllele Corporation Methods for comparing efficacy of donor molecules
EP3931313A2 (en) 2019-01-04 2022-01-05 Mammoth Biosciences, Inc. Programmable nuclease improvements and compositions and methods for nucleic acid amplification and detection
CA3129265A1 (en) * 2019-02-08 2020-08-13 The Board Of Trustees Of The Leland Stanford Junor University Production and tracking of engineered cells with combinatorial genetic modifications
US11001831B2 (en) 2019-03-25 2021-05-11 Inscripta, Inc. Simultaneous multiplex genome editing in yeast
US10815467B2 (en) 2019-03-25 2020-10-27 Inscripta, Inc. Simultaneous multiplex genome editing in yeast
EP3958671A4 (en) * 2019-04-24 2023-01-18 Spotlight Therapeutics METHODS AND COMPOSITIONS RELATED TO NUCLEIC ACID-GUIDED NUCLEASE CELL TARGETING SCREENING
CN113939593A (zh) 2019-06-06 2022-01-14 因思科瑞普特公司 用于递归的核酸指导的细胞编辑的处治
CN114375334A (zh) 2019-06-07 2022-04-19 斯克里贝治疗公司 工程化CasX系统
JP2022538789A (ja) * 2019-06-14 2022-09-06 アーバー バイオテクノロジーズ, インコーポレイテッド 新規crispr dnaターゲティング酵素及びシステム
US10907125B2 (en) 2019-06-20 2021-02-02 Inscripta, Inc. Flow through electroporation modules and instrumentation
CA3139124C (en) 2019-06-21 2023-01-31 Inscripta, Inc. Genome-wide rationally-designed mutations leading to enhanced lysine production in e. coli
US10927385B2 (en) 2019-06-25 2021-02-23 Inscripta, Inc. Increased nucleic-acid guided cell editing in yeast
WO2021050593A1 (en) 2019-09-09 2021-03-18 Scribe Therapeutics Inc. Compositions and methods for the targeting of sod1
US20230081117A1 (en) * 2019-09-09 2023-03-16 Scribe Therapeutics Inc. Compositions and methods for use in immunotherapy
JP2022547699A (ja) * 2019-09-12 2022-11-15 グラクソスミスクライン、インテレクチュアル、プロパティー、ディベロップメント、リミテッド ライブラリーのスクリーニング方法
WO2021071746A1 (en) * 2019-10-10 2021-04-15 Inscripta, Inc. Split crispr nuclease tethering system
CN115052980A (zh) * 2019-11-18 2022-09-13 上海蓝十字医学科学研究所 衍生自黄杆菌的基因编辑系统
WO2021102059A1 (en) 2019-11-19 2021-05-27 Inscripta, Inc. Methods for increasing observed editing in bacteria
WO2021113763A1 (en) 2019-12-06 2021-06-10 Scribe Therapeutics Inc. Compositions and methods for the targeting of rhodopsin
WO2021118626A1 (en) 2019-12-10 2021-06-17 Inscripta, Inc. Novel mad nucleases
US10704033B1 (en) * 2019-12-13 2020-07-07 Inscripta, Inc. Nucleic acid-guided nucleases
EP4069851A4 (en) 2019-12-18 2023-11-22 Inscripta, Inc. CASCADE/DCAS3 COMPLEMENTATION ASSAYS FOR IN VIVO DETECTION OF NUCLEIC ACID-GUIDED NUCLEASE-MODIFIED CELLS
WO2021133870A2 (en) * 2019-12-24 2021-07-01 Asklepios Biopharmaceutical, Inc. Method for identifying regulatory elements conformationally
US10689669B1 (en) 2020-01-11 2020-06-23 Inscripta, Inc. Automated multi-module cell processing methods, instruments, and systems
AU2021205422A1 (en) * 2020-01-11 2022-09-08 Inscripta, Inc. Cell populations with rationally designed edits
CA3157061A1 (en) 2020-01-27 2021-08-05 Christian SILTANEN Electroporation modules and instrumentation
US20210317444A1 (en) * 2020-04-08 2021-10-14 Inscripta, Inc. System and method for gene editing cassette design
WO2021211972A1 (en) * 2020-04-16 2021-10-21 Zymergen Inc. Circular-permuted nucleic acids for homology-directed editing
US20210332388A1 (en) 2020-04-24 2021-10-28 Inscripta, Inc. Compositions, methods, modules and instruments for automated nucleic acid-guided nuclease editing in mammalian cells
US11787841B2 (en) 2020-05-19 2023-10-17 Inscripta, Inc. Rationally-designed mutations to the thrA gene for enhanced lysine production in E. coli
WO2021247942A2 (en) * 2020-06-04 2021-12-09 Inscripta, Inc. Methods and compositions for crispr editing of cells and correlating the edits to a resulting cellular nucleic acid profile
JP7419168B2 (ja) 2020-06-10 2024-01-22 株式会社東芝 改変型piggyBacトランスポゼースのポリペプチド、それをコードするポリヌクレオチド、導入キャリア、キット、細胞のゲノムに目的配列を組込む方法及び細胞製造方法
EP4165180A2 (en) * 2020-06-16 2023-04-19 Bio-Techne Corporation Engineered mad7 directed endonuclease
WO2022060749A1 (en) * 2020-09-15 2022-03-24 Inscripta, Inc. Crispr editing to embed nucleic acid landing pads into genomes of live cells
WO2022072878A1 (en) * 2020-10-02 2022-04-07 Inscripta, Inc. Methods and systems for modeling of design representation in a library of editing cassettes
US11512297B2 (en) 2020-11-09 2022-11-29 Inscripta, Inc. Affinity tag for recombination protein recruitment
EP4271802A1 (en) 2021-01-04 2023-11-08 Inscripta, Inc. Mad nucleases
EP4274890A1 (en) 2021-01-07 2023-11-15 Inscripta, Inc. Mad nucleases
US11884924B2 (en) 2021-02-16 2024-01-30 Inscripta, Inc. Dual strand nucleic acid-guided nickase editing
KR20230134617A (ko) * 2021-03-09 2023-09-21 일루미나, 인코포레이티드 세포에서 단백질-코딩 변이체의 발현 분석
WO2022226085A1 (en) * 2021-04-20 2022-10-27 The Board Of Trustees Of The Leland Stanford Junior University Compressive molecular probes for genomic editing and tracking
EP4351660A2 (en) 2021-06-09 2024-04-17 Scribe Therapeutics Inc. Particle delivery systems
WO2023288018A2 (en) * 2021-07-14 2023-01-19 Ultima Genomics, Inc. Barcode selection
CA3229467A1 (en) * 2021-09-02 2023-03-09 Wei Chen Multiplex, temporally resolved molecular signal recorder and related methods
WO2023076134A1 (en) * 2021-10-26 2023-05-04 Inscripta, Inc. Processes for measuring strain fitness and/or genotype selection in bioreactors
CN114022491B (zh) * 2021-10-27 2022-05-10 安徽医科大学 基于改进空间金字塔模型的小数据集食管癌肿瘤靶区影像自动勾画方法
WO2023137233A2 (en) * 2022-01-17 2023-07-20 Danmarks Tekniske Universitet Compositions and methods for editing genomes

Family Cites Families (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1001760A (en) 1911-03-16 1911-08-29 William F Mcgregor Floating fish-trap.
US1001184A (en) 1911-04-20 1911-08-22 Charles M Coover Non-slipping device.
US6562594B1 (en) 1999-09-29 2003-05-13 Diversa Corporation Saturation mutagenesis in directed evolution
US20030044866A1 (en) 2001-08-15 2003-03-06 Charles Boone Yeast arrays, methods of making such arrays, and methods of analyzing such arrays
AU2003251549B2 (en) 2002-06-14 2008-03-13 Bp Corporation North America Inc. Xylanases, nucleic acids encoding them and methods for making and using them
JP4447977B2 (ja) 2004-06-30 2010-04-07 富士通マイクロエレクトロニクス株式会社 セキュアプロセッサ、およびセキュアプロセッサ用プログラム。
ATE473637T1 (de) 2005-08-26 2010-07-15 Danisco Verwendung der crispr assoziierten gene (cas)
ES2610811T3 (es) 2006-06-16 2017-05-03 Dupont Nutrition Biosciences Aps Bacteria Streptococcus thermophilus
WO2008052101A2 (en) 2006-10-25 2008-05-02 President And Fellows Of Harvard College Multiplex automated genome engineering
US9309511B2 (en) 2007-08-28 2016-04-12 The Johns Hopkins University Functional assay for identification of loss-of-function mutations in genes
US20140121118A1 (en) 2010-11-23 2014-05-01 Opx Biotechnologies, Inc. Methods, systems and compositions regarding multiplex construction protein amino-acid substitutions and identification of sequence-activity relationships, to provide gene replacement such as with tagged mutant genes, such as via efficient homologous recombination
US20150368639A1 (en) 2011-04-14 2015-12-24 Ryan T. Gill Compositions, methods and uses for multiplex protein sequence activity relationship mapping
AU2012354062B2 (en) 2011-12-16 2017-09-07 Targetgene Biotechnologies Ltd Compositions and methods for modifying a predetermined target nucleic acid sequence
US9637739B2 (en) 2012-03-20 2017-05-02 Vilnius University RNA-directed DNA cleavage by the Cas9-crRNA complex
US10266850B2 (en) 2012-05-25 2019-04-23 The Regents Of The University Of California Methods and compositions for RNA-directed target DNA modification and for RNA-directed modulation of transcription
KR102437522B1 (ko) 2012-05-25 2022-08-26 셀렉티스 면역요법을 위한 동종이형 및 면역억제제 저항성인 t 세포의 조작 방법
WO2014022702A2 (en) 2012-08-03 2014-02-06 The Regents Of The University Of California Methods and compositions for controlling gene expression by rna processing
KR102052286B1 (ko) 2012-10-23 2019-12-06 주식회사 툴젠 표적 DNA에 특이적인 가이드 RNA 및 Cas 단백질을 암호화하는 핵산 또는 Cas 단백질을 포함하는, 표적 DNA를 절단하기 위한 조성물 및 이의 용도
DK3138912T3 (en) 2012-12-06 2019-01-21 Sigma Aldrich Co Llc CRISPR-BASED RE-MODIFICATION AND REGULATION
EP2932421A1 (en) 2012-12-12 2015-10-21 The Broad Institute, Inc. Methods, systems, and apparatus for identifying target sequences for cas enzymes or crispr-cas systems for target sequences and conveying results thereof
DK3252160T3 (da) 2012-12-12 2021-02-01 Broad Inst Inc Systemer, fremgangsmåder og sammensætninger med crispr-cas-bestanddele til sekvensmanipulation
JP2016504026A (ja) 2012-12-12 2016-02-12 ザ・ブロード・インスティテュート・インコーポレイテッド 配列操作のための系、方法および最適化ガイド組成物のエンジニアリング
RU2721275C2 (ru) 2012-12-12 2020-05-18 Те Брод Инститьют, Инк. Доставка, конструирование и оптимизация систем, способов и композиций для манипуляции с последовательностями и применения в терапии
ES2576126T3 (es) 2012-12-12 2016-07-05 The Broad Institute, Inc. Modificación por tecnología genética y optimización de sistemas, métodos y composiciones enzimáticas mejorados para la manipulación de secuencias
US8697359B1 (en) 2012-12-12 2014-04-15 The Broad Institute, Inc. CRISPR-Cas systems and methods for altering expression of gene products
WO2014099750A2 (en) 2012-12-17 2014-06-26 President And Fellows Of Harvard College Rna-guided human genome engineering
EP2943579B1 (en) 2013-01-10 2018-09-12 Dharmacon, Inc. Libraries and methods for generating molecules
AU2014207618A1 (en) 2013-01-16 2015-08-06 Emory University Cas9-nucleic acid complexes and uses related thereto
WO2014143381A1 (en) 2013-03-09 2014-09-18 Agilent Technologies, Inc. Methods of in vivo engineering of large sequences using multiple crispr/cas selections of recombineering events
JP2016519652A (ja) 2013-03-14 2016-07-07 カリブー・バイオサイエンシーズ・インコーポレイテッド 核酸ターゲティング核酸の組成物および方法
US9234213B2 (en) 2013-03-15 2016-01-12 System Biosciences, Llc Compositions and methods directed to CRISPR/Cas genomic engineering systems
BR112015023489B1 (pt) 2013-03-15 2022-06-07 The General Hospital Corporation Métodos para aumentar a especificidade de edição de genoma orientado por rna em uma célula, de indução de uma ruptura em uma região alvo de uma molécula de dna de fita dupla em uma célula e de modificação de uma região alvo de uma molécula de dna de fita dupla em uma célula
JP2016522679A (ja) 2013-04-04 2016-08-04 プレジデント アンド フェローズ オブ ハーバード カレッジ CRISPR/Cas系を用いたゲノム編集の治療的使用
EP3309248B1 (en) 2013-05-29 2021-06-09 Cellectis Methods for engineering t cells for immunotherapy by using rna-guided cas nuclease system
WO2014204725A1 (en) * 2013-06-17 2014-12-24 The Broad Institute Inc. Optimized crispr-cas double nickase systems, methods and compositions for sequence manipulation
CN105518144A (zh) 2013-07-09 2016-04-20 哈佛大学校长及研究员协会 多重rna向导的基因组工程
PT3019619T (pt) 2013-07-11 2021-11-11 Modernatx Inc Composições que compreendem polinucleótidos sintéticos que codificam proteínas relacionadas com crispr e sgarn sintéticos e métodos de utilização
US10563225B2 (en) 2013-07-26 2020-02-18 President And Fellows Of Harvard College Genome engineering
EP3027754B1 (en) 2013-08-02 2022-03-02 enEvolv, Inc. Processes and host cells for genome, pathway, and biomolecular engineering
US20150044192A1 (en) 2013-08-09 2015-02-12 President And Fellows Of Harvard College Methods for identifying a target site of a cas9 nuclease
US10760065B2 (en) 2013-09-05 2020-09-01 Massachusetts Institute Of Technology Tuning microbial populations with programmable nucleases
EP3988649A1 (en) 2013-09-18 2022-04-27 Kymab Limited Methods, cells and organisms
WO2015048690A1 (en) 2013-09-27 2015-04-02 The Regents Of The University Of California Optimized small guide rnas and methods of use
US20160237455A1 (en) 2013-09-27 2016-08-18 Editas Medicine, Inc. Crispr-related methods and compositions
US20150098954A1 (en) 2013-10-08 2015-04-09 Elwha Llc Compositions and Methods Related to CRISPR Targeting
WO2015069682A2 (en) 2013-11-05 2015-05-14 President And Fellows Of Harvard College Precise microbiota engineering at the cellular level
WO2015068785A1 (ja) 2013-11-06 2015-05-14 国立大学法人広島大学 核酸挿入用ベクター
US11326209B2 (en) 2013-11-07 2022-05-10 Massachusetts Institute Of Technology Cell-based genomic recorded accumulative memory
CA2930877A1 (en) 2013-11-18 2015-05-21 Crispr Therapeutics Ag Crispr-cas system materials and methods
US9074199B1 (en) 2013-11-19 2015-07-07 President And Fellows Of Harvard College Mutant Cas9 proteins
SG10201700961TA (en) 2013-12-11 2017-04-27 Regeneron Pharma Methods and compositions for the targeted modification of a genome
AU2014362248A1 (en) 2013-12-12 2016-06-16 Massachusetts Institute Of Technology Compositions and methods of use of CRISPR-Cas systems in nucleotide repeat disorders
US10787654B2 (en) 2014-01-24 2020-09-29 North Carolina State University Methods and compositions for sequence guiding Cas9 targeting
AU2015217208B2 (en) 2014-02-11 2018-08-30 The Regents Of The University Of Colorado, A Body Corporate CRISPR enabled multiplexed genome engineering
CN113215219A (zh) 2014-02-13 2021-08-06 宝生物工程(美国) 有限公司 从核酸的初始集合中耗尽靶分子的方法、以及用于实践其的组合物和试剂盒
US10507232B2 (en) 2014-04-02 2019-12-17 University Of Florida Research Foundation, Incorporated Materials and methods for the treatment of latent viral infection
GB201406970D0 (en) 2014-04-17 2014-06-04 Green Biologics Ltd Targeted mutations
GB201406968D0 (en) 2014-04-17 2014-06-04 Green Biologics Ltd Deletion mutants
WO2015168600A2 (en) 2014-05-02 2015-11-05 Tufts University Methods and apparatus for transformation of naturally competent cells
JP2017517256A (ja) 2014-05-20 2017-06-29 リージェンツ オブ ザ ユニバーシティ オブ ミネソタ 遺伝子配列を編集する方法
WO2015183025A1 (ko) 2014-05-28 2015-12-03 주식회사 툴젠 표적 특이적 뉴클레아제를 이용한 표적 dna의 민감한 검출 방법
WO2015188065A1 (en) 2014-06-05 2015-12-10 Sangamo Biosciences, Inc. Methods and compositions for nuclease design
CA2951707A1 (en) 2014-06-10 2015-12-17 Massachusetts Institute Of Technology Method for gene editing
JP2017518082A (ja) 2014-06-17 2017-07-06 ポセイダ セラピューティクス, インコーポレイテッド ゲノム中の特異的遺伝子座にタンパク質を指向させるための方法およびその使用
US20150376587A1 (en) 2014-06-25 2015-12-31 Caribou Biosciences, Inc. RNA Modification to Engineer Cas9 Activity
GB201411344D0 (en) 2014-06-26 2014-08-13 Univ Leicester Cloning
EP3169776A4 (en) 2014-07-14 2018-07-04 The Regents of The University of California Crispr/cas transcriptional modulation
US20160053304A1 (en) 2014-07-18 2016-02-25 Whitehead Institute For Biomedical Research Methods Of Depleting Target Sequences Using CRISPR
US20160053272A1 (en) 2014-07-18 2016-02-25 Whitehead Institute For Biomedical Research Methods Of Modifying A Sequence Using CRISPR
US20160076093A1 (en) 2014-08-04 2016-03-17 University Of Washington Multiplex homology-directed repair
EP4194557A1 (en) 2014-08-06 2023-06-14 Institute for Basic Science Genome editing using campylobacter jejuni crispr/cas system-derived rgen
US10513711B2 (en) 2014-08-13 2019-12-24 Dupont Us Holding, Llc Genetic targeting in non-conventional yeast using an RNA-guided endonuclease
WO2016040594A1 (en) 2014-09-10 2016-03-17 The Regents Of The University Of California Reconstruction of ancestral cells by enzymatic recording
EP3998344A1 (en) 2014-10-09 2022-05-18 Life Technologies Corporation Crispr oligonucleotides and gene editing
CN107429246B (zh) 2014-10-31 2021-06-01 麻省理工学院 用于crispr的大规模并行组合遗传学
JP7068821B2 (ja) 2014-12-03 2022-05-17 アジレント・テクノロジーズ・インク 化学修飾を有するガイドrna
CA2971391C (en) 2014-12-17 2023-05-09 E. I. Du Pont De Nemours And Company Compositions and methods for efficient gene editing in e. coli using guide rna/cas endonuclease systems in combination with circular polynucleotide modification templates.
WO2016100955A2 (en) 2014-12-20 2016-06-23 Identifygenomics, Llc Compositions and methods for targeted depletion, enrichment, and partitioning of nucleic acids using crispr/cas system proteins
GB201506509D0 (en) 2015-04-16 2015-06-03 Univ Wageningen Nuclease-mediated genome editing
AU2016263026A1 (en) 2015-05-15 2017-11-09 Pioneer Hi-Bred International, Inc. Guide RNA/Cas endonuclease systems
US9790490B2 (en) 2015-06-18 2017-10-17 The Broad Institute Inc. CRISPR enzymes and systems
CN109536474A (zh) 2015-06-18 2019-03-29 布罗德研究所有限公司 降低脱靶效应的crispr酶突变
JP2018519811A (ja) 2015-06-29 2018-07-26 アイオーニス ファーマシューティカルズ, インコーポレーテッドIonis Pharmaceuticals,Inc. 修飾crispr rna及び修飾単一crispr rnaならびにその使用
WO2017015015A1 (en) 2015-07-17 2017-01-26 Emory University Crispr-associated protein from francisella and uses related thereto
US20180208945A1 (en) 2015-07-28 2018-07-26 Danisco Us Inc. Genome editing systems and methods of use
US11339408B2 (en) 2015-08-20 2022-05-24 Applied Stemcell, Inc. Nuclease with enhanced efficiency of genome editing
CN108350454B (zh) 2015-09-21 2022-05-10 阿克丘勒斯治疗公司 等位基因选择性基因编辑及其用途
WO2017053713A1 (en) 2015-09-25 2017-03-30 Tarveda Therapeutics, Inc. Compositions and methods for genome editing
ES2840648T3 (es) 2015-10-22 2021-07-07 Inst Nat Sante Rech Med Generación de código de barras de endonucleasa
WO2017070598A1 (en) 2015-10-23 2017-04-27 Caribou Biosciences, Inc. Engineered crispr class 2 cross-type nucleic-acid targeting nucleic acids
US11905521B2 (en) 2015-11-17 2024-02-20 The Chinese University Of Hong Kong Methods and systems for targeted gene manipulation
CN108699597A (zh) 2015-11-26 2018-10-23 DNAe集团控股有限公司 单分子对照
CA3088654C (en) 2015-12-07 2021-05-18 Zymergen Inc. Microbial strain improvement by a htp genomic engineering platform
WO2017100343A1 (en) 2015-12-07 2017-06-15 Arc Bio, Llc Methods and compositions for the making and using of guide nucleic acids
US9988624B2 (en) 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
WO2017109167A2 (en) 2015-12-24 2017-06-29 B.R.A.I.N. Ag Reconstitution of dna-end repair pathway in prokaryotes
WO2017223538A1 (en) 2016-06-24 2017-12-28 The Regents Of The University Of Colorado, A Body Corporate Methods for generating barcoded combinatorial libraries
US10011849B1 (en) 2017-06-23 2018-07-03 Inscripta, Inc. Nucleic acid-guided nucleases
US9982279B1 (en) 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases

Also Published As

Publication number Publication date
US10287575B2 (en) 2019-05-14
CN109688820B (zh) 2023-01-10
AU2017280353B2 (en) 2021-11-11
AU2017280353A1 (en) 2019-01-24
US10017760B2 (en) 2018-07-10
US20180230460A1 (en) 2018-08-16
CN109688820A (zh) 2019-04-26
DK3474669T3 (da) 2022-06-27
US10294473B2 (en) 2019-05-21
JP2019518478A (ja) 2019-07-04
WO2017223538A9 (en) 2018-07-19
CA3029254A1 (en) 2017-12-28
EP3474669A4 (en) 2019-05-08
US20170369870A1 (en) 2017-12-28
WO2017223538A1 (en) 2017-12-28
US20180230461A1 (en) 2018-08-16
US11584928B2 (en) 2023-02-21
LT3474669T (lt) 2022-06-10
EP3474669A1 (en) 2019-05-01
EP3474669B1 (en) 2022-04-06
US20230227810A1 (en) 2023-07-20
US20190194650A1 (en) 2019-06-27

Similar Documents

Publication Publication Date Title
ES2915562T3 (es) Métodos para generar bibliotecas combinatorias con código de barras
EP3765615B1 (en) Novel crispr dna targeting enzymes and systems
US20220127603A1 (en) Novel crispr rna targeting enzymes and systems and uses thereof
US10767168B2 (en) Engineered CRISPR-Cas9 nucleases with altered PAM specificity
EP3765616B1 (en) Novel crispr dna and rna targeting enzymes and systems
EP3916086A1 (en) Nucleic acid-guided nucleases
EP3414333B1 (en) Replicative transposon system
CA3093580A1 (en) Novel crispr dna and rna targeting enzymes and systems
US20210139890A1 (en) Novel crispr rna targeting enzymes and systems and uses thereof