DE202018006334U1

DE202018006334U1 - Neue CRISPR-RNA-TARGETING-Enzyme und -Systeme und Verwendung davon

Info

Publication number: DE202018006334U1
Application number: DE202018006334.7U
Authority: DE
Original assignee: Arbor Biotechnologies Inc
Current assignee: Arbor Biotechnologies Inc
Priority date: 2017-06-30
Filing date: 2018-07-02
Publication date: 2020-01-28
Anticipated expiration: 2028-07-03
Also published as: EP3645722A2; AU2020201843B2; AU2018291496A1; US20190002889A1; AU2020201843A1; AU2021261919A1; WO2019006471A2; AU2018291496B2; US20220127603A1; US20190002875A1; AU2021261919B2; WO2019006471A3; US10392616B2; US11168322B2; CA3068543A1

Abstract

Konstruiertes, nicht natürlich vorkommendes Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziiertes(Cas)-System, umfassend:eine gRNA (guide RNA bzw. RNA guide) bestehend aus CRISPR RNA (crRNA), wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst; wobei die Direct-Repeat-Sequenz 5'-XXXXTXTXAAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA umfasst und wobei Xfür A oder C oder G, Xfür G oder T, Xfür A oder G, Xfür C oder G oder T, Xfür C oder T und Xfür A oder G steht; undein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Typ-VI-D-CRISPR-Cas-Effektorprotein codierende Nukleinsäure, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein zur Bindung an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist und wobei die Zielnukleinsäure eine RNA ist.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Die vorliegende Anmeldung beansprucht die Priorität von US-Anmeldung Nr. 62/527,957 , eingereicht am 30. Juni 2017; US-Anmeldung Nr. 62/572,367 , eingereicht am 13. Oktober 2017; US-Anmeldung Nr. 62/580,880 , eingereicht am 2. November 2017; US-Anmeldung Nr. 62/587,381 , eingereicht am 16. November 2017; US-Anmeldung Nr. 62/619,691 , eingereicht am 19. Januar 2018; US-Anmeldung Nr. 62/626,679 , eingereicht am 5. Februar 2018; US-Anmeldung Nr. 62/628,921 , eingereicht am 9. Februar 2018; US-Anmeldung Nr. 62/635,443 , eingereicht am 26. Februar 2018; US-Anmeldung Nr. 15/916,271 , eingereicht am 8. März 2018; und US-Anmeldung Nr. 15/916,274 , eingereicht am 8. März 2018. Der Inhalt der vorstehenden Anmeldungen ist hiermit jeweils vollinhaltlich durch Bezugnahme aufgenommen.
GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft neue CRISPR-Systeme und -Komponenten, Systeme zum Nachweisen von CRISPR-Systemen sowie Verfahren und Zusammensetzungen zur Verwendung der CRISPR-Systeme beispielsweise bei Nukleinsäure-Targeting und -manipulation.
STAND DER TECHNIK
Jüngste Fortschritte bei Genomsequenziertechniken und -analyse brachten signifikante Einblicke in den genetischen Unterbau biologischer Aktivitäten in vielen verschiedenen Bereichen der Natur, die von prokaryontischen Biosynthesewegen bis zu Humanpathologien reichen. Zum vollumfänglichen Verstehen und Bewerten der riesigen Menge an Informationen, die mit Genomsequenziertechniken erzeugt werden, ist eine äquivalente Zunahme von Umfang, Wirksamkeit und Einfachheit der Techniken für Genom- und Epigenommanipulation notwendig. Mit diesen neuen Genom- und Epigenom-Engineering-Techniken wird die Entwicklung neuer Anwendungen in zahlreichen Bereichen, einschließlich Biotechnologie, Landwirtschaft und Humantherapeutik beschleunigt.
Von CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats) und den Cas(CRISPR-associated)-Genen, zusammen als CRISPR-Cas- oder CRISPR/Cas-Systeme bekannt, weiß man gegenwärtig, dass sie bei Bakterien und Archaeen für Immunität gegen Phageninfektion sorgen. Bei den CRISPR-Cas-Systemen von prokaryontischer adaptiver Immunität handelt es sich um eine äußerst vielfältige Gruppe von Proteine-Effektoren, nicht codierenden Elementen sowie Loci-Architekturen, von denen einige beispielsweise zur Erzeugung wichtiger Biotechnologien konstruiert und adaptiert wurden.
Zu den Komponenten der Systeme, die an der Wirtsabwehr beteiligt sind, gehören ein oder mehrere Effektorproteine mit der Fähigkeit, DNA oder RNA zu modifizieren, und ein gRNA(guide RNA bzw. RNA guide)-Element, das für Targeting dieser Proteinaktivitäten zu einer spezifischen Sequenz auf der Phagen-DNA bzw. -RNA verantwortlich ist. Die gRNA setzt sich aus einer CRISPR-RNA (crRNA) zusammen und kann eine zusätzliche trans aktivierende RNA (tracrRNA) benötigen, um eine gezielte Nukleinsäuremanipulation durch das (die) Effektorprotein(e) zu ermöglichen. Die crRNA besteht aus einer DR (Direct Repeat), die für Proteinbindung an die crRNA verantwortlich ist, und einer Spacersequenz, die so konstruiert sein kann, dass sie zu einer gewünschten Nukleinsäurezielsequenz komplementär ist. Auf diese Weise lassen sich CRISPR-Systeme zum Anvisieren von DNA- oder RNA-Zielen programmieren, indem die Spacersequenz der crRNA modifiziert wird.
CRISPR-Cas-Systeme lassen sich grob in zwei Klassen einteilen: Klasse-1-Systeme setzen sich aus mehreren Effektorproteinen zusammen, die zusammen einen Komplex um eine crRNA bilden, und Klasse-2-Systeme, die aus einem einzigen Effektorprotein bestehen, das einen Komplex mit der crRNA zum Anvisieren von DNA- oder RNA-Substraten eingeht. Mit den Eine-Untereinheit-Effektorzusammensetzungen der Klasse-2-Systeme wird ein einfacherer Komponentensatz für Engineering und Anwendungsübersetzung bereitgestellt, womit diese bislang wichtige Quellen für programmierbare Effektoren darstellten. Die Entdeckung, Konstruktion und Optimierung neuer Klasse-2-Systeme führt möglicherweise zu weitverbreiteten und leistungsstarken programmierbaren Techniken für Genom-Engineering und darüber hinaus.
KURZDARSTELLUNG
Bei CRISPR-Cas-Systemen handelt es sich um adaptive Immunsysteme in Archaeen und Bakterien, die die Spezies gegen fremde genetische Elemente verteidigen. Die Charakterisierung und Konstruktion von Klasse-2-CRISPR-Cas-Systemen, für die CRISPR-Cas9 ein Beispiel ist, bereiteten den Weg für ein diverses Sortiment von Biotechnologieanwendungen beim Genome Editing und darüber hinaus. Trotzdem besteht nach wie vor ein Bedarf an zusätzlichen programmierbaren Effektoren und Systemen zum Modifizieren von Nukleinsäuren und Polynukleotiden (d. h. DNA, RNA oder einem bzw. einer beliebigen Hybrid, Derivat oder Modifikation) über die gegenwärtigen CRISPR-Cas-Systeme hinaus, die über ihre einmaligen Eigenschaften neuartige Anwendungen ermöglichen.
Mit der vorliegenden Offenbarung werden Verfahren zur Identifizierung neuer Ein-Effektor-CRISPR-Klasse-2-Systeme per Computer anhand genomischer Datenbanken zusammen mit der Entwicklung der natürlichen Loci zu konstruierten Systemen und experimenteller Validierung und Anwendungsübersetzung bereitgestellt.
In einem Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält oder daraus besteht; und ii) ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in Tabelle 2 angegebenen Aminosäuresequenz enthält oder daraus besteht (z. B. SEQ ID NO. 1-31 und 200-350), wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur gRNA-Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist.
In einigen Ausführungsformen enthält das Effektorprotein eine in Tabelle 2 angegebene Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350) oder besteht daraus. In einigen Ausführungsformen handelt es sich bei dem Effektorprotein um RspCas13d (SEQ ID NO: 2) oder EsCas13d (SEQ ID NO: 1).
In einigen Ausführungsformen enthält das Effektorprotein wenigstens zwei HEPN-Domänen. In einigen Ausführungsformen sind keine, eine oder zwei oder mehr der HEPN-Domänen katalytisch deaktiviert.
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält; ii) ein CRISPR-assoziiertes Protein oder eine das CRISPR-assoziierte Protein codierende Nukleinsäure; und iii) ein akzessorisches Protein oder eine das akzessorische Protein codierende Nukleinsäure, wobei das akzessorische Protein wenigstens eine WYL-Domäne enthält, wobei die WYL-Domäne eine Aminosäuresequenz PXXX₁XXXXXXXXXYL (SEQ ID NO: 198), worin X₁ für C, V, I, L, P, F, Y, M oder W und X für eine beliebige Aminosäure steht; und/oder wenigstens eine RHH(Ribbon-Ribbon-Helix)-Faltung oder wenigstens eine HTH(Helix-Turn-Helix)-Domäne enthält; wobei das CRISPR-assoziierte Protein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist und wobei das akzessorische Protein eine Aktivität des CRISPR-assoziierten Proteins moduliert.
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält; ii) ein CRISPR-assoziiertes Protein oder eine das CRISPR-assoziierte Protein codierende Nukleinsäure; und ein akzessorisches Protein oder eine das akzessorische Protein codierende Nukleinsäure, wobei das akzessorische Protein wenigstens eine WYL-Domäne enthält und wobei das akzessorische Protein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 80% (z. B. 81%, 82%, 83%, 84%, 85%, 86%, 87% 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, oder 100%) mit einer in einer der Tabellen 4, 5 und 6 angegebenen Aminosäuresequenz (z. B. SEQ ID NO: 78-93 und 590-671) enthält; wobei das CRISPR-assoziierte Protein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist und wobei das akzessorische Protein eine Aktivität des CRISPR-assoziierten Proteins moduliert.
In einigen Ausführungsformen handelt es sich bei der Aktivität um eine Nuklease-Aktivität (z. B. eine DNAse-Aktivität, eine gezielte RNAse-Aktivität oder eine kollaterale RNAse-Aktivität).
In einigen Ausführungsformen wird die Aktivität des CRISPR-assoziierten Proteins durch das akzessorische Protein erhöht. In einigen Ausführungsformen wird die Aktivität des CRISPR-assoziierten Proteins durch das akzessorische Protein vermindert.
In einigen Ausführungsformen enthält das akzessorische Protein eine in einer der Tabellen 4, 5 und 6 angegebene Aminosäuresequenz (z. B. SEQ ID NO. 78-93 und 590-671) oder besteht daraus. In einigen Ausführungsformen enthält oder ist das akzessorische Protein RspWYL1 (SEQ ID NO: 81).
In einigen Ausführungsformen führt das Targeting der Zielnukleinsäure zu einer Modifikation der Zielnukleinsäure.
In einigen Ausführungsformen handelt es sich bei dem CRISPR-assoziierten Protein um ein Klasse-2-CRISPR-Cas-System-Protein. In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein eine RuvC-Domäne (z. B. wenigstens eine, zwei, drei oder mehr RuvC-Domänen). In einigen Ausführungsformen ist das CRISPR-assoziierte Protein aus der Gruppe bestehend aus einem Typ-VI-Cas-Protein, einem Typ-V-Cas-Protein und einem Typ-II-Cas-Protein ausgewählt. In einigen Ausführungsformen handelt es sich bei dem CRISPR-assoziierten Protein um ein Casl3a-Protein, ein Casl3b-Protein, ein Cas13c-Protein, ein Casl2a-Protein oder ein Cas9-Protein. In einigen Ausführungsformen handelt es sich bei dem CRISPR-assoziierten Protein um ein Typ-VI-D-CRISPR-Cas-Effektorprotein, das wenigstens zwei HEPN-Domänen umfasst, wobei keine, eine oder zwei oder mehr der HEPN-Domänen katalytisch deaktiviert ist bzw. sind.
In einigen Ausführungsformen enthält das Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in Tabelle 2 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350). In einigen Ausführungsformen enthält das Effektorprotein eine in Tabelle 2 angegebene Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350) oder besteht daraus. In einigen Ausführungsformen enthält oder ist das Effektorprotein RspCasl3d (SEQ ID NO: 2) oder EsCas13d (SEQ ID NO: 1).
In einigen Ausführungsformen handelt es sich bei der Zielnukleinsäure um eine RNA. In einigen Ausführungsformen handelt es sich bei der Zielnukleinsäure um eine DNA.
In einigen Ausführungsformen handelt es sich bei der Modifikation der Zielnukleinsäure um ein Spaltungsereignis. In einigen Ausführungsformen führt die Modifikation zu: (a) verminderter Transkription; (b) verminderter Translation; oder (c) sowohl (a) als auch (b), der Zielnukleinsäure. In einigen Ausführungsformen führt die Modifikation zu (a) erhöhter Transkription; (b) erhöhter Translation; oder (c) sowohl (a) als auch (b), der Zielnukleinsäure.
In einigen Ausführungsformen enthält das Effektorprotein eine oder mehrere Aminosäuresubstitutionen innerhalb wenigstens einer der HEPN-Domänen. In einigen Ausführungsformen enthalten die eine oder mehreren Aminosäuresubstitutionen eine Alaninsubstitution an einem R295, H300, R849 oder H854 von SEQ ID NO: 1 oder R288, H293, R820 oder H825 von SEQ ID NO: 2 entsprechenden Aminosäurerest. In einigen Ausführungsformen führen die eine oder mehreren Aminosäuresubstitutionen zu einer Reduzierung einer Nuklease-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins im Vergleich zur Nuklease-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins ohne die eine oder mehreren Säuresubstitutionen.
In einigen Ausführungsformen enthält die gRNA eine Direct-Repeat-Sequenz, die eine in Tabelle 3 angegebene Nukleotidsequenz (z. B. SEQ ID NO: 32-49, 52-77, 351-589) enthält oder daraus besteht. In einigen Ausführungsformen enthält die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 199) am 3' terminalen Ende der gRNA, und wobei X₁ für A oder C oder G, X₂ für A oder G oder T, X₃ für A oder G oder T, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht. In einigen Ausführungsformen enthält die Direct-Repeat-Sequenz oder besteht aus entweder 5'-CACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 152) oder 5'-CACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 153).
In einigen Ausführungsformen enthält der Spacer etwa 15 bis etwa 42 Nukleotide oder besteht daraus.
In einigen Ausführungsformen enthält die gRNA ferner eine trans aktivierende CRISPR-RNA (tracrRNA).
In einigen Ausführungsformen enthalten die Systeme eine einzelsträngige Donor-Matrize oder eine doppelsträngige Donor-Matrize. In einigen Ausführungsformen handelt es sich bei der Donor-Matrize um eine DNA oder eine RNA.
In einigen Ausführungsformen enthalten die Systeme eine Ziel-RNA oder eine die Ziel-RNA codierende Nukleinsäure, wobei die Ziel-RNA eine Sequenz enthält, die zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an die Spacersequenz der gRNA fähig ist.
In einigen Ausführungsformen liegen die Systeme in einem Zuführungssystem vor (z. B. einem Nanopartikel, einem Liposom, einem adeno-assoziierten Virus, einem Exosom, einem Mikrovesikel bzw. einer Genkanone).
In einem weiteren Aspekt wird gemäß der Offenbarung eine Zelle bereitgestellt, die eines der vorliegend beschriebenen Systeme enthält. In einigen Ausführungsformen handelt es sich bei der Zelle um eine eukaryontische Zelle (z. B. eine Säugerzelle oder eine Pflanzenzelle). In einigen Ausführungsformen handelt es sich bei der Zelle um eine prokaryontische Zelle (z. B. eine Bakterienzelle).
In einem weiteren Aspekt wird gemäß der Offenbarung ein Tiermodell oder ein Pflanzenmodell bereitgestellt, das eine Zelle enthält, die eines der vorliegend beschriebenen Systeme enthält.
In einem weiteren Aspekt werden gemäß der Offenbarung Verfahren zur Spaltung einer Zielnukleinsäure (und Zusammensetzungen zur Verwendung bei solchen Verfahren) bereitgestellt, die Inkontaktbringen einer Zielnukleinsäure mit einem vorliegend beschriebenen System beinhalten, wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure komplementär ist, wobei das CRISPR-assoziierte Protein oder das Typ-VI-D-CRISPR-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert, wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist, und wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz die Zielnukleinsäure durch das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Effektorprotein gespalten wird. In einigen Ausführungsformen befindet sich die Zielnukleinsäure in einer Zelle.
In einem weiteren Aspekt werden gemäß der Offenbarung Verfahren zum Induzieren von Dormanz oder Tod einer Zelle bereitgestellt, die Inkontaktbringen der Zelle mit einem vorliegend beschriebenen System (und Zusammensetzungen zur Verwendung bei solchen Verfahren) beinhalten, wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure komplementär ist, wobei das CRISPR-assoziierte Protein oder das Typ-VI-D-CRISPR-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert, wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist, und wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz eine Nicht-Zielnukleinsäure in der Zelle durch das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Cas-Effektorprotein gespalten und damit Dormanz oder Tod der Zelle induziert wird. In einigen Ausführungsformen erfolgt der Tod über Apoptose, Nekrose, Nekroptose oder eine Kombination davon.
In einigen Ausführungsformen eines der vorliegend beschriebenen Verfahren (und von Zusammensetzungen zur Verwendung bei solchen Verfahren) handelt es sich bei der Zielnukleinsäure um eine RNA, die aus der Gruppe bestehend aus einer mRNA, einer tRNA, einer ribosomalen RNA, einer nicht codierenden RNA, einer IncRNA oder einer nukleären RNA ausgewählt ist. In einigen Ausführungsformen eines der vorliegend beschriebenen Verfahren handelt es sich bei der Zielnukleinsäure um eine DNA, die aus der Gruppe bestehend aus chromosomaler DNA, mitochondrialer DNA, einzelsträngiger DNA oder Plasmid-DNA ausgewählt ist.
In einigen Ausführungsformen eines der vorliegend beschriebenen Verfahren (und von Zusammensetzungen zur Verwendung bei solchen Verfahren) zeigt nach Binden des Komplexes an die Zielnukleinsäuresequenz das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Cas-Effektorprotein kollaterale RNAse-Aktivität.
In einigen Ausführungsformen eines der vorliegend beschriebenen Verfahren (und von Zusammensetzungen zur Verwendung bei solchen Verfahren) handelt es sich bei der Zelle um eine Krebszelle (z. B. eine Tumorzelle). In einigen Ausführungsformen handelt es sich bei der Zelle um eine Infektionserregerzelle oder eine mit einem Infektionserreger infizierte Zelle. In einigen Ausführungsformen handelt es sich bei der Zelle um eine Bakterienzelle, eine mit einem Virus infizierte Zelle, eine mit einem Prion infizierte Zelle, eine Pilzzelle, ein Protozoon oder eine Parasitenzelle.
In einem weiteren Aspekt werden gemäß der Offenbarung Verfahren zur Behandlung eines Leidens bzw. einer Krankheit bei einem diese benötigenden Individuum und Zusammensetzungen zur Verwendung bei solchen Verfahren bereitgestellt. Die Verfahren beinhalten Verabreichen eines vorliegend beschriebenen Systems an das Individuum, wobei die Spacersequenz zu wenigstens 15 Nukleotiden einer mit dem Leiden bzw. der Krankheit zusammenhängenden Zielnukleinsäure komplementär ist, wobei das CRISPR-assoziierte Protein oder das Typ-VI-D-CRISPR-Cas-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert, wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist, und wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz die Zielnukleinsäure durch das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Cas-Effektorprotein gespalten und damit das Leiden bzw. die Krankheit bei dem Individuum behandelt wird.
In einigen Ausführungsformen der vorliegend beschriebenen Verfahren (und von Zusammensetzungen zur Verwendung bei solchen Verfahren) handelt es sich bei dem Leiden bzw. der Krankheit um eine Krebserkrankung oder eine Infektionskrankheit. In einigen Ausführungsformen handelt es sich bei dem Leiden bzw. der Krankheit um eine Krebserkrankung, und wobei die Krebserkrankung ausgewählt ist aus der Gruppe bestehend aus Wilms-Tumor, Ewing-Sarkom, einem neuroendokrinen Tumor, einem Glioblastom, einem Neuroblastom, einem Melanom, Hautkrebs, Brustkrebs, Darmkrebs, Rektalkarzinom, Prostatakrebs, Leberkrebs, Nierenkrebs, Bauchspeicheldrüsenkrebs, Lungenkrebs, Gallengangkrebs, Gebärmutterhalskrebs, Endometriumkarzinom, Speiseröhrenkrebs, Magenkrebs, Krebs im Kopf- und Halsbereich, medullärem Schilddrüsenkarzinom, Ovarialkarzinom, Gliom, Lymphom, Leukämie, Myelom, akuter lymphatischer Leukämie, akuter myeloischer Leukämie, chronischer lymphatischer Leukämie, chronischer myeloischer Leukämie, Hodgkin-Lymphom, Non-Hodgkin-Lymphom und Harnblasenkrebs.
In einem weiteren Aspekt wird gemäß der Offenbarung die Verwendung eines vorliegend beschriebenen Systems bei einem Verfahren bereitgestellt, das aus der Gruppe bestehend aus RNA-sequenzspezifischer Interferenz; RNA-sequenzspezifischer Genregulation; Screening von RNA, RNA-Produkten, IncRNA, nicht codierender RNA, nukleärer RNA oder mRNA; Mutagenese; Hemmung von RNA-Spleißen; Fluoreszenz-Insitu-Hybridisierung; Züchten; Induktion von Zelldormanz; Induktion von Zellzyklus-Arrest; Reduktion von Zellwachstum und/oder Zellproliferation; Induktion von Zellanergie; Induktion von Zellapoptose; Induktion von Zellnekrose; Induktion von Zelltod; oder Induktion von programmiertem Zelltod ausgewählt ist.
In einigen Ausführungsformen eines der vorliegend beschriebenen Systeme ist das Effektorprotein an eine Base-Editing-Domäne, eine RNA-Methyltransferase, eine RNA-Demethylase, einen Spleißmodifikator, einen Lokalisationsfaktor oder einen Translationsmodifikationsfaktor fusioniert. In einigen Ausführungsformen eines der vorliegend beschriebenen Systeme ist das CRISPR-assoziierte Protein an eine Base-Editing-Domäne (z. B. ADAR1 (Adenosine Deaminase Acting on RNA (ADAR) 1), ADAR2, APOBEC (Apolipoprotein B mRNA Editing Enzyme, Catalytic Polypeptide-like) und AID (Activation-Induced Cytidine Deaminase)), eine RNA-Methyltransferase, eine RNA-Demethylase, einen Spleißmodifikator, einen Lokalisationsfaktor oder einen Translationsmodifikationsfaktor fusioniert.
In einigen Ausführungsformen enthalten die vorliegend beschriebenen Systeme ein RNA bindendes Fusionspolypeptid, das eine RNA bindende Domäne (z. B. MS2) und eine Base-Editing-Domäne z. B. ADAR1, ADAR2, APOBEC oder AID) enthält.
In einem weiteren Aspekt wird gemäß der Offenbarung ein Verfahren zum Modifizieren eines RNA-Moleküls bereitgestellt, umfassend Inkontaktbringen des RNA-Moleküls mit einem vorliegend beschriebenen System.
In noch einem weiteren Aspekt werden gemäß der Offenbarung Verfahren zum Nachweisen einer Ziel-RNA in einer Probe (und Zusammensetzungen zur Verwendung bei solchen Verfahren) bereitgestellt. Die Verfahren beinhalten: a) Inkontaktbringen der Probe mit: (i) einer gRNA oder einer die gRNA codierenden Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an die Ziel-RNA enthält; (ii) einem Typ-VI-D-CRISPR-Cas-Effektorprotein oder einer das Effektorprotein codierenden Nukleinsäure; und (iii) einer markierten Detektor-RNA; wobei das Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert; wobei die gRNA an die Ziel-RNA hybridisiert; und wobei nach Binden des Komplexes an die Ziel-RNA das Effektorprotein kollaterale RNAse-Aktivität zeigt und die markierte Detektor-RNA spaltet; und b) Messen eines durch Spaltung der markierten Detektor-RNA produzierten nachweisbaren Signals, wobei das Messen einen Nachweis der einzelsträngigen Ziel-RNA in der Probe vorsieht. In einigen Ausführungsformen beinhalten die Verfahren ferner Vergleichen des nachweisbaren Signals mit einem Referenzsignal und Bestimmen der Menge an Ziel-RNA in der Probe. In einigen Ausführungsformen ist die Ziel-RNA einzelsträngig. In einigen Ausführungsformen ist die Ziel-RNA doppelsträngig. In einigen Ausführungsformen beinhalten die Verfahren ferner Transkribieren (z. B. mit einer T7-Polymerase) eines DNA-Moleküls (z. B. eines in der Probe vorhandenen DNA-Moleküls) unter Erhalt der Ziel-RNA. In einigen Ausführungsformen wurde die Ziel-RNA von einem DNA-Molekül transkribiert. In einigen Ausführungsformen beinhalten die Verfahren ferner Präamplifizieren einer Nukleinsäure in der Probe vor dem Kontaktierungsschritt (z. B. über isothermische Amplifikation, Rekombinase-Polymerase-Amplifikation (RPA) oder Immunpräzipitation).
In einigen Ausführungsformen beinhalten die Verfahren ferner Inkontaktbringen der Probe mit einem wenigstens eine WYL-Domäne umfassenden akzessorischen Protein. In einigen Ausführungsformen enthält das akzessorische Protein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 80% (z. B. 81%, 82%, 83%, 84%, 85%, 86%, 87% 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, oder 100%) mit einer in einer der Tabellen 4, 5 und 6 angegebenen Aminosäuresequenz. In einigen Ausführungsformen enthält oder ist das akzessorische Protein RspWYL1 (SEQ ID NO: 81).
In einigen Ausführungsformen enthält das Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in Tabelle 2 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350).
In einigen Ausführungsformen erfolgt das Messen unter Verwendung von Goldnanopartikel-Nachweis, Fluoreszenzpolarisation, Kolloidphasenübergang/-dispersion, elektrochemischem Nachweis und Sensorik auf Halbleiterbasis.
In einigen Ausführungsformen enthält die markierte Detektor-RNA ein Fluoreszenzemissionsfarbstoffpaar, ein Fluoreszenzresonanzenergietransfer(FRET)-Paar oder ein Quencher/Fluor-Paar. In einigen Ausführungsformen produziert die markierte Detektor-RNA vor Spaltung durch das Effektorprotein ein erstes nachweisbares Signal und nach Spaltung durch das Effektorprotein ein zweites nachweisbares Signal. In einigen Ausführungsformen wird ein nachweisbares Signal produziert, wenn die markierte Detektor-RNA durch das Effektorprotein gespalten wird.
In einigen Ausführungsformen wird nach Spaltung der markierten Detektor-RNA durch das Effektorprotein eine Menge an von der markierten Detektor-RNA produziertem nachweisbarem Signal vermindert. In einigen Ausführungsformen wird nach Spaltung der markierten Detektor-RNA durch das Effektorprotein eine Menge an von der markierten Detektor-RNA produziertem nachweisbarem Signal erhöht.
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten oder daraus bestehen: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält; ii) ein CRISPR-assoziiertes Protein oder eine das CRISPR-assoziierte Protein codierende Nukleinsäure; und ein akzessorisches Protein oder eine das akzessorische Protein codierende Nukleinsäure, wobei das akzessorische Protein wenigstens eine WYL-Domäne enthält und wobei das akzessorische Protein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in einer der Tabellen 4, 5 und 6 angegebenen Aminosäuresequenz (z. B. SEQ ID NO: 78-93 und 590-671) enthält; wobei das CRISPR-assoziierte Protein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist und wobei das akzessorische Protein eine Aktivität des CRISPR-assoziierten Proteins moduliert.
In einigen Ausführungsformen handelt es sich bei der Aktivität um eine Nuklease-Aktivität (z. B. eine DNAse-Aktivität oder eine RNAse-Aktivität). In einigen Ausführungsformen handelt es sich bei der RNAse-Aktivität um gezielte RNAse-Aktivität oder eine kollaterale RNAse-Aktivität.
In einigen Ausführungsformen wird die Aktivität des CRISPR-assoziierten Proteins durch das akzessorische Protein erhöht. In einigen Ausführungsformen wird die Aktivität des CRISPR-assoziierten Proteins durch das akzessorische Protein vermindert.
In einigen Ausführungsformen enthält das akzessorische Protein eine WYL-Domäne. In einigen Ausführungsformen enthält das akzessorische Protein zwei WYL-Domänen. In einigen Ausführungsformen enthält das akzessorische Protein ferner eine HTH(Helix-Turn-Helix)-Faltung. In einigen Ausführungsformen enthält das akzessorische Protein ferner eine RHH(Ribbon- Helix-Helix)-Faltung.
In einigen Ausführungsformen enthält das akzessorische Protein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 80% (z. B. 81%, 82%, 83%, 84%, 85%, 86%, 87% 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, oder 100%) mit einer in einer der Tabellen 4, 5 und 6 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 78-93 und 590-671) oder besteht daraus. In einigen Ausführungsformen enthält das akzessorische Protein eine in einer der Tabellen 4, 5 und 6 angegebene Aminosäuresequenz (z. B. SEQ ID NO. 78-93 und 590-671) oder besteht daraus. In einigen Ausführungsformen handelt es sich bei dem akzessorischen Protein um RspWYL1 (SEQ ID NO: 81).
In einigen Ausführungsformen enthält oder ist die Zielnukleinsäure eine RNA. In einigen Ausführungsformen enthält oder ist die Zielnukleinsäure eine DNA.
In einigen Ausführungsformen führt das Targeting der Zielnukleinsäure zu einer Modifikation (z. B. einem Spaltungsereignis) der Zielnukleinsäure. In einigen Ausführungsformen führt die Modifikation zu Zelltoxizität. In einigen Ausführungsformen führt die Modifikation zu verminderter Transkription und/oder verminderter Translation der Zielnukleinsäure. In einigen Ausführungsformen führt die Modifikation zu erhöhter Transkription und/oder erhöhter Translation der Zielnukleinsäure.
In einigen Ausführungsformen handelt es sich bei dem CRISPR-assoziierten Protein um ein Klasse-2-CRISPR-Cas-System-Protein. In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein eine RuvC-Domäne. In einigen Ausführungsformen ist das CRISPR-assoziierte Protein aus der Gruppe bestehend aus einem Typ-VI-Cas-Protein, einem Typ-V-Cas-Protein und einem Typ-II-Cas-Protein ausgewählt. In einigen Ausführungsformen handelt es sich bei dem CRISPR-assoziierten Protein um ein Cas13a-Protein, ein Cas13b-Protein, ein Casl3c-Protein, ein Cas12a-Protein oder ein Cas9-Protein.
In einigen Ausführungsformen handelt es sich bei dem CRISPR-assoziierten Protein um ein Typ-VI-D-CRISPR-Cas-Effektorprotein, das wenigstens zwei HEPN-Domänen (z. B. zwei, drei, vier oder mehr HEPN-Domänen) umfasst. In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein zwei HEPN-Domänen. In einigen Ausführungsformen ist wenigstens eine (z. B. eine, zwei, drei, vier oder mehr) der HEPN-Domänen katalytisch inaktiviert.
In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein eine oder besteht aus einer Aminosäuresequenz mit einer Sequenzidentität von wenigstens 80% (z. B. 81%, 82%, 83%, 84%, 85%, 86%, 87% 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, oder 100%) mit einer in Tabelle 2 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350). In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein eine in Tabelle 2 angegebene Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350) oder besteht daraus. In einigen Ausführungsformen handelt es sich bei dem Typ-VI-D-CRISPR-Cas-Effektorprotein um RspCas13d (SEQ ID NO: 2) oder EsCasl3d (SEQ ID NO: 1).
In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein eine oder mehrere (z. B. zwei, drei, vier, fünf oder sechs) Aminosäuresubstitutionen innerhalb wenigstens einer der HEPN-Domänen oder besteht daraus. In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein sechs oder weniger (z. B. fünf, vier, drei, zwei oder eine) Aminosäuresubstitutionen innerhalb wenigstens einer der HEPN-Domänen. In einigen Ausführungsformen enthalten die eine oder mehreren Aminosäuresubstitutionen eine Alaninsubstitution an einem R295, H300, R849 oder H854 von SEQ ID NO: 1 oder R288, H293, R820 oder H825 von SEQ ID NO: 2 entsprechenden Aminosäurerest oder bestehen daraus. In einigen Ausführungsformen führen die eine oder mehreren Aminosäuresubstitutionen zu einer Reduzierung einer RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins im Vergleich zur RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins ohne die eine oder mehreren Säuresubstitutionen.
In einigen Ausführungsformen enthalten die CRISPR-assoziierten Proteine wenigstens ein (z. B. zwei, drei, vier, fünf, sechs oder mehr) Kernlokalisierungssignal (Nuclear Localization Signal, NLS) oder bestehen daraus. In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein wenigstens ein (z. B. zwei, drei, vier, fünf, sechs oder mehr) Kernexportsignal (Nuclear Export Signal, NES) oder besteht daraus. In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein wenigstens ein (z. B. zwei, drei, vier, fünf, sechs oder mehr) NLS und wenigstens ein (z. B. zwei, drei, vier, fünf, sechs oder mehr) NES.
In einigen Ausführungsformen enthält die Direct-Repeat-Sequenz 5'-X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3' terminalen Ende der gRNA, und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht. In einigen Ausführungsformen enthält die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 199) am 3' terminalen Ende der gRNA, und wobei X₁ für A oder C oder G, X₂ für A oder G oder T, X₃ für A oder G oder T, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht. In einigen Ausführungsformen enthält die Direct-Repeat-Sequenz eine in Tabelle 3 angegebene Nukleotidsequenz (z. B. SEQ ID NO 32-49, 52-77, 351-589) oder besteht daraus. In einigen Ausführungsformen enthält die Direct-Repeat-Sequenz oder besteht aus entweder 5'-CACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 152) oder 5'-CACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 153).
In einigen Ausführungsformen enthält der Spacer etwa 15 bis etwa 42 Nukleotide. In einigen Ausführungsformen enthält die gRNA eine trans aktivierende CRISPR-RNA (tracrRNA).
In einigen Ausführungsformen der vorliegend beschriebenen Systeme enthalten die Systeme eine einzelsträngige Donor-Matrize oder eine doppelsträngige Donor-Matrize (z. B. eine Einzelstrang-DNA, eine Doppelstrang-DNA, eine Einzelstrang-RNA oder eine Doppelstrang- RNA).
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten oder daraus bestehen: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA enthält und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; und ii) ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die zur gRNA-Spacersequenz komplementäre Zielnukleinsäuresequenz und zum Targeting davon fähig ist und wobei es sich bei der Zielnukleinsäure um eine RNA handelt.
In einem Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten oder daraus bestehen: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält oder daraus besteht, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 199) am 3'terminalen Ende der gRNA enthält und wobei X₁ für A oder C oder G, X₂ für A oder G oder T, X₃ für A oder G oder T, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; und ii) ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die zur gRNA-Spacersequenz komplementäre Zielnukleinsäuresequenz und zum Targeting davon fähig ist und wobei es sich bei der Zielnukleinsäure um eine RNA handelt.
In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein wenigstens zwei HEPN-Domänen. In einigen Ausführungsformen weist das Protein eine Länge von etwa 1200 Aminosäuren oder weniger (z. B. 1100, 1000, 1050, 900, 950, 800 Aminosäuren) auf.
In anderen Ausführungsformen führt das Targeting der Zielnukleinsäure zu einer Modifikation der Zielnukleinsäure. In einigen Ausführungsformen handelt es sich bei der Modifikation der Zielnukleinsäure um ein Spaltungsereignis. In einigen Ausführungsformen führt die Modifikation zu Zelltoxizität.
In einigen Ausführungsformen führt die Modifikation zu verminderter Transkription und/oder verminderter Translation der Zielnukleinsäure. In einigen Ausführungsformen führt die Modifikation zu erhöhter Transkription und/oder erhöhter Translation der Zielnukleinsäure.
In verschiedenen Ausführungsformen enthalten die Systeme ferner eine Donor-Matrizennukleinsäure. In einigen Ausführungsformen handelt es sich bei der Donor-Matrizennukleinsäure um eine DNA oder eine RNA.
In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein eine oder mehrere (z. B. zwei, drei, vier, fünf oder sechs) Aminosäuresubstitutionen innerhalb wenigstens einer der HEPN-Domänen. In einigen Ausführungsformen enthalten die eine oder mehreren Aminosäuresubstitutionen eine Alaninsubstitution an einem R295, H300, R849 oder H854 von SEQ ID NO: 1 oder R288, H293, R820 oder H825 von SEQ ID NO: 2 entsprechenden Aminosäurerest. In einigen Ausführungsformen führen die eine oder mehreren Aminosäuresubstitutionen zu einer Reduzierung einer RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins im Vergleich zur RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins ohne die eine oder mehreren Aminosäuresubstitutionen.
In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 80% (z. B. 81%, 82%, 83%, 84%, 85%, 86%, 87% 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, oder 100%) mit einer in Tabelle 2 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350) oder besteht daraus. In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein eine in Tabelle 2 angegebene Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350) oder besteht daraus. In einigen Ausführungsformen handelt es sich bei dem Typ-VI-D-CRISPR-Cas-Effektorprotein um RspCas13d (SEQ ID NO: 2) oder EsCas13d (SEQ ID NO: 1).
In einigen Ausführungsformen enthalten die Systeme ein akzessorisches Protein oder eine das akzessorische Protein codierende Nukleinsäure, wobei das akzessorische Protein wenigstens eine WYL-Domäne enthält und wobei das akzessorische Protein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 80% (z. B. 81%, 82%, 83%, 84%, 85%, 86%, 87% 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, oder 100%) mit einer in einer der Tabellen 4, 5 und 6 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 78-93 und 590-671) enthält oder daraus besteht. In einigen Ausführungsformen enthält das akzessorische Protein zwei WYL-Domänen. In einigen Ausführungsformen enthält das akzessorische Protein ferner eine HTH(Helix-Tum-Helix)-Faltung und/oder eine RHH(Ribbon-Helix-Helix)-Faltung. In einigen Ausführungsformen handelt es sich bei dem akzessorischen Protein um RspWYL1 (SEQ ID NO: 81).
In einigen Ausführungsformen moduliert (z. B. erhöht oder vermindert) das akzessorische Protein eine Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins. In einigen Ausführungsformen handelt es sich bei der Aktivität um eine RNAse-Aktivität, eine RNA bindende Aktivität oder beides. In einigen Ausführungsformen handelt es sich bei der RNAse-Aktivität um eine gezielte RNAse-Aktivität oder eine kollaterale RNAse-Aktivität.
In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein wenigstens ein (z. B. zwei, drei, vier, fünf, sechs oder mehr) Kernlokalisierungssignal (NLS). In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein wenigstens ein (z. B. zwei, drei, vier, fünf, sechs oder mehr) Kernexportsignal (NES). In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein wenigstens ein (z. B. zwei, drei, vier, fünf, sechs oder mehr) NLS und wenigstens ein (z. B. zwei, drei, vier, fünf, sechs oder mehr) NES.
In einigen Ausführungsformen enthält die Direct-Repeat-Sequenz eine in Tabelle 3 angegebene Nukleotidsequenz (z. B. SEQ ID NO: 32-49, 52-77, 351-589) oder besteht daraus. In einigen Ausführungsformen enthält die Direct-Repeat-Sequenz oder besteht aus entweder 5'-CACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 152) oder 5'-CACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 153).
In einigen Ausführungsformen enthält die Spacersequenz etwa 15 bis etwa 42 Nukleotide oder besteht daraus.
In einigen Ausführungsformen enthalten die vorliegend bereitgestellten Systeme eine einzelsträngige Donor-Matrize oder eine doppelsträngige Donor-Matrize (z. B. ein RNA- oder ein DNA-Molekül).
In einigen Ausführungsformen enthalten die vorliegend bereitgestellten Systeme eine Ziel-RNA oder eine die Ziel-RNA codierende Nukleinsäure, wobei die Ziel-RNA eine Sequenz enthält, die zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an die Spacersequenz der gRNA fähig ist.
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten oder daraus bestehen: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält oder daraus besteht, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA enthält und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; und ii) ein Typ-VI-D-CRISPR-Cas-Effektorprotein und/oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein aus etwa 1200 oder weniger Aminosäuren besteht und wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist.
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten oder daraus bestehen: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält oder daraus besteht, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 199) am 3'-terminalen Ende der gRNA enthält und wobei X₁ für A oder C oder G, X₂ für A oder G oder T, X₃ für A oder G oder T, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; und ii) ein Typ-VI-D-CRISPR-Cas-Effektorprotein und/oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein aus etwa 1200 oder weniger Aminosäuren besteht und wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist.
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten oder daraus bestehen: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält oder daraus besteht, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA enthält und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; und ii) ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein eine Länge von etwa 950 oder weniger Aminosäuren aufweist und wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist.
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten oder daraus bestehen: i) eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält oder daraus besteht, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 199) am 3'-terminalen Ende der gRNA enthält und wobei X₁ für A oder C oder G, X₂ für A oder G oder T, X₃ für A oder G oder T, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; und ii) ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein eine Länge von etwa 950 oder weniger Aminosäuren aufweist und wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist.
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten oder daraus bestehen: i) eine gRNA (z. B. eine crRNA) oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält oder daraus besteht, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA enthält und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; ii) ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist; und iii) ein akzessorisches Protein, wobei das akzessorische Protein wenigstens eine WYL-Domäne enthält, wobei das akzessorische Protein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in einer der Tabellen 4, 5 und 6 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 78-93 und 590-671) enthält oder daraus besteht und wobei das akzessorische Protein zur Regulierung (z. B. reguliert unter geeigneten Bedingungen) einer Aktivität des Effektorproteins fähig ist.
In einem weiteren Aspekt werden mit der Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme bereitgestellt, die Folgendes enthalten oder daraus bestehen: i) eine gRNA (z. B. eine crRNA) oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält oder daraus besteht, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 199) am 3'-terminalen Ende der gRNA enthält und wobei X₁ für A oder C oder G, X₂ für A oder G oder T, X₃ für A oder G oder T, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; ii) ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist; und iii) ein akzessorisches Protein, wobei das akzessorische Protein wenigstens eine WYL-Domäne enthält, wobei das akzessorische Protein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in einer der Tabellen 4, 5 und 6 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 78-93 und 590-671) enthält oder daraus besteht und wobei das akzessorische Protein zur Regulierung (z. B. reguliert unter geeigneten Bedingungen) einer Aktivität des Effektorproteins fähig ist.
In einigen Ausführungsformen handelt es sich bei dem akzessorischen Protein um RspWYL1 (SEQ ID NO: 81).
In einigen Ausführungsformen enthält das Effektorprotein wenigstens zwei HEPN-Domänen. In einigen Ausführungsformen enthält das Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in Tabelle 2 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350) oder besteht daraus. In einigen Ausführungsformen handelt es sich bei dem Effektorprotein um RspCasl3d (SEQ ID NO: 2) oder EsCasl3d (SEQ ID NO: 1).
In einigen Ausführungsformen ist das CRISPR-assoziierte Protein (z. B. Typ-VI-D-CRISPR-Cas-Effektorprotein) an eine Base-Editing-Domäne (z. B. ADAR (Adenosine Deaminase Acting on RNA) 1; ADAR2; APOBEC (Apolipoprotein B mRNA Editing Enzyme, Catalytic Polypeptide-like); und AID (Activation-Induced Cytidine Deaminase)) fusioniert. In einigen Ausführungsformen ist die Base-Editing-Domäne weiter an eine RNA bindende Domäne fusioniert.
In einigen Ausführungsformen ist das CRISPR-assoziierte Protein (z. B. ein Typ-VI-D-CRISPR-Cas-Effektorprotein) an eine RNA-Methyltransferase, eine RNA-Demethylase, einen Spleißmodifikator, einen Lokalisationsfaktor oder einen Translationsmodifikationsfaktor fusioniert.
In einigen Ausführungsformen enthält das CRISPR-assoziierte (z. B. ein Typ-VI-D-CRISPR-Cas-Effektorprotein) ferner eine Linkersequenz. In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein (z. B. ein Typ-VI-D-CRISPR-Cas-Effektorprotein) eine oder mehrere Mutationen oder Aminosäuresubstitutionen, die eine Spaltung von RNA durch das CRISPR-assoziierte Protein unmöglich machen.
In einigen Ausführungsformen enthalten die vorliegend beschriebenen Systeme auch ein RNA bindendes Fusionspolypeptid, das eine RNA bindende Domäne und eine Base-Editing-Domäne (z. B. ADAR1, ADAR2, APOBEC und AID) enthält. In einigen Ausführungsformen handelt es sich bei der RNA bindenden Domäne um MS2, PP7 oder Qbeta.
In einigen Ausführungsformen enthalten die vorliegend beschriebenen Systeme eine Nukleinsäure, die das CRISPR-assoziierte Protein (z. B. ein Typ-VI-D-CRISPR-Cas-Effektorprotein) codiert. In einigen Ausführungsformen steht die das CRISPR-assoziierte Protein codierende Nukleinsäure in operativer Verknüpfung mit einem Promotor (z. B. einem konstitutiven Promotor oder einem induzierbaren Promotor). In einigen Ausführungsformen ist die das CRISPR-assoziierte Protein codierende Nukleinsäure für die Expression in einer Zelle (z. B. einer Säugerzelle oder einer Bakterienzelle) codonoptimiert.
In einigen Ausführungsformen enthalten die vorliegend beschriebenen Systeme eine Nukleinsäure, die das akzessorische Protein codiert. In einigen Ausführungsformen steht die das akzessorische Protein codierende Nukleinsäure in operativer Verknüpfung mit einem Promotor (z. B. einem konstitutiven Promotor oder einem induzierbaren Promotor). In einigen Ausführungsformen ist die das akzessorische Protein codierende Nukleinsäure für die Expression in einer Zelle codonoptimiert.
In einigen Ausführungsformen enthalten die vorliegend beschriebenen Systeme eine Nukleinsäure, die eine oder mehrere gRNAs (z. B. crRNAs) codiert. In einigen Ausführungsformen steht die die eine oder mehreren gRNAs codierende Nukleinsäure in operativer Verknüpfung mit einem Promotor (z. B. einem konstitutiven Promotor oder einem induzierbaren Promotor).
In einigen Ausführungsformen enthalten die vorliegend beschriebenen Systeme eine Nukleinsäure, die eine Zielnukleinsäure (z. B. eine Ziel-RNA) codiert. In einigen Ausführungsformen steht die die Zielnukleinsäure codierende Nukleinsäure in operativer Verknüpfung mit einem Promotor (z. B. einem konstitutiven Promotor oder einem induzierbaren Promotor).
In einigen Ausführungsformen enthalten die vorliegend beschriebenen Systeme eine Nukleinsäure, die ein CRISPR-assoziiertes Protein codiert, und eine Nukleinsäure, die ein akzessorisches Protein codiert, in einem Vektor. In einigen Ausführungsformen enthält das System ferner eine oder mehrere Nukleinsäuren, die eine im Vektor vorliegende gRNA codieren.
In einigen Ausführungsformen enthalten die vorliegend bereitgestellten Systeme eine Nukleinsäure, die ein Typ-VI-D-CRISPR-Cas-Effektorprotein codiert, in einem Vektor.
In einigen Ausführungsformen enthalten die vorliegend bereitgestellten Systeme eine Nukleinsäure, die das Typ-VI-D-CRISPR-Cas-Effektorprotein codiert, und eine Nukleinsäure, die das akzessorische Protein codiert, in einem Vektor. In einigen Ausführungsformen enthält das System ferner eine oder mehrere Nukleinsäuren, die eine oder mehrere gRNAs (z. B. crRNAs) im Vektor codieren.
In einigen Ausführungsformen handelt es sich bei den in den Systemen enthaltenen Vektoren um Virusvektoren (z. B. Retrovirusvektoren, Lentivirusvektoren, Adenovirusvektoren, adeno-assoziierte Vektoren und Herpes-simplex-Vektoren. In einigen Ausführungsformen handelt es sich bei den im System enthaltenen Vektoren um Phagenvektoren.
In einigen Ausführungsformen befinden sich die vorliegend bereitgestellten Systeme in einem Zuführungssystem. In einigen Ausführungsformen handelt es sich bei dem Zuführungssystem um ein Nanopartikel, ein Liposom, ein Exosom, ein Mikrovesikel und eine Genkanone.
Mit der Offenbarung wird auch eine Zelle (z. B. eine eukaryontische Zelle oder eine prokaryontische Zelle (z. B. eine Bakterienzelle)) bereitgestellt, die ein vorliegend beschriebenes System umfasst. In einigen Ausführungsformen handelt es sich bei der eukaryontischen Zelle um eine Säugerzelle (z. B. eine menschliche Zelle) oder eine Pflanzenzelle. Mit der Offenbarung werden auch Tiermodelle (z. B. Nager-, Kaninchen-, Hunde-, Affen- oder Menschenaffenmodelle) und Pflanzenmodelle bereitgestellt, die die Zellen enthalten.
In einem weiteren Aspekt werden gemäß der Offenbarung Verfahren zur Spaltung einer Zielnukleinsäure (und Zusammensetzungen zur Verwendung bei solchen Verfahren) bereitgestellt, wobei die Verfahren Inkontaktbringen der Zielnukleinsäure mit einem vorliegend beschriebenen System beinhalten, wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure komplementär ist, wobei das CRISPR-assoziierte Protein oder das Typ-VI-D-CRISPR-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert, wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist, und wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz die Zielnukleinsäure durch das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Effektorprotein gespalten wird. In einigen Ausführungsformen der Verfahren befindet sich die Zielnukleinsäure in einer Zelle.
In einem weiteren Aspekt werden gemäß der Offenbarung auch Verfahren zum Induzieren von Dormanz oder Tod einer Zelle (und Zusammensetzungen zur Verwendung bei solchen Verfahren) bereitgestellt, wobei die Verfahren Inkontaktbringen der Zelle mit einem vorliegend beschriebenen System beinhalten, wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure komplementär ist, wobei das Typ-VI-D-CRISPR-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert, wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist, und wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz eine Nicht-Zielnukleinsäure in der Zelle durch das Typ-VI-D-CRISPR-Cas-Effektorprotein gespalten und damit Dormanz oder Tod der Zelle induziert wird. In einigen Ausführungsformen der vorliegend beschriebenen Verfahren erfolgt der Tod der Zelle über Apoptose, Nekrose, Nekroptose oder eine Kombination davon.
In einigen Ausführungsformen handelt es sich bei der Zielnukleinsäure um ein RNA-Molekül (z. B. eine mRNA, eine tRNA, eine ribosomale RNA, eine nicht codierende RNA, eine IncRNA oder eine nukleäre RNA). In einigen Ausführungsformen handelt es sich bei der Zielnukleinsäure um ein DNA-Molekül (z. B. chromosomale DNA, mitochondriale DNA, Einzelstrang-DNA oder Plasmid-DNA).
In einigen Ausführungsformen der vorliegend beschriebenen Verfahren zeigt nach Binden des Komplexes an die Zielnukleinsäuresequenz das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Cas-Effektorprotein kollaterale RNAse-Aktivität.
In einigen Ausführungsformen handelt es sich bei der Zelle um eine Krebszelle (z. B. eine Tumorzelle). In einigen Ausführungsformen handelt es sich bei der Zelle um eine Infektionserregerzelle oder eine mit einem Infektionserreger infizierte Zelle. In einigen Ausführungsformen handelt es sich bei der Zelle um eine Bakterienzelle, eine mit einem Virus infizierte Zelle, eine mit einem Prion infizierte Zelle, eine Pilzzelle, ein Protozoon oder eine Parasitenzelle.
In einem weiteren Aspekt werden gemäß der Offenbarung Verfahren zur Behandlung eines Leidens bzw. einer Krankheit bei einem diese benötigenden Individuum (und Zusammensetzungen zur Verwendung bei solchen Verfahren) bereitgestellt, beinhalten die Verfahren Verabreichen eines vorliegend beschriebenen Systems an das Individuum, wobei die Spacersequenz zu wenigstens 15 Nukleotiden einer mit dem Leiden bzw. der Krankheit zusammenhängenden Zielnukleinsäure komplementär ist, wobei das CRISPR-assoziierte Protein oder das Typ-VI-D-CRISPR-Cas-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert, wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist, und wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz die Zielnukleinsäure durch das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Cas-Effektorprotein gespalten und damit das Leiden bzw. die Krankheit bei dem Individuum behandelt wird.
In einigen Ausführungsformen handelt es sich bei dem Leiden bzw. der Krankheit um eine Krebserkrankung oder eine Infektionskrankheit. In einigen Ausführungsformen handelt es sich bei dem Leiden bzw. der Krankheit um eine Krebserkrankung, und wobei die Krebserkrankung ausgewählt ist aus der Gruppe bestehend aus Wilms-Tumor, Ewing-Sarkom, einem neuroendokrinen Tumor, einem Glioblastom, einem Neuroblastom, einem Melanom, Hautkrebs, Brustkrebs, Darmkrebs, Rektalkarzinom, Prostatakrebs, Leberkrebs, Nierenkrebs, Bauchspeicheldrüsenkrebs, Lungenkrebs, Gallengangkrebs, Gebärmutterhalskrebs, Endometriumkarzinom, Speiseröhrenkrebs, Magenkrebs, Krebs im Kopf- und Halsbereich, medullärem Schilddrüsenkarzinom, Ovarialkarzinom, Gliom, Lymphom, Leukämie, Myelom, akuter lymphatischer Leukämie, akuter myeloischer Leukämie, chronischer lymphatischer Leukämie, chronischer myeloischer Leukämie, Hodgkin-Lymphom, Non-Hodgkin-Lymphom und Harnblasenkrebs.
In einem weiteren Aspekt wird gemäß der Offenbarung die Verwendung eines vorliegend beschriebenen Systems bei einem Verfahren bereitgestellt, das aus der Gruppe bestehend aus RNA-sequenzspezifischer Interferenz; RNA-sequenzspezifischer Genregulation; Screening von RNA, RNA-Produkten, IncRNA, nicht codierender RNA, nukleärer RNA oder mRNA; Mutagenese; Hemmung von RNA-Spleißen; Fluoreszenz-Insitu-Hybridisierung; Züchten; Induktion von Zelldormanz; Induktion von Zellzyklus-Arrest; Reduktion von Zellwachstum und/oder Zellproliferation; Induktion von Zellanergie; Induktion von Zellapoptose; Induktion von Zellnekrose; Induktion von Zelltod; oder Induktion von programmiertem Zelltod ausgewählt ist.
In einigen Ausführungsformen werden die vorliegend beschriebenen Verfahren entweder in vitro, in vivo oder ex vivo durchgeführt.
Mit der Offenbarung werden auch Verfahren zum Modifizieren eines RNA-Moleküls (und Zusammensetzungen zur Verwendung bei solchen Verfahren) bereitgestellt, die Inkontaktbringen des RNA-Moleküls mit einem vorliegend beschriebenen System beinhalten. In einigen Ausführungsformen ist die Spacersequenz zu wenigstens 15 Nukleotiden des RNA-Moleküls komplementär.
Mit der Offenbarung werden auch Verfahren zum Nachweisen einer Ziel-RNA (z. B. einer Einzelstrang-RNA oder einer Doppelstrang-RNA) in einer Probe bereitgestellt, wobei die Verfahren Folgendes beinhalten: a) Inkontaktbringen der Probe mit: (i) einer gRNA oder einer die gRNA codierenden Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an die Ziel-RNA enthält; (ii) einem Typ-VI-D-CRISPR-Cas-Effektorprotein oder einer das Effektorprotein codierenden Nukleinsäure; und (iii) einer markierten Detektor-RNA; wobei das Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert; wobei die gRNA an die Ziel-RNA hybridisiert; und wobei nach Binden des Komplexes an die Ziel-RNA das Effektorprotein kollaterale RNAse-Aktivität zeigt und die markierte Detektor-RNA spaltet; und b) Messen eines durch Spaltung der markierten Detektor-RNA produzierten nachweisbaren Signals, wobei das Messen einen Nachweis der einzelsträngigen Ziel-RNA in der Probe vorsieht.
In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein wenigstens zwei HEPN-Domänen. In einigen Ausführungsformen weist das Typ-VI-D-CRISPR-Cas-Effektorprotein eine Länge von etwa 1200 Aminosäuren oder weniger auf.
In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 80% (z. B. 81%, 82%, 83%, 84%, 85%, 86%, 87% 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, oder 100%) mit einer in Tabelle 2 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350) oder besteht daraus. In einigen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein eine in Tabelle 2 angegebene Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350) oder besteht daraus. In einigen Ausführungsformen handelt es sich bei dem Typ-VI-D-CRISPR-Cas-Effektorprotein um RspCasl3d (SEQ ID NO: 2) oder EsCas13d (SEQ ID NO: 1).
In einigen Ausführungsformen enthält das Effektorprotein eine oder mehrere Aminosäuresubstitutionen innerhalb wenigstens einer der HEPN-Domänen. In einigen Ausführungsformen enthalten die eine oder mehreren Aminosäuresubstitutionen eine Alaninsubstitution an einem R295, H300, R849 oder H854 von SEQ ID NO: 1 oder R288, H293, R820 oder H825 von SEQ ID NO: 2 entsprechenden Aminosäurerest.
In einigen Ausführungsformen beinhalten die Verfahren ferner Vergleichen des nachweisbaren Signals mit einem Referenzsignal und Bestimmen der Menge an Ziel-RNA in der Probe.
In einigen Ausführungsformen erfolgt das Messen unter Verwendung von Goldnanopartikel-Nachweis, Fluoreszenzpolarisation, Kolloidphasenübergang/-dispersion, elektrochemischem Nachweis und Sensorik auf Halbleiterbasis.
In einigen Ausführungsformen enthält die markierte Detektor-RNA ein Fluoreszenzemissionsfarbstoffpaar. In einigen Ausführungsformen enthält die markierte Detektor-RNA ein Fluoreszenzresonanzenergietransfer(FRET)-Paar. In einigen Ausführungsformen enthält die markierte Detektor-RNA ein Quencher/Fluor-Paar.
In einigen Ausführungsformen wird nach Spaltung der markierten Detektor-RNA durch das Effektorprotein eine Menge an von der markierten Detektor-RNA produziertem nachweisbarem Signal vermindert. In einigen Ausführungsformen wird nach Spaltung der markierten Detektor-RNA durch das Effektorprotein eine Menge an von der markierten Detektor-RNA produziertem nachweisbarem Signal erhöht. In einigen Ausführungsformen produziert die markierte Detektor-RNA vor Spaltung durch das Effektorprotein ein erstes nachweisbares Signal und nach Spaltung durch das Effektorprotein ein zweites nachweisbares Signal.
In einigen Ausführungsformen wird ein nachweisbares Signal produziert, wenn die markierte Detektor-RNA durch das Effektorprotein gespalten wird.
In einigen Ausführungsformen enthält die markierte Detektor-RNA eine modifizierte Nukleobase, eine modifizierte Zuckergruppierung, eine modifizierte Nukleinsäureverknüpfung oder eine Kombination davon.
In einem Aspekt betrifft die Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme, die Folgendes enthalten: eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält, wobei die Direct-Repeat-Sequenz 5'- X1X2X3X4TX5TX6AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA enthält und wobei X1 für A oder C oder G, X2 für G oder T, X3 für A oder G, X4 für C oder G oder T, X5 für C oder T und X6 für A oder G steht; und ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist und wobei es sich bei der Zielnukleinsäure um eine RNA handelt.
In einem Aspekt betrifft die Offenbarung konstruierte, nicht natürlich vorkommende Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziierte(Cas)-Systeme, die Folgendes enthalten oder daraus bestehen: eine gRNA oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure enthält, wobei die Direct-Repeat-Sequenz 5'-X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 199) am 3'-terminalen Ende der gRNA enthält und wobei X₁ für A oder C oder G, X₂ für A oder G oder T, X₃ für A oder G oder T, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht;; und ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein zur Bindung (z. B. bindet unter geeigneten Bedingungen) an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist und wobei es sich bei der Zielnukleinsäure um eine RNA handelt.
In einigen Ausführungsformen dieser Systeme enthalten die Typ-VI-D-CRISPR-Cas-Effektorproteine wenigstens zwei HEPN-Domänen. In einigen Ausführungsformen enthalten die Typ-VI-D-CRISPR-Cas-Effektorproteine eine Aminosäuresequenz mit einer Identität von wenigstens 90% mit einer Aminosäuresequenz, die aus der Gruppe bestehend aus SEQ ID NO: 12, SEQ ID NO: 1 und SEQ ID NO: 10 ausgewählt ist. In anderen Ausführungsformen enthalten die Typ-VI-D-CRISPR-Cas-Effektorproteine eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 95% mit einer in Tabelle 2 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350), oder sie können eine in Tabelle 2 angegebene Aminosäuresequenz enthalten.
In verschiedenen Ausführungsformen kann die Direct-Repeat-Sequenz eine in Tabelle 3 angegebene Nukleotidsequenz (z. B. SEQ ID NO 32-49, 52-77, 351-589) enthalten.
In einigen Ausführungsformen führt das Targeting der Zielnukleinsäure zu einer Modifikation der Zielnukleinsäure. Beispielsweise kann es sich bei der Modifikation der Zielnukleinsäure um ein Spaltungsereignis handeln.
Bei den neuen Systemen können die Typ-VI-D-CRISPR-Cas-Effektorproteine eine oder mehrere Aminosäuresubstitutionen innerhalb wenigstens einer der HEPN-Domänen enthalten, was zu einer Reduzierung einer RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins im Vergleich zur RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins ohne die eine oder mehreren Aminosäuresubstitutionen, z. B. 2, 3, 4, 5, 6, 7 oder 8 Aminosäuresubstitutionen, führt. In einigen Ausführungsformen enthalten die eine oder mehreren Aminosäuresubstitutionen eine Alaninsubstitution an einem R295, H300, R849 oder H854 von SEQ ID NO: 1 oder R288, H293, R820 oder H825 von SEQ ID NO: 2 entsprechenden Aminosäurerest.
In einigen Ausführungsformen ist das Typ-VI-D-CRISPR-Cas-Effektorprotein an eine Base-Editing-Domäne, z. B. an eine RNA-Methyltransferase, eine RNA-Demethylase, einen Spleißmodifikator, einen Lokalisationsfaktor oder einen Translationsmodifikationsfaktor fusioniert.
In verschiedenen Ausführungsformen enthält das Typ-VI-D-CRISPR-Cas-Effektorprotein wenigstens ein Kernlokalisierungssignal (NLS), wenigstens ein Kernexportsignal (NES) oder beide. In einigen Ausführungsformen enthält die Direct-Repeat-Sequenz entweder 5'-CACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 152) oder 5'-CACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 153). In einigen Ausführungsformen besteht der Spacer aus etwa 15 bis etwa 42 Nukleotiden.
In einem weiteren Aspekt der Offenbarung enthalten die Systeme die das Typ-VI-D-CRISPR-Cas-Effektorprotein codierende Nukleinsäure in operativer Verknüpfung mit einem Promotor. Bei dem Promotor kann es sich beispielsweise um einen konstitutiven Promotor handeln.
In einigen Ausführungsformen ist die das Typ-VI-D-CRISPR-Cas-Effektorprotein codierende Nukleinsäure für die Expression in einer Zelle codonoptimiert. In verschiedenen Ausführungsformen stehen die das Typ-VI-D-CRISPR-Cas-Effektorprotein codierenden Nukleinsäuren in operativer Verknüpfung mit einem Promotor in einem Vektor, z. B. ausgewählt aus der Gruppe bestehend aus einem Retrovirusvektor, einem Lentivirusvektor, einem Phagenvektor, einem Adenovirusvektor, einem adeno-assoziierten Vektor und einem Herpes-simplex-Vektor, ist.
In einem weiteren Aspekt liegt das System in einem Zuführungssystem vor, das aus der Gruppe bestehend aus einem Nanopartikel, einem Liposom, einem Exosom, einem Mikrovesikel und einer Genkanone ausgewählt ist.
In einigen Ausführungsformen können die Systeme ferner eine Ziel-RNA oder eine die Ziel-RNA codierende Nukleinsäure enthalten, wobei die Ziel-RNA eine Sequenz enthält, die zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an die Spacersequenz der gRNA fähig ist.
In einem weiteren Aspekt umfasst die Offenbarung eine oder mehrere Zellen, die die vorliegend beschriebenen Systeme enthalten.
In einem weiteren Aspekt werden gemäß der Offenbarung Verfahren zum Spalten einer Zielnukleinsäure bereitgestellt. Die Verfahren beinhalten Inkontaktbringen der Zielnukleinsäure mit einem wie vorliegend beschriebenen System; wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure komplementär ist; wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert; wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist; und wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz die Zielnukleinsäure durch das Typ-VI-D-CRISPR-Cas-Effektorprotein gespalten wird.
In einem weiteren Aspekt werden gemäß der Offenbarung Verfahren zum Induzieren von Dormanz oder Tod einer Zelle z. B. in vitro oder in vivo (und Zusammensetzungen zur Verwendung bei solchen Verfahren) bereitgestellt, wobei das Verfahren Inkontaktbringen der Zelle mit einem wie vorliegend beschriebenen System beinhaltet, wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure in der Zelle komplementär ist; wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert; wobei der Komplex an die Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist; und wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz eine Nicht-Zielnukleinsäure in der Zelle durch das Typ-VI-D-CRISPR-Cas-Effektorprotein gespalten und damit Dormanz oder Tod der Zelle induziert wird.
Bei diesen Verfahren kann es sich bei der Zelle um eine Bakterienzelle, eine mit einem Virus infizierte Zelle, eine mit einem Prion infizierte Zelle, eine Pilzzelle, ein Protozoon oder eine Parasitenzelle handeln.
In anderen Ausführungsformen werden gemäß der Offenbarung Verfahren zum Modifizieren einer Zielnukleinsäure in einer Probe bereitgestellt, bei denen die Verfahren Inkontaktbringen der Probe mit einem wie vorliegend beschriebenen System, z. B. mit Fusionsproteinen, beinhalten; wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure in der Probe komplementär ist; wobei das an die Base-Editing-Domäne fusionierte Typ-VI-D-CRISPR-Cas-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert; wobei der Komplex an die Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist; und wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz wenigstens eine Nukleobase der Zielnukleinsäure durch das an die Base-Editing-Domäne fusionierte Typ-VI-D-CRISPR-Cas-Effektorprotein modifiziert wird.
In einem weiteren Aspekt werden gemäß der Offenbarung Verfahren zum Nachweisen einer einzelsträngigen Ziel-RNA in einer Probe bereitgestellt. Diese Verfahren beinhalten: a) Inkontaktbringen der Probe mit: (i) einer gRNA oder einer die gRNA codierenden Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an die Ziel-RNA enthält; (ii) einem Typ-VI-D-CRISPR-Cas-Effektorprotein oder einer das Effektorprotein codierenden Nukleinsäure; und (iii) einer markierten Detektor-RNA; wobei das Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert; wobei die gRNA an die Ziel-RNA hybridisiert; und wobei nach Binden des Komplexes an die Ziel-RNA das Typ-VI-D-CRISPR-Cas-Effektorprotein kollaterale RNAse-Aktivität zeigt und die markierte Detektor-RNA spaltet; und b) Messen eines durch Spaltung der markierten Detektor-RNA produzierten nachweisbaren Signals, wobei das Messen einen Nachweis der einzelsträngigen Ziel-RNA in der Probe vorsieht.
Bei diesen Verfahren enthält das Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 90% mit einer in Tabelle 2 angegebenen Aminosäuresequenz (z. B. SEQ ID NO. 1-31 und 200-350). Diese Verfahren können ferner Vergleichen des nachweisbaren Signals mit einem Referenzsignal und Bestimmen der Menge an Ziel-RNA in der Probe beinhalten.
Der Begriff „Spaltungsereignis“, wie hier verwendet, bezieht sich auf einen durch eine Nuklease (z. B. ein Typ-VI-D-CRISPR-Cas-Effektorprotein) eines vorliegend beschriebenen CRISPR-Systems erzeugten Bruch in einer Zielnukleinsäure. In einigen Ausführungsformen handelt es sich bei dem Spaltungsereignis um einen RNA-Einzelstrangbruch. In einigen Ausführungsformen handelt es sich bei dem Spaltungsereignis um einen RNA-Doppelstrangbruch. In einigen Ausführungsformen handelt es sich bei dem Spaltungsereignis um einen DNA-Doppelstrangbruch. In einigen Ausführungsformen handelt es sich bei dem Spaltungsereignis um einen DNA-Einzelstrangbruch.
Die Begriffe „CRISPR-System“ oder „Clustered Interspaced Short Palindromic Repeat (CRISPR)-assoziiertes(Cas)-System“, wie hier verwendet, beziehen sich auf Nukleinsäuren und/oder Proteine, die an der Expression von oder Steuerung der Aktivität von CRISPR-Effektoren beteiligt sind, einschließlich Sequenzen, die CRISPR-Effektoren codieren, gRNAs und anderer Sequenzen und Transkripte aus einem CRISPR-Locus. In einigen Ausführungsformen handelt es sich bei dem CRISPR-System um ein konstruiertes, nicht natürlich vorkommendes CRISPR-System. In einigen Ausführungsformen können die Komponenten eines CRISPR-Systems eine Nukleinsäure(n) (z. B. einen Vektor), die eine oder mehrere Komponenten des Systems codiert bzw. codieren, eine Komponente(n) in Proteinform oder eine Kombination davon umfassen.
Der Begriff „CRISPR-Array“, wie hier verwendet, bezieht sich auf das Nukleinsäure-(z. B. DNA-) Segment, das CRISPR-Repeats und -Spacer enthält, beginnend mit dem ersten Nukleotid des ersten CRISPR-Repeats und endend mit dem letzten Nukleotid des letzten (terminalen) CRISPR-Repeats. Typischerweise liegt in einem CRISPR-Array zwischen zwei Repeats jeweils ein Spacer. Die Begriffe „CRISPR-Repeat“ oder „CRISPR-Direct-Repeat,“ oder „Direct-Repeat“, wie hier verwendet, beziehen sich auf mehrere kurze direkte Wiederholungssequenzen, die eine sehr geringe oder keine Sequenzvariation innerhalb eines CRISPR-Arrays zeigen.
Der Begriff „CRISPR-RNA“ oder „crRNA“, wie hier verwendet, bezieht sich auf ein RNA-Molekül, das eine Guide-Sequenz enthält, die von einem CRISPR-Effektor zum Anvisieren einer spezifischen Nukleinsäuresequenz verwendet wird. Typischerweise enthalten crRNAs eine Sequenz, die Zielerkennung vermittelt, und eine Sequenz, die einen Duplex mit einer tracrRNA bildet. In einigen Ausführungsformen bindet der crRNA: tracrRNA-Duplex an einen CRISPR-Effektor.
Die Begriffe „Donor-Matrize“ bzw. „Donor-Matrizennukleinsäure“, wie hier verwendet, beziehen sich auf ein Nukleinsäuremolekül, das von einem oder mehreren Zellproteinen dazu verwendet werden kann, die Sequenz einer Zielnukleinsäure zu modifizieren, nachdem die Zielnukleinsäure durch ein vorliegend beschriebenes CRISPR-assoziiertes Protein verändert wurde. In einigen Ausführungsformen handelt es sich bei der Donor-Matrizennukleinsäure um eine doppelsträngige Nukleinsäure. In einigen Ausführungsformen handelt es sich bei der Donor-Matrizennukleinsäure um eine einzelsträngige Nukleinsäure. In einigen Ausführungsformen ist die Donor-Matrizennukleinsäure linear. In einigen Ausführungsformen ist die Donor-Matrizennukleinsäure zirkulär (z. B. ein Plasmid). In einigen Ausführungsformen handelt es sich bei der Donor-Matrizennukleinsäure um ein exogenes Nukleinsäuremolekül. In einigen Ausführungsformen handelt es sich bei der Donor-Matrizennukleinsäure um ein endogenes Nukleinsäuremolekül (z. B. ein Chromosom). In einigen Ausführungsformen handelt es sich bei der Donor-Matrize um ein DNA-Molekül. In einigen Ausführungsformen handelt es sich bei der Donor-Matrize um ein RNA-Molekül.
Der Begriff „CRISPR-Effektor“, „Effektor“, „CRISPR-assoziiertes Protein“ oder „CRISPR-Enzym“, wie hier verwendet, bezieht sich auf ein Protein, das eine enzymatische Aktivität ausführt oder das an eine Zielstelle auf einer durch eine gRNA bestimmte Nukleinsäure bindet. In unterschiedlichen Ausführungsformen besitzt ein CRISPR-Effektor Endonuklease-Aktivität, Nickase-Aktivität, Exonuklease-Aktivität, Transposase-Aktivität und/oder Exzisionsaktivität. In einigen Ausführungsformen handelt es sich bei dem CRISPR-assoziierten Protein um ein Typ-VI-Cas-Protein, ein Typ-V-Cas-Protein oder ein Typ-II-Cas-Protein. In einigen Ausführungsformen handelt es sich bei dem CRISPR-assoziierten Protein um ein Cas13a-Protein, ein Cas13b-Protein, ein Casl3c-Protein, ein Cas13d-Protein, ein Casl2a-Protein oder ein Cas9-Protein. In einigen Ausführungsformen handelt es sich bei dem CRISPR-assoziierten Protein um ein vorliegend beschriebenes Typ-VI-D-CRISPR-Cas-Effektorprotein.
Der Begriff „gRNA“, wie hier verwendet, bezieht sich auf ein beliebiges RNA-Molekül, das das Targeting eines vorliegend beschriebenen Proteins zu einer Zielnukleinsäure unterstützt. Zu „gRNAs“ zählen beispielsweise, ohne jedoch darauf beschränkt zu sein, crRNAs oder crRNAs in Kombination mit zugehörigen trans aktivierenden RNAs (tracrRNAs). Bei letzteren kann es sich um unabhängige RNAs handeln, oder sie können unter Verwendung eines Linkers fusioniert in Form einer einzigen RNA vorliegen. In einigen Ausführungsformen ist die gRNA so konstruiert, dass sie eine chemische oder biochemische Modifikation enthält. In einigen Ausführungsformen kann eine gRNA ein oder mehrere Nukleotide enthalten.
Der Begriff „Replikationsursprung“, wie hier verwendet, bezieht sich auf eine Nukleinsäuresequenz in einem replizierenden Nukleinsäuremolekül (z. B. einem Plasmid oder einem Chromosom), die von einem Replikationsinitiationsfaktor oder einer DNA-Replikase erkannt wird.
Wie hier verwendet, bezieht sich der Begriff „Targeting“ auf die Fähigkeit eines Komplexes, der ein CRISPR-assoziiertes Protein und eine gRNA, wie z. B. eine crRNA, enthält, an eine spezifische Zielnukleinsäure zu binden und nicht an andere Nukleinsäuren, die nicht die gleiche Sequenz aufweisen wie die Zielnukleinsäure.
Wie hier verwendet, bezieht sich der Begriff „Zielnukleinsäure“ auf eine spezifische Nukleinsäuresequenz, die an einen vorliegend beschriebenen Komplex, der ein CRISPR-assoziiertes Protein und eine gRNA enthält, spezifisch bindet. In einigen Ausführungsformen ist oder enthält die Zielnukleinsäure ein Gen. In einigen Ausführungsformen ist oder enthält die Zielnukleinsäure eine nicht codierende Region (z. B. ein Promotor). In einigen Ausführungsformen ist die Zielnukleinsäure einzelsträngig. In einigen Ausführungsformen ist die Zielnukleinsäure doppelsträngig.
Die Begriffe „trans aktivierende crRNA“ bzw. „tracrRNA“, wie hier verwendet, beziehen sich auf eine RNA, die eine Sequenz enthält, die eine für die Bindung eines CRISPR-assoziierten Proteins an eine bestimmte Zielnukleinsäure erforderliche Struktur bildet.
Der Begriff „kollaterale RNAse-Aktivität“, wie hier in Bezug auf ein CRISPR-assoziiertes Protein verwendet, bezieht sich auf unspezifische RNAse-Aktivität eines CRISPR-assoziierten Proteins, nachdem das Enzym an eine spezifisch anvisierte Nukleinsäure gebunden und/oder diese modifiziert hat. In einigen Ausführungsformen zeigt ein CRISPR-assoziiertes Protein (z. B. ein Typ-VI-D-CRISPR-Cas-Effektorprotein) nach Binden an eine Zielnukleinsäure (z. B. eine Ziel-RNA) kollaterale RNAse-Aktivität. Eine Nukleinsäure, die von einem CRISPR-assoziierten Protein unspezifisch gespalten oder abgebaut wird (d. h. wenn das Protein kollaterale RNAse-Aktivität zeigt), wird vorliegend als „Nicht-Zielnukleinsäure“ bezeichnet.
Falls nicht anders angegeben, besitzen alle vorliegend verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie allgemein vom Durchschnittsfachmann auf dem Gebiet, zu dem die vorliegende Erfindung gehört, verstanden wird. Obwohl Methoden und Materialien, die den hier beschriebenen ähnlich oder gleichwertig sind, bei der praktischen Durchführung oder beim Testen der vorliegenden Erfindung verwendet werden können, sind unten geeignete Methoden und Materialien beschrieben. Alle Veröffentlichungen, Patentanmeldungen, Patente und anderen hier genannten Verweise sind hiermit vollinhaltlich durch Bezugnahme aufgenommen. Im Streitfall gilt die vorliegende Patentschrift, einschließlich Definitionen. Darüber hinaus dienen die Materialien, Methoden und Beispiele lediglich der Veranschaulichung und sollen keine Beschränkung darstellen. Das Zitat bzw. die Identifikation eines Dokuments in der vorliegenden Anmeldung bedeutet kein Zugeständnis, dass dieses Dokument als Stand der Technik für die vorliegende Erfindung verfügbar ist.
Andere erfindungsgemäße Merkmale und Vorteile werden aus der folgenden ausführlichen Beschreibung und aus den Ansprüchen ersichtlich.
Figurenliste

1 zeigt eine schematische Darstellung einer Baumtopologie maximaler Wahrscheinlichkeit für eine beispielhafte Teilmenge von Cas13d, wobei auf der rechten Seite die genomische Anordnung der Gene, die vorhergesagte Proteinkomponenten von Typ-VI-D-Systemkomponenten codieren, dargestellt ist. Jede Locussequenz ist mit einer Proteinzugangs- oder Gennummer gekennzeichnet, falls verfügbar unter Angabe des Speziesnamens. Schlüsselproteine und CRISPR-Arrays sind wie folgt dargestellt: weiß - Cas13d, Längsstreifen - WYL1-akzessorisches Protein, hellgrau - WYL-Domäne enthaltendes Protein, Querstreifen - Casl, dunkelgrau - Cas2.
2A zeigt einen schematischen Baum eines Vergleichs der unterschiedlichen Typ-VI-Subtyp-Locusstrukturen. Genpfeile sind in etwa proportional zur Größe dargestellt. Die Bezeichnungen haben die folgende Bedeutung: WYL - WYL-Domäne, HEPN - HEPN-Nuklease-Domäne.
2B zeigt einen Größenvergleich für Cas13-Proteine aus den 4 Typ-VI-Subtypen; Fehlerbalken bezeichnen Mittelwert und Standardabweichung.
3 zeigt einen phylogenetischen Baum von Casl-Proteinen aus Typ-II- und Typ-VI-CRISPR-Cas-Systemen. Der Baum wurde für einen nicht redundanten Satz von Cas1-Proteinen assoziiert mit Cas13d und Typ-II- und Typ-VI-CRISPR-Cas-Systemen wie zuvor beschrieben konstruiert (siehe (Peters et al., 2017)). Mehrere mit Subtyp-I-E-Systemen assoziierte Casi-Proteine wurden für eine Außengruppe ausgewählt. Jede Sequenz ist mit einer lokalen Identifizierungsnummer, CRISPR-Cas-Typ und Speziesname (falls verfügbar) bezeichnet. Mit Cas13d assoziierte Cas1-Proteine sind mit „CAS-VI-D“ und mit Cas13a assoziierte mit „CAS-VI-A“ bezeichnet. Mehrere Äste wurden kollabiert und sind durch Dreiecke dargestellt, wobei das CRISPR-Cas rechts davon angegeben ist. Stützwerte sind für ausgewählte Äste angegeben.
4A und 4B zeigen einen phylogenetischen Baum, der für einen kombinierten Satz beschriebene Casl3d-Sequenzen (hellgrau) und zuvor beschriebene Cas13a-Sequenzen konstruiert wurde. Jede Sequenz ist mit einem Proteinlocus-Tag und Speziesnamen (falls verfügbar) bezeichnet. Cas13d-Proteine bilden eine Klade mit einem 100%-Bootstrap-Stützwert (gezeigt am Ast).
5A, 5B und 5C zeigen ein Mehrsequenzen-Alignment von Cas13d-Proteinsequenzen (RspCas13d (SEQ ID NO: 2) und EsCas13d (SEQ ID NO: 1) und Cas13a-Proteinsequenzen (LbaCas13a (SEQ ID NO: 156), LbuCas13a (SEQ ID NO: 157), LshCas13a (SEQ ID NO: 158)). Zuvor identifizierte Domänen von Cas13a sind mit verschiedenen Grautönen unterlegt, wie in der Figur angezeigt (NTD, N-terminale Domäne). Zu beachten ist das fast vollständige Fehlen eines Gegenstücks zur Helical-1-Domäne von Cas13a in Casl3d (das Alignment in dieser Region kann nicht als gesichert betrachtet werden).
6 zeigt einen phylogenetischen Baum der WYL1-Proteinfamilie. Beispielhafte WYL1-Proteine, die mit Cas13d assoziiert sind, sind in grau gekennzeichnet. In Fällen, bei denen ein CRISPR-Array und/oder andere cas-Gene in der Nähe des jeweiligen WYL1-Gens (innerhalb von 10 kb stromab- und stromaufwärts) vorhanden sind, enthält die Beschreibung „CRISPR“. Mehrere Äste wurden kollabiert und sind durch Dreiecke dargestellt. Neben jedem Ast ist die Domänenorganisation schematisch dargestellt. Abkürzung: WYL - WYL-Domäne (in der Regel an eine charakteristische C-terminale Subdomäne fusioniert); RHH - Ribbon-Helix-Helix-Superfamilie-DNA-Bindungsdomäne.
7 zeigt ein Mehrsequenzen-Alignment beispielhafter WYL1-Proteinsequenzen. Die RHH-Domäne ist unter dem Alignment mit ‚r‘ und die an die charakteristische C-terminale Subdomäne fusionierte WYL-Domäne mit ‚y‘ bezeichnet. Die vorhergesagten Sekundärstrukturelemente sind dargestellt (E, erweiterte Konformation (β-Strang), H, α-Helix).
8 zeigt ein Design minimaler konstruierter CRISPR-Cas-Systeme für die Rsp- und Es-Typ-VI-D-CRISPR-Loci (als RspCas13d- und EsCas13d-Systeme bezeichnet), mit einer pACYC184 (sowohl oberen als auch unteren Strang) abdeckenden Spacer-Bibliothek.
9 zeigt ein Schema des zur Bewertung von Funktionsparametern von RspCas13d- und EsCas13d-Systemen verwendeten Bakterien-Screens mit negativer Selektion.
10A und 10B zeigen eine Negativkontrollbedingung aus Bakterien-Screens für EsCasl3d- bzw. RspCasl3d-Systeme. Durchgezogene und gestrichelte Linien repräsentieren beide möglichen in die Screening-Bibliothek klonierten DR(Direct Repeat)-Orientierungen. Nicht-Targeting-CRISPR-Arrays (mit zu einem offenen GFP-Leseraster passenden Spacern) inseriert in EsCas13d- und RspCas13d-Screening-Systeme zeigten minimale Depletionsniveaus in Bakterien-Screens mit negativer Selektion (unser Screen-System enthielt kein offenes GFP-Leseraster).
11A und 11B zeigen eine Negativkontrollbedingung aus Bakterien-Screens für EsCas13d- bzw. RspCas13d-Systeme. Durchgezogene und gestrichelte Linien repräsentieren beide möglichen in die Screening-Bibliothek klonierten DR(Direct Repeat)-Orientierungen. Deletion der offenen Leseraster EsCasl3d- und RspCas13d-RspWYL1 aus den EsCas13d- und RspCasl3d-Screening-Systemen resultierte in minimaler Depletion von Bibliothek-CRISPR-Array-Elementen in Bakterien-Screens mit negativer Selektion.
12A und 12B zeigen die Verteilung und Stärke der crRNA-Depletion anhand von Bakterien-Screens für EsCas13d bzw. RspCasl3d. Ein Depletionswert wurde über normierte Sequenzierablesungen vom Screen-Output geteilt durch normierte Ablesungen von der Prätransformationsscreen-Input-Bibliothek für jeden bzw. jede crRNA-Spacer und - Orientierung berechnet. Durchgezogene und gestrichelte Linien repräsentieren beide möglichen in die Screening-Bibliothek klonierten DR(Direct Repeat)-Orientierungen, kloniert in die Screening-Bibliothek. Die vertikalen gestrichelten Linien demarkieren die Schnittlinie der eingestuften Screen-Hits mit dem Depletionsbruchteil von 0,1, unter dem die Definition stark depletiert gilt.
13A und 13B zeigen den Ort stark depletierter Ziele der aktiven DR-Orientierung über die Stränge und genetischen Merkmale des pACYC184-Plasmids für EsCasl3d- bzw. RspCasl3d-Systeme. Hellgraue Außenlinien repräsentieren die Gesamtzahl der einen Ort anvisierenden Spacer (y-Achse), während kurze Balken die Orte stark depletierter Spacer zeigen, wobei die Heatmap-Farbe proportional zur Stärke der Depletion ist. Direktionale Expressionsdaten für pACYC 184 sind als Heatmap zwischen den x-Achsen graphisch aufgetragen.
14A und 14B zeigen Web-Logos für die 5'- und 3'-30-nt-Regionen, die stark depletierte Ziele für EsCas13d- und RspCas13d-Systeme flankieren, und keine Hinweise auf PFS- oder PAM-Bedarf.
14C zeigt Violin-Plots von Bit-Werten aller möglichen PFS-Targeting-Regeln bis zu Länge 3 unter Beteiligung der Zielstelle und +/- 15 nt flankierender Region für BzCas13b-, RspCasl3d- und EsCasl3d-Systeme. Punkte repräsentieren Datenpunkte außerhalb der erkennbaren Dichte des Violin-Plots. Diese Punkte wiederholen genau die bekannten PFS-Positionen von BzCas13b, wie über den Punkten dargestellt.
15 zeigt Balkendiagramme, die den Bruchteil von Treffern für RspCas13d- und EsCas13d-Systeme gemäß Merkmalen des Plasmids für alle Ziele darstellen.
16A und 16B zeigen Heatmaps des Bruchs (Anz. stark depletierte Spacer) / (Anz. stark depletierte Spacer + Anz. nicht depletierte Spacer) für alle Zielregionen (nur CRISPR-Arrays mit aktiver Direct-Repeat-Orientierung) ohne vorhergesagte Sekundärstruktur zwischen spezifischen Start- (x-Achse) und End- (y-Achse) Orten. Weiße Kästchen kennzeichnen spezifische Zielregionen (begrenzt durch Start- (x-Achse) und End-(y-Achse) Orte), wobei die Selektion von Spacern ohne vorhergesagte Sekundärstruktur die Targeting-Wirksamkeit maximierte bei Minimierung der Zahl der Screen-Spacer, die aufgrund des Vorliegens vorhergesagter Sekundärstruktur eliminiert wurden. Ziele dieser Spacerpopulationen werden als „Ziele mit geringer Sekundärstruktur“ für RspCas13d bzw. EsCas13d bezeichnet.
16C zeigt Balkendiagramme, die den Bruchteil von Treffern für RspCas13d- und EsCasl3d-Systeme gemäß Merkmalen des Plasmids für Ziele mit geringer Sekundärstruktur darstellen.
17 zeigt ein Schema der RNA-Extraktion aus Bakterien-Screen, NGS (Next-Generation Sequencing) und Alignment zur Bestimmung der reifen crRNA für EsCasl3d. Verteilung der abgelesenen Zahlen nach Ort der crRNA-Sequenz ist auf der rechten Seite abgebildet, wobei die vorhergesagte Sekundärstruktur reifer EsCas13d-crRNA dargestellt ist.
18 zeigt ein mit Coomassie-Blau gefärbtes Polyacrylamid-Gel von aufgereinigten rekombinanten Proteinen EsCasl3d, RspCas13d bzw. RspWYL1.
19 zeigt schematische Darstellungen der anhand von NGS (Next-Generation Sequencing) in vitro gespaltener RNA-Fragmente aus der Prä-crRNA-Prozessierung mit EsCas13d und RspCas13d identifizierten Hauptprodukte. Die schwarze Linie repräsentiert die Direct Repeats und assoziierte Sekundärstruktur, das Kästchen den Volllängen-Spacer und das gefüllte Dreieck die Spaltstellen. Die beschriebenen Längen gelten für prozessierte EsCasl3d-crRNAs, wobei RspCasl3d ein extra Nukleotid aufgrund der natürlichen Länge des verwendeten Spacers von 31 nt statt 30 aufweist. Nicht dargestellt sind die 3-4 nt am 5'-Ende der Prä-crRNA von T7-In-vitro-Transkription.
20A, 20B, 20C und 20D stellen denaturierende Gele dar, die die Cas13d-vermittelte Spaltung ihrer zugehörigen Prä-crRNAs gegen eine Dosistitration der Effektorkonzentration zeigen. Die Abhängigkeit der Cas13d-crRNA-Biogenese von zweiwertigen Metallkationen wurde mit der Einführung von 100 mM EDTA zu den Standardreaktionsbedingungen bewertet.
In 21 ist ein denaturierendes Gel dargestellt, das Prozessierung von Prä-crRNA (200 nM) durch LwaCas13a in einer Endkonzentration von 100 nM ohne die Gegenwart von EDTA und unter mit steigenden Konzentrationen von EDTA (3,3 - 100 mM) ergänzten Reaktionsbedingungen zeigt.
22A und 22B zeigen eine Titration von Apo EsCas13d und RspCas13d (100 - 0,4 nM) gegen ein Nichtziel-ssDNA-Substrat (100 nM).
23A und 23B zeigen eine Titration von EsCas13d und RspCas13d im Komplex mit crRNA (100 - 0,4 nM) gegen Nichtziel-ssDNA-Substrate (100 nM).
24A und 24B zeigen eine Titration von EsCas13d und RspCas13d im Komplex mit crRNA (100 - 0,4 nM) gegen Ziel-ssDNA-Substrate (100 nM). Absättigung von Zielspaltungsaktivität wurde bei ca. 50 nM RspCas13d-crRNA-Komplex und 100 nM EsCas 13d-crRNA-Komplex beobachtet.
25A und 25B stellen repräsentative denaturierende Gele dar, die die gezielte RNase-Aktivität von EsCas13d- und RspCas13d-Effektorproteinen zeigen, wobei Substrat-RNA-Spaltung erfolgt, wenn die crRNA mit ihrer komplementären Ziel-ssRNA zusammenpasst. RNA-Substrate sind 5' mit IRDye 800 markiert.
26A und 26B stellen repräsentative denaturierende Gele dar, die unspezifische RNase-Aktivität der Cas13d-Effektoren nach gezielter Substraterkennung zeigen, demonstriert anhand der Spaltung von mit Fluoreszein-dUTP-Körperchen markierter kollateraler RNA nach Aktivierung der Zielnuklease-Aktivität. Für alle Reaktionen wurden EsCas13d-crRNA- und RspCas13d-crRNA-Komplexe gebildet, indem Cas13d und zugehörige crRNA 5 Minuten bei 37°C vorinkubiert wurden, bevor Ziel- und/oder kollaterale ssRNA zugegeben und die Reaktion 30 Minuten inkubiert wurde.
26C und 26D stellen denaturierende Gele dar, die Spaltungsreaktionen des Cas13d-crRNA-Komplexes gegenüber zwei unterschiedlichen ssRNA-Substraten zeigen, kurzen 150-nt-Ziel-RNAs (oben) und längeren fluoreszenzkörpermarkierten 800-nt-ssRNA-Substraten (unten) für EsCas13d und RspCas13d. Die Kennzeichnungen A und B entsprechen passenden crRNA/Substrat-Paaren.
27A zeigt eine vergleichende graphische Auftragung der Depletion von Bakterien-Screens, die auf RspCas13d allein (durchgezogene Linie, grob gestrichelte Linie) versus RspCas13d mit RspWYL1 (fein und mittelfein gestrichelte Linien) durchgeführt wurden. Die gestrichelten vertikalen Linien demarkieren die Schnittlinie der eingestuften Screen-Hits mit dem Depletionsbruchteil von 0,1, unter dem die Definition stark depletiert gilt.
27B zeigt Spacer-Depletionsverhältnisse für RspCasl3d mit und ohne RspWYL1.
28 zeigt eine graphische Auftragung der Depletion von Bakterien-Screens unter Verwendung von lediglich RspWYL1 und der mit RspCas13d assoziierten Repeat-Spacer-Repeat-Bibliothek.
29A und 29B zeigen repräsentative Aktivität der Titration unterschiedlicher Molverhältnisse von aufgereinigtem RspWYL1 zu einer fixierten Dosis von RspCas13d. Bei 29A handelt es sich um einen ssRNA-Substratspaltungstest, wobei in 29B der Effekt von RspWYL1 auf kollaterale Aktivität bewertet wird.
29C zeigt den Effekt auf RNA-Spaltung der Titration von RspWYL1 (800 bis 0,4 nM) bei gehaltener fixierter Konzentration von Apo RspCas13d (200 nM) für Ziel-ssRNA.
29D zeigt den Effekt auf RNA-Spaltung der Titration von RspWYL1 (800 bis 0,4 nM) bei gehaltener fixierter Konzentration von Apo RspCas13d (200 nM) für kollaterale ssRNA-Aktivität.
29E zeigt den Effekt auf RNA-Spaltung der Titration von RspWYL1 (800 bis 0,4 nM) bei gehaltener fixierter Konzentration von RspCas13d-crRNA-Komplex (50 nM) für Ziel-ssRNA.
29F zeigt den Effekt auf RNA-Spaltung der Titration von RspWYL1 (800 bis 0,4 nM) bei gehaltener fixierter Konzentration von RspCas13d-crRNA-Komplex (50 nM) für kollaterale ssRNA-Aktivität.
30A und 30B zeigen repräsentative Aktivität der Titration unterschiedlicher Molverhältnisse von aufgereinigtem RspWYL1 zu einer fixierten Dosis von EsCas13d. Bei 30A handelt es sich um einen ssRNA-Substratspaltungstest, wobei in 30B der Effekt von RspWYL1 auf kollaterale Aktivität von EsCas13d bewertet wird. In diesen beiden Reaktionen wurde RspWYL1 zusammen mit der Prä-crRNA und Cas13d-Effektor 5 Minuten bei 37°C vor der Inkubation mit Substrat-RNA vorinkubiert. Die Endkonzentration von Cas13d in der Reaktion beträgt 33 nM bei einem 2: 1-Verhältnis von Cas13d zu Prä-crRNA.
31 zeigt, dass RspWYL1 die Aktivität von Typ-VI-B-Effektor BzCas13b verbessert. Repräsentatives Gel, das die Fähigkeit von RspWYL1 zeigt, Zielspaltung und kollaterale Aktivität für Cas13-Enzyme von Subtyp VI-B zu verbessern, womit Modularität über Typ VI-D hinaus demonstriert wird. Bei dieser Reaktion wurde RspWYL1 zusammen mit der Prä-crRNA und BzCasl3b-Effektor 5 Minuten bei 37°C vor der Inkubation mit Substrat-RNA vorinkubiert.
32A und 32B zeigen, dass EsCas13d bzw. RspCas13d zum spezifischen Nachweis von RNA-Spezies unter Verwendung der kollateralen Wirkung der Enzyme fähig sind, wobei zusätzlich differentielle Aktivität gegenüber kurzen Ribonukleotidoligomersubstraten demonstriert wird. Die poly-G- und poly-U-Bezeichnungen beziehen sich auf Substrate, die 5 identische Ribonukleotidbasen enthalten, wobei das 5'-Ende mit einem FAM-markierten Fluoreszenz-Ribonukleotid und das 3'-Ende mit einem Iowa Black FQ-Fluoreszenzquencher modifiziert ist. Diese Daten wurden 60 Minuten nach Inkubation bei 37 °C gesammelt. Die Fehlerbalken repräsentieren S.E.M. von vier technischen Replikaten.
33A und 33B zeigen die Verteilung und Stärke der crRNA-Depletion für primäres Screening von EsCas13d bzw. RspCas13d (Effektor allein) in Abwesenheit von Tetracyclin. Der Wert für crRNA-Depletion wurde über normierte Sequenzierablesungen vom Screen-Output geteilt durch normierte Ablesungen von der Prätransformationsscreen-Input-Bibliothek für jeden bzw. jede crRNA-Spacer und -Orientierung berechnet. Die vertikalen gestrichelten Linien demarkieren die Schnittlinie der eingestuften Screen-Hits mit dem Depletionsbruchteil von 0,1, unter dem die Definition stark depletiert gilt.
34A und 34B zeigen den Ort stark depletierter Ziele der aktiven DR-Orientierung über die Stränge und genetischen Merkmale des pACYC184-Plasmids für EsCas13d bzw. RspCas13d (Effektor allein). Hellgraue Außenlinien repräsentieren die Gesamtzahl der einen Ort anvisierenden Spacer (y-Achse), während kurze horizontale Balken die Orte stark depletierter Spacer zeigen, wobei die Heatmap-Farbe proportional zur Stärke der Depletion ist.

AUSFÜHRLICHE BESCHREIBUNG
CRISPR-Klasse-2-RNA-geführte RNasen
In einem Aspekt wird vorliegend eine neue Familie von CRISPR-Klasse-2-Effektoren mit zwei streng konservierten RX4-6H-Motiven bereitgestellt, die für HEPN(Higher Eukaryotes and Prokaryotes Nucleotide-binding)-Domänen charakteristisch sind. CRISPR-Klasse-2-Effektoren, die zwei HEPN-Domänen enthalten, wurden bereits charakterisiert und umfassen z. B. CRISPR-Cas13a (C2c2), -Cas13b und -Cas13c.
Es konnte gezeigt werden, dass es sich bei HEPN-Domänen um RNAse-Domänen handelt, die die Fähigkeit von Bindung an ein beliebiges Ziel-RNA-Molekül und Spaltung davon verleihen. In einigen Ausführungsformen umfasst eine HEPN-Domäne die Aminosäuresequenz RXXXXH, wobei X für eine beliebige Aminosäure steht (SEQ ID NO: 94). Die Ziel-RNA kann eine beliebige geeignete Form von RNA sein, einschließlich, ohne jedoch darauf beschränkt zu sein, mRNA, tRNA, ribosomaler RNA, nicht codierender RNA, lincRNA und nukleärer RNA. Beispielsweise erkennt und spaltet in einigen Ausführungsformen das CRISPR-assoziierte Protein Ziele, die auf dem codierenden Strang von offenen Leserastern (Open Reading Frames, ORFs) liegen.
In einer Ausführungsform wird gemäß der Offenbarung eine Familie von CRISPR-Klasse-2-Effektoren bereitgestellt, die vorliegend im Allgemeinen als Typ-VI-D-CRISPR-Cas-Effektorproteine, Cas13d oder Cas13ε bezeichnet werden. Ein direkter Vergleich der Typ-VI-D-CRISPR-Cas-Effektorproteine mit dem Effektor dieser anderen Systeme zeigt, dass Typ-VI-D-CRISPR-Cas-Effektorproteine deutlich kleiner sind (z. B. 20% weniger Aminosäuren) und weniger als 10% Sequenzähnlichkeit in Mehrsequenzen-Alignments mit anderen zuvor beschriebenen Effektorproteinen aufweisen. Diese neu identifizierte Familie von CRISPR-Klasse-2-Effektoren läßt sich in einer Vielfalt von Anwendungen verwenden und eignet sich besonders für therapeutische Anwendungen, da sie deutlich kleiner sind als andere Effektoren (z. B. CRISPR-Cas13a-, -Cas13b- oder -Cas13c-Effektoren), was die Verpackung der Effektoren und/oder der die Effektoren codierenden Nukleinsäuren in Zuführungssysteme mit Größenbeschränkungen ermöglicht.
In Bakterien enthalten die Typ-VI-D CRISPR-Cas-Systeme einen einzelnen Effektor (mit einer Länge von ungefähr 920 Aminosäuren) und ein oder keine akzessorische Proteine (mit einer Länge von ungefähr 380 Aminosäuren) in unmittelbarer Nähe zu einem CRISPR-Array. Das CRISPR-Array enthält Direct-Repeat-Sequenzen mit einer typischen Länge von 36 Nukleotiden, die im Allgemeinen hoch konserviert sind, vor allem am 3'-Ende, das mit TNTNAAAC (SEQ ID NO: 154) endet. Reduzierter Konsensus der Nukleotidsequenz im 5'-Ende der Direct Repeats lässt darauf schließen, dass die crRNA vom 5'-Ende her prozessiert wird. Mit wenigen Ausnahmen beginnt die Sequenz von 21 Nukleotiden unmittelbar stromaufwärts vom 3'-Ende TNTNAAAC (SEQ ID NO: 154) mit einem hoch konservierten A und zeigt Sequenzkomplementarität, die auf eine starke Basenpaarung für eine RNA-Loop-Struktur hindeutet. Die in den Cas13d-CRISPR-Arrays enthaltenen Spacer weisen am häufigsten eine Länge von 30 Nukleotiden auf, wobei die Längenvariation mehrheitlich im Bereich von 28 bis 36 Nukleotiden liegt.
Beispiele für Typ-VI-D-CRISPR-Cas-Effektorproteine sind unten in Tabelle 2 angegeben (z. B. SEQ ID NO. 1-31 und 200-350). In einigen Ausführungsformen enthalten ein Typ-VI-D-CRISPR-Cas-Effektorproteine eine Aminosäuresequenz mit einer Identität von wenigstens etwa 80% (z. B. 81%, 82%, 83%, 84%, 85%, 86%, 87% 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% oder 100%) mit der Aminosäuresequenz von einem aus Tabelle 2 (z. B. SEQ ID NO. 1-31 und 200-350). In einigen Ausführungsformen enthält ein Typ-VI-D-CRISPR-Cas-Effektorprotein die Aminosäuresequenz von einem aus Tabelle 2 (z. B. SEQ ID NO. 1-31 und 200-350). In einigen Ausführungsformen handelt es sich bei dem Typ-VI-D-CRISPR-Cas-Effektorprotein um DS499551 (SEQ ID NO: 1; vorliegend auch bezeichnet als EsCas13d) oder LARF01000048 (SEQ ID NO: 2; vorliegend auch bezeichnet als RspCas13d),wobei die Aminosäuresequenzen davon jeweils nachstehend angegeben sind:
In einigen Ausführungsformen sind die vorliegend beschriebenen CRISPR-assoziierten Proteine (z. B. Typ-VI-D-CRISPR-Cas-Effektorproteine) etwa 800 bis etwa 1150 Aminosäuren lang, wie mit einer Länge von etwa 850 bis etwa 1100 Aminosäuren, z. B. etwa 850 bis etwa 1050, etwa 850 bis etwa 1000 Aminosäuren lang, oder etwa 850 bis etwa 950 Aminosäuren lang.
In einigen Ausführungsformen weisen die CRISPR-assoziierten Proteine (z. B. Typ-VI-D-CRISPR-Cas-Effektorproteine) RNAse-Aktivität (z. B. kollaterale RNAse-Aktivität) auf. In einigen Ausführungsformen weisen die CRISPR-assoziierten Proteine DNAse-Aktivität auf. In einigen Ausführungsformen wird die DNAse- und/oder RNAse-Aktivität durch eine einzelne oder beide in den CRISPR-assoziierten Proteinen vorliegende HEPN-Domänen vermittelt.
In einigen Ausführungsformen stammt ein CRISPR-assoziiertes Protein (z. B. Typ-VI-D-CRISPR-Cas-Effektorprotein) aus einem Ruminococcus- oder Eubacterium-Bakterium. In einigen Ausführungsformen stammt das CRISPR-assoziierte Protein aus einer Bakterienquelle von menschlichen Stuhlproben.
Kollaterale RNase-Aktivität
In einigen Ausführungsformen wird ein aus einem CRISPR-assoziierten Protein und einer crRNA (aber nicht darauf beschränkt) bestehender Komplex nach Bindung an eine Zielnukleinsäure (z. B. eine Ziel-RNA) aktiviert. Die Aktivierung induziert eine Konformationsänderung, die dazu führt, dass der Komplex wie eine unspezifische RNase agiert und RNA-Moleküle (z. B. ssRNA- oder dsRNA-Moleküle) nahebei spaltet und/oder abbaut (d. h. „kollaterale“ Wirkungen).
Kollateralfreie RNA-Spaltung
In anderen Ausführungsformen zeigt ein aus dem CRISPR-assoziierten Protein und einer crRNA (aber nicht darauf beschränkt) bestehender Komplex keine kollaterale RNase-Aktivität im Anschluss an die Zielerkennung. Diese „kollateralfreie“ Ausführungsform kann Wildtyp- oder konstruierte Effektorproteine umfassen.
PAM/PFS-unabhängiges Targeting
In einigen Ausführungsformen erkennt und spaltet ein CRISPR-assoziiertes Protein (z. B. ein vorliegend beschriebenes Typ-VI-D-CRISPR-Cas-Effektorprotein) die Zielnukleinsäure ohne jegliche zusätzliche Bedingungen unmittelbar neben dem oder als Flanken des Protospacers (d. h. die Bedingungen „PAM“ (Protospacer Adjacent Motif) bzw. „PFS“ (Protospacer Flanking Sequence)).
Deaktivierte/Inaktivierte CRISPR-assoziierte Proteine
Wo die vorliegend beschriebenen CRISPR-assoziierten Proteine Nuklease-Aktivität aufweisen, können die CRISPR-assoziierten Proteine modifiziert werden, so dass sie verminderte Nuklease-Aktivität, z. B. eine Nuklease-Inaktivierung von wenigstens 50%, wenigstens 60%, wenigstens 70%, wenigstens 80%, wenigstens 90%, wenigstens 95%, wenigstens 97% oder 100%, im Vergleich mit den Wildtyp-CRISPR-assoziierten Proteinen aufweisen. Die Nuklease-Aktivität kann mit mehreren im Stand der Technik bekannten Methoden vermindert werden, z. B. Einführen von Mutationen in die Nuklease-Domänen der Proteine. In einigen Ausführungsformen werden katalytische Reste für die Nuklease-Aktivitäten identifiziert, wobei diese Aminosäurereste durch andere Aminosäurereste (z. B. Glycin oder Alanin) substituiert werden können, um die Nuklease-Aktivität zu vermindern. In einigen Ausführungsformen handelt es sich bei der Aminosäuresubstitution um eine konservative Aminosäuresubstitution. In einigen Ausführungsformen handelt es sich bei der Aminosäuresubstitution um eine nichtkonservative Aminosäuresubstitution.
In einigen Ausführungsformen werden die vorliegend beschriebenen CRISPR-assoziierten Proteine (z. B. ein Typ-VI-D-CRISPR-Cas-Effektorprotein) modifiziert, so dass sie eine oder mehrere Mutationen (z. B. Aminosäuredeletionen, -insertionen oder - substitutionen) in wenigstens einer HEPN-Domäne umfassen. In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein eine, zwei, drei, vier, fünf, sechs, sieben, acht, neun oder mehr Aminosäuresubstitutionen in wenigstens einer HEPN-Domäne. Beispielsweise umfassen in einigen Ausführungsformen die eine oder mehreren Mutationen eine Substitution (z. B. eine Alaninsubstitution) an einem R295, H300, R849, H854 von SEQ ID NO: 1 oder R288, H293, R820 oder H825 von SEQ ID NO: 2 entsprechenden Aminosäurerest. Das Vorliegen wenigstens einer dieser Mutationen führt zu einem CRISPR-assoziierten Protein mit reduzierter Nuklease-Aktivität (z. B. RNAse-Aktivität) im Vergleich zur Nuklease-Aktivität des CRISPR-assoziierten Proteins, von dem das Protein abgeleitet wurde (d. h. ohne die Mutation).
Die inaktivierten CRISPR-assoziierten Proteine können mit einer oder mehreren Funktionsdomänen fusioniert oder assoziiert werden (z. B. über Fusionsprotein, Linkerpeptide, „GS“-Linker usw.). Diese Funktionsdomänen können verschiedene Aktivitäten besitzen, z. B. Methylase-Aktivität, Demethylase-Aktivität, Transkriptionsaktivierung-Aktivität, Transkriptionsrepression-Aktivität, Transkription-Release-Factor-Aktivität, Histonmodifikation-Aktivität, RNA-Spaltung-Aktivität, DNA-Spaltung-Aktivität, Nukleinsäurebindung-Aktivität, Base-Editing-Aktivität und Schalter-Aktivität (z. B. lichtinduzierbar). In einigen Ausführungsformen handelt es sich bei den Funktionsdomänen um KRAB (Krüppel Associated Box), VP64, VP16, Fok1, P65, HSF1, MyoDl, ADAR (Adenosine Deaminase Acting on RNA) 1, ADAR2, APOBEC, Cytidin-Deaminase (AID), Mini-SOG, APEX und Biotin-APEX. In einigen Ausführungsformen handelt es sich bei der Funktionsdomäne um eine Base-Editing-Domäne (z. B. ADAR1, ADAR2, APOBEC oder AID). In einigen Ausführungsformen ist das CRISPR-assoziierte Protein an eine Funktionsdomäne fusioniert. In einigen Ausführungsformen ist das CRISPR-assoziierte Protein an mehrere (z. B. zwei, drei, vier, fünf, sechs, sieben, acht oder mehr) Funktionsdomänen fusioniert. In einigen Ausführungsformen ist die Funktionsdomäne (z. B. eine Base-Editing-Domäne) weiter an eine RNA bindende Domäne (z. B. MS2) fusioniert. In einigen Ausführungsformen ist das CRISPR-assoziierte Protein an eine Funktionsdomäne über eine Linkersequenz (z. B. eine flexible Linkersequenz oder eine starre Linkersequenz) assoziiert oder fusioniert. Beispiele für Linkersequenzen und Funktionsdomänesequenzen sind in Tabelle 10 angegeben.
Die Positionierung der einen oder mehreren Funktionsdomänen auf den inaktivierten CRISPR-assoziierten Proteinen ist so, dass sie eine korrekte räumliche Orientierung für die Beeinflussung des Ziels durch die Funktionsdomäne mit der zugeschriebenen funktionellen Wirkung ermöglicht. Falls es sich beispielsweise bei der Funktionsdomäne um einen Transkriptionsaktivator handelt (z. B. VP16, VP64 oder p65), wird der Transkriptionsaktivator in einer räumlichen Orientierung platziert, die ihm die Beeinflussung der Transkription des Ziels gestattet. Gleichermaßen wird ein Transkriptionsrepressor so positioniert, dass er die Transkription des Ziels beeinflusst, und eine Nuklease (z. B. Fok1) so positioniert, dass sie das Ziel spaltet oder teilweise spaltet. In einigen Ausführungsformen ist die Funktionsdomäne am N-Terminus des CRISPR-assoziierten Proteins positioniert. In einigen Ausführungsformen ist die Funktionsdomäne am C-Terminus des CRISPR-assoziierten Proteins positioniert. In einigen Ausführungsformen ist das inaktivierte CRISPR-assoziierte Protein so modifiziert, dass es eine erste Funktionsdomäne am N-Terminus und eine zweite Funktionsdomäne am C-Terminus umfasst.
Verschiedene Beispiele für inaktivierte CRISPR-assoziierte Proteine, die mit einer oder mehreren Funktionsdomänen fusioniert sind, sowie Methoden zur Verwendung derselben sind beschrieben, z. B. in International Publication No. WO 2017/219027, die hiermit vollinhaltlich durch Bezugnahme und insbesondere mit Bezug auf die vorliegend beschriebenen Merkmale aufgenommen ist.
Gespaltene Enzyme
Mit der vorliegenden Offenbarung wird auch eine gespaltene Version der vorliegend beschriebenen CRISPR-assoziierten Proteine (z. B, eines Typ-VI-D-CRISPR-Cas-Effektorproteins) bereitgestellt. Die gespaltene Version des CRISPR-assoziierten Proteins kann für die Zuführung vorteilhaft sein. In einigen Ausführungsformen werden die CRISPR-assoziierten Proteine in zwei Teile des Enzyms gespalten, die zusammen weitgehend ein funktionsfähiges CRISPR-assoziiertes Protein umfassen.
Die Spaltung kann so erfolgen, dass die katalytische(n) Domäne(n) nicht betroffen sind. Das CRISPR-assoziierte Protein kann als Nuklease fungieren oder ein inaktiviertes Enzym sein, bei dem es sich im Wesentlichen um ein RNA bindendes Protein mit sehr wenig oder keiner katalytischen Aktivität handelt (z. B. aufgrund von Mutation(en) in seinen katalytischen Domänen). Gespaltene Enzyme sind z. B. in Wright, Addison V., et al. „Rational design of a split-Cas9 enzyme complex,“ Proc. Nat'l. Acad. Sci., 112.10 (2015): 2984-2989, beschrieben, das hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
In einigen Ausführungsformen werden der Nuklease-Lappen und der α-helikale Lappen als getrennte Polypeptide exprimiert. Obwohl die Lappen nicht für sich allein wechselwirken, werden sie von der crRNA in einen ternären Komplex rekrutiert, der die Aktivität von Volllängen-CRISPR-assozierten Proteinen rekapituliert und stellenspezifische DNA-Spaltung katalysiert. Durch Verwendung einer modifizierten crRNA wird die Aktivität gespaltener Enzyme aufgehoben, indem eine Dimerisierung verhindert wird, was die Entwicklung eines induzierbaren Dimerisierungssystems ermöglicht.
In einigen Ausführungsformen kann das gespaltene CRISPR-assoziierte Protein an einen Dimerisierungspartner fusioniert werden, z. B. durch Einsatz rapamycinempfindlicher Dimerisierungsdomänen. Dies gestattet die Erzeugung eines chemisch induzierbaren CRISPR-assoziierten Proteins für zeitliche Kontrolle der Aktivität des Proteins. Das CRISPR-assoziierte Protein lässt sich somit chemisch induzierbar machen, indem es in zwei Fragmente gespalten wird, wobei rapamycinempfindliche Dimerisierungsdomänen für einen kontrollierten Neuzusammenbau des Proteins verwendet werden können.
Der Spaltpunkt wird typischerweise in silico konstruiert und in die Konstrukte kloniert. Während dieses Vorgangs können Mutationen in das gespaltene CRISPR-assoziierte Protein eingeführt und Nicht-Funktionsdomänen entfernt werden. In einigen Ausführungsformen können die beiden Teile oder Fragmente des gespaltenen CRISPR-assoziierten Proteins (d. h. die N-terminalen und C-terminalen Fragmente) ein vollständiges CRISPR-assoziiertes Protein bilden, das z. B. wenigstens 70%, wenigstens 80%, wenigstens 90%, wenigstens 95% oder wenigstens 99% der Sequenz des Wildtyp-CRISPR-assoziierten Proteins umfasst.
Selbstaktivierende oder -inaktivierende Enzyme
Die vorliegend beschriebenen CRISPR-assoziierten Proteine (z. B. ein Typ-VI-D-CRISPR-Cas-Effektorprotein) lassen sich so konstruieren, dass sie selbstaktivierend oder selbstinaktivierend sind. Beispielsweise kann die Zielsequenz in das codierende Konstrukt des CRISPR-assoziierten Proteins eingeführt werden. Somit kann das CRISPR-assoziierte Protein die Zielsequenz ebenso wie das das Protein codierende Konstrukt spalten und dadurch ihre Expression selbstinaktivieren. Methoden zum Konstruieren eines selbstinaktivierenden CRISPR-Systems sind z. B. in Epstein und Schaffer, Mol. Ther. 24 (2016): S50, beschrieben, das hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
In einigen anderen Ausführungsformen kann die das CRISPR-assoziierte Protein codierende Nukleinsäuresequenz durch eine zusätzliche crRNA, die unter der Kontrolle eines schwachen Promotors (z. B. 7SK-Promotor) exprimiert wird, anvisiert werden, so dass seine Expression verhindert und/oder blockiert wird (z. B. durch Verhindern der Transkription und/oder Translation der Nukleinsäure). Die Transfektion von Zellen mit Vektoren, die das CRISPR-assoziierte Protein, die crRNAs und crRNAs, die die das CRISPR-assoziierte Protein codierende Nukleinsäure anvisieren, exprimieren, kann zu einer wirksamen Störung der das CRISPR-assoziierte Protein codierenden Nukleinsäure führen und die Spiegel von CRISPR-assoziiertem Protein senken, wodurch die Genom-Editing-Aktivität begrenzt wird.
In einigen Ausführungsformen kann die Genom-Editing-Aktivität des CRISPR-assoziierten Proteins über endogene RNA-Signaturen (z. B. miRNA) in Säugerzellen moduliert werden. Ein CRISPR-assoziiertes-Protein-Schalter kann unter Verwendung einer miRNA-komplementären Sequenz in der 5'-UTR von das CRISPR-assoziierte Protein codierender mRNA hergestellt werden. Die Schalter reagieren selektiv und effizient auf miRNA in den Zielzellen. Somit lässt sich das Genom-Editing durch die Schalter über die Wahrnehmung endogener miRNA-Aktivitäten innerhalb einer heterogenen Zellpopulation differentiell kontrollieren. Daher lässt sich mit den Schaltersystemen ein Rahmen für zelltypselektives Genom-Editing und Zell-Engineering bezogen auf intrazelluläre miRNA-Information bereitstellen (siehe z. B. Hirosawa et al. Nucl. Acids Res., 2017, 45(13): el 18).
Induzierbare CRISPR-assoziierte Proteine
Die CRISPR-assoziierten Proteine (z. B. Typ-VI-D-CRISPR-Cas-Effektorproteine) können induzierbar exprimiert werden, z. B. kann ihre Expression lichtinduziert oder chemisch induziert sein. Dieser Mechanismus ermöglicht eine Aktivierung der Funktionsdomäne in den CRISPR-assoziierten Proteinen. Lichtinduzierbarkeit lässt sich mit verschiedenen im Stand der Technik bekannten Methoden erreichen, z. B. durch Konstruieren eines Fusionskomplexes, wobei eine CRY2PHR/CIBN-Paarung bei gespaltenen CRISPR-assoziierten Proteinen verwendet wird (siehe z. B. Konermann et al. „Optical control of mammalian endogenous transcription and epigenetic states,“ Nature, 500.7463 (2013): 472). Chemische Induzierbarkeit lässt sich z. B. durch Konstruieren eines Fusionskomplexes, wobei eine FKBP/FRB(FK506-Bindungsprotein / FKBP-Rapamycin-Bindungsdomäne)-Paarung bei gespaltenen CRISPR-assoziierten Proteinen verwendet wird, erreichen. Rapamycin wird zur Bildung des Fusionskomplexes benötigt, wodurch die CRISPR-assoziierten Proteine aktiviert werden (siehe z. B. Zetsche, Volz und Zhang, „A split-Cas9 architecture for inducible genome editing and transcription modulation,“ Nature Biotech., 33.2 (2015): 139-142).
Weiterhin lässt sich die Expression der CRISPR-assoziierten Proteine durch induzierbare Promotoren modulieren, z. B. tetracyclin- oder doxycyclinkontrollierte Transkriptionsaktivierung (Tet-On- und Tet-Off-Expressionssystem), hormoninduzierbares Genexpressionssystem (z. B. ein ecdysoninduzierbares Genexpressionssystem) und ein arabinoseinduzierbares Genexpressionssystem. Bei Zuführung als RNA lässt sich die Expression des RNA-Targeting-Effektorproteins über einen Riboswitch modulieren, mit dem ein kleines Molekül wie Tetracyclin wahrgenommen werden kann (siehe z. B. Goldfless, Stephen J. et al. „Direct and specific chemical control of eukaryotic translation with a synthetic RNA-protein interaction,“ Nucl. Acids Res., 40.9 (2012): e64-e64).
Verschiedene Ausführungsformen induzierbarer CRISPR-assoziierter Proteine und induzierbarer CRISPR-Systeme sind z. B. in US-Patent Nr. 8,871,445 , US Publication No. 2016/0208243 und International Publication No. WO 2016/205764 beschrieben, die jeweils hiermit vollinhaltlich durch Bezugnahme aufgenommen sind.
Funktionsmutationen
In einigen Ausführungsformen enthalten die CRISPR-assoziierten Proteine wenigstens ein (z. B. 1, 2, 3, 4, 5, 6, 7, 8, 9 oder 10) an den N-Terminus oder C-Terminus des Proteins gebundenes NLS (Nuclear Localization Signal). Zu NLS gehört ohne Beschränkung darauf beispielsweise eine NLS-Sequenz, die abgeleitet ist von: dem NLS des großen SV40-Virus-T-Antigens mit der Aminosäuresequenz PKKKRKV (SEQ ID NO: 135); dem NLS aus Nukleoplasmin (z. B. dem zweiteiligen Nukleoplasmin-NLS mit der Sequenz KRPAATKKAGQAKKKK (SEQ ID NO: 136)); dem c-myc-NLS mit der Aminosäuresequenz PAAKRVKLD (SEQ ID NO: 137) oder RQRRNELKRSP (SEQ ID NO: 138); dem hRNPA1-M9-NLS mit der Sequenz NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 139); der Sequenz RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO: 140) der IBB-Domäne aus Importin-alpha; den Sequenzen VSRKRPRP (SEQ ID NO: 141) und PPKKARED (SEQ ID NO: 142) des Myom-T-Proteins; der Sequenz PQPKKKPL (SEQ ID NO: 143) von menschlichem p53; der Sequenz SALIKXKKKMAP (SEQ ID NO: 144) von Maus-c-abl IV; den Sequenzen DRLRR (SEQ ID NO: 145) und PKQKKRK(SEQ ID NO: 146) des Influenzavirus NS1; der Sequenz RKLKKKIKKL (SEQ ID NO: 147) des Hepatitisvirus-delta-Antigens; der Sequenz REKKKFLKRR (SEQ ID NO: 148) des Maus-Mx1-Proteins; der Sequenz KRKGDEVDGVDEVAKKKSKK (SEQ ID NO: 149) der menschlichen Poly(ADP-Ribose)-Polymerase; und der Sequenz RKCLQAGMNLEARKTKK (SEQ ID NO: 150) des menschlichen Glucocorticoidrezeptors. In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein wenigstens ein (z. B. 1, 2, 3, 4, 5, 6, 7, 8, 9 oder 10) an den N-Terminus oder C-Terminus des Proteins gebundenes NES (Nuclear Export Signal). In einer bevorzugten Ausführungsform ist ein C-terminales und/oder N-terminales NLS oder NES für optimale Expression und nukleäres Targeting in eukaryontischen Zellen, z. B. menschlichen Zellen, gebunden.
In einigen Ausführungsformen sind die vorliegend beschriebenen CRISPR-assoziierten Proteine an einem oder mehreren Aminosäureresten zur Veränderung einer oder mehrerer funktioneller Aktivitäten mutiert. Beispielsweise ist in einigen Ausführungsformen das CRISPR-assoziierte Protein an einem oder mehreren Aminosäureresten zur Veränderung seiner Helikase-Aktivität mutiert. In einigen Ausführungsformen ist das CRISPR-assoziierte Protein an einem oder mehreren Aminosäureresten zur Veränderung seiner Nuklease-Aktivität (z. B. Endonuklease-Aktivität oder Exonuklease-Aktivität) mutiert. In einigen Ausführungsformen ist das CRISPR-assoziierte Protein an einem oder mehreren Aminosäureresten zur Veränderung seiner Fähigkeit zur funktionellen Assoziation mit einer gRNA mutiert. In einigen Ausführungsformen ist das CRISPR-assoziierte Protein an einem oder mehreren Aminosäureresten zur Veränderung seiner Fähigkeit zur funktionellen Assoziation mit einer Zielnukleinsäure mutiert.
In einigen Ausführungsformen sind die vorliegend beschriebenen CRISPR-assoziierten Proteine in der Lage, ein Zielnukleinsäuremolekül zu spalten. In einigen Ausführungsformen spaltet das CRISPR-assoziierte Protein beide Stränge des Zielnukleinsäuremoleküls. In einigen Ausführungsformen ist jedoch das CRISPR-assoziierte Protein an einem oder mehreren Aminosäureresten zur Veränderung seiner Spaltungsaktivität mutiert. Beispielsweise kann in einigen Ausführungsformen das CRISPR-assoziierte Protein eine oder mehrere Mutationen umfassen, durch die das Enzym eine Zielnukleinsäure nicht mehr spalten kann. In anderen Ausführungsformen umfasst das CRISPR-assoziierte Protein eine oder mehrere Mutationen, so dass das Enzym einen Einzelstrang der Zielnukleinsäure spalten kann (d. h. Nickase-Aktivität). In einigen Ausführungsformen kann das CRISPR-assoziierte Protein den Strang der Zielnukleinsäure spalten, der zum Strang, an den die gRNA hybridisiert, komplementär ist. In einigen Ausführungsformen kann das CRISPR-assoziierte Protein den Strang der Zielnukleinsäure spalten, an den die gRNA hybridisiert.
In einigen Ausführungsformen kann ein vorliegend beschriebenes CRISPR-assoziiertes Protein so konstruiert werden, dass es eine Deletion in einem oder mehreren Aminosäureresten zur Verringerung der Größe des Enzyms aufweist, und zwar unter Beibehaltung einer oder mehrerer gewünschter funktioneller Aktivitäten (z. B. Nuklease-Aktivität und der Fähigkeit zur funktionellen Wechselwirkung mit einer gRNA). Das verkürzte CRISPR-assoziierte Protein lässt sich vorteilhaft in Kombination mit Zuführungssystemen verwenden, die Lastbeschränkungen aufweisen.
Ebenso werden Nukleinsäuren bereitgestellt, die die vorliegend beschriebenen Proteine (z. B. ein CRISPR-assoziiertes Protein oder ein akzessorisches Protein) und gRNAs (z. B. eine crRNA) codieren. In einigen Ausführungsformen handelt es sich bei der Nukleinsäure um eine synthetische Nukleinsäure. In einigen Ausführungsformen handelt es sich bei der Nukleinsäure um ein DNA-Molekül. In einigen Ausführungsformen handelt es sich bei der Nukleinsäure um ein RNA-Molekül (z.B. ein mRNA-Molekül) . In einigen Ausführungsformen handelt es sich bei der Nukleinsäure um eine mRNA. In einigen Ausführungsformen ist die mRNA mit einem Cap versehen, polyadenyliert, mit 5-Methylcytidin substituiert, mit Pseudouridin substituiert oder eine Kombination davon. In einigen Ausführungsformen steht die Nukleinsäure (z. B. DNA) in operativer Verknüpfung mit einem Regulatorelement (z. B. einem Promotor), um die Expression der Nukleinsäure zu kontrollieren. In einigen Ausführungsformen handelt es sich bei dem Promotor um einen konstitutiven Promotor. In einigen Ausführungsformen handelt es sich bei dem Promotor um einen induzierbaren Promotor. In einigen Ausführungsformen handelt es sich bei dem Promotor um einen zellspezifischen Promotor. In einigen Ausführungsformen handelt es sich bei dem Promotor um einen organismusspezifischen Promotor. Geeignete Promotoren sind im Stand der Technik bekannt und umfassen z. B. einen pol I-Promotor, einen pol II-Promotor, einen pol III-Promotor, einen T7-Promotor, einen U6-Promotor, einen H1-Promotor, retroviralen Rous-Sarcoma-Virus-LTR-Promotor, einen Cytomegalovirus(CMV)-Promotor, einen SV40-Promotor, einen Dihydrofolat-Reduktase-Promotor und einen β-Actin-Promotor. Beispielsweise kann ein U6-Promotor zur Regulierung der Expression eines vorliegend beschriebenen gRNA-Moleküls verwendet werden.
In einigen Ausführungsformen liegen die Nukleinsäure(n) in einem Vektor (z. B. einem Virusvektor oder einem Phagen) vor. Die Vektoren können ein oder mehrere Regulatorelemente enthalten, die die Propagierung des Vektors in einer Zelle von Interesse (z. B. einer Bakterienzelle oder einer Säugerzelle) ermöglichen. In einigen Ausführungsformen enthält der Vektor eine Nukleinsäure, die eine Einzelkomponente eines vorliegend beschriebenen CRISPR-assoziierten (Cas-) Systems codiert. In einigen Ausführungsformen enthält der Vektor mehrere Nukleinsäuren, die jeweils eine Komponente eines vorliegend beschriebenen CRISPR-assoziierten (Cas-) Systems codieren.
In einem Aspekt werden gemäß der vorliegenden Offenbarung Nukleinsäuresequenzen bereitgestellt, die zu wenigstens 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, oder 100% mit den vorliegend beschriebenen Nukleinsäuresequenzen identisch sind. In einem weiteren Aspekt werden gemäß der vorliegenden Offenbarung auch Aminosäuresequenzen bereitgestellt, die zu wenigstens 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% oder 100% mit den vorliegend beschriebenen Aminosäuresequenzen identisch sind.
In einigen Ausführungsformen weisen die Nukleinsäuresequenzen wenigstens einen Teil (z. B. wenigstens 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90, oder 100 Nukleotide, z. B. zusammenhängende oder nicht zusammenhängende Nukleotide) auf, der mit den vorliegend beschriebenen Sequenzen identisch ist. In einigen Ausführungsformen weisen die Nukleinsäuresequenzen wenigstens einen Teil (z. B. wenigstens 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90, oder 100 Nukleotide, z. B. zusammenhängende oder nicht zusammenhängende Nukleotide) auf, der von den vorliegend beschriebenen Sequenzen verschieden ist.
In einigen Ausführungsformen weisen die Aminosäuresequenzen wenigstens einen Teil (z. B. wenigstens 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90, oder 100 Aminosäurereste, z. B. zusammenhängende oder nicht zusammenhängende Aminosäurereste) auf, der mit den vorliegend beschriebenen Sequenzen identisch ist. In einigen Ausführungsformen weisen die Aminosäuresequenzen wenigstens einen Teil (z. B. wenigstens 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 30, 40, 50, 60, 70, 80, 90, oder 100 Aminosäurereste, z. B. zusammenhängende oder nicht zusammenhängende Aminosäurereste) auf, der von den vorliegend beschriebenen Sequenzen verschieden ist.
Zur Bestimmung der prozentualen Identität von zwei Aminosäuresequenzen oder von zwei Nukleinsäuresequenzen werden die Sequenzen für optimale Vergleichszwecke ausgerichtet (z. B. können Lücken (Gaps) in eine oder beide einer ersten und einer zweiten Aminosäure- oder Nukleinsäuresequenz für eine optimale Ausrichtung (Alignment) eingeführt und nicht homologe Sequenzen für Vergleichszwecke ignoriert werden). Allgemein sollte die Länge einer für Vergleichszwecke ausgerichteten Referenzsequenz wenigstens 80% der Länge der Referenzsequenz betragen, wobei sie in einigen Ausführungsformen bei wenigstens 90%, 95% oder 100% der Länge der Referenzsequenz liegt. Die Aminosäurereste oder Nukleotide an entsprechenden Aminosäurepositionen bzw. Nukleotidpositionen werden dann verglichen. Ist eine Position in der ersten Sequenz vom gleichen Aminosäurerest oder Nukleotid besetzt wie die entsprechende Position in der zweiten Sequenz, so sind die Moleküle an dieser Position identisch. Die prozentuale Identität zwischen den beiden Sequenzen ist eine Funktion der Anzahl identischer Positionen, die von den Sequenzen geteilt werden, unter Berücksichtigung der Anzahl an Gaps und der Länge eines jeden Gap, die für eine optimale Ausrichtung der beiden Sequenzen eingeführt werden müssen. Im Sinne der vorliegenden Offenbarung kann der Vergleich von Sequenzen und die Bestimmung von prozentualer Identität zwischen zwei Sequenzen unter Verwendung einer Blossum-62-Scoring-Matrix mit einem Gap Penalty von 12, einem Gap Extend Penalty von 4 und einem Frameshift Gap Penalty von 5 durchgeführt werden.
In einigen Ausführungsformen können die vorliegend beschriebenen CRISPR-assoziierten Proteine und akzessorischen Proteine an ein oder mehrere Peptid-Tags, einschließlich eines His-Tags, GST-Tags oder myc-Tags, fusioniert sein. In einigen Ausführungsformen können die vorliegend beschriebenen CRISPR-assoziierten Proteine oder akzessorischen Proteine an eine nachweisbare Gruppierung, wie z. B. ein Fluoreszenzprotein (z. B. grünes Fluoreszenzprotein oder gelbes Fluoreszenzprotein) fusioniert sein.
Die vorliegend beschriebenen Proteine (z. B. CRISPR-assoziierte Proteine oder akzessorische Proteine) können als entweder Nukleinsäuremoleküle oder Polypeptide zugeführt oder verwendet werden. Bei Verwendung von Nukleinsäuremolekülen kann das die CRISPR-assoziierten Proteine codierende Nukleinsäuremolekül codonoptimiert sein. Die Nukleinsäure kann für die Verwendung in einem beliebigen Organismus von Interesse, insbesondere menschlichen Zellen oder Bakterien, codonoptimiert sein. Beispielsweise kann die Nukleinsäure für einen beliebigen nicht menschlichen Eukaryonten, einschließlich Mäusen, Ratten, Kaninchen, Hunden, Nutzvieh oder nichtmenschlicher Primaten, codonoptimiert sein. Codonverwendung-Tabellen sind leicht verfügbar, z. B. bei der „Codon Usage Database“, zugänglich unter www.kazusa.orjp/codon/, wobei sich diese Tabellen auf vielfältige Weise adaptieren lassen. Siehe Nakamura et al. Nucl. Acids Res. 28:292 (2000), das hiermit vollinhaltlich durch Bezugnahme aufgenommen ist. Computeralgorithmen zur Codonoptimierung einer bestimmten Sequenz für die Expression in einer bestimmten Wirtszelle stehen ebenso zur Verfügung, wie z. B. Gene Forge (Aptagen; Jacobus, PA).
gRNAs
In einigen Ausführungsformen enthalten die vorliegend beschriebenen CRISPR-Systeme wenigstens gRNA (z. B. eine crRNA). Die Architektur mehrerer gRNAs ist im Stand der Technik bekannt (siehe z. B. International Publication Nos. WO 2014/093622 und WO 2015/070083 , deren gesamter Inhalt hiermit jeweils durch Bezugnahme aufgenommen ist). In einigen Ausführungsformen enthalten die vorliegend beschriebenen CRISPR-Systeme mehrere gRNAs (z. B. eine, zwei, drei, vier, fünf, sechs, sieben, acht oder mehr gRNAs). In einigen Ausführungsformen enthält die gRNA eine crRNA. In einigen Ausführungsformen enthält die gRNA eine crRNA und eine tracrRNA. In einigen Ausführungsformen handelt es sich bei der gRNA um ein konstruiertes Konstrukt, das eine tracrRNA und eine crRNA (in einer einzigen gRNA) enthält. Sequenzen für gRNAs aus mehreren CRISPR-Systemen sind im Stand der Technik bekannt und lassen sich unter Verwendung öffentlicher Datenbanken durchsuchen (siehe z. B. Grissa et al. (2007) Nucleic Acids Res. 35 (Web-Server-Ausgabe): W52-7; Grissa et al. (2007) BMC Bioinformatics 8: 172; Grissa et al. (2008) Nucleic Acids Res. 36 (Web-Server-Ausgabe): W145-8; und Moller und Liang (2017) PeerJ 5: e3788; siehe auch die CRISPR-Datenbank, verfügbar unter: crispr.i2bc.paris-saclay.fr/crispr/BLAST/CRISPRsBlast.php; und MetaCRAST, verfügbar unter: github.com/molleraj/MetaCRAST).
In einigen Ausführungsformen enthalten die vorliegend beschriebenen CRISPR-Systeme wenigstens eine crRNA oder eine wenigstens eine crRNA codierende Nukleinsäure. In einigen Ausführungsformen enthält die crRNA eine Direct-Repeat-Sequenz, eine Spacersequenz und eine Direct-Repeat-Sequenz, was typisch für Vorläufer-crRNA(Prä-crRNA)-Konfigurationen in anderen CRISPR-Systemen ist. In einigen Ausführungsformen enthält die crRNA eine verkürzte Direct-Repeat-Sequenz und eine Spacersequenz, was typisch für prozessierte oder reife crRNA ist. Das CRISPR-assoziierte Protein kann Prä-crRNA unter Bildung von prozessierter oder reifer crRNA spalten. Das CRISPR-assoziierte Protein bildet einen Komplex mit der reifen crRNA, und die Spacersequenz steuert den Komplex zu einer sequenzspezifischen Bindung mit der Zielnukleinsäure, die zur Spacersequenz komplementär ist. Der entstandene Komplex umfasst das CRISPR-assoziierte Protein und die reife crRNA gebunden an die Ziel-RNA.
In einigen Ausführungsformen enthalten die vorliegend beschriebenen CRISPR-Systeme eine reife crRNA. In einigen Ausführungsformen enthalten die vorliegend beschriebenen CRISPR-Systeme eine Prä-crRNA.
In einigen Ausführungsformen enthalten die vorliegend beschriebenen CRISPR-Systeme mehrere crRNAs (z. B. 2, 3, 4, 5, 10, 15 oder mehr) oder mehrere mehrere crRNAs codierende Nukleinsäuren. Im Allgemeinen enthalten die vorliegend beschriebenen crRNAs eine Direct-Repeat-Sequenz und eine Spacersequenz. In bestimmten Ausführungsformen enthält die crRNA eine, besteht im Wesentlichen aus einer oder besteht aus einer Direct-Repeat-Sequenz in Verknüpfung mit einer Guidesequenz oder Spacersequenz.
In einigen Ausführungsformen enthält das vorliegend beschriebene CRISPR-System eine gRNA (z. B. eine crRNA) oder eine die gRNA codierende Nukleinsäure. In einigen Ausführungsformen umfasst die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure oder besteht daraus, wobei die Direct-Repeat-Sequenz 5'-X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3' terminalen Ende der gRNA umfasst und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht. In einigen Ausführungsformen umfasst die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung (z. B. hybridisiert unter geeigneten Bedingungen) an eine Zielnukleinsäure oder besteht daraus, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 199) am 3'-terminalen Ende der gRNA umfasst und wobei X₁ für A oder C oder G, X₂ für A oder G oder T, X₃ für A oder G oder T, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht.
Beispielhafte gRNA-Direct-Repeat-Sequenzen und Effektorproteinpaare sind in Tabelle 3 angegeben. In einigen Ausführungsformen umfasst die Direct-Repeat-Sequenz eine in Tabelle 3 aufgeführte Nukleinsäuresequenz (z. B. SEQ ID NO: 32-49, 52-77, 351-589) oder besteht daraus. In einigen Ausführungsformen umfasst die Direct-Repeat-Sequenz eine Nukleinsäure mit einer in Tabelle 3 aufgeführten Nukleinsäuresequenz mit einer Verkürzung um die ersten drei 5'-Nukleotide oder besteht daraus. In einigen Ausführungsformen umfasst die Direct-Repeat-Sequenz eine Nukleinsäure mit einer in Tabelle 3 aufgeführten Nukleinsäuresequenz mit einer Verkürzung um die ersten vier 5'-Nukleotide oder besteht daraus. In einigen Ausführungsformen umfasst die Direct-Repeat-Sequenz eine Nukleinsäure mit einer in Tabelle 3 aufgeführten Nukleinsäuresequenz mit einer Verkürzung um die ersten fünf 5'-Nukleotide oder besteht daraus. In einigen Ausführungsformen umfasst die Direct-Repeat-Sequenz eine Nukleinsäure mit einer in Tabelle 3 aufgeführten Nukleinsäuresequenz mit einer Verkürzung um die ersten sechs 5'-Nukleotide oder besteht daraus. In einigen Ausführungsformen umfasst die Direct-Repeat-Sequenz eine Nukleinsäure mit einer in Tabelle 3 aufgeführten Nukleinsäuresequenz mit einer Verkürzung um die ersten sieben 5'-Nukleotide oder besteht daraus. In einigen Ausführungsformen umfasst die Direct-Repeat-Sequenz eine Nukleinsäure mit einer in Tabelle 3 aufgeführten Nukleinsäuresequenz mit einer Verkürzung um die ersten acht 5'-Nukleotide oder besteht daraus.
In einigen Ausführungsformen umfasst die Direct-Repeat-Sequenz die oder besteht aus der Nukleinsäuresequenz 5'-GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 34) oder 5'-CTACTACACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 72). In einigen Ausführungsformen umfasst die Direct-Repeat-Sequenz die oder besteht aus der Nukleinsäuresequenz 5'-CACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 152) oder 5'-CACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 153).
In einigen Ausführungsformen umfasst das CRISPR-assoziierte Protein die Aminosäuresequenz unter SEQ ID NO: 1 und die crRNA eine Direct-Repeat-Sequenz, wobei die Direct-Repeat-Sequenz die Nukleinsäuresequenz 5'-GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 34) oder 5'-CACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 152) umfasst oder daraus besteht. In einigen Ausführungsformen umfasst das CRISPR-assoziierte Protein die Aminosäuresequenz unter SEQ ID NO: 2 und die crRNA eine Direct-Repeat-Sequenz, wobei die Direct-Repeat-Sequenz die Nukleinsäuresequenz 5'-CTACTACACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 72) oder 5'-CACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 153) umfasst oder daraus besteht.
gRNA-Multiplexing
Es wurde demonstriert, dass bei Typ-VI-CRISPR-Cas-Effektoren mehr als eine gRNA zum Einsatz kommen, womit das Vermögen dieser Effektoren und Systeme und Komplexe, die sie enthalten, mehrere Nukleinsäuren anzuvisieren, ermöglicht wird. In einigen Ausführungsformen enthalten die vorliegend beschriebenen CRISPR-Systeme mehrere gRNAs (z. B. eine, zwei, drei, vier, fünf, sechs, sieben, acht, neun, zehn, fünfzehn, zwanzig, dreißig, vierzig oder mehr) gRNAs. In einigen Ausführungsformen enthalten die vorliegend beschriebenen CRISPR-Systeme einen RNA-Einzelstrang oder eine einen RNA-Einzelstrang codierende Nukleinsäure, wobei die gRNAs im Tandem angeordnet sind. Der RNA-Einzelstrang kann mehrere Kopien der gleichen gRNA, mehrere Kopien unterschiedlicher gRNAs oder Kombinationen davon enthalten. Die Prozessierfähigkeit der vorliegend beschriebenen Typ-VI-D-CRISPR-Cas-Effektorproteine ermöglicht diesen Effektoren, mehrere Zielnukleinsäuren (z. B. Ziel-RNAs) ohne einen Aktivitätsverlust anvisieren zu können. In einigen Ausführungsformen können die Typ-VI-D-CRISPR-Cas-Effektorproteine im Komplex mit mehreren gegen unterschiedliche Zielnukleinsäuren gerichteten gRNAs zugeführt werden. In einigen Ausführungsformen können die Typ-VI-D-CRISPR-Cas-Effektorproteine zusammen mit mehreren gRNAs, die jeweils für eine unterschiedliche Zielnukleinsäure spezifisch sind, zugeführt werden. Methoden zum Multiplexing unter Verwendung von CRISPR-assoziierten Proteinen sind beispielsweise beschrieben in US 9,790,490 B2 und EP 3009511 B1 , die hiermit jeweils vollinhaltlich ausdrücklich durch Bezugnahme aufgenommen sind.
Spacerlängen
Die Spacerlänge von crRNAs kann von etwa 15 bis 50 Nukleotide reichen. In einigen Ausführungsformen beträgt die Spacerlänge einer gRNA wenigstens 16 Nukleotide, wenigstens 17 Nukleotide, wenigstens 18 Nukleotide, wenigstens 19 Nukleotide, wenigstens 20 Nukleotide, wenigstens 21 Nukleotide oder wenigstens 22 Nukleotide. In einigen Ausführungsformen beträgt die Spacerlänge 15 bis 17 Nukleotide (z. B. 15, 16 oder 17 Nukleotide), 17 bis 20 Nukleotide (z. B. 17, 18, 19 oder 20 Nukleotide), 20 bis 24 Nukleotide (z. B. 20, 21, 22, 23 oder 24 Nukleotide), 23 bis 25 Nukleotide (z. B. 23, 24 oder 25 Nukleotide), 24 bis 27 Nukleotide, 27 bis 30 Nukleotide, 30 bis 45 Nukleotide (z. B. 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44 oder 45 Nukleotide), 30 oder 35 bis 40 Nukleotide, 41 bis 45 Nukleotide, 45 bis 50 Nukleotide (z. B. 45, 46, 47, 48, 49 oder 50 Nukleotide) oder mehr. In einigen Ausführungsformen beträgt die Direct-Repeat-Länge der gRNA wenigstens 16 Nukleotide oder 16 bis 20 Nukleotide (z. B. 16, 17, 18, 19 oder 20 Nukleotide). In einigen Ausführungsformen beträgt die Spacerlänge etwa 15 bis etwa 42 Nukleotide. In einigen Ausführungsformen beträgt die Direct-Repeat-Länge der gRNA 19 Nukleotide.
Die crRNA-Sequenzen lassen sich auf eine Weise modifizieren, die die Ausbildung eines Komplexes zwischen der crRNA und dem CRISPR-assoziierten Protein und eine erfolgreiche Bindung an das Ziel ermöglicht, während gleichzeitig keine erfolgreiche Nuklease-Aktivität ermöglicht wird (d.h. ohne Nuklease-Aktivität / ohne Verursachen von Indels). Diese modifizierten Guidesequenzen werden als „tote crRNAs“, „tote Guides“ oder „tote Guidesequenzen“ bezeichnet. Diese toten Guides bzw. toten Guidesequenzen können in Bezug auf Nuklease-Aktivität katalytisch inaktiv oder konformationsinaktiv sein. Tote Guidesequenzen sind typischerweise kürzer als entsprechende Guidesequenzen, die zu aktiver RNA-Spaltung führen. In einigen Ausführungsformen sind tote Guides 5%, 10%, 20%, 30%, 40% oder 50% kürzer als entsprechende gRNAs, die Nuklease-Aktivität aufweisen. Tote Guidesequenzen von gRNAs können eine Länge von 13 bis 15 Nukleotiden (z. B. 13, 14, oder 15 Nukleotiden), 15 bis 19 Nukleotiden oder 17 bis 18 Nukleotiden (z. B. 17 Nukleotiden) aufweisen.
So werden in einem Aspekt gemäß der Offenbarung nicht natürlich vorkommende oder konstruierte CRISPR-Systeme, die ein wie vorliegend beschriebenes funktionelles CRISPR-assoziiertes Protein und eine crRNA enthalten, bereitgestellt, wobei die crRNA eine tote crRNA-Sequenz umfasst, wodurch die crRNA in der Lage ist, an eine Zielsequenz zu hybridisieren, so dass das CRISPR-System auf einen genomischen Locus von Interesse in einer Zelle ohne nachweisbare Nuklease-Aktivität (z. B. RNAse-Aktivität) gelenkt wird.
Eine ausführliche Beschreibung von toten Guides ist z. B. beschrieben in International Publication No. WO 2016/094872 , die hiermit durch Bezugnahme vollinhaltlich aufgenommen ist.
Induzierbare Guides
gRNAs (z. B. crRNAs) lassen sich als Komponenten induzierbarer Systeme erzeugen. Die induzierbare Art der Systeme ermöglicht Raum-Zeit-Kontrolle von Gen-Editing oder Genexpression. In einigen Ausführungsformen umfassen die Stimuli für die induzierbaren Systeme z. B. elektromagnetische Strahlung, Schallenergie, chemische Energie und/oder Wärmeenergie.
In einigen Ausführungsformen lässt sich die Transkription von gRNAs (z. B. crRNA) durch induzierbare Promotoren modulieren, z. B. tetracyclin- oder doxycyclinkontrollierte Transkriptionsaktivierung (Tet-On- und Tet-Off-Expressionssysteme), hormoninduzierbare Genexpressionssysteme (z. B. ecdysoninduzierbare Genexpressionssysteme) und arabinoseinduzierbare Genexpressionssysteme. Zu weiteren Beispielen für induzierbare Systeme gehören z. B. niedermolekulare Two-Hybrid-Transkriptionsaktivierungssysteme (FKBP, ABA usw.), lichtinduzierbare Systeme (Phytochrom, LOV-Domänen oder Cryptochrom) oder LITE (Light Inducible Transcriptional Effector). Diese induzierbaren Systeme sind z. B. beschrieben in WO 2016205764 und US 8795965 , die hiermit jeweils durch Bezugnahme vollinhaltlich aufgenommen sind.
Chemische Modifikationen
Chemische Modifikationen lassen sich auf Phosphatrückgrat, Zucker und/oder Base der crRNA anwenden. Rückgratmodifikationen wie Phosphorothioate modifizieren die Ladung am Phosphatrückgrat und helfen bei der Zuführung und Nukleaseresistenz des Oligonukleotids (siehe z. B. Eckstein, „Phosphorothioates, essential components of therapeutic oligonucleotides," Nucl. Acid Ther., 24 (2014), S. 374-387); Modifikationen von Zuckern, wie z. B. 2'-O-Methyl (2'-OMe), 2'-F und LNA (Locked Nucleic Acid), verbessern sowohl Basenpaarung und Nukleaseresistenz (siehe z. B. Allerson et al. „Fully 2 ‚-modified oligonucleotide duplexes with improved in vitro potency and stability compared to unmodified small interfering RNA,“ J. Med. Chem., 48.4 (2005): 901-904). Chemisch modifizierte Basen wie u. a. 2-Thiouridin oder N6-Methyladenosin können entweder stärkere oder schwächere Basenpaarung ermöglichen (siehe z. B. Bramsen et al., „Development of therapeutic-grade small interfering RNAs by chemical engineering," Front. Genet., 2012 Aug 20; 3:154). Darüber hinaus ist RNA sowohl am 5‘- als auch am 3'-Ende Konjugationen mit verschiedenen funktionellen Gruppierungen, einschließlich Fluoreszenzfarbstoffen, Polyethylenglykol oder Proteinen, zugänglich.
Eine große Vielfalt von Modifikationen lässt sich auf chemisch synthetisierte crRNA-Moleküle anwenden. Beispielsweise lässt sich durch Modifizieren eines Oligonukleotids mit einem 2'-OMe zur Verbesserung von Nukleaseresistenz die Bindungsenergie einer Watson-Crick-Basenpaarung ändern. Weiterhin kann eine 2'-OMe-Modifikation eine Auswirkung darauf haben, wie das Oligonukleotid mit Transfektionsreagentien, Proteinen oder beliebigen anderen Molekülen in der Zelle wechselwirkt. Die Effekte dieser Modifikationen lassen sich durch empirisches Testen bestimmen.
In einigen Ausführungsformen enthält die crRNA eine oder mehrere Phosphorothioat-Modifikationen. In einigen Ausführungsformen enthält die crRNA eine oder mehrere LNAs zwecks Verbesserung der Basenpaarung und/oder Erhöhung von Nukleaseresistenz.
Eine Zusammenfassung dieser chemischen Modifikationen findet sich z. B. bei Kelley et al., „Versatility of chemically synthesized guide RNAs for CRISPR-Cas9 genome editing,“ J. Biotechnol. 2016 Sep 10; 233:74-83; WO 2016205764 ; und US 8795965 B2 ; jeweils hiermit vollinhaltlich durch Bezugnahme aufgenommen.
Sequenzmodifikationen
Die Sequenzen und die Längen der vorliegend beschriebenen gRNAs (z. B. crRNAs) können optimiert werden. In einigen Ausführungsformen lässt sich die optimierte Länge einer gRNA durch Identifizieren der prozessierten Form von crRNA (d. h. einer reifen crRNA) oder durch empirische Längenuntersuchungen für crRNA-Tetraloops bestimmen.
Die crRNAs können auch eine oder mehrere Aptamersequenzen enthalten. Aptamere sind Oligonukleotid- oder Peptidmoleküle mit einer spezifischen dreidimensionalen Struktur und können an ein spezifisches Zielmolekül binden. Die Aptamere können für Gen-Effektoren, Gen-Aktivatoren oder Gen-Repressoren spezifisch sein. In einigen Ausführungsformen können die Aptamere für ein Protein spezifisch sein, das wiederum spezifisch für spezifische Gen-Effektoren, Gen-Aktivatoren oder Gen-Repressoren ist und diese rekrutiert und/oder daran bindet. Die Effektoren, Aktivatoren oder Repressoren können in Form von Fusionsproteinen vorliegen. In einigen Ausführungsformen weist die gRNA zwei oder mehr Aptamersequenzen auf, die für die gleichen Adaptorproteine spezifisch sind. In einigen Ausführungsformen sind die zwei oder mehr Aptamersequenzen für unterschiedliche Adaptorproteine spezifisch. Die Adaptorproteine können z. B. MS2, PP7, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, ΦCb5, ϕCb8r, ϕCb12r, ϕCb23r, 7s und PRR1 umfassen. Demgemäß ist in einigen Ausführungsformen das Aptamer ausgewählt aus Bindungsproteinen, die eines der wie vorliegend beschriebenen Adaptorproteine spezifisch binden. In einigen Ausführungsformen handelt es sich bei der Aptamersequenz um ein MS2-Bindungs-Loop (5'-ggcccAACAUGAGGAUCACCCAUGUCUGCAGgggcc-3' (SEQ ID NO: 169)). In einigen Ausführungsformen handelt es sich bei der Aptamersequenz um ein QBeta-Bindungs-Loop (5'-ggcccAUGCUGUCUAAGACAGCAUgggcc-3' (SEQ ID NO: 170)). In einigen Ausführungsformen handelt es sich bei der Aptamersequenz um ein PP7-Bindungs-Loop (5'- ggcccUAAGGGUUUAUAUGGAAACCCUUAgggcc-3' (SEQ ID NO: 173)). Eine ausführliche Beschreibung von Aptameren findet sich z. B. bei Nowak et al., „Guide RNA engineering for versatile Cas9 functionality,“ Nucl. Acid. Res., 2016 Nov 16;44(20):9555-9564; und in der WO 2016205764 , die hiermit vollinhaltlich durch Bezugnahme aufgenommen sind.
Zielnukleinsäuren
Bei den Zielnukleinsäuren kann es sich um ein DNA-Molekül oder ein RNA-Molekül handeln. Wie oben beschrieben, besitzen in einigen Ausführungsformen die vorliegend beschriebenen CRISPR-assoziierten Proteine RNAse-Aktivität. Somit kann es sich bei den Zielnukleinsäuren um ein beliebiges RNA-Molekül von Interesse handeln, einschließlich natürlich vorkommender und konstruierter RNA-Moleküle. Bei der Ziel-RNA kann es sich um eine mRNA, eine tRNA, eine ribosomale RNA (rRNA), eine microRNA (miRNA), eine interferierende RNA (siRNA), ein Ribozym, einen Riboswitch, eine Satelliten-RNA, einen Microswitch, ein Mikrozym oder eine virale RNA handeln.
In einigen Ausführungsformen ist die Zielnukleinsäure mit einem Leiden bzw. einer Krankheit (z. B. einer Infektionskrankheit oder einer Krebserkrankung) assoziiert. Somit können in einigen Ausführungsformen die vorliegend beschriebenen Systeme zur Behandlung eines Leidens bzw. einer Krankheit verwendet werden, indem diese Nukleinsäuren anvisiert werden. Beispielsweise kann es sich bei der mit einem Leiden bzw. einer Krankheit assoziierten Zielnukleinsäure um ein RNA-Molekül handeln, das in einer erkrankten Zelle (z. B. einer Krebs- oder Tumorzelle) überexprimiert wird. Bei der Zielnukleinsäure kann es sich auch um eine toxische RNA und/oder eine mutierte RNA (z. B. ein mRNA-Molekül mit einem Spleißdefekt oder einer Mutation) handeln. Bei der Zielnukleinsäure kann es sich auch um eine RNA handeln, die für einen bestimmten Mikroorganismus (z. B. ein pathogenes Bakterium) spezifisch ist.
Guide: Ziel-Sequenzübereinstimmungsanforderungen
Bei klassischen CRISPR-Systemen kann der Grad der Komplementarität zwischen einer Guidesequenz (z. B. einer crRNA) und ihrer entsprechenden Zielsequenz bei etwa 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97,5%, 99% oder 100% liegen. In einigen Ausführungsformen liegt der Grad der Komplementarität bei 100%. Die gRNAs können eine Länge von etwa 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75 oder mehr Nukleotiden aufweisen.
Zur Verringerung von Nebenziel-Wechselwirkungen, z. B. zur Verringerung der Wechselwirkung des Guide mit einer Zielsequenz mit niedriger Komplementarität, können Mutationen in die CRISPR-Systeme eingeführt werden, so dass die CRISPR-Systeme zwischen Ziel- und Nebenziel-Sequenzen, die eine Komplementarität von mehr als 80%, 85%, 90% oder 95% aufweisen, unterscheiden können. In einigen Ausführungsformen liegt der Grad der Komplementarität bei 80% bis 95%, z. B. bei etwa 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, oder 95% (z. B. Unterscheiden zwischen einem Ziel mit 18 Nukleotiden von einem Nebenziel von 18 Nukleotiden mit 1, 2 oder 3 Fehlpaarungen). Demgemäß liegt in einigen Ausführungsformen der Grad der Komplementarität zwischen einer Guidesequenz und ihrer entsprechenden Zielsequenz bei mehr als 94,5%, 95%, 95,5%, 96%, 96,5%, 97%, 97,5%, 98%, 98,5%, 99%, 99,5%, oder 99,9%. In einigen Ausführungsformen liegt der Grad der Komplementarität bei 100%.
Im Fachgebiet ist bekannt, dass eine vollständige Komplementarität nicht benötigt wird, vorausgesetzt es liegt funktionell hinreichende Komplementarität vor. Modulationen der Spaltungseffizienz lassen sich durch Einführung von Fehlpaarungen, z. B. einer oder mehrerer Fehlpaarungen, wie etwa 1 oder 2 Fehlpaarungen zwischen Spacersequenz und Zielsequenz, einschließlich der Position der Fehlpaarung, entlang des Spacer/Ziels ausnutzen. Je zentraler (d. h. nicht an den 3'- oder 5'-Enden) eine Fehlpaarung, z. B. eine Doppelfehlpaarung, liegt, desto stärker ist die Auswirkung auf die Spaltungseffizienz. Dementsprechend lässt sich die Spaltungseffizienz über die Wahl von Fehlpaarungspositionen entlang der Spacersequenz modulieren. Falls beispielsweise weniger als 100% Spaltung von Zielen gewünscht ist (z. B. in einer Zellpopulation), können 1 oder 2 Fehlpaarungen zwischen Spacer- und Zielsequenz in die Spacersequenzen eingeführt werden.
Zielnukleinsäuren zur Regulierung der Aktivierung kollateraler RNAse-Aktivität
In einigen Ausführungsformen umfassen die vorliegend beschriebenen CRISPR-Systeme ferner eine Zielnukleinsäure (z. B. eine lineare oder zirkuläre Nukleinsäure), die vorteilhaft zur kontrollierten Aktivierung der kollateralen RNAse-Aktivität eines Typ-VI-D-CRISPR-Cas-Effektorproteins verwendet werden kann. Die Aktivierung der kollateralen RNAse-Aktivität des Effektorproteins kann durch Regulieren der Expression und/oder Zuführung der Zielnukleinsäure kontrolliert werden. Beispielsweise kann zur Erhöhung der Aktivierungsgeschwindigkeit der kollateralen RNAse-Aktivität eines Typ-VI-D-CRISPR-Cas-Effektorproteins eine exogene Zielnukleinsäure im System enthalten sein. In einigen Ausführungsformen handelt es sich bei der Zielnukleinsäure um ein DNA-Molekül. In einigen Ausführungsformen handelt es sich bei der Zielnukleinsäure um ein RNA-Molekül (z. B. ein mRNA-Molekül). In einigen Ausführungsformen enthält das System, wenn es sich bei der Zielnukleinsäure um eine RNA handelt, ein DNA-Molekül (z. B. eine Plasmid-DNA), das für die Zielnukleinsäure codiert, die vom Typ-VI-D-CRISPR-Cas-Effektorprotein-undcrRNA-Komplex spezifisch anvisiert wird, in operativer Verknüpfung mit einem Promotor. In einigen Ausführungsformen handelt es sich bei dem Promotor um einen induzierbaren Promotor. In einigen Ausführungsformen handelt es sich bei dem Promotor um einen konstitutiven Promotor.
Akzessorische Proteine
In einem Aspekt enthalten die vorliegend beschriebenen CRISPR-Systeme wenigstens ein akzessorisches Protein. Wie in Beispiel 4 dargestellt, wurde erfindungsgemäß überraschend entdeckt, dass die vorliegend beschriebenen akzessorischen Proteine die Nuklease-Aktivität CRISPR-assoziierter Proteine (z. B. Typ-VI-D-CRISPR-Cas-Effektorproteine) im Vergleich mit der Nuklease-Aktivität des CRISPR-assoziierten Proteins in Abwesenheit des akzessorischen Proteins verbessern. Die Fähigkeit der vorliegend beschriebenen akzessorischen Proteine zur Verbesserung der Nuklease-Aktivität CRISPR-assoziierter Proteine ist besonders wünschenswert bei klinischen und therapeutischen Anwendungen. Somit werden vorliegend CRISPR-Systeme bereitgestellt, die wenigstens ein akzessorisches Protein enthalten. Beispielsweise kann ein vorliegend beschriebenes akzessorisches Protein in Kombination mit im Stand der Technik bekannten CRISPR-assoziierten Proteinen verwendet werden, um ihre Nuklease-Aktivität zu verbessern. Alternativ kann ein akzessorisches Protein in Kombination mit einem vorliegend beschriebenen Typ-VI-D-CRISPR-Cas-Effektorprotein zur Verbesserung seiner Nuklease-Aktivität (z. B. kollateraler RNAse-Aktivität oder gezielter RNAse-Aktivität) verwendet werden.
In einigen Ausführungsformen enthält das akzessorische Protein eine WYL-Domäne (PFAM: PF13280), bei der es sich vorhersagegemäß um eine Ligandenwahrnehmungsdomäne handelt, über die sich CRISPR-Cas-Systeme regulieren lassen. Bei WYL-Domänen handelt es sich um eine SH3-Beta-Fass-Faltung enthaltende Domänen, die nach drei konservierten Aminosäuren benannt sind, die sich in einigen zur WYL-like-Superfamilie gehörenden Domänen finden. Es stellte sich heraus, dass ein WYL-Domäne-Protein, sll7009, ein negativer Regulator des Synechocystis sp.-I-D-CRISPR-Cas-Systems ist (siehe z. B. Hein et al. (2013) RNA Biol. 10: 852-64).
In einigen Ausführungsformen enthält das akzessorische Protein wenigstens eine WYL-Domäne. In einigen Ausführungsformen enthält das akzessorische Protein zwei WYL-Domänen. In einigen Ausführungsformen enthält das akzessorische Protein eine HTH(Helix-Turn-Helix)-Faltung. In einigen Ausführungsformen enthält das akzessorische Protein eine RHH(Ribbon-Helix-Helix)-Faltung. In einigen Ausführungsformen enthält das akzessorische Protein wenigstens eine WYL-Domäne, wobei die WYL-Domäne die Aminosäuresequenz PXXX₁XXXXXXXXXYL (SEQ ID NO: 198) umfasst, worin X₁ für C, V, I, L, P, F, Y, M oder W und X für eine beliebige Aminosäure steht. In einigen Ausführungsformen enthält das akzessorische Protein wenigstens eine WYL-Domäne, wobei die WYL-Domäne die Aminosäuresequenz PXXX₁XXXXXXXXXYL (SEQ ID NO: 198) umfasst, worin X₁ für C, V, I, L, P, F, Y, M oder W und X für eine beliebige Aminosäure steht; und wenigstens eine RHH(Ribbon-Helix-Helix)-Faltung oder wenigstens eine HTH(Helix-Tum-Helix)-Domäne. In einigen Ausführungsformen ist die Aminosäuresequenz der WYL-Domäne getrennt von (d. h. überlappt nicht mit) einer RHH-Faltung oder einer HTH-Faltung.
In einigen Ausführungsformen modulieren die vorliegend beschriebenen akzessorischen Proteine die RNAse-Aktivität eines CRISPR-assoziierten Proteins. In einigen Ausführungsformen moduliert (z. B. erhöht oder vermindert) das akzessorische Protein die kollaterale RNAse-Aktivität eines CRISPR-assoziierten Proteins. In einigen Ausführungsformen moduliert (z. B. erhöht oder vermindert) das akzessorische Protein die RNA bindende Aktivität eines CRISPR-assoziierten Proteins. In einigen Ausführungsformen moduliert (z. B. erhöht oder vermindert) das akzessorische Protein die crRNA-Prozessierungsaktivität eines CRISPR-assoziierten Proteins. In einigen Ausführungsformen moduliert (z. B. erhöht oder vermindert) das akzessorische Protein die gezielte RNAse-Aktivität eines CRISPR-assoziierten Proteins.
In einigen Ausführungsformen verbessern die vorliegend beschriebenen akzessorischen Proteine die RNAse-Aktivität eines CRISPR-assoziierten Proteins (z. B. eines Cas13a-Proteins, eines Cas13b-Proteins, eines Cas13c-Proteins, eines Cas12a-Proteins, eines Cas9-Proteins). In einigen Ausführungsformen verbessert das akzessorische Protein die kollaterale RNAse-Aktivität eines CRISPR-assoziierten Proteins. In einigen Ausführungsformen verbessert das akzessorische Protein die crRNA-Prozessierungsaktivität eines CRISPR-assoziierten Proteins. In einigen Ausführungsformen verbessert das akzessorische Protein die RNA bindende Aktivität eines CRISPR-assoziierten Proteins. In einigen Ausführungsformen verbessert das akzessorische Protein die gezielte RNAse-Aktivität eines CRISPR-assoziierten Proteins. CRISPR-Systeme, die ein vorliegend beschriebenes akzessorisches Protein umfassen, sind von besonderem Nutzen bei Anwendungen, bei denen ein erhöhter sequenzspezifischer oder kollateraler RNA-Abbau wünschenswert ist. Beispielsweise liefert bei diagnostischen Anwendungen eine verbesserte RNAse-Aktivität einen höheren Grad an Empfindlichkeit, was den Nachweis geringerer Konzentrationen einer Ziel-RNA gestattet. In einigen Ausführungsformen verbessert ein vorliegend beschriebenes akzessorisches Protein die RNAse-Aktivität des ternären Komplexes mehrerer CRISPR-Typ-VI-Effektoren. Die Fähigkeit des akzessorischen Proteins, die RNAse mehrerer Effektoren zu verbessern, ist von besonderem Nutzen bei Anwendungen, bei denen Kombinationen von Typ-VI-Effektoren unterschiedlicher Subtypen zusammen verwendet werden, beispielsweise bei diagnostischen Mehrkanal-Anwendungen. In einigen Ausführungsformen kann das akzessorische Protein die RNAse-Aktivität von Typ-VI-Effektoren außerhalb der Casl3d-Familie verbessern, womit ein wertvolles Werkzeug zum Screening der Aktivität nicht charakterisierter Typ-VI-Effektoren bereitgestellt wird.
Beispielhafte akzessorische Proteine sind unten in Tabelle 4, 5 und 6 angegeben (z. B. SEQ ID NO. 78-93 und 590-671). In einigen Ausführungsformen enthalten die akzessorischen Proteine eine Aminosäuresequenz mit einer Identität von wenigstens etwa 80% (z. B. 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, oder 100%) Identität) mit der Aminosäuresequenz aus einer der Tabellen 4, 5 und 6 (z. B. SEQ ID NO. 78-93 und 590-671). In einigen Ausführungsformen enthält das akzessorische Protein die Aminosäuresequenz eines der Proteine in Tabelle 4, 5 und 6 (z. B. SEQ ID NO. 78-93 und 590-671). In einigen Ausführungsformen handelt es sich bei dem akzessorischen Protein um RspWYL1 (SEQ ID NO: 81).
Verfahren zur Verwendung von CRISPR-Systemen
Die vorliegend beschriebenen CRISPR-Systeme sind in vielfältiger Weise von Nutzen, einschließlich Modifizieren (z. B. Deletieren, Inserieren, Translokalisieren, Inaktivieren oder Aktivieren) eines Zielpolynukleotids bzw. einer Nukleinsäure in einer Vielzahl von Zelltypen. Die CRISPR-Systeme besitzen ein breites Anwendungsspektrum, z. B. bei DNA/RNA-Nachweis (z. B. SHERLOCK (Specific High Sensitivity Enzymatic Reporter Unlocking)), Verfolgen und Markieren von Nukleinsäuren, Anreicherungstestverfahren (Extrahieren von gewünschter Sequenz aus Hintergrund), Kontrollieren von Interferenz-RNA oder miRNA, Nachweisen von Tumor-DNA im Kreislauf, Herstellen einer Bibliothek der nächsten Generation, Arzneistoff-Screening, Krankheitsdiagnose und -prognose und Behandeln verschiedener genetischer Störungen.
DNA/RNA-Nachweis
In einem Aspekt können die vorliegend beschriebenen CRISPR-Systeme beim Nachweis von DNA oder RNA verwendet werden. CRISPR-assoziierte Proteine können mit CRISPR-RNAs (crRNAs) umprogrammiert werden, so dass eine Plattform für spezifische RNA-Sensorik bereitgestellt wird. Nach Erkennung seines RNA-Ziels nehmen aktivierte CRISPR-assoziierte Proteine an „kollateraler“ Spaltung in der Nähe befindlicher nicht anvisierter RNAs teil. Diese crRNA-programmierte kollaterale Spaltungsaktivität gestattet den CRISPR-Systemen den Nachweis des Vorliegens einer spezifischen RNA über das Auslösen von programmiertem Zelltod oder über nicht spezifischen Abbau von markierter RNA.
Mit der SHERLOCK-Methode (Specific High Sensitivity Enzymatic Reporter UnLOCKing) wird eine In-vitro-Nukleinsäurenachweisplattform mit attomolarer Empfindlichkeit auf der Basis von Nukleinsäureamplifikation und kollateraler Spaltung einer Reporter-RNA bereitgestellt, was einen Echtzeitnachweis des Ziels gestattet. Zur Erzielung des Signalnachweises kann der Nachweis mit unterschiedlichen isothermischen Amplifikationsschritten kombiniert werden. Beispielsweise lässt sich Rekombinase-Polymerase-Amplifikation (RPA) mit T7-Transkription koppeln, um amplifizierte DNA in RNA zum anschließenden Nachweis zu überführen. Die Kombination von Amplifikation mit RPA, T7-RNA-Polymerase-Transkription amplifizierter DNA zu RNA und Nachweis von Ziel-RNA über durch kollaterale RNA-Spaltung vermittelte Freisetzung von Reportersignal wird als SHERLOCK bezeichnet. Methoden zur Verwendung von CRISPR bei SHERLOCK sind ausführlich z. B. bei Gootenberg, et al. „Nucleic acid detection with CRISPR-Cas13a/C2c2," Science, 2017 Apr 28;356(6336):438-442, beschrieben, das hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
Die CRISPR-assoziierten Proteine können ferner in Northern-Blot-Tests verwendet werden, bei denen Elektrophorese zur Trennung von RNA-Proben nach Größe verwendet wird. Die CRISPR-assoziierten Proteine können zur/zum spezifischen Bindung und Nachweis der Ziel-RNA-Sequenz verwendet werden. Die CRISPR-assoziierten Proteine können auch an ein Fluoreszenzprotein (z. B. GFP) fusioniert und zum Verfolgen der RNA-Lokalisation in lebenden Zellen verwendet werden. Insbesondere können die CRISPR-assoziierten Proteine dahingehend inaktiviert werden, dass sie RNAs wie oben beschrieben nicht länger spalten. So lassen sich CRISPR-assoziierte Proteine zur Bestimmung der Lokalisation der RNA oder spezifischer Spleißvarianten, der Konzentration von mRNA-Transkripten, Herauf- oder Herunterregulation von Transkripten und krankheitsspezifischen Diagnose verwenden. Die CRISPR-assoziierten Proteine können zur Sichtbarmachung von RNA in (lebenden) Zellen unter Verwendung von z. B. Fluoreszenzmikroskopie oder Durchflusszytometrie, wie z. B. FACS (Fluorescence-Activated Cell Sorting) verwendet werden, was ein Screening von Zellen mit hohem Durchsatz und Gewinnung von Lebendzellen nach Zellsortierung ermöglicht. Eine ausführliche Beschreibung in Bezug darauf, wie DNA und RNA nachgewiesen werden, findet sich z. B. in International Publication No. WO 2017/070605 , die hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
In einigen Ausführungsformen können die vorliegend beschriebenen CRISPR-Systeme bei MERFISH (Multiplexed Error-Robust Fluorescence in situ Hybridization) verwendet werden. Diese Methoden sind z. B. bei Chen et al., „Spatially resolved, highly multiplexed RNA profiling in single cells,“ Science, 2015 Apr 24; 348(6233):aaa6090, beschrieben, die hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
In einigen Ausführungsformen können die vorliegend beschriebenen CRISPR-Systeme zum Nachweisen einer Ziel-RNA in einer Probe (z. B. einer klinischen Probe, einer Zelle oder einem Zelllysat) verwendet werden. Die kollaterale RNAse-Aktivität der vorliegend beschriebenen Typ-VI-D-CRISPR-Cas-Effektorproteine wird aktiviert, wenn die Effektorproteine an eine Zielnukleinsäure binden. Nach Bindung an die Ziel-RNA von Interesse spaltet das Effektorprotein eine markierte Detektor-RNA, so dass ein Signal (z. B. ein erhöhtes Signal oder ein vermindertes Signal) erzeugt wird, wodurch der qualitative und quantitative Nachweis der Ziel-RNA in der Probe ermöglicht wird. Der spezifische Nachweis bzw. die spezifische Quantifizierung von RNA in der Probe ermöglicht eine Vielzahl von Anwendungen, einschließlich Diagnostik. In einigen Ausführungsformen beinhalten die Verfahren Inkontaktbringen einer Probe mit: (i) einer gRNA (z. B. crRNA) oder einer die gRNA codierenden Nukleinsäure, wobei die gRNA aus einer Direct-Repeat-Sequenz und einer Spacersequenz mit der Fähigkeit zur Hybridisierung an die Ziel-RNA besteht; (ii) einem Typ-VI-D-CRISPR-Cas-Effektorprotein und/oder einer das Effektorprotein codierenden Nukleinsäure; und (iii) einer markierten Detektor-RNA; wobei das Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert; wobei die gRNA an die Ziel-RNA hybridisiert; und wobei nach Binden des Komplexes an die Ziel-RNA das Effektorprotein kollaterale RNAse-Aktivität zeigt und die markierte Detektor-RNA spaltet; und b) Messen eines durch Spaltung der markierten Detektor-RNA produzierten nachweisbaren Signals, wobei das Messen einen Nachweis der einzelsträngigen Ziel-RNA in der Probe vorsieht. In einigen Ausführungsformen umfassen die Verfahren ferner Vergleichen des nachweisbaren Signals mit einem Referenzsignal und Bestimmen der Menge an Ziel-RNA in der Probe. In einigen Ausführungsformen erfolgt das Messen unter Verwendung von Goldnanopartikel-Nachweis, Fluoreszenzpolarisation, Kolloidphasenübergang/-dispersion, elektrochemischem Nachweis und Sensorik auf Halbleiterbasis. In einigen Ausführungsformen enthält die markierte Detektor-RNA ein Fluoreszenzemissionsfarbstoffpaar, ein Fluoreszenzresonanzenergietransfer(FRET)-Paar oder ein Quencher/Fluor-Paar. In einigen Ausführungsformen wird nach Spaltung der markierten Detektor-RNA durch das Effektorprotein eine Menge an von der markierten Detektor-RNA produziertem nachweisbarem Signal verringert oder erhöht. In einigen Ausführungsformen produziert die markierte Detektor-RNA vor Spaltung durch das Effektorprotein ein erstes nachweisbares Signal und nach Spaltung durch das Effektorprotein ein zweites nachweisbares Signal. In einigen Ausführungsformen wird ein nachweisbares Signal produziert, wenn die markierte Detektor-RNA durch das Effektorprotein gespalten wird. In einigen Ausführungsformen enthält die markierte Detektor-RNA eine modifizierte Nukleobase, eine modifizierte Zuckergruppierung, eine modifizierte Nukleinsäureverknüpfung oder eine Kombination davon. In einigen Ausführungsformen beinhalten die Verfahren den Mehrkanalnachweis mehrerer unabhängiger Ziel-RNAs in einer Probe (z. B. zwei, drei, vier, fünf, sechs, sieben, acht, neun, zehn, fünfzehn, zwanzig, dreißig, vierzig oder mehr Ziel-RNAs) unter Verwendung mehrerer Typ-VI-D CRISPR-Cas-Systeme, die jeweils ein unterschiedliches orthologes Effektorprotein und entsprechende gRNAs enthalten, was die Unterscheidung mehrerer Ziel-RNAs in der Probe ermöglicht. In einigen Ausführungsformen beinhalten die Verfahren den Mehrkanalnachweis mehrerer unabhängiger Ziel-RNAs in einer Probe mit der Verwendung mehrerer Exemplare von Typ-VI-D-CRISPR-Cas-Systemen, die jeweils ein orthologes Effektorprotein mit unterscheidbaren kollateralen RNAse-Substraten enthalten. Methoden zum Nachweisen einer RNA in einer Probe unter Verwendung von CRISPR-assoziierten Proteinen sind z. B. in U.S. Patent Publication No. 2017/0362644 beschrieben, deren gesamter Inhalt hiermit durch Bezugnahme aufgenommen ist.
Verfolgen und Markieren von Nukleinsäuren
Zelluläre Prozesse hängen von einem Netzwerk molekularer Wechselwirkungen zwischen Proteinen, RNAs und DNAs ab. Ein genauer Nachweis von Protein-DNA- und Protein-RNA-Wechselwirkungen ist entscheidend für das Verstehen solcher Prozesse. Bei In-vitro-Nachbarschaftsmarkierungstechniken wird ein Affinität-Tag kombiniert mit einer Reportergruppe, z. B. einer photoaktivierbaren Gruppe, eingesetzt, um Polypeptide und RNAs in der Nähe eines Proteins bzw. einer RNA von Interesse in vitro zu markieren. Nach UV-Bestrahlung reagieren die photoaktivierbaren Gruppen mit Proteinen und anderen Molekülen, die sich in enger Nachbarschaft zu den mit dem Tag versehenen Molekülen befinden, wodurch sie markiert werden. Markierte wechselwirkende Moleküle können anschließend gewonnen und identifiziert werden. Die CRISPR-assoziierten Proteine lassen sich beispielsweise dazu verwenden, Sonden auf ausgewählte RNA-Sequenzen zu lenken. Diese Anwendungen können auch bei Tiermodellen zur In-vivo-Bildgebung von Krankheiten oder schwer zu kultivierenden Zelltypen angewandt werden. Die Methoden zum Verfolgen und Markieren von Nukleinsäuren sind z. B. in US 8795965 , WO 2016205764 und WO 2017070605 beschrieben, die hiermit jeweils vollinhaltlich durch Bezugnahme aufgenommen sind.
RNA-Isolierung, -Aufreinigung, -Anreicherung und/oder -Depletion
Die vorliegend beschriebenen CRISPR-Systeme (z. B. CRISPR-assoziierte Proteine) können zur Isolierung und/oder Aufreinigung der RNA verwendet werden. Die CRISPR-assoziierten Proteine können an ein Affinität-Tag fusioniert sein, das zur Isolierung und/oder Aufreinigung des RNA-CRISPR-assoziiertes-Protein-Komplexes verwendet werden kann. Diese Anwendungen eignen sich z. B. zur Analyse von Genexpressionsprofilen in Zellen.
In einigen Ausführungsformen können die CRISPR-assoziierten Proteine zum Anvisieren einer spezifischen nicht codierenden RNA (ncRNA) verwendet werden, wodurch ihre Aktivität blockiert wird. In einigen Ausführungsformen lassen sich die CRISPR-assoziierten Proteine zur spezifischen Anreicherung einer bestimmten RNA (einschließlich, aber nicht darauf beschränkt, Erhöhung von Stabilität usw.) oder andererseits zur spezifischen Depletion einer bestimmten RNA (z. B. bestimmter Spleißvarianten, Isoformen usw.) verwenden.
Diese Methoden sind z. B. in US 8795965 , WO 2016205764 und WO 2017070605 beschrieben, die hiermit jeweils vollinhaltlich durch Bezugnahme aufgenommen sind.
Screening mit hohem Durchsatz
Die vorliegend beschriebenen CRISPR-Systeme können zur Herstellung von NGS(Next Generation Sequencing)-Bibliotheken verwendet werden. Beispielsweise lassen sich zur Erzeugung einer kostengünstigen NGS-Bibliothek die CRISPR-Systeme zur Unterbrechung der Codiersequenz eines Zielgens verwenden, wobei die transfizierten CRISPR-assoziiertes-Protein-Klone gleichzeitig einem Screening mittels NGS (Next-Generation Sequencing) unterzogen werden können (z. B. am Ion Torrent PGM-System). Eine ausführliche Beschreibung in Bezug darauf, wie NGS-Bibliotheken hergestellt werden, findet sich z. B. bei Bell et al., „A high-throughput screening strategy for detecting CRISPR-Cas9 induced mutations using next-generation sequencing,“ BMC Genomics, 15.1 (2014): 1002, die hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
Konstruierte Mikroorganismen
Mikroorganismen (z. B. E. coli, Hefe und Mikroalgen) finden breite Verwendung in der synthetischen Biologie. Die Entwicklung der synthetischen Biologie hat einen breiten Nutzwert, einschließlich verschiedener klinischer Anwendungen. Beispielsweise können die programmierbaren CRISPR-Systeme zur Spaltung von Proteinen von toxischen Domänen zum gezielten Zelltod verwendet werden, z. B. mit mit Krebs verbundener RNA als Zieltranskript. Ferner können Wege, an denen Protein-Protein-Wechselwirkungen beteiligt sind, in biologischen Synthesesystemen mit z. B. Fusionskomplexen mit den entsprechenden Effektoren wie Kinasen oder Enzymen beeinflusst werden.
In einigen Ausführungsformen können crRNAs, die Phagensequenzen anvisieren, in den Mikroorganismus eingeführt werden. Somit werden gemäß der Offenbarung auch Verfahren zur Impfung eines Mikroorganismus (z. B. eines Produktionsstamms) gegen Phageninfektion bereitgestellt.
In einigen Ausführungsformen können die vorliegend bereitgestellten CRISPR-Systeme zur Konstruktion von Mikroorganismen verwendet werden, z. B. um Ausbeute oder Fermentationseffizienz zu verbessern. Beispielsweise können die vorliegend beschriebenen CRISPR-Systeme zur Konstruktion von Mikroorganismen wie Hefe verwendet werden, um Biokraftstoff oder Biopolymere aus fermentierbaren Zuckern zu erzeugen oder aus landwirtschaftlichen Abfällen gewonnene Lignocellulose pflanzlichen Ursprungs als Quelle fermentierbarer Zucker abzubauen. Insbesondere können die vorliegend beschriebenen Methoden dazu verwendet werden, die Expression endogener Gene, die zur Biokraftstoffproduktion benötigt werden, und/oder endogene Gene, die möglicherweise die Biokraftstoffsynthese stören, zu modifizieren. Diese Methoden zur Konstruktion von Mikroorganismen sind z. B. bei Verwaal et al., „CRISPR/Cpfl enables fast and simple genome editing of Saccharomyces cerevisiae,“ Yeast, 2017 Sep 8. doi: 10.1002/yea.3278; und Hlavova et al., „Improving microalgae for biotechnology-from genetics to synthetic biology," Biotechnol. Adv., 1. Nov. 2015; 33:1194-203, beschrieben, die hiermit jeweils vollinhaltlich durch Bezugnahme aufgenommen sind.
In einigen Ausführungsformen können die vorliegend bereitgestellten CRISPR-Systeme zur Induktion von Tod oder Dormanz einer Zelle (z. B. eines Mikroorganismus, wie z. B. eines konstruierten Mikroorganismus) verwendet werden. Diese Methoden lassen sich zur Induktion von Tod oder Dormanz einer Vielzahl von Zelltypen verwenden, einschließlich prokaryontischer und eukaryontischer Zellen, einschließlich, ohne jedoch darauf beschränkt zu sein, Säugerzellen (z. B. Krebszellen oder Gewebekulturzellen), Protozoen, Pilzzellen, mit einem Virus infizierter Zellen, mit einem intrazellulären Bakterium infizierter Zellen, mit einem intrazellulären Protozoon infizierter Zellen, mit einem Prion infizierter Zellen, Bakterien (z B. pathogene und nichtpathogene Bakterien), Protozoen und einzelliger und mehrzelliger Parasiten. Beispielsweise ist es auf dem Gebiet der synthetischen Biologie höchst wünschenswert, im Besitz von Mechanismen zur Kontrolle konstruierter Mikroorganismen (z. B. Bakterien) zu sein, um deren Propagierung oder Verbreitung zu verhindern. Die vorliegend beschriebenen Systeme können als „Kill-switches“ zur Regulierung und/oder Verhinderung der Propagierung oder Verbreitung eines konstruierten Mikroorganismus verwendet werden. Ferner besteht im Stand der Technik ein Bedarf an Alternativen zu gegenwärtigen Antibiotikabehandlungen. Die vorliegend beschriebenen Systeme können auch bei Anwendungen verwendet werden, bei denen es wünschenswert ist, eine spezifische Mikrobenpopulation (z. B. eine Bakterienpopulation) abzutöten oder zu kontrollieren. Beispielsweise können die vorliegend beschriebenen Systeme eine gRNA (z. B. eine crRNA) enthalten, die eine Nukleinsäure (z. B. eine RNA) anvisiert, die gattungs-, art- oder stammspezifisch ist, und der Zelle zugeführt werden kann. Nach Komplexieren und Binden an die Zielnukleinsäure wird die kollaterale RNAse-Aktivität der Typ-VI-D-CRISPR-Cas-Effektorproteine aktiviert, was zur Spaltung von Nichtziel-RNA in den Mikroorganismen und letztendlich zu Dormanz oder Tod führt.
In einigen Ausführungsformen umfassen die Methoden das Inkontaktbringen der Zelle mit einem vorliegend beschriebenen System, das ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure und eine gRNA (z. B. eine crRNA) oder eine die gRNA codierende Nukleinsäure enthält, wobei die Spacersequenz zu wenigstens 15 Nukleotiden (z. B. 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50 oder mehr Nukleotiden) einer Zielnukleinsäure (z. B. einer gattungs-, art- oder stammspezifischen gRNA) komplementär ist. Ohne an irgend eine bestimmte Theorie gebunden sein zu wollen, kann die Spaltung von Nichtziel-RNA durch die Typ-VI-D-CRISPR-Cas-Effektorproteine programmierten Zelltod, Zelltoxizität, Apoptose, Nekrose, Nekroptose, Zelltod, Zellzyklus-Arrest, Zellanergie, eine Verringerung des Zellwachstums oder eine Verringerung der Zellproliferation induzieren. Beispielsweise kann in Bakterien die Spaltung von Nichtziel-RNA durch die Typ-VI-D-CRISPR-Cas-Effektorproteine bakteriostatisch oder bakterizid sein.
Anwendungen bei Pflanzen
Die vorliegend beschriebenen CRISPR-Systeme können bei Pflanzen vielfältig genutzt werden. In einigen Ausführungsformen können die CRISPR-Systeme zum Manipulieren von Pflanzengenomen verwendet werden (z. B. Verbessern der Produktion, Herstellen von Produkten mit gewünschten posttranslationalen Modifikationen oder Einführen von Genen zur Herstellung von Industrieprodukten). In einigen Ausführungsformen können die CRISPR-Systeme zur Einführung eines gewünschten Merkmals in eine Pflanze (z. B. mit oder ohne vererbbare Modifikationen am Genom) oder Regulierung der Expression endogener Gene in Pflanzenzellen oder intakten Pflanzen verwendet werden.
In einigen Ausführungsformen können die CRISPR-Systeme zum Identifizieren, Editing und/oder Silencing von Genen, die spezifische Proteine, z. B. allergene Proteine (z. B. allergene Proteine in Erdnüssen, Sojabohnen, Linsen, Erbsen, grünen Bohnen und Mungbohnen) codieren, verwendet werden. Eine ausführliche Beschreibung bezüglich Identifizieren, Editing und/oder Silencing von Proteine codierenden Genen ist z. B. bei Nicolaou et al., „Molecular diagnosis of peanut and legume allergy," Curr. Opin. Allergy Clin. Immunol., 2011 Jun; 11(3):222-8, und in der WO 2016205764 A1 beschrieben, die jeweils hiermit vollinhaltlich durch Bezugnahme aufgenommen sind.
Gene Drives
Bei Gene Drive handelt es sich um das Phänomen, bei dem eine Neigung zur bevorzugten Vererbung eines bestimmten Gens oder Satzes von Genen besteht. Die vorliegend beschriebenen CRISPR-Systeme können zum Aufbauen von Gene Drives verwendet werden. Beispielsweise können die CRISPR-Systeme so konstruiert werden, dass sie ein bestimmtes Allel eines Gens anvisieren und unterbrechen, was die Zelle zum Kopieren des zweiten Allels zur Reparatur der Sequenz veranlasst. Aufgrund des Kopiervorgangs wird das erste Allel in das zweite Allel umgewandelt, wodurch die Chancen steigen, dass das zweite Allel auf die Nachkommen übertragen wird. Eine ausführliche Methode in Bezug darauf, wie die vorliegend beschriebenen CRISPR-Systeme zum Aufbau von Gene Drives zu verwenden sind, ist z. B. bei Hammond et al., „A CRISPR-Cas9 gene drive system targeting female reproduction in the malaria mosquito vector Anopheles gambiae," Nat. Biotechnol., Jan. 2016; 34(1):78-83, beschrieben, die hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
Pooled-Screening
Wie vorliegend beschrieben, handelt es sich bei Pooled-CRISPR-Screening um ein leistungsstarkes Werkzeug zum Identifizieren von Genen, die an biologischen Mechanismen wie Zellproliferation, Arzneistoffresistenz und Virusinfektion beteiligt sind. Zellen werden en gros mit einer Bibliothek von vorliegend beschriebenen gRNA codierenden Vektoren transduziert, und die Verteilung von gRNAs wird vor und nach Applizieren eines selektiven Challenge gemessen. Pooled-CRISPR-Screens funktionieren gut bei Mechanismen, die sich auf das Überleben und die Proliferation von Zellen auswirken, und lassen sich zur Messung der Aktivität einzelner Gene (z. B. unter Verwendung konstruierter Reporterzelllinien) erweitern. CRISPR-Screen-Arrays, bei denen jeweils nur ein Gen anvisiert wird, ermöglichen die Verwendung von RNA-seq als Readout. In einigen Ausführungsformen können die CRISPR-Systeme wie vorliegend beschrieben bei Einzelzelle-CRISPR-Screens verwendet werden. Eine ausführliche Beschreibung in Bezug auf Pooled-CRISPR-Screening-Verfahren findet sich z. B. bei Datlinger et al., „Pooled CRISPR screening with single-cell transcriptome read-out,“ Nat. Methods., März 2017; 14(3):297-301, die hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
Sättigungsmutagenese (Bashing)
Die vorliegend beschriebenen CRISPR-Systeme können für In-situ-Sättigungsmutagenese verwendet werden. In einigen Ausführungsformen kann eine PooledgRNA-Bibliothek zur Durchführung von In-situ-Sättigungsmutagenese für bestimmte Gene oder Regulatorelemente verwendet werden. Mit solchen Methoden lassen sich kritische minimale Merkmale und einzelne Schwachstellen dieser Gene oder Regulatorelemente (z. B. Enhancer) aufzeigen. Diese Methoden sind z. B. bei Canver et al., „BCL11A enhancer dissection by Cas9-mediated in situ saturating mutagenesis,“ Nature, 12. Nov. 2015; 527(7577): 192-7, beschrieben, die hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
Anwendungen in Verbindung mit RNA
Die vorliegend beschriebenen CRISPR-Systeme können verschiedene Anwendungen in Verbindung mit RNA haben, z. B. Modulieren der Genexpression, Abbauen eines RNA-Moleküls, Hemmen von RNA-Expression, Screening von RNA oder RNA-Produkten, Bestimmen von Funktionen von lincRNA oder nicht codierender RNA, Induzieren von Zelldormanz, Induzieren von Zellzyklus-Arrest, Reduzieren von Zellwachstum und/oder Zellproliferation, Induzieren von Zellanergie, Induzieren von Zellapoptose, Induzieren von Zellnekrose, Induzieren von Zelltod und/oder Induzieren von programmiertem Zelltod. Eine ausführliche Beschreibung dieser Anwendungen findet sich z. B. in der WO 2016/205764 A1 , die hiermit durch Bezugnahme vollinhaltlich aufgenommen ist. In unterschiedlichen Ausführungsformen können die vorliegend beschriebenen Verfahren in vitro, in vivo oder ex vivo durchgeführt werden.
Beispielsweise können die vorliegend beschriebenen CRISPR-Systeme einem Individuum mit einer Krankheit oder Störung verabreicht werden, so dass eine Zelle in einem erkrankten Zustand (z. B. Krebszellen oder mit einem Infektionserreger infizierte Zellen) anvisiert und darin Zelltod induziert wird. Beispielsweise können in einigen Ausführungsformen die vorliegend beschriebenen CRISPR-Systeme dazu verwendet werden, eine Krebszelle anzuvisieren und darin Zelltod zu induzieren, wobei die Krebszelle von einem Individuum stammt, das an Wilms-Tumor, Ewing-Sarkom, einem neuroendokrinen Tumor, einem Glioblastom, einem Neuroblastom, einem Melanom, Hautkrebs, Brustkrebs, Darmkrebs, Rektalkarzinom, Prostatakrebs, Leberkrebs, Nierenkrebs, Bauchspeicheldrüsenkrebs, Lungenkrebs, Gallengangkrebs, Gebärmutterhalskrebs, Endometriumkarzinom, Speiseröhrenkrebs, Magenkrebs, Krebs im Kopf- und Halsbereich, medullärem Schilddrüsenkarzinom, Ovarialkarzinom, Gliom, Lymphom, Leukämie, Myelom, akuter lymphatischer Leukämie, akuter myeloischer Leukämie, chronischer lymphatischer Leukämie, chronischer myeloischer Leukämie, Hodgkin-Lymphom, Non-Hodgkin-Lymphom oder Harnblasenkrebs leidet.
Modulieren der Genexpression
Die vorliegend beschriebenen CRISPR-Systeme können zum Modulieren der Genexpression verwendet werden. Die CRISPR-Systeme können zusammen mit geeigneten gRNAs verwendet werden, so dass die Genexpression über Kontrolle der RNA-Prozessierung anvisiert wird. Die Kontrolle der RNA-Prozessierung kann z. B. RNA-Prozessierungsreaktionen wie RNA-Spleißen (z. B. alternatives Spleißen), virale Replikation und tRNA-Biosynthese beinhalten. Die RNA-Targeting-Proteine können in Kombination mit geeigneten gRNAs auch zur Kontrolle von RNA-Aktivierung (RNAa) verwendet werden. Bei RNA-Aktivierung handelt es sich um ein von kleiner RNA geführtes und von Argonaute (Ago) abhängiges Genregulationsphänomen, bei dem promotorgezielte kurze RNA-Doppelstränge (dsRNAs) die Zielgenexpression auf der Transkriptions-/epigenetischen Ebene induzieren. RNAa führt zur Förderung der Genexpression, so dass eine Kontrolle der Genexpression auf diesem Weg über Unterbrechung oder Reduzierung von RNAa erreicht werden kann. In einigen Ausführungsformen beinhalten die Verfahren die Verwendung der RNA-Targeting-CRISPR als Ersatz für z. B. Interferenz-Ribonukleinsäuren (wie z. B. siRNAs, shRNAs oder dsRNAs). Die Methoden zur Modulation der Genexpression sind beispielsweise in der WO 2016205764 beschrieben, die hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
Kontrollieren von RNA-Interferenz
Die Kontrolle über Interferenz-RNAs oder microRNAs (miRNA) kann dabei helfen, Off-target-Effekte zu verringern, indem die Langlebigkeit der Interferenz-RNAs oder miRNAs in vivo or in vitro reduziert wird. In einigen Ausführungsformen können die Ziel-RNAs Interferenz-RNAs, d. h. RNAs, die am RNA-Interferenzweg beteiligt sind, wie z. B. shRNAs (Small Hairpin RNAs), siRNAs (Small Interfering) usw., umfassen. In einigen Ausführungsformen umfassen die Ziel-RNAs z. B. miRNAs oder RNA-Doppelstränge (dsRNA).
In einigen Ausführungsformen kann, falls das RNA-Targeting-Protein und geeignete gRNAs selektiv exprimiert werden (z. B. räumlich oder zeitlich unter der Kontrolle eines regulierten Promotors, z. B. eines gewebe-oder zellzyklusspezifischen Promoters und/oder Enhancer), dies zum Schützen der Zellen oder Systeme (in vivo oder in vitro) vor RNA-Interferenz (RNAi) in diesen Zellen verwendet werden. Dies kann in Nachbargeweben oder - zellen, wo RNAi nicht benötigt wird, oder zu Vergleichszwecken der Zellen oder Gewebe, wo die CRISPR-assoziierten Proteine und geeignete crRNAs exprimiert bzw. nicht exprimiert werden (d. h. wo die RNAi nicht kontrolliert bzw. wo sie kontrolliert wird), von Nutzen sein. Die RNA-Targeting-Proteine können zur Kontrolle oder Bindung an Moleküle verwendet werden, die RNAs umfassen oder daraus bestehen, wie z. B. Ribozyme, Ribosomen oder Riboswitches. In einigen Ausführungsformen können die gRNAs die RNA-Targeting-Proteine zu diesen Molekülen rekrutieren, so dass die RNA-Targeting-Proteine an sie binden können. Diese Methoden sind z. B. beschrieben in WO 2016205764 und WO 2017070605 , die hiermit jeweils durch Bezugnahme vollinhaltlich aufgenommen sind.
Modifizieren von Riboswitches und Kontrollieren von Stoffivechselregulationen
Riboswitches sind Regulatorsegmente von messenger-RNAs, die kleine Moleküle binden und im Gegenzug die Genexpression regulieren. Dieser Mechanismus gestattet der Zelle die Wahrnehmung der intrazellulären Konzentration dieser kleinen Moleküle. Ein spezifisches Riboswitch reguliert typischerweise sein benachbartes Gen durch Verändern der Transkription, der Translation oder des Spleißens dieses Gens. So lässt sich in einigen Ausführungsformen die Riboswitch-Aktivität über die Verwendung der RNA-Targeting-Proteine in Kombination mit geeigneten gRNAs zum Anvisieren der Riboswitches kontrollieren. Dies kann über die Spaltung des oder Bindung an das Riboswitch erreicht werden. Methoden zur Verwendung von CRISPR-Systemen zur Kontrolle von Riboswitches sind z. B. in WO 2016205764 und WO 2017070605 beschrieben, die jeweils hiermit vollinhaltlich durch Bezugnahme aufgenommen sind.
RNA-Modifikation
In einigen Ausführungsformen können die vorliegend beschriebenen CRISPR-assoziierten Proteine an eine Base-Editing-Domäne wie ADAR1, ADAR2, APOBEC oder AID (Activation-Induced Cytidine Deaminase) fusioniert sein und zum Modifizieren einer RNA-Sequenz (z. B. einer mRNA) verwendet werden. In einigen Ausführungsformen enthält das CRISPR-assoziierte Protein eine oder mehrere Mutationen (z. B. in einer katalytischen Domäne), durch die das CRISPR-assoziierte Protein nicht länger in der Lage ist, RNA zu spalten.
In einigen Ausführungsformen können die CRISPR-assoziierten Proteine mit einem RNA bindenden Fusionspolypeptid verwendet werden, das eine Base-Editing-Domäne (z. B. ADAR1, ADAR2, APOBEC oder AID) fusioniert an eine RNA bindende Domäne wie MS2 (auch unter MS2-Hüllprotein bekannt), Qbeta (auch unter Qbeta-Hüllprotein bekannt) oder PP7 (auch unter PP7-Hüllprotein bekannt) umfasst. Die Aminosäuresequenzen der RNA bindenden Domänen MS2, Qbeta und PP7 sind nachfolgend angegeben:

MS2 (MS2-Hüllprotein)
Qbeta (Qbeta-Hüllprotein)
PP7 (PP7-Hüllprotein)

In einigen Ausführungsformen kann die RNA-Bindungsdomäne an eine spezifische Sequenz (z. B. eine Aptamersequenz) oder Sekundärstrukturmotive auf einer crRNA des vorliegend beschriebenen Systems (z. B. wenn es sich bei der crRNA um einen Effektor-crRNA-Komplex handelt) binden, wodurch das RNA-Bindungsfusionspolypeptid (das eine Base-Editing-Domäne aufweist) zum Effektorkomplex rekrutiert wird. Beispielsweise enthält in einigen Ausführungsformen das CRISPR-System ein CRISPR-assoziiertes Protein, eine crRNA mit einer Aptamersequenz (z. B. einem MS2-Bindungs-Loop, einem QBeta-Bindungs-Loop oder einem PP7-Bindungs-Loop) und ein RNA bindendes Fusionspolypeptid mit einer Base-Editing-Domäne fusioniert an eine RNA bindende Domäne, die spezifisch an die Aptamersequenz bindet. In diesem System bildet das CRISPR-assoziierte Protein einen Komplex mit der crRNA mit der Aptamersequenz. Ferner bindet das RNA bindende Fusionspolypeptid an die crRNA (über die Aptamersequenz), wodurch ein dreiteiliger Komplex gebildet wird, der eine Ziel-RNA modifizieren kann.
Methoden zur Verwendung von CRISPR-Systemen für Base-Editing sind z. B. in International Publication No. WO 2017/219027 beschrieben, die hiermit vollinhaltlich unter Bezugnahme und insbesondere im Bezug auf ihre Diskussion der RNA-Modifikation aufgenommen ist.
RNA-Spleißen
In einigen Ausführungsformen kann ein inaktiviertes vorliegend beschriebenes CRISPR-assoziiertes Protein (z. B. ein CRISPR-assoziiertes Protein mit einer oder mehreren Mutationen in einer katalytischen Domäne) verwendet werden, um spezifische Spleißstellen auf RNA-Transkripten anzuvisieren und daran zu binden. Durch Bindung des inaktivierten CRISPR-assoziierten Proteins an die RNA kann die Wechselwirkung des Spleißosoms mit dem Transkript sterisch gehemmt werden, was eine Veränderung der Häufigkeit der Erzeugung spezifischer Transkriptisoformen ermöglicht. Methoden zur Verwendung von CRISPR-Systemen zum Verändern des Spleißens sind z. B. in International Publication No. WO 2017/219027 beschrieben, die hiermit vollinhaltlich unter Bezugnahme und insbesondere im Bezug auf ihre Diskussion des RNA-Spleißens aufgenommen ist.
Therapeutische Anwendungen
Die vorliegend beschriebenen CRISPR-Systeme können verschiedene therapeutische Anwendungen haben. In einigen Ausführungsformen können die neuen CRISPR-Systeme zur Behandlung verschiedener Krankheiten und Störungen, z. B. genetischer Störungen (z. B. monogenetischer Krankheiten), Krankheiten, die durch Nukleaseaktivität (z. B. Pcsk9-Targeting, Duchenne-Muskeldystrophie (DMD), BCL1 la-Targeting) behandelt werden können, und verschiedener Krebserkrankungen usw. verwendet werden.
In einigen Ausführungsformen können die vorliegend beschriebenen CRISPR-Systeme zum Editieren einer Zielnukleinsäure zur Modifizierung der Zielnukleinsäure (z. B. durch Inserieren, Deletieren oder Mutieren eines oder mehrerer Nukleinsäurereste) verwendet werden. Beispielsweise umfassen die vorliegend beschriebenen CRISPR-Systeme in einigen Ausführungsformen eine exogene Donor-Matrizennukleinsäure (z. B. ein DNA-Molekül oder ein RNA-Molekül), die eine wünschenswerte Nukleinsäuresequenz umfasst. Nach Auflösung eines mit dem vorliegend beschriebenen CRISPR-System induzierten Spaltungsereignisses wird die molekulare Maschinerie der Zelle die exogene Donor-Matrizennukleinsäure bei der Reparatur und/oder Auflösung des Spaltungsereignisses nutzen. Alternativ dazu kann die molekulare Maschinerie der Zelle eine endogene Matrize bei der Reparatur und/oder Auflösung des Spaltungsereignisses nutzen. In einigen Ausführungsformen können die vorliegend beschriebenen CRISPR-Systeme zur Veränderung einer Zielnukleinsäure, die zu einer Insertion, einer Deletion und/oder einer Punktmutation führt, verwendet werden. In einigen Ausführungsformen handelt es sich bei der Insertion um eine narbenlose Insertion (d. h. die Insertion einer vorgesehenen Nukleinsäuresequenz in eine Zielnukleinsäure führt nach Auflösung des Spaltungsereignisses zu keiner zusätzlichen nicht vorgesehenen Nukleinsäuresequenz). Donor-Matrizennukleinsäuren können doppelsträngige oder einzelsträngige Nukleinsäuremoleküle (z. B. DNA oder RNA) sein. Verfahren zur Konstruktion von exogenen Donor-Matrizennukleinsäuren sind beispielsweise in der International Publication No. WO 2016/094874 A1 beschrieben, die hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
In einem Aspekt können die vorliegend beschriebenen CRISPR-Systeme zur Behandlung einer durch Überexpression von RNAs, toxischen RNAs und/oder mutierten RNAs (z. B. Spleißdefekte oder Verkürzungen) verursachten Krankheit verwendet werden. Beispielsweise kann die Expression von toxischen RNAs mit der Bildung von nukleären Einschlüssen und spät einsetzenden degenerativen Veränderungen in Gehirn, Herz oder Skelettmuskel assoziiert sein. In einigen Ausführungsformen handelt es sich bei der Störung um myotonische Dystrophie. Bei myotonischer Dystrophie besteht der hauptsächliche pathogene Effekt der toxischen RNAs in der Sequestrierung von bindenden Proteinen und der Kompromittierung der Regulation von alternativem Spleißen (siehe z. B. Osborne et al., „RNA-dominant diseases," Hum. Mol. Genet., 15. Apr, 2009; 18(8): 1471-81). Die myotonische Dystrophie (Dystrophia myotonica (DM)) ist für Genetiker von besonderem Interesse, da sie eine extrem breite Palette klinischer Merkmale produziert. Die klassische Form von DM, die nun als DM Typ 1 (DM1) bezeichnet wird, wird durch eine Expansion von CTG-Repeats in der 3'-nichttranslatierten Region (UTR) von DMPK, einem eine zytosolische Proteinkinase codierenden Gen, verursacht. Die vorliegend beschriebenen CRISPR-Systeme können überexprimierte RNA oder toxische RNA, z. B. das DMPK-Gen oder ein beliebiges des fehlregulierten alternativen Spleißens in Skelettmuskel, Herz oder Gehirn bei DM1 anvisieren.
Die vorliegend beschriebenen CRISPR-Systeme können auch trans-wirkende Mutationen anvisieren, die RNA-abhängige Funktionen beeinflussen, die verschiedene Krankheiten verursachen, wie z. B. Prader-Willi-Syndrom, spinale Muskelatrophie (SMA) und Dyskeratosis congenita. Eine Liste von Krankheiten, die mit den vorliegend beschriebenen CRISPR-Systemen behandelt werden können, ist in Cooper et al., „RNA and disease,“ Cell, 136.4 (2009): 777-793, und WO 2016/205764 A1 zusammengefasst, die jeweils hiermit vollinhaltlich durch Bezugnahme aufgenommen sind. Der Fachmann auf diesem Gebiet wird verstehen, wie die neuen CRISPR-Systeme zur Behandlung dieser Krankheiten zu verwenden sind.
Die vorliegend beschriebenen CRISPR-Systeme können auch bei der Behandlung verschiedener Tauopathien, einschließlich z. B. primärer und sekundärer Tauopathien, wie primärer altersbedingter Tauopathie (PART)/seniler Demenz mit prädominanten Neurofibrillenbündeln (neurofibrillary tangles, NFT) (mit NFTs, die denjenigen ähneln, die bei Alzheimer-Krankheit (AD) beobachtet werden, aber ohne Plaques), Dementia pugilistica (chronischer traumatischer Enzephalopathie) und progressiver supranukleärer Lähmung, verwendet werden. Eine nützliche Liste von Tauopathien und Verfahren zur Behandlung dieser Erkrankungen ist z. B. in der WO 2016205764 beschrieben, die hiermit vollinhaltlich durch Bezugnahme aufgenommen ist.
Die vorliegend beschriebenen CRISPR-Systeme können auch zum Anvisieren von Mutationen, die die cis-wirkenden Spleißcodes stören, was Spleißdefekte und Krankheiten verursachen kann, verwendet werden. Zu diesen Krankheiten gehören z. B. degenerative Motorneuronerkrankung, die sich aus der Deletion des SMN1-Gens ergibt (z. B. spinale Muskelatrophie), Duchenne-Muskeldystrophie (DMD), frontotemporale Demenz und Parkinsonismus in Zusammenhang mit Chromosom 17 (FTDP-17) und zystische Fibrose.
Die vorliegend beschriebenen CRISPR-Systeme können ferner für antivirale Aktivität verwendet werden, insbesondere gegen RNA-Viren. Die CRISPR-assoziierten Proteine können unter Verwendung von geeigneten gRNAs, die zum Anvisieren von viralen RNA-Sequenzen ausgewählt sind, die viralen RNAs anvisieren.
Die vorliegend beschriebenen CRISPR-Systeme können auch zur Behandlung einer Krebserkrankung bei einem Individuum (z. B. einem menschlichen Individuum) verwendet werden. Beispielsweise können die vorliegend beschriebenen CRISPR-assoziierten Proteine mit crRNA, die auf ein RNA-Molekül abzielen, das aberrant ist (z. B. eine Punktmutation umfasst oder alternativ gespleißt ist) und in Krebszellen anzutreffen ist, zur Induktion von Zelltod in den Krebszellen (z. B. über Apoptose) programmiert werden.
Die vorliegend beschriebenen CRISPR-Systeme können auch zur Behandlung einer Infektionskrankheit bei einem Individuum verwendet werden. Beispielsweise können die vorliegend beschriebenen CRISPR-assoziierten Proteine mit crRNA, die auf ein RNA-Molekül abzielen, das durch einen Infektionserreger (z. B. ein Bakterium, ein Virus, einen Parasiten oder einen Protozoen) exprimiert wird, zum Anvisieren und zur Induktion von Zelltod in der Infektionserregerzelle programmiert werden. Die CRISPR-Systeme können auch zur Behandlung von Krankheiten verwendet werden, bei denen ein intrazellulärer Infektionserreger die Zellen eines Wirtsindividuums infiziert. Durch Programmieren des CRISPR-assoziierten Proteins zum Anvisieren eines durch ein Gen eines Infektionserregers codierten RNA-Moleküls kann man mit dem Infektionserreger infizierte Zellen anvisieren und Zelltod induzieren.
Des Weiteren können In-vitro-RNA-Sensorikassays zum Nachweis spezifischer RNA-Substrate verwendet werden. Die CRISPR-assoziierten Proteine können für die RNAbasierte Sensorik in lebenden Zellen verwendet werden. Ein Beispiel für eine Anwendung ist die Diagnostik durch Sensorik von beispielsweise krankheitsspezifischen RNAs.
Eine nähere Beschreibung von therapeutischen Anwendungen der vorliegend beschriebenen CRISPR-Systeme findet sich z. B. in US 8795965 , EP 3009511 , WO 2016205764 und WO 2017070605 , die hiermit jeweils vollinhaltlich durch Bezugnahme aufgenommen sind.
Zuführung
In der gesamten vorliegenden Offenbarung und dem Fachwissen können die vorliegend beschriebenen CRISPR-Systeme oder Komponenten davon, Nukleinsäuremoleküle davon und/oder Nukleinsäuremoleküle, die Komponenten davon codieren oder bereitstellen, durch verschiedene Zuführungssysteme wie Vektoren, z. B. Plasmid und virale Zuführungsvektoren (z. B. AAV-Vektoren (AAV = Adeno-assoziiertes Virus)), zugeführt werden. Die CRISPR-assoziierten Proteine und/oder beliebige der RNAs (z. B. gRNAs) und/oder akzessorischen Proteine können unter Verwendung von geeigneten Vektoren, z. B. Plasmiden oder viralen Vektoren, wie Adeno-assoziierten Viren (AAV), Lentiviren, Adenoviren und andere virale Vektoren, oder Kombinationen davon zugeführt werden. Die Proteine und eine oder mehrere crRNAs können in einen oder mehrere Vektoren, z. B. Plasmide oder virale Vektoren, verpackt werden. Für bakterielle Anwendungen können die eine beliebige der Komponenten der vorliegend beschriebenen CRISPR-Systeme codierenden Nukleinsäuren den Bakterien mit Hilfe eines Phagen zugeführt werden. Beispiele für Phagen sind, ohne jedoch darauf beschränkt zu sein, T4-Phage, Mu, λ-Phage, T5-Phage, T7-Phage, T3-Phage, Φ29, M13, MS2, Qβ und ΦX174.
In einigen Ausführungsformen werden die Vektoren, z. B. Plasmide oder virale Vektoren, dem Gewebe von Interesse z. B. durch intramuskuläre Injektion, intravenöse Verabreichung, transdermale Verabreichung, intranasale Verabreichung, orale Verabreichung oder mukosale Verabreichung zugeführt. Eine derartige Zuführung kann entweder über eine einzelne Dosis oder über mehrere Dosen erfolgen. Für den Fachmann ist ersichtlich, dass die vorliegend zuzuführende tatsächliche Dosis in Abhängigkeit von einer Reihe von Faktoren, wie der Wahl des Vektors, der Zielzellen, der Organismen, der Gewebe, der allgemeinen Verfassung des zu behandelnden Individuums, den gewünschten Transformations-/Modifikationsgraden, den Verabreichungsrouten, den Verabreichungsmodi, den angestrebten Transformations-/Modifikationstypen usw. in hohem Maße variieren kann.
In bestimmten Ausführungsformen erfolgt die Zuführung über Adenoviren, beispielsweise in einer einzigen Dosis, die mindestens 1 × 10⁵ Teilchen (auch als Teilcheneinheiten, pu, bezeichnet) von Adenoviren enthält. In einigen Ausführungsformen beträgt die Dosis vorzugsweise mindestens etwa 1 × 10⁶ Teilchen, mindestens etwa 1 × 10⁷ Teilchen, mindestens etwa 1 × 10⁸ Teilchen und mindestens etwa 1 × 10⁹ Teilchen der Adenoviren. Beispielhafte Zuführungsmethoden und die Dosen sind z. B. in WO 2016205764 A1 und US-Patent Nr. 8,454,972 B2 beschrieben, die hiermit jeweils durch Bezugnahme vollinhaltlich aufgenommen sind.
In einigen Ausführungsformen erfolgt die Zuführung über einen rAAV-Vektor (rAAV = rekombinantes Adeno-assoziiertes Virus). Beispielsweise kann in einigen Ausführungsformen ein modifizierter AAV-Vektor für die Zuführung verwendet werden. Modifizierte AAV-Vektoren können auf einem oder mehreren von einigen Kapsid-Typen einschließlich AAV1, AV2, AAV5, AAV6, AAV8, AAV 8.2, AAV9, AAV rhlO, modifizierten AAV-Vektoren (z. B. modifiziertem AAV2, modifiziertem AAV3, modifiziertem AAV6) und pseudotypisiertem AAV (z. B. AAV2/8, AAV2/5 und AAV2/6) basieren. Beispielhafte AAV-Vektoren und Techniken, die zur Herstellung von rAAV-Teilchen verwendet werden können, sind in der Technik bekannt (siehe z. B. Aponte-Ubillus et al. (2018) Appl. Microbiol. Biotechnol. 102(3): 1045-54; Zhong et al. (2012) J. Genet. Syndr. Gene Ther. S1: 008; West et al. (1987) Virology 160: 38-47 (1987); Tratschin et al. (1985) Mol. Cell. Biol. 5: 3251-60); US-Patente Nr. 4,797,368 und 5,173,414 und die International Publications No. WO 2015/054653 und WO 93/24641 , die jeweils durch Bezugnahme aufgenommen sind).
In einigen Ausführungsformen erfolgt die Zuführung über Plasmide. Bei der Dosierung kann es sich um eine ausreichende Zahl von Plasmiden zur Hervorrufung einer Antwort handeln. In einigen Fällen können geeignete Mengen von Plasmid-DNA in Plasmidzusammensetzungen etwa 0,1 bis etwa 2 mg betragen. Plasmide enthalten im Allgemeinen (i) einen Promotor; (ii) eine Sequenz, die ein auf Nukleinsäure abzielendes CRISPR-assoziiertes Protein und/oder ein akzessorisches Protein, jeweils in operativer Verknüpfung mit einem Promotor (z. B. demselben Promotor oder einem anderen Promotor), codiert; (iii) einen selektierbaren Marker; (iv) einen Replikationsursprung und (v) einen Transkriptionsterminator stromabwärts von und in operativer Verknüpfung mit (ii). Die Plasmide können auch die RNA-Komponenten eines CRISPR-Komplexes codieren, aber eines oder mehrere davon können stattdessen an verschiedenen Vektoren codiert werden. Die Verabreichungshäufigkeit obliegt dem Mediziner oder Tiermediziner (z. B. Arzt, Tierarzt) oder dem Fachmann.
In einer anderen Ausführungsform erfolgt die Zuführung über Liposomen oder Lipofektionsformulierungen und dergleichen und kann nach dem Fachmann bekannten Verfahren hergestellt werden. Derartige Verfahren sind beispielsweise in WO 2016205764 und US-PS Nr. 5,593,972 ; 5,589,466 und 5,580,859 beschrieben, die jeweils hiermit vollinhaltlich durch Bezugnahme aufgenommen sind.
In einigen Ausführungsformen erfolgt die Zuführung über Nanopartikel oder Exosome. So haben sich Exosome beispielsweise bei der Zuführung von RNA als besonders nützlich erwiesen.
Die Einführung einer oder mehrerer Komponenten der neuen CRISPR-Systeme in die Zelle ist des Weiteren unter Verwendung von zellpenetrierenden Peptiden (cell penetrating peptides, CPP) möglich. In einigen Ausführungsformen ist ein zellpenetrierendes Peptid mit den CRISPR-assoziierten Proteinen verknüpft. In einigen Ausführungsformen sind die CRISPR-assoziierten Proteine und/oder gRNAs zu deren effektiven Transport in Zellen (z. B. Pflanzenprotoplasten) an ein oder mehrere CPPs gekoppelt. In einigen Ausführungsformen werden die CRISPR-assoziierten Proteine und/oder gRNAs durch eine oder mehrere zirkuläre oder nicht zirkuläre DNA-Moleküle, die für die Zellzuführung an ein oder mehrere CPPs gekoppelt sind, codiert.
CPPs sind kurze Peptide aus weniger als 35 Aminosäuren, die sich entweder von Proteinen oder von chimären Sequenzen, die zum Transportieren von Biomolekülen über die Zellmembran in rezeptorunabhängiger Weise befähigt sind, ableiten. Bei CPPs kann es sich um kationische Peptide, Peptide mit hydrophoben Sequenzen, amphipathische Peptide, Peptide mit prolinreichen und antimikrobiellen Sequenzen und chimäre oder zweiteilige Peptide handeln. Beispiele für CPPs sind z. B. Tat (ein nukleäres Transkriptionsaktivatorprotein, das für die Virusreplikation von HIV Typ 1 erforderlich ist), Penetratin, Kaposi-Fibroblastenwachstumsfaktor(FGF)-Signalpeptidsequenz, Integrin-β3-Signalpeptidsequenz, Polyarginin-Peptid-Args-Sequenz, guaninreiche Molekültransporter und Sweet Arrow Peptide. CPPs und Verfahren zu ihrer Verwendung sind z. B. in Hällbrink et al., „Prediction of cell-penetrating peptides," Methods Mol. Biol., 2015;1324:39-58; Ramakrishna et al., „Gene disruption by cell-penetrating peptide-mediated delivery of Cas9 protein and guide RNA," Genome Res., 2014 Jun;24(6):1020-7; und WO 2016205764 A1 beschrieben, die jeweils hiermit vollinhaltlich durch Bezugnahme aufgenommen sind.
Verschiedene Zuführungsmethoden für die vorliegend beschriebenen CRISPR-Systeme sind z. B. auch in US 8795965 , EP 3009511 , WO 2016205764 und WO 2017070605 beschrieben, die hiermit jeweils vollinhaltlich durch Bezugnahme aufgenommen sind.
Verfahren zum Identifizieren CRISPR-assoziierter Proteinfamilien
In einem Aspekt betrifft die Offenbarung die Verwendung rechnergestützter Methoden und Algorithmen zur Suche nach und Identifizierung von neuen Proteinfamilien, die ein starkes Kookkurrenzmuster mit gewissen anderen Merkmalen innerhalb natürlich vorkommender Genomsequenzen zeigen. In bestimmten Ausführungsformen werden diese rechnergestützten Methoden auf die Identifizierung von Proteinfamilien gerichtet, die gemeinsam in enger Nachbarschaft zu CRISPR-Arrays auftreten. Die vorliegend offenbarten Verfahren eignen sich jedoch zum Identifizieren von Proteinen, die natürlicherweise in enger Nachbarschaft zu anderen Merkmalen auftreten, sowohl nicht codierend als auch proteincodierend (z. B. CRISPR-Cas1-Proteine). Es versteht sich, dass die vorliegend beschriebenen Verfahren und Berechnungen an einem oder mehreren Rechnern durchgeführt werden können.
In einigen Ausführungsformen wird ein Satz genomischer Sequenzen genomischen oder metagenomischen Datenbanken entnommen. Die Datenbanken umfassen kurze Reads, Daten auf Contig-Ebene, zusammengestellte Gerüste oder komplette Organismen. Gleichfalls kann die Datenbank genomische Sequenzdaten aus prokaryontischen Organismen oder eukaryontischen Organismen umfassen oder Daten aus metagenomischen Umweltproben enthalten. Zu Datenbankrepositorien gehören beispielsweise NCBI RefSeq, NCBI GenBank, NCBI Whole Genome Shotgun (WGS) und JGI Integrated Microbial Genomes (IMG).
In einigen Ausführungsformen wird zum Auswählen von Genomsequenzdaten einer bestimmten Minimallänge eine Minimalgrößenbedingung gestellt. In bestimmten beispielhaften Ausführungsformen kann die minimale Contig-Länge 100 Nukleotide, 500 nt, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 10 kb, 20 kb, 40 kb oder 50 kb betragen.
In einigen Ausführungsformen werden bekannte oder vorhergesagte Proteine aus den kompletten oder einem ausgewählten Satz von Genomsequenzdaten extrahiert. In einigen Ausführungsformen werden bekannte oder vorhergesagte Proteine mittels Extrahieren von der Datenbankquelle bereitgestellter Codiersequenz(CDS)-Annotationen entnommen. In einigen Ausführungsformen werden vorhergesagte Proteine durch Anwenden einer rechnergestützten Methode zum Identifizieren von Proteinen anhand von Nukleotidsequenzen bestimmt. In einigen Ausführungsformen wird die GeneMark-Suite zur Vorhersage von Proteinen anhand von Genomsequenzen verwendet. In einigen Ausführungsformen wird Prodigal zur Vorhersage von Proteinen anhand von Genomsequenzen verwendet. In einigen Ausführungsformen können mehrere Proteinvorhersagealgorithmen über den gleichen Satz von Sequenzdaten verwendet werden, wobei der erhaltene Satz Proteine dedupliziert wird.
In einigen Ausführungsformen werden CRISPR-Arrays anhand der Genomsequenzdaten identifiziert. In einigen Ausführungsformen wird PILER-CR zum Identifizieren von CRISPR-Arrays verwendet. In einigen Ausführungsformen wird CRISPR Recognition Tool (CRT) zum Identifizieren von CRISPR-Arrays verwendet. In einigen Ausführungsformen können mehrere CRISPR-Array-Identifikationswerkzeuge über den gleichen Satz von Sequenzdaten verwendet werden, wobei der erhaltene Satz von CRISPR-Arrays dedupliziert wird.
In einigen Ausführungsformen werden Proteine in enger Nachbarschaft zu CRISPR-Arrays identifiziert. In einigen Ausführungsformen ist Nachbarschaft als Nukleotidabstand definiert und kann innerhalb von 20 kb, 15 kb oder 5 kb liegen. In einigen Ausführungsformen ist Nachbarschaft als die Anzahl offener Leseraster (Open Reading Frames, ORFs) zwischen einem Protein und einem CRISPR-Array definiert, wobei bestimmte Abstände z. B. 10, 5, 4, 3, 2, 1 oder 0 ORFs betragen können. Die als in enger Nachbarschaft zu einem CRISPR-Array liegend identifizierten Proteine werden dann in Cluster homologer Proteine gruppiert. In einigen Ausführungsformen wird blastclust zur Bildung der Protein-Cluster verwendet. In bestimmten anderen Ausführungsformen wird mmseqs2 zur Bildung der Protein-Cluster verwendet.
Zur Feststellung eines Musters starker Kookkurrenz zwischen den Mitgliedern eines Protein-Clusters mit CRISPR-Arrays kann eine BLAST-Suche für jedes Mitglied der Proteinfamilie über den kompletten zuvor zusammengestellten Satz bekannter und vorhergesagter Proteine durchgeführt werden. In einigen Ausführungsformen kann UBLAST oder mmseqs2 zur Suche nach ähnlichen Proteinen verwendet werden. In einigen Ausführungsformen kann eine Suche nur für eine repräsentative Teilmenge von Proteinen in der Familie erfolgen.
In einigen Ausführungsformen werden die Cluster von Proteinen in enger Nachbarschaft zu CRISPR-Arrays nach einer Metrik zur Bestimmung von Kookkurrenz geordnet oder gefiltert. Ein Beispiel für eine Metrik ist das Verhältnis der Größe des Protein-Clusters gegen die Anzahl von BLAST-Übereinstimmungen bis zu einem bestimmten E-Schwellenwert. In einigen Ausführungsformen kann ein konstanter E-Schwellenwert verwendet werden. In anderen Ausführungsformen kann der E-Schwellenwert über die entferntesten Mitglieder des Protein-Clusters bestimmt werden. In einigen Ausführungsformen wird aus dem globalen Satz von Proteinen ein Cluster gebildet, wobei die Kokkurrenzmetrik das Verhältnis der Größe des CRISPR-assoziierten Clusters gegen die Größe(n) des bzw. der umfassenden globalen Clusters bzw. Cluster ist.
In einigen Ausführungsformen wird ein manuelles Prüfverfahren zur Bewertung der potentiellen Funktionalität und des minimalen Komponentensatzes eines konstruierten Systems bezogen auf die natürlich vorkommende Locusstruktur der Proteine im Cluster verwendet. In einigen Ausführungsformen kann eine graphische Darstellung des Protein-Clusters bei der manuellen Prüfung helfen und Informationen enthalten, die paarweise Sequenzähnlichkeit, phylogenetischer Baum, Ursprungsorganismen / -umgebungen und eine graphische Darstellung von Locusstrukturen beinhalten. In einigen Ausführungsformen kann über die graphische Darstellung von Locusstrukturen auf nahebei liegende Proteinfamilien, die stark vertreten sind, gefiltert werden. In einigen Ausführungsformen kann die Vertretung über das Verhältnis der Anzahl verwandter nahebei liegender Proteine gegen die Größe(n) des bzw. der umfassenden globalen Clusters bzw. Cluster berechnet werden. In bestimmten beispielhaften Ausführungsformen kann die graphische Darstellung des Protein-Clusters eine Abbildung der CRISPR-Arraystrukturen der natürlich vorkommenden Loci enthalten. In einigen Ausführungsformen kann die graphische Darstellung des Protein-Clusters eine Abbildung der Anzahl konservierter Direct Repeats gegen die Länge des mutmaßlichen CRISPR-Arrays oder der Anzahl einmaliger Spacersequenzen gegen die Länge des mutmaßlichen CRISPR-Arrays enthalten. In einigen Ausführungsformen kann die graphische Darstellung des Protein-Clusters eine Abbildung verschiedener Metriken der Kookkurrenz des mutmaßlichen Effektors mit CRISPR-Arrays zum Vorhersagen neuer CRISPR-Cas-Systeme und Identifizieren ihrer Komponenten enthalten.
Die breite natürliche Vielfalt von CRISPR-Cas-Abwehrsystemen enthält ein breites Spektrum von Aktivitätsmechanismen und Funktionselementen, die für programmierbare Biotechnologien genutzt werden können. In einem natürlichen System ermöglichen diese Mechanismen und Parameter eine wirksame Abwehr gegen Fremd-DNA und Viren und bieten dabei die Unterscheidung von selbst vs. nicht selbst zur Vermeidung von Selbst-Targeting. In einem konstruierten System werden mit denselben Mechanismen und Parametern auch eine vielfältige Werkzeugpalette molekularer Techniken bereitgestellt und die Grenzen des Targeting-Raums definiert. Beispielsweise besitzen die Systeme Cas9 und Cas13a kanonische DNA- und RNA-Endonuklease-Aktivität, wobei ihre Targeting-Räume durch das PAM (Protospacer Adjacent Motif) auf DNA-Zielen bzw. PFS (Protospacer Flanking Sites) auf RNA-Zielen definiert sind.
Die vorliegend beschriebenen Verfahren können zur Entdeckung zusätzlicher Mechanismen und Parameter in Einzelunterheit-Klasse-2-Effektor-Systemen verwendet werden, die sich effektiver für programmierbare Biotechnologien nutzen lassen.
Pooled-Screening
Zur effizienten Validierung der Aktivität der konstruierten neuen CRISPR-Cas-Systeme und gleichzeitigen unvoreingenommenen Bewertung unterschiedlicher Aktivitätsmechanismen und Funktionsparameter wurde ein neuer Pooled-Screening-Ansatz in E. coli entwickelt. Erstens wurden anhand der rechnergestützten Identifizierung der konservierten protein- und nicht codierenden Elemente des neuen CRISPR-Cas-Systems diese separaten Komponenten in einen konstruierten Locus zusammengestellt, der sich in einer Ausführungsform auf einem einzelnen künstlichen Expressionsvektor auf der Basis des pET-28a+-Grundgerüsts befindet; in einer weiteren Ausführungsform wurden mehrere kompatible Expressionsplasmide zur Rekapitulierung des konstruierten Locus verwendet. Zur Konstruktion des Vektors wurde in einer Ausführungsform DNA-Synthese zum Zusammenbauen der Komponenten verwendet; in einer weiteren Ausführungsform wurde molekulare Klonierung zum Zusammenbau verwendet. In einer weiteren Ausführungsform werden die Proteine und nicht codierenden Elemente an einem einzelnen mRNA-Transkript transkribiert und unterschiedliche Ribosomenbindungsstellen zur Translation individueller Proteine verwendet.
Zweitens wurde eine Bibliothek von unprozessierten crRNAs bestehend aus der Direct Repeat::Spacer::Direct Repeat-Sequenz in den konstruierten Locus kloniert. In einer Ausführungsform wurde ein zweites Plasmid, pACYC184, von den Spacern anvisiert, wobei die Spacer eine im natürlichen CRISPR-Array vorgefundene Länge aufwiesen. Diese crRNA-Bibliothek wurde in das Vektorgrundgerüst mit den Proteinen und nicht codierenden Elementen (z. B. pET-28a+) kloniert und dann anschließend die Bibliothek in E. coli zusammen mit dem zweiten Zielplasmid (z. B. pACYC184) transformiert. Es ist wichtig, dass das Plasmid bzw. die Plasmide die konstruierten Loci auf einem kompatiblen Replikationsursprung bzw. kompatiblen Replikationsursprüngen in Bezug auf das Zielplasmid enthalten, um eine gemeinsame Transformation der Bakterien zu ermöglichen. Folglich enthält jede resultierende E. coli-Zelle nicht mehr als einen Targeting-Spacer.
Drittens wurden die E. coli unter Antibiotikaselektion kultiviert. In einer Ausführungsform wird eine dreifache Antibiotikaselektion verwendet: Kanamycin zur Sicherstellung einer erfolgreichen Transformation des pET-28a+-Vektors mit dem konstruierten CRISPR-Cas-Effektor-System sowie Chloramphenicol und Tetracyclin zur Sicherstellung einer erfolgreichen Kotransformation des pACYC184-Zielvektors. Da pACYC184 normalerweise Resistenz gegen Chloramphenicol und Tetracyclin verleiht, werden unter Antibiotikaselektion durch positive Aktivität des das Plasmid anvisierenden neuen CRISPR-Cas-Systems Zellen, die die Proteine, nicht codierenden Elemente und spezifische aktive Elemente der crRNA-Bibliothek aktiv exprimieren, eliminiert. Unter Verwendung von Tiefensequenzierung (z. B. Sequenzierung der nächsten Generation) ergibt die Untersuchung der Population überlebender Zellen zu einem späteren Zeitpunkt verglichen mit einem früheren Zeitpunkt ein depletiertes Signal spezifisch für die aktiven Elemente im Vergleich zu den inaktiven crRNAs.
Da das pACYC184-Plasmid einen vielfältigen Satz von Merkmalen und Sequenzen enthält, die sich auf die Aktivität eines CRISPR-Cas-Systems auswirken können, liefert eine Kartierung der aktiven crRNAs aus dem Pooled-Screen auf pACYC184 Aktivitätsmuster, die auf unterschiedliche Aktivitätsmechanismen und Funktionsparameter auf eine breite, hypotheseagnostische Art und Weise hindeuten können. Auf diese Weise lassen sich die zum Rekonstituieren des neuen CRISPR-Cas-Systems in einer heterologen prokaryontischen Spezies benötigten Merkmale umfangreicher testen und untersuchen.
Zu den entscheidenden Vorteilen des vorliegend beschriebenen In-vivo-Pooled-Screens gehören:

(1) Vielseitigkeit - konstruiertes Locus-Design gestattet die Expression mehrerer Proteine und/oder nicht codierender Elemente; die Bibliothek-Klonierungsstrategie ermöglicht die Expression beider Transkriptionsrichtungen der rechnerisch vorhergesagten crRNA;
(2) umfangreiche Tests von Aktivitätsmechanismen & Funktionsparametern - bewertet verschiedene Interferenzmechanismen, einschließlich DNA- oder RNA-Spaltung; untersucht Kookkurrenz von Merkmalen wie Transkription, Plasmid-DNA-Replikation; und flankierende Sequenzen zur crRNA-Bibliothek können zur zuverlässigen Bestimmung von PAMs mit einer Komplexitätsäquivalenz von 4 N verwendet werden ;
(3) Empfindlichkeit - pACYC184 ist ein Plasmid mit niedriger Kopienzahl, was eine hohe Empfindlichkeit für CRISPR-Cas-Aktivität ermöglicht, da selbst durch mäßige Interferenzraten die durch das Plasmid codierte Antibiotikaresistenz aufgehoben werden kann; und
(4) Effizienz - optimierte molekularbiologische Schritte zur Ermöglichung von RNA-Sequenzierung mit höherer Geschwindigkeit und höherem Durchsatz und Proteinexpressionsproben können direkt aus den überlebenden Zellen im Screen geerntet werden.

Die vorliegend beschriebenen neuen CRISPR-Cas-Familien wurden unter Verwendung dieses In-vivo-Pooled-Screens zur Bewertung ihrer Betriebselemente, -mechanismen und -parameter sowie ihrer Fähigkeit, in einem konstruierten System außerhalb ihrer natürlichen Zellumgebung aktiv zu sein und umprogrammiert zu werden, bewertet.
BEISPIELE
Die Erfindung wird in den folgenden Beispielen weiter beschrieben, die keine Beschränkung des in den Ansprüchen beschriebenen Umfangs der Erfindung darstellen.
Beispiel 1 - Aufbau einer erweiterten Datenbank von CRISPR-Cas-Systemen und Suche nach Typ-VI-D-RNA-Targeting-Systemen
Es wurde eine rechnergestützte Pipeline zur Erzeugung einer erweiterten Datenbank von Klasse-2 CRISPR-Cas-Systemen aus genomischen und metagenomischen Quellen entwickelt. Genom- und Metagenomsequenzen wurden von NCBI (Benson et al., 2013; Pruitt et al., 2012), NCBI-WGS (Whole Genome Sequencing) und DOE JGI Integrated Microbial Genomes (Markowitz et al., 2012) heruntergeladen. Proteine wurden auf allen Contigs mit einer Länge von wenigstens 5 kb vorhergesagt (Meta-GeneMark (Zhu et al., 2010) unter Verwendung des Standardmodells MetaGeneMark_v1.mod und Prodigal (Hyatt et al., 2010) im anon-Modus) und einer Deduplikation zugunsten bereits vorliegender Annotationen unterzogen, so dass eine komplette Proteindatenbank konstruiert wurde. CRISPR-Arrays wurden identifiziert und Proteinsequenzen für ORFs, die innerhalb von +/- 10 kb von CRISPR-Arrays lagen, in CRISPR-proximale Protein-Cluster gruppiert. Cluster mit weniger als 4 Proteinen bzw. solche, die Proteine aus weniger als 3 Contigs umfassten, wurden verworfen. Diese verbliebenen Protein-Cluster wurden jeweils als mutmaßlicher Effektor eines CRISPR-Cas-Systems betrachtet. Neben dem CRISPR-Array und mutmaßlichen Effektorprotein enthalten viele CRISPR-Cas-Systeme auch zusätzliche Proteine, die Adaptation, crRNA-Prozessierung und Abwehr ermöglichen. Potentielle zusätzliche CRISPR-Cas-Systemkomponenten, die jeweils mit einem der vorhergesagten Effektoren assoziiert sind, wurden als Cluster von Proteine codierenden Genen mit hoher Effektor-Kookkurrenz und CRISPR-Anreicherung oder CRISPR-Repräsentation von wenigstens 15% identifiziert.
Effektor-Kookkurrenz wurde als Prozentsatz der Loci mit dem Effektor, die auch das potentielle Kookkurrenzprotein enthalten, berechnet. Der hohe Kookkurrenz-Schwellenwert war abhängig von der Kohäsion des Effektor-Clusters (homogenere Cluster erfordern einen höheren Schwellenwert). Die CRISPR-Anreicherung wurde wie folgt berechnet: 1) Von jedem Protein-Cluster wurden bis zu 20 einmalige Proteinproben genommen, und mit UBLAST (Edgar, 2010) Proteine in einer Rangliste nach E-Wert aus der kompletten Proteindatenbank geordnet, 2) ein E-Schwellenwert wurde zur Gewinnung von wenigstens 50% der Mitglieder des Clusters festgelegt und 3) CRISPR-Anreicherung wurde berechnet, indem die Zahl CRISPR-proximaler Proteine unterhalb des E-Schwellenwerts durch die Gesamtzahl von Proteinen unterhalb des Schwellenwerts geteilt wurde. CRISPR-Repräsentation wurde als Prozentsatz effektorproximaler Proteine in einem CRISPRproximalen Protein-Cluster berechnet. Alle Clusterbildungsvorgänge erfolgten unter Verwendung von mmseqs2 (Steinegger und Söding, 2017).
Diese Information wurde in eine Datenbank von (vorhergesagten) CRISPR-Cas-Systemen aufgenommen, die jeweils zusammengesetzt sind aus: 1) einem CRISPR-Array, 2) einem mutmaßlichen Effektor und gegebenenfalls 3) Clustern potentieller zusammenwirkender Proteine. Durch Aggregieren und Prozessieren einer Sammlung von mehr als 10 Tb prokaryontischen genomischen und metagenomischen Sequenzdaten aus mehreren Quellen wurde von unserer Pipeline eine Datenbank von 293 985 mutmaßlichen CRISPR-Cas-Systemen produziert. Ein wichtiger Unterschied zu früher beschriebenen rechnergestützten Pipelines (Shmakov et al., 2015, 2017a; Smargon et al., 2017) besteht darin, dass hier minimales Filtern (z. B. Festlegen einer Minimalgröße für einen mutmaßlichen Effektor) in den Zwischenstufen der Suche erfolgt, um den Bereich für eine mögliche Entdeckung neuer CRISPR-Cas-Systeme zu erweitern. Als solche enthält die erhaltene Datenbank mutmaßlicher CRISPR-Cas-Loci alle bereits charakterisierten Klasse-2-CRISPR-Cas-Systeme, aber auch eine beträchtliche Menge an Rauschen, wie z. B. abgebaute, nicht funktionsfähige CRISPR-Cas-Loci.
Zur funktionellen Charakterisierung dieser Datenbank von Kandidaten-CRISPR-Cas-Systemen wurde ein Mehrsequenzen-Alignment für jede Familie mutmaßlicher Effektoren mit MAFFT (Katoh und Standley, 2013) konstruiert und eine HMM-Suche mit HMMer (Eddy, 2011) gegen die Proteinfamilie-Datenbanken Pfam (Finn et al., 2014) und Uniprot (Bateman et al., 2017) ebenso wie eine BLASTN-Suche von CRISPR-Spacersequenzen gegen einen Referenzsatz von Phagen ausgeführt. Diese Analyse führte zum Nachweis von Proteinfamilien, die allen zuvor identifizierten Klasse-2-CRISPR-Cas-Systemen entsprachen, was auf eine minimale Falsch-negativ-Rate hindeutet. Zur Identifizierung neuer Klasse-2-CRISPR-Cas-Systeme wurden oben für die Vorhersage der Funktionen mutmaßlicher CRISPR-Cas-Systeme einbezogene Merkmale verwendet, um Kandidaten-Familien für eine nachfolgende Funktionsbewertung zu klassifizieren.
Genomischer Überblick von Typ-VI-D-RNA-Targeting-CRISPR-Cas-Systemen
Zur Erweiterung des Repertoires an Cas-Nukleasen für RNA-Manipulation und -Wahrnehmung, wurde unsere Datenbank nach Typ-VI-CRISPR-Cas-Systemen mit Effektorproteinen, die jeweils zwei HEPN-Domänen enthalten (2-HEPN-Proteine), durchsucht. Neben den bereits identifizierten 2-HEPN-Proteinen, Casl3a, Casl3b und Cas13c, wurde eine Gruppe von 2-HEPN-Proteinen mit entfernter Verwandtschaft zu Cas13a (Effektoren von Typ VI-A) hauptsächlich in Eubacterium und Ruminococcus nachgewiesen, die als Cas13d bezeichnet werden. Die Aminosäuresequenzen von Cas13d-Proteinen zeigen weniger als 8% Identität mit den ähnlichsten Cas13a-Sequenzen; trotzdem lässt sich eine statistisch signifikante Sequenzähnlichkeit zwischen Cas13d und Cas13a unter Verwendung von mit einem aus dem Mehrfach-Alignment von Cas13a erstellten Profil (E-Wert = 0,002) initiiertem PSI-BLAST demonstrieren . Diese signifikante Ähnlichkeit liegt in erster Linie an der Konservierung der HEPN-Domänensequenzen zwischen Cas13a und Cas13d, wohingegen die restlichen Teile der Proteinsequenzen in den beiden Familien hochdivergent sind; insbesondere fehlt Cas13d-Proteinen ein Gegenstück zur Helical-1-Domäne von Cas13a (5A-C). Eine phylogenetische Analyse der Cas13-Proteine zeigt eindeutig, dass Cas13a und Casl3d stark gestützte Kladen bilden (4A-B).
Darüber hinaus sind Cas13d-Effektoren deutlich kleiner als zuvor charakterisierte Klasse-2-CRISPR-Effektoren, mit einer Mediane von 928 AS. Zum Vergleich: diese Mediane ist 190 AS (17%) kleiner als die von Cas13c, mehr als 200 AS (18%) kleiner als die von Cas13b und mehr als 300 AS (26%) kleiner als die von Cas13a (2B). Zusammengenommen lassen diese Beweislinien darauf schließen, dass diese unterschiedliche Gruppe von Klasse-2-CRISPR-Cas-Systemen am besten als Typ VI-D klassifiziert werden, wobei der Effektor als Cas13d bezeichnet wird (2A).
Es stellte sich heraus, dass 77% der Cas13d-Gene unmittelbar neben CRISPR-Arrays vorkommen und bei 19% das Adaptationsmodul (Cas1- und Cas2-Gene) sich in der Nähe befindet (1), was darauf schließen lässt, dass viele Typ-VI-D-Loci CRISPR-Cas-Systeme codieren, die sowohl bei Adaptation als auch Interferenz aktiv sind. Die phylogenetische Analyse deutet an, dass mit Typ VI-D assoziierte Casl-Proteine monophyletisch sind und in Übereinstimmung mit früheren Beobachtungen an anderen Typ-VI-Systemen der Typ-II-A-Klade zugehören (3). Somit scheint im Fall von Typ VI das Adaptationsmodul zusammen mit dem Effektormodul evolviert zu sein.
Spacersequenzen von CRISPR-Arrays innerhalb von 3kb von Cas13d-Effektoren wurden extrahiert. Falls mehrere Contigs die gleiche Cas13d-Sequenz enthielten (z. B. duplizierter Locus), wurde nur das Contig mit dem längsten CRISPR-Array verwendet. Die anschließende Spaceranalyse hält sich eng an die zuvor beschriebene Methode (Shmakov et al., 2017b). Kurz gesagt wurden die erhaltenen 198 Spacer einer Deduplikation durch Vergleichen direkter und reverser Komplementsequenzen unterzogen, so dass ein Satz von 182 einmaligen Spacern erzeugt wurde. Eine BLASTN(Camacho et al., 2009)-Suche mit den Befehlszeilenparametern -word_size 7 -gapopen 5 -gapextend 2 -reward 1 -penalty -3 wurde mit dem Satz einmalige Spacer gegen eine das Virus und prokaryontische Sequenzen in NCBI umfassende Datenbank durchgeführt. Zum Identifizieren von Prophagenregionen wurden (i) alle ORFs innerhalb von 3kb von prokaryontischen Übereinstimmungen gesammelt; wurde (ii) eine PSI-BLAST-Suche gegen die aus dem Virusteil von NCBI extrahierten Proteine ausgeführt, wobei die Befehlszeilenparameter -seg no -evalue 0.000001 -dbsize 20000000 verwendet wurden; und wurde (iii) ein Spacer-Treffer als Prophage klassifiziert, falls er mit einem ORF mit einer Virusübereinstimmung überlappte oder falls zwei oder mehr ORFs mit Virusübereinstimmungen in der Nachbarschaft des Spacer-Treffers identifiziert wurden.
Die unmittelbar neben Casl3d-Genen liegenden CRISPR-Arrays enthalten insgesamt 198 Spacer, von denen 182 einmalig sind. Eine BLASTN-Suche der einmaligen Spacersequenzen gegen eine bekannte Phagen und prokaryontische NCBI-Sequenzen umfassende Datenbank zeigte 7 Spacer mit signifikanten Treffern (definiert als E-Wert < 0,0001, Alignment-Länge von wenigstens 24, 0 Gaps und nicht mehr als eine Fehlpaarung). Ein Spacer, aus Ruminococcus flavefaciens FD-1, zeigte signifikante Übereinstimmungen gegen den Arthrobacter-dsDNA-Phagen Gordon (Alignment-Länge = 28, 1 Fehlpaarung) und gegen eine mutmaßliche Prophagenregion in einer nicht kultivierten Flavonifractor-Sequenz (Alignment-Länge = 24, 0 Fehlpaarungen). Ein anderer Spacer, aus einer Darm-Metagenom-Sequenz, ergab eine signifikante Übereinstimmung gegen eine mutmaßliche Prophagenregion in Bacillus soli (Alignment-Länge = 24, 0 Fehlpaarungen). Die übrigen fünf Spacerübereinstimmungen betrafen ORFs in prokaryontischen Sequenzen, wurden jedoch nicht als in Prophagenregionen liegend klassifiziert. Zwar könnte das Vorliegen von zu DNA-Phagengenomsequenzen homologen Spacern in einem RNA-Targeting-CRISPR-Cas-System unerwartet erscheinen, doch steht es im Einklang mit ähnlichen Beobachtungen an Typ-VI-A- und Typ-VI-B-Systemen (Smargon et al., 2017). Vermutlich heben Typ-VI-Systeme die Reproduktion von DNA-Phagen durch Spalten von Phagen-mRNAs auf, doch müssen die mechanistischen Einzelheiten der Antivirusaktivität dieser Systeme noch experimentell charakterisiert werden.
Eine Untersuchung der weiteren Gene in der Nähe von Cas13d führte zur Identifizierung potentieller akzessorischer Proteine in den meisten der VI-D-Loci, die WYL-Domänen (so bezeichnet nach den drei Aminosäuren, die in der ursprünglich identifizierten Gruppe dieser Domänen konserviert waren) und darüber hinaus DNA bindende RHH(Ribbon-Helix-Helix)-Domänen enthielten (6).
Zur phylogenetischen Analyse dieser Casl3d-assoziierten Proteine mit WYL-Domäne wurde ein Datensatz von WYL-Proteinen erstellt. Neben automatisch identifizierten WYL-Proteinen wurde PSI-BLAST (Altschul et al., 1997) zur Suche über einen lokalen Satz von aus NCBI stammenden Proteinen mit RspWYLl als Abfrage verwendet. Die Ergebnisse mit einem E-Wert von 0,01 oder niedriger wurden dem Satz von WYL-Proteinen hinzugefügt. Proteine mit weniger als 150 AS wurden aus dem Datensatz entfernt, und UCLUST (Edgar, 2010) mit einem Identitätsschwellenwert von 0,90 wurde zur Gewinnung eines nicht redundanten Satzes verwendet. Danach wurden alle in der Nähe von Cas13d-Genen identifizierten WYL-Proteine hinzugefügt, so dass ein Satz von 3908 WYL-Sequenzen für die phylogenetische Analyse gebildet wurde. Mehrfach-Alignment und -Phylogenie von Proteinsequenzen wurden konstruiert wie zuvor beschrieben (Peters et al., 2017).
Kurz gesagt wurden die Sequenzen nach Ähnlichkeit zu Clustern zusammengefasst, wobei für jeden Cluster ein Mehrfach-Alignment mit MUSCLE (Edgar, 2004) aufgebaut wurde. Die Alignments wurden zu größeren ausgerichteten Clustern mit HHalign (Yu et al., 2015) kombiniert, falls das erhaltene Ergebnis zwischen den beiden Alignments über dem Schwellenwert lag; ansonsten wurden die Ergebnisse in eine Ähnlichkeitsmatrix eingetragen. Die Matrix wurde zur Rekonstruktion eines UPGMA-Baums verwendet. Für jeden Cluster wurde das Alignment wie folgt gefiltert: die Alignment-Positionen mit den Gap-characterfraction-Werten von 0,5 und Homogenitätswerten von 0,1 oder kleiner wurden entfernt. Die verbliebenen Positionen wurden zur Baumrekonstruktion unter Verwendung von FastTree mit dem WAG-Evolutionsmodell und dem Diskretes-Gamma-Modell mit 20 Ratenkategorien verwendet. Das gleiche Programm wurde zur Berechnung von SH (Shimodaira-Hasegawa)-like-Knoten-Stützwerten verwendet.
Die in Typ-VI-D-Loci enthaltenen WYL-Domäne-Proteine fallen in sechs stark gestützte Äste des breiteren phylogenetischen Baums von WYL-Domäne-Proteinen. Bei dem Ast mit der Bezeichnung WYL1 handelt es sich um ein einzelnes WYL-Domäne-Protein, das hauptsächlich mit Ruminococcus assoziiert ist. Mehrfachsequenz-Alignment von WYL1 zeigt eine N-terminale RHH-Domäne sowie ein Muster von vorwiegend hydrophoben konservierten Resten, einschließlich einer invarianten Tyrosin-Leucin-Dublette, entsprechend dem ursprünglichen WYL-Motiv (7). Andere VI-D-Loci enthalten duplizierte Gene, die WYL-Domäne-Proteine, wie in Ruminococcus flavefaciens, oder eine Fusion von zwei WYL-Domäne-Proteinen, wie in Eubacterium sp., codieren. Obwohl eine deutliche Mehrheit der VI-D-Loci WYL-Domäne-Proteine codiert, zeigt die phylogenetische Analyse, dass diese CRISPR-assoziierten WYL-Proteine zwischen unterschiedlichen Ästen des WYL-Familie-Baums verstreut, d. h. polyphyletisch sind. Somit scheinen die VI-D CRISPR-Cas-Systeme WYL-Domäne-Proteine in mehreren unabhängigen Ereignissen erworben zu haben, was eine Rolle für dieses Protein beim Modulieren der CRISPR-Cas-Funktion vermuten lässt.

Beispiele für Typ-VI-D-CRISPR-Cas-Effektorproteine sind in TABELLE 1 und 2 angegeben (z. B. SEQ ID NO. 1-31, und 200-350). Beispiele für Typ-VI-D-CRISPR-Cas-Direct-Repeat-Sequenzen sind in TABELLE 3 angegeben (z. B. SEQ ID NO 32-49, 52-77, 351-589). Beispiele für Typ-VI-D-CRISPR-Cas-assoziierte WYL-akzessorische Proteine sind in TABELLE 1, 4, 5 und 6 angegeben. In einigen Ausführungsformen umfasst ein Typ-VI-D-CRISPR-Cas-Effektorprotein ein beispielhaftes in TABELLE 7 angegebenes Motiv (z. B. SEQ ID NO. 94-98, 672 und 673). Tabelle 1. Repräsentative Cas13d-Effektor- und WYL1-akzessorische Proteine

Spezies	Cas13d-Zugang	WYL1-Zugang	Anz. Spacer	cas1	cas2	Effektorgröße
Eubacterium sp. An11 (NZ_NFLV01000009)	NZ_NFLV01000009_111	n. bek.	9	ja	ja	1006
Eubacterium sp. An3 (NFIR01000008)	NFIR01000008_78	n. bek.	2	ja	ja	1001
Ruminococcus albus (NZ_FOAT01000009)	WP_074833651,1	n. bek.	6	nein	nein	944
Ruminococcus bicirculans (NZ_HF545617)	WP_041337480,1	WP_041337479,1	6	nein	nein	918
Ruminococcus flavefaciens (DBYI01000091)	DBYI01000091_43	n. bek.	11	ja	ja	958
Ruminococcus flavefaciens (NZ_ FPJT01000005)	WP_075424065,1	n. bek.	4	nein	nein	967
Ruminococcus flavefaciens FD-1 (NZ_ACOK01000100)	WP_009985792,1	n. bek.	5	nein	nein	933
Ruminococcus flavefaciens FD-1 (NZ ACOK01000100)	NZ_AC0K01000100_5	n. bek.	5	nein	nein	949
Ruminococcus sp. CAG:57 (CBFS010000062)	CDC65743,1	SCH71532,1	2	nein	nein	922
Ruminococcus sp. N15.MGS-57 (LARF01000048)	LARF01000048_8	LARF01000048_7	3	nein	nein	919
Ruminococcus sp. UBA7013 (DJXD01000002)	DJXD01000002 3	n. bek.	9	ja	ja	877
Eubacterium siraeum DSM 15702 (DS499551)	WP_005358205,1	n. bek.	18	nein	nein	954
Eubacterium siraeum DSM 15702 (NZ_KB907524)	WP_005358205,1	n. bek.	7	nein	nein	954
Tier-Verdauungssystem-Orangutan Individuum fäkal (33000102661 Ga0129314_1001134)	3300010266\|Ga0129314_1001134_19	n. bek.	6	nein	nein	981
Arthropoda-Verdauungssystem-Cubitermes-und Nasutitermes-Termite-Darm (3300006226\|Ga0099364 10024192)	3300006226\|Ga0099364_10024192_5	n. bek.	13	ja	ja	1054
Arthropoda-Verdauungssystem-Cubitermes-und Nasutitermes-Termite-Darm (3300006226\|Ga0099364_10024192)	3300006226\|Ga0099364_10024192_5	n. bek.	13	ja	ja	1043
Darm-Metagenom (CDTW01032418)	CDTW01032418_55	CDTW01032418_59	4	nein	nein	906
Darm-Metagenom (CDYS01033339)	CDYS01033339_14	CDYS01033339_20	5	nein	nein	906
Darm-Metagenom (CDYU01004315)	CDYU01004315_2	CDYU01004315_3	2	nein	nein	925
Darm-Metagenom (CDYU01023067)	CDYU01023067_140	n. bek.	5	nein	nein	906
Darm-Metagenom (CDYX01024884)	CDYX01024884 4	CDYX01024884 5	8	nein	nein	923
Darm-Metagenom (CDZD01043528)	CDZD01043528_308	n. bek.	4	nein	nein	906
Darm-Metagenom (CDZE01002059)	CDZE01002059_22	CDZE01002059_21	8	nein	nein	923
Darm-Metagenom (CDZF01024873)	CDZF01024873 75	n. bek.	4	nein	nein	906
Darm-Metagenom (CDZF01043927)	CDZF01043927_109	n. bek.	4	nein	nein	906
Darm-Metagenom (CDZK01015063)	CDZK01015063_14	n. bek.	3	nein	nein	923
Darm-Metagenom (CDZK01015063)	CDZK01015063_14	n. bek.	3	nein	nein	921
Darm-Metagenom (CDZR01037537)	SCH71549,1	SCH71532,1	2	nein	nein	922
Darm-Metagenom (CDZT01047721)	CDZT01047721_3	WP_041337479,1	4	nein	nein	929
Darm-Metagenom (CDZU01022944)	CDZU01022944_3	WP_041337479,1	4	nein	nein	929
Darm-Metagenom (CDZV01031905)	CDZV01031905_3	WP_041337479,1	4	nein	nein	929
Darm-Metagenom (CEAA01017658)	CEAA01017658_2	n. bek.	3	nein	nein	922
Darm-Metagenom (OCTW011587266)	OCTW011587266_5	n. bek.	2	nein	nein	911
Darm-Metagenom (OCVV011003687)	OCVV011003687_3	n. bek.	7	nein	nein	947
Darm-Metagenom (OCVV011003687)	OCVV011003687_3	n. bek.	7	nein	nein	955
Darm-Metagenom (ODAI010069496)	ODAI010069496_4	n. bek.	2	nein	nein	824
Darm-Metagenom (ODAI011611274)	ODAI011611274_2	n. bek.	4	ja	nein	1009
Menschlicher-Darm-Metagenom (OATA01000148)	OATA01000148_47	OATA01000148_62	13	nein	nein	918
Menschlicher-Darm-Metagenom (OAVJ01001264)	OAVJ01001264_7	OAVJ01001264_6	3	nein	nein	921
Menschlicher-Darm-Metagenom (OBAE01000973)	OBAE01000973_3	OBAE01000973_4	5	nein	nein	923
Menschlicher-Darm-Metagenom (OBAI01000753)	OBAI01000753_39	n. bek.	9	nein	nein	918
Menschlicher-Darm-Metagenom (OBAQ01000162)	OBAQ01000162_41	OBAQ01000162_28	13	nein	nein	918
Menschlicher-Darm-Metagenom (OBAR01000289)	OBAR01000289_55	n. bek.	9	nein	nein	922
Menschlicher-Darm-Metagenom (OBAS01000138)	OBAS01000138_55	OBAS01000138_57	11	nein	nein	922
Menschlicher-Darm-Metagenom (OBCV01000332)	OBCV01000332_2	OBCV01000332_3	2	nein	nein	922
Menschlicher-Darm-Metagenom (OBDE01000870)	OBDE01000870_1	n. bek.	5	nein	nein	796
Menschlicher-Darm-Metagenom (OBHU01001207)	SCJ27598,1	SCJ27525,1	9	nein	nein	919
Menschlicher-Darm-Metagenom (OBII01002626)	OBII01002626_5	n. bek.	5	nein	nein	860
Menschlicher-Darm-Metagenom (OBII01002626)	OBII01002626_3	n. bek.	5	nein	nein	850
Menschlicher-Darm-Metagenom (OBJF01000033)	OBJF01000033_8	n. bek.	6	nein	nein	955
Menschlicher-Darm-Metagenom (OBJF01000033)	OBJF01000033_8	n. bek.	6	nein	nein	939
Menschlicher-Darm-Metagenom (OBKG01000025)	OBKG01000025_26	OBKG01000025_25	8	nein	nein	922
Menschlicher-Darm-Metagenom (OBKR01000858)	OBKR01000858_3	OBKR01000858_4	5	nein	nein	922
Menschlicher-Darm-Metagenom (OBVH01003037)	OBVH01003037_1	n. bek.	6	nein	nein	955
Menschlicher-Darm-Metagenom (OBVH01003037)	OBVH01003037_2	n. bek.	6	nein	nein	939
Menschlicher-Darm-Metagenom (OBVY01000267)	OBVY01000267_8	OBVY01000267_8	5	nein	nein	924
Menschlicher-Darm-Metagenom (OBXZ01000094)	OBXZ01000094_20	n. bek.	2	nein	nein	943
Menschlicher-Darm-Metagenom (OBXZ01000094)	OBXZ01000094_20	n. bek.	2	nein	nein	939
Menschlicher-Darm-Metagenom (OCHB01002119)	OCHB01002119_1	OCHB01002119_2	2	nein	nein	925
Menschlicher-Darm-Metagenom (OCHC01000012)	OCHC01000012_250	OCHC01000012_251	7	nein	nein	919
Menschlicher-Darm-Metagenom (OCHD01001741)	OCHD01001741_1	n. bek.	9	nein	nein	922
Menschlicher-Darm-Metagenom (OCHE01000387)	OCHE01000387_10	OCHE01000387_8	5	nein	nein	922
Menschlicher-Darm-Metagenom (OCHK01000325)	OCHK01000325_37	OCHK01000325_38	11	nein	nein	922
Menschlicher-Darm-Metagenom (OCHN01000290)	OCHN01000290_35	n. bek.	22	nein	nein	803
Menschlicher-Darm-Metagenom (OCHS01000450)	OCHS01000450_6	n. bek.	9	nein	nein	922
Menschlicher-Darm-Metagenom (OCHU01001749)	OCHU01001749_1	n. bek.	11	nein	nein	918
Menschlicher-Darm-Metagenom (OCPQ01000020)	OCPQ01000020_138	OCPQ01000020_137	8	nein	nein	919
Menschlicher-Darm-Metagenom (OCPS01000464)	OCPS01000464_4	OCPS01000464_5	4	nein	nein	919
Menschlicher-Darm-Metagenom (OCPU01001206)	OCPU01001206_17	OCPU01001206_15	4	nein	nein	808
Menschlicher-Darm-Metagenom (OCPV01000148)	OCPV01000148_47	OCPV01000148_62	16	nein	nein	918
Menschlicher-Darm-Metagenom (OCQA01000142)	OCQA01000142_55	OCQA01000142_56	11	nein	nein	922
Menschlicher-Darm-Metagenom (OFMN01000509)	OFMN01000509_2	n. bek.	12	nein	nein	918
Menschlicher-Darm-Metagenom (OFMU01000310)	OFMU01000310_31	OFMU01000310_30	5	nein	nein	922
Menschlicher-Darm-Metagenom (OFMV01000268)	OFMV01000268_25	OFMV01000268_23	5	nein	nein	924
Menschlicher-Darm-Metagenom (OFRY01000077)	OFRY01000077_43	OFRY01000077_29	11	nein	nein	918
Menschlicher-Darm-Metagenom (OGCM01002738)	OGCM01002738_3	OGCM01002738_4	4	nein	nein	919
Menschlicher-Darm-Metagenom (OGCO01000353)	OGCO01000353_15	OGCO01000353_16	2	nein	nein	922
Menschlicher-Darm-Metagenom (OGCQ01002817)	SCJ27598,1	n. bek.	7	nein	nein	919
Menschlicher-Darm-Metagenom (OGOC01002653)	OGOC01002653_3	OGOC01002653_4	5	nein	nein	924
Menschlicher-Darm-Metagenom (OGOI01001249)	OGOI01001249_5	OGOI01001249_4	5	nein	nein	922
Menschlicher-Darm-Metagenom (OGOK01000323)	OGOK01000323_15	n. bek.	10	nein	nein	921
Menschlicher-Darm-Metagenom (OGOL01000786)	OGOL01000786_27	OGOL01000786_26	6	nein	nein	922
Menschlicher-Darm-Metagenom (OGOO01001137)	OGOO01001137_18	OGOO01001137_17	5	nein	nein	920
Menschlicher-Darm-Metagenom (OGOP01001824)	OGOP01001824_10	OGOP01001824_8	5	nein	nein	921
Menschlicher-Darm-Metagenom (OGOY01000326)	SCH71549,1	SCH71532,1	2	nein	nein	922
Menschlicher-Darm-Metagenom (OGPA01000243)	OGPA01000243_2	WP_041337479,1	4	nein	nein	929
Menschlicher-Darm-Metagenom (OGPB01000314)	OGPB01000314_7	OGPB01000314_5	5	nein	nein	922
Menschlicher-Darm-Metagenom (OGPJ01000449)	OGPJ01000449_26	OGPJ01000449_25	3	nein	nein	919
Menschlicher-Darm-Metagenom (OGPK01001709)	OGPK01001709_2	OGPK01001709_3	3	nein	nein	919
Menschlicher-Darm-Metagenom (OGPQ01001037)	OGPQ01001037_3	OGPQ01001037_4	3	nein	nein	922
Menschlicher-Darm-Metagenom (OGPS01000624)	OGPS01000624_23	n. bek.	12	nein	nein	954
Menschlicher-Darm-Metagenom (OGPS01000672)	OGPS01000672_3	OGPS01000672_4	6	nein	nein	919
Menschlicher-Darm-Metagenom (OGPU01000173)	OGPU01000173_30	OGPU01000173_31	5	nein	nein	922
Menschlicher-Darm-Metagenom (OGPY01000296)	SCH71549,1	OGPY01000296_5	2	nein	nein	922
Menschlicher-Darm-Metagenom (OGQH01000331)	OGQH01000331_48	OGQH01000331_47	2	nein	nein	919
Menschlicher-Darm-Metagenom (OGQO01007270)	OGQO01007270_2	OGQO01007270_1	2	nein	nein	922
Menschlicher-Darm-Metagenom (OGQU01002289)	OGQU01002289_9	OGQU01002289_8	5	nein	nein	924
Menschlicher-Darm-Metagenom (OGQV01000794)	OGQV01000794_21	OGQV01000794_21	3	nein	nein	922
Menschlicher-Darm-Metagenom (OGQW01001429)	OGQW01001429_6	OGQW01001429_5	5	nein	nein	915
Menschlicher-Darm-Metagenom (OGQX01000605)	OGQX01000605_8	OGQX01000605_9	6	nein	nein	919
Menschlicher-Darm-Metagenom (OGQZ01000194)	OGQZ01000194_33	OGQZ01000194_32	4	nein	nein	922
Menschlicher-Darm-Metagenom (OGRA01000610)	OGRA01000610_24	OGRA01000610_25	5	nein	nein	922
Menschlicher-Darm-Metagenom (OGRE01001635)	OGRE01001635_6	OGRE01001635_5	5	nein	nein	926
Menschlicher-Darm-Metagenom (OGRF01000967)	OGRF01000967_2	OGRF01000967_4	5	nein	nein	922
Menschlicher-Darm-Metagenom (OGRG01000028)	OGRG01000028_3	OGRG01000028_5	3	nein	nein	919
Menschlicher-Darm-Metagenom (OGRH01000378)	OGRH01000378_2	n. bek.	11	nein	nein	918
Menschlicher-Darm-Metagenom (OGRN01001989)	OGRN01001989_2	n. bek.	8	nein	nein	925
Menschlicher-Darm-Metagenom (OGRQ01003333)	OGRQ01003333_5	OGRQ01003333_4	7	nein	nein	923
Menschlicher-Darm-Metagenom (OGRT01000617)	OGRT01000617_3	OGRT01000617_5	5	nein	nein	921
Menschlicher-Darm-Metagenom (OGRU01000829)	OGRU01000829_2	OGRU01000829_3	5	nein	nein	915
Menschlicher-Darm-Metagenom (OGSD01001176)	OGSD01001176_18	OGSD01001176_17	3	nein	nein	922
Menschlicher-Darm-Metagenom (OGUL01000592)	OGUL01000592_19	OGUL01000592_6	7	nein	nein	918
Menschlicher-Darm-Metagenom (OGWY01002732)	OGWY01002732_3	n. bek.	10	nein	nein	952
Menschlicher-Darm-Metagenom (OGXI01000433)	OGXI01000433_6	OGXI01000433_8	5	nein	nein	922
Menschlicher-Darm-Metagenom (OGXJ01002463)	OGXJ01002463_5	OGXJ01002463_4	2	nein	nein	922
Menschlicher-Darm-Metagenom (OGXL01002096)	OGXL01002096_10	OGXL01002096_9	4	nein	nein	923
Menschlicher-Darm-Metagenom (OGYD01000683)	OGYD01000683_23	OGYD01000683_21	2	nein	nein	919
Menschlicher-Darm-Metagenom (OGYL01002810)	OGYL01002810_3	WP_041337479,1	3	nein	nein	925
Menschlicher-Darm-Metagenom (OGYU01002161)	OGYU01002161_4	OGYU01002161_2	5	nein	nein	922
Menschlicher-Darm-Metagenom (OGYY01000371)	OGYY01000371_37	OGYY01000371_36	4	nein	nein	922
Menschlicher-Darm-Metagenom (OGZC01000639)	OGZC01000639_10	n. bek.	12	nein	nein	984
Menschlicher-Darm-Metagenom (OHAI01000724)	OHAI01000724_7	OHAI01000724_6	5	nein	nein	922
Menschlicher-Darm-Metagenom (OHAJ01000052)	OHAJ01000052_20	n. bek.	3	nein	nein	956
Menschlicher-Darm-Metagenom (OHAN01001071)	OHAN01001071_11	OHAN01001071_10	4	nein	nein	922
Menschlicher-Darm-Metagenom (OHAR01000226)	OHAR01000226_9	OHAR01000226_10	3	nein	nein	926
Menschlicher-Darm-Metagenom (OHBL01000590)	OHBL01000590_7	OHBL01000590_6	5	nein	nein	919
Menschlicher-Darm-Metagenom (OHBM01000552)	OHBM01000552_13	OHBM01000552_14	2	nein	nein	922
Menschlicher-Darm-Metagenom (OHBP01000023)	OHBP01000023_129	SCH71532,1	3	nein	nein	922
Menschlicher-Darm-Metagenom (OHBQ01000429)	OHBQ01000429_2	n. bek.	3	nein	nein	928
Menschlicher-Darm-Metagenom (OHBW01001448)	OHBW01001448_1	OHBW01001448_2	5	nein	nein	924
Menschlicher-Darm-Metagenom (OHCE01000125)	OHCE01000125_17	OHCE01000125_19	6	nein	nein	918
Menschlicher-Darm-Metagenom (OHCH01000211)	OHCH01000211_3	OHCH01000211_4	4	nein	nein	922
Menschlicher-Darm-Metagenom (OHCP01000044)	OHCP01000044_27	n. bek.	6	ja	nein	1023
Menschlicher-Darm-Metagenom (OHCW01000317)	OHCW01000317_3	OHCW01000317_6	8	nein	nein	921
Menschlicher-Darm-Metagenom (OHDC01002972)	OHDC01002972_3	n. bek.	6	nein	nein	921
Menschlicher-Darm-Metagenom (OHDP01000241)	OHDP01000241_4	n. bek.	19	nein	nein	954
Menschlicher-Darm-Metagenom (OHDS01000019)	OHDS01000019_133	SCH71532,1	3	nein	nein	922
Menschlicher-Darm-Metagenom (OHDT01000502)	OHDT01000502_2	n. bek.	2	nein	nein	925
Menschlicher-Darm-Metagenom (OHEG01001211)	OHEG01001211_2	OHEG01001211_3	4	nein	nein	924
Menschlicher-Darm-Metagenom (OHEL01001488)	OHEL01001488_6	OHEL01001488_5	3	nein	nein	928
Menschlicher-Darm-Metagenom (OHFA01000290)	OHFA01000290_5	n. bek.	21	nein	nein	954
Menschlicher-Darm-Metagenom (OHFV01000201)	OHFV01000201_5	n. bek.	19	nein	nein	954
Menschlicher-Darm-Metagenom (OHFX01001477)	OHFX01001477_3	OHFX01001477_2	3	nein	nein	922
Menschlicher-Darm-Metagenom (OHGN01001355)	OHGN01001355_3	n. bek.	3	nein	nein	926
Menschlicher-Darm-Metagenom (OHGX01000264)	OHGX01000264_3	OHGX01000264_3	4	nein	nein	925
Menschlicher-Darm-Metagenom (OHHD01000480)	OHHD01000480_3	OHHD01000480_4	3	nein	nein	926
Menschlicher-Darm-Metagenom (OHHR01000227)	OHHR01000227_3	OHHR01000227_4	5	nein	nein	922
Menschlicher-Darm-Metagenom (OHIB01002708)	OHIB01002708_3	n. bek.	3	nein	nein	818
Menschlicher-Darm-Metagenom (OHIJ01000315)	OHIJ01000315_7	OHIJ01000315_5	5	nein	nein	922
Menschlicher-Darm-Metagenom (OHJG01000198)	OHJG01000198_33	OHJG01000198_31	4	nein	nein	918
Menschlicher-Darm-Metagenom (OHJJ01000127)	OHJJ01000127_35	OHJJ01000127_33	6	nein	nein	918
Menschlicher-Darm-Metagenom (OHJK01001285)	OHJK01001285_9	n. bek.	10	nein	nein	1001
Menschlicher-Darm-Metagenom (OHJS01001864)	OHJS01001864_3	OHJS01001864_5	5	nein	nein	921
Menschlicher-Darm-Metagenom (OHJT01001977)	OHJT01001977_4	n. bek.	4	nein	nein	954
Menschlicher-Darm-Metagenom (OHJZ01000157)	OHJZ01000157_5	n. bek.	21	nein	nein	954
Menschlicher-Darm-Metagenom (OHKC01000402)	OHKC01000402_5	OHKC01000402_6	3	nein	nein	926
Menschlicher-Darm-Metagenom (OHKH01000861)	OHKH01000861_3	OHKH01000861_2	3	nein	nein	928
Menschlicher-Darm-Metagenom (OHKW01000215)	OHKW01000215_41	OHKW01000215_38	8	nein	nein	921
Menschlicher-Darm-Metagenom (OHLH01003112)	OHLH01003112_3	n. bek.	5	nein	nein	921
Menschlicher-Darm-Metagenom (OHLO01000586)	OHLO01000586_3	OHLO01000586_4	5	nein	nein	919
Menschlicher-Darm-Metagenom (OHLY01001101)	OHLY01001101_3	n. bek.	10	nein	nein	954
Menschlicher-Darm-Metagenom (OHME01000303)	OHME01000303_3	OHME01000303_4	4	nein	nein	925
Menschlicher-Darm-Metagenom (OHMF01000395)	OHMF01000395_24	OHMF01000395_25	3	nein	nein	923
Menschlicher-Darm-Metagenom (OHMH01000024)	OHMH01000024_3	SCH71532,1	3	nein	nein	922
Menschlicher-Darm-Metagenom (OHMQ01000465)	OHMQ01000465_4	OHMQ01000465_2	5	nein	nein	922
Menschlicher-Darm-Metagenom (OHMW01000451)	OHMW01000451_18	OHMW01000451_20	3	nein	nein	922
Menschlicher-Darm-Metagenom (OHNF01001864)	OHNF01001864_4	OHNF01001864_6	3	nein	nein	922
Menschlicher-Darm-Metagenom (OHNP01000278)	OHNP01000278_34	OHNP01000278_33	4	nein	nein	925
Menschlicher-Darm-Metagenom (OHOI01000307)	OHOI01000307_2	OHOI01000307_3	4	nein	nein	925
Menschlicher-Darm-Metagenom (OHOK01001322)	OHOK01001322_2	OHOK01001322_3	5	nein	nein	923
Menschlicher-Darm-Metagenom (OHPC01000165)	OHPC01000165_40	OHPC01000165_39	5	nein	nein	922
Menschlicher-Darm-Metagenom (OHPD01001131)	OHPD01001131_4	n. bek.	8	nein	nein	954
Menschlicher-Darm-Metagenom (OHPE01000834)	OHPE01000834_1	n. bek.	5	nein	nein	922
Menschlicher-Darm-Metagenom (OHPP01000240)	OHPP01000240_36	OHPP01000240_35	8	nein	nein	921
Menschlicher-Darm-Metagenom (OHPW01002065)	OHPW01002065_2	n. bek.	10	nein	nein	954
Menschlicher-Darm-Metagenom (OHQE01002584)	OHQE01002584_3	n. bek.	3	nein	nein	922
Menschlicher-Darm-Metagenom (OHRD01000126)	OHRD01000126_17	OHRD01000126_19	7	nein	nein	918
Menschlicher-Darm-Metagenom (OHRM01001189)	OHRM01001189_3	OHRM01001189_5	8	nein	nein	921
Menschlicher-Darm-Metagenom (OHSG01000119)	OHSG01000119_6	OHSG01000119_5	2	nein	nein	924
Menschlicher-Darm-Metagenom (OH5101000544)	OHSI01000544_10	n. bek.	15	nein	nein	1001
Menschlicher-Darm-Metagenom (OHSM01000196)	OHSM01000196_10	n. bek.	6	ja	nein	1023
Menschlicher-Darm-Metagenom (OHSQ01001407)	OH5Q01001407_1	OH5Q01001407_2	5	nein	nein	924
Menschlicher-Darm-Metagenom (OHST01000977)	OHST01000977_4	n. bek.	13	nein	nein	954
Menschlicher-Darm-Metagenom (OHSZ01000559)	OH5Z01000559_4	OHSZ01000559_5	5	nein	nein	919
Menschlicher-Darm-Metagenom (OHTG01000221)	OHTG01000221_40	OHTG01000221_38	8	nein	nein	921
Menschlicher-Darm-Metagenom (OHTH01000201)	OHTH01000201_42	OHTH01000201_39	8	nein	nein	921
Menschlicher-Darm-Metagenom (OHUA01000395)	OHUA01000395_26	OHUA01000395_24	5	nein	nein	923
Menschlicher-Darm-Metagenom (OHUN01000170)	OHUN01000170_40	OHUN01000170_39	5	nein	nein	922
Menschlicher-Darm-Metagenom (OHUP01000072)	SCJ27598,1	SCJ27525,1	7	nein	nein	919
Menschlicher-Darm-Metagenom (OHUY01000263)	OHUY01000263_2	OHUY01000263_5	7	nein	nein	919
Menschlicher-Darm-Metagenom (OHVU01001109)	OHVU01001109_1	n. bek.	5	nein	nein	919
Menschlicher-Darm-Metagenom (OHWI01000399)	SCJ27598,1	SCJ27525,1	4	nein	nein	919
Menschlicher-Darm-Metagenom (OHXU01000245)	SCJ27598,1	SCJ27525,1	6	nein	nein	919
Menschlicher-Darm-Metagenom (OHXZ01000057)	OHXZ01000057_25	OHXZ01000057_26	7	nein	nein	919
Menschlicher-Darm-Metagenom (OHYD01000532)	SCJ27598,1	n. bek.	4	nein	nein	919
Menschlicher-Darm-Metagenom (OHYU01000376)	OHYU01000376_4	OHYU01000376_6	7	nein	nein	919
Menschlicher-Darm-Metagenom (OIBL01000128)	SCH71549,1	n. bek.	2	nein	nein	922
Menschlicher-Darm-Metagenom (OIBN01003740)	OIBN01003740_1	n. bek.	7	nein	nein	919
Menschlicher-Darm-Metagenom (OICI01000194)	OICI01000194_18	OICI01000194_16	7	nein	nein	919
Menschlicher-Darm-Metagenom (OIDC01000397)	OIDC01000397_3	OIDC01000397_5	5	nein	nein	919
Menschlicher-Darm-Metagenom (OIDU01000174)	OIDU01000174_25	n. bek.	5	nein	nein	919
Menschlicher-Darm-Metagenom (OIEE01000042)	OIEE01000042_11	OIEE01000042_12	5	nein	nein	922
Menschlicher-Darm-Metagenom (OIEL01000292)	OIEL01000292_3	WP_041337479,1	4	nein	nein	925
Menschlicher-Darm-Metagenom (OIEN01002196)	OIEN01002196_3	n. bek.	8	ja	ja	933
Menschlicher-Darm-Metagenom (OIGD01000177)	OIGD01000177_59	OIGD01000177_43	14	nein	nein	918
Menschlicher-Darm-Metagenom (OIXA01002812)	OIXA01002812_3	OIXA01002812_2	3	nein	nein	929
Menschlicher-Darm-Metagenom (OIXU01000818)	OIXU01000818_5	n. bek.	2	nein	nein	955
Menschlicher-Darm-Metagenom (OIXU01000818)	OIXU01000818_6	n. bek.	2	nein	nein	939
Menschlicher-Darm-Metagenom (OIXV01006344)	OIXV01006344_7	n. bek.	11	nein	nein	918
Menschlicher-Darm-Metagenom (OIYU01000175)	OIYU01000175_4	OIYU01000175_5	4	nein	nein	921
Menschlicher-Darm-Metagenom (OIZA01000315)	OIZA01000315_9	n. bek.	3	nein	nein	945
Menschlicher-Darm-Metagenom (OIZB01000622)	OIZB01000622_13	n. bek.	3	nein	nein	923
Menschlicher-Darm-Metagenom (OIZB01000622)	OIZB01000622_13	n. bek.	3	nein	nein	921
Menschlicher-Darm-Metagenom (OIZI01000180)	OIZI01000180_12	n. bek.	3	nein	nein	963
Menschlicher-Darm-Metagenom (OIZI01000180)	OIZI01000180_12	n. bek.	3	nein	nein	947
Menschlicher-Darm-Metagenom (OIZU01000200)	OIZU01000200_48	WP_041337479,1	6	nein	nein	929
Menschlicher-Darm-Metagenom (OIZW01000344)	OIZW01000344_20	OIZW01000344_21	4	nein	nein	922
Menschlicher-Darm-Metagenom (OIZX01000427)	OIZX01000427_25	n. bek.	4	nein	nein	961
Menschlicher-Darm-Metagenom (OIZX01000427)	OIZX01000427_26	n. bek.	4	nein	nein	977
Menschlicher-Darm-Metagenom (OJMG01000332)	OJMG01000332_24	WP_041337479,1	6	nein	nein	925
Menschlicher-Darm-Metagenom (OJMI01000733)	OJMI01000733_4	OJMI01000733_5	5	nein	nein	922
Menschlicher-Darm-Metagenom (OJMJ01002228)	OJMJ01002228_5	OJMJ01002228_2	5	nein	nein	919
Menschlicher-Darm-Metagenom (OJMK01000275)	OJMK01000275_31	n. bek.	6	nein	nein	939
Menschlicher-Darm-Metagenom (OJMM01002900)	OJMM01002900_7	n. bek.	6	ja	nein	980
Menschlicher-Darm-Metagenom (OJMM01002900)	OJMM01002900_7	n. bek.	6	ja	nein	979
Menschlicher-Darm-Metagenom (OJMN01000417)	OJMN01000417_22	OJMN01000417_21	3	nein	nein	920
Menschlicher-Darm-Metagenom (OJNI01000536)	OJNI01000536_4	OJNI01000536_5	3	nein	nein	920
Menschlicher-Darm-Metagenom (OJNR01001167)	OJNR01001167_9	n. bek.	5	nein	nein	954
Menschlicher-Darm-Metagenom (OJNS01001527)	OJNS01001527_9	n. bek.	2	nein	nein	954
Menschlicher-Darm-Metagenom (OJNT01000812)	OJNT01000812_6	OJNT01000812_5	5	nein	nein	922
Menschlicher-Darm-Metagenom (OJOF01000269)	OJOF01000269_30	OJOF01000269_29	5	nein	nein	922
Menschlicher-Darm-Metagenom (OJOH01001697)	SCH71549,1	OJOH01001697_5	2	nein	nein	922
Menschlicher-Darm-Metagenom (OJOL01000697)	OJOL01000697_12	OJOL01000697_13	5	nein	nein	922
Menschlicher-Darm-Metagenom (OJOP01001093)	OJOP01001093_3	n. bek.	5	nein	nein	954
Menschlicher-Darm-Metagenom (OJPG01000139)	OJPG01000139_73	OJPG01000139_77	3	nein	nein	918
Menschlicher-Darm-Metagenom (OJPS01000131)	OJPS01000131_3	OJPS01000131_4	3	nein	nein	918
Menschlicher-Darm-Metagenom (OJPX01000614)	OJPX01000614_4	OJPX01000614_6	3	nein	nein	920
Menschlicher-Darm-Metagenom (OJQH01000635)	OJQH01000635_3	OJQH01000635_4	3	nein	nein	918
Menschlicher-Darm-Metagenom (OJRG01001951)	OJRG01001951_4	n. bek.	3	nein	nein	920
Menschlicher-Darm-Metagenom (OJRP01000045)	OJRP01000045_31	OJRP01000045_30	5	nein	nein	918
Menschlicher-Darm-Metagenom (OKRZ01002949)	OKRZ01002949_5	OKRZ01002949_4	3	nein	nein	922
Menschlicher-Darm-Metagenom (OKSB01002689)	OKSB01002689_10	OKSB01002689_10	4	nein	nein	922
Menschlicher-Darm-Metagenom (OKSC01004083)	OKSC01004083_2	n. bek.	2	nein	nein	906
Menschlicher-Darm-Metagenom (OKSD01002505)	OKSD01002505_11	OKSD01002505_10	2	nein	nein	922
Menschlicher-Darm-Metagenom (OKSK01000361)	OKSK01000361_17	OKSK01000361_20	3	nein	nein	922
Menschlicher-Darm-Metagenom (OKSN01001169)	OKSN01001169_3	n. bek.	13	nein	nein	1001
Menschlicher-Darm-Metagenom (OKSP01001453)	OKSP01001453_2	n. bek.	13	nein	nein	954
Menschlicher-Darm-Metagenom (OKSV01000264)	OKSV01000264_32	OKSV01000264_31	5	nein	nein	922
Menschlicher-Darm-Metagenom (OKTJ01001834)	OKTJ01001834_4	n. bek.	6	nein	nein	921
Menschlicher-Darm-Metagenom (OKTR01000164)	OKTR01000164_10	n. bek.	6	ja	nein	1023
Menschlicher-Darm-Metagenom (OKTU01000352)	OKTU01000352_17	OKTU01000352_19	3	nein	nein	922
Menschlicher-Darm-Metagenom (OKUL01000400)	OKUL01000400_17	OKUL01000400_16	7	nein	nein	919
Menschlicher-Darm-Metagenom (OKUR01000327)	OKUR01000327_17	OKUR01000327_16	5	nein	nein	919
Menschlicher-Darm-Metagenom (OKVB01000375)	OKVB01000375_17	OKVB01000375_16	7	nein	nein	919
Menschlicher-Darm-Metagenom (OKVC01000355)	OKVC01000355_17	OKVC01000355_16	4	nein	nein	919
Menschlicher-Darm-Metagenom (OKVF01000105)	OKVF01000105_32	OKVF01000105_31	5	nein	nein	922
Menschlicher-Darm-Metagenom (OKVK01000317)	SCH71549,1	OKVK01000317_4	2	nein	nein	922
Menschlicher-Darm-Metagenom (OLFT01003273)	OLFT01003273_1	OLFT01003273_2	3	nein	nein	925
Menschlicher-Darm-Metagenom (OLGH01000826)	OLGH01000826_1	OLGH01000826_4	5	nein	nein	924
Menschlicher-Darm-Metagenom (OLGN01000304)	OLGN01000304_32	OLGN01000304_31	9	nein	nein	920
Menschlicher-Darm-Metagenom (OLHE01000257)	OLHE01000257_41	OLHE01000257_40	2	nein	nein	923
Menschlicher-Darm-Metagenom (PPYE01106492)	PPYE01106492_34	PPYE01106492_32	2	nein	nein	922
Menschlicher-Darm-Metagenom (PPYE01385196)	PPYE01385196_3	PPYE01385196_4	3	nein	nein	925
Menschlicher-Darm-Metagenom (PPYE01512733)	PPYE01512733_3	PPYE01512733_2	4	nein	nein	919
Menschlicher-Darm-Metagenom (PPYF01129432)	PPYF01129432_15	n. bek.	9	nein	nein	918
Menschlicher-Darm-Metagenom (PPYF01670242)	PPYF01670242_39	PPYF01670242_38	10	nein	nein	919
Mensch-Metagenom (ODEE01001565)	ODEE01001565_1	n. bek.	6	nein	nein	919
Mensch-Metagenom (ODFV01004017)	ODFV01004017_1	n. bek.	6	nein	nein	921
Mensch-Metagenom (ODFW01000112)	ODFW01000112 43	ODFW01000112_41	5	nein	nein	924
Mensch-Metagenom (ODGN01000188)	ODGN01000188_50	ODGN01000188_49	2	nein	nein	919
Mensch-Metagenom (ODHH01000275)	ODHH01000275_14	ODHH01000275_15	4	nein	nein	919
Mensch-Metagenom (ODHP01001712)	ODHP01001712_3	ODHP01001712_4	4	nein	nein	918
Mensch-Metagenom (ODHV01000466)	ODHV01000466 16	ODHV01000466 16	5	nein	nein	925
Mensch-Metagenom (ODHZ01001211)	ODHZ01001211_7	ODHZ01001211_6	5	nein	nein	921
Mensch-Metagenom (ODIH01000145)	ODIH01000145_73	n. bek.	2	nein	nein	919
Mensch-Metagenom (ODJZ01000182)	ODJZ01000182_13	ODJZ01000182_15	2	nein	nein	921
Mensch-Metagenom (ODKA01005851)	ODKA01005851_3	n. bek.	6	nein	nein	924
Mensch-Metagenom (ODLN01002572)	ODLN01002572_7	n. bek.	8	nein	nein	924
Mensch-Metagenom (ODQJ01000729)	ODQJ01000729_25	n. bek.	9	nein	nein	919
Mensch-Metagenom (ODTU01003882)	ODTU01003882 3	ODTU01003882 4	5	nein	nein	924
Mensch-Metagenom (ODUN01000242)	ODUN01000242_23	ODUN01000242_22	3	nein	nein	922
Mensch-Metagenom (ODVQ01003982)	ODVQ01003982_3	ODVQ01003982_4	5	nein	nein	919
Mensch-Metagenom (ODVR01002077)	ODVR01002077_3	ODVR01002077_4	4	nein	nein	922
Mensch-Metagenom (ODVS01001471)	ODVS01001471_9	ODVS01001471_8	5	nein	nein	924
Mensch-Metagenom (ODWX01000843)	ODWX01000843_3	ODWX01000843_2	3	nein	nein	922
Mensch-Metagenom (ODXC01000747)	ODXC01000747_3	ODXC01000747_4	2	nein	nein	922
Mensch-Metagenom (ODXE01000717)	ODXE01000717 15	ODXE01000717 17	5	nein	nein	925
Mensch-Metagenom (ODXO01005124)	ODXO01005124_2	ODXO01005124_1	3	nein	nein	922
Mensch-Metagenom (ODXP01000624)	ODXP01000624_4	ODXP01000624_4	5	nein	nein	919
Mensch-Metagenom (ODYC01000377)	ODYC01000377_16	ODYC01000377_17	5	nein	nein	924
Mensch-Metagenom (ODYJ01000298)	ODYJ01000298_33	ODYJ01000298 33	4	nein	nein	919
Mensch-Metagenom (OEBA01002798)	OEBA01002798_7	OEBA01002798_6	5	nein	nein	922
Mensch-Metagenom (OEEK01000163)	OEEK01000163_43	OEEK01000163_44	5	nein	nein	922
Mensch-Metagenom (OEFH01000394)	OEFH01000394_40	OEFH01000394_36	2	nein	nein	922
Mensch-Metagenom (OEFW01000634)	OEFW01000634_7	OEFW01000634_8	5	nein	nein	922
Mensch-Metagenom (OEHT01000244)	OEHT01000244_15	OEHT01000244_17	5	nein	nein	922
Mensch-Metagenom (OEJW01000623)	OEJW01000623_11	OEJW01000623_13	6	nein	nein	922
Mensch-Verdauungssystem-Homo sapiens (3300007296 \| Ga0104830_100502)	3300007296\|Ga0104830_100502_31	3300007296\|Ga0104830_100502_30	5	nein	nein	919
Mensch-Verdauungssystem-Homo sapiens (3300007299 \| Ga0104319_1000623)	3300007299\|Ga0104319\|1000623_29	3300007299\|Ga0104319_1000623_28	8	nein	nein	924
Mensch-Verdauungssystem-Homo sapiens (3300007361 \| Ga0104787_100954)	3300007361\|Ga0104787_100954_14	n. bek.	3	nein	nein	923
Mensch-Verdauungssystem-Homo sapiens (3300007361 \| Ga0104787_100954)	3300007361\|Ga0104787_100954_14	n. bek.	3	nein	nein	921
Mensch-Verdauungssystem-Homo sapiens (3300008272 \| Ga0111092_1001379)	3300008272\|Ga0111092_1001379_1	n. bek.	3	nein	nein	921
Mensch-Verdauungssystem-Homo sapiens (3300008496 \| Ga0115078_100057)	3300008496\|Ga0115078_100057_51	3300008496\|Ga0115078_100057_50	3	nein	nein	922
Säuger-Verdauungssystem-asiatischer Elefant fäkal-Elephas maximus (3300001598\| EMG_10000232)	3300001598\| EMG_10000232_1	n. bek.	2	nein	nein	963
Säuger-Verdauungssystem-asiatischer Elefant fäkal-Elephas maximus (3300001598\| EMG_10003641)	3300001598\| EMG_10003641_1	n. bek.	11	ja	nein	1057
Säuger-Verdauungssystem-Fäzes (3300018475 \| Ga0187907_10006632)	3300018475\|Ga0187907_10006632_17	n. bek.	18	ja	ja	977
Säuger-Verdauungssystem-Fäzes (3300018475\|Ga0187907_10006632)	3300018475\|Ga0187907_10006632_17	n. bek.	18	ja	ja	971
Säuger-Verdauungssystem-Fäzes (3300018493 \| Ga0187909_10005433)	3300018493\|Ga0187909_10005433_18	n. bek.	18	ja	ja	977
Säuger-Verdauungssystem-Fäzes (3300018493\|Ga0187909_10005433)	3300018493\|Ga0187909_10005433_18	n. bek.	18	ja	ja	971
Säuger-Verdauungssystem-Fäzes (3300018493 \| Ga0187909_10024847)	3300018493\|Ga0187909_10024847_5	n. bek.	4	nein	nein	1141
Säuger-Verdauungssystem-Fäzes (3300018493\|Ga0187909_10030832)	3300018493\|Ga0187909_10030832_9	n. bek.	10	nein	nein	927
Säuger-Verdauungssystem-Fäzes (3300018494 \| Ga0187911_10005861)	3300018494\|Ga0187911_10005861_19	n. bek.	18	ja	ja	977
Säuger-Verdauungssystem-Fäzes (3300018494\|Ga0187911_10005861)	3300018494\|Ga0187911_10005861_18	n. bek.	18	ja	ja	971
Säuger-Verdauungssystem-Fäzes (3300018494 \| Ga0187911_10019634)	3300018494\|Ga0187911_10019634_9	n. bek.	11	nein	nein	927
Säuger-Verdauungssystem-Fäzes (3300018494 \| Ga0187911_10037073)	3300018494\|Ga0187911_10037073_4	n. bek.	4	nein	nein	1141
Säuger-Verdauungssystem-Fäzes (3300018494 \| Ga0187911_10069260)	3300018494\|Ga0187911_10069260_3	n. bek.	2	nein	nein	900
Säuger-Verdauungssystem-Fäzes (3300018495 \| Ga0187908_10006038)	3300018495\|Ga0187908_10006038_18	n. bek.	18	ja	ja	977
Säuger-Verdauungssystem-Fäzes (3300018495 \| Ga0187908_10006038)	3300018495\|Ga0187908_10006038_19	n. bek.	18	ja	ja	971
Säuger-Verdauungssystem-Fäzes (3300018495 \| Ga0187908_10013323)	3300018495\|Ga0187908_10013323_2	n. bek.	4	nein	nein	1141
Säuger-Verdauungssystem-Fäzes (3300018878 \| Ga0187910_10006931)	3300018878\|Ga0187910_10006931_17	n. bek.	18	ja	ja	977
Säuger-Verdauungssystem-Fäzes (3300018878 \| Ga0187910_10006931)	3300018878\|Ga0187910_10006931_17	n. bek.	18	ja	ja	971
Säuger-Verdauungssystem-Fäzes (3300018878 \| Ga0187910_10015336)	3300018878\|Ga0187910_10015336_15	n. bek.	4	nein	nein	1141
Säuger-Verdauungssystem-Fäzes (3300018878 \| Ga0187910_10040531)	3300018878\|Ga0187910_10040531_1	n. bek.	3	nein	nein	927
Säuger-Verdauungssystem-Fäzes (3300019376 \| Ga0187899_10021543)	3300019376\|Ga0187899_10021543_4	n. bek.	4	nein	nein	880
Metagenom (OGCZ01001955)	OGCZ01001955_1	n. bek.	4	nein	nein	926
Metagenom (OGD501000069)	OGDS01000069_10	n. bek.	3	nein	nein	956
Metagenom (OGDY01002059)	OGDY01002059_17	n. bek.	10	nein	nein	952
Metagenom (OGEU01000713)	OGEU01000713_24	OGEU01000713_23	6	nein	nein	923
Metagenom (OGFM01002125)	OGFM01002125_3	OGFM01002125_4	6	nein	nein	928
Metagenom (OGGS01001705)	OGGS01001705 3	OGGS01001705 5	5	nein	nein	922
Metagenom (OGGV01005531)	OGGV01005531_2	n. bek.	2	nein	nein	922
Metagenom (OGHW01002048)	OGHW01002048_1	OGHW01002048_2	4	nein	nein	922
Metagenom (OGIE01002059)	OGIE01002059_21	OGIE01002059_22	4	nein	nein	922
Metagenom (OGII01000819)	OGII01000819_21	OGII01000819_22	4	nein	nein	922
Metagenom (OGJI01000038)	OGJI01000038_151	OGJI01000038_150	2	nein	nein	926
Metagenom (OGJK01007642)	OGJK01007642_2	n. bek.	2	nein	nein	925
Metagenom (OGJY01000516)	OGJY01000516 18	OGJY01000516 19	6	nein	nein	925
Metagenom (OGKA01000617)	OGKA01000617_2	OGKA01000617_3	3	nein	nein	919
Metagenom (OGKE01000029)	OGKE01000029_151	OGKE01000029_150	2	nein	nein	926
Metagenom (OGKG01000020)	OGKG01000020_152	OGKG01000020_150	2	nein	nein	926
Metagenom (OGKG01002483)	OGKG01002483_14	n. bek.	7	nein	nein	954
Metagenom (OGKW01000585)	OGKW01000585_4	OGKW01000585_4	4	nein	nein	918
Metagenom (OGU01000192)	OGLJ01000192_54	OGLJ01000192_55	3	nein	nein	925
Metagenom (OGLM01001314)	OGLM01001314_21	n. bek.	20	nein	nein	954
Metagenom (OGMO01000062)	OGMO01000062_69	OGMO01000062_68	6	nein	nein	925
Metagenom (OGMP01001167)	OGMP01001167_15	OGMP01001167_14	6	nein	nein	921
Metagenom (OGNV01000836)	OGNV01000836_4	OGNV01000836_6	3	nein	nein	922
Metagenom (OGUJ01000114)	OGUJ01000114_43	n. bek.	9	nein	nein	941
Metagenom (OGUJ01000114)	OGUJ01000114_45	n. bek.	9	nein	nein	937
Metagenom (OJKY01000879)	OJKY01000879_3	n. bek.	12	ja	nein	1023
Metagenom (OUF01000187)	OLJF01000187_58	n. bek.	5	nein	nein	922
nicht kultiviertes Clostridiales-Bakterium (OMW001000091)	OMWO01000091_3	n. bek.	4	nein	nein	880
nicht kultivierte Ruminococcus sp. (FMFL01000053)	SCJ27598,1	SCJ27525,1	10	nein	nein	919

Tabelle 3. Repräsentative Typ- VI-D-Direct-Repeat-Nukleotidsequenzen

Cas13d- Effektorprotein-Zugangsnummer	Direct-Repeat-Nukleotidsequenz
WP_005358205,1 (SEQ ID NO: 1)	GAACTACACCCGTGCAAAAATGCAGGGGTCTAAAAC (SEQ ID NO: 32)
WP_005358205,1 (SEQ ID NO: 1)	GAATTACACCCGTGCAAAAATGCAGGGGTCTAAAAC (SEQ ID NO: 33)
WP_005358205,1 (SEQ ID NO: 1)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
LARF01000048_8 (SEQ ID NO: 2)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
LARF01000048_8 (SEQ ID NO: 2)	CTACTACACTGGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 72)
3300010266\|Ga0129314_1001134_19 (SEQ ID NO: 3)	GAACTACACCCGTGCAAAAATGCAGGGGTCTAAAAC (SEQ ID NO: 43)
3300006226\|Ga0099364_10024192_5 (SEQ ID NO: 4)	GTGCAGTAGCCTTACAGATTCGTAGGGTTCTGAGAC (SEQ ID NO: 37)
NZ_NFLV01000009_111 (SEQ ID NO: 5)	GAACTACACCCTGGCTGAAAGTCAGGGTCTAAAAC (SEQ ID NO: 53)
NFIR01000008_78 (SEQ ID NO: 6)	GAACTACACTCTGGCTGAAAGTCAGGGTCTAAAAC (SEQ ID NO: 52)
NFIR01000008_78 (SEQ ID NO: 6)	GAACTACACTCTGGCTGAAAGTCAGGGTCTA (SEQ ID NO: 351)
CDYU01023067_140 (SEQ ID NO: 7)	CAGCACTACACCCCCCTGAAACAGGAGGGGTCTAAAAC (SEQ ID NO: 56)
CDYS01033339_14 (SEQ ID NO: 7)	TAGCACTACACCCCCCTGAAACATGAGGGGTCTAAAAC (SEQ ID NO: 359)
CDYU01023067_140 (SEQ ID NO: 7)	TAGCACTACACCCCCCTGAAACATGAGGGGTCTAAAAC (SEQ ID NO: 360)
CDYU01004315_2 (SEQ ID NO: 8)	CTACTACACTGGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 54)
CDYU01004315_2 (SEQ ID NO: 8)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 55)
CDYU01004315_2 (SEQ ID NO: 8)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OLFT01003273_1 (SEQ ID NO: 8)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
CDZE01002059_22 (SEQ ID NO: 9)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
CDYX01024884_4 (SEQ ID NO: 9)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAACC (SEQ ID NO: 361)
CDTW01032418_55 (SEQ ID NO: 10)	CAGCACTACACCCCCCTGAAACATGAGGGGTCTAAAAC (SEQ ID NO: 358)
CDZD01043528_308 (SEQ ID NO: 10)	CAGCACTACACCCCCCTGAAACATGAGGGGTCTAAAAC (SEQ ID NO: 362)
CDZF01024873_75 (SEQ ID NO: 10)	CAGCACTACACCCCCCTGAAACATGAGGGGTCTAAAAC (SEQ ID NO: 363)
CDZF01043927_109 (SEQ ID NO: 10)	CAGCACTACACCCCCCTGAAACATGAGGGGTCTAAAAC (SEQ ID NO: 364)
CDZT01047721_3 (SEQ ID NO: 11)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 368)
CDZU01022944_3 (SEQ ID NO: 11)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 369)
CDZV01031905_3 (SEQ ID NO: 11)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 370)
OGPA01000243_2 (SEQ ID NO: 11)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 410)
3300007296\|Ga0104830_100502_31 (SEQ ID NO: 12)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 38)
3300007296\|Ga0104830_100502_31 (SEQ ID NO: 12)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
ODXP01000624_4 (SEQ ID NO: 12)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAACTA (SEQ ID NO: 547)
3300007299\|Ga0104319_1000623_29(SEQ ID NO: 13)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
ODKA01005851_3 (SEQ ID NO: 13)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OGPQ01001037_3 (SEQ ID NO: 14)	CTACTACACTGGTGCAAATTTGCACTA (SEQ ID NO: 414)
3300008496\|Ga0115078 _100057_51(SEQ ID NO: 14)	CTACTACACTGGTGCAAATTTGCACTA (SEQ ID NO: 557)
CDZK01015063_14 (SEQ ID NO: 15)	TACTGGTGCGAATTTGCACTAA (SEQ ID NO: 365)
3300001598\| EMG_10000232_1 (SEQ ID NO: 16)	GGACAATAACCTGCGAATTTTGGCAGGTTCTATGAC (SEQ ID NO: 36)
3300001598\| EMG_10003641_1 (SEQ ID NO: 17)	GAACTACACCCCTGCAGAAATGCTGGGGTCTGAAAC (SEQ ID NO: 35)
3300018494\|Ga0187911_10005861_19 (SEQ ID NO: 18)	GAACTACAGCCCTGTGAAATAACGGGGTTCTAAAAC (SEQ ID NO: 46)
3300018494\|Ga0187911_10005861_19 (SEQ ID NO: 18)	GAACTACAGCCCTGTGAAATAACAGGGTTCTAAAAC (SEQ ID NO: 47)
3300018494\|Ga0187911_10005861_19 (SEQ ID NO: 18)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 562)
3300018495\|Ga0187908_10006038_18 (SEQ ID NO: 18)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 565)
3300018475\|Ga0187907_10006632_17 (SEQ ID NO: 19)	CATGTAAACCCCTAACAAATGATAGGGGGTTGAAAC (SEQ ID NO: 44)
3300018494\|Ga0187911_10005861_18 (SEQ ID NO: 19)	GAACTACAGCCCTGTGAAATAACGGGGTTCTAAAAC (SEQ ID NO: 46)
3300018494\|Ga0187911_10005861_18 (SEQ ID NO: 19)	GAACTACAGCCCTGTGAAATAACAGGGTTCTAAAAC (SEQ ID NO: 47)
3300018475\|Ga0187907_10006632_17 (SEQ ID NO: 19)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 558)
3300018475\|Ga0187907_10006632_17 (SEQ ID NO: 19)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 559)
3300018493\|Ga0187909_10005433_18 (SEQ ID NO: 19)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 560)
3300018493\|Ga0187909_10005433_18 (SEQ ID NO: 19)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 561)
3300018494\|Ga0187911_10005861_18 (SEQ ID NO: 19)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 563)
3300018495\|Ga0187908_10006038_19 (SEQ ID NO: 19)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 566)
3300018878\|Ga0187910_10006931_17 (SEQ ID NO: 19)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 567)
3300018878\|Ga0187910_10006931_17 (SEQ ID NO: 19)	CATGTAAACCCCTAACAAATGGTAGGGGTTTGAAAC (SEQ ID NO: 568)
3300018494\|Ga0187911_10069260_3 (SEQ ID NO: 20)	GAACTACAGCCCTGTGAAATAACAGGG (SEQ ID NO: 564)
3300018493\|Ga0187909_10030832_9 (SEQ ID NO: 21)	CTACTACTACCCTGTTATTTGACAGGGTTCAAAAAC (SEQ ID NO: 45)
3300018494\|Ga0187911_10019634_9 (SEQ ID NO: 21)	CTACTACTACCCTGTTATTTGACAGGGTTCAAAAAC (SEQ ID NO: 45)
3300018878\|Ga0187910_10040531_1 (SEQ ID NO: 21)	GTTTCTGAACCCTGCCATTTGGCAGGGTAGTAGTTG (SEQ ID NO: 569)
3300018493\|Ga0187909_10024847_5 (SEQ ID NO: 22)	GAACGACGTCACTACACACCGAGAGGTGTCTAAAAC (SEQ ID NO: 48)
3300018494\|Ga0187911_10037073_4 (SEQ ID NO: 22)	GAACGACGTCACTACACACCGAGAGGTGTCTAAAAC (SEQ ID NO: 48)
3300018495\|Ga0187908_10013323_2 (SEQ ID NO: 22)	GAACGACGTCACTACACACCGAGAGGTGTCTAAAAC (SEQ ID NO: 48)
3300018878\|Ga0187910_10015336_15 (SEQ ID NO: 22)	GAACGACGTCACTACACACCGAGAGGTGTCTAAAAC (SEQ ID NO: 48)
3300018878\|Ga0187910_10015336_15 (SEQ ID NO: 22)	CAACTACTACCCTGCCAAATGGCAGGGTTCAGAAAC (SEQ ID NO: 49)
WP_074833651,1 (SEQ ID NO: 23)	CCCTTTGTACTATACCTGTTTTACACAGGTCTAAAAC (SEQ ID NO: 60)
WP_074833651,1 (SEQ ID NO: 23)	GTACTATACCTGTTTTACACAGGATAATAACCAAAAT (SEQ ID NO: 61)
WP_074833651,1 (SEQ ID NO: 23)	CTACTATACTAGTGTGATTTTACACTAGTCTAAAAC (SEQ ID NO: 352)
WP_041337480,1 (SEQ ID NO: 24)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 63)
WP_041337480,1 (SEQ ID NO: 24)	TCTCTTGGCGGAAAGAAAACAGAAAGACGAAGAACAGGACAAATGGCTATC (SEQ ID NO: 353)
DBYI01000091_43 (SEQ ID NO: 25)	GAACTATACCCCTACCAAATGGTCGGGGTCTGAAAC (SEQ ID NO: 64)
WP_075424065,1 (SEQ ID NO: 26)	CAAGTAAACCCCTACCAACTGGTCGGGGTTTGAAAC (SEQ ID NO: 65)
WP_075424065,1 (SEQ ID NO: 26)	CAAGTAAACCCTTACCAACTGGTCGGGGTTTGAAAC (SEQ ID NO: 66)
WP_009985792,1 (SEQ ID NO: 27)	GAACTATAGTAGTGTAAATTTGCACTACTATAAAAC (SEQ ID NO: 67)
WP_009985792,1 (SEQ ID NO: 27)	GAACTATAGTAGTGTGAATTTACACTACTCTAAAAC (SEQ ID NO: 354)
CDC65743,1 (SEQ ID NO: 28)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 68)
CDC65743,1 (SEQ ID NO: 28)	CTACTACACTAGTGCGAATTTGCGCTAGTCTAAAAC (SEQ ID NO: 69)
CDC65743,1 (SEQ ID NO: 28)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 70)
CDC65743,1 (SEQ ID NO: 28)	CTACTACACTGGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 71)
CDC65743,1 (SEQ ID NO: 28)	GTGCGAATTTGCGCTAGTCTAAAAC (SEQ ID NO: 356)
DJXD01000002_3 (SEQ ID NO: 29)	CAACTACAACCCCGTAAAAATACGGGGTTCTGAAAC (SEQ ID NO: 73)
DJXD01000002_3 (SEQ ID NO: 29)	CAACTACAACCCCGTAAAAATACGGGGTTCTGAAACC (SEQ ID NO: 357)
SCH71549,1 (SEQ ID NO: 30)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAT (SEQ ID NO: 57)
SCH71549,1 (SEQ ID NO: 30)	CTACTACACTAGTGCGAATTTGCGCTAGTCTAAAAC (SEQ ID NO: 58)
SCH71549,1 (SEQ ID NO: 30)	CTACTACACTAGTGCGAATTTGCGCTAGTCTAAAAC (SEQ ID NO: 69)
SCH71549,1 (SEQ ID NO: 30)	GTGCGAATTTGCGCTAGTCTAAAA (SEQ ID NO: 367)
SCH71549,1 (SEQ ID NO: 30)	GTGCGAATTTGCGCTAGTCTAAAAC (SEQ ID NO: 409)
SCH71549,1 (SEQ ID NO: 30)	GTGCGAATTTGCGCTAGTCTAAAAC (SEQ ID NO: 415)
SCH71549,1 (SEQ ID NO: 30)	GTGCGAATTTGCGCTAGTCTAAAAC (SEQ ID NO: 488)
SCH71549,1 (SEQ ID NO: 30)	GTGCGAATTTGCGCTAGTCTAAAAC (SEQ ID NO: 514)
SCH71549,1 (SEQ ID NO: 30)	GTGCGAATTTGCGCTAGTCTAAAAC (SEQ ID NO: 526)
SCJ27598,1 (SEQ ID NO: 31)	CTACTACACTGGTGCAAATTAGCACTAGTCTAAAAC (SEQ ID NO: 76)
SCJ27598,1 (SEQ ID NO: 31)	CTACTACACTGGTGCAAATTAGCACTAGTCTAAAAC (SEQ ID NO: 77)
SCJ27598,1 (SEQ ID NO: 31)	CTACTACACTGGTGTGAATTTGCAC (SEQ ID NO: 487)
NZ_ACOK01000100_5 (SEQ ID NO: 200)	GAACTATAGTAGTGTAAATTTGCACTACTATAAAAC (SEQ ID NO: 67)
NZ_ACOK01000100_5 (SEQ ID NO: 200)	GAACTATAGTAGTGTGAATTTACACTACTCTAAAAC (SEQ ID NO: 355)
3300006226\|Ga0099364_10024192_5 (SEQ ID NO: 201)	GTGCAGTAGCCTTACAGATTCGTAGGGTTCTGAGAC (SEQ ID NO: 37)
3300007361\|Ga0104787_100954_14 (SEQ ID NO: 202)	CTACTACACAGGTGCAATTTTGCACTAGTCTAAAAC (SEQ ID NO: 40)
3300007361\|Ga0104787_100954_14 (SEQ ID NO: 202)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 41)
CDZK01015063_14 (SEQ ID NO: 202)	TACTGGTGCGAATTTGCACTAA (SEQ ID NO: 366)
OIZB01000622_13 (SEQ ID NO: 202)	TACTGGTGCGAATTTGCACTAA (SEQ ID NO: 498)
OIZB01000622_13 (SEQ ID NO: 202)	TACTGGTGCGAATTTGCACTAA (SEQ ID NO: 499)
ODHZ01001211_7 (SEQ ID NO: 202)	TACTGGTGCGAATTTGCACTAA (SEQ ID NO: 537)
3300007361\|Ga0104787_100954_14 (SEQ ID NO: 202)	TACTGGTGCGAATTTGCACTAA (SEQ ID NO: 554)
3300007361\|Ga0104787_100954_14 (SEQ ID NO: 202)	TACTGGTGCGAATTTGCACTAA (SEQ ID NO: 555)
3300008272\|Ga0111092_1001379_1 (SEQ ID NO: 202)	TACTGGTGCGAATTTGCACTAA (SEQ ID NO: 556)
CEAA01017658_2 (SEQ ID NO: 203)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OCHE01000387_10 (SEQ ID NO: 203)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 392)
OCTW011587266_5 (SEQ ID NO: 204)	CTTATACAACACCCATTTTCACAGTGGGT (SEQ ID NO: 371)
OCVV011003687_3 (SEQ ID NO: 205)	GTTTGAGAGTAGTGTAATTTTATAGGGTAGTAAAAC (SEQ ID NO: 372)
OCVV011003687_3 (SEQ ID NO: 206)	GTTTGAGAGTAGTGTAATTTTATAGGGTAGTAAAAC (SEQ ID NO: 373)
ODAI010069496_4 (SEQ ID NO: 207)	GAACTATAGTAGTGTTTTTTTACACT (SEQ ID NO: 374)
ODAI011611274_2 (SEQ ID NO: 208)	GTACTACACCCCTGCAGTTTTGCAGGGGTCTGAAAC (SEQ ID NO: 375)
OATA01000148_47 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 376)
OBAI01000753_39 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 379)
OBAQ01000162_41 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 380)
OCHU01001749_1 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 393)
OCPV01000148_47 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 396)
OFMN01000509_2 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 397)
OFRY01000077_43 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 400)
OGRH01000378_2 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 427)
OGUL01000592_19 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 432)
OIGD01000177_59 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 492)
OIXV01006344_7 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 495)
PPYF01129432_15 (SEQ ID NO: 209)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 531)
OAVJ01001264_7 (SEQ ID NO: 210)	CTACTACACTGGTGCAAATTTGCACTA (SEQ ID NO: 377)
OBAE01000973_3 (SEQ ID NO: 211)	GTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 378)
OBAR01000289_55 (SEQ ID NO: 212)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OBAS01000138_55 (SEQ ID NO: 212)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OCHD01001741_1 (SEQ ID NO: 212)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OCHK01000325_37 (SEQ ID NO: 212)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OCHS01000450_6 (SEQ ID NO: 212)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OCQA01000142_55 (SEQ ID NO: 212)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OBCV01000332_2 (SEQ ID NO: 213)	CTACTACACTGGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 75)
OBDE01000870_1 (SEQ ID NO: 214)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 381)
OBII01002626_5 (SEQ ID NO: 215)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OBII01002626_3 (SEQ ID NO: 216)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OBJF01000033_8 (SEQ ID NO: 217)	GATTGAAAGGATTGTAAATTTGCAAGGTCTTAAAAC (SEQ ID NO: 382)
OBJF01000033_8 (SEQ ID NO: 218)	GATTGAAAGGATTGTAAATTTGCAAGGTCTTAAAAC (SEQ ID NO: 383)
OJMK01000275_31 (SEQ ID NO: 218)	GATTGAAAGGATTGTAAATTTGCAAGGTCTTAAAAC (SEQ ID NO: 508)
OBKG01000025_26 (SEQ ID NO: 219)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OBKR01000858_3 (SEQ ID NO: 220)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAACT (SEQ ID NO: 384)
OJMI01000733_4 (SEQ ID NO: 220)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAACT (SEQ ID NO: 507)
OBVH01003037_1 (SEQ ID NO: 221)	GATTGAAAGGATTGTAAATTTACAAGGTCTTAAAAC (SEQ ID NO: 385)
OBVH01003037_2 (SEQ ID NO: 222)	GATTGAAAGGATTGTAAATTTACAAGGTCTTAAAAC (SEQ ID NO: 386)
OBVY01000267_8 (SEQ ID NO: 223)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAACT (SEQ ID NO: 387)
OGOC01002653_3 (SEQ ID NO: 223)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAACT (SEQ ID NO: 403)
OBXZ01000094_20 (SEQ ID NO: 224)	GATTGAATGGATTGTAAATTT (SEQ ID NO: 388)
OBXZ01000094_20 (SEQ ID NO: 225)	GATTGAATGGATTGTAAATTT (SEQ ID NO: 389)
OCHB01002119_1 (SEQ ID NO: 226)	ACTGGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 390)
OCHC01000012_250 (SEQ ID NO: 227)	TCTCTTGGCGGAAAGAAAACAGAAAGACGAAGAACAGGACAAATGGCTATC (SEQ ID NO: 391)
OCPS01000464_4 (SEQ ID NO: 227)	GCTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 394)
OCHN01000290_35 (SEQ ID NO: 228)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OGPS01000672_3 (SEQ ID NO: 229)	CTACTACACTAGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 39)
OCPQ01000020_138 (SEQ ID NO: 229)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OCPU01001206_17 (SEQ ID NO: 230)	GCTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 395)
OEHT01000244_15 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OGPU01000173_30 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OHHR01000227_3 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OJOL01000697_12 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OFMU01000310_31 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 398)
OGOI01001249_5 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 404)
OGQV01000794_21 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAACT (SEQ ID NO: 419)
OGQZ01000194_33 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAACT (SEQ ID NO: 422)
OHPC01000165_40 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 473)
OHUN01000170_40 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 486)
OJNT01000812_6 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 512)
OJOF01000269_30 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 513)
OKSV01000264_32 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 520)
OKVF01000105_32 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 525)
OEBA01002798_7 (SEQ ID NO: 231)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 550)
OFMV01000268_25 (SEQ ID NO: 232)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 399)
OGQU01002289_9 (SEQ ID NO: 232)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 418)
OLGH01000826_1 (SEQ ID NO: 232)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 527)
ODVS01001471_9 (SEQ ID NO: 232)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 543)
OGCM01002738_3 (SEQ ID NO: 233)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 401)
OGCO01000353_15 (SEQ ID NO: 234)	ACTGGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 402)
OGOK01000323_15 (SEQ ID NO: 235)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 405)
OGOL01000786 27 (SEQ ID NO: 236)	GTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 406)
OGOO01001137_18 (SEQ ID NO: 237)	GAATTTGCACTAGTCTAAAAC (SEQ ID NO: 407)
OGOP01001824_10 (SEQ ID NO: 238)	GGAGGTGATAAAAATGGGAAAGACGATCCTTACGGCTATC (SEQ ID NO: 408)
OGRT01000617_3 (SEQ ID NO: 238)	GGAGGTGATAAAAATGGGAAAGACGATCCTTACGGCTATC (SEQ ID NO: 430)
OGPB01000314_7 (SEQ ID NO: 239)	CTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 411)
OGPJ01000449_26 (SEQ ID NO: 240)	CTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 412)
OGPK01001709_2 (SEQ ID NO: 240)	CTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 413)
OGPS01000624_23 (SEQ ID NO: 241)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OGQH01000331_48 (SEQ ID NO: 242)	CCTACTACACTGGTGCGAATTTGCACTA (SEQ ID NO: 416)
OGQX01000605_8 (SEQ ID NO: 242)	TCTCTTGGCGGAAAGAAAACAGAAAGACGAAGAACAGGACAAATGGCTATC (SEQ ID NO: 421)
OGRG01000028 3 (SEQ ID NO: 242)	GCTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 426)
ODEE01001565_1 (SEQ ID NO: 242)	TCTCTTGGCGGAAAGAAAACAGAAAGACGAAGAACAGGACAAATGGCTATC (SEQ ID NO: 532)
ODIH01000145_73 (SEQ ID NO: 242)	GCTGAAAGAAAACAGAAAGACGAGGAGCAGGACAAATGGCTTTC (SEQ ID NO: 538)
OGQO01007270_2 (SEQ ID NO: 243)	CTACTACACTGGTGCGAATTTGCACTA (SEQ ID NO: 417)
OEFH01000394_40 (SEQ ID NO: 243)	CTACTACACTGGTGCGAATTTGCACTA (SEQ ID NO: 552)
OGQW01001429_6 (SEQ ID NO: 244)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 420)
OGRA01000610_24 (SEQ ID NO: 245)	ACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 423)
OGRE01001635_6 (SEQ ID NO: 246)	GCTGAAAGAAAACAGAAAGACGAGGAGCAGGACAAATGGCTTTC (SEQ ID NO: 424)
OGRF01000967_2 (SEQ ID NO: 247)	GATTTTGCACTAGTCTAAAAC (SEQ ID NO: 425)
OGRN01001989_2 (SEQ ID NO: 248)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 428)
OGRQ01003333_5 (SEQ ID NO: 249)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 429)
OGRU01000829_2 (SEQ ID NO: 250)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAACT (SEQ ID NO: 431)
OGSD01001176_18 (SEQ ID NO: 251)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 42)
OGWY01002732_3 (SEQ ID NO: 252)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OGXI01000433_6 (SEQ ID NO: 253)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 433)
OGYU01002161_4 (SEQ ID NO: 253)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 436)
OGGS01001705_3 (SEQ ID NO: 253)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 574)
OGXJ01002463_5 (SEQ ID NO: 254)	CTACTACACTGGTGCGAATTTG (SEQ ID NO: 434)
OGXL01002096_10 (SEQ ID NO: 255)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 42)
OGYD01000683_23 (SEQ ID NO: 256)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 435)
OGYL01002810_3 (SEQ ID NO: 257)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OGYY01000371_37 (SEQ ID NO: 258)	TTTGCACTAGTCTAAAAC (SEQ ID NO: 437)
OHBM01000552_13 (SEQ ID NO: 258)	TTTTGCACTAGTCTAAAACTT (SEQ ID NO: 443)
OGGV01005531_2 (SEQ ID NO: 258)	TTTTGCACTAGTCTAAAACTT (SEQ ID NO: 575)
OGZC01000639_10 (SEQ ID NO: 259)	GTTTTAGTATCCACGATAAACGTGGATTGTAGT (SEQ ID NO: 438)
OHAI01000724_7 (SEQ ID NO: 260)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OHAJ01000052_20 (SEQ ID NO: 261)	GATTGAAAGCTATGCGAATTTGCACAGTCTTAAAAC (SEQ ID NO: 439)
OGDS01000069_10 (SEQ ID NO: 261)	GATTGAAAGCTATGCGAATTTGCACAGTCTTAAAAC (SEQ ID NO: 572)
OHAN01001071_11 (SEQ ID NO: 262)	CTACTACACTAGTGCAAATTTGCGCTAGTCTAAAACT (SEQ ID NO: 440)
OHAR01000226_9 (SEQ ID NO: 263)	CTACTACACTAGTGCGAATTTGCACTA (SEQ ID NO: 441)
OHGN01001355_3 (SEQ ID NO: 263)	CTACTACACTAGTGCGAATTTGCACTA (SEQ ID NO: 454)
OHHD01000480_3 (SEQ ID NO: 263)	CTACTACACTAGTGCGAATTTGCACTA (SEQ ID NO: 456)
OHKC01000402_5 (SEQ ID NO: 263)	CTACTACACTAGTGCGAATTTGCACTA (SEQ ID NO: 460)
OHBL01000590_7 (SEQ ID NO: 264)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAA (SEQ ID NO: 442)
OHL001000586_3 (SEQ ID NO: 264)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 463)
OHSZ01000559_4 (SEQ ID NO: 264)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 482)
OHBP01000023_129 (SEQ ID NO: 265)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OHDS01000019_133 (SEQ ID NO: 265)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OHMH01000024_3 (SEQ ID NO: 265)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OHBQ01000429_2 (SEQ ID NO: 266)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OHEL01001488_6 (SEQ ID NO: 266)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OHKH01000861_3 (SEQ ID NO: 266)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OHBW01001448_1 (SEQ ID NO: 267)	ACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 444)
OHEG01001211_2 (SEQ ID NO: 267)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 451)
OHSG01000119_6 (SEQ ID NO: 267)	CTACTATACTGGTGCGATTTTGCACTA (SEQ ID NO: 479)
OHSQ01001407_1 (SEQ ID NO: 267)	ACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 481)
OHJG01000198_33 (SEQ ID NO: 268)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAAT (SEQ ID NO: 59)
OHCE01000125_17 (SEQ ID NO: 268)	GCTGAAAGAAAACAGAAAGACGAGGAGCAGGACAAATGGCTTTC (SEQ ID NO: 445)
OHJJ01000127_35 (SEQ ID NO: 268)	GCTGAAAGAAAACAGAAAGACGAGGAGCAGGACAAATGGCTTTC (SEQ ID NO: 458)
OHRD01000126_17 (SEQ ID NO: 268)	TCTCTTGGCGGAAAGAAAACAGAAAGACGAAGAACAGGACAAATGGCTATC (SEQ ID NO: 477)
OHCH01000211_3 (SEQ ID NO: 269)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OHPE01000834_1 (SEQ ID NO: 269)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OHFX01001477_3 (SEQ ID NO: 269)	CTACACTGGTGCGAGTTTGCACTAGTCTAAAAC (SEQ ID NO: 453)
OHIJ01000315_7 (SEQ ID NO: 269)	CTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 457)
OHMQ01000465_4 (SEQ ID NO: 269)	CTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 467)
OHMW01000451_18 (SEQ ID NO: 269)	CTACACTGGTGCGAGTTTGCACTAGTCTAAAAC (SEQ ID NO: 468)
OHNF01001864_4 (SEQ ID NO: 269)	CTACACTGGTGCGAGTTTGCACTAGTCTAAAAC (SEQ ID NO: 469)
OHQE01002584_3 (SEQ ID NO: 269)	CTACACTGGTGCGAGTTTGCACTAGTCTAAAAC (SEQ ID NO: 476)
OKSK01000361_17 (SEQ ID NO: 269)	CTACACTGGTGCGAGTTTGCACTAGTCTAAAAC (SEQ ID NO: 519)
OKTU01000352_17 (SEQ ID NO: 269)	CTACACTGGTGCGAGTTTGCACTAGTCTAAAAC (SEQ ID NO: 523)
OHCP01000044_27 (SEQ ID NO: 270)	GTACTAAAGCCCGCTAGTATAGACGGGTTCTAAGAC (SEQ ID NO: 446)
OHSM01000196_10 (SEQ ID NO: 270)	GTACTAAAGCCCGCTAGTATAGACGGGTTCTAAGAC (SEQ ID NO: 480)
OKTR01000164_10 (SEQ ID NO: 270)	GTACTAAAGCCCGCTAGTATAGACGGGTTCTAAGAC (SEQ ID NO: 522)
OHCW01000317_3 (SEQ ID NO: 271)	GGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 447)
OHDC01002972_3 (SEQ ID NO: 271)	GGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 448)
OHKW01000215_41 (SEQ ID NO: 271)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 461)
OHPP01000240_36 (SEQ ID NO: 271)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 475)
OHRM01001189_3 (SEQ ID NO: 271)	GGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 478)
OHTG01000221_40 (SEQ ID NO: 271)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 483)
OHTH01000201_42 (SEQ ID NO: 271)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 484)
OKTJ01001834_4 (SEQ ID NO: 271)	GGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 521)
ODFV01004017_1 (SEQ ID NO: 271)	GGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 533)
OHDP01000241_4 (SEQ ID NO: 272)	TGAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 449)
OHFV01000201_5 (SEQ ID NO: 272)	TGAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 452)
OHLY01001101_3 (SEQ ID NO: 272)	TGAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 464)
OHPD01001131_4 (SEQ ID NO: 272)	TGAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 474)
OHDT01000502_2 (SEQ ID NO: 273)	GCTGAAAGAAAACAGAAAGACGAGGAGCAGGACAAATGGCTTTC (SEQ ID NO: 450)
OHFA01000290_5 (SEQ ID NO: 274)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OHJZ01000157_5 (SEQ ID NO: 274)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OHST01000977_4 (SEQ ID NO: 274)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OKSP01001453_2 (SEQ ID NO: 274)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OHGX01000264_3 (SEQ ID NO: 275)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 455)
OHME01000303_3 (SEQ ID NO: 275)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 465)
OHNP01000278_34 (SEQ ID NO: 275)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 470)
OHOI01000307_2 (SEQ ID NO: 275)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 471)
OHIB01002708_3 (SEQ ID NO: 276)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OHJK01001285_9 (SEQ ID NO: 277)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OHSI01000544_10 (SEQ ID NO: 277)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OKSN01001169_3 (SEQ ID NO: 277)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OHJS01001864_3 (SEQ ID NO: 278)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 459)
OHLH01003112_3 (SEQ ID NO: 278)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAA (SEQ ID NO: 462)
OHJT01001977_4 (SEQ ID NO: 279)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OHPW01002065_2 (SEQ ID NO: 279)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OHMF01000395_24 (SEQ ID NO: 280)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAACT (SEQ ID NO: 466)
OHOK01001322_2 (SEQ ID NO: 280)	GTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 472)
OHUA01000395_26 (SEQ ID NO: 280)	GTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 485)
OHUY01000263_2 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OHVU01001109_1 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OHXZ01000057_25 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OHYU01000376_4 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OICI01000194_18 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OIDC01000397_3 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
0!DU01000174_25 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OKUL01000400_17 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OKUR01000327_17 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OKVB01000375_17 (SEQ ID NO: 281)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OKVC01000355_17 (SEQ ID NO: 281)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 524)
OIBN01003740_1 (SEQ ID NO: 282)	CTACTACACTGGTGCAAATTAGCACTAGTCTAAAAC (SEQ ID NO: 77)
OIEE01000042_11 (SEQ ID NO: 283)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAACT (SEQ ID NO: 489)
OIEL01000292_3 (SEQ ID NO: 284)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 490)
OJMG01000332_24 (SEQ ID NO: 284)	GCTGAAAGAAAACAGAAAGACGAGGAGCAGGACAAATGGCTTTC (SEQ ID NO: 506)
OIEN01002196_3 (SEQ ID NO: 285)	GCCCCTTGACCTTACGAAATGGTAAGGTTCCAAAAC (SEQ ID NO: 491)
OIXA01002812_3 (SEQ ID NO: 286)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OIXU01000818_5 (SEQ ID NO: 287)	GATTGAAAGGATTGTAAATTT (SEQ ID NO: 493)
OIXU01000818_6 (SEQ ID NO: 288)	GATTGAAAGGATTGTAAATTT (SEQ ID NO: 494)
OIYU01000175_4 (SEQ ID NO: 289)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 496)
OIZA01000315_9 (SEQ ID NO: 290)	GATTGAAAGGTTTGTAAATTTACAAGGTCTTAAAAC (SEQ ID NO: 497)
OIZI01000180_12 (SEQ ID NO: 291)	GATTGAAAGGATTGTAAATTTACAAGGTCTTAAAACA (SEQ ID NO: 500)
OIZI01000180_12 (SEQ ID NO: 292)	GATTGAAAGGATTGTAAATTTACAAGGTCTTAAAACA (SEQ ID NO: 501)
OIZU01000200_48 (SEQ ID NO: 293)	GAAAGAAAACAAAAAGACGAGAACAGGACAAATGGCTTTCTGAGCAGGCT (SEQ ID NO: 502)
OIZW01000344_20 (SEQ ID NO: 294)	GCTACTATACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 503)
OIZX01000427_25 (SEQ ID NO: 295)	ACTATAGCCCTGCCGGAAA (SEQ ID NO: 504)
OIZX01000427_26 (SEQ ID NO: 296)	ACTATAGCCCTGCCGGAAA (SEQ ID NO: 505)
OJMJ01002228_5 (SEQ ID NO: 297)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OJMM01002900_7 (SEQ ID NO: 298)	GTACAATAGCCCTCTCGTAGTTGAGGGCTCTGAGAC (SEQ ID NO: 509)
OJMM01002900_7 (SEQ ID NO: 299)	GTACAATAGCCCTCTCGTAGTTGAGGGCTCTGAGAC (SEQ ID NO: 510)
OJMN01000417_22 (SEQ ID NO: 300)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 42)
OJNI01000536_4 (SEQ ID NO: 300)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 42)
OJNR01001167_9 (SEQ ID NO: 301)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OJOP01001093_3 (SEQ ID NO: 301)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OJNS01001527_9 (SEQ ID NO: 301)	GAACTACACCCGTGCAAAATTGCAGG (SEQ ID NO: 511)
OJPG01000139_73 (SEQ ID NO: 302)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OJPS01000131_3 (SEQ ID NO: 302)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OJQH01000635_3 (SEQ ID NO: 302)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OJRP01000045_31 (SEQ ID NO: 302)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OJPX01000614_4 (SEQ ID NO: 303)	GTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 515)
OJRG01001951_4 (SEQ ID NO: 303)	GTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 516)
OGNV01000836_4 (SEQ ID NO: 304)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OKRZ01002949_5 (SEQ ID NO: 304)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OKSB01002689_10 (SEQ ID NO: 305)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OKSC01004083_2 (SEQ ID NO: 306)	GCACTACACCCCCCTGAAACATGAG (SEQ ID NO: 517)
OKSD01002505_11 (SEQ ID NO: 307)	CTACTACACTAGTGCGAATTTGCACTA (SEQ ID NO: 518)
OLGN01000304_32 (SEQ ID NO: 308)	GAAAGAAAACAAAAAGACGAGAACAGGACAAATGGCTTTCTGAGCAGGCT (SEQ ID NO: 528)
OLHE01000257_41 (SEQ ID NO: 309)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
PPYE01106492_34 (SEQ ID NO: 310)	GACGGGAGGTGATGAAAATG (SEQ ID NO: 529)
PPYE01385196_3 (SEQ ID NO: 311)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
PPYE01512733_3 (SEQ ID NO: 312)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 530)
PPYF01670242_39 (SEQ ID NO: 313)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
ODFW01000112_43 (SEQ ID NO: 314)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 534)
ODTU01003882_3 (SEQ ID NO: 314)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 541)
ODGN01000188_50 (SEQ ID NO: 315)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
ODHH01000275_14 (SEQ ID NO: 316)	GCTGAAAGAAAACAGAAAGACGAGGAGCAGGACAAATGGCTTTC (SEQ ID NO: 535)
ODYJ01000298_33 (SEQ ID NO: 316)	GCTGAAAGAAAACAGAAAGACGAGGAGCAGGACAAATGGCTTTC (SEQ ID NO: 549)
ODHP01001712_3 (SEQ ID NO: 317)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
ODHV01000466_16 (SEQ ID NO: 318)	CTAGTGCAAATTTGCACTAGTCTAAAACG (SEQ ID NO: 536)
ODXE01000717_15 (SEQ ID NO: 318)	CTAGTGCAAATTTGCACTAGTCTAAAACG (SEQ ID NO: 545)
ODJZ01000182_13 (SEQ ID NO: 319)	CTACTACACTGGTGCGAATTTGCACTA (SEQ ID NO: 539)
ODLN01002572_7 (SEQ ID NO: 320)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
ODQJ01000729_25 (SEQ ID NO: 321)	CTACTATACTGGTGCGATTTTGCACTAGTCTAAAAC (SEQ ID NO: 540)
ODUN01000242_23 (SEQ ID NO: 322)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 42)
ODWX01000843_3 (SEQ ID NO: 322)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 42)
ODVQ01003982_3 (SEQ ID NO: 323)	CCTACTACACTAGTGCGAATTTGCACTAGTCTAAAACT (SEQ ID NO: 542)
ODVR01002077_3 (SEQ ID NO: 324)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
ODXC01000747_3 (SEQ ID NO: 325)	CTACTACACTGGTGCGAATTTGCACTA (SEQ ID NO: 544)
OEEK01000163_43 (SEQ ID NO: 325)	TCTCTTGGCGGAAAGAAAACAGAAAGACGAAGAACAGGACAAATGGCTATC (SEQ ID NO: 551)
ODXO01005124_2 (SEQ ID NO: 326)	GTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 546)
OEFW01000634_7 (SEQ ID NO: 326)	GTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 553)
ODYC01000377_16 (SEQ ID NO: 327)	GGAGGTGATAAAAATGGGAAA (SEQ ID NO: 548)
OEJW01000623_11 (SEQ ID NO: 328)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
3300019376\|Ga0187899_10021543_4 (SEQ ID NO: 329)	TGAACGATAGCCTGCTGAAATATGCAGGTTCTAAGAC (SEQ ID NO: 570)
OGCZ01001955_1 (SEQ ID NO: 330)	CTACTATACTGGTGCGAATTTGCACTAGTCTAAAATG (SEQ ID NO: 571)
OGDY01002059_17 (SEQ ID NO: 331)	GAACTACACCCGTGCAAAAATGCAGGGGTCTAAAAC (SEQ ID NO: 43)
OGEU01000713_24 (SEQ ID NO: 332)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OGFM01002125_3 (SEQ ID NO: 333)	GACAGGAGGTGATAAAAATG (SEQ ID NO: 573)
OGHW01002048_1 (SEQ ID NO: 334)	CTACTACACTGGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 75)
OGIE01002059_21 (SEQ ID NO: 335)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAACC (SEQ ID NO: 576)
OGII01000819_21 (SEQ ID NO: 335)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAACC (SEQ ID NO: 577)
OGJI01000038_151 (SEQ ID NO: 336)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAACTCA (SEQ ID NO: 578)
OGKE01000029_151 (SEQ ID NO: 336)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAACTCA (SEQ ID NO: 581)
OGKG01000020_152 (SEQ ID NO: 336)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAACTCA (SEQ ID NO: 582)
OGJK01007642_2 (SEQ ID NO: 337)	GTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 579)
OGJY01000516_18 (SEQ ID NO: 338)	CTACTACACTGGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 62)
OGKA01000617_2 (SEQ ID NO: 339)	CTACTACACTGGTGCGAATTTGCACTAG (SEQ ID NO: 580)
OGKG01002483_14 (SEQ ID NO: 340)	GAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 34)
OGKW01000585_4 (SEQ ID NO: 341)	ACTGGTGCGAATTTGCACTGGTCTAAAAC (SEQ ID NO: 583)
OGLJ01000192_54 (SEQ ID NO: 342)	CTACTACACTGGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 75)
OGLM01001314_21 (SEQ ID NO: 343)	TGAACTACACCCGTGCAAAATTGCAGGGGTCTAAAAC (SEQ ID NO: 584)
OGMO01000062_69 (SEQ ID NO: 344)	CTACTACACTGGTGCAAATTTGCACTAGTCTAAAAC (SEQ ID NO: 75)
OGMP01001167_15 (SEQ ID NO: 345)	CTACTACACTAGTGCGAATTTGCACTAGTCTAAAAC (SEQ ID NO: 74)
OGUJ01000114_43 (SEQ ID NO: 346)	GATTGAAAGGATTGTAAATTTACAAGGTCTTAAAAC (SEQ ID NO: 585)
OGUJ01000114_45 (SEQ ID NO: 347)	GATTGAAAGGATTGTAAATTTACAAGGTCTTAAAAC (SEQ ID NO: 586)
OJKY01000879_3 (SEQ ID NO: 348)	GTACTAAAGCCCGCTAGTATAGACGGGTTCTAAGAC (SEQ ID NO: 587)
OLJF01000187_58 (SEQ ID NO: 349)	CTACTACACTGGTGCGATTTTGCACTAGTCTAAAACT (SEQ ID NO: 588)
OMWO01000091_3 (SEQ ID NO: 350)	GATTGAAAGCTATGCGAATTTGCACAGTCTTAAAAC (SEQ ID NO: 589)

Literatur
Altschul, S.F., Madden, T.L., Schäffer, A.A., Zhang, J., Zhang, Z., Miller, W. und Lipman, D.J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25, 3389-3402.
Bateman, A., Martin, M.J., O'Donovan, C., Magrane, M., Alpi, E., Antunes, R., Bely, B., Bingley, M., Bonilla, C., Britto, R., et al. (2017). UniProt: the universal protein knowledgebase. Nucleic Acids Res. 45, D158-D169.
Benson, D.A., Cavanaugh, M., Clark, K., Karsch-Mizrachi, I., Lipman, D.J., Ostell, J. und Sayers, E.W. (2013). GenBank. Nucleic Acids Res. 41, D36-42.
Eddy, S.R. (2011). Accelerated Profile HMM Searches. PLoS Comput. Biol. 7, e1002195.
Edgar, R.C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, 1792-1797.
Edgar, R.C. (2010). Search and clustering orders of magnitude faster than BLAST. Bioinformatics 26, 2460-2461.
Finn, R.D., Bateman, A., Clements, J., Coggill, P., Eberhardt, R.Y., Eddy, S.R., Heger, A., Hetherington, K., Holm, L., Mistry, J., et al. (2014). Pfam: the protein families database. Nucleic Acids Res. 42, D222-D230.
Hein, S., Scholz, I., Voß, B. und Hess, W.R. (2013). Adaptation and modification of three CRISPR loci in two closely related cyanobacteria. RNA Biol. 10, 852-864.
Hyatt, D., Chen, G.-L., LoCascio, P.F., Land, M.L., Larimer, F.W. und Hauser, L.J. (2010). Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11, 119.
Makarova, K.S., Anantharaman, V., Grishin, N.V., Koonin, E.V. und Aravind, L. (2014). CARF and WYL domains: ligand-binding regulators of prokaryotic defense systems. Front. Genet. 5.
Peters, J.E., Makarova, K.S., Shmakov, S. und Koonin, E.V. (2017). Recruitment of CRISPR-Cas systems by Tn7-like transposons. Proc. NatL Acad. Sci. U. S. A. 114, E7358-E7366.
Pruitt, K.D., Tatusova, T., Brown, G.R. und Maglott, D.R. (2012). NCBI Reference Sequences (RefSeq): current status, new features and genome annotation policy. Nucleic Acids Res. 40, D130-135.
Shmakov, S., Abudayyeh, O.O., Makarova, K.S., Wolf, Y.I., Gootenberg, J.S., Semenova, E., Minakhin, L., Joung, J., Konermann, S., Severinov, K., et al. (2015). Discovery and Functional Characterization of Diverse Class 2 CRISPR-Cas Systems. Mol. Cell 60, 385-397.
Shmakov, S., Smargon, A., Scott, D., Cox, D., Pyzocha, N., Yan, W., Abudayyeh, O.O., Gootenberg, J.S., Makarova, K.S., Wolf, Y.I., et al. (2017). Diversity and evolution of class 2 CRISPR-Cas systems. Nat. Rev. Microbiol. 15, 169-182.
Smargon, A.A., Cox, D.B.T., Pyzocha, N.K., Zheng, K., Slaymaker, I.M., Gootenberg, J.S., Abudayyeh, O.A., Essletzbichler, P., Shmakov, S., Makarova, K.S., et al. (2017). Cas13b Is a Type VI-B CRISPR-Associated RNA-Guided RNase Differentially Regulated by Accessory Proteins Csx27 and Csx28. Mol. Cell 65, 618-630.e7.
Steinegger, M. und Söding, J. (2017). MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets.
Yu, J., Picord, G., Tuffery, P. und Guerois, R. (2015). HHalign-Kbest: exploring sub-optimal alignments for remote homology comparative modeling. Bioinforma. Oxf. Engl. 31, 3850-3852.
Zhu, W., Lomsadze, A. und Borodovsky, M. (2010). Ab initio gene identification in metagenomic sequences. Nucleic Acids Res. 38, e132-e132.
Beispiel 2. Beschleunigtes In-vivo-Funktion-Screening von Typ-VI-D-CRISPR-Cas-Systemen
Nach Identifizieren des minimalen Pakets von Typ-VI-D-CRISPR-Cas-Systemkomponenten wurden zwei Loci zur Funktionsvalidierung ausgewählt, und zwar die aus Eubacterium siraeum DSM 15702 (EsCas13d) und Ruminococcus sp. N15.MGS-57 (RspCas13d). RspCas13d ist ein Mitglied der größten Untergruppe von Cas13d-Proteinen, die 13 der 31 einmaligen Mitglieder der Familie enthält und eine gemeinsame Konservierung mit einem mutmaßlichen WYL1-akzessorischen Protein zeigt (1, 6, 7). Im Gegensatz dazu gibt es keine WYL-Domäne-Proteine (oder andere mutmaßliche akzessorische Proteine), die innerhalb von 3kb vom EsCas13d-Effektor codiert sind.
DNA-Synthese und Ejfektorbibliothek-Klonierung
Zum Testen der Aktivität von Typ-VI-D-CRISPR-Cas wurden Minimalsysteme mit RspCas13d oder EsCas13d in den pET28a(+)-Vektor konstruiert und synthetisiert. Das synthetisierte Ruminococcus sp.-RspCas13d-System enthielt RspCas13d und RspWYL1, codonoptimiert für E. coli-Expression, unter der Kontrolle eines lac-Promotors und getrennt durch eine E. coli-Ribosombindungssequenz (8). Nach den offenen Leserastern für RspCas13d und RspWYL1 wurde eine Akzeptorstelle für eine CRISPR-Array-Bibliothek getrieben durch einen J23119-Promotor eingefügt. Das Eubacterium siraeum-System wurde analog hergestellt, enthielt aber kein Gen für ein Protein mit einer WYL-Domäne.
Die für E. coli codonoptimierten Gene, die die minimalen CRISPR-Effektoren und akzessorischen Proteine darstellen, wurden in ein spezielles vom pET-28a(+) (EMD-Millipore) abgeleitetes Expressionssystem synthetisiert (Genscript). Kurz gesagt enthielt das Ruminococcus sp.-Syntheseprodukt Cas13d und WYL1 codonoptimiert für E. coli-Expression unter der Kontrolle eines Lac-Promotors und getrennt durch eine E. coli-Ribosombindungssequenz. Nach den offenen Leserastern für Cas13d und WYL1 wurde eine Akzeptorstelle für eine CRISPR-Array-Bibliothek getrieben durch einen J23119-Promotor eingefügt (Registry of Standard Biological Parts: parts.igem.org/Part:BBa_J23119). Unser Eubacterium siraeum-System wurde analog konstruiert, jedoch nur mit dem Effektorprotein.
Zusammen mit der Effektorgensynthese wurde zuerst am Computer ein OLS(Oligonucleotide Library Synthesis)-Pool konstruiert, der „Repeat-Spacer-Repeat“-Sequenzen enthält, wobei „Repeat“ die Direct-Repeat-Konsensussequenz, die im CRISPR-Array assoziiert mit dem Effektor angetroffen wird, und „Spacer“ Sequenzen, die das pACYC184-Plasmid abdecken, repräsentiert. Die Spacerlänge wurde über die Art der im endogenen CRISPR-Array angetroffenen Spacerlängen bestimmt. Die Repeat-Spacer-Repeat-Sequenz wurde mit Restriktionsstellen, die die bidirektionale Klonierung des Fragments in die oben genannte CRISPR-Array-Bibliothek-Akzeptorstelle ermöglichen, sowie einmaligen PCR-Priming-Stellen versehen, so dass eine spezifische Amplifikation einer spezifischen Repeat-Spacer-Repeat-Bibliothek aus einem größeren Pool ermöglicht wird. Die Synthese der Bibliothek erfolgte durch Agilent Genomics.
Als nächstes wurde die Repeat-Spacer-Repeat-Bibliothek in das den minimalen konstruierten Locus enthaltende Plasmid unter Verwendung der Golden Gate-Konstruktionsmethode kloniert. Kurz gesagt wurden zuerst die Repeat-Spacer-Repeat aus dem OLS-Pool (Agilent Genomics) jeweils unter Verwendung von einmaligen PCR-Primern amplifiziert und das Plasmidgrundgerüst mit BsaI zur Reduzierung von potentiellem Hintergrund vorlinearisiert. Beide DNA-Fragmente wurden mit Ampure XP (Beckman Coulter) vor Zugabe zum Golden Gate Assembly Master Mix (New England Biolabs) aufgereinigt und nach Anweisungen des Herstellers inkubiert. Die Golden Gate-Reaktion wurde weiter aufgereinigt und konzentriert, um eine maximale Transformationseffizienz in den nachfolgenden Schritten des Bakterien-Screens zu ermöglichen.
Beschleunigtes Funktion-Screening für Cas13d
Zur Beschleunigung des Funktion-Screening von Typ-VI-D-Systemen wurde eine Strategie zur Gewinnung der folgenden Funktionsinformationen in einem einzigen Screen entwickelt: 1) crRNA-Expressionsrichtung und -Prozessierung, 2) Nukleinsäuresubstrat-Typ und 3) Targeting-Anforderungen wie PAM (Protospacer Adjacent Motif), PFS (Protospacer Flanking Sequence) oder Zielsekundärstruktur. Es wurden minimale CRISPR-Array-Bibliotheken konstruiert, die aus zwei Konsensus-Direct-Repeats bestehen, die jeweils eine einmalige Spacersequenz natürlicher Länge flankieren, die entweder den pACYC184-Vektor oder eine fehlende GFP-Sequenz als Negativkontrolle anvisiert. Die CRISPR-Array-Bibliotheken für EsCas13d und RspCas13d-Systeme bestanden aus 4549 bzw. 3972 pACYC184 anvisierenden Spacern, zusätzlich zu 452 bzw. 450 Spacern, die die GFP-Negativkontrollsequenz anvisieren. Es wurde auch eine bidirektionale Array-Bibliothek-Klonierungsstrategie zum parallelen Testen beider möglicher CRISPR-Array-Expressionsrichtungen entworfen.
Die CRISPR-Array-Bibliotheken für RspCas13d und EsCas13d wurden in Akzeptorstellen auf entsprechenden Typ-VI-D-Expressionsplasmiden kloniert, so dass jedes Plasmid ein einzelnes Bibliothekselement und eine Orientierung enthielt (8). Die erhaltenen Plasmidbibliotheken wurden mit pACYC184 in Stbl3-E. coli mittels Elektroporation transformiert, was ein Maximum von einem Plasmidbibliothekselement pro Zelle ergab. Transformierte E. coli-Zellen wurden auf Bioassay-Platten mit Kanamycin (Selektionieren auf das Bibliotheksplasmid), Chloramphenicol (CAM; Selektionieren auf intakte pACYC184-CAM-Expression) und Tetracyclin (TET; Selektionieren auf intakte pACYC184-TET-Expression) ausplattiert, so dass eine Unterbrechung von pACYC184-Plasmid-DNA oder Antibiotikaresistenz-Genexpression durch das CRISPR-Cas-System zum Bakterienzelltod führt. Screens wurden 12h nach dem Ausplattieren geerntet, und Plasmid-DNA wurde extrahiert ( 9). Die CRISPR-Array-Region der Input-Plasmidbibliothek vor der Transformation und der Output-Plasmidbibliothek nach Bakterienselektion auf Antibiotikaplatten wurde PCRamplifiziert.
Die Plasmidbibliothek mit den unterschiedlichen Repeat-Spacer-Repeat-Elementen und Cas-Proteinen wurde in Endura-elektrokompetente E. coli (Lucigen) unter Verwendung eines Gene Pulser Xcell® (Bio-rad) nach dem von Lucigen empfohlenen Protokoll elektroporiert. Die Bibliothek wurde entweder zusammen mit aufgereinigtem pACYC184-Plasmid oder direkt in pACYC184 enthaltende Endura-elektrokompetente E. coli (Lucigen) transformiert, auf Agar mit Chloramphenicol® (Fisher), Tetracyclin (Alfa Aesar) und Kanamycin (Alfa Aesar) in BioAssay®-Schalen (Thermo Fisher) ausplattiert und 10-12 h inkubiert. Nach Abschätzung der ungefähren Kolonienzahl zur Sicherstellung hinreichender Bibliotheksrepräsentation auf der Bakterienplatte wurden die Bakterien geerntet, und DNA-Plasmid wurde unter Verwendung eines QIAprep Spin Miniprep® Kit (Qiagen) extrahiert, so dass die „Output-Bibliothek“ erzeugt wurde. Unter Durchführung einer PCR mit speziellen Primern mit Barcodes und Stellen, die mit Illumina-Sequenzierchemie kompatibel sind, wurde eine mit Barcode versehene NGS(Next Generation Sequencing)-Bibliothek aus sowohl der Vor-Transformation-„Input-Bibliothek“ als auch der Nach-Ernte-„Output-Bibliothek“ erzeugt, die dann vereinigt und zur Bewertung der Effektoren auf eine Nextseq 550 (Illumina) geladen wurden. Um Konsistenz sicherzustellen, wurden für jeden Screen zwei unabhängige biologische Wiederholungen durchgeführt.
Bakterien-Screen-Sequenzanalyse
NGS-Daten für Screen-Input- und Output-Bibliotheken wurden einem Demultiplexing mit Illumina bc12fastq unterzogen. Ablesungen (Reads) der erhaltenen fastq-Dateien für jede Probe enthielten die CRISPR-Array-Elemente für die Screening-Plasmidbibliothek. Die Direct-Repeat-Sequenz des CRISPR-Arrays wurde zur Bestimmung der Array-Orientierung verwendet und die Spacersequenz auf das Quellenplasmid pACYC184 bzw. die Negativkontrollsequenz (GFP) zur Bestimmung des entsprechenden Ziels kartiert. Für jede Probe wurde die Gesamtzahl der Reads für jedes einmalige Arrayelement (r_a) in einer gegebenen Plasmidbibliothek gezählt und wie folgt normiert: (r_a+1) / Gesamt-Reads für alle Bibliothek-Arrayelemente. Der Depletionswert wurde berechnet, indem normierte Output-Reads für ein gegebenes Arrayelement durch normierte Input-Reads dividiert wurden.
Zur Identifizierung spezifischer Parameter, die zu enzymatischer Aktivität und Bakterienzelltod führen, wurde NGS (Next Generation Sequencing) zum Quantifizieren und Vergleichen der Repräsentation individueller CRISPR-Arrays (d. h. Repeat-Spacer-Repeat) in der PCR der Input- und Output-Plasmidbibliotheken verwendet. Das Array-Depletionsverhältnis wurde als normierte Output-Read-Zahl dividiert durch die normierte Input-Read-Zahl definiert. Ein Array wurde als stark depletiert betrachtet, wenn das Depletionsverhältnis unter 0,1 lag (mehr als 10-fache Depletion). Beim Berechnen des Array-Depletionsverhältnisses über biologische Wiederholungen wurde der maximale Depletionsverhältniswert für einen gegebenen CRISPR-Array über alle Experimente hinweg genommen (d. h. ein stark depletiertes Array muss in allen biologischen Wiederholungen stark depletiert sein). Es wurde eine Matrix erzeugt, die Array-Depletionsverhältnisse und die folgenden Merkmale für jedes Spacerziel enthält: Zielstrang, Transkript-Targeting, ORI-Targeting, Zielsequenzmotive, Flankiersequenzmotive und Zielsekundärstruktur. Es wurde das Ausmaß untersucht, in dem die Zieldepletion für RspCas13d- und EsCas13d-Systeme durch unterschiedliche Merkmale in dieser Matrix erklärt wurde, wodurch ein breiter Überblick über Funktionsparameter in einem einzigen Screen erhalten wurde.
Verteilung von Bakterien-Screening-Zielen zeigt, dass Cas13d ssRNA-Transkripte anvisiert
Zur Identifizierung des anvisierten Substrats für Cas13d wurde zunächst ein Satz minimaler CRISPR-Arrays identifiziert, die in biologischen 2-Screen-Wiederholungen stark depletiert waren. Sowohl bei RspCas13d- als auch EsCas13d-Systemen wurde von diesen stark depletierten Arrays hauptsächlich pACYC184 anvisiert, bei minimaler Depletion der Negativkontrolle (10 und 11). Es wurden 1119 bzw. 806 stark depletierte Arrays für die RspCas13d- bzw. EsCas13d-Systeme beobachtet (12A-B). Die räumliche Verteilung und Strangpräferenz der stark depletierten Zielstellen entlang pACYC184 (13A-B) deuten auf eine Präferenz für Transkript-Targeting hin, was vermuten lässt, dass es sich bei Cas13d-Zielen um Einzelstrang-RNA-Transkripte handelt. Darüber hinaus entspricht das Vorliegen stark depletierter Ziele in der nicht codierenden Region von pACYC184 zwischen den Tet- und CAM-ORFs der Verlängerung von RNA-Transkripten, die für diese Gene codieren, über das Ende des offenen Leserasters hinaus.
Diese Ergebnisse deuten an, dass ein Targeting nicht essentieller Regionen von Transkripten zusätzliche katalytische Aktivitäten von Cas13d-Enzymen auslösen könnte, was zu Toxizität und Zelltod führt.
Fehlen von PFS bei Cas13d und ein neues Modell zur Analyse von Sequenzeinschränkungen
Frühere RNA-Targeting-CRISPR-Cas-Systeme von Subtypen VI-A-C zeigten eine variierende Abhängigkeit von einer PFS (Protospacer Flanking Sequence) für effizientes RNA-Targeting (Abudayyeh et aL, 2016, 2017; Cox et al., 2017; East-Seletsky et al., 2016, 2017; Gootenberg et al., 2017; Smargon et aL, 2017). Vorliegend werden Hinweise präsentiert, dass RspCas13d und EsCas13d keine solchen Flankiersequenzbedingungen haben. Für jedes Enzym zeigen WebLogos® (Crooks et al., 2004), dass sich an jeder von 30 Positionen vor und nach den Zielsequenzen für stark depletierte Arrays die Nukleotidhäufigkeiten nicht nennenswert von einer gleichförmigen Verteilung unterscheiden (14A-B).
Zur weiteren Untersuchung möglicher Flankiersequenzbedingungen wurde ein kombinatorisches Modell entwickelt, um nach bis zu 3 über die Ziel- oder flankierenden Sequenzen verteilte Nukleotidorte zu suchen, mit denen sich die beobachteten stark depletierten Arrays erklären ließen. Zur Messung des Ausmaßes, in dem die ausgewählten Orte Ergebnissen mit starkem Bias (z. B. alles Treffer oder alles Nichttreffer) entsprechen, wurde ein Bit-Score berechnet. Insbesondere wurde eine Targeting-Bedingung so definiert, dass sie einen Satz von Orten relativ zu einer Zielsequenz und den entsprechenden Nukleotidsequenzen an diesen Orten umfasst. Für eine gegebene Targeting-Bedingung wurde das Trefferverhältnis (Hit Ratio, hr) als das Verhältnis der Anzahl stark depletierter CRISPR-Arrays zur Gesamtzahl der Bibliotheksziele, das der Bedingung genügt, definiert. Beim Suchen nach einer PAM oder PFS der Länge k werden $(_{k}^{n})$
potentielle Targeting-Bedingung-Orte betrachtet, mit n = Spacerlänge + 2 · Flankenlänge. Der Bit-Score für eine potentielle Targeting-Bedingung wird als bitscore = Σ -hr log(hr) über alle Nukleotidsequenzen an den angegebenen Targeting-Bedingung-Orten berechnet. Für CRISPR-Cas-Systeme mit bekannten PAM- oder PFS-Bedingungen, wie z. B. BzCas13b, wurden hohe Bit-Scores für Targeting-Bedingungen von Länge 2 oder 3 innerhalb von 15-nt-Flanken des Ziels erhalten, wobei der Ort der bekannten PFS genau rekapituliert wird (14C). Umgekehrt zeigt unsere Analyse für RspCas13d und EsCas13d keine Hinweise auf Flankier- oder Spacersequenzen, die zur Targeting-Effizienz stark depletierter Arrays beitragen (14C).
Erklären stark depletierter Arrays bei RspCas13d und EsCas13d
Kumulativ wurden durch Transkript-Targeting 86% bzw. 66% der stark depletierten Arrays bei RspCas13d bzw. EsCas13d erklärt (15). Dementsprechend wurde, wenn überhaupt, nur geringes Targeting für den ORF-Matrizenstrang beobachtet. Nicht-codierend- und ORI(Origin of Replication)-Targeting entsprechen den aktiv transkribierten Regionen des ORI und der Verlängerung von Codiertranskripten in die Intergenregion, wie durch RNA-Sequenzierung von Stb13-E. coli mit pACYC184 bestätigt wurde (14A-B). Durch Sekundärstrukturanalyse der Transkripte wurde die Erklärung des Targeting bei Cas13d weiter verbessert. Die RNA-Sekundärstruktur (Lorenz et al., 2011) wurde für alle Teilsequenzen innerhalb von 30 nt von Transkriptzielstellen vorhergesagt, wobei sich ergab, dass Sequenzen mit keiner vorhergesagten stabilen Sekundärstruktur einem höheren Prozentsatz stark depletierter Ziele entsprachen (16A-B). Demgemäß wurden mehrere Teilsequenzbereiche um die Zielstelle herum ausgewählt (16A-B) und eine Minimale-Sekundärstruktur-Targeting-Bedingung definiert, der dann genügt wurde, wenn die Zielstelle eine vorhergesagte stabile Sekundärstruktur für keinen der ausgewählten Sequenzbereiche zeigte. Unter den Transkriptzielstellen, die der Minimale-Sekundärstruktur-Bedingung genügen, können 93% bzw. 84% aller stark depletierten Arrays bei RspCas13d und EsCas13d erklärt werden (16C). Zusammen zeigen unsere Ergebnisse, dass es sich bei RspCas13d und EsCas13d um RNA-Targeting-Effektoren ohne Flankiersequenzbedingungen und mit einer Präferenz für minimale Sekundärstruktur für RNA-Targeting in E. coli handelt.
RNA-Sequenzierung reifer crRNA aus In-Vivo-Bakterien-Screen
Sequenzieren der kleinen RNA aus dem In-vivo-Bakterien-Screen begann mit dem Extrahieren von Gesamt-RNA aus geernteten Screen-Bakterien unter Verwendung des Direct-zol RNA MiniPrep® Plus w/ TRI Reagent (Zymo Research). Ribosomale RNA wurde mit einem Ribo-Zero® rRNA Removal Kit for Bacteria entfernt, gefolgt von Aufreinigung mit einem RNA Clean and Concentrator-5-Kit. Die erhaltene ribosomale-RNA-depletierte Gesamt-RNA wurde mit T4-PNK, RNA-5'-Polyphosphatase behandelt, für die Sequenzierung mit dem NEBNext® Small RNA Library Prep Set präpariert und wie oben beschrieben analysiert.
Die Prä-crRNA-Prozessierung in den Screen-Output-Proben wurde auf die Direct-Repeat-Orientierung analysiert, womit ein erfolgreiches Targeting von pACYC184 demonstriert und eine reife 53-nt-crRNA, die aus einem 5'-Direct-Repeat verkürzt um 6 nt (17) bestand, identifiziert wurde. Die bei EsCas13d beobachtete häufigste Spacerlänge lag bei 23 nt, mit einer Längenvariation zwischen 20 nt und 30 nt (Länge des nativen Spacers für EsCas13d).
Literatur
Abudayyeh, O.O., Gootenberg, J.S., Konermann, S., Joung, J., Slaymaker, I.M., Cox, D.B.T., Shmakov, S., Makarova, K.S., Semenova, E., Minakhin, L., et al. (2016). C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector. Science 353, aaf5573.
Abudayyeh, O.O., Gootenberg, J.S., Essletzbichler, P., Han, S., Joung, J., Belanto, J.J., Verdine, V., Cox, D.B.T., Kellner, M.J., Regev, A., et al. (2017). RNA targeting with CRISPR-Cas13. Nature 550, 280-284.
Cox, D.B.T., Gootenberg, J.S., Abudayyeh, O.O., Franklin, B., Kellner, M.J., Joung, J. und Zhang, F. (2017). RNA editing with CRISPR-Cas13. Science 358, 1019-1027.
Crooks, G.E., Hon, G., Chandonia, J.-M. und Brenner, S.E. (2004). WebLogo: a sequence logo generator. Genome Res. 14, 1188-1190.
East-Seletsky, A., O'Connell, M.R., Knight, S.C., Burstein, D., Cate, J.H.D., Tjian, R. und Doudna, J.A. (2016). Two distinct RNase activities of CRISPR-C2c2 enable guide-RNA processing and RNA detection. Nature 538, 270-273.
East-Seletsky, A., O'Connell, M.R., Burstein, D., Knott, G.J. und Doudna, J.A. (2017). RNA Targeting by Functionally Orthogonal Type VI-A CRISPR-Cas Enzymes. Mol. Cell 66, 373-383.e3.
Gootenberg, J.S., Abudayyeh, O.O., Lee, J.W., Essletzbichler, P., Dy, A.J., Joung, J., Verdine, V., Donghia, N., Daringer, N.M., Freije, C.A., et al. (2017). Nucleic acid detection with CRISPR-Cas13a/C2c2. Science 356, 438-442.
Lorenz, R., Bernhart, S.H., Höner zu Siederdissen, C., Tafer, H., Flamm, C., Stadler, P.F. und Hofacker, I.L. (2011). ViennaRNA Package 2.0. Algorithms Mol. Biol. 6, 26.
Smargon, A.A., Cox, D.B.T., Pyzocha, N.K., Zheng, K., Slaymaker, I.M., Gootenberg, J.S., Abudayyeh, O.A., Essletzbichler, P., Shmakov, S., Makarova, K.S., et al. (2017). Cas13b Is a Type VI-B CRISPR-Associated RNA-Guided RNase Differentially Regulated by Accessory Proteins Csx27 and Csx28. Mol. Cell 65, 618-630.e7.
Beispiel 3. Validierung der Typ-VI-D-Effektor-Aktivität in vitro (biochemisch)
Reinigung von Ejfektorprotein und akzessorischem Protein
Das Expressionskonstrukt für das Effektorprotein bzw. akzessorische Protein wurde in den E.-coli-T7-Expressionsstamm NiCo21(DE3)® (New England Biolabs) transformiert. 1 ml Übernachtkultur wurde in 1 l Luria-Bertani-Brühe-Wachstumsmedium (10 g/L Trypton, 5 g/L Hefeextrakt, 5g/L NaCl, Sigma) supplementiert mit 50 µg/mL Kanamycin inokuliert. Die Zellen wurden bei 37 °C bis zu einer Zelldichte von 0,5-0,8 OD₆₀₀ angezogen. Dann wurde die Proteinexpression durch Supplementieren mit IPTG bis zu einer Endkonzentration von 0,2 mM induziert und die Kultur weitere 14-18 Stunden bei 20 °C angezogen. Nach Ernte der Zellen durch Zentrifugation wurde die Zellpaste in 80 ml frisch hergestelltem Lysepuffer (50 mM Hepes pH 7,6, 0,5 M NaCl, 10 mM Imidazol, 14 mM 2-Mercaptoethanol und 5 % Glycerin) supplementiert mit Proteinase-Inhibitoren (cOmplete, EDTA-frei, Roche Diagnostics Corporation) resuspendiert. Die resuspendierten Zellen wurden mittels Durchführen durch eine Zellaufschlussvorrichtung (Constant System Limited) zerstört. Das Lysat wurde durch zweimalige Zentrifugation bei 28.000 g über einen Zeitraum von je 30 min geklärt. Das geklärte Lysat wurde auf eine 5-ml-HisTrap-FF-Chromatographiesäule (GE Life Sciences) aufgegeben.
Die Proteinaufreinigung erfolgte über FPLC (AKTA Pure, GE Healthcare Life Sciences).
Nach Waschen mit Lysepuffer wurde das Protein mit einem Gradienten von 10 mM bis 250 mM Imidazol eluiert. Protein der erwarteten Größe enthaltende Fraktionen wurden vereinigt, in einer Vivaspin 20-Ultrafiltrationseinheit (Sartorius) aufkonzentriert und entweder direkt für biochemische Tests verwendet oder zur Aufbewahrung bei -80 °C eingefroren. Die Proteinreinheit wurde durch SDS-PAGE-Analyse bestimmt, und die Proteinkonzentration wurde mit dem Qubit®-Proteintestkit (Thermo Fisher) bestimmt. 17 zeigt ein mit Coomassie-Blau gefärbtes Polyacrylamid-Gel der aufgereinigten rekombinanten Proteine EsCas13d, RspCas13d bzw. RspWYL1.
Herstellung von crRNA und Substrat-RNA
DNA-Oligomatrizen für die In-vitro-Transkription von crRNA und Substrat-RNA wurden von IDT bestellt (TABELLEN 8 und 9). Matrizen für crRNAs wurden in einer Annealing-Reaktion an einen kurzen T7-Primer (Endkonzentrationen 4 µM) gebunden und unter Verwendung des HiScribe® T7 Quick High Yield RNA Synthesis Kit (New England Biolabs) über Nacht bei 37 °C mit T7-RNA-Polymerase inkubiert. Das Annealing wurde durch Inkubieren von T7-Primer mit Matrizen über einen Zeitraum von 2 Minuten bei 95 °C und anschließendes Abkühlen auf 23 °C mit einer Rate von -5 °C/s durchgeführt. Matrizen für die Substrat-RNA wurden mittels PCR amplifiziert, was dsDNA ergab, und dann unter Verwendung desselben T7 Quick High Yield RNA Synthesis Kit über Nacht bei 37 °C mit T7-RNA-Polymerase inkubiert. Nach der In-vitro-Transkription wurden die Proben mit DNase I (Zymo Research) behandelt und dann unter Verwendung eines RNA Clean & Concentrator Kit (Zymo Research) aufgereinigt.
Die Markierung des 5'-Endes erfolgte mit dem 5'-Endmarkierungskit (VectorLabs) und mit einer IR800®-Farbstoff-Maleinimid-Sonde (LI-COR Biosciences). Das Body-Labeling von RNA erfolgte während der In-vitro-Transkription unter Verwendung des HiScribe® T7 Quick High Yield RNA Synthesis Kit (New England Biolabs). Die In-vitro-Transkriptionsansätze enthielten 2,5 mM Fluorescein-12-UTP (Sigma Aldrich). Markierte RNA wurde zur Entfernung von überschüssigen Farbstoffen unter Verwendung des RNA Clean & Concentrator Kit (Zymo Research) aufgereinigt. Die RNA-Konzentration wurde auf einem Gerät der Bauart Nanodrop® 2000 (Thermo Fisher) gemessen.
Die Effektoren wurden dann mit ihren jeweiligen in vitro transkribierten Prä-crRNAs inkubiert, die aus einem minimalen CRISPR-Array mit der in der Bakterien-Screening-Bibliothek verwendeten Repeat-Spacer-Repeat-Konstruktion bestanden, aber mit nur einem Spacer anstelle einer Bibliothek. Sofern nicht anders angegeben, wurden Prä-crRNA-Spaltungstests bei 37 °C in Prozessierungspuffer (20 mM Tris pH 8,0, 50 mM KCl, 1 mM EDTA, 10 mM MgCl2 und 100 ug/ml BSA) mit einer Reaktionsendkonzentration von 200 nM Prä-crRNA und variierenden Enzymkonzentrationen und EDTA wie angegeben durchgeführt. Die Ansätze wurden 30 Minuten inkubiert und durch Zugabe von 1 ug/uL Proteinase K (Ambion) gequencht und 10 Minuten bei 37 °C inkubiert. Danach wurden 50 mM EDTA zu dem Ansatz gegeben, der dann mit gleichen Teilen 2x TBE-Urea Sample Buffer (Invitrogen) gemischt und dann 3 Minuten bei 65 °C denaturiert wurde. Die Proben wurden durch denaturierende Gelelektrophorese an 15% TBE-Urea-Gelen (Invitrogen) analysiert und unter Verwendung von SYBR-Gold-Nukleinsäure-Färbemittel (Invitrogen) 10-20 Minuten angefärbt und dann auf einem Gel Doc EZ (Biorad) abgebildet. Dabei stellte sich heraus, dass EsCas13d- und RspCas13d-Effektoren Prä-crRNAs in Abwesenheit von jeglichen akzessorischen Proteinen unter Bildung von reifen crRNAs prozessieren (20A-D).
RNA-Sequenzierung von in vitro gespaltener Prä-crRNA
Die Sequenzierung von in vitro gespaltener Prä-crRNA begann mit der Durchführung und Quenchung der Spaltungstests gemäß obiger Beschreibung. Die Ansätze wurden dann einer Säulenreinigung unter Verwendung eines RNA Clean and Concentrator-5 Kit (Zymo Research) unterworfen. Die RNA-Proben wurden dann zur Anreicherung für 3'-P-Enden 3 Stunden ohne ATP mit PNK behandelt, wonach ATP zugegeben und der Ansatz zur Anreicherung für 5'-OH-Enden noch 1 Stunde inkubiert wurde. Dann wurden die Proben einer Säulenreinigung unterworfen, mit RNA-5'-Polyphosphatase (Lucigen) inkubiert, erneut einer Säulenreinigung unterworfen und dann für die Sequenzierung der nächsten Generation unter Verwendung des NEBNext® Multiplex Small RNA Library Prep Set for Illumina (New England Biolabs) vorbereitet. Die Bibliothek wurde auf einem Nextseq 550® (Illumina) einer Paired-End-Sequenzierung unterworfen, wonach die resultierenden Paired-End-Ausrichtungen mittels Geneious 11.0.2 (Biomatters) analysiert wurden.
Die Durchführung der Sequenzierung der nächsten Generation der in vitro gespaltenen RNA-Fragmente ermöglichte die genaue Identifizierung der Prozessierungszwischenprodukte und reifen crRNA (19), die durch denaturierendes Gel visualisiert wurden. Sowohl für EsCas13d als auch für RspCas13d bestätigte die Sequenzierung der reifen crRNA die 6nt-Verkürzung vom 5'-Ende des ersten Direct-Repeats, die bei der in-vivo-Sequenzierung von kleiner RNA gefunden wurde. Für das 3'-Ende blieb 6 nt des zweiten Direct-Repeats an das 3'-Ende des Spacers gebunden, was ein Gesamtprodukt mit 66 nt ergab, das mit der durch denaturierendes Gel visualisierten reifen crRNA im Einklang steht. Die Differenz zwischen dem gut definierten 3'-Ende der in vitro beobachteten reifen crRNA-Formen gegenüber den in vivo identifizierten verschiedenen Längen kann das Resultat einer weiteren Verkürzung in vivo durch endogene RNasen nach der anfänglichen Prä-crRNA-Spaltung sein. Die Fähigkeit des Effektors zur Spaltung von Prä-crRNA an derselben Stelle relativ zur vorhergesagten Stem-Loop-Struktur jedes der beiden Direct Repeats (19 Zwischenprodukte 1 und 2) zeigt an, dass die Typ-VI-D-CRISPR-Cas-Effektoren dazu in der Lage sind, Prä-crRNAs mit mehreren DRs und Spacern zu prozessieren.
Ejfekt von EDTA auf die crRNA-Prozessierung
Als Nächstes wurde die Abhängigkeit der Prä-crRNA-Spaltung von zweiwertigen Metallionen untersucht. Dabei wurde festgestellt, dass die Erzeugung von reifer crRNA sowohl für EsCas13d als auch für RspCas13d durch Zugabe von EDTA weitgehend inhibiert wird ( 20A-D), während Cas13a aus Leptotrichia wadei (LwaCas13a) in Gegenwart von EDTA immer noch zur Erzeugung von reifen crRNAs befähigt ist (21). Diese Abhängigkeit von Cas13d von zweiwertigen Kationen zur Erzeugung von reifer crRNA ist ein bemerkenswerter funktionaler Unterschied von der Cas13a-crRNA-Prozessierung (East-Seletsky et al., 2016; Knott et al., 2017).
Validierung von ssRNA-Spaltungsaktivitäten
Als Nächstes wurde die biochemische Validierung der RNA-geführten ssRNA-Spaltungsaktivitäten der bei unserem Bakterien-Screening beobachteten Cas13d-Enzyme angestrebt. Zielspaltungstests wurden bei 37 °C in Spaltungspuffer (20 mM HEPES pH 7,1, 50 mM KCl, 5 mM MgCl₂ und 5% Glycerin) durchgeführt. Die Cas13-crRNA-Komplexbildung wurde in Spaltungspuffer durch Inkubieren von Protein und crRNA in einem Molverhältnis von 2:1 bei 37 °C über einen Zeitraum von 5 Minuten durchgeführt, wonach RspWYL1 gemäß den experimentellen Bedingungen zu der Cas13-crRNA-Präinkubation gegeben wurde. Für die Spaltungsreaktionen bei verschiedenen Cas13-Konzentrationen wurden die vorgebildeten Cas13-crRNA-Komplexe auf Eis verdünnt, wobei das Cas13-crRNA-Verhältnis bei 2:1 konstant gehalten wurde. Dann wurden die 5'-IR800-markierte Ziel-ssRNA und/oder zusätzliche unmarkierte und fluoreszenzkörpermarkierte ssRNAs zu dem vorgebildeten Komplex gegeben und 30 Minuten bei 37 °C inkubiert. Die Endkonzentration von kurzen Substrat-RNAs betrug 100 nM, und die fluoreszenzkörpermarkierte ssRNA zur Visualisierung von kollateralen Effekten betrug 50 nM, sofern nicht anders angegeben. Die Ansätze wurden durch Zugabe von 1 ug/uL Proteinase K (Ambion) und 10 Minuten Inkubieren bei 37 °C gequencht.
Danach wurde der Ansatz mit 50 mM EDTA versetzt, dann mit gleichen Teilen 2x TBE-Urea Sample Buffer (Invitrogen) gemischt und anschließend 3 Minuten bei 65 °C denaturiert. Die Proben wurden durch denaturierende Gelelektrophorese an 6 % bzw. 15 % TBE-Urea-Gelen (Invitrogen) analysiert. Fluoreszenzbilder wurden unter Verwendung eines Gel Doc EZ® (Biorad) erhalten, und Nahinfrarotbilder wurden unter Verwendung eines Odyssey®-CLx-Scanners (LI-COR Biosciences) erhalten. Danach wurden die Gele 10 bis 20 Minuten mit SYBR-Gold-Nukleinsäure-Färbemittel (Invitrogen) angefärbt und auf dem Gel Doc EZ® abgebildet, um die Ergebnisse der Fluoreszenz- und IR-Bilder zu verifizieren.
Apo EsCas13d und RspCas13d (100 - 0,4 nM) wurden gegen Nichtziel-ssDNA-Substrat (100 nM) titriert, wobei das denaturierende Gel (22A-B) minimale Spaltungsprodukte zeigte. Dann wurden EsCas13d und RspCas13d im Komplex mit crRNA (100 - 0,4 nM) gegen Nichtziel-ssDNA-Substrate (100 nM) titriert, wobei das resultierende denaturierende Gel ( 23A-B) minimale Spaltungsprodukte zeigte.
Es wurden Spacersequenzen für einige stark depletierte Arrays aus dem Bakterien-Screening für jedes CRISPR-Cas-System identifiziert und Prä-crRNAs mit der Repeat-Spacer-Repeat-Anordnung für jeden Effektor erzeugt. Dann wurden EsCas13d und RspCas13d im Komplex mit crRNA (100 - 0,4 nM) gegen Ziel-ssDNA-Substrate (100 nM) titriert, wobei das resultierende denaturierende Gel (24A-B) Absättigung von Zielspaltungsaktivität bei ca. 50 nM RspCas13d-crRNA-Komplex und 100 nM EsCas13d-crRNA-Komplex zeigte. In einem zusätzlichen Experiment wurden EsCas13d- und RspCas13d-Enzym-crRNA-Komplexe mit 130nt-ssRNA-Substraten, die zum crRNA-Spacer komplementäre Zielsequenzen enthielten, anvisiert, wobei eine gezielte RNA-Spaltungsaktivität für beide Enzyme gezeigt wurde ( 25A-B).

Zur Beurteilung der kollateralen RNA-Spaltungsaktivität wurden identische Ansätze hergestellt und mit fluoreszenzkörpermarkierten 800-nt-ssRNA-Fragmenten, die die Zielsequenz nicht enthielten, versetzt. Sowohl EsCas13d als auch RspCas13d zeigten erhebliche kollaterale Aktivität, die bei der Zielspaltung auftritt (26A-B). Ferner wurde gezeigt, dass sowohl EsCas13d als auch RspCas13d robuste sequenzspezifische Ziel- und Kollateral-RNA-Spaltungsaktivität über mehrere crRNAs mit und ohne komplementäre Substrate zeigen ( 26C-D).

Tabelle 9. Zur Erzeugung der ssRNA-Ziele mittels In-vitro-Transkription verwendete ssDNA-Primer

ID	Typ	Quelle	Beschreibung	Sequenz
T7_primer	ssDNA	IDT	Annealing mit verschiedenen IVT_rev-Primern zur Erzeugung einer doppelsträngigen T7-Promotorregion für IVT	CCTCGAGTAATACGACTCACTATAGGG (SEQ ID NO: 110)
cr_F1_IVT_rev	ssDNA	IDT	Für IVT von cr_F1	GTTTTAGACCCCTGCAATTTTGCACGGGTGTAGTTCGCATTTCAGTCAGTTGCTCAATGTACCTATGTTTTAG ACCCCTGCAATTTTGCACGGGTGTAGTTCCCCTATAGTGAGTCGTATTACTCGAGGAATTCTTATTATTTCT (SEQ ID NO: 111)
cr_F4_IVT_rev	ssDNA	IDT	Für IVT von cr_F4	GTTTTAGACCCCTGCAATTTTGCACGGGTGTAGTTCACGCCTGAATAAGTGATAATAAGCGGATGAGTTTTAG ACCCCTGCAATTTTGCACGGGTGTAGTTCCCCTATAGTGAGTCGTATTACTCGAGGAATTCTTATTATTTCT (SEQ ID NO: 112)
cr_F7_IVT_rev	ssDNA	IDT	Für IVT von cr_F7	GTTTTAGACTAGTGCAAATTCGCACCAGTGTAGTAGAGCTGGTGATATGGGATAGTGTTCACCCTTGGTTTTA GACTAGTGCAAATTTGCACCAGTGTAGTAGCCCTATAGTGAGTCGTATTACTCGAGGGATCCTTATTACATTT (SEQ ID NO: 113)
cr_F10_IVT_rev	ssDNA	IDT	Für IVT von cr_F10	GTTTTAGACTAGTGCAAATTCGCACCAGTGTAGTAGTTCGTTAATACAGATGTAGGTGTTCCACAGGGTTTTA GACTAGTGCAAATTTGCACCAGTGTAGTAGCCCTATAGTGAGTCGTATTACTCGAGGGATCCTTATTACATTT (SEQ ID NO: 114)
cr_3_IVT_rev	ssDNA	IDT	Für IVT von cr_3	GTTTTAGTCCCCTTCGTTTTTGGGGTAGTCTAAATCCTAAGGAAGCTAAAATGGAGAAAAAAATGTTTTAGTC CCCTTCGTTTTTGGGGTAGTCTAAATCCCCTATAGTGAGTCGTATTACTCGAGGGATCCTTATTACATTT (SEQ ID NO: 115)
cr_4_IVT_rev	ssDNA	IDT	Für IVT von cr_4	GTTTTAGTCCCCTTCGTTTTTGGGGTAGTCTAAATCGCTGGATGGCCTTCCCCATTATGATTCTGTTTTAGTC CCCTTCGTTTTTGGGGTAGTCTAAATCCCCTATAGTGAGTCGTATTACTCGAGGGATCCTTATTACATTT (SEQ ID NO: 116)
sub_F1_rev	ssDNA	IDT	Für IVT von sub_F1	ATACGCTGTGGTTCGCCAAGTCCCAATGGCATCGTAAAGAACATTTTGAGGCATTTCAGTCAGTTGCTCAATG TACCTATAACCAGACCGTTCAGCTGGATATTACGGCCAAGAGAGCACGAAAGTGTTG (SEQ ID NO: 117)
sub_F4_rev	ssDNA	IDT	Für IVT von sub_F4	ATACGCTGTGGTTCGCCAAGAGTTATTGGTGCCCTTAAACGCCTGGTGCTACGCCTGAATAAGTGATAATAAG CGGATGAATGGCAGAAATTCGAAAGCAAATTCGACCCAAGAGAGCACGAAAGTGTTG (SEQ ID NO: 118)
sub_F7_rev	ssDNA	IDT	Für IVT von sub_F7	ATACGCTGTGGTTCGCCAAGCGGAATTCCGTATGGCAATGAAAGACGGTGAGCTGGTGATATGGGATAGTGTT CACCCTTGTTACACCGTTTTCCATGAGCAAACTGAAACAAGAGAGCACGAAAGTGTTG (SEQ ID NO: 119)
sub_F10_rev	ssDNA	IDT	Für IVT von sub_F10	ATACGCTGTGGTTCGCCAAGCTCCCAGAGCCTGATAAAAACGGTTAGCGCTTCGTTAATACAGATGTAGGTGT TCCACAGGGTAGCCAGCAGCATCCTGCGATGCAGATCCAAGAGAGCACGAAAGTGTTG (SEQ ID NO: 120)
PT7_Sub_fw	ssDNA	IDT	Für PCR alle Zielsubstrate für IVT	CGAAATTAATACGACTCACTATAGGGATACGCTGTGGTTCGCCAAG (SEQ ID NO: 121)
Sub_rv	ssDNA	IDT	Für PCR alle Zielsubstrate für IVT	CGAAATTATTTCGACTGAGATTATTCCCCAACACTTTCGTGCTCTCTT (SEQ ID NO: 122)
GFP_PCR_fwd	ssDNA	IDT	Für PCR GFP-Gen für IVT	GATGCGTCCGGCGTAGAGGATCGAGATCTC (SEQ ID NO: 123)
Anmerkungen:
IDT IVT: ssDNA-Primer aus der IDT wurden direkt einer Annealing-Reaktion mit dem T7_Primer unterworfen und transkribiert
PCR IVT: eine PCR unter Verwendung des IDT-Oligomers oder GFP als Matrize wurde verwendet, um zunächst die dsDNA mit der T7-Promotorsequenz zu erzeugen, an der dann IVT durchgeführt wurde
IDT: Primer von Integrated DNA Technologies bestellt

Literatur
East-Seletsky, A., O'Connell, M.R., Knight, S.C., Burstein, D., Cate, J.H.D., Tjian, R. und Doudna, J.A. (2016). Two distinct RNase activities of CRISPR-C2c2 enable guide-RNA processing and RNA detection. Nature 538, 270-273.
Knott, G.J., East-Seletsky, A., Cofsky, J.C., Holton, J.M., Charles, E., O'Connell, M.R. und Doudna, J.A. (2017). Guide-bound structures of an RNA-targeting A-cleaving CRISPR-Cas13a enzyme. Nat. Struct. Mol. Biol. 24, 825-833.
Beispiel 4. Validierung von Typ-VI-D-CRISPR-Cas-Systemen mit Cas13d- und WYL1-Aktivität in vitro (biochemisch)
Putative akzessorische Proteine mit WYL-Domänen und zusätzlichen vorhergesagten DNA-Bindungsdomänen liegen in der großen Mehrzahl der Typ-VI-D-Loci vor (1). Zunächst wurde das vorhergesagte minimale CRISPR-Cas-System für RspCasl3d mit sowohl dem RspCas13d-Effektor als auch dem akzessorischen RspWYL1-Protein synthetisiert und gescreent. Zur Untersuchung der Modulation von Cas13d durch WYL1 wurden sowohl der RspCasl3d-Effektor als auch das akzessorische RspWYL1-Protein separat gescreent. Der Vergleich der Screening-Ergebnisse für den RspCasl3d-Effektor alleine mit dem RspCasl3d-System einschließlich RspWYL1 zeigt, dass die auf RspCas13d abzielende RNA-Spaltung in Gegenwart von RspWYL1 erhöht ist (27A-B). Ein Bakterien-Screening mit RspWYL1 alleine ergab eine minimale Zahl von Hits, was anzeigt, dass RspWYL1 keine individuelle Aktivität hat (28). Zusammengenommen legen diese Ereignisse nahe, dass die enzymatische RspCas13d-Aktivität entweder direkt oder indirekt durch WYL1 moduliert wird.
Ferner wurde untersucht, ob WYL1 RspCas13d in vitro modulieren kann, indem rekombinantes RspWYL1 zur Verwendung in biochemischen ssRNA-Spaltungstests aufgereinigt wurde. Um eine hohe Auflösung von erhöhter oder verringerter Komplexaktivität in Gegenwart von WYL zu ermöglichen, wurden Dosen von Cas13d-crRNA-Komplex gewählt, die zu ungefähr 50 % Spaltung der Zielsubstrate auf Basis einer Dosis-Titrations-Kurve führten (24A-B). Casl3d-crRNA wurde ohne RspWYL1, mit einem äquimolaren Verhältnis von RspWYL1 zu Cas13d oder mit einem molaren Überschuss von RspWYL1 gegenüber Cas13d vorinkubiert, wonach die erhaltenen Proben unter den gleichen Bedingungen wie bei den Ziel-Spaltungstests mit Ziel- und Kollateral-ssRNA inkubiert wurden. Dabei wurde beobachtet, dass RspWYL1 sowohl die gezielte als auch die kollaterale ssRNA-Spaltungsaktivität von RspCas13d auf dosisabhängige Weise erfüllt, wobei ein molarer Überschuss von RspWYL1 zur größten Erhöhung der Cas13d-Aktivität führte (29A-C).
Angesichts der Tatsache, dass Typ-VI-D-CRISPR-Cas-Systeme eine WYL-Domäne enthaltende akzessorische Proteine in mehreren unabhängigen Ereignissen erworben zu haben scheinen (1, 6, 8, 9), wurde die Spezifität von RspWYL1 bei der Modulierung der Spaltungsaktivität von orthologen Casl3d-Effektoren getestet. Dabei wurde beobachtet, dass RspWYL1 die gezielten und kollateralen ssRNA-Nukleaseaktivitäten von EsCas13d in einem ähnlichen Maß erhöht, wie es für RspCas13d beobachtet wurde (30A-B). Somit scheinen die Effekte von WYL1-Orthologen nicht auf ihre nativen Effektoren beschränkt zu sein, sondern reflektieren stattdessen einen modularen regulatorischen Mechanismus für Cas13d-Effektoren.
Um zu testen, ob RspWYL1 die Aktivität eines Typ-VI-B-Cas13b-Effektors modulieren kann, wurden biochemische ssRNA-Spaltungstests in vitro unter Verwendung von rekombinantem RspWYL1 und Bergeyella zoohelcum-Cas 13b (BzCasl3b) durchgeführt. Wie in 31 gezeigt, erhöhte RspWYL1 die Aktivität von BzCas13b, was zeigt, dass dieses akzessorische Protein auch dazu in der Lage ist, die Aktivität vonCasl3b-Effektoren zu erhöhen.
Beispiel 5. Typ-VI-D-CRISPR-Cas-Systeme können mit einem fluoreszierenden Reporter zum spezifischen Nachweis von Nukleinsäurespezies verwendet werden
Die dualen Nukleaseaktivitäten von Cas13-Effektoren (d. h. zielspezifische und nichtspezifische kollaterale RNase-Aktivität) machen diese Effektoren zu aussichtsreichen Kandidaten zur Verwendung beim Nachweis von Nukleinsäurespezies. Einige dieser Methoden sind bereits beschrieben worden (siehe z. B. East-Seletsky et al. (2016), Gootenberg et al. (2017) und Gootenberg et al. (2018) „Multiplexed and portable nucleic acid detection platform with Cas13, Cas12a, and Csm6“ Science 15. Feb. 2018: eaaq0179), wobei das allgemeine Prinzip des RNA-Nachweises mit Cas13a (East-Seletsky et al. (2016)), unterstützt durch Amplifikation zur Erhöhung der Nachweisempfindlichkeit und Optimierung von zusätzlichen Cas13a-Enzymen (Gootenberg et al. (2017)) und neuerdings die Mitverwendung von zusätzlichen RNA-Zielen, orthologen und paralogen Enzymen und Csm6-Aktivator zur Ermöglichung eines Multiplexennachweises von Nukleinsäuren zusammen mit einer Erhöhung der Nachweisempfindlichkeit (Gootenberg et al. (2018)) beschrieben wird. Die Hinzufügung von Cas13d zu diesem Toolkit stellt nicht nur einen zusätzlichen Kanal orthogonaler Aktivität für den Nukleinsäurenachweis bereit, sondern der die Nuklease-Aktivität erhöhende Effekt der WYL1-Proteine über orthologe und paraloge Effektoren hinweg deutet auch darauf hin, dass WYL1-Proteine eine aktivitätssteigernde Rolle spielen können.
Es wurde die Fähigkeit von EsCasl3d oder RspCas13d zur Spaltung des Substrats RNaseAlert® v2 (Thermo Fisher) unter verschiedenen Pufferbedingungen getestet. Unter Verwendung eines Puffers aus 50 mM Kaliumacetat, 20 mM Tris-acetat, 10 mM Magnesiumacetat, 100 µg/ml BSA, pH 7,9, wurden entscheidende Verbesserungen gegenüber den beschriebenen Spaltung- oder Prozessierungspuffern in folgender Hinsicht erzielt: 1) maximale Differenzierung von Anvisierung gegenüber Nicht-Anvisierung, 2) Gesamtintensität des Fluoreszenzsignals und 3) ausreichende Stabilität zur Unterstützung von Enzymaktivität für die Dauer der Messung.
Als Nächstes wurden verschiedene kurze Fluoreszenzquencher-RNA-Substrate für den Fluoreszenznachweis des kollateralen Effekts getestet. Hierzu gehörten RNase alert v2, ein Poly-G- und ein Poly-U-Substrat. Dieses Experiment wurde unter Verwendung einer Reaktionsendkonzentration von 40 nM des Cas13d-Effektors, 20 nM crRNA, 5 nM der Ziel- oder Nicht-Ziel-RNA und 160 nM des Fluoreszenzquencher-Substrats zusammen mit 0,5 µL des murinen RNase-Inhibitors (in 50 uL) unter der optimierten Pufferbedingung gemäß obiger Beschreibung durchgeführt. Der Ansatz wurde 3 Stunden bei 37 °C inkubiert, wonach die Fluoreszenz auf einem Lightcycler 480 II in Intervallen von einer Minute ausgelesen wurde. Dies zeigte, dass sowohl RspCas13d als auch EsCas13d zwischen einer Ziel- und einer Nicht-Ziel-RNA unter Verwendung eines Poly-U-Substrats unterscheiden können (32). Des Weiteren liegen die Unterschiede zwischen der Aktivität der beiden Cas13d-Effektoren an den verschiedenen Substratsidentitäten die Möglichkeit nahe, über mehrere Kanäle für den Reporter zu verfügen.
Die oben beschriebenen Verfahren können zusätzliche Verbesserungen zur Erhöhung der Nachweisempfindlichkeit beinhalten. Beispielsweise kann ein Präamplifikationsschritt einer Nukleinsäure in der Probe (z. B. einer Zielnukleinsäure von Interesse) durchgeführt werden. Dieser Präamplifikationsschritt kann nach einem beliebigen in der Technik bekannten Verfahren einschließlich, aber nicht darauf beschränkt, enzymatischer Verfahren wie isothermischer Amplifikation und Rekombinase-Polymerase-Amplifikation (RPA) sowie physikalische Anreicherung unter Verwendung von Verfahren wie Immunopräzipitation. Des Weiteren können zum Nachweis von DNA-Spezies Proben, die DNA-Spezies enthalten, transkribiert werden, um unter Amplifikation des Ziels das Substrat in ein Cas13d-kompatibles Substrat (z. B. RNA) umzuwandeln. Es kann auch eine Reihe von existierenden Verfahren zur Nukleinsäureanreicherung oder Unterdrückung von Hintergrundamplifikation durchgeführt werden, um die Nachweisempfindlichkeit und -spezifität zu erhöhen.
Beispiel 6. Typ-VI-D-CRISPR-Cas-Systeme können zur Bereitstellung von Genotyp-gated-Kontrolle von Zelltod oder Dormanz verwendet werden
Durch Hybridisierung des bzw. der Typ-VI-D CRISPR-Cas-Effektorproteins bzw. - crRNA mit einem zum crRNA-Spacer komplementären RNA-Ziel wird ein aktiver Komplex gebildet, der unspezifische, „kollaterale“ RNase-Aktivität zeigen kann. Eine solche kollaterale RNAse-Aktivität kann zur Bereitstellung von Genotyp-gated-Kontrolle von Zelltod oder Dormanz verwendet werden. Die Abhängigkeit einer solchen Aktivität vom Vorliegen eines spezifischen RNA-Ziels in einer Zelle ist wertvoll, da sie ein Targeting spezifischer Zellpopulationen bezogen auf spezifische zugrundeliegende Transkriptionszustände oder Genotypen ermöglicht. Sowohl in eukaryontischen als auch prokaryontischen Umgebungen gibt es zahlreiche Anwendungen für eine solche Kontrolle von Zelltod oder Dormanz.
Für prokaryontische Anwendungen kann ein Typ-VI-D-CRISPR-Cas-System (z. B. einschließlich eines Typ-VI-D-Effektors und einer crRNA) zugeführt werden (z. B. in vitro oder in vivo), um Zelltod oder Dormanz spezifischer Prokaryontenpopulationen (z. B. Bakterienpopulationen) auf eine genotyp- und transkriptomspezifische Weise zu induzieren. Beispielsweise kann das Typ-VI-D-CRISPR-Cas-System eine oder mehrere crRNAs enthalten, die spezifisch eine bestimmte prokaryontische Gattung, Spezies bzw. einen bestimmten prokaryontischen Stamm anvisieren. Dieses spezifische Targeting hat viele therapeutische Vorteile, da es zur Induktion von Tod oder Dormanz unerwünschter Bakterien (z. B. pathogener Bakterien wie Clostridium difficile) verwendet werden kann. Darüber hinaus können die vorliegend bereitgestellten Typ-VI-D-Systeme zum Anvisieren von prokaryontischen Zellen mit spezifischen Genotypen oder Transkriptionszuständen verwendet werden. Innerhalb der mikrobiellen Vielfalt, die den Menschen besiedelt, kann nur eine kleine Zahl von Bakterienstämmen Pathogenese induzieren. Ferner liegen selbst innerhalb pathogener Stämme wie Clostridium difficile nicht alle Mitglieder der Bakterienpopulation kontinuierlich in aktiven, krankheitsverursachenden Zuständen vor. Somit ermöglicht die Verwendung von RNA-Targeting zur Kontrolle der Aktivität eines Typ-VI-D-Effektors bezogen auf den Genotyp und Transkriptionszustand einer prokaryontischen Zelle eine spezifische Kontrolle darüber, welche Zellen anvisiert werden, ohne das gesamte Mikrobiom zu stören.
Darüber hinaus lassen sich Bakterienstämme leicht mit genetischen Schaltkeisen oder umweltkontrollierten Expressionselementen manipulieren, so dass genetische Kill-Switches erzeugt werden, die das Wachstum, die Kolonisierung und/oder das Abstoßen der manipulierten Bakterienstämme begrenzen. Beispielsweise lässt sich die Expression von TypeVI-D-Effektoren, einer spezifischen crRNA oder spezifischen Ziel-RNA unter Verwendung von Promotoren kontrollieren, die aus den Regulatorregionen von Genen stammen, die Proteine codieren, die als Antwort auf externe Reize exprimiert werden, wie z. B. kälteempfindliche Proteine (PcspA), Hitzeschockproteine (Hsp), chemisch induzierbare Systeme (Tet, Lac, AraC). Die kontrollierte Expression eines oder mehrerer Elemente des Typ-VI-D-Systems ermöglicht die Expression des voll funktionsfähigen Systems nur nach Inkontaktkommen mit einem Umweltreiz, wodurch wiederum die unspezifische RNase-Aktivität des Systems aktiviert und damit Zelltod oder Dormanz induziert wird. Kill-Switches, die Casl3d-Effektoren wie die vorliegend beschriebenen enthalten, können gegenüber traditionellen Kill-Switch-Designs wie Toxin/Antitoxin-Systemen (z. B. CcdB/CcdA-Typ-II-Toxin/Antitoxin-Systemen) von Vorteil sein, da sie nicht von relativen Proteinexpressionsverhältnissen, die von einer Leaky-Expression von einem Promotor (z. B. einem umweltreizabhängigen Promotor) betroffen sein können, abhängig sind und somit eine präzisere Kontrolle des Kill-Switch ermöglichen.
Zur Beurteilung der Fähigkeit von Cas13d, die Dormanz bzw. den Tod von Bakterienzellen nach Erkennung einer Ziel-RNA direkt zu induzieren, wurde eine Variation des in Beispiel 2 beschriebenen In-vivo-Funktion-Screening durchgeführt, bei der das Antibiotikum Tetracyclin aus der Kulturplatte entfernt wurde. Die Entfernung der Tetracyclinselektion bedeutet, dass das Überleben der Wirts-E. coli nicht länger von der erfolgreichen natürlichen Expression des Tetracyclinresistenz-Proteins von pACYC184 abhing. Allerdings enthielt die Targeting-Bibliothek noch crRNAs mit Spacern gegen das Tetracyclinresistenz-Gen, Tc^R. Bei Entfernung der Abhängigkeit des E. coli-Überlebens von erfolgreicher Tc^R-Expression würde man erwarten, dass es keine Auswirkung auf E. coli-Überleben geben würde, falls der Cas13d-Effektor Tc^R-mRNA direkt spaltete, und somit sollten keine Tc^R-Targeting-Spacer als starkes Depletionsereignis auf dem In-vivo-Screen verzeichnet werden. Dennoch zeigten die Screening-Daten ohne Tetracyclinselektion noch stark depletierte Spacer am Tc^R-Gen (33A-B, 34A-B), was vermuten lässt, dass durch die Wirkung von Cas13d-Targeting-RNA allein ein Wachstumsnachteil oder Zelltod vermittelt werden kann, auch ohne Antibiotikaselektion.
Bei eukaryontischen Anwendungen rühren viele Krankheiten von spezifischen Genotypen oder Transkriptionszuständen in den erkrankten Zellen her, die diese von gesunden Zellen unterscheiden. Krankheitsbezogene Genotypen sind häufig in Regionen des Genoms enthalten, die exprimiert werden, womit Transkripte erzeugt werden, die von einem Typ-VI-D-Effektor unter Verwendung einer crRNA, die spezifisch den Genotyp anvisiert, anvisiert werden können. Ein solches Targeting kann Zelldormanz oder Zelltod in einer Population von Zellen mit mit einer spezifischen Krankheit verbundenen Mutationen liefern. Eine beispielhafte Anwendung ist die gezielte Depletion von Krebszellen, die spezifische Mutationen enthalten, wie z. B. Driver-Mutationen, die in der Tumormikroumgebung spontan auftreten. Darüber hinaus können die vorliegend beschriebenen Typ-VI-D-CRISPR-Cas-Systeme als Kill-Switch-Mechanismen zum Induzieren des Tods bzw. der Dormanz rekombinanter eukaryontischer Zellen, wie z. B. chimären Antigenrezeptor exprimierender T-Zellen, verwendet werden, so dass ihre Aktivität in ungeeigneten Umgebungen oder dann, wenn sie nicht länger erwünscht ist, begrenzt wird.
Zusätzlich beinhalten in einem therapeutischen Zusammenhang zahlreiche Kranheitsprozesse oft eine Fehlregulation zellulärer Wege, die zu Transkriptionszuständen führen, die von der normalen Basislinie verschieden sind. Ein Typ-VI-D-CRISPR-Cas-System kann zur spezifischen Induktion des Tods bzw. der Dormanz von Zellen, die ein verändertes Transkriptom aufweisen, verwendet werden. Beispielsweise lässt sich das System zur Induktion des Tods bzw. der Dormanz von Zellen mit einem zeitlich veränderten Transkriptom verwenden, wie z. B. an einer entzündungshemmenden Antwort während des Aufflammens einer Autoimmunkrankheit beteiligten Zellen, die von normalen Zellen differenziert werden.
Die Expression der vorliegend beschriebenen Typ-VI-D-CRISPR-Cas-Systeme kann unter Verwendung von synthetischer Biologie kontrolliert und exprimiert werden, so dass Zelltod oder Dormanz induziert oder ausgelöst wird. Beispielsweise lässt sich die Expression von Genen, die jeweils die einzelnen Komponenten der Typ-VI-D-CRISPR-Cas-Systeme codieren, unter Verwendung genetischer Elemente kontrollieren, einschließlich, doch nicht darauf beschränkt, Promotoren, die durch Umweltreize wie Hypoxie (hif), neuronale Aktivität (fos, arc), Hitzeschock (HSF-1) oder exogene Kontrollen wie Licht (FixJ), Steroide (LexA), Alkohol (AlcA), Tetracyclin (Tet) reguliert werden. Diese Promotoren können zur Kontrolle der Expression von Komponenten des Typ-VI-D-CRISPR-Cas-Systems und/oder eines spezifischen RNA-Ziels zur Aktivierung des Systems verwendet werden, wodurch der Tod bzw. die Dormanz von anvisierten Zellen als Antwort auf die jeweiligen Umweltreize, auf die die Promotoren reagieren, induziert wird.
Beispiel 7. Adaptation von Typ-VI-D-CRISPR-Cas-System-Effektoren für Aktivität in Eukaryonten und Säugern
Jenseits der vorliegend beschriebenen biochemischen und diagnostischen Anwendungen besitzen programmierbare RNA-modifizierende CRISPR-Cas-Systeme wie vorliegend beschriebene Typ-VI-D-, z. B. Casl3d-, Systeme wichtige Anwendungen bei eukaryontischen Zellen, die von therapeutischen Verwendungen wie Kranheitstranskriptkorretur bis zu Fortschritten bei Forschung und Entwicklung, wie z. B. für Transkriptom-Engineering und RNA-Visualisierung, reichen.
Zur Entwicklung von Typ-VI-D-CRISPR-Cas-Systemen für eukaryontische Anwendungen wrden die die Proteineffektoren codierenden Konstrukte zunächst für die Expression in Säugerzellen codonoptimiert, wobei gegebenenfalls der N-Terminus oder/und der C-Terminus des Effektorproteins mit spezifischen Lokalisation-Tags versehen wird. Diese Lokalisation-Tags können Sequenzen wie NLS (Nuclear Localization Signal)-Sequenzen, durch die eine Lokalisierung des Effektors zum Zellkern zur Modifikation entstehender RNAs erfolgt, sowie NES(Nuclear Export Signal)-Sequenzen, durch die der Effektor zum Cytoplasma gelenkt wird, um reife RNAs zu modifizieren, beinhalten. Diese Sequenzen sind oben im Abschnitt „Funktionsmutationen“ beschrieben. Andere akzessorische Proteine, wie z. B. Fluoreszenzproteine, können weiter angehängt werden. Es konnte gezeigt werden, dass sich durch die Addition robuster „Superfolding“-Proteine wie Superfolding-GFP (Green Fluorescent Protein) die Aktivität von Cas13-Enzymen in Säugerzellen erhöhen lässt, wenn sie am Effektor angehängt sind (Abudayyeh et al. (2017) Nature 550(7675): 280-4, und Cox et al. (2017) Science 358(6366): 1019-27).
Die für den Cas13d-Effektor und angehängte akzessorische Proteine und Lokalisationssignale codierende codonoptimierte Sequenz wird dann in einen eukaryontischen Expressionsvektor mit der entsprechenden 5'-Kozak-eukaryontischen Translationsinitiationssequenz, eukaryotischen Promotoren und Polyadenylierungssignalen kloniert. In Säuger-Expressionsvektoren können diese Promotoren z. B. allgemeine Promotoren wie CMV, EF1a, EFS, CAG, SV40 und zelltypspezifische RNA-Polymerase-II-Promotoren wie Syn und CamKIIa für neuronale Expression und TBG (Thyroxine Binding Globulin) für Hepatozyten-Expression, um nur einige zu nennen, umfassen. Analog können geeignete Polyadenylierungssignale, ohne jedoch darauf beschränkt zu sein, SV40, hGH und BGH umfassen. Zur Expression der Prä-crRNA oder reifen crRNA können RNA-Polymerase-III-Promotoren wie H1 oder U6 verwendet werden.
Je nach Anwendung und Verpackungsart kann es sich bei dem eukaryontischen Expressionsvektor um ein Lentivirus-Plasmidgrundgerüst, AAV(Adeno-Associated Viral)-Plasmidgrundgerüst oder ähnliches Plasmidgrundgerüst handeln, das bei rekombinanter Virusvektorproduktion verwendet werden kann. Insbesondere macht ihre geringe Größe Typ-VI-D-CRISPR-Cas-Effektorproteine, z. B. Cas13d-Effektorproteine, in idealer Weise geeignet zur Verpackung zusammen mit ihrer crRNA und entsprechenden Kontrollsequenzen in ein einzelnes Adeno-assoziiertes-Viruspartikel; durch die Verpackungsgrößenbeschränkung von 4,7 kb für AAV kann die Verwendung größerer Casl3-Effektoren ausgeschlossen sein.
Nach dem Adaptieren der Sequenzen, Zuführungsvektoren und Methoden für die Verwendung bei Eukaryonten und Säugern werden unterschiedliche Cas13d-Konstrukte wie vorliegend beschrieben auf ihre Leistungsfähigkeit charakterisiert. Für effizientes Testen der Säuger-Aktivitätsniveaus verschiedener Konstrukte wird ein Doppel-Luciferase-Reporter mit Expression von sowohl Gaussia-Luciferase (Gluc) als auch Cypridinia-Luciferase (Cluc) verwendet (Abudayyeh et al. (2017) Nature 550(7675): 280-4). Targeting des Gluc-Transkripts und Vergleichen der relativen Aktivität gegenüber der internen Kontrolle der Cluc-Aktivität ermöglicht eine Abschätzung der Cas13d-Wirksamkeit in einer Säugerumgebung. Diese Aktivität wird am Reporter über Knockdown endogener Transkripte, wie z. B. vom gut charakterisierten KRAS-Genlocus, bestätigt. Das Doppel-Luciferase-Reporterkonstrukt wird zusammen mit Plasmiden, die das Typ-VI-D-CRISPR-Cas-System und zugehörige crRNA exprimieren, mittels transienter Transfektion (z. B. Lipofectamine® 2000) Modellzelllinien wie HEK-293T-Zellen zugeführt.
Neben dem Testen verschiedener Konstruktkonfigurationen und akzessorischer Sequenzen an Einzelzielen werden Ansätze auf Pooled-Bibliothek-Basis verwendet, um 1) jegliche Targeting-Abhängigkeit spezifischer Cas13d-Effektorproteine in Säugerzellen sowie 2) den Effekt von Fehlpaarungsstellen und Kombinationen über die Länge der TargetingcrRNA zu bestimmen. Kurz gesagt enthält die Pooled-Bibliothek ein Plasmid, das eine Ziel-RNA mit unterschiedlichen flankierenden Sequenzen sowie Fehlpaarungen am bzw. an den im Screening-Experiment verwendeten Guide bzw. Guides exprimiert, so dass eine erfolgreiche Zielerkennung und -spaltung zur Depletion der Sequenz aus der Bibliothek führt. Weiterhin kann mRNA-Sequenzierung zur Bestimmung von Off-target-RNA-Spaltungseffekten des Typ-VI-D-CRISPR-Cas-Systems verwendet werden.
Ergänzend zu den Möglichkeiten der Transkriptommodifikation unter Verwendung der RNA-Spaltungsaktivität von Cas13d können auch die Anwendungen katalytisch inaktiver Cas13d-Effektorproteine, bei denen die konservierten Reste der beiden HEPN-Domänen vom Arginin und Histidin zu Alanin mutiert sind, erforscht werden. Wie andere Cas13-Enzyme behält katalytisch inaktives Cas13d (unter dCas13d bekannt) wahrscheinlich seine programmierbare RNA-Bindungsaktivität, obwohl es nicht länger Ziel- oder kollaterale RNA spalten kann.
Neben direkten Verwendungen von dCas13d, wie z. B. bei RNA-Immunpräzipitation, Transkriptmarkierung (bei Fusion des dCas13d-Effektors mit Fluoreszenzprotein) und Translationsmodifikation über stellenspezifische gezielte Störung des nativen Translationsapparats, können andere Domänen an das dCas13d-Protein gehängt werden, so dass weitere Funktionalität bereitgestellt wird. Aktivitäten dieser Domänen umfassen, ohne jedoch darauf beschränkt zu sein, RNA-Basenmodifikation (ADAR1, ADAR2, APOBEC), RNA-Methylierung (m⁶A-Methyltransferasen und Demethylasen), Spleißmodifikatoren (hnRNPA1), Lokalisationsfaktoren (KDEL-Retentionssequenz, mitochondriales Targetingsignal, peroxisomales Targetingsignal), Translationsmodifikationsfaktoren (EIF4G-Translationsinitiationsfaktor, GLD2-Poly(A)-Polymerase, Transkriptionsrepressoren). Darüber hinaus können Domänen zur Bereitstellung zusätzlicher Kontrolle wie lichtgesteuerter Kontrolle (Cryptochrome) und chemisch induzierbarer Komponenten (FKBP-FRB-Chemisch-induzierbare-Dimerisierung) beigefügt werden.
Zur Optimierung der Aktivität solcher Fusionsproteine wird ein systematischer Weg zum Vergleichen von Linkern, die das dCas13d mit der angehängten Domäne verbinden, benötigt. Diese Linker können, ohne jedoch darauf beschränkt zu sein, flexible Glycin-Serin(GS)-Linkers in verschiedenen Kombinationen und Längen, rigide Linker wie die Alpha-Helix bildende Sequenz EAAAK (SEQ ID NO: 124), XTEN-Linker (Schellenberger V, et al. Nat. Biotechnol. 2009;27:1186-1190) sowie unterschiedliche Kombinationen davon umfassen (siehe TABELLE 10). Die verschiedenen Designs werden dann parallel über den gleichen crRNA-Zielkomplex und Funktions-Readout getestet, um zu bestimmen, welches die gewünschten Eigenschaften liefert.
Zum Adaptieren von Cas13d für die Verwendung bei gezielter RNA-Basenmodifikation (siehe z. B. Cox DBT et al., Science 2017 10.1126/science.aaq0180) wird mit der Kombination von Cas13d-Ortholog und NES begonnen, die die höchste endogene Säuger-RNA-Knockdown-Aktivität ergab, und eine Mutation der konservierten Reste der beiden HEPN-Domänen zur Erzeugung eines katalytisch inaktiven Enzyms durchgeführt. Als nächstes wird ein Linker zur Erzeugung des Fusionsproteins zwischen Cas13d-NES und der Base-Editing-Domäne verwendet. Anfangs besteht diese Domäne aus der Mutante ADAR2_DD(E488Q/T375G), die zuvor für Hyperaktivität und größere Spezifität bei Verwendung mit Cas13b in REPAIRv2 konstruiert wurde, doch können alternative Deaminasen wie unter anderem ADAR1 und APOBEC 1 parallel konstruiert und getestet werden (TABELLE 10). Angesichts der wahrscheinlichen Strukturunterschiede zwischen dem kleineren Casl3d und den zuvor charakterisierten Cas13-Effektoren können alternative Linker-Designs und -Längen die optimale Konstruktion des Base-Editing-Fusionsprotein ergeben.
Zur Bewertung der Aktivität der von dCas13d abgeleiteten Base-Editors werden die HEK-293T-Zellen mit dem dCas13d-ADAR-Konstrukt, einem die cRNA exprimierenden Plasmid und gegebenenfalls einem Reporterplasmid, falls Targeting des Reporters und nicht eines endogenen Locus erfolgt, transient transfiziert. Die Zellen werden 48 Stunden nach transienter Transfektion geerntet, die RNA wird extrahiert und revers-transkribiert unter Erhalt einer cDNA-Bibliothek, die für NGS präpariert wird. Analyse der Basenzusammensetzung von Loci von Proben, die die Targeting- vs. Negativkontrolle-Non-Targeting-crRNAs enthalten, liefert Informationen über die Editing-Effizienz und Analyse der breiteren Änderungen am Transkriptom ergibt Informationen über die Off-target-Aktivität.
Ein besonderer Vorteil der Entwicklung eines RNA-Base-Editing-Systems mit Cas13d besteht darin, dass die geringe Größe, im Mittel 20% kleiner als die existierenden Cas13-Effektoren, eine leichtere AAV-Verpackung von dCas13d-ADAR zusammen mit seiner crRNA und Kontrollelementen ohne die Notwendigkeit von Proteinverkürzungen ermöglicht. Dieser All-in-one-AAV-Vektor ermöglicht eine größere Wirksamkeit von In-vivo-Base-Editing in Geweben, was besonders relevant als ein Weg zu therapeutischen Anwendungen von Cas13d ist. Bei Base-Editing und anderen Anwendungen machen die geringe Größe, das Fehlen einer biochemischen PFS und die robuste Aktivität von Cas13d-Effektoren diesen zu einer wertvollen Addition zur Toolbox programmierbarer RNA-Modifikationsenzyme.
Multiplexing von Cas13d mit mehreren crRNAs, die unterschiedliche Sequenzen anvisieren, ermöglicht die Manipulation mehrerer RNA-Spezies für therapeutische Anwendungen, die die Manipulation mehrerer Transkripte gleichzeitig erfordern.
Literatur
Abudayyeh, O.O., Gootenberg, J.S., Essletzbichler, P., Han, S., Joung, J., Belanto, J.J., Verdine, V., Cox, D.B.T., Kellner, M.J., Regev, A., et al. (2017). RNA targeting with CRISPR-Cas13. Nature 550, 280-284.
Cox, D.B.T., Gootenberg, J.S., Abudayyeh, O.O., Franklin, B., Kellner, M.J., Joung, J. und Zhang, F. (2017). RNA editing with CRISPR-Cas13. Science 358, 1019-1027.
Schellenberger V., Wang C.W., Geething N.C., Spink, B.J., Campbell, A., To, W., Scholle, M.D., Yin, Y., Yao, Y., Bogin, O., et al. (2009). A recombinant polypeptide extends the in vivo half-life of peptides and proteins in a tunable manner. Nat Biotechnol 2009; 27: 1186-1190.
ANDERE AUSFÜHRUNGSFORMEN
Es versteht sich, dass, während die Erfindung in Verbindung mit der ausführlichen Beschreibung davon beschrieben wurde, die vorstehende Beschreibung den Umfang der Erfindung, der durch den Umfang der beigefügten Ansprüche definiert ist, veranschaulichen und nicht beschränken soll. Andere Aspekte, Vorteile und Modifikationen liegen im Umfang der folgenden Ausführungsformen.
Ausführungsform 1. Konstruiertes, nicht natürlich vorkommendes Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziiertes(Cas)-System, umfassend:

eine gRNA (guide RNA bzw. RNA guide) oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst; und
ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Effektorprotein codierende Nukleinsäure, wobei das Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in Tabelle 2 angegebenen Aminosäuresequenz umfasst, wobei das Effektorprotein zur Bindung an die gRNA und zum Targeting der zur gRNA-Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist.

Ausführungsform 2. System nach Ausführungsform 1, wobei das Effektorprotein eine in Tabelle 2 angegebene Aminosäuresequenz umfasst.
Ausführungsform 3. System nach Ausführungsform 1, wobei es sich bei dem Effektorprotein um RspCas13d (SEQ ID NO: 2) oder EsCasl3d (SEQ ID NO: 1) handelt.
Ausführungsform 4. System nach einem der Ausführungsformen 1-3, wobei das Effektorprotein wenigstens zwei HEPN-Domänen umfasst, wobei keine, eine oder beide der HEPN-Domänen katalytisch deaktiviert ist bzw. sind.
Ausführungsform 5. Konstruiertes, nicht natürlich vorkommendes Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziiertes(Cas)-System, umfassend:

eine gRNA (guide RNA bzw. RNA guide) oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst;
ein CRISPR-assoziiertes Protein oder eine das CRISPR-assoziierte Protein codierende Nukleinsäure; und
ein akzessorisches Protein oder eine das akzessorische Protein codierende Nukleinsäure, wobei das akzessorische Protein Folgendes umfasst:
1. i) wenigstens eine WYL-Domäne, wobei die WYL-Domäne eine Aminosäuresequenz PXXX₁XXXXXXXXXYL (SEQ ID NO: 198) umfasst, worin X₁ für C, V, I, L, P, F, Y, M oder W und X für eine beliebige Aminosäure steht; und
2. ii) wenigstens eine RHH(Ribbon-Ribbon-Helix)-Faltung oder wenigstens eine HTH(Helix-Turn-Helix)-Domäne;
wobei das CRISPR-assoziierte Protein zur Bindung an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist und wobei das akzessorische Protein eine Aktivität des CRISPR-assoziierten Proteins moduliert.

Ausführungsform 6. Konstruiertes, nicht natürlich vorkommendes Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziiertes(Cas)-System, umfassend:

eine gRNA (guide RNA bzw. RNA guide) oder eine die gRNA codierende Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst;
ein CRISPR-assoziiertes Protein oder eine das CRISPR-assoziierte Protein codierende Nukleinsäure; und
ein akzessorisches Protein oder eine das akzessorische Protein codierende Nukleinsäure, wobei das akzessorische Protein wenigstens eine WYL-Domäne umfasst und wobei das akzessorische Protein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in einer der Tabellen 4, 5 und 6 angegebenen Aminosäuresequenz umfasst;

Ausführungsform 7. System nach Ausführungsform 5 oder Ausführungsform 6, wobei es sich bei der Aktivität um eine Nuklease-Aktivität handelt.
Ausführungsform 8. System nach Ausführungsform 7, wobei es sich bei der Nuklease-Aktivität um eine DNAse-Aktivität handelt.
Ausführungsform 9. System nach Ausführungsform 7, wobei es sich bei der Nuklease-Aktivität um eine gezielte RNAse-Aktivität oder eine kollaterale RNAse-Aktivität handelt.
Ausführungsform 10. System nach einer der Ausführungsformen 5-9, wobei die Aktivität des CRISPR-assoziierten Proteins durch das akzessorische Protein erhöht wird.
Ausführungsform 11. System nach einem der Ausführungsformen 5-9, wobei die Aktivität des CRISPR-assoziierten Proteins durch das akzessorische Protein verringert wird.
Ausführungsform 12. System nach einem der Ausführungsformen 6-11, wobei das akzessorische Protein eine in einer der Tabellen 4, 5 und 6 angegebene Aminosäuresequenz umfasst.
Ausführungsform 13. System nach Ausführungsform 5 oder Ausführungsform 6, wobei es sich bei dem akzessorischen Protein um RspWYL1 (SEQ ID NO: 81) handelt.
Ausführungsform 14. System nach einem der Ausführungsformen 5-13, wobei das Targeting der Zielnukleinsäure zu einer Modifikation der Zielnukleinsäure führt.
Ausführungsform 15. System nach einem der Ausführungsformen 5-14, wobei es sich bei dem CRISPR-assoziierten Protein um ein Klasse-2-CRISPR-Cas-System-Protein handelt.
Ausführungsform 16. System nach einem der Ausführungsformen 5-15, wobei das CRISPR-assoziierte Protein eine RuvC-Domäne umfasst.
Ausführungsform 17. System nach einem der Ausführungsformen 5-15, wobei das CRISPR-assoziierte Protein aus der Gruppe bestehend aus einem Typ-VI-Cas-Protein, einem Typ-V-Cas-Protein und einem Typ-II-Cas-Protein ausgewählt ist.
Ausführungsform 18. System nach einem der Ausführungsformen 5-15, wobei es sich bei dem CRISPR-assoziierten Protein um ein Cas13a-Protein, ein Cas13b-Protein, ein Cas13c-Protein, ein Cas12a-Protein oder ein Cas9-Protein handelt.
Ausführungsform 19. System nach einem der Ausführungsformen 5-15, wobei es sich bei dem CRISPR-assoziierten Protein um ein Typ-VI-D-CRISPR-Cas-Effektorprotein handelt, das wenigstens zwei HEPN-Domänen umfasst, wobei keine, eine oder zwei der HEPN-Domänen katalytisch deaktiviert ist bzw. sind.
Ausführungsform 20. System nach Ausführungsform 19, wobei das Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in Tabelle 2 angegebenen Aminosäuresequenz umfasst.
Ausführungsform 21. System nach Ausführungsform 19 oder Ausführungsform 20, wobei das Effektorprotein eine in Tabelle 2 angegebene Aminosäuresequenz umfasst.
Ausführungsform 22. System nach einem der Ausführungsformen 19-21, wobei es sich bei dem Effektorprotein um RspCas13d (SEQ ID NO: 2) oder EsCasl3d (SEQ ID NO: 1) handelt.
Ausführungsform 23. System nach einem der Ausführungsformen 1-22, wobei es sich bei der Zielnukleinsäure um eine RNA handelt.
Ausführungsform 24. System nach einem der Ausführungsformen 1-22, wobei es sich bei der Zielnukleinsäure um eine DNA handelt.
Ausführungsform 25. System nach einem der Ausführungsformen 1-4 und 14, wobei es sich bei der Modifikation der Zielnukleinsäure um ein Spaltungsereignis handelt.
Ausführungsform 26. System nach einem der Ausführungsformen 1-4, 14 und 25, wobei die Modifikation zu (a) verminderter Transkription; (b) verminderter Translation; oder (c) sowohl (a) als auch (b), der Zielnukleinsäure führt.
Ausführungsform 27. System nach einem der Ausführungsformen 1-4, 14 und 25, wobei die Modifikation zu (a) erhöhter Transkription; (b) erhöhter Translation; oder (c) sowohl (a) als auch (b), der Zielnukleinsäure führt.
Ausführungsform 28. System nach einem der Ausführungsformen 4 und 19-22, wobei das Effektorprotein eine oder mehrere Aminosäuresubstitutionen innerhalb wenigstens einer der HEPN-Domänen umfasst.
Ausführungsform 29. System nach Ausführungsform 28, wobei die eine oder mehreren Aminosäuresubstitutionen eine Alaninsubstitution an einem R295, H300, R849 oder H854 von SEQ ID NO: 1 oder R288, H293, R820 oder H825 von SEQ ID NO: 2 entsprechenden Aminosäurerest umfassen.
Ausführungsform 30. System nach Ausführungsform 28 oder Ausführungsform 29, wobei die eine oder mehreren Aminosäuresubstitutionen zu einer Reduzierung einer Nuklease-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins im Vergleich zur Nuklease-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins ohne die eine oder mehreren Säuresubstitutionen führen.
Ausführungsform 31. System nach einer der Ausführungsformen 1-30, wobei die Direct-Repeat-Sequenz eine in Tabelle 3 angegebene Nukleotidsequenz umfasst.
Ausführungsform 32. System nach einer der Ausführungsformen 1-30, wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 199) am 3'-terminalen Ende der gRNA umfasst und wobei X₁ für A oder C oder G, X₂ für A oder G oder T, X₃ für A oder G oder T, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht.
Ausführungsform 33. System nach einer der Ausführungsformen 1-30, wobei die Direct-Repeat-Sequenz entweder 5'-CACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 152) oder 5'-CACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 153) umfasst.
Ausführungsform 34. System nach einer der Ausführungsformen 1-33, wobei der Spacer etwa 15 bis etwa 42 Nukleotide umfasst.
Ausführungsform 35. System nach einer der Ausführungsformen 1-34, wobei die gRNA ferner eine trans aktivierende CRISPR-RNA (tracrRNA) umfasst.
Ausführungsform 36. System nach einer der Ausführungsformen 1-35, ferner umfassend eine einzelsträngige Donor-Matrize oder eine doppelsträngige Donor-Matrize.
Ausführungsform 37. System nach Ausführungsform 36, wobei es sich bei der Donor-Matrize um eine DNA oder eine RNA handelt.
Ausführungsform 38. System nach einer der Ausführungsformen 1-37, ferner umfassend eine Ziel-RNA oder eine die Ziel-RNA codierende Nukleinsäure, wobei die Ziel-RNA eine Sequenz umfasst, die zur Hybridisierung an die Spacersequenz der gRNA fähig ist.
Ausführungsform 39. System nach einer der Ausführungsformen 1-38, wobei das System in einem Zuführungssystem vorliegt.
Ausführungsform 40. System nach Ausführungsform 39, wobei das Zuführungssystem ein Zuführungsvehikel umfasst, das aus der Gruppe bestehend aus einem Nanopartikel, einem Liposom, einem adeno-assoziierten Virus, einem Exosom, einem Mikrovesikel und einer Genkanone ausgewählt ist.
Ausführungsform 41. Zelle, umfassend das System nach einem der Ausführungsformen 1-40,
Ausführungsform 42. Zelle nach Ausführungsform 41, wobei es sich bei der Zelle um eine eukaryontische Zelle handelt.
Ausführungsform 43. Zelle nach Ausführungsform 42, wobei es sich bei der eukaryontischen Zelle um eine Säugerzelle oder eine Pflanzenzelle handelt.
Ausführungsform 44. Zelle nach Ausführungsform 41, wobei es sich bei der Zelle um eine prokaryontische Zelle handelt.
Ausführungsform 45. Zelle nach Ausführungsform 44, wobei es sich bei der prokaryontischen Zelle um eine Bakterienzelle handelt.
Ausführungsform 46. Tiermodell oder Pflanzenmodell, umfassend die Zelle nach einem der Ausführungsformen 41-45.
Ausführungsform 47. Verfahren zur Spaltung einer Zielnukleinsäure, wobei das Verfahren Inkontaktbringen der Zielnukleinsäure mit einem System nach einem der Ausführungsformen 1-40 umfasst;
wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure komplementär ist;
wobei das CRISPR-assoziierte Protein oder das Typ-VI-D-CRISPR-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert;
wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist; und
wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz die Zielnukleinsäure durch das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Effektorprotein gespalten wird.
Ausführungsform 48. Verfahren nach Ausführungsform 47, wobei sich die Zielnukleinsäure in einer Zelle befindet.
Ausführungsform 49. Verfahren zum Induzieren von Dormanz oder Tod einer Zelle, wobei das Verfahren Inkontaktbringen der Zelle mit einem System nach einem der Ausführungsformen 1-40 umfasst;
wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure komplementär ist;
wobei das CRISPR-assoziierte Protein oder das Typ-VI-D-CRISPR-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert;
wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist; und
wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz eine Nicht-Zielnukleinsäure in der Zelle durch das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Cas-Effektorprotein gespalten und damit Dormanz oder Tod der Zelle induziert wird.
Ausführungsform 50. Verfahren nach einer der Ausführungsformen 47-49, wobei es sich bei der Zielnukleinsäure um eine RNA handelt, die aus der Gruppe bestehend aus einer mRNA, einer tRNA, einer ribosomalen RNA, einer nicht codierenden RNA, einer IncRNA oder einer nukleären RNA ausgewählt ist.
Ausführungsform 51. Verfahren nach Ausführungsform 49, wobei es sich bei der Zielnukleinsäure um eine DNA handelt, die aus der Gruppe bestehend aus chromosomaler DNA, mitochondrialer DNA, einzelsträngiger DNA oder Plasmid-DNA ausgewählt ist.
Ausführungsform 52. Verfahren nach einer der Ausführungsformen 47-51, wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Cas-Effektorprotein kollaterale RNAse-Aktivität zeigt.
Ausführungsform 53. Verfahren nach einer der Ausführungsformen 49-52, wobei der Tod über Apoptose, Nekrose, Nekroptose oder eine Kombination davon erfolgt.
Ausführungsform 54. Verfahren nach einem der Ausführungsformen 48-53, wobei es sich bei der Zelle um eine Krebszelle handelt.
Ausführungsform 55. Verfahren nach Ausführungsform 54, wobei es sich bei der Krebszelle um eine Tumorzelle handelt.
Ausführungsform 56. Verfahren nach einer der Ausführungsformen 48-53, wobei es sich bei der Zelle um eine Infektionserregerzelle oder eine mit einem Infektionserreger infizierte Zelle handelt.
Ausführungsform 57. Verfahren nach Ausführungsform 48-53, wobei es sich bei der Zelle um eine Bakterienzelle, eine mit einem Virus infizierte Zelle, eine mit einem Prion infizierte Zelle, eine Pilzzelle, ein Protozoon oder eine Parasitenzelle handelt.
Ausführungsform 58. Verfahren zur Behandlung eines Leidens bzw. einer Krankheit bei einem diese benötigenden Individuum, wobei das Verfahren Verabreichen eines Systems nach einem der Ausführungsformen 1-40 an das Individuum umfasst,
wobei die Spacersequenz zu wenigstens 15 Nukleotiden einer mit dem Leiden bzw. der Krankheit zusammenhängenden Zielnukleinsäure komplementär ist;
wobei das CRISPR-assoziierte Protein oder das Typ-VI-D-CRISPR-Cas-Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert;
wobei der Komplex an eine Zielnukleinsäuresequenz bindet, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist; und
wobei nach Binden des Komplexes an die Zielnukleinsäuresequenz die Zielnukleinsäure durch das CRISPR-assoziierte Protein bzw. das Typ-VI-D-CRISPR-Cas-Effektorprotein gespalten und damit das Leiden bzw. die Krankheit bei dem Individuum behandelt wird.
Ausführungsform 59. Verfahren nach Ausführungsform 58, wobei es sich bei dem Leiden bzw. der Krankheit um eine Krebserkrankung oder eine Infektionskrankheit handelt.
Ausführungsform 60. Verfahren nach Ausführungsform 59, wobei es sich bei dem Leiden bzw. der Krankheit um eine Krebserkrankung handelt und wobei die Krebserkrankung ausgewählt ist aus der Gruppe bestehend aus Wilms-Tumor, Ewing-Sarkom, einem neuroendokrinen Tumor, einem Glioblastom, einem Neuroblastom, einem Melanom, Hautkrebs, Brustkrebs, Darmkrebs, Rektalkarzinom, Prostatakrebs, Leberkrebs, Nierenkrebs, Bauchspeicheldrüsenkrebs, Lungenkrebs, Gallengangkrebs, Gebärmutterhalskrebs, Endometriumkarzinom, Speiseröhrenkrebs, Magenkrebs, Krebs im Kopf- und Halsbereich, medullärem Schilddrüsenkarzinom, Ovarialkarzinom, Gliom, Lymphom, Leukämie, Myelom, akuter lymphatischer Leukämie, akuter myeloischer Leukämie, chronischer lymphatischer Leukämie, chronischer myeloischer Leukämie, Hodgkin-Lymphom, Non-Hodgkin-Lymphom und Harnblasenkrebs.
Ausführungsform 61. System gemäß einer der Ausführungsformen 1-40, zur Verwendung bei einem Verfahren, das aus der Gruppe bestehend aus RNA-sequenzspezifischer Interferenz; RNA-sequenzspezifischer Genregulation; Screening von RNA, RNA-Produkten, lncRNA, nicht codierender RNA, nukleärer RNA oder mRNA; Mutagenese; Hemmung von RNA-Spleißen; Fluoreszenz-In-situ-Hybridisierung; Züchten; Induktion von Zelldormanz; Induktion von Zellzyklus-Arrest; Reduktion von Zellwachstum und/oder Zellproliferation; Induktion von Zellanergie; Induktion von Zellapoptose; Induktion von Zellnekrose; Induktion von Zelltod; oder Induktion von programmiertem Zelltod ausgewählt ist.
Ausführungsform 62. System nach Ausführungsform 1, wobei das Effektorprotein an eine Base-Editing-Domäne, eine RNA-Methyltransferase, eine RNA-Demethylase, einen Spleißmodifikator, einen Lokalisationsfaktor oder einen Translationsmodifikationsfaktor fusioniert ist.
Ausführungsform 63. System nach Ausführungsform 5 oder Ausführungsform 6, wobei das CRISPR-assoziierte Protein an eine Base-Editing-Domäne, eine RNA-Methyltransferase, eine RNA-Demethylase, einen Spleißmodifikator, einen Lokalisationsfaktor oder einen Translationsmodifikationsfaktor fusioniert ist.
Ausführungsform 64. System nach Ausführungsform 62 oder Ausführungsform 63, wobei die Base-Editing-Domäne ausgewählt ist aus der Gruppe bestehend aus ADAR1 (Adenosine Deaminase Acting on RNA (ADAR) 1), ADAR2, APOBEC (Apolipoprotein B mRNA Editing Enzyme, Catalytic Polypeptide-like) und AID (Activation-Induced Cytidine Deaminase).
Ausführungsform 65. System nach einer der Ausführungsformen 1-40, ferner umfassend ein RNA bindendes Fusionspolypeptid, das eine RNA bindende Domäne und eine Base-Editing-Domäne umfasst.
Ausführungsform 66. System nach Ausführungsform 65, wobei die Base-Editing-Domäne ausgewählt ist aus der Gruppe bestehend aus ADAR1, ADAR2, APOBEC und AID.
Ausführungsform 67. System nach Ausführungsform 65 oder Ausführungsform 66, wobei es sich bei der RNA bindenden Domäne um MS2 handelt.
Ausführungsform 68. Verfahren zum Modifizieren eines RNA-Moleküls, umfassend Inkontaktbringen des RNA-Moleküls mit einem System gemäß einem der Ausführungsformen 62-67.
Ausführungsform 69. Verfahren zum Nachweisen einer Ziel-RNA in einer Probe, wobei das Verfahren Folgendes umfasst:

a) Inkontaktbringen der Probe mit:
- (i) einer gRNA oder einer die gRNA codierenden Nukleinsäure, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an die Ziel-RNA umfasst;
- (ii) einem Typ-VI-D-CRISPR-Cas-Effektorprotein oder einer das Effektorprotein codierenden Nukleinsäure; und
- (iii) einer markierten Detektor-RNA; wobei das Effektorprotein mit der gRNA unter Bildung eines Komplexes assoziiert; wobei die gRNA an die Ziel-RNA hybridisiert; und wobei nach Binden des Komplexes an die Ziel-RNA das Effektorprotein kollaterale RNAse-Aktivität zeigt und die markierte Detektor-RNA spaltet; und
b) Messen eines durch Spaltung der markierten Detektor-RNA produzierten nachweisbaren Signals, wobei das Messen einen Nachweis der Ziel-RNA in der Probe vorsieht.

Ausführungsform 70. Verfahren nach Ausführungsform 69, wobei das Effektorprotein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in Tabelle 2 angegebenen Aminosäuresequenz umfasst.
Ausführungsform 71. Verfahren nach Ausführungsform 69 oder Ausführungsform 70, wobei die Ziel-RNA einzelsträngig ist.
Ausführungsform 72. Verfahren nach einer der Ausführungsformen 69-71, wobei die Ziel-RNA von einem DNA-Molekül transkribiert wurde.
Ausführungsform 73. Verfahren nach einer der Ausführungsformen 69-72, ferner umfassend Inkontaktbringen der Probe mit einem wenigstens eine WYL-Domäne umfassenden akzessorischen Protein.
Ausführungsform 74. Verfahren nach Ausführungsform 73, wobei das akzessorische Protein eine Aminosäuresequenz mit einer Sequenzidentität von wenigstens 85% mit einer in einer der Tabellen 4, 5 und 6 angegebenen Aminosäuresequenz umfasst.
Ausführungsform 75. Verfahren nach einer der Ausführungsformen 69-74, ferner umfassend Vergleichen des nachweisbaren Signals mit einem Referenzsignal und Bestimmen der Menge an Ziel-RNA in der Probe.
Ausführungsform 76. Verfahren nach einer der Ausführungsformen 69-75, wobei das Messen unter Verwendung von Goldnanopartikel-Nachweis, Fluoreszenzpolarisation, Kolloidphasenübergang/-dispersion, elektrochemischem Nachweis und Sensorik auf Halbleiterbasis erfolgt.
Ausführungsform 77. Verfahren nach einer der Ausführungsformen 69-76, wobei die markierte Detektor-RNA ein Fluoreszenzemissionsfarbstoffpaar, ein Fluoreszenzresonanzenergietransfer(FRET)-Paar oder ein Quencher/Fluor-Paar umfasst.
Ausführungsform 78. Verfahren nach einer der Ausführungsformen 69-77, wobei nach Spaltung der markierten Detektor-RNA durch das Effektorprotein eine Menge an von der markierten Detektor-RNA produziertem nachweisbarem Signal vermindert wird.
Ausführungsform 79. Verfahren nach einer der Ausführungsformen 69-78, wobei nach Spaltung der markierten Detektor-RNA durch das Effektorprotein eine Menge an von der markierten Detektor-RNA produziertem nachweisbarem Signal erhöht wird.
Ausführungsform 80. Verfahren nach einer der Ausführungsformen 69-79, wobei die markierte Detektor-RNA vor Spaltung durch das Effektorprotein ein erstes nachweisbares Signal und nach Spaltung durch das Effektorprotein ein zweites nachweisbares Signal produziert.
Ausführungsform 81. Verfahren nach einer der Ausführungsformen 69-80, wobei ein nachweisbares Signal produziert wird, wenn die markierte Detektor-RNA durch das Effektorprotein gespalten wird.
Ausführungsform 82. Verfahren nach einer der Ausführungsformen 69-81, ferner umfassend Präamplifizieren einer Nukleinsäure in der Probe vor dem Kontaktierungsschritt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62527957 [0001]
US 62572367 [0001]
US 62/580880 [0001]
US 62587381 [0001]
US 62619691 [0001]
US 62626679 [0001]
US 62628921 [0001]
US 62635443 [0001]
US 15916271 [0001]
US 15916274 [0001]
US 8871445 [0179]
US 2016/0208243 [0179]
WO 2016/205764 [0179]
WO 2014/093622 [0192]
WO 2015/070083 [0192]
US 9790490 B2 [0200]
EP 3009511 B1 [0200]
WO 2016/094872 [0204]
WO 2016205764 [0206, 0210, 0212, 0231, 0234, 0248, 0250, 0251, 0261, 0267, 0273, 0277]
US 8795965 [0206, 0231, 0234, 0267, 0277]
US 8795965 B2 [0210]
WO 2017/070605 [0228]
US 2017/0362644 [0230]
WO 2017070605 [0231, 0234, 0250, 0251, 0267, 0277]
WO 2016205764 A1 [0242, 0270, 0276]
WO 2016/205764 A1 [0246, 0260]
WO 2017/219027 [0255, 0256]
WO 2016/094874 A1 [0258]
EP 3009511 [0267, 0277]
US 8454972 B2 [0270]
US 4797368 [0271]
US 5173414 [0271]
WO 2015/054653 [0271]
WO 9324641 [0271]
US 5593972 [0273]
US 5589466 [0273]
US 5580859 [0273]

Zitierte Nicht-Patentliteratur

Eckstein, „Phosphorothioates, essential components of therapeutic oligonucleotides,“ Nucl. Acid Ther., 24 (2014), S. 374-387 [0207]
Bramsen et al., „Development of therapeutic-grade small interfering RNAs by chemical engineering,“ Front. Genet., 2012 Aug 20; 3:154 [0207]
Gootenberg, et al. „Nucleic acid detection with CRISPR-Cas13a/C2c2,“ Science, 2017 Apr 28;356(6336):438-442 [0227]
Hlavova et al., „Improving microalgae for biotechnology-from genetics to synthetic biology,“ Biotechnol. Adv., 1. Nov. 2015; 33:1194-203 [0238]
Nicolaou et al., „Molecular diagnosis of peanut and legume allergy,“ Curr. Opin. Allergy Clin. Immunol., 2011 Jun; 11(3):222-8 [0242]
Hammond et al., „A CRISPR-Cas9 gene drive system targeting female reproduction in the malaria mosquito vector Anopheles gambiae,“ Nat. Biotechnol., Jan. 2016; 34(1):78-83 [0243]
Osborne et al., „RNA-dominant diseases,“ Hum. Mol. Genet., 15. Apr, 2009; 18(8): 1471-81 [0259]
Aponte-Ubillus et al. (2018) Appl. Microbiol. Biotechnol. 102(3): 1045-54 [0271]
Zhong et al. (2012) J. Genet. Syndr. Gene Ther. S1: 008 [0271]
West et al. (1987) Virology 160: 38-47 (1987) [0271]
Tratschin et al. (1985) Mol. Cell. Biol. 5: 3251-60) [0271]
Hällbrink et al., „Prediction of cell-penetrating peptides,“ Methods Mol. Biol., 2015;1324:39-58 [0276]
Ramakrishna et al., „Gene disruption by cell-penetrating peptide-mediated delivery of Cas9 protein and guide RNA,“ Genome Res., 2014 Jun;24(6):1020-7 [0276]
Altschul, S.F., Madden, T.L., Schäffer, A.A., Zhang, J., Zhang, Z., Miller, W. und Lipman, D.J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25, 3389-3402 [0310]
Bateman, A., Martin, M.J., O'Donovan, C., Magrane, M., Alpi, E., Antunes, R., Bely, B., Bingley, M., Bonilla, C., Britto, R., et al. (2017). UniProt: the universal protein knowledgebase. Nucleic Acids Res. 45, D158-D169 [0311]
Benson, D.A., Cavanaugh, M., Clark, K., Karsch-Mizrachi, I., Lipman, D.J., Ostell, J. und Sayers, E.W. (2013). GenBank. Nucleic Acids Res. 41, D36-42 [0312]
Eddy, S.R. (2011). Accelerated Profile HMM Searches. PLoS Comput. Biol. 7, e1002195 [0313]
Edgar, R.C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32, 1792-1797 [0314]
Edgar, R.C. (2010). Search and clustering orders of magnitude faster than BLAST. Bioinformatics 26, 2460-2461 [0315]
Finn, R.D., Bateman, A., Clements, J., Coggill, P., Eberhardt, R.Y., Eddy, S.R., Heger, A., Hetherington, K., Holm, L., Mistry, J., et al. (2014). Pfam: the protein families database. Nucleic Acids Res. 42, D222-D230 [0316]
Hein, S., Scholz, I., Voß, B. und Hess, W.R. (2013). Adaptation and modification of three CRISPR loci in two closely related cyanobacteria. RNA Biol. 10, 852-864 [0317]
Hyatt, D., Chen, G.-L., LoCascio, P.F., Land, M.L., Larimer, F.W. und Hauser, L.J. (2010). Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11, 119 [0318]
Makarova, K.S., Anantharaman, V., Grishin, N.V., Koonin, E.V. und Aravind, L. (2014). CARF and WYL domains: ligand-binding regulators of prokaryotic defense systems. Front. Genet. 5 [0319]
Peters, J.E., Makarova, K.S., Shmakov, S. und Koonin, E.V. (2017). Recruitment of CRISPR-Cas systems by Tn7-like transposons. Proc. NatL Acad. Sci. U. S. A. 114, E7358-E7366 [0320]
Pruitt, K.D., Tatusova, T., Brown, G.R. und Maglott, D.R. (2012). NCBI Reference Sequences (RefSeq): current status, new features and genome annotation policy. Nucleic Acids Res. 40, D130-135 [0321]
Shmakov, S., Abudayyeh, O.O., Makarova, K.S., Wolf, Y.I., Gootenberg, J.S., Semenova, E., Minakhin, L., Joung, J., Konermann, S., Severinov, K., et al. (2015). Discovery and Functional Characterization of Diverse Class 2 CRISPR-Cas Systems. Mol. Cell 60, 385-397 [0322]
Shmakov, S., Smargon, A., Scott, D., Cox, D., Pyzocha, N., Yan, W., Abudayyeh, O.O., Gootenberg, J.S., Makarova, K.S., Wolf, Y.I., et al. (2017). Diversity and evolution of class 2 CRISPR-Cas systems. Nat. Rev. Microbiol. 15, 169-182 [0323]
Smargon, A.A., Cox, D.B.T., Pyzocha, N.K., Zheng, K., Slaymaker, I.M., Gootenberg, J.S., Abudayyeh, O.A., Essletzbichler, P., Shmakov, S., Makarova, K.S., et al. (2017). Cas13b Is a Type VI-B CRISPR-Associated RNA-Guided RNase Differentially Regulated by Accessory Proteins Csx27 and Csx28. Mol. Cell 65, 618-630.e7 [0324, 0353]
Steinegger, M. und Söding, J. (2017). MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets [0325]
Yu, J., Picord, G., Tuffery, P. und Guerois, R. (2015). HHalign-Kbest: exploring sub-optimal alignments for remote homology comparative modeling. Bioinforma. Oxf. Engl. 31, 3850-3852 [0326]
Zhu, W., Lomsadze, A. und Borodovsky, M. (2010). Ab initio gene identification in metagenomic sequences. Nucleic Acids Res. 38, e132-e132 [0327]
Abudayyeh, O.O., Gootenberg, J.S., Konermann, S., Joung, J., Slaymaker, I.M., Cox, D.B.T., Shmakov, S., Makarova, K.S., Semenova, E., Minakhin, L., et al. (2016). C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector. Science 353, aaf5573 [0345]
Abudayyeh, O.O., Gootenberg, J.S., Essletzbichler, P., Han, S., Joung, J., Belanto, J.J., Verdine, V., Cox, D.B.T., Kellner, M.J., Regev, A., et al. (2017). RNA targeting with CRISPR-Cas13. Nature 550, 280-284 [0346, 0398]
Cox, D.B.T., Gootenberg, J.S., Abudayyeh, O.O., Franklin, B., Kellner, M.J., Joung, J. und Zhang, F. (2017). RNA editing with CRISPR-Cas13. Science 358, 1019-1027 [0347, 0399]
Crooks, G.E., Hon, G., Chandonia, J.-M. und Brenner, S.E. (2004). WebLogo: a sequence logo generator. Genome Res. 14, 1188-1190 [0348]
East-Seletsky, A., O'Connell, M.R., Knight, S.C., Burstein, D., Cate, J.H.D., Tjian, R. und Doudna, J.A. (2016). Two distinct RNase activities of CRISPR-C2c2 enable guide-RNA processing and RNA detection. Nature 538, 270-273 [0349]
East-Seletsky, A., O'Connell, M.R., Burstein, D., Knott, G.J. und Doudna, J.A. (2017). RNA Targeting by Functionally Orthogonal Type VI-A CRISPR-Cas Enzymes. Mol. Cell 66, 373-383.e3 [0350]
Gootenberg, J.S., Abudayyeh, O.O., Lee, J.W., Essletzbichler, P., Dy, A.J., Joung, J., Verdine, V., Donghia, N., Daringer, N.M., Freije, C.A., et al. (2017). Nucleic acid detection with CRISPR-Cas13a/C2c2. Science 356, 438-442 [0351]
Lorenz, R., Bernhart, S.H., Höner zu Siederdissen, C., Tafer, H., Flamm, C., Stadler, P.F. und Hofacker, I.L. (2011). ViennaRNA Package 2.0. Algorithms Mol. Biol. 6, 26 [0352]
Knott, G.J., East-Seletsky, A., Cofsky, J.C., Holton, J.M., Charles, E., O'Connell, M.R. und Doudna, J.A. (2017). Guide-bound structures of an RNA-targeting A-cleaving CRISPR-Cas13a enzyme. Nat. Struct. Mol. Biol. 24, 825-833 [0369]
Schellenberger V., Wang C.W., Geething N.C., Spink, B.J., Campbell, A., To, W., Scholle, M.D., Yin, Y., Yao, Y., Bogin, O., et al. (2009). A recombinant polypeptide extends the in vivo half-life of peptides and proteins in a tunable manner. Nat Biotechnol 2009; 27: 1186-1190 [0400]

Claims

Konstruiertes, nicht natürlich vorkommendes Clustered Regularly Interspaced Short Palindromic Repeat (CRISPR) - assoziiertes(Cas)-System, umfassend: eine gRNA (guide RNA bzw. RNA guide) bestehend aus CRISPR RNA (crRNA), wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst; wobei die Direct-Repeat-Sequenz 5'-X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA umfasst und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; und ein Typ-VI-D-CRISPR-Cas-Effektorprotein oder eine das Typ-VI-D-CRISPR-Cas-Effektorprotein codierende Nukleinsäure, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein zur Bindung an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist und wobei die Zielnukleinsäure eine RNA ist.
System nach Schutzanspruch 1, umfassend: eine gRNA (guide RNA bzw. RNA guide) bestehend aus CRISPR RNA (crRNA), wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst; wobei die Direct-Repeat-Sequenz 5'-X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA umfasst und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht; und ein Typ-VI-D-CRISPR-Cas-Effektorprotein, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein zur Bindung an die gRNA und zum Targeting der zur Spacersequenz komplementären Zielnukleinsäuresequenz fähig ist und wobei die Zielnukleinsäure eine RNA ist.
System nach Schutzanspruch 1 oder 2, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein wenigstens zwei HEPN-Domänen umfasst.
System nach Schutzanspruch 1 oder 2, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein eine oder mehrere Aminosäuresubstitutionen innerhalb wenigstens einer der HEPN-Domänen enthält, was zu einer Reduzierung einer RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins im Vergleich zur RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins ohne die eine oder mehreren Aminosäuresubstitutionen führt.
System nach Schutzanspruch 4, wobei die eine oder mehreren Aminosäuresubstitutionen eine Alaninsubstitution an einem R295, H300, R849 oder H854 von SEQ ID NO: 1 oder R288, H293, R820 oder H825 von SEQ ID NO: 2 entsprechenden Aminosäurerest umfassen.
System nach Schutzanspruch 4, wobei das Typ VI-D CRISPR-Cas-Effektorprotein an eine Base-Editing Domäne fusioniert ist.
System nach Schutzanspruch 4, wobei das Typ VI-D CRISPR-Cas-Effektorprotein an eine RNA-Methyltransferase, eine RNA-Demethylase, einen Spleißmodifikator, einen Lokalisationsfaktor oder einen Translationsmodifikationsfaktor fusioniert ist.
System nach Schutzanspruch 1 oder 2, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein eine Aminosäuresequenz mit einer Identität von mindestens 90% mit einer Aminosäuresequenz ausgewählt aus der Gruppe bestehend aus SEQ ID NO: 12, SEQ ID NO: 1 und SEQ ID NO: 10 umfasst.
System nach Schutzanspruch 1 oder 2, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein eine Aminosäuresequenz umfasst, mit einer Sequenzidentität von mindestens 95% mit einer in Tabelle 2 angegebenen Aminosäuresequenz.
System nach Schutzanspruch 1 oder 2, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein eine in Tabelle 2 angegebenen Aminosäuresequenz umfasst.
System nach Schutzanspruch 1 oder 2, wobei die Direct-Repeat-Sequenz in Tabelle 3 angegebenen eine Nukleinsäuresequenz umfasst.
System nach Schutzanspruch 1 oder 2, wobei das Targeting der Zielnukleinsäure zu einer Modifikation der Zielnukleinsäure führt.
System nach Schutzanspruch 12, wobei es sich bei der Modifikation der Zielnukleinsäure um ein Spaltungsereignis handelt.
System nach nach Schutzanspruch 1 oder 2, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein wenigstens ein Kernlokalisierungssignal (NLS), wenigstens ein Kernexportsignal (NES) oder beide enhält.
System nach Schutzanspruch 1 oder 2, wobei die Direct-Repeat-Sequenz entweder 5'-CACCCGTGCAAAATTGCAGGGGTCTAAAAC-3' (SEQ ID NO: 152) oder 5'-CACTGGTGCAAATTTGCACTAGTCTAAAAC-3' (SEQ ID NO: 153) umfasst.
System nach Schutzanspruch 1 oder 2, wobei der Spacer etwa 15 bis etwa 42 Nukleotide umfasst.
System nach Schutzanspruch 1 oder 2, wobei das System eine Typ-VI-D-CRISPR-Cas-Effektorprotein codierende Nukleinsäure enthält, optional in operativer Verknüpfung mit einem Promotor.
System nach Schutzanspruch 17, wobei der Promoter ein konstitutiver Promotor ist.
System nach Schutzanspruch 17, wobei die Typ-VI-D-CRISPR-Cas-Effektorprotein codierende Nukleinsäure für die Expression in einer Zelle codonoptimiert ist.
System nach Schutzanspruch 17, wobei die Typ-VI-D-CRISPR-Cas-Effektorprotein codierenden Nukleinsäuren in operativer Verknüpfung mit einem Promotor in einem Vektor ist.
System nach Schutzanspruch 20, wobei der Vektor ausgewählt aus der Gruppe bestehend aus einem Retrovirusvektor, einem Lentivirusvektor, einem Phagenvektor, einem Adenovirusvektor, einem adeno-assoziierten Vektor und einem Herpes-simplex-Vektor ist.
System nach Schutzanspruch 1 oder 2, wobei das System in einem Zuführungssystem vorliegt ausgewählt aus der Gruppe bestehend aus einem Nanopartikel, einem Liposom, einem Exosom, einem Mikrovesikel und einer Genkanone (genegun) ausgewählt ist.
System nach Schutzanspruch 1 oder 2, ferner umfassend eine Ziel-RNA oder eine die Ziel-RNA codierende Nukleinsäure, wobei die Ziel-RNA eine Sequenz umfasst, die zur Hybridisierung an die Spacersequenz der gRNA fähig ist.
System nach Schutzanspruch 1 oder 2, wobei das Schneiden der Zielnukleinsäure durch das Typ-VI-D-CRISPR-Cas-Effektorprotein geeignet ist zu RNA Abbau zu führen.
System nach Schutzansprüchen 1 bis 24, wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure komplementär ist; wobei das das Typ-VI-D-CRISPR-Effektorprotein geeignet ist mit gRNA unter Bildung eines Komplexes zu assoziieren; und wobei der Komplex geeignet ist an eine Zielnukleinsäuresequenz zu binden, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist.
System nach Schutzansprüchen 1 bis 24, wobei die Spacersequenz zu wenigstens 15 Nukleotiden der Zielnukleinsäure komplementär ist; wobei das das Typ-VI-D-CRISPR-Effektorprotein geeignet ist mit gRNA unter Bildung eines Komplexes zu assoziieren; wobei der Komplex geeignet ist an eine Zielnukleinsäuresequenz zu binden, die zu den wenigstens 15 Nukleotiden der Spacersequenz komplementär ist; und wobei durch Binden des Komplexes an die Zielnukleinsäuresequenz das Typ-VI-D-CRISPR-Effektorprotein geeignet ist die Zielnukleinsäure zu spalten.
System nach Schutzanspruch 26, wobei das Schneiden der Zielnukleinsäure durch Typ-VI-D-CRISPR-Cas-Effektorprotein zu RNA Abbau führt.
System nach Schutzanspruch 26, wobei das Typ-VI-D-CRISPR-Effektorprotein an die Base-Editing-Domäne fusioniert ist, und wobei nach dem Binden des Komplexes an die Zielnukleinsäuresequenz, das an die BASE-Editing-Domäne fusionierte Typ-VI-D-CRISPR-Effektorprotein geeignet ist mindestens eine Nukleobase zu modifizieren.
System nach Schutzanspruch 26, wobei das Typ-VI-D-CRISPR-Effektorprotein an eine RNA-Methyltransferase, eine RNA-Demethylase, einen Spleißmodifikator, einen Lokalisationsfaktor oder einen Translationsmodifikationsfaktor fusioniert ist, wobei nach Bindung des Komplexes an die Zielnukleinsäuresequenz das Typ-VI-D-CRISPR-Effektorprotein geeignet ist eine Zielnukleinsäure zu modifizieren.
gRNA bestehend aus crRNA, wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst; wobei die Direct-Repeat-Sequenz 5'- X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA umfasst und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht.
Typ-VI-D-CRISPR Effektorprotein.
Zusammensetzung bestehend aus einem Typ-VI-D-CRISPR-Cas-Effektorprotein oder einer das Typ-VI-D-CRISPR-Cas-Effektorprotein codierenden Nukleinsäure, und einer gRNA bestehend aus CRISPR RNA (crRNA), wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst; wobei die Direct-Repeat-Sequenz 5'-X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA umfasst und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht zur Verwendung in der Abspaltung einer Nukleinsäure.
Zusammensetzung bestehend aus einem Typ-VI-D-CRISPR-Cas-Effektorprotein oder einer das Typ-VI-D-CRISPR-Cas-Effektorprotein codierenden Nukleinsäure, und einer gRNA bestehend aus CRISPR RNA (crRNA), wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst; wobei die Direct-Repeat-Sequenz 5'-X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA umfasst und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht zur Verwendung als Medikament.
Zusammensetzung bestehend aus einem Typ-VI-D-CRISPR-Cas-Effektorprotein oder einer das Typ-VI-D-CRISPR-Cas-Effektorprotein codierenden Nukleinsäure, und einer gRNA bestehend aus CRISPR RNA (crRNA), wobei die gRNA eine Direct-Repeat-Sequenz und eine Spacersequenz mit der Fähigkeit zur Hybridisierung an eine Zielnukleinsäure umfasst; wobei die Direct-Repeat-Sequenz 5'-X₁X₂X₃X₄TX₅TX₆AAAC-3' (SEQ ID NO: 151) am 3'-terminalen Ende der gRNA umfasst und wobei X₁ für A oder C oder G, X₂ für G oder T, X₃ für A oder G, X₄ für C oder G oder T, X₅ für C oder T und X₆ für A oder G steht zur Verwendung in der Behandlung von Krebs oder einer infektiösen Krankheit.
Typ-VT-D-CRISPR Effektorprotein nach Schutzanspruch 31 oder Zusammensetzung nach Schutzansprüchen 32 bis 34, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein wenigstens zwei HEPN-Domänen umfasst.
Typ-VT-D-CRISPR Effektorprotein nach Schutzanspruch 31 oder Zusammensetzung nach Schutzansprüchen 32 bis 34, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein eine oder mehrere Aminosäuresubstitutionen innerhalb wenigstens einer der HEPN-Domänen enthält, was zu einer Reduzierung einer RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins im Vergleich zur RNAse-Aktivität des Typ-VI-D-CRISPR-Cas-Effektorproteins ohne die eine oder mehreren Aminosäuresubstitutionen führt.
Typ-VT-D-CRISPR Effektorprotein nach Schutzanspruch 31 oder Zusammensetzung nach Schutzansprüchen 32 bis 34, wobei die eine oder mehreren Aminosäuresubstitutionen eine Alaninsubstitution an einem R295, H300, R849 oder H854 von SEQ ID NO: 1 oder R288, H293, R820 oder H825 von SEQ ID NO: 2 entsprechenden Aminosäurerest umfassen.
Typ-VT-D-CRISPR Effektorprotein nach Schutzanspruch 31 oder Zusammensetzung nach Schutzansprüchen 32 bis 34, wobei das Typ VI-D CRISPR-Cas-Effektorprotein an eine Base-Editing Domäne fusioniert ist.
Typ-VI-D-CRISPR Effektorprotein nach Schutzanspruch 31 oder Zusammensetzung nach Schutzansprüchen 32 bis 34, wobei das Typ VI-D CRISPR-Cas-Effektorprotein an eine RNA-Methyltransferase, eine RNA-Demethylase, einen Spleißmodifikator, einen Lokalisationsfaktor oder einen Translationsmodifikationsfaktor fusioniert ist.
Typ-VI-D-CRISPR Effektorprotein nach Schutzanspruch 31 oder Zusammensetzung nach Schutzansprüchen 32 bis 34, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein eine Aminosäuresequenz mit einer Identität von mindestens 90% mit einer Aminosäuresequenz ausgewählt aus der Gruppe bestehend aus SEQ ID NO: 12, SEQ ID NO: 1 und SEQ ID NO: 10 umfasst.
Typ-VI-D-CRISPR Effektorprotein nach Schutzanspruch 31 oder Zusammensetzung nach Schutzansprüchen 32 bis 34, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein eine Aminosäuresequenz umfasst, mit einer Sequenzidentität von mindestens 95% mit einer in Tabelle 2 angegebenen Aminosäuresequenz.
Typ-VI-D-CRISPR Effektorprotein nach Schutzanspruch 31 oder Zusammensetzung nach Schutzansprüchen 32 bis 34, wobei das Typ-VI-D-CRISPR-Cas-Effektorprotein eine in Tabelle 2 angegebenen Aminosäuresequenz umfasst.