DE60115622T2

DE60115622T2 - Methoden und zusammensetzungen zur aufklärung von proteinexpressionsprofilen in zellen

Info

Publication number: DE60115622T2
Application number: DE60115622T
Authority: DE
Inventors: J. Charles LINK; Tatiana Seregina; Nicholas N. Vahanian; James N. Higginbotham; W. Jay RAMSEY; Bradley J. Powers; Sachet A. Shukla; Bin Won YOUNG
Original assignee: NewLink Genetics Corp
Current assignee: NewLink Genetics Corp
Priority date: 2000-03-20
Filing date: 2001-03-19
Publication date: 2006-06-22
Anticipated expiration: 2021-03-20
Also published as: WO2001070948A2; MXPA02009257A; WO2001070948A9; ATE312173T1; DE60115622D1; JP2003527855A; EP1268767B1; WO2001070948A3; AU2001249267A1; CA2403567A1; EP1268767A2

Description

QUERVERWEISE AUF VERWANDTE ANWENDUNGEN
Diese Anwendung erhebt den Anspruch auf Nutzen gemäß 35 U.S.C. § 119(e) der vorläufigen Anmeldung 60/190,678 eingereicht am 20. März 2000.
FACHRICHTUNG DER ERFINDUNG
Diese Erfindung ist allgemein verwandt mit dem Fachbereich der funktionellen Genomik. Die Erfindung erlaubt die direkte Korrelation von Genom-DNS mit rasch quantifizierbaren Proteinexpressions-Spiegeln, welche Proteinexpressionsprofile für eine bestimmte Zelle ermöglichen. Diese Information kann dann dazu verwendet werden, auf Referenzzellen bezogen zu werden, um Unterschiede in Proteinexpressionsschablonen, die für Differenzierung, Krankheitsstatus, Alter oder jegliche anderen zeitlichen oder räumlichen Protein-Expressionsunterschiede in bestimmten Zellen zur Diagnose, Pathway-Regulierung oder Target-Medikamentkandidaten verantwortlich sind, zu identifizieren.
HINTERGRUND DER ERFINDUNG
Das letzte Viertel des Jahrhunderts wurde gekennzeichnet vom unermüdlichen Streben der Molekularbiologen, erst Gene und dann komplette Genome zu entschlüsseln. Die Genomik, die Anwendung von genetischen und molekularbiologischen Techniken um komplette Genomkarten zu erstellen, sowie die zugrundeliegenden Genomsequenzen für verschiedene Organismen, hatte Informationsexplosion zu Folge über die zugrundeliegenden Gene, die alle lebendigen Dinge ausmachen. Die Früchte dieser Arbeit enthalten jetzt schon die Genomsequenzen von 599 Viren und Viroiden, 205 natürlich auftretenden Plasmiden, 185 Organaros, 31 neuen Bakterien, 7 Archeas (Archebakterien), 1 Pilz, 2 Tieren und 1 Pflanze (Nature, 409: 860–921 (2001) The Human Gene Consortium). Ein bedeutender Meilenstein im Bereich der Genomik fand kürzlich seinen Höhepunkt in der Bekanntmachung der Sequenzierung des kompletten menschlichen Genoms.
Die wichtigste Anwendung für diese Sequenzdaten wird jedoch die ultimative Identifizierung von proteinkodierenden Genen sein. Proteine werden nicht direkt aus DNS produziert, stattdessen wird Information in Form von DNS transkribiert und Boten-RNS (Boten-RNS) Moleküle zu bilden. Diese Boten-RNS Moleküle arbeiten als Vorlagen für die Protein-Synthese (Translation). Jede Körperzelle enthält das gesamte Genom des Organismus, jedoch wird nur ein Teil des Genoms jeglicher Zelle zu jeder gegebenen Zeit translatiert. Unterschiede in Ausprägungsprofilen sind für die verschiedenen Typen von Zellen und Geweben innerhalb eines Organismus sowie die wechselnde Reaktion einer Zelle auf Belastung oder Krankheit verantwortlich.
Daher sind Zellen aus verschiedenen Geweben des menschlichen Körpers einzigartig, weil sie verschiedene native Gene haben. So sehen beispielsweise Blutzellen und Muskelzellen nicht nur anders aus, sondern erfüllen auch unterschiedliche Funktionen. Blutzellen liefern Sauerstoff an die Organe und schützen uns vor Krankheiten, während Muskelzellen es uns ermöglichen, uns zu bewegen und Essen zu verdauen. Diese Unterschiede ergeben sich aus spezifischen Genprodukten, die für Blut- oder Muskelzellen einzigartig sind. Die Anwesenheit von verschiedenen Proteinen innerhalb derselben Zelle resultiert aus der Funktion der verschiedenen Gene. Ein mögliches Beispiel ist die Bildung der AB Vielfalt oder Viren.
Die funktionale Genomik strebt die Entdeckung der biologischen Funktion bestimmter Gene an und die Enthüllung der Möglichkeiten, mit denen Gensets und deren Produkte in Gesundheit und Krankheit zusammenarbeiten. Laut der Human Gene Consortium Group gibt es offensichtlich ungefähr 30.000 bis 40.000 proteinkodierende Gene im menschlichen Genom. Überraschenderweise sind das nur etwa doppelt soviel wie in C. Elegans oder D. melanogaster, der Fruchtfliege. Also muss die unüberschaubare Komplexität des Menschen eher auf die kompliziertere Anwendung bestehender Gene mit alternativem Spleissen zurückzuführen sein als auf eine einfach nur erhöhte Anzahl an Genen.
Wenn Gene mehrere Proteine kodieren, dann ist der Architekt der biologischen Komplexität, die unser Genmaterial von dem eines Wurmes unterscheidet, die RNS, das Molekül, welches die Produktion von Proteinen aus DNS leitet. Anders als Gene in Bakterien sind Gene von pflanzlichen und tierischen Zellen nicht als fortlaufende DNS angeordnet sondern als kodierende Exone durchsetzt mit nichtkodierenden Intronen, die es ermöglichen, ein Gen in verschiedene unterschiedliche Produkte zu transkribieren, da jedes Boten-RNS zusammengespleisst ist, um Kombinationen von Exonen und Stückchen von Intronen zu formen.
Frühere Schätzungen beliefen sich darauf, dass 20% der menschlichen Gene in mehr als einer alternativen Variante transkribiert werden, aber neue Forschungen schätzen die Zahl eher auf 50%, und selbst diese Schätzung wurde als konservativ kritisiert. Beispielsweise hat ein Team amerikanischer Forscher, welches die Gene untersucht, die die Entwicklung des Gehirns in Drosophila melanogaster kontrollieren, Berechnungen nachgeprüft, die aufzeigen, dass das Neurexin Gen 35,000 verschiedene mögliche Proteinprodukte hervorrufen kann, nur durch differentielles Splicing. Wenn man dazu die Möglichkeiten des RNS-Editing sowie des Posttranslationalen Processing hinzufügt, könnte man am Ende möglicherweise Millionen verschiedener Genprodukte erhalten. Tatsächlich haben Studien von Fliegenarten, die sich über Millionen von Jahren unterschiedlich entwickelt haben, gezeigt, dass Sequenzen von vielen differentiellen Splice- Sites strengstens beibehalten werden, was beweist zeigt, dass sie tatsächlich benutzt werden.
So ist der gewünschte Endpunkt für die Beschreibung eines biologischen Systems nicht alleine die Analyse von Boten-RNS Transkriptionsniveaus sondern auch die präzise Vermessung von Proteinexpressionsspiegeln und deren entsprechenden Aktivitäten. Die Inhaltsanalyse von globalen Boten-RNS-Spiegeln ist die aktuelle Methode für die Analyse von Zell- und Gewebestadien, (Fraser, und andere, 1997 "Strategies for whole microbial genome sequencing and analysis" [Strategien für ganze mikrobische Genom-Sequenzierung und -Analyse] Electrophoresis 18: 1207–1216). Einzelne Methoden wurden verfeinert, um in Vergleichsanalysen absolute Boten-RNS oder relative Boten-RNS-Spiegel zu erhalten. Boten-RNS-basierte Genomik enthält jedoch einige innere Einschränkungen. So können beispielsweise Gen-Expression (Boten-RNS) Spiegel möglicherweise nicht immer Protein-Expressionsspiegel vorausberechnen. Deshalb bietet Gen-Expression-Analyse wie bei der Mikro-Array-Methode möglicherweise keine definitive Information über bestimmte Targets. Tatsächlich sind Gygi und andere kürzlich zu dem Schluss gekommen, dass die Wechselwirkung für alle Hefeproteine zwischen Boten-RNS und Protein-Expressionsspiegeln weniger als 0.4 beträgt. In der Tat variierten für einige Gene die Proteinspiegel um mehr als das 20fache, während Boten-RNS-Spiegel gleichbleibend waren. Umgekehrt wurden unveränderlich konstante Spiegel von bestimmten Proteinen beobachtet, während entsprechende Boten-RNS Transkriptionslevel bis um das 30fache variierten. Gygi und andere, "Correlation between Protein and mRNS Abundance in Yeast" [Wechselbeziehung zwischen Protein und Boten-RNS-Fülle in Hefe] Molecular and Cellular Biology March 1999 Seiten 1720–1720.
Des weiteren kann posttranslationales Processing von Proteinen wie proteolytische Spaltung, Glykosylierung, Phosphorilierung, Prenylierung, Myristylierung, Ubiquitinierung und N- und C-terminale Prozessierung die Proteinaktivität und Halbwertzeit beeinflussen. Diese Veränderungen können nicht alleine durch die Gensequenz oder -Expressionsdaten bestimmt werden. Einige Proteine sind nur dann aktiv, wenn sie mit anderen Molekülen oder Proteinen komplexiert werden, oder mit bestimmten subzellulären Stellen innerhalb einer Zelle. Noch einmal, diese Faktoren können nicht durch Gensequenz-Expressionsdaten bestimmt werden. 19 ist ein Diagramm, welches die Schichten von Informationen veranschaulicht, die getestet werden können, um den wirklichen Status einer Zelle zu ermitteln (am weitesten außen liegender Kreis). Diejenigen, die DNS und Ur-Sequenzdaten untersuchen bestimmen die Genfunktion auf der Basis von Sequenzähnlichkeit, Genstruktur und evolutionären Beziehungen. Bei diesen Daten fehlen jegliche Boten-RNS oder Daten des translationalen Processing. Diejenigen, die die Boten-RNS untersuchen, erhalten eine Prognose über ein Proteinprofil, basierend auf der Annahme, dass Proteinspiegel direkt proportional zu Boten-RNS sind. Eine Vermutung, die sich als irrtümlich erweist. Die Methode von allen, die dem wahren Zellzustand am nächsten kommt, ist die Methode der vorliegenden Erfindung, welche tatsächliche Zellproteinspiegel durch direkte Messung erkennt.
Der Forschungsbereich Proteomie hat immer mehr an Gewicht gewonnen, da die funktionale Genomik versucht, der Fülle an Informationen über das menschliche Genom Funktionen zu zuordnen. Proteomie beinhaltet Wissenschaft und Prozesse der Analyse und Katalogisierung aller Proteine durch ein Genom (ein Proteom).
Komplette Beschreibungen von Proteinen, die Sequenzenstruktur und Funktion enhalten, werden einen wesentlichen Beitrag dazu leisten, die derzeitige pharmazeutische Vorgehensweise bei therapeutischer Entwicklung zu unterstützen. So können die spezifischen strukturellen und funktionalen Aspekte eines bestimmten Proteins dazu genutzt werden, bessere Proteine oder kleine Molekül-Liganden zu entwickeln, die als Aktivator oder als Inhibitor von Proteinfunktion bei der Arzneimittelentwicklung dienen. Genom-Sequenzinformation reicht häufig nicht aus, um Krankheitsmechanismen zu erklären aufgrund der Vielzahl an Schritten zwischen Gentranskription und entsprechender Proteinfunktion.
Mehrere Gene können an einem Krankheitsprozess beteiligt sein. Es ist möglich, alle Gene, die an einer bestimmten Krankheit beteiligt sind, auf der Basis von DNS-Sequenzdaten zu identifizieren. Es braucht aber Proteomie, um zu lernen, wie diese Gene in Gesundheit und Krankheit arbeiten (und wie gesundheitstherapeutische Eingriffe für sie entwickelt werden können).
Krankheit kann von Veränderungen im Genexpression, Proteinexpression oder posttranslationales Processing von Proteinen verursacht werden. Viele Proteine stellen das Zwischen-Target für Medikamente, medikamentenbedingte Veränderungen in Genexpressionsspiegeln, oder ein indirektes Ergebnis von Medikamenteninteraktion mit dem Protein dar. Zellen und ihre Proteome sind dynamisch. Ein Genom kann möglicherweise viele Proteome hervorbringen als Resultat von Veränderungen in Differenzierung, Belastung oder Krankheitszustand. Proteomie kann eingesetzt werden, um serumbasierte biologische Marker zu bestimmen, die sich als klinische Marker oder als Basis einer Diagnose wertvoll erweisen können.
Es ist also ersichtlich, dass ein Bedarf besteht an der Fertigkeit der Identifikation von Proteinen und ihren begleitenden Kodierungssequenzen, die direkt oder indirekt geregelt sind und an unterscheidenden Ausdrucksschablonen beteiligt sind, die mit Krankheitsstadien, unterschiedlichen Gewebetypen, oder anderen alternativen Zellstadien assoziiert sind.
Ein Ziel der vorliegenden Erfindung ist die Bereitstellung einer unmittelbaren Verbindung von Proteininformationen mit ihren korrespondierenden Genomsequenzen, um Information für diagnostische Protokolle, Pathway-Erläuterung, oder Targets der Arzneimittelgestaltung zu bieten.
Ein weiteres Ziel der vorliegenden Erfindung ist die Identifizierung eines Proteinausdrucksprofils einer bestimmten Zelle, sei sie von der Herkunft her pflanzlich, bakteriell, tierisch usw., und um relative Spiegel der Expressionen dieser Proteine zu quantifizieren, die mit einer bestimmten Population assoziiert werden.
Und es ist ein weiteres Ziel der vorliegenden Erfindung, eine Genbank mit funktionalen genomischen Daten zu erstellen, die dazu verwendet werden kann, menschliche Therapien zu entwicklen. Die meisten Forscher im Bereich der funktionalen Genomik verlassen sich auf maschinen-basierte Analyse der Proteinstruktur oder -funktion, um Proteinen Funktionen zuzuordnen. Diejenigen, die an die Aufgabe aus einer Sequenzierungszielvorabe herangehen, ordnen Funktionen durch Analyse und Vergleich von Genomdaten zu, die durch Vergleiche zwischen erkranktem und normalem Gewebe entwickelt wurden. Dies wird typischerweise erreicht durch die Verwendung von Gen-Chips oder direkter Sequenzierung.
Und es ist ein weiteres Ziel der vorliegenden Erfindung, eine unmittelbare Verbindung zwischen Genomsequenz und Proteomie-Information zu erstellen, mit Hilfe von Techniken der Molekularbiologie. Die Ergebnisse dieser Information können laut der Erfindung neue therapeutische Targetentwicklung bieten. Individuelle Variationen in Proteinexpressionsspiegeln zwischen normalen und aberranten Geweben werden zur direkten Identifizierung neuer therapeutischer Targets führen. Liegt ein nicht identifiziertes Protein entweder höher oder niedriger im Expressionsspiegel, innerhalb der bösartigen Zellen verglichen mit normalen Zellen, bietet es ein mögliches Ziel für weitere Studien und identifiziert einen mögliches Medikamenteneingriffsort. Einmalige Proteintargets werden entsprechend der Erfindung identifiziert.
Und es ist ein weiteres Ziel der Erfindung, Information über komplette Wege der Protein regulation zu bieten, neue Targetentwicklung zu belegen, wenn mehrere Proteinen an einem bestimmten Stadium beteiligt sind. Der größte Teil der Medikamentenentwicklung für Krebs- oder andere therapeutische Zwecke konzentriert sich jeweils nur auf ein einziges Protein-Target. Komplexe Interaktion zwischen Proteinen verursacht jedoch den bösartigen oder kranken Zustand in fast allen Zellen. Laut der Erfindung identifiziert die Methode des Antragstellers Protein-Expressionsspiegel für einen gesamten Pathway von aktiven Proteintargets, kann die Expression von mehreren Proteinen gleichzeitig auswerten und ermöglicht so die Analyse von Schablonen von Protein-Coexpressionen mit bösartigen oder erkrankten Zellen im Vergleich mit normalen Zellen.
KURZE ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung bezieht sich im allgemeinen auf Methoden und Zusammensetzungen zur Identifizierung von unterschiedlichen Proteinexpressionsschablonen und gleichzeitig die aktiven Genregionen, die direkt oder indirekt an unterschiedlichen Zelltypen, Gewebetypen, Krankheitsstadien oder anderen Zellunterschieden beteiligt sind, die für Diagnose oder Medikamententherapie-Targets erwünscht sind.
Laut der Erfindung wird eine Methode aufgezeigt, um ein Proteinprofil in einer Zelle durch die Anwendung eines genetischen Integrations-Polynukleotides zu erhalten, welches ein Tag-Protein kodiert, das aktiv festgestellt werden kann. Das polynukleotide Konstrukt beinhaltet ein Marker-Gen oder einen Marker, welches in ein Genom eines Organismus eingebracht wird mit jeglicher, dem Fach bekannter Vektor-Einfügungs-Methode, die zukünftig entwickelt oder hier beschrieben wird. Das Marker-Gen wird nicht operativ mit einer Promotor-Sequenz in dem Konstrukt (promotorless) verbunden und das Konstrukt verlässt sich somit auf die Integration innerhalb einer aktiven Transkriptionseinheit innerhalb der Zelle für die Expression. Die Aktivität des Markers wird dann gemessen um zu sortieren und vorzugsweise Protein-Expressionsschablonen für die Zelle zu quantifizieren. Sobald eine Profil-Expressionsschablone erhalten wurde, werden molekularbiologische Techniken angewandt, um die bestimmten genetischen Loki zu bestimmen, die exprimiert werden. Diese Information verdeutlicht diagnostische Profile für erkrankte oder andere zelluläre Stadien oder Typen sowie auch mögliche Target Sites für den Medikamenteneingriff und alternative Genformen (SNPs). 3 zeigt einen allgemeinen Überblick über den Prozess des Eingriffes beim Einsatz in einer Krebszelle gegenüber einer normalen Zelle.
Polynukleotide für die Bewerkstelligung der Methoden dieser Erfindung werden aufgezeigt einschließlich der Expressions-Konstrukte, molekularbiologische Techniken, transformierten Zellen, Vektoren und Methoden zu ihrer Gestaltung, deren Einschluss in den Umfang dieser Erfindung beabsichtigt wird.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist eine schematische Darstellung eines Vektors, der für die Erfindung von Nutzen ist. In diesem Beispiel kann die Integration einer Marker-Peptid-Kodierungssequenz entweder in einem Intron oder einem Exon von Mosaikgenen, die Proteinprodukte kodieren, auftreten (einschließlich, aber nicht beschränkt auf, z.b. Gene ohne Introne, die Proteine kodieren wie zum Beispiel Histone usw., oder Gene die physiologisch aktive RNS kodieren, z.b., snRNS, scRNS, Spliceosom-Komponenten usw.). Der Klarheit zuliebe wird die Integration in eine Intronen-Sequenz eines zellulären Gens gezeigt, welches ein Protein kodiert. Die Plazierung eines Splicing Akzeptors d-(SA)stromaufwärts von einer Marker-Pepti-kodierenden Sequenz bewirkt die Synthese einer Boten-RNS, die ein Fusions-Protein kodiert, welches die Marker-Peptide beinhaltet, die gebunden werden an Peptidsequenzen kodiert von stromaufwärts gelegenen Exonen (tritt auf, wenn der Spleiss-Donor des nächsten stromaufwärts gelegenen Exons (näher am Beginn der Transkription) mit dem Spleiss-Donor reagiert, der in der integrierten Marker DNS Sequenz auftritt).
2(a–f) zeigen Diagramme von verschiedenen abweichenden Konstrukten von retroviralen Vektoren, die bestimmte ausgeprägte Funktionen durchführen zwischen dem 5' und 3' LTR. Diese Expressions-Kassetten würden im wesentlichen intakt zwischen jeglichen der verschiedenen Viren und/oder Plasmiden, die wir erwähnt haben, bewegt werden. 2a ist ein Vektor zur Exon-Erfassung, 2b ist ein Vektor, konzipiert für Integrationsort-Erfassung, 2c ist ein Vektor für die Inkorporation von mehreren Marker-Genen, 2d ist eine Transfektions-Kassette, 2e ist ein Vektor für Replication-Compliant Viren, 2f ist ein Vektor für Fusions-Proteinmarker für Zellenvorbereitung und FACS Analyse. RE Type IIS Restriction Enzyme Site; LTR, long terminal repeat (lange Wiederholung); CMV IE, CMV Intermediate-Early Promotor; NeoR; neomycin-resistentes Gen; pA, Rinderwachstumshormon poly-A Signal; SA, menschliches gamma-globin Intron #2 Splice-Akzeptor; pA, NeoR, CMV, hrGFP, SA sind in antisense Orientierung gegen LTRs. Gag, pol, env, retrovirales Helfervirus.
3 liefert einen rudimentären Überblick über den Prozess der Erfindung. Der Prozess beginnt mit dem Vergleich von zwei verschiedenen Zellpopulationen. Jede zu vergleichende Zellpopulation wurde genetisch markiert durch einen Vektor, der Peptide von Marker/n enthält, um die Erkennung und die Bestimmung der relativen Konzentration von Marker/n zu erleichtern. Der linke Bereich der mittleren Fläche zeigt, dass markierte Zellen vorhanden sind. Die am Vektor angrenzenden Sequenzen werden nicht ausschließlich von SAVI oder STARS Methoden bestimmt. Gültige Tags werden dann mit öffentlichen und kommerziellen Datenbanken verglichen und in unseren eigenen Datenbanken kommentiert.
4 ist eine Darstellung eines Gen-Trap Vektors, pGT5A mit einem humanisiertem Renilla Lumineszenz Protein (hrGFP) als Assay-Marker, oder Reporter-Gen. (a) Schematisches Diagramm eines pGT5A Plasmids. LTR, long terminal repeat (lange Wiederholung); PBS, retrovirale Primer-Bindungsstelle; CMV IE, CMV Intermediate Early Promotor; NeoR; neomycin-resistentes Gen; pA, Rinderwachstumshormon poly-A Signal; SA, menschliches γ-globin Intron #2 Splice-Akzeptor; AmpR, ampicillin-resistentes Gen für Bakterien-Klonierung. pA, NeoR, CMV, hrGFP, SA sind in antisense Orientierung gegen LTRs. (B) Schematische Anordnung von Genen in pGT5A vector.
5 zeigt einen Vektor, pGT5AH mit einem humanisierten Renilla Fluoreszenz Protein (hrGFP) als einen Assay-Marker, oder Reporter-Gen. (A) Schematisches Diagram des pGT5AH Plasmids. LTR, long terminal repeat (lange Wiederholung); PBS, retrovirale Primer-Bindungsstelle; CMV IE, CMV intermediate-early Promotor; NeoR; neomycin resistant gene; pA, Rinderwachstumshormon poly-A Signal; SA, menschliches γ-globin Intron #2 Splice-Akzeptor; AmpR, Ampicillin-resistentes Gen für Bakterien-Klonierung. pA, NeoR, CMV, hrGFP, SA sind in antisense Orientierung gegen LTRs. Das His6 Tag enthält 6 kontinuierliche Histidin-Rückstände am C-Terminal des hrGFP für die Erkennung durch Anti-His6-Antikörper. (B) Schematische Anordnung von Genen im pGT5AH-Vektor.
6 zeigt ein pGT5Z mit humanisiertem Renilla Fluoreszenz Protein (hrGFP)) als einen Assay-Marker, oder Reporter-Gen und Zeocin-Resistenz Gen (ZeoR). (A) Schemdatisches Diagramm vom pGT5Z Plasmid. LTR, long terminal repeat (lange Wiederholung); PBS, retrovirale Primer-Bindungsstelle; CMV IE, CMV intermediate-early Promotor; NeoR; neomycin-resistentes Gen; pA, Rinderwachstumshormon poly-A Signal; SA, menschliches γ-globin Intron #2 Splice-Akzeptor; SD, synthetischer Spleiss-Donor. SV40, Simian Virus Typ 40 Early Promotor. AmpR, Ampicillin-resistentes Gen für Bakterien-Klonierung. pA, NeoR, CMV, hrGFP, SA sind in antisense Orientierung gegen LTRs. (B) Schematische Anordnung von Genen im pGT5Z Vektor.
7 ist eine Darstellung der Demonstration der Spleissfunktion und Fusion hrGFP Protein exprimiert durch den pGT5A Vektor. (A) Ein Konstrukt des pGT5Z, welches vom pGT5A abgeleitet wurde mit einer Einfügung eines SV40 Early Promotors (SV40), Zeocin-resistentes Gen (ZeoR), und ein synthetischer Spleiss-Donor und partielles Intron, um die erwarteten biologischen Funktionen von pGT5A nach dem Gen-Trapping zu zeigen. (B) pGT5Z-transfekte Zellen nach Zeocin Selektion zeigten signifikante Zeocin-hrGFP-Fusionsprotein-Expression in der FACS Analyse.
8 ist eine Darstellung des Gen-Trapping von PGT5A-transfekten PA317 Zellen. (A) PA317 Zellen transfekt mit pGT5A zeigten 3,6% der hrGFP-positiven Zell-Population. (B) Sortierung der hrGFP-positiven Zell-Population in (A) durch FACS Zellsortierer, hrGFP-positive Population wurde angereichert auf 95% nach 2 Wochen Zellkultur.
9 ist eine Darstellung der Gen-Expression von hrGFP in Gen-trapped PA317 Zellen. RT-PCR wurde durchgeführt an der gesamten RNS extrahiert aus sortierten Zellen in 7 und 8, und PCR Produkt wurde elektrophoresiert in 2% Biogel-A. Die ganze Länge der hrGFP Transkriptionen, gesteuert durch trapped zelluläre Promotor (GT5A/PA317), wurden durch hrGFP-spezifische Primer nach cDNA-Synthese amplifiziert, wie durch den Pfeil angezeigt. Transkriptionen von GT5Z in PA317 (GT5Z/PA317) und PA317 ohne Vektor (PA317) wurden als positive und negative Kontrolle eingesetzt.
10 ist eine Darstellung des Gen-Trapping vom GT5A Vektor in menschlichen Lungenkrebszellen, A549, nach viraler Transduktion. (A) A549 Zellen ohne Transduktion analysiert von FACS. (B) A549 Zellen mit GT5A-Transduktion analysiert von FACS zeigten, dass die hrGFP-positive Population nach dem Gen-Trapping 1,68 beträgt.
11 ist eine Darstellung des Gen-Trapping von GT5A Vektor in NIH3T3 Zellen. Gemischte Population von GT5A-trapped NIH3T3 Zellen wurden sortiert, für drei Wochen kultiviert und dann durch FACS analysiert im Vergleich mit nicht transduzierten Zellen. Verschiedene Intensitäten von hrGFP werden in vier verschiedenen größeren Gruppen gezeigt.
12 ist eine Darstellung der hrGFP Gen-Expression von Einzelzell-Klonen von GT5A-trapped NIH3T3 Zellen. Individuelle Einzelzellen werden sortiert in 96-wells Plate und kultiviert für eine ausreichende Population zur FACS Analyse. A6P1 und C4P2, C8P2 und H8P2 wurden in zwei verschiedenen Fällen analysiert, während eines Vergleichs mit nicht transduzierten NIH3T3 Zellen.
13 ist eine Darstellung des Gen-Trapping mit einer α1,3-galactosyl Transferase als Reporter-Gen in einer menschlichen Melanom-Zellreihe, A375. (A) Schematisches Diagramm von seriellen Gen-Trapping Vektoren mit α1,3-galactosyl Transferase (α1,3-gal) Gen. LTR, long terminal repeat (lange Wiederholung); SV40, Simian Virus type40 Early Promotor; ZeoR, zeocin-resistentes Gen; CMV, CMV Early Promotor; NeoR; neomycin-resistentes Gen; pA, Rinderwachstumshormon poly-A Signal. SA, menschlicher g- globin intron2 Splicing Akzeptor; SD, synthetischer Splicing-Spender. pA, NeoR, CMV, α1,3 gal, SA or SD, ZeoR und SV40 sind in antisense Ausrichtung gegen LTRs. (B) Gen-Trapping von pGT7A in A375/AMIZ Zellen. Die Zellen werden mit Lectin, konjugiert mit FITC für FACS Analyse, gekennzeichnet. Lectin bindet sich an α1,3 Gal Epitope an der Zelloberfläche um erfolgreiches Gen-Trapping zu zeigen. (C) Gen-Trapping in A375/AMIZ-Zellen 3 Tage nach Transfektion von pGT7AH. (D) Splicing Funktion und funktionales α-1,3 α-gal/ZeoR Fusionsprotein wurden gezeigt durch lectin/FITC-positive Zellen.
14 ist eine schematische Darstellung eines Vektoren der Erfindung, welcher homologe Rekombination als Integrationsstrategie anwendet. Die Wiederholungssequenzen sind so eingerichtet, dass sie an das Assay-Marker-Gen angrenzen und dann in die Zelle eingebracht zu werden. Nur 1 von 3 wesentlichen Bestandteilen wird im Rahmen sein, basierend auf dem Triplet-Kodon-Schema, so dass nur 1 von drei integrierten Vektoren funktional sein wird und die Translation des Assay-Markers bewirkt.
16 ist eine schematische Darstellung des STARS Prozesses. Eine Spaltungsmethode besagter zelluläre DNS in der Form, dass eingefügte DNS (mit dem Anwender bekannter Sequenz) einmal gespalten wird und angrenzend an zelluläre DNS unbekannter Sequenz wieder gespalten wird in den Bereichen anliegend an dem eingefügten Teil der DNS. Spaltung der DNS verläuft in der Form, dass die Möglichkeiten entwickelt werden, die Zirkularisierung von DNS Fragmenten erlauben, die ein Molekül mit dem Anwender bekannter Sequenz an beiden Seiten anliegend, produzieren und durchgängig mit einer veränderlichen Länge zellulärer DNS von unbekannter Sequenz. Der Bereich, der die unbekannte DNS enthält, wird dann amplifiziert und sequenziert.
17 ist eine schematische Darstellung des SAVI-Prozesses. Die Integration eines Marker-Gens kann entweder in einem Intron oder einem Exon auftreten. Anliegend an einem Splicing Akzeptor (SA) vor einem Marker-Gen kann sich daher ein Fusionsprotein für Marker-Gen-Expression bilden, nachdem der integrierte Exon-Bereich in ein SA-Signal des Maker-Gens gespleisst wurde. Den Exon-Bereich dieses integrierten Gens jedoch zu sequenzieren, um die Identität freizugeben, wird zum Problem.
Um dieses Hindernis zu überwinden wird ein Typ IIS Restriktions-Enzym (RE) zwischen dem SA Signal und dem Starter-Kodon (ATG) von Marker-Genen, wie hrGFP, Alpha 1–3 Galactosyltransferase (α-gal), usw. eingeführt. Dies kann als SA-RE-ATG illustriert werden. Dieser RE Site kann im Rahmen mit Markern entworfen werden. Nachdem der SA mit dem Spleiss-Donor (SD) des integrierten zellulären Gens durch zelluläre Spleiss-Mechanismen verbunden wurde, wird invertierte Transkription angewandt, um dieses hypbride RNS Transkript in komplementäre DNS (cDNA) zu konvertieren (inklusive, aber nicht beschränkt auf, cDNA, da zelluläre DNS verwendet werden kann). Diese c DNS wird dan dem RE Verdau von Exon des integrierten Gens ausgesetzt, zehn bis zwanzig Basen entfernt von der SD/SA, abhängig davon, welche RE eingesetzt wird. Ein Biotin-gekennzeichneter Primer #1, entworfen für ein bekanntes MK Gen, wird dann eingesetzt, um die ss DNS in dieses Exon zu erweitern. Erfassung dieser biotin-ss DNS durch streptavidin-konjugierte magnetische Perlen reichern diese spezifische ss DNS an für eine DNS Terminal-Transferase-Reaktion an. Polymer Deoxynukleotide können zu dieser ss DNS hinzugefügt werden als Tail an ihrem 3' Ende. Ein Polymer-Primer, zusätzlich zum Polymer Tail und ein zweiter Primer #2 am MK Marker-Gen kann also eingesetzt werden, um diese 3' Ende des Exon-Bereiches zu amplifizieren. Diese kurzen Tags von verschiedenen integrierten Genen durch Ligationsreaktionen in ein längeres DNS Fragment, dass in Folge sequenziert wird. Sequenzierungsergebnisse dieser Tags können verwendet werden, um die Identität aus EST Datenbanken oder Genomdatenbanken abzufragen. Diese Vorgehensweise kann alle möglichen Gentransfer-Methoden einsetzen, um obiges Konstrukt in DNS oder RNS Genome aller Organismen zu überbringen.
18 ist ein nicht-limitierendes Flussdiagram, welches den gesamten Ablauf zeigt. Diese Abbildung liefert einen rudimentären Überblick über den Prozess der Erfindung. Der Prozess beginnt mit zwei verschiedenen zu vergleichenden Zellpopulationen. Jede zu vergleichende Zellpopulation ist genetisch markiert durch einen Vektor, der Peptide von Marker/n enthält, um die Entdeckung und Bestimmung von relativen Konzentrierungen von Marker/n zu erleichtern. Der linke Bereich der mittleren Fläche zeigt die Trennung von Zellpopulationen basierend auf der relativen Anzahl von Markern, die in der markierten Zelle auftreten. Die dem Vektor anliegenden Sequenzen werden bestimmt durch, aber nicht beschränkt auf SAVI oder STARS Methoden. Gültige Tags werden dann mit öffentlich zugängigen und kommerziellen Datenbanken verglichen und in unserer eigenene Datenbank kommentiert. Wie man sehen kann existieren in jedem Stadium Alternativen für jeden Schritt.
19 ist ein Diagramm, das die Lagen an Informationen zeigt, die geprüft werden können, um den echten Zellstatus zu ermitteln (am weitesten außen liegender Kreis). Diejenigen, die DNS und Ur-Sequenz-Daten prüfen, bestimmen Gen-Funktion basierend auf Sequenzähnlichkeit, Genstruktur und evolutionären Beziehungen. Bei diesen Daten fehlen jegliche Boten-RNS oder translationale Processing Daten. Diejenigen, die Boten-RNS untersuchen, erhalten eine Prognose eines Protein-Profils basierend auf der Vermutung, dass Protein-Spiegel direkt proportional zu Boten-RNS sind. Eine Vermutung, die sich jetzt als falsch herausstellt. Die dem echten Zellstatus am nächsten kommende Methode ist die der Erfindung, welche tatsächliche zelluläre Protein-Spiegel durch direkte Messung feststellt.
20 ist eine Darstellung von erfolgreichem Gen-Trapping in pGT5A-transfekten PA317 Zellen. NcoI Restriction Site am 5' Ende des hrGFP Marker-Gens und ein EcoRI am Oligo-dA Primer wurden als Klonierungssites eingesetzt für Gen-trapped Sequenz in einen sequenzierenden Vektor, der mit NcoI und EcoRI verdaut wurde. Nach BLAST Suche in der Maus EST Datenbank in GenBank, weist die Sequenz, gefangen vom pGT5A 99% Homologie auf zu einem High-Mobility Gruppenprotein, HMGI-C, ein nukleares Phosphoprotein, das drei kurze DNA-bindende Domänen (AT-hooks) und einen Highly-Acidic C-Terminus enthält.
Das Interesse an diesem Protein wurde kürzlich durch drei Beobachtungen geschürt: die Expression des Gens wird vom Zell-Zyklus reguliert, das Gen wird neu angeordnet in einer Anzahl von Tumoren mesenchymaler Herkunft und Mäuse, bei denen beide HMGI-C Allele gestört sind, weisen den Pygmäen Phänotyp auf. Diese Beobachtungen weisen darauf hin, dass das HMGI-C im Zellwachstum eine Rolle spielt, um genauer zu sein, während des fötalem Wachstums, da das Protein normalerweise nur in Embryonalgewebe exprimiert wird. Es ist wahrscheinlich, dass das HMGI-C Protein als architektonischer Transkriptionsfaktor arbeitet, der die Expression von einem oder mehreren Genen, welche embryonales Zellwachstum steuern, reguliert. Da das HMGI-C sich an eine Minor Groove (kleine Furche) der AT-reichen DNS anbindet, könnte diese Interaktion ein Target sein für Minor Groove chemotherapeutische Stoffe in der Behandlung von Sarkomen, die ein neu geordnetes Gen exprimieren.
21 ist eine Darstellung des Gene Trappings eines Exons mit unbekannter biologischer Funktion in pGT5A-transfekten PA317 Zellen. NcoI Restriction Site am 5' Ende eines hrGFP Marker Gens und eines EcoRI am Oligo-dA Primer wurden eingesetzt als Klonierungs-Sites für Gene-trapped Sequenz in einen sequenzierenden Vektor, der mit NcoI und EcoRI verdaut wurde. Nach einer BLAST Suche in der EST Datenbank in GenBank, weist die Sequenz, gefangen durch pGT5A eine 95% Übereinstimmung auf mit einem NCI_CGAP_Li9 Mus musculus c DNS Klon, BF539247.1/BF533319.1/... usw. auf, der in den c DNS Genbanken von Speicheldrüse und Leber gefunden wurde.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Definitionen
Sofern nicht anders definiert, haben alle hier verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung wie sie gewöhnlich verstanden wird bei irgendeinem üblichen Fachkönnen dieser Fachrichtung, zu der diese Erfindung zählt. Generell sind die hier verwendete Nomenklatur und Laborverfahren in Zellkultur, Molekulargenetik sowie die im weiteren beschriebenen Nukleinsäurechemie und Hybridisierung gut bekannt und in Fachkreisen allgemein angewandt. Standardtechniken wurden eingesetzt für rekombinante Nukleinsäure-Methoden, polynukleotide Synthese und microbial Kultur und Transformation (z.b., Elektroporation, Lipofektion). Im allgemeinen werden Enzymreaktionen und Reinigungsschritte durchgefürht gemäß den Angaben des Herstellers. Die Techniken und Verfahren wurden im allgemeinen durchgeführt gemäß den konventionellen Methoden dieses Fachs und verschiedenen allgemeinen Referenzen (siehe allgemein, Sambrook und andere. Molecular Cloning: A Laboratory Manual [Molekulare Klonierung: Ein Laborhandbuch], 2. Ausgabe (1989) Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., welche hier durch Bezug eingebunden ist) die durchweg in diesem Dokument mitgeliefert werden. Einheiten, Präfixe und Symbole können in ihrer durch SI akzeptieren Form angezeigt werden. Sofern nicht anders gekennzeichnet, wurden jeweils die Nukleinsäuren von links nach rechts geschrieben mit 5' nach 3' Ausrichtung; Aminosäuresequenzen von links nach rechts geschrieben mit Amino zu Carboxy Ausrichtung. Der numerische Bereich schließt die Nummern ein, die den Bereich definieren und schließt jede ganze Zahl innerhalb des definierten Bereichs ein. Aminosäuren können hier entweder mit den üblichen 3-Buchstaben-Symbolen bezeichnet werden oder mit den 1-Buchstaben-Symbolen, die von der IUPAC-IUB Biochemical Nomenclature Commission [Biochemischiche Nomenklatur Kommission] empfohlen werden. Nukleotide können ebenso mit den üblichen 1-Buchstaben-Codes bezeichnet werden. Wenn nicht anders vorgegeben, werden Software-, elektrische und elektronische Begriffe hier so verwendet, wie im "The New IEEE Standard Dictionary of Electrical and Electronics Terms [Neues IEEE Standard Lexikon der elektrischen und elektronischen Begriffe] (5. Ausgabe, 1993)" vorgegeben. Wie in der ganzen Bekanntmachung werden die folgenden Begriffe, sofern nicht anders angegeben, derart verstanden, dass ihnen die folgenden Bedeutungen zugeordnet sind, und sie werden detaillierter definiert durch den Bezug auf die Spezifikation als Ganzes:
Mit "amplifiziert" wird die Konstruktion von mehreren Kopien einer Nukleinsäure-Sequenz oder mehrfache Kopien zusätzlich zur Nukleinsäure-Sequenz bezeichnet, wobei wenigstens eine der Nukleinsäure-Sequenzen als Schablone benutzt wird. Amplifikationssysteme schliessen das Polymerase Chain Reaction (PCR) System, das Ligase Chain Reaction (LCR) System, Nukleinsäure-Sequenz-basierte Amplifikation (NASBA, Canteen, Mississauga, Ontario), Q-Beta Replicase Systeme, transkriptions-basiertes Amplifikationssystem (TAS) und die Strand Displacement Amplifikation (SDA) ein. Siehe, z.b., Diagnostic Molecular Microbiology: Principles and Applications [Diagnostische molekulare Mikrobiologie], D.H. Persing und andere, Ed., American Society for Microbiology, Washington, D.C. (1993). Das Produkt der Amplifikation wird als Amplimer bezeichnet.
Der Begriff "Antikörper" beinhaltet den Bezug auf Antigen bindende Formen von Antikörpern (z.b., Fab, F(ab)₂). Der Begriff "Antikörper" bezieht sich häufig auf ein Polypeptid, im Wesentlichen kodiert durch ein Immunoglobulin-Gen oder Immunoglobulin-Gene, oder Fragmente dessen, die ein Analyt (Antigen) spezifisch binden und erkennen. Während jedoch verschiedene Antikörperfragmente hinsichtlich der Verdauung eines intakten Antikörpers definiert werden können, wird jemand mit Fachwissen einschätzen können, dass solche Fragmente entweder chemisch oder durch Einsatz von rekombinanter DNS Methodik de novo synthetisiert werden können. Somit enthält der Begriff Antikörper, wie er hier verwendet wird, auch Antikörper-Fragmente wie Single-Chain Fv, chimerische Antikörper (d.h. konstante und variable Bereiche von verschiedenen Arten enthaltend), humanisierte Antikörper (d.h. einen komplementaritätsbestimmenden Bereich (CDR) aus einer nicht-menschlichen Quelle enthaltend) und heterokonjugierte Antikörper (z.b. bispezifische Antikörper).
Der Begriff "Assay Marker" oder "Reporter" bezieht sich auf ein Gen-Produkt, welches im experimentellen Prüfprotokoll erkannt werden kann, so wie Marker-Enzyme, Antigene, Aminosäuren-Sequenz-Marker, zelluläre phenotypische Marker, Nukleinsäure-Sequenz-Marker und dergleichen.
Der Begriff "auf eine Expression prüfen" bei einer Proteinkodierungsssequenz meint jeglichen Test oder jegliche Testserie, welche die Unterscheidung von Zellen, die das Protein exprimieren von denen, die das Protein nicht exprimieren, erlaubt. Deartige Tests beinhalten biochemische und biologische Test und setzen entweder "selektierbare Marker" oder "Assay Marker" ein.
Wie hier verwendet, enthält der Begriff "chromosomaler Bereich" den Bezug auf die Länge eines Chromosoms, die gemessen werden kann mit Bezug auf das lineare Segment der DNS, welches es enthält. Der chromosomale Bereich kann durch Bezug auf zwei eindeutige DNS Sequenzen, d.h. Marker, definiert werden.
Ein "Klonierungs-Vektor" ist ein DNS Molekül wie Plasmid, Cosmid oder Bakteriophage, welches die Fähigkeit besitzt, sich in einer Hostzelle autonom zu replizieren. Klonierungs-Vektoren enthälren typischerweise ein oder eine kleine Zahl an Restriction Endonuklease Recognition Sites, wo fremde DNS-Sequenzen in einer bestimmbaren Art und Weise eingefügt werden können, ohne Verlust von wesentlicher biologischer Funktion des Vektors, sowie auch ein selektierbares Marker-Gen, welches für die Identifizierung und Auswahl von Zellen, transformiert durch den Klonierungs-Vektor, geeignet ist. Selektierbare Marker-Gene enthalten typischerweise Gene, die Tetracycline-Resistenz oder Ampicillin-Resistenz bieten.
Der Begriff "konservativ modifizierte Varianten" wird sowohl für Aminosäure- als auch Nukleinsäure-Sequenzen verwandt. Hinsichtlich der bestimmten Nukleinsäure-Sequenzen, verweisen konservativ modifizierte Varianten auf die Nuklearsäzren, welche identische oder konservativ modifizierte Varianten der Aminosäuren-Sequenzen kodieren. Durch die Degeneration des genetischen Codes kodieren eine große Zahl funktiell identischer Nukleinsäuren jegliches Protein. Beispielsweise kodieren die Kodone GCA, GCC, GCG und GCU alle das Aminosäure-Alanin. So kann an jeder Position, wo ein Alanin durch ein Kodon spezifiziert wird, der Kodon zu jedem der zugeordneten beschriebenen Kodone abgeändert werden, ohne das kodierte Polypeptid zu ändern. Solche Nukleinsäurevariationen sind "stillschweigende Variationen" und stellen eine Art konservativ modifizierter Variante dar. Jede Nukleinsäure-Sequenz hier, die auch ein Polypeptid kodiert, mit Bezug auf den genetischen Code, beschreibt jede mögliche stillschweigende Variation der Nukleinsäure. Jemand mit durchschnittlichen Fähigkeiten wird erkennen, dass jedes Kodon in einer Nukleinsäure (mit Ausnahme von AUG, welches normalerweise das einzige Kodon für Methionin ist; und UGG, welches normalerweise das einzige Kodon für Tryptophan ist) verändert werden kann, um ein funktional identisches Molekül zu erhalten. Dementsprechend ist jede stillschweigende Variation einer Nukleinsäure, welche ein Polypeptid der vorliegenden Erfindung kodiert, in jeder beschriebenden Polypeptid-Sequenz impliziert und liegt innerhalb des Anwendungsbereiches der vorliegenden Erfindung.
Was die Aminosäure-Sequenzen betrifft wird jemand Geschultes erkennen, dass individuelle Substituierungen, Entfernung oder Hinzufügungen zu Nukleinsäure, Peptid, Polypeptid oder Protein-Sequenz, welches eine einzelne Aminosäure oder einen kleinen Prozentsatz von Aminosäuren verändert, hinzufügt oder entfernt, eine "konservativ modifizierte Variante" darstellt, wobei die Veränderung in der Substituierung einer Aminosäure durch eine chemisch ähnliche Aminosäure resultiert. So kann jede Anzahl von Aminosäurerückständen, ausgewählt aus einer Reihe von ganzen Zahlen von 1 bis 15 so verändert werden. So können beispielsweise 1, 2, 3, 4, 5, 7 oder 10 Veränderungen vorgenommen werden. Konservativ modifizierte Varianten liefern typischerweise ähnliche biologische Aktivität wie die unveränderte Polypeptid-Sequenz, von der sie erlangt wurde. Beispielsweise beträgt Substrat-Spezifität, Enzym-Aktivität oder Ligand/Rezeptor Bindung generell mindestens 30%, 40%, 50%, 60%, 70%, 80% oder 90% des nativen Proteins für sein natives Substrat. Konservative Substituierungstabellen, die functional ähnliche Aminosäuren liefern, sind im Fach wohlbekannt.
Die folgenden sechs Gruppen enthalten jede Aminosäuren, die konservative Substituierungen für einander darstellen:

1) Alanin (A), Serin (S), Threonin (T);
2) Aspartinsäure (D), Glutaminsäure (E);
3) Asparagin (N), Glutamin (Q);
4) Arginin (R), Lysin (K);
5) Isoleucine (I), Leucine (L), Methionin (M), Valin (V); und
6) Phenylalanin (F), Tyrosin (Y), Tryptophan (W).

Siehe auch Creighton (1984) Proteins W. H. Freeman and Company.
Der Begriff "nachweisbare Marker" beinhaltet gleichzeitig selektierbare Marker und Assay Marker. Der Begriff "selektierbare Marker" bezieht sich auf eine Auswahl von Genprodukten, zu denen Zellen, transformiert mit einem Expressions-Konstrukt, ausgewählt oder ausgesiebt werden können, inklusive Arzneimittel-Resistenz Marker, bei fluoreszenz-aktivierter Zellensortierung hilfreiche Antigen-Marker, Adhaesions-Marker wie Rezeptoren für Adhaesions-Liganden, die selektive Adhaesion ermöglichen, und dergleichen.
Mit "kodieren" oder "kodiert", bezüglich einer bestimmten Nukleinsäure, ist das Zusammenfassen von Information für Translation in ein bestimmtes Protein gemeint. Eine Nukleinsäure, die ein Protein kodiert, kann nicht-translatierte Sequenzen (z.b. Introne) innerhalb von translatierten Bereichen der Nukleinsäure enthalten, oder ihr können solche beteiligten nicht-translatieren Sequenzen (z.b. wie in cDNA) fehlen. Die Information, durch die ein Protein kodiert wird, ist bestimmt durch den Gebrauch von Kodonen. Typischerweise wird die Aminossäure-Sequenz von der Nukleinsäure mit dem "universellen" genetischen Code kodiert. Varianten des universellen Codes, wie sie in einigen Pflanz-, Tier- und Pilz-Mitochondrien auftreten, dem Bakterium Mycoplasma capricolum, oder dem Ciliat Macronukleus, können verwendet werden, wenn die Nukleinsäure darin exprimiert ist.
Wenn die Nukleinsäure vorbereitet oder synthetisch verändert wird, kann Nutzen aus den bekannten Kodon Präferenzen bei den vorgesehenen Hosts, wo die Nukleinsäure exprimiert werden soll, gezogen werden.
Ein "Expression-Vektor" ist ein DNS Molekül bestehend aus einem Gen, das in einer Hostzelle exprimiert wird. Typischerweise wird die Gen-Expression unter die Kontrolle von bestimmten Regulationselementen gestellt, inklusive Promotoren, gewebe-spezifischen Regulationselementen und Verstärkern. Solch ein Gen wird als "operativ verbunden mit" den Regulationselementen bezeichnet.
Der Begriff "Expression-System" wird hier verwendet, um eine genetische Sequenz zu beschreiben, die einen Protein-Kodierungsbereich enthält, der operativ verbunden ist mit allen genetischen Signalen, die notwendig sind, um Expression der Protein-Kodierungsbereiches zu erhalten. Traditionell beinhaltet das Expression-System ein Regulationselement wie einen Promotor oder Verstärker, um Transkription und/oder Translation des Protein-Kodierungbereiches zu verstärken, oder Kontroller über die Expression zu bieten. Das Regulationselement kann sich stromaufwärts oder stromabwärts vom Protein-Kodierungsbereiches befinden, oder bei einem Intron (nichtkodierender Bereich) der den Protein-Kodierungsbereich unterbricht. Alternativ ist es auch möglich für die Sequenz des Protein-Kodierungbereiches selbst regulative Fähigkeiten aufzuweisen.
Der Begriff "funktionaler Splice-Akzeptor" bezieht sich auf jeden individuellen funktionalen Splice-Akzeptor oder funktionale Splice-Akzeptor Consensus-Sequenz, die dem Konstrukt der Erfindung erlaubt, derart zu bearbeitet zu werden, dass es in jeder reifen, biologisch aktiven Boten-RNS enthalten ist, vorausgesetzt dass es in einem aktiven chromosomalen Lokus integriert ist und als kontinuierlicher Teil der Premessenger RNS des chromosomalen Lokus transkribiert ist.
Wie hier verwendet, ist "heterolog" in Bezug auf Nukleinsäure ist eine Nukleinsäure, die von einer fremden Art stammt, oder, wenn sie von der gleichen Art stammt, im Wesentlichen von ihrer nativen Form abgeändert wurde in der Zusammensetzung und/oder Genom-Lokus durch vorsätzlichen menschlichen Eingriff. Zum Beispiel, ein Promotor, operativ verbunden mit einem heterologen Struktur-Gen, stammt von einer Art, die abweicht von der, aus der das Struktur-Gen gewonnen wurde, oder, wenn er von der gleichen Art stammt sind eines oder beide im Wesentlichen von ihrer ursprünglichen Form abgeändert. Ein heterologes Protein kann von einer fremden Art stammen oder, wenn es von der gleichen Art stammt, ist es im Wesentlichen von der ursprünglichen Form durch vorsätzlichen menschlichen Eingriff abgeändert.
Der Begriff "Host-Zelle" umschreibt jede Zelle, die einen Vektor enthält und vorzugsweise die Replikation und/oder Expression des Vektor unterstützt. Host-Zellen können prokaryotische Zellen wie E. coli sein oder eukaryotische Zellen wie Hefe-, Insekten-, Amphibien- oder Säugetierzellen. Der Begriff, wie hier verwendet, meint jede Zelle, die in Kultur oder in vivo als Teil eines einzelligen Organismus, Teil eines mehrzellligen Organismus oder einer verbundenen oder manipulierten Zellkultur ist.
Der Begriff "Internal Ribosome Entry Site" (IRES) ist ein Element, welches Anbringung eines stromabwärts kodierten Bereiches oder offenen Leserahmens an ein cytoplasmisches polysomales Ribosom zum Zweck des Starts der Translation hiervon in Abwesenheit jeglicher interner Promotoren erlaubt. Ein IRES ist beinhaltet, um Translation von selektierbaren Marker-Protein-Kodierungssequenzen zu starten. Beispiele von geeigneten IRESen, die verwendet werden können, beinhalten die Säugetier IRES des Immunoglobulin Heavy Chain Binding Proteins (BiP). Andere geeignete IRESe sind die der Picorna-Viren. Beispielsweise beinhalten solche IRESe die des Enzephalomyokarditis Virus (vorzugsweise nukleotide Zahlen 163–746), Polio Virus (vorzugsweise nukleotide Zahlen 28–640) und des Maul-und-Klauen-Seuche Virus (vorzugsweise nukleotide Zahlen 369–804). So befinden sich die Viren in den langen 5' nicht translatierten Bereichen des Picorna-Virus, welche aus ihrer viralen Situation entfernt werden können, in Längen zu nicht verwandten Genen, um polycistronische Boten-RNSs zu produzieren.
Der Begriff "eingeführt" im Zusammenhang mit der Einführung von einer Nukleinsäure in eine Zelle, bedeutet "Transfektion" oder "Transformation" oder "Transduktion" und beinhaltet Bezug auf die Einbindung einer Nukleinsäure in eine eukaryotische oder prokaryotische Zelle, wo die Nukleinsäure in das Genom der Zelle eingeführt werden kann (z.b. Chromosom, Plasmid, Plastid oder mitochondriale DNS), konvertiert in ein autonomes Replikon, oder vorübergehend exprimiert (z.b. transfekte Boten-RNS).
Der Begriff "isoliert" bezieht sich auf Material wie eine Nukleinsäure oder ein Protein, welches: (1) im Wesentlichen oder grundsätzlich frei von Komponenten ist, die normalerweise damit einhergehen oder zusammenspielen, wie sie in ihrer natürlichen Umgebung vorgefunden werden. Das isolierte Material enthält optional Material, welches in seiner natürlichen Umgebung nicht dabei vorgefunden wird; oder (2) wenn das Material in seiner natürlichen Umgebung ist, das Material synthetisch (nicht natürlich) verändert wird durch vorsätzlichen menschlichen Eingriff zu einer Zusammensetzung und/oder plaziert an einem Ort in der Zelle (z.B. Genom- oder subzelluläres Organell) nicht nativ für das in der Unmgebung aufgefundene Material. Die Veränderung zum Ertrag von dem synthetischen Material kann an dem Material in oder entfernt von seinem natürlichen Status vorgenommen werden. Bespielsweise wird eine natürlich vorkommende Nukleinsäure zu einer isolierten Nukleinsäure, wenn sie verändert wird, oder wenn sie von der veränderten DNS transkribiert wird durch menschlichen Eingriff, der in der Zelle, von der sie stammt, vorgenommen wird. Siehe, z.b., "Compounds and Methods for Site Directed Mutagenesis in Eukaryotic Cells" [Verbindungen und Methoden für Site-Directed Mutagenese in eukariotischen Zellen], Kmiec, U.S. Patent Nr. 5,565,350; In Vivo Homologous Sequenz Targeting in Eukaryotic Cells [In Vivo homologes Zequenz-Targeting in eukaryotischen Zellen]; Zarling und andere., PCT/US93/03868. Ebenso wird eine natürlich auftretende Nukleinsäure (z.b., ein Promotor) isoliert, wenn sie durch nicht-natürlich auftretende Mittel an einen Lokus des Genoms eingeführt wird, der nicht nativ für die Nukleinsäure ist. Nukleinsäuren, die "isoliert" gemäß der hier enthaltenen Definition sind, werden auch als "heterologe" Nukleinsäuren bezeichnet.
Wie hier verwendet, beinhaltet "Nukleinsäure" den Bezug auf ein deoxyribonukleotides oder ribonukleotides Polymer in entweder single- oder double-stranded Form, und beinhaltet, wenn nicht anderweitig begrenzt, bekannte Analoge, mit der wesentlichen Beschaffenheit von natürlichen Nukleotiden, indem, dass sie mit einer single-strand Nukleinsäure hybridisieren, ähnlich den natürlich auftretenden Nukleotiden (z.B., peptide Nukleinsäuren).
Wie hier verwendet, beinhaltet "operativ verbunden" den Bezug auf eine funktionale Verbindung zwischen Promotor und einer zweiten Sequenz, worin die Promotor-Sequenz Transkription der DNS-Sequenz auslöst und vermittelt, die mit der zweiten Sequenz korrespondiert. Generell bedeutet operativ verbunden, dass die Nukleinsäure-Sequenzen, die verbunden werden, anliegend sind und, wenn nötig, um zwei Protein-Kodierungbereich zu verbinden, anliegend und im gleichen Leserahmen sind.
Der Begriff "Polymerase Kettenreaktion" oder "PCR" bezieht sich auf ein Verfahren, wie es im U.S. Patent Nr. 4.683.195 beschrieben wird, dessen Bekanntmachung hierin durch Bezug beinhaltet ist.
Wie hier verwendet, beinhaltet "Polynukleotid" den Bezug auf ein Deoxyribopolynukleotid, Ribopolynukleotid, oder analoge davon, die die wesentliche Beschaffenheit eines natürlichen Ribonukleotides aufweisen, in dem sie hybridisieren, unter strengsten Hybridisierungbedingungen, zu im wesentlichen der gleichen nukleotiden Sequenz wie in natürlich auftretenden Nukleotiden und/oder Translation in die gleiche(n) Aminosäure(n) erlauben, wie natürlich auftretende(n) Nukleotid(e). Ein Polynukleotid kann die volle Länge haben oder eine Sub-Sequenz eines nativen oder heterologen Struktur oder Regulations-Gens sein. Sofern nicht anders angegeben, beinhaltet der Begriff den Bezug auf die spezifische Sequenz wie auch die ergänzende Sequenz dazu. Also DNS oder RNS mit Backbones, modifiziert für Stabilität oder aus anderen Gründen als "Polynukleotide", so wie der Begriff hier gemeint ist. Des weiteren sind DNS oder RNS die ungewähnliche Basen enthalten wie inosin, oder modifiezierte Basen wie Tritylat Basen, um zwei Beispiel zu nennen, Polynukleotide so wie der Begriff hier gemeint ist. Es wird eingeschätzt, dass eine große Anzahl modifikationen an DNS und RNS vorgenommen wurden, die vielen nützlichen Zwecken dienen, denjenigen bekannt, die in dem Bereich über Fachwissen verfügen. Der Begriff polynukleotid, so wie er hier verwandt wird, beinhaltet soch chemisch, enzymatically oder metabolically modifizierte Formen von Polynukleotiden, wie auch chemische Formen con DNS und RNS, die charakteristisch für Viren und Zellen sind, inklusive unter anderem einfache und komplexe Zellen.
Die Begriffe "Polypeptide", "Peptide" und "Protein" werden hier abwechselnd benutzt um ein Polymer von Aminosäure-Rückständen zu beschreiben. Die Begriffe beziehen sich auf Aminosäure polymere, in denen ein oder mehrere Aminosäure Rückstände als künstliches chemisches Analog einer korrespondierenden natürlich auftretender Aminosäure ist, soweit auch bei natürlich auftretenden Aminosäure Polymeren. Die wesentliche Beschaffenheit solcher Analoge von natürlich vorkommenden Aminosäuren ist, dass wenn sie in ein Protein eingearbeitet werden, dieses Protein spezifisch auf Antikörper reagieren, die zum gleichen Protein ausgelöst wurden, aber gänzlich aus natürlich auftretenden Aminosäuren bestehen. Die Begriffe "Polypeptid", "Peptid" und "Protein" beinhalten Modifizierungen inklusive, aber nicht beschränkt auf, Glykosylierung, Lipidverankerung, Sulfatbildung, Gamma-Carboxylierung von Glutaminsäure-Rückständen, Hydroxylierung und ADP-Ribosylierung. Es wird geschätzt, so wie es gut bekannt ist und oben genannt wurde, das polypeptide nicht gänzlich linear sind. So können beispielsweise Polypeptide verzweigt sein als Ergebnis der Ubiquitierung, und sie können kreisförmig sein mit oder ohne Verzweigungen, im allgemeinen als Ergebnis posttranslationaler Ereignisse, inklusice natürlicher processing Ereignisse, die durch menschliche Manupulation verursacht wurden, die nicht natürlichwerweise auftreten. Kreisförmig, verzweigt und verzweigt kreisförmige Polypeptide können synthetisiert werden von nicht-translationalen natürlichen Prozessen und durch gänzlich synthetische Methoden.
Der Begriff "Primer" bezeichnet eine Nukleinsäure welche, wenn an einen DNS Strang mybridisiert, dazu fähig ist, die Synthese zu starten eines Erweiterungsproduktes in Gegenwart eines geeigneten Polymerise Agens. Der Primer ist vorzugsweise entsprechend lang genug, um sich eindeutig and einen bestimmtem Bereich des DNS-Strangs zu hybridisieren.
Wie hier verwendet, beinhaltet "Promotor" den Bezug auf einen Bereich der DNS stromaufwärts vom Anfang der Transkription und ist an der Erkennung und Bindung von RNS Polymerase und anderen Proteinen beteiligt, um Transcription auszulösen.
Der Begriff "promotorless" bezieht sich auf eine Protein-Kodierungssequenz, die in einem Vektor, Retrovirus, Adenovirus, Adeno-assoziiierten Virus oder retroviralen Provirus enthalten ist, die nicht direkt oder erheblich unter der Leitung eines Promotors innerhalb des Vektors steht, sei es nun in RNS oder DNS Form. Der Vektor, Plasmid, viral oder andersartig, kann einen Promotor enthalten, der aber nicht positioniert oder konfiguriert werden kann, und zwar in der Form, dass er die Expression einer promotorless Protein-Kodierungssequenz direkt oder erheblich reguliert.
Der Begriff "Protein-Kodierungssequenz" meint eine nukleotide Sequenz, die ein popypeptides Gen kodiert, welches benutzt werden kann, um zellen, die das polypeptide gene exprimieren von denen zu unterscheiden, die das polypeptide gen nicht exprimieren. Protein-Kodierungssequenzen enthalten diejenigen, die allgemein als selektierbare Marker bezeichnet werden. Beispiele von Protein-Kodierungssequenzen beinhalten solche, die ein Zelloberflächen-Antigen kodieren und solche, die Enzyme kodieren. Eine repräsentative Liste von Protein-Kodierungssequenzen enthält Thymidinkinase, β-galactosidase, Tryptophan Synthetase, Neomycin Phosphotransferase, histidinole Dehydrogenase, Luciferase, Chloramphenicol Acetyltransferase, dihydrofolate Reduktase (DHFR); Hypoxanthin Guanin Phosphoribosyl Transferase (HGPRT), CD4, CD8 und Hygromycin Phosphotransferase (HYGRO).
Wie hier verwendet, enthält "rekombinant" den Bezug auf eine Zelle oder einen Vektor, der durch die Einbringung einer has been modified by the introduction heterologen Nukleinsäure modifiziert wurde oder den Bezug darauf, dass die Zelle einer anderen, die derart modifiziert wurde, entstammt. So, beispielsweise, exprimieren rekombinant Zellen Gene, die nicht in identischer Form innerhalb der nativen (nicht-rekombinanten) Form der Zelle auftreten oder exprimieren native Genen, die anders abnormal exprimiert, unter-exprimiert oder gar nicht exprimiert sind als Ergebnis vorsätzlicher menschlicher Intervention. Der Begriff "rekombinant", wie er hier verwendet wird, beinhaltet nicht die Veränderung der Zelle oder des Vektors durch natürlich auftretende Ereignisse (z.b., spontane Mutation, natürliche Transformation/Transduktion/Transposition) wie jene, die ohne vorsätzliche menschliche Intervention auftreten.
Wie hier verwendet, ist eine "rekombinante Expressions-Kassette" ein Nukleinsäure-Konstrukt, rekombinant oder synthetisch erzeugt, mit einer Reihe von bestimmten Nukleinsäure-Elementen, die Transkription einer bestimmten Nukleinsäure in einer Host-Zelle gestatten. Die rekombinante Expressions-Kassette kann in ein Plasmid, Chromosom, mitochondrische DNS, Virus, oder Nukleinsäure Fragment eingebaut werden. Typischerweise enthält der rekombinante Expressions-Kassette Teil eines Expression-Vektors, neben anderen Sequenzen, eine Nukleinsäure, die transkribiert werden soll und einen Promotor.
Ein "rekombinanter Host" kann jede prokaryotische oder eukaryotische Zelle sein, die entweder einen Klonierungs-Vektor oder einen Expression-Vektor enthält. Dieser Begriff beinhaltet auch solche prokaryotischen oder eukaryotischen Zellen, die genetisch manipuliert wurden, um die Klongene des Chromosoms oder Genoms der Host-Zelle einzuschließen.
Die Begriffe "rekombinanter Virus-Vektor" bezieht sich auf jedes rekombinante Ribonukleinsäure Molekül, das eine nukleotide Sequenz homolog oder komplementär zu einer nukleotiden Sequenz in einem RNS Virus aufweist, der sich repliziert durch ein DNS intermedius, ein virion RNS hat und inverse Transkriptase für die Virus-Verbreitung in einer Host-Zelle einsetzt. Solche Viren können die beinhalten, welche die Anwesenheit von anderen Viren brauchen, wie die Helfer-Viren, um durchgeführt zu werden. So sind retroviral vectors oder retroviruses dazu gedacht, diejenigen mit einzuschließen, die erhebliche Zerstörung oder Mutation in ihrer RNS aufweisen.
Der Begriff "selectives hybridisieren" enthält den Bezug auf Hybridisierung, unter strengen Hybridisierungsbedingungen, einer Nukleinsäure-Sequenz in eine bestimmte Nukleinsäure-Targetsequenz zu einem merklich höheren Grad (z.b., mindestens 2-fach über dem Hintergrund) als die Hybridisierung in nicht-Target Nukleinsäure-Sequenzen und zum erheblichen Ausschluß von nicht-target Nukleinsäuren. Selective Hybridisierungsequenzen haben typischerweise mindestens 80% Sequenzidentität, vorzugsweise 90% Sequenzidentität, und im besten Fall 100% Sequenzidentität (d.h., komplementär) miteinander.
Die Begriffe "Tag" oder "tagged [markiert]" beziehen sich auf die Einbindung eines nachweisbaren Markers, z.b., durch Einbindung einer radiomarkierten Aminosäure oder Anfügung an das Polypeptid von biotinylen Moieties, das durch markiertes Avidin ermittelt werden kann (z.b., Streptavidin, welches eines fluorescenten Marker enthält oder enzymatische Aktivität, die durch optische oder colorimetrische Methoden ermittelt werden kann). Verschieden Methoden für die Kennzeichnung von Polypeptiden und Glycoproteinen sind im Fach bekannt und können verwendet werden. Beispiele für Kennzeichnung von Polypeptiden beinhalten, sind aber nicht beschränkt auf, die Folgenden: Radioisotope (z.b., ³H, ¹⁴C, ³⁵S, ¹²⁵I, 131I), fluoreszente Label (z.B., FITC, Rhodamin, lanthanider Phosphor), enzymatische Label (oder Reporter-Gene) (z.b., Merrettichperoxidase, β-galactosidase, Luciferase, Alkaliphosphatase), Chemilumineszenz, biotinyle Gruppen, vorher festgelegte Polypeptide Epitope, die durch einen zweiten Reporter erkannt werden (z.b., Leucin-Reißverschuß Paar-Sequenzen, die Sites für sekundäre Antikörper binden, metall-bindende Domänen, epitope Tags). In einigen Ausführungen werden Label mittels eines Abstands-Armes mit unterschiedlichen Längen angebracht, um mögliche sterische Behinderung zu reduzieren.
Der Begriff "translationale Stop-Sequenz" bezieht sich auf eine Sequenz, die für die translationalen Stop-Kodone in drei unterschiedliche Leserahmen kodiert. Diese translationale Stop-Sequenz befindet sich physisch stromabwärts (3') von der Splice-Akzeptor-Sequenz, aber stromaufwärts (5') von der selektierbaren Marker-Fusionsprotein Translation-Auslösungssstelle. Es verursacht die Trunkierung der Peptidkette, kodiert von Exonen stromaufwärts der retroviralen Vektoren am chromosomalen Lokus. Es hält außerdem den translationalen Leserahmen des Genom-Lokus davon ab, in das selektierbare Marker-Gen der Erfindung vorzudringen, und verhindert so mögliche Translation davon in einem nonsens Leserahmen.
Wie hier verwendet, beinhaltet "Vektor" Bezug auf die Nukleinsäure, die in der Transfektion einer Host-Zelle eingesetzt wird und in die ein Polynukleotid eingebracht werden kann. Vektoren sind oft Replikone. Expressions-Vektoren erlauben Transkription einer darin eingefügten Nukleinsäure.
Die folgenden Begriffe werden verwendet, um die Sequenz-Beziehungen zwischen zwei oder mehr Nukleinsäuren oder Polynukleotiden zu beschreiben: (a) "Referenz-Sequenz", (b) "Vergleichsfenster", (c) "Sequenzidentität", (d) "Prozentsatz an Sequenzidentität" und (e) "erhebliche Identität".

(a) Wie hier verwendet, ist "Referenz-Sequenz" eine definierte Sequenz, die als Basis für Sequenzvergleich eingesetzt wird. Eine Referenz-Sequenz kann eine Teilmenge oder die Gesnaheit einer spezifischen Sequenz sein; z.B. als ein Eegment einer c DNS in ganzer Länge oder Gensequenz, oder die komplette c DNS oder Gensequenz.
(b) Wie hier verwendet beinhaltet das "Vergleichsfenster" den Bezug auf ein angrenzendes und spezifisches Segment einer polynukleotiden Sequenz, worin die polynukleotide Sequenz mit der Referenz-Sequenz verglichen werden kann und worin der Anteil der polynukleotiden Sequenz in einem Vergleichsfenster Hinzufügungen oder Zerstörungen (g.h., Spalten) enthalten kann, im Vergleich zu der Referenz-Sequenz (die keine Hinzufügungen oder Zerstörungen enthalten) für die optimale Abgleichung beider Sequenzen. Im Allgemeinen ist das Vergleichsfenster mindestens 20 angrenzende Nukleotide lang, und kann optional 30, 40, 50, 100 oder länger sein. Die Fachleute verstehen, dass ein Spalt-Nachteil typischerweise eingeführt wird und von der Zahl der Übereinstimmungen abgezogen wird, um große Gemeinsamkeit mit einer Referenz-Sequenz zu verhindern, aufgrund der Einbindung von Spalten in die polynukleotide Sequenz.

Die Methoden der Sequenzangleichung zum Vergleich sind in der Branche gut bekannt. Optimale Angleichung von Sequenzen für den Vergleich können erreicht werden mit den lokalen Homologie-Algorithm von Smith und Waterman, Adv. Appl. Math. 2: 482 (1981); den Homologie-Angleichungs-Algorithm von Needleman und Wunsch, J. Mol. Biol. 48: 443 (1970); durch die Gemeinsamkeits-Such-Methode von Pearson und Lipman, Proc. Natl. Acad. Sci. 85: 2444 (1988); durch computerimplementierung dieser Algorithmen, inklusive, aber nicht beschränkt auf: CLUSTAL im PC/Gene Programm von Intelligenetics, Mountain View, California; GAP, BESTFIT, BLAST, FASTA, und TFASTA im Wisconsin Genetics Software Package, Genetics Computer Group (GCG), 575 Science Dr., Madison, Wisconsin, USA; das CLUSTAL Programm wurde gut beschrieben von Higgins und Sharp, Gene 73: 237–244 (1988); Higgins und Sharp, CABIOS 5: 151–153 (1989); Corpet, und andere, Nukleic Acids Research 16: 10881–90 (1988); Huang, und andere, Computer Applications in the Biosciences 8: 155–65 (1992), sowie Pearson, und andere, Methoden der Molekularbiologie 24: 307–331 (1994). Die BLAST Programme, welche für Datenbank-Gemeinsamkeitensuchen verwendet werden können, sind: BLASTN für nukleotide Such-Sequenzen in nukleotiden Datenbanksequenzen; BLASTX für nukleotide Such-Sequenzen in Protein-Datenbanksequenzen; BLASTP für Protein Such-Sequenzen in Protein-Datenbanksequenzen; TBLASTN für Protein Such-Sequenzen in nukleotiden Datenbanksequenzen; und TBLASTX für nukleotide Such-Sequenzen in nukleotiden Datenbanksequenzen. Siehe, Current Protocols in Molecular Biology, [Aktuelle Protokolle in der Molekularbiologie] Kapitel 19, Ausubel, und andere, Eds., Greene Publishing and Wiley-Interscience, New York (1995).
Sofern nicht anders angegeben, beziehen sich die Sequenzidentität/gemeinsamkeits-Werte hier auf den Wert, der mit BLAST 2.0 Suite unter Anwendung von Standardparametern ermittelt wird. Altschul und andere, Nukleic Acids Res. 25: 3389–3402 (1997). Software für BLAST Analysen sind allgemein erhältlich, z.B. vom National Center for Biotechnology-Information (http://www.hcbi.nlm.nih.gov/). Dieser Algorithmus identifiziert zuerst High Scoring Sequence Pairs (HSPs) durch die Identifizierung von kurzen Worten der Länge W in der Such-Sequenz, welche entweder übereinstimmen oder einem positiv-bewerteten Schwellenwert T entsprechen, wenn sie mit einem Wort in der Datenbanksequenz von der gleichen Länge verglichen werden. T wird bezeichnet als dem Wort benachbarter Schwellenwert (Altschul und andere, supra). Diese anfänglichen Nachbarschaftswort-Ergebnisse sind die der Grundstock für die sich anbahnenden Suchen, um längere darin enthaltene HSPs zu finden. Die Wortergebnisse werden dann ausgeweitet in beide Richtungen entlang jeder Sequenz, soweit wie das kumulierte Angleichungsergebnis erweitert werden kann. Kumulierte Ergebnisse werden, für nukleotide Sequenzen, mit den Parametern M (Belohnungsergebnis für ein Paar übereinstimmender Rückstände; immer > 0) und N (Strafergebnis für nicht übereinstimmende Rückstände; immer < 0) berechnet. Für Aminosäure-Sequenzen wird eine Ergebnismatrize verwendet, um das kumulative Ergebnis zu berechnen. Ausweitung der Wortergebnisse in jede Richtung werden gestoppt, wenn: das kumulierte Angleichungergebnis durch die Einheit X von seinem maximal erreichten Wert abweicht; das kumulierte Ergebnis geht gegen Null oder darunter, aufgrund der Ansammlung von einer oder mehrerer negative-scoring Rückstandsangleichungen; oder wenn das Ende einer der beiden Sequenzen erreicht ist.
Die BLAST Algorithmus Parameter W, T und X bestimmen die Empfindlichkeit und Geschwindigkeit der Angleichung. Das BLASTN Programm (für nukleotide Sequenzen) setzt als Standard Wortlänge (W) von 11 ein, eine Annahme (E) von 10, eine Abschaltung von 100, M = 5, N = –4, und einen Vergleich beider Stränge. Für Aminosäure-Sequenzen verwendet das BLASTP-Programm standardmäßig eine Wortlänge (W) von 3, eine Annahme (E) von 10, und die BLOSUM62 Ergebnismatrize (siehe Henikoff & Henikoff (1989) Proc. Natl. Acad. Sci. USA 89: 10915).
Zusätzlich zur Berechnung von prozentualen Sequenzidentität, führt der BLAST Algorithmus auch eine statistische Analyse der Gemeinsamkeit zwischen zwei Sequenzen durch (siehe, z.b., Karlin & Altschul, Proc. Natl. Acad. Sci. USA 90: 5873–5787 (1993)). Eine Messung der Gemeinsamkeit durch den BLAST Algorithmus die die Smallest Sum Probability (P(N)), die einen Hinweis liefert auf die Möglichkeit, mit der eine Übereinstimmung zwischen zwei Nukleotiden oder Aminosäure-Sequenzen durch Zufall entstehen würde.
BLAST Suchen setzen voraus, dass Proteine als Zufalls-Sequenzen gebildet sein können. Jedoch enthalten viele echte Proteine-Bereiche mit nicht zufälligen Sequenzen, die homopolymerische Bahnen, Short-Period Repeats, oder mit einem oder mehreren Aminosäuren angereichertete Bereiche sein können. Solche low-complexity Bereiche können nicht verwandten Proteinen angeglichen werden, obwohl andere Bereiche des Proteins komplett unähnlich sind. Eine Zahl an low-complexity Filterprogrammen kann eingesetzt werden, um die Zahl solcher low-complexity Angleichungen zu reduzieren. So können beispielsweise die SEG (Wooten and Federhen, Comput. Chem., 17: 149–163 (1993)) und XNU (Claverie and States, Comput. Chem., 17: 191–201 (1993)) low-complexity Filter allein oder in Kombination eingesetzt werden.

(c) Wie hier verwendet, beinhaltet "Sequenzidentität" oder "Identität" im Kontext zweier two Nukleinsäuren oder Polypeptid-Sequenzen den Bezug auf die Rückstände in den beiden Sequenzen, die identisch sind, wenn sie für maximale Entsprechung über einem angegebenen Vergleichsfenster angeglichen werden. Wenn Prozentsatz an Sequenzidentität in Bezug auf Proteine verwendet wird, wird anerkannt, dass Rückstandspositionen, die nicht identisch sind, oft durch konservative Aminosäureersetzungen abweichen, wobei Aminosäure-Rückstände für andere Aminosäure-Rückstände mit ähnlichen chemischen Eigenschaften substituiert werden (z.B. Verfahren oder wasserabweisendes Verhalten) und ändern deshalb die funktionalen Eigenschaften des Moleküls nicht. Wo Sequenzen sich in konservativen Substituierungen unterscheiden, kann der Prozentsatz an Sequenzidentität nach oben angepaßt werden, um die konservative Beschaffenheit der Substituierung zu korrigieren. Sequenzen, die sich durch solche konservativen Substituierungen unterscheiden, haben "Sequenzgemeinsamkeit" oder "Gemeinsamkeit". Die Maßnahmen für diese Anpassung sind den Fachleuten gut bekannt. Typischerweise beinhaltet dies die Bewertung von konservativer Substituierung als eher teilweiser und nicht kompletter Unterschied, somit den Prozentsatz an Sequenzidentität erhöhend. So wird beispielsweise einer konservativen Substituierung ein Wert zwischen Null und 1 zugeordnet, wenn eine identische Aminosäure den Wert 1 erhält und eine nicht-konservative Substituierung den Wert Null. Die Bewertung von konservativen Substituierungen wird berechnet, z.b. gemäß den Algorithmen von Meyers und Miller, Computer Applic. Biol. Sci., 4: 11–17 (1988) z.b. wie implementiert im Programm PC/GENE (Intelligenetics, Mountain View, California, USA).
(d) Wie hier verwendet, bedeutet "Prozentsatz an Sequenzidentität" den Wert, der ermittelt wird durch den Vergleich von zwei optimal angeglichenen Sequenzen über einem Vergleichsfenster, wobei der Teil der polynukleotiden Sequenz im Vergleichsfenster Zufügungen oder Zerstörungen (d.h. Spalte) enthalten kann, wenn verglichen mit der Referenz-Sequenz (welche keine Zufügungen oder Zerstörungen enthält) für die optimale Angleichung der zwei Sequenzen. Der Prozentsatz wird berechnet, indem die Anzahl Positionen ermittelt wird, an denen die identische Nukleinsäure-Basis oder Aminosäure Rückstand in beiden Sequenzen auftritt, um die Zahl der übereinstimmenden Positionen zu ermitteln, um dann die Zahl der übereinstimmenden Positionen der Gesamtzahl an Positionen in einem Vergleichsfenster gegenüber zu stellen und das Ergebnis mit 100 zu multiplizieren, um den Prozentsatz an Sequenzidentität zu erhalten.
(e)(i) Der Begriff "erhebliche Identität" polynukleotider Sequenzen heißt, dass ein Polynukleotid aus einer Sequenz aus mindestenz 70% Sequenzidentität besteht, vorzugsweise mindestens 80%, im besten Fall mindestens 90% und im allerbesten Fall wenigstens 95%, im Vergleich mit einer Referenz-Sequenz unter Anwendung von einem der beschriebenen Angleichungsprogramme mit Standardparametern. Fachleute werden erkennen, dass diese Werte entsprechend angepaßt werden können, um korrespondierende Identitäten von Proteinen zu bestimmen, die von zwei Nukleotid-Sequenzen kodiert werden, indem sie Kodon Degeneration, Aminosäurengemeinsamkeiten, Leserahmenpositionierung und dergleichen berücksichtigen. Erhebliche Identität von Aminosäure-Sequenzen für diese Zwecke bedeutet normalerweise Sequenzidentität von mindestenz 60%, vorzugsweise mindestenz 70%, 80%, 90%, und im besten Fall mindestenz 95%.

Ein anderen Hinweis, dass Nukleotid-Sequenzen im wesentlichen identisch sind, ist gegeben, wenn zwei Moleküle sich hybridisieren unter strengsten Bedingungen. Jedoch sind Nukleinsäuren, die sich unter strengsten Bedingungen nicht hybridisieren, dennoch im wesentlichen identisch, wenn die Polypeptide, die sie kodieren, im wesentlichen identisch sind. Dies kann vorkommen, z.b., wenn die Kopie einer Nukleinsäure erstellt wird mit der maximalen Kodon-Degenration, die vom genetischen Coder her möglich ist. Ein Hinweis, dass zwei Nukleinsäure-Sequenzen im wesentlichen identisch sind, ist, dass das Polypeptid, welches die erste Nukleinsäure kodiert, immunologisch Cross Reactive mit dem Polypeptid ist, das von der zweiten Nukleinsäure kodiert wird.

(e)(ii) Die Begriffe "erhebliche Identität" zeigen im Kontext eines Peptids an, dass ein Peptid aus einer Sequenz mit mindestenz 70% Sequenzidentität zur Referenz-Sequenz besteht, vorzugsweise 80%, noch besser 85%, und am besten mindestenz 90% oder 95% Sequenzidentität zur Referenz-Sequenz über einem spezifischen Vergleichsfenster. Optional wird optimale Angleichung erreicht, durch den Einsatz der homologen Alignment-Algorithmen von Needleman und Wunsch, J. Mol. Biol. 48: 443 (1970). Ein Hinweis, dass zwei Peptid-Sequenzen im wesentlichen identisch sind, ist, dass ein Peptid immunologisch reaktiv auf Antikörper ist, die gegen das zweite Peptid aufgebracht werden. So ist ein Peptid im wesentlichen mit einem zweiten Peptid identisch beispielsweise, wenn die beiden Peptide sich nur durch eine konservative Substituierung unterscheiden. Peptide, die "wesentlich gleich" sind, teilen Sequenzen wie vorher bemerkt, mit der Ausnahme, dass Rückstandspositionen, die nicht identisch sind, sich durch konservative Aminosäurenveränderungen unterscheiden können.

Die Erfindung bezieht sich auf eine Methode zur Bestimmung eines bestimmten Proteinprofils einer Zelle, das für die Diagnose oder als Target Site für ein Medikament eingesetzt werden kann. Laut der Erfindung steht die Aktivität an bestimmten genetischen Loki in Wechselwirkung mit dem funktionalen Status und/oder Konzentration des Produktproteins in einer Testzelle und wird dan verglichen mit einer Referenz-Zelle zur Erläuterung von differentiellen und quantitativen Protein-Expression-Profilen.
Die Methode kann angewandt werden, um Gene oder Genprodukte zu identifizieren, die mit einem biologischen Prozess oder Interesse assoziiert werden, um die Proteine inklusive gesamter Pathways von Expressionen, assoziiert mit einem bestimmten Stadium, zu identifizieren, die Zellen zu untersuchen zur Identifizierung eines bestimmten Proteinprofils, welches mit dem besagten Stadium verbunden ist, für die Diagnose, um neue Proteine, assoziiiert mit bestimmten Zelltypen oder -stadien zu identifizieren, oder sogar auch um polymorphismen in Genen zu bestimmen, die differentielle Proteinen zwischen Genen bewirken. Dies kann einen Test auf Expression oder nicht Expression eines bestimmten Proteins oder eines relativen quantitativen Expressionsprofiles enthalten.
Die Methode setzt drei elementare Schritte ein, um ihr Ziel zu erreichen. Als erstes wird die Testzelle transformiert mit einem promotorless polynukleotide Konstrukt um die Zelle zu "markieren" durch Integration eines nachweisbaren Markers oder Reporter-Nukleotid-Sequenz in das Genom der Zelle. Diese nachweisbare Marker-Sequenz kodiert ein Protein, welches nur produziert wird, wenn die Integration in einem zellulären Gen derart stattgefunden hat, dass das Marker-Protein unter der transkriptionalen Kontrolle eines zellulären Gen-Promotors produziert wird, woraus sich ein unterbrochenes Genprodukt und vorzugsweise ein Fusionsprotein, welches den Tag beinhaltet, ergibt.
Dies wird erreicht durch den Einschluss der Marker-Nukleotid-Sequenz in einem polynukleotiden Konstrukt, typischerweise ein Vektor, ohne das der Promotor operativ mit der Marker-Nukleotid-Sequenz verbunden ist. So hängt die Expression eines Markers von der Auslödung der Transkription des Target-Zellgenoms ab. Ein jeder Vektor kann laut der Erfindung eingesetzt werden, der fähig ist, sich ins Genom der besagten Target-Zelle zu integrieren, dies kann beinhalten, ist aber nicht beschränkt auf, z.b., Parvoviruren, Foamy Viren, Retrotransposons, usw., und/oder nakte DNS). In einer bevorzugten Ausführung ist der Vektor ein defektes Retrovirus, Verpackung des defekten retroviralen Genoms und Insertion des defekten retroviralen Genoms via abortiver Infektion in die DNS der zu untersuchenden Zellen.
Die Produktion des Markers zeigt, dass das Konstrukt in einen aktiv transkribierten Bereich des zellulären Genoms integriert wurde und Produktion/Akkumulierung des Marker-Proteins abhängig wird von Transkription ausgelöst an zellulären Promotoren.
Im zweiten Schritt der Erfindung, können Zellen, die integratierte Sequenzen beinhalten, sortiert und fraktioniert werden auf Basis der Expression des Markerproteins. Hier kann wiederum eine Reihe von verschiedenen Sortierungsmethoden angewandt werden, in Abhängigkeit von chemischen, physikalischen oder mechanischen Eigenschaften des Marker-Gens. In einer bevorzugten Ausführung ist der Marker ein fluoreszentes Protein und die Quantifizierung von Protein wird durch Fluorescence Activated Cell Sorting (FACS) vorgenommen, derart, dass zusätzlich zur Protein-Quantifizierung, Zellen, die vorgegebene Protein-Spiegel exprimieren, sortiert und in Bruchteilen gesammelt werden können (jede Zahl von Bruchteilen ist möglich, z.B. 5, 10, 20, 25, 50, 100 usw., abhängig vom der gewünschten Auflösung). Zusätzlich zu anderen Maßnahmen wie den Einsatz von eisenhaltigen Metallkonjugaten kann elektromagnetischer Kraft eingesetzt werden für Expression-abhängige Fraktionierung von Zellen.
Die hohe Geschwindigkeit und Auflösung der Erfindung erlaubt zum ersten Mal Echtzeitanalyse von molekularen Pathways von Aktivierung inklusive, aber nicht beschränkt auf Signal-Transduktion via Phosphorilierungs-Spiegeln von Targets (d.h. direkte Messungen von Phosphatasen/Kinasen und/oder Produktion von zyklischem AMP). Die Erfindung bietet außerdem Analyse von gated und non-gated Kanälen, um Signalübertragung via Ca²⁺, Mg²⁺, Zn²⁺, pH und anderen Spurenelementen zu überwachen. Diese Analyse kann ebenfalls Protein-Protein-Interaktion überwachen, und ebenso fluoreszentes Ab, fluoreszentes Ag, fluoreszente Ligand, fluoreszent Rezeptoren, fluoreszente Substrate oder nicht-fluoreszente Substrate, die nach enzymatic Spaltung/Aktivierung fluoreszent werden oder sogar auch konventionelle chlorometrische enzym-substrat basierte Reaktionen. Die Verbindung von Geschwindigkeit und Präzision, die von FACS geboten wird, wurde durch den Einsatz von anderen Analysemethoden noch nicht komplett gezeigt, andere Methoden können jedoch eingesetzt werden. In einer anderen Ausführung können auch elektromagnetische Kräfte eingesetzt werden, um Zellen durch die Expression des Marker-Gen-Produktes zu separieren und quantisieren.
In einem abschliessenden Schritt, werden – sobald sie in Unterpopulationen sortiert sind (basierend auf dem Spiegel der Marker-Peptid-Expression) – DNS, RNS, und/oder Proteine von den Zellen jeder Unterpopulation isoliert und analysiert. Diese Analyse beinhaltet die Bestimmung der zellulären DNS-Sequenz, in welche die Marker-DNS eingegeben wurde. Dann wird ein Vergleich mit einer Referenz-Zelle vorgenommen, um differentielles Protein-Expression zu identifizieren, die mit einem bestimmten Stadium in Wechselbeziehung steht, beispielsweise ein Krankheitsstadium wie Krebs für die Anwendung als Diagnose oder um ein mögliches Target für den Medikamenteneinsatz zu identifizieren.
Anstatt jede einzelne Zelle zu isolieren und amplifizieren, die einen integrierten und exprimierten Marker-Tag erworben hat, und drauf folgend die Stelle der Insertio und den Spiegel der Protein-Expression zu analysieren, können Schätzwerte durch die Analyse statistisch signifikanter Zahlen von Zellen erhalten werden mit solchen Integranten, die angehäuft wurden Kraft der Aufzeigung von annähernd equivalenten Spiegeln von Gen-Expression.
Wenn beispielsweise in einer Population von 1.000.000 Zellen, 10.000 Zellen mit Integrationsereignissen, die eine Reihe unterschiedlicher Gene in einer Population untersuchen, mittlere Markerpeptid-Konzentration des Wertes x aufweisen, wobei x die mittlere Markerpeptid-Konzentration darstellt, die im ersten Perzentil der Zellen gefunden wird, die über eine Expression des Markerpeptides verfügen. Wenn Integrationssites in einer (oder allen) diesen Zellen bestimmt werden, sind die Genen dort, wo sie integriert wurden, im niedrigsten Perzentil einer nachweisbaren Expression exprimiert. Dies kann behauptet werden, unabhängig von jeglichen Wissen über bestimmte Integrationsereignisse in einem spezifischen Gen in einer spezifischen Klon von Zellen zu einem spezifischen Protein-Spiegel. Durch die Anwendung von angemessenen statistischen Methoden und die Untersuchung einer genügend großen Zahl von Integrationsereignissen, wird dem Bedarf nach Beschaffung und Analyse von spezifischen Klonen vorgebeugt zum Zweck der Bestimmung von relativen Spiegeln von Protein-Expression von einem gegebenen genetischen Lokus.
In weiteren Ausführungen können differentielle Expressiondaten mit statistischen Methoden eingesetzt werden, um jedem Interrupted-Gen einen Markerpeptid-Expressions-Spiegel zuzuordnen. In weiteren Ausführungen wird eine Datenbank, welche diese neu erstellten Daten enthält, mit anderen Datenquellen kombiniert, um einen Datensatz über die Beziehung von Gen-Expression (am RNS und Protein Level) zur Funktion der Zelle zu erzeugen. In Fällen, wo die untersuchten Zellen jeweils im krebsartigen oder normalen Zustand erhältlich sind, können Vergleiche von relativer Gen-Expression eingesetzt werden, um Gene zu identifizieren, die entweder als diagnostische Marker der Pathologie dienen oder als Sites für pharmakologische Intervention zur Krebsbehandlung. Ähnlich können Krankheiten analysiert werden einfach durch die Ersetzung von Zellen für die Analyse.
Jeder der vorangegangenen Schritte wird nun im folgenden detaillierter beschrieben. Es versteht sich, dass für jeden Schritt zahlreiche Lösungen eingesetzt werden können, ebenso wie alternative Molekularbiologie-Methoden, der derzeit oder zukünftig zur Verfügung stehen, welche die gleichen Resultate erzielen. Die Auswahl der Reaktionsstoffe, Protokolle usw. wird als nichts weiter betrachtet als die routinemäßige Optimierung von experimentellen Parametern, auf der Basis der hier enthaltenen Lehren und ist gedacht für die Anwendung innerhalb des Bereiches der Erfindung. 18 ist ein Flußdiagram und zeigt einen Überblick des Prozesses inklusive mehrerer spezifischer Beispiele von Alternativen, die für jedem Schritt verfügbar sind.
Einbringung von Assay-Marker-Peptid-Kodierungssequenzen in das genetische Material von Test- und Referenzzellen
Der Erfindung entsprechend, beginnt der Prozess mit der Einbringung einer Assay-Marker-DNS-Sequenz in das Genom einer zu analysierenden Testzelle. Diese Assay-Marker-Sequenz kann jedes ausgebildete Molekül enthalten, das in einem definierten Assay-System so nachweisbar ist, dass Zellen anhand der Ausprägung der Markersequenz identifiziert, ausgewählt, sortiert und/oder vorzugsweise quantifiziert werden können. In der bevorzugten Ausführungsform ist diese Markersequenz (oder das Tag) ein fluoreszierender Farbträger (wie das humanisierte grün fluoreszierende Protein hrGFP). Andere Beispiele für Assay-Markersequenzen, die laut Erfindung verwendet werden können, beinhalten α-1–3 Galactosyltransferase, Natrium/Iod Symporter, (oder virales Hüllprotein). Weitere Markersysteme beinhalten jegliche Proteine, die an der Zelloberfläche nachweisbar sind, beschränken sich jedoch nicht auf diese. Andere Marker können Lipid-, Lipoprotein-, Glycolipid- und Glycoprotein-Targets sein, die durch spezifische fluoreszierende Verbindungen unter Verwendung markierter Antikörper, direkter chemischer Verbindungen und/oder durch Kombinationen direkter und indirekter Markierung gekennzeichnet werden können.
Das Markerpeptid/Fusionsprotein kann intrazellulär über das Zytoplasma verteilt oder an bestimmten intrazellularen Stellen durch Leitsequenzen auf dem Markerpeptid/Fusionsprotein lokalisiert sein. Die Markerpeptide können in einzelne Proteine oder in makromolekulare Komplexe eingebracht werden, in denen mehrere Proteine (hervorgegangen aus multiplen Zellgenen) durch spezifische molekulare Interaktion verbunden sind, die ein einzigartiges fluoreszierendes Merkmal ausbilden.
Das Marker-Peptid wird erst produziert, wenn die Einbringung in ein Zellgen derart erfolgt ist, dass das Marker-Protein unter der Transkriptionskontrolle eines zellularen Gen-Promotors produziert wird. Dies wird dadurch erreicht, dass die Marker-DNS-Sequenz in ein Expressionskonstrukt ohne Promotor eingebunden wird.
In der bevorzugten Ausführungsform ist das Expressionskonstrukt in ein Gen-Transfervehikel eingebettet, welches dann benutzt wird um die Zellen zu transduzieren, die das Marker-Gen durch die empfangenden Test-Wirtszellen ausdrücken sollen.
Das Gen-Transfervehikel kann jedwedes bekannte Transfervehikel sein und einfach nackte DNS beinhalten, die durch rezeptorvermittelte Transfektion oder durch homologe Rekombination entsteht (siehe 14). In der Ausführungsform der homologen Rekombination wird ein Vektor mit sehr repetitiven Sequenzen erzeugt, wie z.B. bei Alu-Flankierung des Assay-Marker-Gens, so dass Rekombination an den repetitiven Stellen gefördert wird, die zur Integration der Nukleotide führt.
Jedwede Zahl von Vektoren kann verwendet werden. Diese Vektoren beinhalten neben anderen eukaryotische Vektoren, prokaryotische Vektoren (wie zum Beispiel bakterielle Vektoren) und virale Vektoren, einschließlich, jedoch nicht nur, retrovirale Vektoren, adenovirale Vektoren, AAV begleitende Vektoren, Lentivirus-Vektoren (humane und andere, inklusive porcine), oder jeden anderen Vektor, der stabil in ein Wirtszellengenom integrierbar ist.
Eine bevorzugte Ausführungsform der Anwendung nutzt Vektoren (DNS, RNS, DNS/RNS-Hybride etc.), die Marker enthalten, die danach sortiert werden können, ob sie an Zellwand oder im Zytoplasma enthaltene Protein-, Lipid-, Lipoprotein, Glycolipid und Glycoprotein-Targets aufweisen, die durch spezifische fluoreszierende, chemilumineszente oder biolumineszente Verbindungen unter Verwendung markierter Antikörper, direkter chemischer Verbindungen und/oder durch Kombinationen direkter und indirekter Markierung gekennzeichnet werden können. Daten zur Stützung dieser Behauptung sind in 13(C) dargestellt. Diese Vektoren verwenden die Prozesse der illegitimen Rekombination, homologen Rekombination und/oder virale Vektoren, um besagte Marker in die genomische DNS der Target-Zelle (der integrierte Vektor dient als molekularer Barcode) zu integrieren. Alu Sequenzen sind etwa 300 bp lang und etwa alle 3000 bp des menschlichen Genoms zu finden. Alu oder andere sehr repetitive Sequenzen können verwendet werden, um homologe Rekombinationen zur Einbringung des Marker-Gens zu induzieren. Die Vektoren werden den Target-Zellen per Standard-Gen-Übermittlungsmethoden zugeführt, zu denen neben anderen lipidvermittelte Transfektion (kationisch, anionisch und neutral), aktivierte Dendrimere PolyFect^® Reagent, SuperFect^® Reagent {Qiagen}), Pethyleneimene (PEI), rezeptorvermittelte Transfektion (Fusions-Peptid/-Protein), Kalzium-Phosphat-Transfektion, Elektroposation, Teilchenbeschuss, direkte Injektion nackter DNS, Diethylaminoethyl (DEAE-dextran Transfektion) etc. gehören Obwohl die bevorzugte Ausführungsform die Verwendung von Plasmid-basierten Vektoren empfiehlt, ist die Anwendung anderer hocheffizienter viraler Vektoren nicht ausgeschlossen.
Die Expressionsvehikel (Vektoren) der Erfindung können durch jedwede, den Fachleuten der Zunft bekannte Technik erzeugt werden. Im Folgenden wird ein zusammenfassender Überblick über Techniken der Konstruktion und Transformation der Vektoren der Erfindung gegeben.
TECHNIKEN DER GENTECHNIK ZUR ERSCHAFFUNG UND ÜBERMITTLUNG VON VEKTOREN
In der bevorzugten Ausführungsform beinhalten die Expressionsvehikel oder Vektoren der Erfindung, inklusive des Expressionssystems, auch selektierbare Markergene, um die Transformanden zu selektieren sowie eine Methode zur Selektierung dieser Transformanden für die Vermehrung des Konstruktes in Bakterien. Solche selektierbaren Transformanden können ein antibiotisches Resistenzgen enthalten, zum Beispiel gegen Ampicillin, Kanamycin, Tetracycline oder Streptomycin und ähnliche. Diese können Gene von prokaryotischen oder eukaryotischen Zellen enthalten, wie z.B. Dihydrofolate Reduktase, Multidrug Resistance 1-Gen oder Hygromycin B-Resistenz, welche eine positive Selektion ermöglichen. Jeder Typus von positiven Selektions-Markern wie Neomycin oder ZeoLyn, die im Fach in der Regel bekannt sind, kann verwendet werden. Zahlreiche Prozeduren zur Einbringung und Entfernung von Genen sind den Fachleuten geläufig und veröffentlicht worden, z.B. in Maniantis, "Molecular Cloning", Cold Spring Harbor Press. Siehe auch Post et. al., Cell, Vol. 24: 555–565 (1981). Eine vollständige Transkriptionseinheit muss für die selektierbaren Markergene vorhanden sein (Promotor-Gen-polyA) und die Gene müssen an einem Ende von einer regulierenden Region mit Promotor und an dem anderen Ende von einem Transkriptions-End-Signal (Polyadenylations-Site) umgeben sein. Jedwede bekannte Kombination von Promotor- und Transkriptions-Ende kann mit dem Selektionsmarker-Gen verwendet werden. Beispiele für solche Systeme sind neben anderen Beta-Laktase (Panicillinase) und Laktose Promotor Systeme, (Chang et. al., Nature, 1977, 198: 1056); das Tryptophan (trp) Promotor System (Goeddel, et. al., Nukleic Acid Res., 1980, 8: 4057) sowie der Lambda derivierte PI Promotor und die N-gen Ribosombindungsstelle (Shimatake et al., Nature 1981, 292: 128). Andere Promotor, wie Cytomegalovirus-Promotor oder Rous Sarcoma Virus, können in Kombination mit zahlreichen Ribosomelementen wie SV40 Poly A verwendet werden. Der Promotor kann jedweder im Fach bekannte Promotor sein, so auch konstitutive, (supra)-induzible, (auf Tetrazyklin kontrollierbaren Transaktivator (tTA) reagierende Promotor (tet system, Paulus, W. et. al., "Self-Contained, Tetracycline-Regulated Retroviral Vector System for Gene Delivery to Mammalian Cells", J of Virology, Jan. 1996, Vol. 70, No. 1, pp. 62–67)) oder gewebespezifische (wie in: Costa, et. Al., European Journal of Biochemistry, 258 "Transcriptional Regulation Of The Tissue-Type Plasminogen Activator Gene; In Human Endothelial Cells: Identification Of Nuklear Factors That Recognize Functional Elements In The Tissue-Type Plasminogen Activator Gene Promoter" pgs, 123–131 (1998); Fleischmann, M., et. Al., FEBS Letters 440 "Cardiac Specific Expression Of The Green Fluorescent Protein During Early Murine Embryonic Development" pgs. 370–376, (1998); Fassati, Ariberto, et. Al., Human Gene Therapy, (9: 2459–2468) "Insertion Of Two Independent Enhancers In The Long Terminal Repeat Of A Self Inactivating Vector Results In High-Titer Retroviral Vectors With Tissue Specific Expression" (1998); Valerie, Jerome, et. Al. Human Gene Therapy 9: 2653–2659, "Tissue Specific Cell Cycle Regulated Chimeric Transcription Factors For The Targeting Of Gene Expression To Tumor Cells, (1998); Takehito, Igarashi, et. Al., Human Gene Therapy 9: 2691–2698, "A Novel Strategy Of Cell Targeting Based On Tissue-Specific Expression Of The Ecotropic Retrovirus Receptor Gene", 1998; Lidberg, Ulf et. al. The Journal of Biological Chemistry 273, No. 47, "Transcriptional Regulation Of The Human Carboxyl Ester Lipase Gene In Exocrine Pancreas" 1998; Yu, Geng-Sheng et. Al., The Journal of Biological Chemistry 273 No. 49, "Co-Regulation Of Tissue-Specific Alternative Human Carnitine Palmitoyltransferase IB Gene Promotors By Fatty Acid Enzyme Substrate" (1998)). Diese Sequenztypen sind im Fach wohlbekannt und im Handel verfügbar bei mehreren Quellen, ATCC, Pharmacia, Invitrogen, Stratagene, Promega.
Das Assay-Marker-Gen, das exprimiert werden soll, kann dann in den Vektor der Erfindung eingebracht werden. Die fremde Marker-Gen-DNS enthält typischerweise eine promotorless Transkriptionseinheit, Poly A.
In sehr bevorzugter Ausführungsform enthält der Vektor einen speziell erzeugten Multi-Cloning-Bereich, in dem zahlreiche einzigartige Restriktionsstellen kreiert wurden. Restriktionsenzyme und ihre Spaltstellen sind den Fachleuten bekannt.
In bevorzugter Ausführungsform ist eine Pack-Zelllinie mit dem viralen Vektor, der die Marker-Nukleotid-Sequenz enthält, tranduziert, um eine Produzenten-Zellline mit dem viralen Vektor zu bilden. Die Produzentenzellen können dann direkt administriert werden, wobei die Produzentenzellen virale Partikel herstellen, die fähig sind, die Empfängerzellen zu transduzieren.
In der bevorzugten Ausführungsform ist der virale Vektor ein retroviraler Vektor. Beispiele für retrovirale Vektoren, die verwendet werden können, sind neben anderen Moloney Murine Leukemia Virus, Milz Nekrose Virus sowie von Retroviren wie Rous Sarcoma Virus, Harvey Sarcoma Virus, Avian Leukosis Virus, Human Immunodeficiency Virus, Myeloproliferative Sarcoma Virus und Mammary Tumor Virus abgeleitete Vektoren.
Retrovirale Vektoren sind nützliche Agenten zur Vermittlung von retroviral vermittelten Gentransfers in eukaryotische Zellen. Retrovirale Vektoren werden in der Regel so konstruiert, dass der Großteil der Kodierungs-Sequenzen der strukturellen Gene des Virus entfernt und durch die therapeutisch gewünschten Gene ersetzt werden. In den meisten Fällen werden die strukturellen Gene (z.B. gag, pol und env) vom retroviralen Rückgrat mit Hilfe im Fach bekannter genetischer Techniken entfernt. Dies kann durch die Verdauung mit der entsprechenden Restriktions-Endonuklease oder in manchen Fällen auch mit Bal 31 Exonuklease erfolgen, um Fragmente mit jeweiligen Portionen des Packsignals zu generieren.
Das Marker-Gen kann auf verschiedene Weise in das provirale Rückgrat eingebracht werden. Die direktesten Konstruktionen sind die, bei denen die strukturellen Gene des Retrovirus durch ein einzelnes Gen ersetzt werden, welches dann innerhalb des LTR (long terminal repeat), kontrolliert von der viralen Regulations-Sequenz, transkribiert wird. Es wurden auch retrovirale Vektoren konstruiert, die mehr als ein Gen in eine Target-Zelle einbringen können. In der Regel befindet sich eines der Gene unter der Kontrolle des viralen LTR, während das andere entweder von einem gespleißten Abschnitt ausgedrückt wird oder sich unter der Kontrolle des eigenen, internen Promotors befindet.
Es wurden Anstrengungen unternommen, den viralen Anteil des viralen Rückgrats zu minimieren, vorrangig mit dem Ziel, die Wahrscheinlichkeit einer Rekombination zwischen Vektor und verpackungsdefektem Helfervirus innerhalb der Verpackungszellen zu verringern. Ein verpackungsdefekter Helfervirus ist notwendig, um die strukturellen Gene eines Retrovirus bereitzustellen, die vom Vektor entfernt wurden.
In einer Ausführungsform kann der retrovirale Vektor eine Reihe von Vektoren sein, wie in Bender, und andere, J. Virol. 61: 1639–1649 (1987) beschrieben, basierend auf dem N2 Vektor (Armentano, und andere, J. Virol., 61: 1647–1650), der eine Serie von Löschungen und Ersetzungen enthält, die die Wahrscheinlichkeit der Homologie zwischen Vektor und Verpackungssystem auf ein absolutes Minimum reduziert. Diese Änderungen haben zudem die Wahrscheinlichkeit der Ausbildung viraler Proteine eingeschränkt. Im ersten dieser Vektoren, LNL-XHC, wurde der natürliche ATG Startcodon von gag durch gezielte Mutagenesis zu TAG geändert, wodurch nicht erwünschte Proteinsynthese ab diesem Punkt eliminiert wurde.
Im Moloney Murine Leukemia Virus (MoMuLV) (5' vor dem authentischen gag-Start) existiert ein offener Leserahmen, der die Bildung eines anderen Glycosyl-Proteins (pPr80^gag) erlaubt. Moloney Murine Sarcoma Virus (MoMuSV) weist Veränderungen in dieser 5' Region auf, inklusive einer Rasterverschiebung und des Verlustes der Glycosylationsstellen, wodurch die potentielle Bildung eines Amino-Terminus pPr80^gag verhindert wird. Deshalb wurde der Vektor LNL6 erschaffen, der sowohl die veränderte ATG des LNL-XHC als auch den 5' Teil des MoMuSV enthält. Die 5' Struktur der LN Vektorserie eliminiert so die mögliche Bildung retroviraler Leserahmen, wodurch die Produktion viraler Antigene in genetisch transduzierten Zielzellen verhindert wird. In einer letzten Änderung zur Verringerung der Überschneidung mit dem Helfervirus hat Miller überzählige env-Sequenzen direkt hinter dem 3' LTR im LN Vektor eliminiert. (Miller, et. al., Biotechniques, 7: 980–990, 1989).
Die wichtigste Anforderung, die jedes Gentransfersystem zur Anwendung in der Gentherapie erfüllen muss, ist Sicherheit. Sicherheit wird durch die Kombination der Vektor- Genomstruktur und des Verpackungssystems, welches zur Produktion des infektiösen Vektors verwendet wird, erreicht. Miller, et. al. haben die Kombination des pPAM3 Plasmiden (the packaging-defective helper genome) zur Bildung retroviraler Strukturproteine mit der LN Vektorserie entwickelt, um ein Vektor-Verpackungssystem zu schaffen, bei dem die Generierung von rekombinanten wilden Typen des Retrovirus durch die Eliminierung nahezu aller Stellen zur Rekombination zwischen Vektor-Genom und Verpackungs-Helfer-Genom auf ein Minimum reduziert ist (d.h. LN mit pPAM3).
In einer Ausführungsform kann der retrovirale Vektor ein Moloney Murine Leukemia Virus der LN Serie sein, wie oben erwähnt und weiter in Bender, und andere. (1987) und Miller, und andere. (1989) beschrieben. Solche Vektoren haben einen Teil des Verpackungssignals vom Mouse Sarcoma Virus abgeleitet und besitzen ein mutiertes gag Initiations-Codon. Der Begriff "mutiert", wie er hier verwendet wird, besagt, dass das Gag Initiations-Kodon entfernt oder verändert wurde, so dass das Gag Protein oder Fragment bzw. Abschnitte davon nicht ausgebildet werden.
In einer anderen Ausführungsform kann der retrovirale Vektor mindestens vier Klonierungs- oder Restriktionsenzym-Erkennungsstellen besitzen, wobei mindestens zwei davon eine durchschnittliche Erscheinungsrate in eukaryotischen Genen von weniger als 1 in 10.000 Basenpaaren aufweisen; das Restriktionsprodukt weist eine durchschnittliche DNS-Größe von mindestens 10.000 Basenpaaren auf. Bevorzugte Klonierungsstellen werden aus der Gruppe ausgewählt, die aus NotI, SnaBI, SalI, and XhoI besteht. In bevorzugter Ausführungsform besitzt der retrovirale Vektor jede dieser Klonierungsstellen.
Wenn ein retroviraler Vektor mit solchen Klonierungsstellen eingesetzt wird, kann auch ein Pendelvektor verwendet werden, der ein Minimum von zwei Klonierungsstellen enthält, die mit mindestens zwei Klonierungsstellen kompatibel sind, die aus der Gruppe NotI, SnaBI, SalI, und XhoI auf dem retroviralen Vektor ausgewählt wurden. Der Pendelvektor enthält ebenfalls mindestens ein erwünschtes Gen, das fähig ist, vom Pendelvektor zum retroviralen Vektor zu transferieren.
Der Pendelvektor kann aus einem Basis-"Rückgrat"-Vektor oder Fragment konstruiert werden, zu dem ein oder mehrere Binder mit Klonierungs- oder Restriktionsenzym-Erkennungsstellen gebunden werden. In den Klonierungsstellen sind die kompatiblen oder komplementären Klonierungsstellen enthalten, die oben beschrieben wurden. Gene und/oder Promotor mit Enden, die mit den Restriktionsstellen des Pendelvektors korrespondieren, können durch im Fach bekannte Techniken in den Pendelvektor eingebunden werden.
Der Pendelvektor kann zur Erhöhung der DNS-Sequenzen in prokaryotischen Systemen eingesetzt und aus Plasmiden bereitet werden, die generell in prokaryotischen Systemen und bestimmten Bakterien Verwendung finden. Dadurch kann beispielsweise der Pendelvektor aus Plasmiden wie pBR322; pUC 18 und anderen konstruiert werden.
Der Vektor wird dann verwendet, um ein Verpackungs-Zelllinie zu transduzieren und eine Produzenten-Zelllinie zu bilden. Beispiele für zur Transfektion geeignete Verpackungszellen umfassen neben anderen PE501, PA317, Ψ2, Ψ-AM, PA12, T19-14X, VT-19-17-H2, ΨCRE, ΨCRIP, GP+E-86, GP + envAM12, und DAN Zelllinien. Der Vektor, der die therapeutische Nukleinsäuresequenz enthält, kann die Verpackungszelle durch jede im Fach bekannte Vorgehensweise transduzieren. Solche Vorgehensweisen beinhalten neben anderen die Elektroporation, die Verwendung von Liposomen und die CaPO₄ Prezipitation. Die Produzentenzellen werden dann direkt in oder direkt neben die gewünschte Empfängerzelle administriert.
Die Integration findet in der transkribierten Region eines zellulären Gens so statt, dass die Produktion/Akkumulation des Marker-Proteins von der durch den zellularen Promotor initiierten Transkription abhängig ist.
In noch einer weiteren bevorzugten Ausführung kann der Polynukleotid-Vektor eine "Spleiss-Akzeptor-Stelle" aufweisen, so dass das Marker-Protein, wenn der Vektor in der richtigen Orientierung mit einer Intron-Kodierungs-Stelle eines zellularen Gens integriert, als Fusions-Produkt produziert wird mit einem Teil eines beliebigen, an der Stelle der Einbringung kodierten zellulären Proteins (einschließlich, aber nicht beschränkt auf, Integration einer internen Ribosom-Eintrittsstelle (IRES) vor dem Start-Kodon des Marker-Gens stellt sicher, dass es ausgebildet wird, wann immer RNS des zellulären Gens (wo die Einbringung stattfand) in einer übersetzbaren Form in das Zytoplasma transportiert wird). (1)
Gleichsam können multiple Marker einbezogen werden, so dass ein Marker-Protein als Fusion und ein zweites durch ein IRES ausgebildet werden (2C). Es sind auch Konstruktionen möglich, die abhängig von der Position der Spleiss-Akzeptoren und Spenderstellen verschiedene Informationen über Integrationsstellen sammeln können.
Der Erfindung entsprechend sind serielle Gen-trapping Vektoren notwendig, um die Daten zu erwerben, die für die Zuordnung von Integrations-Sytes zu bestimmten Genen und zu mittleren Marker-Protein-Expression-Spiegeln gebraucht werden. Beispiele für solche Vektoren finden sich in 2a–2f.
Wie in 14 gezeigt, ist auch die Rasterverschiebung ein wichtiges Thema, da nur einer von drei Integranden funktionstüchtig ist. Durch die Triplet-Organisation der Übersetzung resultieren zwei Ergebnisse aus drei Integrationen, die keine funktionierenden Assay-Marker hervorbringen, da sie in Rasterverschiebungen resultierten, durch die die Übersetzung des Markergens auseinander gerissen werden, obwohl sie in eine aktive Region des zellularen Genoms integriert sind. Daher wird eine Mehrzahl von Vektoren in einer weiteren bevorzugten Ausführungsform der Erfindung kreiert, die nur um je eine oder zwei Basen von der Startstelle des Markergens abweichen. Dies hilft einige Exons einzufangen, die nach der Integration der Markernukleotide aus dem Raster rutschen.
Die Herstellung dieser zahlreichen Vektoren ist für Fachleuten problemlos.
Eine Methode, die zur Erschaffung der Vektoren Verwendung finden kann, läuft wie im folgenden ab:
Die als defekte Retroviren zu produzierenden Vektoren weden in eine Vektor-Verpackungszelllinie mit Helfer-Virus transfektiert (z.B. retrovirales AMIZ Helfer Virus oder andere Retroelemente (Young, W. B. and C. J. Link, Jr., Chimeric retroviral helper virus and picornavirus IRES sequence To eliminate DNS methylation for improved retroviral packaging cells [In Process Citation]. J Virol, 2000. 74(11): p. 5242–9)), wodurch unerwünschte Verluste des Helfervirus durch zellulare DNS Methylation vermieden werden können. (Young, W. B., G. L. Lindberg, and C. J. Link, Jr., DNS methylation of helper virus increases genetic instability of retroviral vector producer cells. J Virol, 2000. 74(7): p. 3177–87). Diese AMIZ Helfervirus-Verpackungs-Zelllinie kann bis zu 2 × 10⁷ CFU (colony formation unit)/ml Vektor-Titer herstellen.
In manchen Umständen, wo die Produktion der Retroviren begrenzt ist, können alternative Methoden der retroviralen Produktion unter Verwendung von chimärischen Adenovirus-Systemen eingesetzt werden, um Vektortiter von bis zu 5 × 10⁹ cfu/ml zu erzeugen (Ramsey und andere, Caplen und andere,).
Sortierung von Zellen auf der Basis von Expressions-Spiegeln von Marker-Peptiden
Zellen, die eine Expression des Markers aufweisen, werden dann sortiert und vorzugsweise mengenmäßig nach ihrem Expressionsspiegel bestimmt, um ein Expressionsprofil für einen bestimmten Zelltyp zu generieren. Die Sortierung oder Trennung der Zellen kann durch jede beliebige Methode erfolgen, die eine Separation und vorzugsweise Quantifizierung auf der Basis der Expression der Markersequenz ermöglicht. Dies ist u.a. mittels Fluoreszenzaktivierung, auf mechanische Weise oder basierend auf der Charge oder Dichtigkeit möglich.
Als bevorzugte Sortierungsmethode wird z.B. auch die Durchflusszytometrie verwendet. Bei der Durchflusszytometrie versucht man, die komplexe Integration von optischen, flüssigen und elektronischen Komponenten zu nutzen, um fluoreszenzaktivierte Zellsortierer (FACS) zu entwickeln, die eine schnelle Abfrage von Zellen ermöglichen, die brauchbare Fluoreszenzmarker in Echtzeit enthalten.
Marker, die mithilfe dieser Methode sortiert werden können, sind u.a. Protein an der Zelloberfläche, Lipid, Lipoprotein, Glykolipid und Glykoprotein-Targets, die durch Verwendung von markierten Antikörpern mit spezifischen Fluoreszenzwirkstoffen markiert werden können, eine direkte chemische Bindung und/oder eine Kombination aus direkter und indirekter Markierung.
Eine Alternative dazu wäre die Verwendung hochsensitiver/hochdichter Plattenleser zur Erkennung chemoluminiszenter Signale (Bereich 1 × 10^–18 M bis 1 × 10^–21 M) oder es kann, mit gleichzeitig reduzierter Sensitivität, eine Plattenlesertechnologie zur Messung des Absorptionsvermögens enzymbasierter Chromophoren verwendet werden. Eine andere Methode zur Sortierung von Zellen mit ähnlicher Geschwindigkeit wie die von herkömmlichen FACS kann angewendet werden, wenn die elektrischen Ladeplatten durch Hochleistungselektromagneten ersetzt werden, die eine magnetbasierte Separation ermöglichen. Alternativ hierzu ist mithilfe der konfokalen Mikroskopie eine erhöhte Sensitivität möglich; der Durchsatz reduziert sich dabei jedoch signifikant.
Bei einer bevorzugten Ausführungsform ist das Assay-Marker-Peptid ein natürlich-fluoreszierendes Proteinfusionsprodukt, das, ohne darauf beschränkt zu sein, das humanisierte, grünfluoreszierende Protein Renilla Reniformis (hrGFP) mit FACS-Separation einschließt. Beispiele von ungeklonten GFP-Molekülen, die für die Praxis der Erfindung nützlich sind, wurden bei Cormier, M. J., Hori, K. und Anderson, J. M. (1974) Bioluminescence in Coelenterates. Biochim. Biophys. Acta 346: 137–164 zitiert. In Fällen, bei denen die Stärke des Fluoreszenzsignals der markierten Fusionsproteine für eine brauchbare Verwendung unzureichend ist, können die Zellen erneut mit enzymmarkierter Fluoreszenz untersucht werden.
In einer weiteren Ausführungsform können ELISA und Western Blotting verwendet werden, um Korrelationskurven herzustellen, die die Genauigkeit der Proteinschätzungen erhöhen. Alternativ dazu können RIA und/oder Immunpräzipitationen zur Herstellung von Standard-Korrelationskurven des Target-Proteininhalts verwendet werden. Vorzugsweise wird ein konsistenter standardisierter und kalibrierter Satz von Beads mit einer bekannten Anzahl Moleküle Fluoreszenzprotein entwickelt, das pro Bead gebunden wird. Diese Standard-Beads ermöglichen eine Korrelation der Fluoreszenzintensität zur Äquivalenz der löslichen Fluoreszenzmoleküle (molecules equivalent soluble fluorescence oder MESF).
In einer weiteren, optionalen Ausführungsform umfasst das Expressionskonstrukt ein Polynukleotid mit einem negativen oder positiven Auswahlprotein zur Anreicherung der Population vor der Sortierung. Die Verwendung der negativen oder positiven Auswahl eliminiert, z.B. über antibiotischen Widerstand, aus der Population alle Zellen, die kein Polynukleotid integrieren. So ergeben sich angereicherte Populationen von Targetzellen, um jegliche damit zusammenhängende Ineffizienzen aufgrund von "Gene Trapping" (zufällige Mutierung von Genen) von genomischen Steuerelementen zu vermeiden. Die Anreicherung von Zellen mit zufällig mutierten Genen ("gene trapped cells") umfasst die Verwendung der Arzneimittelauswahl (z.B. neo^r, puro^r, hygro^r, zeo^r, HAT^r u.s.w.), Affinitätstrennungen, die folgendes umfassen sollen, jedoch nicht darauf beschränkt sind: {Ab/Ag oder Ab/hapten, Biotin/Streptavidin, Glutathion S-Transferase (GST) Fusionsproteine, Polyhistamin-Fusionsproteine (Invitrogen), Calmodulin-bindende Peptid-Tags (Stratagen), c-myc Epitope-Tag (Peptid-Seq. EQKLISEEDL) (Stratagen), FLAG Epitope-Tag (Peptid-Seq. DYKDDDDK) (Stratagen), V5-Epitop (Stratagen), die Linx^TM-Technologie {phenyldiboronische Säure [PDBA] und salicylhydroxamische Säure [SHA]} (Invitrogen), Adhäsion, Adhäsionsblockierung, Chemotaxis, Chemotaxisblockierung u.s.w.}, und/oder die Anreicherung von FACS mittels fluoreszierendem Ab, fluoreszierendem Ag, fluoreszierenden Substraten oder nicht-fluoreszierenden Substraten, die nach enzymatischer Spaltung/Aktivierung fluoreszierend werden (eine vollständige Auflistung der für unsere Anwendungen üblichen fluoreszierenden Proben kann in folgenden Quellen nachgelesen werden: Shapiro, H. M., Practical Flow Cytometry [Praktische Flow Cytometrie], Dritte Ausgabe, Wiley-Liss (1994), Robinson, J. P., Handbook of Flow Cytometry Methods [Handbuch der Cytometrie Methoden], Wiley-Liss (1993); Ormerod, M. G., Flow Cytometry: A Practical Approach [Flow Cytometrie: Ein praktischer Ansatz], Zweite Ausgabe, IRL Press (1994); Robinson, J. P., Current Protocols in Cytometry [Aktuelle Protokolle der Cytometrie], John Wiley & Sons (2000).
Alternativ dazu können einige Anwendungen eine Zelldepletion verwenden, die zur Ermöglichung einer feineren Fraktionierung der Zellen eine sehr hohe Proteinexpression zeigen und eine niedrigere Expression der Marker-Peptide belegen ((d.h. negative Selektion {einschließlich HSV tk/GCV, ohne jedoch darauf beschränkt zu sein}. Diese negative Selektion kann vor oder nach einem positiven Selektionsprozess angewendet werden.
Gemäß der Erfindung werden die Populationen der Marker-Peptid("Gene Trapping")-Zellen basierend auf der Verteilung der Anzahl der Zellen und der relativen Fluoreszenzintensität nach FACS in verschiedene Expressionsstufen sortiert. Die Zellen, die entweder lebend oder in Konservierungsmittel fixiert sind (z.B. Paraformaldehyd), werden dann auf Basis der durchschnittlichen Fluoreszenzintensität in Gruppen sortiert. Der Prozess ist gleichermaßen effizient mit tot-fixierten und nicht-fixierten Zellen oder mit Zellen, die permeabilisiert und mit fluoreszenzmarkiertem Ab oder zur Erhöhung der Sensitivität mit enzymmarkierten Fluoreszenzproben untersucht wurden. Cytometry 23, 46 (1996); J Histochem Cytochem 43, 77 (1995).
Sobald der Sortierungsprozess abgeschlossen ist, können DNS, RNS und/oder Gesamtprotein extrahiert und einer Down Stream-Ampflifikation und/oder Analyse unterzogen werden (die lebenden Zellen können jedoch, falls erforderlich, zur weiteren Amplifikation auch in die Kultur zurückgegeben werden).
Erfassung von Sequenz-Tag-Daten und Reporting
Sobald die Proteinspiegel heraussepariert sind, wird das Protein mit einem bestimmten genomischen Lokus assoziiert. Dies erreicht man durch die Definition der flankierenden Sequenzen um die Integrationsstelle der marker-peptid exprimierenden, retroviralen Vektoren (z.B. molekularer DNS- Barcode), nachdem die Zellen von FACS abgerufen wurden, und einem von den relativen Flureszintensitäten der Zellen abgeleiteten relativen Proteinexpressionsniveau.
Auf die Fraktionierung der gesamten Zellpopulation (mit messbaren Marker-Protein-Expressionsspiegeln) in Unterpopulationen von Zellen (wobei jede Unterpopulation aus Zellen mit ähnlichen Marker-Protein-Expressionsspiegeln besteht) folgt eine Analyse der Integrationsstellen innerhalb der Zellen einer Unterpopulation. Nachdem die Integrationsstellen identifiziert (und mit einem genetischen Locus korreliert) wurden, wird ihnen als Messwert der relativen Expression der durchschnittliche Marker-Proteinspiegel der Unterpopulation zugeordnet. Mit Abschluss dieser Vorgehensweise wurde allen analysierten Integrationsstellen/-genen ein relatives Proteinexpressionsniveau zugeordnet.
Zur Veranschaulichung dieses Beispiels beschreiben wir eine Methode zur Erfassung der Daten, die für die Zuordnung der Integrationsstellen zu spezifischen Genen und für die durchschnittlichen Marker-Protein-Expressionsspiegel erforderlich sind. Sie schließt unten aufgeführte Beispiele ein, ist jedoch nicht darauf beschränkt:
A. Methode zur Erfassung von Sequenz-Tag-Daten und Reporting System (STARS) (16):
Wiederherstellung von genetischem Material von den zu analysierenden Zellen, in diesem Beispiel zelluläre DNS (einschließlich zelluläre DNS, ohne darauf beschränkt zu sein, da von zellulärer RNS [cDNA] stammende, komplementäre DNS verwendet werden kann), dessen Zusammensetzung dem Bediener wegen des Einschlusses der das Marker-Peptid enkodierenden Sequenzen teilweise bekannt ist. Der die eingefügte Sequenz enthaltende genetische Lokus (oder Genort, der die eingefügten Marker-Gen-Sequenzen enthaltende RNS produziert) ist als markiertes Gen ("tagged gene") bekannt.
Eine Methode der Spaltung der besagten zellulären DNS, sodass diese eingefügte DNS (mit der dem Bediener bekannten Sequenz) einmal gespalten wird und die flankierende, unbekannte Sequenz nochmals in den des eingefügten DNS-Stücks benachbarten Bereiche gespalten wird. Die Spaltung der DNS erfolgt auf eine Art und Weise, dass Enden erzeugt werden, die die Zirkulierung von DNS-Fragmenten erlauben und ein Molekül produzieren, dass eine dem Bediener bekannte Sequenz aufweist und beide Seiten flankiert und mit einer variablen Länge von zellulärer DNS einer unbekannten Sequenz verläuft.
Bei der Amplifikation der unbekannten Sequenzen werden Primer verwendet, die aus von dieser dem Bediener bekannten Sequenz (Teil des Expressions-Vektors) gezeichneten Sequenzen bestehen – in diesem Beispiel durch Polymerase-Kettenreaktion (einschließlich, aber nicht darauf beschränkt, da auch andere Mittel als RNS-Moleküle zur Erweiterung der Sequenzen verwendet werden können). Diese Primer werden selektiert, um sich an das oben beschriebene, zirkulierende Produkt zu binden, und zwar in denjenigen Regionen der DNS, deren Sequenz dem Bediener bekannt ist und die die Synthese des DNS-Verlaufs in entgegengesetzten Richtungen begründet und so eine Erweiterung des DNS-Segments der unbekannten Sequenz bewirkt. Das Produkt dieser Reaktion wird somit zwei endende Segmente der dem Bediener bekannten DNS-Sequenz enthalten (als Supra beschrieben, sowie ein internes DNS-Segment mit unbekannter Sequenz). Dieses erweiterte DNS-Molekül ist als erfasster Amplimer bekannt.
Der erfasste Amplimer wird in dem Bereich, dessen Sequenz dem Bediener unbekannt ist, auf seine Nukleotid-Zusammensetzung untersucht. Dies kann auf jede der verschiedenen Methoden erfolgen, die den dafür geschulten Experten bekannt sind. Wichtig für die Erfindung ist, dass die Bestimmung der Zusammensetzung der Sequenz nicht komplett erfolgen muss, sondern eher als Segment, um die Identifizierung seines Ursprungs durch Vergleich mit einer Sequenzdatenbank bekanntem Inhalts, wie z.B. GENBANK, zu ermöglichen.
Die Region des Captured Amplimers, die die Sequenz für den Vergleich enthält, ist als erfasste Sequenz bekannt. Ein Vergleich der erfassten Sequenz mit einer Datenbank kann durch jede beliebige, unter Fachexperten bekannte Art und Weise erfolgen, in diesem Beispiel mittels BLAST-Analyse.
Sortierung von Zellen auf der Basis von Expressionsspiegeln von Marker-Peptiden
Zellen, die eine Expression des Markers aufweisen, werden dann sortiert und vorzugsweise mengenmäßig nach ihrem Expressionsspiegel bestimmt, um ein Expressionsprofil für einen bestimmten Zelltyp zu generieren. Die Sortierung oder Trennung der Zellen kann durch jede beliebige Methode erfolgen, die eine Separation und vorzugsweise Quantifizierung auf der Basis der Expression der Markersequenz ermöglicht. Dies ist u.a. mittels Fluoreszenzaktivierung, auf mechanische Weise oder basierend auf der Ladung oder Dichtigkeit möglich.
Als bevorzugte Sortierungsmethode wird z.B. auch die Durchflusszytometrie verwendet. Bei der Durchflusszytometrie versucht man, die komplexe Integration von optischen, flüssigen und elektronischen Komponenten zu nutzen, um fluoreszenzaktivierte Zellsortierer (FACS) zu entwickeln, die eine schnelle Abfrage von Zellen ermöglichen, die brauchbare Fluoreszenzmarker in Echtzeit enthalten.
Marker, die mithilfe dieser Methode sortiert werden können, sind u.a. Protein an der Zelloberfläche, Lipid, Lipoprotein, Glykolipid und Glykoprotein-Targets, die durch Verwendung von markierten Antikörpern mit spezifischen Fluoreszenzwirkstoffen markiert werden können, eine direkte chemische Bindung und/oder eine Kombination aus direkter und indirekter Markierung.
Eine Alternative dazu wäre die Verwendung hochsensitiver/hochdichter Plattenleser zur Erkennung chemoluminiszenter Signale (Bereich 1 × 10^–18 M bis 1 × 10^–21 M) oder es kann, mit gleichzeitig reduzierter Sensitivität, eine Plattenlesertechnologie zur Messung des Absorptionsvermögens enzymbasierter Chromophoren verwendet werden. Eine andere Methode zur Sortierung von Zellen mit ähnlicher Geschwindigkeit wie die von herkömmlichen FACS kann angewendet werden, wenn die elektrischen Ladeplatten durch Hochleistungselektromagneten ersetzt werden, die eine magnetbasierte Separation ermöglichen. Alternativ hierzu ist mithilfe der konfokalen Mikroskopie eine erhöhte Sensitivität möglich; der Durchsatz reduziert sich dabei jedoch signifikant.
Bei einer bevorzugten Ausführungsform ist das Assay-Marker-Peptid ein natürlich-fluoreszierendes Proteinfusionsprodukt, das, ohne darauf beschränkt zu sein, das humanisierte, grünfluoreszierende Protein Renilla Reniformis (hrGFP) mit FACS-Separation einschließt. Beispiele von ungeklonten GFP-Molekülen, die für die Praxis der Erfindung nützlich sind, wurden bei Cormier, M. J., Hori, K. und Anderson, J. M. (1974) Bioluminescence in Coelenterates. Biochim. Biophys. Acta 346: 137–164 zitiert. In Fällen, bei denen die Stärke des Fluoreszenzsignals der markierten Fusionsproteine für eine brauchbare Verwendung unzureichend ist, können die Zellen erneut mit enzymmarkierter Fluoreszenz untersucht werden.
In einer weiteren Ausführungsform können ELISA und Western Blotting verwendet werden, um Korrelationskurven herzustellen, die die Genauigkeit der Proteinschätzungen erhöhen. Alternativ dazu können RIA und/oder Immunpräzipitationen zur Herstellung von Standard-Korrelationskurven des Target-Proteininhalts verwendet werden. Vorzugsweise wird ein konsistenter standardisierter und kalibrierter Satz von Beads mit einer bekannten Anzahl Moleküle Fluoreszenzprotein entwickelt, das pro Bead gebunden wird. Diese Standard-Beads ermöglichen eine Korrelation der Fluoreszenzintensität zur Äquivalenz der löslichen Fluoreszenzmoleküle (molecules equivalent soluble fluorescence oder MESF).
In einer weiteren, optionalen Ausführungsform umfasst das Expressionskonstrukt ein Polynukleotid mit einem negativen oder positiven Auswahlprotein zur Anreicherung der Population vor der Sortierung. Die Verwendung der negativen oder positiven Auswahl eliminiert, z.B. über antibiotischen Widerstand, aus der Population alle Zellen, die kein Polynukleotid integrieren. So ergeben sich angereicherte Populationen von Targetzellen, um jegliche damit zusammenhängende Ineffizienzen aufgrund von "Gene Trapping" (zufällige Mutierung von Genen) von genomischen Steuerelementen zu vermeiden. Die Anreicherung von Zellen mit zufällig mutierten Genen ("gene trapped cells") umfasst die Verwendung der Arzneimittelauswahl (z.B. neo^r, puro^r, hygro^r, zeo^r HAT^r u.s.w.), Affinitätstrennungen, die folgendes umfassen sollen, jedoch nicht darauf beschränkt sind: {Ab/Ag oder Ab/hapten, Biotin/Streptavidin, Glutathion S-Transferase (GST) Fusionsproteine, Polyhistamin-Fusionsproteine (Invitrogen), Calmodulin-bindende Peptid-Tags (Stratagen), c-myc Epitope-Tag (Peptid-Seq. EQKLISEEDL) (Stratagen), FLAG Epitope-Tag (Peptid-Seq. DYKDDDDK) (Stratagen), V5-Epitop (Stratagen), die Linx^TM-Technologie {phenyldiboronische Säure [PDBA] und salicylhydroxamische Säure [SHA]} (Invitrogen), Adhäsion, Adhäsionsblockierung, Chemotaxis, Chemotaxisblockierung u.s.w.}, und/oder die Anreicherung von FACS mittels fluoreszierendem Ab, fluoreszierendem Ag, fluoreszierenden Substraten oder nicht-fluoreszierenden Substraten, die nach enzymatischer Spaltung/Aktivierung fluoreszierend werden (eine vollständige Auflistung der für unsere Anwendungen üblichen fluoreszierenden Proben kann in folgenden Quellen nachgelesen werden: Shapiro, H. M., Practical Flow Cytometry, Dritte Ausgabe, Wiley-Liss (1994), Robinson, J. P., Handbook of Flow Cytometry Methods, Wiley-Liss (1993); Ormerod, M. G., Flow Cytometry: A Practical Approach, Zweite Ausgabe, IRL Press (1994); Robinson, J. P., Current Protocols in Cytometry, John Wiley & Sons (2000).
Alternativ dazu können einige Anwendungen eine Zelldepletion verwenden, die zur Ermöglichung einer feineren Fraktionierung der Zellen eine sehr hohe Proteinexpression zeigen und eine niedrigere Expression der Marker-Peptide belegen ((d.h. negative Selektion {einschließlich HSV tk/GCV, ohne jedoch darauf beschränkt zu sein}. Diese negative Selektion kann vor oder nach einem positiven Selektionsprozess angewendet werden.
Gemäß der Erfindung werden die Populationen der Marker-Peptid("Gene Trapping")-Zellen basierend auf der Verteilung der Anzahl der Zellen und der relativen Fluoreszenzintensität nach FACS in verschiedene Expressionsstufen sortiert. Die Zellen, die entweder lebend oder in Konservierungsmittel fixiert sind (z.B. Paraformaldehyd), werden dann auf Basis der durchschnittlichen Fluoreszenzintensität in Gruppen sortiert. Der Prozess ist gleichermaßen effizient mit tot-fixierten und nicht-fixierten Zellen oder mit Zellen, die permeabilisiert und mit fluoreszenzmarkiertem Ab oder zur Erhöhung der Sensitivität mit enzymmarkierten Fluoreszenzproben untersucht wurden. Cytometry 23, 46 (1996); J Histochem Cytochem 43, 77 (1995).
Sobald der Sortierungsprozess abgeschlossen ist, können DNS, RNS und/oder Gesamtprotein extrahiert und einer Down Stream-Ampflifikation und/oder Analyse unterzogen werden (die lebenden Zellen können jedoch, falls erforderlich, zur weiteren Amplifikation auch in die Kultur zurückgegeben werden).
Erfassung von Sequenz-Tag-Daten und Reporting
Sobald die Proteinspiegel heraussepariert sind, wird das Protein mit einem bestimmten genomischen Locus assoziiert. Dies erreicht man durch die Definition der flankierenden Sequenzen um die Integrationsstelle der marker-peptid expressierenden, retroviralen Vektoren (z.B. molekularer DNS-Barcode), nachdem die Zellen von FACS abgerufen wurden, und einem von den relativen Fluoreszintensitäten der Zellen abgeleiteten relativen Proteinexpressionsniveau.
Auf die Fraktionierung der gesamten Zellpopulation (mit messbaren Marker-Protein-Expressionsspiegeln) in Unterpopulationen von Zellen (wobei jede Unterpopulation aus Zellen mit ähnlichen Marker-Protein-Expressionsspiegeln besteht) folgt eine Analyse der Integrationsstellen innerhalb der Zellen einer Unterpopulation. Nachdem die Integrationsstellen identifiziert (und mit einem genetischen Locus korreliert) wurden, wird ihnen als Messwert der relativen Expression der durchschnittliche Marker-Proteinspiegel der Unterpopulation zugeordnet. Mit Abschluss dieser Vorgehensweise wurde allen analysierten Integrationsstellen/-genen ein relatives Proteinexpressionsniveau zugeordnet.
Zur Veranschaulichung dieses Beispiels beschreiben wir eine Methode zur Erfassung der Daten, die für die Zuordnung der Integrationsstellen zu spezifischen Genen und für die durchschnittlichen Marker-Protein-Expressionsspiegel erforderlich sind. Sie schließt unten aufgeführte Beispiele ein, ist jedoch nicht darauf beschränkt:
A. Methode zur Erfassung von Sequenz-Tag-Daten und Reporting System (STARS) (16):
Wiederherstellung von genetischem Material von den zu analysierenden Zellen, in diesem Beispiel zelluläre DNS (einschließlich zelluläre DNS, ohne darauf beschränkt zu sein, da von zellulärer RNS [cDNA] stammende, komplementäre DNS verwendet werden kann), dessen Zusammensetzung dem Bediener wegen des Einschlusses der das Marker-Peptid enkodierenden Sequenzen teilweise bekannt ist. Der die eingefügte Sequenz enthaltende genetische Locus (oder Genort, der die eingefügten Marker-Gen-Sequenzen enthaltende RNA produziert) ist als markiertes Gen ("tagged gene") bekannt.
Eine Methode der Spaltung der besagten zellulären DNS, sodass diese eingefügte DNS (mit der dem Bediener bekannten Sequenz) einmal gespalten wird und die flankierende, unbekannte Sequenz nochmals in den des eingefügten DNS-Stücks benachbarten Regionen gespalten wird. Die Spaltung der DNS erfolgt auf eine Art und Weise, dass Enden erzeugt werden, die die Zirkulierung von DNS-Fragmenten erlauben und ein Molekül produzieren, dass eine dem Bediener bekannte Sequenz aufweist und beide Seiten flankiert und mit einer variablen Länge von zellulärer DNS einer unbekannten Sequenz verläuft.
Bei der Amplifikation der unbekannten Sequenzen werden Primers verwendet, die aus von dieser dem Bediener bekannten Sequenz (Teil des Expressionsvektors) gezeichneten Sequenzen bestehen – in diesem Beispiel durch Polymerase-Kettenreaktion (einschließlich, aber nicht darauf beschränkt, da auch andere Mittel als RNS-Moleküle zur Erweiterung der Sequenzen verwendet werden können). Diese Primer werden selektiert, um sich an das oben beschriebene, zirkulierende Produkt zu binden, und zwar in denjenigen Regionen der DNS, deren Sequenz dem Bediener bekannt ist und die die Synthese des DNS-Verlaufs in entgegengesetzten Richtungen begründet und so eine Erweiterung des DNS-Segments der unbekannten Sequenz bewirkt. Das Produkt dieser Reaktion wird somit zwei endende Segmente der dem Bediener bekannten DNS-Sequenz enthalten (als Supra beschrieben, sowie ein internes DNS-Segment mit unbekannter Sequenz). Dieses erweiterte DNS-Molekül ist als erfasster Amplimer bekannt.
Der erfasste Amplimer wird in der Region, dessen Sequenz dem Bediener unbekannt ist, auf seine Nukleotid-Zusammensetzung untersucht. Dies kann auf jede der verschiedenen Methoden erfolgen, die den dafür geschulten Experten bekannt sind. Wichtig für die Erfindung ist, dass die Bestimmung der Zusammensetzung der Sequenz nicht komplett erfolgen muss, sondern eher als Segment, um die Identifizierung seines Ursprungs durch Vergleich mit einer Sequenzdatenbank bekanntem Inhalts, wie z.B. GENBANK, zu ermöglichen.
Die Region des Captured Amplimers, die die Sequenz für den Vergleich enthält, ist als erfasste Sequenz bekannt. Ein Vergleich der erfassten Sequenz mit einer Datenbank kann durch jede beliebige, unter Fachexperten bekannte Art und Weise erfolgen, in diesem Beispiel mittels BLAST-Analyse. Derjenige Teil der erfassten Sequenz, der mit der Sequenz der genetischen Loci abgeglichen werden kann, die in der etablierten Datenbank enthalten ist, wird als Sequenz-Tag bezeichnet.
Sobald der Sequenz-Tag erfasst ist und mit der entsprechenden genetischen Locus-Information registriert ist und ihm ein durchschnittlicher Marker-Protein-Expressionswert zugewiesen wurde, kann er zur Korrelierung mit einem Referenzzelltyp verwendet werden. Auf diese Weise erfolgt die Identifikation eines potentiellen Arzneimittel-Target oder eines Diagnoseindikators eines Krankheitsstatus oder anderer diagnostizierbarer Unterschiede zwischen zwei Zelltypen.
B. Serielle Analyse viraler Integration (SAVI)
Zur Korrelation der Proteinexpression beinhalten die Daten zu einem Locus eine SAVI (17). Das Verfahren der seriellen Analyse der viralen Integration (SAVI) umfasst Folgendes: Wiederherstellung von genetischem Material von den zu analysierenden Zellen; in diesem Beispiel komplementäre DNS zur zellulären mRNS (einschließlich, ohne darauf beschränkt zu sein, da auch ein Äquivalent von zellulärer DNS, abgeleitet von nuklärer RNS, verwendet werden kann), dessen Zusammensetzung dem Bediener wegen des Einschlusses der das Marker-Peptid enkodierenden Sequenzen teilweise bekannt ist. Der die eingefügte Sequenz enthaltende genetische Locus (oder Genort, der die eingefügten Marker-Gen-Sequenzen enthaltende RNA produziert) ist als markiertes Gen ("tagged gene") bekannt.
Für dieses Verfahren wird ein Restriktionsenzym verwendet, das innerhalb eines Endes des Expressionskonstrukts an einer bekannten Stelle einen Schnitt bewirkt. Auf diese Weise wird die c DNS gespalten, sodass die eingefügte Marker-DNS (mit der dem Bediener bekannten Sequenz) erkannt wird und die flankierende c DNS von unbekannter Sequenz von einem Enzym an einer Stelle mit festgelegtem Abstand von der dem Bediener bekannten Sequenz gespalten und von dem Restriktionsenzym erkannt wird (innerhalb der Regionen, die in Nähe des eingefügten DNS-Stücks liegen). Die Spaltung der DNS erfolgt auf eine Weise, bei der Enden erzeugt werden, die die Bindung mehrerer Längen von DNS-Fragmenten ermöglichen, die alle von einem identischen Ausgangspunkt starten und ein verbundenes Molekül produzieren, das sich aus Einheiten aus der dem Bediener bekannten Sequenz zusammensetzt, und an die kurze Länge des c DNS (oder zelluläre DNS) anschließt, deren Sequenz unbekannt ist. Jede der Einheiten ist als erfasste Integrationsstelle bekannt. Concatamer, die aus mehreren Einheiten zusammengesetzt sind, werden als serielle Integrationsstellen-Polymere bezeichnet.
Serielle Integrationstellen-Polymere werden durch alle verschiedenen Methoden sequenziert, die in Fachkreisen bekannt sind. So ist beispielsweise ihre Klonung in entsprechende bakterielle Plasmid-Hosts möglich, wie pCR2.1 (Invitrogen), sie können erweitert und Plasmid-DNS isoliert und sequenziert werden durch jede der verschiedenen Methoden, einschließlich PCR-Kettenendung, Sanger-Methoden oder die von Maxam und Gilbert.
Die erzielte Sequenz wird durch Segmentierung in definierten Längen analysiert (etabliert durch die Spezifitäten der vorher verwendeten Enzyme und bekannt als "erfasste virale Integrationssequenz" (captured viral integration sequence). Ein Vergleich der erfassten Sequenz mit einer Datenbank kann durch jede beliebige, in Fachkreisen bekannte Art und Weise erfolgen, in diesem Beispiel mittels BLAST-Analyse. Derjenige Teil der erfassten Sequenz, der mit der Sequenz der genetischen Loci abgeglichen werden kann, die in der etablierten Datenbank enthalten ist, wird als „erfasster SAVI-Sequenz-Tag" (captured SAVI sequence tag) bezeichnet.
Der "erfasste SAVI-Sequenz-Tag" wird dann mit dem genetischen Locus und dem durchschnittlichen Marker-Protein-Expressionswert gekennzeichnet und dann als "SAVI-Sequenz-Tag" bezeichnet. Diese Information kann so verwendet werden, wie oben bereits beschrieben.
Die Anwendung dieser Technologien liefert mehrere wichtige Arten von Information. Erstens, die Möglichkeit der Erzeugung von "Captured Amplimers" (von genomischer DNS als auch von cDNA), die Sequenzen von Hostzellen-DNS enthalten, die an den Virus angrenzen, Daten, mit denen bestimmt werden könnte, ob die karzinogene Wirkung des Virus auf insertionale Mutagenesis zurückzuführen ist oder, was warscheinlicher ist, auf die Expression der viralen Gene. Diese Information könnte besonders bei der Aufstellung von Arzneimittelverordnungen zur Blockierung der Expression viraler Gene oder zur Blockierung spezifischer Änderungen in der zellulären Genexpression relevant sein, die aus einer ortsspezifischen HPV-Integration resultiert.
Vielleicht noch wichtiger ist die Möglichkeit der Bestimmung, mit welcher Häufigkeit an welchen bestimmten Stellen eine virale Integration aufgetreten ist, welches Informationen über die Klonalität von analysierten Läsionen liefert, möglicherweise sogar von Proben wie z.B. von Abstrichen. Dies ist wichtig, da das Vorhandensein von klonalen Zellpopulationen, die die integrierten viralen transformierenden Gene expressieren, mit der Entwicklung von Krebs beim Menschen korrelieren können (wie bei Versuchen mit Nagetieren beobachtet).
Ähnlich sind auch die Merkmale von bronchovesikulären Karzinomen beim Menschen den durch ein virales Pathogen verursachten Tumoren bei Schafen (Jaagsiekte-Virus) auffallend ähnlich, obwohl bislang kein ursächlicher Krankheitserreger identifiziert werden konnte. Die Anwendung von Methoden der Erfindung in Kombination mit der Ausarbeitung von EST-Bibliotheken von bronchovesikulären Karzinomen und umgebendem normalem Gewebe bei Patienten, die an der Krankheit leiden, könnte Informationen über den verursachenden Krankheitserreger beim Menschen liefern und brauchbare Diagnose- oder Prognose-Marker zur Verfügung stellen. Neben diesen klinischen Anwendungen können diese Datenerfassung- und Reporting-Systeme auch für das Studium des Mechanismus des alternativen Splicing und von auf alternative Splicing-Art regulierte Genexpressionen verwendet werden. Die transkriptionalen Genspiegel können auch digitalisiert und mit der Frequenz der erfassten Gene dargestellt werden. Das Produkt dieser erfassten Gen-Tags wird dann für Proben zur Hybridisierung eines DNS-Mikroarrays für eine Datenvalidierung verwendet.
BIOINFORMATIK
In einer optimalen Ausführung werden die Sequenztags und deren begleitende fluorescence/Boten-RNS Spiegel als Eingabe verwendet. Diese Daten werden gleichzeitig mit öffentlich und privat zugänglichen Daten analysiert.
Die resultierenden Daten können in eine eigene Datenbank importiert werden, oder direkt für schnellen Vergleich und Schablonenanpassung ausgewertet werden. Diese Maßnahmen werden eine große Bandbreite an Information erzielen, inklusive aber nicht beschränkt auf pharmakogenetische Targets, Pathway und metabolische Analyse, Vergleich von Protein-Expression zwischen und innerhalb von Arten, Organismen und Zellstadien.
Für den Zweck dieser Anwendung wird der Begriff genetischer Lokus verwendet, um eine bestimmte Position zu bestimmen innerhalb des Kontextes eines Genoms und impiliziert nicht die komplette Transkriptions- oder Regulationseinheit, sondern bezieht sich auf eine spezifische Sequenz, die alle oder Teile von solchen funktionalen Einheiten oder Positionen beinhalten kann.
Für den Zweck dieser Anwendung bezieht sich Markerprotein-Konzentration auf die Ansammlung von spezifischen individuellen Proteingruppierungen, die sich aus Phosphorilierung, Acetylierung oder anderen strukturellen Veränderungen ergeben, die funktionale Stadien beeinflussen (z.b., Dimerisation contra Monomer) zusätzlich zu jedem angenommenen unverändertem Peptid, die sich aus der Translation von Boten-RNS ergeben.
Datenaggregationsprozess:
Die bevorzugte Ausführung des Aggregationsprozesses besteht aus vier Schritten. Dies Schritte sind: 1) Angleichung des Tags an die entsprechende Protein-Sequenz, 2) Die Verbindung von einer Konzentration oder Zählungslevels mit dem Tag, der von den Daten gewonnen wird, die im FACS Modul gemessen wurden, 3) Kombination von allen verfügbaren Tag Preotinspiegeldaten für jeden genetischen Lokus, um zu einem composite Wert zu gelangen für den entsprechenden genetischen Lokus, 4) Erstellung von Tabellen, in denen die Infromation für jedes Tag und die composite information für jeden genetischen Lokus dargestellt wird. Schritte eins und zwei sind abfolgeunabhängig, d.h. Schritt zwei kann vor Schritt eins erfolgen ohne den Prozess zu beinträchtigen.
Implementierung von Schritt eins beginnt mit dem Erhalt der Sequenz-Tags (eine DNS Sequenz mit veränderliche Länge, die normalerweise zwischen 16–25 Basen lang ist) und verbundenen Markerprotein-Konzentrationsdaten (in diesem Beispiel, aber nicht beschränkt auf FACS-abgeleitete Daten). Jeder Tag wird mit einer Datenbank verglichen, die Sequenzinformation über das Protein im Organismus der Wahl enthält. Es gibt viele mögliche Methoden für diesen Vergleich. Möglichen Methoden können sein, sind aber nicht beschränkt auf: Hash-Code Algorithmen, dynamische Programmierung von Alignment Algorithmen (wie Smith-Waterman und Needleman-Wunsch Alignment Algorithmen), Suffix-Trees und -Arrays, invertierte Listen und kombinierte Vorgehensweisen (wie BLAST (Kombination von Hash-Code und dynamischer Programmierung)) wie auch jeder andere String-Alignment-Algorithmus.
Die Datenbank kann aus kommentierten oder nicht kommentierten Genomsequenzen bestehen, die in Zellen als RNS Ausdruck finden (unabhängig von ihrer Translation in Protein, z.b., snRNS, scRNSs, RNSs mit katalytischen Aktivitäten usw.), c DNS Genbanken, EST Genbanken, Protein-Seuquenz Genbanken (inklusive DNS Sequenzen (mit oder ohne intronischen oder exonischen Sequenzen) und Aminosäure-Sequenzen (inklusive primäre, sekundäre und/oder tertiäre Strukturinformation)). Bespiele für solche Datenbanken beinhalten die öffentlich zugängige EST und Genomdatenbanken. Das Endergebnis Angleichungsschrittes ist, dass jeder Tag mit einer genetischen Einheit assoziiert wird (inklusive Untereinheiten davon wie spezifisches Intron oder Exon innerhalb einer Transkriptionseinheit) oder als unbekannt markiert wird, so dass es erneut durchlaufen lassen werden kann, sobald mehr Information über Proteome/Transkription bekannt wird.
In Schritt zwei hat jeder Tag angegliederte Daten, die verwendet werden können, um einen quantitative/n Wert/e (Markerprotein-Konzentration) für jeden einzelnen Tag abzuleiten. Die Ableitung dieses quantitativen Wertes besteht aus der Anwendung einer Formel (vorher im Prozess abgeleitet) auf den cruden Lumineszenz-Spiegel.
Schritt drei besteht daraus, die individuellen Tag-Markerprotein-Konzentrationsspiegel für jeden einzelnen genetischen Lokus zu nehmen und miteinander zu kombinieren, um zusammengesetzte/n Wert/e für den genetischen Lokus und die eng verwandten Loki (z.b., andere Intronen oder Exonen) innerhalb einer Transkriptionseinheit zu erstellen. (Mit diesem Wert können verschiedene statistische Daten verbunden werden, inklusive aber nicht beschränkt auf, Mittelwerte, Varianzen.) Die so erhaltenen Daten stellen ein statistisches Profil der Protein Konzentration dar, abhängig von den Eigenschaften der untersuchten Zellen (z.b., Marker-Protein-Stabilität, Transport, zelluläre Autofluoreszenz usw.). Der Ableitungsprozess wird für jeden Organismus optimiert. Diese Optimierung kann eine große Bandbreite an Methoden einbinden, inklusive, aber nicht beschränkt auf, Vergleich der Marker-Protein-Konzentration einzelner Tags (in diesem Beispiel FACS-abgeleitet aber nicht beschränkt auf, z.b. Eisenkonjugat und electromagnetisch fraktioniert) mit Proteinspiegeln, wie gemessen mit anderen empirischen Methoden (z.b., ELISA, NMR, 2-D Gel-Elektrophorese) und die Anwendung von allgmeinem biologischem Wissen über Proteinstruktur und -regulierung. Diese verschiedenen Methoden ermöglichen die Bestimmung der Genauigkeit der Tags von verschiedenen Bereichen der Proteine auf einem Proteom-weiten Spiegel sowie auch auf einem detailliertenen Level (z.b. Proteinfamilien, Superfamilien, Proteinen mit jeglicher signifikanten Homologie und einzelne Proteine). Den Transkriptionseinheiten, die keine Translationsprodukte produzieren, können Marker-Protein-Konzentrationswerte von Null zugeordnet werden. Obwohl diese genetischen Loki nicht von Nutzen sind für die Bestimmung von direkter Protein/genetischem Lokus Wechselbeziehung, können integrative Studien ermittelen, ob Expression dieser Transkriptionen mit Veränderungen an der Expressions-Schablonen in Zusammenhang stehen an anderen Loki und/oder teilhaben an einem globaleren Regulationsphänomen wie Veränderungen in der Auswahl von alternativen Splice-Sites, Polyadenylation-Sites, cytoplasmic Transport/Stabilitäts-Eigenschaften, Ribosombindung und andere translationale Ereignisse usw.)
Schritt vier besteht aus dem Eintragen der gesamten Eingaben und folglich abgeleiteter Information in Tabellen, die sich für weitere detaillierte Analyse eignen oder die Eingabe in eine Datenbank. Die enstandenn Tabellen sind relational um die Anwendungn von Analysetools zu unterstützen, inklusive aber nicht beschränkt auf solche, die in Standard OLAP Anwendungen gefunden werden, Ablauforganisation, Optimalplanung, künstliche Intelligenz, Prognoseverfahren, Anhäufung, genetische Netzwerk-Inferenz und Pathway-Analyse. Beispiele solcher Datenanalyseverfahren beinhalten, sind aber nicht beschränkt auf phylogenetische Tree-Konstruktion, K-Means Anhäufung, Erwartungsmaximierung, Self-organizing Maps, Support Vector Machines, verschiedene Public-Domain Algorithmen sowie auch mathematische/statistische Modelle wie Boolean Netzwerke, Anwendung von Differentialgleichungen sowie stochastische und hybride Petri-Netze.
BEISPIEL 1
Resultate und Beschreibungen von Vektoren
Ein polynukleotid-menschliches γ-globin Intron #2 vor einem humanisierten Rellina Green Fluorescence Protein (hrGFP), um sicherzustellen, dass das hrGFP in Exone von Trapped-Genen gespleisst werden kann (4–6). Dieses SA-hrGFP wurde dann in einen retroviralen Vektor eingefügt mit antisense Ausrichtung um Beeinflussung der Transkriptionsfunktion von 5' LTR zu vermeiden, des weiteren, das 3' LTR dieses retroviralen Vektors wurde geändert mit einer Beseitigung des U3 Bereiches. Die Duplizierung dieser Beseitigung bei 3' LTR in 5' LTR während entgegengesetzer Transkription sperrt die 5' LTR Promotor-Funktion. Daher kann dieser Vektor ein Selbst-Inaktivierungs (SIN) Vektor werden. Für die Titer-Analyser und um die Anwesenheit von GT Vektor in retrovial transduzierten (infizierten) Zellen sicherzustellen, wurde ein G418 Selektions-Merker-Gen (NeoR), gesteuert von einem Human-cytomegalovirus intermediate-early (CMV IE) Promotor, in den Vektor eingefügt, nach dem hrGFP gefolgt von einem Rinderwachstumshormon-Polyadenylation-Signal (BGH pA). Diese Gene und funktionalen Signale wurden in umgekehrter Ausrichtung zu LTRs konstruiert. Die Gen-Expression des hrGFP kann nur dann auftreten, wenn dieser Vektor in den Abwärtsstrom eines zellulären Promotors integriert wurde.
Wir konnten erfolgreiches Gen-Trapping mit unseren GT Vektoren in murinen Fibroblasten, NIH3T3 (11 und 12) und PA317 Zellen (8), menschlichen Lungenkrebszellen (10) zeigen. Fluoreszenz-aktivierte Zellsortierung (FACS) wurde eingesetzt, um die gen-trapped Population zu trennen, die grüne Fluoreszenz nach 488 mm UV-Lichtbestrahlung aufweist. Die Anreicherung dieser Gen-trapping Ereignisse wurde durch eine Zellsortierungs-Maschine geleistet (Altra Cell Sorter, Beckman Courter Co, Miami FL, USA) und zeigten, dass 95% der Zellpopulation (8) fluoreszenz-positiv und gen-trapped waren, da die hrGFP-Expression nur auftreten kann, nachdem dieses hrGFP-Gen in den Abwärtsstrom eines zellulären Promotors integriert wurde. Des weiteren sollten, in der Theorie, diese hrGFP ein Fusionsprotein sein mit einem zellulären Protein im Rahmen nachdem Spleissen bei zellulären Exonen und hrGFP gleichzeitig aufgetreten ist. Diese Hypothese des Spleissen und Fusionsproteins wurde durch ein Konstrukt veranschaulicht pGT5Z (6), welches ein Zeocin-Resistenz-Protein bei hrGFP anwendet nach dem Spleissen und der Translation (7). RNS Transkriptionen des hrGFP in einer Gen-trapped Population wurden ebenfalls mit der RT-PCR-Methode nachgewiesen (9). Diese Ergebnisse demonstrieren, dass Gen-trapping Ereignisse auf einem translationalen Level durch FACS und auf transkriptionslevel durch RT-PCR Analyse in diesem Experiment beobachtet werden konnten.
Ein wichtiger Aspekt der Erfindung ist die Hochdurchsatz-Plattform, um Gen-trapped Zellen zu sortieren mit FACS, welches 15.000 Zellen/Sekunde sortieren kann. Die Qualität und Stabilität des gefangenen (trapped) Genproduktes, welches zu hrGFP vereinigt wurde und ein hrGFP Fusionsprotein wird, kann durch die Intensitäten des hrGFP in den Zellen mittels FACS Analyse (11 und 12) bestimmt werden. Die Erfindung kann also eingesetzt werden, um die zellulären Proteinspiegel mit Hochdurchsatz zu bestimmen und dabei die meisten Pathways der Gen-Expression nicht berücksichtigen, die durch Ursachen wie Krankheiten, z.B. Krebs, virale Infekte, medikamentöse Behandlung und Gentransfer in Gentherapie oder Gentransferforschung, verändert wurden. Andere Reporter-Gene können eingesetzt werden, um das hrGFP-Gen zu ersetzen, in einem anderen Experiment wurde Nagetier α1,3-Galactosyltransferase-Gen, welches nicht in einer menschlichen Zelle exprimiert wird, angewandt, um zu zeigen, dass durch einfache Plasmid-Transfektion in bis zu 1% der Population (13C) sowie auch durch retrovirale Vektorinfektion (13B) Gen-trapping erreicht werden kann. Die Ergebnisse diese Experiments sind in den 20 und 21 zu sehen.
20 ist eine Darstellung von erfolgreichem Gen-Trapping in pGT5A-transfekten PA317 Zellen. NcoI restriction site am 5' Ende des hrGFP Marker-Gens und einem EcoRI am Oligo-dA Primer wurden als Klonierungs-Sites eingesetzt für Gen-trapped Sequenzen in einen Sequenzierungsvektor, welcher mit NcoI und EcoRI verdaut wurde. Nach BLAST Suche in der Maus-EST-Datenbank in GenBank, die Sequenz, gefangen (trapped) von pGT5A stimmt zu 99% überein mit einem High Mobility Group Protein, HMGI-C, einem Zellkern-Phosphoprotein, das drei kurze DNA-Fixierungs-Domänen (AT-hooks) und einen Highly Acidic C-Terminus enthält.
Das Interesse an diesem Protein wurde kürzlich durch drei Beobachtungen geschürt: die Expression des Gens wird vom Zell-Zyklus reguliert, das Gen wird neu angeordnet in einer Anzahl von Tumoren mesenchymaler Herkunft und Mäuse, bei denen beide HMGI-C Allele gestört sind, weisen den Pygmäen Phänotyp auf. Diese Beobachtungen weisen darauf hin, dass das HMGI-C im Zellwachstum eine Rolle spielt, um genauer zu sein, während des fötalem Wachstums, da das Protein normalerweise nur in Embryonalgewebe exprimiert wird. Es ist wahrscheinlich, dass das HMGI-C Protein als architektonischer Transkriptionsfaktor arbeitet, der die Expression von einem oder mehreren Genen, welche embryonales Zellwachstum steuern, reguliert. Da das HMGI-C sich an eine Minor Groove (kleine Furche) der AT-reichen DNS anbindet, könnte diese Interaktion ein Target sein für Minor Groove chemotherapeutische Stoffe in der Behandlung von Sarkomen, die das neu geordnete Gen exprimieren. Wie man sehen kann, hat die Erfindung erfolgreich ein mögliches Onkogen durch den Nachweis von hohen Translationsspiegeln dieses Genproduktes, der durch hohe Intensität des hrGFP Fusionsproteins in der FACS Analyse angezeigt wird (8), identifiziert.
21 ist eine Darstellung des Gene Trappings eines Exons mit unbekannter biologischer Funktion in pGT5A-transfekten PA317 Zellen. NcoI restriction site am 5' Ende eines hrGFP Marker Gens und eines EcoRI am Oligo-dA Primer wurden eingesetzt als Klonierungs-Sites für Gene-trapped Sequenz in einen sequenzierenden Vektor, der mit NcoI und EcoRI verdaut wurde. Nach einer BLAST Suche in der EST Datenbank in GenBank, weist die Sequenzgefangen (trapped) durch pGT5A eine 95% Übereinstimmung mit einem NCI_CGAP_Li9 Mus musculus c DNS Klon, BF539247.1/BF533319.1/... usw. auf, der in den c DNS Genbanken von Speicheldrüse und Leber gefunden wurden. Wie man sehen kann, hat die Erfindung erfolgreich ein Gen ohne bekannte biologische Funktion, aber mit bekanntem hohen Spiegel von Proteinproduktion, der durch das Fusionsprotein dieses Genproduktes und hrGFP in der FACS Analyse in 8 angezeigt wird, identifiziert. Diese Ergebnisse zeigen, dass diese Erfindung den Translationsspiegel von Genen mit einigen anderen unbekannten oder nicht definierten DNS-Sequenzen in Verbindung bringen kann zur möglichen Entdeckung von Genen oder Targets, welche für Krankheiten oder Krebs verantwortlich sind.

Claims

Verfahren zum Aufklären eines Proteinexpressionsprofils einer Testzellinie oder Gruppe von Zellen, wobei das Verfahren umfaßt: (a) zufälliges Einführen eines promotorfreien Polynukleotidgebildes in das Genom einer Zelle oder einer Gruppe von Zellen, wobei das Gebilde in einer 5'- bis 3'-Orientierung umfaßt: i) eine Spleißakzeptor-Consensus-Sequenz; ii) die komplementäre Sequenz einer Restriktionsenzym-Erkennungssequenz des Typs IIS; iii) eine Oligonukleotidsequenz, die ein analysierbares Markerpeptid codiert; iv) eine Polyadenylierungssequenz; (b) wobei das promotorfreie Polynukleotidgebilde, wenn es in ein aktiv exprimiertes Gen eingeführt wird, zur Erzeugung eines abgeschnittenen Zellenproteins führt, das an seinem C-endständigen abgeschnittenen Ende mit dem Markerpeptid fusioniert ist; und v) Sortieren von Zellen, die das Markerpeptid exprimieren, das mit dem abgeschnittenen Zellenprotein fusioniert ist, in Subpopulationen auf der Basis ihrer differentiellen Expressionsniveaus des Markerpeptids; vi) Bestimmen der Identität der abgeschnittenen Proteine, mit denen das Markerpeptid fusioniert ist, in jeder Gruppe von sortierten Zellen; wodurch das Proteinexpressionsprofil aufgeklärt wird.
Verfahren nach Anspruch 1, wobei die Identität des Proteins, mit dem das Markerpeptid fusioniert ist, unter Verwendung einer seriellen Analyse der viralen Integration (SAVI) bestimmt wird.
Verfahren nach Anspruch 2, wobei die serielle Analyse der viralen Integration (SAVI) durchgeführt wird durch: i) Isolieren von mRNA von jeder Untergruppe von Zellen; ii) Umkehrtranskription der mRNA in doppelsträngige cDNA; iii) Unterziehen der cDNA einem Restriktionsenzym, das die Restriktionsenzym-Erkennungssequenz vom Typ IIS erkennt und die cDNA stromaufwärts von der Erkennungssequenz spaltet, wodurch ein oder mehrere cDNA-Fragmente erzeugt werden, wobei jedes dieser Fragmente die Oligonukleotidsequenz, die einem Stromaufwärtsexon entspricht, das direkt mit dem Markerpeptid fusioniert ist, die Restriktionsenzym-Erkennungssequenz vom Typ IIS und einen Teil einer nativen Sequenz, die dem Peptidmarker entspricht, umfaßt; iv) Hinzufügen einer Adaptersequenz zum Ende der unbekannten Oligonukleotidsequenz; v) Amplifizieren der Fragmente, die die Oligonukleotidsequenzen der Exone, die mit dem Markerpeptid fusioniert sind, enthalten, durch die Polymerasekettenreaktion mit Oligonukleotidprimern, die zu den Adapter- und Peptidmarker-Codierungssequenzen komplementär sind; vi) Klonieren und Sequenzieren der amplifizierten Fragmente; und vii) Vergleichen der Sequenz von jedem Oligonukleotid mit Oligonukleotidsequenzen in einer oder mehreren Nukleotidsequenz-Datenbanken, wodurch ein oder mehrere Fusionsproteine, die in jeder Untergruppe von Zellen vorliegen, identifiziert wird/werden.
Verfahren zum Identifizieren von differentiell exprimierten Proteinen in zwei verschiedenen Populationen von Zellen, wobei das Verfahren umfaßt: zufälliges Einführen eines promotorfreien Polynukleotidgebildes in die Genome einer Bezugsgruppe von Zellen und in die Genome einer Testgruppe von Zellen, wobei das Gebilde in einer 5'- bis 3'-Orientierung umfaßt: i) eine Spleißakzeptor-Consensus-Sequenz; ii) die komplementäre Sequenz einer Restriktionsenzym-Erkennungssequenz vom Typ IIS; iii) eine Oligonukleotidsequenz, die ein analysierbares Markerpeptid codiert; iv) eine Polyadenylierungssequenz; wodurch eine Population von zufällig abgeschnittenen Zellenproteinen erzeugt wird, die an ihrem C-endständigen abgeschnittenen Ende mit dem Markerpeptid fusioniert sind; v) Sortieren beider Gruppen von Zellen in Subpopulationen von Zellen auf der Basis ihrer differentiellen Expressionsniveaus des Markerpeptids; vi) Bestimmen der Identität der Fusionsproteine, die in jeder Untergruppe von sortierten Zellen erzeugt werden; und vii) Vergleichen der Proteinexpressionsprofile, die für die Testgruppe von Zellen erhalten werden, mit den Proteinexpressionsprofilen, die für die Bezugsgruppe von Zellen erhalten werden, durch statistische Verfahren, wodurch Unterschiede in den Expressionsniveaus von Fusionsproteinen unter den zwei Gruppen von Zellen identifiziert werden.
Verfahren nach Anspruch 4, wobei die Identität des Proteins, mit dem das Markerpeptid fusioniert ist, durch SAVI bestimmt wird.
Verfahren nach den Ansprüchen 1–4 oder 5, wobei der den Peptidmarker codierenden Sequenz ein Translationsstartcodon fehlt und sie ein Translations-STOP-Codon besitzt.
Verfahren nach den Ansprüchen 1–4 oder 5, wobei der den Peptidmarker codierenden Sequenz ein Translationsstart- und ein -STOP-Codon fehlt.
Verfahren nach Anspruch 3 oder 5, wobei das Hinzufügen der Adaptersequenz durch Ligation eines doppelsträngigen Adapters durchgeführt wird.
Verfahren nach Anspruch 3 oder 5, wobei das Hinzufügen der Adaptersequenz durch Poly-desoxyribonukleotid-Schwanzverlängerung durchgeführt wird.
Verfahren nach den Ansprüchen 1–4 oder 5, wobei die Auftrennung von Zellen in Subpopulationen von Zellen auf der Basis der Expressionsniveaus des Peptidmarkers durch durch Fluoreszenz aktivierte Zellensortierung durchgeführt wird.
Verfahren nach den Ansprüchen 1–4 oder 5, wobei die Oligonukleotidsequenz eine ein Fluoreszenzprotein codierende Oligonukleotidsequenz ist.
Verfahren nach Anspruch 11, wobei das ein Fluoreszenzprotein codierende Oligonukleotid eine ein grünes Fluoreszenzprotein (GFP) codierende Sequenz ist.
Verfahren nach Anspruch 12, wobei die GFP-Oligonukleotid-Codierungssequenz eine humanisierte Renilla-GFP-(hrGFP)Codierungssequenz ist.
Verfahren nach den Ansprüchen 1–4 oder 5, wobei das Markerpeptid ein Epitop ist, das durch fluoreszent oder enzymatisch markierte Antikörper erkannt wird.
Verfahren nach den Ansprüchen 1–4 oder 5, wobei das Markerpeptid eine Wechselwirkung mit einem anderen Protein erfordert, um ein Fluoreszenzsignal zu erzeugen.
Verfahren nach den Ansprüchen 1–4 oder 5, wobei das Polynukleotidgebilde in das Genom der Zelle über einen Vektor eingeführt wird.
Verfahren nach Anspruch 16, wobei der Vektor ein viraler Vektor ist.
Verfahren nach Anspruch 17, wobei der virale Vektor aus der Gruppe ausgewählt ist, die aus einem retroviralen Vektor, einem lentiviralen Vektor, einem adenoviralen Vektor und einem adenoassoziierten viralen Vektor besteht.
Verfahren nach den Ansprüchen 2, 3 oder 5, wobei nach der Amplifikation des einen oder der mehreren cDNA-Fragmente und vor dem Klonieren und Sequenzieren des einen oder der mehreren cDNA-Fragmente die Fragmente miteinander ligiert werden, um ein verkettetes Molekül zu bilden.
Verfahren nach den Ansprüchen 1–4 oder 5, wobei das Polynukleotidgebilde ferner stromabwärts von dem Oligonukleotid, das ein Markerpeptid codiert, und vor dem Polyadenylierungssignal eine interne Ribosomeneintrittsstelle, gefolgt von einem anderen Proteinexpressionsmarker, umfaßt.
Verfahren nach den Ansprüchen 1–4 oder 5, wobei das Polynukleotidgebilde ferner stromabwärts vom Oligonukleotid mit einer festgelegten Sequenz eine Sequenz umfaßt, die bei der Expression einen auswählbaren Macker codiert.