-
Gebiet der Erfindung
-
Die vorliegende Erfindung betrifft
im Allgemeinen das Gebiet der Genexpression und im Besonderen ein
Verfahren zur Reihenanalyse der Genexpression (SAGE) für die Analyse
einer Vielzahl von Transkripten durch die Herstellung von Doppelmarker-Oligonucleotiden,
die mindestens zwei definierte Nucleotidsequenzmarker umfassen,
wobei die definierten Nucleotidsequenzmarker eine definierte Region
eines Transkripts umfassen, das einer Region des exprimierten Gens
entspricht.
-
Hintergrund der Erfindung
-
Die Bestimmung der genomischen Sequenz
höherer
Organismen, einschließlich
des Menschen, ist jetzt ein reales und erreichbares Ziel. Diese
Analyse stellt jedoch nur eine Ebene der genetischen Komplexizität dar. Die
geordnete und zeitliche Expression von Genen ist eine andere Ebene
der Komplexizität
und für
die Definition und Biologie des Organismus ebenso von Bedeutung.
-
Die Rolle der Sequenzierung von aus
mRNA revers transkribierter komplementärer DNA (cDNA) als Teil des
Humanen Genomprojekts ist in der Weise diskutiert worden, dass Befürworter
der genomischen Sequenzierung die Schwierigkeiten, jede, in all
den Geweben, Zelltypen und Entwicklungssstadien exprimierte mRNA
aufzufinden, darstellten und sie führten aus, dass viele wertvolle
Informationen aus den Intron- und Intergenregionen, einschließlich Kontroll-
und Regulatorsequenzen, durch die cDNA-Sequenzierung nicht gefunden
werden würden
(Report of the Comittee on Mapping and Sequencing the Human Genome,
National Academy Press, Washington, D. C., 1988). Die Sequenzierung transkribierter
Regionen des Genoms unter Verwendung von cDNA-Libraries ist hierfür bislang als unzureichend
angesehen worden. Man nimmt an, dass Libraries für cDNA dominant sind, infolge
repetitiver Elemente, mitochondrialer Gene, ribosomaler RNA-Gene und
anderer nuklearer Gene, die allgemeine oder Housekeeping-Sequenzen
umfassen. Man nimmt an, dass cDNA-Libraries nicht alle Sequenzen bereitstellen,
die den strukturellen und regulatorischen Polypeptiden oder Peptiden
entsprechen (Putney, et al., Nature, 302: 718, 1983).
-
Ein anderer Nachteil der herkömmlichen
cDNA-Klonierung ist, dass manche mRNAs häufig vorkommen, während andere
selten vorkommen. Die zellulären
Mengen an mRNA von verschiedenen Genen können um mehrere Größenordnungen
variieren.
-
Verfahren, die auf der cDNA-Subtraktion
oder dem Differential-Display basieren, können für den Vergleich der Genexpression
zwischen zwei Zelltypen ganz geeignet sein (Hedrick, et al., Nature,
308: 149, 1984; Liang und Pardee, Science, 257: 967, 1992), sie
liefern jedoch nur eine teilweise Analyse, ohne direkte Informationen
bezüglich
der Häufigkeit
von Messenger-RNA. Es ist gezeigt worden, dass das Verfahren des
exprimierten Sequenzmarkers (EST) ein wertvolles Arbeitsmittel in
der Genforschung darstellt (Adams, et al., Science, 252: 1656, 1991;
Adams, et al., Nature, 355: 632, 1992; Okubo, et al., Nature Genetics,
2: 173, 1992), jedoch ähnlich
wie das Northern Blotting, die RNase-Protektion und die Analyse
mittels reverser Transkriptase-Polymerase-Kettenreaktion (RT-PCR)
(Alwine, et al., Proc. Natl. Acad. Sci, U. S. A., 74: 5350, 1977;
Zinn, et al., Cell, 34: 865, 1983; Veres, et al., Science, 237:
415, 1987) bewertet sie nur eine begrenzte Anzahl von Genen zur
gleichen Zeit. Zudem werden in dem EST-Verfahren vorzugsweise Nucleotidsequenzen
von 150 Basenpaaren oder mehr für
die Suche nach Ähnlichkeiten
und die Zuordnung (mapping) angewendet.
-
Sequenz markierte Stellen (STSs)
(Olson, et al., Science, 245: 1434, 1989) sind ebenfalls genutzt
worden, um genomi sche Marker für
die physikalische Zuordnung des Genoms zu identifizieren. Diese
kurzen Sequenzen von physikalisch zugeordneten Klonen stellen eindeutig
identifizierte Stellen in der Zuordnungskarte des Genoms dar. Im
Gegensatz dazu beruht die Identifizierung von exprimierten Genen
auf exprimierten Sequenzmarkern, die Marker für diejenigen Gene sind, die
tatsächlich
in vivo transkribiert und exprimiert werden.
-
Es besteht Bedarf für ein verbessertes
Verfahren, das die schnelle, genaue Analyse von Tausenden von exprimierten
Genen für
die Untersuchung einer Vielzahl biologischer Anwendungen gestattet,
insbesondere zur Untersuchung des Gesamtmusters der Genexpression
in verschiedenen Zelltypen oder in dem gleichen Zelltyp unter verschiedenen
physiologischen oder pathologischen Bedingungen. Die Identifizierung
verschiedener Genexpressionsmuster hat mehrere Anwendungsmöglichkeiten,
einschließlich
der Identifizierung geeigneter therapeutischer Ziele und von Genen,
die Kandidaten für
die Gentherapie (z. B. Genersatz) sein könnten, die Gewebetypisierung,
ale forensische Identifizierung, die Zuordnung der Lokalisation
von Genen, die mit Krankheiten assoziiert sind, und die Identifizierung
von diagnostischen und prognostischen Indikator-Genen.
-
Kurzdarstellung der Erfindung
-
Die vorliegende Erfindung liefert
ein Verfahren zur schnellen Analyse einer Vielzahl von Transkripten, zur
Identifizierung des Gesamtmusters der Genexpression in verschiedenen
Zelltypen oder dem gleichen Zelltyp unter verschiedenen physiologischen,
Entwicklungs- oder Krankheitsbedingungen. Dieses Verfahren basiert
auf der Identifizierung eines kurzen Nucleotidsequenzmarkers an
einer definierten Position in einer Messenger-RNA. Dieser Marker
wird verwendet, um das entsprechende Transkript und das Gen zu identifizieren, von
dem es transkribiert wurde. Durch Verwendung dimerisierter Marker,
die als ein "Doppelmarker" bezeichnet werden,
gestattet es das Verfahren der vorliegenden Erfindung, bestimmte
Typen von Bias zu entfernen, die während der Klonierung und/oder
der Amplifikation und möglicherweise
während
der Auswertung der Daten auftreten können. Die Verknüpfung dieser
kurzen Nucleotidsequenzmarker gestattet die wirksame Analyse von
Transkripten in der Art einer Reihenanalyse, indem multiple Marker
an einem einzelnen DNA-Molekül
sequenziert werden, beispielsweise an einem DNA-Molekül, das in
einen Vektor oder einen einzelnen Klon eingefügt wurde.
-
Das hier beschriebene Verfahren ist
die Reihenanalyse der Genexpression (SAGE), ein neuartiger Ansatz,
der die Analyse einer Vielzahl von Transkripten gestattet. Um diese
Strategie zu veranschaulichen, wurden aus mRNA kurze cDNA-Sequenzmarker erzeugt,
die aus Pankreas isoliert wurde, zufällig unter Bildung von Doppelmarkern
miteinander gepaart, verknüpft
und kloniert. Die manuelle Sequenzierung von 1 000 Markern lieferte
ein Genexpressionsmuster, das für
die Funktion des Pankreas charakteristisch ist. Die Identifizierung
derartiger Muster ist beispielsweise in diagnostischer und therapeutischer
Hinsicht von Bedeutung. Außerdem
wurde die Anwendung der SAGE als ein Arbeitsmittel für die Genforschung
durch die Identifizierung und Isolierung neuer pankreatischer Transkripte,
die den neuartigen Markern entsprechen, dokumentiert. Die SAGE liefert
ein breit anwendbares Mittel für
die quantitative Katalogisierung und den Vergleich der exprimierten
Gene in einer Vielzahl von normalen, entwickelten und Krankheitszuständen.
-
Kurzbeschreibung der Zeichnungen
-
1 zeigt
das Schema der SAGE. In diesem Beispiel ist das erste Enzym, oder
das Verankerungsenzym, NlaIII und zweite Enzym, oder das Markierungsenzym,
ist FokI. Die Sequenzen stellen die Primer abgeleiteten Sequenzen
und Transkript abgeleitete Sequenzen dar, wobei "X" und "O" die Nucleotide der verschiedenen Marker
darstellen.
-
2 zeigt
einen Vergleich der Häufigkeit
der Transkripte. Die Balken stellen die prozentuale Häufigkeit
dar, die mittels SAGE (dunkle Balken) oder Hybridisierungsanalyse
(helle Balken) bestimmt wurde. Die Quantifizierungen mittels SAGE
wurden aus Tabelle 1 wie folgt abgeleitet: TRY1/2 schließt die Marker
für Trypsinogen
1 und 2 ein, PROCAR kennzeichnet die Marker für Procarboxypeptidase A1, CHYMO
kennzeichnet die Marken für
Chymotrypsinogen und ELA/PRO schließt die Marken für Elastase
IIIB und Protease E ein. Die Fehlerbalken kennzeichnen die Standardabweichung,
die bestimmt wurde, indem die Quadratwurzel der gezählten Ereignisse
ermittelt wurde und in eine prozentuale Häufigkeit umgewandelt wurde
(unter Annahme der Poisson-Verteilung).
-
3 zeigt
die Ergebnisse des Screenings einer cDNA-Library mittels SAGE-Marken. P1 und
P2 zeigen typische Ergebnisse einer Hybridisierung, die mit 13 Bp
Oligonucleotiden erhalten wurden, wie in den Beispielen beschrieben.
P1 und P2 entsprechen den in Tabelle 2 beschriebenen Transkripten.
Die Bildgebung wurde durch Anwendung eines Molecular Dynamics PhosphorImagers
erhalten und der Kreis kennzeichnet den äußeren Rand der Filtermembran,
auf die der rekombinante Phage vor der Hybridisierung übertragen
wurde.
-
4 ist
ein Blockdiagramm eines Zugangssystems einer Datenbank für einen
Markercode gemäß der vorliegenden
Erfindung.
-
Beschreibung der bevorzugten
Ausführungsformen
-
Die vorliegende Erfindung liefert
ein schnelles, quantitatives Verfahren zur Bestimmung der Häufigkeit und
Natur von Transkripten, die exprimierten Genen entsprechen. Dieses
Verfahren, bezeichnet als Reihenanalyse der Genexpression (SA-GE), basiert auf
der Identifizierung und Charakterisierung von teilweise definierten
Sequenzen von Transkripten, die Gen-Segmenten entsprechen. Diese definierten
Transkriptsequenzen sind Marker für Gene, die beispielsweise
in einer Zelle, einem Gewebe oder einem Extrakt exprimiert werden.
-
Die SAGE basiert auf mehreren Prinzipien.
Erstens, ein kurzer Nucleotidsequenzmarker (9 bis 10 Bp) enthält ausreichend
Informationen zur eindeutigen Identifizierung eines Transkripts,
vorausgesetzt, es wird aus einer definierten Position innerhalb
des Transkripts isoliert. Eine so kurze Sequenz, wie eine 9 Bp-Sequenz,
kann beispielsweise 262 144 Transkripte (49)
unterscheiden und gibt eine zufällige
Verteilung der Nucleotide an der Markerstelle wieder, wohingegen
Abschätzungen
vermuten lassen, dass das humane Genom etwa 80 000 bis 200 000 Transkripte
codiert (Fields, et al., Nature Genetics, 7: 345, 1994). Die Größe des Markers
kann für
niedere Eukaryoten oder Prokaryoten kürzer sein, beispielsweise dort,
wo die Zahl der durch das Genom codierten Transkripte geringer ist.
Ein so kurzer Marker, wie ein 6–7
Bp-Marker, kann beispielsweise zur Unterscheidung von Transkripten
in Hefen ausreichend sein.
-
Zweitens, die zufällige Dimerisierung von Markern
gestattet ein Verfahren zur Verringerung von Bias (die durch Amplifikation
und/oder Klonierung entstehen). Drittens, die Konkatenation dieser
kurzen Sequenzmarker gestattet die wirksame Analyse von Transkripten
in der Art einer Reihenanalyse, indem multiple Marker innerhalb
eines einzelnen Vektors oder Klons sequenziert werden. Durch die
reihenmäßige Kommunikation von
Computern, in denen die Information als eine kontinuierliche Datenreihe übertragen
wird, erfordert die Reihenanalyse der Markersequenzen ein Mittel
zur Festlegung des Registers und der Grenzen jedes Markers. Dimerisierte
Marker können
mit oder ohne Konkatenation oder in Kombination mit anderen bekannten
Verfahren zur Identifizierung von Sequenzen verwendet werden.
-
Hinsichtlich einer ersten Ausführungsform
liefert die vorliegende Erfindung ein Verfahren zum Nachweis der
Genexpression in einer/einem einzelnen Zelle oder Gewebe oder Zellextrakt,
beispielsweise einschließlich
bei einem einzelnen Entwicklungsstadium oder in einem einzelnen
Krankheitszustand. Das Verfahren umfasst die Herstellung von komplementären Desoxyribonucleinsäure- (cDNA)
-Oligonukleotiden, die Isolierung eines ersten definierten Nucleotidsequenzmarkers
aus einem ersten cDNA-Oligonucleotid und eines zweiten definierten
Nucleotidsequenzmarkers aus einem zweiten cDNA-Oligonucleotid, das
Binden des ersten Markers an einen ersten Oligonucleotid-Linker, wobei der
erste Oligonucleotid-Linker eine erste Sequenz zur Hybridisierung
eines Amplifikationsprimers umfasst, und das Binden des zweiten
Markers an einen zweiten Oligonucleotid-Linker, wobei der zweite
Oligonucleotid-Linker eine zweite Sequenz zur Hybridisierung eines Amplifikationsprimers
umfasst, und die Bestimmung der Nucleotidsequenz des/der Marker(s),
wobei der/die Marker einem exprimierten Gen entspricht/entsprechen.
-
1 ist
die schematische Darstellung der Analyse von Messenger-RNA (mRNA)
mittels SAGE, wie es im Verfahren der vorliegenden Erfindung beschrieben
wird. Die mRNA wird aus einer interessierenden Zelle oder aus interessierendem
Gewebe für
die in vitro-Synthese einer doppelsträngigen DNA-Sequenz durch die reverse
Transkription der mRNA isoliert. Das gebildete doppelsträngige DNA-Komplement
der mRNA wird als komplementär
(cDNA) bezeichnet.
-
Der Begriff "Oligonucleotid" bezeichnet hier Primeroder Oligomer-Fragmente,
die aus zwei oder mehreren Desoxyribonucleotiden oder Ribonucleotiden
bestehen, vorzugsweise aus mehr als drei. Die genaue Größe hängt von
vielen Faktoren ab, die wiederum von der endgültigen Funktion oder Anwendung
der Oligonucleotide abhängen.
-
Das Verfahren schließt des weiteren
das Ligieren des ersten Markers, der an den ersten Oligonucleotid-Linker
gebunden ist, mit dem zweiten Marker, der an den zweiten Oligonucleotid-Linker
gebunden ist, und die Bildung eines "Doppelmarkers" ein. Jeder Doppelmarker stellt zwei
definierte Nucleo tidsequenzen von mindestens einem Transkript dar,
die für
mindestens ein Gen repräsentativ
sind. Typischerweise stellt ein Doppelmarker zwei Transkripte von
zwei unterschiedlichen Genen dar. Die Gegenwart eines definierten
cDNA-Markers innerhalb des Doppelmarkers zeigt die Expression eines
Gen an, das eine Sequenz des Markers aufweist.
-
Die Analyse von Doppelmarkern, die
vor jedem Amplifikationsschritt gebildet werden, liefert ein Mittel zum
Ausschluss potenzieller räumlicher
Störungen,
die durch die Amplifikation, z. B. die PCR, eingeführt werden.
Das Paaren der Marker zur Bildung von Doppelmarkern ist ein zufälliges Ereignis.
Es wird erwartet, dass die Zahl der verschiedenen Marker groß ist, daher
ist die Möglichkeit,
dass zwei Marker im gleichen Doppelmarker miteinander gekuppelt
werden, gering, sogar für
häufige
Transkripte. Daher werden sich wiederholende Marker, die bei den
herkömmlichen,
gebiasten Amplifikationsund/oder Klonierungsverfahren entstehen, durch
das Verfahren der vorliegenden Erfindung ausgeschlossen.
-
Der Begriff "definierte" Nucleotidsequenz, oder "definierter" Nucleotidsequenzmarker
bezeichnet eine Nucleotidsequenz, die entweder von dem 5'- oder dem 3'-Ende eines Transkripts
abgeleitet ist. Die Sequenz wird definiert durch die Spaltung mit
einer ersten Restriktionsendonuclease und stellt Nucleotide des
entweder 5'- oder
3'-Endes der ersten
Restriktionsendonucleasestelle dar, abhängig davon, welches Ende für das Einfangen
verwendet wird (z. B. 3'-Ende,
wenn Oligo-dT zum Einfangen verwendet wird, wie es hier beschrieben wird)
.
-
Die hier verwendeten Begriffe "Restriktionsendonucleasen" oder "Restriktionsenzyme" bezeichnen bakterielle
Enzyme, die an eine spezifische doppelsträngige DNA-Sequenz binden, die
als eine Erkennungsstelle oder Erkennungsnucleotidsequenz bezeichnet
wird, und sie schneiden die doppelsträngige DNA an oder nahe der
spezifischen Erkennungsstelle.
-
Die erste Endonuclease, bezeichnet
als "Verankerungsenzym" oder "AE" in 1, wird anhand seiner Fähigkeit
ausgewählt,
ein Transkript mindestens einmal zu spalten und daher einen definierten
Sequenzmarker, entweder von dem 5'- oder von dem 3'-Ende des Transkripts, zu erzeugen.
Vorzugsweise wird eine Restriktionsendonuclease verwendet, die mindestens
eine Erkennungsstelle aufweist und die daher die Fähigkeit besitzt,
eine Vielzahl von cDNAs zu spalten. Wie hier veranschaulicht, erwartet
man beispielsweise, dass Enzyme, die eine 4 Basenpaare umfassende
Erkennungsstelle besitzen, im Durchschnitt jedes 256. Basenpaar (44) spalten, während die meisten Transkripte
beträchtlich
länger
sind. Restriktionsendonucleasen, die eine 4 Basenpaare umfassende
Stelle erkennen, schließen
NlaIII ein, wie es in den Beispielen der vorliegenden Erfindung
veranschaulicht wird. Andere ähnliche
Endonucleasen, die mindestens eine Erkennungsstelle innerhalb eines
DNA-Moleküls
(z. B. cDNA) besitzen, sind dem Fachmann bekannt (siehe beispielsweise
Current Protocols in Molecular Biology, Bd. 2, 1995, Hrsg. Ausubel,
et al., Greene Publish. Assoc. & Wiley
Interscience, Einheit 3,1,15; New England Biolabs Catalog, 1995).
-
Nach der Spaltung mit dem Verankerungsenzym
kann die 5'- oder
die 3'-nächste Region
der gespaltenen cDNA isoliert werden, indem sie an ein Einfangmedium
gebunden wird. Wie in den Beispielen der vorliegenden Erfindung
veranschaulicht, können
beispielsweise Streptavidin-Kügelchen
verwendet werden, um den definierten 3'-Nucleotidsequenzmarker zu isolieren,
wenn der Oligo-dT-Primer für
die cDNA-Synthese biotinyliert ist. In diesem Beispiel liefert die
Spaltung mit dem ersten oder dem Verankerungsenzym eine eindeutige
Stelle an jedem Transkript, die der Restriktionsstelle entspricht,
die sich am engsten benachbart zu dem Poly-A-Schwanz befindet. Ähnlich kann
für die
Isolierung eines 5'-definierten
Nucleotidsequenzmarkers das 5'-Ende
eines Transkripts (die cDNA) zur Markierung oder Bindung eines einfangenden
Mittels genutzt werden. Der Fachmann wird andere ähnliche
Einfangsysteme (z. B. Bio tin/Streptavidin, Digoxigenin/anti-Digoxigenin)
zur Isolierung des definierten Sequenzmarkers, wie hier beschrieben,
kennen.
-
Die vorliegende Erfindung ist nicht
auf die Verwendung einer einzelnen „verankernden" oder ersten Restriktionsendonuclease
beschränkt.
Es kann erwünscht
sein, das Verfahren der vorliegenden Erfindung aufeinanderfolgend,
unter Verwendung verschiedener Enzyme auf getrennten Proben einer
Präparation
durchzuführen,
um für
eine Zelle oder für
Gewebe ein vollständiges
Transkriptionsmuster zu identifizieren. Zudem bestätigt die
Verwendung von mehr als einem Verankerungsenzym das durch das erste
Verankerungsenzym erhaltene Expressionsmuster. Daher ist es auch
vorgesehen, dass die erste oder die Verankerungsendonuclease selten
cDNA derart schneiden sollte, dass nur wenig oder keine der die
häufigen
Transkripte darstellenden cDNA gespalten wird. Somit stellen die
gespaltenen Transkripte „eindeutige
bzw. einzigartige" Transkripte
dar. Restriktionsenzyme, die beispielsweise eine 7–8 Bp umfassende
Erkennungsstelle aufweisen, sind Enzyme, die selten cDNA schneiden. Ähnlich kann,
wie nachstehend beschrieben, mehr als ein Markierungsenzym verwendet
werden, um ein vollständiges
Transkriptionsmuster zu identifizieren.
-
Der Begriff „isoliert" schließt hier Polynucleotide ein,
die im Wesentlichen frei von anderen Nucleinsäuren, Proteinen, Lipiden, Kohlenhydraten
oder anderen Materialien sind, mit denen sie natürlich assoziiert sind. cDNA
kommt in dieser Weise nicht natürlich
vor, sie wird stattdessen durch die Manipulation einer teilweise gereinigten,
natürlich
vorkommenden mRNA gewonnen. Die Isolierung eines definierten Sequenzmarkers
bezeichnet die Reinigung des 5'-
oder 3'-Markers
aus anderer als aus gespaltener cDNA.
-
In einer Ausführungsform werden die isolierten
definierten Nucleotidsequenzmarker, dann, wenn die Linker verschiedene
Sequenzen aufweisen, in zwei getrennte cDNA-Pools aufgeteilt. Jeder
Pool wird über
die Verankerungs- oder erste Restriktionsendonucleasestelle an einen
der beiden Linker li giert. Besitzen die Linker die gleiche Sequenz,
ist es nicht erforderlich, die Marker in getrennte Pools aufzuteilen.
Der erste Oligonucleotid-Linker umfasst eine erste Sequenz zur Hybridisierung
eines Amplifikationsprimers und der zweite Oligonucleotid-Linker
umfasst eine zweite Sequenz zur Hybridisierung eines Amplifikationsprimers.
Zudem umfassen die Linker des weiteren eine zweite Restriktionsendonucleasestelle,
die auch als das „Markierungsenzym" oder „TE" bezeichnet wird.
Das Verfahren der vorliegenden Erfindung erfordert nicht die Amplifikation
der Doppelmarker-Oligonucleotide nach der Ligierung, umfasst diese
jedoch vorzugsweise.
-
Die zweite Restriktionsendonuclease
spaltet an einer Stelle, die sich von der Erkennungsstelle entfernt befindet
oder außerhalb
dieser liegt. Beispielsweise kann die zweite Restriktionsendonuclease
ein IIS Typ-Erkennungsenzym sein. IIS Typ Restriktionsendonucleasen
spalten in einer definierten Entfernung, die bis zu 20 Bp von ihrer
asymmetrischen Erkennungsstelle entfernt sein kann (Szybalski, W.,
Gene, 40: 169, 1985). Beispiele für die IIS Typ-Restriktionsendonucleasen
schließen
BsmFI und FokI ein. Andere ähnliche
Enzyme werden dem Fachmann bekannt sein (siehe Current Protocols
in Molecular Biology, supra).
-
Die ersten und zweiten „Linker", die an definierte
Nucleotidsequenzmarker ligiert werden, sind Oligonucleotide, die
die gleiche oder verschiedene Nucleotidsequenzen aufweisen. Beispielsweise
schließen
die Linker, die in den Beispielen der vorliegenden Erfindung veranschaulicht
sind, Linker ein, die verschiedene Sequenzen aufweisen:
(SEQ-ID-Nr.: 4), worin A
ein Didesoxynucleotid ist (z. B. Didesoxy-A). Andere ähnliche
Linker können
in dem Verfahren der vorliegenden Erfindung verwendet werden, der
Fachmann kann derartige alternative Linker gestalten.
-
Die Linker werden so gestaltet, dass
die Spaltung der Ligierungsprodukte mit dem zweiten Restriktionsenzym,
oder Markierungsenzym, zur Freisetzung des Linkers führt, der
den definierten Nucleotidsequenzmarker aufweist (z. B. 3'-Ende der Spaltstelle
der Restriktionsendonuclease, wie hier ausgeführt). Der definierte Nucleotidsequenzmarker
kann eine Größe von etwa
6 bis 30 Basenpaare aufweisen. Vorzugsweise kann der Marker eine
Größe von etwa
9 bis 11 Basenpaare aufweisen. Daher beträgt die Größe eines Doppelmarkers etwa
12 bis 60 Basenpaare, vorzugsweise von 18 bis 22 Basenpaare.
-
Der Pool definierter Marker, die
an Linker ligiert sind, welche die gleiche Sequenz aufweisen, oder
die zwei Pools definierter Nucleotidsequenzmarker, die an Linker
ligiert sind, welche verschiedene Nucleotidsequenzen aufweisen,
werden zufällig
miteinander "Schwanz-an-Schwanz" ligiert. Der Teil
des cDNA-Markers, der am weitesten von dem Linker entfernt ist,
wird als der "Schwanz" bezeichnet. Wie
in 1 veranschaulicht, besitzt
das ligierte Markerpaar, oder der Doppelmarker, eine erste Restriktionsendonucleasestelle
upstream (strangaufwärts)
(5') und eine erste
Restriktionsendonucleasestelle downstream (strangabwärts) (3') des Doppelmarkers;
eine zweite Spaltstelle der Restriktionsendonuclease upstream und
downstream des Doppelmarkers, und ein Linker-Oligonucleotid, das sowohl eine zweite
Erkennungsstelle des Restriktionsenzyms und eine Hybridisierungsstelle
des Amplifikationsprimers upstream und downstream des Doppelmarkers
enthält. Mit
anderen Worten, der Doppelmarker wird von der ersten Restriktionsendonucleasestelle,
der zweiten Restriktionsendonucleasestelle bzw. den Linkern begrenzt.
-
Der Doppelmarker kann amplifiziert
werden unter Verwendung von Primern, die spezifisch an einen Strang
jedes Linkers hybridisieren. Vorzugsweise wird die Amplifikation
mittels des herkömmlichen
Polymerase-Kettenreaktions-Verfahrens (PCR), wie beschrieben (
US 4 683 195 ) durchgeführt. Alternativ
können
die Doppelmarker durch Klonierung in Prokaryoten-kompatible Vektoren
oder mittels anderer Amplifikationsverfahren, die dem Fachmann bekannt
sind, hergestellt werden.
-
Der Begriff "Primer" bezeichnet hier ein Oligonucleotid,
entweder ein natürlich
vorkommendes oder ein synthetisch hergestelltes, das in der Lage
ist, als ein Startpunkt der Synthese zu wirken, wenn Bedingungen vorliegen,
in denen die Synthese des Ausdehnungsprodukts bzw. Verlängerungsprodukts
des Primers, das zu einem Nucleinsäurestrang komplementär ist, induziert
wird, d.h. in Gegenwart von Nucleotiden und einem Polymersationsmittel,
wie einer DNA-Polymerase, und bei einer geeigneten Temperatur und
einem geeigneten pH-Wert. Um eine maximale Wirksamkeit in der Amplifikation
zu erreichen, ist der Primer vorzugsweise einsträngig. Vorzugsweise ist der
Primer Oligodesoxyribonucleotid. Um die Synthese der Ausdehnungsprodukte in
Gegenwart des Polymerisationsmittels zu erreichen, muss der Primer
ausreichend lang sein. Die genauen Längen der Primer sind von vielen
Faktoren abhängig,
einschließlich
der Temperatur und der Quelle des Primers.
-
Die hier verwendeten Primer werden
danach ausgewählt,
ob sie zu den verschiedenen Strängen
jeder spezifischen, zu amplifizierenden Sequenz "im Wesentlichen" komplementär sind. Das bedeutet, dass
die Primer für
die Hybridisierung mit ihren entsprechenden Strängen ausreichend komplementär sein müssen. Daher muss
die Primersequenz nicht die genaue Sequenz der Kopiervorlage widerspiegeln.
In der vorliegenden Erfindung sind die Primer im Wesentlichen komplementär zu den
Oligonucleotid-Linkern.
-
Für
die Amplifikation der hier beispielhaft aufgeführten Linker der SEQ-ID-Nr.:
1–4 geeignete
Primer schließen
5'
kann ähnliche Primer für die Amplifikation
herstellen, basierend auf der Nucleotidsequenz der Linker, ohne dass
er dafür
unangemessene Versuche durchführen
muss.
-
Die Spaltung des amplifizierten PCR-Produkts
mit der ersten Restriktionsendonuclease gestattet die Isolierung
von Doppelmarkern, die durch Ligierung verknüpft werden können. Nach
der Ligierung kann es erwünscht
sein, die Konkatemere zu klonieren, obwohl es in dem Verfahren der
vorliegenden Erfindung nicht erforderlich ist. Die Analyse der Doppelmarker
oder Konkatemere, ob nun eine Amplifikation durchgeführt wurde oder
nicht, erfolgt mittels herkömmlicher
Sequenzierungsverfahren. Konkatemere bestehen im Allgemeinen aus
etwa 2 bis 200 Doppelmarkern und vorzugsweise aus etwa 8 bis 20
Doppelmarkern. Da dies bevorzugte Konkatemere sind, ist es augenscheinlich,
dass die Zahl der Doppelmarker, die miteinander verknüpft werden können, von
der Länge
der individuellen Marker abhängt
und diese kann von dem Fachmann leicht bestimmt werden, ohne dass
er dafür
unangemessene Versuche durchführen
muss. Nach der Bildung der Konkatemere können für die Sequenzanalyse multiple
Marker in einen Vektor kloniert werden, oder alternativ können Doppelmarker
oder Konkatemere direkt, ohne Klonierung sequenziert werden, mittels
Verfahren, die dem Fachmann bekannt sind.
-
Unter den Standardverfahren zur Klonierung
der definierten Nucleotidsequenzmarker der vorliegenden Erfindung
befindet sich das Einfügen
der Marker in Vektoren wie in Plasmide oder Phage. Die mittels des hier
beschriebenen Verfahrens hergestellten Doppelmarker oder die Konkatemere
der Doppelmarker werden für
die nachfolgende Analyse, d.h. Sequenzanalyse, Plaque/Plasmid-Hybidisierung
unter Verwendung der Marker als Sonden, in rekombinante Vektoren
kloniert, mittels Verfahren, die dem Fachmann bekannt sind.
-
Der Begriff "rekombinanter Vektor" bezeichnet ein Plasmid, Virus oder
ein anderes, auf dem Fachgebiet bekanntes Vehikel, das durch Einfügen oder
Einschließen
der genetischen Sequenzen der Doppelmarker manipuliert worden ist.
Derartige Vektoren enthalten eine Promotorsequenz, die beispielsweise
die wirksame Transkription der genetischen Sequenz des Markers erleichtert.
Der Vektor enthält
typischerweise einen Startpunkt für die Replikation, einen Promotor,
als auch spezifische Gene, welche die phenotypische Selektion der transformierten
Zellen gestatten. Zur Verwendung in der vorliegenden Erfindung geeignete
Vektoren schließen beispielsweise
pBlueScript (Stratagene, La Jolla, CA); pBC, pSL301 (Invitrogen)
und andere ähnliche
Vektoren ein, die dem Fachmann bekannt sind. Vorzugsweise werden
die Doppelmarker oder die Konkatemere davon zum Zweck der Sequenzierung
in einen Vektor ligiert.
-
Vektoren, in die die Doppelmarker
kloniert sind, können
in eine geeignete Wirtszelle überführt werden. "Wirtszellen" sind Zellen, in
denen sich ein Vektor vermehrt und seine DNA exprimiert. Dieser
Begriff schließt auch
alle Nachkommen der Wirtszelle ein. Es ist verständlich, dass nicht alle Nachkommen
mit den elterlichen Zellen identisch sind, da während der Replikation Mutationen
vorkommen können.
Derartige Nachkommen sind jedoch auch eingeschlossen, wenn der Begriff "Wirtszelle" verwendet wird.
Verfahren der stabilen Übertragung,
die bedeuteten, dass die Fremd-DNA ständig in dem Wirt erhalten wird,
sind in dem Fachgebiet bekannt.
-
Die Transformation einer Wirtszelle
mit einem Doppelmarker enthaltenden Vektor kann mittels Standverfahren,
die dem Fachmann bekannt sind, ausgeführt werden. Ist der Wirt ein
Prokaryot, wie E. coli, können kompetente
Zellen, die zur Aufnahme von DNA in der Lage sind, aus den nach
der exponentiellen Wachstumsphase geernteten Zellen hergestellt
werden und darauf folgend mittels des CaCl2-Verfahrens
behandelt werden, unter Anwendung der auf dem Fachgebiet bekannten
Verfahren. Alternativ können
MgCl2 oder RbCl verwendet werden. Die Trans formation
kann auch durch Elektroporation oder anderer herkömmlicher,
auf dem Fachgebiet bekannter Verfahren ausgeführt werden.
-
Die Doppelmarker in einem einzelnen
Klon können
mittels Standardverfahren sequenziert werden (siehe beispielsweise
Current Protocols in Molecular Biology, supra, Einheit 7), entweder
manuell oder durch Anwendung automatisierter Verfahren.
-
In einer anderen Ausführungsform
liefert die vorliegende Erfindung ein Kit, das zum Nachweis der
Genexpression geeignet ist, wobei die Gegenwart eines Doppelmarkers
die Expression eines Gens anzeigt, das eine Sequenz des Markers
aufweist, das Kit einen oder mehrere Behältnisse umfasst, umfassend
ein erstes Behältnis,
enthaltend einen ersten Oligonucleotid-Linker mit einer ersten Sequenz,
die zur Hybridisierung eines Amplifikationsprimers geeignet ist;
ein zweites Behältnis,
enthaltend einen zweiten Oligonucleotid-Linker mit einer zweiten
Sequenz, die zur Hybridisierung eines Amplifikationsprimers geeignet
ist, wobei die Linker des weiteren eine Restriktionsendonukleasestelle
zur Spaltung von DNA an einer Stelle, die entfernt von der Erkennungsstelle
der Restriktionsendonuclease ist, umfassen; und ein drittes und
viertes Behältnis
mit Nucleinsäureprimern
zur Hybidisierung mit der ersten und zweiten eindeutigen Sequenz
des Linkers. Es ist augenscheinlich, dass dann, wenn die Oligonucleotid-Linker
die gleiche Nucleotidsequenz umfassen, nur ein die Linker enthaltendes
Behältnis
in dem Kit der vorliegenden Erfindung erforderlich ist.
-
In einer noch anderen Ausführungsform
liefert die vorliegende Erfindung eine Ologonucleotid-Zusammensetzung
mit mindestens zwei definierten Nucleotidsequenzmarkern, wobei die
definierte Nucleotidsequenzmarker die Sequenz 5' von einer 5'nächsten
Spaltstelle einer Restriktionsendonuclease oder 3' von einer 3'-nächsten Spaltstelle
einer Restriktionsendonuclease in einer Volllängen-cDNA umfasst, wobei mindestens einer der
Sequenzmarker mindestens einem exprimierten Gen entspricht. Die
Zusammensetzung besteht aus etwa 1 bis 200 Doppelmarkern, und vorzugsweise
aus etwa 8 bis 20 Doppelmarkern. Derartige Zusammensetzungen sind
zur Analyse der Genexpression zur Identifizierung des definierten
Nucleotidsequenzmarkers, der einem exprimierten Gen z. B. in einer
Zelle, in Gewebe oder einem Zellextrakt entspricht, geeignet.
-
Es ist vorgesehen, dass die Identifizierung
von differentiell exprimierten Genen mittels des SAGE-Verfahrens
der vorliegenden Erfindung in Kombination mit anderen genomischen
Verfahren verwendet werden kann. Doppelmarker können beispielsweise mit Oligonucleotiden
hybridisiert werden, die auf einem festen Träger (z. B. Nitrocellulosefilter,
Glasplättchen,
Silikonchip) immobilisiert sind. Derartige Verfahren schließen die "parallele Sequenzanalyse" oder PSA ein, die
nachstehend beschrieben wird. Die Sequenz von Doppelmarkern, die
durch das Verfahren der vorliegenden Erfindung gebildet wurden,
kann auch mittels eingeschränkter Verdünnungen
unter Anwendung von Verfahren, die das klonale Sequenzieren (CS)
einschließen,
bestimmt werden.
-
PSA wird somit nach der Herstellung
des Doppelmarkers durchgeführt,
wobei die Oligonucleotidsequenzen, an die die Doppelmarker hybridisiert
werden, vorzugsweise unmarkiert sind und der Doppelmarker ist vorzugsweise
nachweisbar markiert. Alternativ kann stattdessen das Oligonucleotid
als der Doppelmarker markiert sein. Der Doppelmarker kann nachweisbar
markiert sein, beispielsweise mit einem radioaktiven Isotop, einer
fluoreszierenden Verbindung, einer biolumineszenten Verbindung,
einer chemilumineszenten Verbindung, einem Metallchelator, oder
einem Enzym. Der Fachmann wird andere geeignete Markierungen, die zur
Bindung an den Doppelmarker geeignet sind, kennen oder er wird in
der Lage sein, derartige mittels Durchführung von Routineversuchen
zu bestimmen. Die PCR kann beispielsweise mit markierten (z. B.
Fluorescein-markiert) Pri mern durchgeführt werden. Die Doppelmarker
enthalten vorzugsweise eine fluoreszierende Endmarkierung.
-
Die markierten oder unmarkierten
Doppelmarker werden in einsträngige
Moleküle
getrennt, die vorzugsweise reihenmäßig verdünnt werden und einem festen
Träger
(z. B. ein Silikonchip wie beschrieben von Fodor, et al., Science,
251: 767, 1991) zugesetzt werden, der Oligonucleotide enthält, die
beispielsweise jede mögliche
Permutation eines 10-mers enthalten (z. B. in jedem Raster eines
Chips). Der feste Träger
wird anschließend
verwendet, um die differentielle Expression des in dem Träger (z.
B. auf einem Raster auf einem Chip) enthaltenen Markers zu bestimmen,
durch Hybridisierung der Oligonucleotide auf dem festen Träger mit den
Markern, die von Zellen unter unterschiedlichen Bedingungen (z.
B. unterschiedliches Stadium der Entwicklung, Wachstum von Zellen
in Gegenwart oder Abwesenheit eines Wachstumsfaktors, normale versus transformierte
Zellen, Vergleich unterschiedlicher Gewebeexpression, usw.) hergestellt
werden. Im Fall von fluoreszierenden endmarkierten Markern zeigt
die Analyse der Fluoreszenz die Hybridisierung an ein einzelnes 10-mer
an. Ist das immobilisierte Oligonucleotid beispielsweise Fluoreszenz-markiert,
wird ein Fluoreszenzverlust infolge Abschreckens (durch die Nähe des hybridisierten
Doppelmarkers zu dem markierten Oligo) beobachtet und hinsichtlich
des Genexpressionsmusters analysiert. Ein Veranschaulichungsbeispiel
des Verfahrens wird hier in Beispiel 4 dargestellt.
-
Das SAGE-Verfahren der vorliegenden
Erfindung ist auch für
die klonale Sequenzierung geeignet, ähnlich der eingeschränkten Verdünnungsverfahren,
die zur Klonierung von Zelllinien angewendet werden. Doppelmarker
oder Konkatemere davon werden beispielsweise verdünnt und
individuellen Aufnahmebehältnissen
in der Art zugesetzt, dass jedes Aufnahmebehältnis weniger als ein DNA-Molekül pro Aufnahmebehältnis enthält. Die
DNA in jedem Aufnahmebehältnis
wird amplifiziert und mittels der auf dem Fachgebiet bekannten Standardverfahren,
ein schließlich
der Massenspektrometrie, analysiert. Die Auswertung der differentiellen Expression
wird ausgeführt,
wie vorstehend für
die SAGE beschrieben.
-
Der Fachmann kann leicht andere Analysenverfahren
für Doppelmarker,
die, wie in der vorliegenden Erfindung beschrieben, durch SAGE hergestellt
werden, bestimmen, ohne dass unangemessene Versuche durchgeführt werden
müssen.
-
Das Konzept zum Ableiten eines definierten
Markers von einer Sequenz gemäß der vorliegenden
Erfindung ist dazu geeignet, die Marker von Proben einer Sequenzdatenbank
zuzuordnen. In einer bevorzugten Ausführungsform wird ein Computerverfahren
angewendet, um die Sequenz einer Probe bekannten Sequenzen zuzuordnen.
-
In einer Ausführungsform wird ein Sequenzmarker
für eine
Probe mit der entsprechenden Information in einer Sequenzdatenbank
verglichen, um bekannte Sequenzen zu identifizieren, welche der
Probensequenz zugeordnet werden können. Für jede Sequenz in der Sequenzdatenbank
lassen sich ein oder mehrere Marker bestimmen, so lange die N Basenpaare
sich benachbart zu jeder Verankerungsenzymstelle innerhalb der Sequenz
befinden. In der bevorzugten Ausführungsform wird jedoch nur
die erste Verankerungsenzymstelle am 3'-Ende zur Bestimmung eines Markers verwendet.
In der bevorzugten Ausführungsform
befinden sich die benachbarten Basenpaare, die einen Marker definieren,
an der 3'-Seite
der Verankerungsenzymstelle und N beträgt vorzugsweise 9.
-
Es kann eine lineare Suche in einer
derartigen Datenbank durchgeführt
werden. In der bevorzugten Ausführungsform
wird jedoch ein Sequenzmarker einer Probe in eine eindeutige numerische
Darstellung umgewandelt, indem jedes Basenpaar (A, C, G oder T)
eines N-Basenmarkers in eine Nummer oder einen "Markercode" umgewandelt wird (z. B. A = O, C =
1, G = 2, T = 3, oder jede andere geeignete Zuordnung). Für jede Sequenz
einer Sequenzdatenbank wird der Marker, wie vorstehend beschrieben,
bestimmt und der Marker wird in ähnlicher
Weise in einen Mar kercode umgewandelt. In der bevorzugten Ausführungsform
wird ein Satz an Markercodes für
eine Sequenzdatenbank in einer Signaldatei gespeichert. Der Markercode
für eine
Probensequenz wird mit den Markercodes in der Signaldatei verglichen,
um die Lokalisation der Sequenz, die dem Probenmarkercode entspricht,
in der Sequenzdatenbank zu bestimmen. (Es können multiple entsprechende Sequenzen
auftreten, wenn die Sequenzdatenbank Redundanzen aufweist).
-
4 ist
ein Blockdiagramm eines Zugangssystems einer Datenbank für einen
Markercode gemäß der vorliegenden
Erfindung. Eine Sequenzdatenbank 10 (z. B. die Humane Genom
Sequenzdatenbank) wird, wie vorstehend beschrieben derart ablaufen
lassen, dass die jeweilige Sequenz einen Markercode besitzt, der in
der Signaldatei 12 bestimmt und gespeichert wird. Ein Probenmarkercode
X für eine
Probe wird, wie vorstehend beschrieben, bestimmt und im Datenspeicher 14 eines
Computers gespeichert. Der Probenmarkercode X wird in der Signaldatei 12 bezüglich eines
Sequenzmarkercodes, der sich zuordnen lässt, verglichen. Wurde eine
Zuordnung gefunden, wird ein Signal, das mit dem zugeordneten Sequenzmarkercode
assoziiert ist, verwendet, um die entsprechende Sequenz in die Sequenzdatenbank 10 einzugeben.
-
Die Signaldatei 12 (pointer
file 12) kann in jedem beliebigen der verschiedenen Formate vorliegen.
In einem Format umfasst jeder Eintrag der Signaldatei 12 einen
Markercode und ein Signal eines entsprechenden Datensatzes in der
Sequenzdatenbank 10. Der Probenmarkercode X kann in einer
linearen Suche mit den Sequenzmarkercodes verglichen werden. Alternativ
können
die Sequenzmarkercodes sortiert werden und es kann eine binäre (binary)
Suche durchgeführt
werden. Als andere Alternative können
die Sequenzmarkercodes in eine hierachische Baumstruktur strukturiert
werden (z. B. ein B-Baum), oder als eine einzel- oder doppel-verknüpfte Liste,
oder in jede andere beliebige suchbare Datenbankstruktur oder -format.
-
In der bevorzugten Ausführungsform
umfasst jeder Eintrag der Signaldatei 12 nur ein Signal
für einen entsprechenden
Datensatz in der Sequenzdatenbank 10. Beim Aufbau der Signaldatei 12 wird
jeder Sequenzmarkercode einem Eintrag in der Signaldatei 12 zugeordnet,
die dem wert des Markercodes entspricht. Lag beispielsweise ein
Sequenzmarkercode von "1043" vor, würde ein
Signal in dem entsprechenden Datensatz in der Sequenzdatenbank 10 in
dem Eintrag #1043 der Signaldatei 12 gespeichert. Der Wert
eines Probenmarkercodes X kann verwendet werden, um direkt die Lokalisation
in der Signaldatei 12 anzusteuern, die dem Probenmarkercode
X entspricht und somit schnell das Signal zugänglich zu machen, das in der
Lokalisation gespeichert ist, um die Sequenzdatenbank 10 anzusteuern.
-
Da nur vier Werte erforderlich sind,
um alle möglichen
Basenpaare darzustellen, führt
die Verwendung binär
codierter Dezimalzahlen (BCD) für
Markercodes in Verbindung mit der bevorzugten Struktur der Signaldatei 12 zu
einer "ausgedünnten (sparse)" Signaldatei 12,
die den Datenspeicher oder den Speicherplatz verwirft. Dem entsprechend überträgt die vorliegende
Erfindung in bekannter Weise den Markercode in Base Nummer 4 (d.h.
2 Bits pro Codeziffer), was zu einer kompakten Struktur der Signaldatei 12 führt. Beispielsweise
würde die
vierbasige Darstellung für
eine Markersequenz "AGCT" mit A = 002, G = 012, G = 102, T = 112 in binärer Form "00011011" betragen. Im Gegensatz
dazu würde
die BCD-Darstellung "00000000
00000001 00000010 000000011" sein.
Es sollte natürlich
klar sein, dass andere Zuordnungen von Basenpaaren zu Codes eine äquivalente
Funktion liefern würden.
-
Das Konzept zur Ableitung eines definierten
Markers von einer Probensequenz gemäß der vorliegenden Erfindung
ist ebenfalls für
den Vergleich verschiedener Proben hinsichtlich Ähnlichkeit geeignet. In einer bevorzugten
Ausführungsform
wird ein Computerverfahren verwendet, um die Sequenzmarker von verschiedenen
Proben zuzuordnen. Beispielsweise kann bei dem Vergleich von Material,
das eine große
Anzahl von Sequenzen auf weist (d. h. Gewebe), die Häufigkeit
des Auftretens von verschiedenen Markern in einer ersten Probe aus
der Zuordnung zugeordnet werden, so lange die Markercodes in einer
Verteilungsstruktur oder in einer Datenstruktur des Histogramm-Typs
gespeichert sind. Es kann beispielsweise eine Tabelle verwendet werden,
die ähnlich
strukturiert ist wie die Signaldatei 12 in 4, in der jeder Eintrag einen Wert für die Frequenz
des Auftretens umfasst. Danach können
die verschiedenen Marker in einer zweiten Probe erzeugt werden,
in Markercodes umgewandelt werden und mit der Tabelle verglichen
werden, indem mit dem Markercode direkt Tabelleneinträge angesteuert
werden. Für
die Anzahl der gefundenen Zuordnungen als auch für die Lokalisation der Zuordnungen
kann ein Zähler
vergeben werden, der in Textform oder in grafischer Form durch eine
Ausgabevorrichtung ausgegeben wird, und/oder für die spätere Verwendung in dem Datenspeichersystem
gespeichert wird.
-
Die Aspekte der vorliegenden Erfindung
bezüglich
des Markervergleichs können
in Hardware oder Software oder in einer Kombination aus beiden ausgeführt werden.
Diese Aspekte der vorliegenden Erfindung können vorzugsweise in Computerprogramme
implementiert werden, die auf einem programmierbaren Computer ablaufen,
umfassend einen Prozessor, ein Datenspeichersystem (einschließlich flüchtiger
und nicht-flüchtiger
Speicherung und/oder Speicherelementen), mindestens eine Eingabevorrichtung,
und mindestens eine Ausgabevorrichtung. Die Dateneingabe durch eine
oder mehrere Eingabevorrichtungen für die zeitweise oder ständige Speicherung
in dem Datenspeichersystem schließt Sequenzen ein und sie kann
vorher erzeugte Marker oder Markercodes für bekannte und/oder unbekannte
Sequenzen einschließen.
Für die
eingegebenen Daten wird ein Programmcode angewendet, um die vorstehend
beschriebenen Funktionen auszuführen
und die Ausgabeinformation zu erzeugen. Die Ausgabeinformation wird
in der bekannten Weise in eine oder mehrere Ausgabevorrichtungen übertragen.
-
Jedes derartige Computerprogramm
wird vorzugsweise in einem Speichermedium oder einer Speichervorrichtung
gespeichert (z. B. ROM oder Magnetdiskette), die durch allgemeine
oder für
spezielle Zwecke programmierbare Computer lesbar ist, um den Computer
zu konfigurieren und arbeiten zu lassen, wenn das Speichermedium
oder die Speichervorrichtung von dem Computer zur Durchführung der
hier beschriebenen Verfahren gelesen wird. Das erfindungsgemäße System
kommt ebenfalls zur Ausführung
als ein Computer-lesbares Speichermedium in Betracht, konfiguriert
mit einem Computerprogramm, wobei das so konfigurierte Speichermedium
bewirkt, dass ein Computer zur Durchführung der hier beschriebenen
Funktionen in einer spezifischen und vordefinierten Weise arbeitet.
-
Die nachfolgenden Beispiele dienen
der Veranschaulichung und sollen die vorliegende Erfindung nicht einschränken. Da
sie typisch für
diejenigen sind, die verwendet werden können, können alternativ andere Verfahren,
die dem Fachmann bekannt sind verwendet werden.
-
Beispiele
-
Zum Zweck der Veranschaulichung wurde
das SAGE-Verfahren der vorliegenden Erfindung angewendet, um die
Genexpression im humanen Pankreas zu charakterisieren. NlaIII wurde
als die erste Restriktionsendonuclease, oder als Verankerungsenzym,
und BsmFI als die zweite Restriktionsendonuclease, oder als Markierungsenzym,
verwendet, was einen 9 Bp-Marker lieferte. Es wurde erwartet, dass
BsmFI den komplementären
Strang 14 Bp 3' zur
Erkennungsstelle GGGAC spaltet und eine 4 Bp große 5'-überhängende Sequenz
liefert (New England Biolabs). Es wurde erwartet, dass die Überlappung
der BsmFI- und NlaIII (CATG)-Stellen, als (GGGACATG) gekennzeichnet,
zu einem 11 Bp-Marker
führt.
Die Analyse ließ jedoch
vermuten, dass BsmFI unter den angewendeten Spaltungsbedingungen
(37°C) häufig näher an seiner
Erkennungsstelle spaltete, minimal 12 Bp 3' zu seiner Erkennungsstelle. Daher wurde
für die
Analyse der Marker nur die verwendet, die 9 Bp am engsten zu der
Verankerungsenzymstelle lag. Die Spaltung bei 65°C führte zu einem weitaus beständigerem
11 Bp-Marker.
-
Die Computeranalyse humaner Transkripte
von der GenBank bewies, dass mehr als 95% der Marker mit einer Länge von
9 Bp nahezu eindeutig waren und dass der Einschluss von zwei zusätzlichen
Basen eine geringfügig
zusätzliche
Auflösung
lieferte. Es wurden humane Sequenzen (84 300) aus der Datenbank
der GenBank 87 extrahiert, mittels des Findseq-Programms, das von
dem IntelliGenetics Bionet online-Service bereitgestellt wird. Alle
weiteren Analysen wurden mit einem SAGE-Programm durchgeführt, das
für das
Microsoft-Windows-Arbeitssystem in Microsoft Visual Basic geschrieben
ist. Das Analysenprogramm der SAGE-Datenbank wurde dahingehend programmiert,
dass nur Sequenzen eingeschlossen sind, die in der Locusbeschreibung
mit "RNA" bezeichnet sind
und es sind Einträge
ausgeschlossen, die mit "EST" bezeichnet sind, was
zu einer Verminderung auf 13 241 Sequenzen führte. Die Analyse dieses Sequenzsatzes
unter Anwendung von NlaIII als Verankerungsenzym zeigte, dass 4
127 neun Bp-Marken einheitlich waren, während 1 511 Marken in nur mehr
als einem Eintrag gefunden wurden. Der Nucleotidvergleich eines
zufällig
ausgewählten Satzes
(100) der späteren
Einträge
zeigte, dass mindestens 83% durch redundante Datenbankeinträge für das gleiche
Gen oder stark verwandte Gene (> 95%
Identität über mindestens
250 Bp) zustande gekommen waren. Dies ließ vermuten, dass 5381 die 9
Bp-Marker (95,5%) einzigartig für
das Transkript oder eine hoch konservierte Familie von Transkripten
waren. Ähnlich
führte
die Analyse des gleichen Satzes der GenBank mit einem 11 Bp-Marker
nur zu einer 6% Abnahme in den sich wiederholenden Markern (1511
bis 1425) anstatt der 94% Abnahme, die erwartet würde, wenn
die sich wiederholenden Marken nicht verwandten Transkripten entsprachen.
-
Beispiel 1
-
Wie vorstehend ausgeführt, wurde
mRNA von humanen Pankreas verwendet, um Doppelmarker zu erzeugen.
Fünf μg mRNA aus
Gesamtpankreas (Clontech) wurden in doppelsträngige cDNA umgewandelt, unter
Anwendung eines BRL-cDNA-Synthese-Kits entsprechend dem Protokoll
der Hersteller, mittels des Biotin-5'T
18-3'-Primers. Anschließend wurde die cDNA mit NlaIII
gespalten und die 3'-Restriktionsfragmente durch
Bindung an magnetische Streptavidin-Kügelchen (Dynal) isoliert. Die
gebundene DNA wurde in zwei Pools geteilt und an jeden Pool wurde
einer der nachfolgenden Linker ligiert:
Nach ausgedehnten Waschen
zur Entfernung der nicht ligierten Linker wurden die Linker und
die benachbarten Marker durch Spaltung mit BsmFI freigesetzt. Die
entstehenden Überhänge wurden
mit T4-Polymerase aufgefüllt
und die Pools wurden vereinigt und miteinander ligiert bzw. ligasiert.
Das erwünschte
Ligierungsprodukt wurde anschließend über 25 Zyklen unter Verwendung
von
amplifiziert. Anschließend wurde
die PCR-Reaktion durch Polyacrylamidgel-Elektrophorese analysiert
und das erwünschte
Produkt wurde herausgeschnitten. Es wurden anschließend zusätzliche
15 PCR-Zyklen durchgeführt,
um ausreichend Produkt für
eine wirksame Ligierung und Klonierung zu erzeugen.
-
Die PCR-Doppelmarker-Produkte wurden
mit NlaIII gespalten und die Doppelmarker enthaltenden Banden wurden
herausgeschnitten und selbst-ligiert. Nach der Ligierung wurden
die verknüpften
Doppelmarker mittels Polyacrylamidgel-Elektrophore getrennt und
Produkte mit einer Größe über 200
Bp wurden herausgeschnitten. Diese Produkte wurden in die SphI-Stelle
von pSL301 (Invitrogen) kloniert. Die Kolonien wurden mittels PCR,
unter Verwendung von T7- und T3-Sequenzen außerhalb der Klonierungsstelle
als Primer bezüglich
Inserts gescreent. Klone, die mindestens 10 Marker enthielten (Bereich
von 10 bis 50 Marker), wurden durch PCR-Amplifikation identifiziert
und wie beschrieben manuell sequenziert, (Del Sal, et al., Biotechni-
Sequenzdateien wurden durch
Anwendung der SAGE-Softwaregruppe analysiert, welche die Verankerungsenzymstelle
mit der genauen räumlichen
Anordnung identifiziert und die zwei Intervening-Marker extrahiert und sie in einer Datenbank
aufzeichnet. Die 1000 Marker wurden von 413 eindeutigen Doppelmarkern
und 87 sich wiederholenden Markern abgeleitet. Die letzteren wurden
nur einmal gezählt,
um potenzielle PCR-Bias aus der Quantifizierung auszuschließen. Die
Funktion der SAGE-Software besteht lediglich in der Optimierung der
Suche nach Gensequenzen.
-
Tabelle 1 zeigt die Analyse der ersten
1000 Marker. Sechzehn Prozent wurden ausgeschlossen, da sie entweder
Uneindeutigkeiten bezüglich
der Sequenz aufwiesen oder von Linkersequenzen abgeleitet waren.
Die verbleibenden 840 Marker schlossen 351 Marker ein, die einmal
vorkamen und 77 Marker, die mehrere Male gefunden wurden. Neun der
zehn häufigsten
Marker konnten mindestens einem Eintrag in der GenBank R87 zugeordnet
werden. Nachfolgend wurde gezeigt, dass sich der verbleibende Marker
von Amylase ableitet. Alle zehn Transkripte leiteten sich von Genen
mit bekannter pankreatischer Funktion ab und ihre Prevalenz stimmte
mit den früheren
Analysen von pankreatischer RNA überein,
die mittels herkömmlicher
An sätze
durchgeführt
worden waren (Han, et al., Proc. Natl. Acad. Sci. U. S. A., 84:
110, 1986; Takeda, et al., Hum. Mol. Gen., 2: 1793, 1993).
-
Tabelle
1
Pankreatische SAGE-Marker
-
s"Marker" kennzeichnet die
9 Bp-Sequenz eindeutig für
jeden Marker, benachbart zu der 4 Bp-NlaIII-Verankerungsstelle. "N" und "Prozent" gibt an, wie viele Male der Marker
identifiziert wurde bzw. seine Frequenz. "Gen" kennzeichnet
die Zugangsnummer und die Beschreibung der GenBank X87 Einträge, von
denen festgestellt wurde, dass sie dem gekennzeichneten Marker zugeordnet
werden können,
unter Anwendung der SAGE-Software-Gruppe,
mit den nachfolgenden Ausnahmen. Wurden infolge von Doppeleinträgen multiple Einträge identifiziert,
wurde nur ein Eintrag in die Liste aufgenommen. Im Fall von Chymotrypsinogen
und Trypsin I wurden andere Gene identifiziert, von denen angenommen
wird, dass sie die gleichen Marker enthalten, die nachfolgende Hybridisierung
und Sequenzanalyse identifizierte jedoch die aufgeführten Gene
als die Quelle der Marker. "Alu
Eintrag" kennzeichnet
eine Zuordnung zu einem GenBank-Eintrag für ein Transkript, das mindestens
eine Kopie der Alu-Consensus-Sequenz enthält (Deininger, et al., J. Mol.
Biol., 151: 17, 1981).
-
Beispiel 2
-
Die quantitative Natur der SAGE wurde
bewertet, indem eine Oligo-dT geprimte pankreatische cDNA-Library
konstruiert wurde, die mit cDNA-Sonden bezüglich Trypsinogen 1/2, Procarboxypeptidase
A1, Chymotrypsinogen und Elastase I-IIB/Protease E gescreent wurde.
Pankreatische mRNA aus der gleichen Präparation, wie sie für die SAGE
in Beispiel 1 verwendet wurde, wurde genutzt, um eine cDNA-Library
in den ZAP-Expressionsvektor zu konstruieren, unter Verwendung des
ZAP-Express-cDNA-Synthese-Kits
entsprechend dem Protokoll der Hersteller (Stratagene). Die Analyse
von 15 zufällig
ausgewählten
Klonen ergab, dass 100% cDNA-Inserts enthielten. Platten, die 250
bis 500 Plaques enthielten, wurden, wie vorstehend beschrieben,
hybridisiert (Ruppert, et al., Mol. Cell. Biol., 8: 3104, 1988).
cDNA-Sonden für
Trypsinogen 1, Trypsinogen 2, Procarboxypeptidase A1, Chymotrypsinogen
und Elastase IIIB wurden mit tels RT-PCR von RNA aus Pankreas abgeleitet.
Die Sonden für
Trypsinogen 1 und 2 waren zu 93% identisch und hybridisierten unter
den verwendeten Bedingungen an die gleichen Plaques. Ähnlich waren
die Sonden für
Elastase IIIB und Protease E zu 95% identisch und hybridisierten
an die gleichen Plaques.
-
Die verhältnismäßige Häufigkeit der SAGE-Marker für diese
Transkripte stimmte ausgezeichnet mit den Ergebnissen überein,
die durch das Library-Screening erhalten wurden ( 2). Des weiteren konnten dann, wenn weder
Trypsinogen 1 oder 2, noch Elastase IIIB und Protease E durch die
zum Screening der Library verwendeten cDNA-Sonden zu unterscheiden
waren, alle vier Transkripte auf der Grundlage ihrer SAGE-Marker
leicht unterschieden werden (Tabelle 1).
-
Beispiel 3
-
Zusätzlich zur Bereitstellung quantitativer
Informationen über
die Häufigkeit
bekannter Transkripte kann die SAGE dazu verwendet werden, neuartige
exprimierte Gene zu identifizieren. Da für die SAGE-Analyse dieses Beispiels
nur die 9 Bp-Sequenz,
die für
jedes Transkript eindeutig ist, betrachtet wurde, definierte jeder
SAGE-Marker eine 13 Bp-Sequenz, die aus der Verankerungsenzymstelle
(4 Bp) plus dem 9 Bp-Marker zusammengesetzt war. Um dieses Potenzial
zu veranschaulichen, wurden 13 Bp-Oligonucleotide verwendetet, um
die Transkripte zu isolieren, die den vier nicht zugeordneten Markern
entsprachen (P1 bis P4), das bedeutet, den Markern ohne entsprechende
Einträge
in der GenBank R87 (Tabelle 1). In jedem dieser vier Fälle war
es möglich,
multiple cDNA-Klone für
den Marker zu isolieren, indem die pankreatische cDNA-Library einfach
unter Verwendung des 13 Bp-Oligonucleotids als Hybridisierungssonde
gescreent wurde (Beispiele in 3).
-
Platten, die 250 bis 2 000 Plaques
enthielten, wurden unter den gleichen Bedingungen hybridisiert wie vorstehend
für die
herkömmlichen
Sonden beschrieben, mit der Ausnahme, dass die Hybridisierungstemperatur
auf Raumtemperatur gesenkt wur de. Das Waschen wurde über einen
Zeitraum von 30 Minuten bei Raumtemperatur mit 6 × SSC/0,1%
SDS ausgeführt.
Die Sonden bestanden aus 13 Bp-Oligonucleotiden, die mit P32-ATP unter Verwendung von T4-Polynucleotidkinase
markiert wurden. In jedem Fall identifizierte die Sequenzierung
der abgeleiteten Klone den korrekten SAGE-Marker an dem erwarteten
Ende 3'-Ende des
Transkripts. Die Häufigkeit
der durch die Hybridisierung mit den 13-mers identifizierten Plaques
stimmte mit der überein,
die nach der Durchführung
der SAGE erwartet worden war (Tabelle 2). Es wurde festgestellt,
dass die Marker P1 und P2 Amylase bzw. Preprocarboxypeptidase A2
entsprachen. In der GenBank R87 war kein Eintrag für Preprocarboxypeptidase
A2 und nur ein verkürzter
Eintrag für
Amylase vorhanden, was zu ihrer nicht zuordenbaren Charakterisierung
führte.
Der Marker P3 ließ sich
keinem Gen mit einer bekannten Funktion aus der GenBank zuordnen,
jedoch zahlreichen EST's,
was bewies, dass es ein echtes Transkript darstellt. Die durch P4
identifizierte cDNA wies keine wesentliche Homologie auf, was vermuten
lässt,
dass sie ein bereits früher
nicht charakterisiertes pankreatisches Transkript darstellt.
-
Tabelle
2
Charakterisierung der nicht zuordenbaren SAGE-Marker
-
"Marker" und "SAGE-Häufigkeit" sind in Tabelle
1 beschrieben; "13mer
Hyb" kennzeichnet
die Ergebnisse, die erhalten wurden, indem eine cDNA-Library mit
einem 13mer wie vorstehend beschrieben gescreent wurde. Die Zahl
der positiven Plaques dividiert durch die Gesamtzahl der gescreenten
Plaques ist in den Klammern angegeben, die der prozentualen Häufigkeit
folgt. Ein Positivzeichen in der Spalte für den "SAGE-Marker" gibt an, dass die erwartete SAGE-Markersequenz
nahe dem 3-Ende der isolierten Klone identifiziert worden war. "Beschreibung" kennzeichnet die
Ergebnisse der BLAST-Suche in den täglich erneuerten GenBank-Einträgen des
NCBI vom 06.06.1995 (Altschul, et al., J. Mol. Biol., 215: 403,
1990). Eine Beschreibung und eine Zugangsnummer sind für die Zuordnungen
angeben, die am wesentlichsten sind. Es wurde festgestellt, dass
P1 einem verkürzten
Eintrag für
Amylase zugeordnet werden kann, und es wurde festgestellt, dass P2
einen nicht veröffentlichten
Eintrag für
Preprocarboxypeptidase A2 zugeordnet werden kann, der nach der GenBank
R87 eingetragen wurde.
-
Beispiel 4
-
Die durch SAGE erzeugten Doppelmarker
können
mittels PSA oder CS analysiert werden, wie in der Spezifikation
beschrieben. In einer bevorzugten Ausführungsform für PSA wurden
die nachfolgenden Schritte mit Doppelmarkern ausgeführt: Die
Doppelmarker wurden hergestellt, amplifiziert und mit dem Verankerungsenzym
gespalten, wie es in den vorhergehenden Beispielen beschrieben wurde.
-
-
Vier-Basen-Oligomere, die ein Identifikationsmittel
enthielten (z. B. eine fluoreszierende Einheit, FL), werden so hergestellt,
dass sie zu den Überhängen komplementär sind,
beispielsweise FL-CATG. Die FL-CATG-Oligomere (im Überschuss)
werden, wie nachstehend dargestellt, an die Doppelmarker ligiert:
-
Die Doppelmarker wurden anschließend gereinigt
und geschmolzen, was zu einsträngigen
DNAs mit beispielsweise der nachfolgenden Formel führte:
-
Das Gemisch aus einsträngigen DNAs
wird vorzugsweise reihenmäßig verdünnt. Jede
reihenmäßige Verdünnung wird
unter geeigneten strengen Bedingungen mit festen Matrizen hybridisiert,
die in Raster aufgeteilte einsträngige
Oligonucleotide enthalten; alle Oligonucleotide enthalten eine halbe
Stelle der Spaltstelle des Verankerungsenzyms. In dem hier verwendeten
Beispiel enthalten die Oligonucleotidsequenzen eine CATG-Sequenz am 5'-Ende:
-
Die Matrizen können aus jedem beliebigen auf
dem Fachgebiet bekannten Material hergestellt werden und die Oligonucleotid-tragenden
Chips können
mittels jedem auf dem Fachgebieten bekannten Verfahren hergestellt
werden, z. B. mittels dem VLSIP-Verfahren hergestellte Oligonucleotid
enthaltende Silikonchips (Fodor, et al., supra).
-
Die Oligonucleotid-tragenden Matrizen
werden auf Gegenwart oder Abwesenheit eines fluoreszierenden Doppelmarkers
an jeder Position des Rasters bewertet.
-
In einer bevorzugten Ausführungsform
befinden sich 410 oder 1 048 576 Oligonucleotide
der allgemeinen Sequenz CATGOO-OOOOOOOO
auf dem/den Raster(n), derart dass jede mögliche 10-Basen-Sequenz sich 3'zu CATG befindet, wobei CATG als ein
Beispiel für
eine halbe Stelle eines Verankerungsenzyms komplementär zu der
halben Stelle des Verankerungsenzyms an dem 3'-Ende
des Doppelmarkers ist. Da in dem humanen Genom nicht mehr als 100
000 bis 200 000 verschiedene exprimierte Gene zu bestimmen sind,
gibt es ausreichend Oligonucleotidsequenzen, um alle möglichen
Sequenzen nachzuweisen, die sich benachbart zu der 3"-nächsten Stelle
des Verankerungsenzyms befinden, die in den cDNAs der exprimierten
Gene des humanen Genoms nachgewiesen wurde.
-
In einer noch anderen Ausführungsform
werden Strukturen, enthaltend die wie vorstehend beschriebenen Sequenzen
PRIMER A-GGAGCATG (X)10 (O)10 CATGCATCC-PRIMER
B PRIMER A-CCTCGTAC (X)10 (O)10 GTACGTAGG-PRIMER,
amplifiziert,
mit dem Markierungsenzym und danach mit dem Verankerungsenzym gespalten,
zur Erzeugung von Marker-Komplementen
der Struktur: (O)10 CATG-3', die anschließend markiert,
geschmolzen und mit Oligonucleotiden auf einem festen Träger hybridisiert
werden können.
-
Eine Bestimmung der differentiellen
Expression erfolgt, indem die Fluoreszenz-Profile auf den Rastern bei
verschiedenen Verdünnungen
in verschiedenen Libraries verglichen werden (darstellen der differentiellen Screening-Sonden).
Beispielsweise
-
Die individuellen Oligonucleotide
hybridisieren somit an Doppelmarker mit den nachfolgenden Charakteristika:
-
-
Tabelle 3 fasst die Ergebnisse der
differentiellen Hybridisierung zusammen. Marker, die an 1A und 3B hybridisierten,
spiegeln die sehr häufig
vorkommenden mRNAs wieder, die nicht differentiell exprimiert werden (da
die Marker bei allen Verdünnungen
an beide Libraries hybridisierten); der Marker 2C identifiziert
eine sehr häufig
vorkommende RNA, jedoch nur in der Library B. 2E spiegelt ein wenig
vorkommendes Transkript wieder (da es nur bei der geringsten Verdünnung nachgewiesen
wurde), von dem festgestellt wurde, dass es nicht differentiell
exprimiert wird; 3C spiegelt ein moderat vorkommendes Transkript
(da es bei der geringeren der beiden Verdünnungen exprimiert wird) in
Library B wider, das in Library A mit einer geringen Häufigkeit
exprimiert wird. 4D spiegelt ein differentiell-exprimiertes, sehr
häufig
vorkommendes Transkript wider, das auf Library A begrenzt ist; 5A
spiegelt ein Transkript wider, das mit einer hohen Häufigkeit
in Library A exprimiert wird, jedoch mit einer geringen Häufigkeit
in Library B; und 5E spiegelt ein differentiell-exprimiertes Transkript wider,
das nur in Library B nachweisbar ist.
-
In einer anderen Ausführungsform
der PSA beinhaltet der vorstehende Schritt 3 die Anwendung eines Fluoreszensmittels oder
eines anderen Identizierungsmittels, anstelle der Verwendung von
markierten dNTPs in der letzten Runde der Amplifikation, sodass
nach dem Schmelzen die Hälfte
aller Moleküle
markiert sind und als Sonden für
die Hybridisierung an Oligonucleotiden dienen, die an Chips fixiert
sind.
-
Für
die Anwendung in der klonalen Sequenzierung können die Doppelmarker, oder
Konkatemere, verdünnt
werden und beispielsweise Wells von Multi-Well-Platten oder anderen
Aufnahmebehältnissen
zugesetzt werden, sodass die Wells im Durchschnitt, statisch gesehen,
weniger als ein DNA-Molekül
pro Well enthalten könnten
(so wie es für
die eingeschränkte
Verdünnung
bei der Zellklonierung der Fall ist). Jedes Well könnte anschließend Reagenzien
für die
PCR oder ein anderes Amplifikationsverfahren erhalten und die DNA
in jedem Aufnahmebehältnis
könnte
sequenziert werden, z. B. durch Massenspektrometrie. Das Ergebnis
wird entweder eine Einzelsequenz sein (wenn eine Einzelsequenz in
dem Aufnahmebehältnis
vorlag), eine "Null"-Sequenz (keine DNA
vorhanden) oder eine Doppelsequenz (mehr als ein DNA-Molekül), das
aus der Betrachtung während
der Datenanalyse ausgeschlossen werden würde. Danach könnte die
Zuordnung der Expression so erfolgen, wie sie hier beschrieben wurde.
-
Die Ergebnisse veranschaulichen,
dass die SAGE sowohl quantitative als auch qualitative Daten über die
Genexpression liefert. Die Verwendung verschiedener Verankerungsenzyme
und/oder Markierungsenzyme mit verschiedenen Erkennungselementen
verleiht dieser Strategie eine große Flexibilität. Da die
verschiedenen Verankerungsenzyme cDNA an verschiedenen Stellen spalten,
gestattet die Verwendung von mindestens 2 verschiedenen Aes auf
verschiedenen Proben der gleichen cDNA-Präparation insbesondere die Bestätigung der
Ergebnisse und der Analyse von Sequenzen, die keine Erkennungsstelle
für eines
der Enzyme enthalten würden.
-
Bei den Bemühungen um die vollständige Charakterisierung
des Genoms fast bis zur Vollständigkeit sollte
die SAGE ein direktes Ablesen der Expression in jedem beliebigen
vorgegebenen Zelltyp oder Gewebe gestatten. In der Zwischenzeit
könnte
eine Hauptanwendungsmöglichkeit
der SAGE der Vergleich von Genexpressionsmustern zwischen Geweben
und von verschiedenen Entwicklungs- und Krankheitszutänden in
einer vorgegebenen Zelle oder einem vorgegebenen Gewebe sein. Der
Fachmann, der in der Lage ist, eine PCR und das manuelle Sequenzieren
durchzuführen,
könnte
zu diesem Zweck eine SAGE ausführen.
Die Adaption dieses Verfahrens auf einen automatischen Sequenzierer
könnte
die Analyse von über
1 000 Transkripten in einem einzelnen Lauf von 3 Stunden gestatten.
Ein ABI 377-Sequenzierer
kann in einem dreistündigen
Lauf eine 451 Bp-Anzeige
für 36
Kopiervorlagen erzeugen (451 Bp/ 11 Bp pro Marker × 36 = 1476
Marker). Die zu bestimmende geeignete Anzahl von Markern ist von
der Anwendung abhängig.
Beispielsweise könnte
die Definition von Genen, die in einem Gewebe in verhältnismäßig hohen
Grad (0,5% oder mehr), jedoch in einem anderen nur zu einem geringeren
Grad exprimiert werden, nur einen einzigen Tag erfordern. Die Bestimmung von
Transkripten, die in mehr als 100 mRNAs pro Zelle exprimiert werden
(0,025% oder mehr), sollte innerhalb weniger Monate durch einen
einzigen Forscher quantifizierbar sein. Die Verwendung von zwei
verschiedenen Verankerungsenzymen stellt sicher, dass nahezu alle
Transkripte der erwünschten
Häufigkeit
identifiziert werden. Die Gene, die jene Marker codieren, von denen
festgestellt wurde, dass sie, basierend auf ihrer differentiellen
Darstellung am interessantesten sind, können durch eine Kombination
von Datenbank-Suche, Hybridisierung und Sequenzanalyse positiv identifiziert
werden, wie es in Tabelle 2 veranschaulicht ist. Augenscheinlich
könnte
die SAGE auch auf die Analyse von anderen Organismen als von Menschen
angewendet werden und auf die direkte Untersuchung von Genen, die
in spezifischen biologischen Zuständen exprimiert werden.
-
Die SAGE, wie sie hier beschrieben
ist, gestattet den Vergleich der Expression zahlreicher Gene zwischen
Geweben oder zwischen verschiedenen Entwicklungszuständen des
gleichen Gewebes, oder zwischen pathologischem Gewebe und seinem
gesunden Gegenspieler. Eine derartige Analyse ist dazu geeignet,
beispielsweise therapeutisch, diagnostisch oder prognostisch relevante
Gene zu identifizieren. Unter den vielen Anwendungsmöglichkeiten
für das
SAGE-Verfahren befindet sich die Identifizierung geeigneter Antisense- oder
Triple-Helix-Reagenzien, die therapeutisch nützlich sein könnten. Des
weiteren können
auch Kandidaten für
eine Gentherapie durch das SAGE-Verfahren identifiziert werden.
Andere Anwendungsmöglichkeiten schließen beispielsweise
diagnostische Anwendungen zur Identifizierung von individuellen
Genen oder Gruppen von Genen ein, von denen gezeigt wird, dass ihre
Expression mit der Predisposition für eine Krankheit, dem Vorliegen
einer Krankheit oder der Prognose für eine Krankheit korreliert.
Ein Häufigkeitsprofil,
wie in das Tabelle 1 dargestellt, ist für die vorstehend beschriebenen
Anwendungen nützlich.
Die SAGE ist auch zum Nachweis von einem Organismus (z. B. einem
Pathogen) in einem Wirt oder zum Nachweis von Infektions-spezifischen
Genen, die durch ein Pathogen in einem Wirt exprimiert werden, geeignet.
-
Die Möglichkeit, eine große Anzahl
von exprimierten Genen in einer kurzen Zeit zu identifizieren, wie es
durch die SAGE der vorliegenden Erfindung beschrieben wurde, liefert
uneingeschränkte
Anwendungsmöglichkeiten.
-
Obwohl die vorliegende Erfindung
in Bezug zu den gegenwärtig
bevorzugten Ausführungsformen
beschrieben worden ist, sollte es klar sein, dass verschiedene Modifizierungen
möglich
sind, ohne dass sie von dem Erfindungsgedanken der vorliegenden
Erfindung abweichen. Dementsprechend wird die vorliegende Erfindung
nur durch die nachfolgenden Ansprüche beschränkt.