DE69627768T2 - Reihenanalyse-Verfahren der Genexpression - Google Patents

Reihenanalyse-Verfahren der Genexpression Download PDF

Info

Publication number
DE69627768T2
DE69627768T2 DE69627768T DE69627768T DE69627768T2 DE 69627768 T2 DE69627768 T2 DE 69627768T2 DE 69627768 T DE69627768 T DE 69627768T DE 69627768 T DE69627768 T DE 69627768T DE 69627768 T2 DE69627768 T2 DE 69627768T2
Authority
DE
Germany
Prior art keywords
marker
double
markers
sequence
oligonucleotide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69627768T
Other languages
English (en)
Other versions
DE69627768D1 (de
Inventor
Kenneth W. Bel Air Kinzler
Victor E. Baltimore Velculescu
Bert Baltimore Vogelstein
Lin Zhang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Johns Hopkins University
School of Medicine of Johns Hopkins University
Original Assignee
Johns Hopkins University
School of Medicine of Johns Hopkins University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/527,154 external-priority patent/US5695937A/en
Application filed by Johns Hopkins University, School of Medicine of Johns Hopkins University filed Critical Johns Hopkins University
Application granted granted Critical
Publication of DE69627768D1 publication Critical patent/DE69627768D1/de
Publication of DE69627768T2 publication Critical patent/DE69627768T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1096Processes for the isolation, preparation or purification of DNA or RNA cDNA Synthesis; Subtracted cDNA library construction, e.g. RT, RT-PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Genexpression und im Besonderen ein Verfahren zur Reihenanalyse der Genexpression (SAGE) für die Analyse einer Vielzahl von Transkripten durch die Herstellung von Doppelmarker-Oligonucleotiden, die mindestens zwei definierte Nucleotidsequenzmarker umfassen, wobei die definierten Nucleotidsequenzmarker eine definierte Region eines Transkripts umfassen, das einer Region des exprimierten Gens entspricht.
  • Hintergrund der Erfindung
  • Die Bestimmung der genomischen Sequenz höherer Organismen, einschließlich des Menschen, ist jetzt ein reales und erreichbares Ziel. Diese Analyse stellt jedoch nur eine Ebene der genetischen Komplexizität dar. Die geordnete und zeitliche Expression von Genen ist eine andere Ebene der Komplexizität und für die Definition und Biologie des Organismus ebenso von Bedeutung.
  • Die Rolle der Sequenzierung von aus mRNA revers transkribierter komplementärer DNA (cDNA) als Teil des Humanen Genomprojekts ist in der Weise diskutiert worden, dass Befürworter der genomischen Sequenzierung die Schwierigkeiten, jede, in all den Geweben, Zelltypen und Entwicklungssstadien exprimierte mRNA aufzufinden, darstellten und sie führten aus, dass viele wertvolle Informationen aus den Intron- und Intergenregionen, einschließlich Kontroll- und Regulatorsequenzen, durch die cDNA-Sequenzierung nicht gefunden werden würden (Report of the Comittee on Mapping and Sequencing the Human Genome, National Academy Press, Washington, D. C., 1988). Die Sequenzierung transkribierter Regionen des Genoms unter Verwendung von cDNA-Libraries ist hierfür bislang als unzureichend angesehen worden. Man nimmt an, dass Libraries für cDNA dominant sind, infolge repetitiver Elemente, mitochondrialer Gene, ribosomaler RNA-Gene und anderer nuklearer Gene, die allgemeine oder Housekeeping-Sequenzen umfassen. Man nimmt an, dass cDNA-Libraries nicht alle Sequenzen bereitstellen, die den strukturellen und regulatorischen Polypeptiden oder Peptiden entsprechen (Putney, et al., Nature, 302: 718, 1983).
  • Ein anderer Nachteil der herkömmlichen cDNA-Klonierung ist, dass manche mRNAs häufig vorkommen, während andere selten vorkommen. Die zellulären Mengen an mRNA von verschiedenen Genen können um mehrere Größenordnungen variieren.
  • Verfahren, die auf der cDNA-Subtraktion oder dem Differential-Display basieren, können für den Vergleich der Genexpression zwischen zwei Zelltypen ganz geeignet sein (Hedrick, et al., Nature, 308: 149, 1984; Liang und Pardee, Science, 257: 967, 1992), sie liefern jedoch nur eine teilweise Analyse, ohne direkte Informationen bezüglich der Häufigkeit von Messenger-RNA. Es ist gezeigt worden, dass das Verfahren des exprimierten Sequenzmarkers (EST) ein wertvolles Arbeitsmittel in der Genforschung darstellt (Adams, et al., Science, 252: 1656, 1991; Adams, et al., Nature, 355: 632, 1992; Okubo, et al., Nature Genetics, 2: 173, 1992), jedoch ähnlich wie das Northern Blotting, die RNase-Protektion und die Analyse mittels reverser Transkriptase-Polymerase-Kettenreaktion (RT-PCR) (Alwine, et al., Proc. Natl. Acad. Sci, U. S. A., 74: 5350, 1977; Zinn, et al., Cell, 34: 865, 1983; Veres, et al., Science, 237: 415, 1987) bewertet sie nur eine begrenzte Anzahl von Genen zur gleichen Zeit. Zudem werden in dem EST-Verfahren vorzugsweise Nucleotidsequenzen von 150 Basenpaaren oder mehr für die Suche nach Ähnlichkeiten und die Zuordnung (mapping) angewendet.
  • Sequenz markierte Stellen (STSs) (Olson, et al., Science, 245: 1434, 1989) sind ebenfalls genutzt worden, um genomi sche Marker für die physikalische Zuordnung des Genoms zu identifizieren. Diese kurzen Sequenzen von physikalisch zugeordneten Klonen stellen eindeutig identifizierte Stellen in der Zuordnungskarte des Genoms dar. Im Gegensatz dazu beruht die Identifizierung von exprimierten Genen auf exprimierten Sequenzmarkern, die Marker für diejenigen Gene sind, die tatsächlich in vivo transkribiert und exprimiert werden.
  • Es besteht Bedarf für ein verbessertes Verfahren, das die schnelle, genaue Analyse von Tausenden von exprimierten Genen für die Untersuchung einer Vielzahl biologischer Anwendungen gestattet, insbesondere zur Untersuchung des Gesamtmusters der Genexpression in verschiedenen Zelltypen oder in dem gleichen Zelltyp unter verschiedenen physiologischen oder pathologischen Bedingungen. Die Identifizierung verschiedener Genexpressionsmuster hat mehrere Anwendungsmöglichkeiten, einschließlich der Identifizierung geeigneter therapeutischer Ziele und von Genen, die Kandidaten für die Gentherapie (z. B. Genersatz) sein könnten, die Gewebetypisierung, ale forensische Identifizierung, die Zuordnung der Lokalisation von Genen, die mit Krankheiten assoziiert sind, und die Identifizierung von diagnostischen und prognostischen Indikator-Genen.
  • Kurzdarstellung der Erfindung
  • Die vorliegende Erfindung liefert ein Verfahren zur schnellen Analyse einer Vielzahl von Transkripten, zur Identifizierung des Gesamtmusters der Genexpression in verschiedenen Zelltypen oder dem gleichen Zelltyp unter verschiedenen physiologischen, Entwicklungs- oder Krankheitsbedingungen. Dieses Verfahren basiert auf der Identifizierung eines kurzen Nucleotidsequenzmarkers an einer definierten Position in einer Messenger-RNA. Dieser Marker wird verwendet, um das entsprechende Transkript und das Gen zu identifizieren, von dem es transkribiert wurde. Durch Verwendung dimerisierter Marker, die als ein "Doppelmarker" bezeichnet werden, gestattet es das Verfahren der vorliegenden Erfindung, bestimmte Typen von Bias zu entfernen, die während der Klonierung und/oder der Amplifikation und möglicherweise während der Auswertung der Daten auftreten können. Die Verknüpfung dieser kurzen Nucleotidsequenzmarker gestattet die wirksame Analyse von Transkripten in der Art einer Reihenanalyse, indem multiple Marker an einem einzelnen DNA-Molekül sequenziert werden, beispielsweise an einem DNA-Molekül, das in einen Vektor oder einen einzelnen Klon eingefügt wurde.
  • Das hier beschriebene Verfahren ist die Reihenanalyse der Genexpression (SAGE), ein neuartiger Ansatz, der die Analyse einer Vielzahl von Transkripten gestattet. Um diese Strategie zu veranschaulichen, wurden aus mRNA kurze cDNA-Sequenzmarker erzeugt, die aus Pankreas isoliert wurde, zufällig unter Bildung von Doppelmarkern miteinander gepaart, verknüpft und kloniert. Die manuelle Sequenzierung von 1 000 Markern lieferte ein Genexpressionsmuster, das für die Funktion des Pankreas charakteristisch ist. Die Identifizierung derartiger Muster ist beispielsweise in diagnostischer und therapeutischer Hinsicht von Bedeutung. Außerdem wurde die Anwendung der SAGE als ein Arbeitsmittel für die Genforschung durch die Identifizierung und Isolierung neuer pankreatischer Transkripte, die den neuartigen Markern entsprechen, dokumentiert. Die SAGE liefert ein breit anwendbares Mittel für die quantitative Katalogisierung und den Vergleich der exprimierten Gene in einer Vielzahl von normalen, entwickelten und Krankheitszuständen.
  • Kurzbeschreibung der Zeichnungen
  • 1 zeigt das Schema der SAGE. In diesem Beispiel ist das erste Enzym, oder das Verankerungsenzym, NlaIII und zweite Enzym, oder das Markierungsenzym, ist FokI. Die Sequenzen stellen die Primer abgeleiteten Sequenzen und Transkript abgeleitete Sequenzen dar, wobei "X" und "O" die Nucleotide der verschiedenen Marker darstellen.
  • 2 zeigt einen Vergleich der Häufigkeit der Transkripte. Die Balken stellen die prozentuale Häufigkeit dar, die mittels SAGE (dunkle Balken) oder Hybridisierungsanalyse (helle Balken) bestimmt wurde. Die Quantifizierungen mittels SAGE wurden aus Tabelle 1 wie folgt abgeleitet: TRY1/2 schließt die Marker für Trypsinogen 1 und 2 ein, PROCAR kennzeichnet die Marker für Procarboxypeptidase A1, CHYMO kennzeichnet die Marken für Chymotrypsinogen und ELA/PRO schließt die Marken für Elastase IIIB und Protease E ein. Die Fehlerbalken kennzeichnen die Standardabweichung, die bestimmt wurde, indem die Quadratwurzel der gezählten Ereignisse ermittelt wurde und in eine prozentuale Häufigkeit umgewandelt wurde (unter Annahme der Poisson-Verteilung).
  • 3 zeigt die Ergebnisse des Screenings einer cDNA-Library mittels SAGE-Marken. P1 und P2 zeigen typische Ergebnisse einer Hybridisierung, die mit 13 Bp Oligonucleotiden erhalten wurden, wie in den Beispielen beschrieben. P1 und P2 entsprechen den in Tabelle 2 beschriebenen Transkripten. Die Bildgebung wurde durch Anwendung eines Molecular Dynamics PhosphorImagers erhalten und der Kreis kennzeichnet den äußeren Rand der Filtermembran, auf die der rekombinante Phage vor der Hybridisierung übertragen wurde.
  • 4 ist ein Blockdiagramm eines Zugangssystems einer Datenbank für einen Markercode gemäß der vorliegenden Erfindung.
  • Beschreibung der bevorzugten Ausführungsformen
  • Die vorliegende Erfindung liefert ein schnelles, quantitatives Verfahren zur Bestimmung der Häufigkeit und Natur von Transkripten, die exprimierten Genen entsprechen. Dieses Verfahren, bezeichnet als Reihenanalyse der Genexpression (SA-GE), basiert auf der Identifizierung und Charakterisierung von teilweise definierten Sequenzen von Transkripten, die Gen-Segmenten entsprechen. Diese definierten Transkriptsequenzen sind Marker für Gene, die beispielsweise in einer Zelle, einem Gewebe oder einem Extrakt exprimiert werden.
  • Die SAGE basiert auf mehreren Prinzipien. Erstens, ein kurzer Nucleotidsequenzmarker (9 bis 10 Bp) enthält ausreichend Informationen zur eindeutigen Identifizierung eines Transkripts, vorausgesetzt, es wird aus einer definierten Position innerhalb des Transkripts isoliert. Eine so kurze Sequenz, wie eine 9 Bp-Sequenz, kann beispielsweise 262 144 Transkripte (49) unterscheiden und gibt eine zufällige Verteilung der Nucleotide an der Markerstelle wieder, wohingegen Abschätzungen vermuten lassen, dass das humane Genom etwa 80 000 bis 200 000 Transkripte codiert (Fields, et al., Nature Genetics, 7: 345, 1994). Die Größe des Markers kann für niedere Eukaryoten oder Prokaryoten kürzer sein, beispielsweise dort, wo die Zahl der durch das Genom codierten Transkripte geringer ist. Ein so kurzer Marker, wie ein 6–7 Bp-Marker, kann beispielsweise zur Unterscheidung von Transkripten in Hefen ausreichend sein.
  • Zweitens, die zufällige Dimerisierung von Markern gestattet ein Verfahren zur Verringerung von Bias (die durch Amplifikation und/oder Klonierung entstehen). Drittens, die Konkatenation dieser kurzen Sequenzmarker gestattet die wirksame Analyse von Transkripten in der Art einer Reihenanalyse, indem multiple Marker innerhalb eines einzelnen Vektors oder Klons sequenziert werden. Durch die reihenmäßige Kommunikation von Computern, in denen die Information als eine kontinuierliche Datenreihe übertragen wird, erfordert die Reihenanalyse der Markersequenzen ein Mittel zur Festlegung des Registers und der Grenzen jedes Markers. Dimerisierte Marker können mit oder ohne Konkatenation oder in Kombination mit anderen bekannten Verfahren zur Identifizierung von Sequenzen verwendet werden.
  • Hinsichtlich einer ersten Ausführungsform liefert die vorliegende Erfindung ein Verfahren zum Nachweis der Genexpression in einer/einem einzelnen Zelle oder Gewebe oder Zellextrakt, beispielsweise einschließlich bei einem einzelnen Entwicklungsstadium oder in einem einzelnen Krankheitszustand. Das Verfahren umfasst die Herstellung von komplementären Desoxyribonucleinsäure- (cDNA) -Oligonukleotiden, die Isolierung eines ersten definierten Nucleotidsequenzmarkers aus einem ersten cDNA-Oligonucleotid und eines zweiten definierten Nucleotidsequenzmarkers aus einem zweiten cDNA-Oligonucleotid, das Binden des ersten Markers an einen ersten Oligonucleotid-Linker, wobei der erste Oligonucleotid-Linker eine erste Sequenz zur Hybridisierung eines Amplifikationsprimers umfasst, und das Binden des zweiten Markers an einen zweiten Oligonucleotid-Linker, wobei der zweite Oligonucleotid-Linker eine zweite Sequenz zur Hybridisierung eines Amplifikationsprimers umfasst, und die Bestimmung der Nucleotidsequenz des/der Marker(s), wobei der/die Marker einem exprimierten Gen entspricht/entsprechen.
  • 1 ist die schematische Darstellung der Analyse von Messenger-RNA (mRNA) mittels SAGE, wie es im Verfahren der vorliegenden Erfindung beschrieben wird. Die mRNA wird aus einer interessierenden Zelle oder aus interessierendem Gewebe für die in vitro-Synthese einer doppelsträngigen DNA-Sequenz durch die reverse Transkription der mRNA isoliert. Das gebildete doppelsträngige DNA-Komplement der mRNA wird als komplementär (cDNA) bezeichnet.
  • Der Begriff "Oligonucleotid" bezeichnet hier Primeroder Oligomer-Fragmente, die aus zwei oder mehreren Desoxyribonucleotiden oder Ribonucleotiden bestehen, vorzugsweise aus mehr als drei. Die genaue Größe hängt von vielen Faktoren ab, die wiederum von der endgültigen Funktion oder Anwendung der Oligonucleotide abhängen.
  • Das Verfahren schließt des weiteren das Ligieren des ersten Markers, der an den ersten Oligonucleotid-Linker gebunden ist, mit dem zweiten Marker, der an den zweiten Oligonucleotid-Linker gebunden ist, und die Bildung eines "Doppelmarkers" ein. Jeder Doppelmarker stellt zwei definierte Nucleo tidsequenzen von mindestens einem Transkript dar, die für mindestens ein Gen repräsentativ sind. Typischerweise stellt ein Doppelmarker zwei Transkripte von zwei unterschiedlichen Genen dar. Die Gegenwart eines definierten cDNA-Markers innerhalb des Doppelmarkers zeigt die Expression eines Gen an, das eine Sequenz des Markers aufweist.
  • Die Analyse von Doppelmarkern, die vor jedem Amplifikationsschritt gebildet werden, liefert ein Mittel zum Ausschluss potenzieller räumlicher Störungen, die durch die Amplifikation, z. B. die PCR, eingeführt werden. Das Paaren der Marker zur Bildung von Doppelmarkern ist ein zufälliges Ereignis. Es wird erwartet, dass die Zahl der verschiedenen Marker groß ist, daher ist die Möglichkeit, dass zwei Marker im gleichen Doppelmarker miteinander gekuppelt werden, gering, sogar für häufige Transkripte. Daher werden sich wiederholende Marker, die bei den herkömmlichen, gebiasten Amplifikationsund/oder Klonierungsverfahren entstehen, durch das Verfahren der vorliegenden Erfindung ausgeschlossen.
  • Der Begriff "definierte" Nucleotidsequenz, oder "definierter" Nucleotidsequenzmarker bezeichnet eine Nucleotidsequenz, die entweder von dem 5'- oder dem 3'-Ende eines Transkripts abgeleitet ist. Die Sequenz wird definiert durch die Spaltung mit einer ersten Restriktionsendonuclease und stellt Nucleotide des entweder 5'- oder 3'-Endes der ersten Restriktionsendonucleasestelle dar, abhängig davon, welches Ende für das Einfangen verwendet wird (z. B. 3'-Ende, wenn Oligo-dT zum Einfangen verwendet wird, wie es hier beschrieben wird) .
  • Die hier verwendeten Begriffe "Restriktionsendonucleasen" oder "Restriktionsenzyme" bezeichnen bakterielle Enzyme, die an eine spezifische doppelsträngige DNA-Sequenz binden, die als eine Erkennungsstelle oder Erkennungsnucleotidsequenz bezeichnet wird, und sie schneiden die doppelsträngige DNA an oder nahe der spezifischen Erkennungsstelle.
  • Die erste Endonuclease, bezeichnet als "Verankerungsenzym" oder "AE" in 1, wird anhand seiner Fähigkeit ausgewählt, ein Transkript mindestens einmal zu spalten und daher einen definierten Sequenzmarker, entweder von dem 5'- oder von dem 3'-Ende des Transkripts, zu erzeugen. Vorzugsweise wird eine Restriktionsendonuclease verwendet, die mindestens eine Erkennungsstelle aufweist und die daher die Fähigkeit besitzt, eine Vielzahl von cDNAs zu spalten. Wie hier veranschaulicht, erwartet man beispielsweise, dass Enzyme, die eine 4 Basenpaare umfassende Erkennungsstelle besitzen, im Durchschnitt jedes 256. Basenpaar (44) spalten, während die meisten Transkripte beträchtlich länger sind. Restriktionsendonucleasen, die eine 4 Basenpaare umfassende Stelle erkennen, schließen NlaIII ein, wie es in den Beispielen der vorliegenden Erfindung veranschaulicht wird. Andere ähnliche Endonucleasen, die mindestens eine Erkennungsstelle innerhalb eines DNA-Moleküls (z. B. cDNA) besitzen, sind dem Fachmann bekannt (siehe beispielsweise Current Protocols in Molecular Biology, Bd. 2, 1995, Hrsg. Ausubel, et al., Greene Publish. Assoc. & Wiley Interscience, Einheit 3,1,15; New England Biolabs Catalog, 1995).
  • Nach der Spaltung mit dem Verankerungsenzym kann die 5'- oder die 3'-nächste Region der gespaltenen cDNA isoliert werden, indem sie an ein Einfangmedium gebunden wird. Wie in den Beispielen der vorliegenden Erfindung veranschaulicht, können beispielsweise Streptavidin-Kügelchen verwendet werden, um den definierten 3'-Nucleotidsequenzmarker zu isolieren, wenn der Oligo-dT-Primer für die cDNA-Synthese biotinyliert ist. In diesem Beispiel liefert die Spaltung mit dem ersten oder dem Verankerungsenzym eine eindeutige Stelle an jedem Transkript, die der Restriktionsstelle entspricht, die sich am engsten benachbart zu dem Poly-A-Schwanz befindet. Ähnlich kann für die Isolierung eines 5'-definierten Nucleotidsequenzmarkers das 5'-Ende eines Transkripts (die cDNA) zur Markierung oder Bindung eines einfangenden Mittels genutzt werden. Der Fachmann wird andere ähnliche Einfangsysteme (z. B. Bio tin/Streptavidin, Digoxigenin/anti-Digoxigenin) zur Isolierung des definierten Sequenzmarkers, wie hier beschrieben, kennen.
  • Die vorliegende Erfindung ist nicht auf die Verwendung einer einzelnen „verankernden" oder ersten Restriktionsendonuclease beschränkt. Es kann erwünscht sein, das Verfahren der vorliegenden Erfindung aufeinanderfolgend, unter Verwendung verschiedener Enzyme auf getrennten Proben einer Präparation durchzuführen, um für eine Zelle oder für Gewebe ein vollständiges Transkriptionsmuster zu identifizieren. Zudem bestätigt die Verwendung von mehr als einem Verankerungsenzym das durch das erste Verankerungsenzym erhaltene Expressionsmuster. Daher ist es auch vorgesehen, dass die erste oder die Verankerungsendonuclease selten cDNA derart schneiden sollte, dass nur wenig oder keine der die häufigen Transkripte darstellenden cDNA gespalten wird. Somit stellen die gespaltenen Transkripte „eindeutige bzw. einzigartige" Transkripte dar. Restriktionsenzyme, die beispielsweise eine 7–8 Bp umfassende Erkennungsstelle aufweisen, sind Enzyme, die selten cDNA schneiden. Ähnlich kann, wie nachstehend beschrieben, mehr als ein Markierungsenzym verwendet werden, um ein vollständiges Transkriptionsmuster zu identifizieren.
  • Der Begriff „isoliert" schließt hier Polynucleotide ein, die im Wesentlichen frei von anderen Nucleinsäuren, Proteinen, Lipiden, Kohlenhydraten oder anderen Materialien sind, mit denen sie natürlich assoziiert sind. cDNA kommt in dieser Weise nicht natürlich vor, sie wird stattdessen durch die Manipulation einer teilweise gereinigten, natürlich vorkommenden mRNA gewonnen. Die Isolierung eines definierten Sequenzmarkers bezeichnet die Reinigung des 5'- oder 3'-Markers aus anderer als aus gespaltener cDNA.
  • In einer Ausführungsform werden die isolierten definierten Nucleotidsequenzmarker, dann, wenn die Linker verschiedene Sequenzen aufweisen, in zwei getrennte cDNA-Pools aufgeteilt. Jeder Pool wird über die Verankerungs- oder erste Restriktionsendonucleasestelle an einen der beiden Linker li giert. Besitzen die Linker die gleiche Sequenz, ist es nicht erforderlich, die Marker in getrennte Pools aufzuteilen. Der erste Oligonucleotid-Linker umfasst eine erste Sequenz zur Hybridisierung eines Amplifikationsprimers und der zweite Oligonucleotid-Linker umfasst eine zweite Sequenz zur Hybridisierung eines Amplifikationsprimers. Zudem umfassen die Linker des weiteren eine zweite Restriktionsendonucleasestelle, die auch als das „Markierungsenzym" oder „TE" bezeichnet wird. Das Verfahren der vorliegenden Erfindung erfordert nicht die Amplifikation der Doppelmarker-Oligonucleotide nach der Ligierung, umfasst diese jedoch vorzugsweise.
  • Die zweite Restriktionsendonuclease spaltet an einer Stelle, die sich von der Erkennungsstelle entfernt befindet oder außerhalb dieser liegt. Beispielsweise kann die zweite Restriktionsendonuclease ein IIS Typ-Erkennungsenzym sein. IIS Typ Restriktionsendonucleasen spalten in einer definierten Entfernung, die bis zu 20 Bp von ihrer asymmetrischen Erkennungsstelle entfernt sein kann (Szybalski, W., Gene, 40: 169, 1985). Beispiele für die IIS Typ-Restriktionsendonucleasen schließen BsmFI und FokI ein. Andere ähnliche Enzyme werden dem Fachmann bekannt sein (siehe Current Protocols in Molecular Biology, supra).
  • Die ersten und zweiten „Linker", die an definierte Nucleotidsequenzmarker ligiert werden, sind Oligonucleotide, die die gleiche oder verschiedene Nucleotidsequenzen aufweisen. Beispielsweise schließen die Linker, die in den Beispielen der vorliegenden Erfindung veranschaulicht sind, Linker ein, die verschiedene Sequenzen aufweisen:
    Figure 00110001
    Figure 00120001
    (SEQ-ID-Nr.: 4), worin A ein Didesoxynucleotid ist (z. B. Didesoxy-A). Andere ähnliche Linker können in dem Verfahren der vorliegenden Erfindung verwendet werden, der Fachmann kann derartige alternative Linker gestalten.
  • Die Linker werden so gestaltet, dass die Spaltung der Ligierungsprodukte mit dem zweiten Restriktionsenzym, oder Markierungsenzym, zur Freisetzung des Linkers führt, der den definierten Nucleotidsequenzmarker aufweist (z. B. 3'-Ende der Spaltstelle der Restriktionsendonuclease, wie hier ausgeführt). Der definierte Nucleotidsequenzmarker kann eine Größe von etwa 6 bis 30 Basenpaare aufweisen. Vorzugsweise kann der Marker eine Größe von etwa 9 bis 11 Basenpaare aufweisen. Daher beträgt die Größe eines Doppelmarkers etwa 12 bis 60 Basenpaare, vorzugsweise von 18 bis 22 Basenpaare.
  • Der Pool definierter Marker, die an Linker ligiert sind, welche die gleiche Sequenz aufweisen, oder die zwei Pools definierter Nucleotidsequenzmarker, die an Linker ligiert sind, welche verschiedene Nucleotidsequenzen aufweisen, werden zufällig miteinander "Schwanz-an-Schwanz" ligiert. Der Teil des cDNA-Markers, der am weitesten von dem Linker entfernt ist, wird als der "Schwanz" bezeichnet. Wie in 1 veranschaulicht, besitzt das ligierte Markerpaar, oder der Doppelmarker, eine erste Restriktionsendonucleasestelle upstream (strangaufwärts) (5') und eine erste Restriktionsendonucleasestelle downstream (strangabwärts) (3') des Doppelmarkers; eine zweite Spaltstelle der Restriktionsendonuclease upstream und downstream des Doppelmarkers, und ein Linker-Oligonucleotid, das sowohl eine zweite Erkennungsstelle des Restriktionsenzyms und eine Hybridisierungsstelle des Amplifikationsprimers upstream und downstream des Doppelmarkers enthält. Mit anderen Worten, der Doppelmarker wird von der ersten Restriktionsendonucleasestelle, der zweiten Restriktionsendonucleasestelle bzw. den Linkern begrenzt.
  • Der Doppelmarker kann amplifiziert werden unter Verwendung von Primern, die spezifisch an einen Strang jedes Linkers hybridisieren. Vorzugsweise wird die Amplifikation mittels des herkömmlichen Polymerase-Kettenreaktions-Verfahrens (PCR), wie beschrieben ( US 4 683 195 ) durchgeführt. Alternativ können die Doppelmarker durch Klonierung in Prokaryoten-kompatible Vektoren oder mittels anderer Amplifikationsverfahren, die dem Fachmann bekannt sind, hergestellt werden.
  • Der Begriff "Primer" bezeichnet hier ein Oligonucleotid, entweder ein natürlich vorkommendes oder ein synthetisch hergestelltes, das in der Lage ist, als ein Startpunkt der Synthese zu wirken, wenn Bedingungen vorliegen, in denen die Synthese des Ausdehnungsprodukts bzw. Verlängerungsprodukts des Primers, das zu einem Nucleinsäurestrang komplementär ist, induziert wird, d.h. in Gegenwart von Nucleotiden und einem Polymersationsmittel, wie einer DNA-Polymerase, und bei einer geeigneten Temperatur und einem geeigneten pH-Wert. Um eine maximale Wirksamkeit in der Amplifikation zu erreichen, ist der Primer vorzugsweise einsträngig. Vorzugsweise ist der Primer Oligodesoxyribonucleotid. Um die Synthese der Ausdehnungsprodukte in Gegenwart des Polymerisationsmittels zu erreichen, muss der Primer ausreichend lang sein. Die genauen Längen der Primer sind von vielen Faktoren abhängig, einschließlich der Temperatur und der Quelle des Primers.
  • Die hier verwendeten Primer werden danach ausgewählt, ob sie zu den verschiedenen Strängen jeder spezifischen, zu amplifizierenden Sequenz "im Wesentlichen" komplementär sind. Das bedeutet, dass die Primer für die Hybridisierung mit ihren entsprechenden Strängen ausreichend komplementär sein müssen. Daher muss die Primersequenz nicht die genaue Sequenz der Kopiervorlage widerspiegeln. In der vorliegenden Erfindung sind die Primer im Wesentlichen komplementär zu den Oligonucleotid-Linkern.
  • Für die Amplifikation der hier beispielhaft aufgeführten Linker der SEQ-ID-Nr.: 1–4 geeignete Primer schließen 5'
    Figure 00140001
    kann ähnliche Primer für die Amplifikation herstellen, basierend auf der Nucleotidsequenz der Linker, ohne dass er dafür unangemessene Versuche durchführen muss.
  • Die Spaltung des amplifizierten PCR-Produkts mit der ersten Restriktionsendonuclease gestattet die Isolierung von Doppelmarkern, die durch Ligierung verknüpft werden können. Nach der Ligierung kann es erwünscht sein, die Konkatemere zu klonieren, obwohl es in dem Verfahren der vorliegenden Erfindung nicht erforderlich ist. Die Analyse der Doppelmarker oder Konkatemere, ob nun eine Amplifikation durchgeführt wurde oder nicht, erfolgt mittels herkömmlicher Sequenzierungsverfahren. Konkatemere bestehen im Allgemeinen aus etwa 2 bis 200 Doppelmarkern und vorzugsweise aus etwa 8 bis 20 Doppelmarkern. Da dies bevorzugte Konkatemere sind, ist es augenscheinlich, dass die Zahl der Doppelmarker, die miteinander verknüpft werden können, von der Länge der individuellen Marker abhängt und diese kann von dem Fachmann leicht bestimmt werden, ohne dass er dafür unangemessene Versuche durchführen muss. Nach der Bildung der Konkatemere können für die Sequenzanalyse multiple Marker in einen Vektor kloniert werden, oder alternativ können Doppelmarker oder Konkatemere direkt, ohne Klonierung sequenziert werden, mittels Verfahren, die dem Fachmann bekannt sind.
  • Unter den Standardverfahren zur Klonierung der definierten Nucleotidsequenzmarker der vorliegenden Erfindung befindet sich das Einfügen der Marker in Vektoren wie in Plasmide oder Phage. Die mittels des hier beschriebenen Verfahrens hergestellten Doppelmarker oder die Konkatemere der Doppelmarker werden für die nachfolgende Analyse, d.h. Sequenzanalyse, Plaque/Plasmid-Hybidisierung unter Verwendung der Marker als Sonden, in rekombinante Vektoren kloniert, mittels Verfahren, die dem Fachmann bekannt sind.
  • Der Begriff "rekombinanter Vektor" bezeichnet ein Plasmid, Virus oder ein anderes, auf dem Fachgebiet bekanntes Vehikel, das durch Einfügen oder Einschließen der genetischen Sequenzen der Doppelmarker manipuliert worden ist. Derartige Vektoren enthalten eine Promotorsequenz, die beispielsweise die wirksame Transkription der genetischen Sequenz des Markers erleichtert. Der Vektor enthält typischerweise einen Startpunkt für die Replikation, einen Promotor, als auch spezifische Gene, welche die phenotypische Selektion der transformierten Zellen gestatten. Zur Verwendung in der vorliegenden Erfindung geeignete Vektoren schließen beispielsweise pBlueScript (Stratagene, La Jolla, CA); pBC, pSL301 (Invitrogen) und andere ähnliche Vektoren ein, die dem Fachmann bekannt sind. Vorzugsweise werden die Doppelmarker oder die Konkatemere davon zum Zweck der Sequenzierung in einen Vektor ligiert.
  • Vektoren, in die die Doppelmarker kloniert sind, können in eine geeignete Wirtszelle überführt werden. "Wirtszellen" sind Zellen, in denen sich ein Vektor vermehrt und seine DNA exprimiert. Dieser Begriff schließt auch alle Nachkommen der Wirtszelle ein. Es ist verständlich, dass nicht alle Nachkommen mit den elterlichen Zellen identisch sind, da während der Replikation Mutationen vorkommen können. Derartige Nachkommen sind jedoch auch eingeschlossen, wenn der Begriff "Wirtszelle" verwendet wird. Verfahren der stabilen Übertragung, die bedeuteten, dass die Fremd-DNA ständig in dem Wirt erhalten wird, sind in dem Fachgebiet bekannt.
  • Die Transformation einer Wirtszelle mit einem Doppelmarker enthaltenden Vektor kann mittels Standverfahren, die dem Fachmann bekannt sind, ausgeführt werden. Ist der Wirt ein Prokaryot, wie E. coli, können kompetente Zellen, die zur Aufnahme von DNA in der Lage sind, aus den nach der exponentiellen Wachstumsphase geernteten Zellen hergestellt werden und darauf folgend mittels des CaCl2-Verfahrens behandelt werden, unter Anwendung der auf dem Fachgebiet bekannten Verfahren. Alternativ können MgCl2 oder RbCl verwendet werden. Die Trans formation kann auch durch Elektroporation oder anderer herkömmlicher, auf dem Fachgebiet bekannter Verfahren ausgeführt werden.
  • Die Doppelmarker in einem einzelnen Klon können mittels Standardverfahren sequenziert werden (siehe beispielsweise Current Protocols in Molecular Biology, supra, Einheit 7), entweder manuell oder durch Anwendung automatisierter Verfahren.
  • In einer anderen Ausführungsform liefert die vorliegende Erfindung ein Kit, das zum Nachweis der Genexpression geeignet ist, wobei die Gegenwart eines Doppelmarkers die Expression eines Gens anzeigt, das eine Sequenz des Markers aufweist, das Kit einen oder mehrere Behältnisse umfasst, umfassend ein erstes Behältnis, enthaltend einen ersten Oligonucleotid-Linker mit einer ersten Sequenz, die zur Hybridisierung eines Amplifikationsprimers geeignet ist; ein zweites Behältnis, enthaltend einen zweiten Oligonucleotid-Linker mit einer zweiten Sequenz, die zur Hybridisierung eines Amplifikationsprimers geeignet ist, wobei die Linker des weiteren eine Restriktionsendonukleasestelle zur Spaltung von DNA an einer Stelle, die entfernt von der Erkennungsstelle der Restriktionsendonuclease ist, umfassen; und ein drittes und viertes Behältnis mit Nucleinsäureprimern zur Hybidisierung mit der ersten und zweiten eindeutigen Sequenz des Linkers. Es ist augenscheinlich, dass dann, wenn die Oligonucleotid-Linker die gleiche Nucleotidsequenz umfassen, nur ein die Linker enthaltendes Behältnis in dem Kit der vorliegenden Erfindung erforderlich ist.
  • In einer noch anderen Ausführungsform liefert die vorliegende Erfindung eine Ologonucleotid-Zusammensetzung mit mindestens zwei definierten Nucleotidsequenzmarkern, wobei die definierte Nucleotidsequenzmarker die Sequenz 5' von einer 5'nächsten Spaltstelle einer Restriktionsendonuclease oder 3' von einer 3'-nächsten Spaltstelle einer Restriktionsendonuclease in einer Volllängen-cDNA umfasst, wobei mindestens einer der Sequenzmarker mindestens einem exprimierten Gen entspricht. Die Zusammensetzung besteht aus etwa 1 bis 200 Doppelmarkern, und vorzugsweise aus etwa 8 bis 20 Doppelmarkern. Derartige Zusammensetzungen sind zur Analyse der Genexpression zur Identifizierung des definierten Nucleotidsequenzmarkers, der einem exprimierten Gen z. B. in einer Zelle, in Gewebe oder einem Zellextrakt entspricht, geeignet.
  • Es ist vorgesehen, dass die Identifizierung von differentiell exprimierten Genen mittels des SAGE-Verfahrens der vorliegenden Erfindung in Kombination mit anderen genomischen Verfahren verwendet werden kann. Doppelmarker können beispielsweise mit Oligonucleotiden hybridisiert werden, die auf einem festen Träger (z. B. Nitrocellulosefilter, Glasplättchen, Silikonchip) immobilisiert sind. Derartige Verfahren schließen die "parallele Sequenzanalyse" oder PSA ein, die nachstehend beschrieben wird. Die Sequenz von Doppelmarkern, die durch das Verfahren der vorliegenden Erfindung gebildet wurden, kann auch mittels eingeschränkter Verdünnungen unter Anwendung von Verfahren, die das klonale Sequenzieren (CS) einschließen, bestimmt werden.
  • PSA wird somit nach der Herstellung des Doppelmarkers durchgeführt, wobei die Oligonucleotidsequenzen, an die die Doppelmarker hybridisiert werden, vorzugsweise unmarkiert sind und der Doppelmarker ist vorzugsweise nachweisbar markiert. Alternativ kann stattdessen das Oligonucleotid als der Doppelmarker markiert sein. Der Doppelmarker kann nachweisbar markiert sein, beispielsweise mit einem radioaktiven Isotop, einer fluoreszierenden Verbindung, einer biolumineszenten Verbindung, einer chemilumineszenten Verbindung, einem Metallchelator, oder einem Enzym. Der Fachmann wird andere geeignete Markierungen, die zur Bindung an den Doppelmarker geeignet sind, kennen oder er wird in der Lage sein, derartige mittels Durchführung von Routineversuchen zu bestimmen. Die PCR kann beispielsweise mit markierten (z. B. Fluorescein-markiert) Pri mern durchgeführt werden. Die Doppelmarker enthalten vorzugsweise eine fluoreszierende Endmarkierung.
  • Die markierten oder unmarkierten Doppelmarker werden in einsträngige Moleküle getrennt, die vorzugsweise reihenmäßig verdünnt werden und einem festen Träger (z. B. ein Silikonchip wie beschrieben von Fodor, et al., Science, 251: 767, 1991) zugesetzt werden, der Oligonucleotide enthält, die beispielsweise jede mögliche Permutation eines 10-mers enthalten (z. B. in jedem Raster eines Chips). Der feste Träger wird anschließend verwendet, um die differentielle Expression des in dem Träger (z. B. auf einem Raster auf einem Chip) enthaltenen Markers zu bestimmen, durch Hybridisierung der Oligonucleotide auf dem festen Träger mit den Markern, die von Zellen unter unterschiedlichen Bedingungen (z. B. unterschiedliches Stadium der Entwicklung, Wachstum von Zellen in Gegenwart oder Abwesenheit eines Wachstumsfaktors, normale versus transformierte Zellen, Vergleich unterschiedlicher Gewebeexpression, usw.) hergestellt werden. Im Fall von fluoreszierenden endmarkierten Markern zeigt die Analyse der Fluoreszenz die Hybridisierung an ein einzelnes 10-mer an. Ist das immobilisierte Oligonucleotid beispielsweise Fluoreszenz-markiert, wird ein Fluoreszenzverlust infolge Abschreckens (durch die Nähe des hybridisierten Doppelmarkers zu dem markierten Oligo) beobachtet und hinsichtlich des Genexpressionsmusters analysiert. Ein Veranschaulichungsbeispiel des Verfahrens wird hier in Beispiel 4 dargestellt.
  • Das SAGE-Verfahren der vorliegenden Erfindung ist auch für die klonale Sequenzierung geeignet, ähnlich der eingeschränkten Verdünnungsverfahren, die zur Klonierung von Zelllinien angewendet werden. Doppelmarker oder Konkatemere davon werden beispielsweise verdünnt und individuellen Aufnahmebehältnissen in der Art zugesetzt, dass jedes Aufnahmebehältnis weniger als ein DNA-Molekül pro Aufnahmebehältnis enthält. Die DNA in jedem Aufnahmebehältnis wird amplifiziert und mittels der auf dem Fachgebiet bekannten Standardverfahren, ein schließlich der Massenspektrometrie, analysiert. Die Auswertung der differentiellen Expression wird ausgeführt, wie vorstehend für die SAGE beschrieben.
  • Der Fachmann kann leicht andere Analysenverfahren für Doppelmarker, die, wie in der vorliegenden Erfindung beschrieben, durch SAGE hergestellt werden, bestimmen, ohne dass unangemessene Versuche durchgeführt werden müssen.
  • Das Konzept zum Ableiten eines definierten Markers von einer Sequenz gemäß der vorliegenden Erfindung ist dazu geeignet, die Marker von Proben einer Sequenzdatenbank zuzuordnen. In einer bevorzugten Ausführungsform wird ein Computerverfahren angewendet, um die Sequenz einer Probe bekannten Sequenzen zuzuordnen.
  • In einer Ausführungsform wird ein Sequenzmarker für eine Probe mit der entsprechenden Information in einer Sequenzdatenbank verglichen, um bekannte Sequenzen zu identifizieren, welche der Probensequenz zugeordnet werden können. Für jede Sequenz in der Sequenzdatenbank lassen sich ein oder mehrere Marker bestimmen, so lange die N Basenpaare sich benachbart zu jeder Verankerungsenzymstelle innerhalb der Sequenz befinden. In der bevorzugten Ausführungsform wird jedoch nur die erste Verankerungsenzymstelle am 3'-Ende zur Bestimmung eines Markers verwendet. In der bevorzugten Ausführungsform befinden sich die benachbarten Basenpaare, die einen Marker definieren, an der 3'-Seite der Verankerungsenzymstelle und N beträgt vorzugsweise 9.
  • Es kann eine lineare Suche in einer derartigen Datenbank durchgeführt werden. In der bevorzugten Ausführungsform wird jedoch ein Sequenzmarker einer Probe in eine eindeutige numerische Darstellung umgewandelt, indem jedes Basenpaar (A, C, G oder T) eines N-Basenmarkers in eine Nummer oder einen "Markercode" umgewandelt wird (z. B. A = O, C = 1, G = 2, T = 3, oder jede andere geeignete Zuordnung). Für jede Sequenz einer Sequenzdatenbank wird der Marker, wie vorstehend beschrieben, bestimmt und der Marker wird in ähnlicher Weise in einen Mar kercode umgewandelt. In der bevorzugten Ausführungsform wird ein Satz an Markercodes für eine Sequenzdatenbank in einer Signaldatei gespeichert. Der Markercode für eine Probensequenz wird mit den Markercodes in der Signaldatei verglichen, um die Lokalisation der Sequenz, die dem Probenmarkercode entspricht, in der Sequenzdatenbank zu bestimmen. (Es können multiple entsprechende Sequenzen auftreten, wenn die Sequenzdatenbank Redundanzen aufweist).
  • 4 ist ein Blockdiagramm eines Zugangssystems einer Datenbank für einen Markercode gemäß der vorliegenden Erfindung. Eine Sequenzdatenbank 10 (z. B. die Humane Genom Sequenzdatenbank) wird, wie vorstehend beschrieben derart ablaufen lassen, dass die jeweilige Sequenz einen Markercode besitzt, der in der Signaldatei 12 bestimmt und gespeichert wird. Ein Probenmarkercode X für eine Probe wird, wie vorstehend beschrieben, bestimmt und im Datenspeicher 14 eines Computers gespeichert. Der Probenmarkercode X wird in der Signaldatei 12 bezüglich eines Sequenzmarkercodes, der sich zuordnen lässt, verglichen. Wurde eine Zuordnung gefunden, wird ein Signal, das mit dem zugeordneten Sequenzmarkercode assoziiert ist, verwendet, um die entsprechende Sequenz in die Sequenzdatenbank 10 einzugeben.
  • Die Signaldatei 12 (pointer file 12) kann in jedem beliebigen der verschiedenen Formate vorliegen. In einem Format umfasst jeder Eintrag der Signaldatei 12 einen Markercode und ein Signal eines entsprechenden Datensatzes in der Sequenzdatenbank 10. Der Probenmarkercode X kann in einer linearen Suche mit den Sequenzmarkercodes verglichen werden. Alternativ können die Sequenzmarkercodes sortiert werden und es kann eine binäre (binary) Suche durchgeführt werden. Als andere Alternative können die Sequenzmarkercodes in eine hierachische Baumstruktur strukturiert werden (z. B. ein B-Baum), oder als eine einzel- oder doppel-verknüpfte Liste, oder in jede andere beliebige suchbare Datenbankstruktur oder -format.
  • In der bevorzugten Ausführungsform umfasst jeder Eintrag der Signaldatei 12 nur ein Signal für einen entsprechenden Datensatz in der Sequenzdatenbank 10. Beim Aufbau der Signaldatei 12 wird jeder Sequenzmarkercode einem Eintrag in der Signaldatei 12 zugeordnet, die dem wert des Markercodes entspricht. Lag beispielsweise ein Sequenzmarkercode von "1043" vor, würde ein Signal in dem entsprechenden Datensatz in der Sequenzdatenbank 10 in dem Eintrag #1043 der Signaldatei 12 gespeichert. Der Wert eines Probenmarkercodes X kann verwendet werden, um direkt die Lokalisation in der Signaldatei 12 anzusteuern, die dem Probenmarkercode X entspricht und somit schnell das Signal zugänglich zu machen, das in der Lokalisation gespeichert ist, um die Sequenzdatenbank 10 anzusteuern.
  • Da nur vier Werte erforderlich sind, um alle möglichen Basenpaare darzustellen, führt die Verwendung binär codierter Dezimalzahlen (BCD) für Markercodes in Verbindung mit der bevorzugten Struktur der Signaldatei 12 zu einer "ausgedünnten (sparse)" Signaldatei 12, die den Datenspeicher oder den Speicherplatz verwirft. Dem entsprechend überträgt die vorliegende Erfindung in bekannter Weise den Markercode in Base Nummer 4 (d.h. 2 Bits pro Codeziffer), was zu einer kompakten Struktur der Signaldatei 12 führt. Beispielsweise würde die vierbasige Darstellung für eine Markersequenz "AGCT" mit A = 002, G = 012, G = 102, T = 112 in binärer Form "00011011" betragen. Im Gegensatz dazu würde die BCD-Darstellung "00000000 00000001 00000010 000000011" sein. Es sollte natürlich klar sein, dass andere Zuordnungen von Basenpaaren zu Codes eine äquivalente Funktion liefern würden.
  • Das Konzept zur Ableitung eines definierten Markers von einer Probensequenz gemäß der vorliegenden Erfindung ist ebenfalls für den Vergleich verschiedener Proben hinsichtlich Ähnlichkeit geeignet. In einer bevorzugten Ausführungsform wird ein Computerverfahren verwendet, um die Sequenzmarker von verschiedenen Proben zuzuordnen. Beispielsweise kann bei dem Vergleich von Material, das eine große Anzahl von Sequenzen auf weist (d. h. Gewebe), die Häufigkeit des Auftretens von verschiedenen Markern in einer ersten Probe aus der Zuordnung zugeordnet werden, so lange die Markercodes in einer Verteilungsstruktur oder in einer Datenstruktur des Histogramm-Typs gespeichert sind. Es kann beispielsweise eine Tabelle verwendet werden, die ähnlich strukturiert ist wie die Signaldatei 12 in 4, in der jeder Eintrag einen Wert für die Frequenz des Auftretens umfasst. Danach können die verschiedenen Marker in einer zweiten Probe erzeugt werden, in Markercodes umgewandelt werden und mit der Tabelle verglichen werden, indem mit dem Markercode direkt Tabelleneinträge angesteuert werden. Für die Anzahl der gefundenen Zuordnungen als auch für die Lokalisation der Zuordnungen kann ein Zähler vergeben werden, der in Textform oder in grafischer Form durch eine Ausgabevorrichtung ausgegeben wird, und/oder für die spätere Verwendung in dem Datenspeichersystem gespeichert wird.
  • Die Aspekte der vorliegenden Erfindung bezüglich des Markervergleichs können in Hardware oder Software oder in einer Kombination aus beiden ausgeführt werden. Diese Aspekte der vorliegenden Erfindung können vorzugsweise in Computerprogramme implementiert werden, die auf einem programmierbaren Computer ablaufen, umfassend einen Prozessor, ein Datenspeichersystem (einschließlich flüchtiger und nicht-flüchtiger Speicherung und/oder Speicherelementen), mindestens eine Eingabevorrichtung, und mindestens eine Ausgabevorrichtung. Die Dateneingabe durch eine oder mehrere Eingabevorrichtungen für die zeitweise oder ständige Speicherung in dem Datenspeichersystem schließt Sequenzen ein und sie kann vorher erzeugte Marker oder Markercodes für bekannte und/oder unbekannte Sequenzen einschließen. Für die eingegebenen Daten wird ein Programmcode angewendet, um die vorstehend beschriebenen Funktionen auszuführen und die Ausgabeinformation zu erzeugen. Die Ausgabeinformation wird in der bekannten Weise in eine oder mehrere Ausgabevorrichtungen übertragen.
  • Jedes derartige Computerprogramm wird vorzugsweise in einem Speichermedium oder einer Speichervorrichtung gespeichert (z. B. ROM oder Magnetdiskette), die durch allgemeine oder für spezielle Zwecke programmierbare Computer lesbar ist, um den Computer zu konfigurieren und arbeiten zu lassen, wenn das Speichermedium oder die Speichervorrichtung von dem Computer zur Durchführung der hier beschriebenen Verfahren gelesen wird. Das erfindungsgemäße System kommt ebenfalls zur Ausführung als ein Computer-lesbares Speichermedium in Betracht, konfiguriert mit einem Computerprogramm, wobei das so konfigurierte Speichermedium bewirkt, dass ein Computer zur Durchführung der hier beschriebenen Funktionen in einer spezifischen und vordefinierten Weise arbeitet.
  • Die nachfolgenden Beispiele dienen der Veranschaulichung und sollen die vorliegende Erfindung nicht einschränken. Da sie typisch für diejenigen sind, die verwendet werden können, können alternativ andere Verfahren, die dem Fachmann bekannt sind verwendet werden.
  • Beispiele
  • Zum Zweck der Veranschaulichung wurde das SAGE-Verfahren der vorliegenden Erfindung angewendet, um die Genexpression im humanen Pankreas zu charakterisieren. NlaIII wurde als die erste Restriktionsendonuclease, oder als Verankerungsenzym, und BsmFI als die zweite Restriktionsendonuclease, oder als Markierungsenzym, verwendet, was einen 9 Bp-Marker lieferte. Es wurde erwartet, dass BsmFI den komplementären Strang 14 Bp 3' zur Erkennungsstelle GGGAC spaltet und eine 4 Bp große 5'-überhängende Sequenz liefert (New England Biolabs). Es wurde erwartet, dass die Überlappung der BsmFI- und NlaIII (CATG)-Stellen, als (GGGACATG) gekennzeichnet, zu einem 11 Bp-Marker führt. Die Analyse ließ jedoch vermuten, dass BsmFI unter den angewendeten Spaltungsbedingungen (37°C) häufig näher an seiner Erkennungsstelle spaltete, minimal 12 Bp 3' zu seiner Erkennungsstelle. Daher wurde für die Analyse der Marker nur die verwendet, die 9 Bp am engsten zu der Verankerungsenzymstelle lag. Die Spaltung bei 65°C führte zu einem weitaus beständigerem 11 Bp-Marker.
  • Die Computeranalyse humaner Transkripte von der GenBank bewies, dass mehr als 95% der Marker mit einer Länge von 9 Bp nahezu eindeutig waren und dass der Einschluss von zwei zusätzlichen Basen eine geringfügig zusätzliche Auflösung lieferte. Es wurden humane Sequenzen (84 300) aus der Datenbank der GenBank 87 extrahiert, mittels des Findseq-Programms, das von dem IntelliGenetics Bionet online-Service bereitgestellt wird. Alle weiteren Analysen wurden mit einem SAGE-Programm durchgeführt, das für das Microsoft-Windows-Arbeitssystem in Microsoft Visual Basic geschrieben ist. Das Analysenprogramm der SAGE-Datenbank wurde dahingehend programmiert, dass nur Sequenzen eingeschlossen sind, die in der Locusbeschreibung mit "RNA" bezeichnet sind und es sind Einträge ausgeschlossen, die mit "EST" bezeichnet sind, was zu einer Verminderung auf 13 241 Sequenzen führte. Die Analyse dieses Sequenzsatzes unter Anwendung von NlaIII als Verankerungsenzym zeigte, dass 4 127 neun Bp-Marken einheitlich waren, während 1 511 Marken in nur mehr als einem Eintrag gefunden wurden. Der Nucleotidvergleich eines zufällig ausgewählten Satzes (100) der späteren Einträge zeigte, dass mindestens 83% durch redundante Datenbankeinträge für das gleiche Gen oder stark verwandte Gene (> 95% Identität über mindestens 250 Bp) zustande gekommen waren. Dies ließ vermuten, dass 5381 die 9 Bp-Marker (95,5%) einzigartig für das Transkript oder eine hoch konservierte Familie von Transkripten waren. Ähnlich führte die Analyse des gleichen Satzes der GenBank mit einem 11 Bp-Marker nur zu einer 6% Abnahme in den sich wiederholenden Markern (1511 bis 1425) anstatt der 94% Abnahme, die erwartet würde, wenn die sich wiederholenden Marken nicht verwandten Transkripten entsprachen.
  • Beispiel 1
  • Wie vorstehend ausgeführt, wurde mRNA von humanen Pankreas verwendet, um Doppelmarker zu erzeugen. Fünf μg mRNA aus Gesamtpankreas (Clontech) wurden in doppelsträngige cDNA umgewandelt, unter Anwendung eines BRL-cDNA-Synthese-Kits entsprechend dem Protokoll der Hersteller, mittels des Biotin-5'T18-3'-Primers. Anschließend wurde die cDNA mit NlaIII gespalten und die 3'-Restriktionsfragmente durch Bindung an magnetische Streptavidin-Kügelchen (Dynal) isoliert. Die gebundene DNA wurde in zwei Pools geteilt und an jeden Pool wurde einer der nachfolgenden Linker ligiert:
    Figure 00250001
    Nach ausgedehnten Waschen zur Entfernung der nicht ligierten Linker wurden die Linker und die benachbarten Marker durch Spaltung mit BsmFI freigesetzt. Die entstehenden Überhänge wurden mit T4-Polymerase aufgefüllt und die Pools wurden vereinigt und miteinander ligiert bzw. ligasiert. Das erwünschte Ligierungsprodukt wurde anschließend über 25 Zyklen unter Verwendung von
    Figure 00250002
    amplifiziert. Anschließend wurde die PCR-Reaktion durch Polyacrylamidgel-Elektrophorese analysiert und das erwünschte Produkt wurde herausgeschnitten. Es wurden anschließend zusätzliche 15 PCR-Zyklen durchgeführt, um ausreichend Produkt für eine wirksame Ligierung und Klonierung zu erzeugen.
  • Die PCR-Doppelmarker-Produkte wurden mit NlaIII gespalten und die Doppelmarker enthaltenden Banden wurden herausgeschnitten und selbst-ligiert. Nach der Ligierung wurden die verknüpften Doppelmarker mittels Polyacrylamidgel-Elektrophore getrennt und Produkte mit einer Größe über 200 Bp wurden herausgeschnitten. Diese Produkte wurden in die SphI-Stelle von pSL301 (Invitrogen) kloniert. Die Kolonien wurden mittels PCR, unter Verwendung von T7- und T3-Sequenzen außerhalb der Klonierungsstelle als Primer bezüglich Inserts gescreent. Klone, die mindestens 10 Marker enthielten (Bereich von 10 bis 50 Marker), wurden durch PCR-Amplifikation identifiziert und wie beschrieben manuell sequenziert, (Del Sal, et al., Biotechni-
    Figure 00260001
    Sequenzdateien wurden durch Anwendung der SAGE-Softwaregruppe analysiert, welche die Verankerungsenzymstelle mit der genauen räumlichen Anordnung identifiziert und die zwei Intervening-Marker extrahiert und sie in einer Datenbank aufzeichnet. Die 1000 Marker wurden von 413 eindeutigen Doppelmarkern und 87 sich wiederholenden Markern abgeleitet. Die letzteren wurden nur einmal gezählt, um potenzielle PCR-Bias aus der Quantifizierung auszuschließen. Die Funktion der SAGE-Software besteht lediglich in der Optimierung der Suche nach Gensequenzen.
  • Tabelle 1 zeigt die Analyse der ersten 1000 Marker. Sechzehn Prozent wurden ausgeschlossen, da sie entweder Uneindeutigkeiten bezüglich der Sequenz aufwiesen oder von Linkersequenzen abgeleitet waren. Die verbleibenden 840 Marker schlossen 351 Marker ein, die einmal vorkamen und 77 Marker, die mehrere Male gefunden wurden. Neun der zehn häufigsten Marker konnten mindestens einem Eintrag in der GenBank R87 zugeordnet werden. Nachfolgend wurde gezeigt, dass sich der verbleibende Marker von Amylase ableitet. Alle zehn Transkripte leiteten sich von Genen mit bekannter pankreatischer Funktion ab und ihre Prevalenz stimmte mit den früheren Analysen von pankreatischer RNA überein, die mittels herkömmlicher An sätze durchgeführt worden waren (Han, et al., Proc. Natl. Acad. Sci. U. S. A., 84: 110, 1986; Takeda, et al., Hum. Mol. Gen., 2: 1793, 1993).
  • Tabelle 1 Pankreatische SAGE-Marker
    Figure 00270001
  • s"Marker" kennzeichnet die 9 Bp-Sequenz eindeutig für jeden Marker, benachbart zu der 4 Bp-NlaIII-Verankerungsstelle. "N" und "Prozent" gibt an, wie viele Male der Marker identifiziert wurde bzw. seine Frequenz. "Gen" kennzeichnet die Zugangsnummer und die Beschreibung der GenBank X87 Einträge, von denen festgestellt wurde, dass sie dem gekennzeichneten Marker zugeordnet werden können, unter Anwendung der SAGE-Software-Gruppe, mit den nachfolgenden Ausnahmen. Wurden infolge von Doppeleinträgen multiple Einträge identifiziert, wurde nur ein Eintrag in die Liste aufgenommen. Im Fall von Chymotrypsinogen und Trypsin I wurden andere Gene identifiziert, von denen angenommen wird, dass sie die gleichen Marker enthalten, die nachfolgende Hybridisierung und Sequenzanalyse identifizierte jedoch die aufgeführten Gene als die Quelle der Marker. "Alu Eintrag" kennzeichnet eine Zuordnung zu einem GenBank-Eintrag für ein Transkript, das mindestens eine Kopie der Alu-Consensus-Sequenz enthält (Deininger, et al., J. Mol. Biol., 151: 17, 1981).
  • Beispiel 2
  • Die quantitative Natur der SAGE wurde bewertet, indem eine Oligo-dT geprimte pankreatische cDNA-Library konstruiert wurde, die mit cDNA-Sonden bezüglich Trypsinogen 1/2, Procarboxypeptidase A1, Chymotrypsinogen und Elastase I-IIB/Protease E gescreent wurde. Pankreatische mRNA aus der gleichen Präparation, wie sie für die SAGE in Beispiel 1 verwendet wurde, wurde genutzt, um eine cDNA-Library in den ZAP-Expressionsvektor zu konstruieren, unter Verwendung des ZAP-Express-cDNA-Synthese-Kits entsprechend dem Protokoll der Hersteller (Stratagene). Die Analyse von 15 zufällig ausgewählten Klonen ergab, dass 100% cDNA-Inserts enthielten. Platten, die 250 bis 500 Plaques enthielten, wurden, wie vorstehend beschrieben, hybridisiert (Ruppert, et al., Mol. Cell. Biol., 8: 3104, 1988). cDNA-Sonden für Trypsinogen 1, Trypsinogen 2, Procarboxypeptidase A1, Chymotrypsinogen und Elastase IIIB wurden mit tels RT-PCR von RNA aus Pankreas abgeleitet. Die Sonden für Trypsinogen 1 und 2 waren zu 93% identisch und hybridisierten unter den verwendeten Bedingungen an die gleichen Plaques. Ähnlich waren die Sonden für Elastase IIIB und Protease E zu 95% identisch und hybridisierten an die gleichen Plaques.
  • Die verhältnismäßige Häufigkeit der SAGE-Marker für diese Transkripte stimmte ausgezeichnet mit den Ergebnissen überein, die durch das Library-Screening erhalten wurden ( 2). Des weiteren konnten dann, wenn weder Trypsinogen 1 oder 2, noch Elastase IIIB und Protease E durch die zum Screening der Library verwendeten cDNA-Sonden zu unterscheiden waren, alle vier Transkripte auf der Grundlage ihrer SAGE-Marker leicht unterschieden werden (Tabelle 1).
  • Beispiel 3
  • Zusätzlich zur Bereitstellung quantitativer Informationen über die Häufigkeit bekannter Transkripte kann die SAGE dazu verwendet werden, neuartige exprimierte Gene zu identifizieren. Da für die SAGE-Analyse dieses Beispiels nur die 9 Bp-Sequenz, die für jedes Transkript eindeutig ist, betrachtet wurde, definierte jeder SAGE-Marker eine 13 Bp-Sequenz, die aus der Verankerungsenzymstelle (4 Bp) plus dem 9 Bp-Marker zusammengesetzt war. Um dieses Potenzial zu veranschaulichen, wurden 13 Bp-Oligonucleotide verwendetet, um die Transkripte zu isolieren, die den vier nicht zugeordneten Markern entsprachen (P1 bis P4), das bedeutet, den Markern ohne entsprechende Einträge in der GenBank R87 (Tabelle 1). In jedem dieser vier Fälle war es möglich, multiple cDNA-Klone für den Marker zu isolieren, indem die pankreatische cDNA-Library einfach unter Verwendung des 13 Bp-Oligonucleotids als Hybridisierungssonde gescreent wurde (Beispiele in 3).
  • Platten, die 250 bis 2 000 Plaques enthielten, wurden unter den gleichen Bedingungen hybridisiert wie vorstehend für die herkömmlichen Sonden beschrieben, mit der Ausnahme, dass die Hybridisierungstemperatur auf Raumtemperatur gesenkt wur de. Das Waschen wurde über einen Zeitraum von 30 Minuten bei Raumtemperatur mit 6 × SSC/0,1% SDS ausgeführt. Die Sonden bestanden aus 13 Bp-Oligonucleotiden, die mit P32-ATP unter Verwendung von T4-Polynucleotidkinase markiert wurden. In jedem Fall identifizierte die Sequenzierung der abgeleiteten Klone den korrekten SAGE-Marker an dem erwarteten Ende 3'-Ende des Transkripts. Die Häufigkeit der durch die Hybridisierung mit den 13-mers identifizierten Plaques stimmte mit der überein, die nach der Durchführung der SAGE erwartet worden war (Tabelle 2). Es wurde festgestellt, dass die Marker P1 und P2 Amylase bzw. Preprocarboxypeptidase A2 entsprachen. In der GenBank R87 war kein Eintrag für Preprocarboxypeptidase A2 und nur ein verkürzter Eintrag für Amylase vorhanden, was zu ihrer nicht zuordenbaren Charakterisierung führte. Der Marker P3 ließ sich keinem Gen mit einer bekannten Funktion aus der GenBank zuordnen, jedoch zahlreichen EST's, was bewies, dass es ein echtes Transkript darstellt. Die durch P4 identifizierte cDNA wies keine wesentliche Homologie auf, was vermuten lässt, dass sie ein bereits früher nicht charakterisiertes pankreatisches Transkript darstellt.
  • Tabelle 2 Charakterisierung der nicht zuordenbaren SAGE-Marker
    Figure 00300001
  • "Marker" und "SAGE-Häufigkeit" sind in Tabelle 1 beschrieben; "13mer Hyb" kennzeichnet die Ergebnisse, die erhalten wurden, indem eine cDNA-Library mit einem 13mer wie vorstehend beschrieben gescreent wurde. Die Zahl der positiven Plaques dividiert durch die Gesamtzahl der gescreenten Plaques ist in den Klammern angegeben, die der prozentualen Häufigkeit folgt. Ein Positivzeichen in der Spalte für den "SAGE-Marker" gibt an, dass die erwartete SAGE-Markersequenz nahe dem 3-Ende der isolierten Klone identifiziert worden war. "Beschreibung" kennzeichnet die Ergebnisse der BLAST-Suche in den täglich erneuerten GenBank-Einträgen des NCBI vom 06.06.1995 (Altschul, et al., J. Mol. Biol., 215: 403, 1990). Eine Beschreibung und eine Zugangsnummer sind für die Zuordnungen angeben, die am wesentlichsten sind. Es wurde festgestellt, dass P1 einem verkürzten Eintrag für Amylase zugeordnet werden kann, und es wurde festgestellt, dass P2 einen nicht veröffentlichten Eintrag für Preprocarboxypeptidase A2 zugeordnet werden kann, der nach der GenBank R87 eingetragen wurde.
  • Beispiel 4
  • Die durch SAGE erzeugten Doppelmarker können mittels PSA oder CS analysiert werden, wie in der Spezifikation beschrieben. In einer bevorzugten Ausführungsform für PSA wurden die nachfolgenden Schritte mit Doppelmarkern ausgeführt: Die Doppelmarker wurden hergestellt, amplifiziert und mit dem Verankerungsenzym gespalten, wie es in den vorhergehenden Beispielen beschrieben wurde.
  • Figure 00310001
  • Vier-Basen-Oligomere, die ein Identifikationsmittel enthielten (z. B. eine fluoreszierende Einheit, FL), werden so hergestellt, dass sie zu den Überhängen komplementär sind, beispielsweise FL-CATG. Die FL-CATG-Oligomere (im Überschuss) werden, wie nachstehend dargestellt, an die Doppelmarker ligiert:
    Figure 00310002
  • Die Doppelmarker wurden anschließend gereinigt und geschmolzen, was zu einsträngigen DNAs mit beispielsweise der nachfolgenden Formel führte:
    Figure 00320001
  • Das Gemisch aus einsträngigen DNAs wird vorzugsweise reihenmäßig verdünnt. Jede reihenmäßige Verdünnung wird unter geeigneten strengen Bedingungen mit festen Matrizen hybridisiert, die in Raster aufgeteilte einsträngige Oligonucleotide enthalten; alle Oligonucleotide enthalten eine halbe Stelle der Spaltstelle des Verankerungsenzyms. In dem hier verwendeten Beispiel enthalten die Oligonucleotidsequenzen eine CATG-Sequenz am 5'-Ende:
    Figure 00320002
  • Die Matrizen können aus jedem beliebigen auf dem Fachgebiet bekannten Material hergestellt werden und die Oligonucleotid-tragenden Chips können mittels jedem auf dem Fachgebieten bekannten Verfahren hergestellt werden, z. B. mittels dem VLSIP-Verfahren hergestellte Oligonucleotid enthaltende Silikonchips (Fodor, et al., supra).
  • Die Oligonucleotid-tragenden Matrizen werden auf Gegenwart oder Abwesenheit eines fluoreszierenden Doppelmarkers an jeder Position des Rasters bewertet.
  • In einer bevorzugten Ausführungsform befinden sich 410 oder 1 048 576 Oligonucleotide der allgemeinen Sequenz CATGOO-OOOOOOOO auf dem/den Raster(n), derart dass jede mögliche 10-Basen-Sequenz sich 3'zu CATG befindet, wobei CATG als ein Beispiel für eine halbe Stelle eines Verankerungsenzyms komplementär zu der halben Stelle des Verankerungsenzyms an dem 3'-Ende des Doppelmarkers ist. Da in dem humanen Genom nicht mehr als 100 000 bis 200 000 verschiedene exprimierte Gene zu bestimmen sind, gibt es ausreichend Oligonucleotidsequenzen, um alle möglichen Sequenzen nachzuweisen, die sich benachbart zu der 3"-nächsten Stelle des Verankerungsenzyms befinden, die in den cDNAs der exprimierten Gene des humanen Genoms nachgewiesen wurde.
  • In einer noch anderen Ausführungsform werden Strukturen, enthaltend die wie vorstehend beschriebenen Sequenzen PRIMER A-GGAGCATG (X)10 (O)10 CATGCATCC-PRIMER B PRIMER A-CCTCGTAC (X)10 (O)10 GTACGTAGG-PRIMER,
    amplifiziert, mit dem Markierungsenzym und danach mit dem Verankerungsenzym gespalten, zur Erzeugung von Marker-Komplementen der Struktur: (O)10 CATG-3', die anschließend markiert, geschmolzen und mit Oligonucleotiden auf einem festen Träger hybridisiert werden können.
  • Eine Bestimmung der differentiellen Expression erfolgt, indem die Fluoreszenz-Profile auf den Rastern bei verschiedenen Verdünnungen in verschiedenen Libraries verglichen werden (darstellen der differentiellen Screening-Sonden). Beispielsweise
    Figure 00330001
  • Die individuellen Oligonucleotide hybridisieren somit an Doppelmarker mit den nachfolgenden Charakteristika:
  • Tabelle 3
    Figure 00340001
  • Tabelle 3 fasst die Ergebnisse der differentiellen Hybridisierung zusammen. Marker, die an 1A und 3B hybridisierten, spiegeln die sehr häufig vorkommenden mRNAs wieder, die nicht differentiell exprimiert werden (da die Marker bei allen Verdünnungen an beide Libraries hybridisierten); der Marker 2C identifiziert eine sehr häufig vorkommende RNA, jedoch nur in der Library B. 2E spiegelt ein wenig vorkommendes Transkript wieder (da es nur bei der geringsten Verdünnung nachgewiesen wurde), von dem festgestellt wurde, dass es nicht differentiell exprimiert wird; 3C spiegelt ein moderat vorkommendes Transkript (da es bei der geringeren der beiden Verdünnungen exprimiert wird) in Library B wider, das in Library A mit einer geringen Häufigkeit exprimiert wird. 4D spiegelt ein differentiell-exprimiertes, sehr häufig vorkommendes Transkript wider, das auf Library A begrenzt ist; 5A spiegelt ein Transkript wider, das mit einer hohen Häufigkeit in Library A exprimiert wird, jedoch mit einer geringen Häufigkeit in Library B; und 5E spiegelt ein differentiell-exprimiertes Transkript wider, das nur in Library B nachweisbar ist.
  • In einer anderen Ausführungsform der PSA beinhaltet der vorstehende Schritt 3 die Anwendung eines Fluoreszensmittels oder eines anderen Identizierungsmittels, anstelle der Verwendung von markierten dNTPs in der letzten Runde der Amplifikation, sodass nach dem Schmelzen die Hälfte aller Moleküle markiert sind und als Sonden für die Hybridisierung an Oligonucleotiden dienen, die an Chips fixiert sind.
  • Für die Anwendung in der klonalen Sequenzierung können die Doppelmarker, oder Konkatemere, verdünnt werden und beispielsweise Wells von Multi-Well-Platten oder anderen Aufnahmebehältnissen zugesetzt werden, sodass die Wells im Durchschnitt, statisch gesehen, weniger als ein DNA-Molekül pro Well enthalten könnten (so wie es für die eingeschränkte Verdünnung bei der Zellklonierung der Fall ist). Jedes Well könnte anschließend Reagenzien für die PCR oder ein anderes Amplifikationsverfahren erhalten und die DNA in jedem Aufnahmebehältnis könnte sequenziert werden, z. B. durch Massenspektrometrie. Das Ergebnis wird entweder eine Einzelsequenz sein (wenn eine Einzelsequenz in dem Aufnahmebehältnis vorlag), eine "Null"-Sequenz (keine DNA vorhanden) oder eine Doppelsequenz (mehr als ein DNA-Molekül), das aus der Betrachtung während der Datenanalyse ausgeschlossen werden würde. Danach könnte die Zuordnung der Expression so erfolgen, wie sie hier beschrieben wurde.
  • Die Ergebnisse veranschaulichen, dass die SAGE sowohl quantitative als auch qualitative Daten über die Genexpression liefert. Die Verwendung verschiedener Verankerungsenzyme und/oder Markierungsenzyme mit verschiedenen Erkennungselementen verleiht dieser Strategie eine große Flexibilität. Da die verschiedenen Verankerungsenzyme cDNA an verschiedenen Stellen spalten, gestattet die Verwendung von mindestens 2 verschiedenen Aes auf verschiedenen Proben der gleichen cDNA-Präparation insbesondere die Bestätigung der Ergebnisse und der Analyse von Sequenzen, die keine Erkennungsstelle für eines der Enzyme enthalten würden.
  • Bei den Bemühungen um die vollständige Charakterisierung des Genoms fast bis zur Vollständigkeit sollte die SAGE ein direktes Ablesen der Expression in jedem beliebigen vorgegebenen Zelltyp oder Gewebe gestatten. In der Zwischenzeit könnte eine Hauptanwendungsmöglichkeit der SAGE der Vergleich von Genexpressionsmustern zwischen Geweben und von verschiedenen Entwicklungs- und Krankheitszutänden in einer vorgegebenen Zelle oder einem vorgegebenen Gewebe sein. Der Fachmann, der in der Lage ist, eine PCR und das manuelle Sequenzieren durchzuführen, könnte zu diesem Zweck eine SAGE ausführen. Die Adaption dieses Verfahrens auf einen automatischen Sequenzierer könnte die Analyse von über 1 000 Transkripten in einem einzelnen Lauf von 3 Stunden gestatten. Ein ABI 377-Sequenzierer kann in einem dreistündigen Lauf eine 451 Bp-Anzeige für 36 Kopiervorlagen erzeugen (451 Bp/ 11 Bp pro Marker × 36 = 1476 Marker). Die zu bestimmende geeignete Anzahl von Markern ist von der Anwendung abhängig. Beispielsweise könnte die Definition von Genen, die in einem Gewebe in verhältnismäßig hohen Grad (0,5% oder mehr), jedoch in einem anderen nur zu einem geringeren Grad exprimiert werden, nur einen einzigen Tag erfordern. Die Bestimmung von Transkripten, die in mehr als 100 mRNAs pro Zelle exprimiert werden (0,025% oder mehr), sollte innerhalb weniger Monate durch einen einzigen Forscher quantifizierbar sein. Die Verwendung von zwei verschiedenen Verankerungsenzymen stellt sicher, dass nahezu alle Transkripte der erwünschten Häufigkeit identifiziert werden. Die Gene, die jene Marker codieren, von denen festgestellt wurde, dass sie, basierend auf ihrer differentiellen Darstellung am interessantesten sind, können durch eine Kombination von Datenbank-Suche, Hybridisierung und Sequenzanalyse positiv identifiziert werden, wie es in Tabelle 2 veranschaulicht ist. Augenscheinlich könnte die SAGE auch auf die Analyse von anderen Organismen als von Menschen angewendet werden und auf die direkte Untersuchung von Genen, die in spezifischen biologischen Zuständen exprimiert werden.
  • Die SAGE, wie sie hier beschrieben ist, gestattet den Vergleich der Expression zahlreicher Gene zwischen Geweben oder zwischen verschiedenen Entwicklungszuständen des gleichen Gewebes, oder zwischen pathologischem Gewebe und seinem gesunden Gegenspieler. Eine derartige Analyse ist dazu geeignet, beispielsweise therapeutisch, diagnostisch oder prognostisch relevante Gene zu identifizieren. Unter den vielen Anwendungsmöglichkeiten für das SAGE-Verfahren befindet sich die Identifizierung geeigneter Antisense- oder Triple-Helix-Reagenzien, die therapeutisch nützlich sein könnten. Des weiteren können auch Kandidaten für eine Gentherapie durch das SAGE-Verfahren identifiziert werden. Andere Anwendungsmöglichkeiten schließen beispielsweise diagnostische Anwendungen zur Identifizierung von individuellen Genen oder Gruppen von Genen ein, von denen gezeigt wird, dass ihre Expression mit der Predisposition für eine Krankheit, dem Vorliegen einer Krankheit oder der Prognose für eine Krankheit korreliert. Ein Häufigkeitsprofil, wie in das Tabelle 1 dargestellt, ist für die vorstehend beschriebenen Anwendungen nützlich. Die SAGE ist auch zum Nachweis von einem Organismus (z. B. einem Pathogen) in einem Wirt oder zum Nachweis von Infektions-spezifischen Genen, die durch ein Pathogen in einem Wirt exprimiert werden, geeignet.
  • Die Möglichkeit, eine große Anzahl von exprimierten Genen in einer kurzen Zeit zu identifizieren, wie es durch die SAGE der vorliegenden Erfindung beschrieben wurde, liefert uneingeschränkte Anwendungsmöglichkeiten.
  • Obwohl die vorliegende Erfindung in Bezug zu den gegenwärtig bevorzugten Ausführungsformen beschrieben worden ist, sollte es klar sein, dass verschiedene Modifizierungen möglich sind, ohne dass sie von dem Erfindungsgedanken der vorliegenden Erfindung abweichen. Dementsprechend wird die vorliegende Erfindung nur durch die nachfolgenden Ansprüche beschränkt.

Claims (44)

  1. Isoliertes Doppelmarker-Oligonucleotid, umfassend wenigstens zwei definierte Nucleotidsequenzmarker, wobei die definierten Nucleotidsequenzmarker Sequenz 5' von einer 5'-nächsten Spaltstelle einer Restriktionsendonuclease oder 3' von einer 3'-nächsten Spaltstelle einer Restriktionsendonuclease in einer Volllänge-cDNA umfassen, wobei jeder Marker einem exprimierten Gen entspricht.
  2. Zusammensetzung nach Anspruch 1, wobei das Oligonucleotid aus 1 bis 200 Doppelmarkern besteht.
  3. Zusammensetzung nach Anspruch 2, wobei das Oligonucleotid aus 8 bis 20 Doppelmarkern besteht.
  4. Verfahren zum Nachweis von Genexpression umfassend: Herstellung von Oligonucleotiden komplementärer Desoxyribonucleinsäure (cDNA) aus mRNA einer Zelle, die ein exprimiertes Gen enthält; Isolierung eines ersten Nucleotidsequenzmarkers aus einem ersten cDNA-Oligonucleotid und eines zweiten Nucleotidsequenzmarkers aus einem zweiten cDNA-Oligonucleotid, wobei die Nucleotidsequenzmarker Sequenz 5' von einer 5'-nächsten Spaltstelle einer ersten Restriktionsendonuclease oder 3' von einer 3'-nächsten Spaltstelle einer ersten Restriktionsendonuclease in einer Volllängen-cDNA umfassen; Verbinden des ersten Markers mit einem ersten Oligonucleotid-Linker, wobei der erste Oligonucleotid-Linker eine erste Sequenz zur Hybridisierung eines Amplifikationsprimers umfaßt, und Verbinden des zweiten Markers mit einem zweiten Oligonucleotid-Linker, wobei der zweite Oligonucleotid-Linker eine zweite Sequenz zur Hybridisierung eines Amplifikationsprimers umfaßt; und Ligasieren des ersten Markers, der mit dem ersten Oligonucleotid-Linker verbunden ist, mit dem zweiten Marker, der mit dem zweiten Oligonucleotid-Linker verbunden ist, zur Bildung eines Doppelmarkers; Bestimmung der Nucleotidsequenz des Doppelmarkers, wobei die Identifizierung eines ersten oder zweiten Markers in einem Doppelmarker anzeigt, daß ein Gen, das dem ersten oder zweiten Marker entspricht, in der Zelle exprimiert ist.
  5. Verfahren nach Anspruch 4, das weiterhin Amplifizierung des Doppelmarker-Oligonucleotids umfaßt.
  6. Verfahren nach Anspruch 5, das weiterhin die Spaltung des Doppelmarkers durch die erste Restriktionsendonuclease und das Ligasieren der gespaltenen Doppelmarker zur Bildung von Konkatemeren des Doppelmarkers umfaßt.
  7. Verfahren nach Anspruch 6, wobei das Konkatemer aus 2 bis 200 Doppelmarkern besteht.
  8. Verfahren nach Anspruch 7, wobei das Konkatemer aus 8 bis 20 Doppelmarkern besteht.
  9. Verfahren nach einem der Ansprüche 4 bis 8, wobei der erste und zweite Oligonucleotid-Linker die gleichen Nucleotidsequenzen umfassen.
  10. Verfahren nach einem der Ansprüche 4 bis 8, wobei der erste und zweite Oligonucleotid-Linker verschiedene Nucleotidsequenzen umfassen.
  11. Verfahren nach Anspruch 10, wobei der erste und zweite Oligonucleotid-Linker die Sequenz
    Figure 00390001
    haben, wobei A Didesoxy A ist.
  12. Verfahren nach einem der Ansprüche 4 bis 11, wobei die Linker eine Erkennungsstelle für eine zweite Restriktionsendonuclease umfassen, die Spaltung an einer Stelle erlaubt, die von der Erkennungsstelle entfernt ist.
  13. Verfahren nach Anspruch 12 wobei die zweite Restriktionsendonuclease eine Typ IIS Endonuclease ist.
  14. Verfahren nach Anspruch 13, wobei die Typ IIS Endonuclease ausgewählt ist aus der Gruppe bestehend aus BsmFI und FokI.
  15. Verfahren nach einem der Ansprüche 4 bis 14, wobei der Doppelmarker 12 bis 60 Basenpaare ist.
  16. Verfahren nach Anspruch 15, wobei der Doppelmarker 18 bis 22 Basenpaare ist.
  17. Verfahren nach einem der Ansprüche 5 bis 16, wobei die Amplifizierung durch Polymerase-Kettenreaktion (PCR) erfolgt.
  18. Verfahren nach Anspruch 17, wobei die Primer für die PCR ausgewählt sind aus der Gruppe bestehend aus
    Figure 00400001
  19. Verfahren zum Nachweis von Genexpression umfassend: Spaltung einer cDNA-Probe, abgeleitet aus mRNA einer Zelle, die ein Gen exprimiert, mit einer ersten Restriktionsendonuclease, wobei die Endonuclease die cDNA an einer definierten Stelle am 5'- oder 3'-Ende der cDNA spaltet, wodurch definierte Sequenzmarker hergestellt werden; Isolierung eines 5'- oder 3'-cDNA-Markers, der zwischen der definierten Position und dem benachbarten Ende liegt; Ligasieren eines ersten Pools von Markern mit einem ersten Oligonucleotid-Linker, der eine erste Sequenz hat, die zur Hybridisierung mit einem Amplifikationsprimer verwendet werden kann, und Ligasieren eines zweiten Pools von Markern mit einem zweiten Oligonucleotid- Linker, der eine zweite Sequenz hat, die zur Hybridisierung mit einem Amplifikationsprimer verwendet werden kann, wobei jeder Primer eine Erkennungsstelle für eine zweite Restriktionsendonuclease umfaßt, wobei die zweite Restriktionsendonuclease an einer Stelle spaltet, die von der Erkennungsstelle entfernt ist; Spaltung der Marker mit einer zweiten Restriktionsendonuclease; Ligasieren der zwei Marker-Pools um Doppelmiarker herzustellen; Bestimmung der Nucleotidsequenz eines Doppelmarkers, wobei die Identifizierung eines ersten oder zweiten Markers in einem Doppelmarker anzeigt, daß ein Gen, das dem ersten oder zweiten Marker entspricht, in der Zelle exprimiert ist.
  20. Verfahren nach Anspruch 19, das weiterhin die Amplifizierung des Doppelmarkers umfaßt.
  21. Verfahren nach Anspruch 20, wobei die erste Restriktionsendonuclease eine Erkennungsstelle mit vier Basenpaaren hat.
  22. Verfahren nach Anspruch 21, wobei die erste Restriktionsendonuclease NlaIII ist.
  23. Verfahren nach einem der Ansprüche 19 bis 22, wobei die cDNA ein Mittel zum Einfangen umfaßt.
  24. Verfahren nach Anspruch 23, wobei das Mittel zum Einfangen ein Bindeelement ist.
  25. Verfahren nach Anspruch 24, wobei das Bindeelement Biotin ist.
  26. Verfahren nach einem der Ansprüche 19 bis 25, wobei der erste und zweite Oligonucleotid-Linker die gleichen Nucleotidsequenzen umfassen.
  27. Verfahren nach einem der Ansprüche 19 bis 25, wobei der erste und zweite Oligonucleotid-Linker verschiedene Nucleotidsequenzen umfassen.
  28. Verfahren nach Anspruch 27, wobei der erste und zweite Oligonucleotid-Linker die Sequenz
    Figure 00420001
    haben, wobei A Didesoxy A ist.
  29. Verfahren nach einem der Ansprüche 19 bis 28, wobei die zweite Restriktionsendonuclease eine Typ IIS Endonuclease ist.
  30. Verfahren nach Anspruch 29, wobei die Typ IIS Endonuclease ausgewählt ist aus der Gruppe umfassend BsmFl und Fokl.
  31. Verfahren nach einem der Ansprüche 19 bis 30, wobei der Doppelmarker 12 bis 60 Basenpaare ist.
  32. Verfahren nach Anspruch 31, wobei der Doppelmarker 14 bis 22 Basenpaare ist.
  33. Verfahren nach einem der Ansprüche 19 bis 32, das weiterhin Ligasieren der Doppelmarker umfaßt, um ein Konkatemer herzustellen.
  34. Verfahren nach Anspruch 33, wobei das Konkatemer aus 2 bis 200 Doppelmarkern besteht.
  35. Verfahren nach Anspruch 34, wobei das Konkatemer aus 8 bis 20 Doppelmarkern besteht.
  36. Verfahren nach einem der Ansprüche 20 bis 35, wobei die Amplifizierung durch Polymerase-Kettenreaktion (PCR) erfolgt.
  37. Verfahren nach Anspruch 36, wobei die Primer zur PCR ausgewählt sind aus der Gruppe bestehend aus
    Figure 00430001
  38. Kit, das zum Nachweis von Genexpression verwendet werden kann, wobei die Gegenwart eines cDNA-Doppelmarkers die Expression eines Gens anzeigt, das eine Sequenz eines Markers des Doppelmarkers hat, wobei das Kit umfaßt: ein erstes Behältnis, das einen ersten Oligonucleotid-Linker mit einer ersten Sequenz enthält, die zur Hybridisierung mit einem Amplifikationsprimer verwendet werden kann; ein zweites Behältnis, das einen zweiten Oligonucleotid-Linker mit einer zweiten Sequenz enthält, die zur Hybridisierung mit einem Amplifikationsprimer verwendet werden kann, wobei die Linker weiterhin eine Restriktionsendonucleasestelle zur Spaltung von DNA an einer Stelle, die entfernt ist von der Erkennungsstelle der Restriktionsendonuclease, umfassen; ein drittes und viertes Behältnis, das Nucleinsäureprimer zur Hybridisierung mit den ersten bzw. zweiten Sequenzen der Linker hat; und ein fünftes und sechstes Behältnis, das eine Ligase und gegebenenfalls eine zweite Restriktionsendonuclease enthält, die DNA an ihrer Erkennungsstelle spaltet.
  39. Kit nach Anspruch 38, wobei die Linker eine Sequenz
    Figure 00430002
    oder
    Figure 00440001
    haben, wobei A Didesoxy A ist.
  40. Kit nach Anspruch 38 oder 39, wobei die Restriktionsendonuclease eine Typ IIS Endonuclease ist.
  41. Kit nach Anspruch 40, wobei die Typ IIS Endonuclease BsmFl ist.
  42. Kit nach einem der Ansprüche 38 bis 41, wobei die Primer zur Amplifizierung ausgewählt sind aus der Gruppe bestehend aus
    Figure 00440002
  43. Isoliertes Doppelmarker-Oligonucleotid nach Anspruch 1, wobei die zwei definierten Nucleotidsequenzmarker Schwanz-an-Schwanz verbunden sind.
  44. Isoliertes Doppelmarker-Oligonucleotid nach Anspruch 1, wobei die Doppelmarker an jedem Ende gespaltene Spaltstellen für eine Restriktionsendonuclease umfassen.
DE69627768T 1995-09-12 1996-09-12 Reihenanalyse-Verfahren der Genexpression Expired - Lifetime DE69627768T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US527154 1995-09-12
US08/527,154 US5695937A (en) 1995-09-12 1995-09-12 Method for serial analysis of gene expression
US544861 1995-10-18
US08/544,861 US5866330A (en) 1995-09-12 1995-10-18 Method for serial analysis of gene expression

Publications (2)

Publication Number Publication Date
DE69627768D1 DE69627768D1 (de) 2003-06-05
DE69627768T2 true DE69627768T2 (de) 2004-04-08

Family

ID=27062344

Family Applications (2)

Application Number Title Priority Date Filing Date
DE0761822T Pending DE761822T1 (de) 1995-09-12 1996-09-12 Reihenanalyse-Verfahren der Genexpression
DE69627768T Expired - Lifetime DE69627768T2 (de) 1995-09-12 1996-09-12 Reihenanalyse-Verfahren der Genexpression

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE0761822T Pending DE761822T1 (de) 1995-09-12 1996-09-12 Reihenanalyse-Verfahren der Genexpression

Country Status (12)

Country Link
US (3) US5866330A (de)
EP (2) EP0761822B1 (de)
JP (3) JP3334806B2 (de)
AT (1) ATE239093T1 (de)
AU (2) AU707846B2 (de)
CA (1) CA2185379A1 (de)
DE (2) DE761822T1 (de)
DK (1) DK0761822T3 (de)
ES (1) ES2194957T3 (de)
GB (1) GB2305241B (de)
IE (1) IE80465B1 (de)
WO (1) WO1997010363A1 (de)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5459037A (en) * 1993-11-12 1995-10-17 The Scripps Research Institute Method for simultaneous identification of differentially expressed mRNAs and measurement of relative concentrations
US6379897B1 (en) * 2000-11-09 2002-04-30 Nanogen, Inc. Methods for gene expression monitoring on electronic microarrays
US5866330A (en) * 1995-09-12 1999-02-02 The Johns Hopkins University School Of Medicine Method for serial analysis of gene expression
US5871697A (en) * 1995-10-24 1999-02-16 Curagen Corporation Method and apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing
US6418382B2 (en) 1995-10-24 2002-07-09 Curagen Corporation Method and apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing
US5972693A (en) * 1995-10-24 1999-10-26 Curagen Corporation Apparatus for identifying, classifying, or quantifying DNA sequences in a sample without sequencing
GB9618544D0 (en) * 1996-09-05 1996-10-16 Brax Genomics Ltd Characterising DNA
US5981190A (en) * 1997-01-08 1999-11-09 Ontogeny, Inc. Analysis of gene expression, methods and reagents therefor
US6461814B1 (en) 1997-01-15 2002-10-08 Dominic G. Spinella Method of identifying gene transcription patterns
US5968784A (en) * 1997-01-15 1999-10-19 Chugai Pharmaceutical Co., Ltd. Method for analyzing quantitative expression of genes
US6143496A (en) 1997-04-17 2000-11-07 Cytonix Corporation Method of sampling, amplifying and quantifying segment of nucleic acid, polymerase chain reaction assembly having nanoliter-sized sample chambers, and method of filling assembly
JP2002502237A (ja) * 1997-05-12 2002-01-22 ライフ テクノロジーズ,インコーポレイテッド 核酸分子の生成および精製のための方法
US6333152B1 (en) 1997-05-21 2001-12-25 The Johnshopkins University Gene expression profiles in normal and cancer cells
JP2001523441A (ja) * 1997-09-17 2001-11-27 ザ・ジョーンズ・ホプキンス・ユニバーシティ p53誘導アポトーシス
US6399334B1 (en) 1997-09-24 2002-06-04 Invitrogen Corporation Normalized nucleic acid libraries and methods of production thereof
US6297010B1 (en) * 1998-01-30 2001-10-02 Genzyme Corporation Method for detecting and identifying mutations
US6136537A (en) * 1998-02-23 2000-10-24 Macevicz; Stephen C. Gene expression analysis
US6054276A (en) 1998-02-23 2000-04-25 Macevicz; Stephen C. DNA restriction site mapping
DE19822287C2 (de) * 1998-05-18 2003-04-24 Switch Biotech Ag Klonierungsvektor, seine Herstellung und Verwendung zur Analyse von mRNA Expressionsmuster
AU4825699A (en) * 1998-06-19 2000-01-05 Genzyme Corporation Identification and use of differentially expressed genes and polynucleotide sequences
WO2000029621A2 (en) * 1998-11-16 2000-05-25 Genelabs Technologies, Inc. Method for measuring target polynucleotides and novel asthma biomolecules
DE69913092T2 (de) * 1999-01-27 2004-09-09 Commissariat à l'Energie Atomique Microassay zur Serienanalyse der Genexpression und Anwendungen davon
JP3924976B2 (ja) * 1999-02-17 2007-06-06 味の素株式会社 遺伝子の発現頻度の解析方法
TR200102432T2 (tr) * 1999-02-23 2002-09-23 Warner-Lambert Company Gen ifade profilinden elde edilen bilginin yönetimi ve sunulması için sistem ve yöntem
US7008768B1 (en) * 1999-02-26 2006-03-07 The United States Of America As Represented By The Department Of Health And Human Services Method for detecting radiation exposure
CA2374390A1 (en) 1999-05-20 2000-12-14 Illumina, Inc. Combinatorial decoding of random nucleic acid arrays
US6692916B2 (en) 1999-06-28 2004-02-17 Source Precision Medicine, Inc. Systems and methods for characterizing a biological condition or agent using precision gene expression profiles
US20060115826A1 (en) * 1999-06-28 2006-06-01 Michael Bevilacqua Gene expression profiling for identification monitoring and treatment of multiple sclerosis
US20050060101A1 (en) * 1999-06-28 2005-03-17 Bevilacqua Michael P. Systems and methods for characterizing a biological condition or agent using precision gene expression profiles
US20080183395A1 (en) * 1999-06-28 2008-07-31 Michael Bevilacqua Gene expression profiling for identification, monitoring and treatment of multiple sclerosis
US6960439B2 (en) 1999-06-28 2005-11-01 Source Precision Medicine, Inc. Identification, monitoring and treatment of disease and characterization of biological condition using gene expression profiles
US20040225449A1 (en) * 1999-06-28 2004-11-11 Bevilacqua Michael P. Systems and methods for characterizing a biological condition or agent using selected gene expression profiles
AU6387000A (en) * 1999-07-29 2001-02-19 Genzyme Corporation Serial analysis of genetic alterations
US6306628B1 (en) * 1999-08-25 2001-10-23 Ambergen, Incorporated Methods for the detection, analysis and isolation of Nascent proteins
US6376177B1 (en) 1999-10-06 2002-04-23 Virtual Pro, Inc. Apparatus and method for the analysis of nucleic acids hybridization on high density NA chips
GB9923790D0 (en) * 1999-10-08 1999-12-08 Isis Innovation Immunoregulatory compositions
US6221600B1 (en) * 1999-10-08 2001-04-24 Board Of Regents, The University Of Texas System Combinatorial oligonucleotide PCR: a method for rapid, global expression analysis
CA2395920A1 (en) * 1999-12-29 2001-07-05 Arch Development Corporation Method for generation of longer cdna fragments from sage tags for gene identification
US6566130B1 (en) 2000-01-28 2003-05-20 Henry M. Jackson Foundation For The Advancement Of Military Medicine Androgen-regulated gene expressed in prostate tissue
US20090176722A9 (en) 2000-01-28 2009-07-09 Shiv Srivastava Androgen-regulated PMEPA1 gene and polypeptides
CA2398107C (en) * 2000-01-28 2013-11-19 Althea Technologies, Inc. Methods for analysis of gene expression
US20020146693A1 (en) * 2000-02-04 2002-10-10 Landes Gregory M. Isolation and identification of secreted proteins
JP2003527855A (ja) * 2000-03-20 2003-09-24 ニューリンク ジェネティクス 細胞中でのタンパク質発現プロフィールを解明する方法及びそのための組成物
US6897020B2 (en) 2000-03-20 2005-05-24 Newlink Genetics Inc. Methods and compositions for elucidating relative protein expression levels in cells
US6468749B1 (en) 2000-03-30 2002-10-22 Quark Biotech, Inc. Sequence-dependent gene sorting techniques
WO2001072998A2 (de) * 2000-03-31 2001-10-04 Memorec Stoffel Gmbh Verfahren zur extraktion von nukleinsäuren
EP1313879A2 (de) 2000-04-10 2003-05-28 Matthew Ashby Methoden zur begutachtung und genetischen analyse von populationen
AU2001257421A1 (en) * 2000-04-28 2001-11-12 Sangamo Biosciences, Inc. Pharmacogenomics and identification of drug targets by reconstruction of signal transduction pathways based on sequences of accessible regions
US7923542B2 (en) 2000-04-28 2011-04-12 Sangamo Biosciences, Inc. Libraries of regulatory sequences, methods of making and using same
CA2407745C (en) * 2000-04-28 2011-11-22 Sangamo Biosciences, Inc. Databases of regulatory sequences; methods of making and using same
WO2001083819A2 (en) 2000-04-28 2001-11-08 Sangamo Biosciences, Inc. Methods for designing exogenous regulatory molecules
EP1306447B1 (de) * 2000-05-01 2006-05-10 Eiken Kagaku Kabushiki Kaisha Verfahren zur erkennung des produkts einer nukleinsäuresynthetisierungsreaktion
WO2003042780A2 (en) * 2001-11-09 2003-05-22 Gene Logic Inc. System and method for storage and analysis of gene expression data
DE10027218A1 (de) * 2000-05-31 2001-12-06 Hubert Bernauer Artifizielle genetische Markierung mit synthetischer DNA
US7300751B2 (en) * 2000-06-30 2007-11-27 Syngenta Participations Ag Method for identification of genetic markers
CA2413423C (en) * 2000-06-30 2011-01-11 Syngenta Participations Ag Method for identification, separation and quantitative measurement of nucleic acid fragments
US6498013B1 (en) * 2000-07-28 2002-12-24 The Johns Hopkins University Serial analysis of transcript expression using MmeI and long tags
US7257562B2 (en) * 2000-10-13 2007-08-14 Thallion Pharmaceuticals Inc. High throughput method for discovery of gene clusters
DE10100121A1 (de) * 2001-01-03 2002-08-01 Henkel Kgaa Verfahren zur Bestimmung des Hautstreß oder der Hautalterung in vitro
DE10100127A1 (de) * 2001-01-03 2002-10-02 Henkel Kgaa Verfahren zur Bestimmung der Homeostase der Haut
US7754208B2 (en) 2001-01-17 2010-07-13 Trubion Pharmaceuticals, Inc. Binding domain-immunoglobulin fusion proteins
WO2002059357A2 (en) * 2001-01-24 2002-08-01 Genomic Expression Aps Assay and kit for analyzing gene expression
WO2002059359A2 (en) 2001-01-24 2002-08-01 Syngenta Participations Ag Method for non-redundant library construction
US20030165865A1 (en) * 2001-01-29 2003-09-04 Hinkel Christopher A. Methods of analysis of nucleic acids
FR2821087B1 (fr) * 2001-02-16 2004-01-02 Centre Nat Rech Scient Procede d'analyse qualitative et quantitative d'une population d'acides nucleiques contenus dans un echantillon
GB0104993D0 (en) * 2001-02-28 2001-04-18 Isis Innovations Ltd Methods for analysis of RNA
US6850930B2 (en) 2001-03-13 2005-02-01 Honeywell International Inc. Method for transforming words to unique numerical representation
EP1369477A4 (de) * 2001-03-15 2004-07-14 Kureha Chemical Ind Co Ltd KONSTRUKTIONSVERFAHREN FÜR EIN cDNA-TAG ZUR IDENTIFIZIERUNG EINES EXPRIMIERTEN GENS UND VERFAHREN ZUR ANALYSE DER GENEXPRESSION
AU2002245988A1 (en) * 2001-04-18 2002-10-28 Ulrich J. Krull Gradient resolved hybridisation platform
CA2446207A1 (en) * 2001-05-04 2002-11-14 Health Research, Inc. A high throughput assay for identification of gene expression modifiers
US20030170695A1 (en) * 2001-06-29 2003-09-11 Liang Shi Enzymatic ligation-based identification of nucleotide sequences
US20030082584A1 (en) * 2001-06-29 2003-05-01 Liang Shi Enzymatic ligation-based identification of transcript expression
US7026123B1 (en) 2001-08-29 2006-04-11 Pioneer Hi-Bred International, Inc. UTR tag assay for gene function discovery
CN1612936A (zh) 2001-11-09 2005-05-04 苏尔斯精细医药公司 利用基因表达分布图识别、监控和治疗疾病以及鉴定生物学状态
US20030190618A1 (en) * 2002-03-06 2003-10-09 Babru Samal Method for generating five prime biased tandem tag libraries of cDNAs
US20040002104A1 (en) * 2002-04-26 2004-01-01 Achim Fischer Constant length signatures for parallel sequencing of polynucleotides
US7115370B2 (en) 2002-06-05 2006-10-03 Capital Genomix, Inc. Combinatorial oligonucleotide PCR
WO2003106672A2 (en) * 2002-06-12 2003-12-24 Riken METHOD FOR UTILIZING THE 5'END OF mRNA FOR CLONING AND ANALYSIS
JP2004097158A (ja) * 2002-09-12 2004-04-02 Kureha Chem Ind Co Ltd 発現遺伝子同定用cDNAタグの作成方法、及び該cDNAタグを用いる遺伝子発現解析方法
US20060166206A1 (en) * 2002-11-15 2006-07-27 Sangamo Biosciences, Inc. Methods and compositions for analysis of regulatory sequences
GB0228289D0 (en) 2002-12-04 2003-01-08 Genome Inst Of Singapore Nat U Method
DE10260928A1 (de) * 2002-12-20 2004-07-08 Henkel Kgaa Verfahren zur Bestimmung von Markern humaner Gesichtshaut
DE10260931B4 (de) * 2002-12-20 2006-06-01 Henkel Kgaa Verfahren zur Bestimmung der Homeostase behaarter Haut
CA2513730A1 (en) * 2003-01-16 2004-08-05 Health Research, Inc. Method for comprehensive identification of cell lineage specific genes
CA2525250A1 (en) * 2003-05-09 2004-11-25 Health Research Inc. Improved methods for protein interaction determination
US20100216649A1 (en) * 2003-05-09 2010-08-26 Pruitt Steven C Methods for protein interaction determination
US8222005B2 (en) 2003-09-17 2012-07-17 Agency For Science, Technology And Research Method for gene identification signature (GIS) analysis
WO2005042781A2 (en) * 2003-10-31 2005-05-12 Agencourt Personal Genomics Corporation Methods for producing a paired tag from a nucleic acid sequence and methods of use thereof
JP3845416B2 (ja) * 2003-12-01 2006-11-15 株式会社ポストゲノム研究所 遺伝子タグの取得方法
EP1718765A2 (de) * 2004-01-26 2006-11-08 Isis Innovation Limited Molekularanalyse
US20050266447A1 (en) * 2004-04-19 2005-12-01 Pioneer Hi-Bred International, Inc. Method for identifying activators of gene transcription
US20070003924A1 (en) * 2004-06-18 2007-01-04 The Ohio State University Research Foundation Serial analysis of ribosomal and other microbial sequence tags
US8005621B2 (en) * 2004-09-13 2011-08-23 Agency For Science Technology And Research Transcript mapping method
EP2298815B1 (de) 2005-07-25 2015-03-11 Emergent Product Development Seattle, LLC B-Zell-Verringerung mit CD37-spezifischen und CD20-spezifischen Bindungsmolekülen
DE602007009634D1 (de) * 2006-01-04 2010-11-18 Si Lok Verfahren zur zuordnung von nukleinsäuren und zur identifikation fein strukturierter variationen in nukleinsäuren sowie hilfsmittel dafür
US8071296B2 (en) * 2006-03-13 2011-12-06 Agency For Science, Technology And Research Nucleic acid interaction analysis
WO2007111937A1 (en) * 2006-03-23 2007-10-04 Applera Corporation Directed enrichment of genomic dna for high-throughput sequencing
US20080124707A1 (en) * 2006-06-09 2008-05-29 Agency For Science, Technology And Research Nucleic acid concatenation
KR101571027B1 (ko) * 2006-06-12 2015-11-23 이머전트 프로덕트 디벨롭먼트 시애틀, 엘엘씨 효과기 기능을 갖는 단일쇄 다가 결합 단백질
US20090148447A1 (en) * 2007-07-06 2009-06-11 Trubion Pharmaceuticals, Inc. Binding Peptides Having a C-terminally Disposed Specific Binding Domain
US9540637B2 (en) 2008-01-09 2017-01-10 Life Technologies Corporation Nucleic acid adaptors and uses thereof
WO2009089384A1 (en) 2008-01-09 2009-07-16 Life Technologies Method of making a paired tag library for nucleic acid sequencing
US8263367B2 (en) * 2008-01-25 2012-09-11 Agency For Science, Technology And Research Nucleic acid interaction analysis
WO2009123756A1 (en) * 2008-04-05 2009-10-08 Single Cell Technology, Inc. Multi-well system
WO2009126944A1 (en) * 2008-04-11 2009-10-15 Trubion Pharmaceuticals, Inc. Cd37 immunotherapeutic and combination with bifunctional chemotherapeutic thereof
WO2009137369A1 (en) * 2008-05-03 2009-11-12 Tufts Medical Center, Inc. Neonatal salivary genomics
US8362318B2 (en) * 2008-12-18 2013-01-29 Board Of Trustees Of Michigan State University Enzyme directed oil biosynthesis in microalgae
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
US8932990B2 (en) 2009-08-24 2015-01-13 National University Corporation Kanazawa University Detection of digestive organ cancer, gastric cancer, colorectal cancer, pancreatic cancer, and biliary tract cancer by gene expression profiling
WO2011082253A2 (en) 2009-12-30 2011-07-07 Board Of Trustees Of Michigan State University A method to produce acetyldiacylglycerols (ac-tags) by expression ofan acetyltransferase gene isolated from euonymus alatus (burning bush)
WO2011137368A2 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
DK2582846T3 (en) 2010-06-16 2019-02-04 Taxon Biosciences Inc COMPOSITIONS AND PROCEDURES FOR IDENTIFICATION AND MODIFICATION OF CARBON CONTAINING COMPOSITIONS
US9268903B2 (en) 2010-07-06 2016-02-23 Life Technologies Corporation Systems and methods for sequence data alignment quality assessment
US9476095B2 (en) 2011-04-15 2016-10-25 The Johns Hopkins University Safe sequencing system
CN104603291B (zh) 2012-06-22 2018-04-06 Htg分子诊断有限公司 黑素细胞病变中的分子恶性肿瘤
DK2694669T3 (en) 2012-06-28 2017-07-24 Taxon Biosciences Inc PROCEDURES FOR THE PREPARATION OR CREATION OF A SYNTHETIC MICROBIAL CONSORTIUM IDENTIFIED BY COMPUTER ANALYSIS OF AMPLICON SEQUENCES
EP3447495B2 (de) 2012-10-29 2024-03-13 The Johns Hopkins University Papanicolaou-test für ovarial- und endometriumkarzinome
US10392629B2 (en) 2014-01-17 2019-08-27 Board Of Trustees Of Michigan State University Increased caloric and nutritional content of plant biomass
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
CA2997929A1 (en) 2015-09-08 2017-03-16 Cold Spring Harbor Laboratory Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides
SG10202002577XA (en) 2015-09-21 2020-04-29 Aptevo Res & Development Llc Cd3 binding polypeptides
ES2765709T3 (es) 2015-09-29 2020-06-10 Htg Molecular Diagnostics Inc Procedimientos para subtipificar el linfoma de células B difusas (DLBCL)
CN109023536A (zh) * 2018-06-28 2018-12-18 河南师范大学 一种植物降解组文库构建方法
EP4361289A4 (de) 2022-09-05 2024-05-01 Kubix Inc. Nachweis von bauchspeicheldrüsenkrebs durch kombination des nachweises von pankreaskrebsspezifischem genexpressionsmuster und messung von cai9-9

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2036946C (en) * 1990-04-06 2001-10-16 Kenneth V. Deugau Indexing linkers
WO1993000353A1 (en) * 1991-06-20 1993-01-07 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Sequences characteristic of human gene transcription product
AU3665893A (en) * 1992-02-12 1993-09-03 United States Of America, As Represented By The Secretary, Department Of Health And Human Services, The Sequences characteristic of human gene transcription product
WO1993024655A1 (en) * 1992-05-27 1993-12-09 Amersham International Plc Rna analysis
US5840484A (en) * 1992-07-17 1998-11-24 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
US6114114A (en) * 1992-07-17 2000-09-05 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
US5756291A (en) * 1992-08-21 1998-05-26 Gilead Sciences, Inc. Aptamers specific for biomolecules and methods of making
US5652128A (en) * 1993-01-05 1997-07-29 Jarvik; Jonathan Wallace Method for producing tagged genes, transcripts, and proteins
US5459037A (en) * 1993-11-12 1995-10-17 The Scripps Research Institute Method for simultaneous identification of differentially expressed mRNAs and measurement of relative concentrations
CA2153480A1 (en) * 1993-11-12 1995-06-01 Kenichi Matsubara Gene signature
WO1995021944A1 (en) * 1994-02-14 1995-08-17 Smithkline Beecham Corporation Differentially expressed genes in healthy and diseased subjects
US5552278A (en) * 1994-04-04 1996-09-03 Spectragen, Inc. DNA sequencing by stepwise ligation and cleavage
US5866330A (en) * 1995-09-12 1999-02-02 The Johns Hopkins University School Of Medicine Method for serial analysis of gene expression
US5658736A (en) * 1996-01-16 1997-08-19 Genetics Institute, Inc. Oligonucleotide population preparation

Also Published As

Publication number Publication date
WO1997010363A1 (en) 1997-03-20
AU707846B2 (en) 1999-07-22
JP2001155035A (ja) 2001-06-08
US5866330A (en) 1999-02-02
US6746845B2 (en) 2004-06-08
EP1231284A2 (de) 2002-08-14
GB2305241B (en) 1999-11-10
GB9619024D0 (en) 1996-10-23
JP3334806B2 (ja) 2002-10-15
EP0761822A2 (de) 1997-03-12
JP2001145495A (ja) 2001-05-29
US20030049653A1 (en) 2003-03-13
US6383743B1 (en) 2002-05-07
JPH10511002A (ja) 1998-10-27
EP1231284A3 (de) 2003-02-26
EP0761822B1 (de) 2003-05-02
AU6561496A (en) 1997-03-20
ATE239093T1 (de) 2003-05-15
DK0761822T3 (da) 2003-08-18
CA2185379A1 (en) 1997-03-13
IE80465B1 (en) 1998-08-12
AU7018896A (en) 1997-04-01
DE69627768D1 (de) 2003-06-05
EP0761822A3 (de) 1998-08-05
GB2305241A (en) 1997-04-02
DE761822T1 (de) 2001-01-11
ES2194957T3 (es) 2003-12-01

Similar Documents

Publication Publication Date Title
DE69627768T2 (de) Reihenanalyse-Verfahren der Genexpression
EP0743367B1 (de) Verfahren zur Genexpressionsanalyse
DE60037584T2 (de) Auf microarrays basierende substraktive hybridisierung
DE69535428T2 (de) Verfahren zum Auffinden von differentiel exprimierte Gene
DE69734063T2 (de) Herstellung und verwendung von normalisierten dna-bibliotheken
DE69737450T2 (de) Sequenzierung durch ligation kodierter adapter
US5637685A (en) Normalized cDNA libraries
DE102008025656B4 (de) Verfahren zur quantitativen Analyse von Nukleinsäuren, Marker dafür und deren Verwendung
DE69332665T2 (de) Methode um mrna zu klonieren
DE69621507T2 (de) Verfahren zur molekularen Indexierung von Genen unter Verwendung von Restriktionsenzymen
DE69801749T2 (de) Eine methode zum klonieren von mrna und darstellung von differentiell exprimierten transcripten (dodet)
DE69011101T2 (de) Methoden zur in vitro-dna-amplifikation, zum genomischen klonieren und zur genkartierung.
DE60213803T2 (de) Happier mapping
AT502823A4 (de) Polynukleotid-amplifikation
EP1109935B1 (de) Zwei farben differential display als verfahren zur detektion regulierter gene
US6727068B2 (en) Method for non-redundant library construction
JP2002529050A (ja) 弁別的に発現されたmRNAの同時同定および相対濃度測定のための方法
DE19806431C1 (de) Neues Verfahren zur Identifikation und Charakterisierung von mRNA-Molekülen
DE69737327T2 (de) Verfahren zur identifizierung von essentiellen genen für das wachstum eines organismus
DE4332463A1 (de) Verfahren zur spezifischen Klonierung von Nukleinsäuren
DE10144132A1 (de) Identifikation und Quantifizierung von Nukleinsäuren durch Erzeugen und Analyse von Sequenz-tags einheitlicher Länge
DE60109002T2 (de) Methode zum Nachweis von transkribierten genomischen DNA-Sequenzen
WO2002046457A2 (de) Verfahren zur codierung von hybriddisierungssonden
DE10321480B4 (de) Verfahren zur Identifizierung von Zellinien
WO2001040510A2 (de) Dynamische sequenzierung durch hybridisierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition